JP3720136B2 - ピッチ輪郭を決定するためのシステムおよび方法 - Google Patents

ピッチ輪郭を決定するためのシステムおよび方法 Download PDF

Info

Publication number
JP3720136B2
JP3720136B2 JP24243596A JP24243596A JP3720136B2 JP 3720136 B2 JP3720136 B2 JP 3720136B2 JP 24243596 A JP24243596 A JP 24243596A JP 24243596 A JP24243596 A JP 24243596A JP 3720136 B2 JP3720136 B2 JP 3720136B2
Authority
JP
Japan
Prior art keywords
anchor
duration
curve
speech
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP24243596A
Other languages
English (en)
Other versions
JPH09114495A (ja
Inventor
フィリップ オリーヴ ジョセフ
ピーター ヴァンサンテン ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH09114495A publication Critical patent/JPH09114495A/ja
Application granted granted Critical
Publication of JP3720136B2 publication Critical patent/JP3720136B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、音声合成の分野、より詳細には、音声に合成されるべきテキストに対するピッチ輪郭の決定に関する。
【0002】
【従来の技術】
音声合成の分野においては、根本的な目標は、合成された音声が可能な限り人の音声に類似することである。従って、合成された音声は、適当なポーズ、抑揚、アクセント、および音節上のストレスを加えることが要求される。換言すれば、通常の入力テキストに対して人に類似する配送音声品質を提供することができる音声合成システムは、読み出された“単語(words )”を正しく発音できること、幾つかの単語を適当に強調し、他の幾つかの単語を弱めることができること、文を意味のある語句のかたまり“chunk ”に分割できること、適当なピッチ輪郭を拾い上げることができること、および、各音素セグメントあるいは音素の継続期間を確立できることが要求される。大雑把には、これらシステムは、入力テキストを、生成されるべき音素、それらの継続期間、語句境界の位置、使用されるべきピッチ輪郭等、に関する情報を含むある形式の言語的表現(linguistic representation )に変換する動作を遂行する。下地となるテキストのこの言語的表現が次に音声波形に変換される。
【0003】
【発明が解決しようとする課題】
特にピッチ輪郭パラメータに関して述べれば、合成された音声が自然に聞こえるためには、適切なイントネーション、あるいはピッチが必須であることが良く知られている。従来の技術による音声合成システムは、ピッチ輪郭を近似することは可能であったが、ただし、これらは、一般的には、模擬された音声スタイルでの品質が自然に聞こえる域には達していない。
音声シンセサイザによるテキストからの自然なイントネーション(ピッチ)輪郭の計算は、非常に複雑な過程であることが良く知られている。この複雑さに対する一つの重要な理由は、その輪郭が、強調されるべき語句としてのある高い値に到達すべきであることを指定するだけでは十分ではないためである。それ以上に、シンセサイザ過程は、ある輪郭の正確な高さおよび時間的な構造が、ある音声間隔内の音節の数、強調される音節の位置とその音節内の音素の数、および、特に、それらの継続期間および有声化特性に依存するという事実を認識し、これを扱うことが要求される。これらピッチ要因を適当に扱うことができなければ、結果として合成される音声は、要求される人に類似した音声品質を十分に近似できないことになる。
【0004】
【課題を解決するための手段】
入力テキストから局所ピッチ輪郭を自動的に計算するためのシステムおよび方法が提供されるが、本発明は、自然の音声内に見られるピッチ輪郭に近い(を良く模擬する)ピッチ輪郭を生成する。本発明の方法論は、それらの助変数が自然の音声の記録から直接に推定することができることを特徴とする助変数方程式(parameterized equations )を組み込む。この方法論は、特定のピッチ輪郭クラス(例えば、肯定/否定質問文における語尾の上昇)を例証するピッチ輪郭を、単一の底辺に横たわるピッチ輪郭の時間と周波数領域における歪みとして記述することができるという前提に基づくモデルを組み入れる。さまざまな異なるピッチ輪郭クラスに対するピッチ輪郭の本質(特徴)を確定した後に、合成音声の発声のための、自然の音声輪郭に近い(を良くモデル化する)ピッチ輪郭が予測される。これは、具体的には、異なるイントネーションクラスの個々のピッチ輪郭を総和することによって達成される。
【0005】
【実施例】
以下の説明は、一部分、コンピュータシステム内でのデータビットに関する動作のアルゴリズム的および記号的表現の観点から行なわれる。理解できるように、これらアルゴリズム的記述および記号的表現は、コンピュータ処理分野の熟練者によって、この分野の熟練者である他の者に彼らの研究の要旨(内容)を伝えるために使用される通常の手段である。
【0006】
ここで(および一般的に)使用されるアルゴリズムという言葉は、ある要望される結果へと導くための完結した一連のステップであるとみることができる。これらステップは、通常、物理的な量の操作を伴い、通常は、必須ではないが、これら物理的な量は、記憶、転送、結合、比較、その他の操作が可能な電気的あるいは磁気的な信号の形式をとる。参照の目的、並びに、一般的な使用に適合させるために、これら信号は、しばしば、ビット、値、要素、シンボル、文字、項、数、その他、の観点から説明される。ただし、これらおよび類似する用語は、適当な物理量と関連されるべきものであり、これら用語は、単に、これら量を表すために使用される便宜的なラベルであることを強調されるべきである。
また、動作の方法と、コンピュータを動作すること、あるいは、計算自身の方法との間の区別をすることが重要である。本発明は、コンピュータを動作するための方法、つまり、コンピュータを使用して、電気的あるいは他の(例えば、機械的、化学的な)物理信号を処理して、別の要望される物理信号を生成するための方法に関する。
【0007】
説明を明快にするために、本発明の実施例は、個々の機能ブロック(“プロセッサ”とラベルされる機能ブロックを含む)から成るものとして説明される。これらブロックが表す機能は、共有のあるいは専用のハードウエアの使用を通じて提供されるが、これらハードウエアには、これらに限定されるものではないが、ソフトウエアを実行する能力を持つハードウエアが含まれる。例えば、図 に示されるプロセッサの機能は、単一の共有のプロセッサによって提供される。(ここで、“プロセッサ”という用語の使用は、ソフトウエアを実行する能力を持つハードウエアを排他的に意味するものではないものと解釈されるべきである)。
【0008】
一例としての実施例には、マイクロプロセッサおよび/あるいはデジタル信号プロセッサ(DSP)なるハードウエア、例えば、AT&T DSP16あるいはDSP32C、後に説明される動作を遂行するためのソフトウエアを格納するための読出専用メモリ(ROM)、および結果を格納するためのランダムアクセスメモリ(RAM)が含まれる。大規模集積(VLSI)ハードウエアによる実施例、並びに、カスタムVLSI回路を汎用DSP回路と組み合わせて使用する実施例を提供することも可能である。
【0009】
テキストから音声への合成システム(TTS合成システム)においては、主要な目的は、テキストを、言語的表現(linguistic representation )の形式に変換することにある。ここで、この言語的表現は、通常は、生成されるべき音声セグメント(あるいは音素)、そのセグメントの継続期間、語句境界の位置、および使用されるべきピッチ輪郭(pitch contour )、に関する情報を含む。いったんこの言語的表現が決定されると、シンセサイザは、この情報を音声波形に変換する。本発明は、テキストから変換される言語的表現のうちの、特に、ピッチ輪郭の部分に関する。より詳細には、ピッチ輪郭を決定するための新規のアプローチに関する。しかしながら、この方法論について説明する前に、TTS合成システムの動作の簡単な説明をすることが本発明のより完全な理解を助けるものと信じる。
【0010】
TTSシステムの一つの実施例として、ここでは、AT&T Bell Laboratoriesによって開発され、Sproat、Richard W.およびOlive、Joseph P.によって、1995.“Text-to-Speech Synthesis”、AT&T Technical Journal,74(2),35-44. において説明されているTTSシステムについて簡単に説明する。このAT&T TTSシステムは、これは、音声合成システムの現在の技術水準を代表するものと信じられるが、モジューラシステムである。AT&T TTSシステムのこのモジューラ構成が図1に示される。これらモジュールのおのおのは、テキストから音声への変換の問題の一部分に対する責務を持つ。動作において、個々のモジュールが、これら(テキスト)構造を、一度に、1テキスト増分だけ読み込み、この入力に関してある処理を遂行し、次に、この構造を次のモジュールに対して書き出す。
【0011】
この一例としてのTTSシステム内のおのおののモジュールによって遂行される機能の詳細な説明はここでは必要でないが、ただし、TTS動作の一般的な機能の説明は有益である。この目的のために、TTSシステム、例えば、図1のシステムのより一般化された図である図2を参照されたい。図2に示されるように、最初に、入力テキストが、テキスト/音響分析機能1によって処理される。この機能は、本質的には、入力テキストを、そのテキストの言語的表現に変換することから成る。このテキスト分析における最初のステップは、入力テキストを、その後の処理のために、適当なチャンク(かたまり)に分割することから成るが、これらチャンクは、通常は、文(sentences )に対応する。次に、これらチャンクが、さらに、トークンに分解されるが、これらトークンは、通常は、特定のチャンクを構成する文内の単語(words )に対応する。テキストのさらなる処理には、合成されるべきトークンに対する音素の識別、テキストを構成する様々な音節および単語上に置かれるべきストレスの決定、テキストに対する語句境界の位置、および合成される音声内の各音素の継続期間の決定が含まれる。他の一般的にはさほど重要でない機能も、このテキスト/音響分析機能の中に含めることができるが、ただし、これらに関しては、ここでさらに説明する必要はないと考える。
【0012】
テキスト/音響分析機能による処理の後に、図2のシステムは、イントネーション分析5として示される機能を遂行する。本発明の方法論によって遂行されるこの機能は、合成される音声と関連されるべきピッチを決定する。この機能の結果として(最終的な積の値として)、考慮下の音声セグメントに対して、F0 輪郭とも呼ばれるピッチ輪郭が、前に計算された他の音声パラメータとの関連で使用するために生成される。
【0013】
図2の最後の機能要素である音声生成機能10は、先行する機能によって生成されたデータおよび/あるいはパラメータ、より具体的には、音素およびそれらと関連する継続期間、並びに基本周波数の(ピッチ)輪郭F0 、に関して動作し、音声に合成されるべきテキストに対応する音声波形を生成する。
周知のように、音声合成において、人に類似する音声波形を達成するためには、イントネーションを適当に加えることが非常に重要である。イントネーションは、幾つかの単語を強調し、他の幾つかは弱める働きを持つ。これは、話される特定の単語あるいは語句に対するF0 曲線内に反映されるが、この曲線は、典型的には、強調されべき単語あるいはその一部分に対して相対的に高いポイントを持ち、弱められるべき部分に対しては相対的に低いポイントを持つ。肉声の場合は、適当なイントネーションが“自然”に加えられるが(勿論、これは、実際には、話者による音声の形式および文法規則に関する莫大な量の先験的な知識に基づく処理の結果として達成されるものであるが)、音声合成器にとっての挑戦は、入力された音声に合成されるべき単語あるいは語句のテキストのみに基づいて、このF0 曲線を計算することにある。
【0014】
I.好ましい実施例の説明
A.本発明の方法論
本発明の方法論に対する一般的な枠組みは、先にFujisaki[Fujisaki、H.、“ A note on the physiological and physical basis for the phrase and accent components in the voice fundamental frequency contour"、In:Vocal physiology:voice production,mechanisms and functions,Fujimura(Ed.)、New York、Raven、1988]によって確立された、高度なピッチ輪郭を、二つのタイプの要素の曲線、つまり、(1)語句曲線、と(2)一つあるいは複数のアクセント曲線、との総和として記述することができるという原理から開始される(ここで、“総和(sum)”という用語は、一般化された加算として理解されるべきであり(Krantz et al,Foundations of Measurement,Academic Press,1971 を参照)、標準の加算以上の多くの数学的操作を含む)。ただし、Fujisakiのモデルにおいては、これら語句曲線およびアクセント曲線は、非常に制限的な式によって与えられる。加えて、Fujisakiのアクセント曲線は、音節、ストレスグループ等、とは結びつけられておらず、このために、言語的表現からのアクセント曲線の計算を詳細に記述するのは困難である。
【0015】
これらの制約が、ある程度まで、Mobius[Mobius,B.,Patzold,M.and Hess,W.,“Analysis and synthesis of German F0 contours by means of Fujisaki's model, Speech Communication,13,1993 ]の研究によって解決されるが、この研究の中で、彼は、アクセント曲線をアクセントグループと結びつけることが可能であることを示した。ここでは、アクセントグループは、第一に、辞書的に強調が置かれ、かつ、第二に、それ自身にアクセントが付けられる(つまり、それ自身が強調される)単語の一部分である音節から始まり、これら両方の条件を満たす次の音節へと続く。このモデルの下では、各アクセント曲線は、ある意味においては、アクセントグループと時間的に整合される。ただし、Mobiusのアクセント曲線は、アクセントグループの内部的な時間構造とは、原理的には、整合されていない。加えて、Mobiusのモデルは、語句およびアクセント曲線に対する式が非常に制限的であるというFujisakiの制約を引き継ぐ。
【0016】
本発明の方法論は、これらの背景原理を開始点として使用して、これら従来の技術によるモデルの制約を克服し、自然な音声輪郭を良くモデル化する(自然な音声に近い)合成音声の発声のためのピッチ輪郭の計算を可能にする。
本発明の方法論を使用することの本質的な目標は、適当なアクセント曲線を生成することにある。このプロセスへの主要な入力は、考慮下のアクセントグループ内の複数の音素と(これらアクセントグループを構成するテキストは上に定義されたMobiusの規則あるいはこの規則の変形に従って決定される)、これら各音素の継続期間である。これらパラメータの各々は、TTSの先行するモジュール内で、周知の方法によって生成される。
【0017】
後により詳細に説明されるように、本発明の方法によって計算されるこのアクセント曲線が、その期間に対する語句曲線(phrase curve)に加えられ、この結果として、F0 曲線が生成される。従って、予備的なステップとして、この語句曲線を生成することが要求される。この語句曲線、典型的には、非常に少数のポイント、例えば、語句の開始点、最後のアクセントグループの開始点、および最後のアクセントグループの終端点に対応する3つのポイントの間の挿間によって計算される。これらポイントのF0 値は、語句タイプによって異なる(例えば、肯定−否定文の語句と平叙文の語句とでは異なる)。
【0018】
特定のアクセントグループに対するアクセント曲線の生成のプロセスの第一のステップとして、幾つかのクリティカルな間隔の継続期間がそれらの各間隔内の音素の継続期間に基づいて計算される。一つの好ましい実施例においては、3つのクリティカルな間隔の継続期間が計算されるが、ただし、当業者においては、これと少しあるいはかなり異なる数の間隔を使用することもできることを理解できるものである。好ましい実施例においては、これらクリティカルな間隔は以下のように定義される:
1 アクセントグループの第一の音節内の最初の子音に対する総継続期間
2 最初の音節の残りの部分内の音素の継続期間
3 アクセントグループの最初の音節の後の残りの部分内の音素の継続期間
【0019】
これらD1 、D2 、およびD3 の総和は、概ね、そのアクセントグループ内の複数の音素の継続期間の総和に等しいが、ただし、このことは、常に当てはまるとはいえない。例えば、間隔D3 を、決してある所定の値を超えることのない新たなD3'に変換することも考えられる。この場合は、間隔D2 内の音素の継続期間の総和がこの任意の値を超えた場合は、D3'は、この任意の値に切捨てられる。
本発明のアクセント曲線を生成するためのプロセスにおける次のステップは、アンカータイムと呼ばれる一連の値を計算することから成る。i番目のアンカータイムは、以下の式に従って決定される:
【数3】
Figure 0003720136
ここで、D1 、D2 、およびD3 は、上に定義されたクリティカルな間隔期間であり、α、β、およびγは、整合パラメータ(後に説明)であり、iは、考慮下のアンカータイムに対するインデックスであり、cは、そのアクセントグループの音素クラスを指す。この音素クラスの一例としては、無音の句点から始まるアクセントグループがある。より詳細には、あるアクセントグループの音素クラスcは、そのアクセントグループ内の幾つかの音素の分類の観点から、より詳細には、その音素が、そのアクセントグループの開始の所にあるか、あるいは終端の所にあるかの観点から定義される。換言すれば、音素クラスcは、整合パラメータα、β、およびγと、そのアクセントグループ内のそれら音素との間の依存関係を表す。
【0020】
これら整合パラメータα、β、およびγが、事前に、(実際の音声データから)複数の音素クラスに対して決定され、さらに、これらクラス内の、現在使用されるモデルに依存する(使用されるモデルを特性化する)各アンカータイムの継続期間に対して決定される。例えば、ピークの両側における(語句曲線を引いた後の)F0 曲線のピーク高さの5、20、50、80、および90パーセントの所のアンカータイム期間に対して決定される。これらパラメータを決定するための手続きを説明するために、この手続きが、上昇−下降−上昇タイプのアクセントグループに適用された場合について以下に説明される。つまり、適当に記録された音声に対して、F0 が計算され、クリティカルな間隔期間が示される。このアクセントタイプに対して適当な音声においては、目標とされるアクセントグループは、単一ピークを持つ局所曲線と概ね一致する。次に、この目標とされるアクセントグループを構成する時間期間[t0 、t1 ]に対して、曲線(局所推定語句曲線(Locally Estimated Phrase Curve))が点[t0 、F0 (t0 )]と点[t1 、F0 (t1 )]の間で描かれる;典型的には、この曲線は直線であり、線形あるいは対数周波数領域内のいずれかにある。次に、F0 曲線からこの局所推定語句曲線を引くことによって、残留曲線(推定アクセント曲線(Estimated Accent Curve)が得られるが、これは、この特定のアクセントタイプに対しては、時間=t0 における0の値から始まり、時間t1 における0の値にて終わる。アンカータイムは、この推定アクセント曲線がピークの高さから与えられたパーセントの所にある時間上のポイントに対応する。
【0021】
他のアクセントタイプ(例えば、肯定否定の質問の終端における鋭い上昇)に対しては、本質的には同一の手続きが、これら局所推定語句曲線および推定アクセント曲線の計算に若干の修正を加えて適用される。単純な線形回帰を遂行することによって、これら継続期間からアンカータイムが予測されるが、これら回帰係数が整合パラメータに対応する。これら整合パラメータ値が、次に、検索テーブル内に格納され、その後、このテーブルから、式(1)を使用して各アンカータイムTi を計算するために使用されるべきαic、βicおよびγicの特定の値が決定される。
【0022】
あるアクセントグループを横断してのアンカータイムの数を定義する時間間隔iの数Nは、多分に、任意に、決めることができることに注意する。本出願人は、本発明の方法を、一つのケースにおいては、アクセントグループ当たりN=9のアンカーポイントを使用し、もう一つのケースにおいては、N=14のアンカーポイントを使用して実現したが、両方において良い結果が得られた。
【0023】
本発明の方法の第三のステップは、図3を参照することによって最も良く説明することができるが、これは、x−y軸上に以下の説明に従って描かれる曲線を示す。x軸は時間を表し、そのアクセントグループ内の全ての音素の継続期間がこの時間軸に沿ってプロットされる。一方、y軸は、0時間で交差し、そのアクセントグループの開始に対応する。そして、ここでは、一例として250msとして示される所の最後にプロットされたポイントは、そのアクセントグループの終端ポイント、つまり、そのアクセントグループの最後の音素の終端を表す。さらに、この時間軸上には、前のステップにおいて計算されたアンカータイムがプロットされる。この一例としての実施例に対しては、計算されるアンカータイムの数は、9であるものと想定され、このために、図3に示されるこれらアンカータイムは、T1 、T2 、...T9 として示される。計算された各アンカーポイントに対して、それらアンカーポイントに対応するアンカー値Vi が検索テーブルから得られ、図3のグラフ上の関連するアンカータイムに対応するx座標およびそのアンカー値に対応するy座標の所にプロットされる。これらアンカー値は、説明の目的上、y軸上に、0から1単位の範囲を持つ。次に、曲線が図3にプロットされたVi ポイントを通るように引かれ、周知の挿間技法を使用して挿間される。
【0024】
この検索テーブル内のこれらアンカー値は、自然の音声から、以下の方法によって計算される。つまり、自然音声からの多数のアクセント曲線が、これは、F0 曲線から局所推定語句曲線を引くことによって得られるが、平均され、こうして平均されたアクセント曲線が、次にy軸値が0から1の間に来るように正規化される。次に、こうして正規化された曲線のx軸に沿っう(好ましくは等間隔に取られた)複数のポイント(この数は、選択されたモデル内のアンカーポイントの数に対応する)に対して、アンカー値が、こうして正規化されたアクセント曲線から読み出され、検索テーブル内に格納される。
【0025】
本発明のプロセスの第四のステップにおいては、前のステップにおいて決定された、挿間および平滑化されたアンカー値(vi )曲線に対して、以下に説明する数値定数の掛算が行なわれる。(ここで、この掛算は、一般化された掛算(Krantzらを参照)であり、標準の掛算以上の多くの数学的演算を含むものと理解されたい)。こうして掛けられる数値定数は、言語的要因(ファクター)、例えば、そのアクセントグループの優位性の程度、あるいは、文内のアクセントグループの位置などを反映する。当業者には明らかなように、こうして得られる積の曲線は、Vi 曲線のそれと同一の一般形状を持つが、ただし、y値が全て、掛けられた数値定数だけスケールアップされるた。こうして得られた積の曲線が、再度、語句曲線に加え戻され、考慮下のアクセントグループに対するF0 曲線として使用されるが、(全ての他の積の曲線が同様にして加えられたとき)、これは、従来の技術によるF0 輪郭を計算するための方法よりも、自然音声に近い類似性を提供する。
【0026】
ただし、上のステップにおいて計算されたF0 輪郭は、上のステップにおいて計算された積の曲線に適当な妨害摂動曲線(obstruent perturbation curves )を追加することによって、さらに向上させることができる。自然なピッチ曲線に対する摂動(動揺)として、母音に先行する子音が、妨害物として重要であることが知られている。本発明の方法においては、各妨害物としての子音に対する摂動パラメータが自然の音声から決定され、これらセットのパラメータが、検索テーブル内に格納される。そして、アクセントグループ内の妨害子音に遭遇したときに、その妨害子音に対する摂動パラメータがテーブルから検索され、格納されているプロトタイプの摂動曲線が掛けられ、次に、これが前のステップにおいて計算された曲線に加えられる。これらプロトタイプの摂動曲線は、図4の左パネル内に示されるように、アクセントを持たない音節内の母音に先行するさまざまなタイプの子音に対するF0 曲線の比較によって得ることができる。
TTSシステムの次の動作において、前述の方法論に従って計算されたF0 曲線が、前に計算された継続期間および他の要因と結合され、TTSシステムは、最終的に、こうして集められた全ての言語的情報を使用して、音声波形を生成する。
【0027】
B.本発明のTTS実現
図5は、本発明のTTSシステムの背景での一例としての用途を示す。図からわかるように、入力テキストが、最初に、テキスト分析モジュール10によって処理され、次に、音響分析モジュール20によって処理される。これら二つのモジュールは、これらは任意の周知の実現であり得るが、一般的には、入力テキストをそのテキストの言語的表現に変換する動作を行い、図2との関連で前に説明されたテキスト/音響分析機能に対応する。音響分析モジュール20の出力が次に、イントネーションモジュール30に提供されるが、このモジュールは、本発明に従って動作する。より詳細には、クリティカル間隔プロセッサ31によって、前のモジュールから受信された前処理されたテキストに対するアクセントグループが確立(選択)され、各アクセントグループが複数のクリティカルな間隔に分割される。次に、アンカータイムプロセッサ32によって、これらのクリティカル間隔およびこれらの継続期間を使用してセットの整合パラメータが決定され、これらクリティカル間隔の継続期間とこれら整合パラメータとの間の関係を使用して、一連のアンカータイムが計算される。曲線生成プロセッサ33が、こうして計算されたこれらアンカータイムを受け取り、前に生成された検索テーブルから対応するセットのアンカー値の決定を行い、次に、これらアンカー値を、x軸に沿って配列される各アンカータイム値に対応するy軸値としてプロットする。
【0028】
次に、こうしてプロットされたアンカー値から曲線が生成される。次に、曲線生成プロセッサ33によって、こうして生成された曲線に、様々な言語的要因を表す一つあるいは複数の数値定数が掛られる。分析下の音声セグメントに対するアクセント曲線を表すこうして得られた積の曲線が、次に、曲線生成プロセッサ33によって、前に計算された語句曲線に加えられ、結果として、その音声セグメントに対するF0 曲線が生成される。クリティカル間隔プロセッサ31、アンカータイムプロセッサ32および曲線生成プロセッサ33に対して説明された処理と関連して、妨害摂動プロセッサ33によって、オプションの平行処理を遂行することも考えられる。このプロセッサは、妨害子音に対する摂動パラメータの決定および格納を行い、さらに、イントネーションモジュール30によって処理されている音声セグメント内に出現する各妨害子音に対して、これら格納されたパラメータから妨害摂動曲線を生成する。こうして生成された妨害摂動曲線が入力として総和プロセッサ40に供給され、総和プロセッサ40は、これら妨害摂動曲線を、時間的に適当なポイントにおいて、曲線生成プロセッサ33によって生成された曲線に加える。イントネーションモジュール30によってこうして生成されたイントネーション輪郭が、次に、前のモジュールによって生成された入力テキストの他の言語的表現と結合され、他のTTSモジュールによるその後の処理のために供給される。
【0029】
結論
テキスト入力から自動的に局所ピッチ輪郭を計算するための新規のシステムおよび方法が開示されるが、こうして計算されるピッチ輪郭は、自然の音声にみられるピッチ輪郭とよく一致する(を良く模擬する)。従って、本発明は、音声合成システムにおける大きな向上を意味する。より具体的には、本発明は、従来の技術による方法によっては達成不能な、音声合成のためのより自然な音響ピッチを提供する。
本発明の現時点での実施例が詳細に説明されたが、本発明の精神および範囲から逸脱することなしに、様々な変更、代替、置換が可能であり、本発明は、特許請求の範囲によってのみ定義されることを理解されるものである。
【図面の簡単な説明】
【図1】テキストから音声への合成システムの要素を機能図の形式にて示す。
【図2】本発明の寄与を強調するために構成された一般TTSシステムをブロック図の形式にて示す。
【図3】本発明のピッチ輪郭生成過程をグラフ形式にて示す。
【図4】アクセントを弱くされた摂動曲線と、アクセントを置かれた摂動曲線を示す。
【図5】本発明のTTSシステムの背景内での実現をブロック図にて示す。

Claims (10)

  1. 予め定められた継続期間を有する音声区間について音響的輪郭を決定するための方法であって、
    該音声区間の該継続期間を、複数のクリティカルな区間に分割するステップであって、該クリティカルな区間のそれぞれの継続期間が、該音声区間内の音素の継続期間の関数として求められるものであるステップと、
    該音声区間の継続期間内で、該複数のクリティカルな区間の継続期間の関数である複数のアンカータイムを決定するステップであって、該継続期間が対応する整列パラメータにより修正されるようになっているステップと、
    該アンカータイムの各々について、検索テーブルから対応するアンカー値を見つけるステップと、
    該アンカー値の各々を、該対応するアンカータイムを横軸としてもつデカルト座標系内の縦軸として表わすステップと、
    該アンカー値のデカルト表現に曲線を当てはめるステップと、
    該当てはめられた曲線に言語的要因に関連する少なくとも1つの予め定められた数値定数を掛算して、積の曲線を生成するステップと、を含むことを特徴とする方法。
  2. 予め定められた継続期間を有する音声区間について音響的輪郭を決定するための方法であって、
    該音声区間の該継続期間を複数のクリティカルな区間に分割するステップと、
    該音声区間の継続期間内で該複数のクリティカルな区間の継続期間の関数として求められる複数のアンカータイムを決定するステップであって、該継続期間が対応する整列パラメータにて修正されるようになっているステップと、
    該アンカータイムの各々について、検索テーブルから対応するアンカー値を見つけるステップと、
    該アンカー値の各々を、該対応するアンカータイムを横軸としてもつデカルト座標系内の縦軸として表わすステップと、
    該アンカー値のデカルト表現に曲線を当てはめるステップと、
    該当てはめられた曲線に言語的要因に関係する少なくとも1つの予め定められた数値定数を掛けて、積の曲線を生成するステップと、を含み
    該複数のクリティカルな区間は、3つのクリティカルな区間、即ち該音声区間の第1の音節中の最初の子音の区間に対応するDと呼ぶ第1の区間、該第1の音節の残りの部分中の音素の継続期間に対応するDと呼ぶ第2の区間、および該第1の音節の後の該音声区間の残りの部分中の音素の継続期間に対応するDと呼ぶ第3の区間を含むものである、ことを特徴とする方法。
  3. 請求項2に記載の音響的輪郭を決定する方法において、
    該アンカータイムが、α、β、およびγを整列パラメータとし、iを考慮下のアンカータイムの係数とし、およびcを該音声区間の音素クラスを指すものとして、次式に従って求められる
    Figure 0003720136
    ものである方法。
  4. 請求項1又は3に記載の音響的輪郭を決定する方法において、
    該整列パラメータが、複数の音素クラスについての、および該クラスの各々内の該複数のアンカータイムの各々についての実際の音声データから決定されるものである方法。
  5. 請求項1又は2に記載の音響的輪郭を決定する方法において、さらに
    該積の曲線に該音声区間中の母音に先行する子音に対応する少なくとも1つの妨害摂動曲線を加えるステップを含む方法。
  6. 予め定められた継続期間を有する音声区間について音響的輪郭を決定するためのシステムにおいて、
    該音声区間の該継続期間を複数のクリティカルな区間に分割する処理手段であって、該クリティカルな区間のそれぞれの継続期間が、該音声区間内の音素の継続期間の関数として求められるものである処理手段と、
    該音声区間内の複数のアンカータイムを該複数のクリティカルな区間の継続期間の関数として決定する処理手段であって、該継続期間が対応する整列パラメータにより修正されるようになっている処理手段と、
    該アンカータイムの各々に対応する、記憶手段に記憶されているアンカー値を見つけ、該アンカー値の各々を、該対応するアンカータイムを横軸としてもつデカルト座標系内の縦軸として表わし、および該アンカー値のデカルト表現に曲線を当てはめるための手段と、
    該当てはめられた曲線に言語的要因に関連する少なくとも1つの予め定められた数値定数を掛算して、積の曲線を生成する手段と、を含むことを特徴とするシステム。
  7. 予め定められた継続期間を有する音声区間について音響的輪郭を決定するためのシステムであって、
    該音声区間の該継続期間を、複数のクリティカルな区間に分割する処理手段と、
    該音声区間内継続期間内で、該複数のクリティカルな区間の継続期間の関数として求められる複数のアンカータイムを決定する処理手段であって、該継続期間が対応する整列パラメータにて修正されるようになっている処理手段と、
    該アンカータイムの各々に対応する、記憶手段に記憶されているアンカー値を見つけ、該アンカー値の各々を、該対応するアンカータイムを横軸としてもつデカルト座標系内の縦軸として表わし、および該アンカー値のデカルト表現に曲線を当てはめる手段と、
    該当てはめられた曲線に言語的要因に関連する少なくとも1つの予め定められた数値定数を掛算して、積の曲線を生成する手段と、を含み、
    該複数のクリティカルな区間は、3つのクリティカルな区間、即ち該音声区間の第1の音節中の最初の子音の区間に対応するDと呼ぶ第1の区間、該第1の音節の残りの部分中の音素の継続期間に対応するDと呼ぶ第2の区間、および該第1の音節の後の該音声区間の残りの部分中の音素の継続期間に対応するDと呼ぶ第3の区間を含むものである、ことを特徴とするシステム。
  8. 請求項7に記載の音響的輪郭を決定するシステムにおいて、
    該アンカータイムが、α、β、およびγを整列パラメータとし、iを考慮下のアンカータイムの係数とし、およびcを該音声区間の音素クラスを指すものとして、次式に従って求められる
    Figure 0003720136
    ものであるシステム。
  9. 請求項6又は8に記載の音響的輪郭を決定するシステムにおいて、
    該整列パラメータが、複数の音素クラスについての、および該クラスの各々内の該複数のアンカータイムの各々についての実際の音声データから決定されるものであるシステム。
  10. 請求項6又は7に記載の音響的輪郭を決定するシステムにおいて、さらに
    該音声区間中の母音に先行する子音に対応する妨害摂動曲線を発生し、および該発生された妨害摂動曲線の少なくとも1つを該積の曲線に加えるための処理手段を含むシステム。
JP24243596A 1995-09-15 1996-09-13 ピッチ輪郭を決定するためのシステムおよび方法 Expired - Lifetime JP3720136B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/528576 1995-09-15
US08/528,576 US5790978A (en) 1995-09-15 1995-09-15 System and method for determining pitch contours

Publications (2)

Publication Number Publication Date
JPH09114495A JPH09114495A (ja) 1997-05-02
JP3720136B2 true JP3720136B2 (ja) 2005-11-24

Family

ID=24106259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24243596A Expired - Lifetime JP3720136B2 (ja) 1995-09-15 1996-09-13 ピッチ輪郭を決定するためのシステムおよび方法

Country Status (5)

Country Link
US (1) US5790978A (ja)
EP (1) EP0763814B1 (ja)
JP (1) JP3720136B2 (ja)
CA (1) CA2181000C (ja)
DE (1) DE69617581T2 (ja)

Families Citing this family (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251314B2 (en) * 1994-10-18 2007-07-31 Lucent Technologies Voice message transfer between a sender and a receiver
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6418405B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
US7478047B2 (en) * 2000-11-03 2009-01-13 Zoesis, Inc. Interactive character system
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6625576B2 (en) 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
US7200558B2 (en) * 2001-03-08 2007-04-03 Matsushita Electric Industrial Co., Ltd. Prosody generating device, prosody generating method, and program
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
GB2392358A (en) * 2002-08-02 2004-02-25 Rhetorical Systems Ltd Method and apparatus for smoothing fundamental frequency discontinuities across synthesized speech segments
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7542903B2 (en) 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US20120197643A1 (en) * 2011-01-27 2012-08-02 General Motors Llc Mapping obstruent speech energy to lower frequencies
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN104282300A (zh) * 2013-07-05 2015-01-14 中国移动通信集团公司 一种非周期成分音节模型建立、及语音合成的方法和设备
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797930A (en) * 1983-11-03 1989-01-10 Texas Instruments Incorporated constructed syllable pitch patterns from phonological linguistic unit string data
US4695962A (en) * 1983-11-03 1987-09-22 Texas Instruments Incorporated Speaking apparatus having differing speech modes for word and phrase synthesis
US4908867A (en) * 1987-11-19 1990-03-13 British Telecommunications Public Limited Company Speech synthesis
US5212731A (en) * 1990-09-17 1993-05-18 Matsushita Electric Industrial Co. Ltd. Apparatus for providing sentence-final accents in synthesized american english speech
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus

Also Published As

Publication number Publication date
JPH09114495A (ja) 1997-05-02
DE69617581T2 (de) 2002-08-01
US5790978A (en) 1998-08-04
CA2181000A1 (en) 1997-03-16
EP0763814A3 (en) 1998-06-03
EP0763814A2 (en) 1997-03-19
EP0763814B1 (en) 2001-12-05
CA2181000C (en) 2001-10-30
DE69617581D1 (de) 2002-01-17

Similar Documents

Publication Publication Date Title
JP3720136B2 (ja) ピッチ輪郭を決定するためのシステムおよび方法
US6785652B2 (en) Method and apparatus for improved duration modeling of phonemes
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
GB2433150A (en) Prosodic labelling of speech
US20170345412A1 (en) Speech processing device, speech processing method, and recording medium
US9401138B2 (en) Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
Mittrapiyanuruk et al. Improving naturalness of Thai text-to-speech synthesis by prosodic rule.
JPH0580791A (ja) 音声規則合成装置および方法
JP3270668B2 (ja) テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置
Adeyemo et al. Development and integration of Text to Speech Usability Interface for Visually Impaired Users in Yoruba language.
JP2001100777A (ja) 音声合成方法及び装置
JP3485586B2 (ja) 音声合成方法
Morton Adding emotion to synthetic speech dialogue systems
JP2995814B2 (ja) 音声合成方法
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Khalil et al. Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK
Butler et al. Articulatory constraints on vocal tract area functions and their acoustic implications
JPH09198073A (ja) 音声合成装置
May et al. Speech synthesis using allophones
Wu et al. Development of hmm-based malay text-to-speech system
Co et al. Prosody modification in Filipino speech synthesis using dynamic time warping
Swart Prosodic features of imperatives in Xhosa: implications for a text-to-speech system
Görmez Implementation of a text-to-speech system with machine learning algorithms in Turkish
Randolph et al. Synthesis of continuous speech by concatenation of isolated words

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20031210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040310

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050117

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050415

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050907

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100916

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110916

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110916

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120916

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120916

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130916

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term