JP3720136B2 - ピッチ輪郭を決定するためのシステムおよび方法 - Google Patents
ピッチ輪郭を決定するためのシステムおよび方法 Download PDFInfo
- Publication number
- JP3720136B2 JP3720136B2 JP24243596A JP24243596A JP3720136B2 JP 3720136 B2 JP3720136 B2 JP 3720136B2 JP 24243596 A JP24243596 A JP 24243596A JP 24243596 A JP24243596 A JP 24243596A JP 3720136 B2 JP3720136 B2 JP 3720136B2
- Authority
- JP
- Japan
- Prior art keywords
- anchor
- duration
- curve
- speech
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000012545 processing Methods 0.000 claims description 16
- 239000011295 pitch Substances 0.000 description 31
- 230000006870 function Effects 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000557626 Corvus corax Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000011306 natural pitch Substances 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【産業上の利用分野】
本発明は、音声合成の分野、より詳細には、音声に合成されるべきテキストに対するピッチ輪郭の決定に関する。
【0002】
【従来の技術】
音声合成の分野においては、根本的な目標は、合成された音声が可能な限り人の音声に類似することである。従って、合成された音声は、適当なポーズ、抑揚、アクセント、および音節上のストレスを加えることが要求される。換言すれば、通常の入力テキストに対して人に類似する配送音声品質を提供することができる音声合成システムは、読み出された“単語(words )”を正しく発音できること、幾つかの単語を適当に強調し、他の幾つかの単語を弱めることができること、文を意味のある語句のかたまり“chunk ”に分割できること、適当なピッチ輪郭を拾い上げることができること、および、各音素セグメントあるいは音素の継続期間を確立できることが要求される。大雑把には、これらシステムは、入力テキストを、生成されるべき音素、それらの継続期間、語句境界の位置、使用されるべきピッチ輪郭等、に関する情報を含むある形式の言語的表現(linguistic representation )に変換する動作を遂行する。下地となるテキストのこの言語的表現が次に音声波形に変換される。
【0003】
【発明が解決しようとする課題】
特にピッチ輪郭パラメータに関して述べれば、合成された音声が自然に聞こえるためには、適切なイントネーション、あるいはピッチが必須であることが良く知られている。従来の技術による音声合成システムは、ピッチ輪郭を近似することは可能であったが、ただし、これらは、一般的には、模擬された音声スタイルでの品質が自然に聞こえる域には達していない。
音声シンセサイザによるテキストからの自然なイントネーション(ピッチ)輪郭の計算は、非常に複雑な過程であることが良く知られている。この複雑さに対する一つの重要な理由は、その輪郭が、強調されるべき語句としてのある高い値に到達すべきであることを指定するだけでは十分ではないためである。それ以上に、シンセサイザ過程は、ある輪郭の正確な高さおよび時間的な構造が、ある音声間隔内の音節の数、強調される音節の位置とその音節内の音素の数、および、特に、それらの継続期間および有声化特性に依存するという事実を認識し、これを扱うことが要求される。これらピッチ要因を適当に扱うことができなければ、結果として合成される音声は、要求される人に類似した音声品質を十分に近似できないことになる。
【0004】
【課題を解決するための手段】
入力テキストから局所ピッチ輪郭を自動的に計算するためのシステムおよび方法が提供されるが、本発明は、自然の音声内に見られるピッチ輪郭に近い(を良く模擬する)ピッチ輪郭を生成する。本発明の方法論は、それらの助変数が自然の音声の記録から直接に推定することができることを特徴とする助変数方程式(parameterized equations )を組み込む。この方法論は、特定のピッチ輪郭クラス(例えば、肯定/否定質問文における語尾の上昇)を例証するピッチ輪郭を、単一の底辺に横たわるピッチ輪郭の時間と周波数領域における歪みとして記述することができるという前提に基づくモデルを組み入れる。さまざまな異なるピッチ輪郭クラスに対するピッチ輪郭の本質(特徴)を確定した後に、合成音声の発声のための、自然の音声輪郭に近い(を良くモデル化する)ピッチ輪郭が予測される。これは、具体的には、異なるイントネーションクラスの個々のピッチ輪郭を総和することによって達成される。
【0005】
【実施例】
以下の説明は、一部分、コンピュータシステム内でのデータビットに関する動作のアルゴリズム的および記号的表現の観点から行なわれる。理解できるように、これらアルゴリズム的記述および記号的表現は、コンピュータ処理分野の熟練者によって、この分野の熟練者である他の者に彼らの研究の要旨(内容)を伝えるために使用される通常の手段である。
【0006】
ここで(および一般的に)使用されるアルゴリズムという言葉は、ある要望される結果へと導くための完結した一連のステップであるとみることができる。これらステップは、通常、物理的な量の操作を伴い、通常は、必須ではないが、これら物理的な量は、記憶、転送、結合、比較、その他の操作が可能な電気的あるいは磁気的な信号の形式をとる。参照の目的、並びに、一般的な使用に適合させるために、これら信号は、しばしば、ビット、値、要素、シンボル、文字、項、数、その他、の観点から説明される。ただし、これらおよび類似する用語は、適当な物理量と関連されるべきものであり、これら用語は、単に、これら量を表すために使用される便宜的なラベルであることを強調されるべきである。
また、動作の方法と、コンピュータを動作すること、あるいは、計算自身の方法との間の区別をすることが重要である。本発明は、コンピュータを動作するための方法、つまり、コンピュータを使用して、電気的あるいは他の(例えば、機械的、化学的な)物理信号を処理して、別の要望される物理信号を生成するための方法に関する。
【0007】
説明を明快にするために、本発明の実施例は、個々の機能ブロック(“プロセッサ”とラベルされる機能ブロックを含む)から成るものとして説明される。これらブロックが表す機能は、共有のあるいは専用のハードウエアの使用を通じて提供されるが、これらハードウエアには、これらに限定されるものではないが、ソフトウエアを実行する能力を持つハードウエアが含まれる。例えば、図 に示されるプロセッサの機能は、単一の共有のプロセッサによって提供される。(ここで、“プロセッサ”という用語の使用は、ソフトウエアを実行する能力を持つハードウエアを排他的に意味するものではないものと解釈されるべきである)。
【0008】
一例としての実施例には、マイクロプロセッサおよび/あるいはデジタル信号プロセッサ(DSP)なるハードウエア、例えば、AT&T DSP16あるいはDSP32C、後に説明される動作を遂行するためのソフトウエアを格納するための読出専用メモリ(ROM)、および結果を格納するためのランダムアクセスメモリ(RAM)が含まれる。大規模集積(VLSI)ハードウエアによる実施例、並びに、カスタムVLSI回路を汎用DSP回路と組み合わせて使用する実施例を提供することも可能である。
【0009】
テキストから音声への合成システム(TTS合成システム)においては、主要な目的は、テキストを、言語的表現(linguistic representation )の形式に変換することにある。ここで、この言語的表現は、通常は、生成されるべき音声セグメント(あるいは音素)、そのセグメントの継続期間、語句境界の位置、および使用されるべきピッチ輪郭(pitch contour )、に関する情報を含む。いったんこの言語的表現が決定されると、シンセサイザは、この情報を音声波形に変換する。本発明は、テキストから変換される言語的表現のうちの、特に、ピッチ輪郭の部分に関する。より詳細には、ピッチ輪郭を決定するための新規のアプローチに関する。しかしながら、この方法論について説明する前に、TTS合成システムの動作の簡単な説明をすることが本発明のより完全な理解を助けるものと信じる。
【0010】
TTSシステムの一つの実施例として、ここでは、AT&T Bell Laboratoriesによって開発され、Sproat、Richard W.およびOlive、Joseph P.によって、1995.“Text-to-Speech Synthesis”、AT&T Technical Journal,74(2),35-44. において説明されているTTSシステムについて簡単に説明する。このAT&T TTSシステムは、これは、音声合成システムの現在の技術水準を代表するものと信じられるが、モジューラシステムである。AT&T TTSシステムのこのモジューラ構成が図1に示される。これらモジュールのおのおのは、テキストから音声への変換の問題の一部分に対する責務を持つ。動作において、個々のモジュールが、これら(テキスト)構造を、一度に、1テキスト増分だけ読み込み、この入力に関してある処理を遂行し、次に、この構造を次のモジュールに対して書き出す。
【0011】
この一例としてのTTSシステム内のおのおののモジュールによって遂行される機能の詳細な説明はここでは必要でないが、ただし、TTS動作の一般的な機能の説明は有益である。この目的のために、TTSシステム、例えば、図1のシステムのより一般化された図である図2を参照されたい。図2に示されるように、最初に、入力テキストが、テキスト/音響分析機能1によって処理される。この機能は、本質的には、入力テキストを、そのテキストの言語的表現に変換することから成る。このテキスト分析における最初のステップは、入力テキストを、その後の処理のために、適当なチャンク(かたまり)に分割することから成るが、これらチャンクは、通常は、文(sentences )に対応する。次に、これらチャンクが、さらに、トークンに分解されるが、これらトークンは、通常は、特定のチャンクを構成する文内の単語(words )に対応する。テキストのさらなる処理には、合成されるべきトークンに対する音素の識別、テキストを構成する様々な音節および単語上に置かれるべきストレスの決定、テキストに対する語句境界の位置、および合成される音声内の各音素の継続期間の決定が含まれる。他の一般的にはさほど重要でない機能も、このテキスト/音響分析機能の中に含めることができるが、ただし、これらに関しては、ここでさらに説明する必要はないと考える。
【0012】
テキスト/音響分析機能による処理の後に、図2のシステムは、イントネーション分析5として示される機能を遂行する。本発明の方法論によって遂行されるこの機能は、合成される音声と関連されるべきピッチを決定する。この機能の結果として(最終的な積の値として)、考慮下の音声セグメントに対して、F0 輪郭とも呼ばれるピッチ輪郭が、前に計算された他の音声パラメータとの関連で使用するために生成される。
【0013】
図2の最後の機能要素である音声生成機能10は、先行する機能によって生成されたデータおよび/あるいはパラメータ、より具体的には、音素およびそれらと関連する継続期間、並びに基本周波数の(ピッチ)輪郭F0 、に関して動作し、音声に合成されるべきテキストに対応する音声波形を生成する。
周知のように、音声合成において、人に類似する音声波形を達成するためには、イントネーションを適当に加えることが非常に重要である。イントネーションは、幾つかの単語を強調し、他の幾つかは弱める働きを持つ。これは、話される特定の単語あるいは語句に対するF0 曲線内に反映されるが、この曲線は、典型的には、強調されべき単語あるいはその一部分に対して相対的に高いポイントを持ち、弱められるべき部分に対しては相対的に低いポイントを持つ。肉声の場合は、適当なイントネーションが“自然”に加えられるが(勿論、これは、実際には、話者による音声の形式および文法規則に関する莫大な量の先験的な知識に基づく処理の結果として達成されるものであるが)、音声合成器にとっての挑戦は、入力された音声に合成されるべき単語あるいは語句のテキストのみに基づいて、このF0 曲線を計算することにある。
【0014】
I.好ましい実施例の説明
A.本発明の方法論
本発明の方法論に対する一般的な枠組みは、先にFujisaki[Fujisaki、H.、“ A note on the physiological and physical basis for the phrase and accent components in the voice fundamental frequency contour"、In:Vocal physiology:voice production,mechanisms and functions,Fujimura(Ed.)、New York、Raven、1988]によって確立された、高度なピッチ輪郭を、二つのタイプの要素の曲線、つまり、(1)語句曲線、と(2)一つあるいは複数のアクセント曲線、との総和として記述することができるという原理から開始される(ここで、“総和(sum)”という用語は、一般化された加算として理解されるべきであり(Krantz et al,Foundations of Measurement,Academic Press,1971 を参照)、標準の加算以上の多くの数学的操作を含む)。ただし、Fujisakiのモデルにおいては、これら語句曲線およびアクセント曲線は、非常に制限的な式によって与えられる。加えて、Fujisakiのアクセント曲線は、音節、ストレスグループ等、とは結びつけられておらず、このために、言語的表現からのアクセント曲線の計算を詳細に記述するのは困難である。
【0015】
これらの制約が、ある程度まで、Mobius[Mobius,B.,Patzold,M.and Hess,W.,“Analysis and synthesis of German F0 contours by means of Fujisaki's model, Speech Communication,13,1993 ]の研究によって解決されるが、この研究の中で、彼は、アクセント曲線をアクセントグループと結びつけることが可能であることを示した。ここでは、アクセントグループは、第一に、辞書的に強調が置かれ、かつ、第二に、それ自身にアクセントが付けられる(つまり、それ自身が強調される)単語の一部分である音節から始まり、これら両方の条件を満たす次の音節へと続く。このモデルの下では、各アクセント曲線は、ある意味においては、アクセントグループと時間的に整合される。ただし、Mobiusのアクセント曲線は、アクセントグループの内部的な時間構造とは、原理的には、整合されていない。加えて、Mobiusのモデルは、語句およびアクセント曲線に対する式が非常に制限的であるというFujisakiの制約を引き継ぐ。
【0016】
本発明の方法論は、これらの背景原理を開始点として使用して、これら従来の技術によるモデルの制約を克服し、自然な音声輪郭を良くモデル化する(自然な音声に近い)合成音声の発声のためのピッチ輪郭の計算を可能にする。
本発明の方法論を使用することの本質的な目標は、適当なアクセント曲線を生成することにある。このプロセスへの主要な入力は、考慮下のアクセントグループ内の複数の音素と(これらアクセントグループを構成するテキストは上に定義されたMobiusの規則あるいはこの規則の変形に従って決定される)、これら各音素の継続期間である。これらパラメータの各々は、TTSの先行するモジュール内で、周知の方法によって生成される。
【0017】
後により詳細に説明されるように、本発明の方法によって計算されるこのアクセント曲線が、その期間に対する語句曲線(phrase curve)に加えられ、この結果として、F0 曲線が生成される。従って、予備的なステップとして、この語句曲線を生成することが要求される。この語句曲線、典型的には、非常に少数のポイント、例えば、語句の開始点、最後のアクセントグループの開始点、および最後のアクセントグループの終端点に対応する3つのポイントの間の挿間によって計算される。これらポイントのF0 値は、語句タイプによって異なる(例えば、肯定−否定文の語句と平叙文の語句とでは異なる)。
【0018】
特定のアクセントグループに対するアクセント曲線の生成のプロセスの第一のステップとして、幾つかのクリティカルな間隔の継続期間がそれらの各間隔内の音素の継続期間に基づいて計算される。一つの好ましい実施例においては、3つのクリティカルな間隔の継続期間が計算されるが、ただし、当業者においては、これと少しあるいはかなり異なる数の間隔を使用することもできることを理解できるものである。好ましい実施例においては、これらクリティカルな間隔は以下のように定義される:
D1 アクセントグループの第一の音節内の最初の子音に対する総継続期間
D2 最初の音節の残りの部分内の音素の継続期間
D3 アクセントグループの最初の音節の後の残りの部分内の音素の継続期間
【0019】
これらD1 、D2 、およびD3 の総和は、概ね、そのアクセントグループ内の複数の音素の継続期間の総和に等しいが、ただし、このことは、常に当てはまるとはいえない。例えば、間隔D3 を、決してある所定の値を超えることのない新たなD3'に変換することも考えられる。この場合は、間隔D2 内の音素の継続期間の総和がこの任意の値を超えた場合は、D3'は、この任意の値に切捨てられる。
本発明のアクセント曲線を生成するためのプロセスにおける次のステップは、アンカータイムと呼ばれる一連の値を計算することから成る。i番目のアンカータイムは、以下の式に従って決定される:
【数3】
ここで、D1 、D2 、およびD3 は、上に定義されたクリティカルな間隔期間であり、α、β、およびγは、整合パラメータ(後に説明)であり、iは、考慮下のアンカータイムに対するインデックスであり、cは、そのアクセントグループの音素クラスを指す。この音素クラスの一例としては、無音の句点から始まるアクセントグループがある。より詳細には、あるアクセントグループの音素クラスcは、そのアクセントグループ内の幾つかの音素の分類の観点から、より詳細には、その音素が、そのアクセントグループの開始の所にあるか、あるいは終端の所にあるかの観点から定義される。換言すれば、音素クラスcは、整合パラメータα、β、およびγと、そのアクセントグループ内のそれら音素との間の依存関係を表す。
【0020】
これら整合パラメータα、β、およびγが、事前に、(実際の音声データから)複数の音素クラスに対して決定され、さらに、これらクラス内の、現在使用されるモデルに依存する(使用されるモデルを特性化する)各アンカータイムの継続期間に対して決定される。例えば、ピークの両側における(語句曲線を引いた後の)F0 曲線のピーク高さの5、20、50、80、および90パーセントの所のアンカータイム期間に対して決定される。これらパラメータを決定するための手続きを説明するために、この手続きが、上昇−下降−上昇タイプのアクセントグループに適用された場合について以下に説明される。つまり、適当に記録された音声に対して、F0 が計算され、クリティカルな間隔期間が示される。このアクセントタイプに対して適当な音声においては、目標とされるアクセントグループは、単一ピークを持つ局所曲線と概ね一致する。次に、この目標とされるアクセントグループを構成する時間期間[t0 、t1 ]に対して、曲線(局所推定語句曲線(Locally Estimated Phrase Curve))が点[t0 、F0 (t0 )]と点[t1 、F0 (t1 )]の間で描かれる;典型的には、この曲線は直線であり、線形あるいは対数周波数領域内のいずれかにある。次に、F0 曲線からこの局所推定語句曲線を引くことによって、残留曲線(推定アクセント曲線(Estimated Accent Curve)が得られるが、これは、この特定のアクセントタイプに対しては、時間=t0 における0の値から始まり、時間t1 における0の値にて終わる。アンカータイムは、この推定アクセント曲線がピークの高さから与えられたパーセントの所にある時間上のポイントに対応する。
【0021】
他のアクセントタイプ(例えば、肯定否定の質問の終端における鋭い上昇)に対しては、本質的には同一の手続きが、これら局所推定語句曲線および推定アクセント曲線の計算に若干の修正を加えて適用される。単純な線形回帰を遂行することによって、これら継続期間からアンカータイムが予測されるが、これら回帰係数が整合パラメータに対応する。これら整合パラメータ値が、次に、検索テーブル内に格納され、その後、このテーブルから、式(1)を使用して各アンカータイムTi を計算するために使用されるべきαic、βicおよびγicの特定の値が決定される。
【0022】
あるアクセントグループを横断してのアンカータイムの数を定義する時間間隔iの数Nは、多分に、任意に、決めることができることに注意する。本出願人は、本発明の方法を、一つのケースにおいては、アクセントグループ当たりN=9のアンカーポイントを使用し、もう一つのケースにおいては、N=14のアンカーポイントを使用して実現したが、両方において良い結果が得られた。
【0023】
本発明の方法の第三のステップは、図3を参照することによって最も良く説明することができるが、これは、x−y軸上に以下の説明に従って描かれる曲線を示す。x軸は時間を表し、そのアクセントグループ内の全ての音素の継続期間がこの時間軸に沿ってプロットされる。一方、y軸は、0時間で交差し、そのアクセントグループの開始に対応する。そして、ここでは、一例として250msとして示される所の最後にプロットされたポイントは、そのアクセントグループの終端ポイント、つまり、そのアクセントグループの最後の音素の終端を表す。さらに、この時間軸上には、前のステップにおいて計算されたアンカータイムがプロットされる。この一例としての実施例に対しては、計算されるアンカータイムの数は、9であるものと想定され、このために、図3に示されるこれらアンカータイムは、T1 、T2 、...T9 として示される。計算された各アンカーポイントに対して、それらアンカーポイントに対応するアンカー値Vi が検索テーブルから得られ、図3のグラフ上の関連するアンカータイムに対応するx座標およびそのアンカー値に対応するy座標の所にプロットされる。これらアンカー値は、説明の目的上、y軸上に、0から1単位の範囲を持つ。次に、曲線が図3にプロットされたVi ポイントを通るように引かれ、周知の挿間技法を使用して挿間される。
【0024】
この検索テーブル内のこれらアンカー値は、自然の音声から、以下の方法によって計算される。つまり、自然音声からの多数のアクセント曲線が、これは、F0 曲線から局所推定語句曲線を引くことによって得られるが、平均され、こうして平均されたアクセント曲線が、次にy軸値が0から1の間に来るように正規化される。次に、こうして正規化された曲線のx軸に沿っう(好ましくは等間隔に取られた)複数のポイント(この数は、選択されたモデル内のアンカーポイントの数に対応する)に対して、アンカー値が、こうして正規化されたアクセント曲線から読み出され、検索テーブル内に格納される。
【0025】
本発明のプロセスの第四のステップにおいては、前のステップにおいて決定された、挿間および平滑化されたアンカー値(vi )曲線に対して、以下に説明する数値定数の掛算が行なわれる。(ここで、この掛算は、一般化された掛算(Krantzらを参照)であり、標準の掛算以上の多くの数学的演算を含むものと理解されたい)。こうして掛けられる数値定数は、言語的要因(ファクター)、例えば、そのアクセントグループの優位性の程度、あるいは、文内のアクセントグループの位置などを反映する。当業者には明らかなように、こうして得られる積の曲線は、Vi 曲線のそれと同一の一般形状を持つが、ただし、y値が全て、掛けられた数値定数だけスケールアップされるた。こうして得られた積の曲線が、再度、語句曲線に加え戻され、考慮下のアクセントグループに対するF0 曲線として使用されるが、(全ての他の積の曲線が同様にして加えられたとき)、これは、従来の技術によるF0 輪郭を計算するための方法よりも、自然音声に近い類似性を提供する。
【0026】
ただし、上のステップにおいて計算されたF0 輪郭は、上のステップにおいて計算された積の曲線に適当な妨害摂動曲線(obstruent perturbation curves )を追加することによって、さらに向上させることができる。自然なピッチ曲線に対する摂動(動揺)として、母音に先行する子音が、妨害物として重要であることが知られている。本発明の方法においては、各妨害物としての子音に対する摂動パラメータが自然の音声から決定され、これらセットのパラメータが、検索テーブル内に格納される。そして、アクセントグループ内の妨害子音に遭遇したときに、その妨害子音に対する摂動パラメータがテーブルから検索され、格納されているプロトタイプの摂動曲線が掛けられ、次に、これが前のステップにおいて計算された曲線に加えられる。これらプロトタイプの摂動曲線は、図4の左パネル内に示されるように、アクセントを持たない音節内の母音に先行するさまざまなタイプの子音に対するF0 曲線の比較によって得ることができる。
TTSシステムの次の動作において、前述の方法論に従って計算されたF0 曲線が、前に計算された継続期間および他の要因と結合され、TTSシステムは、最終的に、こうして集められた全ての言語的情報を使用して、音声波形を生成する。
【0027】
B.本発明のTTS実現
図5は、本発明のTTSシステムの背景での一例としての用途を示す。図からわかるように、入力テキストが、最初に、テキスト分析モジュール10によって処理され、次に、音響分析モジュール20によって処理される。これら二つのモジュールは、これらは任意の周知の実現であり得るが、一般的には、入力テキストをそのテキストの言語的表現に変換する動作を行い、図2との関連で前に説明されたテキスト/音響分析機能に対応する。音響分析モジュール20の出力が次に、イントネーションモジュール30に提供されるが、このモジュールは、本発明に従って動作する。より詳細には、クリティカル間隔プロセッサ31によって、前のモジュールから受信された前処理されたテキストに対するアクセントグループが確立(選択)され、各アクセントグループが複数のクリティカルな間隔に分割される。次に、アンカータイムプロセッサ32によって、これらのクリティカル間隔およびこれらの継続期間を使用してセットの整合パラメータが決定され、これらクリティカル間隔の継続期間とこれら整合パラメータとの間の関係を使用して、一連のアンカータイムが計算される。曲線生成プロセッサ33が、こうして計算されたこれらアンカータイムを受け取り、前に生成された検索テーブルから対応するセットのアンカー値の決定を行い、次に、これらアンカー値を、x軸に沿って配列される各アンカータイム値に対応するy軸値としてプロットする。
【0028】
次に、こうしてプロットされたアンカー値から曲線が生成される。次に、曲線生成プロセッサ33によって、こうして生成された曲線に、様々な言語的要因を表す一つあるいは複数の数値定数が掛られる。分析下の音声セグメントに対するアクセント曲線を表すこうして得られた積の曲線が、次に、曲線生成プロセッサ33によって、前に計算された語句曲線に加えられ、結果として、その音声セグメントに対するF0 曲線が生成される。クリティカル間隔プロセッサ31、アンカータイムプロセッサ32および曲線生成プロセッサ33に対して説明された処理と関連して、妨害摂動プロセッサ33によって、オプションの平行処理を遂行することも考えられる。このプロセッサは、妨害子音に対する摂動パラメータの決定および格納を行い、さらに、イントネーションモジュール30によって処理されている音声セグメント内に出現する各妨害子音に対して、これら格納されたパラメータから妨害摂動曲線を生成する。こうして生成された妨害摂動曲線が入力として総和プロセッサ40に供給され、総和プロセッサ40は、これら妨害摂動曲線を、時間的に適当なポイントにおいて、曲線生成プロセッサ33によって生成された曲線に加える。イントネーションモジュール30によってこうして生成されたイントネーション輪郭が、次に、前のモジュールによって生成された入力テキストの他の言語的表現と結合され、他のTTSモジュールによるその後の処理のために供給される。
【0029】
結論
テキスト入力から自動的に局所ピッチ輪郭を計算するための新規のシステムおよび方法が開示されるが、こうして計算されるピッチ輪郭は、自然の音声にみられるピッチ輪郭とよく一致する(を良く模擬する)。従って、本発明は、音声合成システムにおける大きな向上を意味する。より具体的には、本発明は、従来の技術による方法によっては達成不能な、音声合成のためのより自然な音響ピッチを提供する。
本発明の現時点での実施例が詳細に説明されたが、本発明の精神および範囲から逸脱することなしに、様々な変更、代替、置換が可能であり、本発明は、特許請求の範囲によってのみ定義されることを理解されるものである。
【図面の簡単な説明】
【図1】テキストから音声への合成システムの要素を機能図の形式にて示す。
【図2】本発明の寄与を強調するために構成された一般TTSシステムをブロック図の形式にて示す。
【図3】本発明のピッチ輪郭生成過程をグラフ形式にて示す。
【図4】アクセントを弱くされた摂動曲線と、アクセントを置かれた摂動曲線を示す。
【図5】本発明のTTSシステムの背景内での実現をブロック図にて示す。
Claims (10)
- 予め定められた継続期間を有する音声区間について音響的輪郭を決定するための方法であって、
該音声区間の該継続期間を、複数のクリティカルな区間に分割するステップであって、該クリティカルな区間のそれぞれの継続期間が、該音声区間内の音素の継続期間の関数として求められるものであるステップと、
該音声区間の継続期間内で、該複数のクリティカルな区間の継続期間の関数である複数のアンカータイムを決定するステップであって、該継続期間が対応する整列パラメータにより修正されるようになっているステップと、
該アンカータイムの各々について、検索テーブルから対応するアンカー値を見つけるステップと、
該アンカー値の各々を、該対応するアンカータイムを横軸としてもつデカルト座標系内の縦軸として表わすステップと、
該アンカー値のデカルト表現に曲線を当てはめるステップと、
該当てはめられた曲線に言語的要因に関連する少なくとも1つの予め定められた数値定数を掛算して、積の曲線を生成するステップと、を含むことを特徴とする方法。 - 予め定められた継続期間を有する音声区間について音響的輪郭を決定するための方法であって、
該音声区間の該継続期間を複数のクリティカルな区間に分割するステップと、
該音声区間の継続期間内で該複数のクリティカルな区間の継続期間の関数として求められる複数のアンカータイムを決定するステップであって、該継続期間が対応する整列パラメータにて修正されるようになっているステップと、
該アンカータイムの各々について、検索テーブルから対応するアンカー値を見つけるステップと、
該アンカー値の各々を、該対応するアンカータイムを横軸としてもつデカルト座標系内の縦軸として表わすステップと、
該アンカー値のデカルト表現に曲線を当てはめるステップと、
該当てはめられた曲線に言語的要因に関係する少なくとも1つの予め定められた数値定数を掛けて、積の曲線を生成するステップと、を含み
該複数のクリティカルな区間は、3つのクリティカルな区間、即ち該音声区間の第1の音節中の最初の子音の区間に対応するD1と呼ぶ第1の区間、該第1の音節の残りの部分中の音素の継続期間に対応するD2と呼ぶ第2の区間、および該第1の音節の後の該音声区間の残りの部分中の音素の継続期間に対応するD3と呼ぶ第3の区間を含むものである、ことを特徴とする方法。 - 請求項1又は3に記載の音響的輪郭を決定する方法において、
該整列パラメータが、複数の音素クラスについての、および該クラスの各々内の該複数のアンカータイムの各々についての実際の音声データから決定されるものである方法。 - 請求項1又は2に記載の音響的輪郭を決定する方法において、さらに
該積の曲線に該音声区間中の母音に先行する子音に対応する少なくとも1つの妨害摂動曲線を加えるステップを含む方法。 - 予め定められた継続期間を有する音声区間について音響的輪郭を決定するためのシステムにおいて、
該音声区間の該継続期間を複数のクリティカルな区間に分割する処理手段であって、該クリティカルな区間のそれぞれの継続期間が、該音声区間内の音素の継続期間の関数として求められるものである処理手段と、
該音声区間内の複数のアンカータイムを該複数のクリティカルな区間の継続期間の関数として決定する処理手段であって、該継続期間が対応する整列パラメータにより修正されるようになっている処理手段と、
該アンカータイムの各々に対応する、記憶手段に記憶されているアンカー値を見つけ、該アンカー値の各々を、該対応するアンカータイムを横軸としてもつデカルト座標系内の縦軸として表わし、および該アンカー値のデカルト表現に曲線を当てはめるための手段と、
該当てはめられた曲線に言語的要因に関連する少なくとも1つの予め定められた数値定数を掛算して、積の曲線を生成する手段と、を含むことを特徴とするシステム。 - 予め定められた継続期間を有する音声区間について音響的輪郭を決定するためのシステムであって、
該音声区間の該継続期間を、複数のクリティカルな区間に分割する処理手段と、
該音声区間内継続期間内で、該複数のクリティカルな区間の継続期間の関数として求められる複数のアンカータイムを決定する処理手段であって、該継続期間が対応する整列パラメータにて修正されるようになっている処理手段と、
該アンカータイムの各々に対応する、記憶手段に記憶されているアンカー値を見つけ、該アンカー値の各々を、該対応するアンカータイムを横軸としてもつデカルト座標系内の縦軸として表わし、および該アンカー値のデカルト表現に曲線を当てはめる手段と、
該当てはめられた曲線に言語的要因に関連する少なくとも1つの予め定められた数値定数を掛算して、積の曲線を生成する手段と、を含み、
該複数のクリティカルな区間は、3つのクリティカルな区間、即ち該音声区間の第1の音節中の最初の子音の区間に対応するD1と呼ぶ第1の区間、該第1の音節の残りの部分中の音素の継続期間に対応するD2と呼ぶ第2の区間、および該第1の音節の後の該音声区間の残りの部分中の音素の継続期間に対応するD3と呼ぶ第3の区間を含むものである、ことを特徴とするシステム。 - 請求項6又は8に記載の音響的輪郭を決定するシステムにおいて、
該整列パラメータが、複数の音素クラスについての、および該クラスの各々内の該複数のアンカータイムの各々についての実際の音声データから決定されるものであるシステム。 - 請求項6又は7に記載の音響的輪郭を決定するシステムにおいて、さらに
該音声区間中の母音に先行する子音に対応する妨害摂動曲線を発生し、および該発生された妨害摂動曲線の少なくとも1つを該積の曲線に加えるための処理手段を含むシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/528576 | 1995-09-15 | ||
US08/528,576 US5790978A (en) | 1995-09-15 | 1995-09-15 | System and method for determining pitch contours |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09114495A JPH09114495A (ja) | 1997-05-02 |
JP3720136B2 true JP3720136B2 (ja) | 2005-11-24 |
Family
ID=24106259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24243596A Expired - Lifetime JP3720136B2 (ja) | 1995-09-15 | 1996-09-13 | ピッチ輪郭を決定するためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5790978A (ja) |
EP (1) | EP0763814B1 (ja) |
JP (1) | JP3720136B2 (ja) |
CA (1) | CA2181000C (ja) |
DE (1) | DE69617581T2 (ja) |
Families Citing this family (168)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7251314B2 (en) * | 1994-10-18 | 2007-07-31 | Lucent Technologies | Voice message transfer between a sender and a receiver |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
US6418405B1 (en) * | 1999-09-30 | 2002-07-09 | Motorola, Inc. | Method and apparatus for dynamic segmentation of a low bit rate digital voice message |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6856958B2 (en) * | 2000-09-05 | 2005-02-15 | Lucent Technologies Inc. | Methods and apparatus for text to speech processing using language independent prosody markup |
US7478047B2 (en) * | 2000-11-03 | 2009-01-13 | Zoesis, Inc. | Interactive character system |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6625576B2 (en) | 2001-01-29 | 2003-09-23 | Lucent Technologies Inc. | Method and apparatus for performing text-to-speech conversion in a client/server environment |
US7200558B2 (en) * | 2001-03-08 | 2007-04-03 | Matsushita Electric Industrial Co., Ltd. | Prosody generating device, prosody generating method, and program |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US7010488B2 (en) * | 2002-05-09 | 2006-03-07 | Oregon Health & Science University | System and method for compressing concatenative acoustic inventories for speech synthesis |
GB2392358A (en) * | 2002-08-02 | 2004-02-25 | Rhetorical Systems Ltd | Method and apparatus for smoothing fundamental frequency discontinuities across synthesized speech segments |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7542903B2 (en) | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
US20050187772A1 (en) * | 2004-02-25 | 2005-08-25 | Fuji Xerox Co., Ltd. | Systems and methods for synthesizing speech using discourse function level prosodic features |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US20120197643A1 (en) * | 2011-01-27 | 2012-08-02 | General Motors Llc | Mapping obstruent speech energy to lower frequencies |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN104282300A (zh) * | 2013-07-05 | 2015-01-14 | 中国移动通信集团公司 | 一种非周期成分音节模型建立、及语音合成的方法和设备 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4797930A (en) * | 1983-11-03 | 1989-01-10 | Texas Instruments Incorporated | constructed syllable pitch patterns from phonological linguistic unit string data |
US4695962A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Speaking apparatus having differing speech modes for word and phrase synthesis |
US4908867A (en) * | 1987-11-19 | 1990-03-13 | British Telecommunications Public Limited Company | Speech synthesis |
US5212731A (en) * | 1990-09-17 | 1993-05-18 | Matsushita Electric Industrial Co. Ltd. | Apparatus for providing sentence-final accents in synthesized american english speech |
JP3070127B2 (ja) * | 1991-05-07 | 2000-07-24 | 株式会社明電舎 | 音声合成装置のアクセント成分制御方式 |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
-
1995
- 1995-09-15 US US08/528,576 patent/US5790978A/en not_active Expired - Lifetime
-
1996
- 1996-07-11 CA CA002181000A patent/CA2181000C/en not_active Expired - Fee Related
- 1996-09-03 EP EP96306360A patent/EP0763814B1/en not_active Expired - Lifetime
- 1996-09-03 DE DE69617581T patent/DE69617581T2/de not_active Expired - Lifetime
- 1996-09-13 JP JP24243596A patent/JP3720136B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH09114495A (ja) | 1997-05-02 |
DE69617581T2 (de) | 2002-08-01 |
US5790978A (en) | 1998-08-04 |
CA2181000A1 (en) | 1997-03-16 |
EP0763814A3 (en) | 1998-06-03 |
EP0763814A2 (en) | 1997-03-19 |
EP0763814B1 (en) | 2001-12-05 |
CA2181000C (en) | 2001-10-30 |
DE69617581D1 (de) | 2002-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3720136B2 (ja) | ピッチ輪郭を決定するためのシステムおよび方法 | |
US6785652B2 (en) | Method and apparatus for improved duration modeling of phonemes | |
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
GB2433150A (en) | Prosodic labelling of speech | |
US20170345412A1 (en) | Speech processing device, speech processing method, and recording medium | |
US9401138B2 (en) | Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program | |
Ni et al. | Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin | |
Mittrapiyanuruk et al. | Improving naturalness of Thai text-to-speech synthesis by prosodic rule. | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP3270668B2 (ja) | テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置 | |
Adeyemo et al. | Development and integration of Text to Speech Usability Interface for Visually Impaired Users in Yoruba language. | |
JP2001100777A (ja) | 音声合成方法及び装置 | |
JP3485586B2 (ja) | 音声合成方法 | |
Morton | Adding emotion to synthetic speech dialogue systems | |
JP2995814B2 (ja) | 音声合成方法 | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
Khalil et al. | Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK | |
Butler et al. | Articulatory constraints on vocal tract area functions and their acoustic implications | |
JPH09198073A (ja) | 音声合成装置 | |
May et al. | Speech synthesis using allophones | |
Wu et al. | Development of hmm-based malay text-to-speech system | |
Co et al. | Prosody modification in Filipino speech synthesis using dynamic time warping | |
Swart | Prosodic features of imperatives in Xhosa: implications for a text-to-speech system | |
Görmez | Implementation of a text-to-speech system with machine learning algorithms in Turkish | |
Randolph et al. | Synthesis of continuous speech by concatenation of isolated words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20031210 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040310 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050117 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20050415 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20050421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050907 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090916 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090916 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100916 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110916 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110916 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120916 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120916 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130916 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |