JP3408477B2 - フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ - Google Patents
フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザInfo
- Publication number
- JP3408477B2 JP3408477B2 JP33263399A JP33263399A JP3408477B2 JP 3408477 B2 JP3408477 B2 JP 3408477B2 JP 33263399 A JP33263399 A JP 33263399A JP 33263399 A JP33263399 A JP 33263399A JP 3408477 B2 JP3408477 B2 JP 3408477B2
- Authority
- JP
- Japan
- Prior art keywords
- filter
- synthesizer
- waveform
- source
- syllables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 abstract description 19
- 238000003786 synthesis reaction Methods 0.000 abstract description 19
- 230000001755 vocal effect Effects 0.000 abstract description 7
- 230000000593 degrading effect Effects 0.000 abstract 1
- 230000009977 dual effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 238000010237 hybrid technique Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000033458 reproduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
【0001】
【発明の属する技術分野】本発明は、一般的にはスピー
チ合成に関し、特に、ソース信号とフィルタパラメータ
の値が独立のクロスフェード機構によって生成されるソ
ース・フィルタ型モデルに基づく結合型のシンセサイザ
に関する。
チ合成に関し、特に、ソース信号とフィルタパラメータ
の値が独立のクロスフェード機構によって生成されるソ
ース・フィルタ型モデルに基づく結合型のシンセサイザ
に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】現在の
スピーチ合成には、多くの一長一短がある。語彙が制限
された応用には、すべての単語をディジタル標本として
格納し、再生のため文章に結合するのが望ましい。適当
な単語の上に強勢を置く良好な韻律アルゴリズムが与え
られれば、これらのシステムは全く自然に聞こえること
が多いようである。なぜなら、個別の単語は実際の肉声
の正確な再生であることができるからである。しかし、
より大きな語彙に対しては、実際の肉声スピーチの完全
な単語標本を格納するのは不可能である。従って、多く
のスピーチ合成者達はスピーチをより小さな単位に分解
し、これらの単位を単語、フレーズ、そして最終的な文
章に結合するように実験を重ねてきた。
スピーチ合成には、多くの一長一短がある。語彙が制限
された応用には、すべての単語をディジタル標本として
格納し、再生のため文章に結合するのが望ましい。適当
な単語の上に強勢を置く良好な韻律アルゴリズムが与え
られれば、これらのシステムは全く自然に聞こえること
が多いようである。なぜなら、個別の単語は実際の肉声
の正確な再生であることができるからである。しかし、
より大きな語彙に対しては、実際の肉声スピーチの完全
な単語標本を格納するのは不可能である。従って、多く
のスピーチ合成者達はスピーチをより小さな単位に分解
し、これらの単位を単語、フレーズ、そして最終的な文
章に結合するように実験を重ねてきた。
【0003】不幸なことに、スピーチ合成者達は、部分
単語単位を結合するときにいくつかの非常に困難な問題
に直面しなければならない。システムメモリの要件を取
り扱える程度に減らすためには、多くの異なった単語を
形成するために使用できる汎用的な部分単語単位を開発
しなければならない。しかし、そのような汎用的部分単
語単位は、多くの場合、良好に結合しない。結合された
部分単語単位の再生の間、部分単語単位が結合されると
ころでしばしば非常に目立った歪みまたはグリッチが現
れる。また、部分単語単位は、意図された韻律学的パタ
ーンを実現するためにピッチと継続時間において修正し
なければならないので、非常に多くの場合、これらの修
正を加えるための現在の諸技法によって歪みがもたらさ
れる。最後に、たいていのスピーチ区分は隣接する区分
によって強く影響されるため、肉声を適切に表現するこ
とができる結合単位(例えば、音素または二重音素)の
集合は存在しない。
単語単位を結合するときにいくつかの非常に困難な問題
に直面しなければならない。システムメモリの要件を取
り扱える程度に減らすためには、多くの異なった単語を
形成するために使用できる汎用的な部分単語単位を開発
しなければならない。しかし、そのような汎用的部分単
語単位は、多くの場合、良好に結合しない。結合された
部分単語単位の再生の間、部分単語単位が結合されると
ころでしばしば非常に目立った歪みまたはグリッチが現
れる。また、部分単語単位は、意図された韻律学的パタ
ーンを実現するためにピッチと継続時間において修正し
なければならないので、非常に多くの場合、これらの修
正を加えるための現在の諸技法によって歪みがもたらさ
れる。最後に、たいていのスピーチ区分は隣接する区分
によって強く影響されるため、肉声を適切に表現するこ
とができる結合単位(例えば、音素または二重音素)の
集合は存在しない。
【0004】幾人かのスピーチ合成者達は上記の結合問
題に対する種々の回答を提案してきたが、今までのとこ
ろこの問題を成功裏に解決した者はいない。肉声は、単
純な信号処理の解決法に従わない、時間変動する複雑な
波形を生成する。本願発明者らは、この結合問題に対す
る成功的な解決法は、たくましいスピーチ合成モデルの
発見に伴ってのみ生み出されることができると確信し
た。さらに、本願発明者らには、結合単位の適切な集
合、及び隣接区分を動的に反映させるように、これらの
単位を修正する能力が必要である。
題に対する種々の回答を提案してきたが、今までのとこ
ろこの問題を成功裏に解決した者はいない。肉声は、単
純な信号処理の解決法に従わない、時間変動する複雑な
波形を生成する。本願発明者らは、この結合問題に対す
る成功的な解決法は、たくましいスピーチ合成モデルの
発見に伴ってのみ生み出されることができると確信し
た。さらに、本願発明者らには、結合単位の適切な集
合、及び隣接区分を動的に反映させるように、これらの
単位を修正する能力が必要である。
【0005】
【課題を解決するための手段】本発明のフォルマントベ
ースのスピーチシンセサイザは、ソース及びフィルタシ
ンセサイザの構成要素を、人間の声管内部の肉体的構造
に密接に結びつけるあるソース・フィルタ型モデルに基
づいている。特に、このソースモデルは声門において生
み出されるソース信号の最善の推定に基づき、フィルタ
モデルは一般に声門の上部にある共鳴構造(フォルマン
トを生み出す)に基づいている。これらの理由によっ
て、本願発明者らは本発明の合成技法を「フォルマント
ベースの」合成と呼ぶ。本願発明者らは、ソースとフィ
ルターの構成要素を、実際のスピーチ生産の機構にでき
るだけ近づけてモデル化することが他の既存の諸技法よ
り遥かに自然に響く合成を作り出すと信ずる。
ースのスピーチシンセサイザは、ソース及びフィルタシ
ンセサイザの構成要素を、人間の声管内部の肉体的構造
に密接に結びつけるあるソース・フィルタ型モデルに基
づいている。特に、このソースモデルは声門において生
み出されるソース信号の最善の推定に基づき、フィルタ
モデルは一般に声門の上部にある共鳴構造(フォルマン
トを生み出す)に基づいている。これらの理由によっ
て、本願発明者らは本発明の合成技法を「フォルマント
ベースの」合成と呼ぶ。本願発明者らは、ソースとフィ
ルターの構成要素を、実際のスピーチ生産の機構にでき
るだけ近づけてモデル化することが他の既存の諸技法よ
り遥かに自然に響く合成を作り出すと信ずる。
【0006】本発明の合成技法は、実際のスピーチ信号
から、フォルマントを特定し抽出し(近似的半音節領域
が特定されレッテルを付けられる)、さらにこの方法を
用いて、それぞれフィルタパラメータの一集合と一つの
ソース信号波形によって表現される、半音節区分を構成
することを含む。この発明は、引き続く半音節区分を滑
らかに結合するため、新しいクロスフェード技法を提供
する。従来の混成技法と違って、本発明のシステムは、
フィルタパラメータ領域においてクロスフェードを実行
しながら、同時にだが独立して、時間領域において、ソ
ース波形の「クロスフェード」(パラメータ補間)を実
行することを許す。フィルタパラメータは声管効果をモ
デル化し、一方、ソース波形モデルは声門ソースをモデ
ル化する。この技法は、求めるならば、韻律学的修正を
声門ソースにのみ限定することができるという利点を持
つ。これによって、従来の混成技法に通常伴う、歪みを
減少させることができる。
から、フォルマントを特定し抽出し(近似的半音節領域
が特定されレッテルを付けられる)、さらにこの方法を
用いて、それぞれフィルタパラメータの一集合と一つの
ソース信号波形によって表現される、半音節区分を構成
することを含む。この発明は、引き続く半音節区分を滑
らかに結合するため、新しいクロスフェード技法を提供
する。従来の混成技法と違って、本発明のシステムは、
フィルタパラメータ領域においてクロスフェードを実行
しながら、同時にだが独立して、時間領域において、ソ
ース波形の「クロスフェード」(パラメータ補間)を実
行することを許す。フィルタパラメータは声管効果をモ
デル化し、一方、ソース波形モデルは声門ソースをモデ
ル化する。この技法は、求めるならば、韻律学的修正を
声門ソースにのみ限定することができるという利点を持
つ。これによって、従来の混成技法に通常伴う、歪みを
減少させることができる。
【0007】本発明は更に、始めと終わりの半音節の間
の相互作用を考慮に入れることができるようなシステム
を提供する。半音節は本発明の目下の好ましい結合単位
である。理想的には、結合単位への分割は、相互影響の
最も小さい点において選ばれるべきである。音節はこの
目的のための自然な単位ではあるが、音節を選択するこ
とは大量のメモリを必要とする。従って、メモリ量が制
限されたシステムにおいては半音節がより好ましい。本
発明の好ましい実施例において、本願発明者らは、一つ
の音節内の始めと終わりの半音節が如何に相互作用する
かを考慮する。本願発明者らは更に、半音節が、単語の
境界及び文の境界を越えて、如何に相互作用するかも考
慮する。この相互作用に関する情報は、一つの波形デー
タベースに格納され、このデータベースは、ソース波形
データとフィルタパラメータデータのみならず、フォル
マント修正ルールを適用する際にシステムによって使用
される、必要なレッテルまたはマークデータ及び文脈デ
ータを含む。本システムは入力音素の一つの列に作用
し、先ず単位選択を実行し、音節オブジェクトの一つの
音響列を構成し、それから、ソース信号及びフィルタパ
ラメータにクロスフェード作用を実行することによっ
て、これらのオブジェクトを描出する。結果として得ら
れる出力は、ソース波形と、フィルタパラメータであ
り、それらを、」合成スピーチを生成するために一つの
ソース・フィルタ型モデルにおいて使用することができ
る。
の相互作用を考慮に入れることができるようなシステム
を提供する。半音節は本発明の目下の好ましい結合単位
である。理想的には、結合単位への分割は、相互影響の
最も小さい点において選ばれるべきである。音節はこの
目的のための自然な単位ではあるが、音節を選択するこ
とは大量のメモリを必要とする。従って、メモリ量が制
限されたシステムにおいては半音節がより好ましい。本
発明の好ましい実施例において、本願発明者らは、一つ
の音節内の始めと終わりの半音節が如何に相互作用する
かを考慮する。本願発明者らは更に、半音節が、単語の
境界及び文の境界を越えて、如何に相互作用するかも考
慮する。この相互作用に関する情報は、一つの波形デー
タベースに格納され、このデータベースは、ソース波形
データとフィルタパラメータデータのみならず、フォル
マント修正ルールを適用する際にシステムによって使用
される、必要なレッテルまたはマークデータ及び文脈デ
ータを含む。本システムは入力音素の一つの列に作用
し、先ず単位選択を実行し、音節オブジェクトの一つの
音響列を構成し、それから、ソース信号及びフィルタパ
ラメータにクロスフェード作用を実行することによっ
て、これらのオブジェクトを描出する。結果として得ら
れる出力は、ソース波形と、フィルタパラメータであ
り、それらを、」合成スピーチを生成するために一つの
ソース・フィルタ型モデルにおいて使用することができ
る。
【0008】その結果、様々な消費者向け製品に組み込
むことできる、自然な響きのするスピーチシンセサイザ
を得ることができる。本技法は任意のスピーチ符号化の
応用に適用することができるが、本発明は、テキストか
らスピーチへの変換応用品において使用するのに適し
た、結合型スピーチシンセサイザとして使用するのが最
もふさわしい。本システムは、多くの消費者向け応用品
に見られる、現状のメモリ及びプロセッサの制約条件の
範囲で動作するように設計されている。言葉を換えれ
ば、本シンセサイザは、メモリの小さな設置個所に収ま
り、且つより大きなサイズの他のシンセサイザより良好
に響く合成を提供するように設計されている。
むことできる、自然な響きのするスピーチシンセサイザ
を得ることができる。本技法は任意のスピーチ符号化の
応用に適用することができるが、本発明は、テキストか
らスピーチへの変換応用品において使用するのに適し
た、結合型スピーチシンセサイザとして使用するのが最
もふさわしい。本システムは、多くの消費者向け応用品
に見られる、現状のメモリ及びプロセッサの制約条件の
範囲で動作するように設計されている。言葉を換えれ
ば、本シンセサイザは、メモリの小さな設置個所に収ま
り、且つより大きなサイズの他のシンセサイザより良好
に響く合成を提供するように設計されている。
【0009】本発明、その目的及び利点をより完全に理
解するためには、以下の明細と添付の図面を参照してい
ただきたい。
解するためには、以下の明細と添付の図面を参照してい
ただきたい。
【0010】
【発明の実施の形態】多くのスピーチ合成モデルがこれ
まで提供されてきたが、大部分は次の二要素信号処理構
造を共有している。すなわち、図1に示されているよう
に、スピーチは一つの初期ソース構成要素10が引き続
くフィルタ要素12を通じて処理されるものとしてモデ
ル化されることができる。
まで提供されてきたが、大部分は次の二要素信号処理構
造を共有している。すなわち、図1に示されているよう
に、スピーチは一つの初期ソース構成要素10が引き続
くフィルタ要素12を通じて処理されるものとしてモデ
ル化されることができる。
【0011】このモデルに依存して、このソースまたは
フィルタのいずれか、または両方が非常に単純または複
雑であり得る。例えば、スピーチ合成の初期の一つの型
は、極めて複雑なPCM(パルスコード変調された)波
形をソースとし、非常に単純なフィルタ(単一ゲイン)
を結合した。このPCMシンセサイザにおいて、すべて
の先験的知識はソースとして埋め込まれ、フィルタには
何も埋め込まれなかった。これに比べて、別の合成法は
単純な繰り返しパルス列をソースとして用い、比較的複
雑なフィルタをLPC(線形予測符号化)に基づいて使
用した。これら慣例的な合成技法のどれも、肉声のスピ
ーチを作り出すのに責任のある、人間の声管内の肉体的
な構造をモデル化しようとしなかったことに注意すべき
である。
フィルタのいずれか、または両方が非常に単純または複
雑であり得る。例えば、スピーチ合成の初期の一つの型
は、極めて複雑なPCM(パルスコード変調された)波
形をソースとし、非常に単純なフィルタ(単一ゲイン)
を結合した。このPCMシンセサイザにおいて、すべて
の先験的知識はソースとして埋め込まれ、フィルタには
何も埋め込まれなかった。これに比べて、別の合成法は
単純な繰り返しパルス列をソースとして用い、比較的複
雑なフィルタをLPC(線形予測符号化)に基づいて使
用した。これら慣例的な合成技法のどれも、肉声のスピ
ーチを作り出すのに責任のある、人間の声管内の肉体的
な構造をモデル化しようとしなかったことに注意すべき
である。
【0012】本発明は、ソース及びフィルタシンセサイ
ザの構成要素を、人間の声管内部の肉体的構造に密接に
結びつけるような、フォルマントベースの合成モデルを
採用する。特に、本発明のシンセサイザは、ソースモデ
ルを、声門において生み出されるソース信号の最善の推
定に基づかせる。同様に、フィルタモデルは、一般に声
門の上部にある共鳴構造(フォルマントを生み出す)に
基づいている。これらの理由によって、本願発明者らは
我々の合成技法を「フォルマントベースの合成」と呼
ぶ。
ザの構成要素を、人間の声管内部の肉体的構造に密接に
結びつけるような、フォルマントベースの合成モデルを
採用する。特に、本発明のシンセサイザは、ソースモデ
ルを、声門において生み出されるソース信号の最善の推
定に基づかせる。同様に、フィルタモデルは、一般に声
門の上部にある共鳴構造(フォルマントを生み出す)に
基づいている。これらの理由によって、本願発明者らは
我々の合成技法を「フォルマントベースの合成」と呼
ぶ。
【0013】図2は種々のソースとフィルタの組み合わ
せを要約している。鉛直軸上に、対応するソースまたは
フィルタ要素の複雑性の相対的な尺度を示している。図
2において、ソースとフィルタ要素は横に並んだ二つの
鉛直軸上にそれぞれ図示されている。ソース軸に沿っ
て、上から下に向かって、相対的複雑性が減少する一
方、フィルタ軸に沿って、上から下に向かって、相対的
な複雑性は増加する。いくつかの一般的に水平または対
角的な線がソース軸上の一点とフィルタ軸上の一点を結
びつけ、スピーチシンセサイザの特定の型を表現する。
例えば、水平線14は、かなり複雑なソースをかなり単
純なフィルタに結びつけ、TD−PSOLAシンセサイ
ザを定義する。これは、PCMソース波形が恒等フィル
タに入力される、よく知られたシンセサイザ技術の一つ
の型の一例である。同様に、水平線16は、相対的に単
純なソースを相対的に複雑なフィルタに結びつけ、別の
よく知られた、位相ボコーダ(vocorder)シンセサイザま
たは調和シンセサイザを定義する。このシンセサイザ
は、本質的には、単純な型のパルス列のソース波形、及
びファーストフーリエ変換(FFT)のようなスペクト
ル解析を用いて設計された複雑なフィルタを使用する。
古典的LPCシンセサイザは、パルス列ソースをLPC
フィルタに結びつける対角線17によって表現される。
クラット (Klatt)シンセサイザ18は、パラメータ表現
されたソースをフォルマントとゼロ点からなるフィルタ
を通過させることにより定義される。
せを要約している。鉛直軸上に、対応するソースまたは
フィルタ要素の複雑性の相対的な尺度を示している。図
2において、ソースとフィルタ要素は横に並んだ二つの
鉛直軸上にそれぞれ図示されている。ソース軸に沿っ
て、上から下に向かって、相対的複雑性が減少する一
方、フィルタ軸に沿って、上から下に向かって、相対的
な複雑性は増加する。いくつかの一般的に水平または対
角的な線がソース軸上の一点とフィルタ軸上の一点を結
びつけ、スピーチシンセサイザの特定の型を表現する。
例えば、水平線14は、かなり複雑なソースをかなり単
純なフィルタに結びつけ、TD−PSOLAシンセサイ
ザを定義する。これは、PCMソース波形が恒等フィル
タに入力される、よく知られたシンセサイザ技術の一つ
の型の一例である。同様に、水平線16は、相対的に単
純なソースを相対的に複雑なフィルタに結びつけ、別の
よく知られた、位相ボコーダ(vocorder)シンセサイザま
たは調和シンセサイザを定義する。このシンセサイザ
は、本質的には、単純な型のパルス列のソース波形、及
びファーストフーリエ変換(FFT)のようなスペクト
ル解析を用いて設計された複雑なフィルタを使用する。
古典的LPCシンセサイザは、パルス列ソースをLPC
フィルタに結びつける対角線17によって表現される。
クラット (Klatt)シンセサイザ18は、パラメータ表現
されたソースをフォルマントとゼロ点からなるフィルタ
を通過させることにより定義される。
【0014】以上の従来型シンセサイザ技術とは対照的
に、本発明は、図2内の陰影をつけられた領域20によ
って一般的に図示される位置を占める。言い換えれば、
本発明は、純粋の声門ソースから鼻音効果の現れた声門
ソースに渉るソース波形を使用することができる。フィ
ルタは、単純なフォルマントのフィルタバンク、あるい
はフォルマントとゼロ点を持った、幾分複雑なフィルタ
であることができる。
に、本発明は、図2内の陰影をつけられた領域20によ
って一般的に図示される位置を占める。言い換えれば、
本発明は、純粋の声門ソースから鼻音効果の現れた声門
ソースに渉るソース波形を使用することができる。フィ
ルタは、単純なフォルマントのフィルタバンク、あるい
はフォルマントとゼロ点を持った、幾分複雑なフィルタ
であることができる。
【0015】本発明者らが知る限り、従来技術の結合型
合成は図2の領域20を大きく避けてきた。領域20
は、人間の声門音声ソースと声管(フィルタ)の間の自
然な分離に、現実的に十分近く対応する。領域20にお
いて作用することは、純粋の時間領域表現(例えばTD
−PSOLA)と純粋の周波数領域表現(例えば位相ヴ
ォコーダシンセサイザまたは調和シンセサイザ)の間の
その中心的位置によっていくつかの固有の恩恵を持つ
と、本願発明者らは考える。
合成は図2の領域20を大きく避けてきた。領域20
は、人間の声門音声ソースと声管(フィルタ)の間の自
然な分離に、現実的に十分近く対応する。領域20にお
いて作用することは、純粋の時間領域表現(例えばTD
−PSOLA)と純粋の周波数領域表現(例えば位相ヴ
ォコーダシンセサイザまたは調和シンセサイザ)の間の
その中心的位置によっていくつかの固有の恩恵を持つ
と、本願発明者らは考える。
【0016】本願発明者らのフォルマントベースのシン
セサイザの目下の好ましい実施例は、フィルタと逆フィ
ルタを採用する技術を使用して、ソース信号とフォルマ
ントパラメータの値を肉声のスピーチから抽出する。こ
の抽出された信号とパラメータの値は、図2の領域20
に対応するソース・フィルタ型モデルにおいて使用され
る。肉声のスピーチからソースとフィルタパラメータの
値を抽出ための、目下の好ましい手続きは本明細におい
て後に説明する。目下の説明はフォルマントベースのシ
ンセサイザの他の様相、すなわち結合単位とクロスフェ
ードの選択に関する部分に絞ることにする。
セサイザの目下の好ましい実施例は、フィルタと逆フィ
ルタを採用する技術を使用して、ソース信号とフォルマ
ントパラメータの値を肉声のスピーチから抽出する。こ
の抽出された信号とパラメータの値は、図2の領域20
に対応するソース・フィルタ型モデルにおいて使用され
る。肉声のスピーチからソースとフィルタパラメータの
値を抽出ための、目下の好ましい手続きは本明細におい
て後に説明する。目下の説明はフォルマントベースのシ
ンセサイザの他の様相、すなわち結合単位とクロスフェ
ードの選択に関する部分に絞ることにする。
【0017】本発明のフォルマントベースのシンセサイ
ザは、ディジタル化されたスピーチの小さな切片を表現
する結合単位を定義し、それを、シンセサイザ音響モジ
ュールを通じて再生のため結合する。本発明のクロスフ
ェード技法は、種々のサイズの結合単位とともに採用す
ることができる。音節はこの目的のための自然な単位で
あるが、メモリが制限されている場合には、音節を基本
的な結合単位として選択することは、メモリ要件によっ
て禁じられているかもしれない。従って、本発明は基本
的結合単位として半音節を用いる。フォルマントベース
のシンセサイザの一つの重要な部分は、クロスフェード
を実行して、隣接する半音節を滑らかに結合し、結果と
して得られる音節がグリッチや歪みがなく自然に響くよ
うにすることである。下により詳しく説明するように、
本システムはこのクロスフェードを、ソース・フィルタ
型モデルの二つの構成要素、ソース波形とフォルマント
フィルタパラメータに関する時間領域と周波数領域の双
方において実行する。
ザは、ディジタル化されたスピーチの小さな切片を表現
する結合単位を定義し、それを、シンセサイザ音響モジ
ュールを通じて再生のため結合する。本発明のクロスフ
ェード技法は、種々のサイズの結合単位とともに採用す
ることができる。音節はこの目的のための自然な単位で
あるが、メモリが制限されている場合には、音節を基本
的な結合単位として選択することは、メモリ要件によっ
て禁じられているかもしれない。従って、本発明は基本
的結合単位として半音節を用いる。フォルマントベース
のシンセサイザの一つの重要な部分は、クロスフェード
を実行して、隣接する半音節を滑らかに結合し、結果と
して得られる音節がグリッチや歪みがなく自然に響くよ
うにすることである。下により詳しく説明するように、
本システムはこのクロスフェードを、ソース・フィルタ
型モデルの二つの構成要素、ソース波形とフォルマント
フィルタパラメータに関する時間領域と周波数領域の双
方において実行する。
【0018】本発明はソース波形データ及びフィルタパ
ラメータデータを一つの波形データベースに格納する。
このデータベースはその最大形式において、ディジタル
化されたスピーチ波形とフィルタパラメータデータを、
自然言語(例えば英語)に見られる各半音節の少なくと
も一つの例に対して格納する。金銭節約的な形式におい
ては、このデータベースは、重複したスピーチ波形を取
り除き、短縮することができる。隣接する半音節は大い
に相互影響するため、この好ましいシステムは、遭遇す
る異なったそれぞれの文脈に対してデータを格納する。
ラメータデータを一つの波形データベースに格納する。
このデータベースはその最大形式において、ディジタル
化されたスピーチ波形とフィルタパラメータデータを、
自然言語(例えば英語)に見られる各半音節の少なくと
も一つの例に対して格納する。金銭節約的な形式におい
ては、このデータベースは、重複したスピーチ波形を取
り除き、短縮することができる。隣接する半音節は大い
に相互影響するため、この好ましいシステムは、遭遇す
る異なったそれぞれの文脈に対してデータを格納する。
【0019】図3は、波形データベースを構築するため
の、目下の好ましい技法を示す。図3(そして図4Aと
4B)において、上部の辺が二重線のボックスは、主要
な処理ブロックの見出しを描くようにしてある。これら
の見出しの下の単線のボックスは、見出しブロックによ
って表されている主要ブロックを構成する、個々のステ
ップまたはモジュールを表現する。
の、目下の好ましい技法を示す。図3(そして図4Aと
4B)において、上部の辺が二重線のボックスは、主要
な処理ブロックの見出しを描くようにしてある。これら
の見出しの下の単線のボックスは、見出しブロックによ
って表されている主要ブロックを構成する、個々のステ
ップまたはモジュールを表現する。
【0020】図3に関して、波形データベースのための
データは、ステップ40において半音節の一つのリスト
を先ず構成し、ステップ42にて境界領域の列を取りま
とめることによって構築される。これは、すべての可能
な半音節の組み合わせを生成し(ステップ44)、ステ
ップ46において使用されない組み合わせを除外するこ
とによって成される。ステップ44は、始めと終わりの
半音節のすべての異なる順列を生成する再帰過程である
ことができる。すべての可能な組み合わせのこの網羅的
なリストはそれから、データベースのサイズを減らすた
めに短縮される。この短縮は、ステップ46において、
本シンセサイザが発音するすべての単語の表音表記を含
む単語辞書48を参照して、達成される。これらの表音
表記は、本シンセサイザが発音する単語に現れない半音
節の組み合わせを刈り取るために使用される。
データは、ステップ40において半音節の一つのリスト
を先ず構成し、ステップ42にて境界領域の列を取りま
とめることによって構築される。これは、すべての可能
な半音節の組み合わせを生成し(ステップ44)、ステ
ップ46において使用されない組み合わせを除外するこ
とによって成される。ステップ44は、始めと終わりの
半音節のすべての異なる順列を生成する再帰過程である
ことができる。すべての可能な組み合わせのこの網羅的
なリストはそれから、データベースのサイズを減らすた
めに短縮される。この短縮は、ステップ46において、
本シンセサイザが発音するすべての単語の表音表記を含
む単語辞書48を参照して、達成される。これらの表音
表記は、本シンセサイザが発音する単語に現れない半音
節の組み合わせを刈り取るために使用される。
【0021】この好ましい実施例は、単語間の境界ある
いは文章間の境界を越えるような、音節間の境界をも又
取り扱う。これらの境界単位(多くの場合子音の集ま
り)は正しい文脈から標本抽出される二重音素から構成
される。使用されない境界単位組み合わせを取り除く一
つの方法は、単語辞書48に発見される単語を使って形
成される例文を含む、テキスト集50を提供することで
ある。これらの例文は、テキスト集に発見されない境界
単位組み合わせがステップ46において除かれるよう
に、単語境界の異なった文脈を定義するために使用され
る。
いは文章間の境界を越えるような、音節間の境界をも又
取り扱う。これらの境界単位(多くの場合子音の集ま
り)は正しい文脈から標本抽出される二重音素から構成
される。使用されない境界単位組み合わせを取り除く一
つの方法は、単語辞書48に発見される単語を使って形
成される例文を含む、テキスト集50を提供することで
ある。これらの例文は、テキスト集に発見されない境界
単位組み合わせがステップ46において除かれるよう
に、単語境界の異なった文脈を定義するために使用され
る。
【0022】半音節と境界単位のリストが編纂され短縮
された後、各半音節に対応する標本抽出された波形デー
タが、ステップ52において、記録されレッテルを付け
られる。これは、ステップ54に示されているように各
半音節の関連する部分の始めと終わりに表音マークを付
けることを含む。本質的には、標本抽出された波形デー
タのこれらの関連する部分は、抽出された部分をこの標
本が導かれた元の対応する半音節または境界単位に対応
させることによって抽出されレッテルを付けられる。
された後、各半音節に対応する標本抽出された波形デー
タが、ステップ52において、記録されレッテルを付け
られる。これは、ステップ54に示されているように各
半音節の関連する部分の始めと終わりに表音マークを付
けることを含む。本質的には、標本抽出された波形デー
タのこれらの関連する部分は、抽出された部分をこの標
本が導かれた元の対応する半音節または境界単位に対応
させることによって抽出されレッテルを付けられる。
【0023】次のステップは、ソースデータ及びフィル
タデータを、一般的にステップ56において上記レッテ
ルを付けられた波形データから抽出することを含む。ス
テップ56は、下にもっと詳しく説明する技法を含む。
この技法は、実際の肉声スピーチを、あるコスト関数を
用いて、フィルタとその逆フィルタを通して処理する。
このコスト関数は、固有のソース信号及びフィルタパラ
メータを上記レッテルを付けられた波形データの各々か
ら抽出することを助ける。抽出されたソースデータ及び
フィルタデータは、ステップ58において波形データベ
ース60に格納される。この最大の波形データベース6
0は、従って、レッテルを付けられた半音節と境界単位
の各々のソース(波形)データ、フィルタパラメータデ
ータを含む。この波形データベースが構成されると、シ
ンセサイザを使用することができる。
タデータを、一般的にステップ56において上記レッテ
ルを付けられた波形データから抽出することを含む。ス
テップ56は、下にもっと詳しく説明する技法を含む。
この技法は、実際の肉声スピーチを、あるコスト関数を
用いて、フィルタとその逆フィルタを通して処理する。
このコスト関数は、固有のソース信号及びフィルタパラ
メータを上記レッテルを付けられた波形データの各々か
ら抽出することを助ける。抽出されたソースデータ及び
フィルタデータは、ステップ58において波形データベ
ース60に格納される。この最大の波形データベース6
0は、従って、レッテルを付けられた半音節と境界単位
の各々のソース(波形)データ、フィルタパラメータデ
ータを含む。この波形データベースが構成されると、シ
ンセサイザを使用することができる。
【0024】シンセサイザを使用するためには、一つの
入力列が、図4aのステップ62において供給される。
この入力列は、ステップ64に示されているように、フ
レーズまたは文を表現する音素列であることができる。
この音素列は連携された抑揚パターン66と音節継続情
報68を含むことができる。これら抑揚パターン及び音
節継続情報は韻律情報を供給し、シンセサイザが、音節
のピッチと持続時間を選択的に変更し、このフレーズま
たは文に、より自然な肉声に近い抑揚を与えるために使
用することができる。
入力列が、図4aのステップ62において供給される。
この入力列は、ステップ64に示されているように、フ
レーズまたは文を表現する音素列であることができる。
この音素列は連携された抑揚パターン66と音節継続情
報68を含むことができる。これら抑揚パターン及び音
節継続情報は韻律情報を供給し、シンセサイザが、音節
のピッチと持続時間を選択的に変更し、このフレーズま
たは文に、より自然な肉声に近い抑揚を与えるために使
用することができる。
【0025】上記音素列は一連のステップを通じて処理
され、情報が波形データベース60から抽出され、クロ
スフェード機構によって与えられる。先ず、見出しブロ
ック70に指示されているように単位選択が実行され
る。これはステップ72において文脈ルールを適用する
ことを含み、波形データベース60からどのデータを抽
出すべきかを決定する。74に概略的に示した文脈ルー
ルは、どの半音節と境界単位を、ある条件の下で、デー
タベースから抽出するかを特定する。例えば、音素列が
データベースに直接に表示されている一つの半音節を呼
び求めるならば、その半音節が選択される。文脈ルール
は、波形データベースから選択する際に、隣接する音単
位の半音節を考慮する。もし求める半音節がデータベー
スに直接表示されていなければ、文脈ルールは求める半
音節に最も近い近似的半音節を特定する。文脈ルール
は、結合されたときに最も自然な響きのする半音節を選
択するように設計されている。従って、文脈ルールは言
語学的原理に基づいている。
され、情報が波形データベース60から抽出され、クロ
スフェード機構によって与えられる。先ず、見出しブロ
ック70に指示されているように単位選択が実行され
る。これはステップ72において文脈ルールを適用する
ことを含み、波形データベース60からどのデータを抽
出すべきかを決定する。74に概略的に示した文脈ルー
ルは、どの半音節と境界単位を、ある条件の下で、デー
タベースから抽出するかを特定する。例えば、音素列が
データベースに直接に表示されている一つの半音節を呼
び求めるならば、その半音節が選択される。文脈ルール
は、波形データベースから選択する際に、隣接する音単
位の半音節を考慮する。もし求める半音節がデータベー
スに直接表示されていなければ、文脈ルールは求める半
音節に最も近い近似的半音節を特定する。文脈ルール
は、結合されたときに最も自然な響きのする半音節を選
択するように設計されている。従って、文脈ルールは言
語学的原理に基づいている。
【0026】例示のため、求める半音節が合成される単
語において有声両唇音(例えば/b/)に続いている
が、この半音節は、データベースにおいてはそのような
文脈には見つからないとすれば、文脈ルールは次善に望
ましい文脈を特定する。この場合、これらのルールは、
別の両唇音(例えば/p/)に続く区分を選択すること
ができる。
語において有声両唇音(例えば/b/)に続いている
が、この半音節は、データベースにおいてはそのような
文脈には見つからないとすれば、文脈ルールは次善に望
ましい文脈を特定する。この場合、これらのルールは、
別の両唇音(例えば/p/)に続く区分を選択すること
ができる。
【0027】次に、本シンセサイザは、入力として供給
される音素列に対応する音節オブジェクトの音響列を構
成する。このステップは一般に76に示されており、単
位選択の間に特定されるような半音節の列に関するソー
スデータを構成することを含む。このソースデータはソ
ース・フィルタ型モデルのソース要素に対応する。フィ
ルタパラメータも又、データベースから抽出され、音響
列を構成するために操作される。フィルタパラメータの
操作に関する詳細は下により完全に議論する。目下の好
ましい実施例は、音節オブジェクトの列を音節の連携さ
れたリスト78として定義する。そしてこのリストはさ
らに半音節の連携されたリスト80から構成される。こ
れらの半音節は、波形データベース60から得られる波
形切片82を含む。
される音素列に対応する音節オブジェクトの音響列を構
成する。このステップは一般に76に示されており、単
位選択の間に特定されるような半音節の列に関するソー
スデータを構成することを含む。このソースデータはソ
ース・フィルタ型モデルのソース要素に対応する。フィ
ルタパラメータも又、データベースから抽出され、音響
列を構成するために操作される。フィルタパラメータの
操作に関する詳細は下により完全に議論する。目下の好
ましい実施例は、音節オブジェクトの列を音節の連携さ
れたリスト78として定義する。そしてこのリストはさ
らに半音節の連携されたリスト80から構成される。こ
れらの半音節は、波形データベース60から得られる波
形切片82を含む。
【0028】一度ソースデータが編纂されると、時間領
域においてソースデータをクロスフェードし、それと独
立に、周波数領域においてフィルタパラメータをクロス
フェードするために、一連の描出ステップが行われる。
これらの描出ステップは、ステップ84から始まり、時
間領域に適用される。周波数領域に適用される描出ステ
ップはステップ110から始まる(図4B)。
域においてソースデータをクロスフェードし、それと独
立に、周波数領域においてフィルタパラメータをクロス
フェードするために、一連の描出ステップが行われる。
これらの描出ステップは、ステップ84から始まり、時
間領域に適用される。周波数領域に適用される描出ステ
ップはステップ110から始まる(図4B)。
【0029】図5は、時間領域においてソースデータの
クロスフェードを行うための、目下の好ましい技法を示
している。図5にいうて、持続時間Sのある音節が、そ
れぞれ持続時間AとBの始まりと終わりの半音節からな
る。持続時間Aの半音節の波形データは86に表されて
おり、持続時間Bの半音節の波形データは88に表され
ている。これらの波形切片は、これらの半音節がともに
持続時間S内に適合するように、時間に関して配置され
ている。これら半音節の間には重なった部分があること
に注意すべきである。
クロスフェードを行うための、目下の好ましい技法を示
している。図5にいうて、持続時間Sのある音節が、そ
れぞれ持続時間AとBの始まりと終わりの半音節からな
る。持続時間Aの半音節の波形データは86に表されて
おり、持続時間Bの半音節の波形データは88に表され
ている。これらの波形切片は、これらの半音節がともに
持続時間S内に適合するように、時間に関して配置され
ている。これら半音節の間には重なった部分があること
に注意すべきである。
【0030】この好ましい実施例のクロスフェード機構
は、時間領域において、線形クロスフェードを実行す
る。この機構は、92において表現されている線形クロ
スフェード関数とともに、90を以て概略的に図示して
ある。時刻t0において持続時間Aの半音節は全強調を
受けるが、持続時間Bの半音節はゼロ強調を受ける。時
間がtsまで進行するに従って、持続時間Aの半音節に
対する強調は次第に減少し、一方持続時間Bの半音節に
対する強調は次第に増加する。この結果、92で示した
ように持続時間Sの全音節に対する、合成された、すな
わちクロスフェードされた波形がもたらされる。
は、時間領域において、線形クロスフェードを実行す
る。この機構は、92において表現されている線形クロ
スフェード関数とともに、90を以て概略的に図示して
ある。時刻t0において持続時間Aの半音節は全強調を
受けるが、持続時間Bの半音節はゼロ強調を受ける。時
間がtsまで進行するに従って、持続時間Aの半音節に
対する強調は次第に減少し、一方持続時間Bの半音節に
対する強調は次第に増加する。この結果、92で示した
ように持続時間Sの全音節に対する、合成された、すな
わちクロスフェードされた波形がもたらされる。
【0031】更に、図4Bに示したように、別個のクロ
スフェード過程が、抽出された半音節に対応するフィル
タパラメータデータに関して行われる。この手続きは、
フィルタ選択ルール98を適用して、データベース60
からフィルタパラメータを得ることから始まる。もし要
請される音節が、データベース60の一つの音節例外要
素に直接表示されているならば、この音節に対応するフ
ィルタデータがステップ100において使用される。そ
れとは異なって、もしフィルタデータがデータベースに
おいて一つの完全な音節として直接表示されていなけれ
ば、新しいフィルタデータが周波数領域において二つの
半音節からのデータにクロスフェード作用を適用するこ
とによって、ステップ102におけるように生成され
る。このクロスフェード作用は、引き続く半音節がクロ
スフェードされるクロスフェード領域を選択し、それか
らステップ106においてその領域を横切って適当なク
ロスフェード関数を適用することを必要とする。このク
ロスフェード関数はフィルタ領域において適用され、線
形関数(図5に示したものに類似の)、シグモイド関
数、あるいは何か別の適当な関数であってよい。データ
ベースから直接導かれるか(ステップ100におけるよ
うに)、あるいはクロスフェード作用によって生成され
るかに拘わらず、フィルタパラメータデータは、ソース
・フィルタ型シンセサイザにおいて後に使用されるよう
にステップ108において格納される。
スフェード過程が、抽出された半音節に対応するフィル
タパラメータデータに関して行われる。この手続きは、
フィルタ選択ルール98を適用して、データベース60
からフィルタパラメータを得ることから始まる。もし要
請される音節が、データベース60の一つの音節例外要
素に直接表示されているならば、この音節に対応するフ
ィルタデータがステップ100において使用される。そ
れとは異なって、もしフィルタデータがデータベースに
おいて一つの完全な音節として直接表示されていなけれ
ば、新しいフィルタデータが周波数領域において二つの
半音節からのデータにクロスフェード作用を適用するこ
とによって、ステップ102におけるように生成され
る。このクロスフェード作用は、引き続く半音節がクロ
スフェードされるクロスフェード領域を選択し、それか
らステップ106においてその領域を横切って適当なク
ロスフェード関数を適用することを必要とする。このク
ロスフェード関数はフィルタ領域において適用され、線
形関数(図5に示したものに類似の)、シグモイド関
数、あるいは何か別の適当な関数であってよい。データ
ベースから直接導かれるか(ステップ100におけるよ
うに)、あるいはクロスフェード作用によって生成され
るかに拘わらず、フィルタパラメータデータは、ソース
・フィルタ型シンセサイザにおいて後に使用されるよう
にステップ108において格納される。
【0032】適切なクロスフェード領域とクロスフェー
ド関数を選択することはデータから独立している。周波
数領域においてクロスフェードを行う目的は、重要な二
重母音を損なうことなく、不要なグリッチあるいは共鳴
音を取り除くことである。この目的が得られるために
は、クロスフェード領域を、結合されるべきスピーチ単
位の軌道ができるだけ類似しているところに、特定しな
ければならない。例えば、単語”house”の構成に
おいて、/haw/と/aws/に対する半音節のフィ
ルタ単位はその核/a/の領域において重なるように結
合することができる。
ド関数を選択することはデータから独立している。周波
数領域においてクロスフェードを行う目的は、重要な二
重母音を損なうことなく、不要なグリッチあるいは共鳴
音を取り除くことである。この目的が得られるために
は、クロスフェード領域を、結合されるべきスピーチ単
位の軌道ができるだけ類似しているところに、特定しな
ければならない。例えば、単語”house”の構成に
おいて、/haw/と/aws/に対する半音節のフィ
ルタ単位はその核/a/の領域において重なるように結
合することができる。
【0033】一度ソースデータとフィルタデータが編纂
され、上記のステップに従って描出されると、それら
は、ステップ110においてそれぞれソース波形データ
バンク112及びフィルタパラメータデータバンク11
4に出力され、ソース・フィルタ型モデルのシンセサイ
ザ116によって使用され、合成されたスピーチが出力
される。
され、上記のステップに従って描出されると、それら
は、ステップ110においてそれぞれソース波形データ
バンク112及びフィルタパラメータデータバンク11
4に出力され、ソース・フィルタ型モデルのシンセサイ
ザ116によって使用され、合成されたスピーチが出力
される。
【0034】[ソース信号とフィルパラメータの抽出]
図6はソース波形を複雑な入力波形から抽出することが
できる本発明にかかわる一つのシステムを示している。
フィルタと逆フィルタの一対がこの抽出過程において用
いられる。
図6はソース波形を複雑な入力波形から抽出することが
できる本発明にかかわる一つのシステムを示している。
フィルタと逆フィルタの一対がこの抽出過程において用
いられる。
【0035】図6において、フィルタ110はそのフィ
ルタモデル112とフィルタパラメータ114によって
定義される。本発明は又、フィルタ110の逆に対応す
る逆フィルタ116を採用する。フィルタ116は、例
えば、フィルタ110と同じフィルタパラメータを持つ
が、フィルタ110が極点を持つ各位置に置いて、ゼロ
点を置き換える。従って、フィルタ110と逆フィルタ
116は、相反的システムを定義し、逆フィルタ116
の効果はフィルタ110の効果によって否定すなわち逆
転される。そのため、図示したように、逆フィルタ11
6に入力され,フィルタ110によって引き続いて処理
されるスピーチ波形は、理論的には、入力波形と同一で
ある出力波形となる。実際には、フィルタ許容における
わずかの変動またはフィルタ116と110の間のわず
かの差が、入力波形の同一の照合から幾分はずれる出力
波形を生み出す。
ルタモデル112とフィルタパラメータ114によって
定義される。本発明は又、フィルタ110の逆に対応す
る逆フィルタ116を採用する。フィルタ116は、例
えば、フィルタ110と同じフィルタパラメータを持つ
が、フィルタ110が極点を持つ各位置に置いて、ゼロ
点を置き換える。従って、フィルタ110と逆フィルタ
116は、相反的システムを定義し、逆フィルタ116
の効果はフィルタ110の効果によって否定すなわち逆
転される。そのため、図示したように、逆フィルタ11
6に入力され,フィルタ110によって引き続いて処理
されるスピーチ波形は、理論的には、入力波形と同一で
ある出力波形となる。実際には、フィルタ許容における
わずかの変動またはフィルタ116と110の間のわず
かの差が、入力波形の同一の照合から幾分はずれる出力
波形を生み出す。
【0036】スピーチ波形(または他の複雑な波形)が
逆フィルタ116を通じて処理されるとき、ノード12
0における出力剰余信号がコスト関数122を採用する
ことによって処理される。一般的に言えば、この処理
は、以下により詳しく説明する複数の処理関数の一つま
たはそれ以上に従って、剰余信号を処理し、一つのコス
トパラメータを生成する。引き続く処理ステップは、こ
のコストパラメータを使用して、コストパラメータを最
小化するように、フィルタパラメータ114を調整す
る。図6において、コスト最小化部ブロック124は、
フィルタパラメータがコストとパラメータの減少ををも
たらすように、選択的に調整される過程を概略的に表現
している。これは、最小コストを探索しながらフィルタ
パラメータを逐次的に調整するアルゴリズムを使用し
て、繰り返し的に実行することができる。
逆フィルタ116を通じて処理されるとき、ノード12
0における出力剰余信号がコスト関数122を採用する
ことによって処理される。一般的に言えば、この処理
は、以下により詳しく説明する複数の処理関数の一つま
たはそれ以上に従って、剰余信号を処理し、一つのコス
トパラメータを生成する。引き続く処理ステップは、こ
のコストパラメータを使用して、コストパラメータを最
小化するように、フィルタパラメータ114を調整す
る。図6において、コスト最小化部ブロック124は、
フィルタパラメータがコストとパラメータの減少ををも
たらすように、選択的に調整される過程を概略的に表現
している。これは、最小コストを探索しながらフィルタ
パラメータを逐次的に調整するアルゴリズムを使用し
て、繰り返し的に実行することができる。
【0037】ひとたび最小コストが成されれば、その結
果得られるノード120における剰余信号は、引き続く
ソース・フィルタ型モデルの合成のために抽出するソー
ス信号を表現するために使用される。最小コストをもた
らしたフィルタパラメータの値114はそれから、引き
続くソース・フィルタ型モデルの合成において使用され
ためのフィルタ110を定義するためのフィルタパラメ
ータの値として使用される。
果得られるノード120における剰余信号は、引き続く
ソース・フィルタ型モデルの合成のために抽出するソー
ス信号を表現するために使用される。最小コストをもた
らしたフィルタパラメータの値114はそれから、引き
続くソース・フィルタ型モデルの合成において使用され
ためのフィルタ110を定義するためのフィルタパラメ
ータの値として使用される。
【0038】図7は、本発明に関わる、ソース・フィル
タ型モデルの合成システムを達成するために、ソース信
号が抽出され、フィルタパラメータの値が特定される過
程を図解する。
タ型モデルの合成システムを達成するために、ソース信
号が抽出され、フィルタパラメータの値が特定される過
程を図解する。
【0039】先ず、一つのフィルタモデルがステップ1
50において定義される。パラメータによって表現され
た適当なフィルタモデルはどれでも使用できる。次い
で、ステップ152において、パラメータのある初期値
集合が提供される。パラメータの初期値集合は、最小化
されたコスト関数に対応するパラメータを探索するた
め、引き続くステップにおいて逐次的に変更される。局
所的な最小値に対応する部分的に最適な解を避けるた
め、様々な技法を使用することができる。例えば、ステ
ップ152において使われるパラメータの初期値集合
は、局所的最小値を避けるため、いくつかの異なった出
発点を供給するように設計されたある集合または行列か
ら選択することができる。従って、図7において、ステ
ップ152はパラメータの異なった初期値集合に対して
複数回実行されることに注意していただきたい。
50において定義される。パラメータによって表現され
た適当なフィルタモデルはどれでも使用できる。次い
で、ステップ152において、パラメータのある初期値
集合が提供される。パラメータの初期値集合は、最小化
されたコスト関数に対応するパラメータを探索するた
め、引き続くステップにおいて逐次的に変更される。局
所的な最小値に対応する部分的に最適な解を避けるた
め、様々な技法を使用することができる。例えば、ステ
ップ152において使われるパラメータの初期値集合
は、局所的最小値を避けるため、いくつかの異なった出
発点を供給するように設計されたある集合または行列か
ら選択することができる。従って、図7において、ステ
ップ152はパラメータの異なった初期値集合に対して
複数回実行されることに注意していただきたい。
【0040】150において定義されたフィルタモデル
及び152において定義されたパラメータの初期値集合
は、フィルタを構成するため(156におけるよう
に)、また逆フィルタを構成するため(158における
ように)、ステップ154において使用される。
及び152において定義されたパラメータの初期値集合
は、フィルタを構成するため(156におけるよう
に)、また逆フィルタを構成するため(158における
ように)、ステップ154において使用される。
【0041】次に、ステップ160においてスピーチ信
号が、ステップ164で剰余信号を出するために逆フィ
ルタに入力される。図示のように、この好ましい実施例
では、現ピッチエポックにおいて中心化され、2ピッチ
周期を覆うように調整されたハニング(Hanning)ウイン
ドウを使用する。他のウインドウも又可能である。剰余
信号はそれから、ステップ166において処理され、弧
長計算において使用されるためのデータ点が抽出され
る。
号が、ステップ164で剰余信号を出するために逆フィ
ルタに入力される。図示のように、この好ましい実施例
では、現ピッチエポックにおいて中心化され、2ピッチ
周期を覆うように調整されたハニング(Hanning)ウイン
ドウを使用する。他のウインドウも又可能である。剰余
信号はそれから、ステップ166において処理され、弧
長計算において使用されるためのデータ点が抽出され
る。
【0042】剰余信号はデータ点を抽出するためいくつ
かの異なった方法で処理されることができる。ステップ
168に示したように、この処理は処理ルーチンの一つ
のクラス中の一つまたはそれ以上に分岐することができ
る。このようなルーチンの諸例はステップ170に示さ
れている。次に、弧長(または自乗長)の計算がステッ
プ172において行われる。結果として得られる値は一
つのコストパラメータ値として役立つ。
かの異なった方法で処理されることができる。ステップ
168に示したように、この処理は処理ルーチンの一つ
のクラス中の一つまたはそれ以上に分岐することができ
る。このようなルーチンの諸例はステップ170に示さ
れている。次に、弧長(または自乗長)の計算がステッ
プ172において行われる。結果として得られる値は一
つのコストパラメータ値として役立つ。
【0043】フィルタパラメータの初期値集合に対し
て、コストパラメータ値を計算した後、これらフィルタ
パラメータは、ステップ174において選択的に調整さ
れ、本手順はステップ176に示したように、最小コス
トが得られるまで逐次的に繰り返される。
て、コストパラメータ値を計算した後、これらフィルタ
パラメータは、ステップ174において選択的に調整さ
れ、本手順はステップ176に示したように、最小コス
トが得られるまで逐次的に繰り返される。
【0044】ひとたび最小コストが達成されれば、この
最小コストに対応する抽出された剰余信号は、ステップ
178においてソース信号として使用される。この最小
コストに対応するフィルタパラメータの値は、ステップ
180においてソース・フィルタ型モデルにおけるフィ
ルタパラメータの値として使用される。
最小コストに対応する抽出された剰余信号は、ステップ
178においてソース信号として使用される。この最小
コストに対応するフィルタパラメータの値は、ステップ
180においてソース・フィルタ型モデルにおけるフィ
ルタパラメータの値として使用される。
【0045】ソース信号及びフィルタパラメータの値の
抽出に関する、より詳しい内容については、スティーブ
・パーソンによる、本願発明の譲受人に譲渡された米国
特許出願「コスト関数と逆フィルタリングを使い、符号
化と合成のためにソースとフィルタに関するデータを抽
出するフォルマントベースの方法及び装置」を参照して
いただきたい。
抽出に関する、より詳しい内容については、スティーブ
・パーソンによる、本願発明の譲受人に譲渡された米国
特許出願「コスト関数と逆フィルタリングを使い、符号
化と合成のためにソースとフィルタに関するデータを抽
出するフォルマントベースの方法及び装置」を参照して
いただきたい。
【0046】本発明は目下の好ましい実施例において説
明したが、本発明は、添付の請求項目において表明され
ている本発明の精神からはずれることなく、変更を加え
ることができるものと理解されるべきである。
明したが、本発明は、添付の請求項目において表明され
ている本発明の精神からはずれることなく、変更を加え
ることができるものと理解されるべきである。
【図1】 本発明に採用する事ができる基本的なソース
・フィルタ型モデルを示す概略図。
・フィルタ型モデルを示す概略図。
【図2】 スピーチシンセサイザの技術のブロックダイ
アグラムであって、可能なソースとフィルタの組み合わ
せのスペクトルを示し、特に、本発明のシンセサイザが
存在する領域を示す図。
アグラムであって、可能なソースとフィルタの組み合わ
せのスペクトルを示し、特に、本発明のシンセサイザが
存在する領域を示す図。
【図3】 本発明において使用される波形データベース
を構築するための手順を示すフローチャート。
を構築するための手順を示すフローチャート。
【図4a、4b】 本発明に関わる合成過程を示すフロ
ーチャート。
ーチャート。
【図5】 ソース波形の断片の時間領域クロスフェード
を示す波形図。
を示す波形図。
【図6】 本発明を実践するする際に役に立つ好ましい
装置の説明図。
装置の説明図。
【図7】 本発明に関わるプロセスを示すフローチャー
ト。
ト。
112 フィルタモデル 116 逆フィ
ルタ 110 フィルタ 114 フィル
タパラメータ 122 コスト関数 124 コスト
最小化部
ルタ 110 フィルタ 114 フィル
タパラメータ 122 コスト関数 124 コスト
最小化部
フロントページの続き
(72)発明者 ナンシー・ニードジールスキー
アメリカ合衆国93110カリフォルニア州
サンタ・バーバラ、プリモベラ4017エイ
番
(56)参考文献 特開 昭63−208099(JP,A)
特開 昭62−102294(JP,A)
特開 平7−177031(JP,A)
特開 平6−175692(JP,A)
特公 昭61−61400(JP,B1)
(58)調査した分野(Int.Cl.7,DB名)
G10L 13/06
Claims (7)
- 【請求項1】 結合型スピーチシンセサイザであって、 (a)複数の半音節に対応する半音節波形データ及び
(b)前記複数の半音節に対応するフィルタパラメータ
データを含むデータベースと、 合成すべき入力列に対応する、選択された半音節波形デ
ータ及びフィルタパラメータの値を前記データベースか
ら抽出するための単位選択システムと、 抽出された半音節波形データの対を結合して、音節波形
信号を生成するための波形クロスフェード機構と、 抽出されたフィルタパラメータの値の間を補間すること
によって、音節レベルフィルタデータの集合を定義する
ためのフィルタパラメータクロスフェード機構と、 前記音節レベルフィルタデータの集合を受容し、前記音
節波形信号を処理して合成スピーチを生成するために作
用するフィルタモジュールとで構成したシンセサイザ。 - 【請求項2】 前記波形クロスフェード機構が時間領域
において作用する請求項1に記載のシンセサイザ。 - 【請求項3】 前記フィルタパラメータクロスフェード
機構が周波数領域において作用する請求項1に記載のシ
ンセサイザ。 - 【請求項4】 前記波形クロスフェード機構が、一つの
音節に対応する、予め定義された持続時間に渉って二つ
の半音節に線形クロスフェードを行うことを特徴とする
請求項1に記載のシンセサイザ。 - 【請求項5】 前記フィルタパラメータクロスフェード
機構が、二つの半音節のそれぞれ抽出されたフィルタパ
ラメータの値の間を補間することを特徴とする請求項1
に記載のシンセサイザ。 - 【請求項6】 前記フィルタパラメータクロスフェード
機構が、二つの半音節のそれぞれ抽出されたフィルタパ
ラメータの値の間を線形補間することを特徴とする請求
項1に記載のシンセサイザ。 - 【請求項7】 前記フィルタパラメータクロスフェード
機構が、二つの半音節のそれぞれ抽出されたフィルタパ
ラメータの値の間をシグモイ補間することを特徴とする
請求項1に記載のシンセサイザ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/200,327 US6144939A (en) | 1998-11-25 | 1998-11-25 | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains |
US09/200327 | 1998-11-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000172285A JP2000172285A (ja) | 2000-06-23 |
JP3408477B2 true JP3408477B2 (ja) | 2003-05-19 |
Family
ID=22741247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP33263399A Expired - Fee Related JP3408477B2 (ja) | 1998-11-25 | 1999-11-24 | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ |
Country Status (5)
Country | Link |
---|---|
US (2) | US6144939A (ja) |
EP (2) | EP1347440A3 (ja) |
JP (1) | JP3408477B2 (ja) |
DE (1) | DE69909716T2 (ja) |
ES (1) | ES2204071T3 (ja) |
Families Citing this family (145)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6266638B1 (en) * | 1999-03-30 | 2001-07-24 | At&T Corp | Voice quality compensation system for speech synthesis based on unit-selection speech database |
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US6807574B1 (en) | 1999-10-22 | 2004-10-19 | Tellme Networks, Inc. | Method and apparatus for content personalization over a telephone interface |
US7941481B1 (en) | 1999-10-22 | 2011-05-10 | Tellme Networks, Inc. | Updating an electronic phonebook over electronic communication networks |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
US6847931B2 (en) | 2002-01-29 | 2005-01-25 | Lessac Technology, Inc. | Expressive parsing in computerized conversion of text to speech |
US7308408B1 (en) * | 2000-07-24 | 2007-12-11 | Microsoft Corporation | Providing services for an information processing system using an audio interface |
US7143039B1 (en) | 2000-08-11 | 2006-11-28 | Tellme Networks, Inc. | Providing menu and other services for an information processing system using a telephone or other audio interface |
US6990450B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US6871178B2 (en) * | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
US7451087B2 (en) * | 2000-10-19 | 2008-11-11 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US6990449B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | Method of training a digital voice library to associate syllable speech items with literal text syllables |
JP3901475B2 (ja) | 2001-07-02 | 2007-04-04 | 株式会社ケンウッド | 信号結合装置、信号結合方法及びプログラム |
US7546241B2 (en) * | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
GB2392592B (en) * | 2002-08-27 | 2004-07-07 | 20 20 Speech Ltd | Speech synthesis apparatus and method |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
CN1604077B (zh) * | 2003-09-29 | 2012-08-08 | 纽昂斯通讯公司 | 对发音波形语料库的改进方法 |
US7571104B2 (en) * | 2005-05-26 | 2009-08-04 | Qnx Software Systems (Wavemakers), Inc. | Dynamic real-time cross-fading of voice prompts |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8024193B2 (en) * | 2006-10-10 | 2011-09-20 | Apple Inc. | Methods and apparatus related to pruning for concatenative text-to-speech synthesis |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101281744B (zh) | 2007-04-04 | 2011-07-06 | 纽昂斯通讯公司 | 语音分析方法和装置以及语音合成方法和装置 |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8332215B2 (en) * | 2008-10-31 | 2012-12-11 | Fortemedia, Inc. | Dynamic range control module, speech processing apparatus, and method for amplitude adjustment for a speech signal |
US20100131268A1 (en) * | 2008-11-26 | 2010-05-27 | Alcatel-Lucent Usa Inc. | Voice-estimation interface and communication system |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8559813B2 (en) | 2011-03-31 | 2013-10-15 | Alcatel Lucent | Passband reflectometer |
US8666738B2 (en) | 2011-05-24 | 2014-03-04 | Alcatel Lucent | Biometric-sensor assembly, such as for acoustic reflectometry of the vocal tract |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9640172B2 (en) * | 2012-03-02 | 2017-05-02 | Yamaha Corporation | Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2553555B1 (fr) * | 1983-10-14 | 1986-04-11 | Texas Instruments France | Procede de codage de la parole et dispositif pour sa mise en oeuvre |
JPS62100027A (ja) * | 1985-10-28 | 1987-05-09 | Hitachi Ltd | 音声符号化方式 |
JPS62102294A (ja) | 1985-10-30 | 1987-05-12 | 株式会社日立製作所 | 音声符号化方式 |
JPS62194296A (ja) * | 1986-02-21 | 1987-08-26 | 株式会社日立製作所 | 音声符号化方式 |
JPH0638192B2 (ja) | 1986-04-24 | 1994-05-18 | ヤマハ株式会社 | 楽音発生装置 |
JPS63127630A (ja) * | 1986-11-18 | 1988-05-31 | Hitachi Ltd | 音声圧縮処理装置 |
US4910781A (en) * | 1987-06-26 | 1990-03-20 | At&T Bell Laboratories | Code excited linear predictive vocoder using virtual searching |
US5400434A (en) * | 1990-09-04 | 1995-03-21 | Matsushita Electric Industrial Co., Ltd. | Voice source for synthetic speech system |
JP3175179B2 (ja) * | 1991-03-19 | 2001-06-11 | カシオ計算機株式会社 | デジタルピッチシフター |
JPH06175692A (ja) | 1992-12-08 | 1994-06-24 | Meidensha Corp | 音声合成装置のデータ接続方法 |
US5536902A (en) * | 1993-04-14 | 1996-07-16 | Yamaha Corporation | Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter |
JPH07177031A (ja) | 1993-12-20 | 1995-07-14 | Fujitsu Ltd | 音声符号化制御方式 |
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
JP2976860B2 (ja) * | 1995-09-13 | 1999-11-10 | 松下電器産業株式会社 | 再生装置 |
US5729694A (en) * | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
SG65729A1 (en) * | 1997-01-31 | 1999-06-22 | Yamaha Corp | Tone generating device and method using a time stretch/compression control technique |
US6041300A (en) * | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
US6119086A (en) * | 1998-04-28 | 2000-09-12 | International Business Machines Corporation | Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens |
AU772874B2 (en) * | 1998-11-13 | 2004-05-13 | Scansoft, Inc. | Speech synthesis using concatenation of speech waveforms |
US6266638B1 (en) * | 1999-03-30 | 2001-07-24 | At&T Corp | Voice quality compensation system for speech synthesis based on unit-selection speech database |
US6496801B1 (en) * | 1999-11-02 | 2002-12-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
-
1998
- 1998-11-25 US US09/200,327 patent/US6144939A/en not_active Ceased
-
1999
- 1999-11-22 EP EP03008984A patent/EP1347440A3/en not_active Withdrawn
- 1999-11-22 EP EP99309293A patent/EP1005017B1/en not_active Expired - Lifetime
- 1999-11-22 ES ES99309293T patent/ES2204071T3/es not_active Expired - Lifetime
- 1999-11-22 DE DE69909716T patent/DE69909716T2/de not_active Expired - Fee Related
- 1999-11-24 JP JP33263399A patent/JP3408477B2/ja not_active Expired - Fee Related
-
2002
- 2002-11-05 US US10/288,029 patent/USRE39336E1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
USRE39336E1 (en) | 2006-10-10 |
ES2204071T3 (es) | 2004-04-16 |
EP1005017B1 (en) | 2003-07-23 |
DE69909716T2 (de) | 2004-08-05 |
EP1005017A3 (en) | 2000-12-20 |
EP1005017A2 (en) | 2000-05-31 |
JP2000172285A (ja) | 2000-06-23 |
US6144939A (en) | 2000-11-07 |
DE69909716D1 (de) | 2003-08-28 |
EP1347440A2 (en) | 2003-09-24 |
EP1347440A3 (en) | 2004-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
US5400434A (en) | Voice source for synthetic speech system | |
US8219398B2 (en) | Computerized speech synthesizer for synthesizing speech from text | |
US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
JPH031200A (ja) | 規則型音声合成装置 | |
JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
EP0561752B1 (en) | A method and an arrangement for speech synthesis | |
O'Shaughnessy | Modern methods of speech synthesis | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
Carlson | Models of speech synthesis. | |
US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
Mandal et al. | Epoch synchronous non-overlap-add (ESNOLA) method-based concatenative speech synthesis system for Bangla. | |
Venkatagiri et al. | Digital speech synthesis: Tutorial | |
Waghmare et al. | Analysis of pitch and duration in speech synthesis using PSOLA | |
Furtado et al. | Synthesis of unlimited speech in Indian languages using formant-based rules | |
JP3742206B2 (ja) | 音声合成方法及び装置 | |
Datta et al. | Epoch Synchronous Overlap Add (ESOLA) | |
Ng | Survey of data-driven approaches to Speech Synthesis | |
Chowdhury | Concatenative Text-to-speech synthesis: A study on standard colloquial bengali | |
Ademi et al. | NATURAL LANGUAGE PROCESSING AND TEXT-TO-SPEECH TECHNOLOGY | |
KR100608643B1 (ko) | 음성 합성 시스템의 억양 모델링 장치 및 방법 | |
Сатыбалдиыева et al. | Analysis of methods and models for automatic processing systems of speech synthesis | |
Datta et al. | Introduction to ESOLA | |
Juergen | Text-to-Speech (TTS) Synthesis | |
Lavner et al. | Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080314 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090314 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100314 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |