JP3224000B2

JP3224000B2 - テキスト−音声変換システム

Info

Publication number: JP3224000B2
Application number: JP12209695A
Authority: JP
Inventors: リチャード・アンソニー・シャーマン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1994-07-19
Filing date: 1995-05-22
Publication date: 2001-10-29
Anticipated expiration: 2016-10-29
Also published as: US5774854A; EP0694904A3; GB9414539D0; DE69521244T2; EP0694904B1; EP0694904A2; GB2291571A; JPH0830287A; DE69521244D1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力テキストを自然音
声を模倣する出力音響信号に変換するテキスト−音声変
換システムに関する。

【０００２】

【従来の技術】テキスト−音声変換（ＴＴＳ：Text To
Speech）システムは、テキスト入力から直接人口的な音
声音を生成する。従来のＴＴＳは一般に厳密に順次的に
動作する。入力テキストは特定の外部プロセスにより、
文などの比較的大きなセグメントに分割される。各セグ
メントは次に、要求される音響出力が生成されるまで、
ステップ毎に順次処理される。ＴＴＳシステムの例
が、"Talking Machines：Theories、Models、and Desig
ns"（G Bailly及びC Benoit編集、北オランダ１９９２
年）、及びKlattによる"Review of text-to-speech con
version for English"（Journal of the Acoustical So
ciety of America、vol 82/3、p．737-793、１９８７
年）に述べられている。

【０００３】現ＴＴＳシステムは、容易に合成的である
と認識される音声品質及び発音スタイルを生成するが、
情報報告、ワークステーション対話及び身体障害者の支
援など、広い範囲の応用例に知能的且つ好適に対応す
る。しかしながら、そのロボット的な音声品質、不正確
な規則による表記誤り及び抑揚に関連する手掛かり（cu
e）の不十分な知能性により、より広範な採用が妨げら
れてきた。一般に、問題は特定の音声機能の不正確また
は不適切なモデル化から生じる。従って、こうした欠点
を克服するために文法情報などのモデル化の改善に対し
て、かなりな注目が注がれてきたが、こうした効果は市
販のシステムに成功裡に統合されるまでには至っていな
い。

【０００４】従来のテキスト−音声変換システムは、２
つの要素、すなわち言語プロセッサと音響プロセッサと
を有する。システムへの入力はテキストであり、出力は
人間にとって入力テキストに対応する音声と認識されう
る音響波形である。言語プロセッサから音響プロセッサ
へのインターフェイスを介して渡されるデータは、制御
情報（例えば音素、持続期間及びピッチ）と一緒に、音
声セグメントのリストを含む。音響プロセッサは次に、
指定セグメントに対応する音を生成し、更に自然な音声
を生成するように、それらの間の境界を正確に処理する
役目をする。言語プロセッサ及び音響プロセッサのオペ
レーションは、大部分、互いに独立である。例えば欧州
特許第１５８２７０号は、言語プロセッサが遠隔的に分
散される複数の音響プロセッサに更新を提供するために
使用されるシステムを開示する。

【０００５】従来のＴＴＳシステムのアーキテクチャ
は、通常、音声セグメントのリストが音響プロセッサに
転送される以前に、関連入力テキストが言語プロセッサ
を通じて完全に渡される点で、"ソーセージ（sausag
e）"・マシン・アプローチを基本とする。ここでソーセ
ージと口語的に表現したのは、通常のＴＴＳシステムの
アーキテクチャは典型的には高度にシーケンシャルなア
プローチに基づいているからである。言語プロセッサ内
の個々の要素さえも、一般に、類似して完全に順次的に
動作される（音響プロセッサについては、固定レートで
音声サンプルを出力する必要によりシステムが駆動され
る点で、状況は多少異なる）。

【０００６】

【発明が解決しようとする課題】こうしたアプローチは
ＴＴＳシステムの学術的研究においては十分であるが、
多くの市場のアプリケーションにおいて要求される実時
間オペレーションに対しては十分に適応しない。更に従
来のアプローチは大きな中間バッファを必要とし、また
何らかの理由により、実際にはテキストの１部だけが要
求される場合に、たくさんの無駄な処理を含んでいる。

【０００７】従って、本発明の目的は、入力テキストを
自然音声を模倣する出力音響信号に変換するテキスト−
音声（ＴＴＳ）変換システムを提供することにある。

【０００８】

【課題を解決するための手段】このテキスト−音声変換
システムは、入力テキストから音声セグメント並びに関
連パラメータのリストを生成する言語プロセッサと、音
声セグメント並びに関連パラメータの前記リストから、
出力音響波形を生成する音響プロセッサとを含む。この
システムは、音響プロセッサが音声セグメントと関連パ
ラメータのリストを更に獲得する必要があるときに、言
語プロセッサに要求を送信し、言語プロセッサがこうし
た要求に応答して入力テキストを処理することを特徴と
する。

【０００９】ＴＴＳシステムでは、音響波形が生成され
る以前に、文の言語的復号化を実行することが必要であ
る。言語処理における詳細な処理ステップのいくつか
は、必然的に、順次的に実行されなければならない。例
えば、通常、綴字単語表現をその音声表記に変換する以
前に、例えば略語を標準単語形式に変換するなどのテキ
スト変換が必要である。しかしながら、通常の従来シス
テムにおける処理の順次性は、潜在的ユーザの要求には
適合しなかった。

【００１０】本発明は、大きなテキストを自然に調音す
る能力が、市場における多くの状況、例えばテキストが
単に数の列（例えば時間割）であったり、または短い質
問（例えば対話型電話応答システム）であるような状況
において、限られた利益しかもたらさず、テキスト−音
声変換を実時間で実行する能力が不可欠であることを認
識するものである。しかしながら、使用可能な処理能力
の制限などの他の要因も、しばしば非常に重要となる。
現行の学術的なシステムの多くは、こうした市場の要求
に適合しない。それに対して本発明のアーキテクチャ
は、特に過度な処理を回避するように設計される。

【００１１】好適には、ＴＴＳシステムが出力音声の生
成を停止するためのコマンドを受信すると、このコマン
ドが最初に音響プロセッサに転送される。それにより、
例えばＴＴＳ処理が中断されると（例えば呼出し人が獲
得したい情報を聞き、電話を置く）、ＴＴＳ処理の終了
が出力端に提供される。この終了は次にＴＴＳシステム
を通じ、逆方向に効果的に伝播される。終了は出力端に
おいて提供されるので、自然とユーザにより指定される
終了ポイントに一致し、ユーザはシステムの出力だけ、
または音響的に適切なブレークポイント（例えば句（ph
rase）の終り）を聞くことになる。入力テキスト内のど
のポイントで終了するかを推測したり、或いは入力テキ
スト内の任意のバッファ・ポイントで終了する必要はな
い。

【００１２】また言語プロセッサが、音響プロセッサか
らの要求に対応して、音声セグメント及び関連パラメー
タのリストの可用性を示す応答を送信することが好まし
い。音響プロセッサが各要求に対応して、言語プロセッ
サから１ブレス（breath）グループに対応する音声セグ
メントを獲得すると都合がよい。１ブレス・グループは
単語のセット（典型的には文または文の一部）であっ
て、息を吐き出す間に話されるものに対応する。各ブレ
ス・グループは話し手の息の吸い込みで始まり、次の息
の吸い込みまでに話される単語を含むものである。

【００１３】好適な実施例では、ＴＴＳシステムは更
に、音響プロセッサと言語プロセッサとの間の媒介とし
て作用するプロセス・ディスパッチャを含み、要求及び
応答はこのプロセス・ディスパッチャを介して経路指定
される。明らかに、音響プロセッサ及び言語プロセッサ
は、（データの場合同様）制御コマンドを直接通信する
ことができるが、プロセス・ディスパッチャの使用は容
易に識別される制御ポイントを提供する。従って、ＴＴ
Ｓシステムを起動または停止するコマンドはプロセス・
ディスパッチャに経路指定され、プロセス・ディスパッ
チャは次に適切なアクションを実行する。通常、プロセ
ス・ディスパッチャはＴＴＳシステムのオペレーション
をモニタするために、まだ応答が受信されていない要求
のリストを保持する。

【００１４】好適な実施例では、音響プロセッサまたは
言語プロセッサ（またはそれらの両者）は、入力から出
力に順次配列される複数のステージを含み、各ステージ
は続くステージからの要求に応答して処理を実行する
（ここで"続くステージ"とは、出力の方向に隣接するス
テージである）。ここで、ステージの列内に幾つかの並
列分岐が存在しうることに注意されたい。このように、
システム全体が出力からコンポーネント・レベルで駆動
される。このことは上述の利益を最大化する。再度、隣
接ステージ間の制御通信がプロセス・ディスパッチャを
介して実行される。更に出力のサイズが前記複数のステ
ージ間で可変であることが好ましい。それにより、各ス
テージはその最も自然な出力単位を生成することができ
る。例えば、あるステージは単一の単語を続くステージ
に出力し、別のステージは音素を出力し、更に別のステ
ージはブレス・グループを出力したりする。

【００１５】好適には、ＴＴＳシステムは２つのマイク
ロプロセッサを含み、言語プロセッサは一方のマイクロ
プロセッサ上で動作し、音響プロセッサは他方のマイク
ロプロセッサ上で、実質的に言語プロセッサと並列に動
作する。こうした構成は、特に固有のＤＳＰを有するア
ダプタ・カードを装備したワークステーションにおいて
有効である。しかしながら、言語プロセッサ及び音響プ
ロセッサ（またはそれらのコンポーネント）が、単一の
または複数のマイクロプロセッサ上のスレッドとして実
現されることも可能である。言語プロセッサと音響プロ
セッサを独立に効果的に実行することにより、これらの
２つのセクション内の処理が非同期に並列に実行され
る。全体レートは出力ユニットの要求により制御され、
言語プロセッサは自身のペースで動作することができる
（勿論、全体レートは、音響プロセッサに連続的に供給
されるように、テキストを平均的に迅速に処理するよう
に設定される）。これは、従来のアプローチとは対照的
な点であり、従来は言語プロセッサと音響プロセッサの
処理が主に順次的に実行された。従って、並列アプロー
チの使用は、実質的な性能の向上を提供する。

【００１６】通常、言語プロセッサがホスト・ワークス
テーション上で実行されるのに対して、音響プロセッサ
は、ワークステーションに接続されるアダプタ・カード
上の別のデジタル処理チップ上で実行される。この便利
な構成は、音響プロセッサとして機能する適切なアダプ
タ・カードの広範な可用性により、直接的に実現され、
言語処理と音響処理との間の干渉を防止する。

【００１７】

【実施例】図１は、本発明を実施するために使用される
データ処理システムを示す。このシステムは中央処理装
置（ＣＰＵ）１０５、ランダム・アクセス・メモリ（Ｒ
ＡＭ）１１０、読出し専用メモリ（ＲＯＭ）１１５、ハ
ード・ディスクなどの大容量記憶装置１２０、入力装置
１２５及び出力装置１３０を含み、これらは全てバス・
アーキテクチャ１３５により相互接続される。合成され
るテキストが大容量記憶装置またはキーボードを典型と
する入力装置により入力され、ラウドスピーカ１４０を
典型とする出力装置において、音声出力に変換される
（ここでデータ処理システムは一般に、マウス及び表示
システムなどの他の部品も含むが、これらは本発明には
関与しないために図１では示されていない）。本発明を
実施するために使用されるデータ処理システムの例に、
ＭＡＣＰ（Multimedia Audio Capture and Playback）
アダプタ・カードを装備したＲＩＳＣシステム／６００
０があり、上記両者共にＩＢＭ社から提供される。しか
しながら、他の多くのハードウェア・システムも使用可
能である。

【００１８】図２は、テキスト−音声変換システムのコ
ンポーネント及びコマンドの流れを示す高レベル・ブロ
ック図である。従来技術の場合同様、２つの主要コンポ
ーネントは、言語プロセッサ２１０及び音響プロセッサ
２２０である。これらについては以降で詳細に述べられ
るが、実質的には従来と同様のタスクを実行する。すな
わち、言語プロセッサは入力テキストを受信し、それを
注釈付きテキスト・セグメント列に変換する。このセグ
メント列は次に音響プロセッサに提供され、音響プロセ
ッサは注釈付きテキスト・セグメントを出力音声に変換
する。本実施例では、注釈付きテキスト・セグメント列
は、音素（時に"単音"（phone）と呼ばれる）のリスト
に加え、ピッチ及び持続期間の値を含む。しかしなが
ら、他の音声セグメント（例えば音節（syllable）また
は２重音（diphone））についても、他の情報（例えば
音量（volume））と共に容易に使用することができる。

【００１９】図２には、更にプロセス・ディスパッチャ
２３０が示される。これは言語プロセッサ及び音響プロ
セッサのオペレーション、より詳しくは、それらの相互
の対話を制御するために使用される。プロセス・ディス
パッチャは従って、システムの全体オペレーションを効
果的に統制する。これは、図２において矢印Ａ乃至Ｄに
より示されるように、アプリケーション間でメッセージ
を送信することにより達成される（こうしたプロセス間
通信は当業者には既知である）。

【００２０】ＴＴＳシステムが起動されると、音響プロ
セッサはプロセス・ディスパッチャにメッセージを送信
し（矢印Ｄ）、適切な入力データを要求する。プロセス
・ディスパッチャは次にこの要求を言語プロセッサに転
送し（矢印Ａ）、言語プロセッサはそれに応じて、適切
な量の入力テキストを処理する。言語プロセッサは次に
プロセス・ディスパッチャに、注釈付きテキストの次の
出力単位が使用可能であることを通知する（矢印Ｂ）。
この通知は音響プロセッサに転送され（矢印Ｃ）、次に
音響プロセッサは言語プロセッサから適切な注釈付きテ
キストを獲得する。

【００２１】ここで音響プロセッサにより更にデータが
要求されると、音響プロセッサはこうしたデータが使用
可能になるまで、単に言語プロセッサの出力ステージを
ポーリングすると言う点で、矢印Ｂ及びＣにより提供さ
れる返却通知は必要でないことを述べておく。しかしな
がら、ここで示される返却通知は、第１に、音響プロセ
ッサがまだ到来していないデータを探す必要を回避し、
プロセス・ディスパッチャがシステムの全体ステータス
を記録することを可能にする。従って、プロセス・ディ
スパッチャは、各未達成な要求（矢印Ｄ及びＡで表され
る）に関する情報を記憶し、こうした情報が返却通知
（矢印Ｂ及びＣ）と照合される。

【００２２】図３は、言語プロセッサ２１０の構造自
体、及び言語プロセッサ内部におけるデータ・フローを
表す。この構造は当業者には既知であり、既知のシステ
ムとの違いは、コンポーネントの識別または機能ではな
く、それらの間においてデータの流れが制御される様子
にある。理解を容易にするために、コンポーネントは入
力テキストに遭遇する順番、すなわち従来の"ソーセー
ジ・マシン"・アプローチに従い示されているが、後述
されるように、言語プロセッサのオペレーションは極め
て異なって駆動される。

【００２３】言語プロセッサの第１のコンポーネント３
１０（ＬＥＸ）は、テキストのトークン化（tokenisati
on）及び事前処理を実行する。このコンポーネントの機
能は、要求入出力オペレーションを実行するために、キ
ーボードまたは記憶ファイルなどのソースから入力を獲
得し、スペース、句読点などにもとづき、入力テキスト
をトークン（単語）に分割することである。入力のサイ
ズは所望されるように調整され、固定数の文字、完全な
文またはテキスト・ライン（すなわち、それぞれ次の終
止符または返却文字まで）、或いは他の適切なセグメン
トを表現することができる。次のコンポーネント３１５
（ＷＲＤ）は単語変換を担う。字句項目（lexical ite
m）を基準形式（canonical form）にマップするため
に、その場限りの規則が適用される。例えば、数は単語
ストリングに変換され、頭字語及び略語は展開される。
この状態の出力は入力テキストの口述形式を表す。すな
わち、テキストが正しく書下ろされたことを保証する内
容が秘書に対して話される。これは句読点の存在を示す
指示を含む必要がある。

【００２４】処理は次に２つの分岐に分かれ、実質的に
一方は個々の単語に関わり、他はより大きな文法作用
（韻律素（prosody））に関わる。最初に前者の分岐に
ついて述べると、これは単語を構成音節に分解するコン
ポーネント３２０（ＳＹＬ）を含む。通常、これは辞書
参照により実行されるが、辞書に存在しない単語を処理
可能な特定の予備機構を含むことも有用である。これは
しばしば、例えば接頭語または接尾語を除去し、その単
語が既に辞書に存在する単語に関連するかどうかを確か
めることにより実行される（そのような推定にもとづ
き、類似の方法により音節に分解される）。次のコンポ
ーネント３２５（ＴＲＡ）は、次に音声表記を実行し、
音節に区分された単語が、再度辞書参照用テーブルによ
り、その構成音素に分解される。その際、辞書に無い単
語に対する汎用規則が増補される。韻律素分岐上のコン
ポーネントＰＯＳへのリンクが存在し、これについては
後述される。なぜなら、音声的な曖昧性を解析するため
に、時に文法情報が使用されるからである（例えば、"p
resent"の発音はそれが動詞か名詞かにより変化す
る）。ここでＳＹＬとＴＲＡとを、単一の処理コンポー
ネントに結合することも可能である。

【００２５】ＴＲＡの出力は生成される音声を表す音素
の列であり、これは持続期間割当てコンポーネント３３
０（ＤＵＲ）に渡される。この音素列は、最終的には、
音素のピッチ及び持続期間を表す注釈と共に、言語プロ
セッサから音響プロセッサに渡される。これらの注釈
は、言語プロセッサのコンポーネントにより次のように
生成される。最初に、コンポーネント３３５（ＰＯＳ）
が各単語を音声の１部に割当てようとする。これを実施
するための様々な方法が存在し、従来の一般的な方法の
１つでは、単に単語を辞書で調査する。しばしば追加の
情報が要求され、これらは文法的または統計的に決定さ
れる規則により提供される。例えば後者の場合、単語"t
he"は、通常、名詞または形容詞を伴う。上述したよう
に、１部音声割当てが音声表記コンポーネント（ＴＲ
Ａ）に供給される。

【００２６】韻律素分岐内の次のコンポーネント３４０
（ＧＲＭ）は、一連の単語の１部音声割当てにもとづ
き、句境界を決定する。例えば、接続子はしばしば句境
界に存在する。句識別は、単語変換コンポーネント（Ｗ
ＲＤ）から獲得されるカンマ及び終止符などの句読点情
報も使用することができる。句識別は次に、後述の分岐
グループ・アセンブリ・ユニット３５０（ＢＲＴ）及び
持続期間割当てコンポーネント３３０（ＤＵＲ）に渡さ
れる。持続期間割当てコンポーネントは、句情報を音声
表記ＴＲＡにより供給される音素列に結合し、出力列内
の各音素の予測持続期間を決定する。通常、持続期間
は、各音素を標準持続期間に割当てることにより決定さ
れる。標準持続期間は、例えば隣接音素の識別または句
内における位置（句の終りの音素は引き延ばされる傾向
がある）などの特定の規則に従い変更される。セグメン
ト持続期間を予測するために隠れマルコフ・モデル（Ｈ
ＭＭ）を使用する別のアプローチが、係属中の英国特許
出願第ＧＢ９４１２５５５．６号（ＵＫ９−９４−００
７）で述べられている。

【００２７】言語プロセッサ内の最後のコンポーネント
３５０（ＢＲＴ）は、ブレス・グループ・アセンブリで
あり、ブレス・グループを表す音素列を構成する。ブレ
ス・グループは実質的に、句識別コンポーネント（ＧＲ
Ｍ）により識別される句に対応する。ブレス・グループ
内の各音素は、ブレス・グループ句のピッチ曲線（pitc
h contour）にもとづきピッチを割当てられる。これに
より言語プロセッサは、音響プロセッサに音素に加えピ
ッチ及び持続期間を含む注釈付きリストを出力すること
ができる。各リストは１ブレス・グループを表す。

【００２８】図４は音響プロセッサの詳細を示す。音響
プロセッサのコンポーネントは従来と同様であり、当業
者には既知である。２重音ライブラリ４２０は、２重音
（２つの音素間の遷移を表す）の予め記録されたセグメ
ントを効果的に含む。しばしば、各２重音の多くのサン
プルが収集され、これらが統計的に平均化されて、２重
音ライブラリにおいて使用される。約５０の共通音素が
存在するので、２重音ライブラリは潜在的には約２５０
０のエントリを有するが、実際には全ての音素の組合わ
せが、自然音声において発生するわけではない。

【００２９】従って、音響プロセッサが音素のリストを
受信すると、最初のステージ４１０（ＤＩＰ）が、単に
音素の連続対にもとづき、この入力リスト内の２重音を
識別する。関連する２重音が次に２重音ライブラリから
検索され、２重音連結ユニット４１５（ＰＳＯＬＡ）に
より一緒に連結される。２重音の間に聞き取れる不連続
性が発生しないように、適切な補間技術が使用され、こ
の補間の長さは、各音素が言語プロセッサにより指定さ
れる正しい持続期間を有するように制御される。"ＰＳ
ＯＬＡ"はピッチ同期オーバラップ加算（pitch synchro
nous overlap-add）を意味し、これは合成の特定の形態
を表す（詳しくは、Carpentier及びMoulinesによる"Pit
ch-synchronous waveform processing techniques for
text-to-speech synthesis using diphones"（Proceedi
ngs Eurospeech 89（Paris、１９８９年）、p13-19）、
またはHamon、Moulines及びCharpentierによる"A dipho
neSynthesis System based on time-domain prosodic m
odifications of speech"（ICASSP 89（１９８９年）、
IEEE、p238-241を参照されたい）。勿論、他の適切な合
成技術も使用可能である。次のコンポーネント４２５
（ＰＩＴ）は、要求ピッチに従い、２重音パラメータを
変更する役割をする。最後のコンポーネント４３５（Ｘ
ＭＴ）は、ラウドスピーカまたは他の音声出力装置を駆
動する音響波形を生成する送信機である。現在では、Ｐ
ＩＴ及びＸＭＴはピッチ及び持続期間の両次元において
歪んだ波形を生成する単一のステップに結合される。

【００３０】各コンポーネントにより提供される出力単
位が、表１にリストされる。実時間でラウドスピーカを
駆動するために、一定のデータ・レートで出力を生成し
なければならない最終ステージＸＭＴを除き、こうした
出力は要求に応じて、続くステージへの入力として提供
される。ここで出力単位はテキスト単位（例えば単語、
文、音素）のサイズを表し、多くのステージにおいて、
これはその単位に対応する追加の情報（例えば持続期
間、音声の１部など）を伴う。

【表１】

【００３１】言語プロセッサ及び音響プロセッサの両者
の構造とも、必ずしも上記構造に一致する必要はない。
従来技術（Klattによる"Talking Machines"及び上記参
考文献を参照）は多くの可能な構成を提供しており、こ
れらの全てが当業者には既知である。本発明はこれらの
コンポーネントの性質並びに音素、音節区分された単語
などのそれらの実際の入出力に影響を与えることはな
い。本発明は異なるコンポーネントが、それらの厳密な
性質または機能に関係無く、全体のフロー制御に関連し
てどのように対話するかに関わるものである。

【００３２】図５は、ＴＴＳシステムのコンポーネント
を通じて実行されるデータ・フロー制御を示す流れ図で
ある。この流れ図は、高レベル言語プロセッサ及び音響
プロセッサの両者のオペレーション、及びそれらの内部
の低レベル・コンポーネントのオペレーションを示す。
言語プロセッサは、例えば入力テキストをテキスト・ト
ークン化コンポーネントと同様に受信し、それをブレス
・グループ・アセンブリ・コンポーネントと同様に出力
し、それらの間を"ブラック・ボックス"処理する単一の
コンポーネントとして見なすことができる。こうした状
況では、言語プロセッサ及び音響プロセッサ内の処理が
従来通りであり、言語プロセッサと音響プロセッサの間
のデータ・フローを制御するためにだけ、本発明のアプ
ローチが使用されるものと見なすことができる。

【００３３】ＴＴＳシステムの重要な態様は、実時間で
動作するように意図されることである。音響プロセッサ
が言語プロセッサから更にデータを要求するが、言語プ
ロセッサ内における計算時間により、この要求が満足さ
れる以前に、音響プロセッサがデータを使い果たすよう
な状況は回避されるべきである（こうした状況は音声出
力に絶え間（gap）を生じる）。従って、データに対す
る将来要求が好機に供給されるように、特定のコンポー
ネントが最小量の出力データをバッファしようとするこ
とが好ましい。比較的大きなデータ単位を出力するブレ
ス・グループ・アセンブリ（ＢＲＴ）などのコンポーネ
ント（表１参照）は、一般に、こうした最小量の出力バ
ッファ・データを要求する傾向があるが、他の単位はこ
うした最小量を有さないであろう。図５の最初のステッ
プ５１０では、コンポーネントの出力バッファが十分な
データを含み、最小量を指定するコンポーネントにだけ
適用可能であるかをチェックする。出力バッファは、初
期化時または続くステージへのデータの供給の後に、こ
の最小量よりも少ないかもしれない。出力の充填が要求
されると、これが以降で述べるように実行される。

【００３４】出力バッファは、コンポーネントが受信し
た各入力単位に対して、複数の出力単位を生成するとき
にも使用される。例えば音節区分コンポーネントは、先
行ステージから受信した各入力単位（すなわち単語）か
ら、複数の音節を生成する。これらは次に、１度にアク
セスされるように、次のコンポーネント（音声表記ＴＲ
Ａ）により出力バッファに記憶される。

【００３５】次のステップ５２０は、次のステージから
入力の要求を受信する（要求は出力バッファが充填され
ているときに到来するかもしれず、この場合には、キュ
ーに待機される）。要求が出力バッファ内に既に存在す
るデータから満足されることもあり（ステップ５３
０）、この場合には、データはそれ以上の処理を伴わず
に適宜供給される。しかしながら、上記の場合以外で
は、直前のステージから入力を要求する必要がある（ス
テップ５５０）。例えば音声表記ＴＲＡは、１部音声割
当てコンポーネント（ＰＯＳ）及び音節区分コンポーネ
ント（ＳＹＬ）の両方からデータを要求する。要求が満
足されると（ステップ５６０）、コンポーネントが十分
な入力データを有するかどうかがチェックされる（ステ
ップ５７０）。有さない場合、入力データが要求され続
ける。例えばブレス・グループ・アセンブリ・コンポー
ネント（ＢＲＴ）は、完全なブレス・グループが構成さ
れるまで、持続期間割当てコンポーネント（ＤＵＲ）に
複数の要求を送信する必要がある。同様に、１部音声割
当てコンポーネント（ＰＯＳ）は、通常、完全な句また
は文を要求するので、終止符または他の適切な区切り文
字に遭遇するまで、繰返し入力を要求する。十分なデー
タが獲得されると、コンポーネントは関連する処理を実
行し（ステップ５８０）、結果を出力バッファに記憶す
る（ステップ５９０）。これらの結果は次に、ステップ
５２０の元の要求に応答して次のステージに供給される
か（ステップ５４０）、または将来のこうした要求に応
えるために記憶される。ここで供給ステップ５４０は、
要求コンポーネントへの応答の送信を含み、次に要求コ
ンポーネントは要求データを検索するために、出力バッ
ファをアクセスする。

【００３６】コンポーネントが複数のステージに出力を
送信したり、入力を受信する場合には、多少処理は複雑
になるものの、テキストの順次的な性質により容易に対
応可能である。従って、コンポーネントが出力を２つの
他のコンポーネントに供給する場合には、コンポーネン
トは２つの独立な出力バッファを有し、処理結果を両方
のバッファにコピーすればよい。またコンポーネントが
２つのコンポーネントから入力を受信する場合には、コ
ンポーネントは処理を開始する以前に、両方から入力を
要求する必要がある。一方の入力が他方の入力よりも大
きなテキスト単位に関連する場合、前者の入力がバッフ
ァされる。

【００３７】図５には特に示されていないが、全ての要
求（ステップ５２０及び５５０）は、プロセス・ディス
パッチャを介して経路指定され、プロセス・ディスパッ
チャは未処理の要求を追跡する。同様に、続くステージ
へのデータの供給（ステップ５６０及び５４０）は、最
初にプロセス・ディスパッチャを介して、データが使用
可能であることを示す通知を要求ステージに送信するこ
とにより実施される。要求ステージは次にこの通知に応
じて、先行ステージからデータを収集する。

【００３８】上述のアーキテクチャを有するＴＴＳシス
テムは、通常とは異なって起動及び停止される。すなわ
ち、入力テキストを押し込むのではなく、（例えばプロ
セス・ディスパッチャにより）起動コマンドが受信され
ると、これが音響プロセッサに、そして特に支障がなけ
れば最終コンポーネントに経路指定される。最終コンポ
ーネントは、次に先行コンポーネントに要求を渡し、先
行コンポーネントは要求が入力ステージに達するまで、
この要求をカスケード式に戻す。これがシステムへのデ
ータの入力となる。同様に処理停止のコマンドについて
もシステム端に仕向けられ、そこから他のコンポーネン
トを通じて逆方向に伝播する。

【００３９】上述されたテキスト−音声変換システム
は、任意のアルゴリズムまたは合成技術を採用すること
ができるために最大の柔軟性を有するが、その厳密な制
御及び経済的な処理により、特に市場における使用に適
していると言える。

【００４０】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４１】（１）入力テキストを自然音声を模倣する
出力音響信号に変換するテキスト−音声変換（以下、Ｔ
ＴＳ）システムであって、前記入力テキストから音声セ
グメント並びに関連パラメータのリストを生成する言語
プロセッサと、前記音声セグメント並びに前記関連パラ
メータの前記リストから、出力音響波形を生成する音響
プロセッサとを含み、前記音響プロセッサが、前記音声
セグメント並びに前記関連パラメータの追加のリストを
獲得する必要がある度に、前記言語プロセッサに要求を
送信し、前記言語プロセッサが前記要求に応答して、前
記入力テキストを処理する、ＴＴＳシステム。（２）前記ＴＴＳシステムが出力音声の生成を中止する
コマンドを受信し、該コマンドが最初に前記音響プロセ
ッサに転送される、前記（１）記載のＴＴＳシステム。（３）前記言語プロセッサが前記音響プロセッサからの
前記要求に応じて、前記音声セグメント並びに前記パラ
メータの追加の前記リストの可用性を示す応答を送信す
る、前記（１）または（２）記載のＴＴＳシステム。（４）前記ＴＴＳシステムが、前記音響プロセッサと前
記言語プロセッサとの間の媒介として作用するプロセス
・ディスパッチャを含み、前記要求及び前記応答が前記
プロセス・ディスパッチャを介して経路指定される、前
記（１）、（２）または（３）のいずれかに記載のＴＴ
Ｓシステム。（５）前記プロセス・ディスパッチャがまだ前記応答を
受信していない前記要求のリストを保持する、前記
（４）記載のＴＴＳシステム。（６）前記音響プロセッサ及び前記言語プロセッサの少
なくとも１つが、入力から出力に向けて順次構成される
複数のステージを含み、前記の各ステージが続く前記ス
テージからの要求に応答して処理を実行する、前記
（１）、（２）、（３）、（４）または（５）のいずれ
かに記載のＴＴＳシステム。（７）出力のサイズが前記複数のステージ間で異なる、
前記（６）記載のＴＴＳシステム。（８）前記ＴＴＳシステムが２つのマイクロプロセッサ
を含み、前記言語プロセッサが一方の前記マイクロプロ
セッサ上で動作し、前記音響プロセッサが他方の前記マ
イクロプロセッサ上で、実質的に前記言語プロセッサと
並列に動作する、前記（１）、（２）、（３）、
（４）、（５）、（６）または（７）のいずれかに記載
のＴＴＳシステム。（９）前記音響プロセッサが各前記要求に対して、１ブ
レス・グループに対応する音声セグメントを前記言語プ
ロセッサから獲得する、前記（１）、（２）、（３）、
（４）、（５）、（６）、（７）または（８）のいずれ
かに記載のＴＴＳシステム。

【００４２】

【発明の効果】以上説明したように、本発明によれば、
入力テキストを自然音声を模倣する出力音響信号に実時
間で変換するテキスト−音声（ＴＴＳ）変換システムを
提供することができる。

【図面の簡単な説明】

【図１】本発明を実現するために使用されるデータ処理
システムの簡略化ブロック図である。

【図２】本発明による実時間テキスト−音声変換システ
ムの高レベル・ブロック図である。

【図３】図２の言語プロセッサのコンポーネントを示す
図である。

【図４】図２の音響プロセッサのコンポーネントを示す
図である。

【図５】ＴＴＳシステムの制御オペレーションを示す流
れ図である。

【符号の説明】

１０５中央処理装置（ＣＰＵ）１１０ランダム・アクセス・メモリ（ＲＡＭ）１１５読出し専用メモリ（ＲＯＭ）１２０大容量記憶装置１２５入力装置１３０出力装置１３５バス・アーキテクチャ１４０ラウドスピーカ２１０言語プロセッサ２２０音響プロセッサ２３０プロセス・ディスパッチャ３１０コンポーネント（ＬＥＸ）３１５コンポーネント（ＷＲＤ）３２０コンポーネント（ＳＹＣ）３３０持続期間割当てコンポーネント（ＤＵＲ）３３５コンポーネント（ＰＯＳ）３４０コンポーネント（ＧＲＭ）３５０コンポーネント（ＢＲＴ）４１０ステージ（ＤＩＰ）４１５２重音連結ユニット（ＰＳＯＬＡ）４２５コンポーネント（ＰＩＴ）４３５コンポーネント（ＸＭＴ）４２０２重音ライブラリ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平５−181640（ＪＰ，Ａ) 特開平２−28718（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 13/00

Claims

(57)【特許請求の範囲】

【請求項１】入力テキストを自然音声を模倣する出力音
響信号に変換するテキスト−音声変換（以下、ＴＴＳ）
システムであって、前記入力テキストから音声セグメント並びに関連パラメ
ータのリストを生成する言語プロセッサと、前記音声セグメント並びに前記関連パラメータの前記リ
ストから、出力音響波形を生成する音響プロセッサとを
含み、前記音響プロセッサが、前記音声セグメント並びに前記
関連パラメータの追加のリストを獲得する必要がある度
に、前記言語プロセッサに要求を送信し、前記言語プロ
セッサが前記要求に応答して、前記入力テキストを処理
する、ＴＴＳシステム。
【請求項２】前記ＴＴＳシステムが出力音声の生成を中
止するコマンドを受信し、該コマンドが最初に前記音響
プロセッサに転送される、請求項１記載のＴＴＳシステ
ム。
【請求項３】前記言語プロセッサが前記音響プロセッ
サからの前記要求に応じて、前記音声セグメント並びに
前記パラメータの追加の前記リストの可能性を示す応答
を送信する、請求項１または２記載のＴＴＳシステム。
【請求項４】前記ＴＴＳシステムが、前記音響プロセッ
サと前記言語プロセッサとの間の媒介として作用するプ
ロセス・ディスパッチャを含み、前記要求及び前記応答
が前記プロセス・ディスパッチャを介して経路指定され
る、請求項１、２または３のいずれかに記載のＴＴＳシ
ステム。
【請求項５】前記プロセス・ディスパッチャがまだ前記
応答を受信していない前記要求のリストを保持する、請
求項４記載のＴＴＳシステム。
【請求項６】前記音響プロセッサ及び前記言語プロセッ
サの少なくとも１つが、入力から出力に向けて順次構成
される複数のステージを含み、前記の各ステージが続く
前記ステージからの要求に応答して処理を実行する、請
求項１、２、３、４または５のいずれかに記載のＴＴＳ
システム。
【請求項７】出力のサイズが前記複数のステージ間で異
なる、請求項６記載のＴＴＳシステム。
【請求項８】前記ＴＴＳシステムが２つのマイクロプロ
セッサを含み、前記言語プロセッサが一方の前記マイク
ロプロセッサ上で動作し、前記音響プロセッサが他方の
前記マイクロプロセッサ上で、実質的に前記言語プロセ
ッサと並列に動作する、請求項１、２、３、４、５、６
または７のいずれかに記載のＴＴＳシステム。
【請求項９】前記音響プロセッサが各前記要求に対し
て、１ブレス・グループに対応する音声セグメントを前
記言語プロセッサから獲得する、請求項１、２、３、
４、５、６、７または８のいずれかに記載のＴＴＳシス
テム。