JP3224000B2 - テキスト−音声変換システム - Google Patents

テキスト−音声変換システム

Info

Publication number
JP3224000B2
JP3224000B2 JP12209695A JP12209695A JP3224000B2 JP 3224000 B2 JP3224000 B2 JP 3224000B2 JP 12209695 A JP12209695 A JP 12209695A JP 12209695 A JP12209695 A JP 12209695A JP 3224000 B2 JP3224000 B2 JP 3224000B2
Authority
JP
Japan
Prior art keywords
processor
tts
output
language processor
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12209695A
Other languages
English (en)
Other versions
JPH0830287A (ja
Inventor
リチャード・アンソニー・シャーマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0830287A publication Critical patent/JPH0830287A/ja
Application granted granted Critical
Publication of JP3224000B2 publication Critical patent/JP3224000B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力テキストを自然音
声を模倣する出力音響信号に変換するテキスト−音声変
換システムに関する。
【0002】
【従来の技術】テキスト−音声変換(TTS:Text To
Speech)システムは、テキスト入力から直接人口的な音
声音を生成する。従来のTTSは一般に厳密に順次的に
動作する。入力テキストは特定の外部プロセスにより、
文などの比較的大きなセグメントに分割される。各セグ
メントは次に、要求される音響出力が生成されるまで、
ステップ毎に順次処理される。TTSシステムの例
が、"Talking Machines:Theories、Models、and Desig
ns"(G Bailly及びC Benoit編集、北オランダ1992
年)、及びKlattによる"Review of text-to-speech con
version for English"(Journal of the Acoustical So
ciety of America、vol 82/3、p.737-793、1987
年)に述べられている。
【0003】現TTSシステムは、容易に合成的である
と認識される音声品質及び発音スタイルを生成するが、
情報報告、ワークステーション対話及び身体障害者の支
援など、広い範囲の応用例に知能的且つ好適に対応す
る。しかしながら、そのロボット的な音声品質、不正確
な規則による表記誤り及び抑揚に関連する手掛かり(cu
e)の不十分な知能性により、より広範な採用が妨げら
れてきた。一般に、問題は特定の音声機能の不正確また
は不適切なモデル化から生じる。従って、こうした欠点
を克服するために文法情報などのモデル化の改善に対し
て、かなりな注目が注がれてきたが、こうした効果は市
販のシステムに成功裡に統合されるまでには至っていな
い。
【0004】従来のテキスト−音声変換システムは、2
つの要素、すなわち言語プロセッサと音響プロセッサと
を有する。システムへの入力はテキストであり、出力は
人間にとって入力テキストに対応する音声と認識されう
る音響波形である。言語プロセッサから音響プロセッサ
へのインターフェイスを介して渡されるデータは、制御
情報(例えば音素、持続期間及びピッチ)と一緒に、音
声セグメントのリストを含む。音響プロセッサは次に、
指定セグメントに対応する音を生成し、更に自然な音声
を生成するように、それらの間の境界を正確に処理する
役目をする。言語プロセッサ及び音響プロセッサのオペ
レーションは、大部分、互いに独立である。例えば欧州
特許第158270号は、言語プロセッサが遠隔的に分
散される複数の音響プロセッサに更新を提供するために
使用されるシステムを開示する。
【0005】従来のTTSシステムのアーキテクチャ
は、通常、音声セグメントのリストが音響プロセッサに
転送される以前に、関連入力テキストが言語プロセッサ
を通じて完全に渡される点で、"ソーセージ(sausag
e)"・マシン・アプローチを基本とする。ここでソーセ
ージと口語的に表現したのは、通常のTTSシステムの
アーキテクチャは典型的には高度にシーケンシャルなア
プローチに基づいているからである。言語プロセッサ内
の個々の要素さえも、一般に、類似して完全に順次的に
動作される(音響プロセッサについては、固定レートで
音声サンプルを出力する必要によりシステムが駆動され
る点で、状況は多少異なる)。
【0006】
【発明が解決しようとする課題】こうしたアプローチは
TTSシステムの学術的研究においては十分であるが、
多くの市場のアプリケーションにおいて要求される実時
間オペレーションに対しては十分に適応しない。更に従
来のアプローチは大きな中間バッファを必要とし、また
何らかの理由により、実際にはテキストの1部だけが要
求される場合に、たくさんの無駄な処理を含んでいる。
【0007】従って、本発明の目的は、入力テキストを
自然音声を模倣する出力音響信号に変換するテキスト−
音声(TTS)変換システムを提供することにある。
【0008】
【課題を解決するための手段】このテキスト−音声変換
システムは、入力テキストから音声セグメント並びに関
連パラメータのリストを生成する言語プロセッサと、音
声セグメント並びに関連パラメータの前記リストから、
出力音響波形を生成する音響プロセッサとを含む。この
システムは、音響プロセッサが音声セグメントと関連パ
ラメータのリストを更に獲得する必要があるときに、言
語プロセッサに要求を送信し、言語プロセッサがこうし
た要求に応答して入力テキストを処理することを特徴と
する。
【0009】TTSシステムでは、音響波形が生成され
る以前に、文の言語的復号化を実行することが必要であ
る。言語処理における詳細な処理ステップのいくつか
は、必然的に、順次的に実行されなければならない。例
えば、通常、綴字単語表現をその音声表記に変換する以
前に、例えば略語を標準単語形式に変換するなどのテキ
スト変換が必要である。しかしながら、通常の従来シス
テムにおける処理の順次性は、潜在的ユーザの要求には
適合しなかった。
【0010】本発明は、大きなテキストを自然に調音す
る能力が、市場における多くの状況、例えばテキストが
単に数の列(例えば時間割)であったり、または短い質
問(例えば対話型電話応答システム)であるような状況
において、限られた利益しかもたらさず、テキスト−音
声変換を実時間で実行する能力が不可欠であることを認
識するものである。しかしながら、使用可能な処理能力
の制限などの他の要因も、しばしば非常に重要となる。
現行の学術的なシステムの多くは、こうした市場の要求
に適合しない。それに対して本発明のアーキテクチャ
は、特に過度な処理を回避するように設計される。
【0011】好適には、TTSシステムが出力音声の生
成を停止するためのコマンドを受信すると、このコマン
ドが最初に音響プロセッサに転送される。それにより、
例えばTTS処理が中断されると(例えば呼出し人が獲
得したい情報を聞き、電話を置く)、TTS処理の終了
が出力端に提供される。この終了は次にTTSシステム
を通じ、逆方向に効果的に伝播される。終了は出力端に
おいて提供されるので、自然とユーザにより指定される
終了ポイントに一致し、ユーザはシステムの出力だけ、
または音響的に適切なブレークポイント(例えば句(ph
rase)の終り)を聞くことになる。入力テキスト内のど
のポイントで終了するかを推測したり、或いは入力テキ
スト内の任意のバッファ・ポイントで終了する必要はな
い。
【0012】また言語プロセッサが、音響プロセッサか
らの要求に対応して、音声セグメント及び関連パラメー
タのリストの可用性を示す応答を送信することが好まし
い。音響プロセッサが各要求に対応して、言語プロセッ
サから1ブレス(breath)グループに対応する音声セグ
メントを獲得すると都合がよい。1ブレス・グループは
単語のセット(典型的には文または文の一部)であっ
て、息を吐き出す間に話されるものに対応する。各ブレ
ス・グループは話し手の息の吸い込みで始まり、次の息
の吸い込みまでに話される単語を含むものである。
【0013】好適な実施例では、TTSシステムは更
に、音響プロセッサと言語プロセッサとの間の媒介とし
て作用するプロセス・ディスパッチャを含み、要求及び
応答はこのプロセス・ディスパッチャを介して経路指定
される。明らかに、音響プロセッサ及び言語プロセッサ
は、(データの場合同様)制御コマンドを直接通信する
ことができるが、プロセス・ディスパッチャの使用は容
易に識別される制御ポイントを提供する。従って、TT
Sシステムを起動または停止するコマンドはプロセス・
ディスパッチャに経路指定され、プロセス・ディスパッ
チャは次に適切なアクションを実行する。通常、プロセ
ス・ディスパッチャはTTSシステムのオペレーション
をモニタするために、まだ応答が受信されていない要求
のリストを保持する。
【0014】好適な実施例では、音響プロセッサまたは
言語プロセッサ(またはそれらの両者)は、入力から出
力に順次配列される複数のステージを含み、各ステージ
は続くステージからの要求に応答して処理を実行する
(ここで"続くステージ"とは、出力の方向に隣接するス
テージである)。ここで、ステージの列内に幾つかの並
列分岐が存在しうることに注意されたい。このように、
システム全体が出力からコンポーネント・レベルで駆動
される。このことは上述の利益を最大化する。再度、隣
接ステージ間の制御通信がプロセス・ディスパッチャを
介して実行される。更に出力のサイズが前記複数のステ
ージ間で可変であることが好ましい。それにより、各ス
テージはその最も自然な出力単位を生成することができ
る。例えば、あるステージは単一の単語を続くステージ
に出力し、別のステージは音素を出力し、更に別のステ
ージはブレス・グループを出力したりする。
【0015】好適には、TTSシステムは2つのマイク
ロプロセッサを含み、言語プロセッサは一方のマイクロ
プロセッサ上で動作し、音響プロセッサは他方のマイク
ロプロセッサ上で、実質的に言語プロセッサと並列に動
作する。こうした構成は、特に固有のDSPを有するア
ダプタ・カードを装備したワークステーションにおいて
有効である。しかしながら、言語プロセッサ及び音響プ
ロセッサ(またはそれらのコンポーネント)が、単一の
または複数のマイクロプロセッサ上のスレッドとして実
現されることも可能である。言語プロセッサと音響プロ
セッサを独立に効果的に実行することにより、これらの
2つのセクション内の処理が非同期に並列に実行され
る。全体レートは出力ユニットの要求により制御され、
言語プロセッサは自身のペースで動作することができる
(勿論、全体レートは、音響プロセッサに連続的に供給
されるように、テキストを平均的に迅速に処理するよう
に設定される)。これは、従来のアプローチとは対照的
な点であり、従来は言語プロセッサと音響プロセッサの
処理が主に順次的に実行された。従って、並列アプロー
チの使用は、実質的な性能の向上を提供する。
【0016】通常、言語プロセッサがホスト・ワークス
テーション上で実行されるのに対して、音響プロセッサ
は、ワークステーションに接続されるアダプタ・カード
上の別のデジタル処理チップ上で実行される。この便利
な構成は、音響プロセッサとして機能する適切なアダプ
タ・カードの広範な可用性により、直接的に実現され、
言語処理と音響処理との間の干渉を防止する。
【0017】
【実施例】図1は、本発明を実施するために使用される
データ処理システムを示す。このシステムは中央処理装
置(CPU)105、ランダム・アクセス・メモリ(R
AM)110、読出し専用メモリ(ROM)115、ハ
ード・ディスクなどの大容量記憶装置120、入力装置
125及び出力装置130を含み、これらは全てバス・
アーキテクチャ135により相互接続される。合成され
るテキストが大容量記憶装置またはキーボードを典型と
する入力装置により入力され、ラウドスピーカ140を
典型とする出力装置において、音声出力に変換される
(ここでデータ処理システムは一般に、マウス及び表示
システムなどの他の部品も含むが、これらは本発明には
関与しないために図1では示されていない)。本発明を
実施するために使用されるデータ処理システムの例に、
MACP(Multimedia Audio Capture and Playback)
アダプタ・カードを装備したRISCシステム/600
0があり、上記両者共にIBM社から提供される。しか
しながら、他の多くのハードウェア・システムも使用可
能である。
【0018】図2は、テキスト−音声変換システムのコ
ンポーネント及びコマンドの流れを示す高レベル・ブロ
ック図である。従来技術の場合同様、2つの主要コンポ
ーネントは、言語プロセッサ210及び音響プロセッサ
220である。これらについては以降で詳細に述べられ
るが、実質的には従来と同様のタスクを実行する。すな
わち、言語プロセッサは入力テキストを受信し、それを
注釈付きテキスト・セグメント列に変換する。このセグ
メント列は次に音響プロセッサに提供され、音響プロセ
ッサは注釈付きテキスト・セグメントを出力音声に変換
する。本実施例では、注釈付きテキスト・セグメント列
は、音素(時に"単音"(phone)と呼ばれる)のリスト
に加え、ピッチ及び持続期間の値を含む。しかしなが
ら、他の音声セグメント(例えば音節(syllable)また
は2重音(diphone))についても、他の情報(例えば
音量(volume))と共に容易に使用することができる。
【0019】図2には、更にプロセス・ディスパッチャ
230が示される。これは言語プロセッサ及び音響プロ
セッサのオペレーション、より詳しくは、それらの相互
の対話を制御するために使用される。プロセス・ディス
パッチャは従って、システムの全体オペレーションを効
果的に統制する。これは、図2において矢印A乃至Dに
より示されるように、アプリケーション間でメッセージ
を送信することにより達成される(こうしたプロセス間
通信は当業者には既知である)。
【0020】TTSシステムが起動されると、音響プロ
セッサはプロセス・ディスパッチャにメッセージを送信
し(矢印D)、適切な入力データを要求する。プロセス
・ディスパッチャは次にこの要求を言語プロセッサに転
送し(矢印A)、言語プロセッサはそれに応じて、適切
な量の入力テキストを処理する。言語プロセッサは次に
プロセス・ディスパッチャに、注釈付きテキストの次の
出力単位が使用可能であることを通知する(矢印B)。
この通知は音響プロセッサに転送され(矢印C)、次に
音響プロセッサは言語プロセッサから適切な注釈付きテ
キストを獲得する。
【0021】ここで音響プロセッサにより更にデータが
要求されると、音響プロセッサはこうしたデータが使用
可能になるまで、単に言語プロセッサの出力ステージを
ポーリングすると言う点で、矢印B及びCにより提供さ
れる返却通知は必要でないことを述べておく。しかしな
がら、ここで示される返却通知は、第1に、音響プロセ
ッサがまだ到来していないデータを探す必要を回避し、
プロセス・ディスパッチャがシステムの全体ステータス
を記録することを可能にする。従って、プロセス・ディ
スパッチャは、各未達成な要求(矢印D及びAで表され
る)に関する情報を記憶し、こうした情報が返却通知
(矢印B及びC)と照合される。
【0022】図3は、言語プロセッサ210の構造自
体、及び言語プロセッサ内部におけるデータ・フローを
表す。この構造は当業者には既知であり、既知のシステ
ムとの違いは、コンポーネントの識別または機能ではな
く、それらの間においてデータの流れが制御される様子
にある。理解を容易にするために、コンポーネントは入
力テキストに遭遇する順番、すなわち従来の"ソーセー
ジ・マシン"・アプローチに従い示されているが、後述
されるように、言語プロセッサのオペレーションは極め
て異なって駆動される。
【0023】言語プロセッサの第1のコンポーネント3
10(LEX)は、テキストのトークン化(tokenisati
on)及び事前処理を実行する。このコンポーネントの機
能は、要求入出力オペレーションを実行するために、キ
ーボードまたは記憶ファイルなどのソースから入力を獲
得し、スペース、句読点などにもとづき、入力テキスト
をトークン(単語)に分割することである。入力のサイ
ズは所望されるように調整され、固定数の文字、完全な
文またはテキスト・ライン(すなわち、それぞれ次の終
止符または返却文字まで)、或いは他の適切なセグメン
トを表現することができる。次のコンポーネント315
(WRD)は単語変換を担う。字句項目(lexical ite
m)を基準形式(canonical form)にマップするため
に、その場限りの規則が適用される。例えば、数は単語
ストリングに変換され、頭字語及び略語は展開される。
この状態の出力は入力テキストの口述形式を表す。すな
わち、テキストが正しく書下ろされたことを保証する内
容が秘書に対して話される。これは句読点の存在を示す
指示を含む必要がある。
【0024】処理は次に2つの分岐に分かれ、実質的に
一方は個々の単語に関わり、他はより大きな文法作用
(韻律素(prosody))に関わる。最初に前者の分岐に
ついて述べると、これは単語を構成音節に分解するコン
ポーネント320(SYL)を含む。通常、これは辞書
参照により実行されるが、辞書に存在しない単語を処理
可能な特定の予備機構を含むことも有用である。これは
しばしば、例えば接頭語または接尾語を除去し、その単
語が既に辞書に存在する単語に関連するかどうかを確か
めることにより実行される(そのような推定にもとづ
き、類似の方法により音節に分解される)。次のコンポ
ーネント325(TRA)は、次に音声表記を実行し、
音節に区分された単語が、再度辞書参照用テーブルによ
り、その構成音素に分解される。その際、辞書に無い単
語に対する汎用規則が増補される。韻律素分岐上のコン
ポーネントPOSへのリンクが存在し、これについては
後述される。なぜなら、音声的な曖昧性を解析するため
に、時に文法情報が使用されるからである(例えば、"p
resent"の発音はそれが動詞か名詞かにより変化す
る)。ここでSYLとTRAとを、単一の処理コンポー
ネントに結合することも可能である。
【0025】TRAの出力は生成される音声を表す音素
の列であり、これは持続期間割当てコンポーネント33
0(DUR)に渡される。この音素列は、最終的には、
音素のピッチ及び持続期間を表す注釈と共に、言語プロ
セッサから音響プロセッサに渡される。これらの注釈
は、言語プロセッサのコンポーネントにより次のように
生成される。最初に、コンポーネント335(POS)
が各単語を音声の1部に割当てようとする。これを実施
するための様々な方法が存在し、従来の一般的な方法の
1つでは、単に単語を辞書で調査する。しばしば追加の
情報が要求され、これらは文法的または統計的に決定さ
れる規則により提供される。例えば後者の場合、単語"t
he"は、通常、名詞または形容詞を伴う。上述したよう
に、1部音声割当てが音声表記コンポーネント(TR
A)に供給される。
【0026】韻律素分岐内の次のコンポーネント340
(GRM)は、一連の単語の1部音声割当てにもとづ
き、句境界を決定する。例えば、接続子はしばしば句境
界に存在する。句識別は、単語変換コンポーネント(W
RD)から獲得されるカンマ及び終止符などの句読点情
報も使用することができる。句識別は次に、後述の分岐
グループ・アセンブリ・ユニット350(BRT)及び
持続期間割当てコンポーネント330(DUR)に渡さ
れる。持続期間割当てコンポーネントは、句情報を音声
表記TRAにより供給される音素列に結合し、出力列内
の各音素の予測持続期間を決定する。通常、持続期間
は、各音素を標準持続期間に割当てることにより決定さ
れる。標準持続期間は、例えば隣接音素の識別または句
内における位置(句の終りの音素は引き延ばされる傾向
がある)などの特定の規則に従い変更される。セグメン
ト持続期間を予測するために隠れマルコフ・モデル(H
MM)を使用する別のアプローチが、係属中の英国特許
出願第GB9412555.6号(UK9−94−00
7)で述べられている。
【0027】言語プロセッサ内の最後のコンポーネント
350(BRT)は、ブレス・グループ・アセンブリで
あり、ブレス・グループを表す音素列を構成する。ブレ
ス・グループは実質的に、句識別コンポーネント(GR
M)により識別される句に対応する。ブレス・グループ
内の各音素は、ブレス・グループ句のピッチ曲線(pitc
h contour)にもとづきピッチを割当てられる。これに
より言語プロセッサは、音響プロセッサに音素に加えピ
ッチ及び持続期間を含む注釈付きリストを出力すること
ができる。各リストは1ブレス・グループを表す。
【0028】図4は音響プロセッサの詳細を示す。音響
プロセッサのコンポーネントは従来と同様であり、当業
者には既知である。2重音ライブラリ420は、2重音
(2つの音素間の遷移を表す)の予め記録されたセグメ
ントを効果的に含む。しばしば、各2重音の多くのサン
プルが収集され、これらが統計的に平均化されて、2重
音ライブラリにおいて使用される。約50の共通音素が
存在するので、2重音ライブラリは潜在的には約250
0のエントリを有するが、実際には全ての音素の組合わ
せが、自然音声において発生するわけではない。
【0029】従って、音響プロセッサが音素のリストを
受信すると、最初のステージ410(DIP)が、単に
音素の連続対にもとづき、この入力リスト内の2重音を
識別する。関連する2重音が次に2重音ライブラリから
検索され、2重音連結ユニット415(PSOLA)に
より一緒に連結される。2重音の間に聞き取れる不連続
性が発生しないように、適切な補間技術が使用され、こ
の補間の長さは、各音素が言語プロセッサにより指定さ
れる正しい持続期間を有するように制御される。"PS
OLA"はピッチ同期オーバラップ加算(pitch synchro
nous overlap-add)を意味し、これは合成の特定の形態
を表す(詳しくは、Carpentier及びMoulinesによる"Pit
ch-synchronous waveform processing techniques for
text-to-speech synthesis using diphones"(Proceedi
ngs Eurospeech 89(Paris、1989年)、p13-19)、
またはHamon、Moulines及びCharpentierによる"A dipho
neSynthesis System based on time-domain prosodic m
odifications of speech"(ICASSP 89(1989年)、
IEEE、p238-241を参照されたい)。勿論、他の適切な合
成技術も使用可能である。次のコンポーネント425
(PIT)は、要求ピッチに従い、2重音パラメータを
変更する役割をする。最後のコンポーネント435(X
MT)は、ラウドスピーカまたは他の音声出力装置を駆
動する音響波形を生成する送信機である。現在では、P
IT及びXMTはピッチ及び持続期間の両次元において
歪んだ波形を生成する単一のステップに結合される。
【0030】各コンポーネントにより提供される出力単
位が、表1にリストされる。実時間でラウドスピーカを
駆動するために、一定のデータ・レートで出力を生成し
なければならない最終ステージXMTを除き、こうした
出力は要求に応じて、続くステージへの入力として提供
される。ここで出力単位はテキスト単位(例えば単語、
文、音素)のサイズを表し、多くのステージにおいて、
これはその単位に対応する追加の情報(例えば持続期
間、音声の1部など)を伴う。
【表1】
【0031】言語プロセッサ及び音響プロセッサの両者
の構造とも、必ずしも上記構造に一致する必要はない。
従来技術(Klattによる"Talking Machines"及び上記参
考文献を参照)は多くの可能な構成を提供しており、こ
れらの全てが当業者には既知である。本発明はこれらの
コンポーネントの性質並びに音素、音節区分された単語
などのそれらの実際の入出力に影響を与えることはな
い。本発明は異なるコンポーネントが、それらの厳密な
性質または機能に関係無く、全体のフロー制御に関連し
てどのように対話するかに関わるものである。
【0032】図5は、TTSシステムのコンポーネント
を通じて実行されるデータ・フロー制御を示す流れ図で
ある。この流れ図は、高レベル言語プロセッサ及び音響
プロセッサの両者のオペレーション、及びそれらの内部
の低レベル・コンポーネントのオペレーションを示す。
言語プロセッサは、例えば入力テキストをテキスト・ト
ークン化コンポーネントと同様に受信し、それをブレス
・グループ・アセンブリ・コンポーネントと同様に出力
し、それらの間を"ブラック・ボックス"処理する単一の
コンポーネントとして見なすことができる。こうした状
況では、言語プロセッサ及び音響プロセッサ内の処理が
従来通りであり、言語プロセッサと音響プロセッサの間
のデータ・フローを制御するためにだけ、本発明のアプ
ローチが使用されるものと見なすことができる。
【0033】TTSシステムの重要な態様は、実時間で
動作するように意図されることである。音響プロセッサ
が言語プロセッサから更にデータを要求するが、言語プ
ロセッサ内における計算時間により、この要求が満足さ
れる以前に、音響プロセッサがデータを使い果たすよう
な状況は回避されるべきである(こうした状況は音声出
力に絶え間(gap)を生じる)。従って、データに対す
る将来要求が好機に供給されるように、特定のコンポー
ネントが最小量の出力データをバッファしようとするこ
とが好ましい。比較的大きなデータ単位を出力するブレ
ス・グループ・アセンブリ(BRT)などのコンポーネ
ント(表1参照)は、一般に、こうした最小量の出力バ
ッファ・データを要求する傾向があるが、他の単位はこ
うした最小量を有さないであろう。図5の最初のステッ
プ510では、コンポーネントの出力バッファが十分な
データを含み、最小量を指定するコンポーネントにだけ
適用可能であるかをチェックする。出力バッファは、初
期化時または続くステージへのデータの供給の後に、こ
の最小量よりも少ないかもしれない。出力の充填が要求
されると、これが以降で述べるように実行される。
【0034】出力バッファは、コンポーネントが受信し
た各入力単位に対して、複数の出力単位を生成するとき
にも使用される。例えば音節区分コンポーネントは、先
行ステージから受信した各入力単位(すなわち単語)か
ら、複数の音節を生成する。これらは次に、1度にアク
セスされるように、次のコンポーネント(音声表記TR
A)により出力バッファに記憶される。
【0035】次のステップ520は、次のステージから
入力の要求を受信する(要求は出力バッファが充填され
ているときに到来するかもしれず、この場合には、キュ
ーに待機される)。要求が出力バッファ内に既に存在す
るデータから満足されることもあり(ステップ53
0)、この場合には、データはそれ以上の処理を伴わず
に適宜供給される。しかしながら、上記の場合以外で
は、直前のステージから入力を要求する必要がある(ス
テップ550)。例えば音声表記TRAは、1部音声割
当てコンポーネント(POS)及び音節区分コンポーネ
ント(SYL)の両方からデータを要求する。要求が満
足されると(ステップ560)、コンポーネントが十分
な入力データを有するかどうかがチェックされる(ステ
ップ570)。有さない場合、入力データが要求され続
ける。例えばブレス・グループ・アセンブリ・コンポー
ネント(BRT)は、完全なブレス・グループが構成さ
れるまで、持続期間割当てコンポーネント(DUR)に
複数の要求を送信する必要がある。同様に、1部音声割
当てコンポーネント(POS)は、通常、完全な句また
は文を要求するので、終止符または他の適切な区切り文
字に遭遇するまで、繰返し入力を要求する。十分なデー
タが獲得されると、コンポーネントは関連する処理を実
行し(ステップ580)、結果を出力バッファに記憶す
る(ステップ590)。これらの結果は次に、ステップ
520の元の要求に応答して次のステージに供給される
か(ステップ540)、または将来のこうした要求に応
えるために記憶される。ここで供給ステップ540は、
要求コンポーネントへの応答の送信を含み、次に要求コ
ンポーネントは要求データを検索するために、出力バッ
ファをアクセスする。
【0036】コンポーネントが複数のステージに出力を
送信したり、入力を受信する場合には、多少処理は複雑
になるものの、テキストの順次的な性質により容易に対
応可能である。従って、コンポーネントが出力を2つの
他のコンポーネントに供給する場合には、コンポーネン
トは2つの独立な出力バッファを有し、処理結果を両方
のバッファにコピーすればよい。またコンポーネントが
2つのコンポーネントから入力を受信する場合には、コ
ンポーネントは処理を開始する以前に、両方から入力を
要求する必要がある。一方の入力が他方の入力よりも大
きなテキスト単位に関連する場合、前者の入力がバッフ
ァされる。
【0037】図5には特に示されていないが、全ての要
求(ステップ520及び550)は、プロセス・ディス
パッチャを介して経路指定され、プロセス・ディスパッ
チャは未処理の要求を追跡する。同様に、続くステージ
へのデータの供給(ステップ560及び540)は、最
初にプロセス・ディスパッチャを介して、データが使用
可能であることを示す通知を要求ステージに送信するこ
とにより実施される。要求ステージは次にこの通知に応
じて、先行ステージからデータを収集する。
【0038】上述のアーキテクチャを有するTTSシス
テムは、通常とは異なって起動及び停止される。すなわ
ち、入力テキストを押し込むのではなく、(例えばプロ
セス・ディスパッチャにより)起動コマンドが受信され
ると、これが音響プロセッサに、そして特に支障がなけ
れば最終コンポーネントに経路指定される。最終コンポ
ーネントは、次に先行コンポーネントに要求を渡し、先
行コンポーネントは要求が入力ステージに達するまで、
この要求をカスケード式に戻す。これがシステムへのデ
ータの入力となる。同様に処理停止のコマンドについて
もシステム端に仕向けられ、そこから他のコンポーネン
トを通じて逆方向に伝播する。
【0039】上述されたテキスト−音声変換システム
は、任意のアルゴリズムまたは合成技術を採用すること
ができるために最大の柔軟性を有するが、その厳密な制
御及び経済的な処理により、特に市場における使用に適
していると言える。
【0040】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0041】(1)入力テキストを自然音声を模倣する
出力音響信号に変換するテキスト−音声変換(以下、T
TS)システムであって、前記入力テキストから音声セ
グメント並びに関連パラメータのリストを生成する言語
プロセッサと、前記音声セグメント並びに前記関連パラ
メータの前記リストから、出力音響波形を生成する音響
プロセッサとを含み、前記音響プロセッサが、前記音声
セグメント並びに前記関連パラメータの追加のリストを
獲得する必要がある度に、前記言語プロセッサに要求を
送信し、前記言語プロセッサが前記要求に応答して、前
記入力テキストを処理する、TTSシステム。 (2)前記TTSシステムが出力音声の生成を中止する
コマンドを受信し、該コマンドが最初に前記音響プロセ
ッサに転送される、前記(1)記載のTTSシステム。 (3)前記言語プロセッサが前記音響プロセッサからの
前記要求に応じて、前記音声セグメント並びに前記パラ
メータの追加の前記リストの可用性を示す応答を送信す
る、前記(1)または(2)記載のTTSシステム。 (4)前記TTSシステムが、前記音響プロセッサと前
記言語プロセッサとの間の媒介として作用するプロセス
・ディスパッチャを含み、前記要求及び前記応答が前記
プロセス・ディスパッチャを介して経路指定される、前
記(1)、(2)または(3)のいずれかに記載のTT
Sシステム。 (5)前記プロセス・ディスパッチャがまだ前記応答を
受信していない前記要求のリストを保持する、前記
(4)記載のTTSシステム。 (6)前記音響プロセッサ及び前記言語プロセッサの少
なくとも1つが、入力から出力に向けて順次構成される
複数のステージを含み、前記の各ステージが続く前記ス
テージからの要求に応答して処理を実行する、前記
(1)、(2)、(3)、(4)または(5)のいずれ
かに記載のTTSシステム。 (7)出力のサイズが前記複数のステージ間で異なる、
前記(6)記載のTTSシステム。 (8)前記TTSシステムが2つのマイクロプロセッサ
を含み、前記言語プロセッサが一方の前記マイクロプロ
セッサ上で動作し、前記音響プロセッサが他方の前記マ
イクロプロセッサ上で、実質的に前記言語プロセッサと
並列に動作する、前記(1)、(2)、(3)、
(4)、(5)、(6)または(7)のいずれかに記載
のTTSシステム。 (9)前記音響プロセッサが各前記要求に対して、1ブ
レス・グループに対応する音声セグメントを前記言語プ
ロセッサから獲得する、前記(1)、(2)、(3)、
(4)、(5)、(6)、(7)または(8)のいずれ
かに記載のTTSシステム。
【0042】
【発明の効果】以上説明したように、本発明によれば、
入力テキストを自然音声を模倣する出力音響信号に実時
間で変換するテキスト−音声(TTS)変換システムを
提供することができる。
【図面の簡単な説明】
【図1】本発明を実現するために使用されるデータ処理
システムの簡略化ブロック図である。
【図2】本発明による実時間テキスト−音声変換システ
ムの高レベル・ブロック図である。
【図3】図2の言語プロセッサのコンポーネントを示す
図である。
【図4】図2の音響プロセッサのコンポーネントを示す
図である。
【図5】TTSシステムの制御オペレーションを示す流
れ図である。
【符号の説明】
105 中央処理装置(CPU) 110 ランダム・アクセス・メモリ(RAM) 115 読出し専用メモリ(ROM) 120 大容量記憶装置 125 入力装置 130 出力装置 135 バス・アーキテクチャ 140 ラウドスピーカ 210 言語プロセッサ 220 音響プロセッサ 230 プロセス・ディスパッチャ 310 コンポーネント(LEX) 315 コンポーネント(WRD) 320 コンポーネント(SYC) 330 持続期間割当てコンポーネント(DUR) 335 コンポーネント(POS) 340 コンポーネント(GRM) 350 コンポーネント(BRT) 410 ステージ(DIP) 415 2重音連結ユニット(PSOLA) 425 コンポーネント(PIT) 435 コンポーネント(XMT) 420 2重音ライブラリ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−181640(JP,A) 特開 平2−28718(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/00

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】入力テキストを自然音声を模倣する出力音
    響信号に変換するテキスト−音声変換(以下、TTS)
    システムであって、 前記入力テキストから音声セグメント並びに関連パラメ
    ータのリストを生成する言語プロセッサと、 前記音声セグメント並びに前記関連パラメータの前記リ
    ストから、出力音響波形を生成する音響プロセッサとを
    含み、 前記音響プロセッサが、前記音声セグメント並びに前記
    関連パラメータの追加のリストを獲得する必要がある度
    に、前記言語プロセッサに要求を送信し、前記言語プロ
    セッサが前記要求に応答して、前記入力テキストを処理
    する、 TTSシステム。
  2. 【請求項2】前記TTSシステムが出力音声の生成を中
    止するコマンドを受信し、該コマンドが最初に前記音響
    プロセッサに転送される、請求項1記載のTTSシステ
    ム。
  3. 【請求項3】 前記言語プロセッサが前記音響プロセッ
    サからの前記要求に応じて、前記音声セグメント並びに
    前記パラメータの追加の前記リストの可能性を示す応答
    を送信する、請求項1または2記載のTTSシステム。
  4. 【請求項4】前記TTSシステムが、前記音響プロセッ
    サと前記言語プロセッサとの間の媒介として作用するプ
    ロセス・ディスパッチャを含み、前記要求及び前記応答
    が前記プロセス・ディスパッチャを介して経路指定され
    る、請求項1、2または3のいずれかに記載のTTSシ
    ステム。
  5. 【請求項5】前記プロセス・ディスパッチャがまだ前記
    応答を受信していない前記要求のリストを保持する、請
    求項4記載のTTSシステム。
  6. 【請求項6】前記音響プロセッサ及び前記言語プロセッ
    サの少なくとも1つが、入力から出力に向けて順次構成
    される複数のステージを含み、前記の各ステージが続く
    前記ステージからの要求に応答して処理を実行する、請
    求項1、2、3、4または5のいずれかに記載のTTS
    システム。
  7. 【請求項7】出力のサイズが前記複数のステージ間で異
    なる、請求項6記載のTTSシステム。
  8. 【請求項8】前記TTSシステムが2つのマイクロプロ
    セッサを含み、前記言語プロセッサが一方の前記マイク
    ロプロセッサ上で動作し、前記音響プロセッサが他方の
    前記マイクロプロセッサ上で、実質的に前記言語プロセ
    ッサと並列に動作する、請求項1、2、3、4、5、6
    または7のいずれかに記載のTTSシステム。
  9. 【請求項9】前記音響プロセッサが各前記要求に対し
    て、1ブレス・グループに対応する音声セグメントを前
    記言語プロセッサから獲得する、請求項1、2、3、
    4、5、6、7または8のいずれかに記載のTTSシス
    テム。
JP12209695A 1994-07-19 1995-05-22 テキスト−音声変換システム Expired - Fee Related JP3224000B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9414539A GB2291571A (en) 1994-07-19 1994-07-19 Text to speech system; acoustic processor requests linguistic processor output
GB9414539.8 1994-07-19

Publications (2)

Publication Number Publication Date
JPH0830287A JPH0830287A (ja) 1996-02-02
JP3224000B2 true JP3224000B2 (ja) 2001-10-29

Family

ID=10758551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12209695A Expired - Fee Related JP3224000B2 (ja) 1994-07-19 1995-05-22 テキスト−音声変換システム

Country Status (5)

Country Link
US (1) US5774854A (ja)
EP (1) EP0694904B1 (ja)
JP (1) JP3224000B2 (ja)
DE (1) DE69521244T2 (ja)
GB (1) GB2291571A (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389010B1 (en) * 1995-10-05 2002-05-14 Intermec Ip Corp. Hierarchical data collection network supporting packetized voice communications among wireless terminals and telephones
JPH08508127A (ja) * 1993-10-15 1996-08-27 エイ・ティ・アンド・ティ・コーポレーション システムをトレーニングする方法、その結果得られる装置、およびその使用方法
EP0786132B1 (en) * 1995-08-14 2000-04-26 Koninklijke Philips Electronics N.V. A method and device for preparing and using diphones for multilingual text-to-speech generating
KR100236974B1 (ko) 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US6108627A (en) * 1997-10-31 2000-08-22 Nortel Networks Corporation Automatic transcription tool
CA2309501A1 (en) * 1997-11-04 1999-05-14 Bellsouth Intellectual Property Corporation Call screening method and apparatus
US6807256B1 (en) 1997-11-04 2004-10-19 Bellsouth Intellectual Property Corporation Call screening method and apparatus
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
DE69925932T2 (de) * 1998-11-13 2006-05-11 Lernout & Hauspie Speech Products N.V. Sprachsynthese durch verkettung von sprachwellenformen
US6795807B1 (en) 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
US20030014253A1 (en) * 1999-11-24 2003-01-16 Conal P. Walsh Application of speed reading techiques in text-to-speech generation
US7386450B1 (en) * 1999-12-14 2008-06-10 International Business Machines Corporation Generating multimedia information from text information using customized dictionaries
US20020007315A1 (en) * 2000-04-14 2002-01-17 Eric Rose Methods and apparatus for voice activated audible order system
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
DE60202857T2 (de) * 2001-03-14 2006-02-09 International Business Machines Corp. Verfahren und prozessorsystem zur audiosignalverarbeitung
US20020152064A1 (en) * 2001-04-12 2002-10-17 International Business Machines Corporation Method, apparatus, and program for annotating documents to expand terms in a talking browser
GB2376554B (en) * 2001-06-12 2005-01-05 Hewlett Packard Co Artificial language generation and evaluation
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese
JP4064748B2 (ja) * 2002-07-22 2008-03-19 アルパイン株式会社 音声発生装置、音声発生方法及びナビゲーション装置
KR100466542B1 (ko) 2002-11-13 2005-01-15 한국전자통신연구원 적층형 가변 인덕터
US7303525B2 (en) * 2003-08-22 2007-12-04 Ams Research Corporation Surgical article and methods for treating female urinary incontinence
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
AU2005207606B2 (en) * 2004-01-16 2010-11-11 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
GB2412046A (en) * 2004-03-11 2005-09-14 Seiko Epson Corp Semiconductor device having a TTS system to which is applied a voice parameter set
US20070078655A1 (en) * 2005-09-30 2007-04-05 Rockwell Automation Technologies, Inc. Report generation system with speech output
US8027377B2 (en) * 2006-08-14 2011-09-27 Intersil Americas Inc. Differential driver with common-mode voltage tracking and method
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US20090083035A1 (en) * 2007-09-25 2009-03-26 Ritchie Winson Huang Text pre-processing for text-to-speech generation
US8374873B2 (en) 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8165881B2 (en) * 2008-08-29 2012-04-24 Honda Motor Co., Ltd. System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle
TWI405184B (zh) * 2009-11-19 2013-08-11 Univ Nat Cheng Kung 嵌入式作業系統平台之隨讀隨聽電子書手持裝置
WO2011079222A2 (en) * 2009-12-23 2011-06-30 Boston Scientific Scimed, Inc. Less traumatic method of delivery of mesh-based devices into human body
GB2480108B (en) * 2010-05-07 2012-08-29 Toshiba Res Europ Ltd A speech processing method an apparatus
CN105378829B (zh) * 2013-03-19 2019-04-02 日本电气方案创新株式会社 记笔记辅助系统、信息递送设备、终端、记笔记辅助方法和计算机可读记录介质
WO2016196041A1 (en) * 2015-06-05 2016-12-08 Trustees Of Boston University Low-dimensional real-time concatenative speech synthesizer
CA3114096A1 (en) * 2018-09-28 2020-04-02 Dow Global Technologies Llc Hybrid machine learning model for code classification

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4228496A (en) * 1976-09-07 1980-10-14 Tandem Computers Incorporated Multiprocessor system
US4754485A (en) * 1983-12-12 1988-06-28 Digital Equipment Corporation Digital processor for use in a text to speech system
EP0158270A3 (de) * 1984-04-09 1988-05-04 Siemens Aktiengesellschaft Rundfunksystem zum Speichern und späteren Abrufen gesprochener Information
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
JPH0738183B2 (ja) * 1987-01-29 1995-04-26 日本電気株式会社 中央処理装置間通信処理方式
US5167035A (en) * 1988-09-08 1992-11-24 Digital Equipment Corporation Transferring messages between nodes in a network
US5179699A (en) * 1989-01-13 1993-01-12 International Business Machines Corporation Partitioning of sorted lists for multiprocessors sort and merge
US5673362A (en) * 1991-11-12 1997-09-30 Fujitsu Limited Speech synthesis system in which a plurality of clients and at least one voice synthesizing server are connected to a local area network
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
US5325462A (en) * 1992-08-03 1994-06-28 International Business Machines Corporation System and method for speech synthesis employing improved formant composition
US5329619A (en) * 1992-10-30 1994-07-12 Software Ag Cooperative processing interface and communication broker for heterogeneous computing environments

Also Published As

Publication number Publication date
US5774854A (en) 1998-06-30
EP0694904A3 (en) 1997-10-22
GB9414539D0 (en) 1994-09-07
DE69521244T2 (de) 2001-11-08
EP0694904B1 (en) 2001-06-13
EP0694904A2 (en) 1996-01-31
GB2291571A (en) 1996-01-24
JPH0830287A (ja) 1996-02-02
DE69521244D1 (de) 2001-07-19

Similar Documents

Publication Publication Date Title
JP3224000B2 (ja) テキスト−音声変換システム
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
EP3387646B1 (en) Text-to-speech processing system and method
US8027837B2 (en) Using non-speech sounds during text-to-speech synthesis
Black et al. Building synthetic voices
US5970453A (en) Method and system for synthesizing speech
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US5577165A (en) Speech dialogue system for facilitating improved human-computer interaction
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
El-Imam An unrestricted vocabulary Arabic speech synthesis system
JP2002530703A (ja) 音声波形の連結を用いる音声合成
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP2001117920A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2001209644A (ja) 情報処理装置および情報処理方法、並びに記録媒体
Henton Challenges and rewards in using parametric or concatenative speech synthesis
Trouvain et al. Speech synthesis: text-to-speech conversion and artificial voices
Carlson et al. The Waxholm spoken dialogue system
JPH08248993A (ja) 音韻時間長制御方法
JPH11161297A (ja) 音声合成方法及び装置
Tatham et al. Speech synthesis in dialogue systems
Sahu Speech Synthesis using TTS Technology
JPH0281099A (ja) テキスト音声合成装置
Kordi et al. Multilingual speech processing (recognition and synthesis)
Hamad et al. Arabic speech signal processing text-to-speech synthesis
Odonkor Text to speech synthesis for Ghanaian local languages (Twi)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees