JP2000509157A - 音響要素・データベースを有する音声合成装置 - Google Patents

音響要素・データベースを有する音声合成装置

Info

Publication number
JP2000509157A
JP2000509157A JP9509316A JP50931697A JP2000509157A JP 2000509157 A JP2000509157 A JP 2000509157A JP 9509316 A JP9509316 A JP 9509316A JP 50931697 A JP50931697 A JP 50931697A JP 2000509157 A JP2000509157 A JP 2000509157A
Authority
JP
Japan
Prior art keywords
sequence
area
trajectory
cell
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9509316A
Other languages
English (en)
Other versions
JP3340748B2 (ja
Inventor
モエビウス,バーンド
フィリップ オリーブ,ジョセフ
アブラハム タネンブラット,マイケル
サンテン,ジャン ピーター ヴァン
Original Assignee
ルーセント テクノロジーズ インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ルーセント テクノロジーズ インコーポレーテッド filed Critical ルーセント テクノロジーズ インコーポレーテッド
Publication of JP2000509157A publication Critical patent/JP2000509157A/ja
Application granted granted Critical
Publication of JP3340748B2 publication Critical patent/JP3340748B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Abstract

(57)【要約】 本発明は、音声信号の間隔中に発生する音標文字のシーケンスから形成される、音響要素・データベースを使用する音声合成方法である。上記データベースを形成する際には、特定の音素に対応する音標文字のセグメントを含む、各音標文字のシーケンスに対して軌道が決定される。その後、異なる音素のシーケンスに対応する軌道の集中度に基づいて、許容範囲が識別される。上記データベースに対する音響要素は、上記許容領域に最も近い各軌道沿いの時点に対応する、音標文字のシーケンス内の分離点を識別することにより、音標文字のシーケンスの部分から形成される。このようにして、接合音素のところの感知できる中断が最も小さくなるように、共通の接合音素を持つ音響要素を連結することができる。上記許容領域を決定するための計算が簡単で、迅速な方法も開示している。

Description

【発明の詳細な説明】 音響要素・データベースを有する音声合成装置 発明の分野 本発明は、概して、音声合成に関し、特に音声合成の際に使用される音響要素 (acoustic elements)を含むデータベースに関する。 発明の背景 規則に基く音声合成は、テキスト−音声および音声応答システムを含む、種々 の形式の音声合成の用途に使用される。通常の規則に基く音声合成技術は、新し い語および文を形成するために、記録した音声から採取したダイフォン音表文字 シーケンス(diphone phonetic sequence)の連結を含む。例えば、テキスト−音 声合成装置の一例としては、本発明の譲受人の関係者が製造したTTSシステム がある。引用によって本明細書の記載に援用する、「AT&T技術ジャーナル(A T&T Technical Journal)」(1995年3月/4月)の第74巻、第2号、第3 5頁乃至第44頁に掲載のR.W.スプロート(R.W.Sproat)およびJ.P.オリ ーブ(J.P.Olive)の「テキスト−音声合成(Text-to-Speech Synthesis)」に、上 記システムが記載されている。 音素は、ある発声を他の発声と区別する働きをする音声音の最小単位に対応す る。例えば、英語の場合、音素/r/は、文字「R」に対応する。音声上のセグ メントは、音素の特定の発声である。同じように、音標文字のシーケンスは、隣 接する音標文字のセグメントのシーケンスの音声間隔である。ダイフォン音標文 字のシーケン スは、一つの音標文字のセグメントのほぼ中央部分から開始し、次の音標文字の セグメントのほぼ中央部分で終了する音標文字のシーケンスである。その結果、 ダイフォンはある音素から次の音素への遷移に対応する。 通常、一つの音素に対応する一つの音標文字のセグメントの中央部分は、時間 の経過によって大きく変化しないほぼ安定した音響特性を持つ。従って、二つの 連結した音標文字のシーケンスの間の、一つの接合部に形成されるすべての中断 は、比較的短いものである。しかし、異なる発声から採取した連結音標文字のシ ーケンスは、多くの場合、結果としての音響信号の理解を妨げるような、耳で聞 き取ることができる中断を生じる。 この中断問題を解決するための音声合成方法が、「コンピュータ音声および言 語(Computer Speech and Language)」(1995年、アカデミック出版社(Acade mic Press Limited)発行)の第1頁乃至第16頁に、N.イワハシ(N.Iwahasi) 及びY.サギサカ(Y.Sagisaka)が記載する論文「最適の合成単位セット用の音声 セグメント・ネットワーク方法(Speech Segment Network Approach for an Opti mal Synthesis Unit Set)」と、「音響学、音声および信号処理に関するIEE E議事録(IEEE Transactions on Acoustics,Speech and Signal Processing)」 (1986年4月)の第34巻、第2号、第264頁乃至第271頁に、H.キ スリン(H.Kaeslin)が記載する論文「自然音声からのダイフォン・要素の抽出の 組織的方法(A Systematic Approach to the Extraction of Diphone Elements f rom Natural Speech)」に記載されている。これらの文献は、引用によって本明 細書の記載に援用する。 イワサキ論文の方法は、中断またはセグメント間の歪を軽減した状態で、再度 結合することができる予め記録した音声から、ダイフォン音標文字のシーケンス を選択するための最適化技術を使用する。より詳細に説明すると、この方法は、 記録した音声から抽出した異なる音標文字のシーケンスの、多数の組み合わせの セグメント間の歪に対する数値を決定する。その後、結果として得られる数値は 、特定の言語で使用された各ダイフォンに対する、全体の最善のシーケンスを選 択するために、数学的な最適化を使用して評価される。しかし、この方法は、計 算が非常に複雑で、おそらく特殊なコンピュータを必要とするか、望ましくない 長い計算時間を必要とする。また、ダイフォン音標文字は、一つの音標文字のセ グメントの安定状態の中央部分からスタートし、次の音標文字のセグメントの安 定した中央部分で終了するが、中断点として使用した場合に、多くの場合、中央 領域内の特定のいくつかの点で、結合の中断が短いシーケンスを生じる。従って 、セグメント間の歪の軽減は、ほぼ各音標文字のシーケンスに対する、特定のい くつかのスタート点および終了点の選択の内容によって変わってくる。これらの 中断点は通常、記録した音声からいくつかのシーケンスを抽出する人間のオペレ ータによって決定される。この場合、オペレータは、どの分離点が有意な利点を 提供するかについては分からない。 キスリンの論文は、連結の中断を最も少なくするための、最適なスタートおよ び終了分離点を決定するための試験的方法を開示している。この方法は、ある特 定の音素に対応する音標文字のセグメントを含む、すべてのダイフォン音標文字 のシーケンスの、フォルマント(formant)の頻度に対する軌道を決定する。フォ ルマントの軌 道は、一つの発声を構成する測定共振周波数の時間によって変化する図形的表現 である。その後、この方法は、これらの軌道に基づいて、中心軌跡ベクトルを決 定する。上記論文は、中心軌跡ベクトルを、「それ自身の平方と一組の軌道上の 最も近いいくつかの点の合計を最も小さくする・・・・距離は、長い領域比距離 により測定される」ベクトルとして定義している。その後、この方法は、中心軌 跡ベクトルに最も近い軌道上の、いくつかの点に対応する時点での、いくつかの ダイフォン データベース要素を形成するために、記録した音声から音標文字の シーケンスを分離する。 しかし、中心軌跡ベクトルの決定は非常に難しく、最初は、人間のオペレータ による「最良の推定」に基づいて行われる。上記軌道の性質により、「最良の推 定」が望ましいものでない場合には、事実、実際のすべての軌道に対する中心軌 跡ベクトルが、他にある場合には中心軌跡ベクトルが、一組のローカル軌道を正 しく決定しない場合がある。正しくない中心軌跡ベクトルを使用した場合には、 いくつかのシーケンス分離点が中断を全然軽減しないか、または無意味な僅かな 軽減しか行わない。 それ故、得られた連結セグメントの中断をほぼ最小にする各セグメントに対す る、いくつかの正しい分離点を自動的に決定する音響セグメント・データベース 形成方法が必要になる。 発明の概要 音声合成装置は、いくつかの特定の分離点の音声信号から抽出し選択した音標 文字のシーケンスから形成した、音響要素を含む音響要素・データベースを使用 する。本発明によれば、これらの分離点は、許容領域内またはそれに近い軌道時 点に対応する。許容領域の 大きさは、結合音標文字のセグメントのその分離点が、上記許容領域の一番端の 部分内の時点に対応する連結音響要素で、必要最低限度の音質が得られるように 決定しなければならない。上記許容領域の位置は、異なる音素のシーケンスに対 応する軌道が集中する場所に基づいて決定される。例えば、上記許容領域を、軌 道が形成される異なる音素のシーケンスに対応する軌道の最も高い集中に対応す る表現空間の領域とすることができる。すなわち、上記領域は、ほぼ最も多くの 数の上記軌道と交差するか、または最も近い領域である。 それ故、本発明は、許容領域の位置を決定する際に軌道の最大の変化を使用す ることにより達成された、実質的で予期しない利点に依存している。上記変化に より、本発明は、連結中断を軽減する音響要素を形成するための特定の音標文字 のシーケンス音素分離点をもっと正確に選択することができる。 本発明の一実施例の場合には、軌道の表示空間は複数の隣接するセルによりカ バーされている。上記実施例の場合には、異なる音素のシーケンスに対応する平 均の数の軌道より大きい数の軌道と交差する少なくとも一つのセルの領域を識別 することによって、許容領域を決定するためにグリッド・サーチを使用すること ができる。 本発明の他の実施例の場合には、一つの軌道に沿って各時点を囲む一つの領域 内に存在するセルの識別が行われる。認識した各セルに対して、そのセルに対し て維持されているリストが、その軌道に対する音素のシーケンスの識別により更 新される。しかし、そのリスト上にすでに記載されている場合には、特定の音素 のシーケンスをセル・リストに追加してはならない。この方法は、軌道の時点の 分解領域内に存在するこれらのセルを検査し更新するだけなので、表示空間内の 各セルを個々の検査するグリッド・サーチ法より速い。さらに、音素のシーケン スの識別はリストに一度に追加されるので、許容領域の決定が行われる際に、軌 道が変化する。 さらに、セルのリストは、軌道の時点の、周囲のある特定の領域内の複数のセ ルに対するリストの更新を容易にするために、索引付きのデータ構造を特徴とす る。このような方法で、換算係数を使用して軌道の時点を索引値に変換すること ができる。その後、上記特定の領域内のセルに対応するセル・リストの索引値を 決定するために、上記の変換索引値に分解値を加算したり、または差し引いたり することができる。その後、許容領域を決定するために、最も長いリストを持つ セルを容易に識別することができる。 それ故、本発明を使用すれば、特殊なコンピュータや長い処理時間を使用しな くても、簡単で迅速な計算により音響要素・データベースを作成することができ る。上記データベースは比較的容量の小さなメモリしか必要とせず、比較的自然 な音の合成音声に連結することができる音響要素を含む。上記音響要素は、それ ぞれの許容領域に基づいて、分離点を使用して音声信号から抽出されるので、連 結中の耳で聞き分けることができる中断の数は減少する。 本発明の他の特徴および利点は、下記の詳細な説明を読み、添付の図面を参照 すればさらに容易に理解することができる。 図面の簡単な説明 第1図は本発明の音響要素・データベースを使用する、例示としてのテキスト −音声合成装置の簡単なブロック図である。 第2図A乃至第2図Cは音標文字セグメントの例示としての、 フォルマントの音声スペクトル写真である。 第3図は第1図の音響要素・データベースを形成するための、本発明による例 示としての方法のフローチャートである。 第4図は第3図の方法で使用するための、音標文字のシーケンスに対する、例 示としての軌道のグラフである。 第5図は、第3図の方法で使用される許容領域を決定する、例示としての方法 のフローチャートである。 発明の詳細な記述 図1は、本発明の音響要素データベース5を使用するテキスト−音声合成装置 1である。説明を分かりやすくするために、テキスト−音声合成装置1の機能構 成部分は、図1のボックスに表示してある。これらのボックスで実行される機能 は、特定用途向け集積回路またはソフトウェアを実行するプロセッサまたは多重 プロセッサを含むが、これに限定されない共有または専用ハードウェアを使用す ることによって供給することができる。「プロセッサ」という用語およびその合 成語は、単にソフトウェアを実行することができハードウェアだけに限定すべき ではなく、対応する機能を実行し相互に通信する各ソフトウェア・ルーチンも含 まれると考えるべきである。 図1において、データベース5を、例えば、CD−ROMやフロッピィ・ディ スクやハードディスクや読み出し専用メモリ(ROM)やランダムアクセスメモ リ(RAM)を含む、コンピュータが読むことができる記憶媒体上に常駐させる ことができる。データベース5は、異音を含む異なる音素のシーケンスまたは多 音に対応する音響要素を含む(異音とは、周囲の音声により音素の変化したもの である。例えば、pitという語の気音/p/、および splitという語の気音を伴わない/p/は、音素/p/の異音である。)。 データベース5を中程度の大きさにするためには、音響要素は、一般的に1− 3の音素のような制限された音素のシーケンスに対応していなければならない。 音響要素は、一つの音素のほぼ安定状態の中央部分でスタートして他の音素の安 定した状態の中央部分で終わる音標文字のシーケンスである。上記音響要素を、 例えば、「音声合成に関するESCAワークショップの処理(Process of the ES CA Workshop on Speech Synthesis)」(1990年)の第25頁乃至第30頁に記載 の、J.P.オリーブ(J.P.Olive)の「音声音のより多くの音響インベントリを 使用する連結音声合成システム用の新しいアルゴリズム(A New Algorithm for a concatenative Speech synthesis System Using an Augmented Acoustic Inve ntory of Speech Sounds)」に詳細に記載されている線形予測コーダ(Linear Pre dictive Coder:LPC)パラメータ、またはデジタル化音声の形でデータベース 5に記憶することができる。上記参考文献は、引用によって本明細書の記載に援 用する。 テキスト−音声合成装置1は、テキスト分析装置10、音響要素索引プロセッ サ15、要素処理および連結(Element Processing and Concatenation:EPC )プロセッサ20、デジタル音声合成装置25、およびデジタル−アナログ(D /A)コンバータ30を含む。テキスト分析装置10は、ASCIIフォーマッ トのような読むことができるフォーマットでテキストを受信し、そのテキストを 文法的に語に解析し、さらに略語および数字を語に変換する。その後、語はデー タベース5の使用可能な音響要素に基づいて音素 のシーケンスに分離される。上記音素のシーケンスはその後、音響要素検索プロ セッサ15に送られる。 語を、音素のシーケンス、略語および数字の広がりに文法的に解析するための 方法については、例えば、「応用自然言語処理に関する第二回会議の議事録(Pro ceedings of the Second conference on Applied Natural Language Processing )」(1988年、ニュージャージー州、モリスタウン(Morristown,NJ 1988)) の第136頁乃至1第43頁に掲載のK.チャーチ(K.Church)の論文「制限のな いテキストに対する確率論的品詞プログラムおよび名詞節の文法的解析装置(A S tochastic Parts Program and Noun Phase Parser for Unrestricted Text)」や 、「人口頭脳(Artificial Intelligence)」(1993年)の第63巻、第30 5頁乃至第340頁に掲載の、J.ハーチバーグ(J.Hirschberg)の論文「分脈内 のピッチ・アクセント:予測国際プロミネンス(Pitch Accent in Context:Predi cting International Prominence From Text)」や「コンピュータ音声および言 語(Computer Speech and Language)」(1994年)の第8巻、第79頁乃至第 94頁に掲載のR.スプロート(R.Sproat)の論文「テキストから音声への場合の 英語名詞節のアクセント(English Noun-Phrase Accent Prediction for Text-to -Speech)」や、「音声合成に関するESCAワークショップ議事録(Proceedings of the ESCA Workdshop on Speech Synthesis)」(1990年)の第83頁乃 至第86頁に掲載の、C.コーカ(C.Coker)他の論文「形態およびリズム:音声 に対する文字−音変換規則に対する二つの強力な代案(Morphology and Rhyming: Two Powerful Alternatives to Letter-to-Sound Rules for Speech)」 に記載されている。これらの文献は、引用によって本明細書の記載に援用する。 テキスト分析装置10は、さらに、各音素のシーケンスの持続時間、振幅およ び基本周波数を決定し、上記情報をEPCプロセッサ20に送る。上記持続時間 を決定するための方法は、例えば、「コンピュータ音声および言語(Computer Sp eech and Language)」(1994年)の第8巻、第95頁乃至第128頁に掲載 の、J.フォン・サンテン(J.van Santen)の「テキスト−音声合成の際のセグメ ントの持続時間割当(Assignment of Segmental Duration in Text-to-Speech Sy nthesis)」に記載されている方法などがある。上記参考文献は、引用によって本 明細書の記載に援用する。音素のシーケンスの振幅を測定するための方法として は、例えば、「ESCAユーロスピーチ−93(ESCA EUROSPEECH-93)」(1993年 )の第99頁乃至第102頁に掲載の、L.オリベイラ(L.Oliveira)の論文「周 波数分析による、ソース・パラメータの推定(Estimation of Source Parameters by Frequency Analysis)」に記載されている方法などがある。音素の基本周波 数は、セグメントのピッチまたはイントネーションとも呼ばれる。基本周波数、 すなわち、ピッチの決定方法は、例えば、「音声および信号処理に関する国際会 議議事録(Proceedings of the International Conference on Acoustics,Speech and Signal Processing)」(1984年、サンディエゴ(San Diego 1984))の 第1巻、第2.8.1頁乃至第2.8.4頁に掲載の、M.アンダーソン(M.And erson)他の「英語のイントネーション・パターンの規則による合成(Synthesis b y Rule of English Intonation Patterns」に記載されている。上記参考文献 は、引用によって本明細書の記載に援用する。 音響要素検索プロセッサ15は、テキスト分析装置10から音素のシーケンス を受信し、データベース5から対応する正しい音響要素を選択し検索する。音響 要素選択方法は、例えば、上記オリーブの参考文献に記載されている。その後、 検索した音響要素は、音響要素検索プロセッサ15によりEPCプロセッサ20 へ送られる。EPCプロセッサ20は、基本周波数および振幅を調整し、テキス ト分析装置10から受信した対応する情報に基づいて正しい持続時間を挿入する ことにより、各受信音響要素を修正する。その後、EPCプロセッサ20は、修 正した音響要素をテキスト分析装置10のテキスト入力に対応する音響要素20 のストリングに連結する。EPCプロセッサ20の連結方法は上記オリベリアの 論文に記載されている。 EPCプロセッサ20が作った音響要素のストリングはデジタル音声合成装置 25に送られ、上記デジタル音声合成装置25は音響要素・ストリングの自然音 声に対応するデジタル信号を発生する。デジタル信号合成の例示としての方法は 、上記のオリベリアの論文に記載されている。デジタル音声合成装置25が発生 したデジタル信号はD/Aコンバータ30に送られ、上記コンバータは対応する アナログ信号を発生する。上記アナログ信号はアンプおよびスピーカ(図示せず )に送られ自然な合成音声が作られる。 時間経過中の音標文字のシーケンスの特性は、フォルマント、振幅およびセプ トラル表現を含む任意のスペクトル表示、または任意のLPCパラメータを含む いくつかの表現で表示することができる。第2図A乃至第2図Cは、異なるフォ ルマント周波数の音声スペク トル写真100A、100Bおよび100C、または音素のシーケンス/p−i /の記録音声から採取した音素/i/に対応する、音標文字のセグメントに対す るフォルマントF1、F2およびF3を示す。上記フォルマントF1−F3は、 人間の音声系の異なる測定共振周波数を示す軌道である。上記異なる測定共振周 波数のフォルマントは、通常、それぞれのフォルマントが含むスペクトル・エネ ルギーに基づいて、F1、F2、・・・、と呼ばれる。 フォルマント周波数は、発声系の形および大きさにより異なる。異なる音声は 、発声系の形が種々に変化することにより発生する。それ故、音声信号のスペク トル特性は、第2図A乃至第2図Cに示すように、音声系の形が音素セグメント /i/の発声中に変化するので、時間の経過とともに変化する。上記三つのフォ ルマント、F1、F2およびF3は、音素/i/に対するもので、説明の便宜の ためのものに過ぎない。フォルマントの異なる数は、特定の音声セグメントに対 する音声系に基づいていろいろに変わることを理解されたい。フォルマントおよ び他の音声の表現についての詳細な説明は、L.R.ラビナ(L.R.Rabiner)およ びR.W.シャファ(R.W.Schafer)の「音声信号のデジタル処理(Digital Proce ssing of Speech Signals)」(1978年、プレンチス・ホール社発行)に記 載されている。この参考文は、引用によって本明細書の記載に援用する。 第1図に関する上記ですでに説明したように、データベース5に記憶されてい る音響要素は、一つの音素のほぼ中央部分でスタートし、他の音素の中央部分で 終わる音標文字のシーケンスに対応する。二つの連結音響要素の接合音素のとこ ろのスペクトル成分のような 特性の違いにより中断が生じ、この中断は理解できないか理解しにくい合成音声 を発生する。しかし、一つの音素の中央部分に対応する音標文字のセグメントの 領域内においては、連結中断を減らす音響要素を発生するために使用することが できる安定な特性を持つ領域内に特定の分離点が存在する。第2図A乃至第2図 Cの軌道F1−F3は、特定の音素の中央部分の音標文字のシーケンスの特性を 表す。連結を最小限度に減らす音響要素を形成するために、音標文字のシーケン スの分離点を選択することが望ましい。 第3図は、音声信号から特定の音標文字のシーケンスを選択し、データベース 5の音響要素を形成する、選択された音標文字のシーケンスの対応する分離点を 決定する本発明の例示としての方法200を示す。方法200の場合、ステップ 210において、特定の音素に対応する音標文字のセグメントを含む音標文字の シーケンスが、声信号の間隔から識別される。各音標文字のシーケンスは、少な くとも二つの音素のシーケンスに対応するものでなければならない。音声信号は 、記録した音声から、または人間から直接入手することができる。さらに、音声 信号のソースが記録音声である場合には、その記録音声をさらに処理して、方法 200の操作を容易にするためにセグメントに分けて、ラベルをつけた音声信号 を発生することができる。上記のセグメントに分けてラベルをつけた音声信号は 、ラベルのついた対応する音標文字のシーケンスを持ち、識別したシーケンスの 間の最も近い境界を持っている音声信号である。 その後ステップ220において、特定の音素に対応する各音標文字のシーケン スの少なくとも一つの部分に対する軌道が決定される。上記軌道は、時間経過中 の音標文字の上記部分の少なくとも一つの 音響特性の表示である。上記軌道は、音響特性を表す個々のシーケンスとするこ ともできるし、時間経過中の音響特性の連続表示とすることもできる。上記軌道 に対して使用することができる適当な音響特性の例としては、例えば、フォルマ ント周波数、振幅およびスペクトル傾斜表示およびLPC表示のようなスペクト ル表示等がある。周波数に基づくものであれ他のものに基づくものであれ、他の 音響特性は本発明に従って軌道用に使用することができる。第2図A乃至第2図 Cは、それぞれ単一フォルマント周波数表示の例示としての軌道を示す。 ステップ220において軌道が表示空間内で決定される。本明細書中で使用し ているように、表示空間は、軌道をその軌道を特徴づけるパラメータの機能とし て表示することができる領域である。例えば、図2Aに示すように、単一フォル マント軌道用の表示空間は時間の関数としての周波数を表示する。特定の音標文 字のシーケンスに対する二つまたはそれ以上のフォルマント周波数に基づいて、 単一の軌道を形成することができる。上記の軌道の場合には、表示空間は表示し た正式な各周波数に対して一本の軸を持つ。各軌道に沿った周波数点に、音標文 字のシーケンスで、上記周波数が発生した対応する時間で、ラベルをつけること ができる。例えば、二つのフォルマントを持つ周波数軌道は、曲線のいくつかの 点の対応する時間が5ミリ秒間隔で表示されている一本の曲線として二次元空間 内に形成される。 表示空間内で軌道を決定した後、ステップ230において、許容領域の一つの 位置が異なる音素のシーケンスに対応する軌道の集中度に基づいて決定される。 上記許容領域は、異なる音素のシーケン スに対応する軌道の比較的高い集中部分と交差するか、それに最も近いN次の表 示空間内のN次の領域である。例えば、許容領域を、異なる音素のシーケンスに 対応する最も多くの数の軌道と交差するか、それに最も近い一つの領域とするこ とができる。許容領域の大きさは、一つの接合音素のいくつかの分離点が許容領 域の最も外側の部分内の時点に対応している音響要素を連結する際に、要な最低 の音質を達成できるように、予め定めておかなければならない。正しい許容領域 を決定するための特定の方法は、第4図および第5図で詳細に説明する。 許容領域の上記点を決定した後、ステップ240において、音響要素形成のた めに、対応する軌道の許容領域への接近の度合に基づいて特定の音標文字のシー ケンスが選択される。例えば、音声信号のいくつかの音標文字のシーケンスが同 じ音素のシーケンスに対応している場合には、その対応する軌道が選択され、許 容領域に最も近いか許容領域内にある音標文字のシーケンスが音響要素を形成す る。 ステップ240において、音標文字のシーケンスが選択された後、ステップ2 50において、必要な音響要素を入手するために、音標文字のシーケンス内で各 分離点が決定される。上記分離点は、許容領域に実質的に最も近いか、または許 容領域内にある軌道に沿って時点に対応する。最後に、ステップ260において 、選択した音標文字のシーケンス、およびその対応する分離点に基づいて、音響 要素が形成される。ステップ210において識別されたすべての音標文字のシー ケンスが音響要素を形成するためのものである場合は、必要な各音素のシーケン スに対する音声信号に音標文字のシーケン スが一つしか存在しない場合である。そうでない場合には、ステップ240を省 略することができる。 本発明の場合、許容領域の位置は異なる音素のシーケンスに対応する軌道に基 づいている。この方法の場合、本発明は、音声信号からの音標文字のシーケンス に対する軌道の全数より少ない軌道を使用することによって、許容領域の位置を 決定する際に大きな変化を達成する。この変化により、本発明は、連結中断を低 減する音響要素を形成する特定の音標文字のシーケンスおよび分離点を、より正 確に選択することができる。許容領域の位置が、異なる音標文字のシーケンスに 対応する軌道が最も集中している領域である場合には、音響要素は比較的優れた 音質で合成音声を作る。しかし、音質が少し悪くてもいい場合には、軌道の最も 高い集中度より低い集中度を持つ許容領域を、本発明に従って使用することがで きる。 本発明により許容領域を決定するための例示としての技術は、軌道が各セル内 に存在することを決定し、少なくとも最低のレベルの軌道の集中度を持つ、特定 のセルまたはセル領域の識別が行われる表示空間に分割する技術である。この技 術による方法200の例示としての動作を第4図の例示としての軌道グラフ30 0を参照しながら説明する。第3図について説明すると、音素/i/に対応する 音標文字のセグメントを含む音標文字のシーケンスは、ステップ210において 、記録した音声の間隔により識別される。上記音標文字のシーケンスは、音素の シーケンス/lid/、/lik/、/mik/、/gim/、/din/に対 応し、五つの音標文字のシーケンスは音素のシーケンス/kit/に対応する。 これらの音素のシーケンスから形成することができる音響要素は、ダイフォン [l−k]、[i−d]、[i−k]、[m−i]、[g−i]、[i−m]、 [d−i]、[i−n]、[k−i]および[i−t]を含む。第4図の説明は 、音響要素の構造に関するものであるが、本発明に従ってもっと大きい音素のシ ーケンスの音響要素を、もっと大きい音標文字のシーケンスの特定の境界音素に 対して第3図の方法200を実行することにより、作ることができることを理解 されたい。 ステップ210において識別された音標文字のシーケンスに対して、ステップ 220において、各音標文字のシーケンスに対して二つのフォルマントの軌道が 形成される。第4図の軌道のグラフ300は、複数のセル310に分割される二 つのフォルマントの表示空間内のこれらの軌道を示す。第4図においては、その 対応する音素のシーケンスの識別により、各軌道にはラベルが表示される。例え ば、軌道305は、音素のシーケンス「lid」に対応する音標文字のシーケン スにより決定され、それに従って「LID」のラベルがつけられる。第1図のデ ータベース5を発生するために使用する音声信号のその部分からの音素の五つの シーケンスには、説明を分かりやすくするために「KIT1」から「KIT5」 のラベルがつけられる。図に示した二つのフォルマントの軌道のそれぞれは、特 定の時点で対応するフォルマントF2の周波数値に対して描いた、各音標文字の シーケンスに対するフォルマントF1の周波数値を表す。 フォルマントF1およびF2の周波数は、X軸およびY軸上にそれぞれ表示さ れる。軌道沿いの特定の時点は、軌道305上に示すように対応するラベルとし て表示することができる。第4図の二次 元の軌道は、説明を分かりやすくするためだけのものであって本発明を制限する ものではない。例えば、一つの母音を含む音標文字のセグメントの、三つのフォ ルマントまたは四つのフォルマントを含む他のN次元の表現を特定の音素として 使用することもできるし、一つの子音を含む振幅およびスペクトル傾斜表現を特 定の音素として使用することもできる。 表示空間内のセル310の大きさが許容領域の必要な大きさの1/4に設定さ れているが、これは図を見易くし説明を分かり易くするためである。許容領域の 大きさがセルの大きさよりそんなに大きくない場合には、セルの大きさを必要な 許容領域の大きさの倍数に設定すると便利である。第3図の方法200のステッ プ230においては、許容領域の決定は異なる音素のシーケンスに対応する軌道 と交差する領域に基づいて行われる。従って、許容領域の大きさがセル310の 2×2のアレイの大きさであれば、必要とする最低の音質を得るのに十分である 場合には最も多くの数の上記軌道と交差する領域320が許容領域となる。 上記の軌道との交差が最も多いセルを決定する方法は、例えば、表示空間内の セルをグリッド・サーチする方法である。この方法の場合には、第4図の各セル が検査されそのセルと交差する異なる音素のシーケンスに対応する軌道の数、ま たはそのセル310を囲む予め定めた分解領域が決定される。例えば、軌道の交 差の数はセル310の異なる音素のシーケンスに対応し、軌道LIDおよびMI Kに対する軌道の交差数は2である。異なる音標文字のシーケンスに対応する上 記軌道交差の数が、最も多いセルを決定するための計算がもっと簡単でもっと速 い方法については、以下に第5図のとこ ろで詳細に説明する。 第3図の方法200に戻って説明すると、軌道が決定された後、ステップ24 0において、音響要素を形成するために、許容領域320に近い対応する軌道に 基づいて特定の音標文字のシーケンスが選択される。データベースが必要とする 空間を最も小さくし、また音声合成装置の設計を簡単にするためには、特定の音 素のシーケンスに対するデータベース5に、たった一つだけ音響要素を収容する ほうが有利である。それ故、音響要素[l−i]を形成するために音標文字のシ ーケンス/lik/または/lid/が選択され、音響要素[i−k]を形成す るために音標文字のシーケンス/likまたは/mik/が選択される。さらに 、音素のシーケンス/kit/に対する五つの音標文字のシーケンスの中の一つ が、音響要素[k−i]および[i−t]を形成するために選択される。しかし 、もっと大きなデータベースを使用するもっと複雑な音声合成装置の場合には、 音声合成の用途に基づいて、特定の音素のシーケンスに対して、複数の音響要素 を使用することができる。上記データベースを形成する場合には、一つ以上で、 特定の音素のシーケンスに対応する音声信号から抽出したすべての音標文字のシ ーケンスまでを音響要素を形成するために選択することができる。 特定の音素のシーケンスに対してデータベース5に一つの音響要素が存在する 場合には、上記音響要素を形成する、同じ音素のシーケンスに対応する複数の音 標文字のシーケンスの特定の一つの識別は、許容領域への対応する軌道の相対的 な近接度に基づいて行うことができる。例えば、音響要素[l−i]の場合には 、許容領域320と交差する「LID」に対する音標文字のシーケンスがその 軌道LIKが許容領域320と交差しない音標文字のシーケンス「LIK」に優 先してその軌道LIDが選択される。同様に、ほぼ同じ理由から、音響要素[i −k]に対しては、音標文字のシーケンス「MIK」が音標文字のシーケンス「 LIK」に優先して選択される。同様に、音響要素[k−i]および[i−t] の両方に対しては、軌道KIT5に対応する音標文字のシーケンスが他の各音標 文字のシーケンス「KIT」に優先して選択される。 さらに、音響要素は、通常二つの境界音素のところで連結することができるの で、音響要素の形成に使用した特定の音標文字のシーケンスの選択は、両方の境 界音素に対するその軌道の近接度に基づいて行わなければならない。それ故、そ の軌道が、境界音素/i/および境界音素/k/に対する両方の許容領域に全体 的に最も近い特定の音標文字のシーケンス「MIK」または「LIK」が音響要 素[i−k]を形成するために、選択される。 多くの場合、同じ音素のシーケンスに対応する音標文字のシーケンスは、その 境界音素の両方に対する各許容領域に最も近い軌道を持たない。音標文字のシー ケンスのソースがその音素のシーケンスを含む二つの異なる語である場合に、上 記の例が起こる場合がある。そのような場合には、好適にはその軌道が全体的に 最もいい音質を持つ音標文字のシーケンスを選択することが好ましい。上記の音 標文字のシーケンスを選択するための例示としての一つの方法は、対応する境界 音素に関して、音標文字のシーケンスをランク付けするために、特定の音質測定 値に基づいて、その各音標文字のシーケンスにある数値を割り当てることである 。全体的に最高のランクの音標文字のシーケンスが、音響要素を形成するために 使用される。 再び第3図の方法200について説明すると、音響要素に対して音標文字のシ ーケンスが選択されると、音響要素を形成するために使用される音標文字のシー ケンスの分離点がステップ250において決定される。例えば、第4図において は、分離点は許容領域320内の各軌道の時点に基づいて決定される。許容領域 320と交差するこれらの軌道の場合には、選択した分離点は、好適には許容領 域320の中心点340にほぼ最も近い軌道に沿った時点であることが好ましい 。例えば、中心点340に最も近い軌道305上の時点は、第4図の160ミリ 秒である。従って、音響要素/i−k/は、時点160ミリ秒から始まる対応す る音標文字のシーケンスに基づいて決定される。 軌道LIKのように、許容領域320と交差しない軌道の場合には、分離点は 、依然として許容領域の中心点340に最も近い軌道に沿った時点でなければな らない。それ故、音響要素を形成するために音標文字のシーケンス「LIK」が 選択された場合には、正しい分離点は軌道LIK上の時点350に対応する。音 響要素を形成するためにこの音標文字のシーケンスを使用する場合には、比較的 大きな中断が音素/i/のところに発生することを理解されたい。従って、その 音響要素を形成するためのもっと好ましい候補であるかどうかを判断するために 、音素のシーケンス/lik/に対して、他の音声セグメントを入手するほうが 望ましい場合もある。 第3図の方法200の場合には、ステップ250において分離点を決定した後 、選択した音声セグメントおよび決定した分離点に基づいて音響要素が形成され る。音響要素は、例えば、それぞれの分離点で始まり、また終わる音標文字のシ ーケンスに対応するデジタ ル化信号、またはLPCパラメータの形で、データベース5に維持することがで きる。また、もっと長いシーケンスを、各音響要素に対する特定の分離点に対応 する開始値および終了値と一緒にデータベース5に記憶することができる。その 後、第1図の音響要素検索プロセッサ15は、これらの数値に基づくこれらのよ り長いシーケンスから正しい音響要素を抽出する。データベース5に対して使用 される特定の組織形成方法は、制限するためのものではなく、本発明に従って形 成された音響要素を記憶するためには任意の組織を使用することができることを 容易に理解することができるだろう。特定の言語の多くの発声を合成するために 、その言語のすべての要素としての音素のシーケンスに対する音響要素を生成し なければならない。 本発明による許容領域の位置の決定の際に、軌道の多くの変化の驚くべき使用 法により連結した場合には、より小さな中断を発生する音響要素が得られる。例 えば、第4図において、領域360はすべての軌道に基づく領域に対応し、音素 のシーケンス/kit/に対する五つの軌道による全体的に最も多くの数の上記 軌道と交差するか、または最も近い。しかし、領域360に最も近い軌道LID およびMIK上の時点は、対応する音響要素の連結の際に比較的大きな中断を生 じることを理解することができるだろう。反対に、許容領域320は、音素のシ ーケンス/kit/の複数の例により傾斜しないし、許容領域320へのすべて の選択した軌道の間の対応する距離ははるかに短く、すべての対応する中断を最 も短くする。 第5図は、第3図のステップ230で使用する、異なる音標文字のシーケンス に対応する最も多くの軌道交差を持つセルを決定する 本発明による例示としての方法400を示す。説明を分かりやすくするために、 第4図で使用した対応する音標文字のシーケンス・ラベルの代わりに、第5図で は各軌道を一意の整数で示す。例えば、第4図の9本の軌道は第5図では軌道1 −9と呼ぶ。このような軌道のラベル表示は、アレイまたは表のようなデータ構 造表現で使用される従来のポインタと同じものである。 方法400の場合には、整数Nおよび複数のリストであるLIST_iは、ス テップ400においてゼロに初期化される。複数のリストであるLIST_i内 のリストの数字iは表示空間内のセルの数に対応する。表示空間内のセルの数に 対応する。その後、ステップ420において整数Nが増大する。その後、ステッ プ430において、軌道Nの各時点に対して各時点を囲む分解領域内に存在する セルが識別される。便宜上、分解領域の大きさは許容領域の大きさと同じにして ある。しかし、分解領域は、そうしたい場合には、本発明により他の大きさにす ることもできる。分解領域の大きさを2×3のセルのアレイでカバーされる大き さに選択した場合には、第4図の軌道305の0.095ミリ秒での時点505を囲 む分解領域は、輪郭線510で囲まれているセル511、512、513および 514を含む。 ステップ430において、分解領域内の上記セルが識別された後、識別したセ ルに対する各リストLIST_iは、対応する軌道Nに対する音素のシーケンス の名前により更新される。また、ステップ440においては、そのセルに対する リストに含まれていない場合に限って、音素のシーケンスの名前がリストに追加 される。従って、上記例の場合、セル511乃至514に対するリストLIST _i に名前「LID」が存在しない場合には、これらのセルに対するリストLIST _iはその名前で更新される。軌道305に沿った他の時点に対する分解領域内 に存在するセルに対するリストLIST_iも、同様に、ほぼ同じ方法で名前「 LID」で更新される。 特定の軌道Nの識別された分解領域内のすべてのセルがステップ440におい て更新された後、この方法は整数Nがステップ450の軌道の全数と等しいかど うかを判断する。Nが軌道の全数と等しくない場合には、方法400は、次の軌 道Nの時点に基づいてリストLIST_iを更新するために、ステップ420− 440を実行する。しかし、Nが軌道の全数と等しいと判断した場合には、すべ ての軌道は処理され、分解領域内のすべてのリストLIST iは更新され、方 法400はステップ460へ進む。ステップ460においては、対応するリスト LIST_iの最も大きな数の名前を持つセルまたはセルの領域から許容領域が 決定される。方法400は、軌道の時点の分解領域内に存在するこれらのセルを 検査し、更新するだけなので、各セルを個々に検査するグリッド・サーチ法と比 較すると計算が簡単で迅速である。 方法400の場合には、ステップ430において、最初対応するセル・リスト がステップ440において更新される前に、特定の軌道の時点に対する分解領域 内のすべてのセルが検出される。しかし、第4図のステップのシーケンスは、説 明のためのものに過ぎず、本発明を制限するものではないことを理解されたい。 上記ステップのシーケンスは、その各セルが特定の軌道の時点の分解領域内にあ ることが決定された直後に、リストLIST_iの更新を含む種々の異なる方法 で実行することができる。 他の実施例の場合には、最も長いリストLIST_iのセルの識別は、最も長 いリストLIST_iおよび対応する最大リストの長さでセルを記憶し更新する ことにより、セル・リスト更新プロセスの間維持することができる。各セル・リ ストが更新されると、そのリストに含まれる名前の全数を最も長いリストに対し て記憶されている数値と比較することができる。リストの名前の全数が記憶され ているセル識別の全数より多い場合には、それに従って、記憶されているセル識 別および最大のリストの長さが更新される。このようにして、許容領域に対応す るセルの識別は、処理ステップとそれ以上行わなくても最後の軌道の最後の時点 を処理する際に分かる。 例えば、表示空間内のセルの位置を示す整数値を持つデータ構造の形式のよう に、セル・リストに索引がつけられている場合には計算が簡単でもっと迅速な方 法を使用することができる。例えば、第4図のセル310のセル・リストは、X 座標およびY座標に対応するように索引をつけることができる。その後、索引を つけたセルに基づいて、軌道の時点の数値を時点の相対座標位置を示す索引数値 に変換するために、変換数値が使用される。その後、その時点の分解領域内のセ ルの索引番号を識別するために、変換索引数値に分解数値が加算され、変換索引 数値から分解数値が差し引かれる。その後、分解領域内の各セルのリストLIS T_iが、それに従って更新される。 それ故、第4図の例の場合には、それぞれXおよびY両方向の3番目および4 番目のセルの間に存在することを示す変換数値、x=3.5およびy=3.5を 入手するために、軌道305の時点505のフォルマントF1およびF2周波数 の数値に変換係数を掛 けることができる。それ故、分解領域が2×2セル・アレイの大きさである場合 には、分解領域510内のセルのセル・リストが、それぞれセル511乃至51 4に対応する座標(3、3)、(3、4)、(4、3)および(4、4)を持つ ように、また音素のシーケンス名「LID」により更新されるように、±1の分 解数値を変換数値に加算し、最も近い位置に四捨五入する必要がある。 本発明のいくつかの実施例を詳細に説明してきたが、本発明の内容から逸脱し ないで、多くの修正を行うことができる。そのようなすべての修正は、下記の特 許請求の範囲内に含まれる。例えば、上記説明では、本発明は、二次元の長方形 セルおよび許容領域を持っているが、立方体、ボックス、球形および偏球を含む N次元の表示空間と一致するセルおよび領域に対して、任意のN次元の閉じた形 状領域を使用することができる。さらに、本発明は、テキスト−音声合成システ ムおよび音声応答システムを含む、種々の音声合成の用途に特に有用である。
【手続補正書】 【提出日】1999年12月8日(1999.12.8) 【補正内容】 (1)「請求の範囲」を別紙の通り訂正する。 (2)明細書第1頁第10行目の 「音表」を「音標」に訂正する。 請求の範囲 1. 合成音声を連結するための音響要素を持つ、音響要素・データベースを含む 合成音声を発生する方法であって、該音響要素・データベースが、 音声信号の間隔内に発生する、複数の音標文字のシーケンス内に含まれる、 特定の音標文字のセグメントに対応する、少なくとも一つの音素に対して、 各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの 少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシー ケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内 での上記許容領域の相対的な位置を決定するステップと、 上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時 点での音標文字のシーケンスの分離点を識別することによって、音標文字のシー ケンスから、音響要素を形成するステップにより形成される方法。 2. 請求の範囲第1項に記載の方法において、音響要素が、選択された音標文字 のシーケンスの一部から形成される場合に、上記許容領域への対応する軌道の近 接度に基づいて、特定の音素のシーケンスに対応する部分を持つ、複数の音標文 字のシーケンスから、少なくとも一つの音標文字のシーケンスを選択するステッ プをさらに含む方法。 3. 請求の範囲第1項に記載の方法において、音響要素を形成するステップが、 上記許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った 各時点において、各音標文字のシー ケンスの分離点を識別する方法。 4. 請求の範囲第3項に記載の方法において、音響要素を形成するステップが、 上記許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った 各時点において、各音標文字のシーケンスの分離点を識別する方法。 5. 請求の範囲第1項に記載の方法において、音響要素が、特定の言語に対する 各予測音素のシーケンスに対して形成される方法。 6. 請求の範囲第1項に記載の方法において、軌道が、音標文字のシーケンスの フォルマントに基く方法。 7. 請求の範囲第1項に記載の方法において、上記軌跡が、三つのフォルマント 表現に基き、上記表示空間が、三つのフォルマント空間である方法。 8. 請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であり、上記許容領域を決定するステップが、さら に異なる音素のシーケンスに対応する実質的に最大の数の軌道と交差する、少な くとも一つのセルの領域を決定するために、グリッド・サーチの実行を含む方法 。 9. 請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であって、上記許容領域を決定するステップが、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記識別が、そのセルに対す るリスト内に含まれていない場合には、上記軌道に対応する音素のシーケンスの 識別と一緒に、そのセルに対して維 持されているリストの更新と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む方法。 10.請求の範囲第9項に記載の方法において、分解領域内のこれらのセルを識別 するステップが、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関 連するリストの更新とを含む方法。 11.請求の範囲第9項に記載の方法において、上記分解領域および上記許容領域 が、同じ大きさである方法。 12.請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であって、上記許容領域を決定するステップが、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシ ーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、 各セル・リストからの複数の識別の除去と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む方法。 13.請求の範囲第12項に記載の方法において、分解領域内のこれらのセルを識 別するステップが、上記軌道沿いの時点の処理と、対応する分解領域内のセルに 関連するリストの更新とを含む方法。 14.請求の範囲第12項に記載の方法において、上記分解領域および上記許容領 域が、同じ大きさである方法。 15.請求の範囲第1項に記載の方法において、複数の音標文字の シーケンスの少なくとも二つの音標文字のシーケンスが、特定の音素のシーケン スに対応する部分を持ち、さらに、特定の音素のシーケンスに対する音響要素が 、決定した数値に基づいて、上記音標文字のシーケンスの対応する部分の一つか ら形成される場合に、上記許容領域への対応する軌道の近接度に基づいて、音標 文字のシーケンスの各セクションに対する数値を決定するステップを含む方法。 16.請求の範囲第15項に記載の方法において、数値を決定するステップが、さ らに対応する音標文字のシーケンスの音質の測定値に基く方法。 17.請求の範囲第16項に記載の方法において、上記音質の測定値が、異なる境 界音素に対応する音標文字のシーケンスに対する許容領域への軌道の近接度から 決定される方法。 18.音声信号の間隔内に発生する複数の音標文字のシーケンスに含まれる、特定 の音標文字のセグメントに対応する少なくとも一つの音素に対して、 各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの 少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシー ケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内 での上記許容領域の相対的な位置を決定するステップと、 上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時 点での音標文字のシーケンス内の分離点を識別することによって、音標文字のシ ーケンスから音響要素を形成するステップにより形成された、合成音声を連結す るための音響要素を 持つ音響要素・データベースを含む合成音声を発生する装置。 19.請求の範囲第18項に記載の装置において、表示空間が、複数の隣接するN 次元のセルを含むN次元の空間であって、上記許容領域を決定するステップが、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記識別がそのセルに対する リストに含まれていない場合には、上記軌道に対応する音素のシーケンスの識別 と一緒に、そのセルに対して維持されているリストの更新と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む装置。 20.請求の範囲第19項に記載の装置において、分解領域内のこれらのセルを識 別するステップが、上記軌道沿いの時点の処理と、対応する分解領域内のセルに 関連するリストの更新とを含む装置。 21.請求の範囲第18項に記載の装置において、上記表示空間が、複数の隣接す るN次元のセルを含むN次元の空間であって、上記許容領域を決定するステップ が、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシ ーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、 各セル・リストからの複数の識別の除去と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む装置。 22.請求の範囲第21項に記載の装置において、分解領域内のこれ らのセルを識別するステップが、上記軌道沿いの時点の処理と、対応する分解領 域内のセルに関連するリストの更新とを含む装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 オリーブ,ジョセフ フィリップ アメリカ合衆国 07060 ニュージャーシ ィ,ウォッチュング,ヴァレイ ドライヴ 101 (72)発明者 タネンブラット,マイケル アブラハム アメリカ合衆国 10023 ニューヨーク, ニューヨーク,ウエスト セブンティ フ ァースト 309 (72)発明者 ヴァン サンテン,ジャン ピーター アメリカ合衆国 11226 ニューヨーク, ブルックリン,ラグビー ロード 293

Claims (1)

  1. 【特許請求の範囲】 1. 合成音声を連結するための音響要素を持つ、音響要素・データベースを含む 合成音声を発生する方法であって、該音響要素・データベースが、 音声信号の間隔内に発生する、複数の音標文字のシーケンス内に含まれる、 特定の音標文字のセグメントに対応する、少なくとも一つの音素に対して、 各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの 少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシー ケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内 での上記許容領域の相対的な位置を決定する段階と、 上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時 点での音標文字のシーケンスの分離点を識別することによって、音標文字のシー ケンスから、音響要素を形成する段階により形成される方法。 2. 請求の範囲第1項に記載の方法において、音響要素が、選択された音標文字 のシーケンスの一部から形成される場合に、上記許容領域への対応する軌道の近 接度に基づいて、特定の音素のシーケンスに対応する部分を持つ、複数の音標文 字のシーケンスから、少なくとも一つの音標文字のシーケンスを選択する段階を さらに含む方法。 3. 請求の範囲第1項に記載の方法において、音響要素を形成する段階が、上記 許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った各時 点において、各音標文字のシーケン スの分離点を識別する方法。 4. 請求の範囲第3項に記載の方法において、音響要素を形成する段階が、上記 許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った各時 点において、各音標文字のシーケンスの分離点を識別する方法。 5. 請求の範囲第1項に記載の方法において、音響要素が、特定の言語に対する 各予測音素のシーケンスに対して形成される方法。 6. 請求の範囲第1項に記載の方法において、軌道が、音標文字のシーケンスの フォルマントに基く方法。 7. 請求の範囲第1項に記載の方法において、上記軌跡が、三つのフォルマント 表現に基き、上記表示空間が、三つのフォルマント空間である方法。 8. 請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であり、上記許容領域を決定する段階が、さらに異 なる音素のシーケンスに対応する実質的に最大の数の軌道と交差する、少なくと も一つのセルの領域を決定するために、グリッド・サーチの実行を含む方法。 9. 請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であって、上記許容領域を決定する段階が、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記識別が、そのセルに対す るリスト内に含まれていない場合には、上記軌道に対応する音素のシーケンスの 識別と一緒に、そのセルに対して維 持されているリストの更新と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む方法。 10.請求の範囲第9項に記載の方法において、分解領域内のこれらのセルを識別 する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連す るリストの更新とを含む方法。 11.請求の範囲第9項に記載の方法において、上記分解領域および上記許容領域 が、同じ大きさである方法。 12.請求の範囲第1項に記載の方法において、表示空間が、複数の隣接するN次 元のセルを含むN次元の空間であって、上記許容領域を決定する段階が、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシ ーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、 各セル・リストからの複数の識別の除去と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む方法。 13.請求の範囲第12項に記載の方法において、分解領域内のこれらのセルを識 別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連 するリストの更新とを含む方法。 14.請求の範囲第12項に記載の方法において、上記分解領域および上記許容領 域が、同じ大きさである方法。 15.請求の範囲第1項に記載の方法において、複数の音標文字の シーケンスの少なくとも二つの音標文字のシーケンスが、特定の音素のシーケン スに対応する部分を持ち、さらに、特定の音素のシーケンスに対する音響要素が 、決定した数値に基づいて、上記音標文字のシーケンスの対応する部分の一つか ら形成される場合に、上記許容領域への対応する軌道の近接度に基づいて、音標 文宇のシーケンスの各セクションに対する数値を決定する段階を含む方法。 16.請求の範囲第15項に記載の方法において、数値を決定する段階が、さらに 対応する音標文字のシーケンスの音質の測定値に基く方法。 17.請求の範囲第16項に記載の方法において、上記音質の測定値が、異なる境 界音素に対応する音標文字のシーケンスに対する許容領域への軌道の近接度から 決定される方法。 18.音声信号の間隔内に発生する複数の音標文字のシーケンスに含まれる、特定 の音標文字のセグメントに対応する少なくとも一つの音素に対して、 各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの 少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシー ケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内 での上記許容領域の相対的な位置を決定する段階と、 上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時 点での音標文字のシーケンス内の分離点を識別することによって、音標文字のシ ーケンスから音響要素を形成する段階により形成された、合成音声を連結するた めの音響要素を持つ 音響要素・データベースを含む合成音声を発生する装置。 19.請求の範囲第18項に記載の装置において、表示空間が、複数の隣接するN 次元のセルを含むN次元の空間であって、上記許容領域を決定する段階が、各軌 道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記識別がそのセルに対する リストに含まれていない場合には、上記軌道に対応する音素のシーケンスの識別 と一緒に、そのセルに対して維持されているリストの更新と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む装置。 20.請求の範囲第19項に記載の装置において、分解領域内のこれらのセルを識 別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連 するリストの更新とを含む装置。 21.請求の範囲第18項に記載の装置において、上記表示空間が、複数の隣接す るN次元のセルを含むN次元の空間であって、上記許容領域を決定する段階が、 各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、 上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシ ーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、 各セル・リストからの複数の識別の除去と、 そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つの セルに対応する許容領域の決定とを含む装置。 22.請求の範囲第21項に記載の装置において、分解領域内のこれ らのセルを識別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内 のセルに関連するリストの更新とを含む装置。
JP50931697A 1995-08-16 1996-08-02 音響要素・データベースを有する音声合成装置 Expired - Fee Related JP3340748B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/515,887 1995-08-16
US08/515,887 US5751907A (en) 1995-08-16 1995-08-16 Speech synthesizer having an acoustic element database
PCT/US1996/012628 WO1997007500A1 (en) 1995-08-16 1996-08-02 Speech synthesizer having an acoustic element database

Publications (2)

Publication Number Publication Date
JP2000509157A true JP2000509157A (ja) 2000-07-18
JP3340748B2 JP3340748B2 (ja) 2002-11-05

Family

ID=24053185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50931697A Expired - Fee Related JP3340748B2 (ja) 1995-08-16 1996-08-02 音響要素・データベースを有する音声合成装置

Country Status (10)

Country Link
US (1) US5751907A (ja)
EP (1) EP0845139B1 (ja)
JP (1) JP3340748B2 (ja)
AU (1) AU6645096A (ja)
BR (1) BR9612624A (ja)
CA (1) CA2222582C (ja)
DE (1) DE69627865T2 (ja)
MX (1) MX9801086A (ja)
TW (1) TW305990B (ja)
WO (1) WO1997007500A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251314B2 (en) * 1994-10-18 2007-07-31 Lucent Technologies Voice message transfer between a sender and a receiver
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
JP2000075878A (ja) * 1998-08-31 2000-03-14 Canon Inc 音声合成装置およびその方法ならびに記憶媒体
US6202049B1 (en) 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
US6178402B1 (en) * 1999-04-29 2001-01-23 Motorola, Inc. Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US6618699B1 (en) 1999-08-30 2003-09-09 Lucent Technologies Inc. Formant tracking based on phoneme information
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6625576B2 (en) 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7542903B2 (en) 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
JP4878538B2 (ja) * 2006-10-24 2012-02-15 株式会社日立製作所 音声合成装置
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
JP2011180416A (ja) * 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
BG24190A1 (en) * 1976-09-08 1978-01-10 Antonov Method of synthesis of speech and device for effecting same
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4831654A (en) * 1985-09-09 1989-05-16 Wang Laboratories, Inc. Apparatus for making and editing dictionary entries in a text to speech conversion system
WO1987002816A1 (en) * 1985-10-30 1987-05-07 Central Institute For The Deaf Speech processing apparatus and methods
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
GB2207027B (en) * 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
JPH031200A (ja) * 1989-05-29 1991-01-07 Nec Corp 規則型音声合成装置
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
US5283833A (en) * 1991-09-19 1994-02-01 At&T Bell Laboratories Method and apparatus for speech processing using morphology and rhyming
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system

Also Published As

Publication number Publication date
DE69627865D1 (de) 2003-06-05
DE69627865T2 (de) 2004-02-19
AU6645096A (en) 1997-03-12
WO1997007500A1 (en) 1997-02-27
CA2222582C (en) 2001-09-11
CA2222582A1 (en) 1997-02-27
US5751907A (en) 1998-05-12
TW305990B (ja) 1997-05-21
EP0845139A4 (en) 1999-10-20
MX9801086A (es) 1998-04-30
BR9612624A (pt) 2000-05-23
JP3340748B2 (ja) 2002-11-05
EP0845139A1 (en) 1998-06-03
EP0845139B1 (en) 2003-05-02

Similar Documents

Publication Publication Date Title
JP2000509157A (ja) 音響要素・データベースを有する音声合成装置
CA2351842C (en) Synthesis-based pre-selection of suitable units for concatenative speech
EP1138038B1 (en) Speech synthesis using concatenation of speech waveforms
Black et al. Generating F/sub 0/contours from ToBI labels using linear regression
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
EP2462586B1 (en) A method of speech synthesis
JPH10171484A (ja) 音声合成方法および装置
JP3346671B2 (ja) 音声素片選択方法および音声合成装置
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
JPH08335096A (ja) テキスト音声合成装置
JP2004354644A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
EP1589524B1 (en) Method and device for speech synthesis
Bruce et al. On the analysis of prosody in interaction
EP1640968A1 (en) Method and device for speech synthesis
Leontiev et al. Improving the Quality of Speech Synthesis Using Semi-Syllabic Synthesis
Eady et al. Pitch assignment rules for speech synthesis by word concatenation
EP1501075B1 (en) Speech synthesis using concatenation of speech waveforms
JPH11305787A (ja) 音声合成装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080816

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090816

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100816

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110816

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110816

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120816

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120816

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130816

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees