JP2000509157A

JP2000509157A - 音響要素・データベースを有する音声合成装置

Info

Publication number: JP2000509157A
Application number: JP9509316A
Authority: JP
Inventors: モエビウス，バーンド; フィリップオリーブ，ジョセフ; アブラハムタネンブラット，マイケル; サンテン，ジャンピーターヴァン
Original assignee: ルーセントテクノロジーズインコーポレーテッド
Priority date: 1995-08-16
Filing date: 1996-08-02
Publication date: 2000-07-18
Anticipated expiration: 2016-08-02
Also published as: DE69627865D1; DE69627865T2; AU6645096A; WO1997007500A1; CA2222582C; CA2222582A1; US5751907A; TW305990B; EP0845139A4; MX9801086A; BR9612624A; JP3340748B2; EP0845139A1; EP0845139B1

Abstract

(57)【要約】本発明は、音声信号の間隔中に発生する音標文字のシーケンスから形成される、音響要素・データベースを使用する音声合成方法である。上記データベースを形成する際には、特定の音素に対応する音標文字のセグメントを含む、各音標文字のシーケンスに対して軌道が決定される。その後、異なる音素のシーケンスに対応する軌道の集中度に基づいて、許容範囲が識別される。上記データベースに対する音響要素は、上記許容領域に最も近い各軌道沿いの時点に対応する、音標文字のシーケンス内の分離点を識別することにより、音標文字のシーケンスの部分から形成される。このようにして、接合音素のところの感知できる中断が最も小さくなるように、共通の接合音素を持つ音響要素を連結することができる。上記許容領域を決定するための計算が簡単で、迅速な方法も開示している。

Description

【発明の詳細な説明】音響要素・データベースを有する音声合成装置発明の分野本発明は、概して、音声合成に関し、特に音声合成の際に使用される音響要素 (acoustic elements)を含むデータベースに関する。発明の背景規則に基く音声合成は、テキスト−音声および音声応答システムを含む、種々の形式の音声合成の用途に使用される。通常の規則に基く音声合成技術は、新しい語および文を形成するために、記録した音声から採取したダイフォン音表文字シーケンス(diphone phonetic sequence)の連結を含む。例えば、テキスト−音声合成装置の一例としては、本発明の譲受人の関係者が製造したＴＴＳシステムがある。引用によって本明細書の記載に援用する、「ＡＴ＆Ｔ技術ジャーナル(A T&T Technical Journal)」（１９９５年３月／４月）の第７４巻、第２号、第３５頁乃至第４４頁に掲載のＲ．Ｗ．スプロート(R.W.Sproat)およびＪ．Ｐ．オリーブ(J.P.Olive)の「テキスト−音声合成(Text-to-Speech Synthesis)」に、上記システムが記載されている。音素は、ある発声を他の発声と区別する働きをする音声音の最小単位に対応する。例えば、英語の場合、音素／ｒ／は、文字「Ｒ」に対応する。音声上のセグメントは、音素の特定の発声である。同じように、音標文字のシーケンスは、隣接する音標文字のセグメントのシーケンスの音声間隔である。ダイフォン音標文字のシーケンスは、一つの音標文字のセグメントのほぼ中央部分から開始し、次の音標文字のセグメントのほぼ中央部分で終了する音標文字のシーケンスである。その結果、ダイフォンはある音素から次の音素への遷移に対応する。通常、一つの音素に対応する一つの音標文字のセグメントの中央部分は、時間の経過によって大きく変化しないほぼ安定した音響特性を持つ。従って、二つの連結した音標文字のシーケンスの間の、一つの接合部に形成されるすべての中断は、比較的短いものである。しかし、異なる発声から採取した連結音標文字のシーケンスは、多くの場合、結果としての音響信号の理解を妨げるような、耳で聞き取ることができる中断を生じる。この中断問題を解決するための音声合成方法が、「コンピュータ音声および言語(Computer Speech and Language)」（１９９５年、アカデミック出版社(Acade mic Press Limited)発行）の第１頁乃至第１６頁に、Ｎ．イワハシ(N.Iwahasi) 及びＹ．サギサカ(Y.Sagisaka)が記載する論文「最適の合成単位セット用の音声セグメント・ネットワーク方法(Speech Segment Network Approach for an Opti mal Synthesis Unit Set)」と、「音響学、音声および信号処理に関するＩＥＥＥ議事録(IEEE Transactions on Acoustics,Speech and Signal Processing)」（１９８６年４月）の第３４巻、第２号、第２６４頁乃至第２７１頁に、Ｈ．キスリン(H.Kaeslin)が記載する論文「自然音声からのダイフォン・要素の抽出の組織的方法(A Systematic Approach to the Extraction of Diphone Elements f rom Natural Speech)」に記載されている。これらの文献は、引用によって本明細書の記載に援用する。イワサキ論文の方法は、中断またはセグメント間の歪を軽減した状態で、再度結合することができる予め記録した音声から、ダイフォン音標文字のシーケンスを選択するための最適化技術を使用する。より詳細に説明すると、この方法は、記録した音声から抽出した異なる音標文字のシーケンスの、多数の組み合わせのセグメント間の歪に対する数値を決定する。その後、結果として得られる数値は、特定の言語で使用された各ダイフォンに対する、全体の最善のシーケンスを選択するために、数学的な最適化を使用して評価される。しかし、この方法は、計算が非常に複雑で、おそらく特殊なコンピュータを必要とするか、望ましくない長い計算時間を必要とする。また、ダイフォン音標文字は、一つの音標文字のセグメントの安定状態の中央部分からスタートし、次の音標文字のセグメントの安定した中央部分で終了するが、中断点として使用した場合に、多くの場合、中央領域内の特定のいくつかの点で、結合の中断が短いシーケンスを生じる。従って、セグメント間の歪の軽減は、ほぼ各音標文字のシーケンスに対する、特定のいくつかのスタート点および終了点の選択の内容によって変わってくる。これらの中断点は通常、記録した音声からいくつかのシーケンスを抽出する人間のオペレータによって決定される。この場合、オペレータは、どの分離点が有意な利点を提供するかについては分からない。キスリンの論文は、連結の中断を最も少なくするための、最適なスタートおよび終了分離点を決定するための試験的方法を開示している。この方法は、ある特定の音素に対応する音標文字のセグメントを含む、すべてのダイフォン音標文字のシーケンスの、フォルマント(formant)の頻度に対する軌道を決定する。フォルマントの軌道は、一つの発声を構成する測定共振周波数の時間によって変化する図形的表現である。その後、この方法は、これらの軌道に基づいて、中心軌跡ベクトルを決定する。上記論文は、中心軌跡ベクトルを、「それ自身の平方と一組の軌道上の最も近いいくつかの点の合計を最も小さくする・・・・距離は、長い領域比距離により測定される」ベクトルとして定義している。その後、この方法は、中心軌跡ベクトルに最も近い軌道上の、いくつかの点に対応する時点での、いくつかのダイフォンデータベース要素を形成するために、記録した音声から音標文字のシーケンスを分離する。しかし、中心軌跡ベクトルの決定は非常に難しく、最初は、人間のオペレータによる「最良の推定」に基づいて行われる。上記軌道の性質により、「最良の推定」が望ましいものでない場合には、事実、実際のすべての軌道に対する中心軌跡ベクトルが、他にある場合には中心軌跡ベクトルが、一組のローカル軌道を正しく決定しない場合がある。正しくない中心軌跡ベクトルを使用した場合には、いくつかのシーケンス分離点が中断を全然軽減しないか、または無意味な僅かな軽減しか行わない。それ故、得られた連結セグメントの中断をほぼ最小にする各セグメントに対する、いくつかの正しい分離点を自動的に決定する音響セグメント・データベース形成方法が必要になる。発明の概要音声合成装置は、いくつかの特定の分離点の音声信号から抽出し選択した音標文字のシーケンスから形成した、音響要素を含む音響要素・データベースを使用する。本発明によれば、これらの分離点は、許容領域内またはそれに近い軌道時点に対応する。許容領域の大きさは、結合音標文字のセグメントのその分離点が、上記許容領域の一番端の部分内の時点に対応する連結音響要素で、必要最低限度の音質が得られるように決定しなければならない。上記許容領域の位置は、異なる音素のシーケンスに対応する軌道が集中する場所に基づいて決定される。例えば、上記許容領域を、軌道が形成される異なる音素のシーケンスに対応する軌道の最も高い集中に対応する表現空間の領域とすることができる。すなわち、上記領域は、ほぼ最も多くの数の上記軌道と交差するか、または最も近い領域である。それ故、本発明は、許容領域の位置を決定する際に軌道の最大の変化を使用することにより達成された、実質的で予期しない利点に依存している。上記変化により、本発明は、連結中断を軽減する音響要素を形成するための特定の音標文字のシーケンス音素分離点をもっと正確に選択することができる。本発明の一実施例の場合には、軌道の表示空間は複数の隣接するセルによりカバーされている。上記実施例の場合には、異なる音素のシーケンスに対応する平均の数の軌道より大きい数の軌道と交差する少なくとも一つのセルの領域を識別することによって、許容領域を決定するためにグリッド・サーチを使用することができる。本発明の他の実施例の場合には、一つの軌道に沿って各時点を囲む一つの領域内に存在するセルの識別が行われる。認識した各セルに対して、そのセルに対して維持されているリストが、その軌道に対する音素のシーケンスの識別により更新される。しかし、そのリスト上にすでに記載されている場合には、特定の音素のシーケンスをセル・リストに追加してはならない。この方法は、軌道の時点の分解領域内に存在するこれらのセルを検査し更新するだけなので、表示空間内の各セルを個々の検査するグリッド・サーチ法より速い。さらに、音素のシーケンスの識別はリストに一度に追加されるので、許容領域の決定が行われる際に、軌道が変化する。さらに、セルのリストは、軌道の時点の、周囲のある特定の領域内の複数のセルに対するリストの更新を容易にするために、索引付きのデータ構造を特徴とする。このような方法で、換算係数を使用して軌道の時点を索引値に変換することができる。その後、上記特定の領域内のセルに対応するセル・リストの索引値を決定するために、上記の変換索引値に分解値を加算したり、または差し引いたりすることができる。その後、許容領域を決定するために、最も長いリストを持つセルを容易に識別することができる。それ故、本発明を使用すれば、特殊なコンピュータや長い処理時間を使用しなくても、簡単で迅速な計算により音響要素・データベースを作成することができる。上記データベースは比較的容量の小さなメモリしか必要とせず、比較的自然な音の合成音声に連結することができる音響要素を含む。上記音響要素は、それぞれの許容領域に基づいて、分離点を使用して音声信号から抽出されるので、連結中の耳で聞き分けることができる中断の数は減少する。本発明の他の特徴および利点は、下記の詳細な説明を読み、添付の図面を参照すればさらに容易に理解することができる。図面の簡単な説明第１図は本発明の音響要素・データベースを使用する、例示としてのテキスト −音声合成装置の簡単なブロック図である。第２図Ａ乃至第２図Ｃは音標文字セグメントの例示としての、フォルマントの音声スペクトル写真である。第３図は第１図の音響要素・データベースを形成するための、本発明による例示としての方法のフローチャートである。第４図は第３図の方法で使用するための、音標文字のシーケンスに対する、例示としての軌道のグラフである。第５図は、第３図の方法で使用される許容領域を決定する、例示としての方法のフローチャートである。発明の詳細な記述図１は、本発明の音響要素データベース５を使用するテキスト−音声合成装置１である。説明を分かりやすくするために、テキスト−音声合成装置１の機能構成部分は、図１のボックスに表示してある。これらのボックスで実行される機能は、特定用途向け集積回路またはソフトウェアを実行するプロセッサまたは多重プロセッサを含むが、これに限定されない共有または専用ハードウェアを使用することによって供給することができる。「プロセッサ」という用語およびその合成語は、単にソフトウェアを実行することができハードウェアだけに限定すべきではなく、対応する機能を実行し相互に通信する各ソフトウェア・ルーチンも含まれると考えるべきである。図１において、データベース５を、例えば、ＣＤ−ＲＯＭやフロッピィ・ディスクやハードディスクや読み出し専用メモリ（ＲＯＭ）やランダムアクセスメモリ（ＲＡＭ）を含む、コンピュータが読むことができる記憶媒体上に常駐させることができる。データベース５は、異音を含む異なる音素のシーケンスまたは多音に対応する音響要素を含む（異音とは、周囲の音声により音素の変化したものである。例えば、ｐｉｔという語の気音／ｐ／、およびｓｐｌｉｔという語の気音を伴わない／ｐ／は、音素／ｐ／の異音である。）。データベース５を中程度の大きさにするためには、音響要素は、一般的に１− ３の音素のような制限された音素のシーケンスに対応していなければならない。音響要素は、一つの音素のほぼ安定状態の中央部分でスタートして他の音素の安定した状態の中央部分で終わる音標文字のシーケンスである。上記音響要素を、例えば、「音声合成に関するＥＳＣＡワークショップの処理(Process of the ES CA Workshop on Speech Synthesis)」（1990年）の第２５頁乃至第３０頁に記載の、Ｊ．Ｐ．オリーブ(J.P.Olive)の「音声音のより多くの音響インベントリを使用する連結音声合成システム用の新しいアルゴリズム(A New Algorithm for a concatenative Speech synthesis System Using an Augmented Acoustic Inve ntory of Speech Sounds)」に詳細に記載されている線形予測コーダ(Linear Pre dictive Coder：ＬＰＣ)パラメータ、またはデジタル化音声の形でデータベース５に記憶することができる。上記参考文献は、引用によって本明細書の記載に援用する。テキスト−音声合成装置１は、テキスト分析装置１０、音響要素索引プロセッサ１５、要素処理および連結（Element Processing and Concatenation：ＥＰＣ）プロセッサ２０、デジタル音声合成装置２５、およびデジタル−アナログ（Ｄ／Ａ）コンバータ３０を含む。テキスト分析装置１０は、ＡＳＣＩＩフォーマットのような読むことができるフォーマットでテキストを受信し、そのテキストを文法的に語に解析し、さらに略語および数字を語に変換する。その後、語はデータベース５の使用可能な音響要素に基づいて音素のシーケンスに分離される。上記音素のシーケンスはその後、音響要素検索プロセッサ１５に送られる。語を、音素のシーケンス、略語および数字の広がりに文法的に解析するための方法については、例えば、「応用自然言語処理に関する第二回会議の議事録(Pro ceedings of the Second conference on Applied Natural Language Processing )」（１９８８年、ニュージャージー州、モリスタウン(Morristown，NJ 1988)）の第１３６頁乃至１第４３頁に掲載のＫ．チャーチ(K.Church)の論文「制限のないテキストに対する確率論的品詞プログラムおよび名詞節の文法的解析装置(A S tochastic Parts Program and Noun Phase Parser for Unrestricted Text)」や、「人口頭脳(Artificial Intelligence)」（１９９３年）の第６３巻、第３０５頁乃至第３４０頁に掲載の、Ｊ．ハーチバーグ(J.Hirschberg)の論文「分脈内のピッチ・アクセント：予測国際プロミネンス(Pitch Accent in Context:Predi cting International Prominence From Text)」や「コンピュータ音声および言語(Computer Speech and Language)」（１９９４年）の第８巻、第７９頁乃至第９４頁に掲載のＲ．スプロート(R.Sproat)の論文「テキストから音声への場合の英語名詞節のアクセント(English Noun-Phrase Accent Prediction for Text-to -Speech)」や、「音声合成に関するＥＳＣＡワークショップ議事録(Proceedings of the ESCA Workdshop on Speech Synthesis)」（１９９０年）の第８３頁乃至第８６頁に掲載の、Ｃ．コーカ(C.Coker)他の論文「形態およびリズム：音声に対する文字−音変換規則に対する二つの強力な代案(Morphology and Rhyming: Two Powerful Alternatives to Letter-to-Sound Rules for Speech)」に記載されている。これらの文献は、引用によって本明細書の記載に援用する。テキスト分析装置１０は、さらに、各音素のシーケンスの持続時間、振幅および基本周波数を決定し、上記情報をＥＰＣプロセッサ２０に送る。上記持続時間を決定するための方法は、例えば、「コンピュータ音声および言語(Computer Sp eech and Language)」（１９９４年）の第８巻、第９５頁乃至第１２８頁に掲載の、Ｊ．フォン・サンテン(J.van Santen)の「テキスト−音声合成の際のセグメントの持続時間割当(Assignment of Segmental Duration in Text-to-Speech Sy nthesis)」に記載されている方法などがある。上記参考文献は、引用によって本明細書の記載に援用する。音素のシーケンスの振幅を測定するための方法としては、例えば、「ＥＳＣＡユーロスピーチ−９３(ESCA EUROSPEECH-93)」（1993年）の第９９頁乃至第１０２頁に掲載の、Ｌ．オリベイラ(L.Oliveira)の論文「周波数分析による、ソース・パラメータの推定(Estimation of Source Parameters by Frequency Analysis)」に記載されている方法などがある。音素の基本周波数は、セグメントのピッチまたはイントネーションとも呼ばれる。基本周波数、すなわち、ピッチの決定方法は、例えば、「音声および信号処理に関する国際会議議事録(Proceedings of the International Conference on Acoustics,Speech and Signal Processing)」（１９８４年、サンディエゴ(San Diego 1984)）の第１巻、第２．８．１頁乃至第２．８．４頁に掲載の、Ｍ．アンダーソン(M.And erson)他の「英語のイントネーション・パターンの規則による合成(Synthesis b y Rule of English Intonation Patterns」に記載されている。上記参考文献は、引用によって本明細書の記載に援用する。音響要素検索プロセッサ１５は、テキスト分析装置１０から音素のシーケンスを受信し、データベース５から対応する正しい音響要素を選択し検索する。音響要素選択方法は、例えば、上記オリーブの参考文献に記載されている。その後、検索した音響要素は、音響要素検索プロセッサ１５によりＥＰＣプロセッサ２０へ送られる。ＥＰＣプロセッサ２０は、基本周波数および振幅を調整し、テキスト分析装置１０から受信した対応する情報に基づいて正しい持続時間を挿入することにより、各受信音響要素を修正する。その後、ＥＰＣプロセッサ２０は、修正した音響要素をテキスト分析装置１０のテキスト入力に対応する音響要素２０のストリングに連結する。ＥＰＣプロセッサ２０の連結方法は上記オリベリアの論文に記載されている。ＥＰＣプロセッサ２０が作った音響要素のストリングはデジタル音声合成装置２５に送られ、上記デジタル音声合成装置２５は音響要素・ストリングの自然音声に対応するデジタル信号を発生する。デジタル信号合成の例示としての方法は、上記のオリベリアの論文に記載されている。デジタル音声合成装置２５が発生したデジタル信号はＤ／Ａコンバータ３０に送られ、上記コンバータは対応するアナログ信号を発生する。上記アナログ信号はアンプおよびスピーカ（図示せず）に送られ自然な合成音声が作られる。時間経過中の音標文字のシーケンスの特性は、フォルマント、振幅およびセプトラル表現を含む任意のスペクトル表示、または任意のＬＰＣパラメータを含むいくつかの表現で表示することができる。第２図Ａ乃至第２図Ｃは、異なるフォルマント周波数の音声スペクトル写真１００Ａ、１００Ｂおよび１００Ｃ、または音素のシーケンス／ｐ−ｉ／の記録音声から採取した音素／ｉ／に対応する、音標文字のセグメントに対するフォルマントＦ１、Ｆ２およびＦ３を示す。上記フォルマントＦ１−Ｆ３は、人間の音声系の異なる測定共振周波数を示す軌道である。上記異なる測定共振周波数のフォルマントは、通常、それぞれのフォルマントが含むスペクトル・エネルギーに基づいて、Ｆ１、Ｆ２、・・・、と呼ばれる。フォルマント周波数は、発声系の形および大きさにより異なる。異なる音声は、発声系の形が種々に変化することにより発生する。それ故、音声信号のスペクトル特性は、第２図Ａ乃至第２図Ｃに示すように、音声系の形が音素セグメント／ｉ／の発声中に変化するので、時間の経過とともに変化する。上記三つのフォルマント、Ｆ１、Ｆ２およびＦ３は、音素／ｉ／に対するもので、説明の便宜のためのものに過ぎない。フォルマントの異なる数は、特定の音声セグメントに対する音声系に基づいていろいろに変わることを理解されたい。フォルマントおよび他の音声の表現についての詳細な説明は、Ｌ．Ｒ．ラビナ(L.R.Rabiner)およびＲ．Ｗ．シャファ(R.W.Schafer)の「音声信号のデジタル処理（Digital Proce ssing of Speech Signals）」（１９７８年、プレンチス・ホール社発行）に記載されている。この参考文は、引用によって本明細書の記載に援用する。第１図に関する上記ですでに説明したように、データベース５に記憶されている音響要素は、一つの音素のほぼ中央部分でスタートし、他の音素の中央部分で終わる音標文字のシーケンスに対応する。二つの連結音響要素の接合音素のところのスペクトル成分のような特性の違いにより中断が生じ、この中断は理解できないか理解しにくい合成音声を発生する。しかし、一つの音素の中央部分に対応する音標文字のセグメントの領域内においては、連結中断を減らす音響要素を発生するために使用することができる安定な特性を持つ領域内に特定の分離点が存在する。第２図Ａ乃至第２図Ｃの軌道Ｆ１−Ｆ３は、特定の音素の中央部分の音標文字のシーケンスの特性を表す。連結を最小限度に減らす音響要素を形成するために、音標文字のシーケンスの分離点を選択することが望ましい。第３図は、音声信号から特定の音標文字のシーケンスを選択し、データベース５の音響要素を形成する、選択された音標文字のシーケンスの対応する分離点を決定する本発明の例示としての方法２００を示す。方法２００の場合、ステップ２１０において、特定の音素に対応する音標文字のセグメントを含む音標文字のシーケンスが、声信号の間隔から識別される。各音標文字のシーケンスは、少なくとも二つの音素のシーケンスに対応するものでなければならない。音声信号は、記録した音声から、または人間から直接入手することができる。さらに、音声信号のソースが記録音声である場合には、その記録音声をさらに処理して、方法２００の操作を容易にするためにセグメントに分けて、ラベルをつけた音声信号を発生することができる。上記のセグメントに分けてラベルをつけた音声信号は、ラベルのついた対応する音標文字のシーケンスを持ち、識別したシーケンスの間の最も近い境界を持っている音声信号である。その後ステップ２２０において、特定の音素に対応する各音標文字のシーケンスの少なくとも一つの部分に対する軌道が決定される。上記軌道は、時間経過中の音標文字の上記部分の少なくとも一つの音響特性の表示である。上記軌道は、音響特性を表す個々のシーケンスとすることもできるし、時間経過中の音響特性の連続表示とすることもできる。上記軌道に対して使用することができる適当な音響特性の例としては、例えば、フォルマント周波数、振幅およびスペクトル傾斜表示およびＬＰＣ表示のようなスペクトル表示等がある。周波数に基づくものであれ他のものに基づくものであれ、他の音響特性は本発明に従って軌道用に使用することができる。第２図Ａ乃至第２図Ｃは、それぞれ単一フォルマント周波数表示の例示としての軌道を示す。ステップ２２０において軌道が表示空間内で決定される。本明細書中で使用しているように、表示空間は、軌道をその軌道を特徴づけるパラメータの機能として表示することができる領域である。例えば、図２Ａに示すように、単一フォルマント軌道用の表示空間は時間の関数としての周波数を表示する。特定の音標文字のシーケンスに対する二つまたはそれ以上のフォルマント周波数に基づいて、単一の軌道を形成することができる。上記の軌道の場合には、表示空間は表示した正式な各周波数に対して一本の軸を持つ。各軌道に沿った周波数点に、音標文字のシーケンスで、上記周波数が発生した対応する時間で、ラベルをつけることができる。例えば、二つのフォルマントを持つ周波数軌道は、曲線のいくつかの点の対応する時間が５ミリ秒間隔で表示されている一本の曲線として二次元空間内に形成される。表示空間内で軌道を決定した後、ステップ２３０において、許容領域の一つの位置が異なる音素のシーケンスに対応する軌道の集中度に基づいて決定される。上記許容領域は、異なる音素のシーケンスに対応する軌道の比較的高い集中部分と交差するか、それに最も近いＮ次の表示空間内のＮ次の領域である。例えば、許容領域を、異なる音素のシーケンスに対応する最も多くの数の軌道と交差するか、それに最も近い一つの領域とすることができる。許容領域の大きさは、一つの接合音素のいくつかの分離点が許容領域の最も外側の部分内の時点に対応している音響要素を連結する際に、要な最低の音質を達成できるように、予め定めておかなければならない。正しい許容領域を決定するための特定の方法は、第４図および第５図で詳細に説明する。許容領域の上記点を決定した後、ステップ２４０において、音響要素形成のために、対応する軌道の許容領域への接近の度合に基づいて特定の音標文字のシーケンスが選択される。例えば、音声信号のいくつかの音標文字のシーケンスが同じ音素のシーケンスに対応している場合には、その対応する軌道が選択され、許容領域に最も近いか許容領域内にある音標文字のシーケンスが音響要素を形成する。ステップ２４０において、音標文字のシーケンスが選択された後、ステップ２５０において、必要な音響要素を入手するために、音標文字のシーケンス内で各分離点が決定される。上記分離点は、許容領域に実質的に最も近いか、または許容領域内にある軌道に沿って時点に対応する。最後に、ステップ２６０において、選択した音標文字のシーケンス、およびその対応する分離点に基づいて、音響要素が形成される。ステップ２１０において識別されたすべての音標文字のシーケンスが音響要素を形成するためのものである場合は、必要な各音素のシーケンスに対する音声信号に音標文字のシーケンスが一つしか存在しない場合である。そうでない場合には、ステップ２４０を省略することができる。本発明の場合、許容領域の位置は異なる音素のシーケンスに対応する軌道に基づいている。この方法の場合、本発明は、音声信号からの音標文字のシーケンスに対する軌道の全数より少ない軌道を使用することによって、許容領域の位置を決定する際に大きな変化を達成する。この変化により、本発明は、連結中断を低減する音響要素を形成する特定の音標文字のシーケンスおよび分離点を、より正確に選択することができる。許容領域の位置が、異なる音標文字のシーケンスに対応する軌道が最も集中している領域である場合には、音響要素は比較的優れた音質で合成音声を作る。しかし、音質が少し悪くてもいい場合には、軌道の最も高い集中度より低い集中度を持つ許容領域を、本発明に従って使用することができる。本発明により許容領域を決定するための例示としての技術は、軌道が各セル内に存在することを決定し、少なくとも最低のレベルの軌道の集中度を持つ、特定のセルまたはセル領域の識別が行われる表示空間に分割する技術である。この技術による方法２００の例示としての動作を第４図の例示としての軌道グラフ３００を参照しながら説明する。第３図について説明すると、音素／ｉ／に対応する音標文字のセグメントを含む音標文字のシーケンスは、ステップ２１０において、記録した音声の間隔により識別される。上記音標文字のシーケンスは、音素のシーケンス／ｌｉｄ／、／ｌｉｋ／、／ｍｉｋ／、／ｇｉｍ／、／ｄｉｎ／に対応し、五つの音標文字のシーケンスは音素のシーケンス／ｋｉｔ／に対応する。これらの音素のシーケンスから形成することができる音響要素は、ダイフォン［ｌ−ｋ］、［ｉ−ｄ］、［ｉ−ｋ］、［ｍ−ｉ］、［ｇ−ｉ］、［ｉ−ｍ］、［ｄ−ｉ］、［ｉ−ｎ］、［ｋ−ｉ］および［ｉ−ｔ］を含む。第４図の説明は、音響要素の構造に関するものであるが、本発明に従ってもっと大きい音素のシーケンスの音響要素を、もっと大きい音標文字のシーケンスの特定の境界音素に対して第３図の方法２００を実行することにより、作ることができることを理解されたい。ステップ２１０において識別された音標文字のシーケンスに対して、ステップ２２０において、各音標文字のシーケンスに対して二つのフォルマントの軌道が形成される。第４図の軌道のグラフ３００は、複数のセル３１０に分割される二つのフォルマントの表示空間内のこれらの軌道を示す。第４図においては、その対応する音素のシーケンスの識別により、各軌道にはラベルが表示される。例えば、軌道３０５は、音素のシーケンス「ｌｉｄ」に対応する音標文字のシーケンスにより決定され、それに従って「ＬＩＤ」のラベルがつけられる。第１図のデータベース５を発生するために使用する音声信号のその部分からの音素の五つのシーケンスには、説明を分かりやすくするために「ＫＩＴ１」から「ＫＩＴ５」のラベルがつけられる。図に示した二つのフォルマントの軌道のそれぞれは、特定の時点で対応するフォルマントＦ２の周波数値に対して描いた、各音標文字のシーケンスに対するフォルマントＦ１の周波数値を表す。フォルマントＦ１およびＦ２の周波数は、Ｘ軸およびＹ軸上にそれぞれ表示される。軌道沿いの特定の時点は、軌道３０５上に示すように対応するラベルとして表示することができる。第４図の二次元の軌道は、説明を分かりやすくするためだけのものであって本発明を制限するものではない。例えば、一つの母音を含む音標文字のセグメントの、三つのフォルマントまたは四つのフォルマントを含む他のＮ次元の表現を特定の音素として使用することもできるし、一つの子音を含む振幅およびスペクトル傾斜表現を特定の音素として使用することもできる。表示空間内のセル３１０の大きさが許容領域の必要な大きさの１／４に設定されているが、これは図を見易くし説明を分かり易くするためである。許容領域の大きさがセルの大きさよりそんなに大きくない場合には、セルの大きさを必要な許容領域の大きさの倍数に設定すると便利である。第３図の方法２００のステップ２３０においては、許容領域の決定は異なる音素のシーケンスに対応する軌道と交差する領域に基づいて行われる。従って、許容領域の大きさがセル３１０の２×２のアレイの大きさであれば、必要とする最低の音質を得るのに十分である場合には最も多くの数の上記軌道と交差する領域３２０が許容領域となる。上記の軌道との交差が最も多いセルを決定する方法は、例えば、表示空間内のセルをグリッド・サーチする方法である。この方法の場合には、第４図の各セルが検査されそのセルと交差する異なる音素のシーケンスに対応する軌道の数、またはそのセル３１０を囲む予め定めた分解領域が決定される。例えば、軌道の交差の数はセル３１０の異なる音素のシーケンスに対応し、軌道ＬＩＤおよびＭＩＫに対する軌道の交差数は２である。異なる音標文字のシーケンスに対応する上記軌道交差の数が、最も多いセルを決定するための計算がもっと簡単でもっと速い方法については、以下に第５図のところで詳細に説明する。第３図の方法２００に戻って説明すると、軌道が決定された後、ステップ２４０において、音響要素を形成するために、許容領域３２０に近い対応する軌道に基づいて特定の音標文字のシーケンスが選択される。データベースが必要とする空間を最も小さくし、また音声合成装置の設計を簡単にするためには、特定の音素のシーケンスに対するデータベース５に、たった一つだけ音響要素を収容するほうが有利である。それ故、音響要素［ｌ−ｉ］を形成するために音標文字のシーケンス／ｌｉｋ／または／ｌｉｄ／が選択され、音響要素［ｉ−ｋ］を形成するために音標文字のシーケンス／ｌｉｋまたは／ｍｉｋ／が選択される。さらに、音素のシーケンス／ｋｉｔ／に対する五つの音標文字のシーケンスの中の一つが、音響要素［ｋ−ｉ］および［ｉ−ｔ］を形成するために選択される。しかし、もっと大きなデータベースを使用するもっと複雑な音声合成装置の場合には、音声合成の用途に基づいて、特定の音素のシーケンスに対して、複数の音響要素を使用することができる。上記データベースを形成する場合には、一つ以上で、特定の音素のシーケンスに対応する音声信号から抽出したすべての音標文字のシーケンスまでを音響要素を形成するために選択することができる。特定の音素のシーケンスに対してデータベース５に一つの音響要素が存在する場合には、上記音響要素を形成する、同じ音素のシーケンスに対応する複数の音標文字のシーケンスの特定の一つの識別は、許容領域への対応する軌道の相対的な近接度に基づいて行うことができる。例えば、音響要素［ｌ−ｉ］の場合には、許容領域３２０と交差する「ＬＩＤ」に対する音標文字のシーケンスがその軌道ＬＩＫが許容領域３２０と交差しない音標文字のシーケンス「ＬＩＫ」に優先してその軌道ＬＩＤが選択される。同様に、ほぼ同じ理由から、音響要素［ｉ −ｋ］に対しては、音標文字のシーケンス「ＭＩＫ」が音標文字のシーケンス「ＬＩＫ」に優先して選択される。同様に、音響要素［ｋ−ｉ］および［ｉ−ｔ］の両方に対しては、軌道ＫＩＴ５に対応する音標文字のシーケンスが他の各音標文字のシーケンス「ＫＩＴ」に優先して選択される。さらに、音響要素は、通常二つの境界音素のところで連結することができるので、音響要素の形成に使用した特定の音標文字のシーケンスの選択は、両方の境界音素に対するその軌道の近接度に基づいて行わなければならない。それ故、その軌道が、境界音素／ｉ／および境界音素／ｋ／に対する両方の許容領域に全体的に最も近い特定の音標文字のシーケンス「ＭＩＫ」または「ＬＩＫ」が音響要素［ｉ−ｋ］を形成するために、選択される。多くの場合、同じ音素のシーケンスに対応する音標文字のシーケンスは、その境界音素の両方に対する各許容領域に最も近い軌道を持たない。音標文字のシーケンスのソースがその音素のシーケンスを含む二つの異なる語である場合に、上記の例が起こる場合がある。そのような場合には、好適にはその軌道が全体的に最もいい音質を持つ音標文字のシーケンスを選択することが好ましい。上記の音標文字のシーケンスを選択するための例示としての一つの方法は、対応する境界音素に関して、音標文字のシーケンスをランク付けするために、特定の音質測定値に基づいて、その各音標文字のシーケンスにある数値を割り当てることである。全体的に最高のランクの音標文字のシーケンスが、音響要素を形成するために使用される。再び第３図の方法２００について説明すると、音響要素に対して音標文字のシーケンスが選択されると、音響要素を形成するために使用される音標文字のシーケンスの分離点がステップ２５０において決定される。例えば、第４図においては、分離点は許容領域３２０内の各軌道の時点に基づいて決定される。許容領域３２０と交差するこれらの軌道の場合には、選択した分離点は、好適には許容領域３２０の中心点３４０にほぼ最も近い軌道に沿った時点であることが好ましい。例えば、中心点３４０に最も近い軌道３０５上の時点は、第４図の１６０ミリ秒である。従って、音響要素／ｉ−ｋ／は、時点１６０ミリ秒から始まる対応する音標文字のシーケンスに基づいて決定される。軌道ＬＩＫのように、許容領域３２０と交差しない軌道の場合には、分離点は、依然として許容領域の中心点３４０に最も近い軌道に沿った時点でなければならない。それ故、音響要素を形成するために音標文字のシーケンス「ＬＩＫ」が選択された場合には、正しい分離点は軌道ＬＩＫ上の時点３５０に対応する。音響要素を形成するためにこの音標文字のシーケンスを使用する場合には、比較的大きな中断が音素／ｉ／のところに発生することを理解されたい。従って、その音響要素を形成するためのもっと好ましい候補であるかどうかを判断するために、音素のシーケンス／ｌｉｋ／に対して、他の音声セグメントを入手するほうが望ましい場合もある。第３図の方法２００の場合には、ステップ２５０において分離点を決定した後、選択した音声セグメントおよび決定した分離点に基づいて音響要素が形成される。音響要素は、例えば、それぞれの分離点で始まり、また終わる音標文字のシーケンスに対応するデジタル化信号、またはＬＰＣパラメータの形で、データベース５に維持することができる。また、もっと長いシーケンスを、各音響要素に対する特定の分離点に対応する開始値および終了値と一緒にデータベース５に記憶することができる。その後、第１図の音響要素検索プロセッサ１５は、これらの数値に基づくこれらのより長いシーケンスから正しい音響要素を抽出する。データベース５に対して使用される特定の組織形成方法は、制限するためのものではなく、本発明に従って形成された音響要素を記憶するためには任意の組織を使用することができることを容易に理解することができるだろう。特定の言語の多くの発声を合成するために、その言語のすべての要素としての音素のシーケンスに対する音響要素を生成しなければならない。本発明による許容領域の位置の決定の際に、軌道の多くの変化の驚くべき使用法により連結した場合には、より小さな中断を発生する音響要素が得られる。例えば、第４図において、領域３６０はすべての軌道に基づく領域に対応し、音素のシーケンス／ｋｉｔ／に対する五つの軌道による全体的に最も多くの数の上記軌道と交差するか、または最も近い。しかし、領域３６０に最も近い軌道ＬＩＤおよびＭＩＫ上の時点は、対応する音響要素の連結の際に比較的大きな中断を生じることを理解することができるだろう。反対に、許容領域３２０は、音素のシーケンス／ｋｉｔ／の複数の例により傾斜しないし、許容領域３２０へのすべての選択した軌道の間の対応する距離ははるかに短く、すべての対応する中断を最も短くする。第５図は、第３図のステップ２３０で使用する、異なる音標文字のシーケンスに対応する最も多くの軌道交差を持つセルを決定する本発明による例示としての方法４００を示す。説明を分かりやすくするために、第４図で使用した対応する音標文字のシーケンス・ラベルの代わりに、第５図では各軌道を一意の整数で示す。例えば、第４図の９本の軌道は第５図では軌道１ −９と呼ぶ。このような軌道のラベル表示は、アレイまたは表のようなデータ構造表現で使用される従来のポインタと同じものである。方法４００の場合には、整数Ｎおよび複数のリストであるＬＩＳＴ＿ｉは、ステップ４００においてゼロに初期化される。複数のリストであるＬＩＳＴ＿ｉ内のリストの数字ｉは表示空間内のセルの数に対応する。表示空間内のセルの数に対応する。その後、ステップ４２０において整数Ｎが増大する。その後、ステップ４３０において、軌道Ｎの各時点に対して各時点を囲む分解領域内に存在するセルが識別される。便宜上、分解領域の大きさは許容領域の大きさと同じにしてある。しかし、分解領域は、そうしたい場合には、本発明により他の大きさにすることもできる。分解領域の大きさを２×３のセルのアレイでカバーされる大きさに選択した場合には、第４図の軌道３０５の0.095ミリ秒での時点５０５を囲む分解領域は、輪郭線５１０で囲まれているセル５１１、５１２、５１３および５１４を含む。ステップ４３０において、分解領域内の上記セルが識別された後、識別したセルに対する各リストＬＩＳＴ＿ｉは、対応する軌道Ｎに対する音素のシーケンスの名前により更新される。また、ステップ４４０においては、そのセルに対するリストに含まれていない場合に限って、音素のシーケンスの名前がリストに追加される。従って、上記例の場合、セル５１１乃至５１４に対するリストＬＩＳＴ＿ｉに名前「ＬＩＤ」が存在しない場合には、これらのセルに対するリストＬＩＳＴ＿ｉはその名前で更新される。軌道３０５に沿った他の時点に対する分解領域内に存在するセルに対するリストＬＩＳＴ＿ｉも、同様に、ほぼ同じ方法で名前「ＬＩＤ」で更新される。特定の軌道Ｎの識別された分解領域内のすべてのセルがステップ４４０において更新された後、この方法は整数Ｎがステップ４５０の軌道の全数と等しいかどうかを判断する。Ｎが軌道の全数と等しくない場合には、方法４００は、次の軌道Ｎの時点に基づいてリストＬＩＳＴ＿ｉを更新するために、ステップ４２０− ４４０を実行する。しかし、Ｎが軌道の全数と等しいと判断した場合には、すべての軌道は処理され、分解領域内のすべてのリストＬＩＳＴｉは更新され、方法４００はステップ４６０へ進む。ステップ４６０においては、対応するリストＬＩＳＴ＿ｉの最も大きな数の名前を持つセルまたはセルの領域から許容領域が決定される。方法４００は、軌道の時点の分解領域内に存在するこれらのセルを検査し、更新するだけなので、各セルを個々に検査するグリッド・サーチ法と比較すると計算が簡単で迅速である。方法４００の場合には、ステップ４３０において、最初対応するセル・リストがステップ４４０において更新される前に、特定の軌道の時点に対する分解領域内のすべてのセルが検出される。しかし、第４図のステップのシーケンスは、説明のためのものに過ぎず、本発明を制限するものではないことを理解されたい。上記ステップのシーケンスは、その各セルが特定の軌道の時点の分解領域内にあることが決定された直後に、リストＬＩＳＴ＿ｉの更新を含む種々の異なる方法で実行することができる。他の実施例の場合には、最も長いリストＬＩＳＴ＿ｉのセルの識別は、最も長いリストＬＩＳＴ＿ｉおよび対応する最大リストの長さでセルを記憶し更新することにより、セル・リスト更新プロセスの間維持することができる。各セル・リストが更新されると、そのリストに含まれる名前の全数を最も長いリストに対して記憶されている数値と比較することができる。リストの名前の全数が記憶されているセル識別の全数より多い場合には、それに従って、記憶されているセル識別および最大のリストの長さが更新される。このようにして、許容領域に対応するセルの識別は、処理ステップとそれ以上行わなくても最後の軌道の最後の時点を処理する際に分かる。例えば、表示空間内のセルの位置を示す整数値を持つデータ構造の形式のように、セル・リストに索引がつけられている場合には計算が簡単でもっと迅速な方法を使用することができる。例えば、第４図のセル３１０のセル・リストは、Ｘ座標およびＹ座標に対応するように索引をつけることができる。その後、索引をつけたセルに基づいて、軌道の時点の数値を時点の相対座標位置を示す索引数値に変換するために、変換数値が使用される。その後、その時点の分解領域内のセルの索引番号を識別するために、変換索引数値に分解数値が加算され、変換索引数値から分解数値が差し引かれる。その後、分解領域内の各セルのリストＬＩＳＴ＿ｉが、それに従って更新される。それ故、第４図の例の場合には、それぞれＸおよびＹ両方向の３番目および４番目のセルの間に存在することを示す変換数値、ｘ＝３．５およびｙ＝３．５を入手するために、軌道３０５の時点５０５のフォルマントＦ１およびＦ２周波数の数値に変換係数を掛けることができる。それ故、分解領域が２×２セル・アレイの大きさである場合には、分解領域５１０内のセルのセル・リストが、それぞれセル５１１乃至５１４に対応する座標（３、３）、（３、４）、（４、３）および（４、４）を持つように、また音素のシーケンス名「ＬＩＤ」により更新されるように、±１の分解数値を変換数値に加算し、最も近い位置に四捨五入する必要がある。本発明のいくつかの実施例を詳細に説明してきたが、本発明の内容から逸脱しないで、多くの修正を行うことができる。そのようなすべての修正は、下記の特許請求の範囲内に含まれる。例えば、上記説明では、本発明は、二次元の長方形セルおよび許容領域を持っているが、立方体、ボックス、球形および偏球を含むＮ次元の表示空間と一致するセルおよび領域に対して、任意のＮ次元の閉じた形状領域を使用することができる。さらに、本発明は、テキスト−音声合成システムおよび音声応答システムを含む、種々の音声合成の用途に特に有用である。

【手続補正書】【提出日】１９９９年１２月８日（１９９９．１２．８）【補正内容】（１）「請求の範囲」を別紙の通り訂正する。（２）明細書第１頁第１０行目の「音表」を「音標」に訂正する。請求の範囲 1. 合成音声を連結するための音響要素を持つ、音響要素・データベースを含む合成音声を発生する方法であって、該音響要素・データベースが、音声信号の間隔内に発生する、複数の音標文字のシーケンス内に含まれる、特定の音標文字のセグメントに対応する、少なくとも一つの音素に対して、各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシーケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内での上記許容領域の相対的な位置を決定するステップと、上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時点での音標文字のシーケンスの分離点を識別することによって、音標文字のシーケンスから、音響要素を形成するステップにより形成される方法。 2. 請求の範囲第１項に記載の方法において、音響要素が、選択された音標文字のシーケンスの一部から形成される場合に、上記許容領域への対応する軌道の近接度に基づいて、特定の音素のシーケンスに対応する部分を持つ、複数の音標文字のシーケンスから、少なくとも一つの音標文字のシーケンスを選択するステップをさらに含む方法。 3. 請求の範囲第１項に記載の方法において、音響要素を形成するステップが、上記許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った各時点において、各音標文字のシーケンスの分離点を識別する方法。 4. 請求の範囲第３項に記載の方法において、音響要素を形成するステップが、上記許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った各時点において、各音標文字のシーケンスの分離点を識別する方法。 5. 請求の範囲第１項に記載の方法において、音響要素が、特定の言語に対する各予測音素のシーケンスに対して形成される方法。 6. 請求の範囲第１項に記載の方法において、軌道が、音標文字のシーケンスのフォルマントに基く方法。 7. 請求の範囲第１項に記載の方法において、上記軌跡が、三つのフォルマント表現に基き、上記表示空間が、三つのフォルマント空間である方法。 8. 請求の範囲第１項に記載の方法において、表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であり、上記許容領域を決定するステップが、さらに異なる音素のシーケンスに対応する実質的に最大の数の軌道と交差する、少なくとも一つのセルの領域を決定するために、グリッド・サーチの実行を含む方法。 9. 請求の範囲第１項に記載の方法において、表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であって、上記許容領域を決定するステップが、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、上記分解領域内の識別された各セルに対して、上記識別が、そのセルに対するリスト内に含まれていない場合には、上記軌道に対応する音素のシーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つのセルに対応する許容領域の決定とを含む方法。 10．請求の範囲第９項に記載の方法において、分解領域内のこれらのセルを識別するステップが、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連するリストの更新とを含む方法。 11．請求の範囲第９項に記載の方法において、上記分解領域および上記許容領域が、同じ大きさである方法。 12．請求の範囲第１項に記載の方法において、表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であって、上記許容領域を決定するステップが、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、各セル・リストからの複数の識別の除去と、そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つのセルに対応する許容領域の決定とを含む方法。 13．請求の範囲第１２項に記載の方法において、分解領域内のこれらのセルを識別するステップが、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連するリストの更新とを含む方法。 14．請求の範囲第１２項に記載の方法において、上記分解領域および上記許容領域が、同じ大きさである方法。 15．請求の範囲第１項に記載の方法において、複数の音標文字のシーケンスの少なくとも二つの音標文字のシーケンスが、特定の音素のシーケンスに対応する部分を持ち、さらに、特定の音素のシーケンスに対する音響要素が、決定した数値に基づいて、上記音標文字のシーケンスの対応する部分の一つから形成される場合に、上記許容領域への対応する軌道の近接度に基づいて、音標文字のシーケンスの各セクションに対する数値を決定するステップを含む方法。 16．請求の範囲第１５項に記載の方法において、数値を決定するステップが、さらに対応する音標文字のシーケンスの音質の測定値に基く方法。 17．請求の範囲第１６項に記載の方法において、上記音質の測定値が、異なる境界音素に対応する音標文字のシーケンスに対する許容領域への軌道の近接度から決定される方法。 18．音声信号の間隔内に発生する複数の音標文字のシーケンスに含まれる、特定の音標文字のセグメントに対応する少なくとも一つの音素に対して、各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシーケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内での上記許容領域の相対的な位置を決定するステップと、上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時点での音標文字のシーケンス内の分離点を識別することによって、音標文字のシーケンスから音響要素を形成するステップにより形成された、合成音声を連結するための音響要素を持つ音響要素・データベースを含む合成音声を発生する装置。 19．請求の範囲第１８項に記載の装置において、表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であって、上記許容領域を決定するステップが、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、上記分解領域内の識別された各セルに対して、上記識別がそのセルに対するリストに含まれていない場合には、上記軌道に対応する音素のシーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つのセルに対応する許容領域の決定とを含む装置。 20．請求の範囲第１９項に記載の装置において、分解領域内のこれらのセルを識別するステップが、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連するリストの更新とを含む装置。 21．請求の範囲第１８項に記載の装置において、上記表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であって、上記許容領域を決定するステップが、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、各セル・リストからの複数の識別の除去と、そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つのセルに対応する許容領域の決定とを含む装置。 22．請求の範囲第２１項に記載の装置において、分解領域内のこれらのセルを識別するステップが、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連するリストの更新とを含む装置。

───────────────────────────────────────────────────── フロントページの続き (72)発明者オリーブ，ジョセフフィリップアメリカ合衆国 07060 ニュージャーシィ，ウォッチュング，ヴァレイドライヴ 101 (72)発明者タネンブラット，マイケルアブラハムアメリカ合衆国 10023 ニューヨーク, ニューヨーク，ウエストセブンティファースト 309 (72)発明者ヴァンサンテン，ジャンピーターアメリカ合衆国 11226 ニューヨーク, ブルックリン，ラグビーロード 293

Claims

【特許請求の範囲】 1. 合成音声を連結するための音響要素を持つ、音響要素・データベースを含む合成音声を発生する方法であって、該音響要素・データベースが、音声信号の間隔内に発生する、複数の音標文字のシーケンス内に含まれる、特定の音標文字のセグメントに対応する、少なくとも一つの音素に対して、各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシーケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内での上記許容領域の相対的な位置を決定する段階と、上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時点での音標文字のシーケンスの分離点を識別することによって、音標文字のシーケンスから、音響要素を形成する段階により形成される方法。 2. 請求の範囲第１項に記載の方法において、音響要素が、選択された音標文字のシーケンスの一部から形成される場合に、上記許容領域への対応する軌道の近接度に基づいて、特定の音素のシーケンスに対応する部分を持つ、複数の音標文字のシーケンスから、少なくとも一つの音標文字のシーケンスを選択する段階をさらに含む方法。 3. 請求の範囲第１項に記載の方法において、音響要素を形成する段階が、上記許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った各時点において、各音標文字のシーケンスの分離点を識別する方法。 4. 請求の範囲第３項に記載の方法において、音響要素を形成する段階が、上記許容領域にほぼ最も近いか、またはその内に含まれる対応する軌道に沿った各時点において、各音標文字のシーケンスの分離点を識別する方法。 5. 請求の範囲第１項に記載の方法において、音響要素が、特定の言語に対する各予測音素のシーケンスに対して形成される方法。 6. 請求の範囲第１項に記載の方法において、軌道が、音標文字のシーケンスのフォルマントに基く方法。 7. 請求の範囲第１項に記載の方法において、上記軌跡が、三つのフォルマント表現に基き、上記表示空間が、三つのフォルマント空間である方法。 8. 請求の範囲第１項に記載の方法において、表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であり、上記許容領域を決定する段階が、さらに異なる音素のシーケンスに対応する実質的に最大の数の軌道と交差する、少なくとも一つのセルの領域を決定するために、グリッド・サーチの実行を含む方法。 9. 請求の範囲第１項に記載の方法において、表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であって、上記許容領域を決定する段階が、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、上記分解領域内の識別された各セルに対して、上記識別が、そのセルに対するリスト内に含まれていない場合には、上記軌道に対応する音素のシーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つのセルに対応する許容領域の決定とを含む方法。 10．請求の範囲第９項に記載の方法において、分解領域内のこれらのセルを識別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連するリストの更新とを含む方法。 11．請求の範囲第９項に記載の方法において、上記分解領域および上記許容領域が、同じ大きさである方法。 12．請求の範囲第１項に記載の方法において、表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であって、上記許容領域を決定する段階が、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、各セル・リストからの複数の識別の除去と、そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つのセルに対応する許容領域の決定とを含む方法。 13．請求の範囲第１２項に記載の方法において、分解領域内のこれらのセルを識別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連するリストの更新とを含む方法。 14．請求の範囲第１２項に記載の方法において、上記分解領域および上記許容領域が、同じ大きさである方法。 15．請求の範囲第１項に記載の方法において、複数の音標文字のシーケンスの少なくとも二つの音標文字のシーケンスが、特定の音素のシーケンスに対応する部分を持ち、さらに、特定の音素のシーケンスに対する音響要素が、決定した数値に基づいて、上記音標文字のシーケンスの対応する部分の一つから形成される場合に、上記許容領域への対応する軌道の近接度に基づいて、音標文宇のシーケンスの各セクションに対する数値を決定する段階を含む方法。 16．請求の範囲第１５項に記載の方法において、数値を決定する段階が、さらに対応する音標文字のシーケンスの音質の測定値に基く方法。 17．請求の範囲第１６項に記載の方法において、上記音質の測定値が、異なる境界音素に対応する音標文字のシーケンスに対する許容領域への軌道の近接度から決定される方法。 18．音声信号の間隔内に発生する複数の音標文字のシーケンスに含まれる、特定の音標文字のセグメントに対応する少なくとも一つの音素に対して、各軌道が、特定の音標文字のセグメントを含む、各音標文字のシーケンスの少なくとも一部の音響特性を表す場合に、許容領域と交差する異なる音素のシーケンスに対応する、音標文字のシーケンスの軌道の連結に基づいて、表示空間内での上記許容領域の相対的な位置を決定する段階と、上記許容領域に対する時点の近接度に基づいて、対応する軌道に沿った各時点での音標文字のシーケンス内の分離点を識別することによって、音標文字のシーケンスから音響要素を形成する段階により形成された、合成音声を連結するための音響要素を持つ音響要素・データベースを含む合成音声を発生する装置。 19．請求の範囲第１８項に記載の装置において、表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であって、上記許容領域を決定する段階が、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、上記分解領域内の識別された各セルに対して、上記識別がそのセルに対するリストに含まれていない場合には、上記軌道に対応する音素のシーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つのセルに対応する許容領域の決定とを含む装置。 20．請求の範囲第１９項に記載の装置において、分解領域内のこれらのセルを識別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連するリストの更新とを含む装置。 21．請求の範囲第１８項に記載の装置において、上記表示空間が、複数の隣接するＮ次元のセルを含むＮ次元の空間であって、上記許容領域を決定する段階が、各軌道に沿った時点を囲む分解領域内に存在する上記セルの識別と、上記分解領域内の識別された各セルに対して、上記軌道に対応する音素のシーケンスの識別と一緒に、そのセルに対して維持されているリストの更新と、各セル・リストからの複数の識別の除去と、そのリスト上の識別の平均の数値より大きい数値を持つ、少なくとも一つのセルに対応する許容領域の決定とを含む装置。 22．請求の範囲第２１項に記載の装置において、分解領域内のこれらのセルを識別する段階が、上記軌道沿いの時点の処理と、対応する分解領域内のセルに関連するリストの更新とを含む装置。