JP2002530703A

JP2002530703A - 音声波形の連結を用いる音声合成

Info

Publication number: JP2002530703A
Application number: JP2000582998A
Authority: JP
Inventors: コアマン、グリート; デプリツ、フィリプ; デ・ブロック、マリオ; ファクレル、ジャスティン; ライス、スチーブン; ラッテン、ペイタ; デムアテル、ジャン; シェンク、アンドレ; ヴァン・コイル、バート
Original assignee: ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2002-09-17
Also published as: DE69925932D1; CA2354871A1; US6665641B1; US20040111266A1; EP1138038A2; ATE298453T1; DE69940747D1; AU772874B2; US7219060B2; WO2000030069A2; EP1138038B1; WO2000030069A3; AU1403100A; DE69925932T2

Abstract

(57)【要約】種々の実施の形態における高品質の音声合成器は、大音声データベースによって参照される音声波形を連結する。音声品質は、音声ユニット選択及び連結平滑化によって更に改善される。

Description

【発明の詳細な説明】

【０００１】発明の技術分野本発明は、そのようなサンプルの大データベースからデジタル方式でサンプル
された音声ユニットの連結に基づき、音声の、音表象の、及び数の記述子に結び
付けられた音声合成器に関する。

【０００２】発明の背景技術連結ベースの音声合成器は、任意の発話を再構築するために、数片の自然の音
声を構成ブロックとして用いる。音声ユニットのデータベースは、予め記録され
た自然の音声データの目録（インベントリ）からとられた音声サンプルを所有し
得る。本物の音声の記録を用いることは、実在する人の声のいくつかの固有の特
徴を保存する。正しい発音が与えられ、音声ユニットは、任意の単語又は文を構
成するように連結され得る。音声ユニット連結の利点は、もし、適切な音声ユニ
ットが選択されるならば、現実的な連結効果を作り出すことが容易であるという
ことである。合成メッセージに関するすべての知識が連結されるべき音声ユニッ
トに固有であるという点で、その単純化に関して、興味をそそるものである。し
たがって、結合動作のモデリングに注意を払う必要はほとんどない。しかしなが
ら、音声ユニット結合は、たとえあるとしても抑揚の変化をほとんど持たない中
立の口頭テキストの比較的限定されたタスクに有用性において予め制限された。

【０００３】調整されたコーパスは、音声ユニット目録がデータベース記録を作成する前に
慎重に設計される音声ユニットデータベースの設計への周知のアプローチである
。生音声データベースは、必要とされる音声ユニットのためのキャリアから成る
。このアプローチは、比較的小さいフットプリント音声合成システムには最適で
ある。主な目的は、同時調音効果の合理的な量を含む、目的言語の音声の適用範
囲である。韻律的な変化はデータベースによって提供されず、システムは、その
代わりとして、望ましい発話にデータベース音声ユニットを適合するために、韻
律操作技術を用いる。

【０００４】調整されたコーパスの構築のために、種々の異なる音声ユニットが用いられた
（例えば、Klatt, D.H.の１９８７年９月のJ. Acoust. Soc. Am. 82(3)「英語の
ためのテキストから音声への翻訳の再検討（レビュー）」を見よ。）。最初は、
研究者は音素を用いることを好んだ。なぜならば、ただ少数のユニットだけが貯
蔵要求を最小限に保持して、アメリカ英語ではおよそ４０を要求された。しかし
ながら、このアプローチは、音素間の境界で同時調音効果に多くの注意を必要と
する。その結果として、音素を用いる合成は、複雑な同時調音規則の定式化を要
求する。

【０００５】同時調音問題は、代わりのユニットを選択することによって最小にされ得る。
一つの人気の高いユニットは二音字（ダイフォン：diphone）である。それは、
一つの音素の中心から次の音素の中心への遷移から成る。このモデルは、音素間
の遷移情報を取り込むのを助ける。音素対の可能な結合がおよそ（４０）^２ある
ので、二音字の完全セットは、およそ１６００に達する。したがって、二音字音
声合成は、適量の収容力のみを要求する。二音字の一つの不利益は、好ましくは
重要な信頼が二音字境界最適化と共同して効率的な平滑化アルゴリズム上に置か
れるように、それらが多くの連結点（音素毎に一つ）を導くことである。Lernou
t &Hauspie音声及び言語プロダクツN.V.のTTS-3000のような従来の二音字合成器
は、二音字毎にただ一つの候補音声ユニットのみを用いる。限定された韻律的可
変性のために、調子（ピッチ）と持続時間操作技術は、音声メッセージを総合す
るのに必要とされる。それに加えて、二音字合成が良い出力音声品質を常にもた
らすわけではない。

【０００６】音節は、ほとんどの同時調音が音節境界内で起こるという利点を持つ。したが
って、音節の連結は、一般に良質の音声をもたらす。一つの不利益は、十分な記
憶スペースを必要とする所定の言語における音節の数が多いことである。音節を
説明する間記憶必要量を最小にするために、小音節（demi-syllable）が導入さ
れた。これらの半音節は、母音の核に置いて音節を分割することによって得られ
る。しかしながら、音節又は小音節方法は、ユニット境界で容易な連結を保証し
ない。なぜならば、有声音の音声ユニットにおける連結は、通常摩擦音のような
無声音の音声ユニットにおける連結より困難だからである。

【０００７】小音節変化系列は、同時調音が音節境界で最小にされ、ただ単純な連結規則だ
けが必要であることを要求する。しかしながら、これは常に真実ではない。同時
調音の問題は、単語サイズのユニットを用いることによって大いに減少され、曖
昧な音調（イントネーション）で分離して記録され得る。それから、単語は、文
節を形成するために連結される。この技術で、各単語の調子とアクセント（スト
レス）パターンは、自然に聞こえる文を与えるために部分的に変えられ得る。単
語連結は、線形予測符号化システムで正常に使用された。

【０００８】幾らかの研究者は、音質を増すために音声ユニットの混合目録、例えば、音節
、小音節、二音字及び接尾辞を用いた（Hess, W.J.の「音声合成−解決された問
題、信号処理ＶＩ：理論と応用」、１９９２年、エルゼビア科学出版社B.V.、J.
Vandewalle、R. Boite、M. Moonen、A. Oosterlinck（編）を見よ。）。

【０００９】連結合成のための音声ユニットデータベースの開発を加速するために、自動合
成ユニット生成システムが開発された（Nakajima S.の「多層文脈指向群に基づ
く英語音声合成のための自動合成ユニット生成」１９９４年、エルゼビア科学出
版社B.V.、音声通信１４，３１３〜３２４頁を見よ。）。ここで、音声ユニット
目録は、音声の注釈データベースの解析から自動的に得られる。すなわち、シス
テムは、データベースを解析することによってユニットセットを「学習する」。
そのようなシステムの実行の一態様は、音声及び韻律的な調和関数の定義を含む
。

【００１０】連結ベースの音声合成への新たなアプローチは、メモリーを増加し、計算装置
の処理能力を増すことによって引き起こされた。音声ユニットデータベースを慎
重に選択されたユニットセットに制限する代わりに、連続音声の大きいデータベ
ースを用い、一律でない音声ユニットを用い、実行時にユニット選択を実行する
ことを可能にした。このタイプの合成は、今日、コーパスベースの連結音声合成
として一般に知られる。

【００１１】この種の最初の音声合成器は、Sagisaka, Y.の「一律でない合成ユニットの最
適選択を用いる規則による音声合成」１９８８年４月、ＩＥＥＥ、ICASSP-88ニ
ューヨーク第１巻、６７９〜６８２頁に示された。それは、音声データベースと
候補ユニットテンプレートの辞書、すなわち、データベースに存在するすべての
音素副記号列の目録を用いる。この連結ベースの合成器は、次のように機能する
。（１）任意の入力音素記号列のために、無声音群のすべての音素副記号列が列挙
され、（２）合成ユニット入力辞書内に見出されるすべての候補音素副記号列が集めら
れ、（３）入力記号列の対応する部分に文脈上の高い類似性を示す候補音素副記号列
が保持され、（４）最も好ましい合成ユニットシーケンスが、（音素記号列にのみ基づいた）
ユニットテンプレート間の連続性を評価することによって主に選択され、（５）選択された合成ユニットは、データベース内の符号化（ＬＰＣ）音声サン
プルから抽出され、（６）韻律制御モジュールによって計算された単音持続時間によって長くされ、
あるいは短くされた後、それらがともに連結される。

【００１２】ステップ（３）は、４つのファクター：子音−母音遷移の維持、母音の音遷移
の維持、長いユニット選択、選択されたユニット間の重複度を考慮に入れて、適
切さ基準に基づく。システムは、日本語のために開発され、音声データベースは
、５２４０の一般に使用される単語から成った。

【００１３】更にこの原理を基に構築された合成器は、Hauptmann, A.G.の「SpeakEZ：大き
いコーパスからの連結合成における最初の試み」１９９３年、Proc. Eurospeech
'93、ベルリン、１７０１〜１７０４頁に記述される。このシステムの前提は、
もし、十分な音声が記憶され、データベースに目録を作られるならば、合成は、
記憶された音声の適切な要素を選択し、それらをともにくっつけることだけから
成る。３２００以上の文の音声上バランスのとれたコーパス内の１１５，０００
の音素のデータベースを用いる。音素クラス、出典発話、ストレスマーカー、音
素境界、左右文脈音素の同一性、音節内の音素の位置、単語内の音素の位置、発
話内の音素の位置、ピッチピーク位置の注釈がある音素同一性を別として、デー
タベースの注釈は、Sagisakaシステムの場合よりもいっそう洗練されている。

【００１４】 SpeakEZの音声ユニット選択は、対象音素記号列として同一の文脈に現れる音
素のためのデータベースを検索することによって実行される。文脈マッチのため
のペナルティーは、データベース音素候補に隣接する対応する音素で対象音素を
取り巻くすぐ近くに近接する音素間の相違として計算される。文脈マッチは、ま
た、音素の隔たりによって、左右文節境界、左右単語境界、及び左右発話境界に
影響を与えられる。SpeakEZの音声ユニット波形は、近接する音素間を平滑化す
る調子同期重複加算（ＰＳＯＬＡ）を用いて、時間領域に連結される。理想的な
目標値における既存の韻律を修正するよりむしろ、システムは、修正なく、正確
な持続時間、データベース音素の音調及び調音を用いる。適切な韻律的目標情報
の欠如は、このシステムの最も目立つ欠点であると考えられる。

【００１５】コーパスベースの連結音声合成へのもう一つのアプローチは、Black, A.W.とC
ampbell, Nの「連結合成のための音声データベースからのユニットの最適化選択
」１９９５年、Proc. Eurospeech '95、マドリード、５８１〜５８４頁、及びHu
nt, A.J.とBlack, A.W.の「大音声データベースを用いる連結音声合成システム
におけるユニット選択」、１９９６年、ICASSP-96、３７３〜３７６頁に記述さ
れる。音声データベースの注釈は、音響特徴、ピッチ（Ｆ_０）を更に組み込むス
テップをとられ、能力とスペクトルパラメーターが含まれる。音声データベース
は、音サイズのユニットに分割される。ユニット選択アルゴリズムは、次のよう
に機能する：（１）ユニット歪み測度Ｄ_ｕ（ｕ_ｉ，Ｔ_ｉ）は、選択されたユニットｕ_ｉと目標
音声ユニットｔ_ｉとの間の相違、すなわち、選択されたユニット特徴ベクトル｛
ｕｆ_１，ｕｆ_２，・・・，ｕｆ_ｎ｝と重みベクトルＷ_ｕ｛ｗ_１，ｗ_２，・・・，
ｗ_ｎ｝によって掛けられた目標音声ユニットベクトル｛ｔｆ_１，ｔｆ_２，・・・
，ｔｆ_ｎ｝との間の相違として定義される。（２）連続歪み測度Ｄ_ｃ（ｕ_ｉ，ｕ_ｉ−１）は、選択されたユニットとそのすぐ
隣接する前に選択されたユニットとの間の相違として定義され、選択されたユニ
ットのユニット特徴ベクトルと重みベクトルＷ_ｃによって掛けられたその前のも
のとの間の相違として定義される。（３）最も良いユニットシーケンスは、以下を最小にするデータベースからのユ
ニットのパスとして定義される：

【式１】ここで、ｎは、目標発話における音声ユニットの数である。

【００１６】連続歪みでは、３つの特徴が用いられる。すなわち、音声の文脈、韻律的文脈
、及び音響接合コストである。音声及び韻律的文脈の音程は、選択されたユニッ
トと他の選択されたユニットの文脈（データベース）ユニットとの間で計算され
る。音響接合コストは、２つの連続する選択されたユニット間で計算される。音
響接合コストは、標識付けされた境界の周りの最も良い接合点で計算された、メ
ル−ケプストラムの量子化に基づく。

【００１７】 Viterbi検索は、（３）に表されるように、最小コストでパスを見出すために
用いられる。網羅的な検索は、選択処理におけるいくつかの段階で候補リストを
取り除くことによって避けられる。ユニットは、あらゆる信号処理（すなわち、
未処理の連結）をすることなく、連結される。

【００１８】クラスタリング（ひとまとめにする）技術は、Black, A.W.とTaylor, P.の「
音声合成におけるユニット選択のために自動的にひとまとめにする類似のユニッ
ト」、１９９７年、Proc. Eurospeech '97、ロードス、６０１〜６０４頁に示さ
れる。それは、データベース内のユニットのためのＣＡＲＴ（分類及び復帰ツリ
ー）を作る。ＣＡＲＴは、候補ユニットの検索領域を制限するために用いられ、
ユニット歪みコストは、候補ユニットとそのクラスター中心との間の相違である
。

【００１９】メル−ケプストラムへの代案として、Ding, W.とCampbell, N.の「ＣＨＡＴＲ
音声合成システムの音源とフォルマントを持つ最適化するユニット選択」、１９
９７年、Proc. Eurospeech ’97、ロードス、５３７〜５４０頁は、ユニット選
択のための音響特徴として音源パラメーターとフォルマント情報の使用を示す。

【００２０】上述の各引用文献は、参照によりここに組み込まれる。

【００２１】発明の概要一実施の形態では、本発明は、音声合成器を提供する。この実施の形態の合成
器は、音声波形を参照する大音声データベースであって、多音字（ポリフォン：poly
phone）によってアクセスされる、大音声データベースと、音声転写入力にたいそうする多音字指示符号を用いるデータベースによって参
照される波形を選択する、前記大音声データベースと通信する音声波形選択器と
、音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、を含む。

【００２２】さらに関連する実施の形態では、多音字指示符号は、二音字指示符号である。
実施の形態の関連したセットでは、合成器は、また、(i) 音声波形が音声符号化
形状に格納されるデジタル記憶媒体と、(ii)波形選択器によってサクセスされる
とき、符号化音声波形を復号する復号器と、を含む。同じく随意的に、合成器は
、長い時間にわたって特定の目標持続時間値あるいは特定の目標ピッチ音調曲線
に頼ることなく、波形候補間で選択するために機能する。

【００２３】もう一つの実施の形態では、文脈依存コスト関数を用いる音声合成器が提供さ
れ、その実施の形態は、大音声データベースと、音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生器
と、前記データベースによって参照された一連の波形を選択し、該一連の各波形が
目標特徴ベクトルの第１の非空集合に対応する波形選択器であって、該波形選択
器が少なくとも一つの波形候補とノードコストとに分類し、該ノードコストが複
数の特徴のそれぞれに結び付けられた個別のコスト関数であり、少なくとも一つ
の個別のコストが言語規則に従って変化するコスト関数を用いて決定される、前
記波形選択器と、音声信号出力を作るために前記音声波形選択器によって選択された波形を連結
する、前記音声データベースと通信する音声波形連結器と、を含む。

【００２４】もう一つの実施の形態では、文脈依存コスト関数を持つ音声合成器が提供され
、その実施の形態は、大音声データベースと、音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生器
と、前記大音声データベースによって参照される一連の波形を選択する波形選択器
であって、該波形選択器が２以上の波形候補の少なくとも一つの順序付けされた
列と遷移コストとに分類し、該遷移コストが複数の特徴のそれぞれに結び付けら
れた個別のコスト関数であり、少なくとも一つの個別のコストが言語規則に従っ
て非自明的に変化するコスト関数を用いて決定される、前記波形選択器と、音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、を含む。

【００２５】更に関連する実施の形態では、コスト関数は複数の急な側面を有する。

【００２６】さらなる実施の形態では、音声合成器が提供され、その実施の形態は、大音声データベースと、前記大音声データベースによって参照される一連の波形を選択する波形選択器
であって、該波形選択器が少なくとも一つの波形候補とコストとに分類し、該コ
ストが複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、音表象
的特徴の少なくとも一つの個別のコストが非二進数関数を用いて決定される、前
記波形選択器と、音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、を含む。

【００２７】関連する実施の形態では、音表象的特徴は、以下の一つである、(i) プロミネ
ンス、(ii) ストレス、(iii) 相内の音節位置、(iv) 文タイプ、(v) 境界タイプ
。その代わりにあるいはそれに加えて、非二進数関数は、表に頼ることによって
決定される。その代わりに、非二進数関数は、一セットの規則に頼ることによっ
て決定されてもよい。

【００２８】更にもう一つの実施の形態では、音声合成器が提供され、その実施の形態は、大音声データベースと、音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生器
と、前記データベースによって参照された一連の波形を選択し、該一連の各波形が
目標特徴ベクトルの第１の非空集合に対応する波形選択器であって、該波形選択
器が少なくとも一つの波形候補とコストとに分類し、該コストが複数の特徴のそ
れぞれに結び付けられた重み付けされた個別のコスト関数であり、個別のコスト
の少なくとも一つに結び付けられる重みが該一連の波形内の目標特徴ベクトルの
第２の非空集合に従って非自明的に変化する、前記波形選択器と、音声信号出力を作り出すために前記音声波形選択器によって選択された波形を
連結する、前記大音声データベースと通信する音声波形連結器と、を含む。

【００２９】さらなる実施の形態では、第１及び第２の非空集合が同一である。その代わり
に、第２の空集合は、一連の波形内の第１の非空集合に近似している。

【００３０】もう一つの実施の形態は、音声合成器を提供する。その実施の形態は、音声波形を参照する音声データベースと、音声転写に対応する指示符号を用いるデータベースによって参照される波形を
選択する、前記音声データベースと通信する音声波形選択器と、音声信号出力を作るために前記音声波形選択器によって選択された波形を連結
する、前記音声データベースと通信する音声波形連結器であって、第１の波形と
第２の波形の少なくとも一つの順序付けられた列のために、該音声連結器が (i) 該第１の波形の立ち下がり縁の位置と、(ii) 該第２の波形の立ち上がり縁の位
置とを選択し、各位置がその位置近くの領域で第１及び第２の波形間の位相マッ
チの最適化を作り出すように選択される、前記音声波形連結器と、を含む。

【００３１】関連する実施の形態では、位相マッチは、立ち上がり縁の位置のみを変え、及
び立ち下がり縁の位置だけを変えることによって達成される。任意的に、あるい
はそれに加えて、最適化は、その位置に近い領域で第１及び第２の波形の形状に
おける類似性を基礎にして決定される。さらなる実施の形態では、類似性は、任
意的に相関関係の全域で標準化される相互相関技術を用いて決定される。任意的
に又はそれに加えて、最適化は、少なくとも一つの非方形窓を用いて決定される
。同じく、任意的に又はそれに加えて、最適化は、第１及び第２の波形に結び付
けられた時間分解能が連続的に細かく作られる連続する複数の段階において決定
される。任意的に、あるいはそれに加えて、分解能の変化は、ダウンサンプリン
グによって達成される。

【００３２】好ましい実施の形態の詳細な記述概観 RealSpeakTMテキストを音声に変換する（ＴＴＳ）エンジンとして知られる、
本発明の代表的な実施の形態は、音声仕様から高品質の音声を作り出す。それは
、目標（target）として知られる、大データベースに保持された本物の記録され
た音声のパーツを連結することによるテキストプロセッサの出力であり得る。図
１に示されるように、エンジンを構成する主処理目的（メインプロセスオブジェ
クト）は、テキストプロセッサ１０１と、目標発生器１１１と、音声ユニットデ
ータベース１４１と、波形選択器１３１と、音声波形連結器１５１とを含む。

【００３３】音声ユニットデータベース１４１は、種々の音声ユニット特徴の関連付けられ
た音声ユニット記述子とともに、それらの音声記述子によって個別の音声ユニッ
トに索引を付けられる実際の音声の大きいコーパスの、例えば、ＰＣＭのような
デジタルフォーマットの録音を含む。一実施の形態では、音声ユニットデータベ
ース１４１の音声ユニットは、２つの隣接する音素に始まって終わる二音字の形
式である。他の実施の形態は、異なったサイズの構築された音声ユニットを用い
てもよい。音声ユニット記述子は、例えば、音表象的記述子、例えば、語彙のア
クセント、単語位置などと、韻律的記述子、例えば、持続時間、振幅、ピッチな
どとを含む。

【００３４】テキストプロセッサ１０１は、テキスト入力、例えば、テキスト句「ハロー、
グッバイ（Hello, goodbye!）」を受け取る。テキスト句は、テキストプロセッ
サ１０１によって入力音声データシーケンスに変換される。図１において、これ
は、単純な音声転写−#hE-lO#'Gud-bY#−である。種々の代わりの実施の形態で
は、入力音声データシーケンスは、種々の異なる形式の一つであってもよい。入
力音声データシーケンスは、目標発生器１１１によって合成されるべき多層の内
部データシーケンスに変換される。拡張音声転写（ＸＰＴ）として知られる、こ
の内部データシーケンス表示は、音声記述子と、音表象的記述子と、音声ユニッ
トデータベース１４１内のもののような韻律的記述子とを含む。

【００３５】波形選択器１３１は、ＸＰＴ転写によって明記された目標発話に連結すること
ができる候補音声ユニットの記述子を音声ユニットデータベース１４１から検索
する。波形選択器１３１は、ノードコストを各候補に割り当て、目標ＸＰＴのＸ
ＰＴと候補音声ユニットのＸＰＴを比較することによって、候補音声ユニットの
順序付きリストを作る。候補から目標へのマッチングは、音声文脈及び韻律的文
脈のような音表象的記述子と、数的記述子に基づき、各候補が目標仕様にどれほ
ど適しているかを決定する。不完全にマッチする候補は、この時点で除外されて
もよい。

【００３６】波形選択器１３１は、クリック、ピッチ不連続などのような不安を生じさせる
品質低下を起こすことなく、どの候補音声ユニットが連結され得るかを決定する
。連続した候補音声ユニットは、品質低下コスト関数に従って波形選択器１３１
によって評価される。候補から候補へのマッチングは、どれほど候補がともに接
合され得るかを決定するために、エネルギー、ピッチ及びスペクトル情報のよう
なフレームベースの情報を用いる。動的計画法を用いて、候補音声ユニットの最
良の順序が音声波形連結器１５１への出力のために選択される。

【００３７】音声波形連結器１５１は、音声波形連結器１５１のための音声ユニットデータ
ベース１４１からの出力音声ユニット（二音字及び／又は多音字）を要求する。
音声波形連結器１５１は、目標入力テキストを表す出力音声を形成して選択され
た音声ユニットを連結する。

【００３８】システムの種々の態様の動作は、より詳細に記述される。

【００３９】音声ユニットデータベース図２に示されるように、音声ユニットデータベース１４１は、３つのタイプの
ファイルを含む：（１）音声信号ファイル６１（２）時調整拡張音声転写（ＸＰＴ）ファイル６２（３）二音字ルックアップテーブル６３

【００４０】データベースのインデックス化各二音字は、２つの音素記号によって識別される。これらの２つの記号は、二
音字ルックアップテーブル６３への鍵である。二音字インデックステーブル６３
１は、これらの二音字の参照が二音字参照テーブル６３２内のどこで見出され得
るかを記述する、その言語の各可能な二音字のための見出し語を含む。二音字参
照テーブル６３２は、音声ユニットデータベース１４１内のすべての二音字への
参照を含む。これらの参照は、二音字識別子によってアルファベット順に整理さ
れる。識別によってすべての二音字を参照するために、リストが二音字ルックア
ップテーブル６３のどこから開始し、いくつの二音字が含まれているかを明示す
ることは十分である。各二音字参照は、音声ユニットデータベース１４１内のど
こで見出され、二音字がどの音素で始まり、二音字が音声信号内のどこで始まる
かのメッセージ（発話）の数と、二音字の持続時間とを含む。

【００４１】ＸＰＴシステムの品質のための重要なファクターは、音声ユニットデータベース１４
１内の音声信号を表すために用いられる転写である。代表的な実施の形態は、シ
ステムが正確なピッチと持続時間目標を必要としないで音声ユニットデータベー
ス１４１内の本質的な韻律を用いるのを可能にする転写を用い始める。これは、
システムが入力転写に音声的に韻律的にマッチされる音声ユニットを選択できる
ことを意味する。音声波形連結器１５１による選択された音声ユニットの連結は
、望ましい韻律を持つ発話に効果的に至る。

【００４２】ＸＰＴは、２つのタイプのデータ、音表象的特徴（すなわち、テキストから得
られ得る特徴）と音響的特徴（すなわち、記録された音声波形からのみ得られ得
る特徴）とを含む。音声ユニットデータベース１４１から音声ユニットを効率的
に抽出するために、ＸＰＴは、典型的に発話の音声記述を調整された時間を含む
。信号内の各音素の始まりは転写に含まれる。ＸＰＴは、合図に関連した多くの
韻律、例えば、音の抑揚法や位置情報も含む。音表象的情報を別として、転写は
また、韻律に関する音響情報、例えば、音素持続時間を含む。典型的な実施の形
態は、それらの韻律的あるいはスペクトル実現の修正なく、音声ユニットデータ
ベース１４１から音声ユニットを連結する。それゆえ、音声ユニットの境界は、
マッチするスペクトルの及び韻律的実現を有するべきである。このマッチを確か
めるために要求される必要な情報は、典型的に、境界ピッチ値及びスペクトルデ
ータによってＸＰＴに組み込まれる。境界ピッチ値及びスペクトルは、多音字端
で計算される。

【００４３】データベース記憶装置音声ユニットデータベース１４１の異なるタイプのデータは、異なる物理的媒
体、例えば、ハードディスク、ＣＤ−ＲＯＭ、ＤＶＤ、ランダムアクセルメモリ
ー（ＲＡＭ）などに格納されてもよい。データアクセススピードは、これら種々
の媒体間のデータをどのように分配するかを効率的に選択することによって増さ
れ得る。コンピューターシステムの最も遅いアクセス構成部材は、典型的にハー
ドディスクである。もし、連結用の候補を選択するために必要である音声ユニッ
ト情報の一部がそのような比較的遅い大容量記憶装置に格納されていたならば、
貴重な処理時間がこの遅い装置にアクセスすることによって浪費されるであろう
。もし、選択関連データがＲＡＭに格納されていたならば、ずっと速い実行が得
られ得るだろう。したがって、代表的実施の形態では、音声ユニットデータベー
ス１４１は、ＲＡＭに格納される、しばしば必要とされる選択関連データ２１と
、例えば、ＣＤ−ＲＯＭ又はＤＶＤに格納される、ほとんど必要とされない連結
関連データ２２に分割される。結果として、データベースの音声データの量が非
常に大きい（ギガバイト程度）になるときでさえ、システムのＲＡＭ要求が大き
くないままである。比較的小さい数のＣＤ−ＲＯＭ検索は、並列線のために一つ
のＣＤ−ＲＯＭを用いて多重チャネルアプリケーションを適応させてもよく、音
声データベースは、ＣＤ上の他のアプリケーションデータと並存してもよい（例
えば、自動車ＰＣのナビゲーションシステム）。

【００４４】任意的に、音声波形は、その分野の周知の技術を用いて符号化及び／又は圧縮
されてもよい。

【００４５】波形選択最初に、波形選択器１３１の各候補リストは、音声ユニットデータベース１４
１の多くの利用可能なマッチング二音字を含む。ここで、マッチングは、単に二
音字識別が一致することを意味する。したがって、頭文字‘ｌ’が目標の最初の
ストレスを持つ二音字‘＃ｌ’の一例では、波形選択器１３１の候補リストは、
ストレスのないもの、あるいは第２の‘ｌ’を含む、音声ユニットデータベース
１４１内に見出されるあらゆる‘＃ｌ’を含む。波形選択器１３１は、二音字の
最良のシーケンスを見付けるために動的計画法を用い、そうして、（１）最良のシーケンスのデータベース二音字がストレス、位置、文脈などに関
する目標二音字に類似し、（２）最良のシーケンスのデータベース二音字が低い連結人工物とともに接合さ
れ得る。これらの目標を達成するために、２つのタイプのコストが用いられる。それは、
特定の目標を合成するために用いられるべき各候補二音字の適合性を評価するNo
deCostと、二音字の「接合可能性（joinability）」を評価するTransitionCost
である。これらのコストは、最適なパスを見出すＤＰアルゴリズムによって結合
される。

【００４６】コスト関数ユニット選択で用いられるコスト関数は、含まれる特徴が象徴的である（すな
わち、非数字、例えば、ストレス、プロミネンス、音素文脈）か、数的（例えば
、スペクトル、ピッチ、持続時間）かのいずれかに依存する２つのタイプであっ
てもよい。

【００４７】音表象的特徴のためのコスト関数音表象的特徴（すなわち、数的でない特徴）の類似性に基づく候補を指定され
た目標ユニットに評価するために、よい一致と悪い一致の間の「グレー」領域が
ある。最も単純なコスト重み関数は、２進数の０／１である。もし、候補が目標
と同じ値を有するならば、コストは０であり、候補が異なるものであるならば、
コストは１である。例えば、最も強いストレスを持つ目標のために、そのストレ
ス（文節アクセント（最も強い）、第１、第２のストレスがない（最も弱い））
のための候補を評価するとき、この単純なシステムは、第１、第２、又はストレ
スのない候補を１のコストと評価する。もし、目標が最も強いストレスならば、
第１のストレスの候補はストレスのない候補より好ましいので、これは、反直感
的である。

【００４８】これを適応させるために、ユーザーは、特定の音表象的特徴のあらゆる２値間
のコストを記述する表を構成することができる。いくつかの例は、ファジー理論
からの概念に似ているので、「ファジー表」と呼ばれる付表の表１及び表２に示
される。類似の表は、NodeCost計算で用いられた音表象的特徴のいずれか又はす
べてのために構成され得る。

【００４９】波形選択器１３１のファジー表は、また、開発的言語学者によって定義される
ように、特別な音表象を用いてもよい。それは、「悪い：BAD」及び「非常に悪
い：VERY BAD」を意味する。実際には、言語学者は、付表の表１に示されるよう
に、３の目標プロミネンス及び０の候補プロミネンスのために、ファジー表にお
けるBADのために特別な象徴／１、あるいはVERY BADのために２を与える。あら
ゆる特徴からの標準最小貢献が０であり、最大が１であることは、以前にも言及
された。／１又は／２を用いることによって、特徴ミスマッチのコストは、候補
が高いコストを取ることを保証されるように、１よりもずっと高く作られ得る。
したがって、もし、特定の特徴のために、表の適切な見出し語が／１ならば、候
補はめったに用いられず、もし、表の適切な見出し語が／２ならば、その候補は
ほとんど用いられない。表１の例では、もし、目標プロミネンスが３ならば、ａ
／１を用いることは、プロミネンス０を持つ候補が常に選択されることを見込み
のないものとする。

【００５０】文脈依存コスト関数入力仕様は、その入力仕様にマッチするデータベースから音声ユニットの最も
良い組み合わせを音表象的に選択するために用いられる。しかしながら、どの音
声ユニットが最も良いかを決定するために、音表象的特徴のための固定コスト関
数を用いることは、いくつかの音表象的特徴が他よりもある文脈では重要である
という事実のような周知の言語学上の現象を無視する。

【００５１】例えば、いくつかの言語において、発話の終わりでの音素、すなわち、最後の
音節が発話の他の部分よりも長い傾向にあることは周知である。それゆえ、動的
計画法アルゴリズムが発話の最後の音節を合成するために、候補音声ユニットを
検索するとき、その候補音声ユニットはまた、発話の最後の音節からなるべきで
あり、同じく、発話の最後の位置において、もっと多くの重要性が「音節位置」
の特徴に認められることは望ましい。この種の現象は、言語から言語へ変化し、
それゆえ、規則が波形選択器１３１コスト関数の実パラメーターを直接扱うため
に有するよりもむしろ語学の専門家によって条件を指定され得るように、規則ベ
ースの骨組みにおける文脈依存の音声ユニット選択を導入する方法を有すること
は有益である。したがって、コスト関数のために指定される重みは、また、特徴
、例えば、音素識別に関連した多くの規則に従って扱われてもよい。そのうえ、
コスト関数そのものもまた、特徴、例えば、現象識別に関連した規則に従って扱
われてもよい。もし、規則の条件が満たされるならば、以下のようないくつかの
可能なアクションが起こり得る、（１）音表象的又は数的特徴のために、その特徴に結び付けられた重みは、変え
られてもよく、もし特徴がこの文脈においてより需要ならば増加され、もし特徴
が重要でないならば減少される。例えば、「ｒ」がしばしばその前後の母音に影
響を与えるので、母音文脈における「ｒ」が出合わされるとき、候補項目が音声
文脈のための目標仕様にマッチする重要性を増加する専門家規則は、興奮する。
（２）音表象的特徴のために、特徴が通常用いるファジー表は、異なるものに変
えられてもよい。（３）数的特徴のために、コスト関数の形は、変えられ得る。いくつかの例が付表の表３に示される。そこでは、＊が「あらゆる音」を表示す
るために用いられ、［］が現在の中心に音字を取り巻くために用いられる。した
がって、Ｒ［ａｔ］＃は、文脈ｒ＿＃における二音字「ａｔ」示す。

【００５２】拡大縮小可能性システム拡大縮小可能性は、また、代表的実施の形態を実行することにおいて
重要な関心事である。音声ユニット選択ストラテジーは、いくつかのスケーリン
グ可能性を提供する。波形選択器１３１は、データ検索を速めるルックアップテ
ーブルによって音声ユニットデータベース１４１から音声ユニット候補を検索す
る。ルックアップテーブルにアクセスするために用いられる入力キーは、一つの
拡大縮小可能性ファクターを表す。このルックアップテーブルへの入力キーは、
最小、例えば、音声ユニットコアを記述する一対の音素からより複雑、例えば、
一対の音素＋音声ユニット特徴（音の抑揚法、文脈、・・・）まで変化すること
ができる。入力キーをより複雑にすることは、ルックアップテーブルを通して見
出される候補音声ユニットを少なくする結果になる。したがって、より小さい（
必ずしもより良くないけれども）候補リストは、より複雑なルックアップテーブ
ルを犠牲にして作られる。

【００５３】音声ユニットデータベース１４１のサイズは、また、要求されるメモリーと処
理スピードの両方に影響を与える、重要なスケーリングファクターである。利用
可能なデータが多くなればなるほど、最適な音声ユニットを見付けるためにより
長い時間がかかる。必要とされる最小データベースは、（線形予測符号化ベース
の音組織から音声へのシステムにおいて用いられる音声データベース匹敵する）
入力の音組織をカバーする孤立された音声ユニットから成る。精選された音声信
号をデータベースに加えることは、システム条件を増加することを犠牲にして出
力音声の品質を改善する。

【００５４】上述の取り除く技術は、また、ユニット選択をスピードアップできる拡大縮小
可能性ファクターを表す。それ以上の拡大縮小ファクターは、音声データベース
のサイズを減少するために音声符号化及び／又は音声圧縮技術の使用に関連する
。

【００５５】信号処理／連結音声波形連結器１５１は、連結に関する信号処理を実行する。合成器は、高品
質の音声セグメントを供に加えることによって音声信号を生成する。時間領域に
おける変更されていないＰＣＭ音声波形を連結することは、本質的な分節情報が
維持されるという利点を有する。これは、また、ミクロ韻律を含む自然な韻律的
情報が合成された音声に転送されることを意味する。分節内の音響品質が最適で
あるけれども、分節間歪みをもたらし得る波形連結処理に注意されたい。波形連
結の主な関心は、接合箇所の近傍に生じ得る不連続や速い過渡現象のような波形
不規則さを避けることにおいてである。これらの波形不規則さは、一般に連結人
工物として言及される。

【００５６】したがって、各接合点で信号不連続を最小にすることは需要である。２つのセ
グメントの連結は、周知の重み重複及び加算（ＯＬＡ）方法を用いることによっ
て実行され得る。セグメント連結のための重複及び加算手順は、実際には、音声
セグメントの（非線形の）短時間フェードイン／フェードアウトより他はない。
高品質の連結を得るために、我々は、２つの領域間の位相ミスマッチの程度が最
小にされるように、第１のセグメントの立ち下がり部分の領域を見付け、第２の
セグメントの立ち上がり部分の領域を見付ける。この処理は、次のように実行さ
れる：・我々は、２つの引き窓、第１の音声セグメントの立ち下がり部分内のものと第
２の音声セグメントの立ち上がり部分のものとの間の最大の標準化された相互相
関を検索する。・第１の音声セグメントの立ち下がり部分と第２の音声セグメントの立ち上がり
部分は、データベースのルックアップテーブルに格納されるように、二音字境界
の周りに集中される。・好ましい実施の形態では、立ち下がり及び立ち上がり領域の長さは、１〜２ピ
ッチ期間のオーダーであり、引き窓はベル形状である。網羅的な検索の計算負荷を減らすために、検索は、多数の段階で実行され得る。
第１の段階は、より低い時間分解能で上述される包括的な検索を実行する。より
低い時間分解能は、音声セグメントの段階的に行うダウンサンプリング（downsa
mpling）に基づく。連続する段階は、前段階で決定された最適な領域の周りで逐
次より高い時間分解能において近傍検索を実行する。

【００５７】結論代表的な実施の形態は、コンピューターシステムでの使用のためのコンピュー
タープログラムプロダクトとして実行され得る。そのような実行は、コンピュー
ターに読取可能な媒体（例えば、ディスケット、ＣＤ−ＲＯＭ、ＲＯＭ、又は固
定ディスク）のような有形的媒体上に、あるいは、モデム、又は媒体上のネット
ワークに接続された通信アダプタのような他のインターフェース装置を介してコ
ンピューターシステムと伝送可能なもののいずれかに固定された一連のコンピュ
ーター命令を含んでもよい。その媒体は、有形な媒体（例えば、光学式又はアナ
ログ式通信ライン）、あるいは無線技術で実行される媒体（例えば、マイクロ波
、赤外線又は他の伝送技術）のいずれかであってもよい。一連のコンピューター
命令は、システムに関してここで前述された関数性のすべて又は一部を具体化す
る。当業者は、そのようなコンピューター命令が多くのコンピューターアーキテ
クチャ又はオペレーティングシステムで使用するために多くのプログラミング言
語で書かれ得ることを認識すべきである。さらに、そのような命令は、半導体、
磁気式、光学式又は他の記憶装置のようなあらゆる記憶装置に格納され得、光学
式、赤外線、マイクロ波、又は他の伝送技術のようなあらゆる通信技術を用いて
伝送され得る。そのようなコンピュータープログラムプロダクトが、印刷された
あるいは電子文書（例えば、圧縮されたソフトウェア）に添付する移動可能な媒
体として配布され、コンピューターシステム（例えば、システムＲＯＭ又は固定
ディスク上に）にプリインストールして、あるいは、サーバー又はネットワーク
（例えば、インターネット（Internet）又はWorld Wide Web）上の電子掲示板か
ら配布されてもよい。勿論、本発明のいくつかの実施の形態は、ソフトウェア（
例えば、コンピュータープログラムプロダクト）とハードウェアの両方の組み合
わせとして実行されてもよい。本発明のまだ他の実施の形態は、完全にハードウ
ェア、あるいは完全にソフトウェア（例えば、コンピュータープログラムプロダ
クト）として実行される。

【００５８】用語集以下の定義は、本発明の記述とこの記述に続く特許請求の範囲の両方に関係が
ある。

【００５９】「二音字（Diphone）」は、２つの隣接する半音から構成された基本的な音声
ユニットである。したがって、二音字の左と右の境界は、中間的な音境界である
。二音字の中心は、音遷移領域を含む。単音よりもむしろ二音字を用いるための
動機は、二音字の端が比較的定常状態であり、又、２つの単音を接合するよりも
可聴の減損なく２つの二音字を接合する方が容易である。

【００６０】多音字又は他の音声ユニットの「ハイレベル（High level）」な言語的特徴は
、そのようなユニットに関して、音の抑揚法、音声文脈、並びに、適用可能な文
、句、単語、及び音節の位置を含む。

【００６１】「大音声データベース（large speech database）」は、音声波形を参照する
音声データベースに関する。そのデータベースは、デジタル方式でサンプルされ
た波形を直接含んでもよく、そのような波形へのポインタを含んでもよく、ある
いは、波形合成器の動作を管理するパラメーターセットへのポインタを含んでも
よい。データベースは、音声合成の目的のための波形参照中、データベースが一
般に種々の言語条件下で発生する多くの波形候補を参照するとき、「大きい（la
rge）」と考えられる。この方法では、音声合成のほとんどの時間、データベー
スは、そこから選択する多くの波形候補を提供するだろう。多くのそのような波
形候補の利用可能性は、ここを通して、特に概観において記述されるように、音
声出力における韻律的な及び他の言語の変化を可能にすることができる。

【００６２】多音字又は他の音声ユニットの「低レベル（low level）」言語特徴は、その
ようなユニットに関して、ピッチ曲線と持続時間を含む。

【００６３】「非二進数（non-binary numeric）」関数は、その関数の引数に依存して、少
なくとも３値のいずれかを想定する。

【００６４】「多音字（polyphone）」は、ともに接合される１以上の二音字である。三音
字は、２つの二音字から成る多音字である。

【００６５】「ＳＰＴ（simple phonetic transcription）」は、音素を記述する。この転
写は、任意的に、語彙のストレス、文アクセントなどのための象徴に注釈を付け
られる。例（単語「価値がある（worthwhile）」のために）：＃‘ｗｅｒＴ−’
ｗＹｌ＃「三音字（triphone）」は、ともに接合される２つの二音字である。したがっ
て、それは、３つの要素、左境界における半音素、完全な音素、及び右境界にお
ける半音素を含む。

【００６６】「第１及び第２の隣接する波形の重み重複及び加算」は、その波形の隣接する
端がフェードインとフェードアウトに曝される技術に関する。

【００６７】

【表１】

【００６８】

【表２】

【００６９】

【表３】

【００７０】

【表４】

【００７１】

【表５】

【００７２】

【表６】

【００７３】

【表７】

【００７４】

【表８】

【００７５】

【表９】

【００７６】

【表１０】

【００７７】

【表１１】

【図面の簡単な説明】

本発明は、添付図面についてとられる次の詳細な記述を参照して、いっそう
容易に理解される。

【図１】図１は、代表的な実施の形態における音声合成器を示す。

【図２】図２は、代表的な実施の形態における音声ユニットデータベースの構造を示す
。

───────────────────────────────────────────────────── フロントページの続き (72)発明者デ・ブロック、マリオベルギー国、ビー−9600・ローンサ、ボルフストラート 60 (72)発明者ファクレル、ジャスティンベルギー国、ビー−9000・ゼント、グスターフ・キャリアラーン 28 (72)発明者ライス、スチーブンベルギー国、ビー−8500・コートライク、ジャーコプ・ヴァン・マーラーントストラート 23 (72)発明者ラッテン、ペイタベルギー国、ビー−9050・ゼント、エミール・ヴァハーレンラーン 15 (72)発明者デムアテル、ジャンベルギー国、ビー−8510・ローレゼム、リンデンドリーフ 13 (72)発明者シェンク、アンドレベルギー国、ビー−8500・コートライク、エイバリスト・カーペンティアラーン（番地なし) (72)発明者ヴァン・コイル、バートベルギー国、ビー−8200・ブリューガ、ビータ・モーレンストラート 49 Ｆターム(参考） 5D045 AA07

Claims

【特許請求の範囲】

【請求項１】音声合成器であって、ａ．音声波形を参照する大音声データベースであって、多音字によってアクセス
される、大音声データベースと、ｂ．音声転写入力に対応する多音字指示符号を用いるデータベースによって参照
される波形を選択する、前記大音声データベースと通信する音声波形選択器と、ｃ．音声信号出力を作り出すために前記音声波形選択器によって選択された波形
を連結する、前記大音声データベースと通信する音声波形連結器と、を備えることを特徴とする音声合成器。
【請求項２】前記多音字指示符号が二音字指示符号であることを特徴とす
る請求項１記載の音声合成器。
【請求項３】音声波形が音声符号化形状に格納されるデジタル記憶媒体と
、前記波形選択器によってアクセスされるとき、符号化音声波形を復号する復号
器と、を更に備えることを特徴とする請求項１又は２記載の音声合成器。
【請求項４】前記音声合成器は、長い時間にわたって特定の目標持続時間
値あるいは特定の目標ピッチ音調曲線に頼ることなく、波形候補間で選択するよ
うに機能することを特徴とする請求項１乃至３のいずれかに記載の音声合成器。
【請求項５】音声合成器であって、ａ．大音声データベースと、ｂ．音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
器と、ｃ．前記データベースによって参照された一連の波形を選択し、該一連の各波形
が目標特徴ベクトルの第１の非空集合に対応する波形選択器であって、該波形選
択器が少なくとも一つの波形候補とノードコストとに分類し、該ノードコストが
複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、少なくとも一
つの個別のコストが言語規則に従って変化するコスト関数を用いて決定される、
前記波形選択器と、ｄ．音声信号出力を作るために前記音声波形選択器によって選択された波形を連
結する、前記音声データベースと通信する音声波形連結器と、を備えることを特徴とする音声合成器。
【請求項６】音声合成器であって、ａ．大音声データベースと、ｂ．音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
器と、ｃ．前記大音声データベースによって参照される一連の波形を選択する波形選択
器であって、該波形選択器が２以上の波形候補の少なくとも一つの順序付けされ
た列と遷移コストとに分類し、該遷移コストが複数の特徴のそれぞれに結び付け
られた個別のコスト関数であり、少なくとも一つの個別のコストが言語規則に従
って非自明的に変化するコスト関数を用いて決定される、前記波形選択器と、ｄ．音声信号出力を作り出すために前記音声波形選択器によって選択された波形
を連結する、前記大音声データベースと通信する音声波形連結器と、を備えることを特徴とする音声合成器。
【請求項７】音声合成器であって、ａ．大音声データベースと、ｂ．前記大音声データベースによって参照される一連の波形を選択する波形選択
器であって、該波形選択器が少なくとも一つの波形候補とコストとに分類し、該
コストが複数の特徴のそれぞれに結び付けられた個別のコスト関数であり、音表
象的特徴の少なくとも一つの個別のコストが非二進数関数を用いて決定される、
前記波形選択器と、ｃ．音声信号出力を作り出すために前記音声波形選択器によって選択された波形
を連結する、前記大音声データベースと通信する音声波形連結器と、を備えることを特徴とする音声合成器。
【請求項８】前記音表象的特徴は、(i) プロミネンス、(ii) ストレス、(
iii) 相内の音節位置、(iv) 文タイプ、(v) 境界タイプ、の一つであることを特
徴とする請求項７記載の音声合成器。
【請求項９】前記非二進数関数は、表に頼ることによって決定されること
を特徴とする請求項７又は８記載の音声合成器。
【請求項１０】前記非二進数関数は、一セットの規則に頼ることによって
決定されることを特徴とする請求項７又は８記載の音声合成器。
【請求項１１】音声合成器であって、ａ．大音声データベースと、ｂ．音声転写入力に応答して一連の目標特徴ベクトルを生成するための目標発生
器と、ｃ．前記データベースによって参照された一連の波形を選択し、該一連の各波形
が目標特徴ベクトルの第１の非空集合に対応する波形選択器であって、該波形選
択器が少なくとも一つの波形候補とコストとに分類し、該コストが複数の特徴の
それぞれに結び付けられた重み付けされた個別のコスト関数であり、個別のコス
トの少なくとも一つに結び付けられる重みが該一連の波形内の目標特徴ベクトル
の第２の非空集合に従って非自明的に変化する、前記波形選択器と、ｄ．音声信号出力を作り出すために前記音声波形選択器によって選択された波形
を連結する、前記大音声データベースと通信する音声波形連結器と、を備えることを特徴とする音声合成器。
【請求項１２】前記第１及び第２の非空集合が同一であることを特徴とす
る請求項１１記載の音声合成器。
【請求項１３】前記第２の空集合は、一連の波形内の前記第１の非空集合
に近似していることを特徴とする請求項１１記載の音声合成器。
【請求項１４】音声合成器であって、ａ．音声波形を参照する音声データベースと、ｂ．音声転写に対応する指示符号を用いるデータベースによって参照される波形
を選択する、前記音声データベースと通信する音声波形選択器と、ｃ．音声信号出力を作るために前記音声波形選択器によって選択された波形を連
結する、前記音声データベースと通信する音声波形連結器であって、第１の波形
と第２の波形の少なくとも一つの順序付けられた列のために、該音声連結器が(i
) 該第１の波形の立ち下がり縁の位置と、(ii) 該第２の波形の立ち上がり縁の
位置とを選択し、各位置がその位置近くの領域で第１及び第２の波形間の位相マ
ッチの最適化を作り出すように選択される、前記音声波形連結器と、を備えることを特徴とする音声合成器。
【請求項１５】音声合成器であって、ａ．音声波形を参照する音声データベースと、ｂ．音声転写に対応する指示符号を用いるデータベースによって参照される波形
を選択する、前記音声データベースと通信する音声波形選択器と、ｃ．音声信号出力を作るために前記音声波形選択器によって選択された波形を連
結する、前記音声データベースと通信する音声波形連結器であって、第１の波形
と第２の波形の少なくとも一つの順序付けられた列のために、該第２の波形が立
ち上がり縁を有し、該音声連結器が該第１の波形の立ち下がり縁の位置を選択し
、該位置がその位置及び該立ち上がり位置近くの領域で第１及び第２の波形間の
位相マッチの最適化を作り出すように選択される、前記音声波形連結器と、を備えることを特徴とする音声合成器。
【請求項１６】音声合成器であって、ａ．音声波形を参照する音声データベースと、ｂ．音声転写に対応する指示符号を用いるデータベースによって参照される波形
を選択する、前記音声データベースと通信する音声波形選択器と、ｃ．音声信号出力を作るために前記音声波形選択器によって選択された波形を連
結する、前記音声データベースと通信する音声波形連結器であって、第１の波形
と第２の波形の少なくとも一つの順序付けられた列のために、該第１の波形が立
ち下がり縁を有し、該音声連結器が該第２の波形の立ち上がり縁の位置を選択し
、該位置がその位置及び該立ち下がり位置近くの領域で第１及び第２の波形間の
位相マッチの最適化を作り出すように選択される、前記音声波形連結器と、を備えることを特徴とする音声合成器。
【請求項１７】前記最適化は、前記位置近くの領域で前記第１及び第２の
波形の形状における類似性を基礎にして決定されることを特徴とする請求項１４
乃至１６のいずれかに記載の音声合成器。
【請求項１８】前記類似性は、相互相関技術を用いて決定されることを特
徴とする請求項１７記載の音声合成器。
【請求項１９】前記相互相関技術は、相関関係の全域で標準化されること
を特徴とする請求項１８記載の音声合成器。
【請求項２０】前記最適化は、少なくとも一つの非方形窓を用いて決定さ
れることを特徴とする請求項１４乃至１６、又は１８のいずれかに記載の音声合
成器。
【請求項２１】前記最適化は、前記第１及び第２の波形に結び付けられる
時間分解能が連続的に細かい複数の連続する段階において決定されることを特徴
とする請求項１４乃至１６、又は１８のいずれかに記載の音声合成器。
【請求項２２】時間分解能における縮小が波形ダウンサンプリングによっ
て達成されることを特徴とする請求項２１記載の音声合成器。