JPH10116089A

JPH10116089A - 音声合成用の基本周波数テンプレートを収容する韻律データベース

Info

Publication number: JPH10116089A
Application number: JP9266401A
Authority: JP
Inventors: Xuedong D Huang; ディーヒューアンシュードン; James L Adcock; エルアドコックジェームズ; John A Goldsmith; エイゴールドスミスジョン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-09-30
Filing date: 1997-09-30
Publication date: 1998-05-06
Anticipated expiration: 2017-09-30
Also published as: EP0833304A3; DE69719654T2; US5905972A; EP0833304B1; DE69719654D1; JP4302788B2; EP0833304A2; CN1179587A; CN1169115C

Abstract

(57)【要約】【課題】音声合成用の基本周波数テンプレートを収容
する韻律データベースを提供する。【解決手段】韻律データベースは音声合成システム用
の基本周波数テンプレートを保持する。韻律データベー
ステンプレートは所定の文における音節に関する基本周
波数値を保持しうる。これらの基本周波数値は音声の文
を合成する際に適用されうる。テンプレートは音色パタ
ーンマーキングによって指標付けられる。予測音色マー
キングパターンは合成されるべきテキストの各文に関し
て生成され、音色マーキングのこの予測パターンは最適
合テンプレートを見つけるのに使用される。テンプレー
トは、所定の無標コーパスに関して人間のトレーナによ
って話された文に関して追跡可能な根拠の基本周波数を
計算することによって得られる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的には、デー
タ処理システムに関し、特に、音声合成用の基本周波数
テンプレートを収容する韻律データベースに関する。

【０００２】

【従来の技術】音声テキスト（text-to-speech）システ
ムは原文通りの入力によって指定された音声を合成す
る。従来の音声テキストシステムの限界の１つは、それ
らが非常に不自然なロボットのような合成された音声を
作り出していたということである。かかる合成された音
声は、典型的には人間の音声である韻律的特徴を示さな
い。従来の音声テキストシステムのほとんどは、時間に
伴う韻律パラメータの展開を定義するために、僅かなセ
ットのルールを適用することによって韻律を生み出す。
韻律は一般的には、音の持続期間と、音の大きさと、音
に関係するピッチアクセントとを含むように考えられ
る。所定の音声テキストシステムは、そのシステムによ
って作り出されたかかる合成された音声の本質を高める
推測統計学的技術を採用するように試みられている。こ
れらの推測統計学的学習技術は、口述された句又は文の
コーパスから導かれる統計に基づいた韻律を求めるよう
に試みられている。しかし、これらの推測統計学的技術
はまた、自然な音声を一貫して作り出すのに失敗してき
ている。

【０００３】

【課題を解決するための手段】本発明の第１の態様によ
れば、コンピュータで実施される方法は、音声を合成す
るためのシステムで実行される。この方法によれば、合
成されるべき音声に関するテキストは韻律テンプレート
に沿って設けられる。各韻律テンプレートは、音声のユ
ニットに関する一連の基本周波数値を保持する。テンプ
レートのうちの１つは、テキストに関して合成された音
声に関する韻律の確立用に選択される。次いで、音声
は、音声に関する韻律を確立する際に、選択されたテン
プレートから基本周波数のうちの少なくとも１つを使用
してテキストに関して合成される。本発明の別の態様に
よれば、音声のユニットに関する基本周波数の韻律デー
タベースが提供される。韻律データベースの各エントリ
は、基本周波数が保持される音声のユニットに関する強
調の度合いと対応する音色マーキングのパターンによっ
て指標付けされる。自然言語解析を所定のテキストで実
施する。自然言語解析の結果に基づいて、音色マーキン
グの予測パターンがテキストにおける音声のユニットに
関して予測される。韻律データベースにおける最適合イ
ンデックスが、韻律データベースにおけるエントリのイ
ンデックスを持ったテキストにおける音声のユニットに
関する音色マーキングの予測パターンと比較することに
よって識別される。最適合インデックスによって指標付
けされた韻律データベースにおけるエントリの基本周波
数のうちの少なくとも１つは、テキストに関して合成さ
れた音声において韻律を確立するために使用される。

【０００４】本発明の更なる態様によれば、韻律データ
ベースを構築する方法がコンピュータシステムで実行さ
れる。人間のトレーナによって話される、話されたテキ
ストの複数の対応する部分の各々に関して、音響信号が
得られる。各音響信号は、人間トレーナがテキストの対
応する部分を話すときに生じる信号である。話されるテ
キストの各部分に関する喉頭グラフ（laryngograph）
は、テキストの部分が話されるとき、人間トレーナに付
随する喉頭グラフから得られる。音響信号は、テキスト
の音節を表わすセグメントに区分けられる。各音節は母
音部分を含む。喉頭グラフ信号は、音響信号のセグメン
トと適合するセグメントに区分けられる。テキストの各
部分で各音節の母音部分に関する瞬間的な基本周波数の
重み合計が計算される。基本周波数は、喉頭グラフ信号
から得られ、重みは音響信号から得られる。テキストの
各部分に関して、韻律データベースにおけるテキストの
部分の各音節に関する瞬間的な基本周波数の重み合計は
ストアされ、これらの重み合計は合成された音声の韻律
を確立するために使用される。

【０００５】本発明の追加の態様によれば、音声テキス
トシステムは入力テキストを音声のユニットに解析する
ためのパーサを含む。このシステムはまた、韻律テンプ
レートを保持する韻律データベースを含み、各韻律テン
プレートは音声のユニットに関する一連の基本周波数値
を保持する。このシステムは、入力テキストにおける音
声のユニットに関して基本周波数値を得るために、韻律
データベースにおけるテンプレートのうちの選択された
１つを使用することによって、入力テキストに対応する
音声を作り出すための音声合成手段を更に含む。本発明
の更なる態様によれば、音声の異なるスタイルに関する
韻律テンプレートを保持する韻律データベースが設けら
れる。作り出されるべき音声の部分に適用されるべきで
ある韻律スタイルが求められ、求められた韻律スタイル
に関する韻律データベースにおけるテンプレートのうち
の少なくとも１つは、求められた韻律スタイルを持った
音声の部分を作り出すのに使用される。

【０００６】本発明の更に別の態様によれば、韻律デー
タベースは、単一の話者に関する異なる韻律スタイルの
韻律テンプレートを保持することが設けられる。システ
ムによって作り出されるべきである音声の部分に適用さ
れるべきである韻律スタイルが求められ、韻律データベ
ースにおけるテンプレートのうちの少なくとも１つが、
求められた韻律スタイルを持った音声の部分を作り出す
ために求められた韻律スタイルのために使用される。

【０００７】

【発明の実施の形態】本発明の典型的な実施形態は、句
又は文に関する基本周波数のテンプレートを保持する１
又はそれ以上の韻律データベースを設ける。複数の話者
に関する韻律データベースを保持し、異なる韻律スタイ
ルに関する複数の韻律データベースを保持することがで
きる。これらのデータベースの各々は、一種の「ボイス
フォント」としての役割を果たす。韻律データベース
は、より自然な合成された音声を作り出すように利用さ
れる。音声合成では、所望の韻律をセットするためにこ
れらのボイスフォントの間から選択することができる。
特に、合成された音声の出力における音節に割り当てら
れるべき基本周波数を決定するために、韻律データベー
スのうちの１つからの最も適合したテンプレートを使用
する。本発明の典型的な実施形態の音声テキストシステ
ムへのテキスト入力は、韻律データベースにおける最も
適合したテンプレートを決定するように処理される。正
確な一致が見つからないならば、最も適合するテンプレ
ートから無標の領域に一致を作り出すように改竄技術を
適用しうる。かかる合成された音声は、従来の音声テキ
ストシステムによって作り出された音声より、より自然
な音である。

【０００８】各韻律データベースは、無標コーパスから
人間の話者が話す文を有することによって構築されてい
る。次いで、これらの文は、自然言語処理エンジンによ
って処理され、隠れマルコフモデル（ＨＭＭ）を使用し
て音素と音節に区分される。この喉頭グラフ出力は、Ｈ
ＭＭによってマイクロフォン音声信号に作り出された区
分に従って区分されている。区分された喉頭グラフ出力
は、各音節の母音部分における重み基本周波数を求める
ように処理される。これらの重み基本周波数は韻律デー
タベースのエントリにストアされ、韻律データベースの
エントリは音色マーキングによって指標付けられる。本
発明の典型的な実施形態は、所定の話者に関する韻律を
判断するために、迅速で且つ容易なアプローチを提供す
る。このアプローチは、全てのタイプのテキストに偏在
して適用されるべく広範囲に及ぶ。典型的な実施形態は
また、扱いやすく、該システムを扱ったオリジナルスピ
ーカーと非常に似ているように発する音声を作り出す機
構を提供する。

【０００９】図１は、本発明の典型的な実施形態を実行
するのに適当なコンピュータシステム１０を示す。当業
者は、図１におけるコンピュータシステム構成が単に説
明することを意図したものであり、本発明を限定するも
のではないことを認識するであろう。本発明はまた、分
散型システム及び密結合多重プロセッサシステムを含
む、他のコンピュータシステム構成の状態で実行されう
る。コンピュータシステム１０は、中央処理装置（ＣＰ
Ｕ）１２及びたくさんの入出力デバイスを含む。例え
ば、これらのデバイスはキーボード１４、ビデオディス
プレィ１６、及び、マウス１８を含みうる。ＣＰＵ１２
はメモリ２０へのアクセスを有する。メモリ２０は音声
テキスト（text-to-speech）（ＴＴＳ）機構２８のコピ
ーを保持する。ＴＴＳ機構２８は、本発明の典型的な実
施形態を実行するための命令を保持する。コンピュータ
システム１０はまた、ＣＰＵ１２をネットワーク２４と
接続するためのネットワークアダプタ２２を含む。コン
ピュータシステム１０は更に、モデム２６と、オーディ
オ出力を発生させるために（ラウドスピーカのような）
オーディオ出力デバイス２７とを含みうる。

【００１０】ＴＴＳ機構２８は、１又はそれ以上の韻律
データベースを含む。単一の話者に関する複数のデータ
ベースが保持されうる。例えば、話者は異なる領域内の
アクセントに関する別々のデータベースを作り出すこと
ができ、各アクセントは、それら自体の韻律スタイルを
有する。更に、話者は、ニュース放送を読むことによっ
てデータベースを作ることができ、子供向けの本を読む
ことによって別のデータベースを作りうる。更に、別の
韻律データベースを多数の話者のために保持しうる。上
で述べたように、これらのデータベースの各々は、別々
の「ボイスフォント」を斟酌しうる。図２は、入力テキ
ストの単一の文に関する合成された音声出力を作り出す
ために、本発明の典型的な実施形態によって行われる段
階の概観をなすフローチャートである。複数の入力テキ
スト文が処理されるべきならば、図２（即ち、ステップ
３２乃至４４）に示された多くのステップは各文に関し
て繰り返されうる。図２のフローチャートを、本発明の
典型的な実施形態のＴＴＳ機能２８の基本的な構成を図
示する図３に関連して説明する。本発明の典型的な実施
形態において実施される第１の段階は、韻律データベー
スを構築する（図２のステップ３０）。韻律データベー
スは図３に示される韻律テンプレート６０の部分であ
る。テンプレート６０は、複数の韻律データベース即ち
ボイスフォントを含みうる。上で議論したように、各韻
律データベースは、無標コーパスからの多くの文を人間
の話者に話させることによって、且つ、かかるアナログ
音声信号及び喉頭グラフを寄せ集めることによって作り
出される。次いで、このデータは韻律データベースを構
築するために処理される。

【００１１】図４は、より詳細に韻律データベースを構
築するために実施される段階を図示したフローチャート
である。図４に示されたステップは、話者によって話さ
れた無標コーパス５０における各文に関して実施され
る。最初に、話されるトレーニング文に関する喉頭グラ
フ信号を受信する（図４のステップ７０）。図５Ａは、
マイクロフォン音声信号の例を示す。図５Ｂは対応する
喉頭グラフ信号を示す。この信号は、その時点での話者
の音声コードがどの程度に開いているか又は閉じている
かの指示を与える。トレーニング文に関する音素及び音
節によるセグメンテーションを受信し、同様な仕方で喉
頭グラフ信号を区分する。特に、喉頭グラフ信号は、マ
イクロフォン信号が区分けされたのと丁度同じ時間サイ
ズで区分けされる。特に、ＨＭＭトレーニング５２は、
区分けされたコーパス５４をもたらすように、無標コー
パス５０の話される文で実施される。ＨＭＭ技術は当該
技術分野で周知である。適当なＨＭＭトレーニング技術
は、1996年５月１日に出願された「連続密度隠れマルコ
フモデルを使用して音声認識をする方法及びシステム
（Method and System for Speech Recognition Using C
ontinuousDensity Hidden Markov Models）」と題する
継続出願第08/655,273号に記載されており、本出願と共
通の譲受人に譲渡されている。これらのＨＭＭ技術によ
り、音素及び音節によって区分された音声信号になる。
音節区分は、本発明の典型的な実施形態に対して特別に
重要なものである。

【００１２】喉頭グラフは、エポック情報を識別するよ
うに、且つ、瞬間的な基本周波数（F0）情報を作り出す
ように処理される。この文脈中では、エポックとは、音
声コードが開いている及び閉じている継続時間のことを
言う。言い換えれば、１つのエポックが音声コードの１
つの開き及び閉じに対応する。基本周波数は、話者の音
声コードが音節に関して振動する基本周波数を言う。こ
れは、本発明の典型的な実施形態の最も重要なものであ
る韻律パラメータである。エポック情報は、喉頭グラフ
信号の継続時間のスムージング評価の局所的最大から得
られる。母音領域は、典型的には、最も強く強調される
音節の部分だから、解析のために選択される。音節の母
音部分に関する喉頭グラフ信号から選られた瞬間的な基
本周波数値の重み合計として、重みF0（weighted F0 ）
を計算する。より数式的には、重み基本周波数は数学的
に以下のように表わしうる：

【００１３】

【数１】

【００１４】ここで、Ｗ_iは重み、F0_iは時間i での基
本周波数である。基本周波数F0_iを、喉頭グラフの信号
における隣接したピークを分離する時間分の１として計
算する。典型的には、音節の母音部分は複数のピークを
含むであろう。重みＷは音響信号から得られ、式的には
以下のように表わしうる：

【００１５】

【数２】

【００１６】ここで、A(t)は時間ｔでの音響信号の振
幅、ｔ_aは第１のピークでの時間、ｔ_bは第２のピーク
での時間である。ｔ_a及びｔ_bの値は、それぞれ第１及
び第２のピークに関する喉頭グラフ信号のピークに対応
する時間における点を表わしているものである。この重
み機構により、音節毎の知覚重みF0を計算する際に、速
度信号のより大きな振幅の部分に、より大きな重みを与
えることができる。この重み機構は、F0カーブの知覚的
に重要な部分（即ち、振幅が高い場所）に更なる重みを
与える。自然言語処理（ＮＬＰ）は文で実行され（即
ち、テキスト解析５６が実行される）、自然言語処理か
ら得られた情報は音色マーキングを予測するように使用
される（図４のステップ７６）。多くのどんな周知の技
術でも、この解析を実行するように使用されうる。自然
言語処理は文を解析するので、音声の部分の同一性、文
脈単語、文の文法構造、文のタイプ、及び、文における
単語の発音が生ずる。かかるＮＬＰパーズから得られた
情報は、文の各音節に関して音色マーキングを予測する
ように使用される。音声の人間的韻律パターンの多くが
各音節に関して３つの音色マーキングのうちの１つを予
測することによって表現されることは認識されていた。
これらの３つの音色マーキングは、高音、低音、又は、
特別な強調の無いものである。本発明の典型的な実施形
態は、音節基（syllable basis）毎に解析された入力文
に関して、音色マーキングのパターンを予測する。音色
マーキングを予測及び割り当てるための適当なアプロー
チは、John Goldsmith著「English as a Tone Languag
e」（Communication and Cognition, 1978 ）と、Janet
Pierrehumbert 著「The Phonology and Phonetics of
English Intonation 」（学位論文、マサチューセッツ
工科大学、1980）に説明されている。予測された音色マ
ーキングストリングの例は「2 H 0 H 0 N 0 L 1 - 」で
ある。このストリングは数字と、H,L,h,l,+ 及び- の組
から選択された記号とから構成される。記号は、所定の
高い突出音節の音色の特徴、第１のアクセント、及び、
最後の音節を示し、数字は、これらのアクセント又は最
後の音節の間にいくつの音節が生じるかを示す。H 及び
L はそれぞれ強調された音節での高音及び低音を示し、
+ 及び- は最後の音節での高音及び低音を示し、h 及び
l は以下に続く強調された音節の最左端の音節での（以
下に続く音節が無ければ、それ自身の強調された音節で
の）高音及び低音を示す。

【００１７】エントリは、文の音節に関する重み基本周
波数の連続を保持するために韻律データベースに作成さ
れる。各エントリを、文に関する関連した音色マーキン
グストリングによって指標付けする（図４のステップ７
８）。基本周波数値は、符号無しのキャラクタ値として
韻律データベースにストアされうる（図４のステップ８
０）。上述したステップは、韻律データベースを構築す
るために各文に関して実行される。一般的には、セグメ
ンテーション及び原文通りの解析は、韻律データベース
６０を構築するために、本発明の典型的な実施形態によ
って採用された韻律モデルによって使用される。韻律デ
ータベースが構築された後（図２のステップ３０参
照）、データベースを音声合成に利用しうる。音声合成
における第１の段階は、作り出されるべき音声を識別す
る（図２のステップ３２）。本発明の典型的な実施形態
では、この音声は、文を表わすテキストのチャンクであ
る。それにもかかわらず、当業者は、本発明がまた、成
句、単語又はパラグラフさえも含むテキストの他の細分
性を伴って実行されうることを理解するであろう。合成
段階（図３）における次のステップは、入力テキストを
解析し、入力文に関する音色マーキング予測を作り出す
（図２のステップ３４）。一般的には、上で議論した同
じ自然言語処理は、音声の部分、文法構造、単語の発
音、及び、入力テキスト文に関する文のタイプの同一性
を判断するために適用される。この処理は、図３のテキ
スト解析ボックス５６として指定される。音色マーキン
グは、上で議論したGoldsmith の技術を使用して自然言
語処理パーズから得られた情報を使用して予測される。
典型的な実施形態のこの態様は、合成段階４８の韻律生
成段階６６で実行される。

【００１８】予測された音色マーキングを与えるので、
韻律データベースにおける韻律テンプレート６０はイン
デックスとして予測された音色マーキングを使用して、
アクセスされうる（図２のステップ３６）。正確な調和
（即ち、入力文に関して予測されたものと同じ音色マー
キングパターンによって指標付けされるエントリ）があ
るならば、それは初めに決定される（図２のステップ３
８）。調和したエントリがあるならば、エントリにスト
アされた重み基本周波数は、入力文に関して合成された
音声に関する韻律を確立するのに使用される。次いで、
システムは、これらの重み基本周波数を利用する音声出
力を生成するために進行する（図２のステップ４４）。
図３に示したように、本発明の典型定期名実施形態は音
声合成への連鎖的なアプローチを使用する。特に、区分
けされたコーパス５５は、２音素（diphone ）、３音素
（triphone）等のような音響単位を識別するために処理
され、合成された音声を作り出すのに使用されうる。こ
のプロセスは図３のユニット生成段階４６によって示さ
れ、ユニットの目録を与える。入力テキスト文に関する
ユニットの適当なセットはユニット目録６２から引き出
され、合成された音声出力を作り出すために連結され
る。韻律データベースからの基本周波数は、合成された
音声出力の韻律を確立するために採用される。

【００１９】正確な調和が図２のステップ３８で見つか
らなければ、韻律データベースにおける最適合エントリ
は判断され、最適合エントリ内の基本周波数値は、合成
された音声出力の生成に用いられる基本周波数とより近
く適合するように修正される（図２のステップ４２及び
４４）。本発明の典型的な実施形態は最適合エントリを
見つけるために最適化された検索ストラテジを使用す
る。特に、予測された音色マーキングは、韻律データベ
ースのエントリに関する音色マーキングインデックスと
比較し、音色マーキングインデックスは、予測された音
色マーキングとの類似性に基づいてスコアされる。特
に、ダイナミックプログラミング（即ち、ヴィテルビ）
検索は、インデックス音色マーキングに対して予測され
た音色マーキングで実行される（図６のステップ８
２）。ヴィテルビアルゴリズムについて詳細に述べるた
めに、まず初めに幾らかの名称集を確立する必要があ
る。ヴィテルビアルゴリズムは所定の観測（observatio
n ）シーケンスによって最も良いステートシーケンスを
見つけるためにシークする。所定の観測シーケンスＯ＝
（ｏ₁ｏ₂・・・ｏ_T）に関して、ステートシーケンス
はｑとして指定され、ここでｑは（ｑ₁ｑ₂・・・
ｑ_T）であり、λはパラメータセットであり、Ｔはステ
ート及び観測のそれぞれのシーケンスにおける数であ
る。ステートｉにおける最初のｔ観測と最後のものを説
明する、時間Ｔでの単一のパスに沿った最も良いスコア
は、以下のように定義される：

【００２０】

【数３】

【００２１】この文脈では、各音色マーカはステートを
表わし、音色マーカの各値は観測を表わす。ヴィテルビ
アルゴリズムは以下のように数式化して表わしうる：１．初期設定

【００２２】

【数４】 δ₁（ｉ）＝π₁ｂ₁（ｏ₁）１≦ｉ≦Ｎ Φ₁（ｉ）＝０

【００２３】ここで、Ｎはステートの数であり、π_i＝
Ｐ[ ｑ_i＝ｉ] である。２．再帰

【００２４】

【数５】

【００２５】ここで、ａ_ijはステートｉからステートｊ
までのステート遷移確率であり、ｂ_j（ｏ_t）は、ｏ_t
が観測されるステートｊに関する観測確率である。

【００２６】

【数６】

【００２７】３．終了

【００２８】

【数７】

【００２９】４．パス（ステートシーケンス）バックト
ラッキング

【００３０】

【数８】ｑ^* _t＝Φ_t+1（ｑ^* _t+1）、ｔ＝Ｔ−１，Ｔ−２，....１

【００３１】従って、図６に示したように、最適合を見
つけるためにヴィテルビアルゴリズムを適用する（ステ
ップ８２）。アルゴリズムはクイックアウトを行うため
に修正される。特に、システムは、これまで見つけられ
た最も安いコスト解のトラックを維持し、ストリングを
修正する最小コストが以前に見つけられた最も良いスト
リングのコストを上回ることが発見されるとすぐに、各
連続ストリングに関するアルゴリズムを中止する。コス
トは、多くの経験的に得られた方法で割り当てられう
る。ある解は、２つの数字の間の違いのコストを割り当
て、ここで、予測音色パターンストリングにおける数字
はインデックス音色パターンストリングにおける数字と
適合する。従って、予測音色パターンストリングがある
場所にストアされた２の値を有し、インデックス音色パ
ターンストリングにストアされた同じ場所値が３なら
ば、１のコストはこのミスマッチのために割り当てられ
うる。ノンストレスキャラクタの包含又は削除に関する
キャラクタのミスマッチには１０のコストが割り当てら
れる。

【００３２】クイックアウトアプローチは、明らかに最
適合ではないインデックス音色パターンができる限り早
急に無視されるように、実質的に検索スペースを切り詰
める。次いで、システムは、より近い適合シーケンスを
得るように、基本周波数の最適合ストリングを修正する
ように探す。特に、２つのストリングが、連続して現れ
る無標の音節の数において異なっている場所に関して、
最適合インデックスと予測音色パターンとの間の違いを
計算するように、基本周波数を修正する。次いで、連続
関数を作るための領域におけるオリジナル基本周波数値
の間の線形補間によって、異なる基本周波数の最適合ス
トリングの部分を修正する。次いで、領域の所望の新し
い数にレンジを分割し、領域に関する所望の出力基本周
波数サンプルポイントを表わす離散点の新しいセットを
作るためにこれらの点でレンジを再びサンプリングす
る。最適合インデックスが「H 5 H 」の音色マーキング
パターンを有している例を考える。このパターンは、初
めの音節が高音マーキングを有し、５つの無標音節が続
き、今度は高音マーク音節が続いていることを示す。予
測音色パターンが「H 4 H 」であると仮定する。最適合
インデックスは追加の無標音節を有する。４つの無標音
節を作り出すために修正しなければならない。最適合韻
律データベースエントリの７つの基本周波数値は、６つ
の線形セグメントから成り立つ連続関数を作り出すため
に、７つの点の間で線形補間するように処理される。６
つの線形セグメントは４つの新しい中間無標点で再びサ
ンプリングされ、高音にマークされたエンドポイントに
対応する以前の２つの基本周波数値は保持される。

【００３３】本発明の典型的な実施形態の主な利益の１
つは、望みの音声のスタイルの選択を合成することを可
能にすることである。複数のボイスフォントは、所定の
話者に関して種々の個人の特異性のスタイルを迅速且つ
容易に作り出すことができる能力を備える。作り出され
た音声は、個人の特異性スタイルの全てを必要とせず、
単一の話者から得られる。本発明の典型的な実施形態に
関して説明したけれども、当業者は添付した特許請求の
範囲に定義する本発明の意図した範囲から逸脱すること
無く種々の変更がなされることを理解するであろう。例
えば、本発明は、文の代わりに句を解析するシステムで
実施されても良く、音素のような別の音声のユニットを
使用しても良い。更に、他のセグメンテーション技術が
使用されうる。

【図面の簡単な説明】

【図１】本発明の典型的な実施形態を実施するのに適当
なコンピュータシステムのブロック図である。

【図２】所定の入力テキスト文に関する音声を合成する
ために、本発明の典型的な実施形態によって実行される
段階の概観を図示するフローチャートである。

【図３】本発明の典型的な実施形態の音声テキスト（Ｔ
ＴＳ）機能のコンポーネントを図示するブロック図であ
る。

【図４】韻律データベースにおけるエントリを構築する
ために実行される段階を図示するフローチャートであ
る。

【図５Ａ】実例となる音響信号を示す。

【図５Ｂ】図５Ａの音響信号と対応する実例となる喉頭
グラフ（laryngograph）信号を示す。

【図６】正確な適合が韻律データベースにおいて見つか
らないとき、基本周波数値を得るために実行される段階
を図示するフローチャートである。

【符号の説明】

１２ＣＰＵ２８ＴＴＳ機能５０無標コーパス５４区分けられたコーパス６０韻律テンプレート６２ユニット目録

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェームズエルアドコックアメリカ合衆国ワシントン州 98006 ベルヴィューワンハンドレッドアンドフィフティフィフスプレイスサウスイースト 5005 (72)発明者ジョンエイゴールドスミスアメリカ合衆国ワシントン州 98008 ベルヴィューノースイーストトゥエンティエイスプレイス 17126

Claims

【特許請求の範囲】

【請求項１】音声合成用システムにおいて、合成されるべき音声に関するテキストを設け、各テンプレートが音声のユニットに関する一連の基本周
波数を保持する、韻律データベースを設け、前記テキストのために合成される音声について韻律を確
立するにあたって使用するためのテンプレートの１つを
選択し、音声に関する韻律を確立するにあたって、選択されたテ
ンプレートから基本周波数のうちの少なくとも１つを使
用してテキストのための音声を合成する、コンピュータ
で実施される段階を含む方法。
【請求項２】テキストのセグメンテーションを確立する
ためにテキストを音声のユニットに区分けする段階を更
に含む、請求項１に記載の方法。
【請求項３】音声のユニットが音節である、請求項１に
記載の方法。
【請求項４】テキストが句である、請求項１に記載の方
法。
【請求項５】テキストが文である、請求項１に記載の方
法。
【請求項６】音色マーカがテキストにおける音声の各ユ
ニットのために設けられ、各韻律テンプレートが音色強
調マーカパターンによって指標付けされる、請求項１に
記載の方法。
【請求項７】テキストに関する予測音色マーカパターン
を作り出す段階を更に含み、テンプレートのうちの１つ
を選択する前記段階が、予測音色マーカパターンと最適
合するインデックスを有するテンプレートを選択するこ
とによって行われる、請求項６に記載の方法。
【請求項８】音声合成用のシステムにおいて、合成されるべき音声に関するテキストを設け、各々が、音声のユニットについての一連の基本周波数値
を保持する韻律テンプレートを設け、テキストのために合成される音声についての韻律を確立
するにあたって使用するためのテンプレートのうちの１
つを選択し、音声に関する韻律を確立するにあたって、選択されたテ
ンプレートから基本周波数の少なくとも１つを使用し
て、前記テキストのための音声を合成する、コンピュー
タで実施される段階を含む方法を実行するための命令を
保持する、コンピュータ読み取り可能記憶媒体。
【請求項９】記憶媒体がまた、テキストを音声のユニッ
トに分割するための命令を保持する、請求項８に記載の
コンピュータ読み取り可能記憶媒体。
【請求項１０】音声のユニットが音節である、請求項９
に記載のコンピュータ読み取り可能記憶媒体。
【請求項１１】各韻律テンプレートが音色強調マーカパ
ターンによって指標付けされ、音色マーカがテキストに
おける音声の各ユニットのために提供される、請求項８
に記載のコンピュータ読み取り可能記憶媒体。
【請求項１２】テキストに関する予測音色マーカパタ
ーンを作り出す、段階を更に含み、テンプレートのうちの１つを選択する前記段階が、予測
音色マーカパターンと最適合するインデックスを有する
テンプレートを選択することによって行われる、請求項
９に記載のコンピュータ読み取り可能記憶媒体。
【請求項１３】音声合成用システムにおいて、前記韻律データベースにおける各エントリが、基本周波
数が保持されている音声のユニットに関して強調の度合
いと一致する音色マーキングのパターンによって指標付
けされている、音声のユニットに関する基本周波数の韻
律データベースを設け、所定のテキストで自然言語解析を行い、自然言語解析の結果に基づいて、テキストにおける音声
のユニットに関して音色マーキングの予測パターンを予
測し、韻律データベースのエントリのインデックスを持ったテ
キストにおいて音声のユニットに関して音色マーキング
の予測パターンと比較することによって、韻律データベ
ースにおいて最適合インデックスを識別し、テキストに関する音声を合成するにあたって韻律を確立
するために最適合インデックスによって指標付けされた
韻律データベースのエントリの基本周波数値の少なくと
も１つを使用する、コンピュータで実施される段階を含
む方法。
【請求項１４】最適合インデックスが音色マーキングの
予測パターンと正確に適合する、請求項１３に記載の方
法。
【請求項１５】最適合インデックスによって指標付けさ
れたエントリにおける全ての基本周波数値が、韻律を確
立する際に使用される、請求項１３に記載の方法。
【請求項１６】最適合インデックスが音色マーキングの
予測パターンと正確に適合しない、請求項１３に記載の
方法。
【請求項１７】音色マーカが、高音強調マーカと、低音
強調マーカと、特別な強調がない音色マーカと、無標ス
トレスを明記するマーカとを含む、請求項１３に記載の
方法。
【請求項１８】最適合インデックスが、音声のユニット
に関して連続無標ストレスの数において音色マーキング
の予測パターンと異なる、請求項１７に記載の方法。
【請求項１９】最適合インデックスの不適合部分に対
応する最適合インデックスによって指標付けされた韻律
データベースへのエントリにおいて、音色マーキングの
予測パターン及び基本周波数値と適合しない、最適合イ
ンデックスの不適合部分を識別し、最適合インデックスの不適合部分と対応するエントリで
の識別された基本周波数値を拘束する最適合インデック
スによって指標付けされた韻律データベースエントリに
おける拘束性基本周波数値の間に線形補間を適用して、
拘束性基本周波数値の間に連続関数を作り、音色マーキングの予測パターンにおいて連続無標ストレ
スマーカの数と適合する音声の無標ストレスユニットに
関する多数の基本周波数値を得るために連続関数を再サ
ンプリングし、テキストのための音声を合成する際に韻律を確立するに
あたって該再サンプリングによって得られた基本周波数
値を使用する、段階を更に含む、請求項１８に記載の方
法。
【請求項２０】最適合インデックスを識別するためにヴ
ィテルビ検索が採用される、請求項１３に記載の方法。
【請求項２１】音声合成用システムにおいて、前記韻律データベースにおける各エントリが、基本周波
数が保持されている音声のユニットに関して強調の度合
いと一致する音色マーキングのパターンによって指標付
けされている、音声のユニットに関する基本周波数の韻
律データベースを設け、所定のテキストで自然言語解析を行い、自然言語解析の結果に基づいて、テキストにおける音声
のユニットに関して音色マーキングの予測パターンを予
測し、韻律データベースのエントリのインデックスを持ったテ
キストにおいて音声のユニットに関して音色マーキング
の予測パターンと比較することによって、韻律データベ
ースにおいて最適合インデックスを識別し、テキストに関して音声を合成するにあたって韻律を確立
するために最適合インデックスによって指標付けされた
韻律データベースのエントリの基本周波数値の少なくと
も１つを使用する、コンピュータで実施される段階を含
む方法を実行するための命令を保持するコンピュータ読
取り可能記憶媒体。
【請求項２２】最適合インデックスが音色マーキングの
予測パターンと正確に適合する、請求項２１に記載のコ
ンピュータ読取り可能記憶媒体。
【請求項２３】最適合インデックスによって指標付けさ
れたエントリにおける全ての基本周波数値が、韻律を確
立する際に使用される、請求項２１に記載のコンピュー
タ読取り可能記憶媒体。
【請求項２４】最適合インデックスが音色マーキングの
予測パターンと正確に適合しない、請求項２１に記載の
コンピュータ読取り可能記憶媒体。
【請求項２５】音色マーカが、高音強調マーカと、低音
強調マーカと、特別な強調がない音色マーカと、無標ス
トレスを明記するマーカとを含む、請求項２１に記載の
コンピュータ読取り可能記憶媒体。
【請求項２６】最適合インデックスが、音声のユニット
に関して連続無標ストレスの数において音色マーキング
の予測パターンと異なる、請求項２５に記載のコンピュ
ータ読取り可能記憶媒体。
【請求項２７】最適合インデックスの不適合部分に対
応する最適合インデックスによって指標付けされた韻律
データベースへのエントリにおいて、音色マーキングの
予測パターン及び基本周波数値と適合しない、最適合イ
ンデックスの不適合部分を識別し、最適合インデックスの不適合部分と対応するエントリで
の識別された基本周波数値を拘束する最適合インデック
スによって指標付けされた韻律データベースエントリに
おける拘束性基本周波数値の間に線形補間を適用して、
拘束性基本周波数値の間に連続関数を作り、音色マーキングの予測パターンにおいて連続無標ストレ
スマーカの数と適合する音声の無標ストレスユニットに
関する多数の基本周波数値を得るために連続関数を再サ
ンプリングし、テキストのための音声を合成する際に韻律を確立するに
あたって該再サンプリングによって得られた基本周波数
値を使用する、段階のための命令をも保持する、請求項
２６に記載のコンピュータ読取り可能記憶媒体。
【請求項２８】最適合インデックスを識別するためにヴ
ィテルビ検索が採用される、請求項２１に記載のコンピ
ュータ読取り可能記憶媒体。
【請求項２９】人間トレーナによって話されるテキス
トの複数の対応する部分の各々について該人間トレーナ
がテキストの対応する部分を話すときに生じる信号とし
て音響信号を得、テキストの前記部分が話されるとき、話されるテキスト
の各部分に関する喉頭グラフ信号を人間トレーナに付随
する喉頭グラフから得、各音節が母音部分を含むテキスト内の音節を表わすセグ
メントに前記音響信号を区分けし、音響信号のセグメントに適合するセグメントに喉頭グラ
フ信号を区分けし、基本周波数が喉頭グラフ信号から得られ、且つ、重みが
音響信号から得られるような形でテキストの各部分にお
いて、各音節の母音部分に関する瞬間的な基本周波数の
重み合計を計算し、テキストの各部分に関して、韻律データベースにおいて
テキストの部分の各音節に関する瞬間的な基本周波数の
重み合計をストアし、合成される音声の韻律を確立するために韻律データベー
スにおいて瞬間的な基本周波数の重み合計を使用する、
コンピュータで実施する段階を含む、コンピュータシス
テムにおいて韻律データベースを構築する方法。
【請求項３０】音節の各母音部分に関して、喉頭グラ
フ信号がピークを含み、各瞬間的な基本周波数が、すぐ
隣接したピークを分離する時間量分の１として計算され
る、請求項２９に記載の方法。
【請求項３１】各瞬間的な基本周波数が、喉頭信号に
おけるすぐ隣接したピークと対応する音響信号の間の音
響信号の大きさに基づいて重み付けされる、請求項３０
に記載の方法。
【請求項３２】人間トレーナによって話されるテキス
トの複数の対応する部分の各々について、該人間トレー
ナがテキストの対応する部分を話すときに生じる信号と
して各音響信号を得、テキストの部分が話されるとき、話されるテキストの各
部分に関する喉頭グラフ信号を人間トレーナに付随する
喉頭グラフから得、各音節が母音部分を含むテキスト内の音節を表わすセグ
メントに前記音響信号を区分けし、音響信号のセグメントに適合するセグメントに喉頭グラ
フ信号を区分けし、基本周波数が喉頭グラフ信号から得られ、且つ、重みが
音響信号から得られるような形で、テキストの各部分に
おいて、各音節の母音部分に関する瞬間的な基本周波数
の重み合計を計算し、テキストの各部分に関して、韻律データベースにおいて
テキストの部分の各音節に関する瞬間的な基本周波数の
重み合計をストアし、合成される音声の韻律を確立するために韻律データベー
スにおいて瞬間的な基本周波数の重み合計を使用する、
段階を含む、コンピュータシステムにおいて韻律データ
ベースを構築する方法を実施するための命令を保持する
コンピュータ読取り可能記憶媒体。
【請求項３３】入力テキストを音声のユニットに分解
するパーサと、各々が、音声のユニットについての一連の基本周波数値
を保持する韻律テンプレートを備えた韻律データベース
と、韻律データベース内のテンプレートのうちの選択された
１つを使用して入力テキスト内の音声のユニットに関す
る基本周波数値を得ることによって、入力テキストに対
応する音声を作り出すための音声合成手段と、を含む、
音声テキスト（text-to-speech）システム。
【請求項３４】システムが、入力テキストに関する音
色パターンを予測するための音色パターン予測手段を更
に含み、音声合成手段が、韻律データベースにおいて選
択されたテンプレートを選択するように、入力テキスト
に関して予測音色パターンを使用する、請求項３３に記
載の音声テキスト（text-to-speech）システム。
【請求項３５】音声生成用システムにおいて、音声の異なるスタイルに関する韻律テンプレートを保持
する韻律データベースを設け、作り出されるべき音声の部分に適応するような韻律スタ
イルを求め、求められた韻律スタイルをもった音声の部分を作り出す
ために、求められた韻律スタイルに関する韻律データベ
ースにおけるテンプレートのうちの少なくとも１つを使
用する、コンピュータで実行される段階を含む方法。
【請求項３６】音声生成用システムにおいて、音声の異なるスタイルに関する韻律テンプレートを保持
する韻律データベースを設け、作り出されるべき音声の部分に適応するような韻律スタ
イルを求め、求められた韻律スタイルをもった音声の部分を作り出す
ために、求められた韻律スタイルに関する韻律データベ
ースにおけるテンプレートのうちの少なくとも１つを使
用する、コンピュータで実行される段階を含む方法を実
施するためのコンピュータで実行可能な命令を保持する
コンピュータ読取り可能媒体。
【請求項３７】音声生成用システムにおいて、単一の話者のために異なる韻律スタイルの韻律テンプレ
ートを保持する韻律データベースを設け、作り出されるべき音声の部分に適用されるべきである韻
律スタイルを求め、求められた韻律スタイルを持った音声の部分を作り出す
ために、求められた韻律スタイルに関する韻律データベ
ースにおけるテンプレートのうちの少なくとも１つを使
用する、コンピュータで実行される段階を含む方法。
【請求項３８】音声生成用システムにおいて、単一の話者のために異なる韻律スタイルの韻律テンプレ
ートを保持する韻律データベースを設け、作り出されるべき音声の部分に適用されるべきである韻
律スタイルを求め、求められた韻律スタイルを持った音声の部分を作り出す
ために、求められた韻律スタイルに関する韻律データベ
ースにおけるテンプレートのうちの少なくとも１つを使
用する、コンピュータで実行される段階を含む方法を実
施するためのコンピュータ実行可能命令を保持するコン
ピュータ読取り可能媒体。