JPH1091183A

JPH1091183A - 言語合成のためのランタイムアコースティックユニット選択方法及び装置

Info

Publication number: JPH1091183A
Application number: JP9147013A
Authority: JP
Inventors: Xuedong D Huang; ディーヒューアンシェードン; Michael D Plumpe; ディープランプマイケル; Alejandro Acero; アセロアレハンドロ; James L Adcock; エルアドコックジェームズ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-04-30
Filing date: 1997-04-30
Publication date: 1998-04-10
Anticipated expiration: 2017-04-30
Also published as: DE69713452T2; EP0805433A3; CN1121679C; CN1167307A; EP0805433A2; DE69713452D1; EP0805433B1; JP4176169B2; US5913193A

Abstract

(57)【要約】【課題】自然に発音するスピーチを形成する連結式ス
ピーチ合成装置及び方法を提供する。【解決手段】言語表現を表すスピーチ波形を発生する
のに使用できる各アコースティックユニットの多数のイ
ンスタンスが形成される。これら多数のインスタンス
は、合成プロセスの分析又はトレーニング段階中に形成
され、最も確率の高いインスタンスの健全な表示に限定
される。多数のインスタンスを形成することにより、合
成装置は、所望のインスタンスに良く似たインスタンス
を選択することができ、これにより、所望のインスタン
スに合致するよう記憶されたインスタンスを変更する必
要性が排除される。これは、隣接するインスタンスの境
界間のスペクトル歪を本質的に最小にし、より自然に発
音するスピーチを形成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般に、スピーチ
合成システムに係り、より詳細には、スピーチ合成シス
テムにおいてアコースティックユニットの選択を実行す
る方法及び装置に係る。

【０００２】

【従来の技術】連結的なスピーチ合成は、筆記テキスト
からスピーチを形成するようにスピーチ波形に対応する
アコースティックユニットを連結することに基づく一種
のスピーチ合成である。この分野で未解決となっている
問題は、流暢で、明瞭なそして自然に発音するスピーチ
を得るためにアコースティックユニットを最適に選択し
そして連結することである。

【０００３】多くの従来のスピーチ合成システムにおい
ては、アコースティックユニットがスピーチの発音ユニ
ット、例えば、ジホーン(diphone) 、音素又はフレーズ
である。スピーチの発音ユニットを表すために、スピー
チ波形のテンプレート即ちインスタンスが各アコーステ
ィックユニットと関連付けられる。インスタンスのスト
リングを単に連結してスピーチを合成する場合には、隣
接インスタンスの境界にスペクトル不連続部が存在する
ために不自然な即ち「ロボット的発音」のスピーチにな
ってしまうことがしばしばある。最良の自然に発音する
スピーチを得るには、意図されたテキストに適したタイ
ミング、強度及びイントネーション特性（即ち韻律学的
特性）をもつ連結インスタンスを形成しなければならな
い。

【０００４】

【発明が解決しようとする課題】アコースティックユニ
ットのインスタンスの連結から自然に発音するスピーチ
を形成するために、従来のシステムには２つの一般的な
技術が使用されている。即ち、それらは、平滑化技術の
使用と、長いアコースティックユニットの使用である。
平滑化は、インスタンス間の境界で整合するようにイン
スタンスを調整することにより隣接インスタンス間のス
ペクトル不整合を排除するよう試みるものである。調整
されたインスタンスは、滑らかに発音するスピーチを形
成するが、平滑化を実現するためにインスタンスに操作
が施されるために、スピーチは一般に不自然なものにな
る。

【０００５】長いアコースティックユニットを選択する
場合は、通常、ジホーン(diphone)が使用される。とい
うのは、それらが音素間の同時調音的効果を捕らえるか
らである。同時調音的効果とは、所与の音素に先行する
音素及び後続する音素により所与の音素に及ぼされる効
果である。ユニット当たり３つ以上の音素を有する長い
ユニットを使用する場合には、長いユニットにわたり同
時調音的効果を発生しそして捕らえる境界の数を減少す
る上で役立つ。長いユニットを使用する場合には、質の
高い発音スピーチが得られるが、著しい量のメモリを必
要とする。加えて、制限のない入力テキストと共に長い
ユニットを使用することは、モデルをカバーすることが
保証できないために、問題となる。

【０００６】

【課題を解決するための手段】本発明は、自然に発音す
るスピーチを形成するスピーチ合成システム及び方法に
関する。既に話されたスピーチのトレーニングデータか
ら、ジホーン、トリホーン(triphone)等のアコースティ
ックユニットの多数のインスタンスが発生される。これ
らインスタンスは、関連する音を発生するのに使用され
るスピーチ信号又は波形のスペクトル表示に対応する。
トレーニングデータから発生されたインスタンスは剪定
されて、インスタンスの健全なサブセットを形成する。

【０００７】合成システムは、入力言語表現に存在する
各アコースティックユニットの１つのインスタンスを連
結する。インスタンスの選択は、隣接インスタンスの境
界間のスペクトル歪に基づく。これは、入力言語表現に
存在するインスタンスの考えられるシーケンスを列挙
し、そこから、シーケンスの隣接インスタンスの全ての
境界間のスペクトル歪を最小にする１つを選択するよう
に行うことができる。次いで、インスタンスの最良のシ
ーケンスを用いて、入力言語表現に対応する話されたス
ピーチを形成するスピーチ波形が発生される。

【０００８】

【発明の実施の形態】本発明の上記特徴及び効果は、同
じ要素が同じ参照文字で表された添付図面を参照した本
発明の好ましい実施形態の以下の詳細な説明から明らか
となろう。図面は、必ずしも正しいスケールではなく、
本発明の原理を示すために強調されている。

【０００９】好ましい実施形態は、多数のインスタンス
の選択から入力テキストを合成するのに必要な各アコー
スティックユニットの１つのインスタンスを選択し、そ
してその選択されたインスタンスを連結することによ
り、自然に発音するスピーチを形成する。スピーチ合成
システムは、システムの分析又はトレーニング段階中に
アコースティックユニットの多数のインスタンスを発生
する。この段階中に、各アコースティックユニットの多
数のインスタンスが、特定の言語に最も生じ易いスピー
チパターンを反映するスピーチ発声から形成される。こ
の段階中に累積されたインスタンスは、次いで、ほとん
どの代表的なインスタンスを含む健全なサブセットを形
成するように剪定される。好ましい実施形態では、種々
の発音状況を表す最も確率の高いインスタンスが選択さ
れる。

【００１０】スピーチの合成中に、合成装置は、言語表
現における各アコースティックユニットの最良のインス
タンスを、ランタイムにおいて、インスタンスの全ての
考えられる組み合わせに対して隣接インスタンスの境界
間に存在するスペクトル及び韻律的歪の関数として選択
することができる。このようにユニットを選択すること
により、隣接ユニット間の境界に存在する周波数スペク
トルを整合するためにユニットを平滑化する必要性が排
除される。これは、不自然に修正されたユニットではな
くて元の波形が使用されるので、より自然に発音するス
ピーチを形成する。

【００１１】図１は、本発明の好ましい実施形態に適し
たスピーチ合成システム１０を示している。スピーチ合
成システム１０は、入力を受け取るための入力装置１４
を含む。この入力装置１４は、例えば、マイクロホン、
コンピュータターミナル等である。音声データ入力及び
テキストデータ入力は、以下に詳細に述べる個別の処理
要素によって処理される。入力装置１４は、音声データ
を受け取ると、その音声入力をトレーニング要素１３へ
送り、トレーニング要素は、音声入力に対してスピーチ
分析を実行する。入力装置１４は、ユーザからの入力ス
ピーチ発声又は記憶された発声パターンである入力音声
データから対応するアナログ信号を発生する。このアナ
ログ信号はアナログ／デジタルコンバータ１６へ送ら
れ、該コンバータは、アナログ信号をデジタルサンプル
のシーケンスに変換する。デジタルサンプルは、次い
で、特徴抽出器１８へ送られ、これは、デジタル化され
た入力スピーチ信号のパラメータ表示を抽出する。好ま
しくは、特徴抽出器１８は、デジタル化された入力スピ
ーチ信号のスペクトル分析を実行し、入力スピーチ信号
の周波数成分を表す係数を各々含むフレームのシーケン
スを発生する。スペクトル分析を行う方法は、信号処理
の分野で良く知られており、高速フーリエ変換、直線的
予想コード化（ＬＰＣ）、及びセプストラル(cepstral)
係数を含む。特徴抽出器１８は、スペクトル分析を行う
従来のプロセッサでよい。好ましい実施形態では、スペ
クトル分析が１０ミリ秒ごとに行われ、入力スピーチ信
号が発声の一部分を表すフレームに分割される。しかし
ながら、本発明は、スペクトル分析の使用や、１０ミリ
秒のサンプリング時間フレームに限定されない。他の信
号処理技術及び他のサンプリング時間フレームも使用で
きる。上記プロセスが全スピーチ信号に対して繰り返さ
れて、フレームのシーケンスが発生され、これらは、分
析エンジン２０へ送られる。この分析エンジン２０は、
図２ないし７を参照して以下に詳細に述べる多数のタス
クを実行する。

【００１２】分析エンジン２０は、入力スピーチ発声又
はトレーニングデータを分析して、スピーチ合成器３６
によって使用される隠れたマルコフモデルのセノン(sen
one)（即ち異なる発音モデルにわたる同様のマルコフ状
態のクラスター）及びパラメータを発生する。更に、分
析エンジン２０は、トレーニングデータに存在する各ア
コースティックユニットの多数のインスタンスを発生
し、そして合成器３６により使用するためのこれらイン
スタンスのサブセットを形成する。分析エンジンは、セ
グメント化を実行するセグメント化要素２１と、アコー
スティックユニットのインスタンスを選択する選択要素
２３とを備えている。これら要素の役割については、以
下に詳細に説明する。分析エンジン２０は、テキスト記
憶装置３０から得られる入力スピーチ発声の発音表示、
ディクショナリ記憶装置２２に記憶された各ワードの音
素記述を含むディクショナリ、及びＨＭＭ記憶装置２４
に記憶されたセノンのテーブルを使用する。

【００１３】セグメント化要素２１は、ＨＭＭ記憶装置
に記憶するためのＨＭＭパラメータを得、そして入力発
声をセノンへとセグメント化するという２つの目的をも
つ。この２つの目的は、ＨＭＭパラメータのセットが与
えられて入力スピーチをセグメント化することと、スピ
ーチのセグメント化が与えられてＨＭＭパラメータを再
推定することとの間で交番する反復アルゴリズムによっ
て達成される。このアルゴリズムは、各反復において入
力発声を生じるＨＭＭパラメータの確率を高める。この
アルゴリズムは、収斂点に到達しそしてそれ以上反復し
てもトレーニング確率を実質的に高めないときに、停止
される。

【００１４】入力発声のセグメント化が完了すると、選
択要素２３は、各アコースティックユニットの全ての考
えられる発生から各アコースティックユニットの高度な
代表的な発生（即ちジホーン）の小さなサブセットを選
択し、そしてそれらサブセットをユニット記憶装置２８
に記憶する。発生についてのこの剪定は、以下に詳細に
述べるように、ＨＭＭ確率及び韻律学的パラメータの値
に基づく。

【００１５】入力装置１４は、テキストデータを受け取
ると、そのテキストデータ入力を、スピーチ合成を実行
する合成要素１５へ送る。図８ないし１２は、本発明の
好ましい実施形態に使用されるスピーチ合成技術を示
し、これについては以下に詳細に説明する。自然言語プ
ロセッサ（ＮＬＰ）３２は、入力テキストを受け取り、
そしてテキストの各ワードに記述ラベルをタグ付けす
る。これらタグは、文字−音声（ＬＴＳ）要素３３及び
韻律学的エンジン３５へ送られる。文字−音声要素３３
は、ディクショナリ記憶装置２２からのディクショナリ
入力と、文字−音素ルール記憶装置４０からの文字−音
素ルールとを用いて、入力テキストの文字を音素に変換
する。文字−音声要素３３は、例えば、入力テキストの
適切な発音を決定することができる。文字−音声要素３
３は、発音ストリング及びアクセント要素３４に接続さ
れる。この発音ストリング及びアクセント要素３４は、
入力テキストに対して適切なアクセントをもつ発音スト
リングを発生し、これは、韻律学的エンジン３５へ送ら
れる。文字−音声要素３３及び発音アクセント要素３４
は、別の実施形態においては、単一の要素へとカプセル
化されてもよい。韻律学的エンジン３５は、発音ストリ
ングを受け取り、休止マーカーを挿入し、そしてストリ
ングにおける各音素の強度、ピッチ及び巾を指示する韻
律学的パラメータを決定する。韻律学的エンジン３５
は、韻律学的データベース記憶装置４２に記憶された韻
律学的モデルを使用する。休止マーカーと、ピッチ、巾
及び振幅を指示する韻律学的パラメータをもつ音素スト
リングは、スピーチ合成器３６へ送信される。韻律学的
モデルは、話し手とは独立したものであってもよいし、
話し手に従属するものであってもよい。

【００１６】スピーチ合成器３６は、発音ストリング
を、ジホーン又は他のアコースティックユニットの対応
ストリングへと変換し、各ユニットに対する最良のイン
スタンスを選択し、韻律学的パラメータに基づいてイン
スタンスを調整し、そして入力テキストを表すスピーチ
波形を発生する。以下の説明においては、スピーチ合成
器が発音ストリングをジホーンのストリングに変換する
ものと仮定する。しかしながら、スピーチ合成器は、発
音ストリングを別のアコースティックユニットのストリ
ングに変換することもできる。これらタスクを実行する
際に、合成器は、ユニット記憶装置２８に記憶された各
ユニットのインスタンスを使用する。

【００１７】それにより得られた波形は出力エンジン３
８へ送信することができ、この出力エンジンは、スピー
チを発生するための音声装置を含むか、或いはスピーチ
波形を他の処理要素又はプログラムへ転送して更に処理
することもできる。

【００１８】スピーチ合成システム１０の上記の要素
は、パーソナルコンピュータやワークステーション等の
単一の処理ユニットに組み込むことができる。しかしな
がら、本発明は、この特定のコンピュータアーキテクチ
ャーに限定されるものでなく、並列処理システム、分散
型処理システム等の他の構造（これに限定されないが）
も使用できる。

【００１９】分析方法を説明する前に、好ましい実施形
態に使用されるセノン、ＨＭＭ及びフレーム構造につい
て以下に述べる。各フレームは、入力スピーチ信号のあ
るセグメントに対応し、そのセグメントの周波数及びエ
ネルギースペクトルを表すことができる。好ましい実施
形態では、ＬＰＣセプストラル分析を用いて、スピーチ
信号をモデリングし、そしてフレームのシーケンスを形
成し、各フレームは、そのフレームの信号の部分に対し
て周波数及びエネルギースペクトルを表す次の３９のセ
プストラル及びエネルギー係数を含む。（１）１２のメ
ル周波数セプストラル係数；（２）１２のデルタメル周
波数セプストラル係数；（３）１２のデルタデルタメル
周波数セプストラル係数；及び（４）エネルギー、デル
タエネルギー及びデルタデルタエネルギー係数。

【００２０】隠れたマルコフモデル（ＨＭＭ）は、スピ
ーチの発音ユニットを表すのに使用される確率モデルで
ある。好ましい実施形態では、これは、音素を表すのに
使用される。しかしながら、本発明は、この発音に基づ
くものに限定されず、ジホーン、ワード、シラブル又は
センテンス（これに限定されないが）のような言語表現
を使用することもできる。

【００２１】ＨＭＭは、遷移により接続された状態のシ
ーケンスよりなる。各状態には、その状態がフレームに
一致する見込みを指示する出力確率が関連している。各
遷移ごとに、その遷移に続く見込みを指示する関連遷移
確率がある。好ましい実施形態では、音素は、３状態Ｈ
ＭＭによりモデリングすることができる。しかしなが
ら、本発明は、この形式のＨＭＭ構造に限定されるもの
ではなく、それより多数の又は少数の状態を用いる他の
ものも使用できる。状態に関連した出力確率は、フレー
ムに含まれたセプストラル係数のガウス確率密度関数
（ｐｄｆｓ）の混合体であってもよい。ガウスのｐｄｆ
ｓは好ましいものであるが、本発明は、この形式のｐｄ
ｆｓに限定されない。ラプラス型ｐｄｆｓ（これに限定
されないが）のような他のｐｄｆｓも使用できる。

【００２２】ＨＭＭのパラメータは、遷移及び出力確率
である。これらパラメータの推定値は、トレーニングデ
ータを用いる統計学的な技術により得られる。トレーニ
ングデータからこれらのパラメータを推定するのに使用
できる多数の公知アルゴリズムが存在する。

【００２３】本発明では２つの形式のＨＭＭを使用でき
る。その第１は、左右の音素コンテクストで音素をモデ
リングするコンテクスト従属のＨＭＭである。１組の音
素及びそれに関連した左右の音素コンテクストよりなる
所定のパターンが、コンテクスト従属のＨＭＭによりモ
デリングされるべく選択される。これらのパターンが選
択されるのは、最も頻繁に発生する音素及びそれら音素
の最も頻繁に発生するコンテクストを表すからである。
トレーニングデータは、これらのモデルのパラメータに
対する推定値を与える。又、左右の音素コンテクストと
は独立して音素をモデリングするように、コンテクスト
とは独立したＨＭＭも使用できる。同様に、トレーニン
グデータは、コンテクストとは独立したモデルのパラメ
ータに対する推定値を与える。隠れたマルコフモデル
は、良く知られた技術であり、ＨＭＭの詳細な説明は、
ヒューン氏等の「スピーチ認識のための隠れたマルコフ
モデル(Hidden Markov Models For Speech Recognitio
n) 」、エジンバラ・ユニバーシティ・プレス、１９９
０年に見ることができる。

【００２４】ＨＭＭの状態の出力確率分布はクラスター
化されて、セノンを形成する。これは、大きな記憶要求
と多大な計算時間を合成装置に課する状態の数を減少す
るために行われる。セノン及びセノンを構成するために
用いる方法の詳細な説明は、Ｍ．ワング氏等の「セノン
を伴う未知のトリホーンの予想(Predicting Unseen Tri
phones with Senones)」、Ｐｒｏｃ．ＩＣＡＳＳＰ '９
３、第ＩＩ巻、第３１１−３１４ページ、１９９３年に
見ることができる。

【００２５】図２ないし７は、本発明の好ましい実施形
態により実行される分析方法を示している。図２を参照
すれば、分析方法５０は、スピーチ波形のシーケンス
（スピーチ信号又は発声とも称される）の形態でトレー
ニングデータを受け取ることにより開始され、これらの
スピーチ波形は、図１を参照して上記したように、フレ
ームに変換される。スピーチ波形は、センテンス、ワー
ド又は何らかの形式の言語表現で構成することができ、
ここでは、トレーニングデータと称する。

【００２６】上記のように、分析方法は、反復アルゴリ
ズムを使用する。最初に、ＨＭＭのパラメータの初期セ
ットが推定されると仮定する。図３は、ＨＭＭのパラメ
ータを言語表現「Ｔｈｉｓｉｓｇｒｅａｔ．」に対
応する入力スピーチ信号に対していかに推定するかを示
す。図３及び４を参照すれば、入力スピーチ信号即ち波
形６４に対応するテキスト６２が、テキスト記憶装置３
０から得られる。テキスト６２は、音素のストリング６
６に変換することができ、これは、テキストの各ワード
に対し、ディクショナリ記憶装置２２に記憶されたディ
クショナリから得られる。音素のストリング６６を使用
して、音素ストリングの音素に対応するコンテクスト従
属のＨＭＭのシーケンス６８が発生される。例えば、図
示されたコンテクストの音素／ＤＨ／は、ＤＨ（ＳＩ
Ｌ，ＩＨ）７０で示された関連するコンテクスト従属Ｈ
ＭＭを有し、左側の音素は、／ＳＩＬ／即ち無音であ
り、そして右側の音素は、／ＩＨ／である。このコンテ
クスト従属のＨＭＭは、３つの状態を有し、各状態には
セノンが関連している。この特定例においては、セノン
は、状態１、２及び３に各々対応する２０、１及び５で
ある。音素ＤＨ（ＳＩＬ，ＩＨ）７０に対するコンテク
スト従属のＨＭＭは、次いで、残りのテキストに対する
音素を表すコンテクスト従属のＨＭＭと連結される。

【００２７】反復プロセスの次のステップにおいて、セ
グメント化要素２１でフレームをセグメント化し、即ち
フレームを各状態及びそれらの各セノンと時間整列する
ことにより、スピーチ波形がＨＭＭの状態に対してマッ
プされる（図２のステップ５２）。この例では、ＤＨ
（ＳＩＬ，ＩＨ）７０及びセノン２０（７２）に対する
ＨＭＭの状態１がフレーム１−４と整列され（７８）；
同じモデル及びセノン１（７４）の状態２がフレーム５
−３２と整列され（８０）；そして同じモデル及びセノ
ン５（７６）の状態３がフレーム３３−４０と整列され
る（８２）。この整列は、ＨＭＭシーケンス６８の各状
態及びセノンに対して行われる。このセグメント化が行
われると、ＨＭＭのパラメータが再推定される（ステッ
プ５４）。良く知られたバウム−ウェルチ(Baum-Welch)
又は順方向−逆方向アルゴリズムを使用することができ
る。バウム−ウェルチアルゴリズムは、混合密度関数の
取り扱いに精通しているので、好ましい。バウム−ウェ
ルチアルゴリズムの詳細な説明は、上記のヒューン氏の
参照文献に見ることができる。次いで、収斂点に到達し
たかどうかが決定される（ステップ５６）。収斂点に到
達していない場合は、新たなＨＭＭモデルで発声のセッ
トをセグメント化することによりプロセスが繰り返され
る（即ち、ステップ５２が新たなＨＭＭモデルで繰り返
される）。収斂点に到達すると、ＨＭＭパラメータ及び
セグメント化が最終的な形態となる。

【００２８】収斂点に到達すると、各ジホーンユニット
のインスタンスに対応するフレームが、ユニットインス
タンスとして、或いは各ジホーン又は他のユニットに対
するインスタンスとして、ユニット記憶装置２８に記憶
される（ステップ５８）。これは、図３ないし６に示さ
れている。図３ないし５を参照すれば、音素ストリング
６６は、ジホーンストリング６７に変換される。ジホー
ンとは、２つの隣接する音素の定常部分及びそれらの間
の遷移を表す。例えば、図５において、ジホーンＤＨ
ＩＨ８４は、音素ＤＨ（ＳＩＬ，ＩＨ）８６の状態２−
３及び音素ＩＨ（ＤＨ，Ｓ）８８の状態１−２から形成
される。これら状態に関連したフレームは、ジホーンＤ
ＨＩＨ（０）９２に対応するインスタンスとして記憶
される。フレーム９０は、スピーチ波形９１に対応す
る。

【００２９】図２を参照すれば、分析方法に使用される
各入力スピーチ発声に対してステップ５４−５８が繰り
返される。これらのステップが完了すると、各ジホーン
に対しトレーニングデータから累積されたインスタンス
は、ステップ６０に示すように、高い確率のインスタン
スをカバーする健全な表示を含むサブセットへと剪定さ
れる。図７は、インスタンスのセットをいかに剪定する
か示している。

【００３０】図７を参照すれば、方法６０は、各ジホー
ンに対して繰り返される（ステップ１００）。全てのイ
ンスタンスに対する巾の平均値及び変動が計算される
（ステップ１０２）。各インスタンスは、１つ以上のフ
レームで構成することができ、各フレームは、ある時間
インターバルにわたるスピーチ信号のパラメータ表示を
表すことができる。各インスタンスの巾は、これらの時
間インターバルの累積である。ステップ１０４におい
て、平均値から特定量（例えば、標準偏差）だけずれる
インスタンスは、破棄される。好ましくは、ジホーンに
対し全インスタンス数の１０ないし２０％が破棄され
る。ピッチ及び振幅に対する平均値及び変動も計算され
る。平均値から所定量（例えば、±標準偏差）以上変化
するインスタンスは、破棄される。

【００３１】ステップ１０６に示すように、各残りのイ
ンスタンスに対しステップ１０８−１１０が実行され
る。各インスタンスに対し、インスタンスがＨＭＭによ
り形成された関連確率を計算することができる（ステッ
プ１０８）。この確率は、上記ヒューンの参考文献に詳
細に述べられた良く知られた順方向−逆方向アルゴリズ
ムにより計算することができる。この計算は、特定のジ
ホーンを表すＨＭＭの各状態又はセノンに関連した出力
及び遷移確率を使用する。ステップ１１０において、特
定のジホーンに対し、セノンの関連ストリング６９が形
成される（図３を参照）。次いで、ステップ１１２にお
いて、始めと終わりのセノンが同一のセノンシーケンス
をもつジホーンがグループ分けされる。各グループに対
して、最も高い確率をもつセノンシーケンスがサブセッ
トの一部分として選択される（ステップ１１４）。ステ
ップ１００−１１４の完了時に、特定のジホーンに対応
するインスタンスのサブセットが存在する（図５を参
照）。このプロセスが各ジホーンに対して繰り返され、
各ジホーンごとに多数のインスタンスを含むテーブルが
得られる。

【００３２】本発明の別の実施形態は、隣接ユニットに
充分に整合するインスタンスを保持するものである。こ
のような実施形態は、動的なプログラミングアルゴリズ
ムを使用することにより歪を最小にしようとする。

【００３３】分析方法が完了すると、好ましい実施形態
の合成方法が作用する。図８ないし１２は、好ましい実
施形態のスピーチ合成方法１２０において実行されるス
テップを示す。入力テキストは、ワードストリングに処
理され（ステップ１２２）、そして入力テキストは、対
応する音素ストリングへと変換される（ステップ１２
４）。従って、省略ワード及び頭文字が、ワードフレー
ズを完成するように拡張される。この拡張の部分は、省
略ワード及び頭文字が使用されたコンテクストを分析し
て、対応するワードを決定することを含むことができ
る。例えば、頭文字「ＷＡ」は、「Ｗａｓｈｉｎｇｔｏ
ｎ」へと変換することができ、そして省略形「Ｄｒ．」
は、それが使用されたコンテクストに基づいて「Ｄｏｃ
ｔｏｒ」又は「Ｄｒｉｖｅ」へと変換することができ
る。文字及び数字ストリングは、テキスト等効物に置き
換えることができる。例えば、「２／１／９５」は、
「１９９５年２月１日」に置き換えることができる。同
様に、「＄１２０．１５」は、１２０ドル１５セントに
置き換えることができる。適切なイントネーションで話
せるようにセンテンスの構文構造を決定するために構文
分析を行うことができる。同形異義語の文字は、一次及
び二次のアクセントマークを含む音に変換される。例え
ば、ワード「ｒｅａｄ」は、そのワードの特定の意味に
基づいて異なる発音を行うことができる。これを考慮す
るために、ワードは、関連するアクセントマークを伴い
関連する発音を表す音に変換される。

【００３４】ワードストリングが構成されると（ステッ
プ１２２）、ワードストリングは、音素のストリングに
変換される（ステップ１２４）。この変換を行うため
に、文字−音声要素３３は、ディクショナリ２２及び文
字−音素ルール４０を使用し、ワードストリングのワー
ドの文字を、そのワードに対応する音素へと変換する。
音素のストリングは、自然言語プロセッサからのタグと
共に、韻律学的エンジン３５へ送られる。タグは、ワー
ドの分類の識別子である。ワードのタグは、その韻律学
的特性に影響を及ぼし、従って、韻律学的エンジン３５
によって使用される。

【００３５】ステップ１２６において、韻律学的エンジ
ン３５は、休止の位置と、各音素の韻律学的特性をセン
テンスベースで決定する。休止の位置は、自然韻律を得
るために重要である。これは、センテンス内に含まれた
句読点マークを使用しそして上記ステップ１２２で自然
言語プロセッサ３２により実行された構文分析を用いる
ことにより決定することができる。各音素の韻律処理
は、センテンスベースで決定される。しかしながら、本
発明は、センテンスベースで韻律処理を行うことに限定
されない。韻律処理は、ワード又は多数のセンテンス
（これに限定されないが）のような他の言語学的特性に
基づいて行うこともできる。韻律学的パラメータは、各
音素の巾、ピッチ又はイントネーション、及び振幅で構
成することができる。音素の巾は、ワードが話されると
きにワードに置かれたアクセントによって影響を受け
る。音素のピッチは、センテンスのイントネーションに
より影響を受ける。例えば、平叙文及び疑問文は、異な
るイントネーションパターンを形成する。韻律学的パラ
メータは、韻律学的データベース４２に記憶された韻律
学的モデルを用いて決定することができる。スピーチ合
成の分野では韻律学的パラメータを決定する多数の方法
が良く知られている。１つのこのような方法がＪ．ピレ
ハンバート著の「英語のイントネーションの音韻学及び
音声学(The Phonology and Phonetics of English Into
nation) 」、ＭＩＴＰｈ．Ｄ．論文（１９８９年）に
掲載されている。休止マークと、ピッチ、巾及び振幅を
示す韻律学的パラメータとをもつ音素ストリングがスピ
ーチ合成装置３６に送られる。

【００３６】ステップ１２８において、スピーチ合成装
置３６は、音素ストリングをジホーンストリングに変換
する。これは、各音素をその右の隣接音素と対にするこ
とにより行われる。図３は、音素ストリング６６をジホ
ーンストリング６７に変換するところを示している。

【００３７】ジホーンストリングの各ジホーンごとに、
そのジホーンの最良のユニットインスタンスがステップ
１３０において選択される。好ましい実施形態では、最
良のユニットの選択は、言語表現を表すジホーンストリ
ングを形成するために連結できる隣接ジホーンの境界間
の最小のスペクトル歪に基づいて決定される。図９ない
し１１は、言語表現「Ｔｈｉｓｉｓｇｒｅａｔ．」
に対するユニット選択を示す。図９は、言語表現「Ｔｈ
ｉｓｉｓｇｒｅａｔ．」を表すスピーチ波形を形成
するのに使用できる種々のユニットインスタンスを示
す。例えば、ジホーンＤＨＩＨに対して１０個のイン
スタンスがあり（１３４）、ジホーンＩＨＳに対して１
００個のインスタンスがあり（１３６）、等々となる。
ユニット選択は、上記ヒューンの参照文献に見られる公
知のビタビサーチアルゴリズムと同様の形態で行われ
る。簡単に述べると、言語表現を表すスピーチ波形を形
成するように連結できるインスタンスの全ての考えられ
るシーケンスが形成される。これが図１０に示されてい
る。次いで、インスタンスの隣接境界を横切るスペクト
ル歪が各シーケンスに対して決定される。この歪は、イ
ンスタンスの最後のフレームと、右に隣接するインスタ
ンスの最初のフレームとの間の距離として計算される。
スペクトル歪の計算に付加的な成分を追加できることに
注意されたい。特に、２つのインスタンスを横切るピッ
チ及び振幅のユークリッド距離が、スペクトル歪計算の
一部分として計算される。この成分は、ピッチ及び振幅
の過剰な変調に起因するアコースティック歪を補償す
る。図１１を参照すれば、インスタンスストリング１４
０の歪は、フレーム１４２と１４４、１４６と１４８、
１５０と１５２、１５４と１６５、１５８と１６０、１
６２と１６４、１６６と１６８との間の距離である。最
小の歪をもつシーケンスが、スピーチを発生する基礎と
して使用される。

【００３８】図１２は、ユニット選択を決定するのに用
いられるステップを示す。図１２を参照すれば、ステッ
プ１７２−１８２は、各ジホーンストリングに対して繰
り返される（ステップ１７０）。ステップ１７２におい
て、インスタンスの全ての考えられるシーケンスが形成
される（図１０を参照）。ステップ１７６ないし１７８
は、各インスタンスシーケンスに対して繰り返される
（ステップ１７４）。最後のインスタンスを除く各イン
スタンスに対し、インスタンスとその直前の（即ちシー
ケンスにおいてその右側の）インスタンスとの間の歪
が、インスタンスの最後のフレームの係数とそれに続く
インスタンスの最初のフレームの係数との間のユークリ
ッド距離として計算される。この距離は、次の数１の数
学的定義によって表される。

【数１】

【００３９】ステップ１８０において、インスタンスシ
ーケンスにおける全てのインスタンスに対する歪の和が
計算される。反復１７４の終わりに、最良のインスタン
スシーケンスがステップ１８２において選択される。最
良のインスタンスシーケンスとは、累積歪が最小のシー
ケンスである。

【００４０】図８を参照すれば、最良のユニット選択が
行われると、インスタンスは、入力テキストに対する韻
律学的パラメータに基づいて連結され、そしてその連結
されたインスタンスに対応するフレームから合成スピー
チ波形が発生される（ステップ１３２）。この連結プロ
セスは、選択されたインスタンスに対応するフレームを
変更して、所望の韻律学的特性に合致するようにする。
多数の良く知られたユニット連結技術を使用することが
できる。

【００４１】以上に述べたように、本発明は、ジホーン
のようなアコースティックユニットの多数のインスタン
スを与えることにより合成スピーチの自然さを改善す
る。多数のインスタンスは、合成波形を発生するところ
の包括的な種々の波形をスピーチ合成システムに与え
る。この多様性は、合成システムが、境界にわたり最小
のスペクトル歪を有するインスタンスを連結する見込み
を高めるので、隣接インスタンスの境界に存在するスペ
クトルの不連続性を最小にする。これは、隣接境界のス
ペクトル周波数に整合するようにインスタンスを変更す
る必要性を排除するものである。変更されないインスタ
ンスにより構成されたスピーチ波形は、波形を自然な形
態で包含するので、より自然に発音するスピーチを形成
する。

【００４２】以上、本発明の好ましい実施形態を詳細に
説明したが、これは、本発明を単に例示するものに過ぎ
ず、当業者であれば、上記した装置及び方法に対して変
更を必要とする種々の異なる用途に本発明を適応させる
ことができ、従って、上記の特定の説明は、本発明の範
囲をそれに限定するものではないことをここに強調して
おく。

【図面の簡単な説明】

【図１】好ましい実施形態のスピーチ合成方法を実施す
るのに使用されるスピーチ合成システムを示す図であ
る。

【図２】好ましい実施形態に使用される分析方法のフロ
ーチャートである。

【図３】テキスト「Ｔｈｉｓｉｓｇｒｅａｔ．」に
対応するスピーチ波形をフレームへと整列する例を示す
図である。

【図４】図３の例のスピーチ波形に対応するＨＭＭ及び
セノンストリングを示す図である。

【図５】ジホーンＤＨＩＨのインスタンスを例示する
図である。

【図６】ジホーンＤＨＩＨのインスタンスを例示する
別の図である。

【図７】各ジホーンに対するインスタンスのサブセット
を構成するのに用いられるステップを示すフローチャー
トである。

【図８】好ましい実施形態の合成方法のフローチャート
である。

【図９】本発明の好ましい実施形態のスピーチ合成方法
によりテキスト「Ｔｈｉｓｉｓｇｒｅａｔ．」に対
してスピーチをいかに合成するかを例示する図である。

【図１０】テキスト「Ｔｈｉｓｉｓｇｒｅａｔ．」
に対するユニット選択方法を例示する図である。

【図１１】テキスト「Ｔｈｉｓｉｓｇｒｅａｔ．」
に対応する１つのインスタンスストリングに対するユニ
ット選択方法を例示する図である。

【図１２】本発明のユニット選択方法のフローチャート
である。

フロントページの続き (72)発明者マイケルディープランプアメリカ合衆国マサチューセッツ州 02139 ケンブリッジ８イ−４メモリアルドライヴ 550 (72)発明者アレハンドロアセロアメリカ合衆国ワシントン州 98052 レッドモンドエイ104 エイヴォンデイルロードノースイースト 10909 (72)発明者ジェームズエルアドコックアメリカ合衆国ワシントン州 98006 ベルヴィューワンハンドレッドアンドフィフティフィフスプレイスサウスイースト 5005

Claims

【特許請求の範囲】

【請求項１】入力言語表現からスピーチを形成するた
めのコンピュータシステムにおける方法であって、入力言語表現をスピーチの複数のアコースティックユニ
ットに変換し、各アコースティックユニットに対して複数のインスタン
スを形成し、各インスタンスは、アコースティックユニ
ットに関連したスピーチを発生するのに使用されるスピ
ーチ信号のアコースティック特性を指示し、言語表現におけるアコースティックユニットに対応する
インスタンスの複数のシーケンスを形成し、各シーケンスごとに、そのシーケンスにおける隣接イン
スタンス間の相違を決定し、隣接インスタンス間に最小の相違を有する最良のシーケ
ンスを選択し、そして上記最良のシーケンスから生じる
スピーチを発生する、という段階を備えたことを特徴と
する方法。
【請求項２】記憶装置を有するコンピュータシステム
において、スピーチを合成する方法が、第１のアコースティックユニットの多数のインスタンス
を記憶装置に設け、第２のアコースティックユニットの多数のインスタンス
を記憶装置に設け、そして選択されたインスタンス間の
歪を最小にするようにインスタンスを選択し、そして第
１のアコースティックユニットに対して設けられたイン
スタンスの１つと第２のアコースティックユニットに対
して設けられたインスタンスの１つを連結することによ
りスピーチを合成する、という段階を備えたことを特徴
とする方法。
【請求項３】アコースティックユニットはジホーンで
ある請求項２に記載の方法。
【請求項４】第１のアコースティックユニット及び第
２のアコースティックユニットに対するインスタンス
は、選択されたインスタンス間の韻律学的歪を最小にす
るように選択される請求項２に記載の方法。
【請求項５】第１のアコースティックユニット及び第
２のアコースティックユニットに対するインスタンス
は、選択されたインスタンス間のスペクトル歪を最小に
するように選択される請求項２に記載の方法。
【請求項６】シーケンスにおける隣接インスタンス間
の相違の決定は、スペクトル歪に基づく請求項１に記載
の方法。
【請求項７】シーケンスにおける隣接インスタンス間
の相違の決定は、韻律学的歪に基づく請求項１に記載の
方法。
【請求項８】コンピュータシステムにおいて、アコースティックユニットのインスタンスのセットを用
意し、アコースティックユニットのインスタンスのセットを剪
定して、アコースティックユニットのインスタンスの健
全なセットを形成し、そしてアコースティックユニット
のインスタンスの健全なセットからインスタンスの１つ
を選択してスピーチを合成する、という段階を備えたことを特徴とする方法。
【請求項９】インスタンスのセットにおける各インス
タンスは巾を有し、そしてアコースティックユニットの
インスタンスのセットを剪定する上記の段階は、アコー
スティックユニットのインスタンスのセットに対する平
均巾とは大きく巾が異なるインスタンスのセットにおけ
るアコースティックユニットのインスタンスを除去し
て、その除去されたインスタンスがインスタンスの健全
なセットに存在しないようにすることを含む請求項８に
記載の方法。
【請求項１０】インスタンスのセットにおける各イン
スタンスはピッチを有し、そしてアコースティックユニ
ットのインスタンスのセットを剪定する上記段階は、ア
コースティックユニットのインスタンスのセットに対す
る平均ピッチとは大きくピッチが異なるインスタンスの
セットにおけるアコースティックユニットのインスタン
スを除去して、その除去されたインスタンスがインスタ
ンスの健全なセットに存在しないようにすることを含む
請求項８に記載の方法。
【請求項１１】インスタンスのセットにおける各イン
スタンスは振幅を有し、そしてアコースティックユニッ
トのインスタンスのセットを剪定する上記の段階は、ア
コースティックユニットのインスタンスのセットに対す
る平均振幅とは大きく振幅が異なるインスタンスのセッ
トにおけるアコースティックユニットのインスタンスを
除去して、その除去されたインスタンスがインスタンス
の健全なセットに存在しないようにすることを含む請求
項８に記載の方法。
【請求項１２】インスタンスのセットにおける各イン
スタンスは、巾、ピッチ及び振幅を有し、そしてアコー
スティックユニットのインスタンスのセットを剪定する
上記の段階は、アコースティックユニットのインスタン
スのセットに対する平均巾、ピッチ及び振幅とは大きく
巾、ピッチ及び振幅が異なるインスタンスのセットにお
けるアコースティックユニットのインスタンスを除去し
て、その除去されたインスタンスがインスタンスの健全
なセットに存在しないようにすることを含む請求項８に
記載の方法。
【請求項１３】アコースティックユニットのインスタ
ンスのセットを用意する上記段階は、ユーザによりシス
テムのトレーニング中に用意する請求項８に記載の方
法。
【請求項１４】記憶装置を有するコンピュータシステ
ムにおいて、スピーチを合成する方法が、入力テキストストリングを音素ストリングへと処理し、音素ストリングを、境界を伴うジホーンを有するジホー
ンストリングへと変換し、ジホーンストリングにおける各ジホーンの多数のインス
タンスを上記記憶装置に設け、隣接ジホーンの境界間に最小のスペクトル歪を生じるジ
ホーンストリングにおけるジホーンのインスタンスを選
択し、そしてジホーンの選択されたインスタンスを連結
してスピーチを合成する、という段階を備えたことを特徴とする方法。
【請求項１５】コンピュータシステムは韻律学的エン
ジンを含み、そして上記方法は、更に、音素ストリング
に対する韻律学的パラメータを韻律学的エンジンで決定
する段階を含む請求項１４に記載の方法。
【請求項１６】アコースティックユニットの多数のイ
ンスタンスを記憶するための記憶装置と、スピーチを合成するスピーチ合成装置とを備え、該スピ
ーチ合成装置は、アコースティックユニットの記憶された多数のインスタ
ンスのうちの１つのインスタンスを選択するための選択
ユニットと、アコースティックユニットの上記選択された１つのイン
スタンスを、異なるアコースティックユニットの少なく
とも１つの他のインスタンスと共に使用し、合成された
スピーチを出力するためのスピーチ出力ユニットとを含
むことを特徴とするコンピュータシステム。
【請求項１７】上記選択ユニットに入手できるが健全
さに欠けるアコースティックユニットのインスタンスを
除去するための剪定装置を更に備えた請求項１６に記載
のコンピュータシステム。
【請求項１８】アコースティックユニットの各インス
タンスは巾を有し、そして上記剪定装置は、不当に短い
又は不当に長い巾を有するアコースティックユニットの
インスタンスを剪定する請求項１６に記載のコンピュー
タシステム。
【請求項１９】アコースティックユニットの各インス
タンスはピッチを有し、そして上記剪定装置は、異常に
高い又は異常に低いピッチを有するアコースティックユ
ニットのインスタンスを剪定する請求項１６に記載のコ
ンピュータシステム。
【請求項２０】アコースティックユニットの各インス
タンスは、振幅を有し、そして上記剪定装置は、不当に
大きい又は不当に小さい振幅を有するアコースティック
ユニットのインスタンスを剪定する請求項１６に記載の
コンピュータシステム。