JPH05197398A

JPH05197398A - 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム

Info

Publication number: JPH05197398A
Application number: JP9553292A
Authority: JP
Inventors: Massimo Giustiniani; マッシモジウスティニアニ; Piero Pierucci; ピエロピエルッチ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-05-27
Filing date: 1992-04-15
Publication date: 1993-08-06
Also published as: EP0515709A1

Abstract

(57)【要約】【目的】音響エルゴード隠れマルコフモデルに基づく
スペクトル符号化方法を使用することによってテキスト
−音声合成のための音響区分単位の集合をコンパクトに
表現する。【構成】ＡＥＨＭＭを構築し、ＡＥＨＭＭと同じ大き
さを有するベクトル量子化クラスタリング方式によって
ＡＥＨＭＭを初期化する。さらに、前後方向アルゴリズ
ムとバウムウェルチ再評価公式によってＡＥＨＭＭのト
レーニングを行ない、音声合成用に使用される区分単位
の集合を構築する。ＡＥＨＭＭのラベル付け特徴を用い
て区分単位を符号化し、ＡＥＨＭＭ復号器によって音声
合成のための連鎖状にすべき区分単位の集合を復号化す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は自動テキスト−音声合成
の分野、特に、連鎖的テキスト−音声合成システムのた
めの音響単位の大きな集合をコンパクトに表現する方法
とかかる方法を用いた音声合成装置と、に関する。

【０００２】

【従来の技術】無制限に書き込まれたテキストから音声
を合成する一つの方法は、連鎖状にすべき事前格納され
た区分単位の使用を含む。テキスト−音声合成において
事前格納された区分単位を使用することは、「自動音声
合成（Automatic Speech Synthesis）」（Ｄ．オショネ
シー著、ＩＥＥＥ通信誌、２６−３４頁、１９８３年１
２月〔by D.O'Shaughnessy, in IEEE Communications M
agazine, pp. 26-34, Dec.1983〕）と、「イタリア人向
けテキスト−音声合成システム（A text-to-speech sys
tem for Italian ）」（Ｒ．デルモンテ他著、ＩＣＡＳ
ＳＰ会報、サンディエゴ、カリフォルニア州、１９８４
年４月〔by R.Delmonte et al., in Proceedings of IC
ASSP, San Diego, Cal., Apr. 1984〕）などの種々の論
文に記載されている。

【０００３】事前格納された区分単位の連鎖に基づくテ
キスト−音声合成を実行する際に、入力テキストは、音
声合成目的に対しより適切な一連の音声記号に変換され
るように最初に処理される。

【０００４】テキスト処理中に生成された音声記号シー
ケンスに従って、それに対応する連鎖状にすべき区分単
位のシーケンスが生成される。さらに、音声シンセサイ
ザに対する入力シーケンスを作成するために、区分単位
パラメータのシーケンスが検索される。区分単位表現に
応じて、その音声シンセサイザに対し適切な係数の集合
を得るために、一般的に正確な変換が行なわれる。その
後、各区分単位ごとに音声シンセサイザが駆動されて、
合成音声信号を生成する。

【０００５】各区分単位の種類と大きさは、所望の合成
音声品質とその結果得られる区分単位集合のメモリ占有
率を考慮して、注意深く選択される必要がある。通常、
高品質の合成音声が必要とされる場合、１音節又はそれ
以上の大きさの区分単位を使用することが可能である
が、但し、これは一つの言語に可能な音節の数が非常に
多いために非常に大きなメモリを必要とする。一般的に
区分単位の大きさが減少されると、結果的に合成音声品
質が低下するわけは、自然音声に発生する多数の調音結
合現象が表現されないからである。この場合、メモリの
要求条件は先の場合よりもずっと少なくなる。音素型の
区分単位の使用によって大量メモリ占有の保管を可能に
するが、その結果得られる合成音声の品質は非常に低下
する。合成音声品質とメモリ占有率との間の合理的トレ
ードオフは通常、二重音声区分単位、即ち、２つの音声
単位間に発生する調音結合現象を表わす単位、によって
得られる。自然音声では音声事象の発生は先行する音素
及び／又は次の音素による影響のみを受けるので、音素
の組合せにのみ拡張する単位による調音結合効果を表現
することが可能になる。音声合成プロセスに対する適切
な単位として二重音声単位が最初に開示されたのは、
「セグメントアセンブリ二重音声方法を使用した連続音
声の端末アナログ合成（Terminal Analog Synthesis of
Continuous Speech using the Diphone Method of Seg
ment Assembly ）」（Ｎ．Ｒ．ディクソン、Ｈ．Ｄ．マ
ックセイ、ＩＥＥＥオーディオ・電気音響学紀要、Ｎ．
１６、４０頁、１９６８年〔by N.R.Dixon, H.D.Maxey,
in IEEE Transactions on Audio and Electroacustic
s, N.16, p.40, 1968〕）においてであり、この手法を
用いて多数の音声合成システムが開発されている。区分
単位数とメモリ占有率との間におけるトレードオフの関
係によって、高品質且つ低コストの音声合成システムの
開発に対してこの技術は適切なものではない。

【０００６】二重音声単位の数Ｎは、合成すべき言語に
応じて千単位から３千単位までのオーダで変化する。二
重音声単位の組の大量メモリの占有率を妨げるために、
主として音声のスペクトル表示に基づく多数のコーディ
ング（符号化）技法が採用されている。集合Ｕ≡
（ｕ_n）（１≦ｎ≦Ｎ）におけるそれぞれの区分単位ご
とに音声信号は連続的間隔Ｕ_n,1'１≦ｌ≦ｌ_n（ｌ_n＝
区分単位Ｕ_nにおける区画の数）、通常は２０ｍｓ長の
フレーム、に分解される。それぞれの間隔Ｕ_n,1ごと
に、音声信号は人の音声知覚の主要な心理音響の特性に
対して音響プロセッサによって検査される。その後、各
間隔は合成目的にふさわしいＰ係数ａ_n,1,p、（１≦ｐ
≦Ｐ）（通常は、０≦Ｐ≦１６）によって表現される。
その主な方法は、異なる音声処理分野で使用される他の
手法が音声合成に直接使用されるには不適切であるがた
めに、音声の線形予測符号化（ＬＰＣ）に依存するもの
である。さらに、音声信号は典型的な音声間遷移に対す
る格納済みスペクトル表示を活用して合成され、一方、
定常性状態の単音区分は遷移の終りと次の遷移の開始と
の間にスペクトルを補間することによって得られる。他
の多くの言語と同様にイタリア語についても、十分認識
可能な定常性状態を示さない音声単位がある（例えば、
その発生全体における「ｒ」又はイタリア語「ａｉｕｔ
ｏ」における半母音「ｉ」）。このクラスの音素につい
ての優れた知覚結果は、音素全体を遷移として考えるこ
とによって得られる。即ち、二重音声の代わりに、「三
重音声」と普通称されている３つの音素単位を処理する
必要がある。二重音声の代わりに３つの音素区画を考慮
することによって、結果的に区分単位集合のメモリ占有
度は当然大きくなることは、遷移が長くなり且つ格納単
位数が大きくなることが原因である。

【０００７】伝統的な区画合成方式におけるメモリ占有
度の計算は、以下のように行なわれる。区分単位集合が
それぞれ１０フレームの平均長１^av _d＝１０を有するＮ
_d＝６００の二重音単位と、各々が１^av _t＝２０の平均
長を有するＮ_t＝３００の三重音単位と、から構成され
ることを仮定する。妥当な数値の係数、Ｐ＝１４である
ＬＰＣ符号化を活用して各々の係数を２バイトの浮動小
数点表現によって表示することによって、メモリ占有度
は（Ｎ_d＊１^av _d＋Ｎ_t＊１^av _t）＊Ｐ＊２＝３３６，
０００バイトになる。この値は、利用可能なメモリサイ
ズが極めて制約されることの多いとされるリアルタイム
適用に対しては特に高い。それぞれのＬＰＣ係数を２バ
イトの浮動小数点で表現する場合の可能な２つの解決法
として、異なる符号化方式の使用又は区分単位数の減少
がある。

【０００８】第１の解決法、即ち、異なる符号化方式、
の主要な欠点は、主として採用されるコーダ（符号器）
の局部的特性のために合成音声品質が非常に低下するこ
とである。第２の解決法の欠点は、調音結合現象の表示
具合が悪くなるために合成音声品質が低下することであ
る。

【０００９】

【発明が解決しようとする課題】本発明の目的は、上記
欠点を解消して、隠れマルコフモデル（ＨＭＭ）技法に
基づくスペクトル符号化方法を使用することによって区
分単位集合をコンパクトに表現する問題を解決すること
である。

【００１０】本発明の主な利点は、それがメモリ占有度
をドラスチックに低下させることと、二重音と三重音の
大きな集合体が従来の技法を使用して二重音のみの同一
集合体を表現するために必要とされるものよりも小さい
メモリ空間に格納可能であることである。本発明によれ
ば、同量のメモリを使用してより大きな集合の区分単位
を格納することができるので、自然音声に存在する調音
結合現象をより十分に表現することが可能になる。もう
一つの利点は、合成音声再構成プロセスにおいてＨＭＭ
手法の使用によって、音響装置力学の詳細な模型を用い
て連結された区分単位の境界におけるスペクトル軌跡の
平滑化を可能にすることである。

【００１１】

【課題を解決するための手段】本発明は区分単位をコン
パクトに表現する目的を、以下（ａ）、（ｂ）を使用す
ることによって達成するものである：（ａ）従来技術の
区分単位集合を構成するために決定されるデータ、
（ｂ）極めて低度なメモリ占有度を有する直送式符号化
と再構成方式を可能にする、スペクトル定常性態と力学
を考慮した音響装置モデル。

【００１２】まず、基準スピーカーによって提供される
音声信号を用いて、「二重音単位抽出用データベース
（A Database for Diphone Units Extraction ）」
（Ｇ．フェリ他著、音声合成に関するＥＳＣＡ・ＥＴＲ
Ｗ紀要、フランス、１９９０年９月〔by G.Ferri et a
l., in Proceedings of ESCA ETRW on Speech Synthesi
s, Autrans, France, Sep. 1990〕）と題する論文に述
べられたような半自動セグメント化技法に基づく従来の
手法を使用して区分単位の集合Ｕが決定される。さら
に、同じ音声材料を用いて、その言語のスペクトル力学
のモデルを得るために音響エルゴード隠れマルコフモデ
ル（以下、ＡＥＨＭＭと称する）がトレインされる。

【００１３】集合Ｕの区分単位Ｕ_kごとに適切なパラメ
ータ表現を計算することによって、シーケンスＰ
_n,1（１≦ｎ≦Ｎ，１≦ｌ≦ｌ_k）が得られる。その
後、ＡＥＨＭＭ符号器の最もあり得る状態シーケンスｑ
_n,1は、シーケンスｐ_n,1を入力とヴィテルビ・アルゴ
リズムとして使用して計算される。同プロセスは集合Ｕ
内の各区分単位Ｕ_kごとに反復して行なわれる。

【００１４】合成時に適切な区分単位が選択且つ共に連
結されて、状態ストリングｑ_n,1＋ｑ_w,1＋・・・が提
供される。最後に、この状態シーケンスがＡＥＨＭＭ復
号化段階に対する入力として使用されることによって、
音声シンセサイザに送られるＬＰＣパラメータの適切な
シーケンスが生成される。

【００１５】本発明のスペクトル符号化方法のメモリ占
有度の計算は以下の通りである。先の区分単位集合（１
０フレームの平均長１^av _dを有する６００個の二重音単
位と、２０フレームの平均長１^av _tを有する３００個の
三重音単位）について、ＡＥＨＭＭの状態数が良質の音
声を実現するための妥当な値であるＭ＝２５６であると
仮定して、再度計算が実行される。まず、結果どうしの
比較を容易にするためにＡＥＨＭＭコードブック全体を
表現すべきものとする。即ち、コードブックは各係数ご
とにＰ＝１４、２バイトの浮動小数点表現によって計算
され、即ち、Ｍ＊Ｐ＊２＝７，１６８バイトになる。区
分単位集合を表現するために、各フレームごとに１バイ
ト、即ち、ＡＥＨＭＭモデルのラベルの大きさ、の必要
性が存在し、その結果、Ｎ_d＊ｌ^av _d＋Ｎ_t＊ｌ^av _t＝
１２，０００バイトの占有度になることがわかる。この
ようにして、全体のメモリ占有度は７，１６８＋１２，
０００＝１９，１６８バイト、即ち、合成音声の品質を
著しく低下させることなしに先のメモリ占有度の計算値
に対して９４％以上のメモリ空間を節約することにな
る。この手法によれば、予測オーダ、従って音声合成品
質を向上させることが可能であり、遷移表現のサイズに
ではなく、コードブックにのみ影響を及ぼす。同じ理由
により、小型メモリのリアルタイム・シンセサイザにお
いて通常使用される可変長、固定小数点パラメータ符号
化の負担をもはや受ける必要はない。同じ占有度ならび
に更にそれより低い占有度がより一層正確且つ信頼でき
る浮動小数点符号化を使用して得ることができるのは、
格納すべき浮動小数点係数の数が使用される遷移数では
なく、コードブックのサイズによって決定されるからで
ある。このコードブックのサイズは限界的ではない。実
際、実験結果が示すところによれば、ほとんどの場合に
おいてＭ＝２５６状態のコードブックが適切な音声合成
品質を得るのに十分である。即ち、結果として得られる
量子化された音声が連続パラメータ表現からは主観的に
識別されないために、２５６以上の大きさは必要ではな
い。

【００１６】

【実施例】区分単位集合の生成区分単位集合の生成は通常、音声学のエキスパートによ
って行なわれる。静かな状態の下で自然キャリア発声の
集合が選択且つ記録されて、所与の言語における重要な
共起音のすべてを表現することができる。その後、音響
信号はアナログ・ディジタル変換技法を用いてディジタ
ル形式に変換される。さらに、区分単位は、概してスペ
クトル表現を視覚検査することによってキャリア発声か
ら抽出されて、手操作によって区分単位境界を位置決め
する。概して、区分単位境界は通常、「自然音声から二
重音要素を抽出する体系的手法（A Systematic Approac
hto the Extraction of Diphone Elements from Natura
l Speech ）」（Ｈ．キースリン、ＩＥＥＥ紀要ＡＳＳ
Ｐ−３４、Ｎｏ．２、１９８６年４月〔by H.Kaeslin,
in IEEE Transactions ASSP-34, N.2, Apr. 1986〕）と
題する論文に述べられているように、隣接する音声事象
のスペクトル定常性状態領域に位置決めされる。最後
に、それぞれの区分単位Ｕ_n（１≦ｎ≦Ｎ）のコピーは
ある編集特徴を用いて生成され、容易に検索され得るよ
うに適切な標本化データフォーマットに格納される。

【００１７】この段階において、合成プロセス用にもう
一つのデータ集合、即ち、振幅ならびに持続時間データ
ベース、が作成される。これは、自然音声データから取
り出される言語、平均持続時間ならびに一定の振幅にお
ける各音素について音節における位置を含む。この手順
に関する詳細は「音節韻律的モデルの自動推論（Automa
tic Inference of a Syllabic Prosodic Model）」
（Ａ．ファラシ、Ｍ．ジウスチニアニ、Ｐ．ピエルッ
シ、音声合成に関するＥＳＣＡ・ＥＴＲＷ紀要、フラン
ス、１９９０年９月〔by A.Falaschi, Ma. Giustinian
i, P.Pierucce in Proceedings of ESCA ETRW on Speec
h Synthesis, Autrans, France, Sep. 1990〕）と題す
る論文に見られる。

【００１８】区分単位集合の符号化音声信号は、声帯及び／又は発声器官内の狭窄から生成
される声道動作、即ち、発声器官の形状、音源信号、に
関する情報を含む。テキスト−音声合成の応用におい
て、音源信号の寄与が区分単位の表現から放棄されるこ
とが多いのは、それが合成段階において区分上の特性か
ら容易に再構成され得るからである。区分単位集合を確
立する次のステップは適切な表現を用いて標本化データ
ファイルを符号化することである。そのための可能な候
補として、離散的フーリエ変換、フォーマットトラッ
ク、ならびに線形予測符号化（ＬＰＣ）があげられる。
この三番目の方法は、主に声道表現を自動的に判断する
ことが可能であるために、区分単位連鎖を使用するテキ
スト−音声合成に対し最も使用頻度が高い。補間段階に
おいて使用されるＬＰＣ係数とその他の係数（ログエリ
ア比）と合成プロセスにおいて使用される係数（反映係
数）と、の間には多数の関係が実証されている。区分単
位集合のＬＰＣ表現の決定は直送式に行なわれる。集合
Ｕにおける各区分単位ｕ_nごとに、標本化データ信号は
約２０ｍｓの持続時間を有する小さなフレームｕ_n,1に
分割される。それぞれの区画に対して信号の自己相関が
計算されて、声道の動作を表わす一組のＰ係数ａ_n,1,p
を得るためにレヴィンソン回帰法が適用される。数Ｐは
表現の正確さに関係があり、Ｐ＝１４は音声信号特性を
表わすのに十分な値である。一例として、１_n＝１０の
時、ＬＰＣ係数の集合ａ_n,1, _p（１≦ｌ≦ｌ_n，１≦ｐ
≦Ｐ）は８０ｍｓの長さと８ｍｓフレーム間隔を有する
区分単位ｕ_nに対して得られる。

【００１９】ＡＥＨＭＭ定義ＨＭＭに基づく区分単位集合のスペクトル符号化を得る
ために、本発明では連続スペクトル密度のエルゴード隠
れマルコフモデル（以下、ＡＥＨＭＭ、即ち、音響エル
ゴード隠れマルコフモデルと称する）を使用することが
教示されている。この特定種類のマルコフモデルの完全
な記載は「音声学的隠れマルコフモデル音声シンセサイ
ザ（A Phonetic Hidden Markov Model Speech Synthesi
zer ）」と題するヨーロッパ特許出願第９０１１９７８
９．７号に見ることができる。簡単に言えば、ＡＥＨＭ
ＭのＭ個の状態の各々に対応して、音声フレームを観察
する確率を与える連続する観測確率分布と、音声データ
から抽出されるパラメータ観測値の入力シーケンスを一
定とした時、時刻ｔ−１における状態から時刻ｔにおけ
るその他全ての状態へ移行する確率を与える遷移確率
と、がある。観測確率関数、Ｍ状態の各々についての１
個は、音声信号の局部スペクトル特性を表わし、即ち、
それらは、所定言語の基本アルファベット音を表わして
いる。遷移確率、即ち、Ｍ状態の各々についてのＭは、
音声信号スペクトル力学を支配する規則、即ち、音声生
成機構に存在する制約、を意味する。従って、ＡＥＨＭ
Ｍモデルは以下のように示される。

【００２０】Ω_AEHMM≡｛Ｍ，Ｑ，Π，Ａ，Ｆ｝但し、Ｍはモデルの大きさ、即ち、モデルの状態の数で
あり、Ｑは状態の集合、Πは初期確率ベクトル、Ａは状
態遷移マトリックス、Ｆは観測確率関数の集合である。

【００２１】Ｍ状態の集合Ｑ≡（ｑ_i）であると仮定す
ると、大域モデルは次の初期確率値の集合によって完全
に定義される。

【００２２】 Π≡｛Π_i＝Ｐｒｏｂ（ｑ_i ^t=0）｝，１＜ｉ＜Ｍ上記式は、時刻ｔ＝０における状態ｑ_iの絶対確率と以
下の確率的遷移マトリックスを表わす。

【００２３】Ａ≡｛ｑ_i,j＝Ｐｒｏｂ（ｑ_j ^t／ｑ_i ^t-1）｝，１＜ｉ，ｊ＜Ｍ上記マトリックスは状態間の遷移規則を考慮し、時刻ｔ
−１における先の状態ｉに条件づけられた時刻ｔでの入
力状態ｊの確率を示す。

【００２４】隠れマルコフモデルは、一方が観察可能で
他方が隠れた２つの確率的プロセスを表わす。ＡＥＨＭ
Ｍにおいて、観測プロセスは音声から抽出される特徴の
シーケンスであり、一方、潜在する隠れプロセスはその
観測音声を生成した可能性が最も高い局部音源のシーケ
ンスである。これはＡＥＨＭＭがそれぞれの音声信号フ
レームから計算された特徴を状態又は状態の集合、従っ
て、その信号フレーム特徴を発した可能性が最も高い対
応信号源に関連づけることを意味する。それぞれの信号
源はラベルと称される連続的な数によって表わされ、こ
の場合、ラベルの数はＡＥＨＭＭの大きさに等しい。最
終結果として、ＡＥＨＭＭはフレームを発した可能性が
最も高い信号源のそれぞれのラベルを各フレームと対応
付ける。この動作は音響ラベル付けと称される。

【００２５】どんな種類の特徴表現を使用しても、それ
らが信号のスペクトルを表現するために有効である限
り、本発明においてＡＥＨＭＭを使用する際の基本ポイ
ントは、発声について音源のシーケンス、従ってその観
測発声を生成する可能性が最も高いラベルのシーケン
ス、を生成することであり、この場合、確率が局部的で
はなく発声全体について計算されるのは、標準ベクトル
量子化器を使用しているからである。これは、音源識別
が局部的に行なわれず、発声の展開全体を考慮し、遷移
マトリックスに具体化された音声的（フォノタクティカ
ル）制約を考慮に入れて行なわれることを意味する。

【００２６】ＡＥＨＭＭパラメータ評価モデルを構築するためには、ある種の距離又は歪み測度
を使用すべきであり、本実施例では、尤度比歪み測度が
好ましいとされているが、他の種類の測度も同様に使用
することができる。ＡＥＨＭＭはそこで使用される同じ
音声パラメータ表現に適用される任意の標準クラスタリ
ングアルゴリズムによって初期化される。再評価手続の
計算上の必要条件を減少するために、モデルはＡＥＨＭ
Ｍと同一サイズのベクトル量子化クラスタリング方式
（以下、ＶＱと称す）によって初期化されるのが好まし
く、「音声信号用のトレリスベクトル量子化器の設計と
性能（Design and Performance of Trellis Vector Qua
ntizers for Speech Signals）」（Ｂ．Ｈ．ジュアン
著、ＩＥＥＥ紀要ＡＳＳＰ−３６、Ｎｏ．９、１９８９
年９月〔by B.H.Juang, IEEE Transactions ASSP-36,
N.9, Sep. 1989 〕）と題する論文と、「ベクトル量子
化に基づく音声符号化（Speech coding based uponVect
or Quantization）」（Ａ．バゾ、Ａ．Ｈ．グレイジ
ュニア、Ｒ．Ｍ．グレイ、Ｊ．Ｄ．マーケル共著、ＩＥ
ＥＥ紀要ＡＳＳＰ−２８、５６２−５７４頁、１９８０
年１０月〔by A.Buzo, A.H.Gray Jr., R.M.Gray, J.D.M
arkel, in IEEE Transactions ASSP-28, PP.562-574, O
ct. 1980〕）と題する論文と、に記載の通りＡＥＨＭＭ
モデル再評価手続用に以下で使用される同一の発声集合
に適用される。状態観測密度の初期評価値はベクトル量
子化器コードブックの中心軌跡の特徴ベクトルから直接
得ることができ、一方、提案された特徴表現における分
散量は正規化ＬＰＣ残留エネルギーである。状態遷移確
率マトリックスの初期評価値はＶＱラベルｌ_iから始ま
る観測組合せの総数によって分割された、連続するＶＱ
ラベルｌ_iとＶＱラベルｌ_jの生起数によってＶＱ量子
化発声の集合を使用して得ることができる。即ち、以下
の通り。

【００２７】

【数１】

【００２８】この場合、Ｃｏｃ（ｌ_i ^t-1，ｌ_j ^t）は
トレーニング・データにおいて時刻ｔ−１でＶＱラベル
ｌ_iが、その後に時刻ｔでＶＱラベルｌ_jが来るＶＱラ
ベルの同時発生を表わす。初期確率ベクトルの初期評価
値は観測ラベルの総数によって分割されるＶＱラベルｌ
_iの生起数と同様にして以下の通り計算することができ
る。

【００２９】

【数２】

【００３０】この場合、Ｃｎｔ（ｌ_i）はトレーニング
・データにおけるＶＱラベルｌ_iの生起数である。さら
に、トレーニングは通常の前後方向回帰とバウム・ウェ
ルチ再推定公式によって音声器官において実行される。
トレーニング・データのサイズの必要条件を減少させ、
全体の評価手続を向上させるために、全ての音声データ
が同一のスピーカーによって発せられることが望まし
い。更に、発生は音声学的にバランスがとれていること
が好ましく、これは、それらがその言語に特有の音声事
象全体を表現するものであることを意味する。

【００３１】区分単位集合のＡＥＨＭＭ符号化符号化アルゴリズムは周知のヴィテルビアルゴリズムを
利用して、それぞれの音声フレームシーケンスを、フレ
ームシーケンス自体である観測を発する可能性が最も高
いラベル状態シーケンスと対応付ける。提案された実行
例において、音声スペクトルは自己相関関数ｒ_p（１≦
ｐ≦Ｐ）の最初のＰラグと、線形予測利得σとによって
表わされる。これは、音声がオーダＰの自己回帰プロセ
スとしてモデル化されることを意味する。

【００３２】区分単位ｕ_nごとに、信号はフレームと称
される同一長のスライスｕ_n,1に分割され、自己相関関
数とＬＰＣがフレームごとに計算され、シーケンスｒ
_n,1,p, _n,1，（１≦ｎ≦Ｎ，１≦ｌ≦ｌ_n）が得られ
る。その後、ＡＥＨＭＭ符号器の最も可能性の高い状態
ｑ_n,1のシーケンスが、シーケンスｒ_n,1,p,σ_n,1を入
力として、さらにヴィタルビアルゴリズムとして使用し
て計算される。自己相関ラグの数であるＰの適切な値は
１４であるが、他の値も同様に使用できる。区分単位ご
とにヴィテルビアルゴリズムを駆動させて、対応する音
響ラベルシーケンスを得る。ＡＥＨＭＭラベルによる区
分単位表現は参照集合内に格納される。同プロセスは集
合の区分単位の全体が考慮されるまで繰り返し行なわれ
る。

【００３３】合成システムの解説図１は本発明を使用したテキスト−音声シンセサイザの
ブロック線図である。図において、本発明の主題である
構造のみが完全に述べられており、一方、従来技術にお
いて周知である音声合成に必要な構成要素は簡単に述べ
られているにすぎない。図１のテキスト−音声シンセサ
イザはテキスト入力モジュール１００と、テキストプロ
セッサ１０１と、持続時間・振幅プロセッサ１０２と、
区分単位プロセッサ１０３と、音韻プロセッサ１０４
と、区分単位リンカー１０５と、合成フィルタ１０６
と、を含む。１０７、１０８で記されたブロックはそれ
ぞれ、持続時間・振幅データベースと区分単位データベ
ースであり、先の項目「区分単位集合の生成」と「区分
単位集合のＡＥＨＭＭ符号化」の教示に従って構築され
る。

【００３４】要約すると、テキスト入力１００は文字群
の書記素ストリングを受取る。テキストプロセッサ１０
１は音声アルファベットと一組の規則を用いて入力され
た書記素ストリングを音声ストリングに変換するので、
出力音声記号と合成（文字−音声規則）に使用される音
響単位の集合との間に一対一の対応関係を有するように
なる。テキストプロセッサ１０１はストレス（アクセン
ト）位置決め規則、フォノタクティック規則、音節化規
則、形態素統語解析および音声翻訳規則を含む。テキス
トプロセッサ１０１はシステムによって要求される言語
学的知識の大半を組込み、その構造においては言語に依
存する。イタリア語の音声記号の可能な集合は図２に示
される。従来技術では、文字−音声の変換問題を取扱う
ための種々の技法が開示されている。イタリア語につい
てかかる手法を論じたものは、「イタリア語用テキスト
／音声合成のための音声翻訳規則（Phonetic Transcrip
tion Rules for Text-to-Speech Synthesis of Italia
n）」（Ｐ．Ｌ．サルツァ著、音声学、Ｎｏ．４７、６
６−８３頁、１９９０年（by P.L.Salza, in Phonetic
a, n.47, pp.66-83, 1990) ）と題する論文において見
られる。入力テキストのサンプルは図３に示されてお
り、ここでは「Questo e' un esempio di frase 」
（「これは例文である」）という文章が一例として使用
されている。図４は音節に分割された文章を示してい
る。図５は上記例に使用される文章の音声的翻訳を示
す。テキストプロセッサ１０１により生成された音声記
号のストリングは持続時間・振幅プロセッサ１０２、区
分単位プロセッサ１０３及び音韻プロセッサ１０４に送
信される。

【００３５】持続時間・振幅プロセッサ１０２は、合成
すべき各音声記号ごとに正確な持続時間と振幅を求め
る。このモジュールは、所望の出力を生成するために音
節モデルと形態素統語情報を活用するものであり、同モ
ジュールは音素の固有持続時間の概念に基づき、各音素
は音節内のその位置に従い、また、字句ストレス（アク
セント）について別個に考えられ、この種の音節モデル
は学問的に既に提案されている。特に音声データの集合
体は、単語における音声記号の音節位置が与えられた場
合の正確な振幅と持続時間の値を決定するために予め検
査されている。この技法に関する詳細は「音節韻律的モ
デルの自動推論（Automatic Inference ofa Syllabic P
rosodic Model）」（Ａ．ファラシ他著）と題する前記
引用された文献において見ることができる。その後、固
有持続時間は文章内の単語の音声の一部（パート・オヴ
・スピーチ、以下、ＰＯＳと称する）に従って引き延ば
され、ＰＯＳに従って持続時間を修正するアルゴリズム
は、「テキストから音声へ（From text to speech ）：
ＭＩＴａｌｋシステム」（Ｊ．アレン、Ｍ．Ｓ．ハニカ
ット、Ｄ．クラット共著、ケンブリッジ大学出版局、１
９８７年（by J.Allen, M.S.Hunnicutt, D.Klatt, Camb
ridge University Press, 1987））と題する書物に示さ
れている。その他の種類の処理方法も同様に使用でき
る。この処理の結果は、音素シーケンスが表わされ、各
音素はその音節位置を識別して、そこから固有持続時間
を識別するのに使用されるインデックスの組を関連付け
ている図６と、単語のシーケンスとそれに対応するＰＯ
Ｓが示されている図７において見られる。エネルギー計
算のための他の手続を使用することもできる。持続時間
・振幅プロセッサ１０２の出力は音韻プロセッサ１０
４、区分単位リンカー１０５、合成フィルタ１０６に対
し送信される。

【００３６】区分単位プロセッサ１０３は、基本的音声
記号に対応する区分単位のシーケンスを決定する。入力
ストリング内の各音声記号ｓ_iごとに、左側ｓ_i-1及び
右側ｓ_i+1の音声上のコンテキスト（前後関係）が決定
される。左右のコンテキスト、即ち、Ｆ_i-1,i≡ｓ_i-1
→ｓ_i及びＦ_i,i+1≡ｓ_i→ｓ_i+1、の境界における調
音結合化減少を表わす一対の区分単位の識別子は、音声
記号に対し割り当てられる。区分単位識別子は、遷移ｓ
_i-1→ｓ_i及びｓ_i→ｓ_i+1が得られるまで区分単位デ
ータベース１０８内を探索することによって決定され
る。区分単位プロセッサ１０３の出力は区分単位リンカ
ー１０５へ送信される。図８には、区分単位プロセッサ
１０３の入出力関係の一例が示される。

【００３７】音韻プロセッサ１０４は、合成すべき文章
のイントネーション（抑揚）曲線を作成するために、入
力として音韻ストリングを受信する。各音素ごとに、フ
レーズの文章レベル（疑問文、平叙文）や音素が所属す
る単語の重要性（名詞、動詞、形容詞・・・）や、スト
レス位置、イントネーション曲線の連続的制約を考慮し
て、励起関数（ピッチ）の周期が決定される。合成の際
に使用されるピッチ値のシーケンスは、このフレーズの
最後で得られる。かかるシーケンスは合成フィルタ１０
６に送られる。

【００３８】区分単位ストリングのセグメント化段階
と、持続時間・振幅プロセッサ１０２によって生成され
た音声持続時間値と、に従って、スペクトルパラメータ
の設定が区分単位リンカー１０５によって初期化され
る。一般的に、各区分単位は対応する音声事象の正確な
持続時間に到達するために引延ばされて、区分単位境界
におけるスペクトルと振幅の断続を防止するために適切
な補間方式が適用される。区分単位リンカー１０５は、
図９と図１０の２つの異なる実行例ＳＵ１とＳＵ２にお
いてそれぞれ示されている。

【００３９】第１の実行例では、まず区分単位は区分単
位復号化プロセッサＳＵ１１によって復号化され、この
プロセッサＳＵ１１のタスクは、ＡＥＨＭＭ区分単位表
現を一連の特徴ベクトルに逆変換することである。区分
単位復号化プロセッサＳＵ１１は、先のＡＥＨＭＭトレ
ーニングにおいて決定されるように、各ラベルごとにそ
の対応するＡＥＨＭＭの原始モデルの対応付けを行な
う。これは、本実施例において区分単位符号化手順から
結果的に得られる各ラベルに対しソースパラメータの期
待値のベクトルが対応付けられることを意味する。これ
は多変量ガウス分布を直接使用することである。この場
合、各ラベルにはガウス密度分布自体の平均値が対応付
けられる。その後、区分単位は、適切な補間方式を用い
て正確な持続時間に到達するために引き延ばされる。補
間段階は音声シンセサイザを設計する上で重要な問題で
ある。かかるスペクトル補間を可能にするために区分単
位表現を選択するか、又はその代わりに、補間方式の適
用の前後に採用された表現に対して正確な変換が付加さ
れる必要がある。当然、特徴が補間方式に対して線形で
あることは望ましいことである。予測係数が使用される
場合、それらは、例えばログエリア比等のより多くの線
形特徴に変換されることが好ましい。ＳＵ１２の特徴ベ
クトル変換はΓ（ａ_i）によって表示され、異なる一組
の特徴ベクトル、ｌ_iは以下の通り示される。

【００４０】Ｌ≡｛ｌ_i＝Γ（ａ_i）｝，１＜ｉ＜Ｐ

【００４１】その後、ＳＵ１３の線形補間方式は、ｌ_i＝ａ_h,i×ｍ＋ａ_k,i×Ｍ−ｍ，１＜ｍ＜Ｍであるように隣接する区分単位ｈとｋの特徴ベクトルの
間に適用され得る。この場合、Ｍは境界音素の定常状態
部分の長さであり、ｈ、ｋはそれぞれ入・出力区分単位
の識別子である。さらに、その結果は係数逆変換プロセ
ッサＳＵ１４によって合成プロセスに適切なスペクトル
表現に逆変換される。

【００４２】この提案された実行例において、「音声波
の線形予測による音声解析と合成（Speech Analysis an
d Synthesis by Linear Prediction of the Speech Wav
e ）」（Ｂ．Ｓ．アタル、Ｓ．Ｌ．ハノーア共著、アメ
リカ音響学協会誌、第５０巻、Ｎｏ．２、６３７−６５
５頁、１９７１年４月（by B.S.Atal and S.L.Hanauer,
in The Journal of the Acoustic Society of Americ
a, Vol.50, N.2, pp.637-655, Apr. 1971））と題する
論文に記載の通り、以下の反映係数が使用される。

【００４３】ｋ≡｛ｋ_i＝Δ（ｌ_i）｝，１＜ｉ＜Ｐ合成フィルタ１０６に送られるべきスペクトルパラメー
タのシーケンスはこのフレーズの最後で得られる。

【００４４】図１０の区分単位リンカー１０５（ＳＵ
２）の第２の実行例では、コピーモジュールＳＵ２１に
よるストレッチ（引延ばし）において正確な持続時間に
到達するために、隣接する遷移の境界区画をレプリカー
ト（反復）することによって引延しが簡単に得られる。

【００４５】これは、正確な持続時間に到達するまで隣
接区画の境界ラベルが単に反復されることを意味する。
ＡＥＨＭＭ区分単位復号モジュールＳＵ２２へ送られる
べきラベルのシーケンスはこのフレーズの最後に取得さ
れる。モジュールＳＵ２２の構成と動作はモジュールＳ
Ｕ１１のそれと同一である。次の段階では、特徴ベクト
ルを補間に対しより一層適切な表現領域に変換すること
を行なう。モジュールＳＵ２３はモジュールＳＵ１２に
ついて図解されたものと同一視される係数変換手順を含
む。その後、ＡＥＨＭＭ補間プロセッサＳＵ２４が呼び
出される。このプロセッサは、合成フィルタ１０６で使
用されるべき実際の特徴ベクトルを生成するための計算
を起動させる。この目的のためにＡＥＨＭＭコードブッ
クの変換特徴ベクトルの加重平均が計算される。さら
に、合成すべき各フレームごとの出力特徴ベクトルは、
コードブックの各変換特徴ベクトルを時刻ｔにおけるそ
の確率によって加重することによって、以下の通り計算
される。

【００４６】

【数３】

【００４７】この場合、ｐｒｏｂ（τ_i ^t）は前後方向
アルゴリズムによって計算された時の各状態の確率であ
り、ｌ_iはそれに対応付けられる大きさＭを有するコー
ドブックの特徴ベクトルであり、ｕ^t _avはその結果得ら
れる合成フィルタ１０６に送られる特徴ベクトルであ
る。さらに、その結果はモジュールＳＵ２５によって合
成プロセスに適切なスペクトル表現に逆変換され、この
モジュールの構成はモジュールＳＵ１４と同様である。

【００４８】振幅・スペクトルパラメータのシーケンス
とピッチ値のシーケンスに従って、合成音声は合成フィ
ルタ１０６により生成される。合成されるべき各区分ご
とに、振幅、ピッチ及びスペクトルパラメータが入力か
ら取り出される。その後、音声合成アルゴリズムは起動
されて合成音声の区分が得られる。図１１には、反映係
数ｋ_1,・・・ｋ_pの集合は１・・・ｐとラベル付けされ
たボックスを供給し、音韻プロセッサ１０４により生成
されたピッチパラメータは発声制御を送り込み、以下の
正規化予測誤差Ｇにより乗じられて、持続・振幅プロセ
ッサ１０２によって生成された振幅が利得制御を行う。

【００４９】

【数４】

【００５０】シンセサイザの作用「区分単位集合の生成」の項目において考えられたよう
に、いったん区分単位データベース１０８と持続時間・
振幅データベース１０７とが構築され、ＡＥＨＭＭパラ
メータが「ＡＥＨＭＭパラメータ評価」の項目で想定さ
れたように求められ、さらに区分単位集合が「区分単位
集合のＡＥＨＭＭ符号化」の項目で想定されたように符
号化されたとすると、テキスト−音声合成プロセスの全
体は以下の通り要約され得る。＊書込みされたテキスト
がテキスト入力１００を介して入力されて、テキストプ
ロセッサ１０１によって処理される。＊持続時間・振幅
プロセッサ１０２は、振幅・持続時間データベース１０
７により、各音素に対し正確な持続時間・振幅値を対応
付ける。＊区分単位プロセッサ１０３は、区分単位デー
タベース１０８内を探索することによって連鎖状にすべ
き区分単位の正確なシーケンスを決定する。＊音韻プロ
セッサ１０４は、合成フィルタ１０６の励起関数として
使用されるための発声パラメータのシーケンスを決定す
る。＊区分単位リンカー１０５は区分単位データベース
１０８から区分単位を物理的に取得し、区分単位を引き
延ばして適切なスペクトル・振幅補間方式を用いること
によって各音素ごとに正確な持続時間を得ることができ
る。さらに、スペクトル係数は合成フィルタ１０６に対
し適切な表現に変換される。＊区分単位リンカー１０５
によって計算されたスペクトルパラメータは、音韻プロ
セッサ１０４によって計算された発声パラメータと持続
時間・振幅プロセッサ１０２によって計算された振幅パ
ラメータと共に、合成音声出力を生成するために合成フ
ィルタ１０６によって使用される。

【００５１】

【発明の効果】本発明は上記のように構成されているの
で、隠れマルコフモデル（ＨＭＭ）手法に基づきスペク
トル符号化方法を使用することによって区分単位集合を
コンパクトに表現することのできる優れた効果を有す
る。

【図面の簡単な説明】

【図１】本発明を使用したテキスト−音声シンセサイザ
装置のブロック線図である。

【図２】イタリア語の音声単位の可能な集合を示す図で
ある。

【図３】サンプル入力テキスト図である。

【図４】複数の音節に分割されるサンプル入力テキスト
を表わす図である。

【図５】音声学的に記載されたサンプル入力テキストを
表わす図である。

【図６】構造化音声学的記載によるサンプル入力テキス
トを表わす図である。

【図７】サンプル入力テキスト内の単語のパートオヴ音
声（ＰＯＳ）分類を表わす図である。

【図８】区分単位プロセッサの出力のサンプルを表わす
図である。

【図９】区分単位リンカーの第１の実施例を示す図であ
る。

【図１０】区分単位リンカーのもう一つの実施例を示す
図である。

【図１１】図１のテキスト−音声シンセサイザ装置で使
用される格子型合成フィルタを示す図である。

【符号の説明】

１００テキスト入力１０１テキストプロセッサ１０２持続時間・振幅プロセッサ１０３区分単位プロセッサ１０４音韻プロセッサ１０５区分単位リンカー１０６合成フィルタ１０７持続時間・振幅データベース１０８区分単位データベース

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピエルッチピエロイタリア国アイ 00146、ローマ、ヴィアピー．メンゴリ 14

Claims

【特許請求の範囲】

【請求項１】連鎖的テキスト−音声合成プロセスにお
いて、言語のフォノタクティカル制約を反映する音響エ
ルゴード隠れマルコフモデル（ＡＥＨＭＭ）を用いて音
響単位の集合をコンパクトに表現する方法であって、ａ）トレーニングの間に発せられた音声が分割されるフ
レームから抽出された音声特徴ベクトルを観測シーケン
スとして考え、発声フレームを発した可能性が最も高い
と考えられる音源のシーケンスを隠れたシーケンスとし
て考えて、ＡＥＨＭＭを構築する工程と、ｂ）前記ＡＥＨＭＭと同じ大きさを有するベクトル量子
化クラスタリング方式によって前記ＡＥＨＭＭを初期化
する工程と、ｃ）前後方向アルゴリズムとバウムウェルチ再評価公式
によって前記ＡＥＨＭＭをトレーニングする工程と、ｄ）音声合成用に区分単位の集合を構築する工程と、ｅ）前記ＡＥＨＭＭのラベリング特徴を用いて前記区分
単位を符号化する工程と、を含む音響単位の集合をコンパクトに表現する方法。
【請求項２】最適性判定基準を用いて連鎖的音声合成
プロセスに対し区分単位を復号化且つリンキングする工
程をさらに含む請求項１記載の音響単位の集合をコンパ
クトに表現する方法。
【請求項３】合成すべきテキストを入力するためのテ
キスト入力手段（１００）と、書記素入力を音声表現に
変換するテキストプロセッサ（１０１）と、音声の持続
時間と振幅のパラメータを決定するための持続時間・振
幅プロセッサ（１０２）と、合成すべき発声について音
韻曲線を決定するための音韻プロセッサ（１０４）と、
連鎖的区分単位のシーケンスを決定するための区分単位
プロセッサ（１０３）と、フィルタ係数を判断する前記
区分単位をリンクする区分単位リンカー（１０５）と、
前記音韻とエネルギー曲線ならびにフィルタ係数を用い
て生成すべき音声を合成する合成フィルタ（１０６）
と、を含む連鎖的テキスト−音声シンセサイザシステム
であって、音響エルゴード隠れマルコフモデル（ＡＥＨＭＭ）符号
器によって構築される区分単位データベース（１０８）
を含み、前記区分単位リンカー（１０５）は前記データ
ベース（１０８）から取得され且つ区分単位に対応する
ラベルのシーケンスをスペクトル特徴ベクトルのシーケ
ンスに変換する区分単位復号化プロセッサ（ＳＵ１１）
と、スペクトルパラメータの表現領域を補間プロセスに
適切なものに変更する係数変換プロセッサ（ＳＵ１２）
と、前記合成フィルタ（１０６）についてスペクトル特
徴ベクトルのシーケンスを生成する区分単位に対する補
間・ストレッチングプロセッサ（ＳＵ１３）と、前記合
成フィルタ（１０６）によって直接使用するために前記
スペクトル係数表現の領域を変換する逆変換プロセッサ
（ＳＵ１４）と、を含む連鎖的テキスト−音声シンセサ
イザシステム。
【請求項４】前記区分単位リンカー（１０５）が、正
確な音声持続時間を有するラベルのシーケンスを生成す
るコピーによるストレッチングプロセッサ（ＳＵ２１）
と、ラベルのシーケンスをスペクトル特徴ベクトルのシ
ーケンスに変換する区分単位復号化プロセッサ（ＳＵ２
２）と、スペクトルパラメータの表現領域を補間プロセ
スに適切なものに変更する係数変換プロセッサ（ＳＵ２
３）と、特徴ベクトルの最も可能性の高いシーケンスを
言語のフォノタクティカル制約に対して生成するために
最適性判定基準を使用するＡＥＨＭＭ補間プロセッサ
（ＳＵ２４）と、前記合成フィルタ（１０６）によって
直接使用されるようにスペクトル係数表現の領域を変換
する係数逆変換プロセッサ（ＳＵ２５）と、を含む請求
項３記載の連鎖的テキスト−音声シンセサイザシステ
ム。