JPH05197398A - 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム - Google Patents

音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム

Info

Publication number
JPH05197398A
JPH05197398A JP9553292A JP9553292A JPH05197398A JP H05197398 A JPH05197398 A JP H05197398A JP 9553292 A JP9553292 A JP 9553292A JP 9553292 A JP9553292 A JP 9553292A JP H05197398 A JPH05197398 A JP H05197398A
Authority
JP
Japan
Prior art keywords
speech
aehmm
processor
sequence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9553292A
Other languages
English (en)
Inventor
Massimo Giustiniani
マッシモ ジウスティニアニ
Piero Pierucci
ピエロ ピエルッチ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH05197398A publication Critical patent/JPH05197398A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【目的】 音響エルゴード隠れマルコフモデルに基づく
スペクトル符号化方法を使用することによってテキスト
−音声合成のための音響区分単位の集合をコンパクトに
表現する。 【構成】 AEHMMを構築し、AEHMMと同じ大き
さを有するベクトル量子化クラスタリング方式によって
AEHMMを初期化する。さらに、前後方向アルゴリズ
ムとバウムウェルチ再評価公式によってAEHMMのト
レーニングを行ない、音声合成用に使用される区分単位
の集合を構築する。AEHMMのラベル付け特徴を用い
て区分単位を符号化し、AEHMM復号器によって音声
合成のための連鎖状にすべき区分単位の集合を復号化す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自動テキスト−音声合成
の分野、特に、連鎖的テキスト−音声合成システムのた
めの音響単位の大きな集合をコンパクトに表現する方法
とかかる方法を用いた音声合成装置と、に関する。
【0002】
【従来の技術】無制限に書き込まれたテキストから音声
を合成する一つの方法は、連鎖状にすべき事前格納され
た区分単位の使用を含む。テキスト−音声合成において
事前格納された区分単位を使用することは、「自動音声
合成(Automatic Speech Synthesis)」(D.オショネ
シー著、IEEE通信誌、26−34頁、1983年1
2月〔by D.O'Shaughnessy, in IEEE Communications M
agazine, pp. 26-34, Dec.1983〕)と、「イタリア人向
けテキスト−音声合成システム(A text-to-speech sys
tem for Italian )」(R.デルモンテ他著、ICAS
SP会報、サンディエゴ、カリフォルニア州、1984
年4月〔by R.Delmonte et al., in Proceedings of IC
ASSP, San Diego, Cal., Apr. 1984〕)などの種々の論
文に記載されている。
【0003】事前格納された区分単位の連鎖に基づくテ
キスト−音声合成を実行する際に、入力テキストは、音
声合成目的に対しより適切な一連の音声記号に変換され
るように最初に処理される。
【0004】テキスト処理中に生成された音声記号シー
ケンスに従って、それに対応する連鎖状にすべき区分単
位のシーケンスが生成される。さらに、音声シンセサイ
ザに対する入力シーケンスを作成するために、区分単位
パラメータのシーケンスが検索される。区分単位表現に
応じて、その音声シンセサイザに対し適切な係数の集合
を得るために、一般的に正確な変換が行なわれる。その
後、各区分単位ごとに音声シンセサイザが駆動されて、
合成音声信号を生成する。
【0005】各区分単位の種類と大きさは、所望の合成
音声品質とその結果得られる区分単位集合のメモリ占有
率を考慮して、注意深く選択される必要がある。通常、
高品質の合成音声が必要とされる場合、1音節又はそれ
以上の大きさの区分単位を使用することが可能である
が、但し、これは一つの言語に可能な音節の数が非常に
多いために非常に大きなメモリを必要とする。一般的に
区分単位の大きさが減少されると、結果的に合成音声品
質が低下するわけは、自然音声に発生する多数の調音結
合現象が表現されないからである。この場合、メモリの
要求条件は先の場合よりもずっと少なくなる。音素型の
区分単位の使用によって大量メモリ占有の保管を可能に
するが、その結果得られる合成音声の品質は非常に低下
する。合成音声品質とメモリ占有率との間の合理的トレ
ードオフは通常、二重音声区分単位、即ち、2つの音声
単位間に発生する調音結合現象を表わす単位、によって
得られる。自然音声では音声事象の発生は先行する音素
及び/又は次の音素による影響のみを受けるので、音素
の組合せにのみ拡張する単位による調音結合効果を表現
することが可能になる。音声合成プロセスに対する適切
な単位として二重音声単位が最初に開示されたのは、
「セグメントアセンブリ二重音声方法を使用した連続音
声の端末アナログ合成(Terminal Analog Synthesis of
Continuous Speech using the Diphone Method of Seg
ment Assembly )」(N.R.ディクソン、H.D.マ
ックセイ、IEEEオーディオ・電気音響学紀要、N.
16、40頁、1968年〔by N.R.Dixon, H.D.Maxey,
in IEEE Transactions on Audio and Electroacustic
s, N.16, p.40, 1968〕)においてであり、この手法を
用いて多数の音声合成システムが開発されている。区分
単位数とメモリ占有率との間におけるトレードオフの関
係によって、高品質且つ低コストの音声合成システムの
開発に対してこの技術は適切なものではない。
【0006】二重音声単位の数Nは、合成すべき言語に
応じて千単位から3千単位までのオーダで変化する。二
重音声単位の組の大量メモリの占有率を妨げるために、
主として音声のスペクトル表示に基づく多数のコーディ
ング(符号化)技法が採用されている。集合U≡
(un )(1≦n≦N)におけるそれぞれの区分単位ご
とに音声信号は連続的間隔Un,1'1≦l≦ln (ln
区分単位Un における区画の数)、通常は20ms長の
フレーム、に分解される。それぞれの間隔Un,1 ごと
に、音声信号は人の音声知覚の主要な心理音響の特性に
対して音響プロセッサによって検査される。その後、各
間隔は合成目的にふさわしいP係数an,1,p 、(1≦p
≦P)(通常は、0≦P≦16)によって表現される。
その主な方法は、異なる音声処理分野で使用される他の
手法が音声合成に直接使用されるには不適切であるがた
めに、音声の線形予測符号化(LPC)に依存するもの
である。さらに、音声信号は典型的な音声間遷移に対す
る格納済みスペクトル表示を活用して合成され、一方、
定常性状態の単音区分は遷移の終りと次の遷移の開始と
の間にスペクトルを補間することによって得られる。他
の多くの言語と同様にイタリア語についても、十分認識
可能な定常性状態を示さない音声単位がある(例えば、
その発生全体における「r」又はイタリア語「aiut
o」における半母音「i」)。このクラスの音素につい
ての優れた知覚結果は、音素全体を遷移として考えるこ
とによって得られる。即ち、二重音声の代わりに、「三
重音声」と普通称されている3つの音素単位を処理する
必要がある。二重音声の代わりに3つの音素区画を考慮
することによって、結果的に区分単位集合のメモリ占有
度は当然大きくなることは、遷移が長くなり且つ格納単
位数が大きくなることが原因である。
【0007】伝統的な区画合成方式におけるメモリ占有
度の計算は、以下のように行なわれる。区分単位集合が
それぞれ10フレームの平均長1av d =10を有するN
d =600の二重音単位と、各々が1av t =20の平均
長を有するNt =300の三重音単位と、から構成され
ることを仮定する。妥当な数値の係数、P=14である
LPC符号化を活用して各々の係数を2バイトの浮動小
数点表現によって表示することによって、メモリ占有度
は(Nd *1av d +Nt *1av t )*P*2=336,
000バイトになる。この値は、利用可能なメモリサイ
ズが極めて制約されることの多いとされるリアルタイム
適用に対しては特に高い。それぞれのLPC係数を2バ
イトの浮動小数点で表現する場合の可能な2つの解決法
として、異なる符号化方式の使用又は区分単位数の減少
がある。
【0008】第1の解決法、即ち、異なる符号化方式、
の主要な欠点は、主として採用されるコーダ(符号器)
の局部的特性のために合成音声品質が非常に低下するこ
とである。第2の解決法の欠点は、調音結合現象の表示
具合が悪くなるために合成音声品質が低下することであ
る。
【0009】
【発明が解決しようとする課題】本発明の目的は、上記
欠点を解消して、隠れマルコフモデル(HMM)技法に
基づくスペクトル符号化方法を使用することによって区
分単位集合をコンパクトに表現する問題を解決すること
である。
【0010】本発明の主な利点は、それがメモリ占有度
をドラスチックに低下させることと、二重音と三重音の
大きな集合体が従来の技法を使用して二重音のみの同一
集合体を表現するために必要とされるものよりも小さい
メモリ空間に格納可能であることである。本発明によれ
ば、同量のメモリを使用してより大きな集合の区分単位
を格納することができるので、自然音声に存在する調音
結合現象をより十分に表現することが可能になる。もう
一つの利点は、合成音声再構成プロセスにおいてHMM
手法の使用によって、音響装置力学の詳細な模型を用い
て連結された区分単位の境界におけるスペクトル軌跡の
平滑化を可能にすることである。
【0011】
【課題を解決するための手段】本発明は区分単位をコン
パクトに表現する目的を、以下(a)、(b)を使用す
ることによって達成するものである:(a)従来技術の
区分単位集合を構成するために決定されるデータ、
(b)極めて低度なメモリ占有度を有する直送式符号化
と再構成方式を可能にする、スペクトル定常性態と力学
を考慮した音響装置モデル。
【0012】まず、基準スピーカーによって提供される
音声信号を用いて、「二重音単位抽出用データベース
(A Database for Diphone Units Extraction )」
(G.フェリ他著、音声合成に関するESCA・ETR
W紀要、フランス、1990年9月〔by G.Ferri et a
l., in Proceedings of ESCA ETRW on Speech Synthesi
s, Autrans, France, Sep. 1990〕)と題する論文に述
べられたような半自動セグメント化技法に基づく従来の
手法を使用して区分単位の集合Uが決定される。さら
に、同じ音声材料を用いて、その言語のスペクトル力学
のモデルを得るために音響エルゴード隠れマルコフモデ
ル(以下、AEHMMと称する)がトレインされる。
【0013】集合Uの区分単位Uk ごとに適切なパラメ
ータ表現を計算することによって、シーケンスP
n,1 (1≦n≦N,1≦l≦lk )が得られる。その
後、AEHMM符号器の最もあり得る状態シーケンスq
n,1 は、シーケンスpn,1 を入力とヴィテルビ・アルゴ
リズムとして使用して計算される。同プロセスは集合U
内の各区分単位Uk ごとに反復して行なわれる。
【0014】合成時に適切な区分単位が選択且つ共に連
結されて、状態ストリングqn,1 +qw,1 +・・・が提
供される。最後に、この状態シーケンスがAEHMM復
号化段階に対する入力として使用されることによって、
音声シンセサイザに送られるLPCパラメータの適切な
シーケンスが生成される。
【0015】本発明のスペクトル符号化方法のメモリ占
有度の計算は以下の通りである。先の区分単位集合(1
0フレームの平均長1av d を有する600個の二重音単
位と、20フレームの平均長1av t を有する300個の
三重音単位)について、AEHMMの状態数が良質の音
声を実現するための妥当な値であるM=256であると
仮定して、再度計算が実行される。まず、結果どうしの
比較を容易にするためにAEHMMコードブック全体を
表現すべきものとする。即ち、コードブックは各係数ご
とにP=14、2バイトの浮動小数点表現によって計算
され、即ち、M*P*2=7,168バイトになる。区
分単位集合を表現するために、各フレームごとに1バイ
ト、即ち、AEHMMモデルのラベルの大きさ、の必要
性が存在し、その結果、Nd *lav d +Nt *lav t
12,000バイトの占有度になることがわかる。この
ようにして、全体のメモリ占有度は7,168+12,
000=19,168バイト、即ち、合成音声の品質を
著しく低下させることなしに先のメモリ占有度の計算値
に対して94%以上のメモリ空間を節約することにな
る。この手法によれば、予測オーダ、従って音声合成品
質を向上させることが可能であり、遷移表現のサイズに
ではなく、コードブックにのみ影響を及ぼす。同じ理由
により、小型メモリのリアルタイム・シンセサイザにお
いて通常使用される可変長、固定小数点パラメータ符号
化の負担をもはや受ける必要はない。同じ占有度ならび
に更にそれより低い占有度がより一層正確且つ信頼でき
る浮動小数点符号化を使用して得ることができるのは、
格納すべき浮動小数点係数の数が使用される遷移数では
なく、コードブックのサイズによって決定されるからで
ある。このコードブックのサイズは限界的ではない。実
際、実験結果が示すところによれば、ほとんどの場合に
おいてM=256状態のコードブックが適切な音声合成
品質を得るのに十分である。即ち、結果として得られる
量子化された音声が連続パラメータ表現からは主観的に
識別されないために、256以上の大きさは必要ではな
い。
【0016】
【実施例】区分単位集合の生成 区分単位集合の生成は通常、音声学のエキスパートによ
って行なわれる。静かな状態の下で自然キャリア発声の
集合が選択且つ記録されて、所与の言語における重要な
共起音のすべてを表現することができる。その後、音響
信号はアナログ・ディジタル変換技法を用いてディジタ
ル形式に変換される。さらに、区分単位は、概してスペ
クトル表現を視覚検査することによってキャリア発声か
ら抽出されて、手操作によって区分単位境界を位置決め
する。概して、区分単位境界は通常、「自然音声から二
重音要素を抽出する体系的手法(A Systematic Approac
hto the Extraction of Diphone Elements from Natura
l Speech )」(H.キースリン、IEEE紀要ASS
P−34、No.2、1986年4月〔by H.Kaeslin,
in IEEE Transactions ASSP-34, N.2, Apr. 1986〕)と
題する論文に述べられているように、隣接する音声事象
のスペクトル定常性状態領域に位置決めされる。最後
に、それぞれの区分単位Un (1≦n≦N)のコピーは
ある編集特徴を用いて生成され、容易に検索され得るよ
うに適切な標本化データフォーマットに格納される。
【0017】この段階において、合成プロセス用にもう
一つのデータ集合、即ち、振幅ならびに持続時間データ
ベース、が作成される。これは、自然音声データから取
り出される言語、平均持続時間ならびに一定の振幅にお
ける各音素について音節における位置を含む。この手順
に関する詳細は「音節韻律的モデルの自動推論(Automa
tic Inference of a Syllabic Prosodic Model)」
(A.ファラシ、M.ジウスチニアニ、P.ピエルッ
シ、音声合成に関するESCA・ETRW紀要、フラン
ス、1990年9月〔by A.Falaschi, Ma. Giustinian
i, P.Pierucce in Proceedings of ESCA ETRW on Speec
h Synthesis, Autrans, France, Sep. 1990〕)と題す
る論文に見られる。
【0018】区分単位集合の符号化 音声信号は、声帯及び/又は発声器官内の狭窄から生成
される声道動作、即ち、発声器官の形状、音源信号、に
関する情報を含む。テキスト−音声合成の応用におい
て、音源信号の寄与が区分単位の表現から放棄されるこ
とが多いのは、それが合成段階において区分上の特性か
ら容易に再構成され得るからである。区分単位集合を確
立する次のステップは適切な表現を用いて標本化データ
ファイルを符号化することである。そのための可能な候
補として、離散的フーリエ変換、フォーマットトラッ
ク、ならびに線形予測符号化(LPC)があげられる。
この三番目の方法は、主に声道表現を自動的に判断する
ことが可能であるために、区分単位連鎖を使用するテキ
スト−音声合成に対し最も使用頻度が高い。補間段階に
おいて使用されるLPC係数とその他の係数(ログエリ
ア比)と合成プロセスにおいて使用される係数(反映係
数)と、の間には多数の関係が実証されている。区分単
位集合のLPC表現の決定は直送式に行なわれる。集合
Uにおける各区分単位un ごとに、標本化データ信号は
約20msの持続時間を有する小さなフレームun,1
分割される。それぞれの区画に対して信号の自己相関が
計算されて、声道の動作を表わす一組のP係数an,1,p
を得るためにレヴィンソン回帰法が適用される。数Pは
表現の正確さに関係があり、P=14は音声信号特性を
表わすのに十分な値である。一例として、1n =10の
時、LPC係数の集合an,1, p (1≦l≦ln ,1≦p
≦P)は80msの長さと8msフレーム間隔を有する
区分単位un に対して得られる。
【0019】AEHMM定義 HMMに基づく区分単位集合のスペクトル符号化を得る
ために、本発明では連続スペクトル密度のエルゴード隠
れマルコフモデル(以下、AEHMM、即ち、音響エル
ゴード隠れマルコフモデルと称する)を使用することが
教示されている。この特定種類のマルコフモデルの完全
な記載は「音声学的隠れマルコフモデル音声シンセサイ
ザ(A Phonetic Hidden Markov Model Speech Synthesi
zer )」と題するヨーロッパ特許出願第9011978
9.7号に見ることができる。簡単に言えば、AEHM
MのM個の状態の各々に対応して、音声フレームを観察
する確率を与える連続する観測確率分布と、音声データ
から抽出されるパラメータ観測値の入力シーケンスを一
定とした時、時刻t−1における状態から時刻tにおけ
るその他全ての状態へ移行する確率を与える遷移確率
と、がある。観測確率関数、M状態の各々についての1
個は、音声信号の局部スペクトル特性を表わし、即ち、
それらは、所定言語の基本アルファベット音を表わして
いる。遷移確率、即ち、M状態の各々についてのMは、
音声信号スペクトル力学を支配する規則、即ち、音声生
成機構に存在する制約、を意味する。従って、AEHM
Mモデルは以下のように示される。
【0020】ΩAEHMM ≡{M,Q,Π,A,F} 但し、Mはモデルの大きさ、即ち、モデルの状態の数で
あり、Qは状態の集合、Πは初期確率ベクトル、Aは状
態遷移マトリックス、Fは観測確率関数の集合である。
【0021】M状態の集合Q≡(qi )であると仮定す
ると、大域モデルは次の初期確率値の集合によって完全
に定義される。
【0022】 Π≡{Πi =Prob(qi t=0 )},1M 上記式は、時刻t=0における状態qi の絶対確率と以
下の確率的遷移マトリックスを表わす。
【0023】 A≡{qi,j =Prob(q j t /q i t-1 )},1i,jM 上記マトリックスは状態間の遷移規則を考慮し、時刻t
−1における先の状態iに条件づけられた時刻tでの入
力状態jの確率を示す。
【0024】隠れマルコフモデルは、一方が観察可能で
他方が隠れた2つの確率的プロセスを表わす。AEHM
Mにおいて、観測プロセスは音声から抽出される特徴の
シーケンスであり、一方、潜在する隠れプロセスはその
観測音声を生成した可能性が最も高い局部音源のシーケ
ンスである。これはAEHMMがそれぞれの音声信号フ
レームから計算された特徴を状態又は状態の集合、従っ
て、その信号フレーム特徴を発した可能性が最も高い対
応信号源に関連づけることを意味する。それぞれの信号
源はラベルと称される連続的な数によって表わされ、こ
の場合、ラベルの数はAEHMMの大きさに等しい。最
終結果として、AEHMMはフレームを発した可能性が
最も高い信号源のそれぞれのラベルを各フレームと対応
付ける。この動作は音響ラベル付けと称される。
【0025】どんな種類の特徴表現を使用しても、それ
らが信号のスペクトルを表現するために有効である限
り、本発明においてAEHMMを使用する際の基本ポイ
ントは、発声について音源のシーケンス、従ってその観
測発声を生成する可能性が最も高いラベルのシーケン
ス、を生成することであり、この場合、確率が局部的で
はなく発声全体について計算されるのは、標準ベクトル
量子化器を使用しているからである。これは、音源識別
が局部的に行なわれず、発声の展開全体を考慮し、遷移
マトリックスに具体化された音声的(フォノタクティカ
ル)制約を考慮に入れて行なわれることを意味する。
【0026】AEHMMパラメータ評価 モデルを構築するためには、ある種の距離又は歪み測度
を使用すべきであり、本実施例では、尤度比歪み測度が
好ましいとされているが、他の種類の測度も同様に使用
することができる。AEHMMはそこで使用される同じ
音声パラメータ表現に適用される任意の標準クラスタリ
ングアルゴリズムによって初期化される。再評価手続の
計算上の必要条件を減少するために、モデルはAEHM
Mと同一サイズのベクトル量子化クラスタリング方式
(以下、VQと称す)によって初期化されるのが好まし
く、「音声信号用のトレリスベクトル量子化器の設計と
性能(Design and Performance of Trellis Vector Qua
ntizers for Speech Signals)」(B.H.ジュアン
著、IEEE紀要ASSP−36、No.9、1989
年9月〔by B.H.Juang, IEEE Transactions ASSP-36,
N.9, Sep. 1989 〕)と題する論文と、「ベクトル量子
化に基づく音声符号化(Speech coding based uponVect
or Quantization)」(A.バゾ、A.H.グレイ ジ
ュニア、R.M.グレイ、J.D.マーケル共著、IE
EE紀要ASSP−28、562−574頁、1980
年10月〔by A.Buzo, A.H.Gray Jr., R.M.Gray, J.D.M
arkel, in IEEE Transactions ASSP-28, PP.562-574, O
ct. 1980〕)と題する論文と、に記載の通りAEHMM
モデル再評価手続用に以下で使用される同一の発声集合
に適用される。状態観測密度の初期評価値はベクトル量
子化器コードブックの中心軌跡の特徴ベクトルから直接
得ることができ、一方、提案された特徴表現における分
散量は正規化LPC残留エネルギーである。状態遷移確
率マトリックスの初期評価値はVQラベルli から始ま
る観測組合せの総数によって分割された、連続するVQ
ラベルli とVQラベルlj の生起数によってVQ量子
化発声の集合を使用して得ることができる。即ち、以下
の通り。
【0027】
【数1】
【0028】この場合、Coc(li t-1 ,l j t )は
トレーニング・データにおいて時刻t−1でVQラベル
i が、その後に時刻tでVQラベルlj が来るVQラ
ベルの同時発生を表わす。初期確率ベクトルの初期評価
値は観測ラベルの総数によって分割されるVQラベルl
i の生起数と同様にして以下の通り計算することができ
る。
【0029】
【数2】
【0030】この場合、Cnt(li )はトレーニング
・データにおけるVQラベルli の生起数である。さら
に、トレーニングは通常の前後方向回帰とバウム・ウェ
ルチ再推定公式によって音声器官において実行される。
トレーニング・データのサイズの必要条件を減少させ、
全体の評価手続を向上させるために、全ての音声データ
が同一のスピーカーによって発せられることが望まし
い。更に、発生は音声学的にバランスがとれていること
が好ましく、これは、それらがその言語に特有の音声事
象全体を表現するものであることを意味する。
【0031】区分単位集合のAEHMM符号化 符号化アルゴリズムは周知のヴィテルビアルゴリズムを
利用して、それぞれの音声フレームシーケンスを、フレ
ームシーケンス自体である観測を発する可能性が最も高
いラベル状態シーケンスと対応付ける。提案された実行
例において、音声スペクトルは自己相関関数rp (1≦
p≦P)の最初のPラグと、線形予測利得σとによって
表わされる。これは、音声がオーダPの自己回帰プロセ
スとしてモデル化されることを意味する。
【0032】区分単位un ごとに、信号はフレームと称
される同一長のスライスun,1 に分割され、自己相関関
数とLPCがフレームごとに計算され、シーケンスr
n,1,p, n,1 ,(1≦n≦N,1≦l≦ln )が得られ
る。その後、AEHMM符号器の最も可能性の高い状態
n,1 のシーケンスが、シーケンスrn,1,p,σn,1 を入
力として、さらにヴィタルビアルゴリズムとして使用し
て計算される。自己相関ラグの数であるPの適切な値は
14であるが、他の値も同様に使用できる。区分単位ご
とにヴィテルビアルゴリズムを駆動させて、対応する音
響ラベルシーケンスを得る。AEHMMラベルによる区
分単位表現は参照集合内に格納される。同プロセスは集
合の区分単位の全体が考慮されるまで繰り返し行なわれ
る。
【0033】合成システムの解説 図1は本発明を使用したテキスト−音声シンセサイザの
ブロック線図である。図において、本発明の主題である
構造のみが完全に述べられており、一方、従来技術にお
いて周知である音声合成に必要な構成要素は簡単に述べ
られているにすぎない。図1のテキスト−音声シンセサ
イザはテキスト入力モジュール100と、テキストプロ
セッサ101と、持続時間・振幅プロセッサ102と、
区分単位プロセッサ103と、音韻プロセッサ104
と、区分単位リンカー105と、合成フィルタ106
と、を含む。107、108で記されたブロックはそれ
ぞれ、持続時間・振幅データベースと区分単位データベ
ースであり、先の項目「区分単位集合の生成」と「区分
単位集合のAEHMM符号化」の教示に従って構築され
る。
【0034】要約すると、テキスト入力100は文字群
の書記素ストリングを受取る。テキストプロセッサ10
1は音声アルファベットと一組の規則を用いて入力され
た書記素ストリングを音声ストリングに変換するので、
出力音声記号と合成(文字−音声規則)に使用される音
響単位の集合との間に一対一の対応関係を有するように
なる。テキストプロセッサ101はストレス(アクセン
ト)位置決め規則、フォノタクティック規則、音節化規
則、形態素統語解析および音声翻訳規則を含む。テキス
トプロセッサ101はシステムによって要求される言語
学的知識の大半を組込み、その構造においては言語に依
存する。イタリア語の音声記号の可能な集合は図2に示
される。従来技術では、文字−音声の変換問題を取扱う
ための種々の技法が開示されている。イタリア語につい
てかかる手法を論じたものは、「イタリア語用テキスト
/音声合成のための音声翻訳規則(Phonetic Transcrip
tion Rules for Text-to-Speech Synthesis of Italia
n)」(P.L.サルツァ著、音声学、No.47、6
6−83頁、1990年(by P.L.Salza, in Phonetic
a, n.47, pp.66-83, 1990) )と題する論文において見
られる。入力テキストのサンプルは図3に示されてお
り、ここでは「Questo e' un esempio di frase 」
(「これは例文である」)という文章が一例として使用
されている。図4は音節に分割された文章を示してい
る。図5は上記例に使用される文章の音声的翻訳を示
す。テキストプロセッサ101により生成された音声記
号のストリングは持続時間・振幅プロセッサ102、区
分単位プロセッサ103及び音韻プロセッサ104に送
信される。
【0035】持続時間・振幅プロセッサ102は、合成
すべき各音声記号ごとに正確な持続時間と振幅を求め
る。このモジュールは、所望の出力を生成するために音
節モデルと形態素統語情報を活用するものであり、同モ
ジュールは音素の固有持続時間の概念に基づき、各音素
は音節内のその位置に従い、また、字句ストレス(アク
セント)について別個に考えられ、この種の音節モデル
は学問的に既に提案されている。特に音声データの集合
体は、単語における音声記号の音節位置が与えられた場
合の正確な振幅と持続時間の値を決定するために予め検
査されている。この技法に関する詳細は「音節韻律的モ
デルの自動推論(Automatic Inference ofa Syllabic P
rosodic Model)」(A.ファラシ他著)と題する前記
引用された文献において見ることができる。その後、固
有持続時間は文章内の単語の音声の一部(パート・オヴ
・スピーチ、以下、POSと称する)に従って引き延ば
され、POSに従って持続時間を修正するアルゴリズム
は、「テキストから音声へ(From text to speech ):
MITalkシステム」(J.アレン、M.S.ハニカ
ット、D.クラット共著、ケンブリッジ大学出版局、1
987年(by J.Allen, M.S.Hunnicutt, D.Klatt, Camb
ridge University Press, 1987))と題する書物に示さ
れている。その他の種類の処理方法も同様に使用でき
る。この処理の結果は、音素シーケンスが表わされ、各
音素はその音節位置を識別して、そこから固有持続時間
を識別するのに使用されるインデックスの組を関連付け
ている図6と、単語のシーケンスとそれに対応するPO
Sが示されている図7において見られる。エネルギー計
算のための他の手続を使用することもできる。持続時間
・振幅プロセッサ102の出力は音韻プロセッサ10
4、区分単位リンカー105、合成フィルタ106に対
し送信される。
【0036】区分単位プロセッサ103は、基本的音声
記号に対応する区分単位のシーケンスを決定する。入力
ストリング内の各音声記号si ごとに、左側si-1 及び
右側si+1 の音声上のコンテキスト(前後関係)が決定
される。左右のコンテキスト、即ち、Fi-1,i ≡si-1
→si 及びFi,i+1 ≡si →si+1 、の境界における調
音結合化減少を表わす一対の区分単位の識別子は、音声
記号に対し割り当てられる。区分単位識別子は、遷移s
i-1 →si 及びsi →si+1 が得られるまで区分単位デ
ータベース108内を探索することによって決定され
る。区分単位プロセッサ103の出力は区分単位リンカ
ー105へ送信される。図8には、区分単位プロセッサ
103の入出力関係の一例が示される。
【0037】音韻プロセッサ104は、合成すべき文章
のイントネーション(抑揚)曲線を作成するために、入
力として音韻ストリングを受信する。各音素ごとに、フ
レーズの文章レベル(疑問文、平叙文)や音素が所属す
る単語の重要性(名詞、動詞、形容詞・・・)や、スト
レス位置、イントネーション曲線の連続的制約を考慮し
て、励起関数(ピッチ)の周期が決定される。合成の際
に使用されるピッチ値のシーケンスは、このフレーズの
最後で得られる。かかるシーケンスは合成フィルタ10
6に送られる。
【0038】区分単位ストリングのセグメント化段階
と、持続時間・振幅プロセッサ102によって生成され
た音声持続時間値と、に従って、スペクトルパラメータ
の設定が区分単位リンカー105によって初期化され
る。一般的に、各区分単位は対応する音声事象の正確な
持続時間に到達するために引延ばされて、区分単位境界
におけるスペクトルと振幅の断続を防止するために適切
な補間方式が適用される。区分単位リンカー105は、
図9と図10の2つの異なる実行例SU1とSU2にお
いてそれぞれ示されている。
【0039】第1の実行例では、まず区分単位は区分単
位復号化プロセッサSU11によって復号化され、この
プロセッサSU11のタスクは、AEHMM区分単位表
現を一連の特徴ベクトルに逆変換することである。区分
単位復号化プロセッサSU11は、先のAEHMMトレ
ーニングにおいて決定されるように、各ラベルごとにそ
の対応するAEHMMの原始モデルの対応付けを行な
う。これは、本実施例において区分単位符号化手順から
結果的に得られる各ラベルに対しソースパラメータの期
待値のベクトルが対応付けられることを意味する。これ
は多変量ガウス分布を直接使用することである。この場
合、各ラベルにはガウス密度分布自体の平均値が対応付
けられる。その後、区分単位は、適切な補間方式を用い
て正確な持続時間に到達するために引き延ばされる。補
間段階は音声シンセサイザを設計する上で重要な問題で
ある。かかるスペクトル補間を可能にするために区分単
位表現を選択するか、又はその代わりに、補間方式の適
用の前後に採用された表現に対して正確な変換が付加さ
れる必要がある。当然、特徴が補間方式に対して線形で
あることは望ましいことである。予測係数が使用される
場合、それらは、例えばログエリア比等のより多くの線
形特徴に変換されることが好ましい。SU12の特徴ベ
クトル変換はΓ(ai )によって表示され、異なる一組
の特徴ベクトル、li は以下の通り示される。
【0040】L≡{li =Γ(ai )},1
【0041】その後、SU13の線形補間方式は、 li =ah,i ×m+ak,i ×M−m,1M であるように隣接する区分単位hとkの特徴ベクトルの
間に適用され得る。この場合、Mは境界音素の定常状態
部分の長さであり、h、kはそれぞれ入・出力区分単位
の識別子である。さらに、その結果は係数逆変換プロセ
ッサSU14によって合成プロセスに適切なスペクトル
表現に逆変換される。
【0042】この提案された実行例において、「音声波
の線形予測による音声解析と合成(Speech Analysis an
d Synthesis by Linear Prediction of the Speech Wav
e )」(B.S.アタル、S.L.ハノーア共著、アメ
リカ音響学協会誌、第50巻、No.2、637−65
5頁、1971年4月(by B.S.Atal and S.L.Hanauer,
in The Journal of the Acoustic Society of Americ
a, Vol.50, N.2, pp.637-655, Apr. 1971))と題する
論文に記載の通り、以下の反映係数が使用される。
【0043】k≡{ki =Δ(li )},1P 合成フィルタ106に送られるべきスペクトルパラメー
タのシーケンスはこのフレーズの最後で得られる。
【0044】図10の区分単位リンカー105(SU
2)の第2の実行例では、コピーモジュールSU21に
よるストレッチ(引延ばし)において正確な持続時間に
到達するために、隣接する遷移の境界区画をレプリカー
ト(反復)することによって引延しが簡単に得られる。
【0045】これは、正確な持続時間に到達するまで隣
接区画の境界ラベルが単に反復されることを意味する。
AEHMM区分単位復号モジュールSU22へ送られる
べきラベルのシーケンスはこのフレーズの最後に取得さ
れる。モジュールSU22の構成と動作はモジュールS
U11のそれと同一である。次の段階では、特徴ベクト
ルを補間に対しより一層適切な表現領域に変換すること
を行なう。モジュールSU23はモジュールSU12に
ついて図解されたものと同一視される係数変換手順を含
む。その後、AEHMM補間プロセッサSU24が呼び
出される。このプロセッサは、合成フィルタ106で使
用されるべき実際の特徴ベクトルを生成するための計算
を起動させる。この目的のためにAEHMMコードブッ
クの変換特徴ベクトルの加重平均が計算される。さら
に、合成すべき各フレームごとの出力特徴ベクトルは、
コードブックの各変換特徴ベクトルを時刻tにおけるそ
の確率によって加重することによって、以下の通り計算
される。
【0046】
【数3】
【0047】この場合、prob(τ i t )は前後方向
アルゴリズムによって計算された時の各状態の確率であ
り、li はそれに対応付けられる大きさMを有するコー
ドブックの特徴ベクトルであり、u t avはその結果得ら
れる合成フィルタ106に送られる特徴ベクトルであ
る。さらに、その結果はモジュールSU25によって合
成プロセスに適切なスペクトル表現に逆変換され、この
モジュールの構成はモジュールSU14と同様である。
【0048】振幅・スペクトルパラメータのシーケンス
とピッチ値のシーケンスに従って、合成音声は合成フィ
ルタ106により生成される。合成されるべき各区分ご
とに、振幅、ピッチ及びスペクトルパラメータが入力か
ら取り出される。その後、音声合成アルゴリズムは起動
されて合成音声の区分が得られる。図11には、反映係
数k1,・・・kp の集合は1・・・pとラベル付けされ
たボックスを供給し、音韻プロセッサ104により生成
されたピッチパラメータは発声制御を送り込み、以下の
正規化予測誤差Gにより乗じられて、持続・振幅プロセ
ッサ102によって生成された振幅が利得制御を行う。
【0049】
【数4】
【0050】シンセサイザの作用 「区分単位集合の生成」の項目において考えられたよう
に、いったん区分単位データベース108と持続時間・
振幅データベース107とが構築され、AEHMMパラ
メータが「AEHMMパラメータ評価」の項目で想定さ
れたように求められ、さらに区分単位集合が「区分単位
集合のAEHMM符号化」の項目で想定されたように符
号化されたとすると、テキスト−音声合成プロセスの全
体は以下の通り要約され得る。*書込みされたテキスト
がテキスト入力100を介して入力されて、テキストプ
ロセッサ101によって処理される。*持続時間・振幅
プロセッサ102は、振幅・持続時間データベース10
7により、各音素に対し正確な持続時間・振幅値を対応
付ける。*区分単位プロセッサ103は、区分単位デー
タベース108内を探索することによって連鎖状にすべ
き区分単位の正確なシーケンスを決定する。*音韻プロ
セッサ104は、合成フィルタ106の励起関数として
使用されるための発声パラメータのシーケンスを決定す
る。*区分単位リンカー105は区分単位データベース
108から区分単位を物理的に取得し、区分単位を引き
延ばして適切なスペクトル・振幅補間方式を用いること
によって各音素ごとに正確な持続時間を得ることができ
る。さらに、スペクトル係数は合成フィルタ106に対
し適切な表現に変換される。*区分単位リンカー105
によって計算されたスペクトルパラメータは、音韻プロ
セッサ104によって計算された発声パラメータと持続
時間・振幅プロセッサ102によって計算された振幅パ
ラメータと共に、合成音声出力を生成するために合成フ
ィルタ106によって使用される。
【0051】
【発明の効果】本発明は上記のように構成されているの
で、隠れマルコフモデル(HMM)手法に基づきスペク
トル符号化方法を使用することによって区分単位集合を
コンパクトに表現することのできる優れた効果を有す
る。
【図面の簡単な説明】
【図1】本発明を使用したテキスト−音声シンセサイザ
装置のブロック線図である。
【図2】イタリア語の音声単位の可能な集合を示す図で
ある。
【図3】サンプル入力テキスト図である。
【図4】複数の音節に分割されるサンプル入力テキスト
を表わす図である。
【図5】音声学的に記載されたサンプル入力テキストを
表わす図である。
【図6】構造化音声学的記載によるサンプル入力テキス
トを表わす図である。
【図7】サンプル入力テキスト内の単語のパートオヴ音
声(POS)分類を表わす図である。
【図8】区分単位プロセッサの出力のサンプルを表わす
図である。
【図9】区分単位リンカーの第1の実施例を示す図であ
る。
【図10】区分単位リンカーのもう一つの実施例を示す
図である。
【図11】図1のテキスト−音声シンセサイザ装置で使
用される格子型合成フィルタを示す図である。
【符号の説明】
100 テキスト入力 101 テキストプロセッサ 102 持続時間・振幅プロセッサ 103 区分単位プロセッサ 104 音韻プロセッサ 105 区分単位リンカー 106 合成フィルタ 107 持続時間・振幅データベース 108 区分単位データベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ピエルッチ ピエロ イタリア国アイ 00146、ローマ、ヴィア ピー. メンゴリ 14

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 連鎖的テキスト−音声合成プロセスにお
    いて、言語のフォノタクティカル制約を反映する音響エ
    ルゴード隠れマルコフモデル(AEHMM)を用いて音
    響単位の集合をコンパクトに表現する方法であって、 a)トレーニングの間に発せられた音声が分割されるフ
    レームから抽出された音声特徴ベクトルを観測シーケン
    スとして考え、発声フレームを発した可能性が最も高い
    と考えられる音源のシーケンスを隠れたシーケンスとし
    て考えて、AEHMMを構築する工程と、 b)前記AEHMMと同じ大きさを有するベクトル量子
    化クラスタリング方式によって前記AEHMMを初期化
    する工程と、 c)前後方向アルゴリズムとバウムウェルチ再評価公式
    によって前記AEHMMをトレーニングする工程と、 d)音声合成用に区分単位の集合を構築する工程と、 e)前記AEHMMのラベリング特徴を用いて前記区分
    単位を符号化する工程と、 を含む音響単位の集合をコンパクトに表現する方法。
  2. 【請求項2】 最適性判定基準を用いて連鎖的音声合成
    プロセスに対し区分単位を復号化且つリンキングする工
    程をさらに含む請求項1記載の音響単位の集合をコンパ
    クトに表現する方法。
  3. 【請求項3】 合成すべきテキストを入力するためのテ
    キスト入力手段(100)と、書記素入力を音声表現に
    変換するテキストプロセッサ(101)と、音声の持続
    時間と振幅のパラメータを決定するための持続時間・振
    幅プロセッサ(102)と、合成すべき発声について音
    韻曲線を決定するための音韻プロセッサ(104)と、
    連鎖的区分単位のシーケンスを決定するための区分単位
    プロセッサ(103)と、フィルタ係数を判断する前記
    区分単位をリンクする区分単位リンカー(105)と、
    前記音韻とエネルギー曲線ならびにフィルタ係数を用い
    て生成すべき音声を合成する合成フィルタ(106)
    と、を含む連鎖的テキスト−音声シンセサイザシステム
    であって、 音響エルゴード隠れマルコフモデル(AEHMM)符号
    器によって構築される区分単位データベース(108)
    を含み、前記区分単位リンカー(105)は前記データ
    ベース(108)から取得され且つ区分単位に対応する
    ラベルのシーケンスをスペクトル特徴ベクトルのシーケ
    ンスに変換する区分単位復号化プロセッサ(SU11)
    と、スペクトルパラメータの表現領域を補間プロセスに
    適切なものに変更する係数変換プロセッサ(SU12)
    と、前記合成フィルタ(106)についてスペクトル特
    徴ベクトルのシーケンスを生成する区分単位に対する補
    間・ストレッチングプロセッサ(SU13)と、前記合
    成フィルタ(106)によって直接使用するために前記
    スペクトル係数表現の領域を変換する逆変換プロセッサ
    (SU14)と、を含む連鎖的テキスト−音声シンセサ
    イザシステム。
  4. 【請求項4】 前記区分単位リンカー(105)が、正
    確な音声持続時間を有するラベルのシーケンスを生成す
    るコピーによるストレッチングプロセッサ(SU21)
    と、ラベルのシーケンスをスペクトル特徴ベクトルのシ
    ーケンスに変換する区分単位復号化プロセッサ(SU2
    2)と、スペクトルパラメータの表現領域を補間プロセ
    スに適切なものに変更する係数変換プロセッサ(SU2
    3)と、特徴ベクトルの最も可能性の高いシーケンスを
    言語のフォノタクティカル制約に対して生成するために
    最適性判定基準を使用するAEHMM補間プロセッサ
    (SU24)と、前記合成フィルタ(106)によって
    直接使用されるようにスペクトル係数表現の領域を変換
    する係数逆変換プロセッサ(SU25)と、を含む請求
    項3記載の連鎖的テキスト−音声シンセサイザシステ
    ム。
JP9553292A 1991-05-27 1992-04-15 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム Pending JPH05197398A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP91108575A EP0515709A1 (en) 1991-05-27 1991-05-27 Method and apparatus for segmental unit representation in text-to-speech synthesis
IT911085751 1991-05-27

Publications (1)

Publication Number Publication Date
JPH05197398A true JPH05197398A (ja) 1993-08-06

Family

ID=8206774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9553292A Pending JPH05197398A (ja) 1991-05-27 1992-04-15 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム

Country Status (2)

Country Link
EP (1) EP0515709A1 (ja)
JP (1) JPH05197398A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526444A (en) * 1991-12-10 1996-06-11 Xerox Corporation Document image decoding using modified branch-and-bound methods
EP0680654B1 (en) * 1993-01-21 1998-09-02 Apple Computer, Inc. Text-to-speech system using vector quantization based speech encoding/decoding
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
US5615299A (en) * 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
KR100422263B1 (ko) * 1996-02-27 2004-07-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성을자동으로분할하기위한방법및장치
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
JP3349905B2 (ja) * 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
US7977562B2 (en) 2008-06-20 2011-07-12 Microsoft Corporation Synthesized singing voice waveform generator
GB2501062B (en) 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller

Also Published As

Publication number Publication date
EP0515709A1 (en) 1992-12-02

Similar Documents

Publication Publication Date Title
US11990118B2 (en) Text-to-speech (TTS) processing
Donovan Trainable speech synthesis
Tokuda et al. Speech synthesis based on hidden Markov models
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
US20200410981A1 (en) Text-to-speech (tts) processing
US11763797B2 (en) Text-to-speech (TTS) processing
US10699695B1 (en) Text-to-speech (TTS) processing
JP2002530703A (ja) 音声波形の連結を用いる音声合成
JPH05197398A (ja) 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム
Ipsic et al. Croatian HMM-based speech synthesis
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
Lee et al. A segmental speech coder based on a concatenative TTS
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Mullah A comparative study of different text-to-speech synthesis techniques
Chen et al. A statistical model based fundamental frequency synthesizer for Mandarin speech
Yin An overview of speech synthesis technology
Chiang A parametric prosody coding approach for Mandarin speech using a hierarchical prosodic model
Dong et al. Pitch contour model for Chinese text-to-speech using CART and statistical model
Baudoin et al. Advances in very low bit rate speech coding using recognition and synthesis techniques
Cai et al. The DKU Speech Synthesis System for 2019 Blizzard Challenge
Chiang et al. A New Model-Based Mandarin-Speech Coding System.
Wang et al. The study of prosodic modeling for mandarin speech
Anilkumar et al. Building of Indian Accent Telugu and English Language TTS Voice Model Using Festival Framework
He12 et al. The SHNU System for the Blizzard Challenge 2020