JP2013057735A

JP2013057735A - 音声合成用の隠れマルコフモデル学習装置及び音声合成装置

Info

Publication number: JP2013057735A
Application number: JP2011194907A
Authority: JP
Inventors: Jinfu Ni; 晋富倪; Hisashi Kawai; 恒河井
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2011-09-07
Filing date: 2011-09-07
Publication date: 2013-03-28
Anticipated expiration: 2031-09-07
Also published as: JP5717097B2

Abstract

【課題】ＨＭＭを用いる音声合成装置であって，合成音声波形にひずみが生じることを抑えることが可能な音声合成装置，及びそのためのＨＭＭ学習装置を提供する。
【解決手段】学習装置１１０は，音声データベース６０と，音声の各フレームから基本周波数（Ｆ０）を抽出するＦ０抽出処理部６２と，各フレームからＭＦＣＣを算出するＭＦＣＣ算出部６４，ＭＦＣＣの算出のための時間領域のサンプリングと双対をなす，周波数領域のサンプリングを行なうことにより，各フレームについてＭＦＣＣを所定の角度量に変換するＭＦＣＣ変換部１２０と，各フレームについて求められたＦ０とＭＦＣＣとを学習用データ１２２としてＨＭＭの学習とＨＭＭのいずれかを選択するための決定木の学習とを行なうＨＭＭ学習部１２４とを含む。
【選択図】図２

Description

この発明は音声合成に関し，特に，ＨＭＭ（隠れマルコフモデル）を用いて音声合成用フィルタのパラメータを生成するための技術に関する。

マン・マシン・インターフェイスの必須技術として，音声認識技術と音声合成技術とがある。音声認識と音声合成とを組み合わせることにより，音声を使うという，人間にとって自然な動作で，複雑な操作指示を必要とする最新の装置を利用できる。

これらの技術のうちでも，音声合成技術に関しては，単に目的のテキストを発声すればよいというわけではなく，より自然な発声を得ることが必要である。そのために様々な方式が提案されている。

そうした方式の１つに，ＨＭＭを用いるものがある。ＨＭＭを用いる音声合成では，予め多数の音声から音声の規則合成用のパラメータを推定するためのＨＭＭを学習しておく。音声合成時には，入力テキストを解析して音素ラベル列を得て，それら音素ラベル列に含まれる各音素を合成するためのフィルタパラメータを上記したＨＭＭから生成する。

そのような技術は，例えば特許文献１に開示されている。特許文献１に開示された音声合成装置の基本的構成を図１に示す。

図１を参照して，従来の音声合成システム４０は，大きく分けて音声合成用のＨＭＭの学習を行なうための学習装置５０と，学習装置５０を記憶するためのＨＭＭ記憶部５２と，入力テキスト５４が与えられると，入力テキスト５４を構成する各音素について，ＨＭＭ記憶部５２に記憶されたＨＭＭを用いて規則合成のための合成フィルタのパラメータと音声生成のためのＦ０パラメータとを生成して音声を合成するための音声合成装置５６とを含む。

学習装置５０は，音素別にラベル付けされた多数の音声データを記憶する音声データベース６０を含む。音声は所定フレーム長及び所定シフト長でフレーム化されている。学習装置５０はさらに，音声データベース６０に記憶された音声の各フレームについて基本周波数（Ｆ０）を抽出するためのＦ０抽出処理部６２と，音声データベース６０に記憶された音声の各フレームについて，音響パラメータとしてＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を算出するＭＦＣＣ算出部６４と，音声データベース６０に記憶された音声データの各フレームについて，音素ラベルと，Ｆ０抽出処理部６２により抽出されたＦ０と，ＭＦＣＣ算出部６４により算出されたＭＦＣＣとを１組にしてＨＭＭ学習用データとして記憶するＨＭＭ学習用データ記憶部６６と，ＨＭＭ学習用データ記憶部６６に記憶されたＨＭＭ学習用データを用いてＨＭＭの学習を行なうための，ＨＴＳツールキット（参考文献１）を用いるＨＭＭ学習部６８とを含んでおり，ＨＭＭ学習部６８による学習が行なわれたＨＭＭはＨＭＭ記憶部５２に記憶される。典型的には，ＨＭＭ記憶部５２に記憶されたＨＭＭは，コンテキスト依存の３音素ＨＭＭである。

一方，音声合成装置５６は，入力テキスト５４に対してテキスト解析を行ない，合成音声が持つべき韻律情報等が付された音素ラベル列８２を出力するテキスト解析部８０と，音素ラベル列８２を受け，ＨＭＭ記憶部５２から，音素ラベル列８２の各音素について各音素のコンテキスト及び韻律情報に基づいて，最も適合したＨＭＭをＨＭＭ記憶部５２から選択して接続することにより音声合成用のＦ０のパラメータ系列及びＭＦＣＣのパラメータ系列を生成するパラメータ生成部８４と，パラメータ生成部８４により生成されたＦ０のパラメータ系列にしたがい，音源信号を生成する音源生成部８６と，パラメータ生成部８４により生成されたＭＦＣＣのパラメータ系列にしたがい，音源生成部８６により生成された音源信号をフィルタリング（変調）することにより，合成音声信号を生成する合成フィルタ８８とを含む。

このようなＨＭＭを用いた音声合成は高速であるとともに，話者対応が容易で，種々の発話様式にも対応可能な柔軟なものであることが知られている。しかし，ＨＭＭを用いた音声合成では，汎化処理のために，合成音声が不自然なものになることも多い。そうした問題を解決するために，音声のダイナミックな特徴量と，系列内変動（ｇｌｏｂａｌｖａｒｉａｎｃｅ）とを用いる方式が提案されている。ダイナミックな特徴量としては，例えばＭＦＣＣの差分（デルタ）と，差分の差分（デルタ─デルタ）とが用いられる．

特開２０１１−０２８１３１号公報

ＨＭＭを用いた音声合成における問題は，以下の３つの局面に分けることができる。

（１）音声パラメータをＨＭＭ生成時に統計処理して平滑化してしまうために，音質が劣化してしまうこと。

（２）種々の話者の音声を用いるため，音声の変化がノイズとして作用し，音質が劣化すること。

（３）定型化されていない音声収録環境で，種々の話者の種々の発話スタイルの音声をＨＭＭの学習に用いるために合成音声にひずみが生じること。

第１の局面については，ＭＦＣＣパラメータに振幅だけでなく位相も含ませることが必要であることが知られている。しかし，通常はそうした位相に関する情報は利用できない。発話の特徴量を生成するという観点からは，位相情報を持たないＭＦＣＣパラメータは，厳密には非線形パラメータと考えるべきである。したがって，種々の位相のＭＦＣＣパラメータをＨＭＭ学習時に統計処理し平均化してしまうことにより，合成音声にひずみが生じることになる。そうしたひずみはバズノイズを生じさせる。

第２の局面に関しては，発話の変化しやすさは，ノイズの発生源の１つと考えることができる。

第３の局面は，エキスパートでないユーザが音声合成を利用してコミュニケーションをとる上では重大な問題である。

バズノイズについていうと，上記したようにダイナミックな音響特徴量（ＭＦＣＣのデルタ及びデルタ−デルタ）を用いることでかなり音声が改善されることが分かってきた。こうした手法を用いると，あるフレームの特徴量の計算に，そのフレームの前後の複数フレームの特徴量を用いる必要がある。すなわち，ＭＦＣＣパラメータの応答が，１フレームだけでなく複数フレームにまたがってくる。

こうした手法で信号処理にウィンドウを用いたりする場合，スペクトル間での，干渉の生じないような属性を維持する必要が生ずる。さもなければ合成音声にひずみが生じてしまうという問題がある。

それゆえに本発明の目的は，ＨＭＭを用いる音声合成装置であって，合成音声波形にひずみが生じることを抑えることが可能な音声合成装置，及びそのためのＨＭＭ学習装置を提供することである。

本発明の第１の局面に係る音声合成用の隠れマルコフモデル学習装置は，各々に音素ラベルが付された複数の音声単位を含む音声データベースを記憶するための音声データベース記憶手段と，複数の音声単位の各々から基本周波数を抽出し，基本周波数情報を出力するための基本周波数抽出手段と，複数の音声単位の各々について，所定の音響特徴量を算出するための音響特徴量算出手段とを含む。隠れマルコフモデル学習装置はさらに，所定の音響特徴量の算出のための時間領域のサンプリングと双対をなす，周波数領域のサンプリングを行なうことにより，複数の音声単位の各々について，所定の音響特徴量を角度量に変換するための変換手段と，音声データベースに含まれる複数の音声単位について，基本周波数抽出手段の出力する基本周波数情報，及び，変換手段の出力する角度量に，当該音声単位のラベルが付された学習用データを用い，別々の音素コンテキストに対する隠れマルコフモデルの学習と，音素ラベル列から隠れマルコフモデルのいずれかを選択するための決定木の学習とを行なうための学習手段と，学習手段により学習が行なわれた隠れマルコフモデルと決定木とを記憶するための記憶手段とを含む。

好ましくは，所定の音響特徴量はＭＦＣＣを含む。音響特徴量算出手段は，複数の音声単位の各々について，所定次元までのＭＦＣＣを算出するための手段を含んでもよい。

本発明の第２の局面に係る音声合成装置は，上記した音声合成用の隠れマルコフモデル学習装置のいずれかにより学習が行なわれた隠れマルコフモデルを用い，入力されるテキストに対する音声を合成するための音声合成装置である。この音声合成装置は，テキストに対しテキスト解析を行なうことにより，音素ラベル列を出力するためのテキスト解析手段と，テキスト解析手段により出力される音素ラベル列を用い，各音素ラベルについて，決定木を用いて隠れマルコフモデルを選択し，当該隠れマルコフモデルに基づいて，基本周波数情報と角度量とを生成するためのパラメータ生成手段と，パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段とを含む。音声合成装置はさらに，パラメータ生成手段により生成された角度量に対し，変換手段による変換の逆変換に相当する変換を行なって所定の音響特徴量を算出するための逆変換手段と，逆変換手段により変換された音響特徴量に基づくフィルタ特性により，音源生成手段により生成された音源信号を変調するための合成フィルタとを含んでもよい。

従来の音声合成システム４０の概略構成を示すブロック図である。本発明の１実施の形態に係る音声合成システム１００の概略構成を示すブロック図である。図２に示すシステムにおいて，ＨＭＭを選択するための決定木の構成を示す模式図である。図２に示すシステムによる音声合成の効果を示すための実験結果を示すグラフである。

以下の説明及び図面では，同一の部品には同一の参照番号を付してある。したがって，それらについての詳細な説明は繰返さない。

［構成］
本実施の形態では，合成音声のひずみを軽減するために，音声信号の帯域幅を広げることなくＭＦＣＣパラメータを整形する，帯域内整形を用いる。そのため，本実施の形態では，デュアルサンプリングを用いる。本明細書でのデュアルサンプリングは，時間領域と周波数領域との双方でのサンプリングを意味する。このデュアルサンプリングに基づき，音声パラメータのデュアル量子化を行なう。さらに，ＭＦＣＣパラメータに対し，アンチ・エイリアシング・フィルタリング及び平滑化による帯域内波形整形（帯域を増加させない）を行なう。

図２を参照して，本発明の１実施の形態に係る音声合成システム１００は，図１に示す学習装置５０に相当する学習装置１１０と，学習装置１１０による学習が行なわれたＨＭＭを記憶するためのＨＭＭ記憶部１１２と，図１に示す音声合成装置５６に相当する音声合成装置１１６とを含む。

学習装置１１０が学習装置５０（図１参照）と異なるのは，図１のＭＦＣＣ算出部６４の後に，各フレームについてＭＦＣＣ算出部６４により算出されたＭＦＣＣパラメータΛを，本実施の形態の特徴の１つである，周波数領域のパラメータΘに変換するＭＦＣＣ変換部１２０をさらに含む点と，図１のＨＭＭ学習用データ記憶部５２に代えて，Ｆ０抽出処理部６２により各フレームについて抽出されたＦ０と，ＭＦＣＣ変換部１２０により各フレームについて算出されたパラメータΘとを，そのフレームのラベルとともに１組にしてＨＭＭ学習用データとして記憶するＨＭＭ学習用データ記憶部１２２を含む点と，図１のＨＭＭ学習部６８に代えて，このＨＭＭ学習用データ記憶部１２２に記憶されたＨＭＭ学習用データを用いて音声合成用のＨＭＭの学習を行なう，ＨＭＭ学習部６８と同様のＨＴＳツールキット（参考文献１）からなるＨＭＭ学習部１２４を含む点とである。学習の終わった後のＨＭＭは，図１のＨＭＭ記憶部５２に代えてＨＭＭ記憶部１１２に記憶されるが，ＨＭＭ記憶部１１２とＨＭＭ記憶部５２とは，内部に記憶されるＨＭＭのパラメータが異なるだけであって，そのハードウェアは同じである。

図２に示す音声合成装置１１６が図１に示す音声合成装置５６と異なるのは，パラメータ生成部８４に代えて，音素ラベル列８２を受けてＨＭＭ記憶部１１２から各音素ラベル及び韻律情報に最も適合したＨＭＭを選択し，Ｆ０の系列とパラメータΘの系列とを出力するパラメータ生成部１３４を含む点と，パラメータ生成部１３４から出力されるパラメータΘの系列を受け，図２のＭＦＣＣ変換部１２０で行なわれる処理と逆の関係になる処理を行なってＭＦＣＣの系列を出力し，合成フィルタ８８に設定するＭＦＣＣ逆変換部１３６を含む点とである。

以下，ＭＦＣＣ変換部１２０で行なわれるパラメータΘの計算，及びＭＦＣＣ逆変換部１３６で行なわれるパラメータΘからＭＦＣＣパラメータΛを計算する手法とその考え方について説明する。ＭＦＣＣ変換部１２０での処理はデュアルサンプリングとデュアル量子化に相当する。

基本的に，デュアルサンプリングは時間とともに変化する関数について，正確な再構成を与えることができる。デュアル量子化では，デュアルサンプリングの結果に基づき，音声パラメータが時間及び周波数の双方によりエンコードされる。デュアル量子化により，周波数の帯域制限について多少のゆとりが得られる。帯域内整形によって，ノイズ及び発話の流動性による合成音声のひずみが小さくなり，ＨＭＭによる合成音声の音質が改善される。

デュアルサンプリングとは，帯域制限された信号を時間と周波数領域との双方でサンプリングすることを意味する。各サンプリング点でのサンプルの対は互いにコヒーレントである。

デュアルサンプリングは以下のように表すことができる。

ただしＡは対称な共鳴曲線を表し，λは周波数比の二乗を表し，ζは強制振動の減衰係数を表し，ζ^２＜０．５である。ｎは整数でｎ＝０，…，Ｎ，本実施の形態ではＮ＝１０^６，ε_ｎはｎにより変化する，ほぼ１０^−１０程度の小さな値である。

ζ_ｎはさらに以下の式により単位円回りの回転角α_ｎ（ラジアン）に変換される。

したがって，ｎ番目のサンプリング点λ_ｎ（０＜λ_ｎ＜１）は角α_ｎ（０＜αｎ＜ｗ_ｃ，ただし本実施の形態ではｗ_ｃ＝０．３３３２５ラジアンに固定）に対して逆順で双対をなす。さらに，以下の式によりゼロ点α_ｚを中心としてα_ｎを折り返したθｎを計算することにより，θ_ｎはλ_ｎと同じ順番を持つ変数となる。

この折り返しの関係から，周波数領域におけるデュアルサンプリングは，平行移動に関して不変であり，かつ線形であるということができる。したがって，離散周波数系は線形かつ平行移動に関して不変であり，離散時間系も同様である。

ＭＦＣＣに関するデュアル量子化は以下のように表すことができる。ｋ次元目のＭＦＣＣ係数をΛ_ｋとし，ＭＦＣＣΛ_ｋが最小値Λ_ｋｍｉｎから最大値Λ_ｋｍａｘ（ｋ＝０，…，Ｋ：Ｋは最大次元の次元番号）の間の範囲にあるものとする。

ここで，Λ_ｋを再サンプリングし，次の式により時間領域で量子化する。

ただしＱ［ｘ］はｘを最も近いλ_ｎ，ｎ∈｛０，…，Ｎ｝に丸めることを示す。

θ_ｎｋがλ_ｎｋとデュアルであって，θ_ｍとλ_ｎとの間の関係がルックアップテーブル化されているものとする。Λ_ｋに関する周波数領域のデュアル関数は以下の式により表される。

時間領域で（可能なら）位相を持つΛ_ｋにより表される情報は，１次元（線形）空間ではなく，３／２次元（円形）空間内に存在する。大雑把に言えば，Λ_ｋからΘ_ｋへの写像は，幾何学的には，λ_ｎｋにより表される３／２次元の外部平面から，θ_ｎｋにより表される２次元の球面への写像であるということができる。周波数領域での再サンプリングにより，情報は，位相を考えなければ球面Θ_ｋ上にランダムに分配される。Λｋに位相情報が含まれない場合，位相情報は考える必要がないと想定できる。

帯域内波形整形は，本実施の形態ではＨＭＭの学習と発話パラメータの生成とに密接に関与している。基本的には，ＨＭＭによる音声の生成にこれらの技術を組込む手続は以下を含む。

〈パラメータ化〉
ＭＦＣＣを角度量に変換する。

発話コーパス中の全ての発話について，例えばＫ＝３９，フレームシフト＝５ミリ秒としてＭＦＣＣを計算する。ＭＦＣＣをΛ_ｋｉで示す（ｋ＝０，…，Ｋ，ｉ＝０，…，Ｉとする。Ｉは発話のフレーム数を指す。）。ＭＦＣＣの集合からΛ_ｋｍａｘ及びΛ_ｋｍｉｎを見つけ，Λ_ｋｉの全てをΘ_ｋｉにマッピングする。

〈ＨＭＭの学習〉
ＭＦＣＣを残りの帯域分に拡張し，最尤基準によってデコードを行なう。この作業にはＨＴＳツールキット（参考文献１）を用いるが，Λ_ｋｉの代わりにγ_ｅ×Θ_ｋｉを用いることにより帯域内整形のために帯域を１．４倍に拡張する。

〈音声合成〉
アンチ・エイリアシングと平滑化とを行なう。ＧＶ（＾Θ_ｋｊで示す。ただしｋ＝０，…，Ｋ，Ｊ＝０，…，Ｊ。Ｊは発話中のフレーム数。）まずΘ_ｋｊをα_ｋｊに変換する。α_ｋｊ＞ｗ_ｃであればα_ｋｊ＝ｗ_ｃとしてエイリアシングの削減を図る。その後，α_ｋｊを｛α_ｎ，ｎ＝０，…，Ｎ｝中のいずれかのα_ｎｋｊに量子化する。この量子化には，最小誤差基準を用いる。さらに，α_ｎｋｊにγ_ｃを乗算することにより帯域を１．２倍して平滑化し，その結果を再度量子化する。最後に，α_ｎｋｊをΛ_ｎｋｊにマッピングすることによりＭＦＣＣを計算し直す。このマッピングが１対多の場合には，本実施の形態では写像のうちの任意の１つをランダムに選択する。この結果，音声合成のためのＭＦＣＣパラメータとしてΛ_ｋｊ，ｋ＝０，…，Ｋ及びｊ＝０，…，Ｊが得られる。

〈学習後のＨＭＭ〉
ＨＭＭ学習用データ記憶部１２２に記憶される学習後のＨＭＭについて図３を参照して説明する。本実施の形態では，ＨＭＭはコンテキスト依存の３状態ＨＭＭである。例えば中間の音素として／ａ／を含むＨＭＭ１４０，１４２及び１４４等を考える。これらは，２番目の音素１６０として／ａ／を持つが，先頭の音素としてそれぞれｃ_１１，ｃ_２１及びｃ_３１を持ち，３番目の音素としてそれぞれｃ_１２，ｃ_２２及びｃ_３２を持つものとする。これ以外にも同様に２番目の音素に／ａ／を持つ３状態ＨＭＭは多数存在し得るが，ここでは図の理解を容易にするためにこの３つのＨＭＭ１４０，１４２及び１４４のみを示す。

２番目の音素１６０として／ａ／を持つＨＭＭのうち，いずれかを選択するために，ＨＭＭに関する決定木１６２の学習が行なわれる。この決定木１６２は，例えば複数のノード１８０〜２００を持つ。これらのうち，ノード１８４，１８８，１９０，１９６，１９８及び２００がリーフノードであり，ＨＭＭ１４０〜１４４等のいずれかに対応する。決定木１６２の各ノードには２値の質問が対応付けられており，音声の合成条件（韻律情報を持つラベル列により定められる。）に応じて各ノードの質問に対して答えながら決定木１６２をルートノード１８０からたどっていき，到達したリーフノードに対応するＨＭＭを選択する。

［動作］
図２に示した音声合成システム１００は以下のように動作する。音声データベース６０には，音声データベースとして多数の発話データが準備される。これらの発話データはいずれもフレーム化され，音素ラベルが付されている。Ｆ０抽出処理部６２は，音声データベース６０内の各フレームからＦ０を抽出して出力する。ＭＦＣＣ算出部６４は各フレームからＭＦＣＣパラメータΛ_ｋｉを算出しＭＦＣＣ変換部１２０に与える。ＭＦＣＣ変換部１２０は，上記したとおりＭＦＣＣの集合からΛ_ｋｍａｘ及びΛ_ｋｍｉｎを見つけ，Λ_ｋｉの全てをΘ_ｋｉにマッピングする。

各フレームについて算出されたＦ０及びΘ_ｋｉには，そのフレームの音素ラベルが付され，ＨＭＭ学習用データ記憶部１２２に記憶される。

ＨＭＭ学習部１２４の実体は，上記したとおりＨＭＭ学習部６８同様のＨＴＳツールキットであって，Θ_ｋｉを用いてＨＭＭ記憶部１１２内のＨＭＭの学習を行なう。全ての発話データについてＨＭＭの学習が終了すると，ＨＭＭ記憶部１１２を用いて音声の合成を行なうことが可能になる。

音声合成では，入力テキスト５４が与えられると，音声合成装置１１６のテキスト解析部８０は入力テキスト５４に対するテキスト解析を行ない，韻律情報が付された音素ラベル列８２をパラメータ生成部１３４に与える。パラメータ生成部１３４は，与えられた韻律情報付の音素ラベル列を用い，ＨＭＭ記憶部１１２に格納された決定木１６２（図３参照）をたどることで各音素に対応するＨＭＭを選択し，ＨＭＭのシーケンスを出力する。このシーケンスに対応してＦ０のシーケンスも得られ，音源生成部８６に与えられる。ＨＭＭのシーケンスから得られたΘ_ｋｊの各々をα_ｋｊに変換する。α_ｋｊ＞ｗ_ｃであればα_ｋｊ＝ｗ_ｃとしてエイリアシングの削減を図る。さらにα_ｋｊを｛α_ｎ，ｎ＝０，…，Ｎ｝中のいずれかのα_ｎｋｊに量子化する。この量子化には，最小誤差基準を用いる。さらに，α_ｎｋｊにγ_ｃを乗算して平滑化し，その結果を再度量子化する。最後に，α_ｎｋｊをΛ_ｎｋｊにマッピングすることによりＭＦＣＣを計算し直す。このマッピングが１対多の場合には，写像のうちの任意の１つをランダムに選択する。この結果，ＭＦＣＣパラメータとしてΛ_ｋｊのシーケンス（ｋ＝０，…，Ｋ及びｊ＝０，…，Ｊ）が得られる。このシーケンスを構成するＭＦＣＣパラメータΛ_ｋｉの各々により合成フィルタ８８を各フレームについて設定し，当該フレームについてのＦ０に基づいて音源生成部８６が生成する音源信号を合成フィルタ８８でフィルタリングすることにより，合成音声が得られる。

［実施の形態の効果］
以上のように本実施の形態によれば，時間及び周波数領域におけるデュアルサンプリング点でのサンプルはコヒーレントである。いずれか一方に何らかの変化があれば，他方にもそれに対応した変化が生ずる。これは，共鳴曲線と平衡条件とによる。すなわち，ζの値は，入力λと出力λとの値が互いに等しくなるように選ばれる。この結果，デュアルサンプリングによって，音声パラメータを時間及び周波数領域の双方で量子化するための基本的枠組が得られ，双方の領域で音声パラメータを処理することが可能になる。

第２に，周波数領域では処理対象は円であるため，「振幅」は一定であり，したがって統計的平均値は線形である角度量によって表される。

第３に，ＭＦＣＣの量子化は基本的には，デュアルサンプリングにより定義される１０^６個の位置のうち，０．３５３５×１０^６個の位置を抽出し，必要であればさらに内挿を行なう余地を残している。利用できない位相情報のために生ずるこうした余地は，ＨＭＭの学習を行なう際には，Θ_ｋを統計的に平均することにより生ずるノイズに対処するために好適である。ただし，このノイズがガウシアンノイズと同じ統計的特徴を示すものと想定した場合であるが。人間の聴覚が，位相のある程度の量には不感であることはよく知られている。したがって音声パラメータを効率的に統計的分類及び平均化するための手段が得られる。

第４に，ボコーダは通常，ある周波数のグループ，特に高い周波数のグループをかなりの程度までまとめることを利用する。周波数領域でのデュアルサンプリングはこの要求に合致する。高い周波数の圧縮の程度は，低い周波数と比較して約２．５倍である。

最後に，パラメータΘ_ｋに線形係数γを乗ずることにより，デュアルサンプリングの効用によって時間領域での群遅延を可能にするための簡便な手段が得られる。

［利用例］
少数の女性話者によるＡＴＲ５０３データセットを用い，上記実施の形態に係る方法を従来の方法と比較する実験を行なった。結果を図４に示す。この図４は，ＭＦＣＣの応答を１より大きなフレームに拡大したときのＭＦＣＣの帯域内整形の結果を示す。この結果は，本発明におけるリーフノード数が従来法より全般的に少なく，音響的特徴の多様性が縮小されていることを示している。このことは，上記実施の形態に係る方法により，話者に固有の特徴と普遍的な特徴が良好に分離された結果，ＨＭＭ学習に際して話者に固有の特徴が被る平均化が改善されたことを意味する。

上記方法によって合成された音声を発明者達が聞いて評価した結果，従来の方法と比較して本実施の形態によってバズノイズがかなり低減され，ＨＭＭによる合成音声の音質が改善されることが確認された。

今回開示された実施の形態は単に例示であって，本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は，発明の詳細な説明の記載を参酌した上で，特許請求の範囲の各請求項によって示され，そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

［参考文献］
［１］Ｋ．Ｔｏｋｕｄａ，Ｈ．Ｚｅｎ，Ｊ．Ｙａｍａｇｉｓｈｉ，Ｔ．Ｍａｓｕｋｏ，Ｓ．Ｓａｋｏ，Ａ．Ｂ．Ｂｌａｃｋ，Ｔ．Ｎｏｓｅ，“ＴｈｅＨＭＭ−ＢａｓｅｄＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＳｙｓｔｅｍ（ＨＴＳ）Ｖｅｒｓｉｏｎ２．１．”［Ｏｎｌｉｎｅ］。ＵＲＬ：http://hts.sp.nitech.ac.jp/.

４０，１００音声合成システム
５０，１１０学習装置
５２，１１２ＨＭＭ記憶部
５４入力テキスト
５６，１１６音声合成装置
６０音声データベース
６２Ｆ０抽出処理部
６４ＭＦＣＣ算出部
６６，１２２ＨＭＭ学習用データ記憶部
６８，１２４ＨＭＭ学習部
８０テキスト解析部
８２音素ラベル列
８４，１３４パラメータ生成部
８６音源生成部
８８合成フィルタ
１３６ＭＦＣＣ逆変換部

Claims

各々に音素ラベルが付された複数の音声単位を含む音声データベースを記憶するための音声データベース記憶手段と，
前記複数の音声単位の各々から基本周波数を抽出し，基本周波数情報を出力するための基本周波数抽出手段と，
前記複数の音声単位の各々について，所定の音響特徴量を算出するための音響特徴量算出手段と，
前記所定の音響特徴量の算出のための時間領域のサンプリングと双対をなす，周波数領域のサンプリングを行なうことにより，前記複数の音声単位の各々について，前記所定の音響特徴量を角度量に変換するための変換手段と，
前記音声データベースに含まれる前記複数の音声単位について，前記基本周波数抽出手段の出力する基本周波数情報，及び，前記変換手段の出力する前記角度量に，当該音声単位のラベルが付された学習用データを用い，別々の音素コンテキストに対する隠れマルコフモデルの学習と，音素ラベル列から前記隠れマルコフモデルのいずれかを選択するための決定木の学習とを行なうための学習手段と，
前記学習手段により学習が行なわれた前記隠れマルコフモデルと前記決定木とを記憶するための記憶手段とを含む，音声合成用の隠れマルコフモデルの学習装置。
前記所定の音響特徴量はメル周波数ケプストラム係数を含み，
前記音響特徴量算出手段は，前記複数の音声単位の各々について，所定次元までのメル周波数ケプストラム係数を算出するための手段を含む，請求項１に記載の，音声合成用の隠れマルコフモデル学習装置。
請求項１又は請求項２に記載の，音声合成用の隠れマルコフモデル学習装置により学習が行なわれた隠れマルコフモデルを用い，入力されるテキストに対する音声を合成するための音声合成装置であって，
前記テキストに対しテキスト解析を行なうことにより，音素ラベル列を出力するためのテキスト解析手段と，
前記テキスト解析手段により出力される音素ラベル列を用い，各音素ラベルについて，前記決定木を用いて隠れマルコフモデルを選択し，当該隠れマルコフモデルに基づいて，基本周波数情報と前記角度量とを生成するためのパラメータ生成手段と，
前記パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段と，
前記パラメータ生成手段により生成された前記角度量に対し，前記変換手段による変換の逆変換に相当する変換を行なって前記所定の音響特徴量を算出するための逆変換手段と，
前記逆変換手段により変換された音響特徴量に基づくフィルタ特性により，前記音源生成手段により生成された前記音源信号を変調するための合成フィルタとを含む，音声合成装置。