JP6121273B2

JP6121273B2 - 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム

Info

Publication number: JP6121273B2
Application number: JP2013144557A
Authority: JP
Inventors: 勇祐井島; 水野　秀之; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-07-10
Filing date: 2013-07-10
Publication date: 2017-04-26
Anticipated expiration: 2033-07-10
Also published as: JP2015018080A

Description

本発明は、音声データから音声合成用モデル（ＨＭＭ）を学習する音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラムに関する。

従来のＨＭＭ（Hidden Markov Model）に基づく音声合成システムとしては、不特定話者の音声合成単位である平均声モデルから、任意話者の特徴をもつ音声を合成する手法が知られている。図１５に、従来の音声合成用モデル学習装置９００の機能構成を示す。

音声合成用モデル学習装置９００は、多数話者音声ＤＢ９１０と、多数話者コンテキストＤＢ９２０と、モデル学習部９３０と、平均声モデル９４０と、目標話者音声データ９５０と、目標話者コンテキスト９６０と、話者適応部９７０と、を具備する。多数話者音声ＤＢ９１０は、多数の話者の音声データを記録したデータベースである。多数話者コンテキストＤＢ９２０は、多数話者音声ＤＢ９１０に記録された各音声データの変動要因の組み合わせを記録したデータベースである。モデル学習部９３０は、多数話者のそれぞれの人の音声データと各話者の音声データの変動要因とを入力として、話者クラスを考慮した平均的な音声の特徴を持つ平均声モデル９４０を学習する。話者適応部９７０は、目標話者音声データ９５０と目標話者コンテキスト９６０と平均声モデル９４０を入力として、平均声モデル９４０を目標話者の音声モデルに適応させる。

田村他、「ＨＭＭに基づく音声合成におけるピッチ・スペクトルの話者適応」電子情報通信学会論文誌 vol.J85-D-II, no.4 pp.545-553, April2002.

しかし、従来の方法では、目標話者の音声の特徴が平均声モデルと大きく異なる場合、音声モデルと目標話者の音声との類似性が低下する課題がある。また、適応により得られる音声モデルを用いて合成した合成音声の類似性も低下してしまう課題がある。

本発明は、この課題に鑑みてなされたものであり、目標話者の音声の特徴と平均声モデルとが大きく異なることが無いように工夫した音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラムを提供することを目的とする。

本発明の音声合成用モデル学習装置は、多数話者音声ＤＢと、多数話者コンテキストＤＢと、話者クラスタリング部と、話者クラスコンテキスト生成部と、目標話者クラス推定部と、目標話者クラスコンテキスト生成部と、モデル学習部と、目標話者クラス推定部と、目標話者クラスコンテキスト生成部と、話者適応部と、を具備する。多数話者音声ＤＢは、Ｎ名の話者の音声データを記録する。多数話者コンテキストＤＢは、上記Ｎ名の話者の音声データの変動要因の組み合わせを記録する。話者クラスタリング部は、Ｎ名の音声データと当該Ｎ名の音声データの変動要因の組み合わせとを入力として、各話者の特徴を表す話者ベクトルと話者クラス推定用情報を生成し、当該話者ベクトルをＭ個にクラスタリングする。話者クラスコンテキスト生成部は、Ｎ名の音声データの変動要因の組み合わせとＭ個の話者クラスを入力として、Ｎ名の音声データの変動要因の組み合わせに、それぞれが属する話者クラスを付加する。モデル学習部は、Ｎ名の音声データと話者クラス付多数話者コンテキストデータとを入力として、上記話者クラスを考慮した話者クラス付平均声モデルを学習する。目標話者クラス推定部は、目標話者の音声データと当該音声データの変動要因の組み合わせと話者クラスタリング部が生成する話者クラス推定用情報を入力として、目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する。目標話者クラスコンテキスト生成部は、目標話者コンテキストに目標話者クラスを付加して目標話者クラスコンテキストを生成する。話者適応部は、目標話者音声データと目標話者コンテキストと話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する。

また、この発明の音声合成装置は、テキスト解析部と、話者クラス付コンテキスト生成部と、音声パラメータ生成部と、音声波形生成部と、を具備する。テキスト解析部は、音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力する。話者クラス付コンテキスト生成部は、テキスト解析部が出力する合成音声コンテキストと上記した音声合成用モデル学習装置で推定した話者クラスとを入力として、話者クラス付コンテキストを生成する。音声パラメータ生成部は、話者クラス付コンテキスト生成部が生成する話者クラス付コンテキストと上記した音声合成用モデル学習装置で学習した目標話者の音声モデルとを用いて合成音声の音声パラメータを生成する。音声波形生成部は、音声パラメータ生成部が生成した音声パラメータと音声合成フィルタを用いて合成音声波形を生成する。

本発明の音声合成用モデル学習装置によれば、音声の音響的性質の変動要因であるコンテキストに話者クラスを付加して話者クラス付平均声モデルを学習し、当該話者クラス付平均声モデルを、目標話者の音声に適応させるので、話者の音声の特徴に適合した音声モデルを生成することができる。また、この発明の音声合成装置によれば、本発明の音声合成用モデル学習装置で学習した音声モデルを用いることで、従来の方法より目標話者の声の特徴を持った合成音声を合成することができる。

本発明の音声合成用モデル学習装置１００の機能構成例を示す図。音声合成用モデル学習装置１００の動作フローを示す図。話者クラスタリング部１１２の機能構成例を示す図。Ｎ名の話者ベクトルとＭ個の話者クラスとの関係を例示する図。話者クラスを付加した話者クラスコンテキストデータの一例を示す図。モデル学習部１１８のより具体的な機能構成例を示す図。二分木の一部を示す図。本発明の音声合成装置２００の機能構成例を示す図。音声合成装置２００の動作フローを示す図。階層的なクラス構造を持つ木構造の例を示す図。話者クラス数Ｍを３２に設定した場合の話者クラスの木構造を示す図。話者クラスタリング部１１２″の機能構成例を示す図。モデル学習部１１８′の機能構成例を示す図。ＸＡＢテストによる主観評価実験の実験結果を示す図。従来の音声合成用モデル学習装置９００の機能構成を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音声合成用モデル学習装置１００の機能構成例を示す。その動作フローを図２に示す。音声合成用モデル学習装置１００は、多数話者音声ＤＢ９１０と、多数話者コンテキストＤＢ９２０と、話者クラスタリング部１１２と、話者クラスコンテキスト生成部１１４と、モデル学習部１１８と、目標話者音声データ９５０と、目標話者コンテキスト９６０と、目標話者クラス推定部１２２と、目標話者クラスコンテキスト生成部１２４と、話者適応部１２６と、を具備する。多数話者音声ＤＢ９１０と多数話者コンテキストＤＢ９２０と目標話者音声データ９５０と目標話者コンテキスト９６０とは、参照符号から明らかなように従来技術で説明した音声合成用モデル学習装置９００と同じものである。音声合成用モデル学習装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。

多数話者音声ＤＢ９１０は、Ｎ名の話者の音声データを記録する。音声データは、音声合成用モデルを学習する対象のＮ名の話者が発話した各話者Ｋ_ｉ個（ｉ＝１，…，Ｎ）の音声データであり、例えばサンプリング周波数１６ｋＨｚで離散値化されたディジタルデータである。

多数話者コンテキストＤＢ９２０は、上記音声データの変動要因の組み合わせを記録する。音声データの変動要因の組み合わせとは、音素、形態素、アクセントなどの音声特徴の変動に関係する情報のことであり、コンテキストと称する。

話者クラスタリング部１１２は、各話者の音声データと当該コンテキストとを入力として、各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルをＭ個にクラスタリングする話者クラスと話者クラス推定用情報を生成する（ステップＳ１１２）。図３に、話者クラスタリング部１１２のより具体的な機能構成例を示す。話者クラスタリング部１１２は、特徴抽出手段１１２０と、クラスタリング手段１１２１と、を備える。

特徴抽出手段１１２０は、各話者の音声データとコンテキストから話者の特徴を表す話者ベクトルを抽出する。例えば、話者の特徴として各特徴量の平均値を用いる場合、各話者のスペクトル、Ｆ０、発話速度等の平均を求める。クラスタリングに使用する話者ｉ（ｉ＝１〜Ｎ）の話者ベクトルｖ_ｉは次式で定義される。ここで、ｃ_ｉｋ（ｋ＝１〜Ｄ：Ｄは次元数）は話者ｉのｋ次元目のスペクトルの平均値、Ｆ０_ｉは話者ｉのＦ０の平均値、ＳＲ_ｉは話者ｉの発話速度である。

クラスタリング手段１１２１は、得られたＮ名の話者ベクトルを用いて、任意のＭ個に分割するようにクラスタリングを行うことで、Ｎ名の話者の話者クラスと話者クラス推定用情報を得る。図４に、Ｎ名の話者ベクトルとＭ個の話者クラスとの関係を例示する。Ｎを１０名、Ｍを３個、と仮定しｉ番目の話者をＳ_ｉとすると、話者クラスＣ_１には例えばＳ_１，Ｓ_２，Ｓ_５が分類され、話者クラスＣ_２には例えばＳ_３，Ｓ_４，Ｓ_９が分類され、話者クラスＣ_３には例えばＳ_６，Ｓ_７，Ｓ_８，Ｓ_１０が分類されと仮定する。このクラスタリングの結果、各話者の音声データとコンテキストは、話者Ｓ_１は話者クラスＣ_１に、話者Ｓ_３は話者クラスＣ_２に、話者Ｓ_１０は話者クラスＣ_３に、といった具合に分類される。

話者クラス推定用情報は、例えば、各話者クラスＣ_＊（＊：１〜Ｍ）のセントロイドである。又は、各話者クラスＣ_＊に属する話者の音声データから学習されたＧＭＭ（Gaussian Mixture Model）そのものであっても良い。

クラスタリングアルゴリズムには、k-means法やＬＢＧ法などの一般的なクラスタリングアルゴリズムを使用する。なお、クラスタリングは、上記したような物理特徴を用いずに例えば参考文献１（特開２０１１−１７１８１５号公報）に記載されている話者間の知覚的な類似性を用いて行っても良い。

話者クラスコンテキスト生成部１１４は、Ｎ名のコンテキストとＭ個の話者クラスを入力として、当該Ｎの話者のコンテキストに、それぞれが属する話者クラスを付加した話者クラスコンテキストデータを生成する（ステップＳ１１４）。図５に、話者クラスを付加した話者クラスコンテキストデータの一例を示す。端から順に、音素：{先行（ａ），当該（ｉ），後続（ｕ）}、モーラ：当該音素のアクセント句内でのモーラ（「拍」）位置、形態素：品詞他、アクセント句：アクセント句の長さ他、呼気段落：呼気段落の長さ他、文長：文の長さ、と続き、最後が話者クラスコンテキスト生成部１１４で付加した話者クラスである。この例ではＣ_３に分類されている。

モデル学習部１１８は、Ｎ名の音声データとＮ名の話者クラス付多数話者コンテキストデータとを入力として、話者クラスを考慮した話者クラス付平均声モデルを学習する（ステップＳ１１８）。話者クラス付平均声モデルは、話者適応の初期モデルとなるＨＭＭであり、その学習方法は例えば非特許文献１に記載された従来方法と同じである。

図６に、モデル学習部１１８のより具体的な機能構成例を示して更に詳しく説明する。モデル学習部１１８は、連結学習手段１１８０と、コンテキストクラスタリング手段１１８１と、で構成される。連結学習手段１１８０は、多数話者音声ＤＢ９１０に記録されたＮ名の音声データとＮ名の話者クラス付多数話者コンテキストデータとを入力として、各コンテキストに対応するＨＭＭの平均と分散を求めてコンテキストクラスタリング手段１１８１に出力する。例えばスペクトルモデル１１８２ａとＦ０モデル１１８２ｂと音素継続長モデル１１８２ｃの３種類とする。

コンテキストクラスタリング手段１１８１は、その３種類の特徴量（スペクトル，Ｆ０，音素継続長）のＨＭＭに、決定木に基づくコンテキストクラスタリングを適用して話者クラスを考慮した話者クラス付平均声モデル１２０を学習する。決定木は図７に例示するニ分木であり、それぞれの節（node）毎にコンテキストを二つに分割する質問１１８４，１１８５が用意されている。全てのコンテキストは根ノード（root node）からそれぞれの節の質問に従って木を辿ることにより、葉ノード（leaf node）の内のどれかに達するため、一度決定木を構築すれば、学習データに出現しないコンテキストの組み合わせに対しても、音声合成時に適切なモデル（ＨＭＭ）を一意に決定することができる。また、コンテキストクラスタリング後の各モデルに対して、もう一度連結学習を行うことで、ＨＭＭの平均と分散を求めても良い。

目標話者クラス推定部１２２は、目標話者音声データ９５０と当該音声データコンテキスト９６０と話者クラスタリング部１１２が出力する話者クラス推定用情報を入力として、目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する（ステップＳ１２２）。目標話者クラス推定部１２２は、上記した話者クラスタリング部１１２と同様に、目標話者の特徴を表す目標話者ベクトルを抽出し、目標話者ベクトルがどの話者クラスに属するか推定する。最も単純な推定方法としては、各話者クラスのセントロイドを話者クラスタリング部１１２から取得し、目標話者ベクトルとの距離を用いて推定する。各話者クラスのセントロイドと目標話者ベクトルとの距離は、例えばユークリッド距離、マハラノビス距離等を計算することで得られる。その距離が最も小さい話者クラスを目標話者が属するクラスとして選択する。

目標話者クラスコンテキスト生成部１２４は、目標話者コンテキスト９６０に、目標話者クラス推定部１２２で推定した話者クラスを付加して目標話者クラスコンテキストを生成する（ステップＳ１２４）。

話者適応部１２６は、目標話者音声データ９５０と目標話者クラスコンテキストと、モデル学習部１１８で学習した話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する（ステップＳ１２６）。話者適応部１２６は、話者クラス付平均声モデルを話者適応させる。その話者適応の方法としては、例えば非特許文献１に記載されているＭＬＬＲ（Maximum Likelihood Linear Regression）を用いる。

以上説明したように動作する音声合成用モデル学習装置１００は、平均声モデルの学習と話者適応に話者クラスコンテキストを導入する。その結果、より目標話者の音声データに近い音声合成用モデルを生成することができる。

〔音声合成装置〕
図８に、この発明の音声合成装置２００の機能構成例を示す。その動作フローを図９に示す。音声合成装置２００は、テキスト解析部２１０と、話者クラス付コンテキスト生成部２１２と、目標話者音声モデル２１４と、音声パラメータ生成部２１６と、音声波形生成部２１８と、を具備する。

テキスト解析部２１０は、音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力する（ステップＳ２１０）。合成音声コンテキストは、テキストの読み、アクセント等の多数話者コンテキストＤＢ９２０と同様の情報である。

話者クラス付コンテキスト生成部２１２は、テキスト解析部２１０が出力する合成音声コンテキストと、上記した音声合成用モデル学習装置１００（図１）で学習した話者クラスとを入力として、話者クラス付コンテキストを生成する（ステップＳ２１２）。目標話者音声モデル２１４は、音声合成用モデル学習装置１００（図１）で学習したものである。

音声パラメータ生成部２１６は、話者クラス付コンテキスト生成部２１２が出力する話者クラス付コンテキストと目標話者音声モデル２１４とを用いて合成音声のパラメータを生成する（ステップＳ２１６）。合成音声のパラメータとしては、スペクトルパラメータ、Ｆ０、などである。

音声波形生成部２１８は、音声パラメータ生成部２１６が生成した合成音声のパラメータと音声合成フィルタを用いて合成音声波形を生成する（ステップＳ２１８）。音声合成フィルタは、例えば参考文献２（今井他「音声合成のためのメル対数スペクトル近似（ＭＬＳＡ）フィルタ」電子情報通信学会論文誌Ａ Vol.J66-A No.2 pp.122-129, Feb. 1983.）に記載された周知のものである。

音声合成装置２００によれば、この発明の音声合成用モデル学習装置１００で学習した話者クラスと目標話者の音声モデルを用いて音声を合成するので、目標話者の声の特徴を持った合成音声を合成することができる。

上記した音声合成用モデル学習装置１００の話者クラスタリング部１１２は、Ｎ名の音声データと当該Ｎ名のコンテキストとを入力として、各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルを一度にＭ個にクラスタリングする例で説明した。ここでは、話者クラスタリング時に、話者クラス間の類似度を考慮した階層的なクラスタリングを導入した実施例を説明する。

実施例２の話者クラスタリング部１１２′（図示は省略）は、階層的なクラスタリングを使用して、Ｍ個のクラスにクラスタリングを行う。階層的なクラスタリング手法としては、Hierarchical k-means法などを用いる。

図７に示した階層的なクラス構造を持たない木構造では、有声音素かどうかといった質問の次に話者クラスが２０であるかどうかという質問が適用されている。この質問が適用されてしまうと、それ以下の木構造には話者クラスが２０である少量の話者しかモデル学習に使用されなくなる。特に話者クラス数Ｍを大きくすると、各話者クラス内の話者数に偏りが生じ、特定のリーフノードにおいてモデル学習に使用される話者が極端に減少するため、合成音声が不安定になる問題が生じる場合がある。

その問題を解決する方法としては、話者クラスを階層的な構造にする方法が考えられる。話者クラスタリング時に階層的なクラスタリングを導入することで、話者クラス間の類似性を考慮した話者クラスを構築し、安定した合成音声の生成が可能となる。

図１０に、階層的なクラス構造を持つ木構造の例を示す。話者クラスを階層的な構造にすることで、例えば有声音素かどうかといった質問の次に、話者クラスが２＿１であるかといった質問を使用することが可能となる。

例えば話者クラス数Ｍを３２に設定した場合、図１１に示すように最下段の横方向の話者クラス数が３２個の木構造を持つことになる。この結果、決定木の木構造の上位ノードには、全体的な類似を考慮した質問を適用し易くなり、決定木の下位ノードでは各話者クラスに関する質問が適用されるようになるので、クラス数Ｍを大きくした場合でも合成音声を安定化させる効果を奏する。

上記した音声合成用モデル学習装置１００の話者クラスタリング部１１２は、話者ベクトルｖ_ｉ（式（１））の単位で、話者クラスを分類していた。そのため、同一の話者クラスには話者ベクトルを構成する全ての特徴量（実施例１では、スペクトル，Ｆ０，発話速度の平均値）が似ている話者が存在することになる。しかし、話者の中にはスペクトルの特徴だけが似ている話者、Ｆ０だけが似ている話者等の一部の特徴のみが類似している話者も多く存在する。そこで、各特徴ごとに話者クラスを分類する方法も考えられる。

図１２に、特徴ごとに話者クラスを分類するようにした話者クラスタリング部１１２″の機能構成例を示す。話者クラスタリング部１１２″は、特徴抽出手段１１２０と、複数のクラスタリング手段１１２１ａ，１１２１ｂ，１１２１ｃ、を備える。

話者クラスタリング部１１２″は、式（１）に示した話者ベクトルｖ_ｉの特徴を、それぞれ個別の話者ベクトルとして扱う（式（２））。

つまり、話者クラスタリング部１１２″は、話者ベクトルのベクトル要素を個別にクラスタリングすることで、各話者に対して複数の話者クラスを得るものである。そして、この実施例の目標話者クラス推定部１２２′（図示は省略）は、複数の話者クラス推定用情報から目標話者の複数の話者クラスを推定するものである。

このように、複数の特徴を統合せずに各特徴を個別にクラスタリングする音声合成用モデル学習装置は、より細かい話者性を考慮した平均声モデルが学習できるようになる。なお、この実施例３の考えは、音声合成用モデル学習装置１００の話者クラスタリング部１１２に適用する例で説明を行ったが、実施例２の話者クラスタリング部１１２′に適用しても良い。

上記した音声合成用モデル学習装置１００のモデル学習部１１８は、コンテキストクラスタリング時に、スペクトルのモデル１１８２ａ、Ｆ０のモデル１１８２ｂ、音素継続長のモデル１１８２ｃ、の各モデルにおいて共通の質問（話者クラスコンテキストに関する質問１１８５）を用いていた。しかし、実施例３のように各特徴の複数の話者クラスをコンテキストとして使用する場合、モデルと話者クラスの特徴が異なった場合（スペクトルのモデルに対して音素継続長に関する話者クラスでコンテキストクラスタリングする等）、不適切なコンテキストクラスタリングが行われ、合成音声が安定しないという問題が生じる場合がある。

そのため、スペクトル、Ｆ０、音素継続長のそれぞれのモデルに対して、共通の質問群を用いてクラスタリングを行うのではなく、モデルに応じて各特徴の話者クラスに関する質問群を変更したモデル学習部１１８′も考えられる。図１３に、モデル学習部１１８′の機能構成例を示す。

モデル学習部１１８′は、モデル学習部１１８（図６）に対して３つの特徴に対してそれぞれ対応する３つの質問群を備える点で異なる。スペクトルの話者クラスコンテキストに関する質問１１８５ａは、スペクトルのコンテキストクラスタリングにのみ用いられる。Ｆ０の話者クラスコンテキストに関する質問１１８５ｂは、Ｆ０のコンテキストクラスタリングにのみ用いられる。
音素継続長の話者クラスコンテキストに関する質問１１８５ｃは、音素継続長のコンテキストクラスタリングにのみ用いられる。

このように各モデルに対して使用する質問を変更することで、より安定した音声合成が行える音声合成用モデルを学習することが可能になる。
〔評価実験結果〕
この発明の有効性を確認するために、従来法とこの発明との比較実験を行った。比較実験には、女性話者８８名が音素バランス文１２０文章を発話した音声データを用いた。音素バランス文とは、出来るだけ少ない語数・文数で音素出現のバランスを取るために設計された文章のことである。

平均声モデルの学習には、８８名の内８５名の１００文章、計８５００文章を用いた。目標話者の音声データ、コンテキストデータとして、平均声モデルの学習に使用していない３名の話者の２０文章を用いた。ＨＭＭの学習には、音響特徴量として０−３９次のメルケプストラム、対数Ｆ０、５次元の非周期性指標を用いた。又、話者クラスタリング部１１２における特徴は、平均メルケプストラムと平均対数Ｆ０と発話速度の３種類とし、コンテキストクラスタリング時には実施例４と同様に各モデルに応じて質問を変更している。話者クラス数Ｍは４とした。

従来法とこの発明との比較のために、ＸＡＢテストによる主観評価実験を実施した。評価には、従来法とこの発明で合成した３名の話者の２０文章を用いた。評価者は、リファレンス音声（Ｘ）の再生後に再生される二つの音声（Ａ/Ｂ）を聴取し、どちらの音声がリファレンス音声に似ているかを選択する。また、再生順による評価の偏りを除外するため、再生順（ＸＡＢ/ＸＢＡ）を入れ替えて評価した。リファレンス音声には、各目標話者の分析合成音を使用した。評価者は１０名とした。

図１４に、実験結果を示す。図１４の横軸はプリファレンススコア、縦軸は話者を示し、従来法と本発明の合成音声がどれだけの割合で選択されたかを示している。また、エラーバーは９５％信頼区間を示しており、Avg.は３名の目標話者の平均を示している。図１４は、全ての目標話者において本発明の方が、従来法より目標話者により類似した合成音声を生成することが可能であることを示している。

このように、この発明の音声合成用モデル学習装置と音声合成装置は、従来法よりも目標話者の音声に類似した音声モデルと合成音声を生成することができる。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

Ｎ名の話者の音声データを記録した多数話者音声ＤＢと、
上記Ｎ名の話者の音声データの変動要因の組み合わせを記録した多数話者コンテキストＤＢと、
上記Ｎ名の音声データと当該Ｎ名の音声データの変動要因の組み合わせとを入力として、上記各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルをＭ個にクラスタリングする話者クラスと話者クラス推定用情報を生成する話者クラスタリング部と、
上記Ｎ名の音声データの変動要因の組み合わせと上記Ｍ個の話者クラスを入力として、上記Ｎ名の音声データの変動要因の組み合わせに、それぞれが属する話者クラスを付加した話者クラス付多数話者コンテキストデータを生成する話者クラスコンテキスト生成部と、
上記Ｎ名の音声データと上記話者クラス付多数話者コンテキストデータとを入力として、上記話者クラスを考慮した話者クラス付平均声モデルを学習するモデル学習部と、
目標話者の音声データと当該音声データの目標話者コンテキストと上記話者クラス推定用情報を入力として、上記目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する目標話者クラス推定部と、
上記目標話者コンテキストに上記目標話者クラスを付加して目標話者クラスコンテキストを生成する目標話者クラスコンテキスト生成部と、
上記目標話者音声データと上記目標話者クラスコンテキストと上記話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する話者適応部と、
を具備する音声合成用モデル学習装置であり、
上記話者クラスタリング部は、
上記話者ベクトルのベクトル要素を個別にクラスタリングすることで、上記話者ベクトルに対して複数の話者クラスと話者クラス推定用情報を得るものであり、
上記目標話者クラス推定部は、
上記複数の話者クラス推定用情報から目標話者の複数の話者クラスを推定するものである、
ことを特徴とする音声合成用モデル学習装置。
請求項１に記載した音声合成用モデル学習装置において、
上記モデル学習部は、
決定木に基づくコンテキストクラスタリングを行うものであり、その際に各特徴量に関する質問群のみを用いることを特徴とする音声合成用モデル学習装置。
音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力するテキスト解析部と、
上記合成音声コンテキストと請求項１に記載した音声合成用モデル学習装置で学習した話者クラスとを入力として、話者クラス付コンテキストを生成する話者クラス付コンテキスト生成部と、
上記話者クラス付コンテキストと請求項１に記載した音声合成用モデル学習装置で学習した目標話者の音声モデルとを用いて合成音声の音声パラメータを生成する音声パラメータ生成部と、
上記音声パラメータと音声合成フィルタを用いて合成音声波形を生成する音声波形生成部と、
を具備する音声合成装置。
Ｎ名の話者の音声データと当該Ｎ名の音声データの変動要因の組み合わせとを入力として、上記各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルをＭ個にクラスタリングする話者クラスと話者クラス推定用情報を生成する話者クラスタリング過程と、
上記Ｎ名の話者の音声データの変動要因の組み合わせと上記Ｍ個の話者クラスを入力として、上記Ｎ名の音声データの変動要因の組み合わせに、それぞれが属する話者クラスを付加した話者クラス付多数話者コンテキストデータを生成する話者クラスコンテキスト生成過程と、
上記Ｎ名の音声データと上記話者クラス付多数話者コンテキストデータとを入力として、上記話者クラスを考慮した話者クラス付平均声モデルを学習するモデル学習過程と、
目標話者の音声データと当該音声データの目標話者コンテキストと上記話者クラス推定用情報を入力として、上記目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する目標話者クラス推定過程と、
上記目標話者コンテキストに上記目標話者クラスを付加して目標話者クラスコンテキストを生成する目標話者クラスコンテキスト生成過程と、
上記目標話者音声データと上記目標話者クラスコンテキストと上記話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する話者適応過程と、
を備える音声合成用モデル学習方法であり、
上記話者クラスタリング過程は、
上記話者ベクトルのベクトル要素を個別にクラスタリングすることで、上記話者ベクトルに対して複数の話者クラスと話者クラス推定用情報を得るものであり、
上記目標話者クラス推定過程は、
上記複数の話者クラス推定用情報から目標話者の複数の話者クラスを推定するものである、
ことを特徴とする音声合成用モデル学習方法。
音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力するテキスト解析過程と、
上記合成音声コンテキストと請求項４に記載した音声合成用モデル学習方法で学習した話者クラスとを入力として、話者クラス付コンテキストを生成する話者クラス付コンテキスト生成過程と、
上記話者クラス付コンテキストと請求項４に記載した音声合成用モデル学習方法で学習した目標話者の音声モデルとを用いて合成音声の音声パラメータを生成する音声パラメータ生成過程と、
上記音声パラメータと音声合成フィルタを用いて合成音声波形を生成する音声波形合成過程と、
を備える音声合成方法。
請求項１または２に記載した音声合成用モデル学習装置としてコンピュータを機能させるためのプログラム。