JP6121273B2 - 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム - Google Patents

音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム Download PDF

Info

Publication number
JP6121273B2
JP6121273B2 JP2013144557A JP2013144557A JP6121273B2 JP 6121273 B2 JP6121273 B2 JP 6121273B2 JP 2013144557 A JP2013144557 A JP 2013144557A JP 2013144557 A JP2013144557 A JP 2013144557A JP 6121273 B2 JP6121273 B2 JP 6121273B2
Authority
JP
Japan
Prior art keywords
speaker
class
speech
context
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013144557A
Other languages
English (en)
Other versions
JP2015018080A (ja
Inventor
勇祐 井島
勇祐 井島
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013144557A priority Critical patent/JP6121273B2/ja
Publication of JP2015018080A publication Critical patent/JP2015018080A/ja
Application granted granted Critical
Publication of JP6121273B2 publication Critical patent/JP6121273B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声データから音声合成用モデル(HMM)を学習する音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラムに関する。
従来のHMM(Hidden Markov Model)に基づく音声合成システムとしては、不特定話者の音声合成単位である平均声モデルから、任意話者の特徴をもつ音声を合成する手法が知られている。図15に、従来の音声合成用モデル学習装置900の機能構成を示す。
音声合成用モデル学習装置900は、多数話者音声DB910と、多数話者コンテキストDB920と、モデル学習部930と、平均声モデル940と、目標話者音声データ950と、目標話者コンテキスト960と、話者適応部970と、を具備する。多数話者音声DB910は、多数の話者の音声データを記録したデータベースである。多数話者コンテキストDB920は、多数話者音声DB910に記録された各音声データの変動要因の組み合わせを記録したデータベースである。モデル学習部930は、多数話者のそれぞれの人の音声データと各話者の音声データの変動要因とを入力として、話者クラスを考慮した平均的な音声の特徴を持つ平均声モデル940を学習する。話者適応部970は、目標話者音声データ950と目標話者コンテキスト960と平均声モデル940を入力として、平均声モデル940を目標話者の音声モデルに適応させる。
田村他、「HMMに基づく音声合成におけるピッチ・スペクトルの話者適応」電子情報通信学会論文誌 vol.J85-D-II, no.4 pp.545-553, April2002.
しかし、従来の方法では、目標話者の音声の特徴が平均声モデルと大きく異なる場合、音声モデルと目標話者の音声との類似性が低下する課題がある。また、適応により得られる音声モデルを用いて合成した合成音声の類似性も低下してしまう課題がある。
本発明は、この課題に鑑みてなされたものであり、目標話者の音声の特徴と平均声モデルとが大きく異なることが無いように工夫した音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラムを提供することを目的とする。
本発明の音声合成用モデル学習装置は、多数話者音声DBと、多数話者コンテキストDBと、話者クラスタリング部と、話者クラスコンテキスト生成部と、目標話者クラス推定部と、目標話者クラスコンテキスト生成部と、モデル学習部と、目標話者クラス推定部と、目標話者クラスコンテキスト生成部と、話者適応部と、を具備する。多数話者音声DBは、N名の話者の音声データを記録する。多数話者コンテキストDBは、上記N名の話者の音声データの変動要因の組み合わせを記録する。話者クラスタリング部は、N名の音声データと当該N名の音声データの変動要因の組み合わせとを入力として、各話者の特徴を表す話者ベクトルと話者クラス推定用情報を生成し、当該話者ベクトルをM個にクラスタリングする。話者クラスコンテキスト生成部は、N名の音声データの変動要因の組み合わせとM個の話者クラスを入力として、N名の音声データの変動要因の組み合わせに、それぞれが属する話者クラスを付加する。モデル学習部は、N名の音声データと話者クラス付多数話者コンテキストデータとを入力として、上記話者クラスを考慮した話者クラス付平均声モデルを学習する。目標話者クラス推定部は、目標話者の音声データと当該音声データの変動要因の組み合わせと話者クラスタリング部が生成する話者クラス推定用情報を入力として、目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する。目標話者クラスコンテキスト生成部は、目標話者コンテキストに目標話者クラスを付加して目標話者クラスコンテキストを生成する。話者適応部は、目標話者音声データと目標話者コンテキストと話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する。
また、この発明の音声合成装置は、テキスト解析部と、話者クラス付コンテキスト生成部と、音声パラメータ生成部と、音声波形生成部と、を具備する。テキスト解析部は、音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力する。話者クラス付コンテキスト生成部は、テキスト解析部が出力する合成音声コンテキストと上記した音声合成用モデル学習装置で推定した話者クラスとを入力として、話者クラス付コンテキストを生成する。音声パラメータ生成部は、話者クラス付コンテキスト生成部が生成する話者クラス付コンテキストと上記した音声合成用モデル学習装置で学習した目標話者の音声モデルとを用いて合成音声の音声パラメータを生成する。音声波形生成部は、音声パラメータ生成部が生成した音声パラメータと音声合成フィルタを用いて合成音声波形を生成する。
本発明の音声合成用モデル学習装置によれば、音声の音響的性質の変動要因であるコンテキストに話者クラスを付加して話者クラス付平均声モデルを学習し、当該話者クラス付平均声モデルを、目標話者の音声に適応させるので、話者の音声の特徴に適合した音声モデルを生成することができる。また、この発明の音声合成装置によれば、本発明の音声合成用モデル学習装置で学習した音声モデルを用いることで、従来の方法より目標話者の声の特徴を持った合成音声を合成することができる。
本発明の音声合成用モデル学習装置100の機能構成例を示す図。 音声合成用モデル学習装置100の動作フローを示す図。 話者クラスタリング部112の機能構成例を示す図。 N名の話者ベクトルとM個の話者クラスとの関係を例示する図。 話者クラスを付加した話者クラスコンテキストデータの一例を示す図。 モデル学習部118のより具体的な機能構成例を示す図。 二分木の一部を示す図。 本発明の音声合成装置200の機能構成例を示す図。 音声合成装置200の動作フローを示す図。 階層的なクラス構造を持つ木構造の例を示す図。 話者クラス数Mを32に設定した場合の話者クラスの木構造を示す図。 話者クラスタリング部112″の機能構成例を示す図。 モデル学習部118′の機能構成例を示す図。 XABテストによる主観評価実験の実験結果を示す図。 従来の音声合成用モデル学習装置900の機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音声合成用モデル学習装置100の機能構成例を示す。その動作フローを図2に示す。音声合成用モデル学習装置100は、多数話者音声DB910と、多数話者コンテキストDB920と、話者クラスタリング部112と、話者クラスコンテキスト生成部114と、モデル学習部118と、目標話者音声データ950と、目標話者コンテキスト960と、目標話者クラス推定部122と、目標話者クラスコンテキスト生成部124と、話者適応部126と、を具備する。多数話者音声DB910と多数話者コンテキストDB920と目標話者音声データ950と目標話者コンテキスト960とは、参照符号から明らかなように従来技術で説明した音声合成用モデル学習装置900と同じものである。音声合成用モデル学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。
多数話者音声DB910は、N名の話者の音声データを記録する。音声データは、音声合成用モデルを学習する対象のN名の話者が発話した各話者K個(i=1,…,N)の音声データであり、例えばサンプリング周波数16kHzで離散値化されたディジタルデータである。
多数話者コンテキストDB920は、上記音声データの変動要因の組み合わせを記録する。音声データの変動要因の組み合わせとは、音素、形態素、アクセントなどの音声特徴の変動に関係する情報のことであり、コンテキストと称する。
話者クラスタリング部112は、各話者の音声データと当該コンテキストとを入力として、各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルをM個にクラスタリングする話者クラスと話者クラス推定用情報を生成する(ステップS112)。図3に、話者クラスタリング部112のより具体的な機能構成例を示す。話者クラスタリング部112は、特徴抽出手段1120と、クラスタリング手段1121と、を備える。
特徴抽出手段1120は、各話者の音声データとコンテキストから話者の特徴を表す話者ベクトルを抽出する。例えば、話者の特徴として各特徴量の平均値を用いる場合、各話者のスペクトル、F0、発話速度等の平均を求める。クラスタリングに使用する話者i(i=1〜N)の話者ベクトルvは次式で定義される。ここで、cik(k=1〜D:Dは次元数)は話者iのk次元目のスペクトルの平均値、F0は話者iのF0の平均値、SRは話者iの発話速度である。
Figure 0006121273
クラスタリング手段1121は、得られたN名の話者ベクトルを用いて、任意のM個に分割するようにクラスタリングを行うことで、N名の話者の話者クラスと話者クラス推定用情報を得る。図4に、N名の話者ベクトルとM個の話者クラスとの関係を例示する。Nを10名、Mを3個、と仮定しi番目の話者をSとすると、話者クラスCには例えばS,S,Sが分類され、話者クラスCには例えばS,S,Sが分類され、話者クラスCには例えばS,S,S,S10が分類されと仮定する。このクラスタリングの結果、各話者の音声データとコンテキストは、話者Sは話者クラスCに、話者Sは話者クラスCに、話者S10は話者クラスCに、といった具合に分類される。
話者クラス推定用情報は、例えば、各話者クラスC(*:1〜M)のセントロイドである。又は、各話者クラスCに属する話者の音声データから学習されたGMM(Gaussian Mixture Model)そのものであっても良い。
クラスタリングアルゴリズムには、k-means法やLBG法などの一般的なクラスタリングアルゴリズムを使用する。なお、クラスタリングは、上記したような物理特徴を用いずに例えば参考文献1(特開2011−171815号公報)に記載されている話者間の知覚的な類似性を用いて行っても良い。
話者クラスコンテキスト生成部114は、N名のコンテキストとM個の話者クラスを入力として、当該Nの話者のコンテキストに、それぞれが属する話者クラスを付加した話者クラスコンテキストデータを生成する(ステップS114)。図5に、話者クラスを付加した話者クラスコンテキストデータの一例を示す。端から順に、音素:{先行(a),当該(i),後続(u)}、モーラ:当該音素のアクセント句内でのモーラ(「拍」)位置、形態素:品詞他、アクセント句:アクセント句の長さ他、呼気段落:呼気段落の長さ他、文長:文の長さ、と続き、最後が話者クラスコンテキスト生成部114で付加した話者クラスである。この例ではCに分類されている。
モデル学習部118は、N名の音声データとN名の話者クラス付多数話者コンテキストデータとを入力として、話者クラスを考慮した話者クラス付平均声モデルを学習する(ステップS118)。話者クラス付平均声モデルは、話者適応の初期モデルとなるHMMであり、その学習方法は例えば非特許文献1に記載された従来方法と同じである。
図6に、モデル学習部118のより具体的な機能構成例を示して更に詳しく説明する。モデル学習部118は、連結学習手段1180と、コンテキストクラスタリング手段1181と、で構成される。連結学習手段1180は、多数話者音声DB910に記録されたN名の音声データとN名の話者クラス付多数話者コンテキストデータとを入力として、各コンテキストに対応するHMMの平均と分散を求めてコンテキストクラスタリング手段1181に出力する。例えばスペクトルモデル1182aとF0モデル1182bと音素継続長モデル1182cの3種類とする。
コンテキストクラスタリング手段1181は、その3種類の特徴量(スペクトル,F0,音素継続長)のHMMに、決定木に基づくコンテキストクラスタリングを適用して話者クラスを考慮した話者クラス付平均声モデル120を学習する。決定木は図7に例示するニ分木であり、それぞれの節(node)毎にコンテキストを二つに分割する質問1184,1185が用意されている。全てのコンテキストは根ノード(root node)からそれぞれの節の質問に従って木を辿ることにより、葉ノード(leaf node)の内のどれかに達するため、一度決定木を構築すれば、学習データに出現しないコンテキストの組み合わせに対しても、音声合成時に適切なモデル(HMM)を一意に決定することができる。また、コンテキストクラスタリング後の各モデルに対して、もう一度連結学習を行うことで、HMMの平均と分散を求めても良い。
目標話者クラス推定部122は、目標話者音声データ950と当該音声データコンテキスト960と話者クラスタリング部112が出力する話者クラス推定用情報を入力として、目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する(ステップS122)。目標話者クラス推定部122は、上記した話者クラスタリング部112と同様に、目標話者の特徴を表す目標話者ベクトルを抽出し、目標話者ベクトルがどの話者クラスに属するか推定する。最も単純な推定方法としては、各話者クラスのセントロイドを話者クラスタリング部112から取得し、目標話者ベクトルとの距離を用いて推定する。各話者クラスのセントロイドと目標話者ベクトルとの距離は、例えばユークリッド距離、マハラノビス距離等を計算することで得られる。その距離が最も小さい話者クラスを目標話者が属するクラスとして選択する。
目標話者クラスコンテキスト生成部124は、目標話者コンテキスト960に、目標話者クラス推定部122で推定した話者クラスを付加して目標話者クラスコンテキストを生成する(ステップS124)。
話者適応部126は、目標話者音声データ950と目標話者クラスコンテキストと、モデル学習部118で学習した話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する(ステップS126)。話者適応部126は、話者クラス付平均声モデルを話者適応させる。その話者適応の方法としては、例えば非特許文献1に記載されているMLLR(Maximum Likelihood Linear Regression)を用いる。
以上説明したように動作する音声合成用モデル学習装置100は、平均声モデルの学習と話者適応に話者クラスコンテキストを導入する。その結果、より目標話者の音声データに近い音声合成用モデルを生成することができる。
〔音声合成装置〕
図8に、この発明の音声合成装置200の機能構成例を示す。その動作フローを図9に示す。音声合成装置200は、テキスト解析部210と、話者クラス付コンテキスト生成部212と、目標話者音声モデル214と、音声パラメータ生成部216と、音声波形生成部218と、を具備する。
テキスト解析部210は、音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力する(ステップS210)。合成音声コンテキストは、テキストの読み、アクセント等の多数話者コンテキストDB920と同様の情報である。
話者クラス付コンテキスト生成部212は、テキスト解析部210が出力する合成音声コンテキストと、上記した音声合成用モデル学習装置100(図1)で学習した話者クラスとを入力として、話者クラス付コンテキストを生成する(ステップS212)。目標話者音声モデル214は、音声合成用モデル学習装置100(図1)で学習したものである。
音声パラメータ生成部216は、話者クラス付コンテキスト生成部212が出力する話者クラス付コンテキストと目標話者音声モデル214とを用いて合成音声のパラメータを生成する(ステップS216)。合成音声のパラメータとしては、スペクトルパラメータ、F0、などである。
音声波形生成部218は、音声パラメータ生成部216が生成した合成音声のパラメータと音声合成フィルタを用いて合成音声波形を生成する(ステップS218)。音声合成フィルタは、例えば参考文献2(今井他「音声合成のためのメル対数スペクトル近似(MLSA)フィルタ」電子情報通信学会論文誌A Vol.J66-A No.2 pp.122-129, Feb. 1983.)に記載された周知のものである。
音声合成装置200によれば、この発明の音声合成用モデル学習装置100で学習した話者クラスと目標話者の音声モデルを用いて音声を合成するので、目標話者の声の特徴を持った合成音声を合成することができる。
上記した音声合成用モデル学習装置100の話者クラスタリング部112は、N名の音声データと当該N名のコンテキストとを入力として、各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルを一度にM個にクラスタリングする例で説明した。ここでは、話者クラスタリング時に、話者クラス間の類似度を考慮した階層的なクラスタリングを導入した実施例を説明する。
実施例2の話者クラスタリング部112′(図示は省略)は、階層的なクラスタリングを使用して、M個のクラスにクラスタリングを行う。階層的なクラスタリング手法としては、Hierarchical k-means法などを用いる。
図7に示した階層的なクラス構造を持たない木構造では、有声音素かどうかといった質問の次に話者クラスが20であるかどうかという質問が適用されている。この質問が適用されてしまうと、それ以下の木構造には話者クラスが20である少量の話者しかモデル学習に使用されなくなる。特に話者クラス数Mを大きくすると、各話者クラス内の話者数に偏りが生じ、特定のリーフノードにおいてモデル学習に使用される話者が極端に減少するため、合成音声が不安定になる問題が生じる場合がある。
その問題を解決する方法としては、話者クラスを階層的な構造にする方法が考えられる。話者クラスタリング時に階層的なクラスタリングを導入することで、話者クラス間の類似性を考慮した話者クラスを構築し、安定した合成音声の生成が可能となる。
図10に、階層的なクラス構造を持つ木構造の例を示す。話者クラスを階層的な構造にすることで、例えば有声音素かどうかといった質問の次に、話者クラスが2_1であるかといった質問を使用することが可能となる。
例えば話者クラス数Mを32に設定した場合、図11に示すように最下段の横方向の話者クラス数が32個の木構造を持つことになる。この結果、決定木の木構造の上位ノードには、全体的な類似を考慮した質問を適用し易くなり、決定木の下位ノードでは各話者クラスに関する質問が適用されるようになるので、クラス数Mを大きくした場合でも合成音声を安定化させる効果を奏する。
上記した音声合成用モデル学習装置100の話者クラスタリング部112は、話者ベクトルv(式(1))の単位で、話者クラスを分類していた。そのため、同一の話者クラスには話者ベクトルを構成する全ての特徴量(実施例1では、スペクトル,F0,発話速度の平均値)が似ている話者が存在することになる。しかし、話者の中にはスペクトルの特徴だけが似ている話者、F0だけが似ている話者等の一部の特徴のみが類似している話者も多く存在する。そこで、各特徴ごとに話者クラスを分類する方法も考えられる。
図12に、特徴ごとに話者クラスを分類するようにした話者クラスタリング部112″の機能構成例を示す。話者クラスタリング部112″は、特徴抽出手段1120と、複数のクラスタリング手段1121a,1121b,1121c、を備える。
話者クラスタリング部112″は、式(1)に示した話者ベクトルvの特徴を、それぞれ個別の話者ベクトルとして扱う(式(2))。
Figure 0006121273
つまり、話者クラスタリング部112″は、話者ベクトルのベクトル要素を個別にクラスタリングすることで、各話者に対して複数の話者クラスを得るものである。そして、この実施例の目標話者クラス推定部122′(図示は省略)は、複数の話者クラス推定用情報から目標話者の複数の話者クラスを推定するものである。
このように、複数の特徴を統合せずに各特徴を個別にクラスタリングする音声合成用モデル学習装置は、より細かい話者性を考慮した平均声モデルが学習できるようになる。なお、この実施例3の考えは、音声合成用モデル学習装置100の話者クラスタリング部112に適用する例で説明を行ったが、実施例2の話者クラスタリング部112′に適用しても良い。
上記した音声合成用モデル学習装置100のモデル学習部118は、コンテキストクラスタリング時に、スペクトルのモデル1182a、F0のモデル1182b、音素継続長のモデル1182c、の各モデルにおいて共通の質問(話者クラスコンテキストに関する質問1185)を用いていた。しかし、実施例3のように各特徴の複数の話者クラスをコンテキストとして使用する場合、モデルと話者クラスの特徴が異なった場合(スペクトルのモデルに対して音素継続長に関する話者クラスでコンテキストクラスタリングする等)、不適切なコンテキストクラスタリングが行われ、合成音声が安定しないという問題が生じる場合がある。
そのため、スペクトル、F0、音素継続長のそれぞれのモデルに対して、共通の質問群を用いてクラスタリングを行うのではなく、モデルに応じて各特徴の話者クラスに関する質問群を変更したモデル学習部118′も考えられる。図13に、モデル学習部118′の機能構成例を示す。
モデル学習部118′は、モデル学習部118(図6)に対して3つの特徴に対してそれぞれ対応する3つの質問群を備える点で異なる。スペクトルの話者クラスコンテキストに関する質問1185aは、スペクトルのコンテキストクラスタリングにのみ用いられる。F0の話者クラスコンテキストに関する質問1185bは、F0のコンテキストクラスタリングにのみ用いられる。
音素継続長の話者クラスコンテキストに関する質問1185cは、音素継続長のコンテキストクラスタリングにのみ用いられる。
このように各モデルに対して使用する質問を変更することで、より安定した音声合成が行える音声合成用モデルを学習することが可能になる。
〔評価実験結果〕
この発明の有効性を確認するために、従来法とこの発明との比較実験を行った。比較実験には、女性話者88名が音素バランス文120文章を発話した音声データを用いた。音素バランス文とは、出来るだけ少ない語数・文数で音素出現のバランスを取るために設計された文章のことである。
平均声モデルの学習には、88名の内85名の100文章、計8500文章を用いた。目標話者の音声データ、コンテキストデータとして、平均声モデルの学習に使用していない3名の話者の20文章を用いた。HMMの学習には、音響特徴量として0−39次のメルケプストラム、対数F0、5次元の非周期性指標を用いた。又、話者クラスタリング部112における特徴は、平均メルケプストラムと平均対数F0と発話速度の3種類とし、コンテキストクラスタリング時には実施例4と同様に各モデルに応じて質問を変更している。話者クラス数Mは4とした。
従来法とこの発明との比較のために、XABテストによる主観評価実験を実施した。評価には、従来法とこの発明で合成した3名の話者の20文章を用いた。評価者は、リファレンス音声(X)の再生後に再生される二つの音声(A/B)を聴取し、どちらの音声がリファレンス音声に似ているかを選択する。また、再生順による評価の偏りを除外するため、再生順(XAB/XBA)を入れ替えて評価した。リファレンス音声には、各目標話者の分析合成音を使用した。評価者は10名とした。
図14に、実験結果を示す。図14の横軸はプリファレンススコア、縦軸は話者を示し、従来法と本発明の合成音声がどれだけの割合で選択されたかを示している。また、エラーバーは95%信頼区間を示しており、Avg.は3名の目標話者の平均を示している。図14は、全ての目標話者において本発明の方が、従来法より目標話者により類似した合成音声を生成することが可能であることを示している。
このように、この発明の音声合成用モデル学習装置と音声合成装置は、従来法よりも目標話者の音声に類似した音声モデルと合成音声を生成することができる。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. N名の話者の音声データを記録した多数話者音声DBと、
    上記N名の話者の音声データの変動要因の組み合わせを記録した多数話者コンテキストDBと、
    上記N名の音声データと当該N名の音声データの変動要因の組み合わせとを入力として、上記各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルをM個にクラスタリングする話者クラスと話者クラス推定用情報を生成する話者クラスタリング部と、
    上記N名の音声データの変動要因の組み合わせと上記M個の話者クラスを入力として、上記N名の音声データの変動要因の組み合わせに、それぞれが属する話者クラスを付加した話者クラス付多数話者コンテキストデータを生成する話者クラスコンテキスト生成部と、
    上記N名の音声データと上記話者クラス付多数話者コンテキストデータとを入力として、上記話者クラスを考慮した話者クラス付平均声モデルを学習するモデル学習部と、
    目標話者の音声データと当該音声データの目標話者コンテキストと上記話者クラス推定用情報を入力として、上記目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する目標話者クラス推定部と、
    上記目標話者コンテキストに上記目標話者クラスを付加して目標話者クラスコンテキストを生成する目標話者クラスコンテキスト生成部と、
    上記目標話者音声データと上記目標話者クラスコンテキストと上記話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する話者適応部と、
    を具備する音声合成用モデル学習装置であり、
    上記話者クラスタリング部は、
    上記話者ベクトルのベクトル要素を個別にクラスタリングすることで、上記話者ベクトルに対して複数の話者クラスと話者クラス推定用情報を得るものであり、
    上記目標話者クラス推定部は、
    上記複数の話者クラス推定用情報から目標話者の複数の話者クラスを推定するものである、
    ことを特徴とする音声合成用モデル学習装置
  2. 請求項1に記載した音声合成用モデル学習装置において、
    上記モデル学習部は、
    決定木に基づくコンテキストクラスタリングを行うものであり、その際に各特徴量に関する質問群のみを用いることを特徴とする音声合成用モデル学習装置。
  3. 音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力するテキスト解析部と、
    上記合成音声コンテキストと請求項1に記載した音声合成用モデル学習装置で学習した話者クラスとを入力として、話者クラス付コンテキストを生成する話者クラス付コンテキスト生成部と、
    上記話者クラス付コンテキストと請求項1に記載した音声合成用モデル学習装置で学習した目標話者の音声モデルとを用いて合成音声の音声パラメータを生成する音声パラメータ生成部と、
    上記音声パラメータと音声合成フィルタを用いて合成音声波形を生成する音声波形生成部と、
    を具備する音声合成装置。
  4. N名の話者の音声データと当該N名の音声データの変動要因の組み合わせとを入力として、上記各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルをM個にクラスタリングする話者クラスと話者クラス推定用情報を生成する話者クラスタリング過程と、
    上記N名の話者の音声データの変動要因の組み合わせと上記M個の話者クラスを入力として、上記N名の音声データの変動要因の組み合わせに、それぞれが属する話者クラスを付加した話者クラス付多数話者コンテキストデータを生成する話者クラスコンテキスト生成過程と、
    上記N名の音声データと上記話者クラス付多数話者コンテキストデータとを入力として、上記話者クラスを考慮した話者クラス付平均声モデルを学習するモデル学習過程と、
    目標話者の音声データと当該音声データの目標話者コンテキストと上記話者クラス推定用情報を入力として、上記目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する目標話者クラス推定過程と、
    上記目標話者コンテキストに上記目標話者クラスを付加して目標話者クラスコンテキストを生成する目標話者クラスコンテキスト生成過程と、
    上記目標話者音声データと上記目標話者クラスコンテキストと上記話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する話者適応過程と、
    を備える音声合成用モデル学習方法であり、
    上記話者クラスタリング過程は、
    上記話者ベクトルのベクトル要素を個別にクラスタリングすることで、上記話者ベクトルに対して複数の話者クラスと話者クラス推定用情報を得るものであり、
    上記目標話者クラス推定過程は、
    上記複数の話者クラス推定用情報から目標話者の複数の話者クラスを推定するものである、
    ことを特徴とする音声合成用モデル学習方法
  5. 音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力するテキスト解析過程と、
    上記合成音声コンテキストと請求項4に記載した音声合成用モデル学習方法で学習した話者クラスとを入力として、話者クラス付コンテキストを生成する話者クラス付コンテキスト生成過程と、
    上記話者クラス付コンテキストと請求項4に記載した音声合成用モデル学習方法で学習した目標話者の音声モデルとを用いて合成音声の音声パラメータを生成する音声パラメータ生成過程と、
    上記音声パラメータと音声合成フィルタを用いて合成音声波形を生成する音声波形合成過程と、
    を備える音声合成方法。
  6. 請求項1または2に記載した音声合成用モデル学習装置としてコンピュータを機能させるためのプログラム。
JP2013144557A 2013-07-10 2013-07-10 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム Expired - Fee Related JP6121273B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013144557A JP6121273B2 (ja) 2013-07-10 2013-07-10 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013144557A JP6121273B2 (ja) 2013-07-10 2013-07-10 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム

Publications (2)

Publication Number Publication Date
JP2015018080A JP2015018080A (ja) 2015-01-29
JP6121273B2 true JP6121273B2 (ja) 2017-04-26

Family

ID=52439133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013144557A Expired - Fee Related JP6121273B2 (ja) 2013-07-10 2013-07-10 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム

Country Status (1)

Country Link
JP (1) JP6121273B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475878B2 (en) 2019-11-01 2022-10-18 Samsung Electronics Co., Ltd. Electronic device and operating method thereof

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538455B2 (en) 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
EP4018439A1 (en) * 2019-08-21 2022-06-29 Dolby Laboratories Licensing Corporation Systems and methods for adapting human speaker embeddings in speech synthesis
CN110767210A (zh) * 2019-10-30 2020-02-07 四川长虹电器股份有限公司 一种生成个性化语音的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61121093A (ja) * 1984-11-19 1986-06-09 松下電器産業株式会社 音声認識装置
JP2583074B2 (ja) * 1987-09-18 1997-02-19 日本電信電話株式会社 音声合成方法
JP5486565B2 (ja) * 2011-08-05 2014-05-07 日本電信電話株式会社 話者クラスタリング方法、話者クラスタリング装置、プログラム
JP5689782B2 (ja) * 2011-11-24 2015-03-25 日本電信電話株式会社 目標話者学習方法、その装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475878B2 (en) 2019-11-01 2022-10-18 Samsung Electronics Co., Ltd. Electronic device and operating method thereof
US11942077B2 (en) 2019-11-01 2024-03-26 Samsung Electronics Co., Ltd. Electronic device and operating method thereof

Also Published As

Publication number Publication date
JP2015018080A (ja) 2015-01-29

Similar Documents

Publication Publication Date Title
JP5768093B2 (ja) 音声処理システム
Nishimura et al. Singing Voice Synthesis Based on Deep Neural Networks.
Kang et al. Multi-distribution deep belief network for speech synthesis
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US6535852B2 (en) Training of text-to-speech systems
JP6499305B2 (ja) 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US9972306B2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
US9972300B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
Tamura et al. Text-to-speech synthesis with arbitrary speaker's voice from average voice
JP6908045B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP6121273B2 (ja) 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
Stuttle A Gaussian mixture model spectral representation for speech recognition
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Larcher et al. Constrained temporal structure for text-dependent speaker verification
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
Lindgren Speech recognition using features extracted from phase space reconstructions
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Ijima et al. Statistical model training technique based on speaker clustering approach for HMM-based speech synthesis
Kaur et al. Formant Text to Speech Synthesis Using Artificial Neural Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170329

R150 Certificate of patent or registration of utility model

Ref document number: 6121273

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees