JP6523893B2

JP6523893B2 - 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム

Info

Publication number: JP6523893B2
Application number: JP2015183092A
Authority: JP
Inventors: 大和大谷; 紘一郎森
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2019-06-05
Anticipated expiration: 2035-09-16
Also published as: US10540956B2; US20170076715A1; JP2017058513A

Description

本発明の実施形態は、学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラムに関する。

任意のテキストを入力することで、その内容を音声で出力することを目的としたテキスト音声合成技術が従来から知られている。近年の音声合成技術では、音声を合成するために必要な人の話し方及び声色等を表現する音響モデルを、統計的に構築する試みが盛んに行われている。例えば音響モデルとして、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を利用した音声合成技術が知られている。

特開２００７−２１９２８６号公報

ＭａｋｏｔｏＴａｃｈｉｂａｎａ，ＴａｋａｓｈｉＮｏｓｅ，ＪｕｎｉｃｈｉＹａｍａｇｉｓｈｉａｎｄＴａｋａｏＫｏｂａｙａｓｈｉ，"ＡｔｅｃｈｎｉｑｕｅｆｏｒｃｏｎｔｒｏｌｌｉｎｇｖｏｉｃｅｑｕａｌｉｔｙｏｆｓｙｎｔｈｅｔｉｃｓｐｅｅｃｈｕｓｉｎｇｍｕｌｔｉｐｌｅｒｅｇｒｅｓｓｉｏｎＨＳＭＭ，"ｉｎＰｒｏｃ．ＩＮＴＥＲＳＰＥＥＣＨ２００６−ＩＣＳＬＰ，ｐ．２４３８−２４４１，２００６ＫａｚｕｈｉｒｏＫｏｂａｙａｓｈｉ，ＴｏｍｏｋｉＴｏｄａ，ＨｉｒｏｎｏｒｉＤｏｉ，ＴｏｍｏｙａｓｕＮａｋａｎｏ，ＭａｓａｔａｋａＧｏｔｏ，ＧｒａｈａｍＮｅｕｂｉｇ，ＳａｋｒｉａｎｉＳａｋｔｉａｎｄＳａｔｏｓｈｉＮａｋａｍｕｒａ，"Ｖｏｉｃｅｔｉｍｂｒｅｃｏｎｔｒｏｌｂａｓｅｄｏｎｐｅｒｃｅｐｔｕａｌａｇｅｉｎｓｉｎｇｉｎｇｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ，"ＩＥＩＣＥＴｒａｎｓ．Ｉｎｆ．＆Ｓｙｓｔ．，ｖｏｌ．９７−Ｄ，ｎｏ．６，２０１４ＪｕｎｉｃｈｉＹａｍａｇｉｓｈｉａｎｄＴａｋａｏＫｏｂａｙａｓｈｉ，"Ａｖｅｒａｇｅ−ｖｏｉｃｅ−ｂａｓｅｄｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｕｓｉｎｇＨＳＭＭ−ｂａｓｅｄｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎａｎｄａｄａｐｔｉｖｅｔｒａｉｎｉｎｇ，" ＩＥＩＣＥＴｒａｎｓａｃｔｉｏｎｓＩｎｆｏｒｍａｔｉｏｎ＆Ｓｙｓｔｅｍｓ，ｖｏｌ．Ｅ９０−Ｄ，ｎｏ．２，ｐｐ．５３３−５４３，Ｆｅｂ．２００７．山岸順一，田村正統，益子貴史，小林隆夫，徳田恵一，"平均声モデル構築のためのコンテキストクラスタリング手法の検討"，電子情報通信学会技術研究報告．ＳＰ，音声１０２（１０８），２５−３０，２００２Ｖ．Ｗａｎｅｔａｌ．，"ＣｏｍｂｉｎｉｎｇｍｕｌｔｉｐｌｅｈｉｇｈｑｕａｌｉｔｙｃｏｒｐｏｒａｆｏｒｉｍｐｒｏｖｉｎｇＨＭＭ−ＴＴＳ，" Ｐｒｏｃ．ＩＮＴＥＲＳＰＥＥＣＨ，Ｔｕｅ．Ｏ５ｄ．０１，Ｓｅｐｔ．２０１２．

しかしながら、従来の技術では、音声を合成する際に行われる話者性の制御を、ユーザの意図した通りに精度良く行うことが難しかった。

実施形態の学習装置は、記憶部と学習部とを備える。記憶部は、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する１以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する。学習部は、前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記１以上の知覚表現に対応する１以上の知覚表現音響モデルを学習する。前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、前記平均声モデルから合成された音声と、の差を示す得点である。

第１実施形態の学習装置の機能構成の例を示す図。第１実施形態の知覚表現得点情報の例を示す図。第１実施形態の学習処理の例を示すフローチャート。第１実施形態の平均ベクトルの抽出・連結処理の例の概要を示す図。第１実施形態の回帰行列と知覚表現音響モデル１０４との対応の例を示す図。第２実施形態の音声合成装置の機能構成の例を示す図。第２実施形態の音声合成方法の例を示すフローチャート。第１実施形態の学習装置、及び、第２実施形態の音声合成装置のハードウェア構成の例を示す図。

以下に添付図面を参照して、学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラムの実施形態を詳細に説明する。

（第１実施形態）
図１は第１実施形態の学習装置の機能構成の例を示す図である。第１実施形態の学習装置１００は、記憶部１、取得部２及び学習部３を備える。

記憶部１は、基準音響モデル１０１、学習話者情報１０２、知覚表現得点情報１０３及び知覚表現音響モデル１０４を記憶する。

取得部１は、基準音響モデル１０１、学習話者情報１０２及び知覚表現得点情報１０３を他の装置等から取得する。

ここで基準音響モデル１０１、学習話者情報１０２及び知覚表現得点情報１０３について説明する。

基準音響モデル１０１は、知覚表現音響モデル１０４の学習に用いられる。

基準音響モデル１０１について説明する前に、まず音響モデルの例について説明する。現在広く用いられているＨＭＭに基づく音声合成では、隠れセミマルコフモデル（以下、ＨＳＭＭという。）で表される音響モデルが用いられている。ＨＳＭＭでは、出力分布及び継続長分布がそれぞれ正規分布で表現される。

一般に、ＨＳＭＭで表される音響モデルは以下のようにして構築される。

（１）ある話者の音声波形から、声の高さの時間的な変動を表す韻律パラメータ、並びに、声の音韻及び声色の情報を表す音声パラメータが抽出される。

（２）音声の内容を示すテキストから言語属性を表すコンテキスト情報が抽出される。コンテキスト情報は、ＨＭＭのモデルを分類する音声単位として用いられる情報の繋がりを表す情報である。音声単位は、例えば音素、半音素及び音節等である。例えば音声単位として音素を用いる場合、コンテキスト情報として、音素名の系列を用いることができる。

（３）コンテキスト情報に基づき、ＨＳＭＭの持つ状態毎に、決定木により韻律パラメータ及び音声パラメータがクラスタリングされる。

（４）決定木によるクラスタリングにより得られた各リーフノードの韻律パラメータ及び音声パラメータから、ＨＳＭＭの出力分布が算出される。

（５）ＥＭアルゴリズムを使用し尤度最大化基準により、ＨＳＭＭのモデルパラメータ（出力分布）が更新される。

（６）同様に、コンテキスト情報に対応した音声の継続長を示すパラメータについてもクラスタリングが行われ、クラスタリングにより得られた各リーフノードに継続長を示すパラメータの正規分布が保持され、ＥＭアルゴリズムによりモデルパラメータ（継続長分布）が更新される。

ＨＳＭＭに基づく音声合成では、上記（１）〜（６）の処理により、話者の声色や口調の特徴をモデル化する。これにより、話者の特徴を捉えた合成音声を出力することが可能となる。

基準音響モデル１０１は、平均声モデルＭ_０を表す音響モデルである。平均声モデルＭ_０は、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築される。平均声モデルＭ_０のモデルパラメータは、複数の話者から得られる平均的な声の特徴を表す。

ここで、声の特徴は音響的特徴量により表される。音響的特徴量は、人の発話から抽出された韻律に関するパラメータ、並びに、音韻及び声色等を表す音声スペクトルから抽出されたパラメータ等である。

具体的には、韻律に関するパラメータは、声の高さを表す基本周波数の時間系列データである。

また、音韻及び音色等を表すパラメータは、音響データ及び当該音響データの時間変化を表す特徴量である。音響データは、ケプストラム、メルケプストラム、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）、メルＬＰＣ、ＬＳＰ（ｌｉｎｅｓｐｅｃｔｒａｌｐａｉｒｓ）、メルＬＳＰ等の時間系列データ、並びに、音声の周期及び非周期性の割合を表す指標データである。

平均声モデルＭ_０は、一般的なＨＭＭに基づく音声合成と同様、コンテキストクラスタリングにより構築された決定木、ＨＭＭの各状態の出力分布を表す正規分布、及び、継続長分布を表す正規分布で構成されている。なお平均声モデルＭ_０の構築方法の詳細については、非特許文献３に記載されている。

学習話者情報１０２は、知覚表現音響モデル１０４の学習に用いられる。学習話者情報１０２は、音響データ、言語データ及び音響モデルを学習話者毎に関連付けて記憶する。学習話者は、知覚表現音響モデル１０４の学習対象の話者である。音響データ、言語データ及び音響モデルにより、学習話者の音声が特徴付けられる。例えば学習話者の音響モデルは、学習話者が発する音声の音声認識に利用することができる。

言語データは、発話した音声の文字列情報から得られるものである。具体的には、言語データは、音素、発音方法に関わる情報、句末位置、文長、呼気段落長、呼気段落位置、アクセント句長、アクセント句位置、単語長、単語位置、モーラ長、モーラ位置、音節位置、音節の母音、アクセント型、係り受け情報、文法情報及び音素境界情報等である。音素境界情報は、各言語特徴の先行、先々行、後続及び後々続に関する情報である。なお音素は半音素でもよい。

学習話者情報１０２の音響モデルは、基準音響モデル１０１（平均声モデルＭ_０）、学習話者の音響データ、及び、学習話者の言語データから構築される。具体的には、学習話者情報１０２の音響モデルは、非特許文献３に記載されている話者適応技術により、平均声モデルＭ_０と同一の構造を有するモデルとして構築される。なお、各学習話者の音声が複数種類の発話様式毎にある場合、発話様式毎に学習話者の音響モデルを構築してもよい。発話様式は、例えば読み上げ調、対話調及び感情音声等である。

知覚表現得点情報１０３は、知覚表現音響モデル１０４の学習に用いられる。知覚表現得点情報１０３は、話者の声質を、音声に関する知覚表現の得点で表した情報である。音声に関する知覚表現は、人の音声を聴いたときに感じる非言語的な声の特徴を表す。知覚表現は、例えば声の明るさ、性別、年齢、太さ及び明瞭さ等である。知覚表現得点は、音声に関する知覚表現の観点により、話者の声の特徴を得点（数値）で表した情報である。

図２は第１実施形態の知覚表現得点情報の例を示す図である。図２の例は、性別、年齢、明るさ、太さ及び明瞭さの知覚表現の観点による得点が、学習話者ＩＤ毎に記憶されている場合を示す。知覚表現得点は、通常、１人又は複数の評価者が学習話者の音声を聴いて、その評価者の感覚に基づいて採点を行う。知覚表現得点は評価者の主観に依存するため、評価者によりその傾向が異なると考えられる。そこで、知覚表現得点は基準音響モデルの音声、すなわち平均声モデルＭ_０の音声との相対的な差異により表す。

例えば、学習話者ＩＤがＭ００１である話者の知覚表現得点は、性別が＋５．３、年齢が＋２．４、明るさが−３．４、太さが＋１．２、明瞭さが＋０．９である。図２の例では、知覚表現の得点は、平均声モデルＭ_０から合成される音声の得点を基準（０．０）として表現されている。また得点の数値が大きい程、傾向が強いことを示す。なお性別の知覚表現得点は、プラスの場合、男性の声質の傾向が強いことを示し、マイナスの場合、女性の声質の傾向が強いことを示す。

なお知覚表現得点を付与する際の具体的な方法は適宜定めてよい。

例えば、各評価者に、学習話者の原音又は合成音声と、平均声モデルＭ_０から合成された音声と、を別々に採点してもらった後、学習話者の知覚表現得点から平均声モデルＭ_０から合成された音声の知覚表現得点を引くことにより、知覚表現得点を付与してもよい。

また例えば、各評価者に学習話者の原音又は合成音声と、平均声モデルＭ_０から合成された音声と、を続けて聴いてもらい、学習話者の音声と、平均声モデルＭ_０から合成された音声との差を示す知覚表現得点を直接、各評価者に付与してもらってもよい。

知覚表現得点情報１０３は、各評価者により付与された知覚表現得点の平均を学習話者毎に記憶する。なお記憶部１は、知覚表現得点情報１０３を、更に発話毎に記憶してもよい。また記憶部１は、知覚表現得点情報１０３を、更に発話様式毎に記憶してもよい。発話様式は、例えば読み上げ調、対話調及び感情付き発話等である。

知覚表現音響モデル１０４は、学習部３により学習話者及び知覚表現毎に学習される。学習部３は、例えば学習話者ＩＤがＭ００１である学習話者の知覚表現音響モデル１０４として、声の性別の観点で性別音響モデルを学習し、声の年齢の観点で年齢音響モデルを学習し、声の明るさの観点で明るさ音響モデルを学習し、声の太さの観点で太さ音響モデルを学習し、声の明瞭さの観点で明瞭さ音響モデルを学習する。

学習部３は、学習話者情報１０２及び知覚得点情報１０３により表された学習話者の声質の特徴と、基準音響モデル１０１（平均声モデルＭ_０）と、から学習話者の知覚表現音響モデル１０４を学習し、当該知覚表現音響モデル１０４を記憶部１に記憶する。

以下、知覚表現音響モデル１０４の学習処理の例について具体的に説明する。

図３は第１実施形態の学習処理の例を示すフローチャートである。はじめに、学習部３が、知覚表現音響モデル１０４の初期モデルを構築する（ステップＳ１）。

具体的には、初期モデルは、基準音響モデル１０１（平均声モデルＭ_０）、学習話者情報１０２に含まれる各学習話者の音響モデル、及び、各学習話者の知覚表現得点情報１０３を用いて構築される。初期モデルは重回帰ＨＳＭＭ型のモデルである。

ここで、重回帰ＨＳＭＭについて簡単に説明する。なお重回帰ＨＳＭＭの詳細は、例えば非特許文献１に記載されている。重回帰ＨＳＭＭは、音響モデルが有するＨＳＭＭの出力分布Ｎ（μ，Σ）の平均ベクトル、及び、継続長分布Ｎ（μ，Σ）の平均ベクトルを、知覚表現得点、回帰行列及びバイアスベクトルにより表現するモデルである。

すなわち、音響モデルに含まれるある正規分布の平均ベクトルは下記式（１）により表される。

ここでＥはＩ行、Ｃ列の回帰行列である。Ｉは学習話者の数を示す。Ｃは知覚表現の種類を示す。ｗ＝［ｗ_１，ｗ_２，…，ｗ_ｃ］^Тは、Ｃ個の成分を有する知覚表現得点ベクトルである。Ｃ個の成分のそれぞれは、対応する知覚表現の得点を示す。なおＴは転置を示す。ｂはＩ個の成分を有するバイアスベクトルである。

回帰行列Ｅに含まれるＣ個の列ベクトル｛ｅ_１，ｅ_２，…，ｅ_Ｃ｝は、それぞれが知覚表現に対応する要素を表す。以下、回帰行列Ｅに含まれる列ベクトルを要素ベクトルという。例えば、知覚表現の種類が上述の図２の例の場合、回帰行列Ｅは、性別に対応する要素ベクトルｅ_１、年齢に対応する要素ベクトルｅ_２、明るさに対応する要素ベクトルｅ_３、太さに対応する要素ベクトルｅ_４、及び、明瞭さに対応する要素ベクトルｅ_５を含む。

知覚表現音響モデル１０４では、各知覚表現音響モデルのパラメータが重回帰ＨＳＭＭの回帰行列Ｅの要素ベクトルｅ_ｉに相当するものを保持しているため、回帰行列Ｅを知覚表現音響モデル１０４の初期パラメータとして利用できる。ところで、通常、重回帰ＨＳＭＭは、回帰行列Ｅ（要素ベクトル）及びバイアスベクトルを、ある最適化基準、例えば尤度最大化基準及び最小二乗誤差基準等に基づいて、回帰行列Ｅ及びバイアスベクトルを求める。このとき得られるバイアスベクトルは、計算時に用いる最適化基準において、計算に用いるデータを最も効率よく表現できる値となる。すなわち、重回帰ＨＳＭＭではモデル学習に用いる音響データが表現する音響空間の中心となるような値が計算される。

ところで、重回帰ＨＳＭＭにおける音響空間の中心であるバイアスベクトルは、音声に対する人の知覚を基準として求められていないため、重回帰ＨＳＭＭが表す音響空間の中心と、音声に対する人の知覚を表す空間の中心が一致する保証がない。一方、知覚表現得点ベクトルは、平均声モデルＭ_０から合成した音声と、学習話者の音声と、の間の知覚的な声質の差異を表している。そのため、音声に対する人の知覚を基準とした場合の音響空間の中心は平均声モデルＭ_０であるとみなせる。

そこで、平均声モデルＭ_０の平均パラメータを重回帰ＨＳＭＭのバイアスベクトルとして用いることで、知覚空間の中心と音響空間の中心を明に一致させてモデルの構築を行う。

それでは、初期モデルの具体的な構築方法について述べる。ここでは最小二乗誤差基準により初期モデルを構築する場合を例にして説明する。

まず、学習部３は、基準音響モデル１０１の平均声モデルＭ_０、及び、学習話者情報１０２に含まれる各学習話者の音響モデルから、ＨＳＭＭの出力分布を表す正規分布、及び、継続長分布を表す正規分布を取得する。そして学習部３は、各正規分布から平均ベクトルを抽出し、当該平均ベクトルを連結する。

図４は第１実施形態の平均ベクトル２０３の抽出・連結処理の例の概要を示す図である。図４に示されるように決定木２０１のリーフノードには、あるコンテキスト情報に対応する音響特徴を表す正規分布２０２が対応付けられている。なおＰ_１からＰ_１２までの記号は各正規分布２０２のインデックスを表す。

まず学習部３は、各正規分布２０２から平均ベクトル２０３を抽出する。次に学習部３は、各平均ベクトル２０３を正規分布２０２のインデックスに従い、インデックスが昇順又は降順になるように平均ベクトル２０３を連結することにより、連結平均ベクトル２０４を構築する。

学習部３は、上述の図４の平均ベクトルの抽出・連結処理を、基準音響モデル１０１の平均声モデルＭ_０、及び、学習話者情報１０２に含まれる各学習話者の音響モデルに対して行う。ここで、平均声モデルＭ_０及び各学習話者の音響モデルは、前述の通り、同一の構造を有する。すなわち、音響モデル内の決定木は同じ形状を有するので、このとき得られるすべての連結平均ベクトルの各成分は、各連結平均ベクトル間で音響的に対応がとれたものになる。すなわち、連結平均ベクトルの各成分は、同じコンテキスト情報に関する正規分布に対応する。

次に、連結平均ベクトルを目的変数、知覚表現得点ベクトルを説明変数として、下記式（２）により、最小二乗誤差基準で回帰行列Ｅを求める。

ここで、ｓは学習話者情報１０２に含まれる各学習話者の音響モデルを識別するインデックスを表す。ｗ^（ｓ）は、各学習話者の知覚表現得点ベクトルを表す。μ^（ｓ）は、各学習話者の音響モデルの連結平均ベクトルを表す。μ^（０）は平均声モデルＭ_０の連結平均ベクトルを表す。

式（２）により、下記式（３）の回帰行列Ｅが得られる。

式（３）により得られる各回帰行列Ｅの各要素ベクトル（列ベクトル）成分は、平均声モデルＭ_０の平均ベクトルと、各知覚表現得点により表現される音声と、の音響的な差異を示す。そのため、各要素ベクトル成分を、知覚表現音響モデル１０４が保持する平均パラメータとみなすことができる。

また、各要素ベクトル成分は、平均声モデルＭ_０と同一の構造を持つ学習話者の音響モデルから作られたものであるため、各要素ベクトル成分は、平均声モデルＭ_０と同一の構造を保持しているとみなせる。そこで、学習部３は、各要素ベクトル成分を知覚表現音響モデル１０４の初期値として用いる。

図５は第１実施形態の回帰行列Ｅと知覚表現音響モデル１０４との対応の例を示す図である。学習部３は、回帰行列Ｅの列ベクトル（要素ベクトル｛ｅ_１，ｅ_２，…，ｅ_５｝）を、知覚表現音響モデル１０４（１０４ａ〜１０４ｅ）へと変換し、各知覚表現音響モデルの初期値とする。

ここで、回帰行列Ｅの要素ベクトル｛ｅ_１，ｅ_２，…，ｅ_５｝を、知覚表現音響モデル１０４（１０４ａ〜１０４ｅ）へ変換する方法について説明する。学習部３は、上述の図４で説明した平均ベクトルの抽出・連結処理と逆の処理を行う。ここで、回帰行列Ｅの計算に用いられた連結平均ベクトルの各成分は、連結平均ベクトルに含まれる平均ベクトルに対応する正規分布のインデックス番号が同じ順番となるように構築されている。また、回帰行列Ｅの各要素ベクトルｅ_１〜ｅ_５が有する各成分は、図４に示す連結平均ベクトルと同じ順番になっており、連結平均ベクトルに含まれる各平均ベクトルに対応する各正規分布と対応する。そのため、学習部３は、回帰行列Ｅの各要素ベクトルｅ_１〜ｅ_５から、平均声モデルＭ_０の正規分布のインデックスに対応する成分を抽出し、当該インデックスに対応する平均声モデルＭ_０の正規分布の平均ベクトルと入れ替えることにより、知覚表現音響モデル１０４の初期モデルを与える。

以下、知覚表現音響モデル１０４をＭ_Ｐ＝｛Ｍ_１，Ｍ_２，…，Ｍ_ｃ｝で表す。ここでＣは知覚表現の種類を示す。なお、ｓ番目の学習話者の音響モデルＭ^（ｓ）は、平均声モデルＭ_０、知覚表現音響モデル１０４（Ｍ_Ｐ＝｛Ｍ_１，Ｍ_２，…，Ｍ_ｃ｝）、及び、ｓ番目の学習話者の知覚表現ベクトルｗ^（ｓ）＝［ｗ_１ ^（ｓ），ｗ_２ ^（ｓ），…，ｗ_Ｉ ^（ｓ）］を用いると、下記式（４）により表現できる。

図３に戻り、学習部３は、知覚表現音響モデル１０４のモデルパラメータの更新回数を表す変数ｌを１に初期化する（ステップＳ２）。次に、学習部３は、更新対象の知覚表現音響モデル１０４（Ｍ_ｉ）を識別するインデックスｉを１に初期化する（ステップＳ３）。

次に、学習部３は、コンテキストクラスタリングによるｉ番目の知覚表現音響モデル１０４の決定木の構築を行うことにより、モデル構造の最適化を行う（ステップＳ４）。具体的には、学習部３は、例えば決定木の構築方法として、共有決定木コンテキストクラスタリングを用いる。なお共有決定木コンテキストクラスタリングの詳細は、非特許文献４に記載されている。

ここでは、ステップＳ４の共有決定木コンテキストクラスタリングの概要と、非特許文献３との差異について述べる。

共有決定木コンテキストクラスタリングは、複数の学習話者のデータを用いた場合に、次の２つの条件を考慮して決定木のノード分割を実行する。

（１）分割後の２つのノードにすべての話者のデータが存在している。

（２）ノード分割において最小記述長（ＭＤＬ）基準を満たす。

なおＭＤＬとは、情報理論におけるモデル選択基準の一つであり、モデルの対数尤度及びモデルパラメータ数で決定される指標である。ＨＭＭに基づく音声合成では、ノード分割によりＭＤＬが増加する場合にノード分割を停止するという条件でクラスタリングを行う。

非特許文献３では、学習話者の尤度として学習話者のデータのみで構築した話者依存の音響モデルに対する学習話者の尤度を用いている。

一方、ステップＳ４では、学習部３は、学習話者の尤度として、上述の式（４）で与えられる学習話者の音響モデルＭ^（ｓ）に対する学習話者の尤度を用いる。

以上の条件により、学習部３は、ｉ番目の知覚表現音響モデル１０４の決定木を構築し、ｉ番目の知覚表現音響モデル１０４が有する分布の数の最適化を行う。なお、ステップＳ４で得られる知覚表現音響モデルＭ^（ｉ）の決定木の構造（分布の数）は、他の知覚表現音響モデルＭ^（ｊ）（ｉ≠ｊ）が有する分布の数、及び、平均声モデルＭ_０が有する分布の数と異なるものとなる。

次に、学習部３は、インデックスｉが、Ｃ＋１（Ｃは知覚表現の種類）より小さいか否かを判定する（ステップＳ５）。インデックスｉが、Ｃ＋１より小さい場合（ステップＳ５、Ｙｅｓ）、学習部３は、ｉをインクリメントし（ステップＳ６）、ステップＳ４に戻る。

インデックスｉが、Ｃ＋１以上の場合（ステップＳ５、Ｎｏ）、学習部３は、知覚表現音響モデル１０４のモデルパラメータを更新する（ステップＳ７）。具体的には、学習部３は、尤度最大化基準を満たす更新アルゴリズムを使用して、知覚表現音響モデル１０４（Ｍ^（ｉ）、ｉはＣ以下の整数）のモデルパラメータを更新する。尤度最大化基準を満たす更新アルゴリズムは、例えばＥＭアルゴリズムである。より具体的には、平均声モデルＭ_０と、各知覚表現音響モデル（Ｍ^（ｉ）、ｉはＣ以下の整数）が有するモデル構造と、は異なるため、パラメータ更新法として、非特許文献５に記載されている平均パラメータの更新法を適用する。

非特許文献５に記載の平均パラメータの更新法は、クラスタ適応学習に基づく音声合成における各クラスタが持つ平均パラメータを更新する方法である。例えば、ｉ番目の知覚表現音響モデル１０４（Ｍ_ｉ）において、決定木のｎ番目のリーフノードＭ_ｉ（ｎ）が有する分布のパラメータｅ_ｉ，ｎの更新は、この分布に属する全てのコンテキストの統計量が用いられる。

更新されるパラメータは下記式（５）の通りである。

ここで、Ｇ_ｉｊ ^（ｍ）、ｋ_ｉ ^（ｍ）及びｕ_ｉ ^（ｍ）は、下記式（６）〜（８）により表される。

またＯ_ｔ ^（ｓ）は学習話者ｓの時刻ｔの音響データ、γ_ｔ ^（ｓ）（ｍ）は時刻ｔにおける学習話者ｓのコンテキストｍに関する占有確率、μ_０（ｍ）は平均声モデルＭ_０のコンテキストｍに対応する平均ベクトル、Σ_０（ｍ）は平均声モデルＭ_０のコンテキストｍに対応する共分散行列、ｅ_ｊ（ｍ）はｊ番目の知覚表現音響モデル１０４のコンテキストｍに対応する要素ベクトルである。

学習部３は、ステップＳ７では、各話者の知覚表現得点情報１０３、及び、平均声モデルＭ_０のモデルパラメータの更新は一切行わず、知覚表現のパラメータのみを更新するため、知覚表現の中心とのずれを生じさせることなく、精度よく知覚表現音響モデル１０４を学習することができる。

次に、学習部３は、尤度変化量Ｄを計算する（ステップＳ８）。具体的には、学習部３は、モデルパラメータの更新前後の尤度の変化を求める。まず、学習部３は、モデルパラメータの更新前に、上述の式（４）で表される学習話者の音響モデルＭ^（ｓ）について、対応する学習話者のデータの尤度を学習話者の人数分、計算し、その和を取る。次に、学習部３は、モデルパラメータの更新後に、同様の方法で尤度の和を計算し、更新前の尤度との差Ｄを計算する。

次に、学習部３は、尤度変化量Ｄが所定の閾値Ｔｈよりも小さいか否かを判定する（ステップＳ９）。尤度変化量Ｄが所定の閾値Ｔｈより小さい場合（ステップＳ９、Ｙｅｓ）、処理は終了する。

尤度変化量Ｄが所定の閾値Ｔｈ以上の場合（ステップＳ９、Ｎｏ）、学習部３は、モデルパラメータの更新回数を表す変数ｌが、更新回数の最大値Ｌより小さいか否かを判定する（ステップＳ１０）。モデルパラメータの更新回数を表す変数ｌが、更新回数の最大値Ｌ以上の場合（ステップＳ１０、Ｎｏ）、処理は終了する。更新回数の最大値Ｌより小さい場合（ステップＳ１０、Ｙｅｓ）、学習部３は、ｌをインクリメントし（ステップＳ１１）、ステップＳ３に戻る。

図１に戻り、学習部３は、図３に示す学習処理を行うことにより学習された知覚表現音響モデル１０４を、記憶部１に記憶する。

以上の説明を要約すると、知覚表現音響モデル１０４は、各学習話者の知覚表現得点ベクトルと、各学習話者のコンテキストに基づいてクラスタリングされた音響データ（継続長情報）と、平均声モデルの出力分布（継続長分布）とから、平均声と、各知覚表現に対応する特徴を表す音響データ（継続長情報）との差分を、知覚表現毎にモデル化したものである。

知覚表現音響モデル１０４は、従来のＨＭＭに基づく音声合成と同様に、決定木、ＨＭＭの各状態の出力分布及び継続長分布を持つ。ただし、知覚表現音響モデル１０４の出力分布及び継続長分布は平均パラメータのみを持つ。

以上説明したように、第１実施形態の学習装置１００では、学習部３が、基準音響モデル１０１（平均声モデルＭ_０）と、学習話者情報１０２と、知覚表現得点情報１０３と、から、上述の学習処理により、１以上の知覚表現に対応する１以上の知覚表現音響モデル１０４を学習する。これにより第１実施形態の学習装置１００によれば、音声を合成する際に行われる話者性の制御を、ユーザの意図した通りに精度良く行うことができる知覚表現音響モデル１０４を学習することができる。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態の知覚表現音響モデル１０４を使用して音声合成を行う音声合成装置２００について説明する。

図６は第２実施形態の音声合成装置２００の機能構成の例を示す図である。第２実施形態の音声合成装置２００は、記憶部１１、編集部１２、入力部１３及び合成部１４を備える。記憶部１１は、知覚表現得点情報１０３、知覚表現音響モデル１０４、目標話者音響モデル１０５及び目標話者音声１０６を記憶する。

知覚表現得点情報１０３は、第１実施形態の説明と同様である。第２実施形態の音声合成装置２００では、合成音声の話者性を制御する重みを示す情報として、編集部１２により利用される。

知覚表現音響モデル１０４は、第１実施形態の学習装置１００により学習された音響モデルの一部又は全部である。

目標話者音響モデル１０５は、話者性の制御を行う対象となる目標話者の音響モデルである。目標話者音響モデル１０５は、ＨＭＭに基づく音声合成で用いられているモデルと同様の形式を有する。目標話者音響モデル１０５は任意でよい。目標話者音響モデル１０５は、例えば知覚表現音響モデル１０４の学習に利用した学習話者の音響モデルでもよいし、学習に利用していない話者の音響モデルでもよいし、平均声モデルＭ_０でもよい。

編集部１２は、知覚表現得点情報１０３及び知覚表現音響モデル１０４によって表現される話者性を、目標話者音響モデル１０５に付与することにより、目標話者音響モデル１０５を編集する。具体的には、編集部１２は、上述の式（４）と同様にして、各知覚表現音響モデル１０４（Ｍ_Ｐ＝｛Ｍ_１，Ｍ_２，…，Ｍ_ｃ｝）に対して、知覚表現得点情報１０３による重みづけを行い、目標話者音響モデル１０５との和をとる。これにより話者性が付与された目標話者音響モデル１０５が得られる。編集部１２は、話者性が付与された目標話者音響モデル１０５を合成部１４に入力する。

入力部１３は、任意のテキストの入力を受け付け、当該テキストを合成部１４に入力する。

合成部１４は、編集部１２から話者性が付与された目標話者音響モデル１０５を受け付け、入力部１３からテキストを受け付けると、話者性が付与された目標話者音響モデル１０５を用いて、テキストの音声合成を行う。具体的には、まず、合成部１４は、テキストの言語解析を行うことにより、テキストからコンテキスト情報を抽出する。次に、合成部１４は、コンテキスト情報に基づいて、話者性が付与された目標話者音響モデル１０５から、合成に必要なＨＳＭＭの出力分布及び継続長分布を選択する。次に、合成部１４は、選択されたＨＳＭＭの出力分布及び継続長分布を使用して、パラメータの生成を行うことにより、音響データ系列を取得する。次に、合成部１４は、音響データ系列からボコーダにより音声波形を合成し、当該音声波形を目標話者音声１０６として、記憶部１１に記憶する。

次に第２実施形態の音声合成方法について説明する。

図７は第２実施形態の音声合成方法の例を示すフローチャートである。はじめに、編集部１２が、知覚表現得点情報１０３及び知覚表現音響モデル１０４によって表現される話者性を、目標話者音響モデル１０５に付与することにより、目標話者音響モデル１０５を編集する（ステップＳ２１）。次に、入力部１３が、任意のテキストの入力を受け付ける（ステップＳ２２）。次に、合成部１４が、ステップＳ２１の処理により、話者性が付与された目標話者音響モデル１０５を用いて、ステップＳ２２の処理により、入力を受け付けたテキストの音声合成を行うことにより、目標話者音声１０６を取得する（ステップＳ２３）。次に、合成部１４が、ステップＳ２２の処理により取得された目標話者音声１０６を記憶部１１に記憶する（ステップＳ２４）。

以上説明したように、第２実施形態の音声合成装置２００では、編集部１２が、知覚表現得点情報１０３と、知覚表現音響モデル１０４と、によって表現される話者性を、目標話者音響モデル１０５に付与することにより、目標話者音響モデル１０５を編集する。そして合成部１４が、編集部１２により話者性が付与された目標話者音響モデル１０５を用いて、テキストの音声合成を行う。これにより第２実施形態の音声合成装置２００によれば、音声を合成する際に行われる話者性の制御を、ユーザの意図した通りに精度良く行うことができるので、ユーザが意図した所望の目標話者音声１０６を取得することができる。

最後に、第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００のハードウェア構成の例について説明する。

図８は第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００のハードウェア構成の例を示す図である。第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００は、制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５、通信装置３０６及びスピーカー３０７を備える。制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５、通信装置３０６及びスピーカー３０７は、バス３１０を介して接続されている。

制御装置３０１は補助記憶装置３０３から主記憶装置３０２に読み出されたプログラムを実行する。主記憶装置３０２はＲＯＭ及びＲＡＭ等のメモリである。補助記憶装置３０３はメモリカード及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。

表示装置３０４は情報を表示する。表示装置３０４は、例えば液晶ディスプレイである。入力装置３０５は、情報の入力を受け付ける。入力装置３０５は、例えばキーボード及びマウス等である。なお表示装置３０４及び入力装置３０５は、表示機能と入力機能とを兼ねる液晶タッチパネル等でもよい。通信装置３０６は他の装置と通信する。スピーカー３０７は音声を出力する。

第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。

また第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

また第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００で実行されるプログラムは、上述の第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００の機能構成のうち、プログラムにより実現可能な機能を含むモジュール構成となっている。

プログラムにより実現される機能は、制御装置３０１が補助記憶装置３０３等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能が主記憶装置３０２にロードされる。すなわちプログラムにより実現される機能は、主記憶装置３０２上に生成される。

なお第１実施形態の学習装置１００、及び、第２実施形態の音声合成装置２００の機能の一部又は全部を、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１記憶部
２取得部
３学習部
１００学習装置
１０１基準音響モデル
１０２学習話者情報
１０３知覚表現得点情報
１０４知覚表現音響モデル
１０４ａ性別音響モデル
１０４ｂ年齢音響モデル
１０４ｃ明るさ音響モデル
１０４ｄ太さ音響モデル
１０４ｅ明瞭さ音響モデル
１０５目標話者音響モデル
１０６目標話者音声
３０１制御装置
３０２主記憶装置
３０３補助記憶装置
３０４表示装置
３０５入力装置
３０６通信装置
３０７スピーカー
３１０バス

Claims

複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する１以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する記憶部と、
前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記１以上の知覚表現に対応する１以上の知覚表現音響モデルを学習する学習部と、を備え、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、前記平均声モデルから合成された音声と、の差を示す得点である、
学習装置。
前記知覚表現は、声の性別、声の年齢、声の明るさ、声の太さ、及び、声の明瞭さの少なくとも１つを含む、
請求項１に記載の学習装置。
前記学習話者情報は、前記学習話者の音声を示す音響データ、前記音響データから抽出された言語データ、及び、前記学習話者の音響モデルを含む、
請求項１に記載の学習装置。
話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、学習話者の声質を音声に関する１以上の知覚表現の得点により表した知覚表現得点情報と、前記１以上の知覚表現に対応する１以上の知覚表現音響モデルと、を記憶する記憶部と、
前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集する編集部と、
任意のテキストの入力を受け付ける入力部と、
前記編集部により話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行う合成部と、を備え、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルから合成された音声と、の差を示す得点である、
音声合成装置。
複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する１以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する記憶部を備える学習装置の学習方法であって、
学習装置が、前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記１以上の知覚表現に対応する１以上の知覚表現音響モデルを学習するステップ、を含み、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、前記平均声モデルから合成された音声と、の差を示す得点である、
学習方法。
話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する１以上の知覚表現の得点により表した知覚表現得点情報と、前記１以上の知覚表現に対応する１以上の知覚表現音響モデルと、を記憶する記憶部を備える音声合成装置の音声合成方法であって、
音声合成装置が、前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集するステップと、
音声合成装置が、任意のテキストの入力を受け付けるステップと、
合成部が、前記編集するステップにより話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行うステップと、を含み、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルから合成された音声と、の差を示す得点である、
音声合成方法。
複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する１以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する記憶部を備えるコンピュータを、
前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記１以上の知覚表現に対応する１以上の知覚表現音響モデルを学習する学習部として機能させ、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、前記平均声モデルから合成された音声と、の差を示す得点である、
学習プログラム。
話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する１以上の知覚表現の得点により表した知覚表現得点情報と、前記１以上の知覚表現に対応する１以上の知覚表現音響モデルと、を記憶する記憶部を備える音声合成装置を、
前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集する編集部と、
任意のテキストの入力を受け付ける入力部と、
前記編集部により話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行う合成部として機能させ、
前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルから合成された音声と、の差を示す得点である、
音声合成プログラム。