JP2015152630A

JP2015152630A - 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム

Info

Publication number: JP2015152630A
Application number: JP2014023617A
Authority: JP
Inventors: 眞弘森田; Shinko Morita
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-02-10
Filing date: 2014-02-10
Publication date: 2015-08-24
Anticipated expiration: 2034-02-10
Also published as: US20150228271A1; JP6266372B2; CN104835493A; US9484012B2

Abstract

【課題】目標とする発声スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成する。【解決手段】実施形態の音声合成辞書生成装置は、音声分析部と、話者適応部と、目標話者レベル指定部と、決定部とを備える。音声分析部は、対象話者の音声データを分析して対象話者の音声ＤＢを生成する。話者適応部は、音声ＤＢに基づいて話者適応を行い、対象話者のモデルを生成する。目標話者レベル指定部は、目標とする話者レベルである目標話者レベルの指定を受け付ける。決定部は、指定された目標話者レベルと対象話者の話者レベルである対象話者レベルとの関係に応じて、話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。決定部は、指定された目標話者レベルが対象話者レベルより高い場合、忠実度が低くなるようにパラメータの値を決定し、話者適応部は、決定されたパラメータの値に従って話者適応を行う。【選択図】図１

Description

本発明の実施形態は、音声合成辞書生成装置、音声合成辞書生成方法およびプログラムに関する。

音声合成では、事前に用意された少数の候補から声を選んで読ませるだけではなく、有名人や身近な人など、特定の話者の声の音声合成辞書を新たに生成し、様々なテキストコンテンツを読ませたいというニーズが高まっている。こうしたニーズに応えるため、辞書生成の対象となる対象話者の音声データから音声合成辞書を自動で生成する技術が提案されている。また、対象話者の少量の音声データから音声合成辞書を生成する技術として、予め用意された複数話者の平均的な特徴を表すモデルを、対象話者の特徴に近づけるように変換することで対象話者のモデルを生成する話者適応の技術がある。

音声合成辞書を自動で生成する従来の技術は、対象話者の声や話し方にできるだけ似せることを主目的としている。しかし、辞書生成の対象となる対象話者は、プロのナレータや声優だけではなく、発声のトレーニングを全く受けていない一般の話者も含まれる。このため、対象話者の発話スキルが低いと、そのスキルの低さが忠実に再現されて、用途によっては使いづらい音声合成辞書になってしまう。

また、対象話者の母国語だけではなく、外国語の音声合成辞書をその対象話者の声で生成したいというニーズもある。このニーズに対しては、対象話者に外国語を読ませた音声が録音できれば、この録音音声からその言語の音声合成辞書を生成することが可能である。しかし、その言語の発声として正しくない発声や訛りのある不自然な発声の録音音声から音声合成辞書を生成すると、その発声の特徴が反映され、ネイティブが聞いても理解できない音声合成辞書になってしまう。

特開２０１３−７２９０３号公報特開２００２−２４４６８９号公報

本発明が解決しようとする課題は、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成できる音声合成辞書生成装置、音声合成辞書生成方法およびプログラムを提供することである。

実施形態の音声合成辞書生成装置は、任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置であって、音声分析部と、話者適応部と、目標話者レベル指定部と、決定部と、を備える。音声分析部は、前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する。話者適応部は、前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する。目標話者レベル指定部は、話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける。決定部は、指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。そして、前記決定部は、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、前記話者適応部は、前記決定部が決定した前記パラメータの値に従って前記話者適応を行う。

第１の実施形態の音声合成辞書生成装置の構成例を示すブロック図。音声合成装置の概略構成を示すブロック図。ＨＭＭ方式の話者適応で用いられる区分線形回帰の概念図。決定部がパラメータの値を決定する方法の一例を示す図。第２の実施形態の音声合成辞書生成装置の構成例を示すブロック図。第３の実施形態の音声合成辞書生成装置の構成例を示すブロック図。目標話者レベルを指定するＧＵＩの表示例を示す図。クラスタ適応学習で学習したモデルを用いた話者適応の概念図。式（２）における補間比率ｒと目標の重みベクトルとの関係を示す概念図。第６の実施形態の音声合成辞書生成装置の構成例を示すブロック図。

（第１の実施形態）
図１は、本実施形態の音声合成辞書生成装置１００の構成例を示すブロック図である。図１に示すように、本実施形態の音声合成辞書生成装置１００は、音声分析部１０１と、話者適応部１０２と、対象話者レベル指定部１０３と、目標話者レベル指定部１０４と、決定部１０５とを備える。音声合成辞書生成装置１００は、辞書生成の対象となる任意の対象話者の録音音声１０とその読み上げ内容に対応したテキスト２０（以下、「録音テキスト」と呼ぶ）が入力されると、その対象話者の声質・話し方をモデル化した対象話者のモデルを含む音声合成辞書３０を生成する。

上記の構成のうち、対象話者レベル指定部１０３、目標話者レベル指定部１０４、および決定部１０５は本実施形態に特有の構成要素であるが、それら以外については、話者適応の技術を用いる音声合成辞書生成装置に一般的な構成である。

本実施形態の音声合成辞書生成装置１００により生成される音声合成辞書３０は、音声合成装置に必要なデータであり、声質をモデル化した音響モデルや、抑揚・リズムなどの韻律をモデル化した韻律モデル、その他の音声合成に必要な各種情報を含む。音声合成装置は、通常、図２で示すように、言語処理部４０と音声合成部５０から構成されており、テキストが入力されると、それに対する音声波形を生成する。言語処理部４０では、入力されたテキストを分析して、テキストの読みやアクセント、ポーズの位置、その他単語境界や品詞などの各種言語情報を取得し、音声合成部５０に渡す。音声合成部５０では、これらの情報を基に、音声合成辞書３０に含まれる韻律モデルを用いて抑揚・リズムなどの韻律パターンを生成し、さらに音声合成辞書３０に含まれる音響モデルを用いて音声波形を生成する。

特許文献２に記載されているようなＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）に基づく方式の場合、音声合成辞書３０に含まれる韻律モデルや音響モデルは、テキストを言語解析して得られる音韻・言語情報と、韻律や音響などのパラメータ系列との対応関係をモデル化したものである。具体的には、各パラメータを状態ごとに音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。韻律パラメータとしては、声の高さを表すピッチパラメータや、音の長さを表す継続時間長などがある。また、音響パラメータとしては、声道の特徴を表すスペクトルパラメータや、音源信号の非周期性の程度を表す非周期性指標などがある。状態とは、各パラメータの時間変化をＨＭＭでモデル化したときの内部状態を指す。通常、各音素区間は、後戻り無しで左から右の状態に遷移する３〜５状態のＨＭＭでモデル化されるため、３〜５個の状態を含む。そこで、例えばピッチパラメータの第一状態に対する決定木では、音素区間内の先頭区間のピッチ値の確率分布が音韻・言語環境でクラスタリングされており、対象の音素区間に関する音韻・言語情報を基にこの決定木をたどることで、その音素の先頭区間のピッチパラメータの確率分布を得ることができる。パラメータの確率分布には正規分布が用いられることが多く、その場合、分布の中心を表す平均ベクトルと分布の広がりを表す共分散行列で表現される。

音声合成部５０では、各パラメータの各状態に対する確率分布を上述のような決定木で選択して、これらの確率分布を基に確率が最大となるパラメータ系列をそれぞれ生成し、これらのパラメータ系列を基に音声波形を生成する。一般的なＨＭＭに基づく方式の場合、生成されたピッチパラメータと非周期性指標を基に音源波形を生成し、この音源波形に、生成されたスペクトルパラメータに従ってフィルタ特性が時間変化する声道フィルタを畳み込むことで、音声波形を生成する。

音声分析部１０１は、音声合成辞書生成装置１００に入力された録音音声１０と録音テキスト２０を分析し、音声データベース（以下、音声ＤＢという）１１０を生成する。音声ＤＢ１１０には、話者適応で必要になる各種の音響・韻律データ、つまり対象話者の発話の特徴を表すデータが含まれる。具体的には、スペクトル包絡の特徴を表すスペクトルパラメータや、各周波数帯域での非周期成分の比率を表す非周期性指標、基本周波数（Ｆ０）を表すピッチパラメータなどの時系列（例えばフレーム毎）、音素などのラベルの系列とこれらの各ラベルに関する時間情報（音素の開始時刻、終了時刻など）や言語情報（音素を含む単語のアクセントや見出し、品詞、前後の単語との接続強度など）、ポーズの位置・長さの情報、などが音声ＤＢ１１０に含まれる。音声ＤＢ１１０は、少なくともこれらの情報の一部を含むが、ここに挙げたもの以外の情報を含んでもよい。また、スペクトルパラメータには、メル周波数ケプストラム（メルケプストラム）やメル周波数線スペクトル対（メルＬＳＰ）が一般的によく用いられるが、スペクトル包絡の特徴を表すパラメータであればどのようなものであってもよい。

音声分析部１０１では、音声ＤＢ１１０に含まれるこれらの情報を生成するため、音素ラベリング、基本周波数抽出、スペクトル包絡抽出、非周期性指標抽出、言語情報抽出などの処理が自動で行われる。これらの処理には、それぞれ既存の手法がいくつか存在し、そのいずれかを用いてもよいし、新たな別の手法を用いてもよい。例えば、音素ラベリングではＨＭＭを用いた手法が一般的に用いられる。基本周波数抽出には、音声波形の自己相関を用いた手法やケプストラムを用いた手法、スペクトルの調波構造を用いた手法など、数多くの手法が存在する。スペクトル包絡抽出には、ピッチ同期分析を用いた手法やケプストラムを用いた手法、ＳＴＲＡＩＧＨＴと呼ばれる手法など多くの手法が存在する。非周期性指標抽出には、各周波数帯域の音声波形での自己相関を用いた手法や、ＰＳＨＦと呼ばれる手法で音声波形を周期成分と非周期成分に分割して周波数帯域ごとのパワー比率を求める手法などが存在する。言語情報抽出では、形態素解析などの言語処理を行った結果から、アクセントの情報や、品詞、単語間の接続強度などの情報を得る。

音声分析部１０１により生成された音声ＤＢ１１０は、話者適応用ベースモデル１２０とともに、話者適応部１０２において対象話者のモデルを生成するために用いられる。

話者適応用ベースモデル１２０は、音声合成辞書３０に含まれるモデルと同様に、テキストを言語解析して得られる音韻・言語情報と、スペクトルパラメータやピッチパラメータ、非周期性指標などのパラメータ系列との対応関係をモデル化したものである。通常、複数人の大量音声データからこれらの話者の平均的な特徴を表すモデルが学習され、幅広い音韻・言語環境をカバーしたモデルが話者適応用ベースモデル１２０として用いられる。例えば、特許文献２に記載のようなＨＭＭに基づく方式の場合、この話者適応用ベースモデル１２０は、各パラメータを音韻・言語環境でクラスタリングした決定木と、決定木の各リーフノードに割り当てられたパラメータの確率分布からなる。

この話者適応用ベースモデル１２０の学習方法としては、特許文献２に記載されているように、複数の話者の音声データから、ＨＭＭ音声合成の一般的なモデル学習方式を用いて「不特定話者モデル」を学習する方法や、下記の参考文献１に記載されているように、話者適応学習（ＳｐｅａｋｅｒＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇ：ＳＡＴ）という方式を用いて話者間の特徴のバラつきを正規化しながら学習する方法などがある。
（参考文献１）Ｊ．ＹａｍａｇｉｓｈｉａｎｄＴ．Ｋｏｂａｙａｓｈｉ，“Ａｖｅｒａｇｅ−Ｖｏｉｃｅ−ＢａｓｅｄＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＵｓｉｎｇＨＳＭＭ−ＢａｓｅｄＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎａｎｄＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇ”，ＩＥＩＣＥＴｒａｎｓ．ＩｎｆｏｒｍａｔｉｏｎａｎｄＳｙｓｔｅｍｓ，Ｖｏｌ．Ｎｏ．２，ｐｐ．５３３−５４３（２００７−２）

本実施形態では、話者適応用ベースモデル１２０は、原則、その言語のネイティブでかつ発声スキルの高い複数の話者の音声データから学習するものとする。

話者適応部１０２は、音声ＤＢ１１０を用いて、話者適応用ベースモデル１２０を対象話者（録音音声１０の話者）の特徴に近づけるように変換する話者適応を行って、対象話者に近い声質・話し方のモデルを生成する。ここでは、最尤線形回帰（ＭＬＬＲ）や制約付き最尤線形回帰（ｃＭＬＬＲ）、構造的事後確立最大線形回帰（ＳＭＡＰＬＲ）などの手法を用いて、話者適応用ベースモデル１２０が持つ確率分布を、音声ＤＢ１１０のパラメータに合わせて最適化することで、話者適応用ベースモデル１２０を対象話者の特徴に近づける。例えば、最尤線形回帰を用いた方法の場合、決定木中のリーフノードｉに割り当てられたパラメータの確率分布の平均ベクトルμ_ｉを、下記の式（１）のように変換する。ただし、Ａ，Ｗは行列、Ｂ，ξ_ｉはベクトル、ξ_ｉ＝[１，μ_ｉ ^Ｔ]^Ｔ（Ｔは転置）、Ｗ＝[ｂＡ]であり、Ｗを回帰行列と呼ぶ。

式（１）の変換においては、対象話者のモデルのパラメータに対する、変換後の確率分布の尤度が最大になるように回帰行列Ｗを最適化した上で変換を行う。確率分布の平均ベクトルに加えて、共分散行列についても変換してもよいが、ここでは詳細は割愛する。

こうした最尤線形回帰による変換では、決定木の全リーフノードの確率分布を１つの共通な回帰行列で変換してもよいが、一般的に話者性の違いは音韻などによって異なるため、この場合は非常に粗い変換になってしまい、対象話者の話者性が十分再現できなかったり、さらには音韻性も崩れてしまう場合がある。一方、対象話者の音声データが大量に存在する場合は、各リーフノードの確率分布ごとに異なる回帰行列を用意することで非常に精密な話者適応も可能であるが、話者適応を用いるケースの多くでは、対象話者の音声データは少量のため、各リーフノードに割り当てられる目標話者の音声データは非常に少ないか、全く無い場合もあり、回帰行列の計算ができないリーフノードが多数出てきてしまう。

そこで通常は、変換元の確率分布を複数の回帰クラスにクラスタリングし、回帰クラスごとに変換行列を求めて確率分布の変換を行う。このような変換を区分線形回帰と呼ぶ。図３にそのイメージを示す。回帰クラスへのクラスタリングでは、通常、図３のように音韻・言語環境でクラスタリングされた話者適応用ベースモデル１２０の決定木（通常２分木）や、確率分布間の距離を基準に全リーフノードの確率分布を物理量でクラスタリングした結果の２分木を用いる（以下、これらの決定木や２分木を回帰クラス木と呼ぶ）。これらの方法では、回帰クラスあたりの対象話者の音声データ量に対して最小閾値を設定し、対象話者の音声データ量に応じて回帰クラスの粒度を制御する。

具体的には、まず、対象話者のパラメータの各サンプルが、回帰クラス木のどのリーフノードに割り当てられるかを調べ、各リーフノードに割り当てられたサンプル数を算出する。割り当てられたサンプル数が閾値を下回るリーフノードがある場合、その親ノードに遡って、親ノード以下のリーフノードをマージする。全てのリーフノードのサンプル数が最小閾値を上回るまでこの操作を繰り返し、最終的にできた各リーフノードが回帰クラスとなる。この結果、対象話者の音声データ量が少ない場合は各回帰クラスが大きく（すなわち変換行列の個数が少なく）なって粒度の粗い適応となり、音声データ量が多い場合は各回帰クラスが大きく（すなわち変換行列の個数が少なく）なって粒度の細かい適応となる。

本実施形態では、話者適応部１０２は、上述のように、変換行列を回帰クラスごとに求めて確率分布の変換を行い、回帰クラスあたりの対象話者の音声データ量に対する最小閾値のように、回帰クラスの粒度（つまり、話者適応での話者性再現の忠実度）を外部から制御できるパラメータを持つものとする。例えば、回帰クラスあたりの対象話者の音声データ量に最小閾値を設定して回帰クラスの粒度を制御する場合、通常は、韻律・音響パラメータの種類ごとに経験的に求めた固定値を用い、変換行列が計算できる十分なデータ量の範囲で比較的小さめの値に設定することが多い。この場合、対象話者の声質や発声の特徴は、利用可能な音声データ量に応じて、できるだけ忠実に再現できる。

一方、このような最小閾値をより大きな値に設定すると、回帰クラスは大きくなり、粒度の粗い適応となる。この場合、全体的には対象話者の声質や発声の仕方に近づくが、細かい特徴については話者適応用ベースモデル１２０の特徴を反映したモデルが生成される。すなわち、この最小閾値を大きくすることで、話者適応での話者性再現の忠実度を下げることが可能である。本実施形態では、後述する決定部１０５において、こうしたパラメータの値が、対象話者の話者レベルと目標とする話者レベル（音声合成辞書３０による合成音声に期待する話者レベル）との関係に基づいて決定され、話者適応部１０２に入力される。

なお、本実施形態で用いる「話者レベル」の用語は、話者の発話スキルと、生成する音声合成辞書３０の言語に対する話者のネイティブ度との少なくとも一方を表す。対象話者の話者レベルを「対象話者レベル」と呼び、目標とする話者レベルを「目標話者レベル」と呼ぶ。話者の発話スキルは、話者の発音やアクセントの正確さや、発声の流暢さを表す数値あるいは分類であり、例えば、非常にたどたどしい発声の話者であれば１０、正確かつ流暢な発声ができるプロのアナウンサーなら１００などの数値で表す。話者のネイティブ度は、その話者にとって対象言語が母語かどうか、母語でなければどの程度その言語の発声スキルがあるかを表す数値あるいは分類である。例えば、母語であれば１００、学習したことさえない言語であれば０などである。話者レベルは、用途によって、発声スキルとネイティブ度のいずれか一方でもよいし、両方でもよい。また、発声スキルとネイティブ度が組み合わさったような指標を話者レベルとしてもよい。

対象話者レベル指定部１０３は、対象話者レベルの指定を受け付けて、指定された対象話者レベルを決定部１０５に渡す。例えば、対象話者本人などのユーザが何らかのユーザインタフェースを用いて対象話者レベルを指定する操作を行うと、対象話者レベル指定部１０３は、このユーザの操作による対象話者レベルの指定を受け付けて決定部１０５に渡す。なお、生成する音声合成辞書３０の用途などによって対象話者レベルが想定できる場合は、対象話者レベルとして固定の想定値が予め設定しておいてもよい。この場合、音声合成辞書生成装置１００は、対象話者レベル指定部１０３の代わりに、予め設定された対象話者レベルを記憶する記憶部を備える。

目標話者レベル指定部１０４は、目標話者レベルの指定を受け付けて、指定された目標話者レベルを決定部１０５に渡す。例えば、対象話者本人などのユーザが何らかのユーザインタフェースを用いて目標話者レベルを指定する操作を行うと、目標話者レベル指定部１０４は、このユーザの操作による目標話者レベルの指定を受け付けて決定部１０５に渡す。例えば、対象話者の発話スキルやネイティブ度が低い場合、対象話者本人に似た声で、対象話者本人よりもプロっぽく、またはネイティブっぽく発声させたい場合がある。このような場合、ユーザは高めの目標話者レベルを指定すればよい。

決定部１０５は、目標話者レベル指定部１０４から渡された目標話者レベルと、対象話者レベル指定部１０３から渡された対象話者レベルとの関係に応じて、上述した話者適応部１０２による話者適応での話者性再現の忠実度に関わるパラメータの値を決定する。

決定部１０５がパラメータの値を決定する方法の一例を図４に示す。図４は目標話者レベルと対象話者レベルとの関係を分類する二次元平面を表しており、横軸が対象話者レベルの大きさに対応し、縦軸が目標話者レベルの大きさに対応する。図中の斜めの破線は、目標話者レベルと対象話者レベルとが等しい位置を示している。決定部１０５は、例えば、目標話者レベル指定部１０４から渡された目標話者レベルと、対象者レベル指定部１０３から渡された対象話者レベルとの関係が、図４の領域Ａ〜Ｄのいずれに当てはまるかを判定する。そして、目標話者レベルと対象話者レベルとの関係が領域Ａに当てはまる場合は、決定部１０５は、話者性再現の忠実度に関わるパラメータの値を、話者性再現の忠実度が最大となる値として予め定められたデフォルト値に決定する。領域Ａは、目標話者レベルが対象話者レベル以下の場合、あるいは目標話者レベルが対象話者レベルよりも高いがその差が所定値未満の場合に当てはまる領域である。目標話者レベルが対象話者レベルよりも高いがその差が所定値未満の場合を領域Ａに含めているのは、話者レベルの不確実性を考慮して、パラメータの値をデフォルト値とする領域にマージンを持たせるためである。ただし、このようなマージンは必ずしも必要ではなく、目標話者レベルが対象話者レベル以下の場合に当てはまる領域（図の斜めの破線よりも右下の領域）のみを領域Ａとしてもよい。

また、目標話者レベルと対象話者レベルとの関係が領域Ｂに当てはまる場合は、決定部１０５は、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなる値に決定する。また、目標話者レベルと対象話者レベルとの関係が領域Ｃに当てはまる場合は、決定部１０５は、話者性再現の忠実度に関わるパラメータの値を、目標話者レベルと対象話者レベルとの関係が領域Ｂに当てはまる場合よりもさらに、話者性再現の忠実度が低くなる値に決定する。また、目標話者レベルと対象話者レベルとの関係が領域Ｄに当てはまる場合は、決定部１０５は、話者性再現の忠実度に関わるパラメータの値を、目標話者レベルと対象話者レベルとの関係が領域Ｃに当てはまる場合よりもさらに、話者性再現の忠実度が低くなる値に決定する。

以上のように、決定部１０５は、目標話者レベルが対象話者レベルよりも高い場合は、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなる値に決定し、その差が大きくなるほど話者性再現の忠実度が低くなるように、パラメータの値を決定する。この際、話者適応により生成する対象話者のモデルのうち、音響モデルの生成に用いるパラメータと、韻律モデルの生成に用いるパラメータとで、パラメータの変更度合いを変えてもよい。

多くの話者では、その話者性は韻律よりも声質に強く表れるので、声質は忠実に再現する必要があるが、韻律は平均レベルさえその話者に合わせておけば、話者性をある程度再現できる場合が多い。また、多くの話者にとって、文中の各音節が正しく聞き取れるように発音することは比較的容易であるが、アクセントや抑揚、リズムといった韻律については、プロナレータなどのように自然で聞きやすい読み方をすることは、かなりの訓練を受けなければ難しい。外国語を読む場合も同様であり、例えば中国語を学習したことのない日本語話者が中国語を読む場合、中国語のピンインやこれをカナに変換したものを読めば、各音節はある程度正しく発音できるが、正しい声調（標準中国語の場合は四声）で読むことはほぼ不可能である。そこで、話者性再現の忠実度に関わるパラメータの値を、デフォルト値よりも話者性再現の忠実度が低くなるように決定する際に、音響モデルの生成に用いるパラメータのデフォルト値に対する変更度合いよりも、韻律モデルの生成に用いるパラメータのデフォルト値に対する変更度合いを大きくすることで、話者性の再現と発話スキルの高さを両立した音声合成辞書３０を生成しやすくすることが可能となる。

例えば、話者性再現の忠実度に関わるパラメータとして、上述した回帰クラスあたりの対象話者の音声データ量に対する最小閾値を用いる場合、目標話者レベルと対象話者レベルとの関係が図４の領域Ｂに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の１０倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の１０倍とする。また、目標話者レベルと対象話者レベルとの関係が図４の領域Ｃに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の３０倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の１００倍とする。また、目標話者レベルと対象話者レベルとの関係が図４の領域Ｄに当てはまれば、音響モデルの生成に用いるパラメータの値をデフォルト値の１００倍とし、韻律モデルの生成に用いるパラメータの値をデフォルト値の１０００倍とするといった方法が考えられる。

以上説明したように、本実施形態の音声合成辞書生成装置１００では、対象話者レベルよりも高い目標話者レベルが指定されると、話者適応での話者再現性の忠実度が自動的に下がり、全体的には話者の声質や発声の仕方に近いが、細かい特徴については話者適応用ベースモデル１２０の特徴、すなわち、発話スキルやその言語のネイティブ度の高い特徴を持った音声合成辞書３０が生成される。このように、本実施形態の音声合成辞書生成装置１００によれば、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書３０を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。

（第２の実施形態）
第１の実施形態においては、対象話者レベルは対象話者本人などのユーザにより指定される、あるいは予め固定の想定値を設定するものとした。しかし、録音音声１０での実際の発話スキルやネイティブ度に合った適切な対象話者レベルを指定・設定するのは非常に難しい。そこで、本実施形態では、音声分析部１０１による対象話者の音声データの分析結果を基に対象話者レベルを推定し、指定された目標話者レベルと、推定した対象話者レベルとの関係に応じて、話者性再現の忠実度に関わるパラメータの値を決定する。

図５は、本実施形態の音声合成辞書生成装置２００の構成例を示すブロック図である。図５に示すように、本実施形態の音声合成辞書生成装置２００は、図１に示した対象話者レベル指定部１０３に代えて、対象話者レベル推定部２０１を備える。それ以外の構成は第１の実施形態と同様であるため、第１の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。

対象話者レベル推定部２０１は、音声分析部１０１で音素ラベリングされた結果や、抽出されたピッチやポーズなどの情報を基に、対象話者の発話スキルやネイティブ度を判定する。例えば、発話スキルの低い対象話者は、ポーズの頻度が、流暢に話せる話者よりも高くなる傾向があるので、この情報を用いて対象話者の発話スキルを判定できる。また、録音された音声から話者の発話スキルを自動判定する技術は、従来にも語学学習などの目的でさまざまなものが存在し、下記の参考文献２にその一例が開示されている。
（参考文献２）特開２００６−２０１４９１
この参考文献２に記載されている技術では、ＨＭＭモデルを教師データとし、これを使って話者の音声をアラインメントした結果得られる確率値から、その話者の発音レベルに関する評定値を算出する。このような既存の技術のいずれかを用いてもよい。

以上のように、本実施形態の音声合成辞書生成装置２００によれば、録音音声１０での実際の話者レベルに合った適切な対象話者レベルが自動判定されるので、指定された目標話者レベルを適切に反映した音声合成辞書３０を生成することが可能になる。

（第３の実施形態）
ユーザが指定する目標話者レベルは、生成される音声合成辞書３０（対象話者のモデル）の発話レベルやネイティブ度に影響するだけでなく、実際には対象話者の類似度とのトレードオフを調整することになる。すなわち、対象話者の発話レベルやネイティブ度よりも高い目標話者レベルを設定すると、対象話者の話者性の類似度は多少犠牲にすることになる。しかしながら、第１、第２の実施形態においては、ユーザは目標話者レベルを指定するだけのため、最終的にどういった音声合成辞書３０が生成されるかをイメージすることが難しい。また、そうしたトレードオフが実際に調整可能な範囲は、録音音声１０の発話レベルやネイティブ度によってある程度制限されることになるが、これについてもユーザは事前に把握できないまま目標話者レベルを設定する必要がある。

そこで、本実施形態では、入力された録音音声１０に応じて、指定される目標話者レベルと、その結果生成される音声合成辞書３０（対象話者のモデル）で想定される話者性の類似度との関係、および、目標話者レベルの指定可能な範囲を、例えばＧＵＩによる表示などでユーザに提示し、目標話者レベルをどのように指定すると、どういった音声合成辞書３０が生成されるかをユーザがイメージできるようにする。

図６は、本実施形態の音声合成辞書生成装置３００の構成例を示すブロック図である。図６に示すように、本実施形態の音声合成辞書生成装置３００は、図５に示した目標話者レベル指定部１０４に代えて、目標話者レベル提示・指定部３０１を備える。それ以外の構成は第１、第２の実施形態と同様であるため、第１、第２の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。

本実施形態の音声合成辞書生成装置３００では、録音音声１０が入力されると、対象話者レベル推定部２０１で対象話者レベルが推定され、この推定された対象話者レベルが目標話者レベル提示・指定部３０１に渡される。

目標話者レベル提示・指定部３０１は、対象話者レベル推定部２０１により推定された対象話者レベルに基づいて、指定可能な目標話者レベルの範囲と、この範囲内の目標話者レベルと、音声合成辞書３０で想定される話者性の類似度との関係を求めて、例えばＧＵＩ上に表示するとともに、このＧＵＩを用いてユーザが目標話者レベルを指定する操作を受け付ける。

このＧＵＩによる表示例を図７に示す。図７（ａ）は対象話者レベルが比較的高いと推定された場合のＧＵＩの表示例であり、図７（ｂ）は対象話者レベルが低いと推定された場合のＧＵＩの表示例である。これらのＧＵＩには、目標話者レベルの指定可能な範囲を示すスライダＳが設けられ、ユーザはこのスライダＳ内のポインタＰを動かすことで目標話者レベルを指定する。スライダＳは、ＧＵＩ上で斜めに表示され、スライダＳ内のポインタＰの位置が、指定された目標話者レベルと、生成される音声合成辞書３０（対象話者のモデル）で想定される話者性の類似度との関係を表している。なお、図中の破線の丸は、話者適応用ベースモデル１２０をそのまま用いた場合と、録音音声１０を忠実に再現した場合とのそれぞれについて、話者レベルおよび話者性の類似度を示したものである。話者適応用ベースモデル１２０については、話者レベルは高いが対象話者とは全く別人の声・話し方のため図の左上に位置する。一方、録音音声１０については、対象話者そのもののため図の右端に位置し、対象話者レベルの高さに応じて上下の位置が変わる。スライダＳは、２つの破線の丸の間に位置しているが、対象話者を忠実に再現する設定の場合は話者レベルと話者性の類似度が共に録音音声１０に近くなる一方、目標話者レベルを高く設定すると、粗い粒度で話者適応をすることになって、話者性の類似度がある程度犠牲になることを示している。図７に示すように、話者適応用ベースモデル１２０と録音音声１０の話者レベルの差が大きいほど、設定可能な目標話者レベルの範囲は広くなる。

図７に例示したＧＵＩを用いてユーザにより指定された目標話者レベルは決定部１０５に渡され、対象話者レベル推定部２０１から渡される対象話者レベルとの関係に基づいて、話者適応での話者の忠実度に関わるパラメータの値が決定部１０５において決定される。話者適応部１０２では、決定されたパラメータの値に応じた話者適応がなされることによって、ユーザが意図した話者レベルおよび話者性の類似度を持った音声合成辞書３０を生成することができる。

（第４の実施形態）
第１〜第３の実施形態では、ＨＭＭ音声合成での一般的な話者適応方式を用いる例を説明したが、話者性再現の忠実度に関わるパラメータを持つものであれば、第１〜第３の実施形態とは異なる話者適応方式を用いてもよい。

異なる話者適応方式の一つとして、下記の参考文献３のように、クラスタ適応学習（ＣｌｕｓｔｅｒＡｄａｐｔｉｖｅＴｒａｉｎｉｎｇ：ＣＡＴ）で学習したモデルを用いた話者適応方式がある。本実施形態では、このクラスタ適応学習で学習したモデルを用いた話者適応方式を用いるものとする。
（参考文献３）Ｋ．Ｙａｎａｇｉｓａｗａ，Ｊ．Ｌａｔｏｒｒｅ，Ｖ．Ｗａｎ，Ｍ．ＧａｌｅｓａｎｄＳ．Ｋｉｎｇ，“ＮｏｉｓｅＲｏｂｕｓｔｎｅｓｓｉｎＨＭＭ−ＴＴＳＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎ” Ｐｒｏｃ．ｏｆ８ｔｈＩＳＣＡＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＷｏｒｋｓｈｏｐ，ｐｐ．１１９−１２４，２０１３−９

クラスタ適応学習では、モデルを複数クラスタの重み付き和で表し、モデルの学習時には、各クラスタのモデルと重みをデータに合わせて同時に最適化する。本実施形態で用いる話者適応のための複数話者のモデル化では、図８に示すように、複数話者を含む大量の音声データから、それぞれのクラスタをモデル化した決定木と、クラスタの重みとを同時に最適化する。こうしてできたモデルの重みを、学習に用いた各話者に最適化された値に設定すると、それぞれの話者の特徴が再現できる。こうしてできたモデルを、以下ＣＡＴモデルと呼ぶ。

実際には、ＣＡＴモデルは第１の実施形態で説明した決定木と同様に、スペクトルパラメータやピッチパラメータなどのパラメータ種別毎に学習する。各クラスタの決定木は、各パラメータを音韻・言語環境でクラスタリングしたものであり、バイアスクラスタという重みが常に１に設定されたクラスタのリーフノードには、対象のパラメータの確率分布（平均ベクトルと共分散行列）が割り当てられ、その他のクラスタのリーフノードには、バイアスクラスタからの確率分布の平均ベクトルに重み付きで加算する平均ベクトルが割り当てられている。

本実施形態では、このようにクラスタ適応学習で学習されたＣＡＴモデルを話者適応用ベースモデル１２０として用いる。この場合の話者適応では、対象話者の音声データに合わせて重みを最適化することによって、対象話者に近い声質・話し方のモデルを得ることができる。しかし、このＣＡＴモデルでは通常、学習に用いた話者の特徴の線形和で表現可能な空間内の特徴しか表せないので、例えば学習に用いた話者がプロのナレータばかりの場合、一般者の声質や話し方はうまく再現できない可能性がある。そこで、本実施形態では、話者レベルが様々で、様々な声質や話し方の特徴を含む複数の話者からＣＡＴモデルを学習することとする。

この場合、対象話者の音声データに最適化した重みベクトルをＷ_ｏｐｔとすると、この重みＷ_ｏｐｔで合成される音声は対象話者に近いが、話者レベルも対象話者のレベルを再現したものになる。一方、ＣＡＴモデルの学習に用いた話者のうち、話者レベルが高い話者に最適化された重みベクトルの中からＷ_ｏｐｔに最も近いものを選択してこれをＷ_{ｓ（ｎｅａｒ）}とすると、この重みＷ_{ｓ（ｎｅａｒ）}で合成される音声は対象話者に比較的近く、話者レベルの高いものとなる。なお、Ｗ_{ｓ（ｎｅａｒ）}は、ここではＷ_ｏｐｔに最も近いものとしたが、必ずしも重みベクトルの距離で選択する必要はなく、話者の性別や特徴など別の情報を基に選択してもよい。

本実施形態では、さらに、下記の式（２）のように、Ｗ_ｏｐｔとＷ_{ｓ（ｎｅａｒ）}を補間した重みベクトルＷ_{ｔａｒｇｅｔ}を新たに定義し、Ｗ_{ｔａｒｇｅｔ}を話者適応した結果の重みベクトル（目標の重みベクトル）とすることにする。

図９は、式（２）における補間比率であるｒと、これにより定まる目標の重みベクトルＷ_{ｔａｒｇｅｔ}との関係を示す概念図である。この場合、例えば、補間比率ｒが１なら対象話者を最も忠実に再現する設定となり、補間比率ｒが０なら最も話者レベルが高い設定にできる。つまり、この補間比率ｒを、話者再現性の忠実度を表すパラメータとして用いることができる。本実施形態では、決定部１０５において、目標話者レベルと対象話者レベルとの関係に基づいてこの補間比率ｒの値を決定する。これにより、第１〜第３の実施形態と同様に、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書３０を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。

（第５の実施形態）
第１〜第４の実施形態は、ＨＭＭ音声合成のための音声合成辞書３０を生成する例を説明したが、音声合成の方式はＨＭＭ音声合成に限らず、素片選択型の音声合成など、異なる音声合成方式であってもよい。例えば、素片選択型の音声合成においても、下記の参考文献４に開示されているような話者適応方法がある。
（参考文献４）特開２００７−１９３１３９号公報

参考文献４で開示されている話者適応方法では、ベースの話者の音声素片を対象話者（目標話者）の特徴に合わせて変換する。具体的には、音声素片の音声波形を音声分析してスペクトルパラメータに変換し、このスペクトルパラメータをスペクトル領域上で対象話者の特徴に変換した後、変換後のスペクトルパラメータを時間領域の音声波形に戻すことにより、対象話者の音声波形に変換する。

この際の変換規則については、素片選択の手法を用いてベースの話者の音声素片と対象話者の音声素片の対を作り、これらの音声素片を音声分析してスペクトルパラメータの対に変換し、これらのスペクトルパラメータ対を基に、回帰分析やベクトル量子化、混合ガウス分布（ＧＭＭ）で変換をモデル化することによって生成する。すなわち、ＨＭＭ音声合成での話者適応の場合と同様に、スペクトル等のパラメータの領域で変換を行う。また、変換方式の中には、話者性再現の忠実度に関わるパラメータが存在するものもある。

例えば、参考文献４で挙げられている変換方式のうち、ベクトル量子化を用いる方式では、ベース話者のスペクトルパラメータをＣ個のクラスタにクラスタリングし、それぞれのクラスタで最尤線形回帰などによって変換行列を生成する。この場合、クラスタ数のＣを、話者性再現の忠実度に関わるパラメータとして用いることができる。Ｃを大きくすれば忠実度が高く、小さくすれば忠実度が低くなる。また、ＧＭＭを用いる変換方式においては、ベース話者から対象話者への変換規則をＣ個のガウス分布で表現するが、この場合、ガウス分布の混合数Ｃを話者性再現の忠実度に関わるパラメータとして用いることができる。

本実施形態では、上記のようなベクトル量子化を用いる変換方式におけるクラスタ数Ｃ、あるいは、ＧＭＭを用いる変換方式におけるガウス分布の混合数Ｃを、話者性再現の忠実度に関わるパラメータとして用いる。そして、決定部１０５において、これらクラスタ数Ｃの値あるいはガウス分布の混合数Ｃの値を、目標話者レベルと対象話者レベルとの関係に基づいて決定する。これにより、素片選択型の音声合成など、ＨＭＭ音声合成方式以外の方式で音声合成を行う場合であっても、第１〜第４の実施形態と同様に、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書３０を生成することができ、対象話者の発話スキルが低い場合でも発話スキルの高い音声合成を、対象話者のネイティブ度が低い場合でもネイティブに近い発声の音声合成を実現できる。

（第６の実施形態）
話せない言語の音声合成辞書３０を生成する場合など、話者のネイティブ度が低い場合は、その言語での音声の録音が非常に難しくなることが予想される。例えば、音声録音ツールにおいて、中国語の分からない日本人話者に対して、中国語のテキストのまま表示して読ませることは困難である。そこで、本実施形態では、テキストの読みの情報を対象話者が通常使用する言語の読み表記に変換して対象話者に提示しながら、音声の録音を行い、かつ、提示する情報を対象話者のネイティブ度に応じて切り換える。

図１０は、本実施形態の音声合成辞書生成装置４００の構成例を示すブロック図である。図１０に示すように、本実施形態の音声合成辞書生成装置４００は、図１に示した第１の実施形態の構成に加えて、音声録音・提示部４０１を備える。それ以外の構成は第１の実施形態と同様であるため、第１の実施形態と共通の構成要素については図中同一の符号を付して、重複した説明を省略する。

音声録音・提示部４０１は、対象話者が通常使用する言語ではない他の言語の録音テキスト２０を読み上げる際に、録音テキスト２０の表記を、対象話者が通常使用する言語の読みの表記に変換した表示テキスト１３０を対象話者に提示しながら、対象話者が録音テキスト２０を読み上げた音声を録音する。例えば、日本人を対象として中国語の音声合成辞書３０を生成する場合、音声録音・提示部４０１は、読み上げるテキストを中国語ではなく、例えば中国語の読みをカタカナに変換した表示テキスト１３０を表示する。こうすることで、日本人でも中国語に近い発音をすることが可能となる。

この際、音声録音・提示部４０１は、対象話者に提示する表示テキスト１３０を、対象話者のネイティブ度に応じて切り換える。すなわち、アクセントや声調は、その言語を学習したことがある話者なら、正しいアクセントや声調で発声することも可能である。しかし、その言語を学習したこともない、ネイティブ度の非常に低い話者の場合、アクセント位置や声調の種類が適切に表示されていても、それを発声に反映することは非常に難しい。例えば、中国語を学習したことのない日本人が中国語の声調である四声を正しく発声することはほぼ不可能に近い。

そこで、本実施形態の音声録音・提示部４０１は、アクセントの位置や声調の種類などを表示するか否かを、対象話者によって指定された対象話者自身のネイティブ度に応じて切り換える。具体的には、音声録音・提示部４０１は、対象話者により指定された対象話者レベルのうち、対象話者のネイティブ度を対象話者レベル指定部１０３から受け取る。そして、音声録音・提示部４０１は、対象話者のネイティブ度が所定のレベルよりも高い場合は、読みの表記に加えてアクセントの位置や声調の種類を表示する。一方、対象話者のネイティブ度が所定のレベルよりも低い場合は、音声録音・提示部４０１は、読みの表記を表示するが、アクセントの位置や声調の種類は表示しない。

アクセントの位置や声調の種類を表示しない場合、アクセントや声調については正しく発声されることはあまり期待できない一方で、対象話者は、アクセントや声調は気にせず、正しく発音することに集中すると考えられ、発音はある程度正しくなることが期待できる。そこで、決定部１０５でパラメータの値を決定する際には、音響モデルの生成に用いるパラメータはやや高めの値に設定する一方、韻律モデルの生成に用いるパラメータの値はかなり低めに設定することが望ましい。こうすることで、ネイティブ度の非常に低い対象話者でも、話者の特徴を反映させながら、ある程度正しい発声ができる音声合成辞書３０を生成できる可能性が高まる。

なお、決定部１０５がパラメータの値を決定する際に用いる対象話者レベルは、対象話者が指定したもの、つまり、対象話者レベル指定部１０３から音声録音・提示部４０１に渡されたネイティブ度を含む対象話者レベルであってもよいし、第２の実施形態と同様の対象話者レベル推定部２０１を別途設けて、この対象話者レベル推定部２０１で推定された対象話者レベル、つまり、音声録音・提示部４０１で録音された録音音声１０を用いて推定された対象話者レベルであってもよい。また、対象話者により指定された対象話者レベルと、録音音声１０を用いて推定された対象話者レベルとの両方用いて、決定部１０５でパラメータの値を決定するようにしてもよい。

本実施形態のように、音声の録音時に対象話者に提示する表示テキスト１３０の切り換えと、話者適応における話者再現性の忠実度を表すパラメータの値を決定する方法とを連携させることで、ネイティブ度の低い対象話者の録音音声１０を用いて、ある程度のネイティブ度を持つ音声合成辞書３０を、より適切に生成することが可能になる。

以上、具体的な例を挙げながら詳細に説明したように、実施形態の音声合成辞書生成装置によれば、目標とする発話スキルやネイティブ度に応じて話者性の類似度を調整した音声合成辞書を生成することができる。

なお、上述した実施形態の音声合成辞書生成装置は、例えば、プロセッサや主記憶装置、補助記憶装置などを備える汎用のコンピュータに、ユーザインタフェースとなる出力装置（ディスプレイ、スピーカなど）や入力装置（キーボード、マウス、タッチパネルなど）を接続したハードウェア構成を利用することができる。この構成の場合、実施形態の音声合成辞書生成装置は、コンピュータに搭載されたプロセッサが所定のプログラムを実行することによって、上述した音声分析部１０１、話者適応部１０２、対象話者レベル指定部１０３、目標話者レベル指定部１０４、決定部１０５、対象話者レベル推定部２０１、目標話者レベル提示・指定部３０１、音声録音・提示部４０１などの機能的な構成要素が実現する。このとき、音声合成辞書生成装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。また、上記のプログラムをサーバーコンピュータ上で実行させ、ネットワークを介してその結果をクライアントコンピュータで受け取ることにより実現してもよい。

コンピュータで実行されるプログラムは、実施形態の音声合成辞書生成装置を構成する各機能的な構成要素（音声分析部１０１、話者適応部１０２、対象話者レベル指定部１０３、目標話者レベル指定部１０４、決定部１０５、対象話者レベル推定部２０１、目標話者レベル提示・指定部３０１、音声録音・提示部４０１など）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサが上記記憶媒体からプログラムを読み出して実行することにより、上記各処理部が主記憶装置上にロードされ、主記憶装置上に生成されるようになっている。なお、上述した機能的な構成要素の一部または全部を、例えばＡＳＩＣやＦＰＧＡなどの専用のハードウェアを用いて実現することもできる。

また、実施形態の音声合成辞書生成装置で使用する各種情報は、上記のコンピュータに内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記録媒体を適宜利用して格納しておくことができる。例えば、実施形態の音声合成辞書生成装置が使用する音声ＤＢ１１０や話者適応用ベースモデル１２０は、これら記録媒体を適宜利用して格納しておくことができる。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０録音音声
２０録音テキスト
３０音声合成辞書
１００音声合成辞書生成装置
１０１音声分析部
１０２話者適応部
１０３対象話者レベル指定部
１０４目標話者レベル指定部
１０５決定部
１１０音声データベース（音声ＤＢ）
１２０話者適応用ベースモデル
２００音声合成辞書生成装置
２０１対象話者レベル推定部
３００音声合成辞書生成装置
３０１目標話者レベル提示・指定部
４００音声合成辞書生成装置
４０１音声録音・提示部

Claims

任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置であって、
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析部と、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応部と、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定部と、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定部と、を備え、
前記決定部は、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応部は、前記決定部が決定した前記パラメータの値に従って前記話者適応を行うことを特徴とする音声合成辞書生成装置。
前記対象話者レベルの指定を受け付ける対象話者レベル指定部をさらに備え、
前記決定部は、指定された前記目標話者レベルと、指定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項１に記載の音声合成辞書生成装置。
前記音声データベースの少なくとも一部のデータを基に、前記対象話者レベルを自動推定する対象話者レベル推定部をさらに備え、
前記決定部は、指定された前記目標話者レベルと、推定された前記対象話者レベルとの関係に応じて、前記パラメータの値を決定することを特徴とする請求項１に記載の音声合成辞書生成装置。
前記目標話者レベル指定部は、前記対象話者レベルを基に、前記目標話者レベルと、生成される前記対象話者のモデルで想定される話者性の類似度との関係、および、前記目標話者レベルの指定可能な範囲を表示し、表示した範囲の中から前記目標話者レベルを指定する操作を受け付けることを特徴とする請求項１〜３のいずれか一項に記載の音声合成辞書生成装置。
前記話者適応部は、前記話者レベルが高い話者をモデル化した平均声モデルを前記ベースモデルとして用いることを特徴とする請求項１〜４のいずれか一項に記載の音声合成辞書生成装置。
前記パラメータは、前記話者適応において前記ベースモデルの変換に使用する変換行列の数を定めるパラメータであり、前記変換行列の数が少ないほど前記忠実度が低くなることを特徴とする請求項１〜５のいずれか一項に記載の音声合成辞書生成装置。
前記話者適応部は、前記話者レベルが異なる複数の話者のデータからクラスタ適応学習によって学習された、複数クラスタの重み付き和で表されるモデルを前記ベースモデルとして用い、複数クラスタの重みの一式である重みベクトルを前記対象話者に合わせ込むことで前記話者適応を行い、
前記重みベクトルは、前記対象話者にとっての最適重みベクトルと、前記複数の話者のうち前記話者レベルが高い１話者の最適重みベクトルとを補間することで求められ、
前記パラメータは、前記重みベクトルを求める際の補間比率であることを特徴とする請求項１〜４のいずれか一項に記載の音声合成辞書生成装置。
前記対象話者のモデルは、韻律モデルと音響モデルとを含み、
前記パラメータは、前記韻律モデルの生成に用いる第１パラメータと、前記音響モデルの生成に用いる第２パラメータとを含み、
前記決定部は、前記忠実度が低くなるように前記パラメータの値を決定する際に、前記忠実度が高くなるデフォルト値に対する前記第１パラメータの変更度合いを、前記デフォルト値に対する前記第２パラメータの変更度合いよりも大きくすることを特徴とする請求項１〜７のいずれか一項に記載の音声合成辞書生成装置。
前記音声データを録音するための録音部をさらに備え、
前記録音部は、読み上げる単位ごとに少なくとも読み上げる文章の読みの情報を前記対象話者に提示しながら前記音声データを録音し、
前記読みの情報は、読み上げ対象の言語での読み表記ではなく、前記対象話者が通常用いる言語の読み表記に変換されたものであり、少なくとも前記対象話者のネイティブ度が所定の値よりも低い場合は、アクセントや声調など抑揚に関わる記号を含まないことを特徴とする請求項１〜８のいずれか一項に記載の音声合成辞書生成装置。
任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する音声合成辞書生成装置により実行される音声合成辞書生成方法であって、
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標話者レベル指定ステップと、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、を含み、
前記決定ステップでは、指定された前記目標話者レベルが前記対象話者レベルより高い場合は、指定された前記目標話者レベルが前記対象話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応ステップでは、前記決定ステップで決定された前記パラメータの値に従って前記話者適応を行うことを特徴とする音声合成辞書生成方法。
任意の対象話者の音声データを基に前記対象話者のモデルを含む音声合成辞書を生成する機能をコンピュータに実現させるためのプログラムであって、
コンピュータに、
前記音声データを分析して、前記対象話者の発話の特徴を表すデータを含む音声データベースを生成する音声分析ステップと、
前記音声データベースに基づき、所定のベースモデルを前記対象話者の特徴に近づけるように変換する話者適応を行って、前記対象話者のモデルを生成する話者適応ステップと、
話者の発話スキルと前記音声合成辞書の言語に対する話者のネイティブ度との少なくとも一方を表す話者レベルについて、目標とする前記話者レベルである目標話者レベルの指定を受け付ける目標レベル指定ステップと、
指定された前記目標話者レベルと、前記対象話者の前記話者レベルである対象話者レベルとの関係に応じて、前記話者適応での話者性再現の忠実度に関わるパラメータの値を決定する決定ステップと、を実行させ、
前記決定ステップでは、指定された前記目標話者レベルが前記話者レベルより高い場合は、指定された前記目標話者レベルが前記話者レベル以下の場合と比べて、前記忠実度が低くなるように前記パラメータの値を決定し、
前記話者適応ステップでは、前記決定ステップで決定された前記パラメータの値に従って前記話者適応を行うことを特徴とするプログラム。