以下、図面に基づいて、実施形態を説明する。
図1は、音声合成装置の一実施形態を示す。図1に示した音声合成装置10は、変換部11と、生成部12と、特定部13とを有する。図1に示した変換部11は、第1の声質を持つ音声Vcoを受け、以下に述べる声質変換により、第1の声質とは異なる第2の声質で音声Vcoの発話内容を表す音声Vctを出力する。以下の説明において、第1の声質で音声Vcoを発声した話者は元話者と称され、声質変換の目標となる第2の声質を有する話者は目標話者と称される。なお、目標話者は元話者と異なる人物に限られず、声質が互いに異なっていれば、元話者と目標話者とが同一の人物であってもよい。例えば、ある人物により平静な状態で発声される音声の声質を第1の声質とし、同じ人物により緊迫した状態で発声される音声の声質を第2の声質としてもよい。この場合に、平静な状態の人物は元話者であり、緊迫した状態の同じ人物は目標話者である。
変換部11は、例えば、元話者と目標話者とのそれぞれにより発声された同一の発話内容の音声に含まれる調音成分間の対応関係を学習することで予め生成された混合正規分布モデルを、変換部11に設けられたメモリなどに保持している。そして、変換部11は、メモリなどに保持された混合正規分布モデルを用いて、元話者によって発声された第1の声質の音声Vcoから目標話者の声質である第2の声質を有する音声Vctへの声質変換を行う。
変換部11で用いられる混合正規分布モデルの学習に用いられた元話者及び目標話者のそれぞれによる発声された音声は、音声データベースDBに蓄積されている。そして、図1に示した生成部12は、第1の声質及び第2の声質のそれぞれで予め発声された所定の言語情報を表す音声として、例えば、音声データベースDBに蓄積された元話者の音声及び目標話者の音声を取得する。なお、生成部12が取得する音声は、変換部11で用いられる混合正規分布モデルの生成に用いられた元話者の音声及び目標話者の音声に限らず、第1の声質及び第2の声質のそれぞれで予め発声された同一の発話内容を持つ音声であればよい。
生成部12は、音声データベースDBから取得した元話者の音声に含まれる調音成分の複雑さを示す元話者の音声の特徴量と、音声データベースDBから取得した目標話者の音声に含まれる調音成分の分散を示す系列内変動とをそれぞれ求める。ここで、生成部12は、元話者の音声の特徴量として、例えば、取得した元話者の音声のそれぞれに含まれる調音成分の分散を示す系列内変動、あるいは、取得した元話者の音声のそれぞれの長さである音声長を求める。そして、生成部12は、元話者の音声の特徴量と目標話者の音声の系列内変動との間の相関関係を学習することで、元話者の音声の特徴量に対して目標話者の音声の系列内変動を対応付ける変換モデルGVMを生成する。生成部12によって生成された変換モデルGVMは、図1に示した特定部13に渡される。ここで、系列内変動は、音声に含まれる各調音成分に対応する次元を持つベクトルであるので、系列内変動の平均は、例えば、40次元のベクトルとして示され、また、系列内変動の分散は、系列内変動の次元に応じた次元を持つ行列で示される。以下の説明では、系列内変動の平均は、系列内変動の平均ベクトルと称される場合があり、また、系列内変動の分散は、系列内変動の共分散行列と称される場合がある。
特定部13は、変換部11による変換の対象となる元話者の音声Vcoを受け、受けた音声Vcoに含まれる調音成分の複雑さを示す特徴量を求める。ここで、元話者の音声の系列内変動に目標話者の音声の系列内変動を対応付ける変換モデルGVMを受けた場合に、特定部13は、受けた音声Vcoに含まれる調音成分の複雑さを示す特徴量として、受けた音声Vcoに含まれる調音成分の系列内変動を求める。そして、特定部13は、生成部12から受けた変換モデルGVMに基づいて、求めた特徴量に対して対応付けられた目標話者の音声の系列内変動の平均ベクトル及び共分散行列を特定する。特定部13によって特定された系列内変動の平均ベクトル及び共分散行列は、図1に示した変換部11に渡される。
変換部11は、例えば、混合正規分布モデルを示す共分散行列と、特定部13から渡された系列内変動の平均ベクトル及び共分散行列とを用いて、元話者の音声Vcoから目標話者の声質で音声Vcoと同じ内容を表す音声Vctへの声質変換を行う。
図2は、元話者の音声の系列内変動と目標話者の音声の系列内変動との相関関係の例を示す。図2(A)は、図1に示した音声データベースDBに蓄積された元話者の音声のそれぞれの系列内変動と、同一の発話内容を表す目標話者の音声のそれぞれの系列内変動との対応関係を示す。図2(B)は、図1に示した生成部12で生成された変換モデルGVMを用いて特定される目標話者の音声の系列内変動の確率分布の例を示す。
まず、図2(A)について説明する。図2(A)において、横軸GVoは、元話者の音声の系列内変動を表すベクトルの各成分の二乗和を示し、縦軸GVtは、目標話者の音声の系列内変動を表すベクトルの各成分の二乗和を示す。
即ち、図2(A)に示した各点は、音声データベースDBに蓄積された元話者の音声のそれぞれの系列内変動を表すベクトルの各成分の二乗和に対して、元話者の各音声と同じ発話内容を表す目標話者の音声の系列内変動を表すベクトルの各成分の二乗和を示す。例えば、図2(A)に示した点Pは、元話者の音声の系列内変動を表すベクトルの各成分の二乗和が値goとなる発話内容を表す目標話者の音声の系列内変動を示すベクトルの各成分の二乗和は値gtとなることを示す。
図2(A)から分かるように、元話者の音声の系列内変動を表すベクトルの各成分の二乗和と、同じ発話内容の目標話者の音声の系列内変動を示すベクトルの各成分の二乗和との間には相関関係がある。そして、図2(A)に示した相関関係は、元話者の音声の系列内変動を表すベクトルの各成分と、同じ発話内容の目標話者の音声の系列内変動を示すベクトルの各成分との間に相関関係があることを示している。
図1に示した生成部12は、図2(A)に示した元話者の音声の系列内変動と目標話者の音声の系列内変動との間の相関関係を学習することで、変換モデルGVMとして、例えば、図2(A)に示した領域R1における確率分布を示す正規分布モデルを生成する。なお、図2(A)においては、説明の簡略化のため、n次元空間における正規分布モデルである変換モデルGVMで示される確率分布の広がりを示す領域を二次元の図形として示した。ここで、変換モデルGVMを示す正規分布の次元数は、元話者の音声の調音成分の数と目標話者の音声の調音成分の数との和で示される。
なお、生成部12により生成される変換モデルGVMは、図2を用いて説明した正規分布モデルに限らず、元話者の音声の複雑さを示す特徴量と、同じ発話内容を表す目標話者の音声の系列内変動とを対応付けるモデルであれば、如何様なものでもよい。例えば、生成部12は、変換モデルGVMとして、元話者の音声の長さと、同じ発話内容を表す目標話者の音声の系列内変動とを対応付ける混合正規分布モデルを生成してもよい。変換モデルGVMとして、元話者の音声の長さと、同じ発話内容を表す目標話者の音声の系列内変動とを対応付ける混合正規分布モデルを生成する生成部12については、図4及び図5を用いて後述する。
図2(B)に実線で示した正規分布Nv1は、図1に示した元話者の音声Vcoの系列内変動の各成分の二乗和が値gv1を持つ場合に、変換モデルGVMを用いて特定部13により特定される目標話者の音声の系列内変動の確率分布を示す。一方、図2(B)に点線で示した正規分布N0は、音声データベースDBに蓄積された全ての目標話者の音声の系列内変動の確率分布を示す。
図2(B)の正規分布Nv1は、系列内変動の各成分の二乗和が値gv1となる元話者の音声と同じ発話内容の目標話者の音声として音声データベースDBに蓄積された音声の系列内変動の各成分の二乗和の確率分布を示している。すなわち、図2(B)に示した正規分布Nv1は、図1に示した元話者の音声Vcoの系列内変動の各成分の二乗和が値gv1を持つ場合に、声質変換後の音声の系列内変動の各成分の二乗和は、平均値μ1及び分散v1で示される範囲内となることを示す。
ここで、正規分布N0と正規分布Nv1との比較から分かるように、正規分布Nv1の分散v1は正規分布N0の分散v0に比べて小さい。そして、正規分布Nv1の平均μ1は、系列内変動の各成分の二乗和が値gv1となる元話者の音声と同じ発話内容を表す目標話者の音声として音声データベースDBに蓄積された音声の系列内変動の各成分の二乗和の平均値を反映している。
したがって、特定部13は、図2(A)に示したような変換モデルGVMを用いることで、元話者の音声Vcoで表される発話内容にかかわらず、同じ発話内容を目標話者の声質で表す音声の系列内変動が分布する可能性の高い範囲を特定することができる。
図2で説明したように、特定部13で求められる平均ベクトル及び共分散行列は、音声データベースDBに目標話者の音声として蓄積された全ての音声の系列内変動が分布する範囲に比べて、声質変換で得る音声の系列内変動の分布範囲として確からしい範囲を示す。
したがって、特定部13から渡された系列内変動の平均ベクトル及び共分散行列を用いることで、変換部11は、任意の発話内容を持つ元話者の音声Vcoに対する声質変換で、従来よりも確からしい系列内変動を持つ目標話者の声質の音声Vctを生成できる。
図3は、図1に示した音声合成装置10の動作を示す。図3に示したステップS301〜ステップS303の処理は、図1に示した音声合成装置10の動作を示すとともに、音声合成方法および音声合成プログラムの例を示す。例えば、図3に示す処理は、音声合成装置10に搭載されたプロセッサが音声合成プログラムを実行することで実現される。なお、図3に示す処理は、音声合成装置10に搭載されるハードウェアによって実行されてもよい。
ステップS301において、生成部12は、元話者の音声の特徴量と同じ発話内容を表す目標話者の音声の系列内変動との間の対応関係を学習することで、元話者の音声の特徴量と目標話者の音声の系列内変動との間の変換モデルを生成する。
ステップS302において、特定部13は、ステップS301の処理で生成された変換モデルを用いて、声質変換の対象となる元話者の音声の特徴量から、同じ発話内容を目標話者の声質で表す音声の系列内変動の平均及び分散を特定する。
ステップS303において、変換部11は、ステップS302の処理で特定された平均及び分散で示される系列内変動の確率密度関数と混合正規分布モデルとを用いて、声質変換の対象となる元話者の音声を目標話者の声質を持つ音声に変換する。
以上に説明したように、図1に示した音声合成装置10は、音声データベースDB内の音声に基づいて生成部12で生成された変換モデルを用いて、特定部13により、声質変換後の音声の系列内変動につき確からしい平均ベクトル及び共分散行列を特定する。そして、特定された平均ベクトル及び共分散行列を用いることで、変換部11は、任意の発話内容を持つ元話者の音声Vcoに対する声質変換により、従来よりも確からしい系列内変動を持つ目標話者の声質の音声Vctを生成することができる。
すなわち、図1に示した音声合成装置10は、元話者の音声に対する声質変換により、目標話者の声質を持つ音声を合成する際に、元話者の音声の発話内容にかかわらず、調音成分の過剰な平滑化を抑制することができる。これにより、図1に示した音声合成装置10は、様々な発話内容を持つ元話者の音声から、目標話者の声質を持ち、従来よりも音質の劣化の少ない音声を合成することができる。つまり、図1に示した音声合成装置10は、声質変換により様々な発話内容を持つ音声を合成する際に、合成された音声の音質の劣化を低減することができる。
図4は、音声合成装置の別実施形態を示す。なお、図4に示す構成要素のうち、図1に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。
図4に示した音声合成装置10aは、音声データベースDBと音声学習装置EQとに接続されている。音声学習装置EQは、音声データベースDBに蓄積された元話者の音声と目標話者の音声との対応関係を学習することにより、元話者の音声の各調音成分を目標話者の音声の調音成分に変換するための変換規則を示す混合正規分布モデルを生成する。音声学習装置EQによって生成された混合正規分布モデルは、音声合成装置10の変換部11aに含まれるメモリなどに設けられた記憶領域に格納され、変換部11aによる声質変換処理に用いられる。ここで、図4に示した変換部11aは、図1に示した変換部11に相当する構成要素である。
図4に示した生成部12aは、図1に示した生成部12に相当する構成要素であり、分析部121と学習部122とを含んでいる。分析部121は、音声データベースDBに接続されており、音声データベースDBに蓄積された元話者の音声及び目標話者の音声を示す情報にアクセス可能である。
分析部121は、音声データベースDBに蓄積された元話者の音声のそれぞれを分析することで、元話者の音声のそれぞれに含まれる調音成分の複雑さを示す特徴量として、例えば、元話者の音声の長さを求める。また、分析部121は、音声データベースDBに蓄積された目標話者の音声のそれぞれを分析することで、例えば、目標話者の音声のそれぞれの特徴を示す調音成分としてケプストラムを求め、求めたケプストラムの系列内変動を求める。なお、分析部121は、音声データベースDBに蓄積された目標話者の音声のそれぞれを分析することで、例えば、目標話者の音声のそれぞれの特徴を示す調音成分としてメルケプストラムを求め、求めたメルケプストラムの系列内変動を求めてもよい。
分析部121による分析によって得られた元話者の音声のそれぞれの長さを示す情報と目標話者の音声のそれぞれを分析することで得られた系列内変動を示す情報とは、発話内容毎に学習部122に渡される。
学習部122は、元話者の音声のそれぞれの特徴量として受けた音声の長さと、目標話者の音声のそれぞれの系列内変動との相関関係を学習することで、元話者の音声の長さに対して、目標話者の音声の系列内変動を対応付ける変換モデルGVMを生成する。学習部122は、例えば、任意の発話内容を表す元話者の音声の長さに対応する、同じ発話内容を表す目標話者の音声の系列内変動が示す確率分布を混合正規分布として示す確率密度関数を変換モデルGVMとして求める。
特定部13aは、図1に示した特定部13に相当する構成要素であり、計測部131と決定部132とを含んでいる。計測部131は、変換部11aによる声質変換の対象となる元話者の音声Vcoの入力を受ける。また、決定部132は、学習部122による学習によって得られた変換モデルGVMを受け、決定部132に含まれるメモリなどに設けられた記憶領域に、受けた変換モデルGVMを記憶する。
計測部131は、声質変換の対象となる元話者の音声Vcoの長さとして、例えば、音声Vcoを表す音声信号の振幅が所定の閾値を超えた時刻から別の所定の閾値以下となるまでの時間を計測する。
決定部132は、メモリなどに記憶させた変換モデルGVMを用いて、計測部131による計測で得られた元話者の音声Vcoの長さに対応付けられた目標話者の音声の系列内変動の確率分布を示す平均ベクトル及び共分散行列を決定する。
図5は、図4に示した生成部12aで生成される変換モデルGVMの例を示す。図5(A)は、図1及び図4に示した音声データベースDBに蓄積された元話者の音声のそれぞれの長さと、同一の発話内容を表す目標話者の音声のそれぞれの系列内変動との対応関係を示す変換モデルGVMの一例を示す。図5(B)は、図5(A)に示した変換モデルGVMを用いて特定される目標話者の音声の系列内変動の確率分布の例を示す。
まず、図5(A)について説明する。図5(A)において、横軸tは、元話者の音声の長さを示し、縦軸GVtは、目標話者の音声の系列内変動を表すベクトルの各成分の二乗和を示す。
ここで、発話内容の複雑さと発話内容を表す音声の長さとの間には正の相関関係があることから、元話者の音声の長さと同じ発話内容を表す目標話者の音声の系列内変動との間にも相関関係があることが推定できる。そして、元話者の音声のそれぞれの長さと、同じ発話内容を表す目標話者の音声の系列内変動の各成分の二乗和とで示される点の確率分布は、例えば、図5(A)に示した領域R2における混合正規分布で表される。
即ち、図4に示した学習部122は、元話者の音声の長さと目標話者の音声の系列内変動との間の相関関係を学習することで、変換モデルGVMとして、例えば、図5(A)に示した領域R2における確率分布を示す混合正規分布モデルを生成する。なお、図5(A)においては、説明の簡略化のため、n次元空間における混合正規分布モデルである変換モデルGVMで示される確率分布の広がりを示す領域を二次元の図形として示した。ここで、変換モデルGVMを示す正規分布の次元数nは、元話者の音声の長さに対応する1次元と目標話者の音声の調音成分の数Nt(Ntは2以上の整数)との和、即ち、数「Nt+1」である。
図5(B)に実線で示した確率分布Nτ1は、図4に示した変換部11aによる声質変換の対象となる元話者の音声Vcoの長さがτ1である場合に、変換モデルGVMを用いて特定される目標話者の音声の系列内変動の確率分布の例を示す。一方、図5(B)に点線で示した確率分布Nτ0は、音声データベースDBに目標話者の音声として蓄積された全ての音声の系列内変動の確率分布を示す。
図5(B)の確率分布Nτ1は、長さがτ1である元話者の音声と同じ発話内容を表す目標話者の音声として音声データベースDBに蓄積された音声の系列内変動の各成分の二乗和の確率分布を示している。即ち、図5(B)に示した確率分布Nτ1は、元話者の音声Vcoの長さがτ1の場合に、同じ内容を目標話者の声質で表す音声の系列内変動の各成分の二乗和は、平均値μ1及び分散v1で示される範囲内となることを示す。なお、図5(B)に示した平均値μ1は、図4に示した決定部132で変換モデルGVMから決定される平均ベクトルの各成分の二乗和であり、分散v1は、同じく、決定部132により決定される共分散行列の各成分の二乗和を示す。
図5(B)に示した確率分布Nτ0と確率分布Nτ1との比較から分かるように、確率分布Nτ1の分散v1は確率分布N0の分散v0に比べて小さい。そして、確率分布Nτ1の平均μ1は、長さがτ1である元話者の音声と同じ発話内容を表す目標話者の音声として音声データベースDBに蓄積された音声の系列内変動の各成分の二乗和の平均値を反映している。
したがって、図4に示した計測部131と決定部132とを有する特定部13aは、生成部12aから受けた変換モデルGVMを用いることで、元話者の音声Vcoの発話内容を目標話者の声質で表す音声の系列内変動が分布する可能性の高い範囲を特定できる。
ここで、計測部131によって行われる音声Vcoの長さの計測は、音声Vcoに含まれる調音成分の系列内変動を求める処理に比べて、簡易な処理で実現可能であり、また、短い時間で実行することが可能である。このため、計測部131を有する特定部13aは、元話者の音声Vcoの系列内変動を用いる場合よりも、少ないハードウェアでの実現が可能であり、また、変換対象の音声Vcoを目標話者の声質で表す音声の系列内変動の範囲を高速に特定することが可能である。
ところで、図4に示した生成部12aは、変換部11aによる声質変換の対象となる元話者の音声Vcoの入力に先立って、変換モデルGVMを予め生成しておいてもよい。そして、予め生成された変換モデルGVMを示す情報を音声合成装置10aに設けられたメモリなどに記憶させてもよい。この場合に、生成部12aは、例えば、変換部11aによる声質変換のための混合正規分布モデル(GMM)を生成する音声学習装置EQの内部に配置されてもよい。また一方、音声合成装置10aは、音声学習装置EQを含んでもよい。
図6は、音声合成装置の別実施形態を示す。なお、図6に示す構成要素のうち、図1または図4に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。
図6に示した音声合成装置10bは、図1に示した生成部12に代えて、変換モデル保持部127を含む生成部12bを有する。変換モデル保持部127は、例えば、音声合成装置10bに搭載されたメモリなどに設けられた記憶領域であり、音声学習装置EQaから受けた変換モデルGVMを示す情報を記憶する。
また、図6に示した変換部11bは、図1に示した変換部11に相当する構成要素であり、混合正規分布モデル保持部(GMM保持部)111と演算処理部112とを含む。
GMM保持部111は、例えば、音声合成装置10bに搭載されたメモリなどに設けられた記憶領域であり、元話者の音声の調音成分から目標話者の音声の調音成分への変換規則として、音声学習装置EQaから受けた混合正規分布モデル(GMM)を記憶する。
演算処理部112は、GMM保持部111に記憶された混合正規分布モデルと特定部13bにより特定された平均ベクトル及び共分散行列とを用いた行列演算を行うことで、元話者の音声Vcoから目標話者の声質を持つ音声Vctへの声質変換を行う。
図6に示した生成部12bは、音声合成装置10b内に設けられた変換モデル保持部127と、音声学習装置EQa内に設けられた分析部121b及び学習部122bとを含む。
分析部121bは、図4に示した分析部121に相当する構成要素であり、調音成分抽出部123と、系列内変動算出部(GV算出部)124とを含む。また、学習部122bは、図4に示した学習部122に相当する構成要素であり、学習制御部125とモデル学習部126とを含む。分析部121b及び学習部122bの機能及び動作については、図7を用いて後述する。
音声学習装置EQaに含まれる分析部121bと学習部122bとによって生成された変換モデルGVMは、音声合成装置10bの変換モデル保持部127に保持され、特定部13bによる処理に用いられる。
特定部13bは、図4に示した計測部131に代えて、調音成分抽出部134及び系列内変動算出部(GV算出部)135を含み、また、図4に示した決定部132に代えて、決定部132bを含む。
調音成分抽出部134は、変換部11bによる声質変換の対象となる元話者の音声Vcoに含まれる調音成分を抽出し、抽出した調音成分をGV算出部135に渡す。
GV算出部135は、1発話分の元話者の音声Vcoから調音成分抽出部134によって抽出された調音成分のそれぞれに基づいて、各調音成分の系列内変動を求め、求めた各調音成分の系列内変動を決定部132bに渡す。
決定部132bは、元話者の音声Vcoの系列内変動と変換モデル保持部127に保持された変換モデルGVMとを用い、音声Vcoと同じ発話内容を目標話者の声質で表す音声の系列内変動の確からしい確率分布を示す平均ベクトルおよび共分散行列を決定する。
決定部132bによって決定された平均ベクトル及び共分散行列は、音声Vcoと同じ発話内容を目標話者の声質で表す音声の系列内変動の確からしい確率分布を特定する情報として変換部11bの演算処理部112に渡される。
ここで、図6及び図7を用いて、音声学習装置EQaに含まれる分析部121b及び学習部122bの機能及び動作について説明する。
図7は、図6に示した音声学習装置EQaの動作を示す。図7に示したステップS311〜ステップS315の処理は、例えば、図6に示した音声学習装置EQaに搭載されたプロセッサが音声学習のための音声学習プログラムを実行することで実現される。なお、図7に示す各処理は、音声学習装置EQaに搭載されるハードウェアによって実行されてもよい。
ステップS311において、調音成分抽出部123は、音声データベースDBに蓄積された元話者の音声のそれぞれおよび目標話者の音声のそれぞれから、調音成分を抽出する。調音成分抽出部123によって抽出された調音成分は、図6に示したGV算出部124に渡されるとともに、同じく図6に示した学習制御部125を介してモデル学習部126に渡される。
ステップS312において、図6に示したモデル学習部126は、学習制御部125を介して受けた元話者の調音成分のそれぞれと目標話者の調音成分のそれぞれとの対応関係を学習することで、元話者と目標話者との間の声質変換のためのGMMを生成する。
ステップS313において、図6に示したGV算出部124は、ステップS311の処理で抽出された元話者の音声の調音成分及び目標話者の音声の調音成分に基づいて、元話者の音声のそれぞれのGV及び目標話者の音声のそれぞれのGVを算出する。GV算出部124によって算出された元話者の音声のそれぞれのGV及び目標話者の音声のそれぞれのGVは、学習制御部125を介して、モデル学習部126に渡される。
ステップS314において、モデル学習部126は、学習制御部125をから受けた元話者の音声のGVと目標話者の音声のGVとの対応関係を学習することで、元話者の音声のGVと目標話者の音声のGVとを対応付ける変換モデルGVMを生成する。
ステップS315において、学習制御部125は、ステップS312の処理で得られたGMMとステップS314の処理で得られた変換モデルGVMとを、音声学習装置EQaと音声合成装置10bとを接続する通信経路を介して音声合成装置10bに送る。なお、音声学習装置EQaと音声合成装置10bとは、信号線を用いて接続されてもよいし、無線LAN(Local Area Network)などを用いて接続されてもよい。
図7に示したステップS312の処理と、ステップS313及びステップS314の処理とは、音声学習装置EQaにより、逆順に実行されてもよいし、並行して実行されてもよい。例えば、図6に示した学習制御部125は、元話者と目標話者との間の声質変換のためのGMMを生成する処理に先立って、GV算出部124によって算出された元話者の音声のGVと目標話者の音声のGVとをモデル学習部126に渡してもよい。この場合に、ステップS312において元話者と目標話者との間の声質変換のためのGMMを生成する処理よりも、ステップS314において元話者の音声のGVと目標話者の音声のGVとを対応付ける変換モデルGVMを生成する処理が先行して実行される。
ここで、図6に示した調音成分抽出部123及びモデル学習部126は、元話者と目標話者との間の声質変換のためのGMMを生成する処理と、元話者の音声のGVと目標話者の音声のGVとを対応付ける変換モデルGVMを生成する処理とに共通して用いられる。即ち、図6に示した生成部12bでは、分析部121bおよび学習部122bの機能の一部を、元話者と目標話者との間の声質変換のためのGMMを生成するために音声学習装置EQaに搭載された機能を用いて実現することができる。
以上に説明したようにして、音声学習装置EQaによって生成された元話者と目標話者との間の声質変換のためのGMMは、音声合成装置10bのGMM保持部111に保持される。また、音声学習装置EQaによって生成された元話者の音声のGVと目標話者の音声のGVとを対応付ける変換モデルGVMは、音声合成装置10bの変換モデル保持部127に保持される。
特定部13bに含まれる決定部132bは、GV算出部135で得られた元話者の音声Vcoの系列内変動と変換モデル保持部127に保持された変換モデルGVMとを用いて決定した平均ベクトルおよび共分散行列を、変換部11bの演算処理部112に渡す。
決定部132bによって決定された平均ベクトル及び共分散行列は、図2を用いて説明したように、音声Vcoと同じ発話内容を目標話者の声質で表す音声の系列内変動の確からしい確率分布を示している。
そして、演算処理部112は、GMM保持部111内のGMMとともに、目標話者の音声の系列内変動の確率分布として、決定部132bから渡された平均ベクトル及び共分散行列とで示される確率分布を用い、元話者の音声Vcoに対する声質変換を行う。
したがって、図6に示した音声合成装置10bは、図1に示した音声合成装置10と同様に、様々な発話内容を持つ元話者の音声から、目標話者の声質を持ち、従来よりも音質の劣化の少ない音声を合成することができる。
音声合成で生成される目標話者の音声の系列内変動につき確からしい確率分布を特定する技術は、声質変換を行う音声合成装置に限らず、隠れマルコフモデル(HMM: Hidden Markov Model)による音声合成を行う音声合成装置にも適用可能である。以下に、テキスト情報に含まれる音韻などの特徴と目標の声質でテキスト情報を表す音声の調音成分との対応付けを示す隠れマルコフモデルを用いた音声合成装置で合成される、目標の声質を持つ音声の系列内変動の確からしい確率分布を特定する手法を説明する。なお、以下の説明において、隠れマルコフモデルは、HMMと略称される場合がある。
図8は、音声合成装置の別実施形態を示す。図8に示した音声合成装置14は、変換部15と、生成部16と、特定部17とを有する。図8に示した変換部15は、言語情報を表すテキストTxtを受け、以下に述べる音声合成により目標の声質を持ち、テキストTxtを表す音声Vctを出力する。
変換部15は、例えば、テキスト情報に含まれる音韻等の特徴と目標の声質でテキスト情報を表す音声の調音成分との対応付けを学習することで予め生成された隠れマルコフモデルを内部のメモリなどに保持している。そして、変換部15は、音声合成の対象として受けたテキストTxtで表される音韻等を、メモリ等に保持された隠れマルコフモデルにより、目標の声質の音声を示す調音成分に変換することで、テキストTxtの内容を目標の声質で表す音声Vctを生成する。
変換部15で用いられる隠れマルコフモデルの学習に用いられた目標の声質を持つ音声は、調音成分のそれぞれが表す言語情報を示すラベルに対応付けられて、ラベル付き音声データベースLDBに蓄積されている。そして、図8に示した生成部16は、所定の声質の音声及び所定の声質の音声によって表された言語情報として、例えば、ラベル付き音声データベースLDBに蓄積された音声及び当該音声に対応付けられたラベルを取得する。なお、生成部16が取得する音声及び言語情報は、ラベル付き音声データベースLDBに蓄積された音声及びラベルに限らず、目標の声質を持つ音声と当該の声質を持つ音声によって表された言語情報とを対応付けた情報であればよい。
生成部16は、ラベル付き音声データベースLDBから取得した目標の声質を持つ音声を分析することにより、取得した目標の声質を持つ音声のそれぞれに含まれる調音成分の分散である目標の声質を持つ音声の系列内変動を求める。また、生成部16は、同じくラベル付き音声データベースLDBから取得した言語情報を分析することにより、取得した言語情報を表す音声の複雑さを示す特徴量として、言語情報に含まれる音素の種類の数である音素種類数を求める。そして、生成部16は、取得した言語情報を表す音声の複雑さを示す特徴量と取得した音声の系列内変動との相関関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に目標の声質の音声の系列内変動を対応付ける変換モデルGVMaを生成する。生成部16は、例えば、任意の言語情報について得られる音素種類数に対応して、同じ言語情報を目標の声質で表す音声が示す系列内変動の確率分布を混合正規分布として示す確率密度関数を変換モデルGVMaとして求める。
生成部16によって求められた変換モデルGVMaは、特定部17に渡される。
特定部17は、変換部15による変換の対象となる言語情報Txtを受け、受けた言語情報Txtを解析することで、言語情報Txtを表す音声の複雑さを示す特徴量を求める。言語情報に含まれる音素種類数に目標話者の音声の系列内変動を対応付ける変換モデルGVMaを受けた場合に、特定部17は、受けた言語情報Txtを表す音声の複雑さを示す特徴量として、受けた言語情報Txtに含まれる音素種類数を求める。そして、特定部17は、生成部16から受けた変換モデルGVMaに基づいて、求めた特徴量に対して対応付けられた目標の声質を持つ音声の系列内変動の平均ベクトル及び共分散行列を特定する。
特定部17によって特定された系列内変動の平均ベクトル及び共分散行列は、変換部15に渡される。
変換部15は、例えば、隠れマルコフモデルを示す共分散行列と、特定部17から渡された系列内変動の平均ベクトル及び共分散行列とを用いて、言語情報Txtから言語情報Txtを目標の声質で表す音声Vctを生成する処理を行う。
図9は、図8に示した生成部16で生成される変換モデルGVMaの例を示す。図9(A)は、図8に示したラベル付き音声データベースLDBに目標の声質を持つ音声として蓄積された音声のそれぞれの系列内変動を、各音声で表された言語情報に含まれる音素種類数に対して対応付ける変換モデルGVMaの一例を示す。図9(B)は、図9(A)に示した変換モデルGVMaを用いて特定される、目標の声質を持つ音声の系列内変動の確率分布の例を示す。
まず、図9(A)について説明する。図9(A)において、横軸nは、言語情報に含まれる音素種類数を示し、縦軸GVtは、目標の声質を持つ音声の系列内変動を表すベクトルの各成分の二乗和を示す。
ここで、ある言語情報を表す音声の複雑さと当該言語情報に含まれる音素種類数との間には相関関係がある。したがって、任意の言語情報に含まれる音素種類数と当該言語情報を表す目標話者の音声の系列内変動との間にも相関関係が存在する。例えば、任意の言語情報に含まれる音素種類数と、当該言語情報を目標の声質で表す音声の系列内変動の各成分の二乗和とで示される点の確率分布は、例えば、図9(A)に示した領域R3における混合正規分布で表される。
即ち、図8に示した生成部16は、取得した各言語情報の音素種類数と各言語情報を目標の声質で表す音声の系列内変動との対応関係を学習することで、変換モデルGVMaとして、例えば、図9(A)に示した領域R3における混合正規分布モデルを生成する。なお、図9(A)においては、説明の簡略化のため、n次元空間における混合正規分布モデルである変換モデルGVMaで示される確率分布の広がりを示す領域を二次元の図形として示した。ここで、変換モデルGVMaを示す正規分布の次元数は、言語情報に含まれる音素種類数に対応する1次元と目標の声質を持つ音声の調音成分の次元数との和で示される。
なお、生成部16により生成される変換モデルGVMaは、図9(A)を用いて説明した混合正規分布モデルに限られない。変換モデルGVMaは、例えば、言語情報を表す音声の複雑さを示す特徴量と、同じ言語情報を目標の声質で表す音声の系列内変動とを対応付けるモデルであれば、如何様なものでもよい。
図9(B)に実線で示した確率分布Nm1は、図8に示した変換部15による変換の対象として、音素種類数がm1個である言語情報Txtを受けた場合に、変換モデルGVMaを用いて特定部17で特定される目標の声質の音声の系列内変動の確率分布を示す。一方、図9(B)に点線で示した確率分布Nm0は、ラベル付き音声データベースLDBに目標の声質を持つ音声として蓄積された全ての音声の系列内変動の確率分布を示す。
図9(B)の確率分布Nm1は、音素種類数がm1個である言語情報を目標の声質で表す音声として音声データベースDBに蓄積された音声の系列内変動の各成分の二乗和の確率分布を反映している。
確率分布Nm0と確率分布Nm1との比較から分かるように、確率分布Nm1の分散v1は正規分布N0の分散v0に比べて小さい。そして、確率分布Nm1の平均μ1は、音素種類数がm1個である言語情報を目標の声質で表す音声として音声データベースDBに蓄積された音声の系列内変動の各成分の二乗和の平均値を反映している。つまり、図9(B)に示した確率分布Nm1で示される範囲は、音素種類数がm1個である言語情報を目標の声質で表す音声の系列内変動が分布する可能性が他の部分よりも高い範囲を示している。
したがって、図8に示した特定部17は、生成部16で生成された変換モデルGVMaを用いることで、言語情報Txtの内容にかかわらず、言語情報Txtを目標の声質で表す音声の系列内変動が分布する可能性の高い範囲を特定することができる。
図9で説明したように、特定部17から渡される平均ベクトル及び共分散行列は、ラベル付き音声データベースLDBに蓄積された音声の系列内変動の分布範囲よりも、言語情報Txtを目標の声質で表す音声の系列内変動の分布範囲として確からしい範囲を示す。
したがって、特定部17から渡された系列内変動の平均ベクトル及び共分散行列を用いることで、変換部15は、任意の内容の言語情報Txtに対する音声合成により、従来よりも確からしい系列内変動を持つ目標の声質を持つ音声Vctを生成することができる。
図10は、図8に示した音声合成装置14の動作を示す。図10に示したステップS321〜ステップS323の処理は、図8に示した音声合成装置14の動作を示すとともに、音声合成方法および音声合成プログラムの別例を示す。例えば、図10に示す処理は、音声合成装置14に搭載されたプロセッサが音声合成プログラムを実行することで実現される。なお、図10に示す処理は、音声合成装置14に搭載されるハードウェアによって実行されてもよい。
ステップS321において、生成部16は、ラベル付きデータベースLDBを用いた学習により、言語情報を表す音声の複雑さを示す特徴量に対して、同じ言語情報を目標の声質で表す音声の系列内変動を対応付ける変換モデルGVMaを生成する。ステップS321の処理で生成された変換モデルGVMaは、図8に示した特定部17に渡される。
ステップS322において、特定部17は、生成部16から受けた変換モデルGVMaと、変換の対象として受けた言語情報Txtを表す音声の複雑さを示す特徴量とから、言語情報Txtを目標の声質で表す音声の系列内変動の平均及び分散を特定する。
ステップS323において、変換部15は、ステップS322の処理で特定された平均及び分散で示される系列内変動の確率密度関数と隠れマルコフモデルとを用いて、言語情報Txtから、言語情報Txtを目標の声質で表す音声Vctを合成する。
即ち、図8に示した音声合成装置14は、生成部16で生成された変換モデルを用いて、特定部17により、言語情報Txtを目標の声質で表す音声Vctの系列内変動につき確からしい平均ベクトル及び共分散行列を特定する。そして、特定された平均ベクトル及び共分散行列を用いることで、変換部15は、任意の内容を持つ言語情報Txtから、従来よりも確からしい系列内変動を持ち、言語情報Txtを目標の声質で表す音声Vctを合成することができる。
以上に説明したように、図8に示した音声合成装置14は、隠れマルコフモデルを用いた音声合成により目標の声質を持つ音声を合成する際に、音声合成の対象となる言語情報Txtの内容にかかわらず、調音成分の過剰な平滑化を抑制することができる。これにより、図8に示した音声合成装置14は、様々な内容を持つ言語情報Txtの入力に応じて、言語情報Txtを目標の声質で表す音声として、従来よりも音質の劣化の少ない音声を合成することができる。つまり、図8に示した音声合成装置14は、隠れマルコフモデルを用いた音声合成により様々な内容を持つ言語情報を表す音声を合成する際に、合成された音声の音質の劣化を低減することができる。
図8に示した生成部16は、変換部15による音声合成の対象となる言語情報Txtの入力に先立って、変換モデルGVMaを予め生成し、予め生成した変換モデルGVMaを示す情報を音声合成装置14内のメモリなどに記憶させてもよい。この場合に、変換モデルGVMaの生成に用いる生成部16は、例えば、変換部15による音声合成に用いられる隠れマルコフ分布モデル(HMM)を生成する後述の音声学習装置(EQb)の内部に配置されてもよい。
図11は、音声合成装置の別実施形態を示す。なお、図11に示す構成要素のうち、図6または図8に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。
図11に示した音声合成装置14aは、図8に示した生成部16に代えて、変換モデル保持部165を含む生成部16aを有する。変換モデル保持部165は、例えば、音声合成装置14aに搭載されたメモリなどに設けられた記憶領域であり、音声学習装置EQbから受けた変換モデルGVMaを示す情報を記憶する。
また、図11に示した変換部15aは、図8に示した変換部15に相当する構成要素であり、隠れマルコフモデル保持部(HMM保持部)151と演算処理部152とを含む。
HMM保持部151は、例えば、音声合成装置14aに搭載されたメモリなどに設けられた記憶領域である。HMM保持部151は、例えば、言語情報に含まれる各音素から目標の声質を持つ音声の調音成分への変換規則として、音声学習装置EQbから受けた隠れマルコフモデル(HMM)を記憶する。
演算処理部152は、HMM保持部151に記憶された隠れマルコフモデルと特定部17aにより特定された平均ベクトル及び共分散行列とを用いた行列演算を行うことで、言語情報Txtから目標の声質で言語情報Txtを表す音声Vctを合成する。
図11に示した生成部16aは、音声合成装置14内に設けられた変換モデル保持部165と、音声学習装置EQb内に設けられた調音成分抽出部123及び系列内変動算出部(GV算出部)124とを含む。更に、生成部16aは、音声学習装置EQb内に設けられた言語情報解析部161、計数部162、学習制御部163及びモデル学習部164を含む。ラベル付き音声データベースLDBに蓄積された情報のうち、目標の声質を持つ音声に対応付けられたラベルで示される言語情報は、言語情報解析部161に渡される。また、ラベル付き音声データベースLDBに蓄積された情報のうち、目標の声質を持つ音声は、調音成分抽出部123に渡される。
言語情報解析部161は、ラベル付き音声データベースLDBから渡される言語情報に対して形態素解析などを施すことで、渡された言語情報から単語や音素などの特徴情報を抽出する。また、言語情報解析部161は、渡された言語情報から抽出した特徴情報を、学習制御部163を介してモデル学習部164に渡すとともに、計数部162に渡す。
計数部162は、言語情報解析部161から渡される特徴情報に基づいて、ラベル付き音声データベースLDBに蓄積された目標の声質を持つ音声毎に、当該音声で表された言語情報に含まれる音素種類数を計数する。計数部162により、目標の声質を持つ音声のそれぞれについて得られた音素種類数は、学習制御部163を介してモデル学習部164に渡される。
一方、調音成分抽出部123は、ラベル付き音声データベースLDBから目標の声質を持つ音声を受けた場合に、受けた音声から調音成分を抽出し、抽出した調音成分を、学習制御部163を介してモデル学習部164およびGV算出部124に渡す。
また、GV算出部124は、目標の声質を持つ音声のそれぞれから抽出された調音成分を学習制御部163から受けた場合に、目標の声質を持つ音声のそれぞれの調音成分の系列内変動を算出する。そして、目標の声質を持つ音声のそれぞれについて、GV算出部124で算出された調音成分の系列内変動は、学習制御部163を介してモデル学習部164に渡される。
学習制御部163は、例えば、言語情報解析部161から渡される特徴情報と調音成分抽出部123から渡される調音成分とをモデル学習部164に渡すことで、モデル学習部164に隠れマルコフモデルを生成するための学習を行わせる。そして、学習制御部163は、モデル学習部164による学習によって生成された隠れマルコフモデルをモデル学習部164から受け、受けた隠れマルコフモデルを音声合成装置14aに送る。
また、学習制御部163は、例えば、計数部162から渡される音素種類数とGV算出部124から渡される系列内変動とをモデル学習部164に渡すことで、モデル学習部164に変換モデルGVMaを生成するための学習を行わせる。そして、学習制御部163は、モデル学習部164による学習によって生成された変換モデルGVMaをモデル学習部164から受け、受けた変換モデルGVMaを音声合成装置14の変換モデル保持部165に送る。
ここで、音声学習装置EQbと音声合成装置14aとは、信号線を用いて接続されてもよいし、無線LANなどを用いて接続されてもよい。
なお、学習制御部163は、隠れマルコフモデルの生成を、変換モデルGVMaの生成に先立ってモデル学習部164に実行させてもよいし、隠れマルコフモデルの生成よりも変換モデルGVMaの生成を先に実行させてもよい。
図11に示した調音成分抽出部123及びモデル学習部164は、隠れマルコフモデルを生成する処理と、言語情報を表す音声の複雑さを示す特徴量に目標の声質の音声のGVを対応付ける変換モデルGVMaを生成する処理とに共通して用いられる。即ち、図11に示した実施形態では、音声合成のための隠れマルコフモデルを生成するために音声学習装置EQbに搭載された既存の機能を用いて、生成部16aの機能の一部を実現することができる。
以上に説明した音声学習装置EQbによって生成された、音声合成のための隠れマルコフモデル(HMM)は、音声合成装置14aのHMM保持部151に保持される。また、音声学習装置EQbによって生成された、言語情報に含まれる音素種類数と目標話者の音声の系列内変動とを対応付ける変換モデルGVMaは、音声合成装置14aの変換モデル保持部165に保持され、図11に示した特定部17aによる処理に用いられる。
特定部17aは、図8に示した特定部17に相当する構成要素であり、言語情報解析部171と、計数部172と、決定部173とを含む。言語情報解析部171は、音声学習装置EQbに含まれる言語情報解析部161と同等の機能を有し、変換部15による変換の対象となる言語情報Txtを解析する。言語解析部171による解析で得られた情報は、計数部172に渡される。計数部172は、音声学習装置EQbに含まれる計数部162と同等の機能を有し、言語情報解析部171から受けた情報に含まれる音素の種類を計数する。そして、計数部172は、言語情報解析部171から受けた情報に基づく計数で得られた音素種類数を決定部173に渡す。
決定部173は、計数部172から渡された音素種類数と変換モデル保持部165に保持された変換モデルGVMaとを用いて、言語情報Txtを目標の声質で表す音声の系列内変動につき、確からしい確率分布を示す平均ベクトルおよび共分散行列を決定する。
決定部173によって決定された平均ベクトル及び共分散行列は、言語情報Txtを目標の声質で表す音声が示す系列内変動の確からしい確率分布を特定する情報として変換部15aの演算処理部152に渡される。
演算処理部152は、HMM保持部151内のHMMと、言語情報Txtを目標の声質で表す音声が示す系列内変動の確からしい確率分布を示す平均ベクトル及び共分散行列とを用い、言語情報Txtから目標の声質で言語情報Txtを表す音声Vctを合成する。
したがって、図11に示した音声合成装置14aは、図8に示した音声合成装置14と同様に、様々な内容を持つ言語情報Txtから、目標の声質を持ち、従来よりも音質の劣化の少ない音声を合成することができる。
以上に説明した本件開示の音声合成装置10および音声合成装置14は、例えば、携帯電話やスマートフォンおよびタブレット型端末などの端末装置と、コンピュータ装置とを用いて実現することができる。
図1から図7を用いて説明した音声合成装置10は、例えば、展示会場などに設置された様々な展示物のそれぞれを説明するために予め用意された音声を、利用者が選択した別の声質で表す音声に変換した上で提供するサービスなどに用いられる。以下では、音声合成装置10による声質変換を用いて、予め音声情報として用意された音声を、所望の声質で表す音声に変換して利用者に提供するサービスのための音声情報サービスシステムが説明される。
図12は、図6に示した音声合成装置10bのハードウェア構成の一例を示す。なお、図12に示す構成要素のうち、図6に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。
図12の例では、音声合成装置10bは、コンピュータ装置20と端末装置UEとをインターネットなどのネットワークNWによって接続したシステムによって実現される。そして、音声合成装置10bは、音声情報サービスシステムASSに含まれる。
図12に示した端末装置UEは、スマートフォンやタブレット型端末のように、利用者Q1による携帯が可能な装置である。なお、端末装置UEは、スマートフォンやタブレット型端末に限らず、図1〜図3で説明した混合正規分布モデル(GMM)を用いた声質変換処理を実行する機能を有する装置であれば、携帯電話や携帯型ゲーム機などでもよい。
図12に示したコンピュータ装置20は、プロセッサ21と、メモリ22と、ストレージ装置23と、ネットワークインタフェース24とを含んでいる。コンピュータ装置20において、プロセッサ21と、メモリ22と、ストレージ装置23と、ネットワークインタフェース24とは、バスを介して互いに接続されている。そして、コンピュータ装置20に含まれるプロセッサ21と、メモリ22と、ストレージ装置23の一部と、ネットワークインタフェース24とは、音声合成装置10bに含まれている。また、コンピュータ装置20は、ネットワークインタフェース24を介してネットワークNWに接続されており、コンピュータ装置20は、ネットワークNWを介して端末装置UEとの間で情報の授受が可能である。
ストレージ装置23は、GMMデータベースMDBと、変換モデルデータベースVDBと、音声情報データベースSDBとを含んでいる。ストレージ装置23に含まれるGMMデータベースMDBと、変換モデルデータベースVDBとは、音声合成装置10bに含まれている。
音声情報データベースSDBには、例えば、展示会場などに設置された様々な展示物のそれぞれを説明する音声を表す音声情報が予め蓄積されている。音声情報データベースSDBに蓄積された音声情報は、音声情報サービスシステムASSにより、利用者Q1に提供される情報の一例である。なお、音声情報サービスシステムASSにより、音声情報データベースSDBに蓄積された音声情報を利用者Q1に提供する場合の動作については、図13を用いて後述する。
ストレージ装置23に含まれるGMMデータベースMDBには、音声情報データベースSDBに蓄積された音声に対する声質変換のために予め生成された混合正規分布モデル(GMM)が蓄積されている。GMMデータベースMDBに蓄積されるGMMは、例えば、音声情報データベースSDBに蓄積された音声の話者を含む複数の話者による同じ内容を持つ音声の調音成分につき相互間の対応関係を学習することで、元話者と目標話者との組毎に生成される。GMMは、例えば、音声情報データベースSDBに蓄積された音声の話者を元話者として含み、他の話者のそれぞれを目標話者として含む組毎に、図6で説明した音声学習装置EQaにより予め生成されることが望ましい。例えば、音声情報データベースSDBに話者Aの音声が蓄積されており、話者A,B,C,Dによる音声がGMMの学習用に用意されている場合に、話者Aを元話者とし、話者B,C,Dのそれぞれを目標話者とする組毎のGMMが生成されることが望ましい。なお、話者A,B,C,Dは、それぞれ異なる人物でもよいし、例えば、平静な状態と緊迫した状態のように、発声される音声の声質がそれぞれ異なる状態にある同一の人物でもよい。また、生成されたGMMは、例えば、元話者と目標話者との組を互いに識別する識別情報に対応して、GMMデータベースMDBに蓄積される。すなわち、図12に示したGMMデータベースMDBは、図6に示したGMM保持部111に相当する。
また、変換モデルデータベースVDBには、GMMが生成された元話者と目標話者との組毎に、図6で説明した分析部121b及び学習部122bとによって予め生成された変換モデルGVMが蓄積されている。すなわち、図12に示した変換モデルデータベースVDBは、図6に示した変換モデル保持部127に相当する。
メモリ22は、コンピュータ装置20のオペレーティングシステムとともに、音声情報を提供する処理を、プロセッサ21が実行するためのアプリケーションプログラムを格納している。なお、音声情報を提供する処理を実行するためのアプリケーションプログラムは、例えば、ネットワークインタフェース24を介して、ネットワークに接続されたサーバ装置(図示せず)からメモリ22又はストレージ装置23にダウンロードされてもよい。また、音声情報を提供する処理を実行するためのアプリケーションプログラムは、光ディスクなどのリムーバブルディスクに記録して頒布されてもよい。そして、プロセッサ21は、頒布されたリムーバブルディスクが光学ドライブ装置(図示せず)に装着された際に、リムーバブルディスクから音声情報を提供する処理を実行するためのアプリケーションプログラムを読み込んでもよい。そして、リムーバブルディスクから読み込まれた音声情報を提供する処理を実行するためのアプリケーションプログラムは、メモリ22又はストレージ装置23に記憶されることで、プロセッサ21による実行が可能となる。
また、図12に示した端末装置UEは、プロセッサ31と、メモリ32と、ネットワークインタフェース33と、表示装置34と、入力装置35と、音声出力部36とを含んでいる。端末装置UEにおいて、プロセッサ31と、メモリ32と、ネットワークインタフェース33と、表示装置34と、入力装置35と、音声出力部36とは、バスを介して互いに接続されている。そして、端末装置UEに含まれるプロセッサ31と、メモリ32と、ネットワークインタフェース33とは、音声合成装置10bに含まれている。また、端末装置UEは、ネットワークインタフェース33を介してネットワークNWに接続されており、端末装置UEは、ネットワークNWを介して、コンピュータ装置20との間で情報の授受が可能である。
端末装置UEに含まれる入力装置35は、例えば、タッチパネルであり、利用者Q1は、タッチパネルを操作することにより、音声情報サービスシステムASSに対して、提供の対象となる音声情報や声質変換における目標話者を指定するための指示を入力する。
また、表示装置34は、例えば、タッチパネルに設けられた表示画面であり、利用者Q1は、表示装置34に表示されたメニューやアイコンを示す画像として、音声情報サービスシステムASSに対する指示を入力するために用いる情報の提供を受ける。
音声出力部36は、音声合成装置10bによって生成された音声をイアホンEPに出力する機能を有する。利用者Q1は、音声出力部36に接続されたイアホンEPを装着することで、音声情報サービスシステムASSに含まれる音声合成装置10bによって生成された音声を聴取する。
メモリ32は、端末装置UEのオペレーティングシステムとともに、図1〜図3を用いて説明した、変換モデルGVMから目標話者の音声の系列内変動の確率分布を特定する処理をプロセッサ31が実行するためのアプリケーションプログラムを格納している。また、メモリ32は、更に、特定された系列内変動の確率分布とGMMとを用いた声質変換を行う処理をプロセッサ31が実行するためのアプリケーションプログラムを格納している。なお、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とGMMとを用いた声質変換を行う処理のためのアプリケーションプログラムは、例えば、ネットワークNWに接続されたサーバ装置(図示せず)からダウンロードされてもよい。そして、ダウンロードされたアプリケーションプログラムをメモリ32に読み込ませることで、アプリケーションプログラムをメモリ32に格納させてもよい。また、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とGMMとを用いた声質変換を行う処理のためのアプリケーションプログラムは、メモリカードなどの着脱可能な記憶媒体に記録して頒布されてもよい。そして、頒布されたメモリカードを読取装置(図示せず)に装着し、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とGMMとを用いた声質変換を行う処理のためのアプリケーションプログラムをメモリ32に読み込ませてもよい。
プロセッサ31は、メモリ32に格納された、系列内変動の確率分布を特定する処理のためのアプリケーションプログラムを実行することにより、図6に示した特定部13bの機能を果たす。また、プロセッサ31は、メモリ32に格納された、声質変換を行う処理のためのアプリケーションプログラムを実行することにより、図6に示した変換部11bの機能を果たす。
つまり、図6に示した音声合成装置10bは、図12に示したコンピュータ装置20に含まれるハードウェア及びソフトウェアと、端末装置UEに含まれるハードウェア及びソフトウェアとの協働によって実現することができる。
図13は、図12に示した音声情報サービスシステムASSの動作を示す。図13に示したステップS331〜ステップS334及びステップS338の各処理は、図12に示したコンピュータ装置20のメモリ22などに格納されたアプリケーションプログラムに含まれる処理の一例である。また、ステップS331〜ステップS334及びステップS338の各処理は、図12に示したコンピュータ装置20のプロセッサ21によって実行される。一方、図13に示したステップS335〜ステップS337の各処理は、図12に示した端末装置UEのメモリ32などに格納されたアプリケーションプログラムに含まれる処理の一例である。また、ステップS335〜ステップS337の各処理は、図12に示した端末装置UEのプロセッサ31によって実行される。
図13に示した処理は、例えば、図12に示した端末装置UEに搭載された入力装置35を介して、利用者Q1によって音声情報サービスシステムASSに対するサービス要求が行なわれる毎に、プロセッサ21及びプロセッサ31によって実行される。ここで、利用者Q1からのサービス要求は、例えば、利用者Q1により提供の対象として選択された音声情報を特定する情報と、利用者Q1により目標話者として選択された話者を特定する情報とを含む。また、利用者からのサービス要求は、例えば、端末装置UEのネットワークインタフェース33により、ネットワークNWを介してコンピュータ装置20に渡される。
ステップS331において、コンピュータ装置20のプロセッサ21は、端末装置UEから渡されたサービス要求に基づいて、利用者Q1に提供する対象の音声情報と、利用者Q1により選択された目標話者とを特定する。
ステップS332において、プロセッサ21は、ステップS331の処理で特定した音声情報の話者である元話者と、同じく特定した目標話者とを含む組に対応してGMMデータベースMDBに蓄積されたGMMを取得し、取得したGMMを端末装置UEに渡す。プロセッサ21は、例えば、ネットワークインタフェース24により、GMMデータベースMDBから取得したGMMを示す情報をネットワークNWに送出する。ネットワークNWに送出されたGMMを示す情報は、端末装置UEに含まれるネットワークインタフェース33を介して、端末装置UEに含まれるメモリ32に記憶される。
ステップS333において、プロセッサ21は、ステップS331の処理で特定した音声情報の話者である元話者と、同じく特定した目標話者とを含む組に対応して変換モデルデータベースVDBに蓄積された変換モデルを取得する。そして、プロセッサ21は、例えば、ネットワークインタフェース24およびネットワークNWを介して、変換モデルデータベースVDBから取得した変換モデルを端末装置UEに渡す。
ステップS334において、プロセッサ21は、例えば、音声情報データベースSDBから、ステップS331の処理で特定された音声情報を所定の単位毎に順次に読み出し、読み出した音声情報を、声質変換の対象となる元話者の音声として端末装置UEに渡す。例えば、ステップS331の処理で特定された音声情報により、複数の文が表されている場合に、プロセッサ21は、特定された音声情報を各文に対応する部分情報に区分し、各部分情報を順次に読み出す。そして、プロセッサ21は、例えば、ネットワークインタフェース24およびネットワークNWを介して、読み出した部分情報を、声質変換の対象となる元話者の音声として端末装置UEに渡す。
ステップS335において、端末装置UEのプロセッサ31は、コンピュータ装置20から渡された元話者の音声に対して、図6で説明した分析を行うことで、元話者の音声の系列内変動を求める。
ステップS336において、プロセッサ31は、ステップS333の処理で渡された変換モデルと、ステップS335の処理で求めた元話者の音声の系列内変動とを用いて、目標話者の声質で同じ内容を表す音声が示す系列内変動の平均及び分散を特定する。
ステップS337において、プロセッサ31は、ステップS336の処理で求めた系列内変動の平均及び分散を用い、図6で説明したようにして、ステップS334の処理で受けた元話者の音声を目標話者の声質で表す音声に変換する声質変換を行う。プロセッサ31は、元話者から目標話者への声質変換に、ステップS332の処理でコンピュータ装置20から渡されたGMMとともに、ステップS336の処理で求めた系列内変動の平均及び分散で示される確率密度関数を用いる。これにより、プロセッサ31は、ステップS337の処理により、元話者の音声の系列内変動と目標話者の音声の系列内変動との相関関係を考慮しない従来技術よりも、確からしい系列内変動を示す目標話者の声質の音声を生成することができる。そして、ステップS337の処理で生成された音声は、図12に示した音声出力部36を介してイアホンEPに出力され、利用者Q1によって聴取される。
ステップS338において、コンピュータ装置20のプロセッサ21は、例えば、ステップS331の処理で特定された音声情報に含まれる全ての部分情報に対応する音声の出力が完了したか否かを判定する。
ステップS334の処理によって読み出されていない部分情報がある場合に、プロセッサ21は、ステップS338の否定判定(NO)ルートを選択し、ステップS334に戻って、次の部分情報の読出を行う。
一方、ステップS334の処理により、ステップS331の処理で特定された音声情報に含まれる全ての部分情報の読み出しが完了している場合に、プロセッサ21は、ステップS338の肯定判定(YES)ルートを選択し、処理を終了する。
以上に説明したように、図12に示した音声情報サービスシステムASSは、音声情報データベースSDBに蓄積された音声情報を、利用者Q1によって選択された目標話者の声質を持つ音声に変換した上で、利用者Q1に聴取させることができる。図12に示した音声情報サービスシステムASSは、図6に示した変換部11bおよび特定部13bを有する音声合成装置10bを含んでいる。そして、音声合成装置10bは、音声情報データベースSDBに蓄積された音声情報を目標話者の声質を持つ音声に声質変換する過程で、元話者と目標話者との組みに対応する変換モデルを用いて、声質変換後の音声の系列内変動を特定する。図2で説明したように、元話者と目標話者との組みに対応する変換モデルを用いて特定された声質変換後の音声の系列内変動は、元話者の音声の系列内変動と目標話者の音声の系列内変動との相関関係を考慮しない従来技術よりも確からしい。したがって、図12に示した音声合成装置10bを有する音声情報サービスシステムASSは、従来の声質変換を行う音声合成装置を用いた場合に比べて、音声情報の内容にかかわらず、音質の劣化の少ない目標話者の音声を利用者Q1に提供することができる。
図8から図11を用いて説明した音声合成装置14aは、例えば、カタログなどに提示された商品のそれぞれを説明するために予め用意されたテキストから、利用者が選択した声質を持つ音声を合成し、合成した音声を提供するサービスなどに用いられる。以下では、音声合成装置14による音声合成を用いて、予め用意されたテキストを所望の声質で表す音声として利用者に提供するサービスのための読み上げサービスシステムが説明される。
図14は、図11に示した音声合成装置14aのハードウェア構成の一例を示す。なお、図14に示す構成要素のうち、図11又は図12に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。
図14の例では、音声合成装置14aは、コンピュータ装置20と端末装置UEとをインターネットなどのネットワークNWによって接続したシステムによって実現される。そして、音声合成装置14aは、読み上げサービスシステムNSSに含まれる。
図14に示した端末装置UEは、スマートフォンやタブレット型端末のように、利用者Q1による携帯が可能な装置である。なお、端末装置UEは、スマートフォンやタブレット型端末に限らず、図8で説明した隠れマルコフモデル(HMM)を用いた音声合成処理の実行が可能な機能を有する装置であれば、携帯電話や携帯型ゲーム機などでもよい。
図12に示したコンピュータ装置20は、プロセッサ21と、メモリ22と、ストレージ装置23aと、ネットワークインタフェース24とを含んでいる。コンピュータ装置20において、プロセッサ21と、メモリ22と、ストレージ装置23と、ネットワークインタフェース24とは、バスを介して互いに接続されている。そして、コンピュータ装置20に含まれるプロセッサ21と、メモリ22と、ストレージ装置23aの一部と、ネットワークインタフェース24とは、音声合成装置14aに含まれている。また、コンピュータ装置20は、ネットワークインタフェース24を介してネットワークNWに接続されており、コンピュータ装置20は、ネットワークNWを介して端末装置UEとの間で情報の授受が可能である。
ストレージ装置23aは、HMMデータベースHDBと、変換モデルデータベースVDBaと、テキスト情報データベースTDBとを含んでいる。ストレージ装置23aに含まれるHMMデータベースHDBと、変換モデルデータベースVDBaとは、音声合成装置14aに含まれている。
テキスト情報データベースTDBには、例えば、カタログなどに提示された様々な商品のそれぞれを説明するために予め用意されたテキスト情報が予め蓄積されている。テキスト情報データベースTDBに蓄積されたテキスト情報は、読み上げサービスシステムNSSにより、利用者Q1に提供される情報の一例である。なお、読み上げサービスシステムNSSにより、テキスト情報データベースTDBに蓄積されたテキスト情報から合成された音声を利用者Q1に提供する場合の動作については、図15を用いて後述する。
ストレージ装置23aに含まれるHMMデータベースHDBには、複数の話者の声質を持つ音声を合成するために、各話者に対応して予め生成された隠れマルコフモデル(HMM)が蓄積されている。HMMデータベースHDBに蓄積されるHMMは、例えば、複数の話者の音声と、音声のそれぞれで表された言語情報との対応関係を学習することで、話者毎に生成される。なお、複数の話者は、複数の人物でもよいし、例えば、平静な状態と緊迫した状態とのように、発声される音声の声質が異なる状態にある同一の人物であってもよい。また、生成されたHMMは、例えば、話者のそれぞれを識別する識別情報に対応して、HMMデータベースHDBに蓄積される。すなわち、図14に示したHMMデータベースHDBは、図11に示したHMM保持部151に相当する。
また、変換モデルデータベースVDBaには、HMMが生成された話者毎に、図11で説明した音声学習装置EQaによって予め生成された変換モデルGVMaが蓄積されている。すなわち、図14に示した変換モデルデータベースVDBaは、図11に示した変換モデル保持部165に相当する。
メモリ22は、コンピュータ装置20のオペレーティングシステムとともに、読み上げサービスを提供する処理を、プロセッサ21が実行するためのアプリケーションプログラムを格納している。なお、読み上げサービスを提供する処理を実行するためのアプリケーションプログラムは、例えば、ネットワークインタフェース24を介して、ネットワークに接続されたサーバ装置(図示せず)からメモリ22又はストレージ装置23aにダウンロードされてもよい。また、読み上げサービスを提供する処理を実行するためのアプリケーションプログラムは、光ディスクなどのリムーバブルディスクに記録して頒布されてもよい。そして、プロセッサ21は、頒布されたリムーバブルディスクが光学ドライブ装置(図示せず)に装着された際に、リムーバブルディスクから読み上げサービスを提供する処理を実行するためのアプリケーションプログラムを読み込んでもよい。そして、リムーバブルディスクから読み込まれた読み上げサービスを提供する処理を実行するためのアプリケーションプログラムは、メモリ22又はストレージ装置23aに記憶されることで、プロセッサ21による実行が可能となる。
図14に示した端末装置UEに含まれる入力装置35は、例えば、タッチパネルである。利用者Q1は、タッチパネルなどの入力装置35を操作することにより、読み上げサービスシステムNSSに対して、提供の対象となるテキストやテキストを読み上げる音声の声質として好ましい話者を指定するための指示を入力する。
また、表示装置34は、例えば、タッチパネルに設けられた表示画面であり、利用者Q1は、表示装置34に表示されたメニューやアイコンを示す画像として、読み上げサービスシステムASSに対する指示を入力するために用いる情報の提供を受ける。
音声出力部36は、音声合成装置14aによって生成された音声をイアホンEPに出力する機能を有する。利用者Q1は、音声出力部36に接続されたイアホンEPを装着することで、読み上げサービスシステムNSSに含まれる音声合成装置14aによって生成された音声を聴取する。
メモリ32は、端末装置UEのオペレーティングシステムとともに、図8〜図10で説明した、変換モデルGVMaから目標話者の音声の系列内変動の確率分布を特定する処理をプロセッサ31が実行するためのアプリケーションプログラムを格納している。また、メモリ32は、更に、特定された系列内変動の確率分布とHMMとを用いた音声合成を行う処理をプロセッサ31が実行するためのアプリケーションプログラムを格納している。なお、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とHMMとを用いた音声合成を行う処理のためのアプリケーションプログラムは、ネットワークNWに配置されたサーバ装置(図示せず)からダウンロードされてもよい。そして、ダウンロードされたアプリケーションプログラムをメモリ32に読み込ませることで、アプリケーションプログラムをメモリ32に格納させてもよい。また、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とHMMとを用いた音声合成を行う処理のためのアプリケーションプログラムは、メモリカードなどの着脱可能な記憶媒体に記録して頒布することができる。そして、端末装置UEに搭載された読取装置(図示せず)に、頒布されたメモリカードを装着し、装着したメモリカードから情報の読み取りを行うことで、メモリカードに記録されたアプリケーションプログラムをメモリ32に読み込ませてもよい。
プロセッサ31は、メモリ32に格納された、系列内変動の確率分布を特定する処理のためのアプリケーションプログラムを実行することにより、図11に示した特定部17aの機能を果たす。また、プロセッサ31は、メモリ32に格納された、特定された系列内変動の確率分布とHMMとを用いた音声合成を行う処理のためのアプリケーションプログラムを実行することにより、図11に示した変換部15aの機能を果たす。
つまり、図11に示した音声合成装置14aは、図14に示したコンピュータ装置20に含まれるハードウェア及びソフトウェアと、端末装置UEに含まれるハードウェア及びソフトウェアとの協働によって実現することができる。
図15は、図14に示した読み上げサービスシステムNSSの動作を示す。図15に示したステップS341〜ステップS344及びステップS348の各処理は、図14に示したコンピュータ装置20のメモリ22などに格納されたアプリケーションプログラムに含まれる処理の一例である。また、ステップS341〜ステップS344及びステップS348の各処理は、図14に示したコンピュータ装置20のプロセッサ21によって実行される。一方、図15に示したステップS345〜ステップS347の各処理は、図14に示した端末装置UEのメモリ32などに格納されたアプリケーションプログラムに含まれる処理の一例である。また、ステップS345〜ステップS347の各処理は、図14に示した端末装置UEのプロセッサ31によって実行される。
図15に示した処理は、例えば、図14に示した端末装置UEの入力装置35を介して、利用者Q1により読み上げサービスシステムNSSに対するサービス要求が行なわれる毎に、プロセッサ21及びプロセッサ31によって実行される。ここで、利用者Q1からのサービス要求は、例えば、利用者Q1により提供の対象として選択されたテキスト情報を特定する情報と、テキストの読み上げを行う音声の話者として利用者Q1により選択された話者を特定する情報とを含む。また、利用者からのサービス要求は、例えば、端末装置UEのネットワークインタフェース33により、ネットワークNWを介してコンピュータ装置20に渡される。
ステップS341において、コンピュータ装置20のプロセッサ21は、端末装置UEから渡されたサービス要求に基づいて、音声合成の対象となるテキスト情報と、利用者Q1により選択された話者とを特定する。
ステップS342において、プロセッサ21は、ステップS341の処理で特定した話者に対応してHMMデータベースHDBに蓄積されたHMMを取得し、取得したHMMを端末装置UEに渡す。プロセッサ21は、例えば、ネットワークインタフェース24により、取得したHMMを示す情報をネットワークNWに送出する。ネットワークNWに送出されたHMMを示す情報は、端末装置UEに含まれるネットワークインタフェース33を介して、端末装置UEに含まれるメモリ32に記憶される。
ステップS343において、プロセッサ21は、ステップS341の処理で特定した話者に対応して変換モデルデータベースVDBaに蓄積された変換モデルGVMaを取得する。そして、プロセッサ21は、例えば、ネットワークインタフェース24およびネットワークNWを介して、変換モデルデータベースVDBaから取得した変換モデルGVMaを端末装置UEに渡す。
ステップS344において、プロセッサ21は、例えば、テキスト情報データベースTDBから、ステップS341の処理で特定されたテキスト情報を所定の単位毎に順次に取得する。そして、プロセッサ21は、読み出したテキスト情報を、音声合成の対象となるテキストとして端末装置UEに渡す。例えば、ステップS341の処理で特定されたテキスト情報に複数の文が含まれる場合に、プロセッサ21は、特定されたテキスト情報を各文に対応する部分情報に区分し、各部分情報を順次に読み出す。そして、プロセッサ21は、例えば、ネットワークインタフェース24およびネットワークNWを介して、読み出した部分情報を、音声合成の対象となるテキスト情報として端末装置UEに渡す。
ステップS345において、端末装置UEのプロセッサ31は、コンピュータ装置20から渡された部分情報で示されるテキスト情報に対して、図11で説明した分析を行うことで、部分情報で示されるテキスト情報に含まれる音素種類数を求める。
ステップS346において、プロセッサ31は、ステップS343の処理で受けた変換モデルGVMaと、部分情報で示されるテキスト情報に含まれる音素種類数とを用い、特定された話者の声質でテキスト情報を表す音声の系列内変動の平均及び分散を特定する。
ステップS347において、プロセッサ31は、ステップS346の処理で求めた系列内変動の平均及び分散を用い、図11で説明したようにして、ステップS344の処理で渡されたテキスト情報から、利用者により選択された話者の声質を持つ音声を合成する。プロセッサ31は、選択された話者の声質でテキスト情報を表す音声を合成する音声合成に、ステップS342の処理で渡されたHMMとともに、ステップS346の処理で求めた系列内変動の平均及び分散で示される確率密度関数を用いる。これにより、プロセッサ31は、ステップS347の処理により、テキスト情報の複雑さと当該テキスト情報を所望の話者の声質で表す音声の系列内変動との相関関係を考慮しない従来技術よりも、確からしい系列内変動を持つ音声を生成することができる。そして、ステップS347の処理で生成された音声は、図14に示した音声出力部36を介してイアホンEPに出力され、利用者Q1によって聴取される。
ステップS348において、コンピュータ装置20のプロセッサ21は、例えば、ステップS341の処理で特定されたテキスト情報に含まれる全ての部分情報に対応する音声の出力が完了したか否かを判定する。
ステップS341の処理で特定されたテキスト情報の中に、ステップS344の処理によって読み出されていない部分情報がある場合に、プロセッサ21は、ステップS348の否定判定(NO)ルートを選択する。この場合に、プロセッサ21は、ステップS344に戻って、次の部分情報の読み出しを行う。
一方、ステップS344の処理により、ステップS341の処理で特定されたテキスト情報に含まれる全ての部分情報の読み出しが完了している場合に、プロセッサ21は、ステップS348の肯定判定(YES)ルートを選択し、処理を終了する。
以上に説明したように、図14に示した読み上げサービスシステムNSSは、テキスト情報データベースTDBに蓄積されたテキスト情報を、利用者Q1により選択された話者の声質で表す音声を合成し、合成した音声を利用者Q1に聴取させることができる。図14に示した読み上げサービスシステムNSSは、図11に示した変換部15aおよび特定部17aを有する音声合成装置14aを含んでいる。そして、音声合成装置14aは、音声合成の対象として渡されたテキスト情報から、選択された話者の声質を持つ音声を合成する過程で、選択された話者に対応する変換モデルを用いて、音声合成によって生成される音声の系列内変動を特定する。図9で説明したように、音声合成で生成される音声について、選択された話者に対応する変換モデルにより特定された系列内変動は、テキスト情報の複雑さと選択された話者の音声の系列内変動との相関関係を考慮しない従来技術よりも確からしい。したがって、図14に示した音声合成装置14aを有する読み上げサービスシステムNSSは、従来の音声合成装置を用いた場合に比べて、読み上げの対象となるテキスト情報の内容にかかわらず、音質の劣化の少ない音声を利用者Q1に提供できる。
以上の詳細な説明により、実施形態の特徴点及び利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で、前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更を容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
以上の説明に関して、更に、以下の各項を開示する。
(付記1) 第1の声質の音声を、前記第1の声質とは異なる第2の声質で表す音声に変換する変換部と、
前記第1の声質及び前記第2の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第1の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第2の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第1の声質の音声の特徴量に対して前記第2の声質の音声の前記系列内変動を対応付ける変換モデルを生成する生成部と、
前記変換部による変換の対象となる前記第1の声質の音声を受け、受けた音声に含まれる調音成分の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第2の声質で表す音声が示す前記系列内変動の平均及び分散を求める特定部とを有し、
前記変換部は、前記受けた第1の声質の音声を前記第2の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する
ことを特徴とする音声合成装置。
(付記2) 付記1に記載の音声合成装置において、
前記生成部は、
前記第1の声質で予め発声された前記所定の言語情報を表す音声のそれぞれを分析することで、前記第1の声質の音声のそれぞれに含まれる調音成分の複雑さを示す特徴量を求め、前記第2の声質で予め発声された前記所定の言語情報を表す音声のそれぞれを分析することで、前記第2の声質の音声のそれぞれの前記系列内変動を求める分析部と、
前記第1の声質の音声のそれぞれについて前記分析部で得られた特徴量と、前記第2の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動との対応関係を学習することで、前記変換モデルとして、前記第1の声質の音声に含まれる調音成分の複雑さを示す特徴量に対して、前記第1の声質の音声を前記第2の声質で表す音声の前記系列内変動が示す確率分布を求める学習部とを有する
ことを特徴とする音声合成装置。
(付記3) 付記2に記載の音声合成装置において、
前記分析部は、前記第1の声質の音声に含まれる調音成分の複雑さを示す特徴量として、前記第1の声質の音声のそれぞれに含まれる調音成分の分散である系列内変動を求め、
前記学習部は、前記第1の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動と、前記第2の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動との対応関係を学習することで、前記変換モデルとして、前記第1の声質の音声の前記系列内変動に対して、前記第1の声質の音声を前記第2の声質で表す音声の前記系列内変動が示す確率分布を正規分布あるいは混合正規分布として示す確率密度関数を求める
ことを特徴とする音声合成装置。
(付記4)付記2に記載の音声合成装置において、
前記分析部は、前記第1の声質の音声に含まれる調音成分の複雑さを示す特徴量として、前記第1の声質の音声のそれぞれの長さである音声長を求め、
前記学習部は、前記第1の声質の音声のそれぞれについて前記分析部で得られた音声長と、前記第2の声質の音声のそれぞれについて前記分析部で得られた系列内変動との対応関係を学習することで、前記変換モデルとして、前記第1の声質の音声の音声長に対して、前記第1の声質の音声と同一の言語情報を表す前記第2の声質の音声の系列内変動が示す確率分布を正規分布あるいは混合正規分布として示す確率密度関数を求める
ことを特徴とする音声合成装置。
(付記5)第1の声質及び前記第1の声質と異なる第2の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第1の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第2の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第1の声質の音声の特徴量に対して前記第2の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
前記第1の声質から前記第2の声質への変換の対象となる前記第1の声質の音声を受け、受けた音声の特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第2の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記変換の対象となる前記第1の声質の音声を前記第2話者の声質で表す音声として、前記平均及び分散で特定される系列内変動を持つ音声を生成する
ことを特徴とする音声合成方法。
(付記6)第1の声質及び前記第1の声質と異なる第2の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第1の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第2の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第1の声質の音声の特徴量に対して前記第2の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
前記第1の声質から前記第2の声質への変換の対象となる前記第1の声質の音声を受け、受けた音声の特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第2の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記変換の対象となる前記第1の声質の音声を前記第2話者の声質で表す音声として、前記平均及び分散で特定される系列内変動を持つ音声を生成する、
処理をコンピュータに実行させることを特徴とする音声合成プログラム。
(付記7)入力される言語情報を、前記言語情報を表す所定の声質を持つ音声に変換する変換部と、
前記所定の声質で予め発声された音声と前記音声によって表された言語情報とを用いて、前記言語情報を表す音声の複雑さを示す特徴量と、前記音声に含まれる調音成分の分散を示す系列内変動との間の対応関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に対して前記所定の声質の音声の前記系列内変動を対応付ける変換モデルを生成する生成部と、
前記変換部による変換の対象となる言語情報を受け、受けた言語情報を表す音声の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた言語情報を表す前記所定の声質の音声が示す前記系列内変動の平均及び分散を求める特定部とを有し、
前記変換部は、前記変換の対象となる言語情報を前記所定の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する
ことを特徴とする音声合成装置。
(付記8) 付記7に記載の音声合成装置において、
前記生成部は、
前記取得した言語情報のそれぞれを分析することで、前記言語情報のそれぞれに含まれる音素の種類の数である音素種類数を前記言語情報のそれぞれを表す音声の複雑さを示す特徴量として求め、前記取得した前記所定の声質の音声のそれぞれを分析することで、前記所定の声質の音声のそれぞれの系列内変動を求め、
前記言語情報のそれぞれについて求められた音素種類数と、前記所定の声質の音声のそれぞれについて求められた系列内変動との対応関係を学習することで、前記変換モデルとして、前記言語情報を表す音声の複雑さを示す特徴量に対して、前記言語情報を表す前記所定の声質の音声の系列内変動が示す確率分布を正規分布あるいは混合正規分布として示す確率密度関数を求めるモデル学習部とを有する
ことを特徴とする音声合成装置。
(付記9)前記所定の声質で予め発声された音声と前記音声によって表された言語情報とを用いて、前記言語情報を表す音声の複雑さを示す特徴量と、前記所定の声質で予め発声された音声に含まれる調音成分の分散を示す系列内変動との間の対応関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に対して前記所定の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
音声合成の対象となる言語情報を受け、受けた言語情報を表す音声の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた言語情報を前記所定の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記音声合成の対象となる言語情報を前記所定の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する
ことを特徴とする音声合成方法。
(付記10)前記所定の声質で予め発声された音声と前記音声によって表された言語情報とを用いて、前記言語情報を表す音声の複雑さを示す特徴量と、前記所定の声質で予め発声された音声に含まれる調音成分の分散を示す系列内変動との間の対応関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に対して前記所定の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
音声合成の対象となる言語情報を受け、受けた言語情報を表す音声の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた言語情報を前記所定の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記音声合成の対象となる言語情報を前記所定の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する、
処理をコンピュータに実行させることを特徴とする音声合成プログラム。