JP2015169700A

JP2015169700A - 音声合成装置、音声合成方法及び音声合成プログラム

Info

Publication number: JP2015169700A
Application number: JP2014042550A
Authority: JP
Inventors: 淳哉斎藤; Junya Saito
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-03-05
Filing date: 2014-03-05
Publication date: 2015-09-28
Anticipated expiration: 2034-03-05
Also published as: JP6233103B2

Abstract

【課題】様々な発話内容を持つ音声を合成する際の音声の音質の劣化を低減する。
【解決手段】第１の声質の音声を、第１の声質とは異なる第２の声質で表す音声に変換する変換部と、第１の声質及び第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、第１の声質の音声の特徴量に対して第２の声質の音声の系列内変動を対応付ける変換モデルを生成する生成部と、変換部による変換の対象となる第１の声質の音声を受け、受けた音声に含まれる調音成分の複雑さを示す特徴量と変換モデルとに基づいて、受けた音声を第２の声質で表す音声が示す系列内変動の平均及び分散を求める特定部とを有し、変換部は、受けた第１の声質の音声を第２の声質で表す音声として、特定部により求められた平均及び分散で特定される系列内変動を持つ音声を生成する。
【選択図】図１

Description

本発明は、音声合成装置、音声合成方法及び音声合成プログラムに関する。

音声を、音声によって表される言語情報を保存しつつ、目標とする話者の発音の癖などの非言語情報を伴った音声に変換する技術は、音声合成のための技術の一つであり、声質変換と呼ばれている。以下の説明において、声質変換の対象となる音声の話者は元話者と称され、また、声質変換後の目標とする声質を持つ話者は目標話者と称される。なお、目標話者は、元話者と異なる人物に限定されず、元話者と同一の人物である場合もある。例えば、ある人物が平静な状態で発声した音声を元話者の音声とし、同じ人物が緊迫した状態で発声する音声を目標話者の音声とする声質変換が行なわれる場合もある。

声質変換は、例えば、元話者及び目標話者のそれぞれが同一のテキストを読み上げることで得られた音声に含まれる各調音成分の対応関係を学習させた混合正規分布モデル（GMM: Gaussian Mixture Model）を用いて実現される。以下の説明では、混合正規分布モデルは、ＧＭＭと略称される場合がある。

混合正規分布モデルを用いた声質変換では、調音成分の過剰な平滑化が起こる場合があるために、混合正規分布モデルを用いた声質変換で得られた音声は、目標話者によって実際に発声された音声に比べて音質が低下する場合が多い。このような音質の劣化を抑制するための技術として、混合正規分布モデルの学習に用いた目標話者の音声の系列内変動（GV: Global Variance）を考慮して、声質変換後の音声の系列内変動を調整する技術が提案されている（例えば、非特許文献１参照）。この種の技術では、例えば、互いに類似した発話内容を持つ音声を用いた学習で生成された混合正規分布モデルにより、学習に用いた音声に類似した発話内容を持つ音声につき声質変換を行う場合に、声質変換された音声の音質の改善が可能である。ここで、音声の系列内変動とは、例えば、１つの発話の音声に含まれる各調音成分の分散であり、例えば、４０程度の次元を持つベクトルで示される。なお、以下の説明において、系列内変動はＧＶと称される場合がある。

Tomoki Toda, et al. , " Voice Conversion Based on Maximum-Likelihood Estimation of Spectral Parameter Trajectory, "IEEE Trans. ASLP, Vol.15, No.8, pp.2222-2235, 2007.

ところで、学習に用いた目標話者の音声のＧＶを考慮した調整を行う従来の技術では、学習に用いられた目標話者の音声のＧＶの平均及び分散により、声質変換後の音声のＧＶとして想定される範囲が設定される。したがって、学習に用いられた目標話者の音声のＧＶのばらつきが大きいほど、声質変換後の音声のＧＶとして広い範囲を想定したＧＶの調整が行われることになる。このため、混合正規分布モデルに学習させた目標話者の音声のＧＶのばらつきが大きい場合に、学習に用いた目標話者の音声のＧＶを考慮した調整を行う従来の技術では、合成された音声における音質を改善することが困難になる。すなわち、様々な発話内容を持つ元話者の音声と目標話者の音声との対応関係を学習させたＧＭＭを用いた声質変換において、学習に用いた目標話者の音声のＧＶを考慮した調整を行う従来の技術により、合成された音声の音質の劣化を抑制することは困難である。

本件開示の音声合成装置、音声合成方法及び音声合成プログラムは、様々な発話内容を持つ音声を合成する際に、合成された音声の音質の劣化を低減する技術を提供することを目的とする。

一つの観点によれば、音声合成装置は、第１の声質の音声を、第１の声質とは異なる第２の声質で表す音声に変換する変換部と、第１の声質及び第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、第１の声質の音声の特徴量に対して第２の声質の音声の系列内変動を対応付ける変換モデルを生成する生成部と、変換部による変換の対象となる第１の声質の音声を受け、受けた音声に含まれる調音成分の複雑さを示す特徴量と変換モデルとに基づいて、受けた音声を第２の声質で表す音声が示す系列内変動の平均及び分散を求める特定部とを有し、変換部は、受けた第１の声質の音声を第２の声質で表す音声として、特定部により求められた平均及び分散で特定される系列内変動を持つ音声を生成する。

別の観点によれば、音声合成方法は、第１の声質及び第１の声質と異なる第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、第１の声質の音声の特徴量に対して第２の声質の音声の系列内変動を対応付ける変換モデルを生成し、第１の声質から第２の声質への変換の対象となる第１の声質の音声を受け、受けた音声の特徴量と変換モデルとに基づいて、受けた音声を第２の声質で表す音声が示す系列内変動の平均及び分散を求め、変換の対象となる第１の声質の音声を第２話者の声質で表す音声として、平均及び分散で特定される系列内変動を持つ音声を生成する。

また、別の観点によれば、音声合成プログラムは、第１の声質及び第１の声質と異なる第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、第１の声質の音声の特徴量に対して第２の声質の音声の系列内変動を対応付ける変換モデルを生成し、第１の声質から第２の声質への変換の対象となる第１の声質の音声を受け、受けた音声の特徴量と変換モデルとに基づいて、受けた音声を第２の声質で表す音声が示す系列内変動の平均及び分散を求め、変換の対象となる第１の声質の音声を第２話者の声質で表す音声として、平均及び分散で特定される系列内変動を持つ音声を生成する、処理をコンピュータに実行させる。

更に別の観点によれば、音声合成装置は、入力される言語情報を、言語情報を表す所定の声質を持つ音声に変換する変換部と、所定の声質で予め発声された音声と音声によって表された言語情報とを用いて、言語情報を表す音声の複雑さを示す特徴量と、音声に含まれる調音成分の分散を示す系列内変動との間の対応関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に対して所定の声質の音声の系列内変動を対応付ける変換モデルを生成する生成部と、変換部による変換の対象となる言語情報を受け、受けた言語情報を表す音声の複雑さを示す特徴量と変換モデルとに基づいて、受けた言語情報を表す所定の声質の音声が示す系列内変動の平均及び分散を求める特定部とを有し、変換部は、変換の対象となる言語情報を所定の声質で表す音声として、特定部により求められた平均及び分散で特定される系列内変動を持つ音声を生成する。

本件開示の音声合成装置、音声合成方法及び音声合成プログラムは、様々な発話内容を持つ音声を合成する際に、合成された音声の音質の劣化を低減することができる。

音声合成装置の一実施形態を示す図である。元話者の音声の系列内変動と目標話者の音声の系列内変動との相関関係の例を示す図である。図１に示した音声合成装置の動作を示す図である。音声合成装置の別実施形態を示す図である。図４に示した生成部で生成される変換モデルの例を示す図である。音声合成装置の別実施形態を示す図である。図６に示した音声学習装置の動作を示す図である。音声合成装置の別実施形態を示す図である。図８に示した生成部で生成される変換モデルの例を示す図である。図８に示した音声合成装置の動作を示す図である。音声合成装置の別実施形態を示す図である。図６に示した音声合成装置のハードウェア構成の一例を示す図である。図１２に示した音声情報サービスシステムの動作を示す図である。図１１に示した音声合成装置のハードウェア構成の一例を示す図である。図１４に示した読み上げサービスシステムの動作を示す図である。

以下、図面に基づいて、実施形態を説明する。

図１は、音声合成装置の一実施形態を示す。図１に示した音声合成装置１０は、変換部１１と、生成部１２と、特定部１３とを有する。図１に示した変換部１１は、第１の声質を持つ音声Ｖｃｏを受け、以下に述べる声質変換により、第１の声質とは異なる第２の声質で音声Ｖｃｏの発話内容を表す音声Ｖｃｔを出力する。以下の説明において、第１の声質で音声Ｖｃｏを発声した話者は元話者と称され、声質変換の目標となる第２の声質を有する話者は目標話者と称される。なお、目標話者は元話者と異なる人物に限られず、声質が互いに異なっていれば、元話者と目標話者とが同一の人物であってもよい。例えば、ある人物により平静な状態で発声される音声の声質を第１の声質とし、同じ人物により緊迫した状態で発声される音声の声質を第２の声質としてもよい。この場合に、平静な状態の人物は元話者であり、緊迫した状態の同じ人物は目標話者である。

変換部１１は、例えば、元話者と目標話者とのそれぞれにより発声された同一の発話内容の音声に含まれる調音成分間の対応関係を学習することで予め生成された混合正規分布モデルを、変換部１１に設けられたメモリなどに保持している。そして、変換部１１は、メモリなどに保持された混合正規分布モデルを用いて、元話者によって発声された第１の声質の音声Ｖｃｏから目標話者の声質である第２の声質を有する音声Ｖｃｔへの声質変換を行う。

変換部１１で用いられる混合正規分布モデルの学習に用いられた元話者及び目標話者のそれぞれによる発声された音声は、音声データベースＤＢに蓄積されている。そして、図１に示した生成部１２は、第１の声質及び第２の声質のそれぞれで予め発声された所定の言語情報を表す音声として、例えば、音声データベースＤＢに蓄積された元話者の音声及び目標話者の音声を取得する。なお、生成部１２が取得する音声は、変換部１１で用いられる混合正規分布モデルの生成に用いられた元話者の音声及び目標話者の音声に限らず、第１の声質及び第２の声質のそれぞれで予め発声された同一の発話内容を持つ音声であればよい。

生成部１２は、音声データベースＤＢから取得した元話者の音声に含まれる調音成分の複雑さを示す元話者の音声の特徴量と、音声データベースＤＢから取得した目標話者の音声に含まれる調音成分の分散を示す系列内変動とをそれぞれ求める。ここで、生成部１２は、元話者の音声の特徴量として、例えば、取得した元話者の音声のそれぞれに含まれる調音成分の分散を示す系列内変動、あるいは、取得した元話者の音声のそれぞれの長さである音声長を求める。そして、生成部１２は、元話者の音声の特徴量と目標話者の音声の系列内変動との間の相関関係を学習することで、元話者の音声の特徴量に対して目標話者の音声の系列内変動を対応付ける変換モデルＧＶＭを生成する。生成部１２によって生成された変換モデルＧＶＭは、図１に示した特定部１３に渡される。ここで、系列内変動は、音声に含まれる各調音成分に対応する次元を持つベクトルであるので、系列内変動の平均は、例えば、４０次元のベクトルとして示され、また、系列内変動の分散は、系列内変動の次元に応じた次元を持つ行列で示される。以下の説明では、系列内変動の平均は、系列内変動の平均ベクトルと称される場合があり、また、系列内変動の分散は、系列内変動の共分散行列と称される場合がある。

特定部１３は、変換部１１による変換の対象となる元話者の音声Ｖｃｏを受け、受けた音声Ｖｃｏに含まれる調音成分の複雑さを示す特徴量を求める。ここで、元話者の音声の系列内変動に目標話者の音声の系列内変動を対応付ける変換モデルＧＶＭを受けた場合に、特定部１３は、受けた音声Ｖｃｏに含まれる調音成分の複雑さを示す特徴量として、受けた音声Ｖｃｏに含まれる調音成分の系列内変動を求める。そして、特定部１３は、生成部１２から受けた変換モデルＧＶＭに基づいて、求めた特徴量に対して対応付けられた目標話者の音声の系列内変動の平均ベクトル及び共分散行列を特定する。特定部１３によって特定された系列内変動の平均ベクトル及び共分散行列は、図１に示した変換部１１に渡される。

変換部１１は、例えば、混合正規分布モデルを示す共分散行列と、特定部１３から渡された系列内変動の平均ベクトル及び共分散行列とを用いて、元話者の音声Ｖｃｏから目標話者の声質で音声Ｖｃｏと同じ内容を表す音声Ｖｃｔへの声質変換を行う。

図２は、元話者の音声の系列内変動と目標話者の音声の系列内変動との相関関係の例を示す。図２（Ａ）は、図１に示した音声データベースＤＢに蓄積された元話者の音声のそれぞれの系列内変動と、同一の発話内容を表す目標話者の音声のそれぞれの系列内変動との対応関係を示す。図２（Ｂ）は、図１に示した生成部１２で生成された変換モデルＧＶＭを用いて特定される目標話者の音声の系列内変動の確率分布の例を示す。

まず、図２（Ａ）について説明する。図２（Ａ）において、横軸ＧＶｏは、元話者の音声の系列内変動を表すベクトルの各成分の二乗和を示し、縦軸ＧＶｔは、目標話者の音声の系列内変動を表すベクトルの各成分の二乗和を示す。

即ち、図２（Ａ）に示した各点は、音声データベースＤＢに蓄積された元話者の音声のそれぞれの系列内変動を表すベクトルの各成分の二乗和に対して、元話者の各音声と同じ発話内容を表す目標話者の音声の系列内変動を表すベクトルの各成分の二乗和を示す。例えば、図２（Ａ）に示した点Ｐは、元話者の音声の系列内変動を表すベクトルの各成分の二乗和が値ｇｏとなる発話内容を表す目標話者の音声の系列内変動を示すベクトルの各成分の二乗和は値ｇｔとなることを示す。

図２（Ａ）から分かるように、元話者の音声の系列内変動を表すベクトルの各成分の二乗和と、同じ発話内容の目標話者の音声の系列内変動を示すベクトルの各成分の二乗和との間には相関関係がある。そして、図２（Ａ）に示した相関関係は、元話者の音声の系列内変動を表すベクトルの各成分と、同じ発話内容の目標話者の音声の系列内変動を示すベクトルの各成分との間に相関関係があることを示している。

図１に示した生成部１２は、図２（Ａ）に示した元話者の音声の系列内変動と目標話者の音声の系列内変動との間の相関関係を学習することで、変換モデルＧＶＭとして、例えば、図２（Ａ）に示した領域Ｒ１における確率分布を示す正規分布モデルを生成する。なお、図２（Ａ）においては、説明の簡略化のため、ｎ次元空間における正規分布モデルである変換モデルＧＶＭで示される確率分布の広がりを示す領域を二次元の図形として示した。ここで、変換モデルＧＶＭを示す正規分布の次元数は、元話者の音声の調音成分の数と目標話者の音声の調音成分の数との和で示される。

なお、生成部１２により生成される変換モデルＧＶＭは、図２を用いて説明した正規分布モデルに限らず、元話者の音声の複雑さを示す特徴量と、同じ発話内容を表す目標話者の音声の系列内変動とを対応付けるモデルであれば、如何様なものでもよい。例えば、生成部１２は、変換モデルＧＶＭとして、元話者の音声の長さと、同じ発話内容を表す目標話者の音声の系列内変動とを対応付ける混合正規分布モデルを生成してもよい。変換モデルＧＶＭとして、元話者の音声の長さと、同じ発話内容を表す目標話者の音声の系列内変動とを対応付ける混合正規分布モデルを生成する生成部１２については、図４及び図５を用いて後述する。

図２（Ｂ）に実線で示した正規分布Ｎｖ１は、図１に示した元話者の音声Ｖｃｏの系列内変動の各成分の二乗和が値ｇｖ１を持つ場合に、変換モデルＧＶＭを用いて特定部１３により特定される目標話者の音声の系列内変動の確率分布を示す。一方、図２（Ｂ）に点線で示した正規分布Ｎ０は、音声データベースＤＢに蓄積された全ての目標話者の音声の系列内変動の確率分布を示す。

図２（Ｂ）の正規分布Ｎｖ１は、系列内変動の各成分の二乗和が値ｇｖ１となる元話者の音声と同じ発話内容の目標話者の音声として音声データベースＤＢに蓄積された音声の系列内変動の各成分の二乗和の確率分布を示している。すなわち、図２（Ｂ）に示した正規分布Ｎｖ１は、図１に示した元話者の音声Ｖｃｏの系列内変動の各成分の二乗和が値ｇｖ１を持つ場合に、声質変換後の音声の系列内変動の各成分の二乗和は、平均値μ１及び分散ｖ１で示される範囲内となることを示す。

ここで、正規分布Ｎ０と正規分布Ｎｖ１との比較から分かるように、正規分布Ｎｖ１の分散ｖ１は正規分布Ｎ０の分散ｖ０に比べて小さい。そして、正規分布Ｎｖ１の平均μ１は、系列内変動の各成分の二乗和が値ｇｖ１となる元話者の音声と同じ発話内容を表す目標話者の音声として音声データベースＤＢに蓄積された音声の系列内変動の各成分の二乗和の平均値を反映している。

したがって、特定部１３は、図２（Ａ）に示したような変換モデルＧＶＭを用いることで、元話者の音声Ｖｃｏで表される発話内容にかかわらず、同じ発話内容を目標話者の声質で表す音声の系列内変動が分布する可能性の高い範囲を特定することができる。

図２で説明したように、特定部１３で求められる平均ベクトル及び共分散行列は、音声データベースＤＢに目標話者の音声として蓄積された全ての音声の系列内変動が分布する範囲に比べて、声質変換で得る音声の系列内変動の分布範囲として確からしい範囲を示す。

したがって、特定部１３から渡された系列内変動の平均ベクトル及び共分散行列を用いることで、変換部１１は、任意の発話内容を持つ元話者の音声Ｖｃｏに対する声質変換で、従来よりも確からしい系列内変動を持つ目標話者の声質の音声Ｖｃｔを生成できる。

図３は、図１に示した音声合成装置１０の動作を示す。図３に示したステップＳ３０１〜ステップＳ３０３の処理は、図１に示した音声合成装置１０の動作を示すとともに、音声合成方法および音声合成プログラムの例を示す。例えば、図３に示す処理は、音声合成装置１０に搭載されたプロセッサが音声合成プログラムを実行することで実現される。なお、図３に示す処理は、音声合成装置１０に搭載されるハードウェアによって実行されてもよい。

ステップＳ３０１において、生成部１２は、元話者の音声の特徴量と同じ発話内容を表す目標話者の音声の系列内変動との間の対応関係を学習することで、元話者の音声の特徴量と目標話者の音声の系列内変動との間の変換モデルを生成する。

ステップＳ３０２において、特定部１３は、ステップＳ３０１の処理で生成された変換モデルを用いて、声質変換の対象となる元話者の音声の特徴量から、同じ発話内容を目標話者の声質で表す音声の系列内変動の平均及び分散を特定する。

ステップＳ３０３において、変換部１１は、ステップＳ３０２の処理で特定された平均及び分散で示される系列内変動の確率密度関数と混合正規分布モデルとを用いて、声質変換の対象となる元話者の音声を目標話者の声質を持つ音声に変換する。

以上に説明したように、図１に示した音声合成装置１０は、音声データベースＤＢ内の音声に基づいて生成部１２で生成された変換モデルを用いて、特定部１３により、声質変換後の音声の系列内変動につき確からしい平均ベクトル及び共分散行列を特定する。そして、特定された平均ベクトル及び共分散行列を用いることで、変換部１１は、任意の発話内容を持つ元話者の音声Ｖｃｏに対する声質変換により、従来よりも確からしい系列内変動を持つ目標話者の声質の音声Ｖｃｔを生成することができる。

すなわち、図１に示した音声合成装置１０は、元話者の音声に対する声質変換により、目標話者の声質を持つ音声を合成する際に、元話者の音声の発話内容にかかわらず、調音成分の過剰な平滑化を抑制することができる。これにより、図１に示した音声合成装置１０は、様々な発話内容を持つ元話者の音声から、目標話者の声質を持ち、従来よりも音質の劣化の少ない音声を合成することができる。つまり、図１に示した音声合成装置１０は、声質変換により様々な発話内容を持つ音声を合成する際に、合成された音声の音質の劣化を低減することができる。

図４は、音声合成装置の別実施形態を示す。なお、図４に示す構成要素のうち、図１に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。

図４に示した音声合成装置１０ａは、音声データベースＤＢと音声学習装置ＥＱとに接続されている。音声学習装置ＥＱは、音声データベースＤＢに蓄積された元話者の音声と目標話者の音声との対応関係を学習することにより、元話者の音声の各調音成分を目標話者の音声の調音成分に変換するための変換規則を示す混合正規分布モデルを生成する。音声学習装置ＥＱによって生成された混合正規分布モデルは、音声合成装置１０の変換部１１ａに含まれるメモリなどに設けられた記憶領域に格納され、変換部１１ａによる声質変換処理に用いられる。ここで、図４に示した変換部１１ａは、図１に示した変換部１１に相当する構成要素である。

図４に示した生成部１２ａは、図１に示した生成部１２に相当する構成要素であり、分析部１２１と学習部１２２とを含んでいる。分析部１２１は、音声データベースＤＢに接続されており、音声データベースＤＢに蓄積された元話者の音声及び目標話者の音声を示す情報にアクセス可能である。

分析部１２１は、音声データベースＤＢに蓄積された元話者の音声のそれぞれを分析することで、元話者の音声のそれぞれに含まれる調音成分の複雑さを示す特徴量として、例えば、元話者の音声の長さを求める。また、分析部１２１は、音声データベースＤＢに蓄積された目標話者の音声のそれぞれを分析することで、例えば、目標話者の音声のそれぞれの特徴を示す調音成分としてケプストラムを求め、求めたケプストラムの系列内変動を求める。なお、分析部１２１は、音声データベースＤＢに蓄積された目標話者の音声のそれぞれを分析することで、例えば、目標話者の音声のそれぞれの特徴を示す調音成分としてメルケプストラムを求め、求めたメルケプストラムの系列内変動を求めてもよい。

分析部１２１による分析によって得られた元話者の音声のそれぞれの長さを示す情報と目標話者の音声のそれぞれを分析することで得られた系列内変動を示す情報とは、発話内容毎に学習部１２２に渡される。

学習部１２２は、元話者の音声のそれぞれの特徴量として受けた音声の長さと、目標話者の音声のそれぞれの系列内変動との相関関係を学習することで、元話者の音声の長さに対して、目標話者の音声の系列内変動を対応付ける変換モデルＧＶＭを生成する。学習部１２２は、例えば、任意の発話内容を表す元話者の音声の長さに対応する、同じ発話内容を表す目標話者の音声の系列内変動が示す確率分布を混合正規分布として示す確率密度関数を変換モデルＧＶＭとして求める。

特定部１３ａは、図１に示した特定部１３に相当する構成要素であり、計測部１３１と決定部１３２とを含んでいる。計測部１３１は、変換部１１ａによる声質変換の対象となる元話者の音声Ｖｃｏの入力を受ける。また、決定部１３２は、学習部１２２による学習によって得られた変換モデルＧＶＭを受け、決定部１３２に含まれるメモリなどに設けられた記憶領域に、受けた変換モデルＧＶＭを記憶する。

計測部１３１は、声質変換の対象となる元話者の音声Ｖｃｏの長さとして、例えば、音声Ｖｃｏを表す音声信号の振幅が所定の閾値を超えた時刻から別の所定の閾値以下となるまでの時間を計測する。

決定部１３２は、メモリなどに記憶させた変換モデルＧＶＭを用いて、計測部１３１による計測で得られた元話者の音声Ｖｃｏの長さに対応付けられた目標話者の音声の系列内変動の確率分布を示す平均ベクトル及び共分散行列を決定する。

図５は、図４に示した生成部１２ａで生成される変換モデルＧＶＭの例を示す。図５（Ａ）は、図１及び図４に示した音声データベースＤＢに蓄積された元話者の音声のそれぞれの長さと、同一の発話内容を表す目標話者の音声のそれぞれの系列内変動との対応関係を示す変換モデルＧＶＭの一例を示す。図５（Ｂ）は、図５（Ａ）に示した変換モデルＧＶＭを用いて特定される目標話者の音声の系列内変動の確率分布の例を示す。

まず、図５（Ａ）について説明する。図５（Ａ）において、横軸ｔは、元話者の音声の長さを示し、縦軸ＧＶｔは、目標話者の音声の系列内変動を表すベクトルの各成分の二乗和を示す。

ここで、発話内容の複雑さと発話内容を表す音声の長さとの間には正の相関関係があることから、元話者の音声の長さと同じ発話内容を表す目標話者の音声の系列内変動との間にも相関関係があることが推定できる。そして、元話者の音声のそれぞれの長さと、同じ発話内容を表す目標話者の音声の系列内変動の各成分の二乗和とで示される点の確率分布は、例えば、図５（Ａ）に示した領域Ｒ２における混合正規分布で表される。

即ち、図４に示した学習部１２２は、元話者の音声の長さと目標話者の音声の系列内変動との間の相関関係を学習することで、変換モデルＧＶＭとして、例えば、図５（Ａ）に示した領域Ｒ２における確率分布を示す混合正規分布モデルを生成する。なお、図５（Ａ）においては、説明の簡略化のため、ｎ次元空間における混合正規分布モデルである変換モデルＧＶＭで示される確率分布の広がりを示す領域を二次元の図形として示した。ここで、変換モデルＧＶＭを示す正規分布の次元数ｎは、元話者の音声の長さに対応する１次元と目標話者の音声の調音成分の数Ｎｔ（Ｎｔは２以上の整数）との和、即ち、数「Ｎｔ＋１」である。

図５（Ｂ）に実線で示した確率分布Ｎτ１は、図４に示した変換部１１ａによる声質変換の対象となる元話者の音声Ｖｃｏの長さがτ１である場合に、変換モデルＧＶＭを用いて特定される目標話者の音声の系列内変動の確率分布の例を示す。一方、図５（Ｂ）に点線で示した確率分布Ｎτ０は、音声データベースＤＢに目標話者の音声として蓄積された全ての音声の系列内変動の確率分布を示す。

図５（Ｂ）の確率分布Ｎτ１は、長さがτ１である元話者の音声と同じ発話内容を表す目標話者の音声として音声データベースＤＢに蓄積された音声の系列内変動の各成分の二乗和の確率分布を示している。即ち、図５（Ｂ）に示した確率分布Ｎτ１は、元話者の音声Ｖｃｏの長さがτ１の場合に、同じ内容を目標話者の声質で表す音声の系列内変動の各成分の二乗和は、平均値μ１及び分散ｖ１で示される範囲内となることを示す。なお、図５（Ｂ）に示した平均値μ１は、図４に示した決定部１３２で変換モデルＧＶＭから決定される平均ベクトルの各成分の二乗和であり、分散ｖ１は、同じく、決定部１３２により決定される共分散行列の各成分の二乗和を示す。

図５（Ｂ）に示した確率分布Ｎτ０と確率分布Ｎτ１との比較から分かるように、確率分布Ｎτ１の分散ｖ１は確率分布Ｎ０の分散ｖ０に比べて小さい。そして、確率分布Ｎτ１の平均μ１は、長さがτ１である元話者の音声と同じ発話内容を表す目標話者の音声として音声データベースＤＢに蓄積された音声の系列内変動の各成分の二乗和の平均値を反映している。

したがって、図４に示した計測部１３１と決定部１３２とを有する特定部１３ａは、生成部１２ａから受けた変換モデルＧＶＭを用いることで、元話者の音声Ｖｃｏの発話内容を目標話者の声質で表す音声の系列内変動が分布する可能性の高い範囲を特定できる。

ここで、計測部１３１によって行われる音声Ｖｃｏの長さの計測は、音声Ｖｃｏに含まれる調音成分の系列内変動を求める処理に比べて、簡易な処理で実現可能であり、また、短い時間で実行することが可能である。このため、計測部１３１を有する特定部１３ａは、元話者の音声Ｖｃｏの系列内変動を用いる場合よりも、少ないハードウェアでの実現が可能であり、また、変換対象の音声Ｖｃｏを目標話者の声質で表す音声の系列内変動の範囲を高速に特定することが可能である。

ところで、図４に示した生成部１２ａは、変換部１１ａによる声質変換の対象となる元話者の音声Ｖｃｏの入力に先立って、変換モデルＧＶＭを予め生成しておいてもよい。そして、予め生成された変換モデルＧＶＭを示す情報を音声合成装置１０ａに設けられたメモリなどに記憶させてもよい。この場合に、生成部１２ａは、例えば、変換部１１ａによる声質変換のための混合正規分布モデル（ＧＭＭ）を生成する音声学習装置ＥＱの内部に配置されてもよい。また一方、音声合成装置１０ａは、音声学習装置ＥＱを含んでもよい。

図６は、音声合成装置の別実施形態を示す。なお、図６に示す構成要素のうち、図１または図４に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。

図６に示した音声合成装置１０ｂは、図１に示した生成部１２に代えて、変換モデル保持部１２７を含む生成部１２ｂを有する。変換モデル保持部１２７は、例えば、音声合成装置１０ｂに搭載されたメモリなどに設けられた記憶領域であり、音声学習装置ＥＱａから受けた変換モデルＧＶＭを示す情報を記憶する。

また、図６に示した変換部１１ｂは、図１に示した変換部１１に相当する構成要素であり、混合正規分布モデル保持部（ＧＭＭ保持部）１１１と演算処理部１１２とを含む。

ＧＭＭ保持部１１１は、例えば、音声合成装置１０ｂに搭載されたメモリなどに設けられた記憶領域であり、元話者の音声の調音成分から目標話者の音声の調音成分への変換規則として、音声学習装置ＥＱａから受けた混合正規分布モデル（ＧＭＭ）を記憶する。

演算処理部１１２は、ＧＭＭ保持部１１１に記憶された混合正規分布モデルと特定部１３ｂにより特定された平均ベクトル及び共分散行列とを用いた行列演算を行うことで、元話者の音声Ｖｃｏから目標話者の声質を持つ音声Ｖｃｔへの声質変換を行う。

図６に示した生成部１２ｂは、音声合成装置１０ｂ内に設けられた変換モデル保持部１２７と、音声学習装置ＥＱａ内に設けられた分析部１２１ｂ及び学習部１２２ｂとを含む。

分析部１２１ｂは、図４に示した分析部１２１に相当する構成要素であり、調音成分抽出部１２３と、系列内変動算出部（ＧＶ算出部）１２４とを含む。また、学習部１２２ｂは、図４に示した学習部１２２に相当する構成要素であり、学習制御部１２５とモデル学習部１２６とを含む。分析部１２１ｂ及び学習部１２２ｂの機能及び動作については、図７を用いて後述する。

音声学習装置ＥＱａに含まれる分析部１２１ｂと学習部１２２ｂとによって生成された変換モデルＧＶＭは、音声合成装置１０ｂの変換モデル保持部１２７に保持され、特定部１３ｂによる処理に用いられる。

特定部１３ｂは、図４に示した計測部１３１に代えて、調音成分抽出部１３４及び系列内変動算出部（ＧＶ算出部）１３５を含み、また、図４に示した決定部１３２に代えて、決定部１３２ｂを含む。

調音成分抽出部１３４は、変換部１１ｂによる声質変換の対象となる元話者の音声Ｖｃｏに含まれる調音成分を抽出し、抽出した調音成分をＧＶ算出部１３５に渡す。

ＧＶ算出部１３５は、１発話分の元話者の音声Ｖｃｏから調音成分抽出部１３４によって抽出された調音成分のそれぞれに基づいて、各調音成分の系列内変動を求め、求めた各調音成分の系列内変動を決定部１３２ｂに渡す。

決定部１３２ｂは、元話者の音声Ｖｃｏの系列内変動と変換モデル保持部１２７に保持された変換モデルＧＶＭとを用い、音声Ｖｃｏと同じ発話内容を目標話者の声質で表す音声の系列内変動の確からしい確率分布を示す平均ベクトルおよび共分散行列を決定する。

決定部１３２ｂによって決定された平均ベクトル及び共分散行列は、音声Ｖｃｏと同じ発話内容を目標話者の声質で表す音声の系列内変動の確からしい確率分布を特定する情報として変換部１１ｂの演算処理部１１２に渡される。

ここで、図６及び図７を用いて、音声学習装置ＥＱａに含まれる分析部１２１ｂ及び学習部１２２ｂの機能及び動作について説明する。

図７は、図６に示した音声学習装置ＥＱａの動作を示す。図７に示したステップＳ３１１〜ステップＳ３１５の処理は、例えば、図６に示した音声学習装置ＥＱａに搭載されたプロセッサが音声学習のための音声学習プログラムを実行することで実現される。なお、図７に示す各処理は、音声学習装置ＥＱａに搭載されるハードウェアによって実行されてもよい。

ステップＳ３１１において、調音成分抽出部１２３は、音声データベースＤＢに蓄積された元話者の音声のそれぞれおよび目標話者の音声のそれぞれから、調音成分を抽出する。調音成分抽出部１２３によって抽出された調音成分は、図６に示したＧＶ算出部１２４に渡されるとともに、同じく図６に示した学習制御部１２５を介してモデル学習部１２６に渡される。

ステップＳ３１２において、図６に示したモデル学習部１２６は、学習制御部１２５を介して受けた元話者の調音成分のそれぞれと目標話者の調音成分のそれぞれとの対応関係を学習することで、元話者と目標話者との間の声質変換のためのＧＭＭを生成する。

ステップＳ３１３において、図６に示したＧＶ算出部１２４は、ステップＳ３１１の処理で抽出された元話者の音声の調音成分及び目標話者の音声の調音成分に基づいて、元話者の音声のそれぞれのＧＶ及び目標話者の音声のそれぞれのＧＶを算出する。ＧＶ算出部１２４によって算出された元話者の音声のそれぞれのＧＶ及び目標話者の音声のそれぞれのＧＶは、学習制御部１２５を介して、モデル学習部１２６に渡される。

ステップＳ３１４において、モデル学習部１２６は、学習制御部１２５をから受けた元話者の音声のＧＶと目標話者の音声のＧＶとの対応関係を学習することで、元話者の音声のＧＶと目標話者の音声のＧＶとを対応付ける変換モデルＧＶＭを生成する。

ステップＳ３１５において、学習制御部１２５は、ステップＳ３１２の処理で得られたＧＭＭとステップＳ３１４の処理で得られた変換モデルＧＶＭとを、音声学習装置ＥＱａと音声合成装置１０ｂとを接続する通信経路を介して音声合成装置１０ｂに送る。なお、音声学習装置ＥＱａと音声合成装置１０ｂとは、信号線を用いて接続されてもよいし、無線ＬＡＮ（Local Area Network）などを用いて接続されてもよい。

図７に示したステップＳ３１２の処理と、ステップＳ３１３及びステップＳ３１４の処理とは、音声学習装置ＥＱａにより、逆順に実行されてもよいし、並行して実行されてもよい。例えば、図６に示した学習制御部１２５は、元話者と目標話者との間の声質変換のためのＧＭＭを生成する処理に先立って、ＧＶ算出部１２４によって算出された元話者の音声のＧＶと目標話者の音声のＧＶとをモデル学習部１２６に渡してもよい。この場合に、ステップＳ３１２において元話者と目標話者との間の声質変換のためのＧＭＭを生成する処理よりも、ステップＳ３１４において元話者の音声のＧＶと目標話者の音声のＧＶとを対応付ける変換モデルＧＶＭを生成する処理が先行して実行される。

ここで、図６に示した調音成分抽出部１２３及びモデル学習部１２６は、元話者と目標話者との間の声質変換のためのＧＭＭを生成する処理と、元話者の音声のＧＶと目標話者の音声のＧＶとを対応付ける変換モデルＧＶＭを生成する処理とに共通して用いられる。即ち、図６に示した生成部１２ｂでは、分析部１２１ｂおよび学習部１２２ｂの機能の一部を、元話者と目標話者との間の声質変換のためのＧＭＭを生成するために音声学習装置ＥＱａに搭載された機能を用いて実現することができる。

以上に説明したようにして、音声学習装置ＥＱａによって生成された元話者と目標話者との間の声質変換のためのＧＭＭは、音声合成装置１０ｂのＧＭＭ保持部１１１に保持される。また、音声学習装置ＥＱａによって生成された元話者の音声のＧＶと目標話者の音声のＧＶとを対応付ける変換モデルＧＶＭは、音声合成装置１０ｂの変換モデル保持部１２７に保持される。

特定部１３ｂに含まれる決定部１３２ｂは、ＧＶ算出部１３５で得られた元話者の音声Ｖｃｏの系列内変動と変換モデル保持部１２７に保持された変換モデルＧＶＭとを用いて決定した平均ベクトルおよび共分散行列を、変換部１１ｂの演算処理部１１２に渡す。

決定部１３２ｂによって決定された平均ベクトル及び共分散行列は、図２を用いて説明したように、音声Ｖｃｏと同じ発話内容を目標話者の声質で表す音声の系列内変動の確からしい確率分布を示している。

そして、演算処理部１１２は、ＧＭＭ保持部１１１内のＧＭＭとともに、目標話者の音声の系列内変動の確率分布として、決定部１３２ｂから渡された平均ベクトル及び共分散行列とで示される確率分布を用い、元話者の音声Ｖｃｏに対する声質変換を行う。

したがって、図６に示した音声合成装置１０ｂは、図１に示した音声合成装置１０と同様に、様々な発話内容を持つ元話者の音声から、目標話者の声質を持ち、従来よりも音質の劣化の少ない音声を合成することができる。

音声合成で生成される目標話者の音声の系列内変動につき確からしい確率分布を特定する技術は、声質変換を行う音声合成装置に限らず、隠れマルコフモデル（HMM: Hidden Markov Model）による音声合成を行う音声合成装置にも適用可能である。以下に、テキスト情報に含まれる音韻などの特徴と目標の声質でテキスト情報を表す音声の調音成分との対応付けを示す隠れマルコフモデルを用いた音声合成装置で合成される、目標の声質を持つ音声の系列内変動の確からしい確率分布を特定する手法を説明する。なお、以下の説明において、隠れマルコフモデルは、ＨＭＭと略称される場合がある。

図８は、音声合成装置の別実施形態を示す。図８に示した音声合成装置１４は、変換部１５と、生成部１６と、特定部１７とを有する。図８に示した変換部１５は、言語情報を表すテキストＴｘｔを受け、以下に述べる音声合成により目標の声質を持ち、テキストＴｘｔを表す音声Ｖｃｔを出力する。

変換部１５は、例えば、テキスト情報に含まれる音韻等の特徴と目標の声質でテキスト情報を表す音声の調音成分との対応付けを学習することで予め生成された隠れマルコフモデルを内部のメモリなどに保持している。そして、変換部１５は、音声合成の対象として受けたテキストＴｘｔで表される音韻等を、メモリ等に保持された隠れマルコフモデルにより、目標の声質の音声を示す調音成分に変換することで、テキストＴｘｔの内容を目標の声質で表す音声Ｖｃｔを生成する。

変換部１５で用いられる隠れマルコフモデルの学習に用いられた目標の声質を持つ音声は、調音成分のそれぞれが表す言語情報を示すラベルに対応付けられて、ラベル付き音声データベースＬＤＢに蓄積されている。そして、図８に示した生成部１６は、所定の声質の音声及び所定の声質の音声によって表された言語情報として、例えば、ラベル付き音声データベースＬＤＢに蓄積された音声及び当該音声に対応付けられたラベルを取得する。なお、生成部１６が取得する音声及び言語情報は、ラベル付き音声データベースＬＤＢに蓄積された音声及びラベルに限らず、目標の声質を持つ音声と当該の声質を持つ音声によって表された言語情報とを対応付けた情報であればよい。

生成部１６は、ラベル付き音声データベースＬＤＢから取得した目標の声質を持つ音声を分析することにより、取得した目標の声質を持つ音声のそれぞれに含まれる調音成分の分散である目標の声質を持つ音声の系列内変動を求める。また、生成部１６は、同じくラベル付き音声データベースＬＤＢから取得した言語情報を分析することにより、取得した言語情報を表す音声の複雑さを示す特徴量として、言語情報に含まれる音素の種類の数である音素種類数を求める。そして、生成部１６は、取得した言語情報を表す音声の複雑さを示す特徴量と取得した音声の系列内変動との相関関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に目標の声質の音声の系列内変動を対応付ける変換モデルＧＶＭａを生成する。生成部１６は、例えば、任意の言語情報について得られる音素種類数に対応して、同じ言語情報を目標の声質で表す音声が示す系列内変動の確率分布を混合正規分布として示す確率密度関数を変換モデルＧＶＭａとして求める。

生成部１６によって求められた変換モデルＧＶＭａは、特定部１７に渡される。

特定部１７は、変換部１５による変換の対象となる言語情報Ｔｘｔを受け、受けた言語情報Ｔｘｔを解析することで、言語情報Ｔｘｔを表す音声の複雑さを示す特徴量を求める。言語情報に含まれる音素種類数に目標話者の音声の系列内変動を対応付ける変換モデルＧＶＭａを受けた場合に、特定部１７は、受けた言語情報Ｔｘｔを表す音声の複雑さを示す特徴量として、受けた言語情報Ｔｘｔに含まれる音素種類数を求める。そして、特定部１７は、生成部１６から受けた変換モデルＧＶＭａに基づいて、求めた特徴量に対して対応付けられた目標の声質を持つ音声の系列内変動の平均ベクトル及び共分散行列を特定する。

特定部１７によって特定された系列内変動の平均ベクトル及び共分散行列は、変換部１５に渡される。

変換部１５は、例えば、隠れマルコフモデルを示す共分散行列と、特定部１７から渡された系列内変動の平均ベクトル及び共分散行列とを用いて、言語情報Ｔｘｔから言語情報Ｔｘｔを目標の声質で表す音声Ｖｃｔを生成する処理を行う。

図９は、図８に示した生成部１６で生成される変換モデルＧＶＭａの例を示す。図９（Ａ）は、図８に示したラベル付き音声データベースＬＤＢに目標の声質を持つ音声として蓄積された音声のそれぞれの系列内変動を、各音声で表された言語情報に含まれる音素種類数に対して対応付ける変換モデルＧＶＭａの一例を示す。図９（Ｂ）は、図９（Ａ）に示した変換モデルＧＶＭａを用いて特定される、目標の声質を持つ音声の系列内変動の確率分布の例を示す。

まず、図９（Ａ）について説明する。図９（Ａ）において、横軸ｎは、言語情報に含まれる音素種類数を示し、縦軸ＧＶｔは、目標の声質を持つ音声の系列内変動を表すベクトルの各成分の二乗和を示す。

ここで、ある言語情報を表す音声の複雑さと当該言語情報に含まれる音素種類数との間には相関関係がある。したがって、任意の言語情報に含まれる音素種類数と当該言語情報を表す目標話者の音声の系列内変動との間にも相関関係が存在する。例えば、任意の言語情報に含まれる音素種類数と、当該言語情報を目標の声質で表す音声の系列内変動の各成分の二乗和とで示される点の確率分布は、例えば、図９（Ａ）に示した領域Ｒ３における混合正規分布で表される。

即ち、図８に示した生成部１６は、取得した各言語情報の音素種類数と各言語情報を目標の声質で表す音声の系列内変動との対応関係を学習することで、変換モデルＧＶＭａとして、例えば、図９（Ａ）に示した領域Ｒ３における混合正規分布モデルを生成する。なお、図９（Ａ）においては、説明の簡略化のため、ｎ次元空間における混合正規分布モデルである変換モデルＧＶＭａで示される確率分布の広がりを示す領域を二次元の図形として示した。ここで、変換モデルＧＶＭａを示す正規分布の次元数は、言語情報に含まれる音素種類数に対応する１次元と目標の声質を持つ音声の調音成分の次元数との和で示される。

なお、生成部１６により生成される変換モデルＧＶＭａは、図９（Ａ）を用いて説明した混合正規分布モデルに限られない。変換モデルＧＶＭａは、例えば、言語情報を表す音声の複雑さを示す特徴量と、同じ言語情報を目標の声質で表す音声の系列内変動とを対応付けるモデルであれば、如何様なものでもよい。

図９（Ｂ）に実線で示した確率分布Ｎｍ１は、図８に示した変換部１５による変換の対象として、音素種類数がｍ１個である言語情報Ｔｘｔを受けた場合に、変換モデルＧＶＭａを用いて特定部１７で特定される目標の声質の音声の系列内変動の確率分布を示す。一方、図９（Ｂ）に点線で示した確率分布Ｎｍ０は、ラベル付き音声データベースＬＤＢに目標の声質を持つ音声として蓄積された全ての音声の系列内変動の確率分布を示す。

図９（Ｂ）の確率分布Ｎｍ１は、音素種類数がｍ１個である言語情報を目標の声質で表す音声として音声データベースＤＢに蓄積された音声の系列内変動の各成分の二乗和の確率分布を反映している。

確率分布Ｎｍ０と確率分布Ｎｍ１との比較から分かるように、確率分布Ｎｍ１の分散ｖ１は正規分布Ｎ０の分散ｖ０に比べて小さい。そして、確率分布Ｎｍ１の平均μ１は、音素種類数がｍ１個である言語情報を目標の声質で表す音声として音声データベースＤＢに蓄積された音声の系列内変動の各成分の二乗和の平均値を反映している。つまり、図９（Ｂ）に示した確率分布Ｎｍ１で示される範囲は、音素種類数がｍ１個である言語情報を目標の声質で表す音声の系列内変動が分布する可能性が他の部分よりも高い範囲を示している。

したがって、図８に示した特定部１７は、生成部１６で生成された変換モデルＧＶＭａを用いることで、言語情報Ｔｘｔの内容にかかわらず、言語情報Ｔｘｔを目標の声質で表す音声の系列内変動が分布する可能性の高い範囲を特定することができる。

図９で説明したように、特定部１７から渡される平均ベクトル及び共分散行列は、ラベル付き音声データベースＬＤＢに蓄積された音声の系列内変動の分布範囲よりも、言語情報Ｔｘｔを目標の声質で表す音声の系列内変動の分布範囲として確からしい範囲を示す。

したがって、特定部１７から渡された系列内変動の平均ベクトル及び共分散行列を用いることで、変換部１５は、任意の内容の言語情報Ｔｘｔに対する音声合成により、従来よりも確からしい系列内変動を持つ目標の声質を持つ音声Ｖｃｔを生成することができる。

図１０は、図８に示した音声合成装置１４の動作を示す。図１０に示したステップＳ３２１〜ステップＳ３２３の処理は、図８に示した音声合成装置１４の動作を示すとともに、音声合成方法および音声合成プログラムの別例を示す。例えば、図１０に示す処理は、音声合成装置１４に搭載されたプロセッサが音声合成プログラムを実行することで実現される。なお、図１０に示す処理は、音声合成装置１４に搭載されるハードウェアによって実行されてもよい。

ステップＳ３２１において、生成部１６は、ラベル付きデータベースＬＤＢを用いた学習により、言語情報を表す音声の複雑さを示す特徴量に対して、同じ言語情報を目標の声質で表す音声の系列内変動を対応付ける変換モデルＧＶＭａを生成する。ステップＳ３２１の処理で生成された変換モデルＧＶＭａは、図８に示した特定部１７に渡される。

ステップＳ３２２において、特定部１７は、生成部１６から受けた変換モデルＧＶＭａと、変換の対象として受けた言語情報Ｔｘｔを表す音声の複雑さを示す特徴量とから、言語情報Ｔｘｔを目標の声質で表す音声の系列内変動の平均及び分散を特定する。

ステップＳ３２３において、変換部１５は、ステップＳ３２２の処理で特定された平均及び分散で示される系列内変動の確率密度関数と隠れマルコフモデルとを用いて、言語情報Ｔｘｔから、言語情報Ｔｘｔを目標の声質で表す音声Ｖｃｔを合成する。

即ち、図８に示した音声合成装置１４は、生成部１６で生成された変換モデルを用いて、特定部１７により、言語情報Ｔｘｔを目標の声質で表す音声Ｖｃｔの系列内変動につき確からしい平均ベクトル及び共分散行列を特定する。そして、特定された平均ベクトル及び共分散行列を用いることで、変換部１５は、任意の内容を持つ言語情報Ｔｘｔから、従来よりも確からしい系列内変動を持ち、言語情報Ｔｘｔを目標の声質で表す音声Ｖｃｔを合成することができる。

以上に説明したように、図８に示した音声合成装置１４は、隠れマルコフモデルを用いた音声合成により目標の声質を持つ音声を合成する際に、音声合成の対象となる言語情報Ｔｘｔの内容にかかわらず、調音成分の過剰な平滑化を抑制することができる。これにより、図８に示した音声合成装置１４は、様々な内容を持つ言語情報Ｔｘｔの入力に応じて、言語情報Ｔｘｔを目標の声質で表す音声として、従来よりも音質の劣化の少ない音声を合成することができる。つまり、図８に示した音声合成装置１４は、隠れマルコフモデルを用いた音声合成により様々な内容を持つ言語情報を表す音声を合成する際に、合成された音声の音質の劣化を低減することができる。

図８に示した生成部１６は、変換部１５による音声合成の対象となる言語情報Ｔｘｔの入力に先立って、変換モデルＧＶＭａを予め生成し、予め生成した変換モデルＧＶＭａを示す情報を音声合成装置１４内のメモリなどに記憶させてもよい。この場合に、変換モデルＧＶＭａの生成に用いる生成部１６は、例えば、変換部１５による音声合成に用いられる隠れマルコフ分布モデル（ＨＭＭ）を生成する後述の音声学習装置（ＥＱｂ）の内部に配置されてもよい。

図１１は、音声合成装置の別実施形態を示す。なお、図１１に示す構成要素のうち、図６または図８に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。

図１１に示した音声合成装置１４ａは、図８に示した生成部１６に代えて、変換モデル保持部１６５を含む生成部１６ａを有する。変換モデル保持部１６５は、例えば、音声合成装置１４ａに搭載されたメモリなどに設けられた記憶領域であり、音声学習装置ＥＱｂから受けた変換モデルＧＶＭａを示す情報を記憶する。

また、図１１に示した変換部１５ａは、図８に示した変換部１５に相当する構成要素であり、隠れマルコフモデル保持部（ＨＭＭ保持部）１５１と演算処理部１５２とを含む。

ＨＭＭ保持部１５１は、例えば、音声合成装置１４ａに搭載されたメモリなどに設けられた記憶領域である。ＨＭＭ保持部１５１は、例えば、言語情報に含まれる各音素から目標の声質を持つ音声の調音成分への変換規則として、音声学習装置ＥＱｂから受けた隠れマルコフモデル（ＨＭＭ）を記憶する。

演算処理部１５２は、ＨＭＭ保持部１５１に記憶された隠れマルコフモデルと特定部１７ａにより特定された平均ベクトル及び共分散行列とを用いた行列演算を行うことで、言語情報Ｔｘｔから目標の声質で言語情報Ｔｘｔを表す音声Ｖｃｔを合成する。

図１１に示した生成部１６ａは、音声合成装置１４内に設けられた変換モデル保持部１６５と、音声学習装置ＥＱｂ内に設けられた調音成分抽出部１２３及び系列内変動算出部（ＧＶ算出部）１２４とを含む。更に、生成部１６ａは、音声学習装置ＥＱｂ内に設けられた言語情報解析部１６１、計数部１６２、学習制御部１６３及びモデル学習部１６４を含む。ラベル付き音声データベースＬＤＢに蓄積された情報のうち、目標の声質を持つ音声に対応付けられたラベルで示される言語情報は、言語情報解析部１６１に渡される。また、ラベル付き音声データベースＬＤＢに蓄積された情報のうち、目標の声質を持つ音声は、調音成分抽出部１２３に渡される。

言語情報解析部１６１は、ラベル付き音声データベースＬＤＢから渡される言語情報に対して形態素解析などを施すことで、渡された言語情報から単語や音素などの特徴情報を抽出する。また、言語情報解析部１６１は、渡された言語情報から抽出した特徴情報を、学習制御部１６３を介してモデル学習部１６４に渡すとともに、計数部１６２に渡す。

計数部１６２は、言語情報解析部１６１から渡される特徴情報に基づいて、ラベル付き音声データベースＬＤＢに蓄積された目標の声質を持つ音声毎に、当該音声で表された言語情報に含まれる音素種類数を計数する。計数部１６２により、目標の声質を持つ音声のそれぞれについて得られた音素種類数は、学習制御部１６３を介してモデル学習部１６４に渡される。

一方、調音成分抽出部１２３は、ラベル付き音声データベースＬＤＢから目標の声質を持つ音声を受けた場合に、受けた音声から調音成分を抽出し、抽出した調音成分を、学習制御部１６３を介してモデル学習部１６４およびＧＶ算出部１２４に渡す。

また、ＧＶ算出部１２４は、目標の声質を持つ音声のそれぞれから抽出された調音成分を学習制御部１６３から受けた場合に、目標の声質を持つ音声のそれぞれの調音成分の系列内変動を算出する。そして、目標の声質を持つ音声のそれぞれについて、ＧＶ算出部１２４で算出された調音成分の系列内変動は、学習制御部１６３を介してモデル学習部１６４に渡される。

学習制御部１６３は、例えば、言語情報解析部１６１から渡される特徴情報と調音成分抽出部１２３から渡される調音成分とをモデル学習部１６４に渡すことで、モデル学習部１６４に隠れマルコフモデルを生成するための学習を行わせる。そして、学習制御部１６３は、モデル学習部１６４による学習によって生成された隠れマルコフモデルをモデル学習部１６４から受け、受けた隠れマルコフモデルを音声合成装置１４ａに送る。

また、学習制御部１６３は、例えば、計数部１６２から渡される音素種類数とＧＶ算出部１２４から渡される系列内変動とをモデル学習部１６４に渡すことで、モデル学習部１６４に変換モデルＧＶＭａを生成するための学習を行わせる。そして、学習制御部１６３は、モデル学習部１６４による学習によって生成された変換モデルＧＶＭａをモデル学習部１６４から受け、受けた変換モデルＧＶＭａを音声合成装置１４の変換モデル保持部１６５に送る。

ここで、音声学習装置ＥＱｂと音声合成装置１４ａとは、信号線を用いて接続されてもよいし、無線ＬＡＮなどを用いて接続されてもよい。

なお、学習制御部１６３は、隠れマルコフモデルの生成を、変換モデルＧＶＭａの生成に先立ってモデル学習部１６４に実行させてもよいし、隠れマルコフモデルの生成よりも変換モデルＧＶＭａの生成を先に実行させてもよい。

図１１に示した調音成分抽出部１２３及びモデル学習部１６４は、隠れマルコフモデルを生成する処理と、言語情報を表す音声の複雑さを示す特徴量に目標の声質の音声のＧＶを対応付ける変換モデルＧＶＭａを生成する処理とに共通して用いられる。即ち、図１１に示した実施形態では、音声合成のための隠れマルコフモデルを生成するために音声学習装置ＥＱｂに搭載された既存の機能を用いて、生成部１６ａの機能の一部を実現することができる。

以上に説明した音声学習装置ＥＱｂによって生成された、音声合成のための隠れマルコフモデル（ＨＭＭ）は、音声合成装置１４ａのＨＭＭ保持部１５１に保持される。また、音声学習装置ＥＱｂによって生成された、言語情報に含まれる音素種類数と目標話者の音声の系列内変動とを対応付ける変換モデルＧＶＭａは、音声合成装置１４ａの変換モデル保持部１６５に保持され、図１１に示した特定部１７ａによる処理に用いられる。

特定部１７ａは、図８に示した特定部１７に相当する構成要素であり、言語情報解析部１７１と、計数部１７２と、決定部１７３とを含む。言語情報解析部１７１は、音声学習装置ＥＱｂに含まれる言語情報解析部１６１と同等の機能を有し、変換部１５による変換の対象となる言語情報Ｔｘｔを解析する。言語解析部１７１による解析で得られた情報は、計数部１７２に渡される。計数部１７２は、音声学習装置ＥＱｂに含まれる計数部１６２と同等の機能を有し、言語情報解析部１７１から受けた情報に含まれる音素の種類を計数する。そして、計数部１７２は、言語情報解析部１７１から受けた情報に基づく計数で得られた音素種類数を決定部１７３に渡す。

決定部１７３は、計数部１７２から渡された音素種類数と変換モデル保持部１６５に保持された変換モデルＧＶＭａとを用いて、言語情報Ｔｘｔを目標の声質で表す音声の系列内変動につき、確からしい確率分布を示す平均ベクトルおよび共分散行列を決定する。

決定部１７３によって決定された平均ベクトル及び共分散行列は、言語情報Ｔｘｔを目標の声質で表す音声が示す系列内変動の確からしい確率分布を特定する情報として変換部１５ａの演算処理部１５２に渡される。

演算処理部１５２は、ＨＭＭ保持部１５１内のＨＭＭと、言語情報Ｔｘｔを目標の声質で表す音声が示す系列内変動の確からしい確率分布を示す平均ベクトル及び共分散行列とを用い、言語情報Ｔｘｔから目標の声質で言語情報Ｔｘｔを表す音声Ｖｃｔを合成する。

したがって、図１１に示した音声合成装置１４ａは、図８に示した音声合成装置１４と同様に、様々な内容を持つ言語情報Ｔｘｔから、目標の声質を持ち、従来よりも音質の劣化の少ない音声を合成することができる。

以上に説明した本件開示の音声合成装置１０および音声合成装置１４は、例えば、携帯電話やスマートフォンおよびタブレット型端末などの端末装置と、コンピュータ装置とを用いて実現することができる。

図１から図７を用いて説明した音声合成装置１０は、例えば、展示会場などに設置された様々な展示物のそれぞれを説明するために予め用意された音声を、利用者が選択した別の声質で表す音声に変換した上で提供するサービスなどに用いられる。以下では、音声合成装置１０による声質変換を用いて、予め音声情報として用意された音声を、所望の声質で表す音声に変換して利用者に提供するサービスのための音声情報サービスシステムが説明される。

図１２は、図６に示した音声合成装置１０ｂのハードウェア構成の一例を示す。なお、図１２に示す構成要素のうち、図６に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。

図１２の例では、音声合成装置１０ｂは、コンピュータ装置２０と端末装置ＵＥとをインターネットなどのネットワークＮＷによって接続したシステムによって実現される。そして、音声合成装置１０ｂは、音声情報サービスシステムＡＳＳに含まれる。

図１２に示した端末装置ＵＥは、スマートフォンやタブレット型端末のように、利用者Ｑ１による携帯が可能な装置である。なお、端末装置ＵＥは、スマートフォンやタブレット型端末に限らず、図１〜図３で説明した混合正規分布モデル（ＧＭＭ）を用いた声質変換処理を実行する機能を有する装置であれば、携帯電話や携帯型ゲーム機などでもよい。

図１２に示したコンピュータ装置２０は、プロセッサ２１と、メモリ２２と、ストレージ装置２３と、ネットワークインタフェース２４とを含んでいる。コンピュータ装置２０において、プロセッサ２１と、メモリ２２と、ストレージ装置２３と、ネットワークインタフェース２４とは、バスを介して互いに接続されている。そして、コンピュータ装置２０に含まれるプロセッサ２１と、メモリ２２と、ストレージ装置２３の一部と、ネットワークインタフェース２４とは、音声合成装置１０ｂに含まれている。また、コンピュータ装置２０は、ネットワークインタフェース２４を介してネットワークＮＷに接続されており、コンピュータ装置２０は、ネットワークＮＷを介して端末装置ＵＥとの間で情報の授受が可能である。

ストレージ装置２３は、ＧＭＭデータベースＭＤＢと、変換モデルデータベースＶＤＢと、音声情報データベースＳＤＢとを含んでいる。ストレージ装置２３に含まれるＧＭＭデータベースＭＤＢと、変換モデルデータベースＶＤＢとは、音声合成装置１０ｂに含まれている。

音声情報データベースＳＤＢには、例えば、展示会場などに設置された様々な展示物のそれぞれを説明する音声を表す音声情報が予め蓄積されている。音声情報データベースＳＤＢに蓄積された音声情報は、音声情報サービスシステムＡＳＳにより、利用者Ｑ１に提供される情報の一例である。なお、音声情報サービスシステムＡＳＳにより、音声情報データベースＳＤＢに蓄積された音声情報を利用者Ｑ１に提供する場合の動作については、図１３を用いて後述する。

ストレージ装置２３に含まれるＧＭＭデータベースＭＤＢには、音声情報データベースＳＤＢに蓄積された音声に対する声質変換のために予め生成された混合正規分布モデル（ＧＭＭ）が蓄積されている。ＧＭＭデータベースＭＤＢに蓄積されるＧＭＭは、例えば、音声情報データベースＳＤＢに蓄積された音声の話者を含む複数の話者による同じ内容を持つ音声の調音成分につき相互間の対応関係を学習することで、元話者と目標話者との組毎に生成される。ＧＭＭは、例えば、音声情報データベースＳＤＢに蓄積された音声の話者を元話者として含み、他の話者のそれぞれを目標話者として含む組毎に、図６で説明した音声学習装置ＥＱａにより予め生成されることが望ましい。例えば、音声情報データベースＳＤＢに話者Ａの音声が蓄積されており、話者Ａ，Ｂ，Ｃ，Ｄによる音声がＧＭＭの学習用に用意されている場合に、話者Ａを元話者とし、話者Ｂ，Ｃ，Ｄのそれぞれを目標話者とする組毎のＧＭＭが生成されることが望ましい。なお、話者Ａ，Ｂ，Ｃ，Ｄは、それぞれ異なる人物でもよいし、例えば、平静な状態と緊迫した状態のように、発声される音声の声質がそれぞれ異なる状態にある同一の人物でもよい。また、生成されたＧＭＭは、例えば、元話者と目標話者との組を互いに識別する識別情報に対応して、ＧＭＭデータベースＭＤＢに蓄積される。すなわち、図１２に示したＧＭＭデータベースＭＤＢは、図６に示したＧＭＭ保持部１１１に相当する。

また、変換モデルデータベースＶＤＢには、ＧＭＭが生成された元話者と目標話者との組毎に、図６で説明した分析部１２１ｂ及び学習部１２２ｂとによって予め生成された変換モデルＧＶＭが蓄積されている。すなわち、図１２に示した変換モデルデータベースＶＤＢは、図６に示した変換モデル保持部１２７に相当する。

メモリ２２は、コンピュータ装置２０のオペレーティングシステムとともに、音声情報を提供する処理を、プロセッサ２１が実行するためのアプリケーションプログラムを格納している。なお、音声情報を提供する処理を実行するためのアプリケーションプログラムは、例えば、ネットワークインタフェース２４を介して、ネットワークに接続されたサーバ装置（図示せず）からメモリ２２又はストレージ装置２３にダウンロードされてもよい。また、音声情報を提供する処理を実行するためのアプリケーションプログラムは、光ディスクなどのリムーバブルディスクに記録して頒布されてもよい。そして、プロセッサ２１は、頒布されたリムーバブルディスクが光学ドライブ装置（図示せず）に装着された際に、リムーバブルディスクから音声情報を提供する処理を実行するためのアプリケーションプログラムを読み込んでもよい。そして、リムーバブルディスクから読み込まれた音声情報を提供する処理を実行するためのアプリケーションプログラムは、メモリ２２又はストレージ装置２３に記憶されることで、プロセッサ２１による実行が可能となる。

また、図１２に示した端末装置ＵＥは、プロセッサ３１と、メモリ３２と、ネットワークインタフェース３３と、表示装置３４と、入力装置３５と、音声出力部３６とを含んでいる。端末装置ＵＥにおいて、プロセッサ３１と、メモリ３２と、ネットワークインタフェース３３と、表示装置３４と、入力装置３５と、音声出力部３６とは、バスを介して互いに接続されている。そして、端末装置ＵＥに含まれるプロセッサ３１と、メモリ３２と、ネットワークインタフェース３３とは、音声合成装置１０ｂに含まれている。また、端末装置ＵＥは、ネットワークインタフェース３３を介してネットワークＮＷに接続されており、端末装置ＵＥは、ネットワークＮＷを介して、コンピュータ装置２０との間で情報の授受が可能である。

端末装置ＵＥに含まれる入力装置３５は、例えば、タッチパネルであり、利用者Ｑ１は、タッチパネルを操作することにより、音声情報サービスシステムＡＳＳに対して、提供の対象となる音声情報や声質変換における目標話者を指定するための指示を入力する。

また、表示装置３４は、例えば、タッチパネルに設けられた表示画面であり、利用者Ｑ１は、表示装置３４に表示されたメニューやアイコンを示す画像として、音声情報サービスシステムＡＳＳに対する指示を入力するために用いる情報の提供を受ける。

音声出力部３６は、音声合成装置１０ｂによって生成された音声をイアホンＥＰに出力する機能を有する。利用者Ｑ１は、音声出力部３６に接続されたイアホンＥＰを装着することで、音声情報サービスシステムＡＳＳに含まれる音声合成装置１０ｂによって生成された音声を聴取する。

メモリ３２は、端末装置ＵＥのオペレーティングシステムとともに、図１〜図３を用いて説明した、変換モデルＧＶＭから目標話者の音声の系列内変動の確率分布を特定する処理をプロセッサ３１が実行するためのアプリケーションプログラムを格納している。また、メモリ３２は、更に、特定された系列内変動の確率分布とＧＭＭとを用いた声質変換を行う処理をプロセッサ３１が実行するためのアプリケーションプログラムを格納している。なお、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とＧＭＭとを用いた声質変換を行う処理のためのアプリケーションプログラムは、例えば、ネットワークＮＷに接続されたサーバ装置（図示せず）からダウンロードされてもよい。そして、ダウンロードされたアプリケーションプログラムをメモリ３２に読み込ませることで、アプリケーションプログラムをメモリ３２に格納させてもよい。また、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とＧＭＭとを用いた声質変換を行う処理のためのアプリケーションプログラムは、メモリカードなどの着脱可能な記憶媒体に記録して頒布されてもよい。そして、頒布されたメモリカードを読取装置（図示せず）に装着し、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とＧＭＭとを用いた声質変換を行う処理のためのアプリケーションプログラムをメモリ３２に読み込ませてもよい。

プロセッサ３１は、メモリ３２に格納された、系列内変動の確率分布を特定する処理のためのアプリケーションプログラムを実行することにより、図６に示した特定部１３ｂの機能を果たす。また、プロセッサ３１は、メモリ３２に格納された、声質変換を行う処理のためのアプリケーションプログラムを実行することにより、図６に示した変換部１１ｂの機能を果たす。

つまり、図６に示した音声合成装置１０ｂは、図１２に示したコンピュータ装置２０に含まれるハードウェア及びソフトウェアと、端末装置ＵＥに含まれるハードウェア及びソフトウェアとの協働によって実現することができる。

図１３は、図１２に示した音声情報サービスシステムＡＳＳの動作を示す。図１３に示したステップＳ３３１〜ステップＳ３３４及びステップＳ３３８の各処理は、図１２に示したコンピュータ装置２０のメモリ２２などに格納されたアプリケーションプログラムに含まれる処理の一例である。また、ステップＳ３３１〜ステップＳ３３４及びステップＳ３３８の各処理は、図１２に示したコンピュータ装置２０のプロセッサ２１によって実行される。一方、図１３に示したステップＳ３３５〜ステップＳ３３７の各処理は、図１２に示した端末装置ＵＥのメモリ３２などに格納されたアプリケーションプログラムに含まれる処理の一例である。また、ステップＳ３３５〜ステップＳ３３７の各処理は、図１２に示した端末装置ＵＥのプロセッサ３１によって実行される。

図１３に示した処理は、例えば、図１２に示した端末装置ＵＥに搭載された入力装置３５を介して、利用者Ｑ１によって音声情報サービスシステムＡＳＳに対するサービス要求が行なわれる毎に、プロセッサ２１及びプロセッサ３１によって実行される。ここで、利用者Ｑ１からのサービス要求は、例えば、利用者Ｑ１により提供の対象として選択された音声情報を特定する情報と、利用者Ｑ１により目標話者として選択された話者を特定する情報とを含む。また、利用者からのサービス要求は、例えば、端末装置ＵＥのネットワークインタフェース３３により、ネットワークＮＷを介してコンピュータ装置２０に渡される。

ステップＳ３３１において、コンピュータ装置２０のプロセッサ２１は、端末装置ＵＥから渡されたサービス要求に基づいて、利用者Ｑ１に提供する対象の音声情報と、利用者Ｑ１により選択された目標話者とを特定する。

ステップＳ３３２において、プロセッサ２１は、ステップＳ３３１の処理で特定した音声情報の話者である元話者と、同じく特定した目標話者とを含む組に対応してＧＭＭデータベースＭＤＢに蓄積されたＧＭＭを取得し、取得したＧＭＭを端末装置ＵＥに渡す。プロセッサ２１は、例えば、ネットワークインタフェース２４により、ＧＭＭデータベースＭＤＢから取得したＧＭＭを示す情報をネットワークＮＷに送出する。ネットワークＮＷに送出されたＧＭＭを示す情報は、端末装置ＵＥに含まれるネットワークインタフェース３３を介して、端末装置ＵＥに含まれるメモリ３２に記憶される。

ステップＳ３３３において、プロセッサ２１は、ステップＳ３３１の処理で特定した音声情報の話者である元話者と、同じく特定した目標話者とを含む組に対応して変換モデルデータベースＶＤＢに蓄積された変換モデルを取得する。そして、プロセッサ２１は、例えば、ネットワークインタフェース２４およびネットワークＮＷを介して、変換モデルデータベースＶＤＢから取得した変換モデルを端末装置ＵＥに渡す。

ステップＳ３３４において、プロセッサ２１は、例えば、音声情報データベースＳＤＢから、ステップＳ３３１の処理で特定された音声情報を所定の単位毎に順次に読み出し、読み出した音声情報を、声質変換の対象となる元話者の音声として端末装置ＵＥに渡す。例えば、ステップＳ３３１の処理で特定された音声情報により、複数の文が表されている場合に、プロセッサ２１は、特定された音声情報を各文に対応する部分情報に区分し、各部分情報を順次に読み出す。そして、プロセッサ２１は、例えば、ネットワークインタフェース２４およびネットワークＮＷを介して、読み出した部分情報を、声質変換の対象となる元話者の音声として端末装置ＵＥに渡す。

ステップＳ３３５において、端末装置ＵＥのプロセッサ３１は、コンピュータ装置２０から渡された元話者の音声に対して、図６で説明した分析を行うことで、元話者の音声の系列内変動を求める。

ステップＳ３３６において、プロセッサ３１は、ステップＳ３３３の処理で渡された変換モデルと、ステップＳ３３５の処理で求めた元話者の音声の系列内変動とを用いて、目標話者の声質で同じ内容を表す音声が示す系列内変動の平均及び分散を特定する。

ステップＳ３３７において、プロセッサ３１は、ステップＳ３３６の処理で求めた系列内変動の平均及び分散を用い、図６で説明したようにして、ステップＳ３３４の処理で受けた元話者の音声を目標話者の声質で表す音声に変換する声質変換を行う。プロセッサ３１は、元話者から目標話者への声質変換に、ステップＳ３３２の処理でコンピュータ装置２０から渡されたＧＭＭとともに、ステップＳ３３６の処理で求めた系列内変動の平均及び分散で示される確率密度関数を用いる。これにより、プロセッサ３１は、ステップＳ３３７の処理により、元話者の音声の系列内変動と目標話者の音声の系列内変動との相関関係を考慮しない従来技術よりも、確からしい系列内変動を示す目標話者の声質の音声を生成することができる。そして、ステップＳ３３７の処理で生成された音声は、図１２に示した音声出力部３６を介してイアホンＥＰに出力され、利用者Ｑ１によって聴取される。

ステップＳ３３８において、コンピュータ装置２０のプロセッサ２１は、例えば、ステップＳ３３１の処理で特定された音声情報に含まれる全ての部分情報に対応する音声の出力が完了したか否かを判定する。

ステップＳ３３４の処理によって読み出されていない部分情報がある場合に、プロセッサ２１は、ステップＳ３３８の否定判定（ＮＯ）ルートを選択し、ステップＳ３３４に戻って、次の部分情報の読出を行う。

一方、ステップＳ３３４の処理により、ステップＳ３３１の処理で特定された音声情報に含まれる全ての部分情報の読み出しが完了している場合に、プロセッサ２１は、ステップＳ３３８の肯定判定（ＹＥＳ）ルートを選択し、処理を終了する。

以上に説明したように、図１２に示した音声情報サービスシステムＡＳＳは、音声情報データベースＳＤＢに蓄積された音声情報を、利用者Ｑ１によって選択された目標話者の声質を持つ音声に変換した上で、利用者Ｑ１に聴取させることができる。図１２に示した音声情報サービスシステムＡＳＳは、図６に示した変換部１１ｂおよび特定部１３ｂを有する音声合成装置１０ｂを含んでいる。そして、音声合成装置１０ｂは、音声情報データベースＳＤＢに蓄積された音声情報を目標話者の声質を持つ音声に声質変換する過程で、元話者と目標話者との組みに対応する変換モデルを用いて、声質変換後の音声の系列内変動を特定する。図２で説明したように、元話者と目標話者との組みに対応する変換モデルを用いて特定された声質変換後の音声の系列内変動は、元話者の音声の系列内変動と目標話者の音声の系列内変動との相関関係を考慮しない従来技術よりも確からしい。したがって、図１２に示した音声合成装置１０ｂを有する音声情報サービスシステムＡＳＳは、従来の声質変換を行う音声合成装置を用いた場合に比べて、音声情報の内容にかかわらず、音質の劣化の少ない目標話者の音声を利用者Ｑ１に提供することができる。

図８から図１１を用いて説明した音声合成装置１４ａは、例えば、カタログなどに提示された商品のそれぞれを説明するために予め用意されたテキストから、利用者が選択した声質を持つ音声を合成し、合成した音声を提供するサービスなどに用いられる。以下では、音声合成装置１４による音声合成を用いて、予め用意されたテキストを所望の声質で表す音声として利用者に提供するサービスのための読み上げサービスシステムが説明される。

図１４は、図１１に示した音声合成装置１４ａのハードウェア構成の一例を示す。なお、図１４に示す構成要素のうち、図１１又は図１２に示した構成要素と同等のものは、同一の符号で示すとともに構成要素の説明を省略する場合がある。

図１４の例では、音声合成装置１４ａは、コンピュータ装置２０と端末装置ＵＥとをインターネットなどのネットワークＮＷによって接続したシステムによって実現される。そして、音声合成装置１４ａは、読み上げサービスシステムＮＳＳに含まれる。

図１４に示した端末装置ＵＥは、スマートフォンやタブレット型端末のように、利用者Ｑ１による携帯が可能な装置である。なお、端末装置ＵＥは、スマートフォンやタブレット型端末に限らず、図８で説明した隠れマルコフモデル（ＨＭＭ）を用いた音声合成処理の実行が可能な機能を有する装置であれば、携帯電話や携帯型ゲーム機などでもよい。

図１２に示したコンピュータ装置２０は、プロセッサ２１と、メモリ２２と、ストレージ装置２３ａと、ネットワークインタフェース２４とを含んでいる。コンピュータ装置２０において、プロセッサ２１と、メモリ２２と、ストレージ装置２３と、ネットワークインタフェース２４とは、バスを介して互いに接続されている。そして、コンピュータ装置２０に含まれるプロセッサ２１と、メモリ２２と、ストレージ装置２３ａの一部と、ネットワークインタフェース２４とは、音声合成装置１４ａに含まれている。また、コンピュータ装置２０は、ネットワークインタフェース２４を介してネットワークＮＷに接続されており、コンピュータ装置２０は、ネットワークＮＷを介して端末装置ＵＥとの間で情報の授受が可能である。

ストレージ装置２３ａは、ＨＭＭデータベースＨＤＢと、変換モデルデータベースＶＤＢａと、テキスト情報データベースＴＤＢとを含んでいる。ストレージ装置２３ａに含まれるＨＭＭデータベースＨＤＢと、変換モデルデータベースＶＤＢａとは、音声合成装置１４ａに含まれている。

テキスト情報データベースＴＤＢには、例えば、カタログなどに提示された様々な商品のそれぞれを説明するために予め用意されたテキスト情報が予め蓄積されている。テキスト情報データベースＴＤＢに蓄積されたテキスト情報は、読み上げサービスシステムＮＳＳにより、利用者Ｑ１に提供される情報の一例である。なお、読み上げサービスシステムＮＳＳにより、テキスト情報データベースＴＤＢに蓄積されたテキスト情報から合成された音声を利用者Ｑ１に提供する場合の動作については、図１５を用いて後述する。

ストレージ装置２３ａに含まれるＨＭＭデータベースＨＤＢには、複数の話者の声質を持つ音声を合成するために、各話者に対応して予め生成された隠れマルコフモデル（ＨＭＭ）が蓄積されている。ＨＭＭデータベースＨＤＢに蓄積されるＨＭＭは、例えば、複数の話者の音声と、音声のそれぞれで表された言語情報との対応関係を学習することで、話者毎に生成される。なお、複数の話者は、複数の人物でもよいし、例えば、平静な状態と緊迫した状態とのように、発声される音声の声質が異なる状態にある同一の人物であってもよい。また、生成されたＨＭＭは、例えば、話者のそれぞれを識別する識別情報に対応して、ＨＭＭデータベースＨＤＢに蓄積される。すなわち、図１４に示したＨＭＭデータベースＨＤＢは、図１１に示したＨＭＭ保持部１５１に相当する。

また、変換モデルデータベースＶＤＢａには、ＨＭＭが生成された話者毎に、図１１で説明した音声学習装置ＥＱａによって予め生成された変換モデルＧＶＭａが蓄積されている。すなわち、図１４に示した変換モデルデータベースＶＤＢａは、図１１に示した変換モデル保持部１６５に相当する。

メモリ２２は、コンピュータ装置２０のオペレーティングシステムとともに、読み上げサービスを提供する処理を、プロセッサ２１が実行するためのアプリケーションプログラムを格納している。なお、読み上げサービスを提供する処理を実行するためのアプリケーションプログラムは、例えば、ネットワークインタフェース２４を介して、ネットワークに接続されたサーバ装置（図示せず）からメモリ２２又はストレージ装置２３ａにダウンロードされてもよい。また、読み上げサービスを提供する処理を実行するためのアプリケーションプログラムは、光ディスクなどのリムーバブルディスクに記録して頒布されてもよい。そして、プロセッサ２１は、頒布されたリムーバブルディスクが光学ドライブ装置（図示せず）に装着された際に、リムーバブルディスクから読み上げサービスを提供する処理を実行するためのアプリケーションプログラムを読み込んでもよい。そして、リムーバブルディスクから読み込まれた読み上げサービスを提供する処理を実行するためのアプリケーションプログラムは、メモリ２２又はストレージ装置２３ａに記憶されることで、プロセッサ２１による実行が可能となる。

図１４に示した端末装置ＵＥに含まれる入力装置３５は、例えば、タッチパネルである。利用者Ｑ１は、タッチパネルなどの入力装置３５を操作することにより、読み上げサービスシステムＮＳＳに対して、提供の対象となるテキストやテキストを読み上げる音声の声質として好ましい話者を指定するための指示を入力する。

また、表示装置３４は、例えば、タッチパネルに設けられた表示画面であり、利用者Ｑ１は、表示装置３４に表示されたメニューやアイコンを示す画像として、読み上げサービスシステムＡＳＳに対する指示を入力するために用いる情報の提供を受ける。

音声出力部３６は、音声合成装置１４ａによって生成された音声をイアホンＥＰに出力する機能を有する。利用者Ｑ１は、音声出力部３６に接続されたイアホンＥＰを装着することで、読み上げサービスシステムＮＳＳに含まれる音声合成装置１４ａによって生成された音声を聴取する。

メモリ３２は、端末装置ＵＥのオペレーティングシステムとともに、図８〜図１０で説明した、変換モデルＧＶＭａから目標話者の音声の系列内変動の確率分布を特定する処理をプロセッサ３１が実行するためのアプリケーションプログラムを格納している。また、メモリ３２は、更に、特定された系列内変動の確率分布とＨＭＭとを用いた音声合成を行う処理をプロセッサ３１が実行するためのアプリケーションプログラムを格納している。なお、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とＨＭＭとを用いた音声合成を行う処理のためのアプリケーションプログラムは、ネットワークＮＷに配置されたサーバ装置（図示せず）からダウンロードされてもよい。そして、ダウンロードされたアプリケーションプログラムをメモリ３２に読み込ませることで、アプリケーションプログラムをメモリ３２に格納させてもよい。また、系列内変動の確率分布を特定する処理及び特定された系列内変動の確率分布とＨＭＭとを用いた音声合成を行う処理のためのアプリケーションプログラムは、メモリカードなどの着脱可能な記憶媒体に記録して頒布することができる。そして、端末装置ＵＥに搭載された読取装置（図示せず）に、頒布されたメモリカードを装着し、装着したメモリカードから情報の読み取りを行うことで、メモリカードに記録されたアプリケーションプログラムをメモリ３２に読み込ませてもよい。

プロセッサ３１は、メモリ３２に格納された、系列内変動の確率分布を特定する処理のためのアプリケーションプログラムを実行することにより、図１１に示した特定部１７ａの機能を果たす。また、プロセッサ３１は、メモリ３２に格納された、特定された系列内変動の確率分布とＨＭＭとを用いた音声合成を行う処理のためのアプリケーションプログラムを実行することにより、図１１に示した変換部１５ａの機能を果たす。

つまり、図１１に示した音声合成装置１４ａは、図１４に示したコンピュータ装置２０に含まれるハードウェア及びソフトウェアと、端末装置ＵＥに含まれるハードウェア及びソフトウェアとの協働によって実現することができる。

図１５は、図１４に示した読み上げサービスシステムＮＳＳの動作を示す。図１５に示したステップＳ３４１〜ステップＳ３４４及びステップＳ３４８の各処理は、図１４に示したコンピュータ装置２０のメモリ２２などに格納されたアプリケーションプログラムに含まれる処理の一例である。また、ステップＳ３４１〜ステップＳ３４４及びステップＳ３４８の各処理は、図１４に示したコンピュータ装置２０のプロセッサ２１によって実行される。一方、図１５に示したステップＳ３４５〜ステップＳ３４７の各処理は、図１４に示した端末装置ＵＥのメモリ３２などに格納されたアプリケーションプログラムに含まれる処理の一例である。また、ステップＳ３４５〜ステップＳ３４７の各処理は、図１４に示した端末装置ＵＥのプロセッサ３１によって実行される。

図１５に示した処理は、例えば、図１４に示した端末装置ＵＥの入力装置３５を介して、利用者Ｑ１により読み上げサービスシステムＮＳＳに対するサービス要求が行なわれる毎に、プロセッサ２１及びプロセッサ３１によって実行される。ここで、利用者Ｑ１からのサービス要求は、例えば、利用者Ｑ１により提供の対象として選択されたテキスト情報を特定する情報と、テキストの読み上げを行う音声の話者として利用者Ｑ１により選択された話者を特定する情報とを含む。また、利用者からのサービス要求は、例えば、端末装置ＵＥのネットワークインタフェース３３により、ネットワークＮＷを介してコンピュータ装置２０に渡される。

ステップＳ３４１において、コンピュータ装置２０のプロセッサ２１は、端末装置ＵＥから渡されたサービス要求に基づいて、音声合成の対象となるテキスト情報と、利用者Ｑ１により選択された話者とを特定する。

ステップＳ３４２において、プロセッサ２１は、ステップＳ３４１の処理で特定した話者に対応してＨＭＭデータベースＨＤＢに蓄積されたＨＭＭを取得し、取得したＨＭＭを端末装置ＵＥに渡す。プロセッサ２１は、例えば、ネットワークインタフェース２４により、取得したＨＭＭを示す情報をネットワークＮＷに送出する。ネットワークＮＷに送出されたＨＭＭを示す情報は、端末装置ＵＥに含まれるネットワークインタフェース３３を介して、端末装置ＵＥに含まれるメモリ３２に記憶される。

ステップＳ３４３において、プロセッサ２１は、ステップＳ３４１の処理で特定した話者に対応して変換モデルデータベースＶＤＢａに蓄積された変換モデルＧＶＭａを取得する。そして、プロセッサ２１は、例えば、ネットワークインタフェース２４およびネットワークＮＷを介して、変換モデルデータベースＶＤＢａから取得した変換モデルＧＶＭａを端末装置ＵＥに渡す。

ステップＳ３４４において、プロセッサ２１は、例えば、テキスト情報データベースＴＤＢから、ステップＳ３４１の処理で特定されたテキスト情報を所定の単位毎に順次に取得する。そして、プロセッサ２１は、読み出したテキスト情報を、音声合成の対象となるテキストとして端末装置ＵＥに渡す。例えば、ステップＳ３４１の処理で特定されたテキスト情報に複数の文が含まれる場合に、プロセッサ２１は、特定されたテキスト情報を各文に対応する部分情報に区分し、各部分情報を順次に読み出す。そして、プロセッサ２１は、例えば、ネットワークインタフェース２４およびネットワークＮＷを介して、読み出した部分情報を、音声合成の対象となるテキスト情報として端末装置ＵＥに渡す。

ステップＳ３４５において、端末装置ＵＥのプロセッサ３１は、コンピュータ装置２０から渡された部分情報で示されるテキスト情報に対して、図１１で説明した分析を行うことで、部分情報で示されるテキスト情報に含まれる音素種類数を求める。

ステップＳ３４６において、プロセッサ３１は、ステップＳ３４３の処理で受けた変換モデルＧＶＭａと、部分情報で示されるテキスト情報に含まれる音素種類数とを用い、特定された話者の声質でテキスト情報を表す音声の系列内変動の平均及び分散を特定する。

ステップＳ３４７において、プロセッサ３１は、ステップＳ３４６の処理で求めた系列内変動の平均及び分散を用い、図１１で説明したようにして、ステップＳ３４４の処理で渡されたテキスト情報から、利用者により選択された話者の声質を持つ音声を合成する。プロセッサ３１は、選択された話者の声質でテキスト情報を表す音声を合成する音声合成に、ステップＳ３４２の処理で渡されたＨＭＭとともに、ステップＳ３４６の処理で求めた系列内変動の平均及び分散で示される確率密度関数を用いる。これにより、プロセッサ３１は、ステップＳ３４７の処理により、テキスト情報の複雑さと当該テキスト情報を所望の話者の声質で表す音声の系列内変動との相関関係を考慮しない従来技術よりも、確からしい系列内変動を持つ音声を生成することができる。そして、ステップＳ３４７の処理で生成された音声は、図１４に示した音声出力部３６を介してイアホンＥＰに出力され、利用者Ｑ１によって聴取される。

ステップＳ３４８において、コンピュータ装置２０のプロセッサ２１は、例えば、ステップＳ３４１の処理で特定されたテキスト情報に含まれる全ての部分情報に対応する音声の出力が完了したか否かを判定する。

ステップＳ３４１の処理で特定されたテキスト情報の中に、ステップＳ３４４の処理によって読み出されていない部分情報がある場合に、プロセッサ２１は、ステップＳ３４８の否定判定（ＮＯ）ルートを選択する。この場合に、プロセッサ２１は、ステップＳ３４４に戻って、次の部分情報の読み出しを行う。

一方、ステップＳ３４４の処理により、ステップＳ３４１の処理で特定されたテキスト情報に含まれる全ての部分情報の読み出しが完了している場合に、プロセッサ２１は、ステップＳ３４８の肯定判定（ＹＥＳ）ルートを選択し、処理を終了する。

以上に説明したように、図１４に示した読み上げサービスシステムＮＳＳは、テキスト情報データベースＴＤＢに蓄積されたテキスト情報を、利用者Ｑ１により選択された話者の声質で表す音声を合成し、合成した音声を利用者Ｑ１に聴取させることができる。図１４に示した読み上げサービスシステムＮＳＳは、図１１に示した変換部１５ａおよび特定部１７ａを有する音声合成装置１４ａを含んでいる。そして、音声合成装置１４ａは、音声合成の対象として渡されたテキスト情報から、選択された話者の声質を持つ音声を合成する過程で、選択された話者に対応する変換モデルを用いて、音声合成によって生成される音声の系列内変動を特定する。図９で説明したように、音声合成で生成される音声について、選択された話者に対応する変換モデルにより特定された系列内変動は、テキスト情報の複雑さと選択された話者の音声の系列内変動との相関関係を考慮しない従来技術よりも確からしい。したがって、図１４に示した音声合成装置１４ａを有する読み上げサービスシステムＮＳＳは、従来の音声合成装置を用いた場合に比べて、読み上げの対象となるテキスト情報の内容にかかわらず、音質の劣化の少ない音声を利用者Ｑ１に提供できる。

以上の詳細な説明により、実施形態の特徴点及び利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で、前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更を容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

以上の説明に関して、更に、以下の各項を開示する。
(付記１) 第１の声質の音声を、前記第１の声質とは異なる第２の声質で表す音声に変換する変換部と、
前記第１の声質及び前記第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第１の声質の音声の特徴量に対して前記第２の声質の音声の前記系列内変動を対応付ける変換モデルを生成する生成部と、
前記変換部による変換の対象となる前記第１の声質の音声を受け、受けた音声に含まれる調音成分の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第２の声質で表す音声が示す前記系列内変動の平均及び分散を求める特定部とを有し、
前記変換部は、前記受けた第１の声質の音声を前記第２の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する
ことを特徴とする音声合成装置。
(付記２) 付記１に記載の音声合成装置において、
前記生成部は、
前記第１の声質で予め発声された前記所定の言語情報を表す音声のそれぞれを分析することで、前記第１の声質の音声のそれぞれに含まれる調音成分の複雑さを示す特徴量を求め、前記第２の声質で予め発声された前記所定の言語情報を表す音声のそれぞれを分析することで、前記第２の声質の音声のそれぞれの前記系列内変動を求める分析部と、
前記第１の声質の音声のそれぞれについて前記分析部で得られた特徴量と、前記第２の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動との対応関係を学習することで、前記変換モデルとして、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量に対して、前記第１の声質の音声を前記第２の声質で表す音声の前記系列内変動が示す確率分布を求める学習部とを有する
ことを特徴とする音声合成装置。
(付記３) 付記２に記載の音声合成装置において、
前記分析部は、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量として、前記第１の声質の音声のそれぞれに含まれる調音成分の分散である系列内変動を求め、
前記学習部は、前記第１の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動と、前記第２の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動との対応関係を学習することで、前記変換モデルとして、前記第１の声質の音声の前記系列内変動に対して、前記第１の声質の音声を前記第２の声質で表す音声の前記系列内変動が示す確率分布を正規分布あるいは混合正規分布として示す確率密度関数を求める
ことを特徴とする音声合成装置。
（付記４）付記２に記載の音声合成装置において、
前記分析部は、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量として、前記第１の声質の音声のそれぞれの長さである音声長を求め、
前記学習部は、前記第１の声質の音声のそれぞれについて前記分析部で得られた音声長と、前記第２の声質の音声のそれぞれについて前記分析部で得られた系列内変動との対応関係を学習することで、前記変換モデルとして、前記第１の声質の音声の音声長に対して、前記第１の声質の音声と同一の言語情報を表す前記第２の声質の音声の系列内変動が示す確率分布を正規分布あるいは混合正規分布として示す確率密度関数を求める
ことを特徴とする音声合成装置。
（付記５）第１の声質及び前記第１の声質と異なる第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第１の声質の音声の特徴量に対して前記第２の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
前記第１の声質から前記第２の声質への変換の対象となる前記第１の声質の音声を受け、受けた音声の特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第２の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記変換の対象となる前記第１の声質の音声を前記第２話者の声質で表す音声として、前記平均及び分散で特定される系列内変動を持つ音声を生成する
ことを特徴とする音声合成方法。
（付記６）第１の声質及び前記第１の声質と異なる第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第１の声質の音声の特徴量に対して前記第２の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
前記第１の声質から前記第２の声質への変換の対象となる前記第１の声質の音声を受け、受けた音声の特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第２の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記変換の対象となる前記第１の声質の音声を前記第２話者の声質で表す音声として、前記平均及び分散で特定される系列内変動を持つ音声を生成する、
処理をコンピュータに実行させることを特徴とする音声合成プログラム。
（付記７）入力される言語情報を、前記言語情報を表す所定の声質を持つ音声に変換する変換部と、
前記所定の声質で予め発声された音声と前記音声によって表された言語情報とを用いて、前記言語情報を表す音声の複雑さを示す特徴量と、前記音声に含まれる調音成分の分散を示す系列内変動との間の対応関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に対して前記所定の声質の音声の前記系列内変動を対応付ける変換モデルを生成する生成部と、
前記変換部による変換の対象となる言語情報を受け、受けた言語情報を表す音声の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた言語情報を表す前記所定の声質の音声が示す前記系列内変動の平均及び分散を求める特定部とを有し、
前記変換部は、前記変換の対象となる言語情報を前記所定の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する
ことを特徴とする音声合成装置。
(付記８) 付記７に記載の音声合成装置において、
前記生成部は、
前記取得した言語情報のそれぞれを分析することで、前記言語情報のそれぞれに含まれる音素の種類の数である音素種類数を前記言語情報のそれぞれを表す音声の複雑さを示す特徴量として求め、前記取得した前記所定の声質の音声のそれぞれを分析することで、前記所定の声質の音声のそれぞれの系列内変動を求め、
前記言語情報のそれぞれについて求められた音素種類数と、前記所定の声質の音声のそれぞれについて求められた系列内変動との対応関係を学習することで、前記変換モデルとして、前記言語情報を表す音声の複雑さを示す特徴量に対して、前記言語情報を表す前記所定の声質の音声の系列内変動が示す確率分布を正規分布あるいは混合正規分布として示す確率密度関数を求めるモデル学習部とを有する
ことを特徴とする音声合成装置。
（付記９）前記所定の声質で予め発声された音声と前記音声によって表された言語情報とを用いて、前記言語情報を表す音声の複雑さを示す特徴量と、前記所定の声質で予め発声された音声に含まれる調音成分の分散を示す系列内変動との間の対応関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に対して前記所定の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
音声合成の対象となる言語情報を受け、受けた言語情報を表す音声の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた言語情報を前記所定の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記音声合成の対象となる言語情報を前記所定の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する
ことを特徴とする音声合成方法。
（付記１０）前記所定の声質で予め発声された音声と前記音声によって表された言語情報とを用いて、前記言語情報を表す音声の複雑さを示す特徴量と、前記所定の声質で予め発声された音声に含まれる調音成分の分散を示す系列内変動との間の対応関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に対して前記所定の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
音声合成の対象となる言語情報を受け、受けた言語情報を表す音声の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた言語情報を前記所定の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記音声合成の対象となる言語情報を前記所定の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する、
処理をコンピュータに実行させることを特徴とする音声合成プログラム。

１０，１０ａ，１０ｂ，１４，１４ａ…音声合成装置；１１，１１ａ，１５，１５ａ…変換部；１２，１２ａ，１２ｂ，１６，１６ａ…生成部；１３，１３ａ，１３ｂ，１７，１７ａ…特定部；１１１…混合正規分布モデル保持部（ＧＭＭ保持部）；１１２，１５２…演算処理部；１２１，１２１ａ，１２１ｂ…分析部；１２２，１２２ａ，１２２ｂ…学習部；１２３，１３３…調音成分抽出部；１２４，１３４…系列内変動算出部（ＧＶ算出部）；１２５，１６３…学習制御部；１２６，１６４…モデル学習部；１２７，１６５…変換モデル保持部；１３１…計測部；１３２，１３２ｂ，１７３…決定部；１５１…隠れマルコフモデル保持部（ＨＭＭ保持部）；１６１，１７１…言語情報解析部；１６２，１７２…計数部；２０…コンピュータ装置；２１，３１…プロセッサ；２２，３２…メモリ；２３…ストレージ装置；２４，３３…ネットワークインタフェース；３４…表示装置；３５…入力装置；３６…音声出力部；ＤＢ…音声データベース；ＥＱ，ＥＱａ…音声学習装置；ＬＤＢ…ラベル付き音声データベース；ＭＤＢ…混合正規分布モデルデータベース（ＧＭＭデータベース）；ＶＤＢ、ＶＤＢａ…変換モデルデータベース；ＳＤＢ…音声情報データベース；ＵＥ…端末装置；ＡＳＳ…音声情報サービスシステム；ＮＷ…ネットワーク；ＨＤＢ…隠れマルコフモデルデータベース（ＨＭＭデータベース）；ＴＤＢ…テキスト情報データベース；ＮＳＳ…読み上げサービスシステム

Claims

第１の声質の音声を、前記第１の声質とは異なる第２の声質で表す音声に変換する変換部と、
前記第１の声質及び前記第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第１の声質の音声の特徴量に対して前記第２の声質の音声の前記系列内変動を対応付ける変換モデルを生成する生成部と、
前記変換部による変換の対象となる前記第１の声質の音声を受け、受けた音声に含まれる調音成分の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第２の声質で表す音声が示す前記系列内変動の平均及び分散を求める特定部とを有し、
前記変換部は、前記受けた第１の声質の音声を前記第２の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する
ことを特徴とする音声合成装置。
請求項１に記載の音声合成装置において、
前記生成部は、
前記第１の声質で予め発声された前記所定の言語情報を表す音声のそれぞれを分析することで、前記第１の声質の音声のそれぞれに含まれる調音成分の複雑さを示す特徴量を求め、前記第２の声質で予め発声された前記所定の言語情報を表す音声のそれぞれを分析することで、前記第２の声質の音声のそれぞれの前記系列内変動を求める分析部と、
前記第１の声質の音声のそれぞれについて前記分析部で得られた特徴量と、前記第２の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動との対応関係を学習することで、前記変換モデルとして、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量に対して、前記第１の声質の音声を前記第２の声質で表す音声の前記系列内変動が示す確率分布を求める学習部とを有する
ことを特徴とする音声合成装置。
請求項２に記載の音声合成装置において、
前記分析部は、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量として、前記第１の声質の音声のそれぞれに含まれる調音成分の分散である系列内変動を求め、
前記学習部は、前記第１の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動と、前記第２の声質の音声のそれぞれについて前記分析部で得られた前記系列内変動との対応関係を学習することで、前記変換モデルとして、前記第１の声質の音声の前記系列内変動に対して、前記第１の声質の音声を前記第２の声質で表す音声の前記系列内変動が示す確率分布を正規分布あるいは混合正規分布として示す確率密度関数を求める
ことを特徴とする音声合成装置。
第１の声質及び前記第１の声質と異なる第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第１の声質の音声の特徴量に対して前記第２の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
前記第１の声質から前記第２の声質への変換の対象となる前記第１の声質の音声を受け、受けた音声の特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第２の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記変換の対象となる前記第１の声質の音声を前記第２話者の声質で表す音声として、前記平均及び分散で特定される系列内変動を持つ音声を生成する
ことを特徴とする音声合成方法。
第１の声質及び前記第１の声質と異なる第２の声質のそれぞれで予め発声された所定の言語情報を表す音声を用いて、前記第１の声質の音声に含まれる調音成分の複雑さを示す特徴量と、前記第２の声質の音声に含まれる調音成分の分散である系列内変動との間の対応関係を学習することで、前記第１の声質の音声の特徴量に対して前記第２の声質の音声の前記系列内変動を対応付ける変換モデルを生成し、
前記第１の声質から前記第２の声質への変換の対象となる前記第１の声質の音声を受け、受けた音声の特徴量と前記変換モデルとに基づいて、前記受けた音声を前記第２の声質で表す音声が示す前記系列内変動の平均及び分散を求め、
前記変換の対象となる前記第１の声質の音声を前記第２話者の声質で表す音声として、前記平均及び分散で特定される系列内変動を持つ音声を生成する、
処理をコンピュータに実行させることを特徴とする音声合成プログラム。
入力される言語情報を、前記言語情報を表す所定の声質を持つ音声に変換する変換部と、
前記所定の声質で予め発声された音声と前記音声によって表された言語情報とを用いて、前記言語情報を表す音声の複雑さを示す特徴量と、前記音声に含まれる調音成分の分散を示す系列内変動との間の対応関係を学習することで、任意の言語情報を表す音声の複雑さを示す特徴量に対して前記所定の声質の音声の前記系列内変動を対応付ける変換モデルを生成する生成部と、
前記変換部による変換の対象となる言語情報を受け、受けた言語情報を表す音声の複雑さを示す特徴量と前記変換モデルとに基づいて、前記受けた言語情報を表す前記所定の声質の音声が示す前記系列内変動の平均及び分散を求める特定部とを有し、
前記変換部は、前記変換の対象となる言語情報を前記所定の声質で表す音声として、前記特定部により求められた平均及び分散で特定される前記系列内変動を持つ音声を生成する
ことを特徴とする音声合成装置。