JP6827004B2

JP6827004B2 - 音声変換モデル学習装置、音声変換装置、方法、及びプログラム

Info

Publication number: JP6827004B2
Application number: JP2018013885A
Authority: JP
Inventors: 伸克北条; 弘和亀岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2021-02-10
Anticipated expiration: 2038-01-30
Also published as: JP2019132948A

Description

本発明は、音声変換モデル学習装置、音声変換装置、方法、及びプログラムに係り、変換対象の音声信号を目標の音声信号に変換するための音声変換モデル学習装置、音声変換装置、方法、及びプログラムに関する。

音声の訛りとは、国や地域や社会的な集団の違いにより生じる発音の違いのことである。聞き間違いが生じることにより、しばしば訛りは音声によるコミュニケーションを阻害する要因となる。したがって、音声の訛りを自動的に取り除くことにより、コミュニケーションを円滑なものにすることができる。

非ネイティブ音声の発音をネイティブ音声の発音に近づけることにより、訛りを取り除く手法として、dynamic frequency warping (DFW)に基づく音声スペクトルの変換を行う手法がある（非特許文献１）。

この手法の概要を図１８〜図２１に示す。

1.（時刻アライメント部）
非ネイティブ音声DB、ネイティブ音声DBに対し時刻アラインメントを行い、パラレル音声DBを得る（図１８（Ａ））。パラレル音声DBの各フレームについて非ネイティブ音声のスペクトル特徴量とネイティブ音声のスペクトル特徴量の結合ベクトルを構成し、結合ベクトルDBを構成する（図１８（Ｂ））。

2.（モデル学習部）結合ベクトルDBに対する尤度を最大化するGMMを学習（スペクトル変換GMM学習）することで、スペクトル変換GMMを得る。

3. スペクトル変換GMMの各クラスの平均パラメータを非ネイティブ音声スペクトル特徴量平均パラメータとネイティブ音声スペクトル特徴量平均パラメータに分割する。非ネイティブ音声スペクトル特徴量平均パラメータとネイティブ音声スペクトル特徴量平均パラメータを、それぞれ非ネイティブ音声スペクトル包絡とネイティブ音声スペクトル包絡へ変換する。非ネイティブ音声スペクトル包絡をネイティブ音声スペクトル包絡へ変換するDFWパラメータを抽出する。スペクトル変換GMMのパラメータと各クラスのDFWパラメータを合わせてDFWベクトル推定モデルを構成する（図１９）。

4. 図２０に示すように、入力された非ネイティブ音声に音声パラメータ抽出を行い、スペクトルとF0を得る。スペクトルとDFWベクトル推定モデルからネイティブスペクトル推定を行い、推定ネイティブスペクトルを得る（図２１）。推定ネイティブスペクトルとF0から音声波形生成を行い、合成音声波形を得る。

Daniel Erro, Asunci_on Moreno、 and Antonio Bonafonte, "Voice conversion based on weighted frequency warping," IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 5, pp. 922-931, 2010.

スペクトル変換GMMの各クラスの平均ベクトルは、各クラスに対応するフレームの非ネイティブ音声のスペクトル特徴量、ネイティブ音声のスペクトル特徴量を統計処理（平均）することにより得られる。一般に、統計処理された特徴量は平滑化し、詳細な情報を失う傾向にある。従って、得られるスペクトル変換GMMの各状態の平均ベクトルは、平滑化し、詳細な情報を失う傾向にある。従来技術は、平滑化した平均ベクトルに対しDFWパラメータ抽出を行なうため、得られるDFWパラメータもまた平滑化し、詳細な情報が失われる。平滑化したDFWパラメータでは、スペクトルを周波数方向に大きく変換できない。つまり、平滑化したDFWパラメータによるスペクトル変換は、非ネイティブ音声スペクトルをネイティブ音声スペクトルに十分に近づけることができない。したがって、従来手法では、非ネイティブ音声の訛りを十分に取り除くことができない。

本発明は、上記課題を解決するためになされたものであり、変換音声の音質を向上させることができる音声変換モデル学習装置、音声変換装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る音声変換モデル学習装置は、変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置であって、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、ＤＦＷ（dynamic frequency warping）ベクトルを抽出するＤＦＷベクトル抽出部と、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記ＤＦＷベクトルとを結合した結合ベクトルを生成する結合ベクトル生成部と、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、前記音声変換モデルとして学習するモデル学習部と、を含んで構成されている。

本発明に係る音声変換モデル学習方法は、変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、ＤＦＷベクトル抽出部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、ＤＦＷ（dynamic frequency warping）ベクトルを抽出し、結合ベクトル生成部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記ＤＦＷベクトルとを結合した結合ベクトルを生成し、モデル学習部が、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、前記音声変換モデルとして学習する。

本発明に係る音声変換装置は、変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定するＤＦＷベクトル推定部と、各フレームに対し、前記変換対象の音声信号と、前記ＤＦＷベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定するスペクトル特徴量推定部と、前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、を含み、前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータである。

本発明に係る音声変換方法は、変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、ＤＦＷベクトル推定部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定し、スペクトル特徴量推定部が、各フレームに対し、前記変換対象の音声信号と、前記ＤＦＷベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定し、音声信号生成部が、前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成することを含み、前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータである。

本発明に係るプログラムは、上記の音声変換モデル学習装置または音声変換装置の各部としてコンピュータを機能させるためのプログラムである。

以上説明したように、本発明の音声変換モデル学習装置、方法、及びプログラムによれば、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを学習することにより、変換音声の音質を向上させることができる、という効果が得られる。

また、本発明の音声変換装置、方法、及びプログラムによれば、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを用いて、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる、という効果が得られる。

本発明の第１の実施の形態に係る音声変換モデル学習装置の構成を示す概略図である。本発明の第１の実施の形態に係る音声変換モデル学習装置のモデル学習部の構成を示すブロック図である。本発明の第１の実施の形態に係る音声変換モデル学習装置のＤＦＷベクトル抽出部の構成を示すブロック図である。本発明の第１の実施の形態に係る音声変換モデル学習装置のＤＦＷ推定モデル学習部の構成を示すブロック図である。本発明の第１の実施の形態に係る音声変換装置の構成を示す概略図である。本発明の第１の実施の形態に係る音声変換装置のネイティブスペクトル推定部の構成を示すブロック図である。本発明の第１の実施の形態に係る音声変換モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。本発明の第１の実施の形態に係る音声変換装置における音声変換処理ルーチンの内容を示すフローチャートである。本発明の第２の実施の形態に係る音声変換モデル学習装置のモデル学習部の構成を示すブロック図である。本発明の第２の実施の形態に係る音声変換モデル学習装置の動的特徴ＤＦＷベクトル抽出部の構成を示すブロック図である。本発明の第３の実施の形態に係る音声変換モデル学習装置のモデル学習部の構成を示すブロック図である。本発明の第３の実施の形態に係る音声変換モデル学習装置の差分スペクトル抽出部の構成を示すブロック図である。本発明の第３の実施の形態に係る音声変換モデル学習装置の差分スペクトル推定モデル学習部の構成を示すブロック図である。本発明の第３の実施の形態に係る音声変換装置の構成を示す概略図である。本発明の第３の実施の形態に係る音声変換装置のネイティブスペクトル推定部の構成を示すブロック図である。本発明の第３の実施の形態に係る音声変換モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。本発明の第３の実施の形態に係る音声変換装置における音声変換処理ルーチンの内容を示すフローチャートである。従来手法における時刻アライメント部の構成及び結合ベクトル生成部の構成を示す図である。従来手法におけるモデル学習部の構成を示す図である。従来手法における音声変換部の構成を示す図である。従来手法におけるネイティブスペクトル推定部の構成を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声特徴量を変換し、変換した特徴量から音声信号を合成することを目的とした音声変換技術である。

＜本発明の実施の形態の概要＞
パラレル音声DBの各フレームのスペクトル対から、DFWベクトルを抽出し、DFWベクトル推定モデルの学習に使用する。各フレームのスペクトル対は、統計処理により平滑化していないので、本技術により得られるDFWベクトルは平滑化しない。平滑化しないDFWベクトルからDFWベクトル推定モデルを学習することができるので、DFWベクトル推定モデルのパラメータもまた平滑化しない。平滑化しないパラメータを持つDFWベクトル推定モデルにより、非ネイティブ音声スペクトルをネイティブ音声スペクトルに十分に近づけることができる。したがって、提案技術により、非ネイティブ音声の訛りをより効果的に取り除くことができる。

[第１の実施の形態]
＜システム構成＞
＜音声変換モデル学習装置の構成＞
次に、変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置、及び学習された音声変換モデルを用いて変換対象の音声信号を目標の音声信号に変換する音声変換装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。

図１に示すように、本発明の実施の形態に係る音声変換モデル学習装置は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図１に示すように、音声変換モデル学習装置１００は、入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、学習サンプルの変換対象の音声信号（例えば非ネイティブ話者による発話音声）の時系列データと目標の音声信号（例えばネイティブ話者による発話音声）の時系列データとのペアを受け付ける。

演算部２０は、特徴量抽出部２２、非ネイティブ音声データベース２４と、ネイティブ音声データベース２６と、時刻アライメント部２８と、モデル学習部３０とを備えている。

特徴量抽出部２２は、学習サンプルの変換対象の音声信号の時系列データに対して信号処理を行って、スペクトル包絡、スペクトル特徴量（メルケプストラムなど）、F0（音高）を抽出する。

特徴量抽出部２２は、学習サンプルの目標の音声信号の時系列データに対して信号処理を行って、スペクトル包絡、スペクトル特徴量（メルケプストラムなど）、F0（音高）を抽出する。

非ネイティブ音声データベース２４は、学習サンプルの変換対象の音声信号の時系列データと、特徴量抽出部２２によって抽出されたスペクトル包絡、スペクトル特徴量（メルケプストラムなど）、F0（音高）とを記憶する。

ネイティブ音声データベース２６は、学習サンプルの目標の音声信号の時系列データと、特徴量抽出部２２によって抽出されたスペクトル包絡、スペクトル特徴量（メルケプストラムなど）、F0（音高）とを記憶する。なお、含まれる発話数Nは非ネイティブ音声データベース２４と同一とする。また、非ネイティブ音声データベース２４、ネイティブ音声データベース２６のそれぞれn番目の発話の内容は同一とする。

時刻アライメント部２８は、同一の発話内容を持つ変換対象の音声信号の時系列データと目標の音声信号の時系列データのペアについて、２つの音声間の時間対応を取る。

モデル学習部３０は、図２に示すように、パラレル音声データベース３２、ＤＦＷベクトル抽出部３４、ＤＦＷベクトルデータベース３６、ＤＦＷベクトル推定モデル学習部３８、及びＤＦＷベクトル推定モデル４０を備えている。

パラレル音声データベース３２は、非ネイティブ音声データベース２４、及びネイティブ音声データベース２６に対して時刻アラインメントを行った結果得られる、データベースであり、非ネイティブ音声、ネイティブ音声の間で時間対応の取られたスペクトル包絡、スペクトル特徴量、F0などのパラメータを記憶する。以下では、パラレル音声データベース３４に含まれる総フレーム数をTとする。フレームtにおける、非ネイティブ音声のスペクトル包絡、スペクトル特徴量、F0を、それぞれ

で表す。ここで、スペクトル包絡の次元数をF、スペクトル特徴量の次元数をMとした。同様に、ネイティブ音声のスペクトル包絡、スペクトル特徴量、F0を、それぞれ

で表す。

ＤＦＷベクトル抽出部３４は、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、ＤＦＷ（dynamic frequency warping）ベクトルを抽出する。

ＤＦＷベクトルデータベース３６は、パラレル音声データベース３２の各フレームについて、非ネイティブ音声スペクトル包絡とネイティブ音声スペクトル包絡に対しDFWベクトル抽出を行なった結果得られるDFWベクトルを記憶する。各フレーム

について、

で表す。

具体的には、パラレル音声データベース３２の各フレームtについて、非ネイティブ音声、ネイティブ音声のスペクトル包絡

から、DFWベクトルw_tを算出する。

ＤＦＷベクトル抽出部３４は、図３に示すように、距離行列計算部４２及びベクトル抽出部４４を備えている。

距離行列計算部４２は、非ネイティブ音声、ネイティブ音声のスペクトル包絡

から、距離行列D_tを計算する。ここで、距離行列はF×Fの行列で、そのi 行j列の成分を

とするとき、

(1)

とする。ここで、

はスカラーx,yの距離関数とする。例えば、二乗誤差

や対数二乗誤差

を用いる。

ベクトル抽出部４４は、距離行列D_tから、以下を満たすDFWベクトルw_tを算出する。

(2)

式(2)は、動的計画法（非特許文献２）を用いて、効率的に解を求めることができる。

非特許文献２：Richard Bellman, "The theory of dynamic programming," Tech. Rep., RAND CORP SANTA MONICA CA, 1954.

ＤＦＷベクトル推定モデル学習部３８は、図４に示すように、結合ベクトル生成部４６、結合ベクトルデータベース４７、及びＧＭＭ学習部４８を備えている。

結合ベクトル生成部４６は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、ＤＦＷベクトルとを結合した結合ベクトルを生成する。

具体的には、パラレル音声データベース３２及びＤＦＷベクトルデータベース３６の各フレーム

について、m^(s) _t、w_tから結合ベクトルz_tを生成し、結果を結合ベクトルデータベース４７に格納する。例えば、

とする。次元を削減するために、関数gを用いて

としても良い。関数gとして、例えば離散コサイン変換を使用する。

ＧＭＭ学習部４８は、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、音声変換モデルとして学習し、ＤＦＷベクトル推定モデル４０に格納する。

具体的には、結合ベクトルデータベース４７に含まれる

に対し、下記の尤度関数

を最大化するGaussian mixture model (GMM)のパラメータ

を得る。

(3)

上記の尤度関数の最大化は、例えばEMアルゴリズムが使用できる。

出力部５０は、ＤＦＷベクトル推定モデル４０に記憶されている音声変換モデルである、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを出力する。

＜音声変換装置の構成＞
図５に示すように、本発明の実施の形態に係る音声変換装置１５０は、ＣＰＵと、ＲＡＭと、後述する音声変換処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図５に示すように、音声変換装置１５０は、入力部６０と、演算部７０と、出力部９０とを備えている。

入力部６０は、変換対象の音声信号（例えば非ネイティブの音声信号）の時系列データを受け付ける。

演算部７０は、ＤＦＷベクトル推定モデル７２と、音声パラメータ抽出部７４と、ネイティブスペクトル推定部７６と、音声信号生成部７８とを備えている。

ＤＦＷベクトル推定モデル７２は、ＤＦＷベクトル推定モデル４０と同じ、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、音声変換モデルとして記憶する。

音声パラメータ抽出部７４は、入力部６０によって受け付けた変換対象の音声信号の時系列データに対して信号処理を行って、スペクトル包絡、スペクトル特徴量（メルケプストラムなど）、F0（音高）を抽出する。

ネイティブスペクトル推定部７６は、図６に示すように、ＤＦＷベクトル推定部８０及びスペクトル特徴量推定部８２を備えている。

ＤＦＷベクトル推定部８０は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、ＤＦＷベクトル推定モデル７２とに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定する。

具体的には、入力された非ネイティブスペクトル特徴量のフレーム長さをT^tとする。また、各フレーム

に対応するスペクトル特徴量をm_tとする。まず、DFWベクトル推定を行い、推定DFWベクトル^{^}w_tを得る。

(4)

(5)

ここで、

はクラスiのスペクトル包絡特徴量とDFWベクトルに対応する次元の平均ベクトルとする。結合ベクトル生成において関数gにより次元圧縮を行なった場合は、逆関数g^-1を用いて、下記の様に推定DFWベクトル^{^}w_tを得る。

(6)

(7)

例えばgとして離散コサイン変換を使用した場合、g^-1として逆離散コサイン変換を使用する。実数値のベクトルとして得られる推定DFWベクトルを四捨五入し、整数列へと変換する。

スペクトル特徴量推定部８２は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、ＤＦＷベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定する。

具体的には、スペクトル包絡

と推定DFWベクトル^{^}w_tを用いてDFWを行い、推定ネイティブスペクトル特徴量

を得る。

(8)

音声信号生成部７８は、スペクトル特徴量推定部８２によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルと、変換対象の音声信号のF0（音高）とに基づいて、目標の音声信号の時系列データを生成し、出力部９０により出力する。

＜音声変換モデル学習装置の作用＞
次に、第１の実施の形態に係る音声変換モデル学習装置１００の作用について説明する。まず、学習サンプルの変換対象の音声信号（例えば非ネイティブ話者による発話音声）の時系列データと目標の音声信号（例えばネイティブ話者による発話音声）の時系列データとのペアが、音声変換モデル学習装置１００に入力されると、音声変換モデル学習装置１００において、図７に示す学習処理ルーチンが実行される。

まず、ステップＳ１００において、入力部１０によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量（メルケプストラムなど）、F0（音高）を抽出する。また、入力部１０によって受け付けた学習サンプルの目標の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量（メルケプストラムなど）、F0（音高）を抽出する。

ステップＳ１０２では、同一の発話内容を持つ変換対象の音声信号の時系列データと目標の音声信号の時系列データのペアについて、２つの音声間の時間対応を取り、非ネイティブ音声、ネイティブ音声の間で時間対応の取られたスペクトル包絡、スペクトル特徴量、F0などのパラメータをパラレル音声データベース３２に格納する。

ステップＳ１０４では、パラレル音声データベース３２の各フレームtについて、非ネイティブ音声、ネイティブ音声のスペクトル包絡

から、DFWベクトルw_tを算出する。

ステップＳ１０６では、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、ＤＦＷベクトルとを結合した結合ベクトルを生成する。

ステップＳ１０８では、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、音声変換モデルとして学習し、ＤＦＷベクトル推定モデル４０に格納する。

そして、学習され結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータが、出力部５０により出力され、学習処理ルーチンを終了する。

＜音声変換装置の作用＞
次に、第１の実施の形態に係る音声変換装置１５０の作用について説明する。まず、音声変換モデル学習装置１００によって学習された結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータが、音声変換装置１５０に入力されると、ＤＦＷベクトル推定モデル７２に格納される。また、変換対象の音声信号（例えば非ネイティブの音声信号）の時系列データが、音声変換装置１５０に入力されると、音声変換装置１５０において、図８に示す音声変換処理ルーチンが実行される。

まず、ステップＳ１１０において、入力部６０によって受け付けた変換対象の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量（メルケプストラムなど）、F0（音高）を抽出する。

ステップＳ１１２において、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、ＤＦＷベクトル推定モデル７２とに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定する。

ステップＳ１１４において、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、ＤＦＷベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定する。

ステップＳ１１６では、上記ステップＳ１１４において各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルと、上記ステップＳ１１０で抽出された変換対象の音声信号のF0（音高）とに基づいて、目標の音声信号の時系列データを生成し、出力部９０により出力して、音声変換処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係る音声変換モデル学習装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを学習することにより、変換音声の音質を向上させることができる。

また、第１の実施の形態に係る音声変換装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを用いて、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる。

[第２の実施の形態]

次に、第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

＜第２の実施の形態の概要＞
第１の実施の形態では、DFWベクトル抽出時に、対数スペクトルの二乗距離などの距離尺度を使用すると、スペクトルピークが平坦になり、音声の高調波が失われ、音声品質を損なう懸念がある。第２の実施の形態では、周波数方向の差分スペクトル（動的特徴）を距離行列計算に使用する。動的特徴を含めた距離尺度を採用することで、スペクトルの増減の傾向をDFWベクトル抽出に反映させることができるため、スペクトルピークが平坦になる傾向を回避することができる。

＜システム構成＞
＜音声変換モデル学習装置の構成＞
図９に示すように、第２の実施の形態に係る音声変換モデル学習装置１００のモデル学習部３０は、パラレル音声データベース３２、動的特徴ＤＦＷベクトル抽出部２３４、ＤＦＷベクトルデータベース３６、ＤＦＷベクトル推定モデル学習部３８、及びＤＦＷベクトル推定モデル４０を備えている。すなわち、ＤＦＷベクトル抽出の代わりに動的特徴ＤＦＷベクトル抽出を行う点を除いて、第１の実施の形態のモデル学習部３０と同様である。

動的特徴ＤＦＷベクトル抽出部２３４は、対応するフレームのスペクトル包絡の成分間の距離と、対応するフレームの周波数差分特徴量間の距離とに基づいて、動的特徴ＤＦＷベクトルを抽出する。

具体的には、図１０に示すように、動的特徴ＤＦＷベクトル抽出部２３４は、動的特徴距離行列計算部２４２及びベクトル抽出部４４を備えている。すなわち、動的特徴ＤＦＷベクトル抽出部２３４は、距離行列計算の代わりに動的特徴距離行列計算を行う点を除いて、第１の実施の形態のＤＦＷベクトル抽出部３４と同様である。

動的特徴距離行列計算部２４２は、距離行列計算の際に、周波数差分特徴量間の距離を可算する。例えば、あるスペクトル

の周波数差分特徴量

を

(9)

と定義し、距離行列を

(10)

とする。ただし、γは周波数差分特徴量の距離に対する重みとする。

なお、第２の実施の形態に係る音声変換モデル学習装置１００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

また、第２の実施の形態に係る音声変換装置１５０の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係る音声変換モデル学習装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、動的特徴ＤＦＷベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを学習することにより、変換音声の音質を向上させることができる。

また、第２の実施の形態に係る音声変換装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、動的特徴ＤＦＷベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを用いて、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる。

[第３の実施の形態]
次に、第３の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

＜第３の実施の形態の概要＞
第１の実施の形態では、非ネイティブ音声のスペクトルを周波数方向のみに変換するため、パワー方向にはスペクトルを変換することができない。したがって、スペクトルを十分にネイティブ音声のものに近づけることができない懸念がある。本実施の形態では、パワー方向のスペクトル差分を予測するモデルを使用することで、パワー方向のスペクトル変換を可能とする。スペクトルを十分にネイティブ音声のものに近づけることが可能となり、非ネイティブ音声の訛りを十分に取り除くことができる。

＜システム構成＞
＜音声変換モデル学習装置の構成＞
図１１に示すように、第３の実施の形態に係る音声変換モデル学習装置１００のモデル学習部３０は、パラレル音声データベース３２、ＤＦＷベクトル抽出部３４、ＤＦＷベクトルデータベース３６、ＤＦＷベクトル推定モデル学習部３８、ＤＦＷベクトル推定モデル４０、差分スペクトル抽出部３３４、差分スペクトルデータベース３３６、差分スペクトル推定モデル学習部３３８、及び差分スペクトル推定モデル３４０を備えている。すなわち、第１の実施の形態と同様にDFWベクトル抽出、DFWベクトル推定モデル学習を行なったのち、得られたＤＦＷベクトル推定モデル４０とパラレル音声データベース３２を用いて差分スペクトル抽出を行い、差分スペクトルデータベース３３６を得る。差分スペクトルデータベース３３６とパラレル音声データベース３２から、差分スペクトル推定モデル学習を行い、差分スペクトル推定モデル３４０を得る。

差分スペクトル抽出部３３４は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、ＤＦＷベクトル推定モデル４０とに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定して、目標の音声信号のスペクトル包絡を推定し、差分スペクトルを算出する。

具体的には、差分スペクトル抽出部３３４は、図１２に示すように、ネイティブスペクトル包絡推定部３４２及び差分スペクトル算出部３４４を備えている。

ネイティブスペクトル包絡推定部３４２は、パラレル音声データベース３２の各フレーム

について、非ネイティブスペクトル包絡s^(s) _tとＤＦＷベクトル推定モデル４０から、ネイティブスペクトル包絡推定を行い、推定ネイティブスペクトル包絡^{^}s^(t) _tを得る。ここで、ネイティブスペクトル包絡推定は、第１の実施の形態のものと同様とする。

差分スペクトル算出部３４４は、推定ネイティブスペクトル包絡^{^}s^(t) _tとネイティブスペクトル包絡s^(t) _tから、差分スペクトル算出を行い、差分スペクトルr_tを得て、差分スペクトルデータベース３３６に格納する。例えば、下記のように、対数スペクトルの差分を計算し、差分スペクトルとする。

(11)

差分スペクトル推定モデル学習部３３８は、図１３に示すように、差分スペクトル結合ベクトル生成部３４６、差分スペクトル結合ベクトルデータベース３４８、及びＧＭＭ学習部３５０を備えている。

差分スペクトル結合ベクトル生成部３４６は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、差分スペクトルとを結合した差分スペクトル結合ベクトルを生成し、差分スペクトル結合ベクトルデータベース３４８に格納する。

ＧＭＭ学習部３５０は、各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、差分スペクトル結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、差分スペクトル推定モデルとして学習する。なお、ＧＭＭ学習では、ＤＦＷベクトルデータベース３６の代わりに差分スペクトルデータベース３３６を用いる点を除いて、第１の実施の形態のＧＭＭ学習部４８と同様である。

＜音声変換装置の構成＞
図１４に示すように、第３の実施の形態に係る音声変換装置４００の演算部４７０は、ＤＦＷベクトル推定モデル７２と、音声パラメータ抽出部７４と、差分スペクトル推定モデル３７２と、ネイティブスペクトル推定部３７６と、音声信号生成部７８とを備えている。

差分スペクトル推定モデル３７２は、差分スペクトル推定モデル３４０と同じ、差分スペクトル結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを記憶する。

ネイティブスペクトル推定部３７６は、図１５に示すように、ＤＦＷベクトル推定部８０、スペクトル特徴量推定部８２、差分スペクトル推定部３８０、及びスペクトル加算部３８２を備えている。

差分スペクトル推定部３８０は、各フレームに対し、非ネイティブスペクトル特徴量と差分スペクトル推定モデルから、推定差分スペクトルを得る。DFWベクトル推定モデルの代わりに差分スペクトル推定モデルを使用する点を除いて、DFWベクトル推定と同様のアルゴリズムで差分スペクトル推定を行うことができる。

スペクトル加算部３８２は、各フレームに対し、スペクトル特徴量推定部８２によって推定された、変換対象の音声信号のスペクトル特徴量を表すベクトルに、差分スペクトルを加算する。

具体的には、各フレームtにおける推定ネイティブスペクトル包絡^{^}s^(t) _tと推定差分スペクトル^{^}r_tから、差分スペクトル加算推定ネイティブスペクトル包絡^{^}s^(t),r _tを得る。例えば、式(11)により差分スペクトル算出を行なった場合、

(12)

とする。ここで、λは正の実数であり、差分スペクトルの重みを表す。

音声信号生成部７８は、スペクトル特徴量推定部８２によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに、差分スペクトルを加算した結果と、変換対象の音声信号のF0（音高）とに基づいて、目標の音声信号の時系列データを生成し、出力部９０により出力する。

＜音声変換モデル学習装置の作用＞
次に、第３の実施の形態に係る音声変換モデル学習装置１００の作用について説明する。なお、第１の実施の形態と同様の処理については同一符号を付して詳細な説明を省略する。

まず、学習サンプルの変換対象の音声信号（例えば非ネイティブ話者による発話音声）の時系列データと目標の音声信号（例えばネイティブ話者による発話音声）の時系列データとのペアが、音声変換モデル学習装置１００に入力されると、音声変換モデル学習装置１００において、図１６に示す学習処理ルーチンが実行される。

ステップＳ３００では、パラレル音声データベース３２の各フレーム

について、非ネイティブスペクトル包絡s^(s) _tとＤＦＷベクトル推定モデル４０から、ネイティブスペクトル包絡推定を行い、推定ネイティブスペクトル包絡^{^}s^(t) _tを得る。

ステップＳ３０２では、推定ネイティブスペクトル包絡^{^}s^(t) _tとネイティブスペクトル包絡s^(t) _tから、差分スペクトル算出を行い、差分スペクトルr_tを得て、差分スペクトルデータベース３３６に格納する。

ステップＳ３０４では、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、差分スペクトルとを結合した差分スペクトル結合ベクトルを生成し、差分スペクトル結合ベクトルデータベース３４８に格納する。

ステップＳ３０６では、各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、差分スペクトル結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、差分スペクトル推定モデルとして学習し、学習され結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータ、及び差分スペクトル結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータが、出力部５０により出力され、学習処理ルーチンを終了する。

＜音声変換装置の作用＞
次に、第３の実施の形態に係る音声変換装置１５０の作用について説明する。まず、音声変換モデル学習装置１００によって学習された結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータが、音声変換装置１５０に入力されると、ＤＦＷベクトル推定モデル７２に格納され、

差分スペクトル結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータが、音声変換装置１５０に入力されると、差分スペクトル推定モデル３７２に格納される。また、変換対象の音声信号（例えば非ネイティブの音声信号）の時系列データが、音声変換装置１５０に入力されると、音声変換装置１５０において、図１７に示す音声変換処理ルーチンが実行される。

ステップＳ３１０において、各フレームに対し、非ネイティブスペクトル特徴量と差分スペクトル推定モデルから、推定差分スペクトルを得る。

ステップＳ３１２では、各フレームに対し、スペクトル特徴量推定部８２によって推定された、変換対象の音声信号のスペクトル特徴量を表すベクトルに、差分スペクトルを加算する。

ステップＳ３１４では、上記ステップＳ３１２において各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに差分スペクトルを加算した結果と、上記ステップＳ１１０で抽出された変換対象の音声信号のF0（音高）とに基づいて、目標の音声信号の時系列データを生成し、出力部９０により出力して、音声変換処理ルーチンを終了する。

以上説明したように、第３の実施の形態に係る音声変換モデル学習装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを学習し、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定して、目標の音声信号のスペクトル包絡を推定し、差分スペクトルを算出し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、差分スペクトルとを結合した差分スペクトル結合ベクトルを生成し、各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、差分スペクトル結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを学習することにより、変換音声の音質を向上させることができる。

また、第３の実施の形態に係る音声変換装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータと、変換対象の音声信号のスペクトル特徴量を表すベクトルと、差分スペクトルとを結合した各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、差分スペクトル結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを用いて、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる、という効果が得られる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施形態では、音声変換モデル学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。

また、上述の音声変換モデル学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０、６０入力部
２０、７０、４７０演算部
２２特徴量抽出部
２４非ネイティブ音声データベース
２６ネイティブ音声データベース
２８時刻アライメント部
３０モデル学習部
３２パラレル音声データベース
３４ベクトル抽出部
３４パラレル音声データベース
３６ＤＦＷベクトルデータベース
３８ＤＦＷベクトル推定モデル学習部
４０ＤＦＷベクトル推定モデル
４２距離行列計算部
４４ベクトル抽出部
４６結合ベクトル生成部
４７結合ベクトルデータベース
４８ＧＭＭ学習部
５０、９０出力部
７２ベクトル推定モデル
７４音声パラメータ抽出部
７６ネイティブスペクトル推定部
７８音声信号生成部
８０ＤＦＷベクトル推定部
８２スペクトル特徴量推定部
１００音声変換モデル学習装置
１５０、４００音声変換装置
２３４動的特徴ＤＦＷベクトル抽出部
２４２動的特徴距離行列計算部
３３４差分スペクトル抽出部
３３６差分スペクトルデータベース
３３８差分スペクトル推定モデル学習部
３４０差分スペクトル推定モデル
３４２ネイティブスペクトル包絡推定部
３４４差分スペクトル算出部
３４６差分スペクトル結合ベクトル生成部
３４６差分結合ベクトル生成部
３４８差分スペクトル結合ベクトルデータベース
３５０ＧＭＭ学習部
３７２差分スペクトル推定モデル
３７６ネイティブスペクトル推定部
３８０差分スペクトル推定部
３８２スペクトル加算部

Claims

変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置であって、
前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、ＤＦＷ（dynamic frequency warping）ベクトルを抽出するＤＦＷベクトル抽出部と、
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記ＤＦＷベクトルとを結合した結合ベクトルを生成する結合ベクトル生成部と、
各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、前記音声変換モデルとして学習するモデル学習部と、
を含む音声変換モデル学習装置。
前記ＤＦＷベクトル抽出部は、対応するフレームのスペクトル包絡の成分間の距離と、対応するフレームの周波数差分特徴量間の距離とに基づいて、前記ＤＦＷベクトルを抽出する請求項１記載の音声変換モデル学習装置。
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定して、前記目標の音声信号のスペクトル包絡を推定し、差分スペクトルを算出する差分スペクトル抽出部と、
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記差分スペクトルとを結合した差分スペクトル結合ベクトルを生成する差分スペクトル結合ベクトル生成部と、
各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記差分スペクトル結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、差分スペクトル推定モデルとして学習する差分スペクトル推定モデル学習部と、
を更に含む請求項１又は２記載の音声変換モデル学習装置。
変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定するＤＦＷベクトル推定部と、
各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記ＤＦＷベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定するスペクトル特徴量推定部と、
前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、
を含み、
前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータである音声変換装置。
変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、
ＤＦＷベクトル抽出部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、ＤＦＷ（dynamic frequency warping）ベクトルを抽出し、
結合ベクトル生成部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記ＤＦＷベクトルとを結合した結合ベクトルを生成し、
モデル学習部が、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータを、前記音声変換モデルとして学習する
音声変換モデル学習方法。
前記ＤＦＷベクトル抽出部が抽出することでは、対応するフレームのスペクトル包絡の成分間の距離と、対応するフレームの周波数差分特徴量間の距離とに基づいて、前記ＤＦＷベクトルを抽出する請求項５記載の音声変換モデル学習方法。
変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、
ＤＦＷベクトル推定部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、ＤＦＷ（dynamic frequency warping）ベクトルを推定し、
スペクトル特徴量推定部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記ＤＦＷベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定し、
音声信号生成部が、前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成すること
を含み、
前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、ＤＦＷベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するＧＭＭ（Gaussian mixture model）のパラメータである音声変換方法。
請求項１〜請求項３のいずれか１項に記載の音声変換モデル学習装置又は請求項４に記載の音声変換装置の各部としてコンピュータを機能させるためのプログラム。