JP6827004B2 - 音声変換モデル学習装置、音声変換装置、方法、及びプログラム - Google Patents

音声変換モデル学習装置、音声変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP6827004B2
JP6827004B2 JP2018013885A JP2018013885A JP6827004B2 JP 6827004 B2 JP6827004 B2 JP 6827004B2 JP 2018013885 A JP2018013885 A JP 2018013885A JP 2018013885 A JP2018013885 A JP 2018013885A JP 6827004 B2 JP6827004 B2 JP 6827004B2
Authority
JP
Japan
Prior art keywords
vector
voice
dfw
frame
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018013885A
Other languages
English (en)
Other versions
JP2019132948A (ja
Inventor
伸克 北条
伸克 北条
弘和 亀岡
弘和 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018013885A priority Critical patent/JP6827004B2/ja
Publication of JP2019132948A publication Critical patent/JP2019132948A/ja
Application granted granted Critical
Publication of JP6827004B2 publication Critical patent/JP6827004B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声変換モデル学習装置、音声変換装置、方法、及びプログラムに係り、変換対象の音声信号を目標の音声信号に変換するための音声変換モデル学習装置、音声変換装置、方法、及びプログラムに関する。
音声の訛りとは、国や地域や社会的な集団の違いにより生じる発音の違いのことである。聞き間違いが生じることにより、しばしば訛りは音声によるコミュニケーションを阻害する要因となる。したがって、音声の訛りを自動的に取り除くことにより、コミュニケーションを円滑なものにすることができる。
非ネイティブ音声の発音をネイティブ音声の発音に近づけることにより、訛りを取り除く手法として、dynamic frequency warping (DFW)に基づく音声スペクトルの変換を行う手法がある(非特許文献1)。
この手法の概要を図18〜図21に示す。
1.(時刻アライメント部)
非ネイティブ音声DB、ネイティブ音声DBに対し時刻アラインメントを行い、パラレル音声DBを得る(図18(A))。パラレル音声DBの各フレームについて非ネイティブ音声のスペクトル特徴量とネイティブ音声のスペクトル特徴量の結合ベクトルを構成し、結合ベクトルDBを構成する(図18(B))。
2.(モデル学習部)結合ベクトルDBに対する尤度を最大化するGMMを学習(スペクトル変換GMM学習)することで、スペクトル変換GMMを得る。
3. スペクトル変換GMMの各クラスの平均パラメータを非ネイティブ音声スペクトル特徴量平均パラメータとネイティブ音声スペクトル特徴量平均パラメータに分割する。非ネイティブ音声スペクトル特徴量平均パラメータとネイティブ音声スペクトル特徴量平均パラメータを、それぞれ非ネイティブ音声スペクトル包絡とネイティブ音声スペクトル包絡へ変換する。非ネイティブ音声スペクトル包絡をネイティブ音声スペクトル包絡へ変換するDFWパラメータを抽出する。スペクトル変換GMMのパラメータと各クラスのDFWパラメータを合わせてDFWベクトル推定モデルを構成する(図19)。
4. 図20に示すように、入力された非ネイティブ音声に音声パラメータ抽出を行い、スペクトルとF0を得る。スペクトルとDFWベクトル推定モデルからネイティブスペクトル推定を行い、推定ネイティブスペクトルを得る(図21)。推定ネイティブスペクトルとF0から音声波形生成を行い、合成音声波形を得る。
Daniel Erro, Asunci_on Moreno、 and Antonio Bonafonte, "Voice conversion based on weighted frequency warping," IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 5, pp. 922-931, 2010.
スペクトル変換GMMの各クラスの平均ベクトルは、各クラスに対応するフレームの非ネイティブ音声のスペクトル特徴量、ネイティブ音声のスペクトル特徴量を統計処理(平均)することにより得られる。一般に、統計処理された特徴量は平滑化し、詳細な情報を失う傾向にある。従って、得られるスペクトル変換GMMの各状態の平均ベクトルは、平滑化し、詳細な情報を失う傾向にある。従来技術は、平滑化した平均ベクトルに対しDFWパラメータ抽出を行なうため、得られるDFWパラメータもまた平滑化し、詳細な情報が失われる。平滑化したDFWパラメータでは、スペクトルを周波数方向に大きく変換できない。つまり、平滑化したDFWパラメータによるスペクトル変換は、非ネイティブ音声スペクトルをネイティブ音声スペクトルに十分に近づけることができない。したがって、従来手法では、非ネイティブ音声の訛りを十分に取り除くことができない。
本発明は、上記課題を解決するためになされたものであり、変換音声の音質を向上させることができる音声変換モデル学習装置、音声変換装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る音声変換モデル学習装置は、変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置であって、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、DFW(dynamic frequency warping)ベクトルを抽出するDFWベクトル抽出部と、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとを結合した結合ベクトルを生成する結合ベクトル生成部と、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、前記音声変換モデルとして学習するモデル学習部と、を含んで構成されている。
本発明に係る音声変換モデル学習方法は、変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、DFWベクトル抽出部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、DFW(dynamic frequency warping)ベクトルを抽出し、結合ベクトル生成部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとを結合した結合ベクトルを生成し、モデル学習部が、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、前記音声変換モデルとして学習する。
本発明に係る音声変換装置は、変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、DFW(dynamic frequency warping)ベクトルを推定するDFWベクトル推定部と、各フレームに対し、前記変換対象の音声信号と、前記DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定するスペクトル特徴量推定部と、前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、を含み、前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータである。
本発明に係る音声変換方法は、変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、DFWベクトル推定部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、DFW(dynamic frequency warping)ベクトルを推定し、スペクトル特徴量推定部が、各フレームに対し、前記変換対象の音声信号と、前記DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定し、音声信号生成部が、前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成することを含み、前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータである。
本発明に係るプログラムは、上記の音声変換モデル学習装置または音声変換装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の音声変換モデル学習装置、方法、及びプログラムによれば、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを学習することにより、変換音声の音質を向上させることができる、という効果が得られる。
また、本発明の音声変換装置、方法、及びプログラムによれば、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを用いて、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる、という効果が得られる。
本発明の第1の実施の形態に係る音声変換モデル学習装置の構成を示す概略図である。 本発明の第1の実施の形態に係る音声変換モデル学習装置のモデル学習部の構成を示すブロック図である。 本発明の第1の実施の形態に係る音声変換モデル学習装置のDFWベクトル抽出部の構成を示すブロック図である。 本発明の第1の実施の形態に係る音声変換モデル学習装置のDFW推定モデル学習部の構成を示すブロック図である。 本発明の第1の実施の形態に係る音声変換装置の構成を示す概略図である。 本発明の第1の実施の形態に係る音声変換装置のネイティブスペクトル推定部の構成を示すブロック図である。 本発明の第1の実施の形態に係る音声変換モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係る音声変換装置における音声変換処理ルーチンの内容を示すフローチャートである。 本発明の第2の実施の形態に係る音声変換モデル学習装置のモデル学習部の構成を示すブロック図である。 本発明の第2の実施の形態に係る音声変換モデル学習装置の動的特徴DFWベクトル抽出部の構成を示すブロック図である。 本発明の第3の実施の形態に係る音声変換モデル学習装置のモデル学習部の構成を示すブロック図である。 本発明の第3の実施の形態に係る音声変換モデル学習装置の差分スペクトル抽出部の構成を示すブロック図である。 本発明の第3の実施の形態に係る音声変換モデル学習装置の差分スペクトル推定モデル学習部の構成を示すブロック図である。 本発明の第3の実施の形態に係る音声変換装置の構成を示す概略図である。 本発明の第3の実施の形態に係る音声変換装置のネイティブスペクトル推定部の構成を示すブロック図である。 本発明の第3の実施の形態に係る音声変換モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。 本発明の第3の実施の形態に係る音声変換装置における音声変換処理ルーチンの内容を示すフローチャートである。 従来手法における時刻アライメント部の構成及び結合ベクトル生成部の構成を示す図である。 従来手法におけるモデル学習部の構成を示す図である。 従来手法における音声変換部の構成を示す図である。 従来手法におけるネイティブスペクトル推定部の構成を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声特徴量を変換し、変換した特徴量から音声信号を合成することを目的とした音声変換技術である。
<本発明の実施の形態の概要>
パラレル音声DBの各フレームのスペクトル対から、DFWベクトルを抽出し、DFWベクトル推定モデルの学習に使用する。各フレームのスペクトル対は、統計処理により平滑化していないので、本技術により得られるDFWベクトルは平滑化しない。平滑化しないDFWベクトルからDFWベクトル推定モデルを学習することができるので、DFWベクトル推定モデルのパラメータもまた平滑化しない。平滑化しないパラメータを持つDFWベクトル推定モデルにより、非ネイティブ音声スペクトルをネイティブ音声スペクトルに十分に近づけることができる。したがって、提案技術により、非ネイティブ音声の訛りをより効果的に取り除くことができる。
[第1の実施の形態]
<システム構成>
<音声変換モデル学習装置の構成>
次に、変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置、及び学習された音声変換モデルを用いて変換対象の音声信号を目標の音声信号に変換する音声変換装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図1に示すように、本発明の実施の形態に係る音声変換モデル学習装置は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図1に示すように、音声変換モデル学習装置100は、入力部10と、演算部20と、出力部50とを備えている。
入力部10は、学習サンプルの変換対象の音声信号(例えば非ネイティブ話者による発話音声)の時系列データと目標の音声信号(例えばネイティブ話者による発話音声)の時系列データとのペアを受け付ける。
演算部20は、特徴量抽出部22、非ネイティブ音声データベース24と、ネイティブ音声データベース26と、時刻アライメント部28と、モデル学習部30とを備えている。
特徴量抽出部22は、学習サンプルの変換対象の音声信号の時系列データに対して信号処理を行って、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。
特徴量抽出部22は、学習サンプルの目標の音声信号の時系列データに対して信号処理を行って、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。
非ネイティブ音声データベース24は、学習サンプルの変換対象の音声信号の時系列データと、特徴量抽出部22によって抽出されたスペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)とを記憶する。
ネイティブ音声データベース26は、学習サンプルの目標の音声信号の時系列データと、特徴量抽出部22によって抽出されたスペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)とを記憶する。なお、含まれる発話数Nは非ネイティブ音声データベース24と同一とする。また、非ネイティブ音声データベース24、ネイティブ音声データベース26のそれぞれn番目の発話の内容は同一とする。
時刻アライメント部28は、同一の発話内容を持つ変換対象の音声信号の時系列データと目標の音声信号の時系列データのペアについて、2つの音声間の時間対応を取る。
モデル学習部30は、図2に示すように、パラレル音声データベース32、DFWベクトル抽出部34、DFWベクトルデータベース36、DFWベクトル推定モデル学習部38、及びDFWベクトル推定モデル40を備えている。
パラレル音声データベース32は、非ネイティブ音声データベース24、及びネイティブ音声データベース26に対して時刻アラインメントを行った結果得られる、データベースであり、非ネイティブ音声、ネイティブ音声の間で時間対応の取られたスペクトル包絡、スペクトル特徴量、F0などのパラメータを記憶する。以下では、パラレル音声データベース34に含まれる総フレーム数をTとする。フレームtにおける、非ネイティブ音声のスペクトル包絡、スペクトル特徴量、F0を、それぞれ

で表す。ここで、スペクトル包絡の次元数をF、スペクトル特徴量の次元数をMとした。同様に、ネイティブ音声のスペクトル包絡、スペクトル特徴量、F0を、それぞれ

で表す。
DFWベクトル抽出部34は、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、DFW(dynamic frequency warping)ベクトルを抽出する。
DFWベクトルデータベース36は、パラレル音声データベース32の各フレームについて、非ネイティブ音声スペクトル包絡とネイティブ音声スペクトル包絡に対しDFWベクトル抽出を行なった結果得られるDFWベクトルを記憶する。各フレーム

について、

で表す。
具体的には、パラレル音声データベース32の各フレームtについて、非ネイティブ音声、ネイティブ音声のスペクトル包絡

から、DFWベクトルwtを算出する。
DFWベクトル抽出部34は、図3に示すように、距離行列計算部42及びベクトル抽出部44を備えている。
距離行列計算部42は、非ネイティブ音声、ネイティブ音声のスペクトル包絡

から、距離行列Dtを計算する。ここで、距離行列はF×Fの行列で、そのi 行j列の成分を

とするとき、

(1)
とする。ここで、

はスカラーx,yの距離関数とする。例えば、二乗誤差

や対数二乗誤差

を用いる。
ベクトル抽出部44は、距離行列Dtから、以下を満たすDFWベクトルwtを算出する。

(2)
式(2)は、動的計画法(非特許文献2)を用いて、効率的に解を求めることができる。
非特許文献2:Richard Bellman, "The theory of dynamic programming," Tech. Rep., RAND CORP SANTA MONICA CA, 1954.
DFWベクトル推定モデル学習部38は、図4に示すように、結合ベクトル生成部46、結合ベクトルデータベース47、及びGMM学習部48を備えている。
結合ベクトル生成部46は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトルとを結合した結合ベクトルを生成する。
具体的には、パラレル音声データベース32及びDFWベクトルデータベース36の各フレーム

について、m(s) t、w tから結合ベクトルztを生成し、結果を結合ベクトルデータベース47に格納する。例えば、

とする。次元を削減するために、関数gを用いて

としても良い。関数gとして、例えば離散コサイン変換を使用する。
GMM学習部48は、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、音声変換モデルとして学習し、DFWベクトル推定モデル40に格納する。
具体的には、結合ベクトルデータベース47に含まれる

に対し、下記の尤度関数

を最大化するGaussian mixture model (GMM)のパラメータ

を得る。

(3)
上記の尤度関数の最大化は、例えばEMアルゴリズムが使用できる。
出力部50は、DFWベクトル推定モデル40に記憶されている音声変換モデルである、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを出力する。
<音声変換装置の構成>
図5に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図5に示すように、音声変換装置150は、入力部60と、演算部70と、出力部90とを備えている。
入力部60は、変換対象の音声信号(例えば非ネイティブの音声信号)の時系列データを受け付ける。
演算部70は、DFWベクトル推定モデル72と、音声パラメータ抽出部74と、ネイティブスペクトル推定部76と、音声信号生成部78とを備えている。
DFWベクトル推定モデル72は、DFWベクトル推定モデル40と同じ、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、音声変換モデルとして記憶する。
音声パラメータ抽出部74は、入力部60によって受け付けた変換対象の音声信号の時系列データに対して信号処理を行って、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。
ネイティブスペクトル推定部76は、図6に示すように、DFWベクトル推定部80及びスペクトル特徴量推定部82を備えている。
DFWベクトル推定部80は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトル推定モデル72とに基づいて、DFW(dynamic frequency warping)ベクトルを推定する。
具体的には、入力された非ネイティブスペクトル特徴量のフレーム長さをTtとする。また、各フレーム

に対応するスペクトル特徴量をmtとする。まず、DFWベクトル推定を行い、推定DFWベクトル^wtを得る。

(4)

(5)
ここで、

はクラスiのスペクトル包絡特徴量とDFWベクトルに対応する次元の平均ベクトルとする。結合ベクトル生成において関数gにより次元圧縮を行なった場合は、逆関数g-1を用いて、下記の様に推定DFWベクトル^wtを得る。

(6)

(7)
例えばgとして離散コサイン変換を使用した場合、g-1として逆離散コサイン変換を使用する。実数値のベクトルとして得られる推定DFWベクトルを四捨五入し、整数列へと変換する。
スペクトル特徴量推定部82は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定する。
具体的には、スペクトル包絡

と推定DFWベクトル^wtを用いてDFWを行い、推定ネイティブスペクトル特徴量

を得る。

(8)
音声信号生成部78は、スペクトル特徴量推定部82によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルと、変換対象の音声信号のF0(音高)とに基づいて、目標の音声信号の時系列データを生成し、出力部90により出力する。
<音声変換モデル学習装置の作用>
次に、第1の実施の形態に係る音声変換モデル学習装置100の作用について説明する。まず、学習サンプルの変換対象の音声信号(例えば非ネイティブ話者による発話音声)の時系列データと目標の音声信号(例えばネイティブ話者による発話音声)の時系列データとのペアが、音声変換モデル学習装置100に入力されると、音声変換モデル学習装置100において、図7に示す学習処理ルーチンが実行される。
まず、ステップS100において、入力部10によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。また、入力部10によって受け付けた学習サンプルの目標の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。
ステップS102では、同一の発話内容を持つ変換対象の音声信号の時系列データと目標の音声信号の時系列データのペアについて、2つの音声間の時間対応を取り、非ネイティブ音声、ネイティブ音声の間で時間対応の取られたスペクトル包絡、スペクトル特徴量、F0などのパラメータをパラレル音声データベース32に格納する。
ステップS104では、パラレル音声データベース32の各フレームtについて、非ネイティブ音声、ネイティブ音声のスペクトル包絡

から、DFWベクトルwtを算出する。
ステップS106では、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトルとを結合した結合ベクトルを生成する。
ステップS108では、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、音声変換モデルとして学習し、DFWベクトル推定モデル40に格納する。
そして、学習され結合ベクトルに関するGMM(Gaussian mixture model)のパラメータが、出力部50により出力され、学習処理ルーチンを終了する。
<音声変換装置の作用>
次に、第1の実施の形態に係る音声変換装置150の作用について説明する。まず、音声変換モデル学習装置100によって学習された結合ベクトルに関するGMM(Gaussian mixture model)のパラメータが、音声変換装置150に入力されると、DFWベクトル推定モデル72に格納される。また、変換対象の音声信号(例えば非ネイティブの音声信号)の時系列データが、音声変換装置150に入力されると、音声変換装置150において、図8に示す音声変換処理ルーチンが実行される。
まず、ステップS110において、入力部60によって受け付けた変換対象の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。
ステップS112において、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトル推定モデル72とに基づいて、DFW(dynamic frequency warping)ベクトルを推定する。
ステップS114において、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定する。
ステップS116では、上記ステップS114において各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルと、上記ステップS110で抽出された変換対象の音声信号のF0(音高)とに基づいて、目標の音声信号の時系列データを生成し、出力部90により出力して、音声変換処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る音声変換モデル学習装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを学習することにより、変換音声の音質を向上させることができる。
また、第1の実施の形態に係る音声変換装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを用いて、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる。
[第2の実施の形態]
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
<第2の実施の形態の概要>
第1の実施の形態では、DFWベクトル抽出時に、対数スペクトルの二乗距離などの距離尺度を使用すると、スペクトルピークが平坦になり、音声の高調波が失われ、音声品質を損なう懸念がある。第2の実施の形態では、周波数方向の差分スペクトル(動的特徴)を距離行列計算に使用する。動的特徴を含めた距離尺度を採用することで、スペクトルの増減の傾向をDFWベクトル抽出に反映させることができるため、スペクトルピークが平坦になる傾向を回避することができる。
<システム構成>
<音声変換モデル学習装置の構成>
図9に示すように、第2の実施の形態に係る音声変換モデル学習装置100のモデル学習部30は、パラレル音声データベース32、動的特徴DFWベクトル抽出部234、DFWベクトルデータベース36、DFWベクトル推定モデル学習部38、及びDFWベクトル推定モデル40を備えている。すなわち、DFWベクトル抽出の代わりに動的特徴DFWベクトル抽出を行う点を除いて、第1の実施の形態のモデル学習部30と同様である。
動的特徴DFWベクトル抽出部234は、対応するフレームのスペクトル包絡の成分間の距離と、対応するフレームの周波数差分特徴量間の距離とに基づいて、動的特徴DFWベクトルを抽出する。
具体的には、図10に示すように、動的特徴DFWベクトル抽出部234は、動的特徴距離行列計算部242及びベクトル抽出部44を備えている。すなわち、動的特徴DFWベクトル抽出部234は、距離行列計算の代わりに動的特徴距離行列計算を行う点を除いて、第1の実施の形態のDFWベクトル抽出部34と同様である。
動的特徴距離行列計算部242は、距離行列計算の際に、周波数差分特徴量間の距離を可算する。例えば、あるスペクトル

の周波数差分特徴量


(9)
と定義し、距離行列を

(10)
とする。ただし、γは周波数差分特徴量の距離に対する重みとする。
なお、第2の実施の形態に係る音声変換モデル学習装置100の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
また、第2の実施の形態に係る音声変換装置150の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る音声変換モデル学習装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、動的特徴DFWベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを学習することにより、変換音声の音質を向上させることができる。
また、第2の実施の形態に係る音声変換装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、動的特徴DFWベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを用いて、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる。
[第3の実施の形態]
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
<第3の実施の形態の概要>
第1の実施の形態では、非ネイティブ音声のスペクトルを周波数方向のみに変換するため、パワー方向にはスペクトルを変換することができない。したがって、スペクトルを十分にネイティブ音声のものに近づけることができない懸念がある。本実施の形態では、パワー方向のスペクトル差分を予測するモデルを使用することで、パワー方向のスペクトル変換を可能とする。スペクトルを十分にネイティブ音声のものに近づけることが可能となり、非ネイティブ音声の訛りを十分に取り除くことができる。
<システム構成>
<音声変換モデル学習装置の構成>
図11に示すように、第3の実施の形態に係る音声変換モデル学習装置100のモデル学習部30は、パラレル音声データベース32、DFWベクトル抽出部34、DFWベクトルデータベース36、DFWベクトル推定モデル学習部38、DFWベクトル推定モデル40、差分スペクトル抽出部334、差分スペクトルデータベース336、差分スペクトル推定モデル学習部338、及び差分スペクトル推定モデル340を備えている。すなわち、第1の実施の形態と同様にDFWベクトル抽出、DFWベクトル推定モデル学習を行なったのち、得られたDFWベクトル推定モデル40とパラレル音声データベース32を用いて差分スペクトル抽出を行い、差分スペクトルデータベース336を得る。差分スペクトルデータベース336とパラレル音声データベース32から、差分スペクトル推定モデル学習を行い、差分スペクトル推定モデル340を得る。
差分スペクトル抽出部334は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトル推定モデル40とに基づいて、DFW(dynamic frequency warping)ベクトルを推定して、目標の音声信号のスペクトル包絡を推定し、差分スペクトルを算出する。
具体的には、差分スペクトル抽出部334は、図12に示すように、ネイティブスペクトル包絡推定部342及び差分スペクトル算出部344を備えている。
ネイティブスペクトル包絡推定部342は、パラレル音声データベース32の各フレーム

について、非ネイティブスペクトル包絡s(s) tとDFWベクトル推定モデル40から、ネイティブスペクトル包絡推定を行い、推定ネイティブスペクトル包絡^s(t) tを得る。ここで、ネイティブスペクトル包絡推定は、第1の実施の形態のものと同様とする。
差分スペクトル算出部344は、推定ネイティブスペクトル包絡^s(t) tとネイティブスペクトル包絡s(t) tから、差分スペクトル算出を行い、差分スペクトルrtを得て、差分スペクトルデータベース336に格納する。例えば、下記のように、対数スペクトルの差分を計算し、差分スペクトルとする。

(11)
差分スペクトル推定モデル学習部338は、図13に示すように、差分スペクトル結合ベクトル生成部346、差分スペクトル結合ベクトルデータベース348、及びGMM学習部350を備えている。
差分スペクトル結合ベクトル生成部346は、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、差分スペクトルとを結合した差分スペクトル結合ベクトルを生成し、差分スペクトル結合ベクトルデータベース348に格納する。
GMM学習部350は、各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、差分スペクトル推定モデルとして学習する。なお、GMM学習では、DFWベクトルデータベース36の代わりに差分スペクトルデータベース336を用いる点を除いて、第1の実施の形態のGMM学習部48と同様である。
<音声変換装置の構成>
図14に示すように、第3の実施の形態に係る音声変換装置400の演算部470は、DFWベクトル推定モデル72と、音声パラメータ抽出部74と、差分スペクトル推定モデル372と、ネイティブスペクトル推定部376と、音声信号生成部78とを備えている。
差分スペクトル推定モデル372は、差分スペクトル推定モデル340と同じ、差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを記憶する。
ネイティブスペクトル推定部376は、図15に示すように、DFWベクトル推定部80、スペクトル特徴量推定部82、差分スペクトル推定部380、及びスペクトル加算部382を備えている。
差分スペクトル推定部380は、各フレームに対し、非ネイティブスペクトル特徴量と差分スペクトル推定モデルから、推定差分スペクトルを得る。DFWベクトル推定モデルの代わりに差分スペクトル推定モデルを使用する点を除いて、DFWベクトル推定と同様のアルゴリズムで差分スペクトル推定を行うことができる。
スペクトル加算部382は、各フレームに対し、スペクトル特徴量推定部82によって推定された、変換対象の音声信号のスペクトル特徴量を表すベクトルに、差分スペクトルを加算する。
具体的には、各フレームtにおける推定ネイティブスペクトル包絡^s(t) tと推定差分スペクトル^rtから、差分スペクトル加算推定ネイティブスペクトル包絡^s(t),r tを得る。例えば、式(11)により差分スペクトル算出を行なった場合、

(12)
とする。ここで、λは正の実数であり、差分スペクトルの重みを表す。
音声信号生成部78は、スペクトル特徴量推定部82によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに、差分スペクトルを加算した結果と、変換対象の音声信号のF0(音高)とに基づいて、目標の音声信号の時系列データを生成し、出力部90により出力する。
<音声変換モデル学習装置の作用>
次に、第3の実施の形態に係る音声変換モデル学習装置100の作用について説明する。なお、第1の実施の形態と同様の処理については同一符号を付して詳細な説明を省略する。
まず、学習サンプルの変換対象の音声信号(例えば非ネイティブ話者による発話音声)の時系列データと目標の音声信号(例えばネイティブ話者による発話音声)の時系列データとのペアが、音声変換モデル学習装置100に入力されると、音声変換モデル学習装置100において、図16に示す学習処理ルーチンが実行される。
まず、ステップS100において、入力部10によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。また、入力部10によって受け付けた学習サンプルの目標の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。
ステップS102では、同一の発話内容を持つ変換対象の音声信号の時系列データと目標の音声信号の時系列データのペアについて、2つの音声間の時間対応を取り、非ネイティブ音声、ネイティブ音声の間で時間対応の取られたスペクトル包絡、スペクトル特徴量、F0などのパラメータをパラレル音声データベース32に格納する。
ステップS104では、パラレル音声データベース32の各フレームtについて、非ネイティブ音声、ネイティブ音声のスペクトル包絡

から、DFWベクトルwtを算出する。
ステップS106では、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトルとを結合した結合ベクトルを生成する。
ステップS108では、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、音声変換モデルとして学習し、DFWベクトル推定モデル40に格納する。
ステップS300では、パラレル音声データベース32の各フレーム

について、非ネイティブスペクトル包絡s(s) tとDFWベクトル推定モデル40から、ネイティブスペクトル包絡推定を行い、推定ネイティブスペクトル包絡^s(t) tを得る。
ステップS302では、推定ネイティブスペクトル包絡^s(t) tとネイティブスペクトル包絡s(t) tから、差分スペクトル算出を行い、差分スペクトルrtを得て、差分スペクトルデータベース336に格納する。
ステップS304では、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、差分スペクトルとを結合した差分スペクトル結合ベクトルを生成し、差分スペクトル結合ベクトルデータベース348に格納する。
ステップS306では、各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、差分スペクトル推定モデルとして学習し、学習され結合ベクトルに関するGMM(Gaussian mixture model)のパラメータ、及び差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータが、出力部50により出力され、学習処理ルーチンを終了する。
<音声変換装置の作用>
次に、第3の実施の形態に係る音声変換装置150の作用について説明する。まず、音声変換モデル学習装置100によって学習された結合ベクトルに関するGMM(Gaussian mixture model)のパラメータが、音声変換装置150に入力されると、DFWベクトル推定モデル72に格納され、
差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータが、音声変換装置150に入力されると、差分スペクトル推定モデル372に格納される。また、変換対象の音声信号(例えば非ネイティブの音声信号)の時系列データが、音声変換装置150に入力されると、音声変換装置150において、図17に示す音声変換処理ルーチンが実行される。
まず、ステップS110において、入力部60によって受け付けた変換対象の音声信号の時系列データから、スペクトル包絡、スペクトル特徴量(メルケプストラムなど)、F0(音高)を抽出する。
ステップS112において、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトル推定モデル72とに基づいて、DFW(dynamic frequency warping)ベクトルを推定する。
ステップS114において、各フレームに対し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定する。
ステップS310において、各フレームに対し、非ネイティブスペクトル特徴量と差分スペクトル推定モデルから、推定差分スペクトルを得る。
ステップS312では、各フレームに対し、スペクトル特徴量推定部82によって推定された、変換対象の音声信号のスペクトル特徴量を表すベクトルに、差分スペクトルを加算する。
ステップS314では、上記ステップS312において各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに差分スペクトルを加算した結果と、上記ステップS110で抽出された変換対象の音声信号のF0(音高)とに基づいて、目標の音声信号の時系列データを生成し、出力部90により出力して、音声変換処理ルーチンを終了する。
以上説明したように、第3の実施の形態に係る音声変換モデル学習装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを学習し、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータに基づいて、DFW(dynamic frequency warping)ベクトルを推定して、目標の音声信号のスペクトル包絡を推定し、差分スペクトルを算出し、変換対象の音声信号のスペクトル特徴量を表すベクトルと、差分スペクトルとを結合した差分スペクトル結合ベクトルを生成し、各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを学習することにより、変換音声の音質を向上させることができる。
また、第3の実施の形態に係る音声変換装置によれば、変換対象の音声信号の時系列データと目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、結合ベクトルに関するGMM(Gaussian mixture model)のパラメータと、変換対象の音声信号のスペクトル特徴量を表すベクトルと、差分スペクトルとを結合した各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化するように学習された、差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを用いて、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる、という効果が得られる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施形態では、音声変換モデル学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
また、上述の音声変換モデル学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10、60 入力部
20、70、470 演算部
22 特徴量抽出部
24 非ネイティブ音声データベース
26 ネイティブ音声データベース
28 時刻アライメント部
30 モデル学習部
32 パラレル音声データベース
34 ベクトル抽出部
34 パラレル音声データベース
36 DFWベクトルデータベース
38 DFWベクトル推定モデル学習部
40 DFWベクトル推定モデル
42 距離行列計算部
44 ベクトル抽出部
46 結合ベクトル生成部
47 結合ベクトルデータベース
48 GMM学習部
50、90 出力部
72 ベクトル推定モデル
74 音声パラメータ抽出部
76 ネイティブスペクトル推定部
78 音声信号生成部
80 DFWベクトル推定部
82 スペクトル特徴量推定部
100 音声変換モデル学習装置
150、400 音声変換装置
234 動的特徴DFWベクトル抽出部
242 動的特徴距離行列計算部
334 差分スペクトル抽出部
336 差分スペクトルデータベース
338 差分スペクトル推定モデル学習部
340 差分スペクトル推定モデル
342 ネイティブスペクトル包絡推定部
344 差分スペクトル算出部
346 差分スペクトル結合ベクトル生成部
346 差分結合ベクトル生成部
348 差分スペクトル結合ベクトルデータベース
350 GMM学習部
372 差分スペクトル推定モデル
376 ネイティブスペクトル推定部
380 差分スペクトル推定部
382 スペクトル加算部

Claims (8)

  1. 変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置であって、
    前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、DFW(dynamic frequency warping)ベクトルを抽出するDFWベクトル抽出部と、
    各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとを結合した結合ベクトルを生成する結合ベクトル生成部と、
    各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、前記音声変換モデルとして学習するモデル学習部と、
    を含む音声変換モデル学習装置。
  2. 前記DFWベクトル抽出部は、対応するフレームのスペクトル包絡の成分間の距離と、対応するフレームの周波数差分特徴量間の距離とに基づいて、前記DFWベクトルを抽出する請求項1記載の音声変換モデル学習装置。
  3. 各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、DFW(dynamic frequency warping)ベクトルを推定して、前記目標の音声信号のスペクトル包絡を推定し、差分スペクトルを算出する差分スペクトル抽出部と、
    各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記差分スペクトルとを結合した差分スペクトル結合ベクトルを生成する差分スペクトル結合ベクトル生成部と、
    各フレームの差分スペクトル結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記差分スペクトル結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、差分スペクトル推定モデルとして学習する差分スペクトル推定モデル学習部と、
    を更に含む請求項1又は2記載の音声変換モデル学習装置。
  4. 変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、
    各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、DFW(dynamic frequency warping)ベクトルを推定するDFWベクトル推定部と、
    各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定するスペクトル特徴量推定部と、
    前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、
    を含み、
    前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータである音声変換装置。
  5. 変換対象の音声信号を目標の音声信号に変換するための音声変換モデルを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、
    DFWベクトル抽出部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果を入力とし、各フレームに対し、DFW(dynamic frequency warping)ベクトルを抽出し、
    結合ベクトル生成部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとを結合した結合ベクトルを生成し、
    モデル学習部が、各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化する、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータを、前記音声変換モデルとして学習する
    音声変換モデル学習方法。
  6. 前記DFWベクトル抽出部が抽出することでは、対応するフレームのスペクトル包絡の成分間の距離と、対応するフレームの周波数差分特徴量間の距離とに基づいて、前記DFWベクトルを抽出する請求項5記載の音声変換モデル学習方法。
  7. 変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、
    DFWベクトル推定部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、音声変換モデルとに基づいて、DFW(dynamic frequency warping)ベクトルを推定し、
    スペクトル特徴量推定部が、各フレームに対し、前記変換対象の音声信号のスペクトル特徴量を表すベクトルと、前記DFWベクトルとに基づいて、目標の音声信号のスペクトル特徴量を表すベクトルを推定し、
    音声信号生成部が、前記スペクトル特徴量推定部によって各フレームに対して推定された目標の音声信号のスペクトル特徴量を表すベクトルに基づいて、前記目標の音声信号の時系列データを生成すること
    を含み、
    前記音声変換モデルは、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとの時刻アライメント結果から、各フレームに対し抽出された、DFWベクトルと、前記変換対象の音声信号のスペクトル特徴量を表すベクトルとを結合した各フレームの結合ベクトルに基づいて、予め定められた尤度関数を最大化するように予め学習された、前記結合ベクトルに関するGMM(Gaussian mixture model)のパラメータである音声変換方法。
  8. 請求項1〜請求項3のいずれか1項に記載の音声変換モデル学習装置又は請求項4に記載の音声変換装置の各部としてコンピュータを機能させるためのプログラム。
JP2018013885A 2018-01-30 2018-01-30 音声変換モデル学習装置、音声変換装置、方法、及びプログラム Active JP6827004B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018013885A JP6827004B2 (ja) 2018-01-30 2018-01-30 音声変換モデル学習装置、音声変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018013885A JP6827004B2 (ja) 2018-01-30 2018-01-30 音声変換モデル学習装置、音声変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019132948A JP2019132948A (ja) 2019-08-08
JP6827004B2 true JP6827004B2 (ja) 2021-02-10

Family

ID=67547485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018013885A Active JP6827004B2 (ja) 2018-01-30 2018-01-30 音声変換モデル学習装置、音声変換装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6827004B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111247584B (zh) * 2019-12-24 2023-05-23 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
CN111883106B (zh) * 2020-07-27 2024-04-19 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3631657B2 (ja) * 2000-04-03 2005-03-23 シャープ株式会社 声質変換装置および声質変換方法、並びに、プログラム記録媒体
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法

Also Published As

Publication number Publication date
JP2019132948A (ja) 2019-08-08

Similar Documents

Publication Publication Date Title
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US10217456B2 (en) Method, apparatus, and program for generating training speech data for target domain
JP4728868B2 (ja) 応対評価装置、その方法、プログラムおよびその記録媒体
US7792672B2 (en) Method and system for the quick conversion of a voice signal
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
JPH11242494A (ja) 話者適応化装置と音声認識装置
JP5262713B2 (ja) ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
JP6973304B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP5242782B2 (ja) 音声認識方法
CA2737142C (en) Method for creating a speech model
US20060178875A1 (en) Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition
JP6827004B2 (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
Takamichi et al. Sampling-based speech parameter generation using moment-matching networks
JP2010078650A (ja) 音声認識装置及びその方法
KR20170088165A (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
KR20200013907A (ko) 비디오 특성에 부합하는 오디오 합성 방법
US20180033432A1 (en) Voice interactive device and voice interaction method
JP6647475B2 (ja) 言語処理装置、言語処理システムおよび言語処理方法
JP6791816B2 (ja) 音声区間検出装置、音声区間検出方法、およびプログラム
Kanagawa et al. Speaker-independent style conversion for HMM-based expressive speech synthesis
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
KR101361034B1 (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
Wu et al. Joint nonnegative matrix factorization for exemplar-based voice conversion
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210118

R150 Certificate of patent or registration of utility model

Ref document number: 6827004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150