JP6773634B2

JP6773634B2 - 音声変換装置、音声変換方法及びプログラム

Info

Publication number: JP6773634B2
Application number: JP2017241027A
Authority: JP
Inventors: 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2020-10-21
Anticipated expiration: 2037-12-15
Also published as: JP2019109306A

Description

本発明は、音声変換装置、音声変換方法及びプログラムに関する。

ある話者（変換元話者）から入力された音声を所望の話者（変換対象話者）のものへ変換する技術として、音声（声質）変換が知られている。この音声変換では、学習データとして、２名の話者（入力話者、目標話者）が同一の文章を発話した音声データ（パラレルデータ）を用いることが一般的である（下記非特許文献１及び非特許文献２）。このパラレルデータを用意することは必ずしも容易ではないため、パラレルデータを用いずに声質変換を行う手法が提案されている（下記非特許文献３）。

Masanobu Abe, et al. "Voice conversion through vector quantization," Journal of the Acoustical Society of Japan (E) 11.2 (1990): pp.71-76. Srinivas Desai, et al. "Spectral Mapping Using Artificial Neural Networks for Voice Conversion," IEEE Transactions on Audio, Speech, and Language Processing 18.5 (2010): pp.954-964. Chin-Cheng Hsu, et al. "Voice Conversion from Non-parallel Corpora Using Variational Auto-encoder," Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2016 Asia-Pacific, IEEE. 今井聖他、「音声合成のためのメル対数スペクトル近似（MLSA）フィルタ」、電子情報通信学会論文誌 A、1983年2月、Vol.J66-A、No.2、pp.122-129.

上記非特許文献３では、Variational AutoEncoder（変分オートエンコーダ（非特許文献４参照）、以下ＶＡＥ）を用いることで、音声の話者性と発話内容とを分離してモデル化し、これにより、パラレルデータが不要な声質変換の実現を試みている。しかし、話者性と発話内容の分離が不完全なため、変換後の音声の品質が低いという課題がある。

かかる点に鑑みてなされた本発明の目的は、パラレルデータを用いずに、発話内容を考慮したうえで、ＶＡＥによる発話内容と話者性を分離したモデル化を可能にする音声変換装置、音声変換方法及びプログラムを提供することにある。

上記課題を解決するため、本発明に係る音声変換装置は、音声認識部と、Variational AutoEncoder（ＶＡＥ）のエンコーダと、ＶＡＥのデコーダと、話者情報ベクトル変換部とを有する音声変換装置において、前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Ｚを生成し、前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Ｚと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する。

上記課題を解決するため、本発明に係る音声変換装置は、音声認識部と、Variational AutoEncoder（ＶＡＥ）のエンコーダと、ＶＡＥのデコーダと、話者情報ベクトル変換部と、第１の話者認識部と、第２の話者認識部とを有する音声変換装置において、前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Ｚを生成し、前記第１の話者認識部は、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、前記第２の話者認識部は、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Ｚと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する。

上記課題を解決するため、本発明に係る音声変換方法は、音声認識部と、Variational AutoEncoder（ＶＡＥ）のエンコーダと、ＶＡＥのデコーダと、話者情報ベクトル変換部とを有する音声変換装置における音声変換方法において、前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Ｚを生成し、前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Ｚと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する。

上記課題を解決するため、本発明に係る音声変換方法は、音声認識部と、Variational AutoEncoder（ＶＡＥ）のエンコーダと、ＶＡＥのデコーダと、話者情報ベクトル変換部と、第１の話者認識部と、第２の話者認識部とを有する音声変換装置における音声変換方法において、前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Ｚを生成し、前記第１の話者認識部により、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、前記第２の話者認識部により、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Ｚと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する。

上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の音声変換装置として機能させる。

本発明に係る音声変換装置、音声変換方法及びプログラムによれば、パラレルデータを用いることなく、発話内容を考慮したうえで、ＶＡＥによる発話内容と話者性を分離したモデル化が可能である。

従来技術（非特許文献１）における、ＶＡＥに基づく音声変換のネットワーク構造を示す図である。実施例１のネットワーク構造を概略的に示す図である。実施例１の音声変換装置の概略構成を示す機能ブロック図である。実施例１の音素セグメンテーション情報の一例を示す図である。実施例１の音声変換装置が実行する動作のシーケンス図である。実施例２のネットワーク構造を概略的に示す図である。実施例２の音声変換装置の概略構成を示す機能ブロック図である。実施例２の音声変換装置が実行する動作のシーケンス図である。

［実施例１］
図１は、ＶＡＥに基づく音声変換のネットワーク構造を示す。図内の矢印は情報が流れる方向を示す。このネットワーク構造は、上記非特許文献１に記載される従来技術である。図２は、本発明の実施例１のネットワーク構造を概略的に示す。従来技術と実施例１との違いの１つは、従来技術では、入力された音声特徴量（スペクトルパラメータ）のみからＶＡＥの潜在変数Ｚへの変換、及び、音声特徴量（スペクトルパラメータ）への復元を行っているのに対し、実施例１では音声認識部の出力としての音韻情報ベクトルをＶＡＥのエンコーダ及びデコーダに与える点である。下記では、図３〜図５を参照して、実施例１の音声変換装置Ｓの各機能を詳細に説明するが、音声変換装置Ｓが有する他の機能を排除することを意図したものではない。

図３は実施例１の音声変換装置Ｓを示す機能ブロック図である。実施例１の音声変換装置Ｓは、音声特徴量ＤＢ１、モデル学習部２、音声認識部３、音声認識モデルＤＢ４、エンコーダ５、デコーダ６、ＶＡＥモデルＤＢ７、話者情報ベクトル変換部８、及び音声波形生成部９を含む。しかし実施例によっては、そのうち一部が音声変換装置Ｓの外部に設けられてよい。

音声変換装置Ｓが実行する処理は、１又は複数のプロセッサによって実行される（図示せず）。プロセッサは、種々の処理のためのプログラム及び演算中の情報を記憶する１又は複数のメモリを含んでよい。メモリは揮発性メモリ及び不揮発性メモリを含む。メモリは、プロセッサと独立しているメモリ、及びプロセッサの内蔵メモリを含む。プロセッサは特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、特定の処理に特化した専用のプロセッサを含む。

音声特徴量ＤＢ１は、あらかじめ収録しておくモデルの学習に使用する音声データと、その音声データの発話情報とを格納する。音声データは、音声変換の対象となるＮ名（２名以上）の話者が発話した音声のデータとして保持される。音声特徴量ＤＢ１は音声データを、音声信号に対して信号処理を行った結果として得られる音声特徴量（例えば、音高パラメータ（基本周波数等）又はスペクトルパラメータ（ケプストラム、メルケプストラム等）の少なくとも一方を含む）として保持する。

音声特徴量ＤＢ１に格納される発話情報は、音声データ中の各発話に対して付与された発音等の情報である。音声データ中の各発話に一つの発話情報が付与される。この発話情報は、少なくとも各音素の開始時間、及び終了時間の情報（音素セグメンテーション情報）を含む。開始時間及び終了時間のそれぞれは、各発話の始点を０[秒]とした時の、当該始点からの経過時間である。音素セグメンテーション情報の例が図４に示される。

再び図３が参照される。モデル学習部２は、音声特徴量、後述する話者情報ベクトル、及び音韻情報ベクトル等を用いて、入力された音声特徴量からそれ自身（入力された音声特徴量）を再構築するＶＡＥを学習する。学習されたＶＡＥのモデルはＶＡＥモデルＤＢ７に格納されてよい。学習アルゴリズムは、上記非特許文献３で用いられるものと同様であってよい。これにより、入力された音声特徴量から、発話者自身の音声特徴量を再構築することができる。ただし、非特許文献３記載の装置は音声特徴量と話者情報ベクトルのみを用いてＶＡＥを学習するのに対し、実施例１では、あらかじめ用意された音声認識部３から得られる音韻情報ベクトルを追加的に用いる点で異なる。

実施例１で利用可能な話者情報ベクトルとして単純なものはone-hot表現ベクトルである。このone-hot表現のベクトルにおいて、次元数は、音声データに含まれる話者数Ｎである。また、one-hot表現のベクトルにおいては、対象の話者に該当する次元が１、それ以外の次元が０である。

実施例１のＶＡＥの内部のネットワーク構造として、通常のMultilayer Perceptron（ＭＬＰ）だけでなく、Recurrent Neural Network（ＲＮＮ）、Long Short Term Memory（ＲＮＮ−ＬＳＴＭ）、Convolutional Neural Network（ＣＮＮ）等のニューラルネットワーク、またそれらを組み合わせたニューラルネットワークを使用可能である。

音声認識部３は、音声特徴量（スペクトルパラメータ）に基づいて音韻情報ベクトルを出力するモデルである。音声認識モデルＤＢ４は、音声認識部３が使用するモデルに関する情報を格納する。当該モデルは、多数の話者の音声データ、及び音素セグメンテーション情報等を用いて学習される。学習に用いられる音声データはＶＡＥに用いられる音声データと同一でなくてよい。音素セグメンテーション情報の例は図４に示した通りである。音声認識部３のモデル構造として、音声認識用音響モデルと同様に、スペクトルパラメータから音素を推定するＤＮＮ（Deep Neural Network）等を利用することができる。この場合、音韻情報ベクトルは、音声認識用ＤＮＮの出力（音素の事後確率）又は中間層の出力である。音素セグメンテーション情報が得られない場合でも、音声データから教師無モデル学習を行うことで音声認識部３を構築可能である。

エンコーダ５は、ＶＡＥモデルＤＢ７に格納されたモデルを用いて、入力された音声をエンコードして潜在変数Ｚを出力する。デコーダ６は、ＶＡＥモデルＤＢ７に格納されたモデルを用いて、潜在変数Ｚを取得して音声特徴量へとデコードする。エンコーダ５及びデコーダ６が実行する処理の詳細は後述する。

話者情報ベクトル変換部８は、任意の数の話者情報ベクトルを格納し、当該話者情報ベクトルを用いて、入力された変換元話者の話者情報ベクトルから変換対象話者の話者情報ベクトルへの変換を行う。実施例１では話者情報ベクトルとして、one-hot表現が用いられる。この場合、話者情報ベクトル変換部８は、変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ置き換えることで、ベクトルの変換を実行する。

音声波形生成部９は、デコーダ６によって変換された音声特徴量を取得して、対応する音声波形を生成する。音声波形生成部９はスピーカ等を介して、当該音声波形に対応する音声を出力する。

以下、図５のシーケンス図を参照して、実施例１の音声変換装置Ｓが実行する音声変換方法を説明する。下記の処理は、ＶＡＥの学習が既に行われた状態で、変換元話者より、当該変換元話者の音声を変換対象話者の音声へと変換する指示を受信したときに音声変換装置Ｓにより実行される。本実施例では一例として、音声変換装置Ｓは、音声特徴量のフレームごとに処理を実行する。実施例１の音声変換装置Ｓのアルゴリズムと非特許文献３のアルゴリズムとで異なる点は、実施例１では、音声認識部３が生成する音韻情報ベクトルが活用される点である。

音声認識部３は、変換元話者によって発話された音声の音声特徴量を取得し（ステップＳ１）、当該音声特徴量に基づいて音韻情報ベクトルを生成する（ステップＳ２）。音声認識部３は、当該音韻情報ベクトルをエンコーダ５へ出力する（ステップＳ３）。

エンコーダ５は、変換元話者の音声の音声特徴量を取得し（ステップＳ４）、その音声特徴量と、音声認識部３から取得した音韻情報ベクトルとに基づいて、潜在変数Ｚを生成する（ステップＳ５）。エンコーダ５は潜在変数Ｚをデコーダ６へ出力する（ステップＳ６）。

音声認識部３は、音韻情報ベクトルをデコーダ６へ出力する（ステップＳ７）。

話者情報ベクトル変換部８は、変換元話者が発話した音声に基づく変換元話者の話者情報ベクトルを取得すると（ステップＳ８）、当該話者情報ベクトルを、指定された変換対象話者の話者情報ベクトルへ変換する（ステップＳ９）。話者情報ベクトル変換部８は、変換対象話者の話者情報ベクトルをデコーダ６へ出力する（ステップＳ１０）。

デコーダ６は、音声認識部３から取得した音韻情報ベクトルと、エンコーダ５から取得した潜在変数Ｚと、話者情報ベクトル変換部８から取得した話者情報ベクトルとに基づいて、変換対象話者の音声特徴量を生成する（ステップＳ１１）。デコーダ６は、生成した音声特徴量を音声波形生成部９へ出力する（ステップＳ１２）。

音声波形生成部９は、取得した音声特徴量に基づいて音声波形を生成する（ステップＳ１３）。このとき音声波形生成部９は、例えば上記非特許文献４等を用いて当該生成を実行してよい。音声波形生成部９は、生成した音声波形に基づいて、変換後の音声を出力する（ステップＳ１４）。

実施例１によれば、音声変換装置Ｓは、上記非特許文献３と同様にＶＡＥを用いて、入力された音声特徴量から自身の音声特徴量を再構築できるよう学習を行う。そのため、パラレルデータを使用せずに音声変換モデルを学習することが可能である。ただし、上記非特許文献３では、音韻情報を明示的に考慮することができないため、変換元話者の音声特徴量から得られた潜在変数Ｚと変換対象話者の話者情報ベクトルとを用いて音声特徴量を再構築した場合に、必ずしも音韻性が保証されるとは限らない。それに対して実施例１の音声変換装置Ｓは、ＶＡＥの入力として音韻情報ベクトルを用いる。これにより、入力された音声特徴量の音韻性を考慮したうえで、変換対象話者の音声特徴量へ変換することが可能となる。すなわち、発話内容を考慮したうえで、発話内容と話者性を分離した音声変換が可能である。

上述の実施例１は代表的な例として説明されている。しかし本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施例１によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形又は変更が可能である。例えば、実施例の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。ここで、本発明の実施例２が下記に示される。

［実施例２］
上記実施例１では、話者情報ベクトル変換部８は、話者情報ベクトルとしてone-hot表現を使用する。この場合、話者情報ベクトル変換部８は、学習に使用した話者の音声特徴量から、学習に使用した別の話者の音声特徴量へ変換することは可能である。しかし、学習に使用されていない話者の音声特徴量へ変換することはできない。

この課題を解決するために実施例２では、ＶＡＥの学習データとして、変換対象に含まれない多数（例えば十名以上）の話者を使用する。これにより実施例２の音声変換装置Ｓは、変換対象話者の少量の音声データを用いて、変換元話者の音声を、変換対象話者と類似した音声へ変換することができる。類似とは、変数の差が所定値以下であることを示す。

図６は、実施例２で使用されるニューラルネットワークの構造を概略的に示す。実施例１と異なり、実施例２では、話者認識部を用いて、入力された音声特徴量から話者情報ベクトルを得る点が異なる。以下、重複記載を避けるため、実施例１と実施例２との差分が記載される。

図７は、実施例２の音声変換装置Ｓを詳細に示す機能ブロック図である。実施例２の音声変換装置Ｓは、音声特徴量ＤＢ１、モデル学習部２、音声認識部３、音声認識モデルＤＢ４、エンコーダ５、デコーダ６、ＶＡＥモデルＤＢ７、話者情報ベクトル変換部８、音声波形生成部９、第１の話者認識部１０、話者認識モデルＤＢ１１及び第２の話者認識部１２を含む。しかし、実施例によっては、その一部が音声変換装置Ｓの外部に設けられてよい。代替例として、第１の話者認識部１０と第２の話者認識部１２との機能を１つの話者認識部内に設けてもよい。

実施例１のモデル学習部２は、変換に用いる話者（変換元話者及び変換対象話者）のみをＶＡＥの学習に用いる。しかし、実施例２のモデル学習部２は、学習に用いていない話者への変換を実現するために、次の非特許文献に記載されるように多数の話者（例えば数十名以上）の音声データ、又は、各音声をどの話者が発話したかを示す話者識別子を用いる。
Ehsan Variani, et al. "DEEP NEURAL NETWORKS FOR SMALL FOOTPRINT TEXT-DEPENDENT SPEAKER VERIFICATION," Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014: pp.4052-4056.

モデル学習部２は、音声特徴量と、話者情報ベクトルと、音韻情報ベクトルとを用いて、入力された音声特徴量から自分自身（入力された音声特徴量）を再構築するＶＡＥを学習する。実施例１では、話者情報ベクトルとして、one-hot表現が用いられるのに対し、実施例２の話者情報ベクトルには、音声特徴量から第１の話者認識部１０又は第２の話者認識部１２による処理を通して得られるベクトルが使用される。実施例２において、当該処理はフレームごとに行われる。このため第１の話者認識部１０及び第２の話者認識部１２はフレーム数分の話者情報ベクトルを出力する。しかしモデル学習部２は、学習を行う際、音声認識部３と同様に、フレームごとに異なる話者情報ベクトル（第１の話者認識部１０及び第２の話者認識部１２のフレーム単位の出力）を用いてもよいし、第１の話者認識部１０又は第２の話者認識部１２の出力を発話単位で平均した値を話者情報ベクトルとして使用してもよい。

第１の話者認識部１０は、話者認識モデルＤＢ１１を参照して、変換元話者の音声特徴量に基づいて、変換元話者の話者情報ベクトルを出力するためのモデルである。第２の話者認識部１２は、変換対象話者の少量の発話に対応する音声特徴量の入力を受けたとき、話者認識モデルＤＢ１１を参照して、変換対象話者の部分的話者情報ベクトルを出力するためのモデルである。これらのモデル構造には音声特徴量から発話した話者を推定するＤＮＮ等を利用することができる。この場合、第１の話者認識部１０又は第２の話者認識部１２から得られる話者情報ベクトルは、話者認識用ＤＮＮの出力（発話者の事後確率）又は中間層の出力である。

話者情報ベクトル変換部８は、変換元話者の話者情報ベクトルと変換対象話者の部分的話者情報ベクトルとに基づいて、変換対象話者に類似する類似話者情報ベクトルを出力する。実施例１では、話者情報ベクトル変換部８は、話者情報ベクトルとしてone-hot表現を用いるため、単純に話者表現ベクトルを交換するだけで十分である。しかし実施例２の場合、話者情報ベクトル変換部８が変換対象話者の類似話者情報ベクトルを得る方法は複数存在する。例えば、話者情報ベクトル変換部８は、変換対象話者の話者情報ベクトルとして、第２の話者認識部１２の出力の平均値を用いてよい。また、話者情報ベクトル変換部８が、フレームごとに異なる話者情報ベクトル（第２の話者認識部１２のフレーム単位の出力）を用いる場合、話者情報ベクトル変換部８は、変換元話者の話者情報ベクトルと変換対象話者の類似話者情報ベクトルの平均値との差分をあらかじめ算出してフレームごとに加算することで、変換元話者の話者情報ベクトルから変換対象話者の類似話者情報ベクトルへの変換を行う。話者情報ベクトル変換部８は、当該変換の際、ＤＮＮ等の統計モデルを用いてより高度な変換を行ってもよい。

以下、図８のシーケンス図を参照して、実施例２の音声変換装置Ｓが実行する処理を説明する。下記の処理は、ＶＡＥの学習が既に行われた状態で、変換元話者より、当該変換元話者の音声を変換対象話者の音声へと変換する指示を受信したときに音声変換装置Ｓにより実行される。実施例２と実施例１とで異なる点は、実施例２では、話者情報ベクトル変換部８が、第１の話者認識部１０及び第２の話者認識部１２から取得した話者情報ベクトルを活用する点である。

図８のステップＳ２１からステップＳ２７は図５のステップＳ１からステップＳ７と同様であるため、説明を省略する。

第２の話者認識部１２は、変換対象話者が発話した音声の音声特徴量を取得する（ステップＳ２８）。当該音声のデータ量は少量であってよい。第２の話者認識部１２は、当該音声特徴量に基づいて、変換対象話者の部分的話者情報ベクトルを生成する（ステップＳ２９）。この変換対象話者の部分的話者情報ベクトルは、例えば、第２の話者認識部１２の出力を発話単位で平均した値であってよい。第２の話者認識部１２は、変換対象話者の部分的話者情報ベクトルを話者情報ベクトル変換部８へ出力する（ステップＳ３０）。

第１の話者認識部１０は、変換元話者が発話した音声の音声特徴量を取得し（ステップＳ３１）、当該音声特徴量に基づいて変換元話者の話者情報ベクトルを生成する（ステップＳ３２）。第１の話者認識部１０は、当該話者情報ベクトルを話者情報ベクトル変換部８へ出力する（ステップＳ３３）。

話者情報ベクトル変換部８は、変換元話者の部分的話者情報ベクトルと、変換元話者の話者情報ベクトルとを取得すると、それらを、変換対象話者の話者情報ベクトルに類似した類似話者情報ベクトルへ変換する（ステップＳ３４）。話者情報ベクトル変換部８は類似話者情報ベクトルをデコーダ６へ出力する（ステップＳ３５）。

デコーダ６は、潜在変数Ｚと、音韻情報ベクトルと、話者情報ベクトル変換部８から取得した類似話者情報ベクトルとに基づいて、変換対象話者の音声特徴量に類似した類似音声特徴量を生成する（ステップＳ３６）。デコーダ６は、生成した類似音声特徴量を音声波形生成部９へ出力する（ステップＳ３７）。

ステップＳ３８及びステップＳ３９は、図５のステップＳ１３及びステップＳ１４と同様であるため、説明を省略する。

実施例２では、音声変換装置Ｓは、変換元話者及び変換対象話者の音声特徴量に基づいて第１の話者認識部１０及び第２の話者認識部１２によって得られた出力を話者情報ベクトルとして使用する。また、音声変換装置Ｓは、ＶＡＥの学習データとして多数の話者を使用する。これにより、変換対象話者の音声と類似した話者（話者情報ベクトルが類似する話者）が学習データに存在すれば、変換対象話者がＶＡＥの学習に使用されていない場合でも、変換元話者の音声を変換対象話者に類似した音声へ変換することが可能である。

音声変換装置Ｓをコンピュータで構成する場合、各機能を実現する処理内容を記述したプログラムを、当該コンピュータの内部又は外部の記憶手段に格納しておき、当該コンピュータの中央演算処理装置（ＣＰＵ）によってこのプログラムを読み出して実行させることでコンピュータを機能させることができる。また、このようなプログラムは、例えばＤＶＤ又はＣＤ−ＲＯＭ等の可搬型記録媒体の販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばネットワーク上にあるサーバの記憶手段に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。また、そのようなプログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶手段に格納することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。

Ｓ音声変換装置
１音声特徴量ＤＢ
２モデル学習部
３音声認識部
４音声認識モデルＤＢ
５エンコーダ
６デコーダ
７ＶＡＥモデルＤＢ
８話者情報ベクトル変換部
９音声波形生成部
１０第１の話者認識部
１１話者認識モデルＤＢ
１２第２の話者認識部

Claims

音声認識部と、Variational AutoEncoder（ＶＡＥ）のエンコーダと、ＶＡＥのデコーダと、話者情報ベクトル変換部とを有する音声変換装置において、
前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Ｚを生成し、
前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、
前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Ｚと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する、
音声変換装置。
音声認識部と、Variational AutoEncoder（ＶＡＥ）のエンコーダと、ＶＡＥのデコーダと、話者情報ベクトル変換部と、第１の話者認識部と、第２の話者認識部とを有する音声変換装置において、
前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Ｚを生成し、
前記第１の話者認識部は、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、
前記第２の話者認識部は、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、
前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、
前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Ｚと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する、
音声変換装置。
請求項２に記載の音声変換装置において、
前記第１の話者認識部及び前記第２の話者認識部は、音声特徴量をフレームごとに処理し、
音声特徴量のフレームごとに異なる話者情報ベクトルを用いて学習を実行するモデル学習部を更に含む、
音声変換装置。
請求項２に記載の音声変換装置において、
前記第１の話者認識部及び前記第２の話者認識部の出力を発話単位で平均した値を話者情報ベクトルとして使用して学習を行うモデル学習部を更に含む、
音声変換装置。
請求項１乃至４に記載の音声変換装置において、
前記音声特徴量は、音高パラメータ及びスペクトルパラメータの少なくとも一方を含む、音声変換装置。
音声認識部と、Variational AutoEncoder（ＶＡＥ）のエンコーダと、ＶＡＥのデコーダと、話者情報ベクトル変換部とを有する音声変換装置における音声変換方法において、
前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Ｚを生成し、
前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、
前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Ｚと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する、
音声変換方法。
音声認識部と、Variational AutoEncoder（ＶＡＥ）のエンコーダと、ＶＡＥのデコーダと、話者情報ベクトル変換部と、第１の話者認識部と、第２の話者認識部とを有する音声変換装置における音声変換方法において、
前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Ｚを生成し、
前記第１の話者認識部により、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、
前記第２の話者認識部により、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、
前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、
前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Ｚと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する、
音声変換方法。
コンピュータを、請求項１乃至５のいずれか一項に記載の音声変換装置として機能させるためのプログラム。