JP6773634B2 - 音声変換装置、音声変換方法及びプログラム - Google Patents

音声変換装置、音声変換方法及びプログラム Download PDF

Info

Publication number
JP6773634B2
JP6773634B2 JP2017241027A JP2017241027A JP6773634B2 JP 6773634 B2 JP6773634 B2 JP 6773634B2 JP 2017241027 A JP2017241027 A JP 2017241027A JP 2017241027 A JP2017241027 A JP 2017241027A JP 6773634 B2 JP6773634 B2 JP 6773634B2
Authority
JP
Japan
Prior art keywords
speaker
voice
conversion
information vector
recognition unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017241027A
Other languages
English (en)
Other versions
JP2019109306A (ja
Inventor
勇祐 井島
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017241027A priority Critical patent/JP6773634B2/ja
Publication of JP2019109306A publication Critical patent/JP2019109306A/ja
Application granted granted Critical
Publication of JP6773634B2 publication Critical patent/JP6773634B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声変換装置、音声変換方法及びプログラムに関する。
ある話者(変換元話者)から入力された音声を所望の話者(変換対象話者)のものへ変換する技術として、音声(声質)変換が知られている。この音声変換では、学習データとして、2名の話者(入力話者、目標話者)が同一の文章を発話した音声データ(パラレルデータ)を用いることが一般的である(下記非特許文献1及び非特許文献2)。このパラレルデータを用意することは必ずしも容易ではないため、パラレルデータを用いずに声質変換を行う手法が提案されている(下記非特許文献3)。
Masanobu Abe, et al. "Voice conversion through vector quantization," Journal of the Acoustical Society of Japan (E) 11.2 (1990): pp.71-76. Srinivas Desai, et al. "Spectral Mapping Using Artificial Neural Networks for Voice Conversion," IEEE Transactions on Audio, Speech, and Language Processing 18.5 (2010): pp.954-964. Chin-Cheng Hsu, et al. "Voice Conversion from Non-parallel Corpora Using Variational Auto-encoder," Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2016 Asia-Pacific, IEEE. 今井聖他、「音声合成のためのメル対数スペクトル近似(MLSA)フィルタ」、電子情報通信学会論文誌 A、1983年2月、Vol.J66-A、No.2、pp.122-129.
上記非特許文献3では、Variational AutoEncoder(変分オートエンコーダ(非特許文献4参照)、以下VAE)を用いることで、音声の話者性と発話内容とを分離してモデル化し、これにより、パラレルデータが不要な声質変換の実現を試みている。しかし、話者性と発話内容の分離が不完全なため、変換後の音声の品質が低いという課題がある。
かかる点に鑑みてなされた本発明の目的は、パラレルデータを用いずに、発話内容を考慮したうえで、VAEによる発話内容と話者性を分離したモデル化を可能にする音声変換装置、音声変換方法及びプログラムを提供することにある。
上記課題を解決するため、本発明に係る音声変換装置は、音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部とを有する音声変換装置において、前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する。
上記課題を解決するため、本発明に係る音声変換装置は、音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部と、第1の話者認識部と、第2の話者認識部とを有する音声変換装置において、前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、前記第1の話者認識部は、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、前記第2の話者認識部は、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する。
上記課題を解決するため、本発明に係る音声変換方法は、音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部とを有する音声変換装置における音声変換方法において、前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する。
上記課題を解決するため、本発明に係る音声変換方法は、音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部と、第1の話者認識部と、第2の話者認識部とを有する音声変換装置における音声変換方法において、前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、前記第1の話者認識部により、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、前記第2の話者認識部により、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する。
上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の音声変換装置として機能させる。
本発明に係る音声変換装置、音声変換方法及びプログラムによれば、パラレルデータを用いることなく、発話内容を考慮したうえで、VAEによる発話内容と話者性を分離したモデル化が可能である。
従来技術(非特許文献1)における、VAEに基づく音声変換のネットワーク構造を示す図である。 実施例1のネットワーク構造を概略的に示す図である。 実施例1の音声変換装置の概略構成を示す機能ブロック図である。 実施例1の音素セグメンテーション情報の一例を示す図である。 実施例1の音声変換装置が実行する動作のシーケンス図である。 実施例2のネットワーク構造を概略的に示す図である。 実施例2の音声変換装置の概略構成を示す機能ブロック図である。 実施例2の音声変換装置が実行する動作のシーケンス図である。
[実施例1]
図1は、VAEに基づく音声変換のネットワーク構造を示す。図内の矢印は情報が流れる方向を示す。このネットワーク構造は、上記非特許文献1に記載される従来技術である。図2は、本発明の実施例1のネットワーク構造を概略的に示す。従来技術と実施例1との違いの1つは、従来技術では、入力された音声特徴量(スペクトルパラメータ)のみからVAEの潜在変数Zへの変換、及び、音声特徴量(スペクトルパラメータ)への復元を行っているのに対し、実施例1では音声認識部の出力としての音韻情報ベクトルをVAEのエンコーダ及びデコーダに与える点である。下記では、図3〜図5を参照して、実施例1の音声変換装置Sの各機能を詳細に説明するが、音声変換装置Sが有する他の機能を排除することを意図したものではない。
図3は実施例1の音声変換装置Sを示す機能ブロック図である。実施例1の音声変換装置Sは、音声特徴量DB1、モデル学習部2、音声認識部3、音声認識モデルDB4、エンコーダ5、デコーダ6、VAEモデルDB7、話者情報ベクトル変換部8、及び音声波形生成部9を含む。しかし実施例によっては、そのうち一部が音声変換装置Sの外部に設けられてよい。
音声変換装置Sが実行する処理は、1又は複数のプロセッサによって実行される(図示せず)。プロセッサは、種々の処理のためのプログラム及び演算中の情報を記憶する1又は複数のメモリを含んでよい。メモリは揮発性メモリ及び不揮発性メモリを含む。メモリは、プロセッサと独立しているメモリ、及びプロセッサの内蔵メモリを含む。プロセッサは特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、特定の処理に特化した専用のプロセッサを含む。
音声特徴量DB1は、あらかじめ収録しておくモデルの学習に使用する音声データと、その音声データの発話情報とを格納する。音声データは、音声変換の対象となるN名(2名以上)の話者が発話した音声のデータとして保持される。音声特徴量DB1は音声データを、音声信号に対して信号処理を行った結果として得られる音声特徴量(例えば、音高パラメータ(基本周波数等)又はスペクトルパラメータ(ケプストラム、メルケプストラム等)の少なくとも一方を含む)として保持する。
音声特徴量DB1に格納される発話情報は、音声データ中の各発話に対して付与された発音等の情報である。音声データ中の各発話に一つの発話情報が付与される。この発話情報は、少なくとも各音素の開始時間、及び終了時間の情報(音素セグメンテーション情報)を含む。開始時間及び終了時間のそれぞれは、各発話の始点を0[秒]とした時の、当該始点からの経過時間である。音素セグメンテーション情報の例が図4に示される。
再び図3が参照される。モデル学習部2は、音声特徴量、後述する話者情報ベクトル、及び音韻情報ベクトル等を用いて、入力された音声特徴量からそれ自身(入力された音声特徴量)を再構築するVAEを学習する。学習されたVAEのモデルはVAEモデルDB7に格納されてよい。学習アルゴリズムは、上記非特許文献3で用いられるものと同様であってよい。これにより、入力された音声特徴量から、発話者自身の音声特徴量を再構築することができる。ただし、非特許文献3記載の装置は音声特徴量と話者情報ベクトルのみを用いてVAEを学習するのに対し、実施例1では、あらかじめ用意された音声認識部3から得られる音韻情報ベクトルを追加的に用いる点で異なる。
実施例1で利用可能な話者情報ベクトルとして単純なものはone-hot表現ベクトルである。このone-hot表現のベクトルにおいて、次元数は、音声データに含まれる話者数Nである。また、one-hot表現のベクトルにおいては、対象の話者に該当する次元が1、それ以外の次元が0である。
実施例1のVAEの内部のネットワーク構造として、通常のMultilayer Perceptron(MLP)だけでなく、Recurrent Neural Network(RNN)、Long Short Term Memory(RNN−LSTM)、Convolutional Neural Network(CNN)等のニューラルネットワーク、またそれらを組み合わせたニューラルネットワークを使用可能である。
音声認識部3は、音声特徴量(スペクトルパラメータ)に基づいて音韻情報ベクトルを出力するモデルである。音声認識モデルDB4は、音声認識部3が使用するモデルに関する情報を格納する。当該モデルは、多数の話者の音声データ、及び音素セグメンテーション情報等を用いて学習される。学習に用いられる音声データはVAEに用いられる音声データと同一でなくてよい。音素セグメンテーション情報の例は図4に示した通りである。音声認識部3のモデル構造として、音声認識用音響モデルと同様に、スペクトルパラメータから音素を推定するDNN(Deep Neural Network)等を利用することができる。この場合、音韻情報ベクトルは、音声認識用DNNの出力(音素の事後確率)又は中間層の出力である。音素セグメンテーション情報が得られない場合でも、音声データから教師無モデル学習を行うことで音声認識部3を構築可能である。
エンコーダ5は、VAEモデルDB7に格納されたモデルを用いて、入力された音声をエンコードして潜在変数Zを出力する。デコーダ6は、VAEモデルDB7に格納されたモデルを用いて、潜在変数Zを取得して音声特徴量へとデコードする。エンコーダ5及びデコーダ6が実行する処理の詳細は後述する。
話者情報ベクトル変換部8は、任意の数の話者情報ベクトルを格納し、当該話者情報ベクトルを用いて、入力された変換元話者の話者情報ベクトルから変換対象話者の話者情報ベクトルへの変換を行う。実施例1では話者情報ベクトルとして、one-hot表現が用いられる。この場合、話者情報ベクトル変換部8は、変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ置き換えることで、ベクトルの変換を実行する。
音声波形生成部9は、デコーダ6によって変換された音声特徴量を取得して、対応する音声波形を生成する。音声波形生成部9はスピーカ等を介して、当該音声波形に対応する音声を出力する。
以下、図5のシーケンス図を参照して、実施例1の音声変換装置Sが実行する音声変換方法を説明する。下記の処理は、VAEの学習が既に行われた状態で、変換元話者より、当該変換元話者の音声を変換対象話者の音声へと変換する指示を受信したときに音声変換装置Sにより実行される。本実施例では一例として、音声変換装置Sは、音声特徴量のフレームごとに処理を実行する。実施例1の音声変換装置Sのアルゴリズムと非特許文献3のアルゴリズムとで異なる点は、実施例1では、音声認識部3が生成する音韻情報ベクトルが活用される点である。
音声認識部3は、変換元話者によって発話された音声の音声特徴量を取得し(ステップS1)、当該音声特徴量に基づいて音韻情報ベクトルを生成する(ステップS2)。音声認識部3は、当該音韻情報ベクトルをエンコーダ5へ出力する(ステップS3)。
エンコーダ5は、変換元話者の音声の音声特徴量を取得し(ステップS4)、その音声特徴量と、音声認識部3から取得した音韻情報ベクトルとに基づいて、潜在変数Zを生成する(ステップS5)。エンコーダ5は潜在変数Zをデコーダ6へ出力する(ステップS6)。
音声認識部3は、音韻情報ベクトルをデコーダ6へ出力する(ステップS7)。
話者情報ベクトル変換部8は、変換元話者が発話した音声に基づく変換元話者の話者情報ベクトルを取得すると(ステップS8)、当該話者情報ベクトルを、指定された変換対象話者の話者情報ベクトルへ変換する(ステップS9)。話者情報ベクトル変換部8は、変換対象話者の話者情報ベクトルをデコーダ6へ出力する(ステップS10)。
デコーダ6は、音声認識部3から取得した音韻情報ベクトルと、エンコーダ5から取得した潜在変数Zと、話者情報ベクトル変換部8から取得した話者情報ベクトルとに基づいて、変換対象話者の音声特徴量を生成する(ステップS11)。デコーダ6は、生成した音声特徴量を音声波形生成部9へ出力する(ステップS12)。
音声波形生成部9は、取得した音声特徴量に基づいて音声波形を生成する(ステップS13)。このとき音声波形生成部9は、例えば上記非特許文献4等を用いて当該生成を実行してよい。音声波形生成部9は、生成した音声波形に基づいて、変換後の音声を出力する(ステップS14)。
実施例1によれば、音声変換装置Sは、上記非特許文献3と同様にVAEを用いて、入力された音声特徴量から自身の音声特徴量を再構築できるよう学習を行う。そのため、パラレルデータを使用せずに音声変換モデルを学習することが可能である。ただし、上記非特許文献3では、音韻情報を明示的に考慮することができないため、変換元話者の音声特徴量から得られた潜在変数Zと変換対象話者の話者情報ベクトルとを用いて音声特徴量を再構築した場合に、必ずしも音韻性が保証されるとは限らない。それに対して実施例1の音声変換装置Sは、VAEの入力として音韻情報ベクトルを用いる。これにより、入力された音声特徴量の音韻性を考慮したうえで、変換対象話者の音声特徴量へ変換することが可能となる。すなわち、発話内容を考慮したうえで、発話内容と話者性を分離した音声変換が可能である。
上述の実施例1は代表的な例として説明されている。しかし本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施例1によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形又は変更が可能である。例えば、実施例の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。ここで、本発明の実施例2が下記に示される。
[実施例2]
上記実施例1では、話者情報ベクトル変換部8は、話者情報ベクトルとしてone-hot表現を使用する。この場合、話者情報ベクトル変換部8は、学習に使用した話者の音声特徴量から、学習に使用した別の話者の音声特徴量へ変換することは可能である。しかし、学習に使用されていない話者の音声特徴量へ変換することはできない。
この課題を解決するために実施例2では、VAEの学習データとして、変換対象に含まれない多数(例えば十名以上)の話者を使用する。これにより実施例2の音声変換装置Sは、変換対象話者の少量の音声データを用いて、変換元話者の音声を、変換対象話者と類似した音声へ変換することができる。類似とは、変数の差が所定値以下であることを示す。
図6は、実施例2で使用されるニューラルネットワークの構造を概略的に示す。実施例1と異なり、実施例2では、話者認識部を用いて、入力された音声特徴量から話者情報ベクトルを得る点が異なる。以下、重複記載を避けるため、実施例1と実施例2との差分が記載される。
図7は、実施例2の音声変換装置Sを詳細に示す機能ブロック図である。実施例2の音声変換装置Sは、音声特徴量DB1、モデル学習部2、音声認識部3、音声認識モデルDB4、エンコーダ5、デコーダ6、VAEモデルDB7、話者情報ベクトル変換部8、音声波形生成部9、第1の話者認識部10、話者認識モデルDB11及び第2の話者認識部12を含む。しかし、実施例によっては、その一部が音声変換装置Sの外部に設けられてよい。代替例として、第1の話者認識部10と第2の話者認識部12との機能を1つの話者認識部内に設けてもよい。
実施例1のモデル学習部2は、変換に用いる話者(変換元話者及び変換対象話者)のみをVAEの学習に用いる。しかし、実施例2のモデル学習部2は、学習に用いていない話者への変換を実現するために、次の非特許文献に記載されるように多数の話者(例えば数十名以上)の音声データ、又は、各音声をどの話者が発話したかを示す話者識別子を用いる。
Ehsan Variani, et al. "DEEP NEURAL NETWORKS FOR SMALL FOOTPRINT TEXT-DEPENDENT SPEAKER VERIFICATION," Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014: pp.4052-4056.
モデル学習部2は、音声特徴量と、話者情報ベクトルと、音韻情報ベクトルとを用いて、入力された音声特徴量から自分自身(入力された音声特徴量)を再構築するVAEを学習する。実施例1では、話者情報ベクトルとして、one-hot表現が用いられるのに対し、実施例2の話者情報ベクトルには、音声特徴量から第1の話者認識部10又は第2の話者認識部12による処理を通して得られるベクトルが使用される。実施例2において、当該処理はフレームごとに行われる。このため第1の話者認識部10及び第2の話者認識部12はフレーム数分の話者情報ベクトルを出力する。しかしモデル学習部2は、学習を行う際、音声認識部3と同様に、フレームごとに異なる話者情報ベクトル(第1の話者認識部10及び第2の話者認識部12のフレーム単位の出力)を用いてもよいし、第1の話者認識部10又は第2の話者認識部12の出力を発話単位で平均した値を話者情報ベクトルとして使用してもよい。
第1の話者認識部10は、話者認識モデルDB11を参照して、変換元話者の音声特徴量に基づいて、変換元話者の話者情報ベクトルを出力するためのモデルである。第2の話者認識部12は、変換対象話者の少量の発話に対応する音声特徴量の入力を受けたとき、話者認識モデルDB11を参照して、変換対象話者の部分的話者情報ベクトルを出力するためのモデルである。これらのモデル構造には音声特徴量から発話した話者を推定するDNN等を利用することができる。この場合、第1の話者認識部10又は第2の話者認識部12から得られる話者情報ベクトルは、話者認識用DNNの出力(発話者の事後確率)又は中間層の出力である。
話者情報ベクトル変換部8は、変換元話者の話者情報ベクトルと変換対象話者の部分的話者情報ベクトルとに基づいて、変換対象話者に類似する類似話者情報ベクトルを出力する。実施例1では、話者情報ベクトル変換部8は、話者情報ベクトルとしてone-hot表現を用いるため、単純に話者表現ベクトルを交換するだけで十分である。しかし実施例2の場合、話者情報ベクトル変換部8が変換対象話者の類似話者情報ベクトルを得る方法は複数存在する。例えば、話者情報ベクトル変換部8は、変換対象話者の話者情報ベクトルとして、第2の話者認識部12の出力の平均値を用いてよい。また、話者情報ベクトル変換部8が、フレームごとに異なる話者情報ベクトル(第2の話者認識部12のフレーム単位の出力)を用いる場合、話者情報ベクトル変換部8は、変換元話者の話者情報ベクトルと変換対象話者の類似話者情報ベクトルの平均値との差分をあらかじめ算出してフレームごとに加算することで、変換元話者の話者情報ベクトルから変換対象話者の類似話者情報ベクトルへの変換を行う。話者情報ベクトル変換部8は、当該変換の際、DNN等の統計モデルを用いてより高度な変換を行ってもよい。
以下、図8のシーケンス図を参照して、実施例2の音声変換装置Sが実行する処理を説明する。下記の処理は、VAEの学習が既に行われた状態で、変換元話者より、当該変換元話者の音声を変換対象話者の音声へと変換する指示を受信したときに音声変換装置Sにより実行される。実施例2と実施例1とで異なる点は、実施例2では、話者情報ベクトル変換部8が、第1の話者認識部10及び第2の話者認識部12から取得した話者情報ベクトルを活用する点である。
図8のステップS21からステップS27は図5のステップS1からステップS7と同様であるため、説明を省略する。
第2の話者認識部12は、変換対象話者が発話した音声の音声特徴量を取得する(ステップS28)。当該音声のデータ量は少量であってよい。第2の話者認識部12は、当該音声特徴量に基づいて、変換対象話者の部分的話者情報ベクトルを生成する(ステップS29)。この変換対象話者の部分的話者情報ベクトルは、例えば、第2の話者認識部12の出力を発話単位で平均した値であってよい。第2の話者認識部12は、変換対象話者の部分的話者情報ベクトルを話者情報ベクトル変換部8へ出力する(ステップS30)。
第1の話者認識部10は、変換元話者が発話した音声の音声特徴量を取得し(ステップS31)、当該音声特徴量に基づいて変換元話者の話者情報ベクトルを生成する(ステップS32)。第1の話者認識部10は、当該話者情報ベクトルを話者情報ベクトル変換部8へ出力する(ステップS33)。
話者情報ベクトル変換部8は、変換元話者の部分的話者情報ベクトルと、変換元話者の話者情報ベクトルとを取得すると、それらを、変換対象話者の話者情報ベクトルに類似した類似話者情報ベクトルへ変換する(ステップS34)。話者情報ベクトル変換部8は類似話者情報ベクトルをデコーダ6へ出力する(ステップS35)。
デコーダ6は、潜在変数Zと、音韻情報ベクトルと、話者情報ベクトル変換部8から取得した類似話者情報ベクトルとに基づいて、変換対象話者の音声特徴量に類似した類似音声特徴量を生成する(ステップS36)。デコーダ6は、生成した類似音声特徴量を音声波形生成部9へ出力する(ステップS37)。
ステップS38及びステップS39は、図5のステップS13及びステップS14と同様であるため、説明を省略する。
実施例2では、音声変換装置Sは、変換元話者及び変換対象話者の音声特徴量に基づいて第1の話者認識部10及び第2の話者認識部12によって得られた出力を話者情報ベクトルとして使用する。また、音声変換装置Sは、VAEの学習データとして多数の話者を使用する。これにより、変換対象話者の音声と類似した話者(話者情報ベクトルが類似する話者)が学習データに存在すれば、変換対象話者がVAEの学習に使用されていない場合でも、変換元話者の音声を変換対象話者に類似した音声へ変換することが可能である。
音声変換装置Sをコンピュータで構成する場合、各機能を実現する処理内容を記述したプログラムを、当該コンピュータの内部又は外部の記憶手段に格納しておき、当該コンピュータの中央演算処理装置(CPU)によってこのプログラムを読み出して実行させることでコンピュータを機能させることができる。また、このようなプログラムは、例えばDVD又はCD−ROM等の可搬型記録媒体の販売、譲渡、貸与等により流通させることができるほか、そのようなプログラムを、例えばネットワーク上にあるサーバの記憶手段に記憶しておき、ネットワークを介してサーバから他のコンピュータにそのプログラムを転送することにより、流通させることができる。また、そのようなプログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、自己の記憶手段に格納することができる。また、このプログラムの別の実施態様として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、更に、このコンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。
S 音声変換装置
1 音声特徴量DB
2 モデル学習部
3 音声認識部
4 音声認識モデルDB
5 エンコーダ
6 デコーダ
7 VAEモデルDB
8 話者情報ベクトル変換部
9 音声波形生成部
10 第1の話者認識部
11 話者認識モデルDB
12 第2の話者認識部

Claims (8)

  1. 音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部とを有する音声変換装置において、
    前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
    前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、
    前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、
    前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する、
    音声変換装置。
  2. 音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部と、第1の話者認識部と、第2の話者認識部とを有する音声変換装置において、
    前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
    前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、
    前記第1の話者認識部は、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、
    前記第2の話者認識部は、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、
    前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、
    前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する、
    音声変換装置。
  3. 請求項2に記載の音声変換装置において、
    前記第1の話者認識部及び前記第2の話者認識部は、音声特徴量をフレームごとに処理し、
    音声特徴量のフレームごとに異なる話者情報ベクトルを用いて学習を実行するモデル学習部を更に含む、
    音声変換装置。
  4. 請求項2に記載の音声変換装置において、
    前記第1の話者認識部及び前記第2の話者認識部の出力を発話単位で平均した値を話者情報ベクトルとして使用して学習を行うモデル学習部を更に含む、
    音声変換装置。
  5. 請求項1乃至4に記載の音声変換装置において、
    前記音声特徴量は、音高パラメータ及びスペクトルパラメータの少なくとも一方を含む、音声変換装置。
  6. 音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部とを有する音声変換装置における音声変換方法において、
    前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
    前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、
    前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、
    前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する、
    音声変換方法。
  7. 音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部と、第1の話者認識部と、第2の話者認識部とを有する音声変換装置における音声変換方法において、
    前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
    前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、
    前記第1の話者認識部により、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、
    前記第2の話者認識部により、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、
    前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、
    前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する、
    音声変換方法。
  8. コンピュータを、請求項1乃至5のいずれか一項に記載の音声変換装置として機能させるためのプログラム。
JP2017241027A 2017-12-15 2017-12-15 音声変換装置、音声変換方法及びプログラム Active JP6773634B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017241027A JP6773634B2 (ja) 2017-12-15 2017-12-15 音声変換装置、音声変換方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017241027A JP6773634B2 (ja) 2017-12-15 2017-12-15 音声変換装置、音声変換方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019109306A JP2019109306A (ja) 2019-07-04
JP6773634B2 true JP6773634B2 (ja) 2020-10-21

Family

ID=67179649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017241027A Active JP6773634B2 (ja) 2017-12-15 2017-12-15 音声変換装置、音声変換方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6773634B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102460676B1 (ko) 2019-05-07 2022-10-31 한국전자통신연구원 밀집 연결된 하이브리드 뉴럴 네트워크를 이용한 음성 처리 장치 및 방법
CN110260925B (zh) * 2019-07-12 2021-06-25 重庆赛迪奇智人工智能科技有限公司 司机停车技术优劣的检测方法及其系统、智能推荐方法、电子设备
ES2964322T3 (es) 2019-12-30 2024-04-05 Tmrw Found Ip Sarl Sistema y método de conversión de voz multilingüe
CN112259072A (zh) * 2020-09-25 2021-01-22 北京百度网讯科技有限公司 语音转换方法、装置和电子设备
CN112331183B (zh) * 2020-10-27 2022-03-18 中科极限元(杭州)智能科技股份有限公司 基于自回归网络的非平行语料语音转换方法及系统
CN112750446B (zh) * 2020-12-30 2024-05-24 标贝(青岛)科技有限公司 语音转换方法、装置和系统及存储介质
CN112509559B (zh) * 2021-02-03 2021-04-13 北京世纪好未来教育科技有限公司 音频识别方法、模型训练方法、装置、设备及存储介质
CN113450761B (zh) * 2021-06-17 2023-09-22 清华大学深圳国际研究生院 一种基于变分自编码器的并行语音合成方法和装置
CN115457969A (zh) * 2022-09-06 2022-12-09 平安科技(深圳)有限公司 基于人工智能的语音转换方法、装置、计算机设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
JP6543820B2 (ja) * 2015-06-04 2019-07-17 国立大学法人電気通信大学 声質変換方法および声質変換装置
WO2017168870A1 (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
JP2019109306A (ja) 2019-07-04

Similar Documents

Publication Publication Date Title
JP6773634B2 (ja) 音声変換装置、音声変換方法及びプログラム
US11664020B2 (en) Speech recognition method and apparatus
CN109147758B (zh) 一种说话人声音转换方法及装置
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US7996222B2 (en) Prosody conversion
Fazel et al. Synthasr: Unlocking synthetic data for speech recognition
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US11315548B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
KR102319753B1 (ko) 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP7028311B2 (ja) 学習用音声データ生成装置、その方法、およびプログラム
Das et al. Deep Auto-Encoder Based Multi-Task Learning Using Probabilistic Transcriptions.
JP6000326B2 (ja) 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6748607B2 (ja) 音声合成学習装置、音声合成装置、これらの方法及びプログラム
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP7146038B2 (ja) 音声認識システム及び方法
US20240119922A1 (en) Text to speech synthesis without using parallel text-audio data
EP4068279B1 (en) Method and system for performing domain adaptation of end-to-end automatic speech recognition model
JP2023171025A (ja) 学習装置、学習方法、および、学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201001

R150 Certificate of patent or registration of utility model

Ref document number: 6773634

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150