JP2019101391A - 系列データ変換装置、学習装置、及びプログラム - Google Patents

系列データ変換装置、学習装置、及びプログラム Download PDF

Info

Publication number
JP2019101391A
JP2019101391A JP2017248427A JP2017248427A JP2019101391A JP 2019101391 A JP2019101391 A JP 2019101391A JP 2017248427 A JP2017248427 A JP 2017248427A JP 2017248427 A JP2017248427 A JP 2017248427A JP 2019101391 A JP2019101391 A JP 2019101391A
Authority
JP
Japan
Prior art keywords
data
conversion
unit
distance
converter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017248427A
Other languages
English (en)
Other versions
JP6764851B2 (ja
Inventor
卓弘 金子
Takuhiro Kaneko
卓弘 金子
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017248427A priority Critical patent/JP6764851B2/ja
Publication of JP2019101391A publication Critical patent/JP2019101391A/ja
Application granted granted Critical
Publication of JP6764851B2 publication Critical patent/JP6764851B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】パラレルデータを必要としないパラレルデータフリーな声質変換手法を提供する。【解決手段】二つのドメインの系列データを受け取る入力部と、変換器を用いて、一方のドメインの順変換入力データから、もう一方のドメインの順変換出力データへ変換する順変換部と、順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインの逆変換出力データに変換する逆変換部と、順変換出力データに対して、状態判断器を用いて、順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、逆変換出力データと、順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、状態判断部と順逆変換距離測定部の結果に応じて変換器、状態判断部のパラメータを更新する学習部と、学習部によって学習された変換器を用いて、入力部が受け取ったデータを変換する変換部とを含む。【選択図】図2

Description

系列データ変換装置、方法、プログラム
2017年12月1日
CS研 基メ部 基識G金子卓弘、亀岡弘和
概要
本稿では,パラレルデータフリーな系列データ変換手法を提案する。提案法は,変換元系列データと変換目標系列データのパラレルデータを用いずとも系列データ変換を可能にする点,従来の多くの系列データ変換法(例えば声質変換法)においてしばしば問題とされる系列データ(例えば音響パラメータ)の過剰平滑化が起こりにくい点を特長にもつ。以上の提案法の特長は,Cyclic−consistent adversarial network(CycleGAN)を用いることにより実現している。CycleGANは元々,画像のスタイル変換の方法として提案されたもので,変換元のデータから変換目標のデータへの順方向の変換関数とともに,変換目標データから変換元データへの逆方向の変換関数を同時に学習することで,変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法は CycleGANを系列データ変換問題に適用し,敵対的学習規範(Adversarial loss),循環無矛盾性規準(Cyclic−consistency loss),および恒等写像誤差(Identity−mapping loss)の和を学習規準とすることにより変換元系列データから目標系列データへの特徴量系列の変換関数の学習を可能にしている。循環無矛盾性規準は,変換元データの順変換の逆変換が,どれくらい元通りに変換元データに一致するかを表した規準,および,変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は,変換されたデータと変換目標の実データとが,識別器によってどれくらい区別しやすいかを表した規準で,これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は,変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また,提案法では,順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え,いずれもGated Convolutional Neural Networkにより記述することにより,特徴量変換則に時間依存関係を反映できるようにしている。実験では,声質変換のタスクに提案手法を適用し評価を行った。定量評価実験により,提案法による変換音声が,変換目標の実音声と近いGlobal Variance(GV)とModulation Spectra(MS)をもつことを確認した。また,主観評価実験により,パラレルデータを用いた声質変換法と比べ,同等以上の自然性および目標話者への類似度が得られることを確認した。
1章:序論
入力音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい,テキスト音声合成の話者性変換,発声支援,音声強調,発音変換などへの応用が可能である。声質変換の問題は,変換元の音声の特徴量から変換目標の音声の特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model;GMM)を用いた手法はその有効性と汎用性から広く用いられている。また,近年では,制約つきボルツマンマシン,フィードフォワード型ニューラルネットワーク(Neural Network;NN),再帰型NN(Recurrent NN;RNN),畳み込み型NN(Convolutional NN;CNN)などのNN系の手法や非負値行列因子分解(Non−negative Matrix Factorization;NMF)などを用いた事例(Exemplar)ベースの手法の検討も進められている。
これらの手法の多くは,パラレルデータを用いて変換音声の特徴量が目標音声の特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし,用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また,仮にそのようなペアデータが用意できる場合でも,高い精度の時間整合が必要となり,これを自動処理で行う際は整合ミスを修正するため目視または手動によるプレスクリーニングが必要となる。
そこで,本稿ではパラレルデータを必要としないパラレルデータフリーな声質変換手法を提案する。提案法は,(1)テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点,(2)従来の多くの声質変換法においてしばしば問題とされる音響パラメータの過剰平滑化が起こりにくい点,(3)変換元と変換目標の音声の時間周波数構造を捉えた変換が可能である点,を特長にもつ。
以上の提案法の特長は,(Disco−GANおよびDualGANという別称としても知られる)Cyclic−consistent adversarial network(CycleGAN)を用いることにより実現している。CycleGANは元々,画像のスタイル変換の方法として提案されたもので,変換元のデータから変換目標のデータへの順方向の変換関数とともに,変換目標データから変換元データへの逆方向の変換関数を同時に学習することで,変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はCycleGANを声質変換問題に適用し,敵対的学習規範(Adversarial loss),循環無矛盾性規準(Cyclic−consistency loss),および恒等写像誤差(Identity−mapping loss)の和を学習規準とすることにより変換元音声から目標音声への音声特徴量の変換関数の学習を可能にしている。循環無矛盾性規準は,変換元データの順変換の逆変換が,どれくらい元通りに変換元データに一致するかを表した規準,および,変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は,変換されたデータと変換目標の実データとが,識別器によってどれくらい区別しやすいかを表した規準で,これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は,変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また,提案法では,順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え,いずれもGated Convolutional Neural Networkにより記述することにより,特徴量変換則に時間依存関係を反映できるようにしている。
上記では,系列データ変換の代表例である声質変換に着目し述べてきたが,より一般的な系列データ変換(例えば,曲調変換,テキスト変換など)でも同様の課題意識はあり,これらに対して,提案手法の特長である(1)データやモジュールを別途必要としない点,(2)特徴量系列の過剰平滑化が起こりにくい点,(3)変換元と変換目標の系列データの系列的・階層的構造を捉えた変換が可能である点,を活かすことが可能である。
2章:関連研究
系列データから系列データに変換するタスクの代表例である声質変換における関連研究について述べる。上述のように声質変換の従来法には,パラレルデータを用いることを想定したものが多いが,パラレルデータを必ずしも必要としない方法も最近いくつか提案されている。一例は音声認識を用いた方法である。この方法では,変換元音声と変換目標音声において同一音素と認識された時間フレームの音声特徴量をペアとすることでパラレルデータを構築する。この方法は,音声認識が極めて高い精度で行えることが想定されるが,そのためには音声認識自体を学習するための大量の音声コーパスが必要となる場合があるため,利用場面によっては難点になりえる。他の手法例としては話者適応技術を用いるものがある。この方法は,変換元音声と変換目標音声のパラレルデータに関しては準備する必要はないが,話者空間を学習するための参照音声のパラレルデータは必要となる。また,近年,テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方法の検討も進められている。これらの方法では,変換元音声と変換目標音声がいずれも低次元の埋め込み空間に属することが仮定されるため,音声のスペクトログラムの細部や詳細な成分をモデル化することが難しくなっている。これらに対し,提案法は変換元の系列データから変換目標の系列データへのマッピングを直接する学習する方法となっている。提案法のこの特徴は,声質変換のように変換されたデータの細部や詳細な構造のリアルさが重要となるタスクにおいては特に利点が大きい。
3章:発明を実施するための形態
以下、本発明の実施の形態について説明する。
本発明の、系列データ変換装置の原理について説明する。
3.CycleGANを用いたパラレルデータフリー系列データ変換
本研究の目的は,ドメインXの系列データx∈XからドメインYの系列データy∈Yへの変換関数をパラレルデータを要することなく学習することである。本研究では,この問題をCycleGAN[14]をベースにして解く。本章では,まず,第4.1節でCycleGANを概説する。CycleGANの元論文では画像データを扱っていたが,本研究の対象は音声データなどの系列データである。系列データを扱う上で重要な工夫点,つまり,我々の提案するパラレルデータフリー系列データ変換手法について第4.2節で述べる。
3.1 CycleGAN
CycleGANでは,変換関数GX→YをAdversarial lossとCycle−consistency lossの二つの損失関数を用いて学習する。学習処理を図3−1に示し、(a)は変換元データの順変換の逆変換が,どれくらい元通りに変換元データに一致するかを表した規準,および,(b)は目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準を示す。
Adversarial loss:Adversarial Loss は,変換データGX→Y(x)が,変換対象ドメインのデータyとしての妥当度合いを測る損失関数であり,変換データの分布PGX→Y(x)と変換対象ドメインのデータ分布PData(y)が近づいたとき,この損失関数の値は小さくなる。
Adversarial lossの定式化として,Generative adversarial network(GAN)[4]を用いた場合,目的関数は以下のようになる。
式1
ここで生成器GX→Yは,この目的関数を最小化することによって,識別器Dが変換対象ドメインのデータyと区別ができないようなデータを生成できるようにする。一方,識別器Dは,この目的関数を最大化することによって,GX→Yに騙されないようにする。なお,ここではAdversarial lossの定式化にGANを用いる例を示したが,これは,任意のGANの拡張モデル,例えば,Least squares GAN(LSGAN)[7]やWasserstein GAN(WGAN)[1]などを用いることも可能である。例えば,LSGANを用いた場合,式(1)のCross EntropyはLeast square lossになる。また,GANではJensen−Shannon divergenceの基準のもと真のデータ分布と生成データの分布を近づけるが,WGANではEarth Mover’s Distanceの基準のもと近づけようとする。
Cycle−consistency loss:Adversarial lossのみでは,GX→Y(x)が変換対象ドメインのデータ分布に従うようにする制約しか与えられないため,xとのGX→Y(x)の間でコンテキスト情報が保持されるとは限らない。そこで,Cycle−GANではさらに二つの制約を加えることによってこの問題に対処を行う。一つ目
う一つが,Cycle−consistency lossで以下で与えられる。
式2
上式では,二つのデータ間の距離を測る方法としてL1を用いた場合を示したが,これは任意の距離尺度を用いることが可能であり,例えば,L2距離やKullback−Leibler divergence,あるいは,任意の特徴量抽出器を用意し,その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については,例えばニューラルネットワークを用いて構成することも可能である。例えば,上記識別器を特徴抽出器として用いることができ,識別器内の特徴量空間で距離を測ってもよい。
これら追加した項によって,GX→YとGY→Xは,様々な変換先の候補の中から類似したコンテキスト情報を持った(x,y)のペアデータを擬似的に見つけるよう促進される。
全体の目的関数は,トレードオフパラメータλcycを用いて以下で表される。
式3
3.2 パラレルデータフリー系列データ変換のためのCycleGAN
CycleGANをパラレルデータフリー系列データ変換に適用するために,本研究では二つの修正を提案する。一つ目がGated CNN[3]を用いた系列データのモデリングと,二つ目がIdentity−mapping loss[9]を用いた言語情報の保持である。なお,本論文では系列データの一例として音声変換を中心に説明を行っているが,提案手法は系列データ一般に有効なものであり,音声データだけに縛られないものであることに留意されたい。
Gated CNN:系列データの特徴として,系列的な構造を持っているということと階層的な構造を持っているということの二点が挙げられる。例えば,音声データの場合であれば,有声・無声区間,音素・形態素などの系列的,階層的構造がある。ニューラルネットワークを用いて,このような構造を捉えようとした場合,ネットワークの構成方法が一つ鍵になる。そこで,本研究では,CycleGANに系列関係・階層関係の表現が可能なモデルの導入すること提案する。具体的には,Gated CNNを用いる。他にも,RNN(LSTMなど)も利用することが可能であるが,RNNは再帰的な構造を持っており並列化が難しく計算コストが高いため,ここではGated CNNを用いる。なお,ここで重要なのは系列構造,階層構造を捉えられるようなモデルを使うということであり,近年提案されているCNNとRNNのハイブリッドであるQuasi−RNN[2]などを用いてもよい。
Gated CNNは,元論文[3]では言語モデリングにおいて最新の性能を示しているものであり,近年,音声モデリングにおいても有効性を示している[5]。
Gated CNNでは,Gated linear units(GLUs)が活性化関数として用いられており,(l+1)層の出力Hl+1は,l層の出力HとモデルパラメータW,V,b,cを用いて以下の式により計算できる。
式4
ムによって,ネットワーク間で情報伝播を行う際,前層の情報に応じて選択的に伝播を行うことが可能である。
Identity−mapping loss:系列データを変換しようとした場合,意味的な情報の保持も一つの重要な要求項目になる。例えば,音声変換の場合であれば,変換をしたいのは話者性であり,発話内容(言語情報)については保持されることが要求される。上述したように,CycleGANにおいては,Cycle−consistency lossがコンテキスト情報の保持に寄与するが,この制約は,順変換し逆変換したら戻るという緩い制約にとどまっており,言語情報の保持については十分な働きをしない。この問題を音声認識器などの外部モジュールを要することなく解決するために,本研究では,Identity−mapping loss[9]の利用を提案する。Identity−mapping lossは以下の式で表される。
式5
この損失関数は,入力と出力間でデータの構成が保持されるように制約を与える。実際には,トレードオフパラメータλidを導入し,重み付けされた損失関
上式では,二つのデータ間の距離を測る方法としてL1を用いた場合を示したが,これは任意の距離尺度を用いることが可能であり,例えば,L2距離やKullback−Leibler divergence,あるいは,任意の特徴量抽出器を用意し,その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については,例えばニューラルネットワークを用いて構成することも可能である。例えば,上記識別器を特徴抽出器として用いることができ,識別器内の特徴量空間で距離を測ってもよい。
なお,このIdentity−mapping lossは学習の方向性を導くような制約であり,学習の全期間にわたり用いるのではなく,学習の初期段階のみ用いるようにしてもよい。
4.全体構成及び各フロー
4.1
全体構成図を図4.1に示し、各部について下記のとおり説明する。
データ変換装置は、機能的には入力部100と、制御部200と、出力部300を含んで構成される。
入力部100は、データ群Xに含まれるデータと、データ群Yに含まれるデータとを受け付ける。
具体的には、データ群Xに含まれるデータx∈Xと、データ群Yに含まれるデータy∈Yを受け付ける。
制御部200は、順変換部210と、状態判断部220と、逆変換部230と、順逆変換距離測定部240と、自己変換部250と、自変換距離測定部260と、ニューラルネットワーク記憶部270と、学習部280と、変換部290とを含んで構成される。
順変換部210は、入力されたデータ群Xのデータを、変換器GX→Yによって変換データ群XYのデータに変換する。また、順変換部210は、入力されたデータ群Yのデータを、変換器GY→Xによって変換データ群YXのデータに変換する。
具体的には、順変換部210は、データ群Xのデータサンプルxを、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群XYのデータGX→Y(x)に変換する。また、順変換部210は、データ群Yのデータサンプルyを、ニューラルネットワーク記憶部270に記憶された変換器GY→Xによって変換データ群YXのデータGY→X(y)に変換する。
状態判断部220は、順変換部210によって得られた変換データ群XYのデータと、入力データyとの各々について、状態判断器Dを用いて状態判断を行う。また、状態判断部220は、順変換部210によって得られた変換データ群YXのデータと、入力データxとの各々について、状態判断器Dを用いて状態判断を行う。
具体的には、状態判断部220は、ニューラルネットワーク記憶部270に記憶されたデータ群Yの状態判断器Dによって、変換データ群XYのデータGX→Y(x)の状態判断と入力データyの状態判断を行い、各々の判断結果D(GX→Y(x))とD(y)を学習部280に渡す。また、状態判断部220は、ニューラルネットワーク記憶部270に記憶されたデータ群Xの状態判断器Dによって、変換データ群YXのデータGY→X(y)の状態判断と入力データxの状態判断を行い、各々の判断結果D(GY→X(y))とD(x)を学習部280に渡す。
逆変換部230は、順変換部210によって得られた変換データ群XYのデータを変換器GY→Xによって変換データ群XYXのデータに変換する。また、逆変換部230は、順変換部210によって得られた変換データ群YXのデータを変換器GX→Yによって変換データ群YXYのデータに変換する。
具体的には、逆変換部230は、変換データ群XYのデータGX→Y(x)を、ニューラルネットワーク記憶部270に記憶された変換器GY→Xによって変換データ群XYXのデータGY→X(GX→Y(x))に変換する。また、逆変換部230は、変換データ群YXのデータGY→X(y)を、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群YXYのデータGX→Y(GY→X(y))に変換する。
順逆変換距離測定部240は、入力されたデータ群Xのデータと、逆変換部230によって得られた変換データ群XYXのデータとの距離を距離測定器Mによって測定する。また、順逆変換距離測定部240は、入力されたデータ群Yのデータと、逆変換部230によって得られた変換データ群YXYのデータとの距離を距離測定器Mによって測定する。
具体的には、順逆変換距離測定部240は、入力されたデータ群Xのデータxと、逆変換部230によって得られた変換データ群XYXのデータGY→X(GX→Y(x))との距離を距離測定器Mによって測定し、距離の測定結果M(x,GY→X(GX→Y(x)))を学習部280に渡す。また、順逆変換距離測定部240は、入力されたデータ群Yのデータyと、逆変換部230によって得られた変換データ群YXYのデータGX→Y(GY→X(y))との距離を距離測定器Mによって測定し、距離の測定結果M(y,(GX→Y(GY→X(y)))を学習部280に渡す。
なお、距離測定器Mの距離基準としては、例えば、L1距離やL2距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ネットワーク記憶部270に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。
自己変換部250は、入力されたデータ群Yのデータを、変換器GX→Yによって変換データ群YYのデータに変換する。また、自己変換部250は、入力されたデータ群Xのデータを、変換器GY→Xによって変換データ群XXのデータに変換する。
具体的には、自己変換部250は、入力されたデータ群Yのデータyを、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群YYのデータGX→Y(y)に変換する。また、自己変換部250は、入力されたデータ群Xのデータxを、ニューラルネットワーク記憶部270に記憶された変換器GY→Xによって変換データ群XXのデータGY→X(x)に変換する。
自己変換距離測定部260は、入力されたデータ群Yのデータと、自己変換部250によって得られた変換データ群YYのデータとの距離を距離測定器Mによって測定する。また、自己変換距離測定部260は、入力されたデータ群Xのデータと、自己変換部250によって得られた変換データ群XXのデータとの距離を距離測定器Mによって測定する。
具体的には、自己変換距離測定部260は、入力されたデータ群Yのデータyと、自己変換部250によって得られた変換データ群YYのデータ(GX→ (y))との距離を距離測定器Mによって測定し、距離の測定結果M(y,GX→Y(y))を学習部280に渡す。また、自己変換距離測定部260は、入力されたデータ群Xのデータxと、自己変換部250によって得られた変換データ群XXのデータ(GY→X(x))との距離を距離測定器Mによって測定し、距離の測定結果M(x,GY→X(x))を学習部280に渡す。
なお、距離測定器Mの距離基準としては、例えば、L1距離やL2距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ネットワーク記憶部270に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。
ニューラルネットワークの記憶部270は、変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークを記憶している。順逆変換距離測定部240、または、自己変換距離測定部270で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークを記憶している。
変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、Gated CNNやLSTMを用いる。
順逆変換距離測定部240、または、自己変換距離測定部270で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、Gated CNNやLSTMを用いる。
学習部280は、状態判断部220によって判断した結果について、変換データ群XYのデータの状態判断結果と入力データyの状態判断結果が近くなるように、変換データ群YXのデータの状態判断結果と入力データxの状態判断結果が近くなるように、順逆変換距離測定部240によって測定された距離を最小化するように、自己変換距離測定部260によって測定された距離を最小化するように、変換器としてのニューラルネットワークを学習する。
また、状態判断部220によって判断した結果について、変換データ群XYのデータの状態判断結果と入力データyの状態判断結果の差異が明確になるように、また、変換データ群YXのデータの状態判断結果と入力データxの状態判断結果の差異が明確になるように、状態判断器としてのニューラルネットワークを学習する。
具体的には、学習部280は、状態判断部220によって判断した結果D(GX→Y(x))とD(y)の値が近くなるように、状態判断部220によって判断した結果D(GY→X(y))とD(x)の値が近くなるように、順逆変換距離測定部240によって測定された距離M(x,GY→X(GX→Y(x)))とM(y,GX→Y(GY→X(y)))とを最小化するように、自己変換距離測定部260によって測定された距離M(y,GX→Y(y))とM(x,GY→X(x))とを最小化するように、変換器としてのニューラルネットワークGX→YとGY→Xを学習する。
より具体的には、学習部280において、状態判断部220によって判断した結果D(GX→Y(x))とD(y)の値が同じなるようにする目的関数としては、例えば、状態判断器Dとして入力データyが与えられた時は確率pを出力し、変換データGX→Y(x)が与えられた時は確率1−pを出力するようなものを考えた場合、Ladv(GX→Y,D)(論文の式(1))を最小化すればよい。同様に、状態判断部220によって判断した結果D(GY→X(y))とD(x)の値が同じなるようにする目的関数としては、例えば、状態判断器Dとして入力データxが与えられた時は確率pを出力し、変換データGY→X(y)が与えられた時は確率1−pを出力するようなものを考えた場合、Ladv(GY→X,D)を最小化すればよい。
なお、学習部280において、自己変換距離測定部260によって測定された距離を最小化する制約は、学習の初期段階で学習を安定化させるためにのみ用い、学習が安定化した後は用いなくてもよい。
また、学習部280において、自己変換距離測定部260によって測定された距離を最小化する制約は、学習において補助的な役割を担うものであり、用いなくても学習が安定しているのであれば、用いなくてもよい。
そして、学習部280は、状態判断部220によって判断した結果D(GX→Y(x))とD(y)の差異が明確になるように、状態判断部220によって判断した結果D(GY→X(y))とD(x)の差異が明確になるように、状態判断器としてのニューラルネットワークDとDとを学習する。
具体的には、学習部280において、状態判断部220によって判断した結果D(GX→Y(x))とD(y)の差異が明確になるようにする目的関数としては、例えば、状態判断器Dとして入力データyが与えられた時は確率pを出力し、変換データGX→Y(x)が与えられた時は確率1−pを出力するようなものを考えた場合、Ladv(GX→Y,D)(論文の式(1))を最大化すればよい。同様に、状態判断部220によって判断した結果D(GY→X(y))とD(x)の差異が明確になるようにする目的関数としては、例えば、状態判断器Dとして入力データyが与えられた時は確率pを出力し、変換データGY→X(y)が与えられた時は確率1−pを出力するようなものを考えた場合、Ladv(GY→X,D)を最大化すればよい。
なお、論文の[式1]では、目的関数内でCross Entropyを用いているが、代わりにEuclidean距離や、Earth Mover距離、エネルギー関数に基づく距離を用いてもよい。
そして、学習部280は、学習結果をニューラルネットワーク記憶部270に渡す。
変換部290は、学習部280によって学習された変換器を用いて、入力された変換対象のデータを変換する。
具体的には、変換部290は、入力部100が入力データとしてデータ群Xのデータxを受け取った場合、変換器GX→Yとしてのニューラルネットワークを、ニューラルネットワークの記憶部270から取得する。そして変換部290は、変換器GX→Yのニューラルネットワークを用いて、変換対象であるデータxを変換データGX→Y(x)に変換する。同様に、変換部290は、入力部100が入力データとしてデータ群Yのデータyを受け取った場合、変換器GY→Xとしてのニューラルネットワークを、ニューラルネットワークの記憶部270から取得する。そして変換部290は、変換器GY→Xのニューラルネットワークを用いて、変換対象であるデータyを変換データGY→X(y)に変換する。
出力部300は、変換部290が変換した変換結果である変換データを出力する。
具体的には、出力部300は、入力部100が入力データとしてデータ群Xのデータxを受け取った場合、変換部290が変換した変換結果である変換データGX→Y(x)を出力する。同様に、出力部300は、入力部100が入力データとしてデータ群Yのデータyを受け取った場合、変換部290が変換した変換結果である変換データGY→X(y)を出力する。
以下に、実施形態を示す。
概要1
二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ(順変換入力データ)から、もう一方のドメインのデータ(順変換出力データ)へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ(逆変換出力データ)に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
前記変換部が変換したデータを出力する出力部
を含む系列データ変換装置。
概要2
前記系列データ変換装置において、前記順変換部の変換器が変換対象とするドメインのデータ(自己変換入力データ)に対して、前記変換器によって変換してデータ(自己変換出力データ)を得る自己変換部と、
前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
を含む系列データ変換装置。
4.2
学習時の処理ルーチンを図4.2に示し、各ステップについて下記のとおり説明する。
1.入力部100にデータ群Xのデータと、データ群Yのデータとが入力されると、データ変換装置において、学習処理フローが実行される。
2.まず、ステップS100において、順変換部210と自己変換部250は、入力部100から、データ群Xのデータと、データ群Yのデータを取得する。
3.具体的には、入力部100は、データ群Xからランダムに選択されたデータx∈Xと、データ群Yからランダムに選択されたデータy∈Yとを、順変換部210と自己変換部250に渡す。なお、ランダムにデータを選択する際、二つのデータxとyは対応関係が取れている必要はない。例えば、音声データであれば、xとyは同じ発話内容のデータである必要はない。
4.ステップS110において、順変換部210は、変換器GX→Yを用いてxをGX→Y(x)に変換する。また、順変換部210は、変換器GY→Xを用いてyをGY→X(y)に変換する。
5.ステップS120において、状態判断部220は、状態判断器Dを用いて、GX→Y(x)の状態判断結果D(GX→Y(x))と、yの状態判断結果D(y)を取得する。また、状態判断部220は、状態判断器Dを用いて、GY→X(y)の状態判断結果D(GY→X(y))と、xの状態判断結果D(x)を取得する。
6.ステップS130において、逆変換部230は、変換器GY→Xを用いてGX→Y(x)をGY→X(GX→Y(x))に変換する。また、逆変換部230は、変換器GX→Yを用いてGY→X(y)をGX→Y(GY→X(y))に変換する。
7.ステップS140において、順逆変換距離測定部240は、距離測定器Mを用いてxとGY→X(GX→Y(x))の距離M(x,GY→X(GX→Y(x)))を測定する。また、順逆変換距離測定部240は、距離測定器Mを用いてyとGX→Y(GY→X(y))の距離M(y,GX→Y(GY→X(y)))を測定する。
8.ステップS150において、自己変換部250は、変換器GX→Yを用いてyをGX→Y(y)に変換する。また、自己変換部250は、変換器GY→Xを用いてxをGY→X(x)に変換する。
9.ステップS160において、自己変換距離測定部260は、距離測定器Mを用いてyとGX→Y(y)の距離M(y,GX→Y(y))を測定する。また、自己変換距離測定部260は、距離測定器Mを用いてxとGY→X(x)の距離M(x,GY→X(x))を測定する。
10.ステップS170において、学習部280は、状態判断部220によって判断した結果D(GX→Y(x))とD(y)の値が近くなるように、状態判断部220によって判断した結果D(GY→X(y))とD(x)の値が近くなるように、順逆変換距離測定部240によって測定された距離M(x,GY→X(GX→Y(x)))とM(y,GX→Y(GY→X(y)))とを最小化するように、自己変換距離測定部250によって測定された距離M(y,GX→Y(y))とM(x,GY→X(x))とを最小化するように、変換器としてのニューラルネットワークGX→YとGY→Xを学習し、ニューラルネットワークの記憶部270に記憶されている、変換器としてのニューラルネットワークGX→YとGY→Xのパラメータを更新する。
11.また、学習部280は、状態判断部220によって判断した結果D(GX→Y(x))とD(y)の差異が明確になるように、状態判断部220によって判断した結果D(GY→X(y))とD(x)の差異が明確になるように、状態判断器としてのニューラルネットワークDとDとを学習し、ニューラルネットワークの記憶部270に記憶されている、状態判断器としてのニューラルネットワークDとDのパラメータを更新する。
12.ステップS180において、全てのデータについて終了したか否かを判断する。
13.全てのデータについて終了していない場合(ステップS180のNO)、ステップS100に戻り、再度ステップS100〜S170の処理を行う。
14.一方、全てのデータについて終了している場合(ステップS180のYES)、処理を終了する。
4.3変換時の処理ルーチン
変換時の処理ルーチンを図4.3に示し、各ステップについて下記のとおり説明する。
1.入力部100に、変換対象のデータx∈X、または、変換対象のデータy∈Yが入力されると、データ変換装置において、データ変換処理フローが実行される。ここでは、変換対象のデータx∈Xが入力された場合を説明する。なお、変換対象のデータy∈Yが入力された場合も、処理は同様である。
2.ステップS200において、変換部290は、入力部100から、入力された変換対象のデータxを取得する。
3.ステップS210において、変換部290は、ニューラルネットワークの記憶部270から、学習部280によって学習された変換器GX→Yのニューラルネットワークを取得する。
4.ステップS220において、変換部290は、変換器GX→Yを用いて、入力された変換対象のデータxをGX→Y(x)に変換する。
5.ステップS230において、出力部300は、変換部290によってデータxが変換された変換データGX→Y(x)を出力する。
5 評価実験
5.1 実験設定
提案手法は,系列データ変換一般に適用可能なものであるが,実験では一例としてパラレルデータフリーの音声変換に提案手法を適用し,評価を行った。データとしては,VCC 2016 dataset[12]を用いた。本データセットには,プロのアメリカ英語の発話音声が収録されており,5人の男性話者,5人の女性話者を含む。各話者のデータは216個の短文(約13分)に分けられ,そのうち162文は学習用に用いられ,54文は評価用に用いられる。提案手法をパラレルデータなしの条件下で評価するため,提案手法を学習する際は,学習用データ162文のうち,前半の81文をソース音声として用い,後半の81文をターゲット音声として用いた。つまり,ソース音声とターゲット音声間で重複した発話がない条件下で学習を行った。音声データは16kHzにダウンサンプリングされており,24次元のメルケプストラム(MCEP),対数基本周波数(log F),非同期性指標(AP)をWORLD分析システム[8]を用いて5msで抽出を行った。これらの音声特徴量のうち,メルケプストラムに対して,提案手法を適用し変換を行った。基本周波数については,Logarithm Gaussian normalized transformation[6]を用い,非同期性指標については,変換しても有意差がないことが示されており,ソース音声のものをそのまま用いた。
5.2客観評価
本実験では,提案手法の適用対象はメルケプストラムであるため,変換メルケプストラムの質について客観評価を行った。比較手法としては,パラレルデータありの音声変換で代表的な方法の一つであるGMMベースの音声変換[11]を用いた。GMMベースの音声変換は,学習にパラレルデータが必要であるため,学習用データ162文全てを用いた。なお,提案手法はパラレルデータなしでかつデータ量は半分という不利な状況で学習していたことに留意されたい。また,評価データとしては,ソース音声にはSF1とSM1,ターゲット音声にはTF2とTM3を用いた。
評価指標としては,音声品質の主観評価と相関が高いと言われているGlobal variance(GV)[11]とModulation spectra(MS)[10]を用いた。図5−1に,提案手法(Proposed),比較手法(Conventional),ターゲット音声(Target)のメルケプストラムの次数ごとのGVの比較を示す。この結果より,提案手法では比較手法よりもターゲット音声に近いGVが得られていることが分かる。
図5−2に,提案手法(Proposed),比較手法(Conventional),ターゲット音声(Target)の変調周波数ごとのMSの比較を示す。この結果より,提案手法では比較手法よりもターゲット音声に近いMSが得られていることが分かる。
表1に,ターゲット音声と変換音声の対数MSのRoot mean square error(RMSE)の比較を示す。これらの値は小さい方が変換音声がターゲット音声に近いことを示しており,実験結果より,提案手法の方が比較手法よりターゲット音声に近い対数MSが得られていることが分かる。
5.3主観評価
主観評価実験については,VCC2016[13]のプロトコルに従い,自然性と話者性の評価を行った。比較手法としては,GMMベースのパラレルデータありの変換手法[11]を用いた。まず,自然性の評価についてはMean opinion score(MOS)テストを行った。評価データとしては,評価用データの中から2秒以上5秒以下のデータをランダムに20文選択し用いた。被験者としては英語教育を十分に受けた9人が参加した。MOSテストの結果は,同性話者間の音声変換(SF1−TF2)の場合,提案手法が2.4,比較手法が1.3,また,異性話者間の音声変換(SF1−TM3)の場合,提案手法が2.3,比較手法が1.4であった。このスコアは値が大きいほど自然性が高いことを示しており,自然性の主観評価においても提案手法が比較手法が上回ることが示された。
話者性の評価については,異なる発話内容に対して同一人物が話したように聞こえるかどうかという基準に従って評価を行った。評価データとしては,評価用データの中からランダムに10セット選択し用いた。被験者としては英語教育を十分に受けた9人が参加した。図5−3に同性話者間の音声変換(SF1−TF2)の場合の結果を示す。この図では,提案手法の方が比較手法よりも「ターゲット音声と絶対同じ」と答えた割合が多くなっている。この結果より,話者性においても提案手法の優位性が分かる。
参考文献
[1]Martin Arjovsky,Soumith Chintala,and L_eon Bottou.Wassersteingan.In proc.ICML,2017.
[2]James Bradbury,Stephen Merity,Caiming Xiong,and Richard Socher.Quasi−recurrent neural networks.In Proc.ICLR,2017.
[3]Yann N Dauphin,Angela Fan,Michael Auli,and David Grangier.Lan−guage modeling with gated convolutional networks.In Proc.ICML,pages 933{941,2017.
[4]Ian Goodfellow,Jean Pouget−Abadie,Mehdi Mirza,Bing Xu,DavidWarde−Farley,Sherjil Ozair,Aaron Courville,and Yoshua Bengio.Gen−erative adversarial nets.In Proc.NPIS,pages2672{2680,2014.
[5]Takuhiro Kaneko,Hirokazu Kameoka,Kaoru Hiramatsu,and KunioKashino.Sequence−to−sequence voice conversion with similaritymet−ric learned using generative adversarial networks.In Proc.INTER−SPEECH,pages 1283{1287,2017.
[6]Kun Liu,Jianping Zhang,and Yonghong Yan.High quality voiceconversion through phoneme−based linear mapping functions with STRAIGHT for Mandarin.In Proc.FSKD,pages 410{414,2007.
[7]Xudong Mao,Qing Li,Haoran Xie,Raymond YK Lau,ZhenWang,and Stephen Paul Smolley.Least squares generative adversarialnetworks.In Proc.ICCV,2017.
[8]Masanori Morise,Fumiya Yokomori,and Kenji Ozawa.WORLD:A vocoder−based high−quality speech synthesis system for real−time appli−ations.IEICE Trans.Inf.Syst.,99(7):1877{1884,2016.
[9]Yaniv Taigman,Adam Polyak,and Lior Wolf.Unsupervised cross−domain image generation.In Proc.ICLR,2017.
[10]Shinnosuke Takamichi,Tomoki Toda,Graham Neubig,Sakriani Sakti,and Satoshi Nakamura.A post_lter to modify the modulation spectrum in HMM−based speech synthesis.In Proc.ICASSP,pages290{294,2014.
[11]Tomoki Toda,Alan W Black,and Keiichi Tokuda.Voice conversion ased on maximum−likelihood estimation of spectral parameter tra−jectory.IEEE/ACM Trans.Audio Speech Lang.Process.,15(8):2222{2235,2007.
[12]Tomoki Toda, Ling−Hui Chen,Daisuke Saito,Fernando Villavicencio,Mirjam Wester,Zhizheng Wu,and Junichi Yamagishi.The Voice Conversion Challenge 2016.In Proc.INTERSPEECH,pages1632{1636,2016.
[13]Mirjam Wester,Zhizheng Wu,and Junichi Yamagishi.Analysis ofthe Voice Conversion Challenge 2016 evaluation results.In Proc.INTER−SPEECH,pages 1637{1641,2016.
[14]Jun−Yan Zhu,Taesung Park,Phillip Isola,and Alexei A.Efros.Un−paired image−to−image translation using cycle−consistent adversarial networks.In Proc.ICCV,pages 2223{2232,2017.
本発明は、系列データ変換装置、学習装置、及びプログラムに関する。
[1章:序論]
入力音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい,テキスト音声合成の話者性変換,発声支援,音声強調,発音変換などへの応用が可能である。声質変換の問題は,変換元の音声の特徴量から変換目標の音声の特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model; GMM) を用いた手法はその有効性と汎用性から広く用いられている。また,近年では,制約つきボルツマンマシン,フィードフォワード型ニューラルネットワーク(Neural Network; NN) , 再帰型NN(Recurrent NN; RNN) , 畳み込み型NN(Convolutional NN; CNN)などのNN 系の手法や非負値行列因子分解(Nonnegative Matrix Factorization; NMF) などを用いた事例(Exemplar)ベースの手法の検討も進められている。
Martin Arjovsky, Soumith Chintala, and L_eon Bottou. WassersteinGAN. In Proc. ICML, 2017. James Bradbury, Stephen Merity, Caiming Xiong, and Richard Socher. Quasi-recurrent neural networks. In Proc. ICLR, 2017. Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated convolutional networks. In Proc. ICML,pages 933-941, 2017. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu,DavidWarde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Proc. NPIS, pages 2672-2680, 2014. Takuhiro Kaneko, Hirokazu Kameoka, Kaoru Hiramatsu, and Kunio Kashino. Sequence-to-sequence voice conversion with similaritymetric learned using generative adversarial networks. In Proc. INTERSPEECH, pages 1283-1287, 2017. Kun Liu, Jianping Zhang, and Yonghong Yan. High quality voice conversion through phoneme-based linear mapping functions with STRAIGHT for Mandarin. In Proc. FSKD, pages 410-414, 2007. Xudong Mao, Qing Li, Haoran Xie, Raymond YK Lau, Zhen Wang, and Stephen Paul Smolley. Least squares generative adversarial networks. In Proc. ICCV, 2017. Masanori Morise, Fumiya Yokomori, and Kenji Ozawa. WORLD: Avocoder-based high-quality speech synthesis system for real-time appliations. IEICE Trans. Inf. Syst., 99(7):1877-1884, 2016. Yaniv Taigman, Adam Polyak, and Lior Wolf. Unsupervised cross domainimage generation. In Proc. ICLR, 2017. Shinnosuke Takamichi, Tomoki Toda, Graham Neubig, Sakriani Sakti,and Satoshi Nakamura. A postfiter to modify the modulation spectrum in HMM-based speech synthesis. In Proc. ICASSP, pages290-294,2014. Tomoki Toda, Alan W Black, and Keiichi Tokuda. Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory. IEEE/ACM Trans. Audio Speech Lang. Process.,15(8):2222-2235, 2007. Tomoki Toda, Ling-Hui Chen, Daisuke Saito, Fernando Villavicencio,Mirjam Wester, Zhizheng Wu, and Junichi Yamagishi. The Voice Conversion Challenge 2016. In Proc. INTERSPEECH,pages 1632-1636,2016. Mirjam Wester, Zhizheng Wu, and Junichi Yamagishi. Analysis of the Voice Conversion Challenge 2016 evaluation results. In Proc. INTERSPEECH, pages 1637-1641, 2016. Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros.Un-paired image-to-image translation using cycle-consistent adversarial networks. In Proc. ICCV,pages 2223-2232, 2017.
これらの手法の多くは,パラレルデータを用いて変換音声の特徴量が目標音声の特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし,用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また,仮にそのようなペアデータが用意できる場合でも,高い精度の時間整合が必要となり,これを自動処理で行う際は整合ミスを修正するため目視または手動によるプレスクリーニングが必要となる。
本発明は、パラレルデータを必要としないパラレルデータフリーな声質変換手法を提供することを目的とする。
本発明に係る系列データ変換装置は、二つのドメインの系列データに対して、系列データを受け取る入力部と、変換器を用いて、一方のドメインのデータである順変換入力データから、もう一方のドメインのデータである順変換出力データへ変換する順変換部と、前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータである逆変換出力データに変換する逆変換部と、前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、前記変換部が変換したデータを出力する出力部とを含んで構成されている。
本発明に係る学習装置は、二つのドメインの系列データに対して、系列データを受け取る入力部と、変換器を用いて、一方のドメインのデータである順変換入力データから、もう一方のドメインのデータである順変換出力データへ変換する順変換部と、前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータである逆変換出力データに変換する逆変換部と、前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、を備え、前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器及び前記状態判断部のパラメータを更新する。
また、本発明に係るプログラムは、上記発明に係る系列データ変換装置の各部としてコンピュータを機能させるためのプログラムである。
本発明の系列データ変換装置、学習装置、及びプログラムによれば、パラレルデータを必要としないパラレルデータフリーな声質変換手法を提供することができる、という効果が得られる。
CycleGANの学習処理を示す図である。 データ変換装置の全体構成を示す図である。 概要1に係るデータ変換装置の全体構成を示す図である。 概要2に係るデータ変換装置の全体構成を示す図である。 データ変換装置による学習時の処理ルーチンを示す図である。 データ変換装置による変換時の処理ルーチンを示す図である。 メルケプストラムの次数ごとのGV比較を示す図である。 変調周波数ごとのMSの比較を示す図である。 ソース音声とターゲット音声に対する類似性の比較(S:ソース、T:ターゲット、P:提案手法、B:比較手法)を示す図である。
[概要]
本稿では、パラレルデータフリーな系列データ変換手法を提案する。提案法は、変換元系列データと変換目標系列データのパラレルデータを用いずとも系列データ変換を可能にする点、従来の多くの系列データ変換法(例えば声質変換法)においてしばしば問題とされる系列データ(例えば音響パラメータ)の過剰平滑化が起こりにくい点を特長にもつ。以上の提案法の特長は、Cyclic-consistent adversarial network (CycleGAN)を用いることにより実現している。CycleGAN は元々、画像のスタイル変換の方法として提案されたもので、変換元のデータから変換目標のデータへの順方向の変換関数とともに、変換目標データから変換元データへの逆方向の変換関数を同時に学習することで、変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はCycleGAN を系列データ変換問題に適用し、敵対的学習規範(Adversarial loss)、循環無矛盾性規準(Cyclic-consistency loss)、および恒等写像誤差(Identity-mapping loss)の和を学習規準とすることにより変換元系列データから目標系列データへの特徴量系列の変換関数の学習を可能にしている。循環無矛盾性規準は、変換元データの順変換の逆変換が、どれくらい元通りに変換元データに一致するかを表した規準、および、変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は、変換されたデータと変換目標の実データとが、識別器によってどれくらい区別しやすいかを表した規準で、これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は、変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また、提案法では、順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え、いずれもGated Convolutional Neural Network により記述することにより、特徴量変換則に時間依存関係を反映できるようにしている。実験では、声質変換のタスクに提案手法を適用し評価を行った。定量評価実験により、提案法による変換音声が、変換目標の実音声と近いGlobal Variance (GV)とModulation Spectra (MS)をもつことを確認した。また、主観評価実験により、パラレルデータを用いた声質変換法と比べ、同等以上の自然性および目標話者への類似度が得られることを確認した。
提案法は、(1)テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点、(2)従来の多くの声質変換法においてしばしば問題とされる音響パラメータの過剰平滑化が起こりにくい点、(3)変換元と変換目標の音声の時間周波数構造を捉えた変換が可能である点、を特長にもつ。以上の提案法の特長は、(Disco-GAN およびDualGAN という別称としても知られる)Cyclic-consistent adversarial network (CycleGAN)を用いることにより実現している。CycleGAN は元々、画像のスタイル変換の方法として提案されたもので、変換元のデータから変換目標のデータへの順方向の変換関数とともに、変換目標データから変換元データへの逆方向の変換関数を同時に学習することで、変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はCycleGAN を声質変換問題に適用し、敵対的学習規範(Adversarial loss)、循環無矛盾性規準(Cyclic-consistency loss)、および恒等写像誤差(Identity-mapping loss)の和を学習規準とすることにより変換元音声から目標音声への音声特徴量の変換関数の学習を可能にしている。循環無矛盾性規準は、変換元データの順変換の逆変換が、どれくらい元通りに変換元データに一致するかを表した規準、および、変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は、変換されたデータと変換目標の実データとが、識別器によってどれくらい区別しやすいかを表した規準で、これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は、変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また、提案法では、順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え、いずれもGated Convolutional Neural Network により記述することにより、特徴量変換則に時間依存関係を反映できるようにしている。上記では、系列データ変換の代表例である声質変換に着目し述べてきたが、より一般的な系列データ変換(例えば、曲調変換、テキスト変換など)でも同様の課題意識はあり、これらに対して、提案手法の特長である(1)データやモジュールを別途必要としない点、(2)特徴量系列の過剰平滑化が起こりにくい点、(3)変換元と変換目標の系列データの系列的・階層的構造を捉えた変換が可能である点、を活かすことが可能である。
[2章:関連研究]
系列データから系列データに変換するタスクの代表例である声質変換における関連研究について述べる。上述のように声質変換の従来法には、パラレルデータを用いることを想定したものが多いが、パラレルデータを必ずしも必要としない方法も最近いくつか提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音声特徴量をペアとすることでパラレルデータを構築する。この方法は、音声認識が極めて高い精度で行えることが想定されるが、そのためには音声認識自体を学習するための大量の音声コーパスが必要となる場合があるため、利用場面によっては難点になりえる。他の手法例としては話者適応技術を用いるものがある。この方法は、変換元音声と変換目標音声のパラレルデータに関しては準備する必要はないが、話者空間を学習するための参照音声のパラレルデータは必要となる。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方法の検討も進められている。これらの方法では、変換元音声と変換目標音声がいずれも低次元の埋め込み空間に属することが仮定されるため、音声のスペクトログラムの細部や詳細な成分をモデル化することが難しくなっている。これらに対し、提案法は変換元の系列データから変換目標の系列データへのマッピングを直接する学習する方法となっている。提案法のこの特徴は、声質変換のように変換されたデータの細部や詳細な構造のリアルさが重要となるタスクにおいては特に利点が大きい。
[3章:発明を実施するための形態]
以下、本発明の実施の形態について説明する。本発明の、系列データ変換装置の原理について説明する。
3.CycleGAN を用いたパラレルデータフリー系列データ変換
本研究の目的は、ドメインX の系列データx ∈ X からドメインY の系列データy ∈ Y への変換関数をパラレルデータを要することなく学習することである。本研究では、この問題をCycleGAN (非特許文献14) をベースにして解く。本章では、まず、第4.1 節でCycleGAN を概説する。CycleGAN の元論文では画像データを扱っていたが、本研究の対象は音声データなどの系列データである。系列データを扱う上で重要な工夫点、つまり、我々の提案するパラレルデータフリー系列データ変換手法について第4.2 節で述べる。
3.1 CycleGAN
CycleGAN では、変換関数GXYをAdversarial loss とCycle-consistency lossの二つの損失関数を用いて学習する。学習処理を図に示し、(a)は変換元データの順変換の逆変換が、どれくらい元通りに変換元データに一致するかを表した規準、および、(b)は目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準を示す。Adversarial loss: Adversarial Loss は、変換データGX→Y (x)が、変換対象ドメインのデータy としての妥当度合いを測る損失関数であり、変換データの分布

と変換対象ドメインのデータ分布PData(y)が近づいたとき、この損失関数の値は小さくなる。Adversarial lossの定式化として、Generative adversarial network (GAN) (非特許文献4)を用いた場合、目的関数は以下のようになる。
ここで生成器GX→Yは、この目的関数を最小化することによって、識別器DYが変換対象ドメインのデータy と区別ができないようなデータを生成できるようにする。一方、識別器DYは、この目的関数を最大化することによって、GX→Yに騙されないようにする。なお、ここではAdversarial lossの定式化にGANを用いる例を示したが、これは、任意のGANの拡張モデル、例えば、Least squares GAN (LSGAN) (非特許文献7)やWasserstein GAN (WGAN) (非特許文献1)などを用いることも可能である。例えば、LSGAN を用いた場合、式(1) のCross Entropy はLeast square loss になる。また、GAN ではJensen-Shannon divergence の基準のもと真のデータ分布と生成データの分布を近づけるが、WGAN ではEarth Mover's Distance の基準のもと近づけようとする。
Cycle-consistency loss: Adversarial loss のみでは、GX→Y (x)が変換対象ドメインのデータ分布に従うようにする制約しか与えられないため、xとGX→Y(x)の間でコンテキスト情報が保持されるとは限らない。そこで、CycleGANではさらに二つの制約を加えることによってこの問題に対処を行う。一つ目が、逆変換GY→Xに対するAdversarial loss、つまり、

である。もう一つが、Cycle-consistency lossで以下で与えられる。
上式では、二つのデータ間の距離を測る方法としてL1を用いた場合を示したが、これは任意の距離尺度を用いることが可能であり、例えば、L2 距離やKullback-Leibler divergence、あるいは、任意の特徴量抽出器を用意し、その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については、例えばニューラルネットワークを用いて構成することも可能である。例えば、上記識別器を特徴抽出器として用いることができ、識別器内の特徴量空間で距離を測ってもよい。
これら追加した項によって、GX→YとGY→Xは、様々な変換先の候補の中から類似したコンテキスト情報を持った(x、y) のペアデータを擬似的に見つけるよう促進される。
全体の目的関数は、トレードオフパラメータλcycを用いて以下で表される。
3.2 パラレルデータフリー系列データ変換のためのCycleGAN
CycleGAN をパラレルデータフリー系列データ変換に適用するために、本研究では二つの修正を提案する。一つ目がGated CNN (非特許文献3) を用いた系列データのモデリングと、二つ目がIdentity-mapping loss (非特許文献9) を用いた言語情報の保持である。なお、本発明では系列データの一例として音声変換を中心に説明を行っているが、提案手法は系列データ一般に有効なものであり、音声データだけに縛られないものであることに留意されたい。
Gated CNN: 系列データの特徴として、系列的な構造を持っているということと階層的な構造を持っているということの二点が挙げられる。例えば、音声データの場合であれば、有声・無声区間、音素・形態素などの系列的、階層的構造がある。ニューラルネットワークを用いて、このような構造を捉えようとした場合、ネットワークの構成方法が一つ鍵になる。そこで、本研究では、CycleGAN に系列関係・階層関係の表現が可能なモデルの導入すること提案する。具体的には、Gated CNN を用いる。他にも、RNN (LSTMなど) も利用することが可能であるが、RNN は再帰的な構造を持っており並列化が難しく計算コストが高いため、ここではGated CNN を用いる。なお、ここで重要なのは系列構造、階層構造を捉えられるようなモデルを使うということであり、近年提案されているCNN とRNN のハイブリッドであるQuasi-RNN (非特許文献2) などを用いてもよい。
Gated CNN は、元論文(非特許文献3) では言語モデリングにおいて最新の性能を示しているものであり、近年、音声モデリングにおいても有効性を示している(非特許文献5)。Gated CNN では、Gated linear units (GLUs) が活性化関数として用いられており、(l + 1) 層の出力

は、l 層の出力

とモデルパラメータ

を用いて以下の式により計算できる。
ここで、

は要素積であり、σはシグモイド関数である。このゲートメカニズムによって、ネットワーク間で情報伝播を行う際、前層の情報に応じて選択的に伝播を行うことが可能である。
Identity-mapping loss:系列データを変換しようとした場合、意味的な情報の保持も一つの重要な要求項目になる。例えば、音声変換の場合であれば、変換をしたいのは話者性であり、発話内容(言語情報) については保持されることが要求される。上述したように、CycleGAN においては、Cycle-consistency loss がコンテキスト情報の保持に寄与するが、この制約は、順変換し逆変換したら戻るという緩い制約にとどまっており、言語情報の保持については十分な働きをしない。この問題を音声認識器などの外部モジュールを要することなく解決するために、本研究では、Identity-mapping loss (非特許文献9) の利用を提案する。Identity-mapping loss は以下の式で表される。
この損失関数は、入力と出力間でデータの構成が保持されるように制約を与える。実際には、トレードオフパラメータλidを導入し、重み付けされた損失関数

を式(3)とともに用いる。
上式では、二つのデータ間の距離を測る方法としてL1を用いた場合を示したが、これは任意の距離尺度を用いることが可能であり、例えば、L2距離やKullback-Leibler divergence、あるいは、任意の特徴量抽出器を用意し、その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については、例えばニューラルネットワークを用いて構成することも可能である。例えば、上記識別器を特徴抽出器として用いることができ、識別器内の特徴量空間で距離を測ってもよい。なお、このIdentity-mapping lossは学習の方向性を導くような制約であり、学習の全期間にわたり用いるのではなく、学習の初期段階のみ用いるようにしてもよい。
4.全体構成及び各フロー
4.1
全体構成図を図2に示し、各部について下記のとおり説明する。
データ変換装置は、機能的には入力部100と、制御部200と、出力部300を含んで構成される。
入力部100は、データ群Xに含まれるデータと、データ群Yに含まれるデータとを受け付ける。
具体的には、データ群Xに含まれるデータx∈Xと、データ群Yに含まれるデータy∈Yを受け付ける。
制御部200は、順変換部210と、状態判断部220と、逆変換部230と、順逆変換距離測定部240と、自己変換部250と、自変換距離測定部260と、ニューラルネットワーク記憶部270と、学習部280と、変換部290とを含んで構成される。
順変換部210は、入力されたデータ群Xのデータを、変換器GX→Yによって変換データ群XYのデータに変換する。また、順変換部210は、入力されたデータ群Yのデータを、変換器GY→Xによって変換データ群YXのデータに変換する。
具体的には、順変換部210は、データ群Xのデータサンプルx を、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群XY のデータGX→Y(x)に変換する。また、順変換部210は、データ群Yのデータサンプルyを、ニューラルネットワーク記憶部270に記憶された変換器GY→Xによって変換データ群YXのデータGY→X(y)に変換する。
状態判断部220は、順変換部210によって得られた変換データ群XYのデータと、入力データyとの各々について、状態判断器DYを用いて状態判断を行う。また、状態判断部220は、順変換部210によって得られた変換データ群YXのデータと、入力データxとの各々について、状態判断器DX用いて状態判断を行う。
具体的には、状態判断部220は、ニューラルネットワーク記憶部270に記憶されたデータ群Yの状態判断器DYによって、変換データ群XYのデータGX→Y(x)の状態判断と入力データyの状態判断を行い、各々の判断結果DY(GX→Y(x))とDY(y)を学習部280に渡す。また、状態判断部220は、ニューラルネットワーク記憶部270に記憶されたデータ群Xの状態判断器DXによって、変換データ群YXのデータGY→X(y)の状態判断と入力データxの状態判断を行い、各々の判断結果DX(GY→X(y))とDX(x)を学習部280に渡す。
逆変換部230は、順変換部210によって得られた変換データ群XY のデータを変換器GY→X によって変換データ群XYX のデータに変換する。また、逆変換部230は、順変換部210によって得られた変換データ群YX のデータを変換器GX→Y によって変換データ群YXYのデータに変換する。
具体的には、逆変換部230は、変換データ群XYのデータGX→Y(x)を、ニューラルネットワーク記憶部270に記憶された変換器GY→X によって変換データ群XYXのデータGY→X(GX→Y(x))に変換する。また、逆変換部230は、変換データ群YXのデータGY→X(y)を、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群YXYのデータGX→Y(GY→X(y))に変換する。
順逆変換距離測定部240は、入力されたデータ群Xのデータと、逆変換部230によって得られた変換データ群XYX のデータとの距離を距離測定器M1によって測定する。また、順逆変換距離測定部240は、入力されたデータ群Yのデータと、逆変換部230によって得られた変換データ群YXYのデータとの距離を距離測定器M1によって測定する。
具体的には、順逆変換距離測定部240は、入力されたデータ群Xのデータx と、逆変換部230によって得られた変換データ群XYXのデータGY→X(GX→Y(x))との距離を距離測定器M1によって測定し、距離の測定結果M1(x、GY→X(GX→Y(x)))を学習部280に渡す。また、順逆変換距離測定部240は、入力されたデータ群Yのデータyと、逆変換部230によって得られた変換データ群YXYのデータGX→Y(GY→X(y))との距離を距離測定器M1によって測定し、距離の測定結果M1(y、GX→Y (GY→X(y)))を学習部280に渡す。
なお、距離測定器M1の距離基準としては、例えば、L1距離やL2距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ニューラルネットワーク記憶部270に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。
自己変換部250は、入力されたデータ群Yのデータを、変換器GX→Yによって変換データ群YYのデータに変換する。また、自己変換部250は、入力されたデータ群Xのデータを、変換器GY→Xによって変換データ群XXのデータに変換する。
具体的には、自己変換部250は、入力されたデータ群Y のデータy を、ニューラルネットワーク記憶部270に記憶された変換器GX→Yによって変換データ群YYのデータGX→Y(y)に変換する。また、自己変換部250は、入力されたデータ群Xのデータxを、ニューラルネットワーク記憶部270に記憶された変換器GY→Xによって変換データ群XXのデータGY→X(x)に変換する。
自己変換距離測定部260は、入力されたデータ群Yのデータと、自己変換部250によって得られた変換データ群YYのデータとの距離を距離測定器M2によって測定する。また、自己変換距離測定部260は、入力されたデータ群Xのデータと、自己変換部250によって得られた変換データ群XXのデータとの距離を距離測定器M2によって測定する。
具体的には、自己変換距離測定部260は、入力されたデータ群Yのデータyと、自己変換部250によって得られた変換データ群YYのデータ(GX→Y(y))との距離を距離測定器M2によって測定し、距離の測定結果M2(y,GX→Y(y))を学習部280に渡す。また、自己変換距離測定部260は、入力されたデータ群Xのデータxと、自己変換部250によって得られた変換データ群XXのデータ(GY→X(x))との距離を距離測定器M2によって測定し、距離の測定結果M2(x,GY→X(x))を学習部280に渡す。
なお、距離測定器M2の距離基準としては、例えば、L1距離やL2 距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ニューラルネットワーク記憶部270に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。
ニューラルネットワーク記憶部270は、変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークを記憶している。順逆変換距離測定部240、または、自己変換距離測定部20で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークを記憶している。
変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、Gated CNNやLSTMを用いる。
順逆変換距離測定部240、または、自己変換距離測定部20で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、Gated CNNやLSTMを用いる。
学習部280は、状態判断部220によって判断した結果について、変換データ群XYのデータの状態判断結果と入力データy の状態判断結果が近くなるように、変換データ群YXのデータの状態判断結果と入力データx の状態判断結果が近くなるように、順逆変換距離測定部240によって測定された距離を最小化するように、自己変換距離測定部260によって測定された距離を最小化するように、変換器としてのニューラルネットワークを学習する。また、状態判断部220によって判断した結果について、変換データ群XYのデータの状態判断結果と入力データyの状態判断結果の差異が明確になるように、また、変換データ群YXのデータの状態判断結果と入力データxの状態判断結果の差異が明確になるように、状態判断器としてのニューラルネットワークを学習する。
具体的には、学習部280は、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の値が近くなるように、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の値が近くなるように、順逆変換距離測定部240によって測定された距離M1(x,GY→X (GX→Y(x)))とM1(y, GX→Y(GY→X(y)))とを最小化するように、自己変換距離測定部260によって測定された距離M2(y,GX→Y(y))とM2(x,GY→X(x))とを最小化するように、変換器としてのニューラルネットワークGX→YとGY→Xを学習する。
より具体的には、学習部280において、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の値が同じなるようにする目的関数としては、例えば、状態判断器DYとして入力データy が与えられた時は確率pを出力し、変換データGX→Y(x)が与えられた時は確率1-pを出力するようなものを考えた場合、Ladv(GX→Y,DY)(本発明の式(1))を最小化すればよい。同様に、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の値が同じなるようにする目的関数としては、例えば、状態判断器DXとして入力データxが与えられた時は確率pを出力し、変換データGY→X(y)が与えられた時は確率1-pを出力するようなものを考えた場合、Ladv(GY→X,DX)を最小化すればよい。
なお、学習部280において、自己変換距離測定部260によって測定された距離を最小化する制約は、学習の初期段階で学習を安定化させるためにのみ用い、学習が安定化した後は用いなくてもよい。
また、学習部280において、自己変換距離測定部260によって測定された距離を最小化する制約は、学習において補助的な役割を担うものであり、用いなくても学習が安定しているのであれば、用いなくてもよい。
そして、学習部280は、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の差異が明確になるように、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の差異が明確になるように、状態判断器としてのニューラルネットワークDYとDXとを学習する。
具体的には、学習部280において、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の差異が明確になるようにする目的関数としては、例えば、状態判断器DYとして入力データyが与えられた時は確率pを出力し、変換データGX→Y(x)が与えられた時は確率1-pを出力するようなものを考えた場合、Ladv(GX→Y、DY)(本発明の式(1))を最大化すればよい。同様に、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の差異が明確になるようにする目的関数としては、例えば、状態判断器DXとして入力データyが与えられた時は確率pを出力し、変換データGY→X(y)が与えられた時は確率1-pを出力するようなものを考えた場合、Ladv(GY→X、DX)を最大化すればよい。
なお、本発明[数1]では、目的関数内でCross Entropyを用いているが、代わりにEuclidean距離や、Earth Mover距離、エネルギー関数に基づく距離を用いてもよい。
そして、学習部280は、学習結果をニューラルネットワーク記憶部270に渡す。
変換部290は、学習部280によって学習された変換器を用いて、入力された変換対象のデータを変換する。
具体的には、変換部290は、入力部100が入力データとしてデータ群Xのデータxを受け取った場合、変換器GX→Yとしてのニューラルネットワークを、ニューラルネットワーク記憶部270から取得する。そして変換部290は、変換器GX→Yのニューラルネットワークを用いて、変換対象であるデータx を変換データGX→Y(x)に変換する。同様に、変換部290は、入力部100が入力データとしてデータ群Yのデータyを受け取った場合、変換器GY→Xとしてのニューラルネットワークを、ニューラルネットワーク記憶部270から取得する。そして変換部290は、変換器GY→Xのニューラルネットワークを用いて、変換対象であるデータy を変換データGY→X(y)に変換する。
出力部300は、変換部290が変換した変換結果である変換データを出力する。
具体的には、出力部300は、入力部100が入力データとしてデータ群Xのデータxを受け取った場合、変換部290が変換した変換結果である変換データGX→Y(x)を出力する。同様に、出力部300は、入力部100が入力データとしてデータ群Yのデータyを受け取った場合、変換部290が変換した変換結果である変換データGY→X(y)を出力する。
以下に、実施形態を示す。
[概要1]
二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ(順変換入力データ)から、もう一方のドメインのデータ(順変換出力データ)へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ(逆変換出力データ)に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
前記変換部が変換したデータを出力する出力部を含む系列データ変換装置。
[概要2]
前記系列データ変換装置において、前記順変換部の変換器が変換対象とするドメインのデータ(自己変換入力データ)に対して、前記変換器によって変換してデータ(自己変換出力データ)を得る自己変換部と、
前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
を含む系列データ変換装置。
4.2
学習時の処理ルーチンを図5に示し、各ステップについて下記のとおり説明する。
1. 入力部100にデータ群Xのデータと、データ群Yのデータとが入力されると、データ変換装置において、学習処理フローが実行される。
2. まず、ステップ S100において、順変換部210と自己変換部250は、入力部100から、データ群X のデータと、データ群Yのデータを取得する。
3. 具体的には、入力部100は、データ群Xからランダムに選択されたデータx∈Xと、データ群Yからランダムに選択されたデータy∈Yとを、順変換部210と自己変換部250に渡す。なお、ランダムにデータを選択する際、二つのデータxとyは対応関係が取れている必要はない。例えば、音声データであれば、xとyは同じ発話内容のデータである必要はない。
4. ステップ S110において、順変換部210は、変換器GX→Yを用いてxをGX→Y(x)に変換する。また、順変換部210は、変換器GY→Xを用いてyをGY→X(y)に変換する。
5. ステップS120において、状態判断部220は、状態判断器DYを用いて、GX→Y(x)の状態判断結果DY(GX→Y(x))と、yの状態判断結果DY(y)を取得する。また、状態判断部220は、状態判断器DXを用いて、GY→X(y)の状態判断結果DX(GY→X(y))と、xの状態判断結果DX(x)を取得する。
6. ステップ S130において、逆変換部230は、変換器GY→Xを用いてGX→Y(x)をGY→X(GX→Y(x))に変換する。また、逆変換部230は、変換器GX→Yを用いてGY→X(y)をGX→Y(GY→X(y))に変換する。
7. ステップ S140において、順逆変換距離測定部240は、距離測定器M1を用いてxとGY→X(GX→Y(x))の距離M1(x、GY→X(GX→Y(x)))を測定する。また、順逆変換距離測定部240は、距離測定器M1を用いてyとGX→Y(GY→X(y))の距離M1(y、GX→Y(GY→X(y)))を測定する。
8. ステップ S150において、自己変換部250は、変換器GX→Yを用いてyをGX→Y(y)に変換する。また、自己変換部250は、変換器GY→Xを用いてxをGY→X(x)に変換する。
9. ステップ S160において、自己変換距離測定部260は、距離測定器M2を用いてyとGX→Y(y)の距離M2(y、GX→Y(y))を測定する。また、自己変換距離測定部260は、距離測定器M2を用いてx とGY→X(x)の距離M2(x、GY→X(x))を測定する。
10.ステップ S170において、学習部280は、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の値が近くなるように、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の値が近くなるように、順逆変換距離測定部240によって測定された距離M1(x、GY→X (GX→Y(x)))とM1(y、GX→Y (GY→X(y)))とを最小化するように、自己変換距離測定部20によって測定された距離M2(y、GX→Y(y))とM2(x、GY→X(x))とを最小化するように、変換器としてのニューラルネットワークGX→YとGY→Xを学習し、ニューラルネットワーク記憶部270に記憶されている、変換器としてのニューラルネットワークGX→YとGY→Xのパラメータを更新する。
11.また、学習部280は、状態判断部220によって判断した結果DY(GX→Y(x))とDY(y)の差異が明確になるように、状態判断部220によって判断した結果DX(GY→X(y))とDX(x)の差異が明確になるように、状態判断器としてのニューラルネットワークDYとDXとを学習し、ニューラルネットワーク記憶部270に記憶されている、状態判断器としてのニューラルネットワークDYとDXのパラメータを更新する。
12.ステップ S180において、全てのデータについて終了したか否かを判断する。
13.全てのデータについて終了していない場合(ステップS180のNO)、ステップS100に戻り、再度ステップS100〜S170の処理を行う。
14.一方、全てのデータについて終了している場合(ステップS180のYES)、処理を終了する。
4.3 変換時の処理ルーチン
変換時の処理ルーチンを図6に示し、各ステップについて下記のとおり説明する。
1. 入力部100に、変換対象のデータx∈X、または、変換対象のデータy∈Yが入力されると、データ変換装置において、データ変換処理フローが実行される。ここでは、変換対象のデータx∈X が入力された場合を説明する。なお、変換対象のデータy∈Y が入力された場合も、処理は同様である。
2. ステップ S200において、変換部290は、入力部100から、入力された変換対象のデータx を取得する。
3. ステップ S210において、変換部290は、ニューラルネットワーク記憶部270から、学習部280によって学習された変換器GX→Yのニューラルネットワークを取得する。
4. ステップ S220において、変換部290は、変換器GX→Y を用いて、入力された変換対象のデータxをGX→Y(x)に変換する。
5. ステップ S230において、出力部300は、変換部290によってデータx が変換された変換データGX→Y(x)を出力する。
5 評価実験
5.1 実験設定
提案手法は、系列データ変換一般に適用可能なものであるが、実験では一例としてパラレルデータフリーの音声変換に提案手法を適用し、評価を行った。データとしては、VCC 2016 dataset (非特許文献12) を用いた。本データセットには、プロのアメリカ英語の発話音声が収録されており、5 人の男性話者、5人の女性話者を含む。各話者のデータは216個の短文(約13分) に分けられ、そのうち162文は学習用に用いられ、54文は評価用に用いられる。提案手法をパラレルデータなしの条件下で評価するため、提案手法を学習する際は、学習用データ162文のうち、前半の81文をソース音声として用い、後半の81 文をターゲット音声として用いた。つまり、ソース音声とターゲット音声間で重複した発話がない条件下で学習を行った。音声データは16 kHz にダウンサンプリングされており、24 次元のメルケプストラム(MCEP)、対数基本周波数(log F0)、非同期性指標(AP) をWORLD 分析システム(非特許文献8) を用いて5 msで抽出を行った。これらの音声特徴量のうち、メルケプストラムに対して、提案手法を適用し変換を行った。基本周波数については、Logarithm Gaussian normalized transformation (非特許文献6) を用い、非同期性指標については、変換しても有意差がないことが示されており、ソース音声のものをそのまま用いた。
5.2客観評価
本実験では、提案手法の適用対象はメルケプストラムであるため、変換メルケプストラムの質について客観評価を行った。比較手法としては、パラレルデータありの音声変換で代表的な方法の一つであるGMM ベースの音声変換(非特許文献11) を用いた。GMM ベースの音声変換は、学習にパラレルデータが必要であるため、学習用データ162 文全てを用いた。なお、提案手法はパラレルデータなしでかつデータ量は半分という不利な状況で学習していたことに留意されたい。また、評価データとしては、ソース音声にはSF1 とSM1、ターゲット音声にはTF2とTM3を用いた。
評価指標としては、音声品質の主観評価と相関が高いと言われているGlobal variance (GV) (非特許文献11) とModulation spectra (MS) (非特許文献10)を用いた。図7 に、提案手法(Proposed)、比較手法(Conventional)、ターゲット音声(Target) のメルケプストラムの次数ごとのGVの比較を示す。この結果より、提案手法では比較手法よりもターゲット音声に近いGVが得られていることが分かる。図8に、提案手法(Proposed)、比較手法(Conventional)、ターゲット音声(Target) の変調周波数ごとのMSの比較を示す。この結果より、提案手法では比較手法よりもターゲット音声に近いMSが得られていることが分かる。表1に、ターゲット音声と変換音声の対数MSのRoot mean square error(RMSE)の比較を示す。これらの値は小さい方が変換音声がターゲット音声に近いことを示しており、実験結果より、提案手法の方が比較手法よりターゲット音声に近い対数MS が得られていることが分かる。
5.3主観評価
主観評価実験については、VCC 2016 (非特許文献13)のプロトコルに従い、自然性と話者性の評価を行った。比較手法としては、GMM ベースのパラレルデータありの変換手法(非特許文献11)を用いた。まず、自然性の評価についてはMean opinion score(MOS) テストを行った。評価データとしては、評価用データの中から2 秒以上5 秒以下のデータをランダムに20 文選択し用いた。被験者としては英語教育を十分に受けた9 人が参加した。MOS テストの結果は、同性話者間の音声変換(SF1-TF2) の場合、提案手法が2.4、比較手法が1.3、また、異性話者間の音声変換(SF1-TM3) の場合、提案手法が2.3、比較手法が1.4 であった。このスコアは値が大きいほど自然性が高いことを示しており、自然性の主観評価においても提案手法が比較手法が上回ることが示された。
話者性の評価については、異なる発話内容に対して同一人物が話したように聞こえるかどうかという基準に従って評価を行った。評価データとしては、評価用データの中からランダムに10セット選択し用いた。被験者としては英語教育を十分に受けた9 人が参加した。図9に同性話者間の音声変換(SF1-TF2)の場合の結果を示す。この図では、提案手法の方が比較手法よりも「ターゲット音声と絶対同じ」と答えた割合が多くなっている。この結果より、話者性においても提案手法の優位性が分かる。

Claims (5)

  1. 概要1
    二つのドメインの系列データに対して、系列データを受け取る入力部と、
    変換器を用いて、一方のドメインのデータ(順変換入力データ)から、もう一方のドメインのデータ(順変換出力データ)へ変換する順変換部と、
    前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ(逆変換出力データ)に変換する逆変換部と、
    前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
    前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
    前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
    前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
    前記変換部が変換したデータを出力する出力部
    を含む系列データ変換装置。
  2. 概要2
    請求項1に従属し、前記系列データ変換装置において、前記順変換部の変換器が変換対象とするドメインのデータ(自己変換入力データ)に対して、前記変換器によって変換してデータ(自己変換出力データ)を得る自己変換部と、
    前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
    を含む系列データ変換装置。
  3. 概要3
    請求項1または2に従属し、前記変換器、前記状態判断器を系列データ間の関係性を捉えることのできるニューラルネットワークを用いて構成する
    概要1又は概要2に記載の系列データ変換装置。
  4. 概要4
    請求項1乃至3のいずれか1項に従属し、前記ニューラルネットワークの一部にGated CNN 又は LSTM 又は Attention構造を持ったモデルを用いる概要3記載の系列データ変換装置。
  5. 二つのドメインの系列データに対して、系列データを受け取る入力部と、
    変換器を用いて、一方のドメインのデータ(順変換入力データ)から、もう一方のドメインのデータ(順変換出力データ)へ変換する順変換部と、
    前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ(逆変換出力データ)に変換する逆変換部と、
    前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
    前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
    を備え、前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習装置
JP2017248427A 2017-12-07 2017-12-07 系列データ変換装置、学習装置、及びプログラム Active JP6764851B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017248427A JP6764851B2 (ja) 2017-12-07 2017-12-07 系列データ変換装置、学習装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017248427A JP6764851B2 (ja) 2017-12-07 2017-12-07 系列データ変換装置、学習装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019101391A true JP2019101391A (ja) 2019-06-24
JP6764851B2 JP6764851B2 (ja) 2020-10-14

Family

ID=66973630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017248427A Active JP6764851B2 (ja) 2017-12-07 2017-12-07 系列データ変換装置、学習装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6764851B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021110943A (ja) * 2019-12-30 2021-08-02 ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル クロスリンガル音声変換システムおよび方法
WO2021199446A1 (ja) * 2020-04-03 2021-10-07 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022024183A1 (ja) * 2020-07-27 2022-02-03 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022024187A1 (ja) * 2020-07-27 2022-02-03 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022085197A1 (ja) * 2020-10-23 2022-04-28 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022234615A1 (ja) * 2021-05-06 2022-11-10 日本電信電話株式会社 変換モデル学習装置、変換モデル生成方法、変換装置、変換方法およびプログラム
JP7492159B2 (ja) 2020-07-27 2024-05-29 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017003622A (ja) * 2015-06-04 2017-01-05 国立大学法人神戸大学 声質変換方法および声質変換装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017003622A (ja) * 2015-06-04 2017-01-05 国立大学法人神戸大学 声質変換方法および声質変換装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021110943A (ja) * 2019-12-30 2021-08-02 ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル クロスリンガル音声変換システムおよび方法
JP7152791B2 (ja) 2019-12-30 2022-10-13 ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル クロスリンガル音声変換システムおよび方法
US11797782B2 (en) 2019-12-30 2023-10-24 Tmrw Foundation Ip S. À R.L. Cross-lingual voice conversion system and method
WO2021199446A1 (ja) * 2020-04-03 2021-10-07 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP7368779B2 (ja) 2020-04-03 2023-10-25 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022024183A1 (ja) * 2020-07-27 2022-02-03 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022024187A1 (ja) * 2020-07-27 2022-02-03 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP7492159B2 (ja) 2020-07-27 2024-05-29 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022085197A1 (ja) * 2020-10-23 2022-04-28 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022234615A1 (ja) * 2021-05-06 2022-11-10 日本電信電話株式会社 変換モデル学習装置、変換モデル生成方法、変換装置、変換方法およびプログラム

Also Published As

Publication number Publication date
JP6764851B2 (ja) 2020-10-14

Similar Documents

Publication Publication Date Title
Chou et al. Multi-target voice conversion without parallel data by adversarially learning disentangled audio representations
JP6764851B2 (ja) 系列データ変換装置、学習装置、及びプログラム
CN111933110B (zh) 视频生成方法、生成模型训练方法、装置、介质及设备
Arik et al. Deep voice 2: Multi-speaker neural text-to-speech
Tu et al. Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition
Gibiansky et al. Deep voice 2: Multi-speaker neural text-to-speech
Juvela et al. Speech waveform synthesis from MFCC sequences with generative adversarial networks
JP6876641B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
WO2020036178A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
JP6973304B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
US11393452B2 (en) Device for learning speech conversion, and device, method, and program for converting speech
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
CN110838294B (zh) 一种语音验证方法、装置、计算机设备及存储介质
Prabhu et al. EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data
Tripathi et al. CycleGAN-Based Speech Mode Transformation Model for Robust Multilingual ASR
Kotani et al. Voice Conversion Based on Deep Neural Networks for Time-Variant Linear Transformations
US20240153494A1 (en) Techniques for generating training data for acoustic models using domain adaptation
Bahja et al. An overview of the cate algorithms for real-time pitch determination
Khan et al. Adaptive framing based similarity measurement between time warped speech signals using Kalman filter
Sarfjoo et al. Cross-Lingual Speaker Adaptation for Statistical Speech Synthesis Using Limited Data.
Laszko Word detection in recorded speech using textual queries
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180316

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200914

R150 Certificate of patent or registration of utility model

Ref document number: 6764851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150