JP2019101391A

JP2019101391A - 系列データ変換装置、学習装置、及びプログラム

Info

Publication number: JP2019101391A
Application number: JP2017248427A
Authority: JP
Inventors: 卓弘金子; Takuhiro Kaneko; 弘和亀岡; Hirokazu Kameoka
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2019-06-24
Anticipated expiration: 2037-12-07
Also published as: JP6764851B2

Abstract

【課題】パラレルデータを必要としないパラレルデータフリーな声質変換手法を提供する。【解決手段】二つのドメインの系列データを受け取る入力部と、変換器を用いて、一方のドメインの順変換入力データから、もう一方のドメインの順変換出力データへ変換する順変換部と、順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインの逆変換出力データに変換する逆変換部と、順変換出力データに対して、状態判断器を用いて、順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、逆変換出力データと、順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、状態判断部と順逆変換距離測定部の結果に応じて変換器、状態判断部のパラメータを更新する学習部と、学習部によって学習された変換器を用いて、入力部が受け取ったデータを変換する変換部とを含む。【選択図】図２

Description

系列データ変換装置、方法、プログラム
２０１７年１２月１日
ＣＳ研基メ部基識Ｇ金子卓弘、亀岡弘和

概要

本稿では，パラレルデータフリーな系列データ変換手法を提案する。提案法は，変換元系列データと変換目標系列データのパラレルデータを用いずとも系列データ変換を可能にする点，従来の多くの系列データ変換法（例えば声質変換法）においてしばしば問題とされる系列データ（例えば音響パラメータ）の過剰平滑化が起こりにくい点を特長にもつ。以上の提案法の特長は，Ｃｙｃｌｉｃ−ｃｏｎｓｉｓｔｅｎｔａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ（ＣｙｃｌｅＧＡＮ）を用いることにより実現している。ＣｙｃｌｅＧＡＮは元々，画像のスタイル変換の方法として提案されたもので，変換元のデータから変換目標のデータへの順方向の変換関数とともに，変換目標データから変換元データへの逆方向の変換関数を同時に学習することで，変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はＣｙｃｌｅＧＡＮを系列データ変換問題に適用し，敵対的学習規範（Ａｄｖｅｒｓａｒｉａｌｌｏｓｓ），循環無矛盾性規準（Ｃｙｃｌｉｃ−ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ），および恒等写像誤差（Ｉｄｅｎｔｉｔｙ−ｍａｐｐｉｎｇｌｏｓｓ）の和を学習規準とすることにより変換元系列データから目標系列データへの特徴量系列の変換関数の学習を可能にしている。循環無矛盾性規準は，変換元データの順変換の逆変換が，どれくらい元通りに変換元データに一致するかを表した規準，および，変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は，変換されたデータと変換目標の実データとが，識別器によってどれくらい区別しやすいかを表した規準で，これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は，変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また，提案法では，順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え，いずれもＧａｔｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋにより記述することにより，特徴量変換則に時間依存関係を反映できるようにしている。実験では，声質変換のタスクに提案手法を適用し評価を行った。定量評価実験により，提案法による変換音声が，変換目標の実音声と近いＧｌｏｂａｌＶａｒｉａｎｃｅ（ＧＶ）とＭｏｄｕｌａｔｉｏｎＳｐｅｃｔｒａ（ＭＳ）をもつことを確認した。また，主観評価実験により，パラレルデータを用いた声質変換法と比べ，同等以上の自然性および目標話者への類似度が得られることを確認した。

１章：序論

入力音声の言語情報（発話文）を保持したまま非言語・パラ言語（話者性や発話様式など）のみを変換する技術を声質変換といい，テキスト音声合成の話者性変換，発声支援，音声強調，発音変換などへの応用が可能である。声質変換の問題は，変換元の音声の特徴量から変換目標の音声の特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；ＧＭＭ）を用いた手法はその有効性と汎用性から広く用いられている。また，近年では，制約つきボルツマンマシン，フィードフォワード型ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ；ＮＮ），再帰型ＮＮ（ＲｅｃｕｒｒｅｎｔＮＮ；ＲＮＮ），畳み込み型ＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮＮ；ＣＮＮ）などのＮＮ系の手法や非負値行列因子分解（Ｎｏｎ−ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ；ＮＭＦ）などを用いた事例（Ｅｘｅｍｐｌａｒ）ベースの手法の検討も進められている。
これらの手法の多くは，パラレルデータを用いて変換音声の特徴量が目標音声の特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし，用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また，仮にそのようなペアデータが用意できる場合でも，高い精度の時間整合が必要となり，これを自動処理で行う際は整合ミスを修正するため目視または手動によるプレスクリーニングが必要となる。
そこで，本稿ではパラレルデータを必要としないパラレルデータフリーな声質変換手法を提案する。提案法は，（１）テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点，（２）従来の多くの声質変換法においてしばしば問題とされる音響パラメータの過剰平滑化が起こりにくい点，（３）変換元と変換目標の音声の時間周波数構造を捉えた変換が可能である点，を特長にもつ。
以上の提案法の特長は，（Ｄｉｓｃｏ−ＧＡＮおよびＤｕａｌＧＡＮという別称としても知られる）Ｃｙｃｌｉｃ−ｃｏｎｓｉｓｔｅｎｔａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ（ＣｙｃｌｅＧＡＮ）を用いることにより実現している。ＣｙｃｌｅＧＡＮは元々，画像のスタイル変換の方法として提案されたもので，変換元のデータから変換目標のデータへの順方向の変換関数とともに，変換目標データから変換元データへの逆方向の変換関数を同時に学習することで，変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はＣｙｃｌｅＧＡＮを声質変換問題に適用し，敵対的学習規範（Ａｄｖｅｒｓａｒｉａｌｌｏｓｓ），循環無矛盾性規準（Ｃｙｃｌｉｃ−ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ），および恒等写像誤差（Ｉｄｅｎｔｉｔｙ−ｍａｐｐｉｎｇｌｏｓｓ）の和を学習規準とすることにより変換元音声から目標音声への音声特徴量の変換関数の学習を可能にしている。循環無矛盾性規準は，変換元データの順変換の逆変換が，どれくらい元通りに変換元データに一致するかを表した規準，および，変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は，変換されたデータと変換目標の実データとが，識別器によってどれくらい区別しやすいかを表した規準で，これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は，変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また，提案法では，順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え，いずれもＧａｔｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋにより記述することにより，特徴量変換則に時間依存関係を反映できるようにしている。
上記では，系列データ変換の代表例である声質変換に着目し述べてきたが，より一般的な系列データ変換（例えば，曲調変換，テキスト変換など）でも同様の課題意識はあり，これらに対して，提案手法の特長である（１）データやモジュールを別途必要としない点，（２）特徴量系列の過剰平滑化が起こりにくい点，（３）変換元と変換目標の系列データの系列的・階層的構造を捉えた変換が可能である点，を活かすことが可能である。

２章：関連研究

系列データから系列データに変換するタスクの代表例である声質変換における関連研究について述べる。上述のように声質変換の従来法には，パラレルデータを用いることを想定したものが多いが，パラレルデータを必ずしも必要としない方法も最近いくつか提案されている。一例は音声認識を用いた方法である。この方法では，変換元音声と変換目標音声において同一音素と認識された時間フレームの音声特徴量をペアとすることでパラレルデータを構築する。この方法は，音声認識が極めて高い精度で行えることが想定されるが，そのためには音声認識自体を学習するための大量の音声コーパスが必要となる場合があるため，利用場面によっては難点になりえる。他の手法例としては話者適応技術を用いるものがある。この方法は，変換元音声と変換目標音声のパラレルデータに関しては準備する必要はないが，話者空間を学習するための参照音声のパラレルデータは必要となる。また，近年，テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方法の検討も進められている。これらの方法では，変換元音声と変換目標音声がいずれも低次元の埋め込み空間に属することが仮定されるため，音声のスペクトログラムの細部や詳細な成分をモデル化することが難しくなっている。これらに対し，提案法は変換元の系列データから変換目標の系列データへのマッピングを直接する学習する方法となっている。提案法のこの特徴は，声質変換のように変換されたデータの細部や詳細な構造のリアルさが重要となるタスクにおいては特に利点が大きい。

３章：発明を実施するための形態

以下、本発明の実施の形態について説明する。
本発明の、系列データ変換装置の原理について説明する。
３．ＣｙｃｌｅＧＡＮを用いたパラレルデータフリー系列データ変換
本研究の目的は，ドメインＸの系列データｘ∈ＸからドメインＹの系列データｙ∈Ｙへの変換関数をパラレルデータを要することなく学習することである。本研究では，この問題をＣｙｃｌｅＧＡＮ［１４］をベースにして解く。本章では，まず，第４．１節でＣｙｃｌｅＧＡＮを概説する。ＣｙｃｌｅＧＡＮの元論文では画像データを扱っていたが，本研究の対象は音声データなどの系列データである。系列データを扱う上で重要な工夫点，つまり，我々の提案するパラレルデータフリー系列データ変換手法について第４．２節で述べる。
３．１ＣｙｃｌｅＧＡＮ
ＣｙｃｌｅＧＡＮでは，変換関数Ｇ_Ｘ→ＹをＡｄｖｅｒｓａｒｉａｌｌｏｓｓとＣｙｃｌｅ−ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓの二つの損失関数を用いて学習する。学習処理を図３−１に示し、（ａ）は変換元データの順変換の逆変換が，どれくらい元通りに変換元データに一致するかを表した規準，および，（ｂ）は目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準を示す。
Ａｄｖｅｒｓａｒｉａｌｌｏｓｓ：ＡｄｖｅｒｓａｒｉａｌＬｏｓｓは，変換データＧ_Ｘ→Ｙ（ｘ）が，変換対象ドメインのデータｙとしての妥当度合いを測る損失関数であり，変換データの分布ＰＧ_Ｘ→Ｙ（ｘ）と変換対象ドメインのデータ分布Ｐ_Ｄａｔａ（ｙ）が近づいたとき，この損失関数の値は小さくなる。
Ａｄｖｅｒｓａｒｉａｌｌｏｓｓの定式化として，Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ（ＧＡＮ）［４］を用いた場合，目的関数は以下のようになる。

式１

ここで生成器Ｇ_Ｘ→Ｙは，この目的関数を最小化することによって，識別器Ｄ_Ｙが変換対象ドメインのデータｙと区別ができないようなデータを生成できるようにする。一方，識別器Ｄ_Ｙは，この目的関数を最大化することによって，Ｇ_Ｘ→Ｙに騙されないようにする。なお，ここではＡｄｖｅｒｓａｒｉａｌｌｏｓｓの定式化にＧＡＮを用いる例を示したが，これは，任意のＧＡＮの拡張モデル，例えば，ＬｅａｓｔｓｑｕａｒｅｓＧＡＮ（ＬＳＧＡＮ）［７］やＷａｓｓｅｒｓｔｅｉｎＧＡＮ（ＷＧＡＮ）［１］などを用いることも可能である。例えば，ＬＳＧＡＮを用いた場合，式（１）のＣｒｏｓｓＥｎｔｒｏｐｙはＬｅａｓｔｓｑｕａｒｅｌｏｓｓになる。また，ＧＡＮではＪｅｎｓｅｎ−Ｓｈａｎｎｏｎｄｉｖｅｒｇｅｎｃｅの基準のもと真のデータ分布と生成データの分布を近づけるが，ＷＧＡＮではＥａｒｔｈＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅの基準のもと近づけようとする。
Ｃｙｃｌｅ−ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ：Ａｄｖｅｒｓａｒｉａｌｌｏｓｓのみでは，Ｇ_Ｘ→Ｙ（ｘ）が変換対象ドメインのデータ分布に従うようにする制約しか与えられないため，ｘとのＧ_Ｘ→Ｙ（ｘ）の間でコンテキスト情報が保持されるとは限らない。そこで，Ｃｙｃｌｅ−ＧＡＮではさらに二つの制約を加えることによってこの問題に対処を行う。一つ目
う一つが，Ｃｙｃｌｅ−ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓで以下で与えられる。

式２

上式では，二つのデータ間の距離を測る方法としてＬ１を用いた場合を示したが，これは任意の距離尺度を用いることが可能であり，例えば，Ｌ２距離やＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ，あるいは，任意の特徴量抽出器を用意し，その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については，例えばニューラルネットワークを用いて構成することも可能である。例えば，上記識別器を特徴抽出器として用いることができ，識別器内の特徴量空間で距離を測ってもよい。
これら追加した項によって，Ｇ_Ｘ→ＹとＧ_Ｙ→Ｘは，様々な変換先の候補の中から類似したコンテキスト情報を持った（ｘ，ｙ）のペアデータを擬似的に見つけるよう促進される。
全体の目的関数は，トレードオフパラメータλｃｙｃを用いて以下で表される。

式３

３．２パラレルデータフリー系列データ変換のためのＣｙｃｌｅＧＡＮ
ＣｙｃｌｅＧＡＮをパラレルデータフリー系列データ変換に適用するために，本研究では二つの修正を提案する。一つ目がＧａｔｅｄＣＮＮ［３］を用いた系列データのモデリングと，二つ目がＩｄｅｎｔｉｔｙ−ｍａｐｐｉｎｇｌｏｓｓ［９］を用いた言語情報の保持である。なお，本論文では系列データの一例として音声変換を中心に説明を行っているが，提案手法は系列データ一般に有効なものであり，音声データだけに縛られないものであることに留意されたい。
ＧａｔｅｄＣＮＮ：系列データの特徴として，系列的な構造を持っているということと階層的な構造を持っているということの二点が挙げられる。例えば，音声データの場合であれば，有声・無声区間，音素・形態素などの系列的，階層的構造がある。ニューラルネットワークを用いて，このような構造を捉えようとした場合，ネットワークの構成方法が一つ鍵になる。そこで，本研究では，ＣｙｃｌｅＧＡＮに系列関係・階層関係の表現が可能なモデルの導入すること提案する。具体的には，ＧａｔｅｄＣＮＮを用いる。他にも，ＲＮＮ（ＬＳＴＭなど）も利用することが可能であるが，ＲＮＮは再帰的な構造を持っており並列化が難しく計算コストが高いため，ここではＧａｔｅｄＣＮＮを用いる。なお，ここで重要なのは系列構造，階層構造を捉えられるようなモデルを使うということであり，近年提案されているＣＮＮとＲＮＮのハイブリッドであるＱｕａｓｉ−ＲＮＮ［２］などを用いてもよい。
ＧａｔｅｄＣＮＮは，元論文［３］では言語モデリングにおいて最新の性能を示しているものであり，近年，音声モデリングにおいても有効性を示している［５］。
ＧａｔｅｄＣＮＮでは，Ｇａｔｅｄｌｉｎｅａｒｕｎｉｔｓ（ＧＬＵｓ）が活性化関数として用いられており，（ｌ＋１）層の出力Ｈ_ｌ＋１は，ｌ層の出力Ｈ_ｌとモデルパラメータＷ_ｌ，Ｖ_ｌ，ｂ_ｌ，ｃ_ｌを用いて以下の式により計算できる。

式４

ムによって，ネットワーク間で情報伝播を行う際，前層の情報に応じて選択的に伝播を行うことが可能である。
Ｉｄｅｎｔｉｔｙ−ｍａｐｐｉｎｇｌｏｓｓ：系列データを変換しようとした場合，意味的な情報の保持も一つの重要な要求項目になる。例えば，音声変換の場合であれば，変換をしたいのは話者性であり，発話内容（言語情報）については保持されることが要求される。上述したように，ＣｙｃｌｅＧＡＮにおいては，Ｃｙｃｌｅ−ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓがコンテキスト情報の保持に寄与するが，この制約は，順変換し逆変換したら戻るという緩い制約にとどまっており，言語情報の保持については十分な働きをしない。この問題を音声認識器などの外部モジュールを要することなく解決するために，本研究では，Ｉｄｅｎｔｉｔｙ−ｍａｐｐｉｎｇｌｏｓｓ［９］の利用を提案する。Ｉｄｅｎｔｉｔｙ−ｍａｐｐｉｎｇｌｏｓｓは以下の式で表される。

式５

この損失関数は，入力と出力間でデータの構成が保持されるように制約を与える。実際には，トレードオフパラメータλ_ｉｄを導入し，重み付けされた損失関
上式では，二つのデータ間の距離を測る方法としてＬ１を用いた場合を示したが，これは任意の距離尺度を用いることが可能であり，例えば，Ｌ２距離やＫｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ，あるいは，任意の特徴量抽出器を用意し，その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については，例えばニューラルネットワークを用いて構成することも可能である。例えば，上記識別器を特徴抽出器として用いることができ，識別器内の特徴量空間で距離を測ってもよい。
なお，このＩｄｅｎｔｉｔｙ−ｍａｐｐｉｎｇｌｏｓｓは学習の方向性を導くような制約であり，学習の全期間にわたり用いるのではなく，学習の初期段階のみ用いるようにしてもよい。
４．全体構成及び各フロー
４．１
全体構成図を図４．１に示し、各部について下記のとおり説明する。
データ変換装置は、機能的には入力部１００と、制御部２００と、出力部３００を含んで構成される。
入力部１００は、データ群Ｘに含まれるデータと、データ群Ｙに含まれるデータとを受け付ける。
具体的には、データ群Ｘに含まれるデータｘ∈Ｘと、データ群Ｙに含まれるデータｙ∈Ｙを受け付ける。
制御部２００は、順変換部２１０と、状態判断部２２０と、逆変換部２３０と、順逆変換距離測定部２４０と、自己変換部２５０と、自変換距離測定部２６０と、ニューラルネットワーク記憶部２７０と、学習部２８０と、変換部２９０とを含んで構成される。
順変換部２１０は、入力されたデータ群Ｘのデータを、変換器Ｇ_Ｘ→Ｙによって変換データ群ＸＹのデータに変換する。また、順変換部２１０は、入力されたデータ群Ｙのデータを、変換器Ｇ_Ｙ→Ｘによって変換データ群ＹＸのデータに変換する。
具体的には、順変換部２１０は、データ群Ｘのデータサンプルｘを、ニューラルネットワーク記憶部２７０に記憶された変換器Ｇ_Ｘ→Ｙによって変換データ群ＸＹのデータＧ_Ｘ→Ｙ（ｘ）に変換する。また、順変換部２１０は、データ群Ｙのデータサンプルｙを、ニューラルネットワーク記憶部２７０に記憶された変換器Ｇ_Ｙ→Ｘによって変換データ群ＹＸのデータＧ_Ｙ→Ｘ（ｙ）に変換する。
状態判断部２２０は、順変換部２１０によって得られた変換データ群ＸＹのデータと、入力データｙとの各々について、状態判断器Ｄ_Ｙを用いて状態判断を行う。また、状態判断部２２０は、順変換部２１０によって得られた変換データ群ＹＸのデータと、入力データｘとの各々について、状態判断器Ｄ_Ｘを用いて状態判断を行う。
具体的には、状態判断部２２０は、ニューラルネットワーク記憶部２７０に記憶されたデータ群Ｙの状態判断器Ｄ_Ｙによって、変換データ群ＸＹのデータＧ_Ｘ→Ｙ（ｘ）の状態判断と入力データｙの状態判断を行い、各々の判断結果Ｄ_Ｙ（Ｇ_Ｘ→Ｙ（ｘ））とＤ_Ｙ（ｙ）を学習部２８０に渡す。また、状態判断部２２０は、ニューラルネットワーク記憶部２７０に記憶されたデータ群Ｘの状態判断器Ｄ_Ｘによって、変換データ群ＹＸのデータＧ_Ｙ→Ｘ（ｙ）の状態判断と入力データｘの状態判断を行い、各々の判断結果Ｄ_Ｘ（Ｇ_Ｙ→Ｘ（ｙ））とＤ_Ｘ（ｘ）を学習部２８０に渡す。
逆変換部２３０は、順変換部２１０によって得られた変換データ群ＸＹのデータを変換器Ｇ_Ｙ→Ｘによって変換データ群ＸＹＸのデータに変換する。また、逆変換部２３０は、順変換部２１０によって得られた変換データ群ＹＸのデータを変換器Ｇ_Ｘ→Ｙによって変換データ群ＹＸＹのデータに変換する。
具体的には、逆変換部２３０は、変換データ群ＸＹのデータＧ_Ｘ→Ｙ（ｘ）を、ニューラルネットワーク記憶部２７０に記憶された変換器Ｇ_Ｙ→Ｘによって変換データ群ＸＹＸのデータＧ_Ｙ→Ｘ（Ｇ_Ｘ→Ｙ（ｘ））に変換する。また、逆変換部２３０は、変換データ群ＹＸのデータＧ_Ｙ→Ｘ（ｙ）を、ニューラルネットワーク記憶部２７０に記憶された変換器Ｇ_Ｘ→Ｙによって変換データ群ＹＸＹのデータＧ_Ｘ→Ｙ（Ｇ_Ｙ→Ｘ（ｙ））に変換する。
順逆変換距離測定部２４０は、入力されたデータ群Ｘのデータと、逆変換部２３０によって得られた変換データ群ＸＹＸのデータとの距離を距離測定器Ｍ_１によって測定する。また、順逆変換距離測定部２４０は、入力されたデータ群Ｙのデータと、逆変換部２３０によって得られた変換データ群ＹＸＹのデータとの距離を距離測定器Ｍ_１によって測定する。
具体的には、順逆変換距離測定部２４０は、入力されたデータ群Ｘのデータｘと、逆変換部２３０によって得られた変換データ群ＸＹＸのデータＧ_Ｙ→Ｘ（Ｇ_Ｘ→Ｙ（ｘ））との距離を距離測定器Ｍ_１によって測定し、距離の測定結果Ｍ_１（ｘ，Ｇ_Ｙ→Ｘ（Ｇ_Ｘ→Ｙ（ｘ）））を学習部２８０に渡す。また、順逆変換距離測定部２４０は、入力されたデータ群Ｙのデータｙと、逆変換部２３０によって得られた変換データ群ＹＸＹのデータＧ_Ｘ→Ｙ（Ｇ_Ｙ→Ｘ（ｙ））との距離を距離測定器Ｍ_１によって測定し、距離の測定結果Ｍ_１（ｙ，（Ｇ_Ｘ→Ｙ（Ｇ_Ｙ→Ｘ（ｙ）））を学習部２８０に渡す。
なお、距離測定器Ｍ_１の距離基準としては、例えば、Ｌ１距離やＬ２距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ネットワーク記憶部２７０に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。
自己変換部２５０は、入力されたデータ群Ｙのデータを、変換器Ｇ_Ｘ→Ｙによって変換データ群ＹＹのデータに変換する。また、自己変換部２５０は、入力されたデータ群Ｘのデータを、変換器Ｇ_Ｙ→Ｘによって変換データ群ＸＸのデータに変換する。
具体的には、自己変換部２５０は、入力されたデータ群Ｙのデータｙを、ニューラルネットワーク記憶部２７０に記憶された変換器Ｇ_Ｘ→Ｙによって変換データ群ＹＹのデータＧ_Ｘ→Ｙ（ｙ）に変換する。また、自己変換部２５０は、入力されたデータ群Ｘのデータｘを、ニューラルネットワーク記憶部２７０に記憶された変換器Ｇ_Ｙ→Ｘによって変換データ群ＸＸのデータＧ_Ｙ→Ｘ（ｘ）に変換する。
自己変換距離測定部２６０は、入力されたデータ群Ｙのデータと、自己変換部２５０によって得られた変換データ群ＹＹのデータとの距離を距離測定器Ｍ_２によって測定する。また、自己変換距離測定部２６０は、入力されたデータ群Ｘのデータと、自己変換部２５０によって得られた変換データ群ＸＸのデータとの距離を距離測定器Ｍ_２によって測定する。
具体的には、自己変換距離測定部２６０は、入力されたデータ群Ｙのデータｙと、自己変換部２５０によって得られた変換データ群ＹＹのデータ（Ｇ_Ｘ→ _Ｙ（ｙ））との距離を距離測定器Ｍ_２によって測定し、距離の測定結果Ｍ_２（ｙ，Ｇ_Ｘ→Ｙ（ｙ））を学習部２８０に渡す。また、自己変換距離測定部２６０は、入力されたデータ群Ｘのデータｘと、自己変換部２５０によって得られた変換データ群ＸＸのデータ（Ｇ_Ｙ→Ｘ（ｘ））との距離を距離測定器Ｍ_２によって測定し、距離の測定結果Ｍ_２（ｘ，Ｇ_Ｙ→Ｘ（ｘ））を学習部２８０に渡す。
なお、距離測定器Ｍ_２の距離基準としては、例えば、Ｌ１距離やＬ２距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ネットワーク記憶部２７０に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。
ニューラルネットワークの記憶部２７０は、変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークを記憶している。順逆変換距離測定部２４０、または、自己変換距離測定部２７０で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークを記憶している。
変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、ＧａｔｅｄＣＮＮやＬＳＴＭを用いる。
順逆変換距離測定部２４０、または、自己変換距離測定部２７０で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、ＧａｔｅｄＣＮＮやＬＳＴＭを用いる。
学習部２８０は、状態判断部２２０によって判断した結果について、変換データ群ＸＹのデータの状態判断結果と入力データｙの状態判断結果が近くなるように、変換データ群ＹＸのデータの状態判断結果と入力データｘの状態判断結果が近くなるように、順逆変換距離測定部２４０によって測定された距離を最小化するように、自己変換距離測定部２６０によって測定された距離を最小化するように、変換器としてのニューラルネットワークを学習する。
また、状態判断部２２０によって判断した結果について、変換データ群ＸＹのデータの状態判断結果と入力データｙの状態判断結果の差異が明確になるように、また、変換データ群ＹＸのデータの状態判断結果と入力データｘの状態判断結果の差異が明確になるように、状態判断器としてのニューラルネットワークを学習する。
具体的には、学習部２８０は、状態判断部２２０によって判断した結果Ｄ_Ｙ（Ｇ_Ｘ→Ｙ（ｘ））とＤ_Ｙ（ｙ）の値が近くなるように、状態判断部２２０によって判断した結果Ｄ_Ｘ（Ｇ_Ｙ→Ｘ（ｙ））とＤ_Ｘ（ｘ）の値が近くなるように、順逆変換距離測定部２４０によって測定された距離Ｍ_１（ｘ，Ｇ_Ｙ→Ｘ（Ｇ_Ｘ→Ｙ（ｘ）））とＭ_１（ｙ，Ｇ_Ｘ→Ｙ（Ｇ_Ｙ→Ｘ（ｙ）））とを最小化するように、自己変換距離測定部２６０によって測定された距離Ｍ_２（ｙ，Ｇ_Ｘ→Ｙ（ｙ））とＭ_２（ｘ，Ｇ_Ｙ→Ｘ（ｘ））とを最小化するように、変換器としてのニューラルネットワークＧ_Ｘ→ＹとＧ_Ｙ→Ｘを学習する。
より具体的には、学習部２８０において、状態判断部２２０によって判断した結果Ｄ_Ｙ（Ｇ_Ｘ→Ｙ（ｘ））とＤ_Ｙ（ｙ）の値が同じなるようにする目的関数としては、例えば、状態判断器Ｄ_Ｙとして入力データｙが与えられた時は確率ｐを出力し、変換データＧ_Ｘ→Ｙ（ｘ）が与えられた時は確率１−ｐを出力するようなものを考えた場合、Ｌ_ａｄｖ（Ｇ_Ｘ→Ｙ，Ｄ_Ｙ）（論文の式（１））を最小化すればよい。同様に、状態判断部２２０によって判断した結果Ｄ_Ｘ（Ｇ_Ｙ→Ｘ（ｙ））とＤ_Ｘ（ｘ）の値が同じなるようにする目的関数としては、例えば、状態判断器Ｄ_Ｘとして入力データｘが与えられた時は確率ｐを出力し、変換データＧ_Ｙ→Ｘ（ｙ）が与えられた時は確率１−ｐを出力するようなものを考えた場合、Ｌ_ａｄｖ（Ｇ_Ｙ→Ｘ，Ｄ_Ｘ）を最小化すればよい。
なお、学習部２８０において、自己変換距離測定部２６０によって測定された距離を最小化する制約は、学習の初期段階で学習を安定化させるためにのみ用い、学習が安定化した後は用いなくてもよい。
また、学習部２８０において、自己変換距離測定部２６０によって測定された距離を最小化する制約は、学習において補助的な役割を担うものであり、用いなくても学習が安定しているのであれば、用いなくてもよい。
そして、学習部２８０は、状態判断部２２０によって判断した結果Ｄ_Ｙ（Ｇ_Ｘ→Ｙ（ｘ））とＤ_Ｙ（ｙ）の差異が明確になるように、状態判断部２２０によって判断した結果Ｄ_Ｘ（Ｇ_Ｙ→Ｘ（ｙ））とＤ_Ｘ（ｘ）の差異が明確になるように、状態判断器としてのニューラルネットワークＤ_ＹとＤ_Ｘとを学習する。
具体的には、学習部２８０において、状態判断部２２０によって判断した結果Ｄ_Ｙ（Ｇ_Ｘ→Ｙ（ｘ））とＤ_Ｙ（ｙ）の差異が明確になるようにする目的関数としては、例えば、状態判断器Ｄ_Ｙとして入力データｙが与えられた時は確率ｐを出力し、変換データＧ_Ｘ→Ｙ（ｘ）が与えられた時は確率１−ｐを出力するようなものを考えた場合、Ｌ_ａｄｖ（Ｇ_Ｘ→Ｙ，Ｄ_Ｙ）（論文の式（１））を最大化すればよい。同様に、状態判断部２２０によって判断した結果Ｄ_Ｘ（Ｇ_Ｙ→Ｘ（ｙ））とＤ_Ｘ（ｘ）の差異が明確になるようにする目的関数としては、例えば、状態判断器Ｄ_Ｘとして入力データｙが与えられた時は確率ｐを出力し、変換データＧ_Ｙ→Ｘ（ｙ）が与えられた時は確率１−ｐを出力するようなものを考えた場合、Ｌ_ａｄｖ（Ｇ_Ｙ→Ｘ，Ｄ_Ｘ）を最大化すればよい。
なお、論文の［式１］では、目的関数内でＣｒｏｓｓＥｎｔｒｏｐｙを用いているが、代わりにＥｕｃｌｉｄｅａｎ距離や、ＥａｒｔｈＭｏｖｅｒ距離、エネルギー関数に基づく距離を用いてもよい。
そして、学習部２８０は、学習結果をニューラルネットワーク記憶部２７０に渡す。
変換部２９０は、学習部２８０によって学習された変換器を用いて、入力された変換対象のデータを変換する。
具体的には、変換部２９０は、入力部１００が入力データとしてデータ群Ｘのデータｘを受け取った場合、変換器Ｇ_Ｘ→Ｙとしてのニューラルネットワークを、ニューラルネットワークの記憶部２７０から取得する。そして変換部２９０は、変換器Ｇ_Ｘ→Ｙのニューラルネットワークを用いて、変換対象であるデータｘを変換データＧ_Ｘ→Ｙ（ｘ）に変換する。同様に、変換部２９０は、入力部１００が入力データとしてデータ群Ｙのデータｙを受け取った場合、変換器Ｇ_Ｙ→Ｘとしてのニューラルネットワークを、ニューラルネットワークの記憶部２７０から取得する。そして変換部２９０は、変換器Ｇ_Ｙ→Ｘのニューラルネットワークを用いて、変換対象であるデータｙを変換データＧ_Ｙ→Ｘ（ｙ）に変換する。
出力部３００は、変換部２９０が変換した変換結果である変換データを出力する。
具体的には、出力部３００は、入力部１００が入力データとしてデータ群Ｘのデータｘを受け取った場合、変換部２９０が変換した変換結果である変換データＧ_Ｘ→Ｙ（ｘ）を出力する。同様に、出力部３００は、入力部１００が入力データとしてデータ群Ｙのデータｙを受け取った場合、変換部２９０が変換した変換結果である変換データＧ_Ｙ→Ｘ（ｙ）を出力する。
以下に、実施形態を示す。

概要１

二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ（順変換入力データ）から、もう一方のドメインのデータ（順変換出力データ）へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ（逆変換出力データ）に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
前記変換部が変換したデータを出力する出力部
を含む系列データ変換装置。

概要２

前記系列データ変換装置において、前記順変換部の変換器が変換対象とするドメインのデータ（自己変換入力データ）に対して、前記変換器によって変換してデータ（自己変換出力データ）を得る自己変換部と、
前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
を含む系列データ変換装置。
４．２
学習時の処理ルーチンを図４．２に示し、各ステップについて下記のとおり説明する。
１．入力部１００にデータ群Ｘのデータと、データ群Ｙのデータとが入力されると、データ変換装置において、学習処理フローが実行される。
２．まず、ステップＳ１００において、順変換部２１０と自己変換部２５０は、入力部１００から、データ群Ｘのデータと、データ群Ｙのデータを取得する。
３．具体的には、入力部１００は、データ群Ｘからランダムに選択されたデータｘ∈Ｘと、データ群Ｙからランダムに選択されたデータｙ∈Ｙとを、順変換部２１０と自己変換部２５０に渡す。なお、ランダムにデータを選択する際、二つのデータｘとｙは対応関係が取れている必要はない。例えば、音声データであれば、ｘとｙは同じ発話内容のデータである必要はない。
４．ステップＳ１１０において、順変換部２１０は、変換器Ｇ_Ｘ→Ｙを用いてｘをＧ_Ｘ→Ｙ（ｘ）に変換する。また、順変換部２１０は、変換器Ｇ_Ｙ→Ｘを用いてｙをＧ_Ｙ→Ｘ（ｙ）に変換する。
５．ステップＳ１２０において、状態判断部２２０は、状態判断器Ｄ_Ｙを用いて、Ｇ_Ｘ→Ｙ（ｘ）の状態判断結果Ｄ_Ｙ（Ｇ_Ｘ→Ｙ（ｘ））と、ｙの状態判断結果Ｄ_Ｙ（ｙ）を取得する。また、状態判断部２２０は、状態判断器Ｄ_Ｘを用いて、Ｇ_Ｙ→Ｘ（ｙ）の状態判断結果Ｄ_Ｘ（Ｇ_Ｙ→Ｘ（ｙ））と、ｘの状態判断結果Ｄ_Ｘ（ｘ）を取得する。
６．ステップＳ１３０において、逆変換部２３０は、変換器Ｇ_Ｙ→Ｘを用いてＧ_Ｘ→Ｙ（ｘ）をＧ_Ｙ→Ｘ（Ｇ_Ｘ→Ｙ（ｘ））に変換する。また、逆変換部２３０は、変換器Ｇ_Ｘ→Ｙを用いてＧ_Ｙ→Ｘ（ｙ）をＧ_Ｘ→Ｙ（Ｇ_Ｙ→Ｘ（ｙ））に変換する。
７．ステップＳ１４０において、順逆変換距離測定部２４０は、距離測定器Ｍ_１を用いてｘとＧ_Ｙ→Ｘ（Ｇ_Ｘ→Ｙ（ｘ））の距離Ｍ_１（ｘ，Ｇ_Ｙ→Ｘ（Ｇ_Ｘ→Ｙ（ｘ）））を測定する。また、順逆変換距離測定部２４０は、距離測定器Ｍ_１を用いてｙとＧ_Ｘ→Ｙ（Ｇ_Ｙ→Ｘ（ｙ））の距離Ｍ_１（ｙ，Ｇ_Ｘ→Ｙ（Ｇ_Ｙ→Ｘ（ｙ）））を測定する。
８．ステップＳ１５０において、自己変換部２５０は、変換器Ｇ_Ｘ→Ｙを用いてｙをＧ_Ｘ→Ｙ（ｙ）に変換する。また、自己変換部２５０は、変換器Ｇ_Ｙ→Ｘを用いてｘをＧ_Ｙ→Ｘ（ｘ）に変換する。
９．ステップＳ１６０において、自己変換距離測定部２６０は、距離測定器Ｍ_２を用いてｙとＧ_Ｘ→Ｙ（ｙ）の距離Ｍ_２（ｙ，Ｇ_Ｘ→Ｙ（ｙ））を測定する。また、自己変換距離測定部２６０は、距離測定器Ｍ_２を用いてｘとＧ_Ｙ→Ｘ（ｘ）の距離Ｍ_２（ｘ，Ｇ_Ｙ→Ｘ（ｘ））を測定する。
１０．ステップＳ１７０において、学習部２８０は、状態判断部２２０によって判断した結果Ｄ_Ｙ（Ｇ_Ｘ→Ｙ（ｘ））とＤ_Ｙ（ｙ）の値が近くなるように、状態判断部２２０によって判断した結果Ｄ_Ｘ（Ｇ_Ｙ→Ｘ（ｙ））とＤ_Ｘ（ｘ）の値が近くなるように、順逆変換距離測定部２４０によって測定された距離Ｍ_１（ｘ，Ｇ_Ｙ→Ｘ（Ｇ_Ｘ→Ｙ（ｘ）））とＭ_１（ｙ，Ｇ_Ｘ→Ｙ（Ｇ_Ｙ→Ｘ（ｙ）））とを最小化するように、自己変換距離測定部２５０によって測定された距離Ｍ_２（ｙ，Ｇ_Ｘ→Ｙ（ｙ））とＭ_２（ｘ，Ｇ_Ｙ→Ｘ（ｘ））とを最小化するように、変換器としてのニューラルネットワークＧ_Ｘ→ＹとＧ_Ｙ→Ｘを学習し、ニューラルネットワークの記憶部２７０に記憶されている、変換器としてのニューラルネットワークＧ_Ｘ→ＹとＧ_Ｙ→Ｘのパラメータを更新する。
１１．また、学習部２８０は、状態判断部２２０によって判断した結果Ｄ_Ｙ（Ｇ_Ｘ→Ｙ（ｘ））とＤ_Ｙ（ｙ）の差異が明確になるように、状態判断部２２０によって判断した結果Ｄ_Ｘ（Ｇ_Ｙ→Ｘ（ｙ））とＤ_Ｘ（ｘ）の差異が明確になるように、状態判断器としてのニューラルネットワークＤ_ＹとＤ_Ｘとを学習し、ニューラルネットワークの記憶部２７０に記憶されている、状態判断器としてのニューラルネットワークＤ_ＹとＤ_Ｘのパラメータを更新する。
１２．ステップＳ１８０において、全てのデータについて終了したか否かを判断する。
１３．全てのデータについて終了していない場合（ステップＳ１８０のＮＯ）、ステップＳ１００に戻り、再度ステップＳ１００〜Ｓ１７０の処理を行う。
１４．一方、全てのデータについて終了している場合（ステップＳ１８０のＹＥＳ）、処理を終了する。
４．３変換時の処理ルーチン
変換時の処理ルーチンを図４．３に示し、各ステップについて下記のとおり説明する。
１．入力部１００に、変換対象のデータｘ∈Ｘ、または、変換対象のデータｙ∈Ｙが入力されると、データ変換装置において、データ変換処理フローが実行される。ここでは、変換対象のデータｘ∈Ｘが入力された場合を説明する。なお、変換対象のデータｙ∈Ｙが入力された場合も、処理は同様である。
２．ステップＳ２００において、変換部２９０は、入力部１００から、入力された変換対象のデータｘを取得する。
３．ステップＳ２１０において、変換部２９０は、ニューラルネットワークの記憶部２７０から、学習部２８０によって学習された変換器Ｇ_Ｘ→Ｙのニューラルネットワークを取得する。
４．ステップＳ２２０において、変換部２９０は、変換器Ｇ_Ｘ→Ｙを用いて、入力された変換対象のデータｘをＧ_Ｘ→Ｙ（ｘ）に変換する。
５．ステップＳ２３０において、出力部３００は、変換部２９０によってデータｘが変換された変換データＧ_Ｘ→Ｙ（ｘ）を出力する。
５評価実験
５．１実験設定
提案手法は，系列データ変換一般に適用可能なものであるが，実験では一例としてパラレルデータフリーの音声変換に提案手法を適用し，評価を行った。データとしては，ＶＣＣ２０１６ｄａｔａｓｅｔ［１２］を用いた。本データセットには，プロのアメリカ英語の発話音声が収録されており，５人の男性話者，５人の女性話者を含む。各話者のデータは２１６個の短文（約１３分）に分けられ，そのうち１６２文は学習用に用いられ，５４文は評価用に用いられる。提案手法をパラレルデータなしの条件下で評価するため，提案手法を学習する際は，学習用データ１６２文のうち，前半の８１文をソース音声として用い，後半の８１文をターゲット音声として用いた。つまり，ソース音声とターゲット音声間で重複した発話がない条件下で学習を行った。音声データは１６ｋＨｚにダウンサンプリングされており，２４次元のメルケプストラム（ＭＣＥＰ），対数基本周波数（ｌｏｇＦ_０），非同期性指標（ＡＰ）をＷＯＲＬＤ分析システム［８］を用いて５ｍｓで抽出を行った。これらの音声特徴量のうち，メルケプストラムに対して，提案手法を適用し変換を行った。基本周波数については，ＬｏｇａｒｉｔｈｍＧａｕｓｓｉａｎｎｏｒｍａｌｉｚｅｄｔｒａｎｓｆｏｒｍａｔｉｏｎ［６］を用い，非同期性指標については，変換しても有意差がないことが示されており，ソース音声のものをそのまま用いた。
５．２客観評価
本実験では，提案手法の適用対象はメルケプストラムであるため，変換メルケプストラムの質について客観評価を行った。比較手法としては，パラレルデータありの音声変換で代表的な方法の一つであるＧＭＭベースの音声変換［１１］を用いた。ＧＭＭベースの音声変換は，学習にパラレルデータが必要であるため，学習用データ１６２文全てを用いた。なお，提案手法はパラレルデータなしでかつデータ量は半分という不利な状況で学習していたことに留意されたい。また，評価データとしては，ソース音声にはＳＦ１とＳＭ１，ターゲット音声にはＴＦ２とＴＭ３を用いた。
評価指標としては，音声品質の主観評価と相関が高いと言われているＧｌｏｂａｌｖａｒｉａｎｃｅ（ＧＶ）［１１］とＭｏｄｕｌａｔｉｏｎｓｐｅｃｔｒａ（ＭＳ）［１０］を用いた。図５−１に，提案手法（Ｐｒｏｐｏｓｅｄ），比較手法（Ｃｏｎｖｅｎｔｉｏｎａｌ），ターゲット音声（Ｔａｒｇｅｔ）のメルケプストラムの次数ごとのＧＶの比較を示す。この結果より，提案手法では比較手法よりもターゲット音声に近いＧＶが得られていることが分かる。
図５−２に，提案手法（Ｐｒｏｐｏｓｅｄ），比較手法（Ｃｏｎｖｅｎｔｉｏｎａｌ），ターゲット音声（Ｔａｒｇｅｔ）の変調周波数ごとのＭＳの比較を示す。この結果より，提案手法では比較手法よりもターゲット音声に近いＭＳが得られていることが分かる。
表１に，ターゲット音声と変換音声の対数ＭＳのＲｏｏｔｍｅａｎｓｑｕａｒｅｅｒｒｏｒ（ＲＭＳＥ）の比較を示す。これらの値は小さい方が変換音声がターゲット音声に近いことを示しており，実験結果より，提案手法の方が比較手法よりターゲット音声に近い対数ＭＳが得られていることが分かる。
５．３主観評価
主観評価実験については，ＶＣＣ２０１６［１３］のプロトコルに従い，自然性と話者性の評価を行った。比較手法としては，ＧＭＭベースのパラレルデータありの変換手法［１１］を用いた。まず，自然性の評価についてはＭｅａｎｏｐｉｎｉｏｎｓｃｏｒｅ（ＭＯＳ）テストを行った。評価データとしては，評価用データの中から２秒以上５秒以下のデータをランダムに２０文選択し用いた。被験者としては英語教育を十分に受けた９人が参加した。ＭＯＳテストの結果は，同性話者間の音声変換（ＳＦ１−ＴＦ２）の場合，提案手法が２．４，比較手法が１．３，また，異性話者間の音声変換（ＳＦ１−ＴＭ３）の場合，提案手法が２．３，比較手法が１．４であった。このスコアは値が大きいほど自然性が高いことを示しており，自然性の主観評価においても提案手法が比較手法が上回ることが示された。
話者性の評価については，異なる発話内容に対して同一人物が話したように聞こえるかどうかという基準に従って評価を行った。評価データとしては，評価用データの中からランダムに１０セット選択し用いた。被験者としては英語教育を十分に受けた９人が参加した。図５−３に同性話者間の音声変換（ＳＦ１−ＴＦ２）の場合の結果を示す。この図では，提案手法の方が比較手法よりも「ターゲット音声と絶対同じ」と答えた割合が多くなっている。この結果より，話者性においても提案手法の優位性が分かる。
参考文献
［１］ＭａｒｔｉｎＡｒｊｏｖｓｋｙ，ＳｏｕｍｉｔｈＣｈｉｎｔａｌａ，ａｎｄＬ＿ｅｏｎＢｏｔｔｏｕ．Ｗａｓｓｅｒｓｔｅｉｎｇａｎ．Ｉｎｐｒｏｃ．ＩＣＭＬ，２０１７．
［２］ＪａｍｅｓＢｒａｄｂｕｒｙ，ＳｔｅｐｈｅｎＭｅｒｉｔｙ，ＣａｉｍｉｎｇＸｉｏｎｇ，ａｎｄＲｉｃｈａｒｄＳｏｃｈｅｒ．Ｑｕａｓｉ−ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＩｎＰｒｏｃ．ＩＣＬＲ，２０１７．
［３］ＹａｎｎＮＤａｕｐｈｉｎ，ＡｎｇｅｌａＦａｎ，ＭｉｃｈａｅｌＡｕｌｉ，ａｎｄＤａｖｉｄＧｒａｎｇｉｅｒ．Ｌａｎ−ｇｕａｇｅｍｏｄｅｌｉｎｇｗｉｔｈｇａｔｅｄｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ．ＩｎＰｒｏｃ．ＩＣＭＬ，ｐａｇｅｓ９３３｛９４１，２０１７．
［４］ＩａｎＧｏｏｄｆｅｌｌｏｗ，ＪｅａｎＰｏｕｇｅｔ−Ａｂａｄｉｅ，ＭｅｈｄｉＭｉｒｚａ，ＢｉｎｇＸｕ，ＤａｖｉｄＷａｒｄｅ−Ｆａｒｌｅｙ，ＳｈｅｒｊｉｌＯｚａｉｒ，ＡａｒｏｎＣｏｕｒｖｉｌｌｅ，ａｎｄＹｏｓｈｕａＢｅｎｇｉｏ．Ｇｅｎ−ｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ．ＩｎＰｒｏｃ．ＮＰＩＳ，ｐａｇｅｓ２６７２｛２６８０，２０１４．
［５］ＴａｋｕｈｉｒｏＫａｎｅｋｏ，ＨｉｒｏｋａｚｕＫａｍｅｏｋａ，ＫａｏｒｕＨｉｒａｍａｔｓｕ，ａｎｄＫｕｎｉｏＫａｓｈｉｎｏ．Ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｗｉｔｈｓｉｍｉｌａｒｉｔｙｍｅｔ−ｒｉｃｌｅａｒｎｅｄｕｓｉｎｇｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ．ＩｎＰｒｏｃ．ＩＮＴＥＲ−ＳＰＥＥＣＨ，ｐａｇｅｓ１２８３｛１２８７，２０１７．
［６］ＫｕｎＬｉｕ，ＪｉａｎｐｉｎｇＺｈａｎｇ，ａｎｄＹｏｎｇｈｏｎｇＹａｎ．Ｈｉｇｈｑｕａｌｉｔｙｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｔｈｒｏｕｇｈｐｈｏｎｅｍｅ−ｂａｓｅｄｌｉｎｅａｒｍａｐｐｉｎｇｆｕｎｃｔｉｏｎｓｗｉｔｈＳＴＲＡＩＧＨＴｆｏｒＭａｎｄａｒｉｎ．ＩｎＰｒｏｃ．ＦＳＫＤ，ｐａｇｅｓ４１０｛４１４，２００７．
［７］ＸｕｄｏｎｇＭａｏ，ＱｉｎｇＬｉ，ＨａｏｒａｎＸｉｅ，ＲａｙｍｏｎｄＹＫＬａｕ，ＺｈｅｎＷａｎｇ，ａｎｄＳｔｅｐｈｅｎＰａｕｌＳｍｏｌｌｅｙ．Ｌｅａｓｔｓｑｕａｒｅｓｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ．ＩｎＰｒｏｃ．ＩＣＣＶ，２０１７．
［８］ＭａｓａｎｏｒｉＭｏｒｉｓｅ，ＦｕｍｉｙａＹｏｋｏｍｏｒｉ，ａｎｄＫｅｎｊｉＯｚａｗａ．ＷＯＲＬＤ：Ａｖｏｃｏｄｅｒ−ｂａｓｅｄｈｉｇｈ−ｑｕａｌｉｔｙｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｓｙｓｔｅｍｆｏｒｒｅａｌ−ｔｉｍｅａｐｐｌｉ−ａｔｉｏｎｓ．ＩＥＩＣＥＴｒａｎｓ．Ｉｎｆ．Ｓｙｓｔ．，９９（７）：１８７７｛１８８４，２０１６．
［９］ＹａｎｉｖＴａｉｇｍａｎ，ＡｄａｍＰｏｌｙａｋ，ａｎｄＬｉｏｒＷｏｌｆ．Ｕｎｓｕｐｅｒｖｉｓｅｄｃｒｏｓｓ−ｄｏｍａｉｎｉｍａｇｅｇｅｎｅｒａｔｉｏｎ．ＩｎＰｒｏｃ．ＩＣＬＲ，２０１７．
［１０］ＳｈｉｎｎｏｓｕｋｅＴａｋａｍｉｃｈｉ，ＴｏｍｏｋｉＴｏｄａ，ＧｒａｈａｍＮｅｕｂｉｇ，ＳａｋｒｉａｎｉＳａｋｔｉ，ａｎｄＳａｔｏｓｈｉＮａｋａｍｕｒａ．Ａｐｏｓｔ＿ｌｔｅｒｔｏｍｏｄｉｆｙｔｈｅｍｏｄｕｌａｔｉｏｎｓｐｅｃｔｒｕｍｉｎＨＭＭ−ｂａｓｅｄｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ．ＩｎＰｒｏｃ．ＩＣＡＳＳＰ，ｐａｇｅｓ２９０｛２９４，２０１４．
［１１］ＴｏｍｏｋｉＴｏｄａ，ＡｌａｎＷＢｌａｃｋ，ａｎｄＫｅｉｉｃｈｉＴｏｋｕｄａ．Ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎａｓｅｄｏｎｍａｘｉｍｕｍ−ｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎｏｆｓｐｅｃｔｒａｌｐａｒａｍｅｔｅｒｔｒａ−ｊｅｃｔｏｒｙ．ＩＥＥＥ／ＡＣＭＴｒａｎｓ．ＡｕｄｉｏＳｐｅｅｃｈＬａｎｇ．Ｐｒｏｃｅｓｓ．，１５（８）：２２２２｛２２３５，２００７．
［１２］ＴｏｍｏｋｉＴｏｄａ，Ｌｉｎｇ−ＨｕｉＣｈｅｎ，ＤａｉｓｕｋｅＳａｉｔｏ，ＦｅｒｎａｎｄｏＶｉｌｌａｖｉｃｅｎｃｉｏ，ＭｉｒｊａｍＷｅｓｔｅｒ，ＺｈｉｚｈｅｎｇＷｕ，ａｎｄＪｕｎｉｃｈｉＹａｍａｇｉｓｈｉ．ＴｈｅＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎＣｈａｌｌｅｎｇｅ２０１６．ＩｎＰｒｏｃ．ＩＮＴＥＲＳＰＥＥＣＨ，ｐａｇｅｓ１６３２｛１６３６，２０１６．
［１３］ＭｉｒｊａｍＷｅｓｔｅｒ，ＺｈｉｚｈｅｎｇＷｕ，ａｎｄＪｕｎｉｃｈｉＹａｍａｇｉｓｈｉ．ＡｎａｌｙｓｉｓｏｆｔｈｅＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎＣｈａｌｌｅｎｇｅ２０１６ｅｖａｌｕａｔｉｏｎｒｅｓｕｌｔｓ．ＩｎＰｒｏｃ．ＩＮＴＥＲ−ＳＰＥＥＣＨ，ｐａｇｅｓ１６３７｛１６４１，２０１６．
［１４］Ｊｕｎ−ＹａｎＺｈｕ，ＴａｅｓｕｎｇＰａｒｋ，ＰｈｉｌｌｉｐＩｓｏｌａ，ａｎｄＡｌｅｘｅｉＡ．Ｅｆｒｏｓ．Ｕｎ−ｐａｉｒｅｄｉｍａｇｅ−ｔｏ−ｉｍａｇｅｔｒａｎｓｌａｔｉｏｎｕｓｉｎｇｃｙｃｌｅ−ｃｏｎｓｉｓｔｅｎｔａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ．ＩｎＰｒｏｃ．ＩＣＣＶ，ｐａｇｅｓ２２２３｛２２３２，２０１７．

本発明は、系列データ変換装置、学習装置、及びプログラムに関する。

[１章：序論]
入力音声の言語情報（発話文）を保持したまま非言語・パラ言語（話者性や発話様式など）のみを変換する技術を声質変換といい，テキスト音声合成の話者性変換，発声支援，音声強調，発音変換などへの応用が可能である。声質変換の問題は，変換元の音声の特徴量から変換目標の音声の特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model; GMM) を用いた手法はその有効性と汎用性から広く用いられている。また，近年では，制約つきボルツマンマシン，フィードフォワード型ニューラルネットワーク(Neural Network; NN) ，再帰型NN(Recurrent NN; RNN) ，畳み込み型NN(Convolutional NN; CNN)などのNN 系の手法や非負値行列因子分解(Nonnegative Matrix Factorization; NMF) などを用いた事例（Exemplar）ベースの手法の検討も進められている。

Martin Arjovsky， Soumith Chintala， and L_eon Bottou. WassersteinGAN. In Proc. ICML， 2017. James Bradbury， Stephen Merity， Caiming Xiong， and Richard Socher. Quasi-recurrent neural networks. In Proc. ICLR， 2017. Yann N Dauphin， Angela Fan， Michael Auli， and David Grangier. Language modeling with gated convolutional networks. In Proc. ICML，pages 933-941， 2017. Ian Goodfellow， Jean Pouget-Abadie， Mehdi Mirza， Bing Xu，DavidWarde-Farley， Sherjil Ozair， Aaron Courville， and Yoshua Bengio. Generative adversarial nets. In Proc. NPIS， pages 2672-2680， 2014. Takuhiro Kaneko， Hirokazu Kameoka， Kaoru Hiramatsu， and Kunio Kashino. Sequence-to-sequence voice conversion with similaritymetric learned using generative adversarial networks. In Proc. INTERSPEECH， pages 1283-1287， 2017. Kun Liu， Jianping Zhang， and Yonghong Yan. High quality voice conversion through phoneme-based linear mapping functions with STRAIGHT for Mandarin. In Proc. FSKD， pages 410-414， 2007. Xudong Mao， Qing Li， Haoran Xie， Raymond YK Lau， Zhen Wang， and Stephen Paul Smolley. Least squares generative adversarial networks. In Proc. ICCV， 2017. Masanori Morise， Fumiya Yokomori， and Kenji Ozawa. WORLD: Avocoder-based high-quality speech synthesis system for real-time appliations. IEICE Trans. Inf. Syst.， 99(7):1877-1884， 2016. Yaniv Taigman， Adam Polyak， and Lior Wolf. Unsupervised cross domainimage generation. In Proc. ICLR， 2017. Shinnosuke Takamichi， Tomoki Toda， Graham Neubig， Sakriani Sakti，and Satoshi Nakamura. A postfiter to modify the modulation spectrum in HMM-based speech synthesis. In Proc. ICASSP， pages290-294，2014. Tomoki Toda， Alan W Black， and Keiichi Tokuda. Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory. IEEE/ACM Trans. Audio Speech Lang. Process.，15(8):2222-2235， 2007. Tomoki Toda， Ling-Hui Chen， Daisuke Saito， Fernando Villavicencio，Mirjam Wester， Zhizheng Wu， and Junichi Yamagishi. The Voice Conversion Challenge 2016. In Proc. INTERSPEECH，pages 1632-1636，2016. Mirjam Wester， Zhizheng Wu， and Junichi Yamagishi. Analysis of the Voice Conversion Challenge 2016 evaluation results. In Proc. INTERSPEECH， pages 1637-1641， 2016. Jun-Yan Zhu， Taesung Park， Phillip Isola， and Alexei A. Efros.Un-paired image-to-image translation using cycle-consistent adversarial networks. In Proc. ICCV，pages 2223-2232， 2017.

これらの手法の多くは，パラレルデータを用いて変換音声の特徴量が目標音声の特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし，用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また，仮にそのようなペアデータが用意できる場合でも，高い精度の時間整合が必要となり，これを自動処理で行う際は整合ミスを修正するため目視または手動によるプレスクリーニングが必要となる。

本発明は、パラレルデータを必要としないパラレルデータフリーな声質変換手法を提供することを目的とする。

本発明に係る系列データ変換装置は、二つのドメインの系列データに対して、系列データを受け取る入力部と、変換器を用いて、一方のドメインのデータである順変換入力データから、もう一方のドメインのデータである順変換出力データへ変換する順変換部と、前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータである逆変換出力データに変換する逆変換部と、前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、前記変換部が変換したデータを出力する出力部とを含んで構成されている。

本発明に係る学習装置は、二つのドメインの系列データに対して、系列データを受け取る入力部と、変換器を用いて、一方のドメインのデータである順変換入力データから、もう一方のドメインのデータである順変換出力データへ変換する順変換部と、前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータである逆変換出力データに変換する逆変換部と、前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、を備え、前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器及び前記状態判断部のパラメータを更新する。

また、本発明に係るプログラムは、上記発明に係る系列データ変換装置の各部としてコンピュータを機能させるためのプログラムである。

本発明の系列データ変換装置、学習装置、及びプログラムによれば、パラレルデータを必要としないパラレルデータフリーな声質変換手法を提供することができる、という効果が得られる。

CycleGANの学習処理を示す図である。データ変換装置の全体構成を示す図である。概要１に係るデータ変換装置の全体構成を示す図である。概要２に係るデータ変換装置の全体構成を示す図である。データ変換装置による学習時の処理ルーチンを示す図である。データ変換装置による変換時の処理ルーチンを示す図である。メルケプストラムの次数ごとのＧＶ比較を示す図である。変調周波数ごとのＭＳの比較を示す図である。ソース音声とターゲット音声に対する類似性の比較（Ｓ：ソース、Ｔ：ターゲット、Ｐ：提案手法、Ｂ：比較手法）を示す図である。

[概要]
本稿では、パラレルデータフリーな系列データ変換手法を提案する。提案法は、変換元系列データと変換目標系列データのパラレルデータを用いずとも系列データ変換を可能にする点、従来の多くの系列データ変換法（例えば声質変換法）においてしばしば問題とされる系列データ（例えば音響パラメータ）の過剰平滑化が起こりにくい点を特長にもつ。以上の提案法の特長は、Cyclic-consistent adversarial network (CycleGAN)を用いることにより実現している。CycleGAN は元々、画像のスタイル変換の方法として提案されたもので、変換元のデータから変換目標のデータへの順方向の変換関数とともに、変換目標データから変換元データへの逆方向の変換関数を同時に学習することで、変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はCycleGAN を系列データ変換問題に適用し、敵対的学習規範(Adversarial loss)、循環無矛盾性規準(Cyclic-consistency loss)、および恒等写像誤差(Identity-mapping loss)の和を学習規準とすることにより変換元系列データから目標系列データへの特徴量系列の変換関数の学習を可能にしている。循環無矛盾性規準は、変換元データの順変換の逆変換が、どれくらい元通りに変換元データに一致するかを表した規準、および、変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は、変換されたデータと変換目標の実データとが、識別器によってどれくらい区別しやすいかを表した規準で、これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は、変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また、提案法では、順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え、いずれもGated Convolutional Neural Network により記述することにより、特徴量変換則に時間依存関係を反映できるようにしている。実験では、声質変換のタスクに提案手法を適用し評価を行った。定量評価実験により、提案法による変換音声が、変換目標の実音声と近いGlobal Variance (GV)とModulation Spectra (MS)をもつことを確認した。また、主観評価実験により、パラレルデータを用いた声質変換法と比べ、同等以上の自然性および目標話者への類似度が得られることを確認した。

提案法は、（１）テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点、（２）従来の多くの声質変換法においてしばしば問題とされる音響パラメータの過剰平滑化が起こりにくい点、（３）変換元と変換目標の音声の時間周波数構造を捉えた変換が可能である点、を特長にもつ。以上の提案法の特長は、（Disco-GAN およびDualGAN という別称としても知られる）Cyclic-consistent adversarial network (CycleGAN)を用いることにより実現している。CycleGAN は元々、画像のスタイル変換の方法として提案されたもので、変換元のデータから変換目標のデータへの順方向の変換関数とともに、変換目標データから変換元データへの逆方向の変換関数を同時に学習することで、変換元と変換目標のペアデータを用いずとも所望の変換を可能にする方法論である。提案法はCycleGAN を声質変換問題に適用し、敵対的学習規範(Adversarial loss)、循環無矛盾性規準(Cyclic-consistency loss)、および恒等写像誤差(Identity-mapping loss)の和を学習規準とすることにより変換元音声から目標音声への音声特徴量の変換関数の学習を可能にしている。循環無矛盾性規準は、変換元データの順変換の逆変換が、どれくらい元通りに変換元データに一致するかを表した規準、および、変換目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準である。敵対的学習規範は、変換されたデータと変換目標の実データとが、識別器によってどれくらい区別しやすいかを表した規準で、これが小さいほど変換データの確率分布が変換目標の実データの確率分布により類似していることを意味する。恒等写像誤差は、変換されたデータと変換元のデータがどれくらい一致するかを表した規準である。また、提案法では、順方向および逆方向の変換関数として特徴量系列から特徴量系列への変換関数を考え、いずれもGated Convolutional Neural Network により記述することにより、特徴量変換則に時間依存関係を反映できるようにしている。上記では、系列データ変換の代表例である声質変換に着目し述べてきたが、より一般的な系列データ変換（例えば、曲調変換、テキスト変換など）でも同様の課題意識はあり、これらに対して、提案手法の特長である（１）データやモジュールを別途必要としない点、（２）特徴量系列の過剰平滑化が起こりにくい点、（３）変換元と変換目標の系列データの系列的・階層的構造を捉えた変換が可能である点、を活かすことが可能である。

[２章：関連研究]
系列データから系列データに変換するタスクの代表例である声質変換における関連研究について述べる。上述のように声質変換の従来法には、パラレルデータを用いることを想定したものが多いが、パラレルデータを必ずしも必要としない方法も最近いくつか提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音声特徴量をペアとすることでパラレルデータを構築する。この方法は、音声認識が極めて高い精度で行えることが想定されるが、そのためには音声認識自体を学習するための大量の音声コーパスが必要となる場合があるため、利用場面によっては難点になりえる。他の手法例としては話者適応技術を用いるものがある。この方法は、変換元音声と変換目標音声のパラレルデータに関しては準備する必要はないが、話者空間を学習するための参照音声のパラレルデータは必要となる。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方法の検討も進められている。これらの方法では、変換元音声と変換目標音声がいずれも低次元の埋め込み空間に属することが仮定されるため、音声のスペクトログラムの細部や詳細な成分をモデル化することが難しくなっている。これらに対し、提案法は変換元の系列データから変換目標の系列データへのマッピングを直接する学習する方法となっている。提案法のこの特徴は、声質変換のように変換されたデータの細部や詳細な構造のリアルさが重要となるタスクにおいては特に利点が大きい。

[３章：発明を実施するための形態]
以下、本発明の実施の形態について説明する。本発明の、系列データ変換装置の原理について説明する。

３．CycleGAN を用いたパラレルデータフリー系列データ変換

本研究の目的は、ドメインX の系列データx ∈ X からドメインY の系列データy ∈ Y への変換関数をパラレルデータを要することなく学習することである。本研究では、この問題をCycleGAN （非特許文献１４）をベースにして解く。本章では、まず、第4.1 節でCycleGAN を概説する。CycleGAN の元論文では画像データを扱っていたが、本研究の対象は音声データなどの系列データである。系列データを扱う上で重要な工夫点、つまり、我々の提案するパラレルデータフリー系列データ変換手法について第4.2 節で述べる。

３．１ CycleGAN

CycleGAN では、変換関数G_X→_YをAdversarial loss とCycle-consistency lossの二つの損失関数を用いて学習する。学習処理を図１に示し、(a)は変換元データの順変換の逆変換が、どれくらい元通りに変換元データに一致するかを表した規準、および、（ｂ）は目標データの逆変換の順変換がどれくらい元通りに変換目標データと一致するかを表した規準を示す。Adversarial loss: Adversarial Loss は、変換データG_X→Y (x)が、変換対象ドメインのデータy としての妥当度合いを測る損失関数であり、変換データの分布

と変換対象ドメインのデータ分布P_Data(y)が近づいたとき、この損失関数の値は小さくなる。Adversarial lossの定式化として、Generative adversarial network (GAN) （非特許文献４）を用いた場合、目的関数は以下のようになる。

ここで生成器G_X→Yは、この目的関数を最小化することによって、識別器D_Yが変換対象ドメインのデータy と区別ができないようなデータを生成できるようにする。一方、識別器D_Yは、この目的関数を最大化することによって、G_X→Yに騙されないようにする。なお、ここではAdversarial lossの定式化にGANを用いる例を示したが、これは、任意のGANの拡張モデル、例えば、Least squares GAN (LSGAN) （非特許文献７）やWasserstein GAN (WGAN) （非特許文献１）などを用いることも可能である。例えば、LSGAN を用いた場合、式(1) のCross Entropy はLeast square loss になる。また、GAN ではJensen-Shannon divergence の基準のもと真のデータ分布と生成データの分布を近づけるが、WGAN ではEarth Mover's Distance の基準のもと近づけようとする。

Cycle-consistency loss: Adversarial loss のみでは、G_X→Y (x)が変換対象ドメインのデータ分布に従うようにする制約しか与えられないため、xとG_X→Y(x)の間でコンテキスト情報が保持されるとは限らない。そこで、CycleGANではさらに二つの制約を加えることによってこの問題に対処を行う。一つ目が、逆変換G_Y→Xに対するAdversarial loss、つまり、

である。もう一つが、Cycle-consistency lossで以下で与えられる。

上式では、二つのデータ間の距離を測る方法としてL1を用いた場合を示したが、これは任意の距離尺度を用いることが可能であり、例えば、L2 距離やKullback-Leibler divergence、あるいは、任意の特徴量抽出器を用意し、その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については、例えばニューラルネットワークを用いて構成することも可能である。例えば、上記識別器を特徴抽出器として用いることができ、識別器内の特徴量空間で距離を測ってもよい。

これら追加した項によって、G_X→YとG_Y→Xは、様々な変換先の候補の中から類似したコンテキスト情報を持った(x、y) のペアデータを擬似的に見つけるよう促進される。

全体の目的関数は、トレードオフパラメータλ_cycを用いて以下で表される。

３．２パラレルデータフリー系列データ変換のためのCycleGAN

CycleGAN をパラレルデータフリー系列データ変換に適用するために、本研究では二つの修正を提案する。一つ目がGated CNN （非特許文献３）を用いた系列データのモデリングと、二つ目がIdentity-mapping loss （非特許文献９）を用いた言語情報の保持である。なお、本発明では系列データの一例として音声変換を中心に説明を行っているが、提案手法は系列データ一般に有効なものであり、音声データだけに縛られないものであることに留意されたい。

Gated CNN: 系列データの特徴として、系列的な構造を持っているということと階層的な構造を持っているということの二点が挙げられる。例えば、音声データの場合であれば、有声・無声区間、音素・形態素などの系列的、階層的構造がある。ニューラルネットワークを用いて、このような構造を捉えようとした場合、ネットワークの構成方法が一つ鍵になる。そこで、本研究では、CycleGAN に系列関係・階層関係の表現が可能なモデルの導入すること提案する。具体的には、Gated CNN を用いる。他にも、RNN (LSTMなど) も利用することが可能であるが、RNN は再帰的な構造を持っており並列化が難しく計算コストが高いため、ここではGated CNN を用いる。なお、ここで重要なのは系列構造、階層構造を捉えられるようなモデルを使うということであり、近年提案されているCNN とRNN のハイブリッドであるQuasi-RNN （非特許文献２）などを用いてもよい。

Gated CNN は、元論文（非特許文献３）では言語モデリングにおいて最新の性能を示しているものであり、近年、音声モデリングにおいても有効性を示している（非特許文献５）。Gated CNN では、Gated linear units (GLUs) が活性化関数として用いられており、(l + 1) 層の出力

は、l 層の出力

とモデルパラメータ

を用いて以下の式により計算できる。

ここで、

は要素積であり、σはシグモイド関数である。このゲートメカニズムによって、ネットワーク間で情報伝播を行う際、前層の情報に応じて選択的に伝播を行うことが可能である。

Identity-mapping loss:系列データを変換しようとした場合、意味的な情報の保持も一つの重要な要求項目になる。例えば、音声変換の場合であれば、変換をしたいのは話者性であり、発話内容(言語情報) については保持されることが要求される。上述したように、CycleGAN においては、Cycle-consistency loss がコンテキスト情報の保持に寄与するが、この制約は、順変換し逆変換したら戻るという緩い制約にとどまっており、言語情報の保持については十分な働きをしない。この問題を音声認識器などの外部モジュールを要することなく解決するために、本研究では、Identity-mapping loss （非特許文献９）の利用を提案する。Identity-mapping loss は以下の式で表される。

この損失関数は、入力と出力間でデータの構成が保持されるように制約を与える。実際には、トレードオフパラメータλ_idを導入し、重み付けされた損失関数

を式(3)とともに用いる。

上式では、二つのデータ間の距離を測る方法としてL1を用いた場合を示したが、これは任意の距離尺度を用いることが可能であり、例えば、L2距離やKullback-Leibler divergence、あるいは、任意の特徴量抽出器を用意し、その特徴量抽出器で抽出した特徴量に対して距離を測ってもよい。特徴量抽出器については、例えばニューラルネットワークを用いて構成することも可能である。例えば、上記識別器を特徴抽出器として用いることができ、識別器内の特徴量空間で距離を測ってもよい。なお、このIdentity-mapping lossは学習の方向性を導くような制約であり、学習の全期間にわたり用いるのではなく、学習の初期段階のみ用いるようにしてもよい。

４．全体構成及び各フロー

４．１
全体構成図を図２に示し、各部について下記のとおり説明する。

データ変換装置は、機能的には入力部１００と、制御部２００と、出力部３００を含んで構成される。

入力部１００は、データ群Xに含まれるデータと、データ群Yに含まれるデータとを受け付ける。

具体的には、データ群Xに含まれるデータx∈Xと、データ群Yに含まれるデータy∈Yを受け付ける。

制御部２００は、順変換部２１０と、状態判断部２２０と、逆変換部２３０と、順逆変換距離測定部２４０と、自己変換部２５０と、自己変換距離測定部２６０と、ニューラルネットワーク記憶部２７０と、学習部２８０と、変換部２９０とを含んで構成される。

順変換部２１０は、入力されたデータ群Xのデータを、変換器G_X→Yによって変換データ群XYのデータに変換する。また、順変換部２１０は、入力されたデータ群Yのデータを、変換器G_Y→Xによって変換データ群YXのデータに変換する。

具体的には、順変換部２１０は、データ群Xのデータサンプルx を、ニューラルネットワーク記憶部２７０に記憶された変換器G_X→Yによって変換データ群XY のデータG_X→Y(x)に変換する。また、順変換部２１０は、データ群Yのデータサンプルyを、ニューラルネットワーク記憶部２７０に記憶された変換器G_Y→Xによって変換データ群YXのデータG_Y→X(y)に変換する。

状態判断部２２０は、順変換部２１０によって得られた変換データ群XYのデータと、入力データyとの各々について、状態判断器D_Yを用いて状態判断を行う。また、状態判断部２２０は、順変換部２１０によって得られた変換データ群YXのデータと、入力データxとの各々について、状態判断器D_X用いて状態判断を行う。

具体的には、状態判断部２２０は、ニューラルネットワーク記憶部２７０に記憶されたデータ群Yの状態判断器DYによって、変換データ群XYのデータG_X→Y(x)の状態判断と入力データyの状態判断を行い、各々の判断結果D_Y(G_X→Y(x))とD_Y(y)を学習部２８０に渡す。また、状態判断部２２０は、ニューラルネットワーク記憶部２７０に記憶されたデータ群Xの状態判断器D_Xによって、変換データ群YXのデータG_Y→X(y)の状態判断と入力データxの状態判断を行い、各々の判断結果D_X(G_Y→X(y))とD_X(x)を学習部２８０に渡す。

逆変換部２３０は、順変換部２１０によって得られた変換データ群XY のデータを変換器G_Y→X によって変換データ群XYX のデータに変換する。また、逆変換部２３０は、順変換部２１０によって得られた変換データ群YX のデータを変換器G_X→Y によって変換データ群YXYのデータに変換する。

具体的には、逆変換部２３０は、変換データ群XYのデータG_X→Y(x)を、ニューラルネットワーク記憶部２７０に記憶された変換器G_Y→X によって変換データ群XYXのデータG_Y→X(G_X→Y(x))に変換する。また、逆変換部２３０は、変換データ群YXのデータG_Y→X(y)を、ニューラルネットワーク記憶部２７０に記憶された変換器G_X→Yによって変換データ群YXYのデータG_X→Y(G_Y→X(y))に変換する。

順逆変換距離測定部２４０は、入力されたデータ群Xのデータと、逆変換部２３０によって得られた変換データ群XYX のデータとの距離を距離測定器M₁によって測定する。また、順逆変換距離測定部２４０は、入力されたデータ群Yのデータと、逆変換部２３０によって得られた変換データ群YXYのデータとの距離を距離測定器M₁によって測定する。

具体的には、順逆変換距離測定部２４０は、入力されたデータ群Xのデータx と、逆変換部２３０によって得られた変換データ群XYXのデータG_Y→X(G_X→Y(x))との距離を距離測定器M₁によって測定し、距離の測定結果M₁(x、G_Y→X(G_X→Y(x)))を学習部２８０に渡す。また、順逆変換距離測定部２４０は、入力されたデータ群Yのデータyと、逆変換部２３０によって得られた変換データ群YXYのデータG_X→Y(G_Y→X(y))との距離を距離測定器M₁によって測定し、距離の測定結果M₁(y、G_X→Y (G_Y→X(y)))を学習部２８０に渡す。

なお、距離測定器M₁の距離基準としては、例えば、L1距離やL2距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ニューラルネットワーク記憶部２７０に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。

自己変換部２５０は、入力されたデータ群Yのデータを、変換器G_X→Yによって変換データ群YYのデータに変換する。また、自己変換部２５０は、入力されたデータ群Xのデータを、変換器G_Y→Xによって変換データ群XXのデータに変換する。

具体的には、自己変換部２５０は、入力されたデータ群Y のデータy を、ニューラルネットワーク記憶部２７０に記憶された変換器G_X→Yによって変換データ群YYのデータG_X→Y(y)に変換する。また、自己変換部２５０は、入力されたデータ群Xのデータxを、ニューラルネットワーク記憶部２７０に記憶された変換器G_Y→Xによって変換データ群XXのデータG_Y→X(x)に変換する。

自己変換距離測定部２６０は、入力されたデータ群Yのデータと、自己変換部２５０によって得られた変換データ群YYのデータとの距離を距離測定器M₂によって測定する。また、自己変換距離測定部２６０は、入力されたデータ群Xのデータと、自己変換部２５０によって得られた変換データ群XXのデータとの距離を距離測定器M₂によって測定する。

具体的には、自己変換距離測定部２６０は、入力されたデータ群Yのデータyと、自己変換部２５０によって得られた変換データ群YYのデータ(G_X→Y(y))との距離を距離測定器M₂によって測定し、距離の測定結果M₂(y,G_X→Y(y))を学習部２８０に渡す。また、自己変換距離測定部２６０は、入力されたデータ群Xのデータxと、自己変換部２５０によって得られた変換データ群XXのデータ(G_Y→X(x))との距離を距離測定器M₂によって測定し、距離の測定結果M₂(x,G_Y→X(x))を学習部２８０に渡す。

なお、距離測定器M₂の距離基準としては、例えば、L1距離やL2 距離、あるいはニューラルネットワークの特徴量空間内での距離を用いる。ニューラルネットワークを用いる場合は、ニューラルネットワーク記憶部２７０に記憶された特徴抽出器としてのニューラルネットワークを用いて特徴量を抽出し、距離を測る。

ニューラルネットワーク記憶部２７０は、変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークを記憶している。順逆変換距離測定部２４０、または、自己変換距離測定部２６０で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークを記憶している。

変換器としてのニューラルネットワークと状態判断器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、Gated CNNやLSTMを用いる。

順逆変換距離測定部２４０、または、自己変換距離測定部２６０で、ニューラルネットワークの特徴量空間内での距離を用いる場合、特徴抽出器としてのニューラルネットワークとしては時系列的な構造や階層的な構造を表現できるものを用いる。例えば、Gated CNNやLSTMを用いる。

学習部２８０は、状態判断部２２０によって判断した結果について、変換データ群XYのデータの状態判断結果と入力データy の状態判断結果が近くなるように、変換データ群YXのデータの状態判断結果と入力データx の状態判断結果が近くなるように、順逆変換距離測定部２４０によって測定された距離を最小化するように、自己変換距離測定部２６０によって測定された距離を最小化するように、変換器としてのニューラルネットワークを学習する。また、状態判断部２２０によって判断した結果について、変換データ群XYのデータの状態判断結果と入力データyの状態判断結果の差異が明確になるように、また、変換データ群YXのデータの状態判断結果と入力データxの状態判断結果の差異が明確になるように、状態判断器としてのニューラルネットワークを学習する。

具体的には、学習部２８０は、状態判断部２２０によって判断した結果D_Y(G_X→Y(x))とD_Y(y)の値が近くなるように、状態判断部２２０によって判断した結果D_X(G_Y→X(y))とD_X(x)の値が近くなるように、順逆変換距離測定部２４０によって測定された距離M₁(x,G_Y→X (G_X→Y(x)))とM₁(y, G_X→Y(G_Y→X(y)))とを最小化するように、自己変換距離測定部２６０によって測定された距離M₂(y,G_X→Y(y))とM₂(x,G_Y→X(x))とを最小化するように、変換器としてのニューラルネットワークG_X→YとG_Y→Xを学習する。

より具体的には、学習部２８０において、状態判断部２２０によって判断した結果D_Y(G_X→Y(x))とD_Y(y)の値が同じなるようにする目的関数としては、例えば、状態判断器D_Yとして入力データy が与えられた時は確率pを出力し、変換データG_X→Y(x)が与えられた時は確率1-pを出力するようなものを考えた場合、L_adv(G_X→Y,D_Y)（本発明の式（１））を最小化すればよい。同様に、状態判断部２２０によって判断した結果D_X(G_Y→X(y))とD_X(x)の値が同じなるようにする目的関数としては、例えば、状態判断器D_Xとして入力データxが与えられた時は確率pを出力し、変換データG_Y→X(y)が与えられた時は確率1-pを出力するようなものを考えた場合、L_adv(G_Y→X,DX)を最小化すればよい。

なお、学習部２８０において、自己変換距離測定部２６０によって測定された距離を最小化する制約は、学習の初期段階で学習を安定化させるためにのみ用い、学習が安定化した後は用いなくてもよい。

また、学習部２８０において、自己変換距離測定部２６０によって測定された距離を最小化する制約は、学習において補助的な役割を担うものであり、用いなくても学習が安定しているのであれば、用いなくてもよい。

そして、学習部２８０は、状態判断部２２０によって判断した結果D_Y(G_X→Y(x))とD_Y(y)の差異が明確になるように、状態判断部２２０によって判断した結果D_X(G_Y→X(y))とD_X(x)の差異が明確になるように、状態判断器としてのニューラルネットワークD_YとD_Xとを学習する。

具体的には、学習部２８０において、状態判断部２２０によって判断した結果D_Y(G_X→Y(x))とD_Y(y)の差異が明確になるようにする目的関数としては、例えば、状態判断器D_Yとして入力データyが与えられた時は確率pを出力し、変換データG_X→Y(x)が与えられた時は確率1-pを出力するようなものを考えた場合、L_adv(G_X→Y、D_Y)（本発明の式（１））を最大化すればよい。同様に、状態判断部２２０によって判断した結果D_X(G_Y→X(y))とD_X(x)の差異が明確になるようにする目的関数としては、例えば、状態判断器D_Xとして入力データyが与えられた時は確率pを出力し、変換データG_Y→X(y)が与えられた時は確率1-pを出力するようなものを考えた場合、L_adv(G_Y→X、D_X)を最大化すればよい。

なお、本発明の[数１]では、目的関数内でCross Entropyを用いているが、代わりにEuclidean距離や、Earth Mover距離、エネルギー関数に基づく距離を用いてもよい。

そして、学習部２８０は、学習結果をニューラルネットワーク記憶部２７０に渡す。

変換部２９０は、学習部２８０によって学習された変換器を用いて、入力された変換対象のデータを変換する。

具体的には、変換部２９０は、入力部１００が入力データとしてデータ群Xのデータxを受け取った場合、変換器G_X→Yとしてのニューラルネットワークを、ニューラルネットワーク記憶部２７０から取得する。そして変換部２９０は、変換器G_X→Yのニューラルネットワークを用いて、変換対象であるデータx を変換データG_X→Y(x)に変換する。同様に、変換部２９０は、入力部１００が入力データとしてデータ群Yのデータyを受け取った場合、変換器G_Y→Xとしてのニューラルネットワークを、ニューラルネットワーク記憶部２７０から取得する。そして変換部２９０は、変換器G_Y→Xのニューラルネットワークを用いて、変換対象であるデータy を変換データG_Y→X(y)に変換する。

出力部３００は、変換部２９０が変換した変換結果である変換データを出力する。

具体的には、出力部３００は、入力部１００が入力データとしてデータ群Xのデータxを受け取った場合、変換部２９０が変換した変換結果である変換データG_X→Y(x)を出力する。同様に、出力部３００は、入力部１００が入力データとしてデータ群Yのデータyを受け取った場合、変換部２９０が変換した変換結果である変換データG_Y→X(y)を出力する。

以下に、実施形態を示す。

[概要１]
二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ（順変換入力データ）から、もう一方のドメインのデータ（順変換出力データ）へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ（逆変換出力データ）に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
前記変換部が変換したデータを出力する出力部を含む系列データ変換装置。

[概要２]
前記系列データ変換装置において、前記順変換部の変換器が変換対象とするドメインのデータ（自己変換入力データ）に対して、前記変換器によって変換してデータ（自己変換出力データ）を得る自己変換部と、
前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
を含む系列データ変換装置。

４．２
学習時の処理ルーチンを図５に示し、各ステップについて下記のとおり説明する。

1. 入力部１００にデータ群Xのデータと、データ群Yのデータとが入力されると、データ変換装置において、学習処理フローが実行される。

2. まず、ステップ S１００において、順変換部２１０と自己変換部２５０は、入力部１００から、データ群X のデータと、データ群Yのデータを取得する。

3. 具体的には、入力部１００は、データ群Xからランダムに選択されたデータx∈Xと、データ群Yからランダムに選択されたデータy∈Yとを、順変換部２１０と自己変換部２５０に渡す。なお、ランダムにデータを選択する際、二つのデータxとyは対応関係が取れている必要はない。例えば、音声データであれば、xとyは同じ発話内容のデータである必要はない。

4. ステップ S１１０において、順変換部２１０は、変換器G_X→Yを用いてxをG_X→Y(x)に変換する。また、順変換部２１０は、変換器G_Y→Xを用いてyをG_Y→X(y)に変換する。

5. ステップS１２０において、状態判断部２２０は、状態判断器D_Yを用いて、G_X→Y(x)の状態判断結果D_Y(G_X→Y(x))と、yの状態判断結果D_Y(y)を取得する。また、状態判断部２２０は、状態判断器D_Xを用いて、G_Y→X(y)の状態判断結果D_X(G_Y→X(y))と、xの状態判断結果D_X(x)を取得する。

6. ステップ S１３０において、逆変換部２３０は、変換器G_Y→Xを用いてG_X→Y(x)をG_Y→X(G_X→Y(x))に変換する。また、逆変換部２３０は、変換器G_X→Yを用いてG_Y→X(y)をG_X→Y(G_Y→X(y))に変換する。

7. ステップ S１４０において、順逆変換距離測定部２４０は、距離測定器M₁を用いてxとG_Y→X(G_X→Y(x))の距離M₁(x、G_Y→X(G_X→Y(x)))を測定する。また、順逆変換距離測定部２４０は、距離測定器M₁を用いてyとG_X→Y(G_Y→X(y))の距離M₁(y、G_X→Y(G_Y→X(y)))を測定する。

8. ステップ S１５０において、自己変換部２５０は、変換器G_X→Yを用いてyをG_X→Y(y)に変換する。また、自己変換部２５０は、変換器G_Y→Xを用いてxをG_Y→X(x)に変換する。

9. ステップ S１６０において、自己変換距離測定部２６０は、距離測定器M₂を用いてyとG_X→Y(y)の距離M₂(y、G_X→Y(y))を測定する。また、自己変換距離測定部２６０は、距離測定器M₂を用いてx とG_Y→X(x)の距離M₂(x、G_Y→X(x))を測定する。

10.ステップ S１７０において、学習部２８０は、状態判断部２２０によって判断した結果D_Y(G_X→Y(x))とD_Y(y)の値が近くなるように、状態判断部２２０によって判断した結果D_X(G_Y→X(y))とD_X(x)の値が近くなるように、順逆変換距離測定部２４０によって測定された距離M₁(x、G_Y→X (G_X→Y(x)))とM₁(y、G_X→Y (G_Y→X(y)))とを最小化するように、自己変換距離測定部２６０によって測定された距離M₂(y、G_X→Y(y))とM₂(x、G_Y→X(x))とを最小化するように、変換器としてのニューラルネットワークG_X→YとG_Y→Xを学習し、ニューラルネットワーク記憶部２７０に記憶されている、変換器としてのニューラルネットワークG_X→YとG_Y→Xのパラメータを更新する。

11.また、学習部２８０は、状態判断部２２０によって判断した結果D_Y(G_X→Y(x))とD_Y(y)の差異が明確になるように、状態判断部２２０によって判断した結果D_X(G_Y→X(y))とD_X(x)の差異が明確になるように、状態判断器としてのニューラルネットワークD_YとD_Xとを学習し、ニューラルネットワーク記憶部２７０に記憶されている、状態判断器としてのニューラルネットワークD_YとD_Xのパラメータを更新する。

12.ステップ S１８０において、全てのデータについて終了したか否かを判断する。

13.全てのデータについて終了していない場合（ステップS１８０のNO）、ステップS１００に戻り、再度ステップS１００〜S１７０の処理を行う。

14.一方、全てのデータについて終了している場合（ステップS１８０のYES）、処理を終了する。

４．３変換時の処理ルーチン

変換時の処理ルーチンを図６に示し、各ステップについて下記のとおり説明する。

1. 入力部１００に、変換対象のデータx∈X、または、変換対象のデータy∈Yが入力されると、データ変換装置において、データ変換処理フローが実行される。ここでは、変換対象のデータx∈X が入力された場合を説明する。なお、変換対象のデータy∈Y が入力された場合も、処理は同様である。

2. ステップ S２００において、変換部２９０は、入力部１００から、入力された変換対象のデータx を取得する。

3. ステップ S２１０において、変換部２９０は、ニューラルネットワーク記憶部２７０から、学習部２８０によって学習された変換器G_X→Yのニューラルネットワークを取得する。

4. ステップ S２２０において、変換部２９０は、変換器G_X→Y を用いて、入力された変換対象のデータxをG_X→Y(x)に変換する。

5. ステップ S２３０において、出力部３００は、変換部２９０によってデータx が変換された変換データG_X→Y(x)を出力する。

５評価実験
５．１実験設定

提案手法は、系列データ変換一般に適用可能なものであるが、実験では一例としてパラレルデータフリーの音声変換に提案手法を適用し、評価を行った。データとしては、VCC 2016 dataset （非特許文献１２）を用いた。本データセットには、プロのアメリカ英語の発話音声が収録されており、5 人の男性話者、5人の女性話者を含む。各話者のデータは216個の短文(約13分) に分けられ、そのうち162文は学習用に用いられ、54文は評価用に用いられる。提案手法をパラレルデータなしの条件下で評価するため、提案手法を学習する際は、学習用データ162文のうち、前半の81文をソース音声として用い、後半の81 文をターゲット音声として用いた。つまり、ソース音声とターゲット音声間で重複した発話がない条件下で学習を行った。音声データは16 kHz にダウンサンプリングされており、24 次元のメルケプストラム(MCEP)、対数基本周波数(log F₀)、非同期性指標(AP) をWORLD 分析システム（非特許文献８）を用いて5 msで抽出を行った。これらの音声特徴量のうち、メルケプストラムに対して、提案手法を適用し変換を行った。基本周波数については、Logarithm Gaussian normalized transformation （非特許文献６）を用い、非同期性指標については、変換しても有意差がないことが示されており、ソース音声のものをそのまま用いた。

５．２客観評価

本実験では、提案手法の適用対象はメルケプストラムであるため、変換メルケプストラムの質について客観評価を行った。比較手法としては、パラレルデータありの音声変換で代表的な方法の一つであるGMM ベースの音声変換（非特許文献１１）を用いた。GMM ベースの音声変換は、学習にパラレルデータが必要であるため、学習用データ162 文全てを用いた。なお、提案手法はパラレルデータなしでかつデータ量は半分という不利な状況で学習していたことに留意されたい。また、評価データとしては、ソース音声にはSF1 とSM1、ターゲット音声にはTF2とTM3を用いた。

評価指標としては、音声品質の主観評価と相関が高いと言われているGlobal variance (GV) （非特許文献１１）とModulation spectra (MS) （非特許文献１０）を用いた。図７に、提案手法(Proposed)、比較手法(Conventional)、ターゲット音声(Target) のメルケプストラムの次数ごとのGVの比較を示す。この結果より、提案手法では比較手法よりもターゲット音声に近いGVが得られていることが分かる。図８に、提案手法(Proposed)、比較手法(Conventional)、ターゲット音声(Target) の変調周波数ごとのMSの比較を示す。この結果より、提案手法では比較手法よりもターゲット音声に近いMSが得られていることが分かる。表1に、ターゲット音声と変換音声の対数MSのRoot mean square error(RMSE)の比較を示す。これらの値は小さい方が変換音声がターゲット音声に近いことを示しており、実験結果より、提案手法の方が比較手法よりターゲット音声に近い対数MS が得られていることが分かる。

５．３主観評価

主観評価実験については、VCC 2016 （非特許文献１３）のプロトコルに従い、自然性と話者性の評価を行った。比較手法としては、GMM ベースのパラレルデータありの変換手法（非特許文献１１）を用いた。まず、自然性の評価についてはMean opinion score(MOS) テストを行った。評価データとしては、評価用データの中から2 秒以上5 秒以下のデータをランダムに20 文選択し用いた。被験者としては英語教育を十分に受けた9 人が参加した。MOS テストの結果は、同性話者間の音声変換(SF1-TF2) の場合、提案手法が2.4、比較手法が1.3、また、異性話者間の音声変換(SF1-TM3) の場合、提案手法が2.3、比較手法が1.4 であった。このスコアは値が大きいほど自然性が高いことを示しており、自然性の主観評価においても提案手法が比較手法が上回ることが示された。

話者性の評価については、異なる発話内容に対して同一人物が話したように聞こえるかどうかという基準に従って評価を行った。評価データとしては、評価用データの中からランダムに10セット選択し用いた。被験者としては英語教育を十分に受けた9 人が参加した。図９に同性話者間の音声変換(SF1-TF2)の場合の結果を示す。この図では、提案手法の方が比較手法よりも「ターゲット音声と絶対同じ」と答えた割合が多くなっている。この結果より、話者性においても提案手法の優位性が分かる。

Claims

概要１
二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ（順変換入力データ）から、もう一方のドメインのデータ（順変換出力データ）へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ（逆変換出力データ）に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習部と、
前記学習部によって学習された前記変換器を用いて、前記入力部が受け取ったデータを変換する変換部と、
前記変換部が変換したデータを出力する出力部
を含む系列データ変換装置。
概要２
請求項１に従属し、前記系列データ変換装置において、前記順変換部の変換器が変換対象とするドメインのデータ（自己変換入力データ）に対して、前記変換器によって変換してデータ（自己変換出力データ）を得る自己変換部と、
前記自己変換入力データと、前記自己変換出力データとの距離を測定する自己変換距離測定部
を含む系列データ変換装置。
概要３
請求項１または２に従属し、前記変換器、前記状態判断器を系列データ間の関係性を捉えることのできるニューラルネットワークを用いて構成する
概要１又は概要２に記載の系列データ変換装置。
概要４
請求項１乃至３のいずれか１項に従属し、前記ニューラルネットワークの一部にＧａｔｅｄＣＮＮ又はＬＳＴＭ又はＡｔｔｅｎｔｉｏｎ構造を持ったモデルを用いる概要３記載の系列データ変換装置。
二つのドメインの系列データに対して、系列データを受け取る入力部と、
変換器を用いて、一方のドメインのデータ（順変換入力データ）から、もう一方のドメインのデータ（順変換出力データ）へ変換する順変換部と、
前記順変換出力データに対して、変換器を用いて、逆の変換を行い順変換部の入力ドメインのデータ（逆変換出力データ）に変換する逆変換部と、
前記順変換出力データに対して、状態判断器を用いて、前記順変換出力データの対象とするドメインの系列データとして適切かどうかの状態判断を行う状態判断部と、
前記逆変換出力データと、前記順変換入力データに対して、距離測定器を用いて、距離を測定する順逆変換距離測定部と、
を備え、前記状態判断部と前記順逆変換距離測定部の結果に応じて前記変換器、前記状態判断部のパラメータを更新する学習装置