JP6846310B2

JP6846310B2 - 距離測定装置、データ変換装置、距離測定方法、及びプログラム

Info

Publication number: JP6846310B2
Application number: JP2017158171A
Authority: JP
Inventors: 卓弘金子; 弘和亀岡; 薫平松; 柏野　邦夫; 邦夫柏野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2021-03-24
Anticipated expiration: 2037-08-18
Also published as: JP2019035902A

Description

本発明は、距離測定装置、データ変換装置、距離測定方法、及びプログラムに関し、特に、データを変換するための距離測定装置、データ変換装置、距離測定方法、及びプログラムに関する。

テキストを音声信号に自動変換する技術を音声合成、音声信号Ａを音声信号Ｂに自動変換する技術を音声変換と呼ぶが（図１参照）、これらは二つのデータ間の対応関係を表す関数を学習する一種の回帰（機械学習）問題である。

このような関数をデータドリブンに学習するためには、変換データ

（変換元データ

を変換器Ｃによって変換したデータ）と目標データ

（教師データ）との対応関係に対して適切な距離基準を設定し学習することが必要になる。

音声合成、音声変換の主要な手法としては、データ分布に対してガウシアン分布を仮定するＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いた手法（非特許文献１）や、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を用いた手法（非特許文献２）がある。

また、近年、二つのデータ間の複雑な対応関係を表す手法として、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ；ＮＮ）を用いた手法が、音声変換及び音声合成でそれぞれ提案されている（非特許文献３及び４）。

特開２０１６−９１０５１号公報

Takayoshi Yoshimura, Keiichi Tokuda, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura, "Si- multaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis," 1999. Tomoki Toda, Alan W Black, Keiichi Tokuda, "Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory," 2007. Seyed Hamidreza Mohammadi, Alexander Kain, "Voice conversion using deep neural networks with speaker-independent pre-training," 2014. Heiga Zen, Andrew Senior, Mike Schuster, "Statistical paramet- ric speech synthesis using deep neural networks," 2013.

しかしながら、上記の従来技術では、データ空間またはローレベルな（ハンドクラフトな）特徴量空間で変換データと教師データの距離（二乗距離、ＫＬダイバージェンスなど）を測定し、その距離が最小となるように最適化しているため統計的な平均化の影響を受けやすく、過剰に平滑化された音声が生成されやすい、という問題があった。

例えば、非特許文献１及び２の手法では、いずれもデータ分布に対して陽に分布形状を仮定しているため、統計的な平均化が生じ、過剰に平滑化された音を生成しやすい、という問題があった。

また、非特許文献３及び４の手法では、いずれも学習する際に、データ空間内での距離（二乗距離など）を測定して最適化が行われており、先と同様に、統計的な平均化が生じ、過剰に平滑化された音を生成しやすい、という問題があった。

本発明はこの課題に鑑みてなされたものであり、過剰な平滑化を抑制したデータに変換するための距離を測定することができる距離測定装置、距離測定方法、及びプログラムを提供することを目的とする。

また、過剰な平滑化を抑制したデータに変換することができるデータ変換装置及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る距離測定装置は、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する特徴抽出部と、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する距離測定部とを含んで構成されている。

本発明に係る距離測定方法は、特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する。

本発明に係る距離測定装置及び距離測定方法によれば、特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する。

このように、変換データと目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、抽出された変換データの特徴量と、目標データの特徴量との距離を測定することにより、過剰な平滑化を抑制したデータに変換するための距離を測定することができる。

また、本発明に係る距離測定装置は、前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、入力されたデータが前記目標データであるか否かを識別する識別器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが互いに競合する最適化条件によって学習することにより得られた前記識別器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められるように構成することができる。

また、本発明に係る距離測定装置は、前記変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワークにより変換したデータ、又は学習用データを用いて学習することにより得られた前記認識器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められるように構成することができる。

また、本発明に係る距離測定装置は、前記特徴量を抽出するためのニューラルネットワークは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）であるように構成することができる。

また、本発明に係る距離測定装置は、前記ＣＮＮは、ＧＬＵ（ＧｅｔｅｄＬｉｎｅａｒＵｎｉｔ）を用いるように構成することができる。

本発明に係るデータ変換装置は、上記の距離測定装置によって測定された距離を最小化するように前記変換器を学習する学習部と、変換対象のデータを入力する入力部と、前記学習部によって学習された変換器を用いて、前記入力された前記変換対象のデータを変換する変換部とを含んで構成される。

本発明に係るデータ変換装置によれば、学習部が、上記の距離測定装置によって測定された距離を最小化するように前記変換器を学習し、入力部が、変換対象のデータを入力し、変換部が、前記学習部によって学習された変換器を用いて、前記入力された前記変換対象のデータを変換する。

このように、距離測定装置によって測定された距離を最小化するように変換器を学習し、入力された変換対象のデータを学習された変換器を用いて変換することにより、過剰な平滑化を抑制したデータに変換することができる。

本発明に係るプログラムは、上記の距離測定装置又はデータ変換装置の各部として機能させるためのプログラムである。

本発明の距離測定装置、距離測定方法、及びプログラムによれば、過剰な平滑化を抑制したデータに変換するための距離を測定することができる。

また、本発明のデータ変換装置及びプログラムによれば、過剰な平滑化を抑制したデータに変換することができる。

従来の学習手法の例を表す図である。既存手法と本実施形態の差異を表すイメージ図である。ＧＡＮ、音声認識ネットワークを用いた場合のイメージ図である。従来手法（フレームごとに変換）と本発明の実施の形態（シークエンスごとに変換）との差異について示したイメージ図である。本発明の実施の形態におけるＧＡＮのネットワーク構成を示した図である。本発明の実施の形態におけるＣＮＮのネットワーク構成を示した図である。本発明の実施の形態におけるＧＬＵのネットワーク構成を示した図である。本発明の実施の形態に係るデータ変換装置の構成を示す概略図である。本発明の実施の形態に係るデータ変換装置の学習処理フローを示すフローチャートである。本発明の実施の形態に係るデータ変換装置の変換処理フローを示すフローチャートである。本発明の実施の形態に係る実験結果を示す図である。本発明の実施の形態に係る主観的評価結果を示す図である。本発明の実施の形態に係る主観的評価結果を示す図である。

以下、本発明の実施の形態について図面を用いて説明する。

＜本発明の実施の形態に係るデータ変換装置の原理＞
まず、本発明の実施の形態に係るデータ変換装置の原理について説明する。

＜＜ニューラルネットワークの特徴量空間で距離を測定＞＞
従来技術では、データ空間またはローレベルな（ハンドクラフトな）特徴量空間で変換データ

と目標データ

の距離を測定していた（図２（ａ））が、本実施形態ではＮＮの特徴量空間

（

はＮＮの層のインデックス）（図２（ｂ））で距離の測定を行う。

ＮＮではあるタスクに対して有用な特徴量空間を自動的に学習することが可能であり、この特徴量空間では、入力データに対してよりハイレベルな（セマンティックな）構造を表現することが可能である。

この性質を利用することにより、音声信号に対してよりハイレベルな（セマンティックな）構造を考慮して変換データ

と目標データ

の対応関係をみることができる。

これにより、データ空間で生じていた過剰な平滑化の問題を緩和することが可能である。

特に上記ＮＮが識別的なＮＮの場合、あるタスクに対して識別的な性質を持った特徴量空間が学習される。

そのため、このＮＮの特徴量空間で学習基準を設定した場合、そのタスクに識別的な特徴を考慮して、変換データ

と目標データ

の対応関係を表現することができる。

具体的には、上記識別的なＮＮが敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）の場合（図３（ａ））、リアリティがあるかないかということに対して識別的な性質を持った特徴量空間が学習される。

そのため、ＧＡＮの特徴量空間で学習基準を設定した場合、リアリティがあるかないかということに対して識別的な特徴を考慮して、変換データ

と目標データ

の対応関係を表現することができる。

また、上記識別的なＮＮが音声認識を行うＮＮの場合（図３（ｂ））、音素クラスに対して識別的な性質を持った特徴量空間が学習される。

そのため、音声認識のＮＮの特徴量空間で学習基準を設定した場合、音素クラスに対して識別的な特徴を考慮して、変換データ

と目標データ

の対応関係を表現することができる。

＜＜ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＣＮＮ）による時間的な構造のモデル化＞＞
本実施形態では、学習をする際にＣＮＮを用いることで、音声信号に含まれる時間的な構造を考慮してモデル化を行う。

図４に従来手法（フレームごとに変換）と本実施形態（シークエンスごとに変換）との差異について示す。

従来手法（図４（ａ）ＣｏｎｖｅｎｔｉｏｎａｌＦｒａｍｅ−ｂｙ−ＦｒａｍｅＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎ）では、変換データ

と目標データ

の対応関係をみる際にフレーム（Ｆｒａｍｅ）同士の関係に限定されていたため、時間的な整合性を考慮することが難しかった。

すなわち、学習する際にフレームごとに対応関係を学習するため、音声信号に含まれる時間的な構造を考慮できなかった。特に、音声変換の場合は、前処理としてＤｙｎａｍｉｃＴｉｍｅＷｒａｐｐｉｎｇ（ＤＴＷ）などを用いて変換元データ

と目標データ

のアライメントをとることが一般的であるが、フレームごとにのみ着目し対応関係を学習した場合、このアライメントのミスの影響を受けやすい。

本実施形態（図４（ｂ）ＰｒｏｐｏｓｅｄＳｅｑｕｅｎｃｅ−ｔｏ−ＳｅｑｕｅｎｃｅＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎ）では、シークエンス（Ｓｅｑｕｅｎｃｅ：複数フレームの連なり）に対して対応関係をみるため時間的に整合性のある音声が得ることが可能である。

特に、音声変換の場合は、あるフレームにおいてアライメントのミスが生じていたとしても、隣接するフレームの情報を補完的に用いることによって影響を緩和することが可能である。

特に、上記ＣＮＮをＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＦＣＮ）で構成した場合、任意の長さのデータを入力として受け取ることが可能である。

一般に音声の長さは可変であるが、ＦＣＮのこの性質により様々な長さの音声データに対して繋ぎ目なく変換することが可能である。

本実施の形態では、音声変換の場合について説明するが、音声合成の場合でも同様の方式が適応可能である。音声合成と音声変換は、前者は入力がテキストで出力が音声、後者は入力が音声で出力が音声と入出力が異なるが、いずれも二つの時系列データ間の対応関係をみる問題であり、同様の枠組みとして捉えることが可能である。

＜＜基本方式＞＞
従来手法（図２（ａ））ではフレームごとに対応関係を見ていたため時間的に整合性がとれた変換を行うことが難しかった。

これに対して、本実施形態（図２（ｂ））ではシークエンスごとに対応関係を見ており、これにより時間的に整合性のとれた変換が可能である。

フレーム数Ｔに対して、入力データ系列を

、出力データ系列を

とすると、この二つの対応関係を表す最適な関数Ｃを得るためには、下記の式（１）の目的関数を最小化すれば良い。

ここで、

は、二つのデータ間の類似性を表す関数である。

従来手法では、下記の式（２）にあるように、データ空間に対して最小二乗誤差を用いていたが、この基準は、データ間の微小なずれに対して敏感な誤差基準であり、統計的に平均化され過剰に平滑化され、バジー感のある音声を生成しやすいという課題があった。

この課題を解決するために、本実施形態では、二つのデータ間の類似性をデータ空間内で直接測るのではなく、距離を測るためのＮＮを導入し、その特徴量空間内で距離を測ることを提案する。

ＮＮ内では、入力データに対してよりハイレベルな（セマンティックな）構造を表現することが可能であり、この性質を利用することによって、音声信号に対してよりハイレベルな（セマンティックな）構造を考慮して、二つのデータの対応関係を見ることができる。

＜＜ＧＡＮを用いた距離関数の学習＞＞
ＮＮの形式に捉われないものであるが、ここでは、ＮＮの中でも識別的なタスクのためのＮＮ、特に、真のデータか生成されたデータかを識別するＧＡＮに対して適用した場合について説明する。

同様の手法は、音声認識のネットワークに対しても適用することが可能であり、ＧＡＮと音声認識のネットワークを組み合わせたりすることも可能である。ＧＡＮと音声認識ののネットワークを組み合わせた場合、本物か偽物かの識別（２クラス識別）と、音声認識（音素クラス識別）の２つのタスクを同時に最適化することができる。

ＧＡＮは、乱数

からデータを生成する生成器

と、真のデータ

が与えられた時は確率

を出力し、生成された（偽の）データ

が与えられた時は、確率

を出力する識別器

との二つのネットワークから構成される。

つまり、識別器では

と

に対して真のデータが生成されたデータかの識別を行う。

目的関数は下記の式（３）で表せられる。

式（３）の目的関数を識別器については最大化、生成器に対しては最小化するという敵対的な（Ｍｉｎ−Ｍａｘ）の条件で最適化を行うことにより、生成器は識別器を騙せるようなデータを生成できるように最適化され、識別器は生成器に騙されないように最適化される。

この結果、生成データの分布

を真のデータ分布

に近づけることが可能である。

本発明の実施の形態では、ＧＡＮの識別器中の特徴量空間内で、二つのデータ間の距離を測定することを提案する。

図５に、本発明の実施の形態におけるＧＡＮのネットワークの構成、入出力関係を表す。

図５において、

が生成器、

が識別器、

が変換器、

が真のデータ（図５のＲｅａｌＤａｔａ）である。

識別器中の特徴量空間内で、距離を測定した場合、式（１）は、下記の式（４）で表される。

ここで、

は識別器の

番目の層の特徴量空間で距離を測ることを指す。

ここでは、ある一層で距離を測ることを示しているが、複数の層で同時に距離を測っても良い。

式（３）及び式（４）は別々に最適化を行うことも可能であるが、同時に最適化することも可能であり、その場合、全体の目的関数は、下記の式（５）で表される。

また、ＧＡＮの目的関数である式（３）については、識別器Ｄに対する偽のデータとして生成器Ｇの生成データだけではなく、変換器Ｃの変換データも合わせて使うことができ、その場合は、目的関数は、下記の式（６）のようになる。

なお、生成器Ｇの生成データ、または、変換器Ｃの変換データのいずれかを偽のデータとして用いても良い。

また、式（４）では、距離尺度として二乗距離を用いる例を示したが、これは絶対値距離、ＫＬダイバージェンスなど任意の距離尺度を用いてもよい。

また、ＤＮＮのある層内の特徴量に対して直接距離をとるのではなく、統計量（例えば、ＣＮＮの場合、あるチャンネル内の値の平均や分散など）に対して、距離をとってもよい。

＜＜ＣＮＮを用いた時系列のモデル化＞＞
本発明の実施の形態では、音声に含まれる時間的な構造を表現するために、ＣＮＮを用いてモデル化を行う。

具体的なネットワーク構成を図６に示す。

特に、変換器Ｃについては、ネットワーク全体がＣｏｎｖｏｌｕｔｉｏｎ層で構成されたＦＣＮを用いることで、任意長さの入力に対しても対応できるようにする。

一般的に、音声データの長さは可変であるため、この性質は切れ目のない変換を行うために重要である。

さらに、ＣＮＮの中でも、データ内の構造の多様性に対して対応を行うため、ＧａｔｅｄＣＮＮを用いる。

ＧａｔｅｄＣＮＮはＧＬＵ（ＧａｔｅｄＬｉｎｅａｒＵｎｉｔｓ）と呼ばれる活性化関数を用いており、ネットワーク構成は図７のようになっている。

また、ＧＬＵの処理を式で表すと下記の式（７）のようになる。

ここで、

は、シグモイド関数、

は、行列の要素の積を意味する演算子である。また、Ｗ_ｌ−１、Ｖ_ｌ−１、ｂ_ｌ−１、及びｃ_ｌ−１はモデルのパラメータである。

ＧＬＵでは、入力データの値に応じて活性化関数を制御することができ、これにより、ＮＮの層を重ねて行った時に変換（または、生成、識別）する際に時系列的に重要な情報を選択的に伝播することが可能である。

＜本発明の第１の実施の形態の概要＞
次に、本発明の第１の実施の形態について説明する。本実施形態では、識別的なニューラルネットワークが敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ；ＧＡＮ）の場合（図３（ａ））の場合について説明する。

＜本発明の第１の実施の形態に係るデータ変換装置の構成＞
本発明の第１の実施の形態に係るデータ変換装置の構成について説明する。なお、本発明の第１の実施の形態においては、データ変換装置内に距離測定装置を含む構成を例として説明する。

図８に示すように、本実施形態に係るデータ変換装置１０は、ＣＰＵと、ＲＡＭと、後述する距離測定処理ルーチン及びを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。

図８に示すように、データ変換装置１０は、機能的には、入力部１００と、制御部２００と、出力部３００とを含んで構成される。

入力部１００は、既知のキーボード、マイク、記憶装置などの入力器により実現される。また、入力部１００は、インターネット等のネットワークを介してデータを入力するネットワークインターフェースでも良い。

出力部３００は、ディスプレイ、スピーカー、プリンタ、磁気ディスクなどで実現される。

入力部１００は、変換対象のデータと、変換対象のデータを変換したときの変換データの目標データとを受け付ける。

具体的には、入力部１００は、変換対象のデータ

と、変換対象のデータを変換したときの変換データの目標データ

とを受け付ける。例えば、変換器により音声合成を行う場合には、変換対象のデータは、テキストデータであり、目標データは、音声を録音した音声データである。変換器により音声合成を行う場合には、変換対象のデータは、変換元の音声データであり、目標データは、変換先の音声データである。

制御部２００は、変換部２１０と、特徴抽出部２２０と、ニューラルネットワーク記憶部２３０と、距離測定部２４０と、生成部２５０と、学習部２６０と、変換部２７０とを含んで構成される。

変換部２１０は、入力された変換対象のデータを、変換器Ｃによって変換データに変換する。

具体的には、変換部２１０は、変換対象のデータ

を、ニューラルネットワーク記憶部２３０に記憶された変換器Ｃのニューラルネットワークによって変換データ

に変換する。

特徴抽出部２２０は、変換部２１０によって得られた変換データと、目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する。

具体的には、特徴抽出部２２０は、ニューラルネットワーク記憶部２３０に記憶されている特徴量を抽出するためのニューラルネットワークを用いて、特徴量空間における変換データ

の特徴量

、目標データ

の特徴量

を抽出する。

例えば、変換器Ｃが、変換対象のデータである音声データを、変換データとして音声データ

に変換し、特徴抽出部２２０は、当該音声認識結果と、変換データの目標データとしての音声データ

との各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量

及び

を抽出する。

距離測定部２４０は、特徴抽出部２２０によって抽出された変換データの特徴量と、目標データの特徴量との距離を測定する。

具体的には、距離測定部２４０は、式（４）を用いて、変換データ

の特徴量

と、目標データ

の特徴量

との距離である

を測定する。ここで、

は、識別器Ｄとしてのニューラルネットワークの

番目の層を意味する。

そして、距離測定部２４０は、変換データ

、目標データ

、及び距離の測定結果を学習部２６０に渡す。

生成部２５０は、乱数

から、目標データを生成するための生成器Ｇによって生成データ

を生成する。

そして、生成部２５０は、

を学習部２６０に渡す。

ニューラルネットワーク記憶部２３０は、変換器としてのニューラルネットワークと、識別器としてのニューラルネットワークと、生成器としてのニューラルネットワークを記憶している。

また、ニューラルネットワーク記憶部２３０は、識別器としてのニューラルネットワークに応じて定められる、特徴量を抽出するためのニューラルネットワークを記憶している。

変換器としてのニューラルネットワークと、識別器としてのニューラルネットワークと、生成器としてのニューラルネットワークと、特徴量を抽出するためのニューラルネットワークの各々は、例えばＣＮＮである。また、ＣＮＮは、ＧＬＵを用いるＣＮＮであってもよい。

学習部２６０は、距離測定部２４０によって測定された距離を用いた目的関数を最小化するように、特徴量を抽出するためのニューラルネットワークと、変換器としてのニューラルネットワークと、入力されたデータが目標データであるか否かを識別する識別器としてのニューラルネットワークと、目標データを生成するための生成器としてのニューラルネットワークとを学習する。

具体的には、学習部２６０は、距離測定部２４０によって測定された変換データ

の特徴量

と、目標データ

の特徴量

の距離を示す目的関数

（式（４））を最適化するように、特徴量を抽出するためのニューラルネットワークを学習する。

そして、学習部２６０は、目的関数

（式（６））を用いて、変換器Ｃとしてのニューラルネットワーク、又は目標データを生成するための生成器Ｇとしてのニューラルネットワークと、識別器Ｄとしてのニューラルネットワークとを、変換器Ｃとしてのニューラルネットワーク、又は生成器Ｇとしてのニューラルネットワークと、識別器Ｄとしてのニューラルネットワークとが互いに競合する最適化条件によって学習する。

そして、学習部２６０は、学習された識別器としてのニューラルネットワークに応じて、特徴量を抽出するためのニューラルネットワークを定める。

なお、上記では、目的関数

を最適化する学習と、目的関数

を最適化する学習とを行う場合を例に説明したが、これに限定されるものではなく、

と

との和で表される目的関数

（式（５））を最適化するように、特徴量を抽出するためのニューラルネットワークと、変換器Ｃとしてのニューラルネットワークと、識別器Ｄとしてのニューラルネットワークと、生成器Ｇとしてのニューラルネットワークとをまとめて学習するようにしても良い。

また、特徴量を抽出するためのニューラルネットワークと、識別器Ｄとしてのニューラルネットワークと、生成器Ｇとしてのニューラルネットワークとが学習済みである場合には、距離を示す目的関数

（式（４））のみを最適化するようにして、変換器Ｃとしてのニューラルネットワークを学習しても良い。

また、生成器Ｇとしてのニューラルネットワークの代わりに、変換器Ｃとしてのニューラルネットワークを用いても良い。この場合、

（式（６））は、第一項と第三項とを足し合わせたものを用いることになる。

そして、学習部２６０は、学習結果をニューラルネットワーク記憶部２３０に渡す。

変換部２７０は、学習部２６０によって学習された変換器を用いて、入力された変換対象のデータを変換する。

具体的には、変換部２７０は、変換器Ｃとしてのニューラルネットワークを、ニューラルネットワーク記憶部２３０から取得する。そして、変換部２７０は、変換器Ｃのニューラルネットワークを用いて、変換対象のデータである音声データ

を変換データである音声データ

に変換する。

出力部３００は、変換部２７０が変換した変換結果である変換データ

を出力する。

＜本発明の第１の実施の形態に係るデータ変換装置の作用＞
図９は、本発明の第１の実施の形態に係る学習処理フローを示すフローチャートである。

入力部１００に変換対象のデータ

と、変換対象のデータ

を変換したときの変換データ

の目標データ

とが入力されると、データ変換装置１０において、図９に示す距離測定処理フローが実行される。

まず、ステップＳ１００において、特徴抽出部２２０は、入力部１００から、入力された変換対象のデータ

、及び目標データ

を取得する。

ステップＳ１１０において、変換部２１０は、

を

に変換する。

ステップＳ１２０において、特徴抽出部２２０は、ニューラルネットワーク記憶部２３０から、特徴量を抽出するためのニューラルネットワークを取得する。

ステップＳ１３０において、特徴抽出部２２０は、変換データ

と、目標データ

及び

を抽出する。

ステップＳ１４０において、距離測定部２４０は、特徴抽出部２２０によって抽出された変換データ

の特徴量

と、目標データ

の特徴量

との距離を測定する。

ステップＳ１５０において、生成部２５０は、乱数

から、変換データを生成するための生成器Ｇによって生成データ

を生成する。

ステップＳ１６０において、学習部２６０は、変換データ

の特徴量

と、目標データ

の特徴量

の距離を示す目的関数

（式（４））を最適化するように、変換器Ｃとしてのニューラルネットワークを学習し、ニューラルネットワーク記憶部２３０に記憶されている、変換器Ｃとしてのニューラルネットワークのパラメータを更新する。

そして、学習部２６０は、目的関数

（式（６））を用いて、変換器Ｃとしてのニューラルネットワークと、識別器Ｄとしてのニューラルネットワークと、生成器Ｇとしてのニューラルネットワークとを、変換器Ｃとしてのニューラルネットワークと、識別器Ｄとしてのニューラルネットワークと、生成器Ｇとしてのニューラルネットワークと、が互いに競合する最適化条件によって学習し、ニューラルネットワーク記憶部２３０に記憶されている特徴量を抽出するためのニューラルネットワークと、識別器Ｄとしてのニューラルネットワークと、生成器Ｇとしてのニューラルネットワークの各々のパラメータを更新する。

ステップＳ１７０において、全てのデータについて終了したか否かを判断する。

全てのデータについて終了していない場合（ステップＳ１７０のＮＯ）、ステップＳ１００に戻り、再度ステップＳ１００〜Ｓ１６０の処理を行う。

一方、全てのデータについて終了している場合（ステップＳ１７０のＹＥＳ）、処理を終了する。

図１０は、本発明の第１の実施の形態に係るデータ変換処理フローを示すフローチャートである。

入力部１００に変換対象のデータ

が入力されると、データ変換装置１０において、図１０に示すデータ変換処理フローが実行される。

ステップＳ２００において、変換部２７０は、入力部１００から、入力された変換対象のデータ

を取得する。

ステップＳ２１０において、変換部２７０は、ニューラルネットワーク記憶部２３０から、学習部２６０によって学習された変換器Ｃのニューラルネットワークを取得する。

ステップＳ２２０において、変換部２７０は、変換器Ｃを用いて、入力された変換対象のデータ

を

に変換する。

ステップＳ２３０において、出力部３００は、変換部２７０によってデータ

が変換された変換データ

を出力する。

＜実験結果＞
本実施形態に係るデータ変換装置による音声データの変換の実験結果を、図１１に示す。図１１において、上段がメルケプストラム、下段がＳＴＦＴスペクトログラムを表す。

図１１において、左から、（ａ）入力音声（ＳＲＣ）、（ｂ）変換音声（ＤＴＷによるアライメント処理後）、（ｃ）従来手法（ＦＶＣ：フレーム変換、データ空間内での最小二乗誤差）、（ｄ）提案手法（ＭＳＥ：シークエンス変換、データ空間内での最小二乗誤差）、及び（ｅ）本実施形態の手法（ＬＳＭ：シークエンス変換、識別器の特徴量空間内での最小二乗誤差）における実験結果であることを表す。

なお、本実験では、予め８４２対の変換対象データである入力音声と、変換対象のデータを変換したときの変換データの目標データである変換音声とによって、（ｃ）〜（ｅ）における各手法の変換器を学習している。

図１１から、従来手法（ｃ）では（ａ）、（ｂ）と比べて過剰な平滑化が生じているのに対し、本実施形態の手法（ｅ）では（ａ）、（ｂ）に匹敵するテクスチャを持った音声が得られていることが分かる。

また、主観評価実験の結果を図１２及び図１３に示す。図１２及び図１３は、前者（Ｆｏｒｍｅｒ）を（ｃ）従来手法（ＦＶＣ）又は（ｄ）提案手法（ＭＳＥ）とした場合と、後者（Ｌａｔｔｅｒ）を（ｅ）本実施形態の手法（ＬＳＭ）とした場合とにおいて、どちらが自然な音声かをＡＢテストによって選択してもらった結果である。被験者は、どちらも同じくらいである場合は、中立（Ｎｅｕｔｒａｌ）を選択する。

図１２及び図１３によれば、いずれの結果も後者（Ｌａｔｔｅｒ）であるＬＳＭのスコアが高くなっている。

この結果より本実施形態の手法を用いることによって、自然性と明瞭性という点において従来手法を上回っていることが分かる。そして、変換データの過剰な平滑化を緩和することができたことが分かる。

以上説明したように、本発明の第１の実施の形態に係るデータ変換装置によれば、変換データと目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、抽出された変換データの特徴量と、目標データの特徴量との距離を測定することにより、変換データの過剰な平滑化を緩和することができる。

また、本発明の第１の実施の形態に係るデータ変換装置によれば、距離測定装置によって測定された距離を最小化するように変換器を学習し、入力された変換対象のデータを学習された変換器を用いて変換することにより、変換データの過剰な平滑化を緩和することができる。

＜本発明の第２の実施の形態の概要＞
次に、本発明の第２の実施の形態について説明する。本実施形態では、識別器としてのニューラルネットワークの代わりに、音声認識器としてのニューラルネットワークを用いる場合（図３（ｂ））について説明する。

本実施形態では、入力される変換対象のデータ

は、音声データである。また、第１の実施の形態では、識別器Ｄを用いたが、本実施形態では、入力された音声データに対して音声認識を行う認識器Ｄ_{ｐｈｏｎｅｍｅ}を用いる。

そして、認識器Ｄ_{ｐｈｏｎｅｍｅ}に応じて定まる、特徴量を抽出するためのニューラルネットワークを用いて、音素クラスに対して識別的な性質を持った特徴量空間に、変換データや目標データを変換して、変換器が学習される。そのため、認識器のニューラルネットワークに応じた特徴量空間で学習基準を設定した場合、音素クラスに対して識別的な特徴を考慮して、変換データ

と目標データ

との対応関係を表現することができる。

ここで、認識器Ｄ_{ｐｈｏｎｅｍｅ}としてのニューラルネットワークの目的関数は、下記の式（８）で表される。

式（８）は、ｃｒｏｓｓｅｎｔｒｏｐｙ損失関数であり、Ｋはクラス数、

が正解ラベルである。

また、

がクラスｋについての認識器としてのニューラルネットワークであり、認識器Ｄ_{ｐｈｏｎｅｍｅ}は、

の集合体である。すなわち、

で表すことができる。認識器Ｄ_{ｐｈｏｎｅｍｅ}を学習する場合には、式（８）の最小化を行うことになる。

そこで、本実施の形態では、変換器Ｃによる音声変換後の音声データ

又は学習用データも用いて、認識器Ｄ_{ｐｈｏｎｅｍｅ}としてのニューラルネットワークを学習する際に（式（６）を用いた学習に相当）、下記の式（９）で表される目的関数を用いる。

ここで、

は、変換対象のデータ

に対する音素クラスの正解ラベルである。

＜本発明の第２の実施の形態の構成＞
図８を参照して、本発明の第２の実施の形態に係るデータ変換装置の構成について説明する。なお、第１の実施の形態に係るデータ変換装置１０と同様の構成については、同一の符号を付して詳細な説明は省略する。

また、本実施形態では、変換器Ｃによる音声変換後の音声データ

を用いる構成について説明する。なお、学習用データを用いる場合、入力部１００から変換対象のデータ

と目標データ

とからなる組を複数含む学習用データが入力される。

距離測定部２４５は、特徴抽出部２２０によって抽出された変換データの特徴量と、目標データの特徴量との距離を測定する。

具体的には、距離測定部２４５は、式（４）を用いて、変換データ

の特徴量

と、目標データ

の特徴量

との距離である

を測定する。ここで、

は、認識器Ｄ_{ｐｈｏｎｅｍｅ}としてのニューラルネットワークの

番目の層を意味する。

そして、距離測定部２４０は、変換データ

、目標データ

、及び距離の測定結果を学習部２６０に渡す。

ニューラルネットワーク記憶部２３５は、変換器としてのニューラルネットワークと、認識器としてのニューラルネットワークとを記憶している。

また、ニューラルネットワーク記憶部２３５は、認識器としてのニューラルネットワークに応じて定められる、特徴量を抽出するためのニューラルネットワークを記憶している。

学習部２６５は、距離測定部２４５によって測定された距離を用いた目的関数を最小化するように、特徴量を抽出するためのニューラルネットワークと、変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを学習する。

具体的には、学習部２６５は、距離測定部２４５によって測定された変換データ

の特徴量

と、目標データ

の特徴量

の距離を示す目的関数

そして、学習部２６５は、目的関数

（式（９））を用いて、認識器Ｄ_{ｐｈｏｎｅｍｅ}としてのニューラルネットワークを学習する。

そして、学習部２６５は、学習された識別器としてのニューラルネットワークに応じて、特徴量を抽出するためのニューラルネットワークを定める。

なお、上記では、目的関数

を最適化する学習と、目的関数

と

との和で表される目的関数を最適化するように、特徴量を抽出するためのニューラルネットワークと、変換器Ｃとしてのニューラルネットワークと、認識器Ｄ_{ｐｈｏｎｅｍｅ}としてのニューラルネットワークとをまとめて学習するようにしても良い。

また、認識器Ｄ_{ｐｈｏｎｅｍｅ}としてのニューラルネットワークが学習済みである場合には、距離を示す目的関数

（式（４））のみを最適化するようにして、変換器Ｃとしてのニューラルネットワークとを学習しても良い。

そして、学習部２６５は、学習結果をニューラルネットワーク記憶部２３５に渡す。

なお、第２の実施の形態に係るデータ変換装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第２の実施の形態に係るデータ変換装置によれば、変換データと目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、抽出された変換データの特徴量と、目標データの特徴量との距離を測定することにより、変換データの過剰な平滑化を緩和することができる。

また、本発明の第２の実施の形態に係るデータ変換装置によれば、距離測定装置によって測定された距離を最小化するように変換器を学習し、入力された変換対象のデータを学習された変換器を用いて変換することにより、変換データの過剰な平滑化を緩和することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

上述の実施形態では、距離測定装置をデータ変換装置に含む構成を例として説明したが、別装置として構成してもよい。

第１の実施形態では、音声変換の場合について説明したが、音声合成の場合でも同様の方式が適応可能である。

また、第１の実施形態では、音声データを対象に説明したが、本発明のポイントの１つとして、二つの時系列データがあった場合に、その時系列データの新たな距離の測定方法、時系列的な構造の新たな表現の方法を提案したところにあり、任意の時系列データ（例えば、センサデータ、言語データなど）にも自然に拡張が可能である。

また、時間方向だけではなく、空間方向に構造があるようなデータに対しても構造を捉えた距離測定をすることが可能であり、任意の多次元データ（画像データ、動画データなど）にも自然に拡張が可能である。

また、第２の実施形態では、音声認識のニューラルネットワークを用いる場合を説明したが、任意の認識タスク（話者認識、有声・無声区間の認識など）を対象にしたニューラルネットワークを用いることも可能である。

また、第１の実施の形態における識別器としてのニューラルネットワークを、第２の実施の形態における音声認識器としてのニューラルネットワークとを組み合わせてもよい。この場合の目的関数は、例えば、式（６）と式（８）とを足し合わせた式によって表すことができる。

この場合、本物か偽物かの識別（２クラス識別）と、音声認識（音素クラス識別）の２つのタスクを同時に最適化することができる。なお、他の組み合わせ方、例えば、クラスごとに本物か偽物かを識別する構成とすることも可能である。

また、第１の実施の形態と同様の学習を行った後に、第２の実施の形態と同様の学習を行うようにしても良い。また、これらの学習を交互に繰り返すようにしても良い。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０データ変換装置
１００入力部
２００制御部
２１０変換部
２２０特徴抽出部
２３０ニューラルネットワーク記憶部
２３５ニューラルネットワーク記憶部
２４０距離測定部
２４５距離測定部
２５０生成部
２６０学習部
２６５学習部
２７０変換部
３００出力部

Claims

変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する距離測定部とを含み、
前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、入力されたデータが前記目標データであるか否かを識別する識別器としてのニューラルネットワークとが互いに競合する最適化条件によって学習する態様において、前記最適化条件によって学習することにより得られた前記識別器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる、
距離測定装置。
変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する距離測定部とを含み、
前記変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワークにより変換したデータ、又は学習用データを用いて学習することにより得られた前記認識器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる、
距離測定装置。
前記特徴量を抽出するためのニューラルネットワークは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）である請求項１又は請求項２に記載の距離測定装置。
前記ＣＮＮは、ＧＬＵ（ＧｅｔｅｄＬｉｎｅａｒＵｎｉｔ）を用いる請求項３記載の距離測定装置。
請求項１〜請求項４の何れか１項記載の距離測定装置によって測定された距離を最小化するように前記変換器を学習する学習部と、
変換対象のデータを入力する入力部と、
前記学習部によって学習された変換器を用いて、前記入力された前記変換対象のデータを変換する変換部と
を含むデータ変換装置。
特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、
距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する、処理をコンピュータに実行させ、
前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、入力されたデータが前記目標データであるか否かを識別する識別器としてのニューラルネットワークとが互いに競合する最適化条件によって学習する態様において、前記最適化条件によって学習することにより得られた前記識別器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる、
距離測定方法。
特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、
距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する、処理をコンピュータに実行させ、
前記変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワークにより変換したデータ、又は学習用データを用いて学習することにより得られた前記認識器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる、
距離測定方法。
コンピュータを、請求項１〜請求項４の何れか１項記載の距離測定装置、又は請求項５のデータ変換装置の各部として機能させるためのプログラム。