JP2019035902A - 距離測定装置、データ変換装置、距離測定方法、及びプログラム - Google Patents

距離測定装置、データ変換装置、距離測定方法、及びプログラム Download PDF

Info

Publication number
JP2019035902A
JP2019035902A JP2017158171A JP2017158171A JP2019035902A JP 2019035902 A JP2019035902 A JP 2019035902A JP 2017158171 A JP2017158171 A JP 2017158171A JP 2017158171 A JP2017158171 A JP 2017158171A JP 2019035902 A JP2019035902 A JP 2019035902A
Authority
JP
Japan
Prior art keywords
data
neural network
conversion
converted
converter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017158171A
Other languages
English (en)
Other versions
JP6846310B2 (ja
Inventor
卓弘 金子
Takuhiro Kaneko
卓弘 金子
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
薫 平松
Kaoru Hiramatsu
薫 平松
柏野 邦夫
Kunio Kashino
邦夫 柏野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017158171A priority Critical patent/JP6846310B2/ja
Publication of JP2019035902A publication Critical patent/JP2019035902A/ja
Application granted granted Critical
Publication of JP6846310B2 publication Critical patent/JP6846310B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】変換データの過剰な平滑化を緩和することができるようにする。【解決手段】特徴抽出部220が、変換対象のデータを変換する変換器によって変換された変換データと、当該変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、距離測定部240が、当該特徴抽出部によって抽出された当該変換データの特徴量と、当該目標データの特徴量との距離を測定する。【選択図】図8

Description

本発明は、距離測定装置、データ変換装置、距離測定方法、及びプログラムに関し、特に、データを変換するための距離測定装置、データ変換装置、距離測定方法、及びプログラムに関する。
テキストを音声信号に自動変換する技術を音声合成、音声信号Aを音声信号Bに自動変換する技術を音声変換と呼ぶが(図1参照)、これらは二つのデータ間の対応関係を表す関数を学習する一種の回帰(機械学習)問題である。
このような関数をデータドリブンに学習するためには、変換データ

(変換元データ

を変換器Cによって変換したデータ)と目標データ

(教師データ)との対応関係に対して適切な距離基準を設定し学習することが必要になる。
音声合成、音声変換の主要な手法としては、データ分布に対してガウシアン分布を仮定するHMM(Hidden Markov Model)を用いた手法(非特許文献1)や、GMM(Gaussian Mixture Model)を用いた手法(非特許文献2)がある。
また、近年、二つのデータ間の複雑な対応関係を表す手法として、ニューラルネットワーク(Neural Network;NN)を用いた手法が、音声変換及び音声合成でそれぞれ提案されている(非特許文献3及び4)。
特開2016−91051号公報
Takayoshi Yoshimura, Keiichi Tokuda, Takashi Masuko, Takao Kobayashi, Tadashi Kitamura, "Si- multaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis," 1999. Tomoki Toda, Alan W Black, Keiichi Tokuda, "Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory," 2007. Seyed Hamidreza Mohammadi, Alexander Kain, "Voice conversion using deep neural networks with speaker-independent pre-training," 2014. Heiga Zen, Andrew Senior, Mike Schuster, "Statistical paramet- ric speech synthesis using deep neural networks," 2013.
しかしながら、上記の従来技術では、データ空間またはローレベルな(ハンドクラフトな)特徴量空間で変換データと教師データの距離(二乗距離、KLダイバージェンスなど)を測定し、その距離が最小となるように最適化しているため統計的な平均化の影響を受けやすく、過剰に平滑化された音声が生成されやすい、という問題があった。
例えば、非特許文献1及び2の手法では、いずれもデータ分布に対して陽に分布形状を仮定しているため、統計的な平均化が生じ、過剰に平滑化された音を生成しやすい、という問題があった。
また、非特許文献3及び4の手法では、いずれも学習する際に、データ空間内での距離(二乗距離など)を測定して最適化が行われており、先と同様に、統計的な平均化が生じ、過剰に平滑化された音を生成しやすい、という問題があった。
本発明はこの課題に鑑みてなされたものであり、過剰な平滑化を抑制したデータに変換するための距離を測定することができる距離測定装置、距離測定方法、及びプログラムを提供することを目的とする。
また、過剰な平滑化を抑制したデータに変換することができるデータ変換装置及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る距離測定装置は、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する特徴抽出部と、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する距離測定部とを含んで構成されている。
本発明に係る距離測定方法は、特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する。
本発明に係る距離測定装置及び距離測定方法によれば、特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する。
このように、変換データと目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、抽出された変換データの特徴量と、目標データの特徴量との距離を測定することにより、過剰な平滑化を抑制したデータに変換するための距離を測定することができる。
また、本発明に係る距離測定装置は、前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、入力されたデータが前記目標データであるか否かを識別する識別器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが互いに競合する最適化条件によって学習することにより得られた前記識別器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められるように構成することができる。
また、本発明に係る距離測定装置は、前記変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワークにより変換したデータ、又は学習用データを用いて学習することにより得られた前記認識器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められるように構成することができる。
また、本発明に係る距離測定装置は、前記特徴量を抽出するためのニューラルネットワークは、CNN(Convolutional Neural Network)であるように構成することができる。
また、本発明に係る距離測定装置は、前記CNNは、GLU(Geted Linear Unit)を用いるように構成することができる。
本発明に係るデータ変換装置は、上記の距離測定装置によって測定された距離を最小化するように前記変換器を学習する学習部と、変換対象のデータを入力する入力部と、前記学習部によって学習された変換器を用いて、前記入力された前記変換対象のデータを変換する変換部とを含んで構成される。
本発明に係るデータ変換装置によれば、学習部が、上記の距離測定装置によって測定された距離を最小化するように前記変換器を学習し、入力部が、変換対象のデータを入力し、変換部が、前記学習部によって学習された変換器を用いて、前記入力された前記変換対象のデータを変換する。
このように、距離測定装置によって測定された距離を最小化するように変換器を学習し、入力された変換対象のデータを学習された変換器を用いて変換することにより、過剰な平滑化を抑制したデータに変換することができる。
本発明に係るプログラムは、上記の距離測定装置又はデータ変換装置の各部として機能させるためのプログラムである。
本発明の距離測定装置、距離測定方法、及びプログラムによれば、過剰な平滑化を抑制したデータに変換するための距離を測定することができる。
また、本発明のデータ変換装置及びプログラムによれば、過剰な平滑化を抑制したデータに変換することができる。
従来の学習手法の例を表す図である。 既存手法と本実施形態の差異を表すイメージ図である。 GAN、音声認識ネットワークを用いた場合のイメージ図である。 従来手法(フレームごとに変換)と本発明の実施の形態(シークエンスごとに変換)との差異について示したイメージ図である。 本発明の実施の形態におけるGANのネットワーク構成を示した図である。 本発明の実施の形態におけるCNNのネットワーク構成を示した図である。 本発明の実施の形態におけるGLUのネットワーク構成を示した図である。 本発明の実施の形態に係るデータ変換装置の構成を示す概略図である。 本発明の実施の形態に係るデータ変換装置の学習処理フローを示すフローチャートである。 本発明の実施の形態に係るデータ変換装置の変換処理フローを示すフローチャートである。 本発明の実施の形態に係る実験結果を示す図である。 本発明の実施の形態に係る主観的評価結果を示す図である。 本発明の実施の形態に係る主観的評価結果を示す図である。
以下、本発明の実施の形態について図面を用いて説明する。
<本発明の実施の形態に係るデータ変換装置の原理>
まず、本発明の実施の形態に係るデータ変換装置の原理について説明する。
<<ニューラルネットワークの特徴量空間で距離を測定>>
従来技術では、データ空間またはローレベルな(ハンドクラフトな)特徴量空間で変換データ

と目標データ

の距離を測定していた(図2(a))が、本実施形態ではNNの特徴量空間



はNNの層のインデックス)(図2(b))で距離の測定を行う。
NNではあるタスクに対して有用な特徴量空間を自動的に学習することが可能であり、この特徴量空間では、入力データに対してよりハイレベルな(セマンティックな)構造を表現することが可能である。
この性質を利用することにより、音声信号に対してよりハイレベルな(セマンティックな)構造を考慮して変換データ

と目標データ

の対応関係をみることができる。
これにより、データ空間で生じていた過剰な平滑化の問題を緩和することが可能である。
特に上記NNが識別的なNNの場合、あるタスクに対して識別的な性質を持った特徴量空間が学習される。
そのため、このNNの特徴量空間で学習基準を設定した場合、そのタスクに識別的な特徴を考慮して、変換データ

と目標データ

の対応関係を表現することができる。
具体的には、上記識別的なNNが敵対的生成ネットワーク(Generative Adversarial Network;GAN)の場合(図3(a))、リアリティがあるかないかということに対して識別的な性質を持った特徴量空間が学習される。
そのため、GANの特徴量空間で学習基準を設定した場合、リアリティがあるかないかということに対して識別的な特徴を考慮して、変換データ

と目標データ

の対応関係を表現することができる。
また、上記識別的なNNが音声認識を行うNNの場合(図3(b))、音素クラスに対して識別的な性質を持った特徴量空間が学習される。
そのため、音声認識のNNの特徴量空間で学習基準を設定した場合、音素クラスに対して識別的な特徴を考慮して、変換データ

と目標データ

の対応関係を表現することができる。
<<Convolutional Neural Network(CNN)による時間的な構造のモデル化>>
本実施形態では、学習をする際にCNNを用いることで、音声信号に含まれる時間的な構造を考慮してモデル化を行う。
図4に従来手法(フレームごとに変換)と本実施形態(シークエンスごとに変換)との差異について示す。
従来手法(図4(a)Conventional Frame−by−Frame Voice Conversion)では、変換データ

と目標データ

の対応関係をみる際にフレーム(Frame)同士の関係に限定されていたため、時間的な整合性を考慮することが難しかった。
すなわち、学習する際にフレームごとに対応関係を学習するため、音声信号に含まれる時間的な構造を考慮できなかった。特に、音声変換の場合は、前処理としてDynamic Time Wrapping(DTW)などを用いて変換元データ

と目標データ

のアライメントをとることが一般的であるが、フレームごとにのみ着目し対応関係を学習した場合、このアライメントのミスの影響を受けやすい。
本実施形態(図4(b)Proposed Sequence−to−Sequence Voice Conversion)では、シークエンス(Sequence:複数フレームの連なり)に対して対応関係をみるため時間的に整合性のある音声が得ることが可能である。
特に、音声変換の場合は、あるフレームにおいてアライメントのミスが生じていたとしても、隣接するフレームの情報を補完的に用いることによって影響を緩和することが可能である。
特に、上記CNNをFully Convolutional Neural Networks(FCN)で構成した場合、任意の長さのデータを入力として受け取ることが可能である。
一般に音声の長さは可変であるが、FCNのこの性質により様々な長さの音声データに対して繋ぎ目なく変換することが可能である。
本実施の形態では、音声変換の場合について説明するが、音声合成の場合でも同様の方式が適応可能である。音声合成と音声変換は、前者は入力がテキストで出力が音声、後者は入力が音声で出力が音声と入出力が異なるが、いずれも二つの時系列データ間の対応関係をみる問題であり、同様の枠組みとして捉えることが可能である。
<<基本方式>>
従来手法(図2(a))ではフレームごとに対応関係を見ていたため時間的に整合性がとれた変換を行うことが難しかった。
これに対して、本実施形態(図2(b))ではシークエンスごとに対応関係を見ており、これにより時間的に整合性のとれた変換が可能である。
フレーム数Tに対して、入力データ系列を

、出力データ系列を

とすると、この二つの対応関係を表す最適な関数Cを得るためには、下記の式(1)の目的関数を最小化すれば良い。
ここで、

は、二つのデータ間の類似性を表す関数である。
従来手法では、下記の式(2)にあるように、データ空間に対して最小二乗誤差を用いていたが、この基準は、データ間の微小なずれに対して敏感な誤差基準であり、統計的に平均化され過剰に平滑化され、バジー感のある音声を生成しやすいという課題があった。
この課題を解決するために、本実施形態では、二つのデータ間の類似性をデータ空間内で直接測るのではなく、距離を測るためのNNを導入し、その特徴量空間内で距離を測ることを提案する。
NN内では、入力データに対してよりハイレベルな(セマンティックな)構造を表現することが可能であり、この性質を利用することによって、音声信号に対してよりハイレベルな(セマンティックな)構造を考慮して、二つのデータの対応関係を見ることができる。
<<GANを用いた距離関数の学習>>
NNの形式に捉われないものであるが、ここでは、NNの中でも識別的なタスクのためのNN、特に、真のデータか生成されたデータかを識別するGANに対して適用した場合について説明する。
同様の手法は、音声認識のネットワークに対しても適用することが可能であり、GANと音声認識のネットワークを組み合わせたりすることも可能である。GANと音声認識ののネットワークを組み合わせた場合、本物か偽物かの識別(2クラス識別)と、音声認識(音素クラス識別)の2つのタスクを同時に最適化することができる。
GANは、乱数

からデータを生成する生成器

と、真のデータ

が与えられた時は確率

を出力し、生成された(偽の)データ

が与えられた時は、確率

を出力する識別器

との二つのネットワークから構成される。
つまり、識別器では



に対して真のデータが生成されたデータかの識別を行う。
目的関数は下記の式(3)で表せられる。
式(3)の目的関数を識別器については最大化、生成器に対しては最小化するという敵対的な(Min−Max)の条件で最適化を行うことにより、生成器は識別器を騙せるようなデータを生成できるように最適化され、識別器は生成器に騙されないように最適化される。
この結果、生成データの分布

を真のデータ分布

に近づけることが可能である。
本発明の実施の形態では、GANの識別器中の特徴量空間内で、二つのデータ間の距離を測定することを提案する。
図5に、本発明の実施の形態におけるGANのネットワークの構成、入出力関係を表す。
図5において、

が生成器、

が識別器、

が変換器、

が真のデータ(図5のReal Data)である。
識別器中の特徴量空間内で、距離を測定した場合、式(1)は、下記の式(4)で表される。
ここで、

は識別器の

番目の層の特徴量空間で距離を測ることを指す。
ここでは、ある一層で距離を測ることを示しているが、複数の層で同時に距離を測っても良い。
式(3)及び式(4)は別々に最適化を行うことも可能であるが、同時に最適化することも可能であり、その場合、全体の目的関数は、下記の式(5)で表される。
また、GANの目的関数である式(3)については、識別器Dに対する偽のデータとして生成器Gの生成データだけではなく、変換器Cの変換データも合わせて使うことができ、その場合は、目的関数は、下記の式(6)のようになる。
なお、生成器Gの生成データ、または、変換器Cの変換データのいずれかを偽のデータとして用いても良い。
また、式(4)では、距離尺度として二乗距離を用いる例を示したが、これは絶対値距離、KLダイバージェンスなど任意の距離尺度を用いてもよい。
また、DNNのある層内の特徴量に対して直接距離をとるのではなく、統計量(例えば、CNNの場合、あるチャンネル内の値の平均や分散など)に対して、距離をとってもよい。
<<CNNを用いた時系列のモデル化>>
本発明の実施の形態では、音声に含まれる時間的な構造を表現するために、CNNを用いてモデル化を行う。
具体的なネットワーク構成を図6に示す。
特に、変換器Cについては、ネットワーク全体がConvolution層で構成されたFCNを用いることで、任意長さの入力に対しても対応できるようにする。
一般的に、音声データの長さは可変であるため、この性質は切れ目のない変換を行うために重要である。
さらに、CNNの中でも、データ内の構造の多様性に対して対応を行うため、GatedCNNを用いる。
GatedCNNはGLU(Gated Linear Units)と呼ばれる活性化関数を用いており、ネットワーク構成は図7のようになっている。
また、GLUの処理を式で表すと下記の式(7)のようになる。
ここで、

は、シグモイド関数、

は、行列の要素の積を意味する演算子である。また、Wl−1、Vl−1、bl−1、及びcl−1はモデルのパラメータである。
GLUでは、入力データの値に応じて活性化関数を制御することができ、これにより、NNの層を重ねて行った時に変換(または、生成、識別)する際に時系列的に重要な情報を選択的に伝播することが可能である。
<本発明の第1の実施の形態の概要>
次に、本発明の第1の実施の形態について説明する。本実施形態では、識別的なニューラルネットワークが敵対的生成ネットワーク(Generative Adversarial Network;GAN)の場合(図3(a))の場合について説明する。
<本発明の第1の実施の形態に係るデータ変換装置の構成>
本発明の第1の実施の形態に係るデータ変換装置の構成について説明する。なお、本発明の第1の実施の形態においては、データ変換装置内に距離測定装置を含む構成を例として説明する。
図8に示すように、本実施形態に係るデータ変換装置10は、CPUと、RAMと、後述する距離測定処理ルーチン及びを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。
図8に示すように、データ変換装置10は、機能的には、入力部100と、制御部200と、出力部300とを含んで構成される。
入力部100は、既知のキーボード、マイク、記憶装置などの入力器により実現される。また、入力部100は、インターネット等のネットワークを介してデータを入力するネットワークインターフェースでも良い。
出力部300は、ディスプレイ、スピーカー、プリンタ、磁気ディスクなどで実現される。
入力部100は、変換対象のデータと、変換対象のデータを変換したときの変換データの目標データとを受け付ける。
具体的には、入力部100は、変換対象のデータ

と、変換対象のデータを変換したときの変換データの目標データ

とを受け付ける。例えば、変換器により音声合成を行う場合には、変換対象のデータは、テキストデータであり、目標データは、音声を録音した音声データである。変換器により音声合成を行う場合には、変換対象のデータは、変換元の音声データであり、目標データは、変換先の音声データである。
制御部200は、変換部210と、特徴抽出部220と、ニューラルネットワーク記憶部230と、距離測定部240と、生成部250と、学習部260と、変換部270とを含んで構成される。
変換部210は、入力された変換対象のデータを、変換器Cによって変換データに変換する。
具体的には、変換部210は、変換対象のデータ

を、ニューラルネットワーク記憶部230に記憶された変換器Cのニューラルネットワークによって変換データ

に変換する。
特徴抽出部220は、変換部210によって得られた変換データと、目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する。
具体的には、特徴抽出部220は、ニューラルネットワーク記憶部230に記憶されている特徴量を抽出するためのニューラルネットワークを用いて、特徴量空間における変換データ

の特徴量

、目標データ

の特徴量

を抽出する。
例えば、変換器Cが、変換対象のデータである音声データを、変換データとして音声データ

に変換し、特徴抽出部220は、当該音声認識結果と、変換データの目標データとしての音声データ

との各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量

及び

を抽出する。
距離測定部240は、特徴抽出部220によって抽出された変換データの特徴量と、目標データの特徴量との距離を測定する。
具体的には、距離測定部240は、式(4)を用いて、変換データ

の特徴量

と、目標データ

の特徴量

との距離である

を測定する。ここで、

は、識別器Dとしてのニューラルネットワークの

番目の層を意味する。
そして、距離測定部240は、変換データ

、目標データ

、及び距離の測定結果を学習部260に渡す。
生成部250は、乱数

から、目標データを生成するための生成器Gによって生成データ

を生成する。
そして、生成部250は、

を学習部260に渡す。
ニューラルネットワーク記憶部230は、変換器としてのニューラルネットワークと、識別器としてのニューラルネットワークと、生成器としてのニューラルネットワークを記憶している。
また、ニューラルネットワーク記憶部230は、識別器としてのニューラルネットワークに応じて定められる、特徴量を抽出するためのニューラルネットワークを記憶している。
変換器としてのニューラルネットワークと、識別器としてのニューラルネットワークと、生成器としてのニューラルネットワークと、特徴量を抽出するためのニューラルネットワークの各々は、例えばCNNである。また、CNNは、GLUを用いるCNNであってもよい。
学習部260は、距離測定部240によって測定された距離を用いた目的関数を最小化するように、特徴量を抽出するためのニューラルネットワークと、変換器としてのニューラルネットワークと、入力されたデータが目標データであるか否かを識別する識別器としてのニューラルネットワークと、目標データを生成するための生成器としてのニューラルネットワークとを学習する。
具体的には、学習部260は、距離測定部240によって測定された変換データ

の特徴量

と、目標データ

の特徴量

の距離を示す目的関数

(式(4))を最適化するように、特徴量を抽出するためのニューラルネットワークを学習する。
そして、学習部260は、目的関数

(式(6))を用いて、変換器Cとしてのニューラルネットワーク、又は目標データを生成するための生成器Gとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークとを、変換器Cとしてのニューラルネットワーク、又は生成器Gとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークとが互いに競合する最適化条件によって学習する。
そして、学習部260は、学習された識別器としてのニューラルネットワークに応じて、特徴量を抽出するためのニューラルネットワークを定める。
なお、上記では、目的関数

を最適化する学習と、目的関数

を最適化する学習とを行う場合を例に説明したが、これに限定されるものではなく、



との和で表される目的関数

(式(5))を最適化するように、特徴量を抽出するためのニューラルネットワークと、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークとをまとめて学習するようにしても良い。
また、特徴量を抽出するためのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークとが学習済みである場合には、距離を示す目的関数

(式(4))のみを最適化するようにして、変換器Cとしてのニューラルネットワークを学習しても良い。
また、生成器Gとしてのニューラルネットワークの代わりに、変換器Cとしてのニューラルネットワークを用いても良い。この場合、

(式(6))は、第一項と第三項とを足し合わせたものを用いることになる。
そして、学習部260は、学習結果をニューラルネットワーク記憶部230に渡す。
変換部270は、学習部260によって学習された変換器を用いて、入力された変換対象のデータを変換する。
具体的には、変換部270は、変換器Cとしてのニューラルネットワークを、ニューラルネットワーク記憶部230から取得する。そして、変換部270は、変換器Cのニューラルネットワークを用いて、変換対象のデータである音声データ

を変換データである音声データ

に変換する。
出力部300は、変換部270が変換した変換結果である変換データ

を出力する。
<本発明の第1の実施の形態に係るデータ変換装置の作用>
図9は、本発明の第1の実施の形態に係る学習処理フローを示すフローチャートである。
入力部100に変換対象のデータ

と、変換対象のデータ

を変換したときの変換データ

の目標データ

とが入力されると、データ変換装置10において、図9に示す距離測定処理フローが実行される。
まず、ステップS100において、特徴抽出部220は、入力部100から、入力された変換対象のデータ

、及び目標データ

を取得する。
ステップS110において、変換部210は、



に変換する。
ステップS120において、特徴抽出部220は、ニューラルネットワーク記憶部230から、特徴量を抽出するためのニューラルネットワークを取得する。
ステップS130において、特徴抽出部220は、変換データ

と、目標データ

との各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量

及び

を抽出する。
ステップS140において、距離測定部240は、特徴抽出部220によって抽出された変換データ

の特徴量

と、目標データ

の特徴量

との距離を測定する。
ステップS150において、生成部250は、乱数

から、変換データを生成するための生成器Gによって生成データ

を生成する。
ステップS160において、学習部260は、変換データ

の特徴量

と、目標データ

の特徴量

の距離を示す目的関数

(式(4))を最適化するように、変換器Cとしてのニューラルネットワークを学習し、ニューラルネットワーク記憶部230に記憶されている、変換器Cとしてのニューラルネットワークのパラメータを更新する。
そして、学習部260は、目的関数

(式(6))を用いて、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークとを、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークと、が互いに競合する最適化条件によって学習し、ニューラルネットワーク記憶部230に記憶されている特徴量を抽出するためのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークの各々のパラメータを更新する。
ステップS170において、全てのデータについて終了したか否かを判断する。
全てのデータについて終了していない場合(ステップS170のNO)、ステップS100に戻り、再度ステップS100〜S160の処理を行う。
一方、全てのデータについて終了している場合(ステップS170のYES)、処理を終了する。
図10は、本発明の第1の実施の形態に係るデータ変換処理フローを示すフローチャートである。
入力部100に変換対象のデータ

が入力されると、データ変換装置10において、図10に示すデータ変換処理フローが実行される。
ステップS200において、変換部270は、入力部100から、入力された変換対象のデータ

を取得する。
ステップS210において、変換部270は、ニューラルネットワーク記憶部230から、学習部260によって学習された変換器Cのニューラルネットワークを取得する。
ステップS220において、変換部270は、変換器Cを用いて、入力された変換対象のデータ



に変換する。
ステップS230において、出力部300は、変換部270によってデータ

が変換された変換データ

を出力する。
<実験結果>
本実施形態に係るデータ変換装置による音声データの変換の実験結果を、図11に示す。図11において、上段がメルケプストラム、下段がSTFTスペクトログラムを表す。
図11において、左から、(a)入力音声(SRC)、(b)変換音声(DTWによるアライメント処理後)、(c)従来手法(FVC:フレーム変換、データ空間内での最小二乗誤差)、(d)提案手法(MSE:シークエンス変換、データ空間内での最小二乗誤差)、及び(e)本実施形態の手法(LSM:シークエンス変換、識別器の特徴量空間内での最小二乗誤差)における実験結果であることを表す。
なお、本実験では、予め842対の変換対象データである入力音声と、変換対象のデータを変換したときの変換データの目標データである変換音声とによって、(c)〜(e)における各手法の変換器を学習している。
図11から、従来手法(c)では(a)、(b)と比べて過剰な平滑化が生じているのに対し、本実施形態の手法(e)では(a)、(b)に匹敵するテクスチャを持った音声が得られていることが分かる。
また、主観評価実験の結果を図12及び図13に示す。図12及び図13は、前者(Former)を(c)従来手法(FVC)又は(d)提案手法(MSE)とした場合と、後者(Latter)を(e)本実施形態の手法(LSM)とした場合とにおいて、どちらが自然な音声かをABテストによって選択してもらった結果である。被験者は、どちらも同じくらいである場合は、中立(Neutral)を選択する。
図12及び図13によれば、いずれの結果も後者(Latter)であるLSMのスコアが高くなっている。
この結果より本実施形態の手法を用いることによって、自然性と明瞭性という点において従来手法を上回っていることが分かる。そして、変換データの過剰な平滑化を緩和することができたことが分かる。
以上説明したように、本発明の第1の実施の形態に係るデータ変換装置によれば、変換データと目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、抽出された変換データの特徴量と、目標データの特徴量との距離を測定することにより、変換データの過剰な平滑化を緩和することができる。
また、本発明の第1の実施の形態に係るデータ変換装置によれば、距離測定装置によって測定された距離を最小化するように変換器を学習し、入力された変換対象のデータを学習された変換器を用いて変換することにより、変換データの過剰な平滑化を緩和することができる。
<本発明の第2の実施の形態の概要>
次に、本発明の第2の実施の形態について説明する。本実施形態では、識別器としてのニューラルネットワークの代わりに、音声認識器としてのニューラルネットワークを用いる場合(図3(b))について説明する。
本実施形態では、入力される変換対象のデータ

は、音声データである。また、第1の実施の形態では、識別器Dを用いたが、本実施形態では、入力された音声データに対して音声認識を行う認識器Dphonemeを用いる。
そして、認識器Dphonemeに応じて定まる、特徴量を抽出するためのニューラルネットワークを用いて、音素クラスに対して識別的な性質を持った特徴量空間に、変換データや目標データを変換して、変換器が学習される。そのため、認識器のニューラルネットワークに応じた特徴量空間で学習基準を設定した場合、音素クラスに対して識別的な特徴を考慮して、変換データ

と目標データ

との対応関係を表現することができる。
ここで、認識器Dphonemeとしてのニューラルネットワークの目的関数は、下記の式(8)で表される。
式(8)は、cross entropy損失関数であり、Kはクラス数、

が正解ラベルである。
また、

がクラスkについての認識器としてのニューラルネットワークであり、認識器Dphonemeは、

の集合体である。すなわち、

で表すことができる。認識器Dphonemeを学習する場合には、式(8)の最小化を行うことになる。
そこで、本実施の形態では、変換器Cによる音声変換後の音声データ

又は学習用データも用いて、認識器Dphonemeとしてのニューラルネットワークを学習する際に(式(6)を用いた学習に相当)、下記の式(9)で表される目的関数を用いる。
ここで、

は、変換対象のデータ

に対する音素クラスの正解ラベルである。
<本発明の第2の実施の形態の構成>
図8を参照して、本発明の第2の実施の形態に係るデータ変換装置の構成について説明する。なお、第1の実施の形態に係るデータ変換装置10と同様の構成については、同一の符号を付して詳細な説明は省略する。
また、本実施形態では、変換器Cによる音声変換後の音声データ

を用いる構成について説明する。なお、学習用データを用いる場合、入力部100から変換対象のデータ

と目標データ

とからなる組を複数含む学習用データが入力される。
距離測定部245は、特徴抽出部220によって抽出された変換データの特徴量と、目標データの特徴量との距離を測定する。
具体的には、距離測定部245は、式(4)を用いて、変換データ

の特徴量

と、目標データ

の特徴量

との距離である

を測定する。ここで、

は、認識器Dphonemeとしてのニューラルネットワークの

番目の層を意味する。
そして、距離測定部240は、変換データ

、目標データ

、及び距離の測定結果を学習部260に渡す。
ニューラルネットワーク記憶部235は、変換器としてのニューラルネットワークと、認識器としてのニューラルネットワークとを記憶している。
また、ニューラルネットワーク記憶部235は、認識器としてのニューラルネットワークに応じて定められる、特徴量を抽出するためのニューラルネットワークを記憶している。
学習部265は、距離測定部245によって測定された距離を用いた目的関数を最小化するように、特徴量を抽出するためのニューラルネットワークと、変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを学習する。
具体的には、学習部265は、距離測定部245によって測定された変換データ

の特徴量

と、目標データ

の特徴量

の距離を示す目的関数

(式(4))を最適化するように、特徴量を抽出するためのニューラルネットワークを学習する。
そして、学習部265は、目的関数

(式(9))を用いて、認識器Dphonemeとしてのニューラルネットワークを学習する。
そして、学習部265は、学習された識別器としてのニューラルネットワークに応じて、特徴量を抽出するためのニューラルネットワークを定める。
なお、上記では、目的関数

を最適化する学習と、目的関数

を最適化する学習とを行う場合を例に説明したが、これに限定されるものではなく、



との和で表される目的関数を最適化するように、特徴量を抽出するためのニューラルネットワークと、変換器Cとしてのニューラルネットワークと、認識器Dphonemeとしてのニューラルネットワークとをまとめて学習するようにしても良い。
また、認識器Dphonemeとしてのニューラルネットワークが学習済みである場合には、距離を示す目的関数

(式(4))のみを最適化するようにして、変換器Cとしてのニューラルネットワークとを学習しても良い。
そして、学習部265は、学習結果をニューラルネットワーク記憶部235に渡す。
なお、第2の実施の形態に係るデータ変換装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第2の実施の形態に係るデータ変換装置によれば、変換データと目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、抽出された変換データの特徴量と、目標データの特徴量との距離を測定することにより、変換データの過剰な平滑化を緩和することができる。
また、本発明の第2の実施の形態に係るデータ変換装置によれば、距離測定装置によって測定された距離を最小化するように変換器を学習し、入力された変換対象のデータを学習された変換器を用いて変換することにより、変換データの過剰な平滑化を緩和することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
上述の実施形態では、距離測定装置をデータ変換装置に含む構成を例として説明したが、別装置として構成してもよい。
第1の実施形態では、音声変換の場合について説明したが、音声合成の場合でも同様の方式が適応可能である。
また、第1の実施形態では、音声データを対象に説明したが、本発明のポイントの1つとして、二つの時系列データがあった場合に、その時系列データの新たな距離の測定方法、時系列的な構造の新たな表現の方法を提案したところにあり、任意の時系列データ(例えば、センサデータ、言語データなど)にも自然に拡張が可能である。
また、時間方向だけではなく、空間方向に構造があるようなデータに対しても構造を捉えた距離測定をすることが可能であり、任意の多次元データ(画像データ、動画データなど)にも自然に拡張が可能である。
また、第2の実施形態では、音声認識のニューラルネットワークを用いる場合を説明したが、任意の認識タスク(話者認識、有声・無声区間の認識など)を対象にしたニューラルネットワークを用いることも可能である。
また、第1の実施の形態における識別器としてのニューラルネットワークを、第2の実施の形態における音声認識器としてのニューラルネットワークとを組み合わせてもよい。この場合の目的関数は、例えば、式(6)と式(8)とを足し合わせた式によって表すことができる。
この場合、本物か偽物かの識別(2クラス識別)と、音声認識(音素クラス識別)の2つのタスクを同時に最適化することができる。なお、他の組み合わせ方、例えば、クラスごとに本物か偽物かを識別する構成とすることも可能である。
また、第1の実施の形態と同様の学習を行った後に、第2の実施の形態と同様の学習を行うようにしても良い。また、これらの学習を交互に繰り返すようにしても良い。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 データ変換装置
100 入力部
200 制御部
210 変換部
220 特徴抽出部
230 ニューラルネットワーク記憶部
235 ニューラルネットワーク記憶部
240 距離測定部
245 距離測定部
250 生成部
260 学習部
265 学習部
270 変換部
300 出力部

Claims (8)

  1. 変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する特徴抽出部と、
    前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する距離測定部と
    を含む距離測定装置。
  2. 前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、入力されたデータが前記目標データであるか否かを識別する識別器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが互いに競合する最適化条件によって学習することにより得られた前記識別器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる
    請求項1に記載の距離測定装置。
  3. 前記変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワークにより変換したデータ、又は学習用データを用いて学習することにより得られた前記認識器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる
    請求項1又は2に記載の距離測定装置。
  4. 前記特徴量を抽出するためのニューラルネットワークは、CNN(Convolutional Neural Network)である請求項1乃至請求項3の何れか1項記載の距離測定装置。
  5. 前記CNNは、GLU(Geted Linear Unit)を用いる請求項4記載の距離測定装置。
  6. 請求項1〜請求項5の何れか1項記載の距離測定装置によって測定された距離を最小化するように前記変換器を学習する学習部と、
    変換対象のデータを入力する入力部と、
    前記学習部によって学習された変換器を用いて、前記入力された前記変換対象のデータを変換する変換部と
    を含むデータ変換装置。
  7. 特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、
    距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する
    距離測定方法。
  8. コンピュータを、請求項1乃至請求項5の何れか1項記載の距離測定装置、又は請求項6のデータ変換装置の各部として機能させるためのプログラム。
JP2017158171A 2017-08-18 2017-08-18 距離測定装置、データ変換装置、距離測定方法、及びプログラム Active JP6846310B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017158171A JP6846310B2 (ja) 2017-08-18 2017-08-18 距離測定装置、データ変換装置、距離測定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017158171A JP6846310B2 (ja) 2017-08-18 2017-08-18 距離測定装置、データ変換装置、距離測定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019035902A true JP2019035902A (ja) 2019-03-07
JP6846310B2 JP6846310B2 (ja) 2021-03-24

Family

ID=65637330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017158171A Active JP6846310B2 (ja) 2017-08-18 2017-08-18 距離測定装置、データ変換装置、距離測定方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6846310B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021033129A (ja) * 2019-08-27 2021-03-01 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
US11868430B2 (en) 2021-03-17 2024-01-09 Kabushiki Kaisha Toshiba Image processing device, method, and storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0415694A (ja) * 1990-05-09 1992-01-21 Sekisui Chem Co Ltd 単語認識システム
JPH1185194A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP2003029776A (ja) * 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2008216488A (ja) * 2007-03-01 2008-09-18 Univ Waseda 音声処理装置及び音声認識装置
JP2015197702A (ja) * 2014-03-31 2015-11-09 キヤノン株式会社 情報処理装置、情報処理方法
WO2017091883A1 (en) * 2015-12-01 2017-06-08 Tandemlaunch Inc. System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0415694A (ja) * 1990-05-09 1992-01-21 Sekisui Chem Co Ltd 単語認識システム
JPH1185194A (ja) * 1997-09-04 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 声質変換音声合成装置
JP2003029776A (ja) * 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2008216488A (ja) * 2007-03-01 2008-09-18 Univ Waseda 音声処理装置及び音声認識装置
JP2015197702A (ja) * 2014-03-31 2015-11-09 キヤノン株式会社 情報処理装置、情報処理方法
WO2017091883A1 (en) * 2015-12-01 2017-06-08 Tandemlaunch Inc. System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小山田圭佑他: "無矛盾逐次変換ネットワークと敵対的生成ネットワークを用いた非母語話者音声変換", 電子情報通信学会技術研究報告, vol. 116, no. 477, JPN6019043036, March 2017 (2017-03-01), pages 315 - 320, ISSN: 0004394901 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021033129A (ja) * 2019-08-27 2021-03-01 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
US11868430B2 (en) 2021-03-17 2024-01-09 Kabushiki Kaisha Toshiba Image processing device, method, and storage medium

Also Published As

Publication number Publication date
JP6846310B2 (ja) 2021-03-24

Similar Documents

Publication Publication Date Title
Mehrish et al. A review of deep learning techniques for speech processing
Kim et al. Real-time emotion detection system using speech: Multi-modal fusion of different timescale features
Mencattini et al. Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure
JP5059115B2 (ja) 音声キーワードの特定方法、装置及び音声識別システム
Szep et al. Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion.
Taylor et al. Audio-to-visual speech conversion using deep neural networks
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
Silva et al. Exploring convolutional neural networks for voice activity detection
Egas López et al. Assessing Parkinson’s disease from speech using fisher vectors
Airaksinen et al. Data augmentation strategies for neural network F0 estimation
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
JP6846310B2 (ja) 距離測定装置、データ変換装置、距離測定方法、及びプログラム
Al-Radhi et al. Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
KR101862982B1 (ko) LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법
Lingampeta et al. Human emotion recognition using acoustic features with optimized feature selection and fusion techniques
CN110782916B (zh) 一种多模态的投诉识别方法、装置和系统
JP2001265375A (ja) 規則音声合成装置
Koolagudi et al. Recognition of emotions from speech using excitation source features
Dhar et al. A system to predict emotion from Bengali speech
Agrawal et al. Fusion based emotion recognition system
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
Kavitha et al. Deep Learning based Audio Processing Speech Emotion Detection
US11355140B2 (en) Emotion estimation system and non-transitory computer readable medium
Gupta et al. Speech emotion recognition using MFCC and wide residual network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210301

R150 Certificate of patent or registration of utility model

Ref document number: 6846310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150