JP2017151230A

JP2017151230A - 音声変換装置および音声変換方法ならびに計算機プログラム

Info

Publication number: JP2017151230A
Application number: JP2016032518A
Authority: JP
Inventors: 浩一桂田; Koichi Katsurada; 浩太郎入澤; Kotaro Irisawa; 優志木村; Masashi Kimura
Original assignee: Toyohashi University of Technology NUC
Current assignee: Toyohashi University of Technology NUC
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2017-08-31

Abstract

【課題】少量の話者データからでも音声変換を実現可能な音声変換装置を提供すること
【解決手段】本発明に係る音声変換装置は、元話者の音声と目的話者の音声とを変換する音声変換装置であって、音素列から話者非依存の調音特徴を抽出する手段と、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段と、前記元話者の声道形状を表す線スペクトル対を次元が圧縮された元話者の線スペクトル対に変換する手段と、前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する手段と、前記目的話者の線スペクトル対および駆動音源から合成音声を生成する手段とを備え、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする。
【選択図】図４

Description

本発明は、元話者の音声を目的話者の音声へ変換する装置および方法ならびに計算機プログラムに関する。

音声変換あるいは声質変換は、ある音声を別の話者等の音声に変換する技術である。

たとえば、特許文献１では、高い精度で声質変換して音声合成することができる声質変換音声合成装置が開示されている。変換元話者と目標話者との音声スペクトルの差を複素ガウスＲＢＦ（ＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎ）ネットワークを用いて学習し、音声変換の精度を向上させているが、情報量や計算量に多くのデータを必要とする。

また、非特許文献１では、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）で統計的にモデル化された元話者の音声の平均および分散を目的話者のものに変換する方法が提案されている。しかし、前記方法では前記変換のためのモデル作成に多くのデータを要するという課題がある。

前記課題を解決するために、より少量のデータを用いる音声変換方法として、たとえば、非特許文献２では、合成音の音声特徴であるメルケプストラムから話者性をＤｅｎｏｉｓｉｎｇＡｕｔｏＥｎｃｏｄｅｒ（ＤＡＥ）によって抽出し、ニューラルネットワークで話者性を変換する方法が提案されている。前記方法では音声特徴量であるメルケプストラム２５次元をＤＡＥに入力し、５０次元の中間層へ特徴量を付加することにより声質変換を行っている。

特開平１１−８５１９４号公報

T. Toda, A.W. Black, K. Tokuda, "Voice conversion based maximum likelihood estimation of special parameter trajectory," IEEE Trans. on Audio, Speech and Language Processing, pp2222-2235, Nov. 2007 伊藤他, "話者特徴量入力を付加したデノイジングオートエンコーダによるクロスリンガル声質変換", 研究報告音声言語情報処理(SLP), pp1-6, 2014

前記非特許文献２では、話者性以外の情報も含まれる合成音の音声特徴量から話者性を抽出しているため、話者性以外の情報も抽出される可能性があり、データ量の削減に課題があった。
ここで、話者性とは、話者の声道形状や発話時の舌の位置、口の形によって差異の生じる声の性質のことである。

本発明は、上記課題に鑑みなされたものであり、元話者に固有の発話時の声道形状をモデル化したＬＳＰ（ＬｉｎｅＳｐｅｃｔｒａｌＰａｉｒｓ）係数（以下、線スペクトル対と記すことがある。）をＡｕｔｏＥｎｃｏｄｅｒ（以下、オートエンコーダまたはＡＥと記すことがある。）によって次元圧縮し、圧縮した情報を多層ニューラルネットワーク（以下、話者性変換ユニットまたはＶＣユニット（ＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎユニット）ということがある。）によって、目的話者のＬＳＰ係数に変換し、該ＬＳＰ係数から合成音を生成するものである。

請求項１記載の音声変換装置は、元話者の音声と目的話者の音声とを変換する音声変換装置であって、音素列から話者非依存の調音特徴を抽出する手段と、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段と、前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換する手段と、前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する手段と、前記目的話者の線スペクトル対および駆動音源から合成音声を生成する手段とを備え、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする。

請求項２に記載の音声変換装置は、請求項１に記載の音声変換装置であって、さらに、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段において、前記元話者の声道形状を表す線スペクトル対を生成する第一の多層ニューラルネットワークならびに、少量の目的話者データ、元話者データ、前記話者非依存の調音特徴および前記第一の多層ニューラルネットワークの出力データを学習に用いる第二の多層ニューラルネットワークの二つを用いて話者性を変換することを特徴とする。

請求項３に記載の音声変換方法は、元話者の音声と目的話者の音声とを変換する音声変換方法であって、音素列から話者非依存の調音特徴を抽出するステップと、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成するステップと、前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換するステップと、前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換するステップと、前記目的話者の線スペクトル対および駆動音源から合成音声を生成するステップとを備え、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする。

請求項４に記載の音声変換方法は、請求項３に記載の音声変換方法であって、さらに、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成するステップにおいて、前記元話者の声道形状を表す線スペクトル対を生成する第一の多層ニューラルネットワークならびに、少量の目的話者データ、元話者データ、前記話者非依存の調音特徴および前記第一の多層ニューラルネットワークの出力データを学習に用いる第二の多層ニューラルネットワークの二つを用いて話者性を変換することを特徴とする。

請求項５に記載の計算機プログラムは、元話者の音声と目的話者の音声とを変換する音声変換のための計算機プログラムであって、計算機を、音素列から話者非依存の調音特徴を抽出する演算手段と、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する演算手段と、前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換する演算手段と、前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する演算手段と、前記目的話者の線スペクトル対および駆動音源から合成音声を生成する演算手段として機能させ、さらに、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換する線スペクトル対変換手段として機能させることを特徴とする。

話者性のみをモデル化したＬＳＰ係数を変換しており、さらに、該ＬＳＰ係数をＡｕｔｏＥｎｃｏｄｅｒで圧縮し、ＶＣユニットによって目的話者の固有成分に変更していることから、少量の目的話者のデータで効率的な音声変換が実現できる。

調音運動に基づく隠れマルコフモデル・音声合成システムの概要図である。本発明に係るオートエンコーダの概要図である。本発明に係る話者性変換の手法の概念図である。本発明に係る音声変換方法の処理の流れを示すフローチャートである。本発明の実施例に係る客観評価実験において変換されたＬＳＰ係数に関する平均二乗誤差の値を示すグラフである。

本発明に係る音声変換装置および音声変換方法ならびに計算機プログラムについて、以下に図を用いながら説明する。
（調音運動に基づく隠れマルコフモデル・音声合成）
調音運動に基づく隠れマルコフモデル（以下、ＨＭＭと記す。）・音声合成システムを図１に示す。合成音を生成する際には、まずテキストから音素列に変換した後、ＨＭＭの状態系列を生成する。前記ＨＭＭでは、前記音素と話者非依存な調音特徴（ＡｒｔｉｃｕｌａｔｏｒｙＦｅａｔｕｒｅ：ＡＦ）の対応関係がモデル化されており、前記ＨＭＭの状態系列から前記調音特徴の系列を直ちに得ることができる。一般に調音特徴とは、音素発声時の口の形や舌の位置を数値化したものである。

次に、前記調音特徴系列を多層ニューラルネットワーク（Ｍｕｌｔｉ−ＬａｙｅｒＮｅｕｒａｌｎｅｔｗｏｒｋ：ＭＬＮ）を通して、声道パラメータであるＬＳＰ係数の系列に変換する。

最後に、前記ＬＳＰ係数の系列と駆動音源を合成フィルタにかけることによって合成音が生成される。

本発明では、前記ＬＳＰ係数を合成フィルタに入力する直前で、異なる話者の前記ＬＳＰ係数の系列に変換することによって話者性のみを変換する。

以下に、本発明に係る話者性変換について説明する。
（ＡｕｔｏＥｎｃｏｄｅｒと話者性変換ユニットを用いた話者性変換）
本発明に係る話者性変換では、まず任意の話者のＬＳＰ係数を圧縮した後に該ＬＳＰ係数を再現するＡｕｔｏＥｎｃｏｒｄｅｒを構築する。前記ＡｕｔｏＥｎｃｏｒｄｅｒは、図２に示すように、入力層への入力パラメータを出力層で再現するように学習した多層ニューラルネットワーク（すなわち第一の多層ニューラルネットワーク）であり、該多層ニューラルネットワークの中間層あるいは出力層のもつ値をＶＣユニットの出力値によって操作することにより、前記話者性を変換する。

とくに前記中間層のノード数を前記多層ニューラルネットワークの入力層のノード数より少なくすることによって、次元圧縮が実現できる。

前記ＶＣユニットの学習には、少量の目的話者データ、対応する元話者データ、調音特徴、学習済みのＡｕｔｏＥｎｃｏｒｄｅｒ（第一の多層ニューラルネットワーク）の出力データを用いる。

本発明に係る話者性変換の手法を図３に示す。本発明に係る話者性変換の手法では、まず元話者固有のパラメータであるＬＳＰ係数を多層ニューラルネットワークの出力層で再現するＡＥを学習する。この際に、前記多層ニューラルネットワークの中間層のノード数を入出力層より少なくすることによって次元圧縮を行う。

次に、前記中間層のノードの値を変化させる別の多層ニューラルネットワーク（すなわち第二の多層ニューラルネットワーク：話者性変換ユニット）を用いることで話者性を変換する。

前記話者性変換ユニットへの入力はコンテキストを追加した調音特徴であり、該話者性変換ユニットの出力はＡＥの中間層のノードの元話者と目的話者間の差分値である。前記話者性変換ユニットの学習には、元話者と目的話者のパラレルデータのＬＳＰ係数から、前記ＡＥの中間層のノードの差分値を求め、教師データとして与える。

本発明に係る音声変換方法（アルゴリズム）のフローチャートを図４に示す。
まず、合成音を生成するためにテキストを音素列に変換した後、ＨＭＭの状態系列を生成する。

続いて、前記ＨＭＭの状態系列から前記調音特徴の系列を得る。

次に、前記調音特徴系列を多層ニューラルネットワークを通して、ＬＳＰ係数の系列に変換する。

次に、前期調音特徴系列をＶＣユニットに入力し、出力値を得る。

同時に、前記ＬＳＰ係数の系列をＡｕｔｏＥｎｃｏｄｅｒに入力する。

前記ＡｕｔｏＥｎｃｏｄｅｒの中間層および出力層の値を前記ＶＣユニットの出力値に応じて変換し、変換されたＬＳＰ係数の系列を得る。

次に、前記ＨＭＭに付与された残差信号から駆動音源を生成する。

最後に、前記駆動音源と前記変換されたＬＳＰ係数の系列から目的話者の合成音声を生成する。

（評価実験）
本発明に係る音声変換装置および音声変換方法ならびに計算機プログラムの有効性を以下に示す。
（１）実験仕様
評価実験の仕様を表１に示す。オートエンコーダの学習データは、女性話者３名によるＡＴＲデジタル音声データベース５０３文から選択した５００発話を用いた。入力パラメータは２０次元のＬＳＰ係数であり、前記オートエンコーダの中間層を１５次元とすることで、前記ＬＳＰ係数の次元圧縮を行う。

一方、ＶＣユニットの学習データには、元話者として前記オートエンコーダの学習データに含む女性話者の５発話と、目的話者として前記オートエンコーダの学習データに含まれない女性話者の５発話とのセットをパラレルデータとして用いた。

前記ＶＣユニットの教師データは、前記パラレルデータを前記オートエンコーダに入力して得られた前記オートエンコーダの中間層の値の差分（１５次元）であり、前記ＶＣユニットへの入力データは、前記教師データに対応する２０次元の調音特徴とした。なお、前記調音特徴には先行、あるいは後続の調音特徴をコンテキストとして付加している。

評価実験では、学習済みの前記オートエンコーダおよび前記ＶＣユニットを用いて、元話者のＬＳＰ係数を目的話者のＬＳＰ係数へ変換した。前記変換したＬＳＰ係数との合成に用いる駆動音源には、パルス波とホワイトノイズを用いた。

前記駆動音源の音高制御は、元話者の平均基本周波数および目的話者の平均基本周波数を分析し、元話者の基本周波数を線形に目的話者に近付ける方法を用いた。

実験は、客観評価および主観評価を行った。前記客観評価実験では、変換後のＬＳＰ係数を元話者および目的話者のＬＳＰ係数とそれぞれ比較した。前記ＬＳＰ係数の各次元の値の平均二乗誤差を算出して、前記変換されたＬＳＰ係数が元話者のもの、あるいは目的話者のものに対しどちらが近いかを評価した。

一方、主観強化実験では、本発明に係る音声変換装置を用いて変換した合成音声を被験者に聞かせ、元話者と目的話者のどちらに近いかを評価させた。評価実験に用いる合成音声は、ＡＴＲ音素バランス文５０３文の中から３文を選択した。また被験者数は１０名で、評価指標は１点（元話者に近い）から５点（目的話者に近い）の５段階である。

（２）実験結果
客観評価実験の結果を図4に示す。同図より、話者性変換ユニットの学習によって、若干ではあるものの元話者よりも目的話者のＬＳＰ係数に近づけた変換ができたことが分かる。

また、主観評価実験では、平均3.17点が得られ、わずかではあるものの元話者のＬＳＰ係数を基に目的話者の発声に近づいていることが確認できた。

Claims

元話者の音声と目的話者の音声とを変換する音声変換装置であって、
音素列から話者非依存の調音特徴を抽出する手段と、
前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段と、
前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換する手段と、
前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する手段と、
前記目的話者の線スペクトル対および駆動音源から合成音声を生成する手段とを備え、
前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする音声変換装置。
前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段において、
前記元話者の声道形状を表す線スペクトル対を生成する第一の多層ニューラルネットワークならびに、
少量の目的話者データ、元話者データ、前記話者非依存の調音特徴および前記第一の多層ニューラルネットワークの出力データを学習に用いる第二の多層ニューラルネットワークの二つを用いて話者性を変換することを特徴とする請求項１に記載の音声変換装置。
元話者の音声と目的話者の音声とを変換する音声変換方法であって、
音素列から話者非依存の調音特徴を抽出するステップと、
前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成するステップと、
前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換するステップと、
前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換するステップと、
前記目的話者の線スペクトル対および駆動音源から合成音声を生成するステップとを備え、
前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする音声変換方法。
前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成するステップにおいて、
前記元話者の声道形状を表す線スペクトル対を生成する第一の多層ニューラルネットワークならびに、
少量の目的話者データ、元話者データ、前記話者非依存の調音特徴および前記第一の多層ニューラルネットワークの出力データを学習に用いる第二の多層ニューラルネットワークの二つを用いて話者性を変換することを特徴とする請求項３に記載の音声変換方法。
元話者の音声と目的話者の音声とを変換する音声変換のための計算機プログラムであって、計算機を、
音素列から話者非依存の調音特徴を抽出する演算手段と、
前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する演算手段と、
前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換する演算手段と、
前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する演算手段と、
前記目的話者の声道形状を表す線スペクトル対および駆動音源から合成音声を生成する演算手段として機能させ、
さらに、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換する線スペクトル対変換手段として機能させることを特徴とする計算機プログラム。