JP2017151230A - 音声変換装置および音声変換方法ならびに計算機プログラム - Google Patents

音声変換装置および音声変換方法ならびに計算機プログラム Download PDF

Info

Publication number
JP2017151230A
JP2017151230A JP2016032518A JP2016032518A JP2017151230A JP 2017151230 A JP2017151230 A JP 2017151230A JP 2016032518 A JP2016032518 A JP 2016032518A JP 2016032518 A JP2016032518 A JP 2016032518A JP 2017151230 A JP2017151230 A JP 2017151230A
Authority
JP
Japan
Prior art keywords
speaker
line spectrum
spectrum pair
original
vocal tract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016032518A
Other languages
English (en)
Inventor
浩一 桂田
Koichi Katsurada
浩一 桂田
浩太郎 入澤
Kotaro Irisawa
浩太郎 入澤
優志 木村
Masashi Kimura
優志 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyohashi University of Technology NUC
Original Assignee
Toyohashi University of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyohashi University of Technology NUC filed Critical Toyohashi University of Technology NUC
Priority to JP2016032518A priority Critical patent/JP2017151230A/ja
Publication of JP2017151230A publication Critical patent/JP2017151230A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】少量の話者データからでも音声変換を実現可能な音声変換装置を提供すること
【解決手段】本発明に係る音声変換装置は、元話者の音声と目的話者の音声とを変換する音声変換装置であって、音素列から話者非依存の調音特徴を抽出する手段と、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段と、前記元話者の声道形状を表す線スペクトル対を次元が圧縮された元話者の線スペクトル対に変換する手段と、前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する手段と、前記目的話者の線スペクトル対および駆動音源から合成音声を生成する手段とを備え、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする。
【選択図】図4

Description

本発明は、元話者の音声を目的話者の音声へ変換する装置および方法ならびに計算機プログラムに関する。
音声変換あるいは声質変換は、ある音声を別の話者等の音声に変換する技術である。
たとえば、特許文献1では、高い精度で声質変換して音声合成することができる声質変換音声合成装置が開示されている。変換元話者と目標話者との音声スペクトルの差を複素ガウスRBF(Radial Basis Function)ネットワークを用いて学習し、音声変換の精度を向上させているが、情報量や計算量に多くのデータを必要とする。
また、非特許文献1では、GMM(Gaussian Mixture Model)で統計的にモデル化された元話者の音声の平均および分散を目的話者のものに変換する方法が提案されている。しかし、前記方法では前記変換のためのモデル作成に多くのデータを要するという課題がある。
前記課題を解決するために、より少量のデータを用いる音声変換方法として、たとえば、非特許文献2では、合成音の音声特徴であるメルケプストラムから話者性をDenoising Auto Encoder(DAE)によって抽出し、ニューラルネットワークで話者性を変換する方法が提案されている。前記方法では音声特徴量であるメルケプストラム25次元をDAEに入力し、50次元の中間層へ特徴量を付加することにより声質変換を行っている。
特開平11−85194号公報
T. Toda, A.W. Black, K. Tokuda, "Voice conversion based maximum likelihood estimation of special parameter trajectory," IEEE Trans. on Audio, Speech and Language Processing, pp2222-2235, Nov. 2007 伊藤他, "話者特徴量入力を付加したデノイジングオートエンコーダによるクロスリンガル声質変換", 研究報告音声言語情報処理(SLP), pp1-6, 2014
前記非特許文献2では、話者性以外の情報も含まれる合成音の音声特徴量から話者性を抽出しているため、話者性以外の情報も抽出される可能性があり、データ量の削減に課題があった。
ここで、話者性とは、話者の声道形状や発話時の舌の位置、口の形によって差異の生じる声の性質のことである。
本発明は、上記課題に鑑みなされたものであり、元話者に固有の発話時の声道形状をモデル化したLSP(Line Spectral Pairs)係数(以下、線スペクトル対と記すことがある。)をAuto Encoder(以下、オートエンコーダまたはAEと記すことがある。)によって次元圧縮し、圧縮した情報を多層ニューラルネットワーク(以下、話者性変換ユニットまたはVCユニット(Voice Conversionユニット)ということがある。)によって、目的話者のLSP係数に変換し、該LSP係数から合成音を生成するものである。
請求項1記載の音声変換装置は、元話者の音声と目的話者の音声とを変換する音声変換装置であって、音素列から話者非依存の調音特徴を抽出する手段と、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段と、前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換する手段と、前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する手段と、前記目的話者の線スペクトル対および駆動音源から合成音声を生成する手段とを備え、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする。
請求項2に記載の音声変換装置は、請求項1に記載の音声変換装置であって、さらに、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段において、前記元話者の声道形状を表す線スペクトル対を生成する第一の多層ニューラルネットワークならびに、少量の目的話者データ、元話者データ、前記話者非依存の調音特徴および前記第一の多層ニューラルネットワークの出力データを学習に用いる第二の多層ニューラルネットワークの二つを用いて話者性を変換することを特徴とする。
請求項3に記載の音声変換方法は、元話者の音声と目的話者の音声とを変換する音声変換方法であって、音素列から話者非依存の調音特徴を抽出するステップと、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成するステップと、前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換するステップと、前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換するステップと、前記目的話者の線スペクトル対および駆動音源から合成音声を生成するステップとを備え、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする。
請求項4に記載の音声変換方法は、請求項3に記載の音声変換方法であって、さらに、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成するステップにおいて、前記元話者の声道形状を表す線スペクトル対を生成する第一の多層ニューラルネットワークならびに、少量の目的話者データ、元話者データ、前記話者非依存の調音特徴および前記第一の多層ニューラルネットワークの出力データを学習に用いる第二の多層ニューラルネットワークの二つを用いて話者性を変換することを特徴とする。
請求項5に記載の計算機プログラムは、元話者の音声と目的話者の音声とを変換する音声変換のための計算機プログラムであって、計算機を、音素列から話者非依存の調音特徴を抽出する演算手段と、前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する演算手段と、前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換する演算手段と、前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する演算手段と、前記目的話者の線スペクトル対および駆動音源から合成音声を生成する演算手段として機能させ、さらに、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換する線スペクトル対変換手段として機能させることを特徴とする。
話者性のみをモデル化したLSP係数を変換しており、さらに、該LSP係数をAuto Encoderで圧縮し、VCユニットによって目的話者の固有成分に変更していることから、少量の目的話者のデータで効率的な音声変換が実現できる。
調音運動に基づく隠れマルコフモデル・音声合成システムの概要図である。 本発明に係るオートエンコーダの概要図である。 本発明に係る話者性変換の手法の概念図である。 本発明に係る音声変換方法の処理の流れを示すフローチャートである。 本発明の実施例に係る客観評価実験において変換されたLSP係数に関する平均二乗誤差の値を示すグラフである。
本発明に係る音声変換装置および音声変換方法ならびに計算機プログラムについて、以下に図を用いながら説明する。
(調音運動に基づく隠れマルコフモデル・音声合成)
調音運動に基づく隠れマルコフモデル(以下、HMMと記す。)・音声合成システムを図1に示す。合成音を生成する際には、まずテキストから音素列に変換した後、HMMの状態系列を生成する。前記HMMでは、前記音素と話者非依存な調音特徴(Articulatory Feature:AF)の対応関係がモデル化されており、前記HMMの状態系列から前記調音特徴の系列を直ちに得ることができる。一般に調音特徴とは、音素発声時の口の形や舌の位置を数値化したものである。
次に、前記調音特徴系列を多層ニューラルネットワーク(Multi−Layer Neural network:MLN)を通して、声道パラメータであるLSP係数の系列に変換する。
最後に、前記LSP係数の系列と駆動音源を合成フィルタにかけることによって合成音が生成される。
本発明では、前記LSP係数を合成フィルタに入力する直前で、異なる話者の前記LSP係数の系列に変換することによって話者性のみを変換する。
以下に、本発明に係る話者性変換について説明する。
(Auto Encoderと話者性変換ユニットを用いた話者性変換)
本発明に係る話者性変換では、まず任意の話者のLSP係数を圧縮した後に該LSP係数を再現するAuto Encorderを構築する。前記Auto Encorderは、図2に示すように、入力層への入力パラメータを出力層で再現するように学習した多層ニューラルネットワーク(すなわち第一の多層ニューラルネットワーク)であり、該多層ニューラルネットワークの中間層あるいは出力層のもつ値をVCユニットの出力値によって操作することにより、前記話者性を変換する。
とくに前記中間層のノード数を前記多層ニューラルネットワークの入力層のノード数より少なくすることによって、次元圧縮が実現できる。
前記VCユニットの学習には、少量の目的話者データ、対応する元話者データ、調音特徴、学習済みのAuto Encorder(第一の多層ニューラルネットワーク)の出力データを用いる。
本発明に係る話者性変換の手法を図3に示す。本発明に係る話者性変換の手法では、まず元話者固有のパラメータであるLSP係数を多層ニューラルネットワークの出力層で再現するAEを学習する。この際に、前記多層ニューラルネットワークの中間層のノード数を入出力層より少なくすることによって次元圧縮を行う。
次に、前記中間層のノードの値を変化させる別の多層ニューラルネットワーク(すなわち第二の多層ニューラルネットワーク:話者性変換ユニット)を用いることで話者性を変換する。
前記話者性変換ユニットへの入力はコンテキストを追加した調音特徴であり、該話者性変換ユニットの出力はAEの中間層のノードの元話者と目的話者間の差分値である。前記話者性変換ユニットの学習には、元話者と目的話者のパラレルデータのLSP係数から、前記AEの中間層のノードの差分値を求め、教師データとして与える。
本発明に係る音声変換方法(アルゴリズム)のフローチャートを図4に示す。
まず、合成音を生成するためにテキストを音素列に変換した後、HMMの状態系列を生成する。
続いて、前記HMMの状態系列から前記調音特徴の系列を得る。
次に、前記調音特徴系列を多層ニューラルネットワークを通して、LSP係数の系列に変換する。
次に、前期調音特徴系列をVCユニットに入力し、出力値を得る。
同時に、前記LSP係数の系列をAuto Encoderに入力する。
前記Auto Encoderの中間層および出力層の値を前記VCユニットの出力値に応じて変換し、変換されたLSP係数の系列を得る。
次に、前記HMMに付与された残差信号から駆動音源を生成する。
最後に、前記駆動音源と前記変換されたLSP係数の系列から目的話者の合成音声を生成する。
(評価実験)
本発明に係る音声変換装置および音声変換方法ならびに計算機プログラムの有効性を以下に示す。
(1)実験仕様
評価実験の仕様を表1に示す。オートエンコーダの学習データは、女性話者3名によるATRデジタル音声データベース503文から選択した500発話を用いた。入力パラメータは20次元のLSP係数であり、前記オートエンコーダの中間層を15次元とすることで、前記LSP係数の次元圧縮を行う。
Figure 2017151230
一方、VCユニットの学習データには、元話者として前記オートエンコーダの学習データに含む女性話者の5発話と、目的話者として前記オートエンコーダの学習データに含まれない女性話者の5発話とのセットをパラレルデータとして用いた。
前記VCユニットの教師データは、前記パラレルデータを前記オートエンコーダに入力して得られた前記オートエンコーダの中間層の値の差分(15次元)であり、前記VCユニットへの入力データは、前記教師データに対応する20次元の調音特徴とした。なお、前記調音特徴には先行、あるいは後続の調音特徴をコンテキストとして付加している。
評価実験では、学習済みの前記オートエンコーダおよび前記VCユニットを用いて、元話者のLSP係数を目的話者のLSP係数へ変換した。前記変換したLSP係数との合成に用いる駆動音源には、パルス波とホワイトノイズを用いた。
前記駆動音源の音高制御は、元話者の平均基本周波数および目的話者の平均基本周波数を分析し、元話者の基本周波数を線形に目的話者に近付ける方法を用いた。
実験は、客観評価および主観評価を行った。前記客観評価実験では、変換後のLSP係数を元話者および目的話者のLSP係数とそれぞれ比較した。前記LSP係数の各次元の値の平均二乗誤差を算出して、前記変換されたLSP係数が元話者のもの、あるいは目的話者のものに対しどちらが近いかを評価した。
一方、主観強化実験では、本発明に係る音声変換装置を用いて変換した合成音声を被験者に聞かせ、元話者と目的話者のどちらに近いかを評価させた。評価実験に用いる合成音声は、ATR音素バランス文503文の中から3文を選択した。また被験者数は10名で、評価指標は1点(元話者に近い)から5点(目的話者に近い)の5段階である。
(2)実験結果
客観評価実験の結果を図4に示す。同図より、話者性変換ユニットの学習によって、若干ではあるものの元話者よりも目的話者のLSP係数に近づけた変換ができたことが分かる。
また、主観評価実験では、平均3.17点が得られ、わずかではあるものの元話者のLSP係数を基に目的話者の発声に近づいていることが確認できた。

Claims (5)

  1. 元話者の音声と目的話者の音声とを変換する音声変換装置であって、
    音素列から話者非依存の調音特徴を抽出する手段と、
    前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段と、
    前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換する手段と、
    前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する手段と、
    前記目的話者の線スペクトル対および駆動音源から合成音声を生成する手段とを備え、
    前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする音声変換装置。
  2. 前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する手段において、
    前記元話者の声道形状を表す線スペクトル対を生成する第一の多層ニューラルネットワークならびに、
    少量の目的話者データ、元話者データ、前記話者非依存の調音特徴および前記第一の多層ニューラルネットワークの出力データを学習に用いる第二の多層ニューラルネットワークの二つを用いて話者性を変換することを特徴とする請求項1に記載の音声変換装置。
  3. 元話者の音声と目的話者の音声とを変換する音声変換方法であって、
    音素列から話者非依存の調音特徴を抽出するステップと、
    前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成するステップと、
    前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換するステップと、
    前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換するステップと、
    前記目的話者の線スペクトル対および駆動音源から合成音声を生成するステップとを備え、
    前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換することを特徴とする音声変換方法。
  4. 前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成するステップにおいて、
    前記元話者の声道形状を表す線スペクトル対を生成する第一の多層ニューラルネットワークならびに、
    少量の目的話者データ、元話者データ、前記話者非依存の調音特徴および前記第一の多層ニューラルネットワークの出力データを学習に用いる第二の多層ニューラルネットワークの二つを用いて話者性を変換することを特徴とする請求項3に記載の音声変換方法。
  5. 元話者の音声と目的話者の音声とを変換する音声変換のための計算機プログラムであって、計算機を、
    音素列から話者非依存の調音特徴を抽出する演算手段と、
    前記話者非依存の調音特徴から元話者の声道形状を表す線スペクトル対を生成する演算手段と、
    前記元話者の声道形状を表す線スペクトル対を次元数が圧縮された元話者の線スペクトル対に変換する演算手段と、
    前記次元数が圧縮された元話者の線スペクトル対および前記話者非依存の調音特徴から目的話者の線スペクトル対に変換する演算手段と、
    前記目的話者の声道形状を表す線スペクトル対および駆動音源から合成音声を生成する演算手段として機能させ、
    さらに、前記元話者の声道形状を表す線スペクトル対から前記目的話者の線スペクトル対に変換する線スペクトル対変換手段として機能させることを特徴とする計算機プログラム。

JP2016032518A 2016-02-23 2016-02-23 音声変換装置および音声変換方法ならびに計算機プログラム Pending JP2017151230A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016032518A JP2017151230A (ja) 2016-02-23 2016-02-23 音声変換装置および音声変換方法ならびに計算機プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016032518A JP2017151230A (ja) 2016-02-23 2016-02-23 音声変換装置および音声変換方法ならびに計算機プログラム

Publications (1)

Publication Number Publication Date
JP2017151230A true JP2017151230A (ja) 2017-08-31

Family

ID=59741738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016032518A Pending JP2017151230A (ja) 2016-02-23 2016-02-23 音声変換装置および音声変換方法ならびに計算機プログラム

Country Status (1)

Country Link
JP (1) JP2017151230A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019125313A (ja) * 2018-01-19 2019-07-25 ヤフー株式会社 学習装置、学習方法および学習プログラム
CN110473557A (zh) * 2019-08-22 2019-11-19 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号编解码方法
WO2020085489A1 (ja) * 2018-10-26 2020-04-30 株式会社鈴康 ゲームプログラムの作成方法、学習モデル、学習モデルの生成方法、及び情報処理方法
JP2020118950A (ja) * 2019-07-01 2020-08-06 株式会社テクノスピーチ 音声処理装置、および音声処理方法
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019125313A (ja) * 2018-01-19 2019-07-25 ヤフー株式会社 学習装置、学習方法および学習プログラム
WO2020085489A1 (ja) * 2018-10-26 2020-04-30 株式会社鈴康 ゲームプログラムの作成方法、学習モデル、学習モデルの生成方法、及び情報処理方法
JP2020069377A (ja) * 2018-10-26 2020-05-07 株式会社鈴康 情報処理方法、情報処理装置及びコンピュータプログラム
JP2020118950A (ja) * 2019-07-01 2020-08-06 株式会社テクノスピーチ 音声処理装置、および音声処理方法
JP7280605B2 (ja) 2019-07-01 2023-05-24 株式会社テクノスピーチ 音声処理装置、および音声処理方法
CN110473557A (zh) * 2019-08-22 2019-11-19 杭州派尼澳电子科技有限公司 一种基于深度自编码器的语音信号编解码方法
CN110473557B (zh) * 2019-08-22 2021-05-28 浙江树人学院(浙江树人大学) 一种基于深度自编码器的语音信号编解码方法
CN111816156A (zh) * 2020-06-02 2020-10-23 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统
CN111816156B (zh) * 2020-06-02 2023-07-21 南京邮电大学 基于说话人风格特征建模的多对多语音转换方法及系统

Similar Documents

Publication Publication Date Title
JP6911208B2 (ja) 発話スタイル転移
CN107615376B (zh) 声音识别装置及计算机程序记录介质
Jemine Real-time voice cloning
Song et al. ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems
Siuzdak et al. WavThruVec: Latent speech representation as intermediate features for neural speech synthesis
JP2017151230A (ja) 音声変換装置および音声変換方法ならびに計算機プログラム
JP2020027193A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CA3162378A1 (en) A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
WO2019163848A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
JP2022516784A (ja) 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
Aryal et al. Articulatory-based conversion of foreign accents with deep neural networks
Park et al. Multi-speaker end-to-end speech synthesis
Moon et al. Mist-tacotron: End-to-end emotional speech synthesis using mel-spectrogram image style transfer
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
TWI467566B (zh) 多語言語音合成方法
Zhao et al. Research on voice cloning with a few samples
Luo et al. Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform.
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
JP2017194510A (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Bargum et al. Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice Conversion
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム