JP6876641B2 - 音声変換学習装置、音声変換装置、方法、及びプログラム - Google Patents

音声変換学習装置、音声変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP6876641B2
JP6876641B2 JP2018028294A JP2018028294A JP6876641B2 JP 6876641 B2 JP6876641 B2 JP 6876641B2 JP 2018028294 A JP2018028294 A JP 2018028294A JP 2018028294 A JP2018028294 A JP 2018028294A JP 6876641 B2 JP6876641 B2 JP 6876641B2
Authority
JP
Japan
Prior art keywords
acoustic feature
vector sequence
conversion
audio signal
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018028294A
Other languages
English (en)
Other versions
JP2019144402A (ja
Inventor
弘和 亀岡
弘和 亀岡
卓弘 金子
卓弘 金子
田中 宏
宏 田中
伸克 北条
伸克 北条
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018028294A priority Critical patent/JP6876641B2/ja
Priority to US16/970,935 priority patent/US11450332B2/en
Priority to PCT/JP2019/006397 priority patent/WO2019163849A1/ja
Publication of JP2019144402A publication Critical patent/JP2019144402A/ja
Application granted granted Critical
Publication of JP6876641B2 publication Critical patent/JP6876641B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声変換学習装置、音声変換装置、方法、及びプログラムに係り、特に、音声を変換するための音声変換学習装置、音声変換装置、方法、及びプログラムに関する。
入力音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が可能である。声質変換の問題は、変換元の音声の特徴量から変換目標の音声の特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model; GMM) を用いた手法はその有効性と汎用性から広く用いられている。また、近年では、制約つきボルツマンマシン、フィードフォワード型ニューラルネットワーク(Neural Network; NN)、再帰型NN(Recurrent NN; RNN)、畳み込み型NN(Convolutional NN; CNN) などのNN 系の手法や非負値行列因子分解(Non-negative MatrixFactorization; NMF) などを用いた事例(Exemplar)ベースの手法の検討も進められている。これらの手法の多くは、パラレルデータを用いて変換音声の特徴量が目標音声の特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし、用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また、仮にそのようなペアデータが用意できる場合でも、高い精度の時間整合が必要となり、これを自動処理で行う際は整合ミスを修正するため目視または手動によるプリスクリーニングが必要となる。
一方、パラレルデータを必ずしも必要としない方法も提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音声特徴量をペアとすることでパラレルデータを構築する。この方法は、音声認識が極めて高い精度で行えることが想定されるが、そのためには音声認識自体を学習するための大量の音声コーパスが必要となる場合があるため、利用場面によっては難点になりえる。話者性を変換するタスクに限定した__方法としては話者適応技術を用いるものがある。この方法は、変換元音声と変換目標音声のパラレルデータに関しては準備する必要はないが、話者空間を学習するための参照音声のパラレルデータは必要となる。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方法の検討も進められている。中でも条件付変分自己符号化器(Conditional Variational Autoencoder; CVAE) を用いた方式が有効な方法として提案されている(非特許文献1、2)。
C.-C. Hsu,H.-T.Hwang,Y.-C. Wu,Y.Tsao, and H.-M. Wang, "Voice conversion from non-parallel corpora using variational auto-encoder," in Proc. APSIPA,2016, pp.1-6. C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, and H.-M. Wang, "Voice conversion from unaligned corpora using variational autoencodingWasserstein generative adversarial networks," in Proc. In-terspeech, 2017, pp. 3364-3368.
しかしこれらの方法では、音声の短区間ごとの音響特徴量ごとの変換が独立に行われるため、音声のコンテキスト(発話内容や文脈といった大域的な時間依存性)やダイナミクス(局所的な時間依存性)を反映した変換を難しくしている。
本発明は、上記問題点を解決するために成されたものであり、所望の属性の音声に変換することができる変換関数を学習できる音声変換学習装置、方法、及びプログラムを提供することを目的とする。
また、所望の属性の音声に変換することができる音声変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る音声変換学習装置は、変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性ラベルに基づいて、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを学習する学習部を含んで構成されている。
また、本発明に係る音声変換学習方法は、学習部が、変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性ラベルに基づいて、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを学習する。
また、本発明に係る音声変換装置は、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダを用いて、入力された変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号の属性を示す属性ラベルとから、潜在ベクトル系列を推定するエンコーダ計算部と、前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを用いて、前記推定された潜在ベクトル系列と、入力された目標の音声信号の属性を示す属性ラベルとから、目標の音声信号の音響特徴ベクトル系列を推定するデコーダ計算部と、を含んで構成されている。
また、本発明に係る音声変換方法は、エンコーダ計算部が、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダを用いて、入力された変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号の属性を示す属性ラベルとから、潜在ベクトル系列を推定し、デコーダ計算部が、前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを用いて、前記推定された潜在ベクトル系列と、入力された目標の音声信号の属性を示す属性ラベルとから、目標の音声信号の音響特徴ベクトル系列を推定する。
また、本発明に係るプログラムは、コンピュータを、上記発明に係る音声変換学習装置の各部、または上記発明に係る音声変換装置の各部として機能させるためのプログラムである。
本発明の音声変換学習装置、方法、及びプログラムによれば、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを学習することにより、所望の属性の音声に変換することができる変換関数を学習できる、という効果が得られる。
本発明の音声変換装置、方法、及びプログラムによれば、エンコーダを用いて、入力された変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号の属性を示す属性ラベルとから、潜在ベクトル系列を推定し、デコーダを用いて、前記推定された潜在ベクトル系列と、入力された目標の音声信号の属性を示す属性ラベルとから、目標の音声信号の音響特徴ベクトル系列を推定することにより、所望の属性の音声に変換することができる。
本発明の実施の形態に係る音声変換学習装置の構成を示すブロック図である。 本発明の実施の形態に係る音声変換装置の構成を示すブロック図である。 本発明の実施の形態に係る音声変換学習装置における音声変換学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンを示すフローチャートである。 (a)入力音声のメルケプストラム係数行列を示す図、(b)本発明の実施の形態の手法による、入力音声の属性ラベルを与えた場合の変換音声のメルケプストラム係数行列を示す図、(c)本発明の実施の形態の手法による、目標音声の属性ラベルを与えた場合の変換音声のメルケプストラム係数行列を示す図、(d)入力音声に、目標音声の属性ラベルを与えた場合の変換音声の差分を加えた音声のメルケプストラム係数行列を示す図である。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態では、パラレルデータを必要としないパラレルデータフリーな声質変換手法を提案する。本発明の実施の形態の方法は、(1)テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点、(2)従来の多くの声質変換法においてしばしば問題とされる音響パラメータの過剰平滑化が起こりにくい点、(3)変換元と変換目標の音声の時間依存性を捉えた変換が可能である点、を特長にもつ。
また、本発明の実施の形態の方法の特長は、CVAEの入力と出力を時系列データを想定した形に拡張し、エンコーダとデコーダのネットワークをそれぞれ畳み込みネットワークまたはゲート付き畳み込みネットワークによりモデル化することにより実現している点である。
<本発明の実施の形態の原理>
<変分自己符号化器(Variational Autoencoder; VAE)>
VAEはエンコーダとデコーダのニューラルネットワーク(Neural Network; NN)からなる確率的生成モデルである。エンコーダネットワークは入力データベクトルxが与えられた下での潜在変数ベクトルzの条件付分布q(zjx)のパラメータを出力するNNで、デコーダネットワークは潜在変数ベクトルz が与えられた下でのデータベクトルxの条件付分布p(xjz)のパラメータを出力するNNである。学習データを
Figure 0006876641

とすると、VAEはエンコーダ分布q(z|x)が事後分布p(z|x) /p(x|z)p(z)とできるだけ一致するようにエンコーダとデコーダのNNパラメータを学習する。Jensenの不等式を用いることにより対数周辺尤度(エビデンス)log p(x) の下界
Figure 0006876641
Figure 0006876641
が得られる。式(1)の左辺と右辺の差はq(z|x)とp(z|x)のKullback-Leibler (KL)ダイバージェンスKL[q(z|x)||p(z|x)] と等しく、
Figure 0006876641
のとき最小となる。よって、式(1)の右辺を大きくすることはq(z|x)とp(z|x) ∝p(x|z)p(z)を近づけることに相当する。ここで、μφ(x),logσ2 φ(x)をパラメータφのエンコーダネットワークの出力、μφ (z),logσ2 θ(z)をパラメータθのデコーダネットワークの出力とし、q(z|x),p(x|z)をそれぞれこれらを平均と分散とした正規分布、p(z)を標準正規分布
Figure 0006876641
Figure 0006876641
Figure 0006876641
と仮定すると、式(1)の右辺第一項は
Figure 0006876641
と書ける。ここで、z〜q(z|x)を
Figure 0006876641

という関係式を通して
Figure 0006876641

に変数変換できることを用いている。ただし、
Figure 0006876641

は要素ごとの積を表す。式(6)は、εに由来するランダム項を無視するとxとμθφ(x))の重み付き二乗誤差の負となっていることが分かる。これがVAE(確率的な自己符号化器)と呼ばれる所以である。また、式(1)の右辺第二項はq(z|x)とp(z)=N(z|0, I)のKLダイバージェンスの負で与えられ、エンコーダネットワークの出力の各要素が独立にかつ正規分布に従うよう強制する正則化項として働く。
条件付VAE(Conditional VAE; CVAE) は
Figure 0006876641
Figure 0006876641
のようにエンコーダとデコーダを補助変数yを入力可能な形にしたVAEの拡張版である。このとき、最大化したい目的関数は、
Figure 0006876641
となる。
<本発明の実施の形態の説明>
<CVAE による声質変換(従来法)>
Figure 0006876641

を音響特徴(メルケプストラム係数など)ベクトル、yを属性ラベルに対応するone-hotベクトルとすると、パラレルデータフリー声質変換の問題はCVAEによる定式化することができる(非特許文献1、2)。学習データを{xn,yn}N n=1とすると、エンコーダは属性ラベルyを手がかりに音響特徴ベクトルxnを潜在変数ベクトルznに変換する関数を学習し、デコーダは属性ラベルyを手がかりに潜在変数ベクトルznから音響特徴ベクトル^xnを再構成する関数を学習する。学習が完了したら変換元となる音声の音響特徴ベクトルをエンコーダに入力し、デコーダに目標属性ラベルを入力して音響特徴ベクトルを再構成することで、音響特徴ベクトルを変換することができる。
<Sequence-to-Sequence CVAEによる声質変換(本発明の実施の形態の方法)>
音声は文脈や発話内容に応じて話し方や声質の変化の仕方は異なる。よって、音響特徴ベクトルを変換する関数は、時間依存性を有する(入力音声と出力音声の音響特徴ベクトル系列の履歴に依存して決定される)ことが望ましい。しかし、上述の方法は、各フレーム独立に音響特徴ベクトルの変換が行われるため、音響特徴ベクトル系列の時間依存関係を捉えた変換を行う方法となっていなかった。そこで、本発明の実施の形態では音声の音響特徴ベクトルの時間依存性を捉えた変換を行えるように、CVAEの入力と出力を、時系列データを想定した形に拡張する。具体的にはエンコーダとデコーダのネットワークをそれぞれ畳み込みネットワークまたはゲート付き畳み込みネットワークによりモデル化する。
発話jの音響特徴ベクトル系列をXj =[x1,...,xNj]∈RD×Njとし、属性ラベルをyjとする。学習データを{Xj,yj}J j=1とすると、エンコーダは発話jごとに属性ラベルyjを手がかりに音響特徴ベクトル系列Xjを潜在変数ベクトル系列Zj= [z1,...,zN z j]∈RDz×Nz jに変換する関数を学習し、デコーダは属性ラベルyjを手がかりに潜在変数ベクトル系列Zj から音響特徴ベクトル系列^Xjを再構成する関数を学習する。学習が完了したら変換元となる属性の発話の音響特徴ベクトル系列をエンコーダに入力し、デコーダに目標属性ラベルを入力して音響特徴ベクトル系列を再構成することで、音響特徴ベクトル系列を一挙に変換することができる。
エンコーダとデコーダのネットワーク構造としては、例えば畳み込みネットワーク(ConvolutionalNeural Network; CNN) や再帰型ネットワーク(Recurrent NN; RNN) などを用いることができる。
CNNの場合は、Xjを1チャネルのサイズがD×Njの画像と見なす場合は、2次元CNNとなり、XjをDチャネルのサイズが1×Njの画像と見なす場合は、1次元CNNとなる。また、CNNの亜種としてゲート付きCNN、RNNの亜種として長期短期記憶(Long Short-Term Memory; LSTM)を用いることもできる。ゲート付きCNNは、元々単語列の予測モデルとして最初に導入され、同条件の実験でLSTMを超える単語予測性能を発揮することが報告されている。第l層の出力をHlとすると、ゲート付きCNNではHl
Figure 0006876641
で与えられる。ただし、σは要素毎シグモイド関数を表し、Wl∈RDl×Dl-1×Nw l、Bl∈RDl×Nb j,l,Vl∈RDl×Dl-1×Nv l,Cl∈RDl×Nc j,lが推定すべきパラメータとなる。これを要素ごとに表記すると
Figure 0006876641
となる。エンコーダとデコーダの出力層(第L層)については例えば線形層
Figure 0006876641
Figure 0006876641

Figure 0006876641

Figure 0006876641
を用いることができる。
<変換方法(本発明の実施の形態の方法)>
音響特徴ベクトルとしては、
(A1) 対数振幅スペクトルを要素としたベクトル
(A2) メルケプストラム係数を要素としたベクトル
(A3) 線形予測係数を要素としたベクトル
(A4) 偏自己相関係数(Partial Correlation; PARCOR)係数を要素としたベクトル
(A5) 線スペクトル対(Line Spectral Pair; LSP)パラメータを要素としたベクトル
などを用いることができる。(A1)はSTFTやウェーブレット変換などの時間周波数解析、(A2)はメルケプストラム分析、(A3)は線形予測分析、(A4)はPARCOR分析、(A5)はLSP分析を用いることにより得ることができる。また、(A1)はSTRAIGHT 分析、WORLD分析などにより得られるスペクトル包絡としても良く、(A2−A5)もスペクトル包絡に対しそれぞれの分析により得られたものとしても良い。例えば、以下の(B1−B5)を音響特徴ベクトルとして用いても良い。
(B1) 対数スペクトル包絡を要素としたベクトル
(B2) B1より得られるメルケプストラム係数を要素としたベクトル
(B3) B1より得られる線形予測係数を要素としたベクトル
(B4) B1より得られるPARCOR係数を要素としたベクトル
(B5) B1より得られるLSPパラメータを要素としたベクトル
φ、θの学習完了後、入力音声の属性ラベルyと音響特徴ベクトル系列Xをエンコーダに入力し、エンコーダの出力と目標属性ラベルy′をデコーダに入力することで変換音声の音響特徴ベクトル系列^Xを得ることができる。このプロセスは
Figure 0006876641
と表される。以上により得られる^Xから時間領域信号を得ることにより変換音声を得ることができる。これは、音響特徴ベクトルとして(A1) を用いる場合は時間周波数解析の逆変換(逆STFT、ウェーブレット逆変換など)、(A2)-(A5)、(B1)-(B5)を用いる場合はボコーダを用いることにより実現できる。以上の方法で得られる^Xは過剰に平滑化される傾向にあるため、以下の方法を用いても良い。
まず、
Figure 0006876641
により入力音声の再構成音響特徴ベクトル系列を得ることができる。これにより得られる~Xもまた過剰に平滑化されるが、このことを利用して、^Xと~Xからスペクトルゲイン系列を算出した上で、これを入力音声のスペクトル系列またはスペクトル包絡系列にフレームごとに乗じることで変換音声のスペクトル系列またはスペクトル包絡系列を得ることができる。また、各フレームのスペクトルゲインを時間領域に変換してインパルス応答を得た上で入力音声の時間領域信号にフレームごとにインパルス応答を畳み込むことで変換音声の時間領域信号を直接得ることもできる。
<本発明の実施の形態に係る音声変換学習装置の構成>
次に、本発明の実施の形態に係る音声変換学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る音声変換学習装置100は、CPUと、RAMと、後述する音声変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、変換元の音声信号と、変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び変換元の音声信号の属性を示す属性ラベルを受け付ける。なお、変換元の音声信号の属性を示す属性ラベルは、人手で与えておけばよい。また、音声信号の属性とは、例えば、性別、大人/子供、話者ID、母語話者か否か(出身)、発話ムードの種類(怒り、悲しみなど)、発話モード(講演風、自由発話風など)などである。
演算部20は、音響特徴抽出部30と、学習部32を含んで構成されている。
音響特徴抽出部30は、入力された変換元の音声信号から、音響特徴ベクトル系列を抽出する。
学習部32は、変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び変換元の音声信号の属性を示す属性ラベルに基づいて、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを学習する。
具体的には、学習部32は、デコーダによって再構成された音響特徴ベクトル系列と、パラレルデータの変換元の音声信号における音響特徴ベクトル系列との誤差、並びに、エンコーダによって推定された潜在ベクトル系列と、パラレルデータの変換元の音声信号における潜在ベクトル系列との距離を用いて表される、上記(9)式の目的関数の値を最大化するように、エンコーダ及びデコーダを学習し、出力部50に出力する。ここで、エンコーダ及びデコーダの各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。
例えば、エンコーダ及びデコーダの各々は、ゲート付きCNNを用いて構成され、各畳み込み層の出力Hは、上記(10)式で表わされる。
<本発明の実施の形態に係る音声変換装置の構成>
次に、本発明の実施の形態に係る音声変換装置の構成について説明する。図2に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換装置150は、機能的には図2に示すように入力部60と、演算部70と、出力部90とを備えている。
入力部60は、変換元の音声信号と、変換元の音声信号の属性を示す属性ラベルと、目標の音声信号の属性を示す属性ラベルとを、入力として受け付ける。なお、変換元の音声信号の属性を示す属性ラベルと、目標の音声信号の属性を示す属性ラベルとは人手で与えればよい。また、変換元の音声信号の属性を示す属性ラベルに関しては、変換元の音声信号から自動的に抽出するようにしてもよい。
演算部70は、音響特徴抽出部72と、エンコーダ計算部74と、デコーダ計算部76と、変換音声生成部78とを含んで構成されている。
音響特徴抽出部72は、入力された変換元の音声信号から、音響特徴ベクトル系列を抽出する。
エンコーダ計算部74は、音声変換学習装置100により学習されたエンコーダを用いて、音響特徴抽出部72により抽出された音響特徴ベクトル系列及び入力部60で受け付けた属性ラベルから、潜在ベクトル系列を推定する。
デコーダ計算部76は、音声変換学習装置100により学習されたデコーダを用いて、推定された潜在ベクトル系列と、入力された目標の音声信号の属性を示す属性ラベルとから、目標の音声信号の音響特徴ベクトル系列を推定する。
変換音声生成部78は、推定された目標の音声信号の音響特徴ベクトル系列から、時間領域信号を生成し、目標の音声信号として出力部90により出力する。
<本発明の実施の形態に係る音声変換学習装置の作用>
次に、本発明の実施の形態に係る音声変換学習装置100の作用について説明する。入力部10により、変換元の音声信号と、変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び変換元の音声信号の属性を示す属性ラベルを受け付けると、音声変換学習装置100は、図3に示す音声変換学習処理ルーチンを実行する。
まず、ステップS100では、入力された変換元の音声信号から、音響特徴ベクトル系列を抽出する。
次に、ステップS102では、変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び変換元の音声信号の属性を示す属性ラベルに基づいて、エンコーダ、及びデコーダを学習し、学習結果を出力部50により出力して、音声変換学習処理ルーチンを終了する。
<本発明の実施の形態に係る音声変換装置の作用>
次に、本発明の実施の形態に係る音声変換装置150の作用について説明する。入力部60により、音声変換学習装置100による学習結果を受け付ける。また、入力部60により、変換元の音声信号と、変換元の音声信号の属性を示す属性ラベルと、目標の音声信号の属性を示す属性ラベルとを受け付けると、音声変換装置150は、図4に示す音声変換処理ルーチンを実行する。
まず、ステップS150では、入力された変換元の音声信号から、音響特徴ベクトル系列を抽出する。
次に、ステップS152では、音声変換学習装置100により学習されたエンコーダを用いて、音響特徴抽出部72により抽出された音響特徴ベクトル系列及び入力部60で受け付けた属性ラベルから、潜在ベクトル系列を推定する。
次に、ステップS154では、音声変換学習装置100により学習されたデコーダを用いて、推定された潜在ベクトル系列と、入力された目標の音声信号の属性を示す属性ラベルとから、目標の音声信号の音響特徴ベクトル系列を推定する。
ステップS156では、推定された目標の音声信号の音響特徴ベクトル系列から、時間領域信号を生成し、目標の音声信号として出力部90により出力して、音声変換処理ルーチンを終了する。
<実験結果>
本発明の実施の形態の手法による音声変換の音質と変換効果を確認するため、Voice Conversion Challenge (VCC)2016の音声データ(女性話者SF1と女性話者TF2)を用いて声質変換実験を行った。実験データの216文のうち162文を学習データ、84文をテストデータとした。全音声信号のサンプリング周波数は16kHzとした。各発話に対し、WORLD分析によりスペクトル包絡、基本周波数(F0)、非周期性指標の抽出を行い、抽出したスペクトル包絡系列に対し26次のメルケプストラム分析を行った。F0に関しては、変換目標音声のデータから対数F0の平均mSF1と標準偏差dTF2、変換元音声のデータから対数F0の平均mSF1と標準偏差dSF1を算出し、入力音声の対数F0パターンy(0),...,y(N -1)を
Figure 0006876641
のように変換した。エンコーダとデコーダのネットワーク構成は表1のとおりとした。“convolution、32ch,1×12,↓ 2,GLU"はそれぞれ、層のタイプ、フィルタ数、フィルタサイズ、ストライド、活性化関数のタイプを表す。また、Nは入力系列のフレーム数である。
Figure 0006876641
音質と変換効果の評価は、従来法(非特許文献3の方法)と提案法(本発明の実施の形態の方法)により得られた変換音声をA、Bとし、変換目標の実音声をXとしたABXテストにより行った。
[非特許文献3]T. Toda, A.W. Black, and K.Tokuda, "Voice conversion based on maximumlikelihood estimation of spectral parameter trajectory,” IEEE/ACM Trans. Audio Speech Lang. Process., vol. 15, no. 8, pp. 2222-2235, 2007.
被験者は6名で、各被験者にA、B、Xをそれぞれ10 発話ずつ提示し、それぞれの発話に対しAかBか「同等」かを選定させた。なお、従来法はパラレルデータを用いることを想定した方式のため、従来法に関してはパラレルデータを与える有利な条件で学習を行った。実験結果を表2と図6に示す。
Figure 0006876641
表2と図6より、音質においては提案法の優位性が確認され、変換音声の目標話者との類似感は提案法と従来法で同等であった。これは不利な学習条件で得られた結果としては特筆すべきものである。図5に、入力音声および提案法による変換音声のメルケプストラム係数系列の例を示す。
以上説明したように、本発明の実施の形態に係る音声変換学習装置によれば、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを学習することにより、所望の属性の音声に変換することができる変換関数を学習できる。
また、本発明の実施の形態に係る音声変換装置によれば、エンコーダを用いて、入力された変換元の音声信号における音響特徴ベクトル系列と、変換元の音声信号の属性を示す属性ラベルとから、潜在ベクトル系列を推定し、デコーダを用いて、推定された潜在ベクトル系列と、入力された目標の音声信号の属性を示す属性ラベルとから、目標の音声信号の音響特徴ベクトル系列を推定することにより、所望の属性の音声に変換することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、音声変換学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
また、上述の音声変換学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
30 音響特徴抽出部
32 学習部
50 出力部
60 入力部
70 演算部
72 音響特徴抽出部
74 エンコーダ計算部
76 デコーダ計算部
78 変換音声生成部
90 出力部
100 音声変換学習装置
150 音声変換装置

Claims (8)

  1. 変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性ラベルに基づいて、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを学習する学習部
    を含む音声変換学習装置。
  2. 前記学習部は、前記デコーダによって再構成された前記音響特徴ベクトル系列と、前記パラレルデータの変換元の音声信号における音響特徴ベクトル系列との誤差、並びに、前記エンコーダによって推定された前記潜在ベクトル系列と、前記パラレルデータの前記変換元の音声信号における潜在ベクトル系列との距離を用いて表される目的関数の値を最大化するように、前記エンコーダ及び前記デコーダを学習する請求項1記載の音声変換学習装置。
  3. 前記エンコーダ及び前記デコーダの各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される請求項1又は2記載の音声変換学習装置。
  4. 音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダを用いて、入力された変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号の属性を示す属性ラベルとから、潜在ベクトル系列を推定するエンコーダ計算部と、
    前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを用いて、前記推定された潜在ベクトル系列と、入力された目標の音声信号の属性を示す属性ラベルとから、目標の音声信号の音響特徴ベクトル系列を推定するデコーダ計算部と、
    を含む音声変換装置。
  5. 前記エンコーダ及び前記デコーダは、
    変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性ラベルに基づいて、
    前記デコーダによって再構成された前記音響特徴ベクトル系列と、前記パラレルデータの変換元の音声信号における音響特徴ベクトル系列との誤差、並びに、前記エンコーダによって推定された前記潜在ベクトル系列と、前記パラレルデータの前記変換元の音声信号における潜在ベクトル系列との距離を用いて表される目的関数の値を最大化するように予め学習されたものである請求項4記載の音声変換装置。
  6. 学習部が、変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号における潜在ベクトル系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性ラベルに基づいて、
    音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを学習する
    音声変換学習方法。
  7. エンコーダ計算部が、音響特徴ベクトル系列及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダを用いて、入力された変換元の音声信号における音響特徴ベクトル系列と、前記変換元の音声信号の属性を示す属性ラベルとから、潜在ベクトル系列を推定し、
    デコーダ計算部が、前記潜在ベクトル系列及び属性ラベルを入力として音響特徴ベクトル系列を再構成するデコーダを用いて、前記推定された潜在ベクトル系列と、入力された目標の音声信号の属性を示す属性ラベルとから、目標の音声信号の音響特徴ベクトル系列を推定する
    音声変換方法。
  8. コンピュータを、請求項1〜請求項3のいずれか1項に記載の音声変換学習装置、又は請求項4若しくは5に記載の音声変換装置の各部として機能させるためのプログラム。
JP2018028294A 2018-02-20 2018-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム Active JP6876641B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018028294A JP6876641B2 (ja) 2018-02-20 2018-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム
US16/970,935 US11450332B2 (en) 2018-02-20 2019-02-20 Audio conversion learning device, audio conversion device, method, and program
PCT/JP2019/006397 WO2019163849A1 (ja) 2018-02-20 2019-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018028294A JP6876641B2 (ja) 2018-02-20 2018-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019144402A JP2019144402A (ja) 2019-08-29
JP6876641B2 true JP6876641B2 (ja) 2021-05-26

Family

ID=67687716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018028294A Active JP6876641B2 (ja) 2018-02-20 2018-02-20 音声変換学習装置、音声変換装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11450332B2 (ja)
JP (1) JP6876641B2 (ja)
WO (1) WO2019163849A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
US11404050B2 (en) * 2019-05-16 2022-08-02 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
US11600284B2 (en) * 2020-01-11 2023-03-07 Soundhound, Inc. Voice morphing apparatus having adjustable parameters
US20230138232A1 (en) * 2020-01-30 2023-05-04 Nippon Telegraph And Telephone Corporation Conversion learning apparatus, conversion learning method, conversion learning program and conversion apparatus
KR102428447B1 (ko) 2020-03-25 2022-08-02 주식회사 우아한형제들 멀티 서빙로봇 운용방법 및 시스템
WO2021229643A1 (ja) * 2020-05-11 2021-11-18 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN113450761B (zh) * 2021-06-17 2023-09-22 清华大学深圳国际研究生院 一种基于变分自编码器的并行语音合成方法和装置
CN113689867B (zh) * 2021-08-18 2022-06-28 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
CN113488070B (zh) * 2021-09-08 2021-11-16 中国科学院自动化研究所 篡改音频的检测方法、装置、电子设备及存储介质
JP7179216B1 (ja) * 2022-07-29 2022-11-28 株式会社ドワンゴ 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
WO2024069726A1 (ja) * 2022-09-27 2024-04-04 日本電信電話株式会社 学習装置、変換装置、学習方法、変換方法及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US8224648B2 (en) * 2007-12-28 2012-07-17 Nokia Corporation Hybrid approach in voice conversion
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6189818B2 (ja) * 2014-11-21 2017-08-30 日本電信電話株式会社 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
WO2017146073A1 (ja) * 2016-02-23 2017-08-31 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
JP6472005B2 (ja) * 2016-02-23 2019-02-20 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6468519B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP2018013722A (ja) * 2016-07-22 2018-01-25 国立研究開発法人情報通信研究機構 音響モデル最適化装置及びそのためのコンピュータプログラム
WO2018224690A1 (en) * 2017-06-09 2018-12-13 Deepmind Technologies Limited Generating discrete latent representations of input data items
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples

Also Published As

Publication number Publication date
US20200395028A1 (en) 2020-12-17
WO2019163849A1 (ja) 2019-08-29
US11450332B2 (en) 2022-09-20
JP2019144402A (ja) 2019-08-29

Similar Documents

Publication Publication Date Title
JP6876641B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Kaneko et al. Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks
Kaneko et al. Parallel-data-free voice conversion using cycle-consistent adversarial networks
Chou et al. One-shot voice conversion by separating speaker and content representations with instance normalization
Mehrish et al. A review of deep learning techniques for speech processing
Gibiansky et al. Deep voice 2: Multi-speaker neural text-to-speech
Kaneko et al. Sequence-to-Sequence Voice Conversion with Similarity Metric Learned Using Generative Adversarial Networks.
Arik et al. Deep voice 2: Multi-speaker neural text-to-speech
Hsu et al. Unsupervised learning of disentangled and interpretable representations from sequential data
JP6973304B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Dissen et al. Formant estimation and tracking: A deep learning approach
JP7127419B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Jemine Real-time voice cloning
Aryal et al. Data driven articulatory synthesis with deep neural networks
JP6764851B2 (ja) 系列データ変換装置、学習装置、及びプログラム
Ajmera et al. Fractional Fourier transform based features for speaker recognition using support vector machine
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Sefara The effects of normalisation methods on speech emotion recognition
Nakashika et al. Voice conversion using speaker-dependent conditional restricted boltzmann machine
JP7393585B2 (ja) テキスト読み上げのためのWaveNetの自己トレーニング
WO2021229643A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
Sakamoto et al. StarGAN-VC+ ASR: Stargan-based non-parallel voice conversion regularized by automatic speech recognition
Shankarappa et al. A faster approach for direct speech to speech translation
Paul et al. A Universal Multi-Speaker Multi-Style Text-to-Speech via Disentangled Representation Learning Based on Rényi Divergence Minimization.
Ko et al. Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity MultiSpeaker TTS

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210426

R150 Certificate of patent or registration of utility model

Ref document number: 6876641

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150