JP6973304B2 - 音声変換学習装置、音声変換装置、方法、及びプログラム - Google Patents

音声変換学習装置、音声変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP6973304B2
JP6973304B2 JP2018113932A JP2018113932A JP6973304B2 JP 6973304 B2 JP6973304 B2 JP 6973304B2 JP 2018113932 A JP2018113932 A JP 2018113932A JP 2018113932 A JP2018113932 A JP 2018113932A JP 6973304 B2 JP6973304 B2 JP 6973304B2
Authority
JP
Japan
Prior art keywords
attribute
acoustic feature
conversion
decoder
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018113932A
Other languages
English (en)
Other versions
JP2019215500A (ja
Inventor
弘和 亀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018113932A priority Critical patent/JP6973304B2/ja
Priority to PCT/JP2019/023528 priority patent/WO2019240228A1/ja
Priority to US17/251,711 priority patent/US11900957B2/en
Publication of JP2019215500A publication Critical patent/JP2019215500A/ja
Application granted granted Critical
Publication of JP6973304B2 publication Critical patent/JP6973304B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声変換学習装置、音声変換装置、方法、及びプログラムに係り、特に、音声を変換するための音声変換学習装置、音声変換装置、方法、及びプログラムに関する。
入力音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が可能である。声質変換の問題は、変換元の音声の音響特徴量から変換目標の音声の音響特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model; GMM) を用いた手法はその有効性と汎用性から広く用いられている。また、近年では、フィードフォワード型ニューラルネットワーク(NeuralNetwork; NN)、再帰型NN(Recurrent NN; RNN)、畳み込み型NN(Convolutional NN; CNN) などのNN 系の手法や非負値行列因子分解(Non-negative Matrix Factorization; NMF) などを用いた事例(Exemplar)ベースの手法の検討も進められている。
これらの手法の多くは、時間整合された同一発話内容の音声ペアで構成されるパラレルデータを用いて変換音声の音響特徴量が目標音声の音響特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし、用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また、仮にそのようなペアデータが用意できる場合でも、高い精度の時間整合が必要となり、これを自動処理で行う際は整合ミスを修正するため目視と手動によるプリスクリーニングが必要となる場合が多い。
一方、パラレルデータを必ずしも必要としない非パラレル声質変換法も提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音響特徴量をペアとすることでパラレルデータを構築する。パラレルデータの構築のため対象音声に対し音声認識を高い精度で行えることが想定されるが、音声認識精度が十分でない場合には性能は限定的となる。話者性を変換するタスクに限定した方法としては話者適応技術を用いるものがある。この方法では、変換元音声と変換目標音声のパラレルデータを必要としないが、話者空間を学習するための参照音声のパラレルデータを用いる必要がある。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方式として、条件付変分自己符号化器(Conditional Variational Autoencoder; CVAE) に基づく非パラレル声質変換法が提案されている(非特許文献1、2)。この方法では、音響特徴量x とその属性に対応する属性コードc を入力として潜在変数z の条件付分布
Figure 0006973304

のパラメータを出力するエンコーダNNと、潜在変数zと属性コードcを入力として音響特徴量x の条件付分布
Figure 0006973304

のパラメータを出力するデコーダNN を学習サンプル
Figure 0006973304

を用いて学習することが目標となる。このようにして学習したエンコーダとデコーダに対し変換元音声の音響特徴量x と目標属性コードc´を入力することで、変換元音声の発話内容を保持したまま属性c´をもった音響特徴量^x を生成することが可能となる。
C.-C. Hsu,H.-T.Hwang,Y.-C. Wu,Y.Tsao, and H.-M. Wang, "Voice conversion from non-parallel corpora using variational auto-encoder," in Proc.APSIPA,2016, pp.1-6. C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, and H.-M. Wang, "Voice conversion from unaligned corpora using variational autoencodingWasserstein generative adversarial networks," in Proc. Interspeech, 2017, pp. 3364-3368.
前述のようにこの方式はパラレルデータを必要としない利点がある一方で、生成される音声の特徴量が過剰平滑化される傾向にあり、これが変換音声の品質に限界を与える一因となっていた。これはデコーダの条件付分布にガウス分布などのパラメトリックな確率分布形を仮定することに起因し、仮定した分布形が、実際に音響特徴量が従う真の確率分布と一致しないことによる。また、上述のCVAE 方式ではエンコーダとデコーダが属性コードc を補助入力として受け付ける形をとることで潜在変数系列の条件付分布
Figure 0006973304

および音響特徴量系列の条件付分布
Figure 0006973304

を学習することが可能になるが、エンコーダとデコーダの関数としての複雑度や表現能力によっては
Figure 0006973304

が属性コードc と独立になるように学習される可能性があり、従来の学習規準はこのような状況を回避するような設計にはなっていない。例えば、エンコーダとデコーダによる入力x の変換プロセスが恒等写像となるような場合が分かりやすい。この場合、モデルはいかなる入力x も補助入力c に頼ることなく表現できるため、
Figure 0006973304

が属性コードc に依らない
Figure 0006973304

Figure 0006973304

のような状況となる。このように学習されたモデルに、c を目標属性に設定した上で音響特徴系列を入力したとしても、c の影響を受けることなく入力値がそのままデコーダから生成されてしまい、変換効果が生まれないことになる。
以上のように上述のCVAE 方式は、非パラレル声質変換法の枠組であるという利点がある一方で、変換音声の品質と変換効果に解決すべき点が残されていた。
本発明は、上記問題点を解決するために成されたものであり、所望の属性の音声に変換することができる変換関数を学習できる音声変換学習装置、方法、及びプログラムを提供することを目的とする。
また、所望の属性の音声に変換することができる音声変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る音声変換学習装置は、変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダ、及び前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを学習する学習部であって、前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように、前記エンコーダ及び前記デコーダを学習する学習部を含んで構成されている。
また、本発明に係る音声変換学習方法は、学習部が、変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダ、及び前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを学習することであって、前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように、前記エンコーダ及び前記デコーダを学習する。
また、本発明に係る音声変換装置は、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダを用いて、入力された変換元の音声信号における音響特徴量系列と、前記変換元の音声信号の属性を示す属性コードとから、潜在変数系列を推定するエンコーダ計算部と、前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを用いて、前記推定された潜在変数系列と、入力された目標の音声信号の属性を示す属性コードとから、目標の音声信号の音響特徴量系列を推定するデコーダ計算部と、を含み、前記エンコーダ及び前記デコーダは、変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性コードに基づいて、前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように予め学習されたものである。
また、本発明に係る音声変換方法は、エンコーダ計算部が、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダを用いて、入力された変換元の音声信号における音響特徴量系列と、前記変換元の音声信号の属性を示す属性コードとから、潜在変数系列を推定し、デコーダ計算部が、前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを用いて、前記推定された潜在変数系列と、入力された目標の音声信号の属性を示す属性コードとから、目標の音声信号の音響特徴量系列を推定する音声変換方法であって、前記エンコーダ及び前記デコーダは、変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性コードに基づいて、前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように予め学習されたものである。
また、本発明に係るプログラムは、コンピュータを、上記発明に係る音声変換学習装置の各部、または上記発明に係る音声変換装置の各部として機能させるためのプログラムである。
本発明の音声変換学習装置、方法、及びプログラムによれば、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダ、及び前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを、前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように学習することにより、所望の属性の音声に変換することができる変換関数を学習できる、という効果が得られる。
本発明の音声変換装置、方法、及びプログラムによれば、前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように予め学習されたエンコーダとデコーダを用いて、エンコーダにより、入力された変換元の音声信号における音響特徴量系列と、前記変換元の音声信号の属性を示す属性コードとから、潜在変数系列を推定し、デコーダにより、前記推定された潜在変数系列と、入力された目標の音声信号の属性を示す属性コードとから、目標の音声信号の音響特徴量系列を推定することにより、所望の属性の音声に変換することができる。
本発明の実施の形態に係る音声変換学習装置の構成を示すブロック図である。 本発明の実施の形態に係る音声変換装置の構成を示すブロック図である。 本発明の実施の形態に係る音声変換学習装置における音声変換学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンを示すフローチャートである。 変換元音声(テストデータ)の音響特徴量系列を示す図である。 テストデータと発話文が同一の目標音声の音響特徴量系列を示す図である。 本発明の実施の形態の手法による、変換音声の音響特徴量系列を示す図である。 従来手法による、変換音声の音響特徴量系列を示す図である。 別の従来手法による、変換音声の音響特徴量系列を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態では、以上の従来技術の問題や限界を克服する非パラレル声質変換手法を提案する。本発明の実施の形態の方法は、(1)テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点、(2)従来の多くの声質変換法においてしばしば問題とされる音響特徴量の過剰平滑化が起こりにくい点、(3)変換元と変換目標の音声の時間依存性を捉えた変換が可能である点、(4)属性識別器を用いて測られる変換音声の目標属性の度合いを学習規準に含む点、(5)単一のエンコーダとデコーダで多種の属性への変換が可能である(属性数に応じて学習すべきパラメータの数がほとんど変わらない)点、を特長にもつ。
以上の本発明の実施の形態の方法の特長は、以下の(a)〜(e)により実現する。
(a)エンコーダとデコーダとともに属性識別器を用いる。
(b)音響特徴量系列をエンコーダの入力、デコーダの出力、属性識別器の入力とし、潜在変数系列をエンコーダの出力およびデコーダの入力とする。
(c)エンコーダ、デコーダ、属性識別器のネットワークをそれぞれCNN(ゲート付きCNN など)またはRNN(LSTM など)によりモデル化する。
(d)入力値復元誤差規準、潜在変数分布間距離規準、属性識別規準からなる学習規準を用いてエンコーダ、デコーダとともに属性識別器を学習する。
(e)学習したエンコーダおよびデコーダで入力音声の音響特徴量系列を目標属性になるように変換したものと、入力音声と同一の属性になるように変換したものとの間の変化量に基づいて属性変換に伴うスペクトルゲイン関数を算出し、これを入力音声のスペクトル系列に乗じた上で時間領域信号を算出することで変換音声を得る。
<本発明の実施の形態の原理>
<変分自己符号化器(Variational Autoencoder; VAE)>
VAE はエンコーダとデコーダのニューラルネットワーク(Neural Network; NN) からなる確率的生成モデルである。エンコーダネットワークは入力データx が与えられた下での潜在変数z の条件付分布
Figure 0006973304

の確率分布パラメータ(ガウス分布の場合は平均と分散)を出力するNN で、デコーダネットワークは潜在変数z が与えられた下でのデータx の条件付分布
Figure 0006973304

の確率分布パラメータを出力するNN である。VAE の学習では、学習データ
Figure 0006973304

を用い、エンコーダ分布
Figure 0006973304

が事後分布
Figure 0006973304

とできるだけ一致するようにエンコーダとデコーダのNN パラメータφ、θを決定することが目標となる。
Jensen の不等式を用いることにより対数周辺尤度(エビデンス)log p(x) の下界
Figure 0006973304

(1)
が得られる。式(1) の左辺と右辺の差は
Figure 0006973304

のKullback-Leibler (KL) ダイバージェンス
Figure 0006973304

と等しく、
Figure 0006973304

(2)
のとき最小となる。よって、式(1) の右辺を大きくすることは
Figure 0006973304

を近づけることに相当する。ここで、
Figure 0006973304

をパラメータφのエンコーダネットワークの出力、
Figure 0006973304

をパラメータθのデコーダネットワークの出力とし、
Figure 0006973304

をそれぞれこれらを平均と分散とした正規分布
Figure 0006973304

とする。また、
Figure 0006973304

を標準正規分布
Figure 0006973304

(3)
Figure 0006973304

(4)
Figure 0006973304

(5)
と仮定すると、式(1) の右辺第一項は
Figure 0006973304

(6)
と書ける。ここで、
Figure 0006973304


Figure 0006973304

という関係式を通して
Figure 0006973304

に変数変換できることを用いている。ただし、
Figure 0006973304

は要素ごとの積を表す。式(6)は、εに由来するランダム項を無視すると、x と
Figure 0006973304

の重み付き二乗誤差の負となっていることが分かる。また、式(1)の右辺第二項は
Figure 0006973304

のKL ダイバージェンスの負で与えられ、エンコーダネットワークの出力の各要素が独立にかつ正規分布に従うよう強制する正則化項として働く。以後、式(1)の右辺第一項を入力値復元誤差規準、第二項を潜在変数分布間距離規準と呼ぶ。
条件付VAE (Conditional VAE; CVAE) は
Figure 0006973304

(7)
Figure 0006973304

(8)
のようにエンコーダとデコーダを補助変数c を入力可能な形にしたVAE の拡張版である。このとき、最大化したい目的関数は、
Figure 0006973304

(9)
となる。ただし、
Figure 0006973304

はすべての属性のデータ標本による標本平均を意味する。つまり、式(9) は
Figure 0006973304

(10)
と同じ意味である。
<CVAE による声質変換(従来法)>
Figure 0006973304

を音響特徴量(メルケプストラム係数など)、cを属性コードとすると、非パラレル声質変換の問題はCVAE により定式化することができる(非特許文献1、2)。学習データを
Figure 0006973304

とすると、エンコーダは属性コードcnを手がかりに音響特徴量xn を潜在変数zn に変換する関数を学習し、デコーダは属性コードcn を手がかりに潜在変数zn から音響特徴量^xn を再構成する関数を学習する。学習が完了したら変換元となる音声の各フレームにおける音響特徴量をエンコーダに入力し、生成された潜在変数とともにデコーダに目標属性コードを入力して音響特徴量を再構成することで、目標属性をもった音響特徴量の系列を得ることができる。あとはこれを時間領域信号に変換すれば良い。
<時系列CVAE による声質変換(従来法)>
音声は文脈や発話内容に応じて話し方や声質の変化の仕方は異なる。よって、音響特徴量を変換する関数は、時間依存性を有する(入力音声と出力音声の音響特徴量系列の履歴に依存して決定される)ことが望ましい。しかし、上述の方法は、各フレーム独立に音響特徴量の変換が行われるため、音響特徴量系列の時間依存関係を捉えた変換を行う方法となっていなかった。そこで、音声の音響特徴量の時間依存性を捉えた変換を行えるようにCVAE の入力と出力を時系列データを想定した形に拡張する。具体的にはエンコーダとデコーダのネットワークをそれぞれCNN(ゲート付きCNNなど)やRNN(LSTM など)によりモデル化する。ここでは発話m の音響特徴量系列を
Figure 0006973304

とし、属性コードをcm とする。学習データを
Figure 0006973304

とし、エンコーダは発話m ごとに属性コードcmを手がかりに音響特徴量系列xmを潜在変数系列
Figure 0006973304

に変換する関数を学習し、デコーダは属性コードcm を手がかりに潜在変数系列zm から音響特徴量系列^xm を再構成する関数を学習する。学習を完了したら変換元となる属性の発話の音響特徴量系列をエンコーダに入力し、生成された潜在変数系列とともにデコーダに目標属性コードを入力して音響特徴量系列を再構成することで、目標属性をもった音響特徴量系列を得ることができる。あとはこれを時間領域信号に変換すれば良い。エンコーダとデコーダのネットワーク構造としては、例えばCNN やRNN などを用いることができる。CNN の場合、xm を1チャネルのサイズがQ×Nm の画像と見なして2次元CNN を適用する場合と、Q チャネルのサイズが1×Nm の画像と見なして1次元CNN を適用する場合が考えられる。また、CNN に各層をゲート付き線形ユニット(Gated Linear Unit; GLU) としたゲート付きCNN、RNN の亜種として長期短期記憶(Long Short-Term Memory; LSTM) を用いることもできる。ゲート付きCNN は、元々単語列の予測モデルとして最初に導入され、同条件の実験でLSTMを超える単語予測性能を発揮することが報告されている。エンコーダの第l層の出力をhlとすると、ゲート付きCNNではhl
Figure 0006973304

(11)
と表す。ただし、σは要素毎シグモイド関数を表し、Kl を第l層のチャネル数、Qw l×Nw l およびQv l×Nv l を第l層の線形ユニットおよびゲートユニットにおけるフィルタサイズとすると、
Figure 0006973304

が推定すべきパラメータとなる。これを要素ごとに表記すると
Figure 0006973304

(12)
となる。以上はデコーダも同様で、デコーダのパラメータを
Figure 0006973304

とする。エンコーダとデコーダの出力層(第L層)については例えば線形層
Figure 0006973304

(13)
Figure 0006973304

(14)
Figure 0006973304

(15)
Figure 0006973304

(16)
を用いることができる。
<InfomaxCVAE 声質変換(本発明の実施の形態の方法)>
<学習方法I>
従来のCVAE ではエンコーダとデコーダが属性コードc を補助入力として受け付ける形をとることで潜在変数系列の条件付分布
Figure 0006973304

および音響特徴量系列の条件付分布
Figure 0006973304

を学習することが可能になるが、従来の学習規準のみではエンコーダとデコーダの関数としての複雑度や表現能力によっては
Figure 0006973304

が属性コードc に独立になるように学習される可能性がある。例えば、エンコーダとデコーダによる入力x の変換プロセスが恒等写像となるような場合が分かりやすい。この場合、モデルはいかなる入力x も補助入力c に頼ることなく表現できるため、
Figure 0006973304

が属性コードc に依らない
Figure 0006973304

のような状況となる。このように学習されたモデルに、c を目標属性に設定した上で音響特徴系列を入力したとしても、c の影響を受けることなく入力値がそのままデコーダから生成されてしまい、変換効果が生まれないことになる。以上のような状況を回避するため、本発明の実施の形態では、属性コードc のデコーダ出力への影響力ができるだけ大きくなるよう属性コードcとデコーダ出力の相互情報量(Mutual Information) を考慮に入れた学習方法を提案する。この方法をInformation Maximizing CVAE (InfomaxCVAE)と呼ぶ。
本発明の実施の形態の方法では、式(1) の従来のCVAE の学習規準とともに、潜在変数z と属性コードc を入力としたときのデコーダの出力x と属性c の相互情報量
Figure 0006973304

(17)
もできるだけ大きくなるようにエンコーダおよびデコーダを学習することを考える。ただし、H(c)はc のエントロピーを表し、エンコーダNN やデコーダNN のパラメータに依らない定数である。式(17)のように、相互情報量I(c; x) はc の事後分布
Figure 0006973304

を含んだ形として書けるが、この分布を解析的に記述することは難しいため、式(17) を直接大きくするようにエンコーダとデコーダを学習することは難しい。そこで、補助分布
Figure 0006973304

を導入し、
Figure 0006973304

を用いてI(c; x) の下界が
Figure 0006973304
で与えられることを利用する。この不等式の等号は、
Figure 0006973304

のときに成立するため、
Figure 0006973304

を変数として扱い、
Figure 0006973304

に関して右辺を大きくすることは、
Figure 0006973304

を近似すること、かつI(c; x) を右辺で近似することに相当する。よって、エンコーダとデコーダとともに補助分布
Figure 0006973304

に関して式(18) の右辺を大きくしていくことで、間接的に相互情報量I(c; x) を大きくすることができる。補助分布
Figure 0006973304

はx の属性c らしさを表すいわば属性識別器と見なせる。本方法ではこの
Figure 0006973304

をNNで表現し、そのパラメータψをエンコーダNNとデコーダNNのパラメータφ、θとともに学習する。以後、パラメータψのNN で表された補助分布
Figure 0006973304

と表す。式(17) はエンコーダより生成された潜在変数z が与えられた下でのデコーダ入出力間の条件付相互情報量を表したものであったので、エンコーダ入力
Figure 0006973304

およびエンコーダ出力zに関する式(18) 右辺の期待値
Figure 0006973304

(19)
が最大化したい規準となる。この規準は、学習データ
Figure 0006973304

の各サンプルをエンコーダに入力したときにエンコーダから生成される潜在変数z とランダムに選んだ属性c をデコーダに入力したときにデコーダから生成されるxが、属性識別器rに正しく属性c のものと識別される場合に大きい値をとる規準となっている。よって、この規準が大きくなるように各パラメータを学習することで、デコーディングプロセスにおいて補助入力c の影響が強く反映されるようなモデルを得ることができる。なお、式(18) の最後の段の等式は以下の等式により示される。
Figure 0006973304

(20)
以上より、InfomaxCVAEの学習規準は
Figure 0006973304

(21)
となり、この規準を用いたエンコーダ、デコーダ、属性識別器の学習は各々のNNパラメータφ、θ、ψを誤差逆伝播法により反復更新することにより行うことができる。
<学習方法II>
属性識別器
Figure 0006973304

は属性コードが付与された学習データ
Figure 0006973304

から直接学習することもできるので、例えば
Figure 0006973304

に対する識別スコア
Figure 0006973304

(22)
を学習規準に含めることもできる。従って、この場合のInfomaxCVAE の学習規準は
Figure 0006973304

(23)
となる。上記学習方法Iと同様、エンコーダ、デコーダ、属性識別器の学習は各々のNN パラメータφ、θ、ψを誤差逆伝播法により反復更新することにより行うことができる。
あるいは属性識別器
Figure 0006973304


Figure 0006973304

のみを規準として学習しても良い。この場合、φとθに関しては
Figure 0006973304

が大きくなるように学習し、ψに関しては
Figure 0006973304

が大きくなるように学習する。
<属性コードと属性識別器について>
ここで、属性はI個のカテゴリからなり、各カテゴリは複数のクラスからなるものとする。従って、属性c はI 個のクラスラベルによって表現される。例えばc は、各カテゴリ中の該当クラスを示したone-hot ベクトル(要素の一つが1で、それ以外の要素がすべて0のベクトル)を結合したバイナリベクトル
Figure 0006973304

(24)
Figure 0006973304

(25)
で表すことができる。例えばi が「話者」カテゴリであればj = 1,・・・,J は話者ID となり、i が「性別」カテゴリであればj = 1,2は男性/女性を表す。
Figure 0006973304

は、
Figure 0006973304

のような関数とし、音響特徴量系列
Figure 0006973304

を画像と見なしたときにx が各パッチ(q′,n′) においてどれくらいカテゴリi のクラスj らしいかを表す確率を出力する関数と見なす。Q′=1 のときは時刻n′ごとに各クラスの確率が一つ割り当てられ、さらにN′=1のときは音響特徴量系列xの全体に対し各クラスの確率が一つ割り当てられる。
<NNの構成>
音声は文脈や発話内容に応じて話し方や声質の変化の仕方は異なる。よって、音響特徴量を変換する関数は、時間依存性を有する(入力音声と出力音声の音響特徴量系列の履歴に依存して決定される)ことが望ましい。そこで、本発明の実施の形態では、音声の音響特徴量の時間依存性を捉えた変換や識別を行えるようにエンコーダ、デコーダ、属性識別器の各々のNNを長短期記憶(Long Short-Term Memory;LSTM) や双方向LSTM(Birectional LSTM; BiLSTM)などのRNN や時間方向の畳み込みを含むCNNまたはゲート付きCNNなどによりモデル化する。
<変換方法(本発明の実施の形態の方法)>
音響特徴ベクトルとしては、
(A1) 対数振幅スペクトルを要素としたベクトル
(A2) メルケプストラム係数を要素としたベクトル
(A3) 線形予測係数を要素としたベクトル
(A4) 偏自己相関係数(Partial Correlation; PARCOR)係数を要素としたベクトル
(A5) 線スペクトル対(Line Spectral Pair; LSP)パラメータを要素としたベクトル
などを用いることができる。(A1)はSTFTやウェーブレット変換などの時間周波数解析、(A2)はメルケプストラム分析、(A3)は線形予測分析、(A4)はPARCOR分析、(A5)はLSP分析を用いることにより得ることができる。また、(A1)はSTRAIGHT 分析、WORLD分析などにより得られるスペクトル包絡としても良く、(A2−A5)もスペクトル包絡に対しそれぞれの分析により得られたものとしても良い。例えば、以下の(B1−B5)を音響特徴ベクトルとして用いても良い。
(B1) 対数スペクトル包絡を要素としたベクトル
(B2) B1より得られるメルケプストラム係数を要素としたベクトル
(B3) B1より得られる線形予測係数を要素としたベクトル
(B4) B1より得られるPARCOR係数を要素としたベクトル
(B5) B1より得られるLSPパラメータを要素としたベクトル
φ、θの学習完了後、入力音声の属性コードcと音響特徴量系列xをエンコーダに入力し、エンコーダの出力と目標属性コードc′をデコーダに入力することで変換音声の音響特徴量系列^x を得ることができる。このプロセスは
Figure 0006973304

(26)
と表される。以上により得られる^x から時間領域信号を得ることにより変換音声を得ることができる。これは、音響特徴量として(A1)を用いる場合は時間周波数解析の逆変換(逆STFT、ウェーブレット逆変換など)、(A2)‐(A5)、(B1)‐(B5)を用いる場合はボコーダを用いることにより実現できる。
以上の方法で得られる^x は過剰に平滑化される傾向にあるため、以下の方法を用いても良い。
まず、
Figure 0006973304

(27)
により入力音声の再構成音響特徴量系列を得る。これにより得られる~x もまた過剰に平滑化されるが、このことを利用して、^x と~x からスペクトルゲイン系列を算出した上で、これを入力音声のスペクトル系列またはスペクトル包絡系列にフレームごとに乗じることで変換音声のスペクトル系列またはスペクトル包絡系列を得ることができる。また、各フレームのスペクトルゲインを時間領域に変換してインパルス応答を得た上で入力音声の時間領域信号にフレームごとにインパルス応答を畳み込むことで変換音声の時間領域信号を直接得ることもできる。
<本発明の実施の形態に係る音声変換学習装置の構成>
次に、本発明の実施の形態に係る音声変換学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る音声変換学習装置100は、CPUと、RAMと、後述する音声変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、変換元の音声信号と、変換元の音声信号における潜在変数系列とのパラレルデータ、及び変換元の音声信号の属性を示す属性コードを受け付ける。なお、変換元の音声信号の属性を示す属性コードは、人手で与えておけばよい。また、音声信号の属性とは、例えば、性別、大人/子供、話者ID、母語話者か否か(出身)、発話ムードの種類(怒り、悲しみなど)、発話モード(講演風、自由発話風など)などである。
演算部20は、音響特徴抽出部30と、学習部32を含んで構成されている。
音響特徴抽出部30は、入力された変換元の音声信号から、音響特徴量系列を抽出する。
学習部32は、変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び変換元の音声信号の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダ、及び潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを学習する。
具体的には、学習部32は、デコーダによって再構成された音響特徴量系列と、パラレルデータの変換元の音声信号における音響特徴量系列との誤差、エンコーダによって推定された潜在変数系列と、パラレルデータの変換元の音声信号における潜在変数系列との距離、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される、上記(21)式の目的関数の値を最大化するように、エンコーダ、デコーダ、及び属性識別器を学習し、出力部50に出力する。ここで、エンコーダ、デコーダ、及び属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。
例えば、エンコーダ、デコーダ、及び属性識別器の各々は、ゲート付きCNNを用いて構成され、各畳み込み層の出力hは、上記(11)式で表わされる。
なお、目的関数が、上記(23)式に示すように、前記変換元の音声信号における音響特徴量系列についての、前記属性識別器によって識別される、前記変換元の音声信号の属性を示す属性コードらしさを更に用いて表されてもよい。
また、エンコーダ及びデコーダについて、上記(21)式の目的関数の値を最大化するように学習すると共に、属性識別器について、上記(22)式の値を最大化するように学習してもよい。
<本発明の実施の形態に係る音声変換装置の構成>
次に、本発明の実施の形態に係る音声変換装置の構成について説明する。図2に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換装置150は、機能的には図2に示すように入力部60と、演算部70と、出力部90とを備えている。
入力部60は、変換元の音声信号と、変換元の音声信号の属性を示す属性コードと、目標の音声信号の属性を示す属性コードとを、入力として受け付ける。なお、変換元の音声信号の属性を示す属性コードと、目標の音声信号の属性を示す属性コードとは人手で与えればよい。また、変換元の音声信号の属性を示す属性コードに関しては、変換元の音声信号から自動的に抽出するようにしてもよい。
演算部70は、音響特徴抽出部72と、エンコーダ計算部74と、デコーダ計算部76と、変換音声生成部78とを含んで構成されている。
音響特徴抽出部72は、入力された変換元の音声信号から、音響特徴量系列を抽出する。
エンコーダ計算部74は、音声変換学習装置100により学習されたエンコーダを用いて、音響特徴抽出部72により抽出された音響特徴量系列及び入力部60で受け付けた属性コードから、潜在変数系列を推定する。
デコーダ計算部76は、音声変換学習装置100により学習されたデコーダを用いて、推定された潜在変数系列と、入力された目標の音声信号の属性を示す属性コードとから、上記(26)式に従って、目標の音声信号の音響特徴量系列を推定する。
変換音声生成部78は、推定された目標の音声信号の音響特徴量系列から、時間領域信号を生成し、目標の音声信号として出力部90により出力する。
なお、上記(26)式に従って、エンコーダおよびデコーダで入力音声の音響特徴量系列を目標属性になるように変換した音響特徴量系列と、上記(27)式に従って、エンコーダおよびデコーダで入力音声と同一の属性になるように変換した音響特徴量系列との間の変化量に基づいて属性変換に伴うスペクトルゲイン関数を算出し、これを入力音声のスペクトル系列又はスペクトル包絡系列にフレーム毎に乗じて、目標の音声信号のスペクトル系列又はスペクトル包絡系列を求め、目標の音声信号の時間領域信号を生成するようにしてもよい。
<本発明の実施の形態に係る音声変換学習装置の作用>
次に、本発明の実施の形態に係る音声変換学習装置100の作用について説明する。入力部10により、変換元の音声信号と、変換元の音声信号における潜在変数系列とのパラレルデータ、及び変換元の音声信号の属性を示す属性コードを受け付けると、音声変換学習装置100は、図3に示す音声変換学習処理ルーチンを実行する。
まず、ステップS100では、入力された変換元の音声信号から、音響特徴量系列を抽出する。
次に、ステップS102では、変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び変換元の音声信号の属性を示す属性コードに基づいて、エンコーダ、デコーダ、及び属性識別器を学習し、学習結果を出力部50により出力して、音声変換学習処理ルーチンを終了する。
<本発明の実施の形態に係る音声変換装置の作用>
次に、本発明の実施の形態に係る音声変換装置150の作用について説明する。入力部60により、音声変換学習装置100による学習結果を受け付ける。また、入力部60により、変換元の音声信号と、変換元の音声信号の属性を示す属性コードと、目標の音声信号の属性を示す属性コードとを受け付けると、音声変換装置150は、図4に示す音声変換処理ルーチンを実行する。
まず、ステップS150では、入力された変換元の音声信号から、音響特徴量系列を抽出する。
次に、ステップS152では、音声変換学習装置100により学習されたエンコーダを用いて、音響特徴抽出部72により抽出された音響特徴量系列及び入力部60で受け付けた属性コードから、潜在変数系列を推定する。
次に、ステップS154では、音声変換学習装置100により学習されたデコーダを用いて、推定された潜在変数系列と、入力された目標の音声信号の属性を示す属性コードとから、目標の音声信号の音響特徴量系列を推定する。
ステップS156では、推定された目標の音声信号の音響特徴量系列から、時間領域信号を生成し、目標の音声信号として出力部90により出力して、音声変換処理ルーチンを終了する。
<実験結果>
本発明の実施の形態の手法による音声変換の音質と変換効果を確認するため、Voice Conversion Challenge (VCC) 2018 の4 話者の音声データ(女性話者VCC2SF1、男性話者VCC2SM1、女性話者VCC2SF2、男性話者VCC2SM2)を用いて話者性変換実験を行った。よってここでは属性コードは話者ID に対応する4 次元のone-hot ベクトルとした。各話者につき81 文を学習データ、35 文をテストデータとし、全音声信号のサンプリング周波数は22050Hz とした。各発話に対し、WORLD分析によりスペクトル包絡、基本周波数(F0)、非周期性指標の抽出を行い、抽出したスペクトル包絡系列に対し35 次のメルケプストラム分析を行った。F0 に関しては、変換目標音声の学習データから有声区間における対数F0 の平均msrc と標準偏差σsrc、変換元音声の学習データから有声区間における対数F0 の平均mtrg と標準偏差σsrc を算出し、入力音声の対数F0 パターンy(0),…,y(N‐1) を
Figure 0006973304

(28)
のように変換した。本実験ではエンコーダ、デコーダ、属性識別器のネットワーク構造を表1のとおりとした。各表の1列目は各層のタイプ、2列目は各層への入力のチャネル数およびサイズ、3列目は各層の出力のチャネル数およびサイズ、4 列目はフィルタサイズ、5 列目は畳み込みのストライド、6列目は活性化関数のタイプ(GLU はGated Linear Unit、BN はBatch Normalization の略記)を表す。
Figure 0006973304
エンコーダとデコーダの各層の入力の( + 4)ch は属性コードcの補助入力チャネルを意味し、エンコーダとデコーダの出力の(× 2)ch はガウス分布の平均と対数分散に対応するチャネルを意味する。
図5のテストデータに対し、本発明の実施の形態の方法で変換した音声の音響特徴量系列を図7に示し、非特許文献1に記載の従来法(CVAE 方式)で変換した音声の音響特徴量系列を図8に示し、その改良版である非特許文献2に記載の従来法で変換した音声の音響特徴量系列を図9に示す。また、図6にテストデータと発話文が同一の変換目標音声の音響特徴量系列を示す。図7〜9からも分かるように、二つの従来法と比較して、本発明の実施の形態の方法ではより図6に近い音響特徴量系列の変換音声が得られることを確認した。また、これらの音響特徴量系列から生成した音声信号を聞き比べても、本発明の実施の形態の方法により従来方法に比べて高品質かつ変換目標話者に類似した声質の音声が得られることを確認した。
以上説明したように、本発明の実施の形態に係る音声変換学習装置によれば、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダ、及び潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを、デコーダによって再構成された音響特徴量系列と、パラレルデータの変換元の音声信号における音響特徴量系列との誤差、エンコーダによって推定された潜在変数系列と、パラレルデータの変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力としてデコーダによって再構成された音響特徴量系列について、属性識別器によって識別される任意の属性コードらしさを用いて表される目的関数の値を最大化するように学習することにより、所望の属性の音声に変換することができる変換関数を学習できる。
また、本発明の実施の形態に係る音声変換装置によれば、デコーダによって再構成された音響特徴量系列と、パラレルデータの変換元の音声信号における音響特徴量系列との誤差、エンコーダによって推定された潜在変数系列と、パラレルデータの変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力としてデコーダによって再構成された音響特徴量系列について、属性識別器によって識別される任意の属性コードらしさを用いて表される目的関数の値を最大化するように予め学習されたエンコーダ及びデコーダを用いて、エンコーダにより、入力された変換元の音声信号における音響特徴量系列と、変換元の音声信号の属性を示す属性コードとから、潜在変数系列を推定し、デコーダにより、推定された潜在変数系列と、入力された目標の音声信号の属性を示す属性コードとから、目標の音声信号の音響特徴量系列を推定することにより、所望の属性の音声に変換することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、音声変換学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
また、上述の音声変換学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
30 音響特徴抽出部
32 学習部
50 出力部
60 入力部
70 演算部
72 音響特徴抽出部
74 エンコーダ計算部
76 デコーダ計算部
78 変換音声生成部
90 出力部
100 音声変換学習装置
150 音声変換装置

Claims (8)

  1. 変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダ、及び前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを学習する学習部であって、
    前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように、前記エンコーダ及び前記デコーダを学習する学習部
    を含む音声変換学習装置。
  2. 前記目的関数は、前記変換元の音声信号における音響特徴量系列についての、前記属性識別器によって識別される、前記変換元の音声信号の属性を示す属性コードらしさを更に用いて表され、
    前記学習部は、前記目的関数の値を最大化するように、前記エンコーダ、前記デコーダ、及び前記属性識別器を学習する請求項1記載の音声変換学習装置。
  3. 前記学習部は、前記目的関数の値を最大化するように、前記エンコーダ及び前記デコーダを学習する共に、前記変換元の音声信号における音響特徴量系列についての、前記属性識別器によって識別される、前記変換元の音声信号の属性を示す属性コードらしさに基づいて、前記属性識別器を学習する請求項1記載の音声変換学習装置。
  4. 前記エンコーダ、前記デコーダ、及び前記属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される請求項1〜請求項3の何れか1項記載の音声変換学習装置。
  5. 音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダを用いて、入力された変換元の音声信号における音響特徴量系列と、前記変換元の音声信号の属性を示す属性コードとから、潜在変数系列を推定するエンコーダ計算部と、
    前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを用いて、前記推定された潜在変数系列と、入力された目標の音声信号の属性を示す属性コードとから、目標の音声信号の音響特徴量系列を推定するデコーダ計算部と、
    を含み、
    前記エンコーダ及び前記デコーダは、
    変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性コードに基づいて、
    前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように予め学習されたものである音声変換装置。
  6. 学習部が、変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダ、及び前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを学習することであって、
    前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように、前記エンコーダ及び前記デコーダを学習する
    音声変換学習方法。
  7. エンコーダ計算部が、音響特徴量系列及び属性コードを入力として潜在変数系列を推定するエンコーダを用いて、入力された変換元の音声信号における音響特徴量系列と、前記変換元の音声信号の属性を示す属性コードとから、潜在変数系列を推定し、
    デコーダ計算部が、前記潜在変数系列及び属性コードを入力として音響特徴量系列を再構成するデコーダを用いて、前記推定された潜在変数系列と、入力された目標の音声信号の属性を示す属性コードとから、目標の音声信号の音響特徴量系列を推定する
    音声変換方法であって、
    前記エンコーダ及び前記デコーダは、
    変換元の音声信号における音響特徴量系列と、前記変換元の音声信号における潜在変数系列とのパラレルデータ、及び前記変換元の音声信号の属性を示す属性コードに基づいて、
    前記デコーダによって再構成された前記音響特徴量系列と、前記パラレルデータの変換元の音声信号における音響特徴量系列との誤差、前記エンコーダによって推定された前記潜在変数系列と、前記パラレルデータの前記変換元の音声信号における潜在変数系列との距離、並びに、任意の属性コードを入力として前記デコーダによって再構成された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさを用いて表される目的関数の値を最大化するように予め学習されたものである音声変換方法。
  8. コンピュータを、請求項1〜請求項4のいずれか1項に記載の音声変換学習装置、又は請求項5に記載の音声変換装置の各部として機能させるためのプログラム。
JP2018113932A 2018-06-14 2018-06-14 音声変換学習装置、音声変換装置、方法、及びプログラム Active JP6973304B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018113932A JP6973304B2 (ja) 2018-06-14 2018-06-14 音声変換学習装置、音声変換装置、方法、及びプログラム
PCT/JP2019/023528 WO2019240228A1 (ja) 2018-06-14 2019-06-13 音声変換学習装置、音声変換装置、方法、及びプログラム
US17/251,711 US11900957B2 (en) 2018-06-14 2019-06-13 Voice conversion learning device, voice conversion device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018113932A JP6973304B2 (ja) 2018-06-14 2018-06-14 音声変換学習装置、音声変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019215500A JP2019215500A (ja) 2019-12-19
JP6973304B2 true JP6973304B2 (ja) 2021-11-24

Family

ID=68842295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018113932A Active JP6973304B2 (ja) 2018-06-14 2018-06-14 音声変換学習装置、音声変換装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11900957B2 (ja)
JP (1) JP6973304B2 (ja)
WO (1) WO2019240228A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223513A (zh) * 2020-02-05 2021-08-06 阿里巴巴集团控股有限公司 语音转换方法、装置、设备和存储介质
JP7181332B2 (ja) * 2020-09-25 2022-11-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声変換方法、装置及び電子機器
JP7518429B2 (ja) 2020-10-23 2024-07-18 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
US11605369B2 (en) * 2021-03-10 2023-03-14 Spotify Ab Audio translator
CN113450761B (zh) * 2021-06-17 2023-09-22 清华大学深圳国际研究生院 一种基于变分自编码器的并行语音合成方法和装置
CN113450759A (zh) * 2021-06-22 2021-09-28 北京百度网讯科技有限公司 语音生成方法、装置、电子设备以及存储介质
JP7179216B1 (ja) * 2022-07-29 2022-11-28 株式会社ドワンゴ 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6543820B2 (ja) * 2015-06-04 2019-07-17 国立大学法人電気通信大学 声質変換方法および声質変換装置
JP6649210B2 (ja) * 2016-08-30 2020-02-19 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
WO2019240228A1 (ja) 2019-12-19
US20210118460A1 (en) 2021-04-22
JP2019215500A (ja) 2019-12-19
US11900957B2 (en) 2024-02-13

Similar Documents

Publication Publication Date Title
JP6876641B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP6973304B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Chou et al. One-shot voice conversion by separating speaker and content representations with instance normalization
Arik et al. Deep voice 2: Multi-speaker neural text-to-speech
Gibiansky et al. Deep voice 2: Multi-speaker neural text-to-speech
Akuzawa et al. Expressive speech synthesis via modeling expressions with variational autoencoder
Ping et al. Clarinet: Parallel wave generation in end-to-end text-to-speech
JP7127419B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Jemine Real-time voice cloning
Dissen et al. Formant estimation and tracking: A deep learning approach
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
JP2020524308A (ja) 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体
JP6764851B2 (ja) 系列データ変換装置、学習装置、及びプログラム
US10311888B2 (en) Voice quality conversion device, voice quality conversion method and program
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP7393585B2 (ja) テキスト読み上げのためのWaveNetの自己トレーニング
KR20110084402A (ko) 스피치 모델 생성 방법
Kheder et al. A unified joint model to deal with nuisance variabilities in the i-vector space
Kumar et al. Towards building text-to-speech systems for the next billion users
WO2021229643A1 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
Chen et al. The USTC System for Voice Conversion Challenge 2016: Neural Network Based Approaches for Spectrum, Aperiodicity and F0 Conversion.
Shankarappa et al. A faster approach for direct speech to speech translation
US20220208180A1 (en) Speech analyser and related method
Paul et al. A Universal Multi-Speaker Multi-Style Text-to-Speech via Disentangled Representation Learning Based on Rényi Divergence Minimization.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6973304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150