JP7127419B2 - 音声変換学習装置、音声変換装置、方法、及びプログラム - Google Patents

音声変換学習装置、音声変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP7127419B2
JP7127419B2 JP2018152394A JP2018152394A JP7127419B2 JP 7127419 B2 JP7127419 B2 JP 7127419B2 JP 2018152394 A JP2018152394 A JP 2018152394A JP 2018152394 A JP2018152394 A JP 2018152394A JP 7127419 B2 JP7127419 B2 JP 7127419B2
Authority
JP
Japan
Prior art keywords
speech
attribute
attribute code
acoustic feature
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018152394A
Other languages
English (en)
Other versions
JP2020027193A (ja
Inventor
弘和 亀岡
卓弘 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018152394A priority Critical patent/JP7127419B2/ja
Priority to US17/268,053 priority patent/US11869486B2/en
Priority to PCT/JP2019/031844 priority patent/WO2020036178A1/ja
Publication of JP2020027193A publication Critical patent/JP2020027193A/ja
Application granted granted Critical
Publication of JP7127419B2 publication Critical patent/JP7127419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

特許法第30条第2項適用 平成30年5月31日 NTTコミュニケーション科学基礎研究所 オープンハウス2018 配布冊子 pp.37 にて公開
本発明は、音声変換学習装置、音声変換装置、方法、及びプログラムに係り、特に、音声を変換するための音声変換学習装置、音声変換装置、方法、及びプログラムに関する。
入力音声の言語情報(発話文)を保持したまま非言語・パラ言語(話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が可能である。声質変換の問題は、変換元の音声の音響特徴量から変換目標の音声の音響特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model; GMM) を用いた手法はその有効性と汎用性から広く用いられている。また、近年では、フィードフォワード型ニューラルネットワーク(NeuralNetwork; NN)、再帰型NN(Recurrent NN; RNN)、畳み込み型NN(Convolutional NN; CNN) などのNN 系の手法や非負値行列因子分解(Non-negative Matrix Factorization; NMF) などを用いた事例(Exemplar)ベースの手法の検討も進められている。
これらの手法の多くは、時間整合された同一発話内容の音声ペアで構成されるパラレルデータを用いて変換音声の音響特徴量が目標音声の音響特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし、用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また、仮にそのようなペアデータが用意できる場合でも、高い精度の時間整合が必要となり、これを自動処理で行う際は整合ミスを修正するため目視と手動によるプリスクリーニングが必要となる場合が多い。
一方、パラレルデータを必ずしも必要としない非パラレル声質変換法も提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音響特徴量をペアとすることでパラレルデータを構築する。パラレルデータの構築のため対象音声に対し音声認識を高い精度で行えることが想定されるが、音声認識精度が十分でない場合には性能は限定的となる。話者性を変換するタスクに限定した方法としては話者適応技術を用いるものがある。この方法では、変換元音声と変換目標音声のパラレルデータを必要としないが、話者空間を学習するための参照音声のパラレルデータを用いる必要がある。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方式として、条件付変分自己符号化器(Conditional Variational Autoencoder; CVAE) に基づく非パラレル声質変換法が提案されている(非特許文献1、2)。この方法では、音響特徴量を入力として潜在変数の条件付分布のパラメータを出力するエンコーダNNと潜在変数を入力として音響特徴量の条件付分布のパラメータを出力するデコーダNNを学習サンプルの音響特徴量を用いて学習することが目標となる。
この際、各サンプルに対応する属性コードをエンコーダとデコーダへの補助入力とすることで、エンコーダとデコーダの条件付分布がそれぞれ属性コードで条件付けした潜在変数の条件付分布と音響特徴量の条件付分布を表すよう学習される。このようにして学習したエンコーダとデコーダに対し変換元音声の音響特徴量と所望の属性コードを入力することで、変換元音声の発話内容を保持したまま所望の属性をもった音響特徴量を生成することが可能となる。前述のようにこの方式はパラレルデータを必要としない利点がある一方で、生成される音声の特徴量が過剰平滑化される傾向にあり、これが変換音声の品質に限界を与える一因となっていた。これはデコーダの条件付分布にガウス分布などのパラメトリックな確率分布形を仮定することに起因し、仮定した分布形が実際に音響特徴量が従う真の確率分布と一致しないことによる。この点を解決する可能性のあるアプローチとして、近年敵対的生成ネットワーク(Generative Adversarial Network; GAN)を用いた非パラレル声質変換法が提案されている(非特許文献3)。この方法では、異なる属性の音声間の変換関数G、Fと、入力が実音声の特徴量か合成音声の特徴量かを識別する識別器DをそれぞれNNによりモデル化し、これらを敵対的学習規準、循環無矛盾性規準、恒等変換規準と呼ぶ三種の規準を用いて学習する。敵対的学習規準は識別器Dの損失関数をさし、Dはこれが大きくなるように学習されるのに対し、GとFはこれが小さくなるように学習される。これはすなわち、GとFにより変換された音響特徴量がDに実音声と誤まって識別される(実音声と見分けらない)ように促すことを意味する。循環無矛盾性規準は、GまたはFにより変換された音響特徴量をもう一方の変換関数により逆変換した際の復元誤差をさし、これを小さくするようにGとFを学習することで、GおよびFが一対一変換となるよう学習を促進させることができる。また、恒等変換規準は、変換先の属性の音響特徴量を変換関数の入力とした際の変化の大きさを表す変換誤差をさし、GとFはこれができるだけ小さくなるように学習される。これらの規準が、パラレルデータを用いずとも発話内容を保持したまま属性のみを変換する関数を得ることを可能にしている。このような、二種の属性間のデータの変換関数を学習する方式を、循環無矛盾敵対的ネットワーク(Cycle-consistency Adversarial Network; CycleGAN)と呼び、これを声質変換タスクに応用した方法(非特許文献3)をCycleGAN声質変換法と呼ぶ。
C.-C. Hsu,H.-T.Hwang,Y.-C. Wu,Y.Tsao, and H.-M. Wang, "Voice conversion from non-parallel corpora using variational auto-encoder," in Proc.APSIPA,2016, pp.1-6. C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, and H.-M. Wang, "Voice conversion from unaligned corpora using variational autoencodingWasserstein generative adversarial networks," in Proc. Interspeech, 2017, pp. 3364-3368. Takuhiro Kaneko, Hirokazu Kameoka, "Parallel-data-free voice conversion using cycle-consistent adversarial networks," eprint arXiv:1711.11293, Nov. 2017.
この方法は、敵対的学習規準の導入により、CVAE方式のように音響特徴量の確率分布形を陽に仮定することなく実音声の音響特徴量が従う真の確率分布に近い音響特徴量を生成することができる特長をもつ。一方で、この方法は二種の属性間の相互変換に限ったものであるため、この方法を用いて多種の属性への変換を行うには、属性のペアの全組み合わせ分の変換関数を学習する必要があり、学習すべきパラメータの数が属性の種類に応じて爆発的に増大し学習が困難になる問題がある。
以上のように上述のCVAE方式とCycleGAN方式にはいずれも一長一短があり、それぞれに解決すべき点が残されている。また、いずれの方式も、変換音声の目標属性の度合いが直接的な規準として考慮されていないため、属性変換の効果も限定的であると考えられる。
本発明は、上記問題点を解決するために成されたものであり、所望の属性の音声に変換することができる変換器を学習できる音声変換学習装置、方法、及びプログラムを提供することを目的とする。
また、所望の属性の音声に変換することができる音声変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る音声変換学習装置は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する学習部であって、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する学習部を含んで構成されている。
また、本発明に係る音声変換学習方法は、学習部が、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習することであって、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する。
また、本発明に係る音声変換装置は、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換部を含み、前記変換器は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記音声識別器は、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習され、前記属性識別器は、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものである。
また、本発明に係る音声変換方法は、音声変換部が、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換方法であって、前記変換器は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記音声識別器は、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習され、前記属性識別器は、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものである。
また、本発明に係るプログラムは、コンピュータを、上記発明に係る音声変換学習装置の各部、または上記発明に係る音声変換装置の各部として機能させるためのプログラムである。
本発明の音声変換学習装置、方法、及びプログラムによれば、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習することにより、所望の属性の音声に変換することができる変換器を学習できる、という効果が得られる。
本発明の音声変換装置、方法、及びプログラムによれば、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習することにより得られた変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定することにより、所望の属性の音声に変換することができる。
本発明の実施の形態に係る音声変換方法の概要を説明するための図である。 本発明の実施の形態に係る音声変換方法の他の例の概要を説明するための図である。 本発明の実施の形態に係る音声変換学習装置の構成を示すブロック図である。 本発明の実施の形態に係る音声変換装置の構成を示すブロック図である。 本発明の実施の形態に係る音声変換学習装置における音声変換学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンを示すフローチャートである。 変換元音声(テストデータ)の音響特徴量系列を示す図である。 テストデータと発話文が同一の目標音声の音響特徴量系列を示す図である。 本発明の実施の形態の手法による、変換音声の音響特徴量系列を示す図である。 従来手法による、変換音声の音響特徴量系列を示す図である。 別の従来手法による、変換音声の音響特徴量系列を示す図である。 従来手法に係る音声変換方法の概要を説明するための図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態では、以上の従来技術の問題や限界を克服する非パラレル声質変換手法を提案する。本発明の実施の形態の方法は、(1)テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点、(2)従来の多くの声質変換法においてしばしば問題とされる音響特徴量の過剰平滑化が起こりにくい点、(3)変換元と変換目標の音声の時間依存性を捉えた変換が可能である点、(4)属性識別器を用いて測られる変換音声の目標属性の度合いを学習規準に含む点、(5)多種の属性への変換器を単一のNNで表現する(属性数に応じて学習すべきパラメータの数がほとんど変わらない)点、を特長にもつ。
以上の本発明の実施の形態の方法の特長は、以下の(a)~(d)により実現する。
(a)変換器G、実音声/合成音声識別器D、属性識別器CをNNでモデル化する。
(b)音響特徴量系列を各種NNの入力とする。
(c)属性コードを変換器Gおよび実音声/合成音声識別器Dの補助入力とする。
(d)敵対的学習規準、循環無矛盾性規準、復元誤差規準、属性識別規準からなる学習規準を用いて変換器G、実音声/合成音声識別器D、属性識別器Cを学習する。
<本発明の実施の形態の原理>
<CycleGAN による声質変換(従来法)>
Figure 0007127419000001

をそれぞれ属性c、 c′の音声の音響特徴量(メルケプストラム係数やパワースペクトルなど)系列を表す配列とする。CycleGAN声質変換では、非パラレル学習サンプルx、yを用いて、xを属性c′に変換する変換器
Figure 0007127419000002

とyを属性cに変換する変換器
Figure 0007127419000003

を学習することが目的である。ここで、属性c の実音声かそうでないかを識別する識別器Dと属性c′ の実音声かそうでないかを識別する識別器Dを用いて敵対的学習規準
Figure 0007127419000004

Figure 0007127419000005
と定め、この規準をもとにG、FとともにDX、DYも学習することを考える。この規準は、DX が正しくxを実音声、F(y)を合成音声と識別できている場合と、DYが正しくyを実音声、G(x)を合成音声と識別できている場合に大きい値をとる。DX、DYに関してはこの規準が大きくなるよう学習し、G、Fに関してはこの規準が小さくなるよう学習することで、G、Fによって変換される音響特徴量をDX、DYに実音声と見分けられにくくすることができる。これが本方式において品質の高い変換音声を得るための鍵となる。また、循環無矛盾性規準
Figure 0007127419000006

および恒等変換規準
Figure 0007127419000007

をそれぞれ
Figure 0007127419000008
と定める。
Figure 0007127419000009

は、xをGで変換後、Fで変換したものが元通りxと一致する場合とyをFで変換後Gで変換したものが元通りyと一致する場合に最小になる。一方、
Figure 0007127419000010

は、yをGの入力としたときの出力がyから変化がない場合とxをFの入力としたときの出力がxから変化がない場合に最小になる。GとFをこれらが小さくなるように学習することで、GとFがいずれも一対一変換となるように促進することができる。これが非パラレル声質変換法を実現する上での鍵となる。以上の三種の規準の重みつき和
Figure 0007127419000011
がG、F、DX、DYの学習規準となる。G、Fのパラメータを
Figure 0007127419000012

が小さくなるように反復更新し、DX、DYのパラメータを
Figure 0007127419000013

が大きくなるように反復更新することで、属性c、c′の音声の音響特徴量を相互変換する関数G、Fを得ることができる(図12参照)。以上のようにこの方式は、二属性間の変換器を学習する方法となっており、これをそのまま用いて多種の属性への変換を行えるようにするためには属性ペアごとにG、F、DX、DYに相当するNNを用意する必要がある。属性の数に応じて属性ペアの組み合わせは二乗オーダーで増大するため、これに応じて学習すべきパラメータ数も増大し、学習が困難となる。
<StarGAN 声質変換(本発明の実施の形態の方法)>
<学習方法I>
本発明の実施の形態の方法では、音響特徴量系列
Figure 0007127419000014

と属性コードc を補助入力として受け付けるNNにより多種の属性への変換器Gを構成する。すなわち、
Figure 0007127419000015

を、任意属性の入力x が属性cに変換されたものと見なす。この
Figure 0007127419000016

を実音声らしく、かつ属性cをもつ音響特徴量系列とすることが目標であるので、実音声か合成音声かを識別する識別器Dと、属性を識別する属性識別器Cを導入し、G、D、Cの学習規準としてDの損失関数およびCの損失関数をまず考える(図1参照)。ここで、属性はI個のカテゴリからなり、各カテゴリは複数のクラスからなるものとする。従って、属性cはI個のクラスラベルによって表現される。今、実音声クラスのラベルを1、合成音声クラスのラベルを0とし、cを各カテゴリ中の該当クラスを示した1one-hot ベクトルを結合したバイナリベクトル
Figure 0007127419000017
とする。例えばiが「話者」カテゴリであればj=1,...,Jは話者IDとなり、iが「性別」カテゴリであればj=1,2は男性/女性を表す。ここで、DとCをそれぞれNNで表される
Figure 0007127419000018

のような関数とする。すなわち、Dを音響特徴量系列と属性コードc∈{0,1}I×Jを入力として音響特徴量系列が領域(q’,n’)においてどれくらい実音声らしいかを表す確率を出力する関数、Cを音響特徴量系列を入力として音響特徴量系列が領域(q’,n’)においてどれくらいカテゴリiのクラスjらしいかを表す確率を出力する関数とする。従って、D(y,c)の第(q’×n’)要素Dq’,n’(y,c)は領域(q’,n’)においてyがどれくらい実音声らしいかを表す確率のため、
Figure 0007127419000019
を満たし、C(y)の要素Cq’,n’,i,j(y)は領域(q’,n’)におけるカテゴリiのクラスjの確率に対応するため、
Figure 0007127419000020
を満たす。DとCの損失関数としてクロスエントロピー規準を用いる場合、
Figure 0007127419000021
と書ける。ただし、Cq’,n’,(y)はyが領域(q’,n’)においてどれくらい属性コードcに適合しているかを表す確率
Figure 0007127419000022
を表す。なお、
Figure 0007127419000023

は、
Figure 0007127419000024

であるクラスjに対応する確率値をC(y)から抜き出す操作に相当する。
Figure 0007127419000025

は、Dが入力を実音声の音響特徴量系列か合成音声の音響特徴量系列かを正しく識別できている場合、すなわち、D(・,c)に実音声の音響特徴量系列yが入力されたときに
Figure 0007127419000026

となり、かつ変換音声の音響特徴量系列G(x,c)が入力されたときに
Figure 0007127419000027

となる場合に小さい値をとる規準となっている。一方、
Figure 0007127419000028

は、属性cの音声の音響特徴量がCに正しく属性cと識別されるときに小さい値をとる規準となっている。よって、DとCについてはこれらができるだけ小さくなるように学習すれば良い。一方で変換器Gについては、G(x,c)がDに実音声と識別されるように、かつCに属性cと識別されるようにしたいので、
Figure 0007127419000029
のような規準、または
Figure 0007127419000030
のような規準を考え、式(12)、(13)または式(14)、(15)が小さくなるように学習すれば良い。
DとCの損失関数として、クロスエントロピーのほかに二乗誤差規準を用いることもできる。この場合、
Figure 0007127419000031

として、例えば
Figure 0007127419000032
のような形のものを用いることができる。式(17)、(19)は、cの全カテゴリのクラス確率の積(同時確率)が1に近い場合に小さい値をとる規準となっているが、各カテゴリのクラス確率
Figure 0007127419000033
がすべて1 に近い場合に小さい値をとる規準であれば良いので、例えば
Figure 0007127419000034
のような規準を代わりに用いても良い。
以上の規準のみの学習では、Gによる変換音声が入力音声の発話内容を保持することは保証されない。そこで、CycleGANと同様、循環無矛盾性規準
Figure 0007127419000035
を導入する。ただし、ρは正の実数とする。これはすなわち、属性c’の入力音声の音響特徴量系列xを属性cに変換後、属性c’に再変換したものが元のxと一致するときに小さい値をとる規準である。
また、属性cの入力音声の音響特徴量系列xを同一属性cに変換したものもxと一致すべきなので、
Figure 0007127419000036
のような復元誤差規準も併せて考慮する。
以上より、G、D、C に関して最小化したい学習規準はそれぞれ
Figure 0007127419000037
となる。GもDもCもNNで表現されているため、以上の規準を用いたG、D、Cの学習は各々のNNパラメータを誤差逆伝播法により反復更新することにより行うことができる。
<学習方法II>
上記学習方法Iでは、実音声/合成音声識別器Dと属性識別器Cを別々のNNで構成することを想定したが、実音声か合成音声かを属性の一カテゴリと見なして、図2のようにCのみに実音声/合成音声識別と属性識別を担わせる方法も可能である。この場合、上述の方式において、例えばi=1を実音声か合成音声かを表す属性カテゴリとし、Cq’n’,1(y)をDq’n’(y)と置き、Cq’n’,2(y),...,Cq’n’,I(y)を改めてCと置いた上で式(25)~(27)を学習規準として用いれば良い。
<NNの構成について>
音声は文脈や発話内容に応じて話し方や声質の変化の仕方は異なる。よって、音響特徴量を変換する関数は、時間依存性を有する(入力音声と出力音声の音響特徴量系列の履歴に依存して決定される)ことが望ましい。そこで、本発明の実施の形態ではG、D、Cに音声の音響特徴量の時間依存性を捉えた変換や識別を行えるように各々のNNを長短期記憶(Long Short-Term Memory; LSTM) や双方向LSTM(Birectional LSTM; BiLSTM) などのRNNや時間方向の畳み込みを含むCNNまたはゲート付きCNNなどによりモデル化する。
<変換方法(本発明の実施の形態の方法)>
音響特徴ベクトルとしては、
(A1) 対数振幅スペクトルを要素としたベクトル
(A2) メルケプストラム係数を要素としたベクトル
(A3) 線形予測係数を要素としたベクトル
(A4) 偏自己相関係数(Partial Correlation; PARCOR)係数を要素としたベクトル
(A5) 線スペクトル対(Line Spectral Pair; LSP)パラメータを要素としたベクトル
などを用いることができる。(A1)はSTFTやウェーブレット変換などの時間周波数解析、(A2)はメルケプストラム分析、(A3)は線形予測分析、(A4)はPARCOR分析、(A5)はLSP分析を用いることにより得ることができる。また、(A1)はSTRAIGHT 分析、WORLD分析などにより得られるスペクトル包絡としても良く、(A2-A5)もスペクトル包絡に対しそれぞれの分析により得られたものとしても良い。例えば、以下の(B1-B5)を音響特徴ベクトルとして用いても良い。
(B1) 対数スペクトル包絡を要素としたベクトル
(B2) B1より得られるメルケプストラム係数を要素としたベクトル
(B3) B1より得られる線形予測係数を要素としたベクトル
(B4) B1より得られるPARCOR係数を要素としたベクトル
(B5) B1より得られるLSPパラメータを要素としたベクトル
Gの学習完了後、入力音声の音響特徴量系列xと目標属性コードcをGに入力することで変換音声の音響特徴量系列
Figure 0007127419000038

を得ることができる。以上により得られる
Figure 0007127419000039

から音響特徴量の算出プロセスに応じた時間領域信号の算出プロセスにより変換音声を得ることができる。例えば音響特徴量として(A1)を用いる場合は時間周波数解析の逆変換(逆STFT、ウェーブレット逆変換など)、(A2)-(A5)、 (B1)-(B5) を用いる場合はボコーダを用いることにより実現できる。
<本発明の実施の形態に係る音声変換学習装置の構成>
次に、本発明の実施の形態に係る音声変換学習装置の構成について説明する。図3に示すように、本発明の実施の形態に係る音声変換学習装置100は、CPUと、RAMと、後述する音声変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換学習装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、属性が異なる変換元の音声信号の各々、及び変換元の音声信号の各々の属性を示す属性コードを受け付ける。なお、変換元の音声信号の属性を示す属性コードは、人手で与えておけばよい。また、音声信号の属性とは、例えば、性別、大人/子供、話者ID、母語話者か否か(出身)、発話ムードの種類(怒り、悲しみなど)、発話モード(講演風、自由発話風など)などである。
演算部20は、音響特徴抽出部30と、学習部32を含んで構成されている。
音響特徴抽出部30は、入力された変換元の音声信号の各々から、音響特徴量系列を抽出する。
学習部32は、変換元の音声信号の各々における音響特徴量系列と、変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として当該属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する。
具体的には、学習部32は、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性コードを入力として当該属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される当該任意の属性コードが示す実音声らしさと、当該任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との距離とを用いて表される上記(25)式に示す学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性コードを入力として属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される当該任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される上記(26)式に示す学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の属性コードらしさを用いて表される上記(27)式に示す学習規準の値を最小化するように、属性識別器を学習し、出力部50に出力する。ここで、変換器、前記音声識別器、及び前記属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。
なお、音声識別器は、属性識別器に含まれ、属性識別器は、属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力するように構成されてもよい。
<本発明の実施の形態に係る音声変換装置の構成>
次に、本発明の実施の形態に係る音声変換装置の構成について説明する。図4に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換装置150は、機能的には図2に示すように入力部60と、演算部70と、出力部90とを備えている。
入力部60は、変換元の音声信号と、目標の音声信号の属性を示す属性コードとを、入力として受け付ける。なお、目標の音声信号の属性を示す属性コードは人手で与えればよい。
演算部70は、音響特徴抽出部72と、音声変換部74と、変換音声生成部78とを含んで構成されている。
音響特徴抽出部72は、入力された変換元の音声信号から、音響特徴量系列を抽出する。
音声変換部74は、音声変換学習装置100により学習された変換器を用いて、音響特徴抽出部72により抽出された音響特徴量系列及び入力部60で受け付けた属性コードから、目標の音声信号の音響特徴量系列を推定する。
変換音声生成部78は、推定された目標の音声信号の音響特徴量系列から、時間領域信号を生成し、目標の音声信号として出力部90により出力する。
<本発明の実施の形態に係る音声変換学習装置の作用>
次に、本発明の実施の形態に係る音声変換学習装置100の作用について説明する。入力部10により、属性が異なる変換元の音声信号の各々、及び変換元の音声信号の各々の属性を示す属性コードを受け付けると、音声変換学習装置100は、図5に示す音声変換学習処理ルーチンを実行する。
まず、ステップS100では、入力された変換元の音声信号の各々から、音響特徴量系列を抽出する。
次に、ステップS102では、変換元の音声信号の各々における音響特徴量系列と、変換元の音声信号の各々の属性を示す属性コードに基づいて、変換器、音声識別器、及び属性識別器を学習し、学習結果を出力部50により出力して、音声変換学習処理ルーチンを終了する。
<本発明の実施の形態に係る音声変換装置の作用>
次に、本発明の実施の形態に係る音声変換装置150の作用について説明する。入力部60により、音声変換学習装置100による学習結果を受け付ける。また、入力部60により、変換元の音声信号と、目標の音声信号の属性を示す属性コードとを受け付けると、音声変換装置150は、図6に示す音声変換処理ルーチンを実行する。
まず、ステップS150では、入力された変換元の音声信号から、音響特徴量系列を抽出する。
次に、ステップS152では、音声変換学習装置100により学習された変換器を用いて、音響特徴抽出部72により抽出された音響特徴量系列及び入力部60で受け付けた属性コードから、目標の音声信号の音響特徴量系列を推定する。
ステップS156では、推定された目標の音声信号の音響特徴量系列から、時間領域信号を生成し、目標の音声信号として出力部90により出力して、音声変換処理ルーチンを終了する。
<実験結果>
本発明の実施の形態の手法による音声変換の音質と変換効果を確認するため、Voice Conversion Challenge (VCC)2018 の4話者の音声データ(女性話者VCC2SF1、男性話者VCC2SM1、女性話者VCC2SF2、男性話者VCC2SM2)を用いて話者性変換実験を行った。よってここでは属性コードは話者IDに対応する4次元のone-hot ベクトルとした。各話者につき81文を学習データ、35文をテストデータとし、全音声信号のサンプリング周波数は22050Hz とした。各発話に対し、WORLD分析によりスペクトル包絡、基本周波数(F)、非周期性指標の抽出を行い、抽出したスペクトル包絡系列に対し35次のメルケプストラム分析を行った。F0に関しては、変換目標音声の学習データから有声区間における対数F0 の平均msrc と標準偏差σsrc、変換元音声の学習データから有声区間における対数F0 の平均mtrg と標準偏差σsrc を算出し、入力音声の対数F0 パターンy(0),…,y(N‐1) を
Figure 0007127419000040
のように変換した。本実験では上記学習方法Iの方法を用い、G、D、Cのネットワーク構成を表1のとおりとした。各表の1列目は各層のタイプ、2列目は各層への入力のチャネル数およびサイズ、3列目は各層の出力のチャネル数およびサイズ、4列目はフィルタサイズ、5列目は畳み込みのストライド、6列目は活性化関数のタイプ(GLUはGated Linear Unit、BNはBatch Normizationの略記)を表す。
Figure 0007127419000041
各層の入力の( + 4)ch は属性コードcの補助入力チャネルを意味する。
図7のテストデータに対し、本発明の実施の形態の方法で変換した音声の音響特徴量系列を図9に示し、非特許文献1に記載の従来法(CVAE方式)で変換した音声の音響特徴量系列を図10に示し、非特許文献2に記載の改良版で変換した音声の音響特徴量系列を図11に示す。また、図8にテストデータと発話文が同一の変換目標音声の音響特徴量系列を示す。図9~11からも分かるように、二つの従来法と比較して本発明の実施の形態の方法ではより図8に近い音響特徴量系列の変換音声が得られることを確認した。また、これらの音響特徴量系列から生成した音声信号を聞き比べても、本発明の実施の形態の方法により、従来方法に比べて高品質かつ変換目標話者に類似した声質の音声が得られることを確認した。
以上説明したように、本発明の実施の形態に係る音声変換学習装置によれば、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される当該任意の属性コードが示す実音声らしさと、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、属性識別器を学習することにより、所望の属性の音声に変換することができる変換器を学習できる。
また、本発明の実施の形態に係る音声変換装置によれば、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される任意の属性コードが示す実音声らしさと、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される当該任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の属性コードらしさを用いて表される学習規準の値を最小化するように、属性識別器を学習することにより得られた変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定することにより、所望の属性の音声に変換することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、音声変換学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
また、上述の音声変換学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
30 音響特徴抽出部
32 学習部
50 出力部
60 入力部
70 演算部
72 音響特徴抽出部
74 音声変換部
78 変換音声生成部
90 出力部
100 音声変換学習装置
150 音声変換装置

Claims (7)

  1. 属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する学習部であって、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
    前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
    前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
    を用いて表される学習規準の値を最小化するように、前記変換器を学習し、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、
    前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する学習部
    を含む音声変換学習装置であって、
    前記音声識別器は、前記属性識別器に含まれ、
    前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換学習装置
  2. 前記変換器、前記音声識別器、及び前記属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される請求項1記載の音声変換学習装置。
  3. 音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換部
    を含み、
    前記変換器は、
    属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
    前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
    前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
    を用いて表される学習規準の値を最小化するように予め学習されたものであり、
    前記音声識別器は、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
    前記音声識別器は、前記属性識別器に含まれ、
    前記属性識別器は、
    前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
    前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換装置。
  4. 学習部が、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習することであって、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
    前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
    前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
    を用いて表される学習規準の値を最小化するように、前記変換器を学習し、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、
    前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する
    音声変換学習方法であって、
    前記音声識別器は、前記属性識別器に含まれ、
    前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換学習方法
  5. 音声変換部が、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換方法であって、
    前記変換器は、
    属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
    前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
    前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
    を用いて表される学習規準の値を最小化するように予め学習されたものであり、
    前記音声識別器は、
    任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
    前記音声識別器は、前記属性識別器に含まれ、
    前記属性識別器は、
    前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
    前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換方法。
  6. コンピュータを、請求項1又は2に記載の音声変換学習装置の各部として機能させるためのプログラム。
  7. コンピュータを、請求項に記載の音声変換装置の各部として機能させるためのプログラム。
JP2018152394A 2018-08-13 2018-08-13 音声変換学習装置、音声変換装置、方法、及びプログラム Active JP7127419B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018152394A JP7127419B2 (ja) 2018-08-13 2018-08-13 音声変換学習装置、音声変換装置、方法、及びプログラム
US17/268,053 US11869486B2 (en) 2018-08-13 2019-08-13 Voice conversion learning device, voice conversion device, method, and program
PCT/JP2019/031844 WO2020036178A1 (ja) 2018-08-13 2019-08-13 音声変換学習装置、音声変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018152394A JP7127419B2 (ja) 2018-08-13 2018-08-13 音声変換学習装置、音声変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020027193A JP2020027193A (ja) 2020-02-20
JP7127419B2 true JP7127419B2 (ja) 2022-08-30

Family

ID=69524745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018152394A Active JP7127419B2 (ja) 2018-08-13 2018-08-13 音声変換学習装置、音声変換装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11869486B2 (ja)
JP (1) JP7127419B2 (ja)
WO (1) WO2020036178A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7225857B2 (ja) * 2019-02-01 2023-02-21 日本電信電話株式会社 データ変換学習装置、データ変換装置、方法、及びプログラム
JP7352243B2 (ja) * 2019-10-31 2023-09-28 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
JP7423056B2 (ja) * 2020-03-30 2024-01-29 国立研究開発法人情報通信研究機構 推論器および推論器の学習方法
WO2021199446A1 (ja) * 2020-04-03 2021-10-07 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
JP7549252B2 (ja) 2020-07-27 2024-09-11 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
WO2022024183A1 (ja) * 2020-07-27 2022-02-03 日本電信電話株式会社 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN112259072B (zh) * 2020-09-25 2024-07-26 北京百度网讯科技有限公司 语音转换方法、装置和电子设备
CN113080990B (zh) * 2021-03-25 2023-01-10 南京蝶谷健康科技有限公司 一种基于CycleGAN和BiLSTM神经网络方法的心博异常检测方法
US11830476B1 (en) * 2021-06-08 2023-11-28 Amazon Technologies, Inc. Learned condition text-to-speech synthesis
WO2023152895A1 (ja) * 2022-02-10 2023-08-17 日本電信電話株式会社 波形信号生成システム、波形信号生成方法及びプログラム
CN116778937B (zh) * 2023-03-28 2024-01-23 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017003622A (ja) 2015-06-04 2017-01-05 国立大学法人神戸大学 声質変換方法および声質変換装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017003622A (ja) 2015-06-04 2017-01-05 国立大学法人神戸大学 声質変換方法および声質変換装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAMEOKA, Hirokazu et al.,"STARGAN-VC: NON-PARALLEL MANY-TO-MANY VOICE CONVERSION WITH STAR GENERATIVE ADVERSARIAL NETWORKS",[online],2018年06月29日,[2021年12月28日検索], インターネット<URL:https://arxiv.org/pdf/1806.02169.pdf>
金子卓弘 他,"CycleGANを用いたパラレルデータフリー声質変換",日本音響学会2018年春季研究発表会講演論文集,2018年02月27日,pp.331-332

Also Published As

Publication number Publication date
JP2020027193A (ja) 2020-02-20
US11869486B2 (en) 2024-01-09
US20220122591A1 (en) 2022-04-21
WO2020036178A1 (ja) 2020-02-20

Similar Documents

Publication Publication Date Title
JP7127419B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Gibiansky et al. Deep voice 2: Multi-speaker neural text-to-speech
Arik et al. Deep voice 2: Multi-speaker neural text-to-speech
JP6876641B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Ghai et al. Literature review on automatic speech recognition
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
WO2019240228A1 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN113439301A (zh) 使用序列到序列映射在模拟数据与语音识别输出之间进行协调
Jemine Real-time voice cloning
Polyak et al. TTS skins: Speaker conversion via ASR
JP6764851B2 (ja) 系列データ変換装置、学習装置、及びプログラム
Polyak et al. Attention-based wavenet autoencoder for universal voice conversion
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Sakamoto et al. Stargan-vc+ asr: Stargan-based non-parallel voice conversion regularized by automatic speech recognition
EP4275203B1 (en) Self-learning end-to-end automatic speech recognition
Zhao et al. Research on voice cloning with a few samples
Anand et al. Advancing Accessibility: Voice Cloning and Speech Synthesis for Individuals with Speech Disorders
Paul et al. A Universal Multi-Speaker Multi-Style Text-to-Speech via Disentangled Representation Learning Based on Rényi Divergence Minimization.
Bargum et al. Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice Conversion
Barman et al. State of the art review of speech recognition using genetic algorithm
Ai et al. A new approach to accent recognition and conversion for mandarin chinese
Prakash et al. Exploration of End-to-end Synthesisers forZero Resource Speech Challenge 2020
Gody et al. Automatic Speech Annotation Using HMM based on Best Tree Encoding (BTE) Feature
JP7225857B2 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
Oo et al. Normal and whispered speech recognition systems for Myanmar digits

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180910

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220801

R150 Certificate of patent or registration of utility model

Ref document number: 7127419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150