JP7127419B2

JP7127419B2 - 音声変換学習装置、音声変換装置、方法、及びプログラム

Info

Publication number: JP7127419B2
Application number: JP2018152394A
Authority: JP
Inventors: 弘和亀岡; 卓弘金子
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2022-08-30
Anticipated expiration: 2038-08-13
Also published as: US11869486B2; WO2020036178A1; JP2020027193A; US20220122591A1

Description

特許法第３０条第２項適用平成３０年５月３１日ＮＴＴコミュニケーション科学基礎研究所オープンハウス２０１８配布冊子ｐｐ．３７にて公開

本発明は、音声変換学習装置、音声変換装置、方法、及びプログラムに係り、特に、音声を変換するための音声変換学習装置、音声変換装置、方法、及びプログラムに関する。

入力音声の言語情報（発話文）を保持したまま非言語・パラ言語（話者性や発話様式など）のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が可能である。声質変換の問題は、変換元の音声の音響特徴量から変換目標の音声の音響特徴量への写像関数を推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model; GMM) を用いた手法はその有効性と汎用性から広く用いられている。また、近年では、フィードフォワード型ニューラルネットワーク(NeuralNetwork; NN)、再帰型NN(Recurrent NN; RNN)、畳み込み型NN(Convolutional NN; CNN) などのNN 系の手法や非負値行列因子分解(Non-negative Matrix Factorization; NMF) などを用いた事例（Exemplar）ベースの手法の検討も進められている。

これらの手法の多くは、時間整合された同一発話内容の音声ペアで構成されるパラレルデータを用いて変換音声の音響特徴量が目標音声の音響特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし、用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また、仮にそのようなペアデータが用意できる場合でも、高い精度の時間整合が必要となり、これを自動処理で行う際は整合ミスを修正するため目視と手動によるプリスクリーニングが必要となる場合が多い。

一方、パラレルデータを必ずしも必要としない非パラレル声質変換法も提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音響特徴量をペアとすることでパラレルデータを構築する。パラレルデータの構築のため対象音声に対し音声認識を高い精度で行えることが想定されるが、音声認識精度が十分でない場合には性能は限定的となる。話者性を変換するタスクに限定した方法としては話者適応技術を用いるものがある。この方法では、変換元音声と変換目標音声のパラレルデータを必要としないが、話者空間を学習するための参照音声のパラレルデータを用いる必要がある。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方式として、条件付変分自己符号化器(Conditional Variational Autoencoder; CVAE) に基づく非パラレル声質変換法が提案されている（非特許文献１、２）。この方法では、音響特徴量を入力として潜在変数の条件付分布のパラメータを出力するエンコーダＮＮと潜在変数を入力として音響特徴量の条件付分布のパラメータを出力するデコーダＮＮを学習サンプルの音響特徴量を用いて学習することが目標となる。

この際、各サンプルに対応する属性コードをエンコーダとデコーダへの補助入力とすることで、エンコーダとデコーダの条件付分布がそれぞれ属性コードで条件付けした潜在変数の条件付分布と音響特徴量の条件付分布を表すよう学習される。このようにして学習したエンコーダとデコーダに対し変換元音声の音響特徴量と所望の属性コードを入力することで、変換元音声の発話内容を保持したまま所望の属性をもった音響特徴量を生成することが可能となる。前述のようにこの方式はパラレルデータを必要としない利点がある一方で、生成される音声の特徴量が過剰平滑化される傾向にあり、これが変換音声の品質に限界を与える一因となっていた。これはデコーダの条件付分布にガウス分布などのパラメトリックな確率分布形を仮定することに起因し、仮定した分布形が実際に音響特徴量が従う真の確率分布と一致しないことによる。この点を解決する可能性のあるアプローチとして、近年敵対的生成ネットワーク(Generative Adversarial Network; GAN)を用いた非パラレル声質変換法が提案されている（非特許文献３）。この方法では、異なる属性の音声間の変換関数Ｇ、Ｆと、入力が実音声の特徴量か合成音声の特徴量かを識別する識別器ＤをそれぞれＮＮによりモデル化し、これらを敵対的学習規準、循環無矛盾性規準、恒等変換規準と呼ぶ三種の規準を用いて学習する。敵対的学習規準は識別器Dの損失関数をさし、Ｄはこれが大きくなるように学習されるのに対し、ＧとＦはこれが小さくなるように学習される。これはすなわち、GとFにより変換された音響特徴量がＤに実音声と誤まって識別される（実音声と見分けらない）ように促すことを意味する。循環無矛盾性規準は、ＧまたはＦにより変換された音響特徴量をもう一方の変換関数により逆変換した際の復元誤差をさし、これを小さくするようにＧとＦを学習することで、ＧおよびＦが一対一変換となるよう学習を促進させることができる。また、恒等変換規準は、変換先の属性の音響特徴量を変換関数の入力とした際の変化の大きさを表す変換誤差をさし、ＧとＦはこれができるだけ小さくなるように学習される。これらの規準が、パラレルデータを用いずとも発話内容を保持したまま属性のみを変換する関数を得ることを可能にしている。このような、二種の属性間のデータの変換関数を学習する方式を、循環無矛盾敵対的ネットワーク(Cycle-consistency Adversarial Network; CycleGAN)と呼び、これを声質変換タスクに応用した方法（非特許文献３）をCycleGAN声質変換法と呼ぶ。

C．-C． Hsu，H．-T．Hwang，Y．-C． Wu，Y．Tsao， and H．-M． Wang， "Voice conversion from non-parallel corpora using variational auto-encoder，" in Proc．APSIPA，2016， pp．1-6． C．-C． Hsu, H．-T． Hwang， Y．-C． Wu， Y． Tsao, and H．-M． Wang, "Voice conversion from unaligned corpora using variational autoencodingWasserstein generative adversarial networks," in Proc． Interspeech, 2017, pp. 3364-3368． Takuhiro Kaneko, Hirokazu Kameoka, "Parallel-data-free voice conversion using cycle-consistent adversarial networks," eprint arXiv:1711.11293, Nov. 2017.

この方法は、敵対的学習規準の導入により、ＣＶＡＥ方式のように音響特徴量の確率分布形を陽に仮定することなく実音声の音響特徴量が従う真の確率分布に近い音響特徴量を生成することができる特長をもつ。一方で、この方法は二種の属性間の相互変換に限ったものであるため、この方法を用いて多種の属性への変換を行うには、属性のペアの全組み合わせ分の変換関数を学習する必要があり、学習すべきパラメータの数が属性の種類に応じて爆発的に増大し学習が困難になる問題がある。
以上のように上述のＣＶＡＥ方式とCycleＧＡＮ方式にはいずれも一長一短があり、それぞれに解決すべき点が残されている。また、いずれの方式も、変換音声の目標属性の度合いが直接的な規準として考慮されていないため、属性変換の効果も限定的であると考えられる。

本発明は、上記問題点を解決するために成されたものであり、所望の属性の音声に変換することができる変換器を学習できる音声変換学習装置、方法、及びプログラムを提供することを目的とする。

また、所望の属性の音声に変換することができる音声変換装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る音声変換学習装置は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する学習部であって、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する学習部を含んで構成されている。

また、本発明に係る音声変換学習方法は、学習部が、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習することであって、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する。

また、本発明に係る音声変換装置は、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換部を含み、前記変換器は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記音声識別器は、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習され、前記属性識別器は、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものである。

また、本発明に係る音声変換方法は、音声変換部が、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換方法であって、前記変換器は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記音声識別器は、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習され、前記属性識別器は、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものである。

また、本発明に係るプログラムは、コンピュータを、上記発明に係る音声変換学習装置の各部、または上記発明に係る音声変換装置の各部として機能させるためのプログラムである。

本発明の音声変換学習装置、方法、及びプログラムによれば、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習することにより、所望の属性の音声に変換することができる変換器を学習できる、という効果が得られる。

本発明の音声変換装置、方法、及びプログラムによれば、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習することにより得られた変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定することにより、所望の属性の音声に変換することができる。

本発明の実施の形態に係る音声変換方法の概要を説明するための図である。本発明の実施の形態に係る音声変換方法の他の例の概要を説明するための図である。本発明の実施の形態に係る音声変換学習装置の構成を示すブロック図である。本発明の実施の形態に係る音声変換装置の構成を示すブロック図である。本発明の実施の形態に係る音声変換学習装置における音声変換学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンを示すフローチャートである。変換元音声（テストデータ）の音響特徴量系列を示す図である。テストデータと発話文が同一の目標音声の音響特徴量系列を示す図である。本発明の実施の形態の手法による、変換音声の音響特徴量系列を示す図である。従来手法による、変換音声の音響特徴量系列を示す図である。別の従来手法による、変換音声の音響特徴量系列を示す図である。従来手法に係る音声変換方法の概要を説明するための図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞
まず、本発明の実施の形態における概要を説明する。

本発明の実施の形態では、以上の従来技術の問題や限界を克服する非パラレル声質変換手法を提案する。本発明の実施の形態の方法は、（１）テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点、（２）従来の多くの声質変換法においてしばしば問題とされる音響特徴量の過剰平滑化が起こりにくい点、（３）変換元と変換目標の音声の時間依存性を捉えた変換が可能である点、（４）属性識別器を用いて測られる変換音声の目標属性の度合いを学習規準に含む点、（５）多種の属性への変換器を単一のＮＮで表現する（属性数に応じて学習すべきパラメータの数がほとんど変わらない）点、を特長にもつ。

以上の本発明の実施の形態の方法の特長は、以下の（ａ）～（ｄ）により実現する。

（ａ）変換器Ｇ、実音声／合成音声識別器Ｄ、属性識別器ＣをＮＮでモデル化する。

（ｂ）音響特徴量系列を各種ＮＮの入力とする。

（ｃ）属性コードを変換器Ｇおよび実音声／合成音声識別器Ｄの補助入力とする。

（ｄ）敵対的学習規準、循環無矛盾性規準、復元誤差規準、属性識別規準からなる学習規準を用いて変換器Ｇ、実音声／合成音声識別器Ｄ、属性識別器Ｃを学習する。

＜本発明の実施の形態の原理＞
＜CycleGAN による声質変換（従来法）＞

をそれぞれ属性c、 c′の音声の音響特徴量（メルケプストラム係数やパワースペクトルなど）系列を表す配列とする。CycleGAN声質変換では、非パラレル学習サンプルｘ、ｙを用いて、ｘを属性c′に変換する変換器

とｙを属性ｃに変換する変換器

を学習することが目的である。ここで、属性c の実音声かそうでないかを識別する識別器Ｄ_Ｘと属性c′ の実音声かそうでないかを識別する識別器Ｄ_Ｙを用いて敵対的学習規準

を

と定め、この規準をもとにG、FとともにD_X、D_Yも学習することを考える。この規準は、D_X が正しくxを実音声、F(y)を合成音声と識別できている場合と、D_Yが正しくyを実音声、G(x)を合成音声と識別できている場合に大きい値をとる。D_X、D_Yに関してはこの規準が大きくなるよう学習し、G、Fに関してはこの規準が小さくなるよう学習することで、G、Fによって変換される音響特徴量をD_X、D_Yに実音声と見分けられにくくすることができる。これが本方式において品質の高い変換音声を得るための鍵となる。また、循環無矛盾性規準

および恒等変換規準

をそれぞれ

と定める。

は、xをGで変換後、Fで変換したものが元通りxと一致する場合とyをFで変換後Gで変換したものが元通りyと一致する場合に最小になる。一方、

は、yをGの入力としたときの出力がyから変化がない場合とxをFの入力としたときの出力がxから変化がない場合に最小になる。GとFをこれらが小さくなるように学習することで、GとFがいずれも一対一変換となるように促進することができる。これが非パラレル声質変換法を実現する上での鍵となる。以上の三種の規準の重みつき和

がG、F、D_X、D_Yの学習規準となる。G、Fのパラメータを

が小さくなるように反復更新し、D_X、D_Yのパラメータを

が大きくなるように反復更新することで、属性c、c′の音声の音響特徴量を相互変換する関数G、Fを得ることができる（図１２参照）。以上のようにこの方式は、二属性間の変換器を学習する方法となっており、これをそのまま用いて多種の属性への変換を行えるようにするためには属性ペアごとにG、F、D_X、D_Yに相当するＮＮを用意する必要がある。属性の数に応じて属性ペアの組み合わせは二乗オーダーで増大するため、これに応じて学習すべきパラメータ数も増大し、学習が困難となる。

＜StarGAN 声質変換（本発明の実施の形態の方法）＞
＜学習方法I＞
本発明の実施の形態の方法では、音響特徴量系列

と属性コードc を補助入力として受け付けるＮＮにより多種の属性への変換器Ｇを構成する。すなわち、

を、任意属性の入力x が属性ｃに変換されたものと見なす。この

を実音声らしく、かつ属性ｃをもつ音響特徴量系列とすることが目標であるので、実音声か合成音声かを識別する識別器Ｄと、属性を識別する属性識別器Ｃを導入し、Ｇ、Ｄ、Ｃの学習規準としてＤの損失関数およびＣの損失関数をまず考える（図１参照）。ここで、属性はＩ個のカテゴリからなり、各カテゴリは複数のクラスからなるものとする。従って、属性ｃはＩ個のクラスラベルによって表現される。今、実音声クラスのラベルを１、合成音声クラスのラベルを０とし、ｃを各カテゴリ中の該当クラスを示した1one-hot ベクトルを結合したバイナリベクトル

とする。例えばｉが「話者」カテゴリであればｊ＝１,．．．,Ｊは話者ＩＤとなり、ｉが「性別」カテゴリであればｊ＝１，２は男性／女性を表す。ここで、ＤとＣをそれぞれＮＮで表される

のような関数とする。すなわち、Ｄを音響特徴量系列と属性コードｃ∈｛０，１｝^Ｉ×Ｊを入力として音響特徴量系列が領域（ｑ’，ｎ’）においてどれくらい実音声らしいかを表す確率を出力する関数、Ｃを音響特徴量系列を入力として音響特徴量系列が領域（ｑ’，ｎ’）においてどれくらいカテゴリｉのクラスｊらしいかを表す確率を出力する関数とする。従って、Ｄ（ｙ，ｃ）の第（ｑ’×ｎ’）要素Ｄ_{ｑ’，ｎ’}（ｙ，ｃ）は領域（ｑ’，ｎ’）においてｙがどれくらい実音声らしいかを表す確率のため、

を満たし、Ｃ（ｙ）の要素Ｃ_{ｑ’，ｎ’，ｉ，ｊ}（ｙ）は領域（ｑ’，ｎ’）におけるカテゴリiのクラスjの確率に対応するため、

を満たす。ＤとＣの損失関数としてクロスエントロピー規準を用いる場合、

と書ける。ただし、Ｃ_{ｑ’，ｎ’}，（ｙ）はｙが領域（ｑ’，ｎ’）においてどれくらい属性コードｃに適合しているかを表す確率

を表す。なお、

は、

であるクラスｊに対応する確率値をＣ（ｙ）から抜き出す操作に相当する。

は、Ｄが入力を実音声の音響特徴量系列か合成音声の音響特徴量系列かを正しく識別できている場合、すなわち、Ｄ（・，ｃ）に実音声の音響特徴量系列ｙが入力されたときに

となり、かつ変換音声の音響特徴量系列Ｇ（ｘ，ｃ）が入力されたときに

となる場合に小さい値をとる規準となっている。一方、

は、属性ｃの音声の音響特徴量がＣに正しく属性ｃと識別されるときに小さい値をとる規準となっている。よって、ＤとＣについてはこれらができるだけ小さくなるように学習すれば良い。一方で変換器Ｇについては、Ｇ（ｘ，ｃ）がＤに実音声と識別されるように、かつＣに属性ｃと識別されるようにしたいので、

のような規準、または

のような規準を考え、式（12）、（13）または式（14）、（15）が小さくなるように学習すれば良い。

ＤとＣの損失関数として、クロスエントロピーのほかに二乗誤差規準を用いることもできる。この場合、

として、例えば

のような形のものを用いることができる。式（17）、（19）は、ｃの全カテゴリのクラス確率の積（同時確率）が1に近い場合に小さい値をとる規準となっているが、各カテゴリのクラス確率

がすべて1 に近い場合に小さい値をとる規準であれば良いので、例えば

のような規準を代わりに用いても良い。

以上の規準のみの学習では、Ｇによる変換音声が入力音声の発話内容を保持することは保証されない。そこで、ＣｙｃｌｅＧＡＮと同様、循環無矛盾性規準

を導入する。ただし、ρは正の実数とする。これはすなわち、属性ｃ’の入力音声の音響特徴量系列ｘを属性ｃに変換後、属性ｃ’に再変換したものが元のｘと一致するときに小さい値をとる規準である。

また、属性ｃの入力音声の音響特徴量系列ｘを同一属性ｃに変換したものもｘと一致すべきなので、

のような復元誤差規準も併せて考慮する。

以上より、Ｇ、Ｄ、Ｃに関して最小化したい学習規準はそれぞれ

となる。ＧもＤもＣもＮＮで表現されているため、以上の規準を用いたＧ、Ｄ、Ｃの学習は各々のＮＮパラメータを誤差逆伝播法により反復更新することにより行うことができる。

＜学習方法II＞
上記学習方法Ｉでは、実音声／合成音声識別器Ｄと属性識別器Ｃを別々のＮＮで構成することを想定したが、実音声か合成音声かを属性の一カテゴリと見なして、図２のようにＣのみに実音声／合成音声識別と属性識別を担わせる方法も可能である。この場合、上述の方式において、例えばｉ＝１を実音声か合成音声かを表す属性カテゴリとし、Ｃ_{ｑ’ｎ’，１}（ｙ）をＤ_ｑ’ｎ’（ｙ）と置き、Ｃ_{ｑ’ｎ’，２}（ｙ），．．．，Ｃ_{ｑ’ｎ’，Ｉ}（ｙ）を改めてＣと置いた上で式（２５）～（２７）を学習規準として用いれば良い。

＜ＮＮの構成について＞
音声は文脈や発話内容に応じて話し方や声質の変化の仕方は異なる。よって、音響特徴量を変換する関数は、時間依存性を有する（入力音声と出力音声の音響特徴量系列の履歴に依存して決定される）ことが望ましい。そこで、本発明の実施の形態ではＧ、Ｄ、Ｃに音声の音響特徴量の時間依存性を捉えた変換や識別を行えるように各々のＮＮを長短期記憶(Long Short-Term Memory; LSTM) や双方向LSTM(Birectional LSTM; BiLSTM) などのＲＮＮや時間方向の畳み込みを含むＣＮＮまたはゲート付きＣＮＮなどによりモデル化する。

＜変換方法（本発明の実施の形態の方法）＞
音響特徴ベクトルとしては、
(A1) 対数振幅スペクトルを要素としたベクトル
(A2) メルケプストラム係数を要素としたベクトル
(A3) 線形予測係数を要素としたベクトル
(A4) 偏自己相関係数(Partial Correlation; PARCOR)係数を要素としたベクトル
(A5) 線スペクトル対(Line Spectral Pair; LSP)パラメータを要素としたベクトル
などを用いることができる。(A1)はSTFTやウェーブレット変換などの時間周波数解析、(A2)はメルケプストラム分析、(A3)は線形予測分析、(A4)はPARCOR分析、(A5)はLSP分析を用いることにより得ることができる。また、(A1)はSTRAIGHT 分析、WORLD分析などにより得られるスペクトル包絡としても良く、(A2－A5)もスペクトル包絡に対しそれぞれの分析により得られたものとしても良い。例えば、以下の(B1－B5)を音響特徴ベクトルとして用いても良い。

(B1) 対数スペクトル包絡を要素としたベクトル
(B2) B1より得られるメルケプストラム係数を要素としたベクトル
(B3) B1より得られる線形予測係数を要素としたベクトル
(B4) B1より得られるPARCOR係数を要素としたベクトル
(B5) B1より得られるLSPパラメータを要素としたベクトル

Ｇの学習完了後、入力音声の音響特徴量系列ｘと目標属性コードｃをＧに入力することで変換音声の音響特徴量系列

を得ることができる。以上により得られる

から音響特徴量の算出プロセスに応じた時間領域信号の算出プロセスにより変換音声を得ることができる。例えば音響特徴量として（Ａ１）を用いる場合は時間周波数解析の逆変換（逆ＳＴＦＴ、ウェーブレット逆変換など）、(A2)-(A5)、 (B1)-(B5) を用いる場合はボコーダを用いることにより実現できる。

＜本発明の実施の形態に係る音声変換学習装置の構成＞
次に、本発明の実施の形態に係る音声変換学習装置の構成について説明する。図３に示すように、本発明の実施の形態に係る音声変換学習装置１００は、ＣＰＵと、ＲＡＭと、後述する音声変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声変換学習装置１００は、機能的には図３に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、属性が異なる変換元の音声信号の各々、及び変換元の音声信号の各々の属性を示す属性コードを受け付ける。なお、変換元の音声信号の属性を示す属性コードは、人手で与えておけばよい。また、音声信号の属性とは、例えば、性別、大人／子供、話者ＩＤ、母語話者か否か（出身）、発話ムードの種類（怒り、悲しみなど）、発話モード（講演風、自由発話風など）などである。

演算部２０は、音響特徴抽出部３０と、学習部３２を含んで構成されている。

音響特徴抽出部３０は、入力された変換元の音声信号の各々から、音響特徴量系列を抽出する。

学習部３２は、変換元の音声信号の各々における音響特徴量系列と、変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として当該属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する。

具体的には、学習部３２は、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性コードを入力として当該属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される当該任意の属性コードが示す実音声らしさと、当該任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との距離とを用いて表される上記（２５）式に示す学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性コードを入力として属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される当該任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される上記（２６）式に示す学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の属性コードらしさを用いて表される上記（２７）式に示す学習規準の値を最小化するように、属性識別器を学習し、出力部５０に出力する。ここで、変換器、前記音声識別器、及び前記属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。

なお、音声識別器は、属性識別器に含まれ、属性識別器は、属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力するように構成されてもよい。

＜本発明の実施の形態に係る音声変換装置の構成＞
次に、本発明の実施の形態に係る音声変換装置の構成について説明する。図４に示すように、本発明の実施の形態に係る音声変換装置１５０は、ＣＰＵと、ＲＡＭと、後述する音声変換処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声変換装置１５０は、機能的には図２に示すように入力部６０と、演算部７０と、出力部９０とを備えている。

入力部６０は、変換元の音声信号と、目標の音声信号の属性を示す属性コードとを、入力として受け付ける。なお、目標の音声信号の属性を示す属性コードは人手で与えればよい。

演算部７０は、音響特徴抽出部７２と、音声変換部７４と、変換音声生成部７８とを含んで構成されている。

音響特徴抽出部７２は、入力された変換元の音声信号から、音響特徴量系列を抽出する。

音声変換部７４は、音声変換学習装置１００により学習された変換器を用いて、音響特徴抽出部７２により抽出された音響特徴量系列及び入力部６０で受け付けた属性コードから、目標の音声信号の音響特徴量系列を推定する。

変換音声生成部７８は、推定された目標の音声信号の音響特徴量系列から、時間領域信号を生成し、目標の音声信号として出力部９０により出力する。

＜本発明の実施の形態に係る音声変換学習装置の作用＞
次に、本発明の実施の形態に係る音声変換学習装置１００の作用について説明する。入力部１０により、属性が異なる変換元の音声信号の各々、及び変換元の音声信号の各々の属性を示す属性コードを受け付けると、音声変換学習装置１００は、図５に示す音声変換学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力された変換元の音声信号の各々から、音響特徴量系列を抽出する。

次に、ステップＳ１０２では、変換元の音声信号の各々における音響特徴量系列と、変換元の音声信号の各々の属性を示す属性コードに基づいて、変換器、音声識別器、及び属性識別器を学習し、学習結果を出力部５０により出力して、音声変換学習処理ルーチンを終了する。

＜本発明の実施の形態に係る音声変換装置の作用＞
次に、本発明の実施の形態に係る音声変換装置１５０の作用について説明する。入力部６０により、音声変換学習装置１００による学習結果を受け付ける。また、入力部６０により、変換元の音声信号と、目標の音声信号の属性を示す属性コードとを受け付けると、音声変換装置１５０は、図６に示す音声変換処理ルーチンを実行する。

まず、ステップＳ１５０では、入力された変換元の音声信号から、音響特徴量系列を抽出する。

次に、ステップＳ１５２では、音声変換学習装置１００により学習された変換器を用いて、音響特徴抽出部７２により抽出された音響特徴量系列及び入力部６０で受け付けた属性コードから、目標の音声信号の音響特徴量系列を推定する。

ステップＳ１５６では、推定された目標の音声信号の音響特徴量系列から、時間領域信号を生成し、目標の音声信号として出力部９０により出力して、音声変換処理ルーチンを終了する。

＜実験結果＞
本発明の実施の形態の手法による音声変換の音質と変換効果を確認するため、Voice Conversion Challenge (VCC)2018 の４話者の音声データ（女性話者VCC2SF1、男性話者VCC2SM1、女性話者VCC2SF2、男性話者VCC2SM2）を用いて話者性変換実験を行った。よってここでは属性コードは話者ＩＤに対応する４次元のone-hot ベクトルとした。各話者につき８１文を学習データ、３５文をテストデータとし、全音声信号のサンプリング周波数は22050Hz とした。各発話に対し、ＷＯＲＬＤ分析によりスペクトル包絡、基本周波数（Ｆ_０）、非周期性指標の抽出を行い、抽出したスペクトル包絡系列に対し35次のメルケプストラム分析を行った。F₀に関しては、変換目標音声の学習データから有声区間における対数F0 の平均m_src と標準偏差σ_src、変換元音声の学習データから有声区間における対数F₀ の平均m_trg と標準偏差σ_src を算出し、入力音声の対数F₀ パターンy(0)，…，y(N‐1) を

のように変換した。本実験では上記学習方法Iの方法を用い、Ｇ、Ｄ、Ｃのネットワーク構成を表１のとおりとした。各表の１列目は各層のタイプ、２列目は各層への入力のチャネル数およびサイズ、３列目は各層の出力のチャネル数およびサイズ、４列目はフィルタサイズ、５列目は畳み込みのストライド、６列目は活性化関数のタイプ（ＧＬＵはGated Linear Unit、ＢＮはBatch Normizationの略記）を表す。

各層の入力の( + 4)ch は属性コードcの補助入力チャネルを意味する。

図７のテストデータに対し、本発明の実施の形態の方法で変換した音声の音響特徴量系列を図９に示し、非特許文献１に記載の従来法（ＣＶＡＥ方式）で変換した音声の音響特徴量系列を図１０に示し、非特許文献２に記載の改良版で変換した音声の音響特徴量系列を図１１に示す。また、図８にテストデータと発話文が同一の変換目標音声の音響特徴量系列を示す。図９～１１からも分かるように、二つの従来法と比較して本発明の実施の形態の方法ではより図８に近い音響特徴量系列の変換音声が得られることを確認した。また、これらの音響特徴量系列から生成した音声信号を聞き比べても、本発明の実施の形態の方法により、従来方法に比べて高品質かつ変換目標話者に類似した声質の音声が得られることを確認した。

以上説明したように、本発明の実施の形態に係る音声変換学習装置によれば、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される当該任意の属性コードが示す実音声らしさと、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、属性識別器を学習することにより、所望の属性の音声に変換することができる変換器を学習できる。

また、本発明の実施の形態に係る音声変換装置によれば、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される任意の属性コードが示す実音声らしさと、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される当該任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の属性コードらしさを用いて表される学習規準の値を最小化するように、属性識別器を学習することにより得られた変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定することにより、所望の属性の音声に変換することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、音声変換学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。

また、上述の音声変換学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０演算部
３０音響特徴抽出部
３２学習部
５０出力部
６０入力部
７０演算部
７２音響特徴抽出部
７４音声変換部
７８変換音声生成部
９０出力部
１００音声変換学習装置
１５０音声変換装置

Claims

属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する学習部であって、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
を用いて表される学習規準の値を最小化するように、前記変換器を学習し、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、
前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する学習部
を含む音声変換学習装置であって、
前記音声識別器は、前記属性識別器に含まれ、
前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換学習装置。
前記変換器、前記音声識別器、及び前記属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される請求項１記載の音声変換学習装置。
音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換部
を含み、
前記変換器は、
属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
を用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記音声識別器は、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記音声識別器は、前記属性識別器に含まれ、
前記属性識別器は、
前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換装置。
学習部が、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習することであって、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
を用いて表される学習規準の値を最小化するように、前記変換器を学習し、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、
前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する
音声変換学習方法であって、
前記音声識別器は、前記属性識別器に含まれ、
前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換学習方法。
音声変換部が、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換方法であって、
前記変換器は、
属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、
前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、
前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離と
を用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記音声識別器は、
任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記音声識別器は、前記属性識別器に含まれ、
前記属性識別器は、
前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、
前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する音声変換方法。
コンピュータを、請求項１又は２に記載の音声変換学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項３に記載の音声変換装置の各部として機能させるためのプログラム。