JP6876642B2

JP6876642B2 - 音声変換学習装置、音声変換装置、方法、及びプログラム

Info

Publication number: JP6876642B2
Application number: JP2018028301A
Authority: JP
Inventors: 田中　宏; 宏田中; 卓弘金子; 弘和亀岡; 伸克北条
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-02-20
Filing date: 2018-02-20
Publication date: 2021-05-26
Anticipated expiration: 2038-02-20
Also published as: US20200394996A1; JP2019144404A; US11393452B2; WO2019163848A1

Description

本発明は、音声変換学習装置、音声変換装置、方法、及びプログラムに係り、特に、音声を変換するための音声変換学習装置、音声変換装置、方法、及びプログラムに関する。

音声の声帯音源情報（基本周波数や非周期性指標など）や声道スペクトル情報を表す特徴量は、STRAIGHTやメル一般化ケプストラム分析(Mel-Generalized Cepstral Analysis; MGC) などの音声分析手法により得ることができる。多くのテキスト音声合成システムや音声変換システムでは、このような音声特徴量の系列を入力テキストや変換元音声から予測し、ボコーダ方式に従って音声信号を生成するアプローチがとられる。入力テキストや変換元音声から適切な音声特徴量を予測する問題は一種の回帰（機械学習）問題であり、特に限られた数の学習サンプルしか得られない状況ではコンパクト（低次元）な特徴量表現となっている方が統計的な予測において有利である。多くのテキスト音声合成システムや音声変換システムにおいて（波形やスペクトルを直接予測しようとするのではなく）音声特徴量を用いたボコーダ方式が用いられるのはこの利点を活かすためである。一方で、ボコーダ方式によって生成される音声はボコーダ特有の機械的な音質となることが多く、このことが従来のテキスト音声合成システムや音声変換システムにおける音質の潜在的な限界を与えている。

これに対し、音声特徴量空間上でより自然な音声特徴量へ補正する方法が提案されている。例えば、テキスト音声合成や音声変換において加工された音声特徴量の変調スペクトル（Modulation Spectrum: MS）を自然な音声のMS へ補正する手法（非特許文献１）や、加工・変換した音声特徴量に対して、Generative Adversarial Networks（GAN）を用いて自然性を向上させる成分を足しこむことで自然な音声の音声特徴量へと補正する手法（非特許文献２）が提案されている。

Shinnosuke Takamichi, Tomoki Toda, Graham Neubig, Sakriani Sakti, and Satoshi Naka-mura, "A post_lter to modify the modulation spectrum in hmm-based speech synthesis," in Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014, pp. 290-294. Takuhiro Kaneko, Hirokazu Kameoka, Nobukatsu Hojo, Yusuke Ijima, Kaoru Hiramatsu, and Kunio Kashino, "Generative adversarial network-based postfilter for statistical parametric speech synthesis、" in Proc. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2017), 2017, pp. 4910-4914. Santiago Pascual, Antonio Bonafonte, and Joan Serra, "Segan: Speech enhancement gener-ative adversarial network," arXiv preprint arXiv:1703.09452, 2017. Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," arXiv preprint arXiv:1703.10593, 2017. Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, and Jaegul Choo, "Stargan: Unified generative adversarial networks for multi-domain image-to-image translation、" arXiv preprint arXiv:1711.09020, 2017.

上述の手法は、一定量の音質改善を達成しているもののコンパクト（低次元）空間での補正であることは変わりなく、また最終的な音声合成部はボコーダを通るため、やはり音質改善の潜在的な限界が存在する。一方で、GANを用いて音声波形に対する直接的な補正を行う手法（非特許文献３）も提案されている。音声波形を入力として直接補正を行うため、音声特徴量空間上での補正と比較するとより大きな品質改善が見込まれる。典型的なGANを用いた手法では、適用場面が限られており、入力波形と理想とする目標波形の間で理想的なアライメントが取られている場合において有効である。例えば、理想環境で収録された音声に対して、計算機上で雑音を重畳し雑音環境下音声を生成したのち雑音除去を行う場合は、入力音声である雑音環境下音声と目標音声である理想環境で収録された音声のアライメントは完璧であるため、音質改善が可能である。しかしながら、テキスト音声合成や音声変換において生成された合成音声から自然な音声への補正は上述のアライメント問題により非特許文献３の単純適用では品質改善が難しかった。

本発明は、上記問題点を解決するために成されたものであり、より自然な音質の音声に変換することができる変換関数を学習できる音声変換学習装置、方法、及びプログラムを提供することを目的とする。

また、より自然な音質の音声に変換することができる音声変換装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る音声変換学習装置は、ソース音声をターゲット音声に変換する変換関数を学習する音声変換学習装置であって、入力されたソース音声と、ターゲット音声とに基づいて、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように前記ソース変換関数及び前記ターゲット変換関数を学習する学習部を含んで構成されている。

本発明に係る音声変換学習方法は、ソース音声をターゲット音声に変換する変換関数を学習する音声変換学習装置における音声変換学習方法であって、学習部が、入力されたソース音声と、ターゲット音声とに基づいて、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように前記ソース変換関数及び前記ターゲット変換関数を学習する。

本発明に係る音声変換装置は、ソース音声をターゲット音声に変換する音声変換装置であって、予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、入力されたソース音声をターゲット音声に変換する音声変換部を含み、前記ターゲット変換関数は、入力されたソース音声と、ターゲット音声とに基づいて、前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたものである。

本発明に係る音声変換方法は、ソース音声をターゲット音声に変換する音声変換装置における音声変換方法であって、音声変換部が、予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、入力されたソース音声をターゲット音声に変換することを含み、前記ターゲット変換関数は、入力されたソース音声と、ターゲット音声とに基づいて、前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたものである。

本発明に係るプログラムは、コンピュータを、上記の音声変換学習装置又は上記の音声変換装置が備える各部として機能させるためのプログラムである。

本発明の音声変換学習装置、方法、及びプログラムによれば、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように学習することにより、より自然な音質の音声に変換することができる、という効果が得られる。

また、本発明の音声変換装置、方法、及びプログラムによれば、前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたターゲット変換関数を用いることにより、より自然な音質の音声に変換することができる、という効果が得られる。

本発明の実施の形態の処理の概念図である。本発明の実施の形態に係る音声変換学習装置の構成を示すブロック図である。本発明の実施の形態に係る音声変換装置の構成を示すブロック図である。本発明の実施の形態に係る音声変換学習装置における学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンを示すフローチャートである。実験結果を示す図である。（Ａ）目標の音声の波形を示す図、（Ｂ）テキスト音声合成により合成された音声の波形を示す図、及び（Ｃ）テキスト音声合成により合成された音声に対し、本発明の実施の形態の処理を適用した結果を示す図である。ボコーダ方式による音声合成の枠組みを示す図である。音声特徴量系列に対する補正処理の枠組みを示す図である。ＧＡＮを用いた音声波形に対する補正処理の一例を示す図である。関連技術３の単純適用が難しい一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞
まず、本発明の実施の形態における概要を説明する。

本発明の実施の形態では、cycle-consistent adversarial networks（非特許文献４、５）をヒントにしたアプローチによりアライメント問題を解決し、合成音声から自然な音声への波形補正を達成する。本発明の実施の形態の技術の主な目的は、テキスト音声合成や音声変換により加工された音声特徴量を用いてボコーダ方式で合成された音を、より自然な音質の音声へと波形変換することである。ボコーダ方式の音声合成技術の恩恵は大きいことが広く知られているが、本発明の実施の形態はボコーダ方式の音声合成技術への加算的な処理が可能であるため、大きな意義がある。

このように、本発明の実施の形態は、画像生成の分野で注目を集めているcycle-consistent adversarial networks（非特許文献４、５）をヒントにしたアプローチにより音声信号から音声信号へと変換する手法に関するものである。

次に、本発明の実施の形態における関連技術１〜３について説明する。

＜関連技術１＞
既存のボコーダ方式の音声合成では、声帯音源情報や声道スペクトル情報のような音声特徴量系列を、ボコーダを用いて変換することによって音声を生成する。図８に、ボコーダ方式の音声合成の処理のフローを示す。なお、ここで述べたボコーダとは、人間の発声のメカニズムに関する知見を元に、音の生成過程をモデル化したものである。例えば、ボコーダの代表的なモデルとして、ソースフィルターモデルがあるが、このモデルでは、音の生成過程を音源（ソース）とデジタルフィルターの二つによって説明している。具体的には、ソースから生じる音声信号（パルス信号で表される）に対してデジタルフィルターを随時適用していくことによって、声が生成されるとしている。このように、ボコーダ方式の音声合成では、発声のメカニズムを抽象的にモデル化して表現しているため、音声をコンパクト（低次元）な表現をすることができる。一方で、抽象化した結果、音声の自然さが失われて、ボコーダ特有の機械的な音質となることが多い。

＜関連技術２＞
既存の音声特徴量補正の枠組み（図９）では、ボコーダに通す前の音声特徴量を補正する。例えば、音声特徴量系列に対する対数振幅スペクトルを自然な音声の音声特徴量系列の対数振幅スペクトルと一致するように補正する。これらの技術は、特に音声特徴量を加工した場合に有効である。例えば、テキスト音声合成・音声変換では、加工後の音声特徴量が過剰に平滑化され微細な構造が失われる傾向にあるが、この問題に対処し、一定量の品質改善を行うことが可能である。しかしながら、コンパクト（低次元）空間での補正であることは変わりなく、また最終的な音声合成部はボコーダを通るため、やはり音質改善の潜在的な限界が存在する。

＜関連技術３＞
既存の音声波形補正の枠組み（図１０）では、波形に対して直接補正する。例えば、理想環境下で収録された音声に対して、計算機上で雑音を重畳し雑音環境下音声を生成したのち、雑音環境下音声波形から理想環境下で収録された音声波形へのマッピングを学習し、変換する。関連技術２と比較して、補正後にボコーダを通らないため、関連技術２のような音質改善の潜在的な限界は存在しない。しかしながら、入力波形と理想とする目標波形の間で時間領域における理想的なアライメントが取られている場合（完全なパラレルデータの場合）において特に有効であり、完全なパラレルデータでない場合は単純適用が難しい。例えば、テキスト音声合成や音声変換において生成された合成音声から自然な音声への補正（図１１）は両音声間のアライメント問題により単純適用が難しい。

＜提案手法の原理＞
本発明の実施の形態の技術は学習処理と補正処理（図１参照）からなる。

＜学習処理＞
学習処理では、ソース音声（例えばテキスト音声合成により合成された音声）とターゲット音声（例えば通常音声）が与えられているものとする。なお、音声データはパラレルデータでなくても良い。

まず、ソース音声xからターゲット音声へと変換し、変換された音声（以後、変換後ソース音声G_x→y(x)）から再度ソース音声（以後、再構成ソース音声G_y→x(G_x→y(x))）へと変換する。一方で、ターゲット音声yからソース音声へと変換し、変換された音声（以後、変換後ターゲット音声G_y→x(y)）から再度ターゲット音声（以後、再構成ターゲット音声G_x→y(G_y→x(y))）へと変換する。ここで、ニューラルネットで記述されたモデル（変換関数G）を学習する際に、通常のGAN同様、変換ソース・ターゲット音声と実際のソース・ターゲット音声を識別する識別器Dを用意し、識別器を騙すようにモデルを学習する。なお、再構成ソース・ターゲット音声が本来のソース・ターゲット音声と一致するような制約L_cycを加える。学習時の目的関数Lは、

であり、ここでλは、再構成ソース・ターゲット音声が本来のソース・ターゲット音声と一致するような制約項を制御する重みパラメータである。なお、Gは、G_x→yおよびG_y→xのために、２つのモデルを別々に学習しても良いが、条件付きGANとして１つのモデルで表現することも可能である。同様に、DもD_xおよびD_yと独立な２つのモデルとして表現してもよいが、条件付きGANとして１つのモデルで表現することも可能である。

＜補正処理＞
一度ニューラルネットワークが学習されれば、任意の音声波形系列を、学習済みニューラルネットワークに入力することによって、目的となる音声データが得られる。

＜本発明の実施の形態に係る音声変換学習装置の構成＞
次に、本発明の実施の形態に係る音声変換学習装置の構成について説明する。図２に示すように、本発明の実施の形態に係る音声変換学習装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声変換学習装置１００は、機能的には図２に示すように入力部１０と、演算部２０と、出力部４０とを備えている。

入力部１０は、学習データとして、ソース音声を生成する元となるテキストと、ターゲット音声である通常の人間の音声データとを入力として受け付ける。

なお、テキストではなく、合成音声を生成する元となる任意の音声特徴量系列を入力として受け付けてもよい。

演算部２０は、音声合成部３０と、学習部３２とを含んで構成されている。

音声合成部３０は、入力されたテキストから、図１１上段に示すような、音声特徴量から音声を合成するボコーダを用いたテキスト音声合成により、合成音声を、ソース音声として生成する。

学習部３２は、音声合成部３０により生成されたソース音声と、入力されたターゲット音声とに基づいて、ソース音声をターゲット音声に変換するターゲット変換関数と、変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、ターゲット変換関数と、ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、ターゲット音声をソース音声に変換するソース変換関数と、変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、ソース変換関数と、ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、変換されたターゲット音声からソース変換関数を用いて再構成されたソース音声と元のソース音声とが一致し、変換されたソース音声からターゲット変換関数を用いて再構成されたターゲット音声と元のターゲット音声とが一致するようにソース変換関数及びターゲット変換関数を学習する。

具体的には、上記（１）式〜（４）式に示す目的関数を最大化するように、ターゲット変換関数、ターゲット識別器、ソース変換関数、及びソース識別器の各々を学習する。

このとき、上記図１の上段に示す誤差１、誤差２を最小化するように、ターゲット変換関数、ソース変換関数、及びターゲット識別器の各々を学習することと、上記図１の中段に示す誤差１、誤差２を最小化するように、ターゲット変換関数、ソース変換関数、及びソース識別器の各々を学習することとを交互に繰り返すことにより、上記（１）式〜（４）式に示す目的関数を最大化するように、ターゲット変換関数、ターゲット識別器、ソース変換関数、及びソース識別器の各々を学習する。

ターゲット変換関数、ターゲット識別器、ソース変換関数、ソース識別器、ソース変換関数、及びターゲット変換関数の各々は、ニューラルネットワークを用いて構成されている。

＜本発明の実施の形態に係る音声変換装置の構成＞
次に、本発明の実施の形態に係る音声変換装置の構成について説明する。図３に示すように、本発明の実施の形態に係る音声変換装置１５０は、ＣＰＵと、ＲＡＭと、後述する音声変換処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この音声変換装置１５０は、機能的には図３に示すように入力部５０と、演算部６０と、出力部９０とを備えている。

入力部５０は、ソース音声を生成する元となるテキストを受け付ける。なお、テキストではなく、合成音声を生成する元となる任意の音声特徴量系列を入力として受け付けてもよい。

演算部６０は、音声合成部７０と、音声変換部７２とを含んで構成されている。

音声合成部７０は、入力されたテキストから、図１１上段に示すような、音声特徴量から音声を合成するボコーダを用いたテキスト音声合成により、合成音声を、ソース音声として生成する。

音声変換部７２は、音声変換学習装置１００により予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、音声合成部７０により生成されたソース音声をターゲット音声に変換し、出力部９０により出力する。

＜本発明の実施の形態に係る音声変換学習装置の作用＞
次に、本発明の実施の形態に係る音声変換学習装置１００の作用について説明する。入力部１０において学習データとして、ソース音声を生成する元となるテキストと、ターゲット音声である通常の人間の音声データとを入力として受け付けると、音声変換学習装置１００は、図４に示す学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０で受け付けたテキストから、ボコーダを用いたテキスト音声合成により、合成音声を、ソース音声として生成する。

次に、ステップＳ１０２では、ステップＳ１００で得たソース音声と、入力部１０で受け付けたターゲット音声とに基づいて、ソース音声をターゲット音声に変換するターゲット変換関数と、変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、ターゲット変換関数と、ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、ターゲット音声をソース音声に変換するソース変換関数と、変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、ソース変換関数と、ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、前記変換されたターゲット音声からソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声からターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するようにソース変換関数及びターゲット変換関数を学習し、学習結果を出力部４０により出力して、学習処理ルーチンを終了する。

＜本発明の実施の形態に係る音声変換装置の作用＞
入力部５０において音声変換学習装置１００による学習結果を受け付ける。また、入力部５０においてソース音声を生成する元となるテキストを受け付けると、音声変換装置１５０は、図５に示す音声変換処理ルーチンを実行する。

ステップＳ１５０では、入力部５０で受け付けたテキストから、図１１上段に示すような、音声特徴量から音声を合成するボコーダを用いたテキスト音声合成により、合成音声を、ソース音声として生成する。

ステップＳ１５２では、音声変換学習装置１００により予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、上記ステップＳ１５０で生成されたソース音声をターゲット音声に変換し、出力部９０により出力して、音声変換処理ルーチンを終了する。

＜実験結果＞
本発明の実施の形態の有効性を示すために、一実現方法を用いて、実験を行った。テキスト音声合成により推定された音声特徴量をボコーダ方式により合成した合成音声を、より自然な音声へと補正する。学習データに含まれない３０文を用いて５段階オピニオンスコアによる音声の聴取実験を１０名に対して実施した。評価対象音声は、A）目標の音声、B）テキスト音声合成により合成された音声、C）B)の音声に対して提案手法を適用した音声、の３種類であり、評価軸は、「人が発声した音声であるかどうか」である。５を「人が発声した音声」、１を「合成音声」と定義した。

結果は、図６の通りであり、大幅な改善が確認できた。その際の各音声サンプルのスペクトルグラムを図７に記す。

以上説明したように、本発明の実施の形態に係る音声変換学習装置によれば、ソース音声をターゲット音声に変換するターゲット変換関数と、変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、ターゲット変換関数と、ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、ターゲット音声をソース音声に変換するソース変換関数と、変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、ソース変換関数と、ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、変換されたターゲット音声からソース変換関数を用いて再構成されたソース音声と元のソース音声とが一致し、変換された前記ソース音声からターゲット変換関数を用いて再構成されたターゲット音声と元のターゲット音声とが一致するように学習することにより、より自然な音質の音声に変換することができる。

また、本発明の実施の形態に係る音声変換装置によれば、ターゲット変換関数とターゲット識別器とについて、ターゲット変換関数と、ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、ソース変換関数とソース識別器とについて、ソース変換関数と、ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、変換されたターゲット音声からソース変換関数を用いて再構成されたソース音声と元のソース音声とが一致し、変換されたソース音声からターゲット変換関数を用いて再構成されたターゲット音声と元のターゲット音声とが一致するように予め学習されたターゲット変換関数を用いることにより、より自然な音質の音声に変換することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、音声変換学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。

また、上述の音声変換学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０演算部
３０音声合成部
３２学習部
４０出力部
５０入力部
６０演算部
７０音声合成部
７２音声変換部
９０出力部
１００音声変換学習装置
１５０音声変換装置

Claims

ソース音声をターゲット音声に変換する変換関数を学習する音声変換学習装置であって、
入力されたソース音声と、ターゲット音声とに基づいて、
前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、
前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、
前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように前記ソース変換関数及び前記ターゲット変換関数を学習する学習部
を含む音声変換学習装置。
前記ソース音声は、音声特徴量から音声を合成するボコーダを用いて生成された合成音声であり、
前記ターゲット音声は、通常の音声である請求項１記載の音声変換学習装置。
前記ターゲット変換関数、前記ターゲット識別器、前記ソース変換関数、及び前記ソース識別器の各々は、ニューラルネットワークを用いて構成される請求項１又は２記載の音声変換学習装置。
ソース音声をターゲット音声に変換する音声変換装置であって、
予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、入力されたソース音声をターゲット音声に変換する音声変換部を含み、
前記ターゲット変換関数は、
入力されたソース音声と、ターゲット音声とに基づいて、
前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、
前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、
前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたものである
音声変換装置。
ソース音声をターゲット音声に変換する変換関数を学習する音声変換学習装置における音声変換学習方法であって、
学習部が、入力されたソース音声と、ターゲット音声とに基づいて、
前記ソース音声を前記ターゲット音声に変換するターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、
前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習を行い、かつ、
前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように前記ソース変換関数及び前記ターゲット変換関数を学習する
音声変換学習方法。
ソース音声をターゲット音声に変換する音声変換装置における音声変換方法であって、
音声変換部が、予め学習された、前記ソース音声を前記ターゲット音声に変換するターゲット変換関数を用いて、入力されたソース音声をターゲット音声に変換することを含み、
前記ターゲット変換関数は、
入力されたソース音声と、ターゲット音声とに基づいて、
前記ターゲット変換関数と、前記変換されたターゲット音声が、真のターゲット音声と同一の分布に従うか否かを識別するターゲット識別器と、について、前記ターゲット変換関数と、前記ターゲット識別器とが、互いに競合する最適化条件に従って学習され、かつ、
前記ターゲット音声を前記ソース音声に変換するソース変換関数と、前記変換されたソース音声が、真のソース音声と同一の分布に従うか否かを識別するソース識別器と、について、前記ソース変換関数と、前記ソース識別器とが、互いに競合する最適化条件に従って学習され、かつ、
前記変換されたターゲット音声から前記ソース変換関数を用いて再構成された前記ソース音声と元のソース音声とが一致し、前記変換された前記ソース音声から前記ターゲット変換関数を用いて再構成された前記ターゲット音声と元のターゲット音声とが一致するように予め学習されたものである
音声変換方法。
コンピュータを、請求項１〜請求項３の何れか１項記載の音声変換学習装置又は請求項４記載の音声変換装置が備える各部として機能させるためのプログラム。