JP2021099454A

JP2021099454A - 音声合成装置、音声合成プログラム及び音声合成方法

Info

Publication number: JP2021099454A
Application number: JP2019231876A
Authority: JP
Inventors: 駿介後藤; Shunsuke Goto; 弘太郎大西; Kotaro Onishi; 橘　健太郎; Kentaro Tachibana; 健太郎橘; 紘一郎森; Koichiro Mori
Original assignee: DeNA Co Ltd
Current assignee: DeNA Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-07-01
Anticipated expiration: 2039-12-23
Also published as: JP7339151B2

Abstract

【課題】画像から音声を合成する音声合成装置、音声合成プログラム及び音声合成方法を提供する。【解決手段】対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いた機械学習によって構築された音声合成装置であって、画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、を備える構成とする。【選択図】図３

Description

本発明は、画像から音声を合成する音声合成装置、音声合成プログラム及び音声合成方法に関する。

文字や音素等の情報を音声合成モデルに入力することによって音声を合成する音声合成装置が知られている。文字や音素に加えて、さらに話者が発声した音声から求められた話者の特徴を音声合成モデルに入力することによって、当該文字や音素に応じて当該話者が発声したような音声を合成する音声合成装置も知られている（非特許文献１）。

また、目標話者とする人物の顔画像の特徴量を主観評価に基づいて抽出し、当該特徴量に応じて当該話者が発声したような音声を統計的モデルに基づいて生成する技術が開示されている（非特許文献２）。

"Transfer Learning from Speaker Verification to Multi-speaker Text-To-Speech Synthesis": https://arxiv.org/abs/1806.04558 "A Comparative Study of Statistical Conversion of Face to Voice Based on Their Subjective Impressions": https://www.isca-speech.org/archive/Interspeech_2018/pdfs/2005.pdf

しかしながら、目標話者とする人物の顔の情報とテキスト情報から当該話者が発声したような音声を客観的に自動合成できる音声合成装置に関する研究は十分になされていない。

本発明の１つの態様は、対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いた機械学習によって構築された音声合成装置であって、画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、を備え、前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成装置である。

本発明の別の態様は、対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成プログラムであって、コンピュータを、画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、として機能させ、前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成プログラムである。

本発明の別の態様は、対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成方法であって、画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、を用いて音声を合成し、前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成方法である。

ここで、前記対象物は人物であり、前記音声合成器は、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す人物が当該内容情報に対応する内容を発したような音声を合成して出力することが好適である。

また、前記音声合成器の機械学習に用いられる音声データは、前記スピーチエンコーダの機械学習に用いられる音声データよりクリーンであることが好適である。

また、前記音声合成器の機械学習に用いられる音声データは、ＶＣＴＫ又はＬｉｂｒｉＴＴＳに含まれる音声データであり、前記スピーチエンコーダの機械学習に用いられる音声データは、ＶｏｘＣｅｌｅｂ２の動画サイトから抽出された音声データであることが好適である。

また、前記画像エンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルの平均値と、当該対象物の画像データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることが好適である。

また、前記スピーチエンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに出力される特徴ベクトルの平均値と、当該対象物に対応付けられた他の音声データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることが好適である。

本発明の実施の形態は、画像から音声を合成する音声合成装置、音声合成プログラム及び音声合成方法を提供することを目的の１つとする。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。

本発明の実施の形態における音声合成装置の構成を示す図である。本発明の実施の形態における音声合成方法を示すフローチャートである。本発明の実施の形態における音声合成装置の音声合成モデルを示す図である。本発明の実施の形態における顔画像データを説明するための図である。本発明の実施の形態におけるスピーチエンコーダの構築方法を説明するための図である。本発明の実施の形態における画像エンコーダの構築方法を説明するための図である。本発明の実施の形態における複数話者ＴＴＳの構築方法を説明するための図である。

本発明の実施の形態における音声合成装置１００は、図１に示すように、処理部１０、記憶部１２、入力部１４、出力部１６及び通信部１８を含んで構成される。

音声合成装置１００は、一般的なコンピュータにより構成することができる。処理部１０は、ＣＰＵ等を含んで構成され、音声合成装置１００における処理を統合的に行う。処理部１０は、記憶部１２に記憶されている音声合成プログラムを実行することにより、本実施の形態における音声合成処理を行う。記憶部１２は、音声合成処理において用いられる音声合成モデル（スピーチエンコーダ、画像エンコーダ、複数話者ＴＴＳ（Ｔｅｘｔ−Ｔｏ−Ｓｐｅｅｃｈ））、モデル生成に必要な顔画像データ、音声データ、テキストデータ等、音声合成処理において必要な情報を記憶する。記憶部１２は、例えば、半導体メモリ、ハードディスク等で構成することができる。記憶部１２は、音声合成装置１００の内部に設けてもよいし、無線や有線等の情報網を利用して処理部１０からアクセスできるように外部に設けてもよい。入力部１４は、音声合成装置１００に対して情報を入力するための手段を含む。出力部１６は、音声合成装置１００において処理された情報を表示させる手段を含む。通信部１８は、外部の装置（サーバ等）との情報交換を行うためのインターフェースを含んで構成される。通信部１８は、例えば、インターネット等の情報通信網に接続されることによって、外部の装置との通信を可能にする。

［音声合成装置の構築］
以下、図２のフローチャートを参照して、本実施の形態における音声合成装置の構成方法について説明する。音声合成装置１００は、音声合成プログラムを実行することによって、音声合成モデル（スピーチエンコーダ、複数話者ＴＴＳ、画像エンコーダ）のための機械学習を行うことによって構成される。音声合成装置１００を用いることによって、音声合成モデルに基づいて音声を自動合成する処理を行うことができる。

音声合成装置１００の音声合成モデルは、図３に示すように、画像エンコーダ１０２及び複数話者ＴＴＳ１０４を含んで構成される。音声合成装置１００は、機械学習によってスピーチエンコーダ、画像エンコーダ及び複数話者ＴＴＳを組み合わせて構成される。

本実施の形態の音声合成モデルの構築には、テキストデータ、顔画像データ及び音声データのセットが用いられる。テキストデータは、話者の発話を音声の内容を文字や音素で表したデータである。テキストデータは、音声合成装置１００によって生成される音声の内容を示す内容情報として使用される。顔画像データは、話者の顔を示す画像である。音声データは、テキストデータに含まれる文字や音素に対応する音声のデータである。ここでは、音声データは、話者が発した音声のデータとしたが、何らかの対象物が発した音のデータを含むものとする。音声合成モデルの機械学習には、話者の顔画像データと当該話者が発話したテキストデータに対応する音声データがセットとして用いられる。

本実施の形態では、顔画像データと音声データの組み合わせとしてＶｏｘ−Ｃｅｌｅｂ２とＶＧＧＦａｃｅ２を用いた。ＶｏｘＣｅｌｅｂ２は、６０００人以上の有名人の発話（音声データ）を動画サイトから抽出したデータセットである。ＶｏｘＣｅｌｅｂ２によって、多様な性別・国籍の話者について顔画像データと音声データとが対応したデータセットを得ることができる。しかしながら、本実施の形態では、動画から切り出された顔画像データは解像度が低いため、ＶｏｘＣｅｌｅｂ２と同一の人物を含んだ画像のデータセットであるＶＧＧＦａｃｅ２から顔画像データを用意し、ＶｏｘＣｅｌｅｂ２の音声データと組み合わせて使用した。

音声データは、例えば、サンプリング周波数１６ｋＨｚにダウンサンプリングして使用すればよい。ただし、サンプリング周波数は、これに限定されるものではなく、他のサンプリング周波数を使用してもよい。

図４は、ＶｏｘＣｅｌｅｂ２において動画から切り出した話者の顔画像と、ＶＧＧＦａｃｅ２において対応する話者の顔画像と、を比較して示した図である。図４に示されるように、ＶＧＧＦａｃｅ２における顔画像は、ＶｏｘＣｅｌｅｂ２における顔画像より解像度が高い。

テキストデータと音声データのデータセットは、ＶＣＴＫとＬｉｂｒｉＴＴＳを用いた。ＶＣＴＫは、１００以上の話者による９００００以上の発話のデータセットを含む。ＬｉｂｒｉＴＴＳは、８００以上の話者による１８０００以上の発話のデータセットを含む。ＶＣＴＫとＬｉｂｒｉＴＴＳのいずれのデータセットにおける音声データもＶｏｘＣｅｌｅｂ２における音声データよりもバックグラウンドノイズは少ないクリーンな音声である。

なお、本実施の形態では、音声の内容を文字として表現したテキストデータを用いたがこれに限定されるものではない。テキストデータの代わりに、又は、テキストデータに加えて、音声の内容を他の方法で表したデータとしてもよい。例えば、音声の内容を音素で表した音素データとしてもよいし、音声の内容を話者の顔の表情の変化で表した動画データとしてもよい。また、テキストデータの代わりに、音声データを用いてもよい。

また、本実施の形態では、話者を表すために実存する人物の顔画像データを用いたがこれに限定されるものではない。例えば、実存する人物の顔画像データの代わりに、アニメーション等におけるキャラクタの顔画像データや３次元の人物モデルにおける顔画像データとしてもよい。

ステップＳ１０では、機械学習によってスピーチエンコーダが構築される。本ステップにおける処理によって、音声合成装置１００はスピーチエンコーダ構築手段として機能する。スピーチエンコーダ１０６は、図５に示すように、話者毎に対応付けられた複数の音声データのデータセットを用いた機械学習によって、音声データを入力することによって当該音声データを発話した話者を示す話者特徴ベクトルを出力するように構築される。

具体的には、同じ話者に対する複数の音声データをミニバッチとして、当該ミニバッチ内に含まれる１つの音声データをスピーチエンコーダ１０６に入力したときに出力される話者特徴ベクトルが、当該ミニバッチに含まれる他の音声データをスピーチエンコーダ１０６に入力したときに出力される話者特徴ベクトルの平均ベクトルに近づくように機械学習を行う。

本実施の形態では、スピーチエンコーダ１０６の機械学習には、ＶｏｘＣｅｌｅｂ２の動画サイトから抽出された音声データを使用することが好適である。ＶｏｘＣｅｌｅｂ２に含まれる音声データにはバックグラウンドノイズ等の雑音やＢＧＭが混じっているデータやそれらが混じっていないクリーンな音声等が含まれている。スピーチエンコーダ１０６の学習において、雑音やＢＧＭが混じっている音声データを使用することによって、クリーンな音声のみを含む音声データを使用した場合に比べて音声のクリーンさにも依存しない話者特徴ベクトルが出力されるスピーチエンコーダ１０６を得ることができる。

例えば、音声データは、窓長、ホップ長、ＦＦＴ長をそれぞれ４００サンプル（２５ｍｓ）、１６０サンプル（１０ｍｓ）、５１２サンプルとすればよい。窓関数は、ハン窓を使用すればよい。音声データの入力は、長さ１６０フレームの４０次元ｌｏｇ−Ｍｅｌスペクトログラムとし、スピーチエンコーダ１０６から出力される話者特徴ベクトルは２５６次元のベクトルとすればよい。スピーチエンコーダ１０６を構成するニューラルネットワークの隠れ層は、７６８次元の３層のＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ）と、最終フレームに７６８次元から２５６次元に変換する線形層を組み合わせた構成とすればよい。誤差関数の計算のために得られた出力はＬ２正規化すればよい。また、学習率は１０^−５とし、最適化関数はＡｄａｍを用いればよい。ただし、スピーチエンコーダ１０６の構成は、これらの条件に限定されるものではなく、音声データを入力することによって当該音声データを発話した話者を示す適切な話者特徴ベクトルを出力する構成とすればよい。

ステップＳ１２では、機械学習によって画像エンコーダ１０２が構築される。本ステップにおける処理によって、音声合成装置１００は画像エンコーダ構築手段として機能する。画像エンコーダ１０２は、話者の顔画像データを入力したときに適切な話者特徴ベクトルが出力されるように構築される。すなわち、画像エンコーダ１０２は、話者の顔画像データを入力することによって当該話者に対応する特徴ベクトルを出力する画像エンコーダとして機能する。

本実施の形態では、図６に示すように、話者毎に対応付けられた音声データと顔画像データのペア（データセット）をそれぞれスピーチエンコーダ１０６と画像エンコーダ１０２に入力した場合にスピーチエンコーダ１０６から出力される話者特徴ベクトルと画像エンコーダ１０２から出力される話者特徴ベクトルとができるだけ一致するように機械学習を行う。

例えば、ステップＳ１０における機械学習によって構築されたスピーチエンコーダ１０６に対してＶｏｘＣｅｌｅｂ２における音声データを話者毎に入力して得られた話者特徴ベクトルの平均ベクトルを教師ベクトルとして当該話者の顔画像データと組み合わせて教師付学習用データセットとする。そして、顔画像データを入力したときに画像エンコーダ１０２から出力される話者特徴量ベクトルが当該顔画像データに対応する話者の教師ベクトル（平均話者特徴ベクトル）にできるだけ近づき、異なる話者に対する教師ベクトルからできるだけ遠ざかるように画像エンコーダ１０２を機械学習させる。より具体的には、例えば、Ｓｏｆｔｍａｘ損失を適用したGE2E損失（generalized end-to-end損失）ができるだけ小さくなるように機械学習を行えばよい。

なお、画像エンコーダ１０２の出力は、例えば、２５６次元の特徴ベクトルとなるようにすればよい。また、画像エンコーダ１０２を構成するニューラルネットワークとしては、例えば、ＶＧＧ１９等の畳み込みニューラルネットワークを適用すればよい。誤差関数は、話者特徴の誤差関数であるＧＥ２Ｅで逐次計算していた重心をスピーチエンコーダで学習した特徴ベクトルで置き換えたＳｕｐｅｒｖｉｓｅｄＧＥ２Ｅ損失を用いればよい。

ここで、画像エンコーダ１０２の機械学習では、ＶｏｘＣｅｌｅｂ２の動画サイトから抽出された話者の顔画像データではなく、ＶＧＧＦａｃｅにおいて当該話者に対応する顔画像データを用いることが好適である。すなわち、画像エンコーダ１０２の機械学習に用いる音声データはＶｏｘＣｅｌｅｂ２において動画サイトから抽出された各話者の音声データとし、画像エンコーダ１０２の機械学習に用いる顔画像データはＶＧＧＦａｃｅにおいて当該話者に対応する顔画像データとすることが好適である。これは、図４に示したように、ＶｏｘＣｅｌｅｂ２よりＶＧＧＦａｃｅ２の顔画像の解像度が高いためである。これによって、顔画像の特徴をより適切に捉えた話者特徴ベクトルを生成する画像エンコーダ１０２を構成することができる。なお、顔画像データは、例えば、１６０ドット×１６０ドットの画像データとすればよい。

ステップＳ１４では、機械学習によって複数話者ＴＴＳ１０４が構築される。本ステップにおける処理によって、音声合成装置１００は複数話者ＴＴＳ構築手段として機能する。複数話者ＴＴＳ１０４は、話者の特徴を示す話者特徴ベクトルと合成する音声の内容を示すテキストデータを入力したときに当該話者が当該テキストデータの内容を発話したような音声を合成して出力するように構築される。すなわち、複数話者ＴＴＳ１０４は、特徴ベクトルとテキストデータとの入力を受けて、当該特徴ベクトルと当該テキストデータに対応する音声を合成して出力する音声合成器（speech synthesizer）として機能する。

本実施の形態では、図７に示すように、音声データと当該音声データに対応するテキストデータとのデータセットを学習用データとして用いて機械学習を行って複数話者ＴＴＳ１０４を構築する。ステップＳ１０において構築したスピーチエンコーダ１０６に対して学習用データに含まれる音声データを入力し、当該音声データに対してスピーチエンコーダ１０６から出力される話者特徴ベクトルを複数話者ＴＴＳ１０４に入力する。また、スピーチエンコーダ１０６に入力した音声データに対応するテキストデータを複数話者ＴＴＳ１０４へ入力する。ここで、テキストデータは、既存のテキスト解析手段を用いて、言語学的特徴量（例えば、品詞、読み、モーラ数、アクセント型・句などが挙げられる）に変換して複数話者ＴＴＳ１０４へ入力するようにしてもよい。これらの入力を受けて、複数話者ＴＴＳ１０４から入力した音声データと同じ音声データが出力されるように機械学習を行う。

例えば、複数話者ＴＴＳ１０４では継続長推定と音響特徴量推定とを組み合わせる。継続長推定と音響特徴量推定のどちらにも双方向ＬＳＴＭを適用する。継続長推定における入力は、音素毎の言語特徴量と発話毎の特徴ベクトルを連結した値とする。継続長推定における出力は、音素継続長に当たるフレーム数とする。音響特徴量推定の入力は、フレーム毎の言語特徴量と発話毎の特徴量ベクトルを連結した値とする。音響特徴量推定の出力は、フレーム毎の音響特徴量（声の高さを示すF0、声道の特徴量を示すスペクトル包絡（例えばメルケプストラム）、声のかすれ具合を示す非周期性指標）とする。また、継続長推定と音響特徴量推定のモデルの誤差関数は二乗誤差を使用すればよい。

ここで、テキストデータと音声データのデータセットは、ＶＣＴＫとＬｉｂｒｉＴＴＳを用いることが好適である。すなわち、ＶＣＴＫとＬｉｂｒｉＴＴＳのデータセットにおける音声データは、ＶｏｘＣｅｌｅｂ２における音声データよりも雑音等が少ないクリーンな音声であるので、よりクリーンな音声を合成して出力する複数話者ＴＴＳ１０４を構築することができる。

ステップＳ１６では、音声合成装置１００の音声合成モデルが構築される。本ステップにおける処理によって、音声合成装置１００は音声合成モデル構築手段として機能する。音声合成装置１００における音声合成モデルは、ステップＳ１２で構築された画像エンコーダ１０２とステップＳ１４で構築された複数話者ＴＴＳ１０４を組み合わせ構成される。すなわち、図３に示すように、テキストデータ及びステップＳ１２において構築された画像エンコーダ１０２から出力される話者特徴ベクトルが複数話者ＴＴＳ１０４に入力される。複数話者ＴＴＳ１０４では、入力されたテキストデータ及び話者特徴ベクトルに応じた音声が合成される。このようにして、画像エンコーダ１０２に入力された顔画像データに対応する話者によってテキストデータに対応する内容が発話されたような音声を合成して出力する音声合成装置１００を構成することができる。

［音声合成処理］
以下、図３を参照して、音声合成装置１００によって音声を合成する処理について説明する。音声合成をする際、音声合成装置１００における画像エンコーダ１０２に話者とする人物の顔画像データを入力する。これによって、画像エンコーダ１０２では入力された顔画像データに応じた話者特徴ベクトルを生成して出力する。出力された話者特徴ベクトルは複数話者ＴＴＳ１０４に入力される。また、音声合成装置１００における複数話者ＴＴＳ１０４に合成する音声の内容を示すテキストデータを入力する。これによって、複数話者ＴＴＳ１０４では、入力されたテキストデータ及び話者特徴ベクトルに応じた音声が合成される。このようにして、画像エンコーダ１０２に入力された顔画像データに対応する話者によってテキストデータに対応する内容が発話されたような音声が合成されて出力される。

以上のように、本実施の形態における音声合成装置１００では、テキストデータ及び話者の顔画像データを入力として、当該話者が発したような適切な音声を合成して出力することができる。

ただし、本実施の形態の適用範囲は人物の音声合成に限定されるものではない。例えば、動物の画像データ、動物の発する声及び当該声の内容を示す情報を用いて機械学習させることによって、動物の声を合成する音声合成装置１００を構築することもできる。また、例えば、自動車や電車等の移動体の画像データ、当該移動体が発生させる音及び当該音の内容を示す移動体の動く様子を示す動画情報を用いて機械学習させることによって、移動体の音を合成する音声合成装置１００を構築することもできる。

また、テキストデータに代えて音声データを用いて音声合成装置１００を構築してもよい。この場合、入力された音声データの内容を画像エンコーダ１０２に入力された顔画像データの人物が発したような音声が合成されて出力される。したがって、入力データを変更して出力するボイスチェンジャーのように使用することができる。

なお、本実施の形態における音声合成装置１００では、各構成要素を１つの装置にて実現する構成としたが、各構成要素を異なる装置や異なる実行主体にて実現するようにしてもよい。例えば、各構成要素のうち幾つかを複数のコンピュータで分担して実現するようにしてもよい。

１０処理部、１２記憶部、１４入力部、１６出力部、１８通信部、１００音声合成装置、１０２画像エンコーダ、１０４複数話者ＴＴＳ、１０６スピーチエンコーダ。

Claims

対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いた機械学習によって構築された音声合成装置であって、
画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
を備え、
前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成装置。
請求項１に記載の音声合成装置であって、
前記対象物は人物であり、
前記音声合成器は、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す人物が当該内容情報に対応する内容を発したような音声を合成して出力することを特徴とする音声合成装置。
請求項１又は２に記載の音声合成装置であって、
前記音声合成器の機械学習に用いられる音声データは、前記スピーチエンコーダの機械学習に用いられる音声データよりクリーンであることを特徴とする音声合成装置。
請求項１〜３のいずれか１項に記載の音声合成装置であって、
前記画像エンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルの平均値と、当該対象物の画像データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることを特徴とする音声合成装置。
請求項１〜４のいずれか１項に記載の音声合成装置であって、
前記スピーチエンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに出力される特徴ベクトルの平均値と、当該対象物に対応付けられた他の音声データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることを特徴とする音声合成装置。
対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成プログラムであって、
コンピュータを、
画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
として機能させ、
前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成プログラム。
対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成方法であって、
画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
を用いて音声を合成し、
前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成方法。