JP2021099454A - 音声合成装置、音声合成プログラム及び音声合成方法 - Google Patents

音声合成装置、音声合成プログラム及び音声合成方法 Download PDF

Info

Publication number
JP2021099454A
JP2021099454A JP2019231876A JP2019231876A JP2021099454A JP 2021099454 A JP2021099454 A JP 2021099454A JP 2019231876 A JP2019231876 A JP 2019231876A JP 2019231876 A JP2019231876 A JP 2019231876A JP 2021099454 A JP2021099454 A JP 2021099454A
Authority
JP
Japan
Prior art keywords
voice
data
input
feature vector
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019231876A
Other languages
English (en)
Other versions
JP7339151B2 (ja
Inventor
駿介 後藤
Shunsuke Goto
駿介 後藤
弘太郎 大西
Kotaro Onishi
弘太郎 大西
橘 健太郎
Kentaro Tachibana
健太郎 橘
紘一郎 森
Koichiro Mori
紘一郎 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeNA Co Ltd
Original Assignee
DeNA Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DeNA Co Ltd filed Critical DeNA Co Ltd
Priority to JP2019231876A priority Critical patent/JP7339151B2/ja
Publication of JP2021099454A publication Critical patent/JP2021099454A/ja
Application granted granted Critical
Publication of JP7339151B2 publication Critical patent/JP7339151B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】画像から音声を合成する音声合成装置、音声合成プログラム及び音声合成方法を提供する。【解決手段】対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いた機械学習によって構築された音声合成装置であって、画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、を備える構成とする。【選択図】図3

Description

本発明は、画像から音声を合成する音声合成装置、音声合成プログラム及び音声合成方法に関する。
文字や音素等の情報を音声合成モデルに入力することによって音声を合成する音声合成装置が知られている。文字や音素に加えて、さらに話者が発声した音声から求められた話者の特徴を音声合成モデルに入力することによって、当該文字や音素に応じて当該話者が発声したような音声を合成する音声合成装置も知られている(非特許文献1)。
また、目標話者とする人物の顔画像の特徴量を主観評価に基づいて抽出し、当該特徴量に応じて当該話者が発声したような音声を統計的モデルに基づいて生成する技術が開示されている(非特許文献2)。
しかしながら、目標話者とする人物の顔の情報とテキスト情報から当該話者が発声したような音声を客観的に自動合成できる音声合成装置に関する研究は十分になされていない。
本発明の1つの態様は、対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いた機械学習によって構築された音声合成装置であって、画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、を備え、前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成装置である。
本発明の別の態様は、対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成プログラムであって、コンピュータを、画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、として機能させ、前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成プログラムである。
本発明の別の態様は、対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成方法であって、画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、を用いて音声を合成し、前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成方法である。
ここで、前記対象物は人物であり、前記音声合成器は、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す人物が当該内容情報に対応する内容を発したような音声を合成して出力することが好適である。
また、前記音声合成器の機械学習に用いられる音声データは、前記スピーチエンコーダの機械学習に用いられる音声データよりクリーンであることが好適である。
また、前記音声合成器の機械学習に用いられる音声データは、VCTK又はLibriTTSに含まれる音声データであり、前記スピーチエンコーダの機械学習に用いられる音声データは、VoxCeleb2の動画サイトから抽出された音声データであることが好適である。
また、前記画像エンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルの平均値と、当該対象物の画像データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることが好適である。
また、前記スピーチエンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに出力される特徴ベクトルの平均値と、当該対象物に対応付けられた他の音声データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることが好適である。
本発明の実施の形態は、画像から音声を合成する音声合成装置、音声合成プログラム及び音声合成方法を提供することを目的の1つとする。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。
本発明の実施の形態における音声合成装置の構成を示す図である。 本発明の実施の形態における音声合成方法を示すフローチャートである。 本発明の実施の形態における音声合成装置の音声合成モデルを示す図である。 本発明の実施の形態における顔画像データを説明するための図である。 本発明の実施の形態におけるスピーチエンコーダの構築方法を説明するための図である。 本発明の実施の形態における画像エンコーダの構築方法を説明するための図である。 本発明の実施の形態における複数話者TTSの構築方法を説明するための図である。
本発明の実施の形態における音声合成装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。
音声合成装置100は、一般的なコンピュータにより構成することができる。処理部10は、CPU等を含んで構成され、音声合成装置100における処理を統合的に行う。処理部10は、記憶部12に記憶されている音声合成プログラムを実行することにより、本実施の形態における音声合成処理を行う。記憶部12は、音声合成処理において用いられる音声合成モデル(スピーチエンコーダ、画像エンコーダ、複数話者TTS(Text−To−Speech))、モデル生成に必要な顔画像データ、音声データ、テキストデータ等、音声合成処理において必要な情報を記憶する。記憶部12は、例えば、半導体メモリ、ハードディスク等で構成することができる。記憶部12は、音声合成装置100の内部に設けてもよいし、無線や有線等の情報網を利用して処理部10からアクセスできるように外部に設けてもよい。入力部14は、音声合成装置100に対して情報を入力するための手段を含む。出力部16は、音声合成装置100において処理された情報を表示させる手段を含む。通信部18は、外部の装置(サーバ等)との情報交換を行うためのインターフェースを含んで構成される。通信部18は、例えば、インターネット等の情報通信網に接続されることによって、外部の装置との通信を可能にする。
[音声合成装置の構築]
以下、図2のフローチャートを参照して、本実施の形態における音声合成装置の構成方法について説明する。音声合成装置100は、音声合成プログラムを実行することによって、音声合成モデル(スピーチエンコーダ、複数話者TTS、画像エンコーダ)のための機械学習を行うことによって構成される。音声合成装置100を用いることによって、音声合成モデルに基づいて音声を自動合成する処理を行うことができる。
音声合成装置100の音声合成モデルは、図3に示すように、画像エンコーダ102及び複数話者TTS104を含んで構成される。音声合成装置100は、機械学習によってスピーチエンコーダ、画像エンコーダ及び複数話者TTSを組み合わせて構成される。
本実施の形態の音声合成モデルの構築には、テキストデータ、顔画像データ及び音声データのセットが用いられる。テキストデータは、話者の発話を音声の内容を文字や音素で表したデータである。テキストデータは、音声合成装置100によって生成される音声の内容を示す内容情報として使用される。顔画像データは、話者の顔を示す画像である。音声データは、テキストデータに含まれる文字や音素に対応する音声のデータである。ここでは、音声データは、話者が発した音声のデータとしたが、何らかの対象物が発した音のデータを含むものとする。音声合成モデルの機械学習には、話者の顔画像データと当該話者が発話したテキストデータに対応する音声データがセットとして用いられる。
本実施の形態では、顔画像データと音声データの組み合わせとしてVox−Celeb2とVGGFace2を用いた。VoxCeleb2は、6000人以上の有名人の発話(音声データ)を動画サイトから抽出したデータセットである。VoxCeleb2によって、多様な性別・国籍の話者について顔画像データと音声データとが対応したデータセットを得ることができる。しかしながら、本実施の形態では、動画から切り出された顔画像データは解像度が低いため、VoxCeleb2と同一の人物を含んだ画像のデータセットであるVGGFace2から顔画像データを用意し、VoxCeleb2の音声データと組み合わせて使用した。
音声データは、例えば、サンプリング周波数16kHzにダウンサンプリングして使用すればよい。ただし、サンプリング周波数は、これに限定されるものではなく、他のサンプリング周波数を使用してもよい。
図4は、VoxCeleb2において動画から切り出した話者の顔画像と、VGGFace2において対応する話者の顔画像と、を比較して示した図である。図4に示されるように、VGGFace2における顔画像は、VoxCeleb2における顔画像より解像度が高い。
テキストデータと音声データのデータセットは、VCTKとLibriTTSを用いた。VCTKは、100以上の話者による90000以上の発話のデータセットを含む。LibriTTSは、800以上の話者による18000以上の発話のデータセットを含む。VCTKとLibriTTSのいずれのデータセットにおける音声データもVoxCeleb2における音声データよりもバックグラウンドノイズは少ないクリーンな音声である。
なお、本実施の形態では、音声の内容を文字として表現したテキストデータを用いたがこれに限定されるものではない。テキストデータの代わりに、又は、テキストデータに加えて、音声の内容を他の方法で表したデータとしてもよい。例えば、音声の内容を音素で表した音素データとしてもよいし、音声の内容を話者の顔の表情の変化で表した動画データとしてもよい。また、テキストデータの代わりに、音声データを用いてもよい。
また、本実施の形態では、話者を表すために実存する人物の顔画像データを用いたがこれに限定されるものではない。例えば、実存する人物の顔画像データの代わりに、アニメーション等におけるキャラクタの顔画像データや3次元の人物モデルにおける顔画像データとしてもよい。
ステップS10では、機械学習によってスピーチエンコーダが構築される。本ステップにおける処理によって、音声合成装置100はスピーチエンコーダ構築手段として機能する。スピーチエンコーダ106は、図5に示すように、話者毎に対応付けられた複数の音声データのデータセットを用いた機械学習によって、音声データを入力することによって当該音声データを発話した話者を示す話者特徴ベクトルを出力するように構築される。
具体的には、同じ話者に対する複数の音声データをミニバッチとして、当該ミニバッチ内に含まれる1つの音声データをスピーチエンコーダ106に入力したときに出力される話者特徴ベクトルが、当該ミニバッチに含まれる他の音声データをスピーチエンコーダ106に入力したときに出力される話者特徴ベクトルの平均ベクトルに近づくように機械学習を行う。
本実施の形態では、スピーチエンコーダ106の機械学習には、VoxCeleb2の動画サイトから抽出された音声データを使用することが好適である。VoxCeleb2に含まれる音声データにはバックグラウンドノイズ等の雑音やBGMが混じっているデータやそれらが混じっていないクリーンな音声等が含まれている。スピーチエンコーダ106の学習において、雑音やBGMが混じっている音声データを使用することによって、クリーンな音声のみを含む音声データを使用した場合に比べて音声のクリーンさにも依存しない話者特徴ベクトルが出力されるスピーチエンコーダ106を得ることができる。
例えば、音声データは、窓長、ホップ長、FFT長をそれぞれ400サンプル(25ms)、160サンプル(10ms)、512サンプルとすればよい。窓関数は、ハン窓を使用すればよい。音声データの入力は、長さ160フレームの40次元log−Melスペクトログラムとし、スピーチエンコーダ106から出力される話者特徴ベクトルは256次元のベクトルとすればよい。スピーチエンコーダ106を構成するニューラルネットワークの隠れ層は、768次元の3層のLSTM(Long Short−Term Memory)と、最終フレームに768次元から256次元に変換する線形層を組み合わせた構成とすればよい。誤差関数の計算のために得られた出力はL2正規化すればよい。また、学習率は10−5とし、最適化関数はAdamを用いればよい。ただし、スピーチエンコーダ106の構成は、これらの条件に限定されるものではなく、音声データを入力することによって当該音声データを発話した話者を示す適切な話者特徴ベクトルを出力する構成とすればよい。
ステップS12では、機械学習によって画像エンコーダ102が構築される。本ステップにおける処理によって、音声合成装置100は画像エンコーダ構築手段として機能する。画像エンコーダ102は、話者の顔画像データを入力したときに適切な話者特徴ベクトルが出力されるように構築される。すなわち、画像エンコーダ102は、話者の顔画像データを入力することによって当該話者に対応する特徴ベクトルを出力する画像エンコーダとして機能する。
本実施の形態では、図6に示すように、話者毎に対応付けられた音声データと顔画像データのペア(データセット)をそれぞれスピーチエンコーダ106と画像エンコーダ102に入力した場合にスピーチエンコーダ106から出力される話者特徴ベクトルと画像エンコーダ102から出力される話者特徴ベクトルとができるだけ一致するように機械学習を行う。
例えば、ステップS10における機械学習によって構築されたスピーチエンコーダ106に対してVoxCeleb2における音声データを話者毎に入力して得られた話者特徴ベクトルの平均ベクトルを教師ベクトルとして当該話者の顔画像データと組み合わせて教師付学習用データセットとする。そして、顔画像データを入力したときに画像エンコーダ102から出力される話者特徴量ベクトルが当該顔画像データに対応する話者の教師ベクトル(平均話者特徴ベクトル)にできるだけ近づき、異なる話者に対する教師ベクトルからできるだけ遠ざかるように画像エンコーダ102を機械学習させる。より具体的には、例えば、Softmax損失を適用したGE2E損失(generalized end-to-end損失)ができるだけ小さくなるように機械学習を行えばよい。
なお、画像エンコーダ102の出力は、例えば、256次元の特徴ベクトルとなるようにすればよい。また、画像エンコーダ102を構成するニューラルネットワークとしては、例えば、VGG19等の畳み込みニューラルネットワークを適用すればよい。誤差関数は、話者特徴の誤差関数であるGE2Eで逐次計算していた重心をスピーチエンコーダで学習した特徴ベクトルで置き換えたSupervised GE2E損失を用いればよい。
ここで、画像エンコーダ102の機械学習では、VoxCeleb2の動画サイトから抽出された話者の顔画像データではなく、VGGFaceにおいて当該話者に対応する顔画像データを用いることが好適である。すなわち、画像エンコーダ102の機械学習に用いる音声データはVoxCeleb2において動画サイトから抽出された各話者の音声データとし、画像エンコーダ102の機械学習に用いる顔画像データはVGGFaceにおいて当該話者に対応する顔画像データとすることが好適である。これは、図4に示したように、VoxCeleb2よりVGGFace2の顔画像の解像度が高いためである。これによって、顔画像の特徴をより適切に捉えた話者特徴ベクトルを生成する画像エンコーダ102を構成することができる。なお、顔画像データは、例えば、160ドット×160ドットの画像データとすればよい。
ステップS14では、機械学習によって複数話者TTS104が構築される。本ステップにおける処理によって、音声合成装置100は複数話者TTS構築手段として機能する。複数話者TTS104は、話者の特徴を示す話者特徴ベクトルと合成する音声の内容を示すテキストデータを入力したときに当該話者が当該テキストデータの内容を発話したような音声を合成して出力するように構築される。すなわち、複数話者TTS104は、特徴ベクトルとテキストデータとの入力を受けて、当該特徴ベクトルと当該テキストデータに対応する音声を合成して出力する音声合成器(speech synthesizer)として機能する。
本実施の形態では、図7に示すように、音声データと当該音声データに対応するテキストデータとのデータセットを学習用データとして用いて機械学習を行って複数話者TTS104を構築する。ステップS10において構築したスピーチエンコーダ106に対して学習用データに含まれる音声データを入力し、当該音声データに対してスピーチエンコーダ106から出力される話者特徴ベクトルを複数話者TTS104に入力する。また、スピーチエンコーダ106に入力した音声データに対応するテキストデータを複数話者TTS104へ入力する。ここで、テキストデータは、既存のテキスト解析手段を用いて、言語学的特徴量(例えば、品詞、読み、モーラ数、アクセント型・句などが挙げられる)に変換して複数話者TTS104へ入力するようにしてもよい。これらの入力を受けて、複数話者TTS104から入力した音声データと同じ音声データが出力されるように機械学習を行う。
例えば、複数話者TTS104では継続長推定と音響特徴量推定とを組み合わせる。継続長推定と音響特徴量推定のどちらにも双方向LSTMを適用する。継続長推定における入力は、音素毎の言語特徴量と発話毎の特徴ベクトルを連結した値とする。継続長推定における出力は、音素継続長に当たるフレーム数とする。音響特徴量推定の入力は、フレーム毎の言語特徴量と発話毎の特徴量ベクトルを連結した値とする。音響特徴量推定の出力は、フレーム毎の音響特徴量(声の高さを示すF0、声道の特徴量を示すスペクトル包絡(例えばメルケプストラム)、声のかすれ具合を示す非周期性指標)とする。また、継続長推定と音響特徴量推定のモデルの誤差関数は二乗誤差を使用すればよい。
ここで、テキストデータと音声データのデータセットは、VCTKとLibriTTSを用いることが好適である。すなわち、VCTKとLibriTTSのデータセットにおける音声データは、VoxCeleb2における音声データよりも雑音等が少ないクリーンな音声であるので、よりクリーンな音声を合成して出力する複数話者TTS104を構築することができる。
ステップS16では、音声合成装置100の音声合成モデルが構築される。本ステップにおける処理によって、音声合成装置100は音声合成モデル構築手段として機能する。音声合成装置100における音声合成モデルは、ステップS12で構築された画像エンコーダ102とステップS14で構築された複数話者TTS104を組み合わせ構成される。すなわち、図3に示すように、テキストデータ及びステップS12において構築された画像エンコーダ102から出力される話者特徴ベクトルが複数話者TTS104に入力される。複数話者TTS104では、入力されたテキストデータ及び話者特徴ベクトルに応じた音声が合成される。このようにして、画像エンコーダ102に入力された顔画像データに対応する話者によってテキストデータに対応する内容が発話されたような音声を合成して出力する音声合成装置100を構成することができる。
[音声合成処理]
以下、図3を参照して、音声合成装置100によって音声を合成する処理について説明する。音声合成をする際、音声合成装置100における画像エンコーダ102に話者とする人物の顔画像データを入力する。これによって、画像エンコーダ102では入力された顔画像データに応じた話者特徴ベクトルを生成して出力する。出力された話者特徴ベクトルは複数話者TTS104に入力される。また、音声合成装置100における複数話者TTS104に合成する音声の内容を示すテキストデータを入力する。これによって、複数話者TTS104では、入力されたテキストデータ及び話者特徴ベクトルに応じた音声が合成される。このようにして、画像エンコーダ102に入力された顔画像データに対応する話者によってテキストデータに対応する内容が発話されたような音声が合成されて出力される。
以上のように、本実施の形態における音声合成装置100では、テキストデータ及び話者の顔画像データを入力として、当該話者が発したような適切な音声を合成して出力することができる。
ただし、本実施の形態の適用範囲は人物の音声合成に限定されるものではない。例えば、動物の画像データ、動物の発する声及び当該声の内容を示す情報を用いて機械学習させることによって、動物の声を合成する音声合成装置100を構築することもできる。また、例えば、自動車や電車等の移動体の画像データ、当該移動体が発生させる音及び当該音の内容を示す移動体の動く様子を示す動画情報を用いて機械学習させることによって、移動体の音を合成する音声合成装置100を構築することもできる。
また、テキストデータに代えて音声データを用いて音声合成装置100を構築してもよい。この場合、入力された音声データの内容を画像エンコーダ102に入力された顔画像データの人物が発したような音声が合成されて出力される。したがって、入力データを変更して出力するボイスチェンジャーのように使用することができる。
なお、本実施の形態における音声合成装置100では、各構成要素を1つの装置にて実現する構成としたが、各構成要素を異なる装置や異なる実行主体にて実現するようにしてもよい。例えば、各構成要素のうち幾つかを複数のコンピュータで分担して実現するようにしてもよい。
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、100 音声合成装置、102 画像エンコーダ、104 複数話者TTS、106 スピーチエンコーダ。

Claims (7)

  1. 対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いた機械学習によって構築された音声合成装置であって、
    画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
    前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
    を備え、
    前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
    前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成装置。
  2. 請求項1に記載の音声合成装置であって、
    前記対象物は人物であり、
    前記音声合成器は、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す人物が当該内容情報に対応する内容を発したような音声を合成して出力することを特徴とする音声合成装置。
  3. 請求項1又は2に記載の音声合成装置であって、
    前記音声合成器の機械学習に用いられる音声データは、前記スピーチエンコーダの機械学習に用いられる音声データよりクリーンであることを特徴とする音声合成装置。
  4. 請求項1〜3のいずれか1項に記載の音声合成装置であって、
    前記画像エンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルの平均値と、当該対象物の画像データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることを特徴とする音声合成装置。
  5. 請求項1〜4のいずれか1項に記載の音声合成装置であって、
    前記スピーチエンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに出力される特徴ベクトルの平均値と、当該対象物に対応付けられた他の音声データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることを特徴とする音声合成装置。
  6. 対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成プログラムであって、
    コンピュータを、
    画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
    前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
    として機能させ、
    前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
    前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成プログラム。
  7. 対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成方法であって、
    画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
    前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
    を用いて音声を合成し、
    前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
    前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成方法。
JP2019231876A 2019-12-23 2019-12-23 音声合成装置、音声合成プログラム及び音声合成方法 Active JP7339151B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019231876A JP7339151B2 (ja) 2019-12-23 2019-12-23 音声合成装置、音声合成プログラム及び音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019231876A JP7339151B2 (ja) 2019-12-23 2019-12-23 音声合成装置、音声合成プログラム及び音声合成方法

Publications (2)

Publication Number Publication Date
JP2021099454A true JP2021099454A (ja) 2021-07-01
JP7339151B2 JP7339151B2 (ja) 2023-09-05

Family

ID=76541152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019231876A Active JP7339151B2 (ja) 2019-12-23 2019-12-23 音声合成装置、音声合成プログラム及び音声合成方法

Country Status (1)

Country Link
JP (1) JP7339151B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023022206A1 (ja) * 2021-08-18 2023-02-23 日本電信電話株式会社 音声合成装置、音声合成方法及び音声合成プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607609B2 (en) 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023022206A1 (ja) * 2021-08-18 2023-02-23 日本電信電話株式会社 音声合成装置、音声合成方法及び音声合成プログラム

Also Published As

Publication number Publication date
JP7339151B2 (ja) 2023-09-05

Similar Documents

Publication Publication Date Title
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
JP5039865B2 (ja) 声質変換装置及びその方法
JP2000504849A (ja) 音響学および電磁波を用いた音声の符号化、再構成および認識
JP6392012B2 (ja) 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
WO2016172871A1 (zh) 基于循环神经网络的语音合成方法
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP6433063B2 (ja) 音声加工装置、及びプログラム
JP2021067885A (ja) 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JPH1152987A (ja) 話者適応機能を持つ音声合成装置
JP6748607B2 (ja) 音声合成学習装置、音声合成装置、これらの方法及びプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6587308B1 (ja) 音声処理装置、および音声処理方法
JP2014095851A (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP7173339B2 (ja) 発話評価装置、発話評価方法、およびプログラム
JP7079455B1 (ja) 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
US20220068256A1 (en) Building a Text-to-Speech System from a Small Amount of Speech Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220921

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230804

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230824

R150 Certificate of patent or registration of utility model

Ref document number: 7339151

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150