JP2021099454A - 音声合成装置、音声合成プログラム及び音声合成方法 - Google Patents
音声合成装置、音声合成プログラム及び音声合成方法 Download PDFInfo
- Publication number
- JP2021099454A JP2021099454A JP2019231876A JP2019231876A JP2021099454A JP 2021099454 A JP2021099454 A JP 2021099454A JP 2019231876 A JP2019231876 A JP 2019231876A JP 2019231876 A JP2019231876 A JP 2019231876A JP 2021099454 A JP2021099454 A JP 2021099454A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- input
- feature vector
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
以下、図2のフローチャートを参照して、本実施の形態における音声合成装置の構成方法について説明する。音声合成装置100は、音声合成プログラムを実行することによって、音声合成モデル(スピーチエンコーダ、複数話者TTS、画像エンコーダ)のための機械学習を行うことによって構成される。音声合成装置100を用いることによって、音声合成モデルに基づいて音声を自動合成する処理を行うことができる。
以下、図3を参照して、音声合成装置100によって音声を合成する処理について説明する。音声合成をする際、音声合成装置100における画像エンコーダ102に話者とする人物の顔画像データを入力する。これによって、画像エンコーダ102では入力された顔画像データに応じた話者特徴ベクトルを生成して出力する。出力された話者特徴ベクトルは複数話者TTS104に入力される。また、音声合成装置100における複数話者TTS104に合成する音声の内容を示すテキストデータを入力する。これによって、複数話者TTS104では、入力されたテキストデータ及び話者特徴ベクトルに応じた音声が合成される。このようにして、画像エンコーダ102に入力された顔画像データに対応する話者によってテキストデータに対応する内容が発話されたような音声が合成されて出力される。
Claims (7)
- 対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いた機械学習によって構築された音声合成装置であって、
画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
を備え、
前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置であって、
前記対象物は人物であり、
前記音声合成器は、前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す人物が当該内容情報に対応する内容を発したような音声を合成して出力することを特徴とする音声合成装置。 - 請求項1又は2に記載の音声合成装置であって、
前記音声合成器の機械学習に用いられる音声データは、前記スピーチエンコーダの機械学習に用いられる音声データよりクリーンであることを特徴とする音声合成装置。 - 請求項1〜3のいずれか1項に記載の音声合成装置であって、
前記画像エンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルの平均値と、当該対象物の画像データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることを特徴とする音声合成装置。 - 請求項1〜4のいずれか1項に記載の音声合成装置であって、
前記スピーチエンコーダは、同一の対象物に対応付けられた複数の音声データが入力されたときに出力される特徴ベクトルの平均値と、当該対象物に対応付けられた他の音声データが入力されたときに出力される特徴ベクトルと、の差が小さくなるように機械学習されることを特徴とする音声合成装置。 - 対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成プログラムであって、
コンピュータを、
画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
として機能させ、
前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成プログラム。 - 対象物の画像データ、当該対象物が発した音声の音声データ及び当該音声データの内容を示す内容情報を対応付けたデータセットを用いる音声合成方法であって、
画像データの入力を受けて、画像データに対する特徴ベクトルを出力する画像エンコーダと、
前記画像エンコーダによって生成された特徴ベクトルと、生成する音声の内容を示す内容情報と、の入力を受けて、当該画像データが示す対象物が当該内容情報に対応する内容を発したような音声を合成して出力する音声合成器と、
を用いて音声を合成し、
前記画像エンコーダは、音声データを入力することによって当該音声データに対応付けられた対象物を示す特徴ベクトルを出力するように機械学習されたスピーチエンコーダを用いて、対象物の画像データが入力されたときに出力される特徴ベクトルが当該画像データに対応付けられた音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルに一致するように機械学習され、
前記音声合成器は、対象物の音声データが入力されたときに前記スピーチエンコーダから出力される特徴ベクトルと、当該音声データに対応付けられた内容情報と、が入力されたときに合成して出力される音声の音声データが前記スピーチエンコーダに入力された音声データと一致するように機械学習されていることを特徴とする音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019231876A JP7339151B2 (ja) | 2019-12-23 | 2019-12-23 | 音声合成装置、音声合成プログラム及び音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019231876A JP7339151B2 (ja) | 2019-12-23 | 2019-12-23 | 音声合成装置、音声合成プログラム及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021099454A true JP2021099454A (ja) | 2021-07-01 |
JP7339151B2 JP7339151B2 (ja) | 2023-09-05 |
Family
ID=76541152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019231876A Active JP7339151B2 (ja) | 2019-12-23 | 2019-12-23 | 音声合成装置、音声合成プログラム及び音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7339151B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023022206A1 (ja) * | 2021-08-18 | 2023-02-23 | 日本電信電話株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9607609B2 (en) | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
-
2019
- 2019-12-23 JP JP2019231876A patent/JP7339151B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023022206A1 (ja) * | 2021-08-18 | 2023-02-23 | 日本電信電話株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7339151B2 (ja) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
JP2000504849A (ja) | 音響学および電磁波を用いた音声の符号化、再構成および認識 | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
US11335324B2 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
JP7192882B2 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP6433063B2 (ja) | 音声加工装置、及びプログラム | |
JP2021067885A (ja) | 音響特徴量変換モデル学習装置、方法およびプログラム、ニューラルボコーダ学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
JPH1152987A (ja) | 話者適応機能を持つ音声合成装置 | |
JP6748607B2 (ja) | 音声合成学習装置、音声合成装置、これらの方法及びプログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6587308B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2014095851A (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP7173339B2 (ja) | 発話評価装置、発話評価方法、およびプログラム | |
JP7079455B1 (ja) | 音響モデル学習装置、方法およびプログラム、並びに、音声合成装置、方法およびプログラム | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
US20220068256A1 (en) | Building a Text-to-Speech System from a Small Amount of Speech Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220921 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230804 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230824 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7339151 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |