JP2018146803A - 音声合成装置及びプログラム - Google Patents
音声合成装置及びプログラム Download PDFInfo
- Publication number
- JP2018146803A JP2018146803A JP2017042169A JP2017042169A JP2018146803A JP 2018146803 A JP2018146803 A JP 2018146803A JP 2017042169 A JP2017042169 A JP 2017042169A JP 2017042169 A JP2017042169 A JP 2017042169A JP 2018146803 A JP2018146803 A JP 2018146803A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- label
- speaker
- time length
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 claims abstract description 146
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 62
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 62
- 238000004458 analytical method Methods 0.000 claims description 114
- 230000006870 function Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 abstract description 16
- 238000000034 method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 14
- 230000002996 emotional effect Effects 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 8
- 238000000926 separation method Methods 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000665848 Isca Species 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
まず、本発明の実施形態による音声合成装置について説明する。図1は、本発明の実施形態による音声合成装置の構成例を示すブロック図である。この音声合成装置1は、音声コーパスが格納された記憶部2、事前学習部3、時間長DNN及び音響特徴量DNNが格納された記憶部4、及び合成処理部5を備えている。
次に、図1に示した事前学習部3の構成について詳細に説明する。図2は、事前学習部3の構成例を示すブロック図である。この事前学習部3は、テキスト解析部11、話者感情ラベル処理部12及び音響分析部13を備えている。
次に、図2に示した事前学習部3の処理について説明する。図10は、事前学習部3の処理例を示すフローチャートである。事前学習部3のテキスト解析部11は、記憶部2の音声コーパスから読み出されたテキストに対し、テキスト解析を行い(ステップS1001)、音素の言語特徴量を生成する。そして、テキスト解析部11は、テキスト解析にて生成した音素の言語特徴量に基づいて、事前学習のための音素の言語特徴量を生成する(ステップS1002)。
次に、時間長DNN及び音響特徴量DNNの入出力データである音素の言語特徴量、音素フレームの言語特徴量、音素の時間長及び音素フレームの音響特徴量の関係について説明する。図8は、言語特徴量及び音響特徴量の関係について説明する図である。
次に、図2に示したテキスト解析部11について詳細に説明する。図3は、テキスト解析部11の構成例を示すブロック図である。このテキスト解析部11は、テキスト解析手段31、前処理手段32及びフレーム処理手段33を備えている。
次に、図2に示した音響分析部13について詳細に説明する。図4は、音響分析部13の構成例を示すブロック図である。この音響分析部13は、音素区切り処理手段34及び音響分析手段35を備えている。
次に、図1に示した合成処理部5の構成について詳細に説明する。図5は、合成処理部5の構成例を示すブロック図である。この合成処理部5は、テキスト解析部21、話者感情ラベル処理部22、時間長及び音響特徴量生成部23及び音声波形合成部24を備えている。
次に、図5に示した合成処理部5の処理について説明する。図11は、合成処理部5の処理例を示すフローチャートである。合成処理部5のテキスト解析部21は、合成対象の音声波形に対応するテキストに対し、テキスト解析を行い(ステップS1101)、音素の言語特徴量を生成する(ステップS1102)。
2,4 記憶部
3 事前学習部
5 合成処理部
11,21 テキスト解析部
12,22 話者感情ラベル処理部
13 音響分析部
23 時間長及び音響特徴量生成部
24 音声波形合成部
31 テキスト解析手段
32 前処理手段
33 フレーム処理手段
34 音素区切り処理手段
35 音響分析手段
Claims (4)
- 事前に学習されたDNN(ディープニューラルネットワーク)を用いて、音声波形を合成する音声合成装置において、
音素の言語特徴量、話者を識別するための話者ラベル、及び感情を識別するための感情ラベルが入力層に与えられ、音素の時間長が出力層に与えられることで学習された時間長DNNと、
音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルが入力層に与えられ、音素フレームの音響特徴量が出力層に与えられることで学習された音響特徴量DNNと、
テキスト、話者情報及び感情情報を入力し、前記時間長DNN及び前記音響特徴量DNNを用いて、前記テキスト、前記話者情報及び前記感情情報に対応する音声波形を合成する合成処理部と、を備え、
前記合成処理部は、
前記テキストをテキスト解析して音素の言語特徴量を生成し、
前記時間長DNNを用いて、前記音素の言語特徴量、前記話者情報に付与した話者ラベル、及び前記感情情報に付与した感情ラベルに基づいて、音素の時間長を生成し、
前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、
前記音響特徴量DNNを用いて、前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、音素フレームの音響特徴量を生成し、
当該音素フレームの音響特徴量に基づいて、前記音声波形を合成する、ことを特徴とする音声合成装置。 - 請求項1に記載の音声合成装置において、
前記合成処理部は、
前記話者情報に前記話者ラベルを付与すると共に、前記感情情報に前記感情ラベルを付与する話者感情ラベル処理部と、
前記テキストをテキスト解析して前記音素の言語特徴量を生成し、前記音素の言語特徴量及び前記音素の時間長に基づいて、前記音素フレームの言語特徴量を生成するテキスト解析部と、
前記時間長DNNを用いて、前記テキスト解析部により生成された前記音素の言語特徴量、前記話者感情ラベル処理部により付与された前記話者ラベル及び前記感情ラベルに基づいて、前記音素の時間長を生成し、
前記音響特徴量DNNを用いて、前記テキスト解析部により生成された前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベルに基づいて、前記音素フレームの音響特徴量を生成する時間長及び音響特徴量生成部と、
前記時間長及び音響特徴量生成部により生成された前記音素フレームの音響特徴量に基づいて、前記音声波形を合成する音声波形合成部と、
を備えたことを特徴とする音声合成装置。 - 請求項1または2に記載の音声合成装置において、
さらに、テキスト、話者情報、感情情報及び音声波形が格納された音声コーパスを用いて、前記時間長DNN及び前記音響特徴量DNNを学習する学習部を備え、
前記学習部は、
前記音声コーパスから前記テキストを読み出し、当該テキストをテキスト解析して音素の言語特徴量を生成し、
前記音声コーパスから前記音声波形を読み出し、当該音声波形を音響分析して音素の区切り位置を求めると共に、音素の時間長を求め、
前記音響コーパスから前記話者情報及び前記感情情報を読み出し、話者ラベル及び感情ラベルをそれぞれ付与し、
前記音素の言語特徴量及び前記音素の時間長に基づいて、音素フレームの言語特徴量を生成し、
前記音素の言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素の時間長を用いて、前記時間長DNNを学習し、
前記音素フレームの言語特徴量、前記話者ラベル及び前記感情ラベル、並びに前記音素フレームの音響特徴量を用いて、前記音響特徴量DNNを学習する、ことを特徴とする音声合成装置。 - コンピュータを、請求項1から3までのいずれか一項に記載の音声合成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017042169A JP6846237B2 (ja) | 2017-03-06 | 2017-03-06 | 音声合成装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017042169A JP6846237B2 (ja) | 2017-03-06 | 2017-03-06 | 音声合成装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018146803A true JP2018146803A (ja) | 2018-09-20 |
JP6846237B2 JP6846237B2 (ja) | 2021-03-24 |
Family
ID=63592055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017042169A Active JP6846237B2 (ja) | 2017-03-06 | 2017-03-06 | 音声合成装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6846237B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018205654A (ja) * | 2017-06-09 | 2018-12-27 | 日本電信電話株式会社 | 音声合成学習装置、音声合成装置、これらの方法及びプログラム |
WO2020026536A1 (ja) | 2018-08-03 | 2020-02-06 | 株式会社Jvcケンウッド | 情報表示装置、情報表示システム、情報表示方法、及びプログラム |
WO2020071213A1 (ja) * | 2018-10-05 | 2020-04-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
WO2020116490A1 (ja) * | 2018-12-05 | 2020-06-11 | 株式会社レボーン | 情報処理装置、情報処理方法、学習済みモデルの生成方法及びプログラム |
CN112216307A (zh) * | 2019-07-12 | 2021-01-12 | 华为技术有限公司 | 语音情感识别方法以及装置 |
JP2021056467A (ja) * | 2019-10-02 | 2021-04-08 | 日本放送協会 | 学習装置、音声合成装置及びプログラム |
JP2021157193A (ja) * | 2020-11-11 | 2021-10-07 | 北京百度網訊科技有限公司 | 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム |
JP2022133392A (ja) * | 2021-08-17 | 2022-09-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声合成方法、装置、電子機器及び記憶媒体 |
JP7372402B2 (ja) | 2021-08-18 | 2023-10-31 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声合成方法、装置、電子機器及び記憶媒体 |
US11842720B2 (en) | 2018-11-06 | 2023-12-12 | Yamaha Corporation | Audio processing method and audio processing system |
US11942071B2 (en) | 2018-11-06 | 2024-03-26 | Yamaha Corporation | Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272399A (ja) * | 1988-09-07 | 1990-03-12 | Hitachi Ltd | 音声規則合成方式 |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
-
2017
- 2017-03-06 JP JP2017042169A patent/JP6846237B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0272399A (ja) * | 1988-09-07 | 1990-03-12 | Hitachi Ltd | 音声規則合成方式 |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
CN104538024A (zh) * | 2014-12-01 | 2015-04-22 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置及设备 |
Non-Patent Citations (3)
Title |
---|
LUONG, HIEU THI、外3名: ""DNNに基づくテキスト音声合成における話者・ジェンダー・年齢コード利用の検討"", 電子情報通信学会技術研究報告, vol. 116, no. 279, JPN6020041294, 20 October 2016 (2016-10-20), ISSN: 0004379382 * |
清山 信正: ""解説02 音声合成技術の動向と放送・通信分野における応用展開"", NHK技研R&D, JPN6020041291, 15 January 2017 (2017-01-15), ISSN: 0004379380 * |
高木 信二: ""とてもDeepなテキスト音声合成"", 電子情報通信学会技術研究報告, vol. 116, no. 414, JPN6020041293, 14 January 2017 (2017-01-14), pages 41 - 46, ISSN: 0004379381 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018205654A (ja) * | 2017-06-09 | 2018-12-27 | 日本電信電話株式会社 | 音声合成学習装置、音声合成装置、これらの方法及びプログラム |
WO2020026536A1 (ja) | 2018-08-03 | 2020-02-06 | 株式会社Jvcケンウッド | 情報表示装置、情報表示システム、情報表示方法、及びプログラム |
JP7125608B2 (ja) | 2018-10-05 | 2022-08-25 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
WO2020071213A1 (ja) * | 2018-10-05 | 2020-04-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
JP2020060633A (ja) * | 2018-10-05 | 2020-04-16 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、及びプログラム |
US11942071B2 (en) | 2018-11-06 | 2024-03-26 | Yamaha Corporation | Information processing method and information processing system for sound synthesis utilizing identification data associated with sound source and performance styles |
US11842720B2 (en) | 2018-11-06 | 2023-12-12 | Yamaha Corporation | Audio processing method and audio processing system |
WO2020116490A1 (ja) * | 2018-12-05 | 2020-06-11 | 株式会社レボーン | 情報処理装置、情報処理方法、学習済みモデルの生成方法及びプログラム |
CN112216307B (zh) * | 2019-07-12 | 2023-05-16 | 华为技术有限公司 | 语音情感识别方法以及装置 |
CN112216307A (zh) * | 2019-07-12 | 2021-01-12 | 华为技术有限公司 | 语音情感识别方法以及装置 |
JP2021056467A (ja) * | 2019-10-02 | 2021-04-08 | 日本放送協会 | 学習装置、音声合成装置及びプログラム |
JP7469015B2 (ja) | 2019-10-02 | 2024-04-16 | 日本放送協会 | 学習装置、音声合成装置及びプログラム |
JP2021157193A (ja) * | 2020-11-11 | 2021-10-07 | 北京百度網訊科技有限公司 | 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム |
JP7194779B2 (ja) | 2020-11-11 | 2022-12-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム |
US11769482B2 (en) | 2020-11-11 | 2023-09-26 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium |
JP2022133392A (ja) * | 2021-08-17 | 2022-09-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声合成方法、装置、電子機器及び記憶媒体 |
JP7372402B2 (ja) | 2021-08-18 | 2023-10-31 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声合成方法、装置、電子機器及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP6846237B2 (ja) | 2021-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6846237B2 (ja) | 音声合成装置及びプログラム | |
US11443733B2 (en) | Contextual text-to-speech processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
CN116034424A (zh) | 两级语音韵律迁移 | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
EP4073786A1 (en) | Attention-based clockwork hierarchical variational encoder | |
Zhao et al. | Using phonetic posteriorgram based frame pairing for segmental accent conversion | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
Dua et al. | Spectral warping and data augmentation for low resource language ASR system under mismatched conditions | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
WO2010104040A1 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
KR102277205B1 (ko) | 오디오 변환 장치 및 방법 | |
Kamble et al. | Audio Visual Speech Synthesis and Speech Recognition for Hindi Language | |
Louw et al. | The Speect text-to-speech entry for the Blizzard Challenge 2016 | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
JP2021085943A (ja) | 音声合成装置及びプログラム | |
JP2018205768A (ja) | 発話リズム変換装置、方法及びプログラム | |
KR102426020B1 (ko) | 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치 | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
Louw | Neural speech synthesis for resource-scarce languages | |
Astrinaki et al. | sHTS: A streaming architecture for statistical parametric speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6846237 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |