JP6121273B2 - 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム - Google Patents
音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム Download PDFInfo
- Publication number
- JP6121273B2 JP6121273B2 JP2013144557A JP2013144557A JP6121273B2 JP 6121273 B2 JP6121273 B2 JP 6121273B2 JP 2013144557 A JP2013144557 A JP 2013144557A JP 2013144557 A JP2013144557 A JP 2013144557A JP 6121273 B2 JP6121273 B2 JP 6121273B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- class
- speech
- context
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000015572 biosynthetic process Effects 0.000 claims description 58
- 238000003786 synthesis reaction Methods 0.000 claims description 58
- 239000013598 vector Substances 0.000 claims description 39
- 230000006978 adaptation Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 230000000877 morphologic effect Effects 0.000 claims 2
- 238000001308 synthesis method Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 11
- 238000007796 conventional method Methods 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
図8に、この発明の音声合成装置200の機能構成例を示す。その動作フローを図9に示す。音声合成装置200は、テキスト解析部210と、話者クラス付コンテキスト生成部212と、目標話者音声モデル214と、音声パラメータ生成部216と、音声波形生成部218と、を具備する。
音素継続長の話者クラスコンテキストに関する質問1185cは、音素継続長のコンテキストクラスタリングにのみ用いられる。
〔評価実験結果〕
この発明の有効性を確認するために、従来法とこの発明との比較実験を行った。比較実験には、女性話者88名が音素バランス文120文章を発話した音声データを用いた。音素バランス文とは、出来るだけ少ない語数・文数で音素出現のバランスを取るために設計された文章のことである。
Claims (6)
- N名の話者の音声データを記録した多数話者音声DBと、
上記N名の話者の音声データの変動要因の組み合わせを記録した多数話者コンテキストDBと、
上記N名の音声データと当該N名の音声データの変動要因の組み合わせとを入力として、上記各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルをM個にクラスタリングする話者クラスと話者クラス推定用情報を生成する話者クラスタリング部と、
上記N名の音声データの変動要因の組み合わせと上記M個の話者クラスを入力として、上記N名の音声データの変動要因の組み合わせに、それぞれが属する話者クラスを付加した話者クラス付多数話者コンテキストデータを生成する話者クラスコンテキスト生成部と、
上記N名の音声データと上記話者クラス付多数話者コンテキストデータとを入力として、上記話者クラスを考慮した話者クラス付平均声モデルを学習するモデル学習部と、
目標話者の音声データと当該音声データの目標話者コンテキストと上記話者クラス推定用情報を入力として、上記目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する目標話者クラス推定部と、
上記目標話者コンテキストに上記目標話者クラスを付加して目標話者クラスコンテキストを生成する目標話者クラスコンテキスト生成部と、
上記目標話者音声データと上記目標話者クラスコンテキストと上記話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する話者適応部と、
を具備する音声合成用モデル学習装置であり、
上記話者クラスタリング部は、
上記話者ベクトルのベクトル要素を個別にクラスタリングすることで、上記話者ベクトルに対して複数の話者クラスと話者クラス推定用情報を得るものであり、
上記目標話者クラス推定部は、
上記複数の話者クラス推定用情報から目標話者の複数の話者クラスを推定するものである、
ことを特徴とする音声合成用モデル学習装置。 - 請求項1に記載した音声合成用モデル学習装置において、
上記モデル学習部は、
決定木に基づくコンテキストクラスタリングを行うものであり、その際に各特徴量に関する質問群のみを用いることを特徴とする音声合成用モデル学習装置。 - 音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力するテキスト解析部と、
上記合成音声コンテキストと請求項1に記載した音声合成用モデル学習装置で学習した話者クラスとを入力として、話者クラス付コンテキストを生成する話者クラス付コンテキスト生成部と、
上記話者クラス付コンテキストと請求項1に記載した音声合成用モデル学習装置で学習した目標話者の音声モデルとを用いて合成音声の音声パラメータを生成する音声パラメータ生成部と、
上記音声パラメータと音声合成フィルタを用いて合成音声波形を生成する音声波形生成部と、
を具備する音声合成装置。 - N名の話者の音声データと当該N名の音声データの変動要因の組み合わせとを入力として、上記各話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルをM個にクラスタリングする話者クラスと話者クラス推定用情報を生成する話者クラスタリング過程と、
上記N名の話者の音声データの変動要因の組み合わせと上記M個の話者クラスを入力として、上記N名の音声データの変動要因の組み合わせに、それぞれが属する話者クラスを付加した話者クラス付多数話者コンテキストデータを生成する話者クラスコンテキスト生成過程と、
上記N名の音声データと上記話者クラス付多数話者コンテキストデータとを入力として、上記話者クラスを考慮した話者クラス付平均声モデルを学習するモデル学習過程と、
目標話者の音声データと当該音声データの目標話者コンテキストと上記話者クラス推定用情報を入力として、上記目標話者の特徴を表す話者ベクトルを生成し、当該話者ベクトルが属する目標話者クラスを推定する目標話者クラス推定過程と、
上記目標話者コンテキストに上記目標話者クラスを付加して目標話者クラスコンテキストを生成する目標話者クラスコンテキスト生成過程と、
上記目標話者音声データと上記目標話者クラスコンテキストと上記話者クラス付平均声モデルとを入力として、当該話者クラス付平均声モデルを、目標話者の音声合成用モデルである目標話者音声モデルに変換する話者適応過程と、
を備える音声合成用モデル学習方法であり、
上記話者クラスタリング過程は、
上記話者ベクトルのベクトル要素を個別にクラスタリングすることで、上記話者ベクトルに対して複数の話者クラスと話者クラス推定用情報を得るものであり、
上記目標話者クラス推定過程は、
上記複数の話者クラス推定用情報から目標話者の複数の話者クラスを推定するものである、
ことを特徴とする音声合成用モデル学習方法。 - 音声合成するテキスト情報を入力として、当該テキスト情報を形態素解析して合成音声の変動要因の組み合わせである合成音声コンテキストを出力するテキスト解析過程と、
上記合成音声コンテキストと請求項4に記載した音声合成用モデル学習方法で学習した話者クラスとを入力として、話者クラス付コンテキストを生成する話者クラス付コンテキスト生成過程と、
上記話者クラス付コンテキストと請求項4に記載した音声合成用モデル学習方法で学習した目標話者の音声モデルとを用いて合成音声の音声パラメータを生成する音声パラメータ生成過程と、
上記音声パラメータと音声合成フィルタを用いて合成音声波形を生成する音声波形合成過程と、
を備える音声合成方法。 - 請求項1または2に記載した音声合成用モデル学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013144557A JP6121273B2 (ja) | 2013-07-10 | 2013-07-10 | 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013144557A JP6121273B2 (ja) | 2013-07-10 | 2013-07-10 | 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015018080A JP2015018080A (ja) | 2015-01-29 |
JP6121273B2 true JP6121273B2 (ja) | 2017-04-26 |
Family
ID=52439133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013144557A Expired - Fee Related JP6121273B2 (ja) | 2013-07-10 | 2013-07-10 | 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6121273B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475878B2 (en) | 2019-11-01 | 2022-10-18 | Samsung Electronics Co., Ltd. | Electronic device and operating method thereof |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538455B2 (en) | 2018-02-16 | 2022-12-27 | Dolby Laboratories Licensing Corporation | Speech style transfer |
EP4018439A1 (en) * | 2019-08-21 | 2022-06-29 | Dolby Laboratories Licensing Corporation | Systems and methods for adapting human speaker embeddings in speech synthesis |
CN110767210A (zh) * | 2019-10-30 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种生成个性化语音的方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61121093A (ja) * | 1984-11-19 | 1986-06-09 | 松下電器産業株式会社 | 音声認識装置 |
JP2583074B2 (ja) * | 1987-09-18 | 1997-02-19 | 日本電信電話株式会社 | 音声合成方法 |
JP5486565B2 (ja) * | 2011-08-05 | 2014-05-07 | 日本電信電話株式会社 | 話者クラスタリング方法、話者クラスタリング装置、プログラム |
JP5689782B2 (ja) * | 2011-11-24 | 2015-03-25 | 日本電信電話株式会社 | 目標話者学習方法、その装置及びプログラム |
-
2013
- 2013-07-10 JP JP2013144557A patent/JP6121273B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475878B2 (en) | 2019-11-01 | 2022-10-18 | Samsung Electronics Co., Ltd. | Electronic device and operating method thereof |
US11942077B2 (en) | 2019-11-01 | 2024-03-26 | Samsung Electronics Co., Ltd. | Electronic device and operating method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2015018080A (ja) | 2015-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5768093B2 (ja) | 音声処理システム | |
Nishimura et al. | Singing Voice Synthesis Based on Deep Neural Networks. | |
Kang et al. | Multi-distribution deep belief network for speech synthesis | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US6535852B2 (en) | Training of text-to-speech systems | |
JP6499305B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム | |
US9972306B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US9972300B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
Tamura et al. | Text-to-speech synthesis with arbitrary speaker's voice from average voice | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
JP6121273B2 (ja) | 音声合成用モデル学習装置と音声合成装置と、それらの方法とプログラム | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
Stuttle | A Gaussian mixture model spectral representation for speech recognition | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
Larcher et al. | Constrained temporal structure for text-dependent speaker verification | |
JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP4787769B2 (ja) | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 | |
Lindgren | Speech recognition using features extracted from phase space reconstructions | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Ijima et al. | Statistical model training technique based on speaker clustering approach for HMM-based speech synthesis | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170329 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6121273 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |