JP6580911B2 - 音声合成システムならびにその予測モデル学習方法および装置 - Google Patents
音声合成システムならびにその予測モデル学習方法および装置 Download PDFInfo
- Publication number
- JP6580911B2 JP6580911B2 JP2015174715A JP2015174715A JP6580911B2 JP 6580911 B2 JP6580911 B2 JP 6580911B2 JP 2015174715 A JP2015174715 A JP 2015174715A JP 2015174715 A JP2015174715 A JP 2015174715A JP 6580911 B2 JP6580911 B2 JP 6580911B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- speech synthesis
- speech
- prediction model
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (10)
- 音声データに基づいて音声合成用の予測モデルを学習する装置において、
前記音声データから複数種の音声合成パラメータを抽出する手段と、
一の音声合成パラメータから生成した標準ベクトルおよび他の一の音声合成パラメータから生成した追加ベクトルに基づいて拡張ベクトルを生成する手段と、
前記拡張ベクトルを音素ごとにモデル化する手段と、
音素モデルの集合に対して、その拡張ベクトルを評価規準としてモデル尤度が最大となる分割条件をノード毎に決定することを繰り返し、各リーフノードに各音声合成パラメータの分布情報が登録された決定木を構築する手段と、
前記決定木の各リーフノードから前記追加ベクトルに対応した分布情報を削除する手段とを具備し、
前記追加ベクトルが、音声合成の際に分布情報を用いられない音声合成パラメータのベクトルであることを特徴とする予測モデル学習装置。 - 前記標準ベクトルが、メルケプストラム係数の特徴ベクトルであり、前記追加ベクトルがLSP係数の特徴ベクトルであることを特徴とする請求項1に記載の予測モデル学習装置。
- 前記標準ベクトルが、所定の音声合成パラメータに関する所定の時間長の特徴ベクトルであり、前記追加ベクトルが、前記所定の音声合成パラメータに関して前記所定の時間長の前後少なくとも一方に連続する時間長部分の特徴ベクトルであることを特徴とする請求項1に記載の予測モデル学習装置。
- 音声データに基づいて音声合成用の予測モデルを学習する予測モデル学習装置および入力テキストの音素ラベル列を前記予測モデルに適用して音声を合成する音声合成装置を備えた音声合成システムにおいて、
前記予測モデル学習装置が、
前記音声データから複数種の音声合成パラメータを抽出する手段と、
一の音声合成パラメータから生成した標準ベクトルおよび他の一の音声合成パラメータから生成した追加ベクトルを連結して拡張ベクトルを生成する手段と、
前記拡張ベクトルを音素ごとにモデル化する手段と、
音素モデルの集合に対して、その拡張ベクトルを評価規準としてモデル尤度が最大となる分割条件をノード毎に決定することを繰り返し、各リーフノードに各音声合成パラメータの分布情報が登録された決定木を構築する手段と、
前記決定木の各リーフノードから前記追加ベクトルに対応した分布情報を削除する手段とを具備し、
前記追加ベクトルが、音声合成の際に分布情報を用いられない音声合成パラメータのベクトルであり、
前記音声合成装置は、リーフノードに前記標準ベクトルに対応した分布情報のみが残った決定木を用いて音声合成を行うことを特徴とする音声合成システム。 - 前記音声合成装置が、
入力テキストからコンテキスト依存の音素ラベル列を生成する手段と、
前記音素ラベル列を決定木に適用し、尤度が最大となる分布情報の時系列を生成する手段と、
前記分布情報の時系列に基づいて音声を合成する手段とを具備したことを特徴とする請求項4に記載の音声合成システム。 - 前記標準ベクトルが、メルケプストラム係数の特徴ベクトルであり、前記追加ベクトルがLSP係数の特徴ベクトルであることを特徴とする請求項4または5に記載の音声合成システム。
- 前記標準ベクトルが、所定の音声合成パラメータに関する所定の時間長の特徴ベクトルであり、前記追加ベクトルが、前記所定の音声合成パラメータに関して前記所定の時間長の前後少なくとも一方に連続する時間長部分の特徴ベクトルであることを特徴とする請求項4または5に記載の音声合成システム。
- 音声データに基づいて音声合成用の予測モデルを学習する方法おいて、
前記音声データから複数種の音声合成パラメータを抽出する手順と、
一の音声合成パラメータに基づいて標準ベクトルを生成する手順と、
他の一の音声合成パラメータに基づいて追加ベクトルを生成する手順と、
前記標準ベクトルおよび追加ベクトルに基づいて拡張ベクトルを生成する手順と、
前記拡張ベクトルを音素ごとにモデル化する手順と、
音素モデルの集合に対して、その拡張ベクトルを評価規準としてモデル尤度が最大となる分割条件をノード毎に決定することを繰り返し、各リーフノードに各音声合成パラメータの分布情報が登録された決定木を構築する手順と、
前記決定木の各リーフノードから前記追加ベクトルに対応した分布情報を削除する手順とを含み、
前記追加ベクトルが、音声合成の際に分布情報を用いられない音声合成パラメータのベクトルであることを特徴とする音声合成装置の予測モデル学習方法。 - 前記標準ベクトルが、メルケプストラム係数の特徴ベクトルであり、前記追加ベクトルがLSP係数の特徴ベクトルであることを特徴とする請求項8に記載の予測モデル学習方法。
- 前記標準ベクトルが、所定の音声合成パラメータに関する所定の時間長の特徴ベクトルであり、前記追加ベクトルが、前記所定の音声合成パラメータに関して前記所定の時間長の前後少なくとも一方に連続する時間長部分の特徴ベクトルであることを特徴とする請求項8に記載の予測モデル学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015174715A JP6580911B2 (ja) | 2015-09-04 | 2015-09-04 | 音声合成システムならびにその予測モデル学習方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015174715A JP6580911B2 (ja) | 2015-09-04 | 2015-09-04 | 音声合成システムならびにその予測モデル学習方法および装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017049535A JP2017049535A (ja) | 2017-03-09 |
JP2017049535A5 JP2017049535A5 (ja) | 2018-05-31 |
JP6580911B2 true JP6580911B2 (ja) | 2019-09-25 |
Family
ID=58279615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015174715A Active JP6580911B2 (ja) | 2015-09-04 | 2015-09-04 | 音声合成システムならびにその予測モデル学習方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6580911B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107978311A (zh) * | 2017-11-24 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6879433B2 (ja) * | 2017-09-29 | 2021-06-02 | 日本電気株式会社 | 回帰装置、回帰方法、及びプログラム |
CN109558540B (zh) * | 2018-11-30 | 2021-10-29 | 咪咕文化科技有限公司 | 一种确定用户影响力的方法及装置、设备、存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5457706B2 (ja) * | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
JP5474713B2 (ja) * | 2010-09-06 | 2014-04-16 | Kddi株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
US20140343934A1 (en) * | 2013-05-15 | 2014-11-20 | Tencent Technology (Shenzhen) Company Limited | Method, Apparatus, and Speech Synthesis System for Classifying Unvoiced and Voiced Sound |
-
2015
- 2015-09-04 JP JP2015174715A patent/JP6580911B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107978311A (zh) * | 2017-11-24 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
CN107978311B (zh) * | 2017-11-24 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2017049535A (ja) | 2017-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
JP6727607B2 (ja) | 音声認識装置及びコンピュータプログラム | |
CN106683677B (zh) | 语音识别方法及装置 | |
JP6499305B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム | |
CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
EP1453037A2 (en) | Method of setting optimum-partitioned classified neural network and method and apparatus for automatic labeling using optimum-partitioned classified neural network | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP5300975B2 (ja) | 音声合成装置、方法およびプログラム | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
CA3162378A1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
EP1443495A1 (en) | Method of speech recognition using hidden trajectory hidden markov models | |
EP1457968A1 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
JP6580911B2 (ja) | 音声合成システムならびにその予測モデル学習方法および装置 | |
Tokuda et al. | Temporal modeling in neural network based statistical parametric speech synthesis. | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Zhao et al. | Stranded Gaussian mixture hidden Markov models for robust speech recognition | |
JP5474713B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
Zhou et al. | Learning and Modeling Unit Embeddings for Improving HMM-based Unit Selection Speech Synthesis. | |
JP4292191B2 (ja) | 素片接続型音声合成装置及びコンピュータプログラム | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160824 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180213 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180412 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6580911 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |