JP6314828B2 - 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム - Google Patents
韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム Download PDFInfo
- Publication number
- JP6314828B2 JP6314828B2 JP2014541930A JP2014541930A JP6314828B2 JP 6314828 B2 JP6314828 B2 JP 6314828B2 JP 2014541930 A JP2014541930 A JP 2014541930A JP 2014541930 A JP2014541930 A JP 2014541930A JP 6314828 B2 JP6314828 B2 JP 6314828B2
- Authority
- JP
- Japan
- Prior art keywords
- clustering
- learning
- prosody
- data
- condition set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 51
- 238000003786 synthesis reaction Methods 0.000 title claims description 51
- 238000000034 method Methods 0.000 title claims description 25
- 238000010586 diagram Methods 0.000 description 20
- 238000007619 statistical method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
本発明の目的の一つは、上記の課題に鑑みてなされたものであり、統計的手法において安定性の高い韻律を生成する、韻律モデル学習装置、韻律モデル学習方法、音声合成システム、およびプログラムを提供することである。
図1は、本発明の第1の実施形態に係る韻律モデル学習装置1を実現する、コンピュータのハードウェア構成の一例を表す図である。
図4は、本発明の第2の実施形態に係る韻律モデル学習装置1Aの構成例を示すブロック図である。
図6は、本発明の第3の実施形態に係る音声合成システム100の構成例を示すブロック図である。図6を参照すると、本実施形態に係る音声合成システム100は、学習部10と音声合成部20によって構成されている。学習部10は、第一のクラスタリング部110と、第二のクラスタリング部120と、第一の学習部130と、韻律モデル記憶部310とを有する。音声合成部20は、言語解析部210と、韻律生成部220と、波形生成部230とを有する。
続いて、本発明の第4の実施形態について説明する。図8は、本発明の第4の実施形態に係る音声合成システム101の構成例を示すブロック図である。
第二の学習部140は、学習用データを用いて、韻律モデルを作成するための学習を行う。韻律モデルは、クラスタリングや再学習を行うために作成する暫定的なモデルである。モデルの精度は、低くなることが多い。
データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、
前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、
前記第二のクラスタリング手段によるクラスタリング結果に基づいて、韻律モデルを学習する学習手段と
を有する韻律モデル学習装置。
付記1に記載の韻律モデル学習装置において、
前記第一のクラスタリング手段は、前記第一の条件集合に含まれる全ての条件を用いてクラスタリングを行う
韻律モデル学習装置。
付記1または2に記載の韻律モデル学習装置において、
前記第一の条件集合は、少なくとも、アクセント位置に関する条件を含む
韻律モデル学習装置。
付記1乃至3のいずれかに記載の韻律モデル学習装置において、
前記第二のクラスタリング手段は、前記第一のクラスタリング手段のクラスタリング結果を上位構造とし、前記第二の条件集合を用いて下位構造をクラスタリングする
韻律モデル学習装置。
付記1乃至4のいずれかに記載の韻律モデル学習装置において、
前記第一の条件集合は、少なくとも、当該音素が有声音であるか否かに関する質問を含む
韻律モデル学習装置。
データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データに対して第一のクラスタリングを行い、
前記第一のクラスタリングの結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データに対して第二のクラスタリングを行い、
前記第二のクラスタリングの結果を用いて、韻律モデルを学習する
韻律モデル学習方法。
データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリングステップと、
前記第一のクラスタリングステップによるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリングステップと、
前記第二のクラスタリングステップによるクラスタリング結果を用いて、韻律モデルを学習する学習ステップと
をコンピュータに実行させる韻律モデル学習プログラム。
データを分割する条件であり、韻律の生成に与える影響が大きい条件である第一の条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、
前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、
前記第二のクラスタリング手段によるクラスタリング結果を用いて、韻律モデルの学習を行う学習手段と、
前記学習手段で学習された韻律モデルに基づいて、入力されたテキストに対応する合成音声の波形を生成する合成手段と
を有する音声合成システム。
2 CPU
3 メモリ
4 HDD
5 通信IF
6 表示装置
7 入力装置
8 バス
10、11 学習部
20 音声合成部
100、101 音声合成システム
110、111 第一のクラスタリング部
120、121 第二のクラスタリング部
130、131 第一の学習部
140 第二の学習部
160 条件集合記憶部
210 言語解析部
220 韻律生成部
230 波形生成部
310 韻律モデル記憶部
1000 コンピュータ
Claims (8)
- 第一の条件集合を、韻律モデルの学習用のデータを分割する条件として使用され得る条件の集合として、前記データのクラスタリングを行う第一のクラスタリング手段と、
前記第一のクラスタリング手段によるクラスタリング結果を用いて、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合を、前記データを分割する条件として使用され得る条件の集合として、前記データのクラスタリングを行う第二のクラスタリング手段と、
前記第二のクラスタリング手段によるクラスタリング結果に基づいて、韻律モデルを学習する学習手段と
を有する韻律モデル学習装置。 - 前記第一の条件集合は、前記第二の条件集合に含まれる条件よりも、韻律の生成に与える影響が大きい条件で構成される、
請求項1に記載の韻律モデル学習装置。 - 前記第一の条件集合は、主にアクセント句におけるピッチパタンの概形に関する質問で構成される、請求項1または2に記載の韻律モデル学習装置。
- 前記第二のクラスタリング手段は、前記第一のクラスタリング手段のクラスタリング結果を上位構造とし、前記上位構造で分割されたデータを更に分割する下位構造を、前記第二の条件集合を用いたクラスタリングにより生成する、
請求項1乃至3のいずれかに記載の韻律モデル学習装置。 - 前記第一の条件集合は、当該データが有声音を含むか否かに関する質問を含む
請求項1乃至4のいずれかに記載の韻律モデル学習装置。 - 第一の条件集合を、韻律モデルの学習用のデータを分割する条件として使用され得る条件の集合として、前記データに対して第一のクラスタリングを行い、
前記第一のクラスタリングの結果を用いて、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合を、前記データを分割する条件として使用され得る条件の集合として、前記データに対して第二のクラスタリングを行い、
前記第二のクラスタリングの結果を用いて、韻律モデルを学習する
韻律モデル学習方法。 - 第一の条件集合を、韻律モデルの学習用のデータを分割する条件として使用され得る条件の集合として、前記データのクラスタリングを行う第一のクラスタリングステップと、
前記第一のクラスタリングステップによるクラスタリング結果を用いて、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合を、前記データを分割する条件として使用され得る条件の集合として、前記データのクラスタリングを行う第二のクラスタリングステップと、
前記第二のクラスタリングステップによるクラスタリング結果を用いて、韻律モデルを学習する学習ステップと
をコンピュータに実行させる韻律モデル学習プログラム。 - 第一の条件集合を、韻律モデルの学習用のデータを分割する条件として使用され得る条件の集合として、前記データのクラスタリングを行う第一のクラスタリング手段と、
前記第一のクラスタリング手段によるクラスタリング結果を用いて、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合を、前記データを分割する条件として使用され得る条件の集合として、前記データのクラスタリングを行う第二のクラスタリング手段と、
前記第二のクラスタリング手段によるクラスタリング結果を用いて、韻律モデルの学習を行う学習手段と、
前記学習手段で学習された韻律モデルに基づいて、入力されたテキストに対応する合成音声の波形を生成する合成手段と
を有する音声合成システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012228663 | 2012-10-16 | ||
JP2012228663 | 2012-10-16 | ||
PCT/JP2013/005981 WO2014061230A1 (ja) | 2012-10-16 | 2013-10-08 | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014061230A1 JPWO2014061230A1 (ja) | 2016-09-05 |
JP6314828B2 true JP6314828B2 (ja) | 2018-04-25 |
Family
ID=50487810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014541930A Active JP6314828B2 (ja) | 2012-10-16 | 2013-10-08 | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6314828B2 (ja) |
WO (1) | WO2014061230A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104867490B (zh) * | 2015-06-12 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律结构预测方法和装置 |
CN116978354B (zh) * | 2023-08-01 | 2024-04-30 | 支付宝(杭州)信息技术有限公司 | 韵律预测模型的训练方法及装置、语音合成方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0968993A (ja) * | 1995-08-31 | 1997-03-11 | Meidensha Corp | 音声合成における韻律制御方法 |
CN1156819C (zh) * | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
JP4292191B2 (ja) * | 2006-03-03 | 2009-07-08 | 株式会社国際電気通信基礎技術研究所 | 素片接続型音声合成装置及びコンピュータプログラム |
JP4705535B2 (ja) * | 2006-08-31 | 2011-06-22 | 日本放送協会 | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
JP5457706B2 (ja) * | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
-
2013
- 2013-10-08 JP JP2014541930A patent/JP6314828B2/ja active Active
- 2013-10-08 WO PCT/JP2013/005981 patent/WO2014061230A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JPWO2014061230A1 (ja) | 2016-09-05 |
WO2014061230A1 (ja) | 2014-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
US9495954B2 (en) | System and method of synthetic voice generation and modification | |
Tokuda et al. | An HMM-based speech synthesis system applied to English | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US8380508B2 (en) | Local and remote feedback loop for speech synthesis | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2011013454A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP2011028230A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP2008242317A (ja) | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 | |
King | A beginners’ guide to statistical parametric speech synthesis | |
JP2018146803A (ja) | 音声合成装置及びプログラム | |
JP5929909B2 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
JPWO2006134736A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP6669081B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP6314828B2 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP2013164609A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2008191477A (ja) | ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体 | |
JP4787769B2 (ja) | F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体 | |
JP4282609B2 (ja) | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム | |
Li et al. | Mandarin stress analysis and Prediction for speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171017 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6314828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |