JP5975033B2 - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents
音声合成装置、音声合成方法および音声合成プログラム Download PDFInfo
- Publication number
- JP5975033B2 JP5975033B2 JP2013523778A JP2013523778A JP5975033B2 JP 5975033 B2 JP5975033 B2 JP 5975033B2 JP 2013523778 A JP2013523778 A JP 2013523778A JP 2013523778 A JP2013523778 A JP 2013523778A JP 5975033 B2 JP5975033 B2 JP 5975033B2
- Authority
- JP
- Japan
- Prior art keywords
- pose
- length
- replacement
- text
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 18
- 238000003786 synthesis reaction Methods 0.000 title claims description 12
- 238000001308 synthesis method Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 26
- 238000013179 statistical model Methods 0.000 claims description 10
- 238000006467 substitution reaction Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 14
- 238000007619 statistical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
図1は、本発明による音声合成装置の第1の実施形態の構成例を示すブロック図である。本実施形態における音声合成装置は、テキスト解析部11と、付加情報判定部12と、置換対象ポーズ判定部13と、ポーズ長決定部14と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18と、韻律モデル記憶部19と、音素素片データベース(以下、音素素片DBと記す。)記憶部20とを備えている。
図6は、本発明による音声合成装置の第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、テキスト解析部11と、置換対象ポーズ判定部13aと、ポーズ長決定部14と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18と、韻律モデル記憶部19と、音素素片DB記憶部20とを備えている。すなわち、本実施形態における音声合成装置は、付加情報判定部12を備えていない点において、第1の実施形態における音声合成装置と異なる。
図8は、本発明による音声合成装置の第3の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、テキスト解析部11と、付加情報判定部12と、置換対象ポーズ判定部13と、ポーズ長指定部31と、ポーズ置換部15と、状態継続長生成部16と、ピッチパタン生成部17と、波形生成部18と、韻律モデル記憶部19と、音素素片DB記憶部20とを備えている。すなわち、本実施形態における音声合成装置は、ポーズ長決定部14の代わりにポーズ長指定部31を備えている点において、第1の実施形態における音声合成装置と異なる。
12 付加情報判定部
13,13a 置換対象ポーズ判定部
14 ポーズ長決定部
15 ポーズ置換部
16 状態継続長生成部
17 ピッチパタン生成部
18 波形生成部
19 韻律モデル記憶部
20 音素素片データベース記憶部
31 ポーズ長指定部
32 ポーズ位置表示部
33 ポーズ長入力部
Claims (5)
- 音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定する付加情報決定手段と、
前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定手段と、
統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記置換対象決定手段が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換手段とを備えた
ことを特徴とする音声合成装置。 - 置換対象ごとにポーズ長を規定したルールに基づいて、ポーズ長を決定するポーズ長決定手段を備え、
ポーズ長置換手段は、ポーズ情報のうち、置換対象決定手段が決定した置換対象の位置に対応する各ポーズ位置のポーズ長を前記ポーズ長決定手段が決定したポーズ長に置換する
請求項1記載の音声合成装置。 - 置換対象決定手段が置換対象と決定した位置に対応するポーズをポーズ情報から特定し、特定したポーズのポーズ位置および当該ポーズの長さを識別可能に表示するポーズ表示手段と、
前記ポーズ表示手段に識別可能に表示されたポーズに対して変更後のポーズ長の入力を受け付ける入力手段とを備え、
ポーズ長置換手段は、ポーズ情報のポーズ長を前記入力手段に入力された変更後のポーズ長に置換する
請求項1または請求項2に記載の音声合成装置。 - 音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、
前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定し、
前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定し、
統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記テキストに含まれる要素の中から決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換する
ことを特徴とする音声合成方法。 - コンピュータに、
音声合成の対象とするテキストの解析結果と、テキストに含まれる要素のまとまりごとに定められる判定条件とに基づいて、前記音声合成の対象とするテキストに含まれる要素のまとまりの内容を判定し、前記要素の内容を示す情報として当該各要素に付加される情報である付加情報を、当該要素のまとまりを構成する要素ごとに決定する付加情報決定処理、
前記付加情報ごとにポーズの置換方法を規定したルールであるポーズ置換ルールに基づいて、音声合成の対象とするテキストに含まれる要素の中から、ポーズ長を置換する対象である置換対象を決定する置換対象決定処理、および、
統計モデルに基づいて前記テキストから生成された少なくともポーズ位置およびポーズ長を示す情報を含むポーズ情報のうち、前記置換対象決定処理で決定された置換対象の位置に対応する各ポーズ位置のポーズ長を置換するポーズ長置換処理
を実行させるための音声合成プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011152850 | 2011-07-11 | ||
JP2011152850 | 2011-07-11 | ||
PCT/JP2012/003761 WO2013008385A1 (ja) | 2011-07-11 | 2012-06-08 | 音声合成装置、音声合成方法および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013008385A1 JPWO2013008385A1 (ja) | 2015-02-23 |
JP5975033B2 true JP5975033B2 (ja) | 2016-08-23 |
Family
ID=47505696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013523778A Active JP5975033B2 (ja) | 2011-07-11 | 2012-06-08 | 音声合成装置、音声合成方法および音声合成プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5975033B2 (ja) |
WO (1) | WO2013008385A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7088796B2 (ja) * | 2018-09-19 | 2022-06-21 | 日本放送協会 | 音声合成に用いる統計モデルを学習する学習装置及びプログラム |
CN115116427B (zh) * | 2022-06-22 | 2023-11-14 | 马上消费金融股份有限公司 | 标注方法、语音合成方法、训练方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03225400A (ja) * | 1990-01-31 | 1991-10-04 | Nec Corp | ポーズ長決定方式 |
JP3518340B2 (ja) * | 1998-06-03 | 2004-04-12 | 日本電信電話株式会社 | 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体 |
JP4584511B2 (ja) * | 2001-09-10 | 2010-11-24 | Okiセミコンダクタ株式会社 | 規則音声合成装置 |
JP4551066B2 (ja) * | 2003-07-14 | 2010-09-22 | ブラザー工業株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
JP4308627B2 (ja) * | 2003-11-14 | 2009-08-05 | 日本電信電話株式会社 | テキスト解析方法、テキスト解析装置、テキスト解析プログラム、このプログラムを記録した記録媒体 |
-
2012
- 2012-06-08 WO PCT/JP2012/003761 patent/WO2013008385A1/ja active Application Filing
- 2012-06-08 JP JP2013523778A patent/JP5975033B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2013008385A1 (ja) | 2013-01-17 |
JPWO2013008385A1 (ja) | 2015-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7809572B2 (en) | Voice quality change portion locating apparatus | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
US7010489B1 (en) | Method for guiding text-to-speech output timing using speech recognition markers | |
JP2001282279A (ja) | 音声情報処理方法及び装置及び記憶媒体 | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
JP2008268477A (ja) | 韻律調整可能な音声合成装置 | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
WO2009107441A1 (ja) | 音声合成装置、テキスト生成装置およびその方法並びにプログラム | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JPWO2016103652A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP5079718B2 (ja) | 外国語学習支援システム、及びプログラム | |
JP5975033B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2007086309A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
Zine et al. | Towards a high-quality lemma-based text to speech system for the Arabic language | |
Ni et al. | Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP6197523B2 (ja) | 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム | |
JP4736524B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP4751230B2 (ja) | 韻律素片辞書作成方法、並びに音声合成装置及びプログラム | |
JP6340839B2 (ja) | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム | |
JP2003202886A (ja) | テキスト入力処理装置及び方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160704 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Ref document number: 5975033 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |