JP6013104B2 - 音声合成方法、装置、及びプログラム - Google Patents
音声合成方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP6013104B2 JP6013104B2 JP2012206980A JP2012206980A JP6013104B2 JP 6013104 B2 JP6013104 B2 JP 6013104B2 JP 2012206980 A JP2012206980 A JP 2012206980A JP 2012206980 A JP2012206980 A JP 2012206980A JP 6013104 B2 JP6013104 B2 JP 6013104B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- data
- quasi
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims description 120
- 238000012545 processing Methods 0.000 claims description 88
- 230000008569 process Effects 0.000 claims description 71
- 230000015572 biosynthetic process Effects 0.000 claims description 61
- 238000004458 analytical method Methods 0.000 claims description 35
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 description 56
- 238000000605 extraction Methods 0.000 description 37
- 239000011295 pitch Substances 0.000 description 26
- 239000013598 vector Substances 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 11
- 240000000220 Panda oleosa Species 0.000 description 10
- 235000016496 Panda oleosa Nutrition 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
図7、図8に示すフローチャートを用いて、韻律生成部107の詳細な処理の流れの一例を説明する。
本フローチャートは素片選択型音声合成(Unit Selection Speech Synthesis)技術の基本的な構成に対して、本実施例に特徴的ないくつかの処理を加えたものとなっている。まず、素片選択型音声合成技術の基本構成を図13により説明したのち、本実施例の音声合成装置に特徴的なステップについてさらに追加して説明を行う。
本実施例では、音声合成システムへの入力(テキストおよび(準)肉声音声ID)はその都度都度の単独の入力ではなく、複数の文章から構成されるシナリオに沿ってその中から順次、音声合成すべき文章が決定される。
コンテンツ受信部1803は、ネットワークを介して、コンテンツデータをサーバから受け取り、コンテンツ格納部1804に格納しておく。ここで想定するコンテンツデータとは、電子書籍や音声対話シナリオデータにおいて、読み上げテキストに加えて(準)肉声音声データ群、および読み上げ文と(準)肉声音声データとの対応を示すリストを含んだデータである。図19にその一例としてコンテンツデータ1900を示す。図19の(a)は読み上げ文そのもののリストであり、電子書籍データでは書籍内容のテキストそのものに相当する。図19の(c)は(準)肉声音声データの一覧である。ここに示すように、コンテンツそのものに(準)肉声音声データが埋め込まれて配信される。図19の(b)は、読み上げ文とそこで使用すべき(準)肉声音声データの対応を示すデータである。
102 準肉声音声生成部
103 (準)肉声音声選択部
104 韻律情報抽出部
105 声質情報抽出部
106 入力解析部
107 韻律生成部
108 韻律モデル
109 素片データベース(DB)
110 声質考慮波形合成部
111 接続合成部
112 入力テキスト(漢字かな文)
113 合成音声
114 (準)肉声音声ID
120 コンピュータ
121 中央処理部(CPU)
122 メモリ(MM)
123 インタフェース(I/F)
124 ネットワーク
125 ハードディスクコントローラ(HDD)
126 入出力部(I/O)
127 スピーカ
128 バス
200 (準)肉声音声データベース
901、903 曲線
902 接続端点
1401 読み上げシナリオ格納部
1402 読み上げ文生成部
1403 全域声質情報格納部
1800 サーバ
1801 コンテンツ格納部
1802 コンテンツ送信部
1803 コンテンツ受信部
1804 コンテンツ格納部
1805 入力生成部
1806 コンテンツ選択部
Claims (13)
- 合成音声を出力する処理部における音声合成方法であって、
前記処理部は、
入力テキスト内から発話スタイルの特徴的な箇所に対応する肉声音声データ、もしくは韻律や声質面で肉声に準じる準肉声音声データを、(準)肉声音声データとして選択し、
選択した前記(準)肉声音声データから韻律情報、及び前記(準)肉声音声データの短時間区間に対応する短時間声質情報と、前記(準)肉声音声データの前記短時間区間より長い時間区間に対応する長時間声質情報とを声質情報として抽出し、
抽出した前記韻律情報に基づいて、前記入力テキストに対応する音素列の韻律情報を調整し、調整した前記韻律情報と抽出した前記短時間声質情報と抽出した前記長時間声質情報に応じて音声波形データを選択し、選択した音声波形データを組み合わせて合成音声波形データを生成し、
生成した前記合成音声波形データ、及び選択した前記(準)肉声音声データを接続端点で接合する
ことを特徴とする音声合成方法。 - 請求項1に記載の音声合成方法であって、
前記処理部は、
前記(準)肉声音声データを選択するため、前記入力テキストを解析することにより、選択される前記(準)肉声音声データを決定する
ことを特徴とする音声合成方法。 - 請求項1に記載の音声合成方法であって、
前記処理部は、
前記長時間声質情報として、前記(準)肉声音声データの前記長い時間区間を対象とした周波数分析手法によって得られた周波数領域係数情報を用いる
ことを特徴とする音声合成方法。 - 請求項1に記載の音声合成方法であって、
前記処理部は、
前記長時間声質情報として、あらかじめ前記(準)肉声音声データに付加されている声質特徴点の時刻および重み情報を用いて、各時刻位置の短時間声質情報を指定された重みで加重加算した情報を用いる
ことを特徴とする音声合成方法。 - 請求項1に記載の音声合成方法であって、
前記処理部は、
前記長時間声質情報として、前記(準)肉声音声データをk分割したk個の音声区間でそれぞれ短時間声質情報を抽出し、抽出されたk個の声質情報から代表声質情報を決定するという処理を、k=1からNまで変化させることで得られたN個の代表声質情報を用いる
ことを特徴とする音声合成方法。 - 請求項1に記載の音声合成方法であって、
前記処理部は、
抽出した前記長時間声質情報を保存しておき、抽出した前記長時間声質情報に応じて、前記音声波形データを選択する際に、保存した直近数個の前記長時間声質情報にも応じて音声波形データの選択を行う
ことを特徴とする音声合成方法。 - 請求項2に記載の音声合成方法であって、
前記処理部は、
抽出した前記長時間声質情報を保存しておき、
抽出した前記長時間声質情報に応じて、前記音声波形データを選択する際に、保存した直近数個の前記長時間声質情報にも応じて音声波形データの選択を行う
ことを特徴とする音声合成方法。 - 音声合成装置であって、
処理部と記憶部を備え、
前記処理部は、
入力テキスト内から発話スタイルの特徴的な箇所に対応する肉声音声データ、もしくは韻律や声質面で肉声に準じる準肉声音声データを、(準)肉声音声データとして選択し、
選択した前記(準)肉声音声データから韻律情報、及び前記(準)肉声音声データの短時間区間に対応する短時間声質情報と、前記(準)肉声音声データの前記短時間区間より長い時間区間に対応する長時間声質情報とを声質情報として抽出し、
抽出した前記韻律情報に基づいて、前記入力テキストに対応する音素列の韻律情報を調整し、調整した前記韻律情報と抽出した前記短時間声質情報と抽出した前記長時間声質情報に応じて音声波形データを選択し、選択した音声波形データを組み合わせて合成音声波形データを生成し、
生成した前記合成音声波形データ、及び選択した前記(準)肉声音声データを接続端点で接合して出力する
ことを特徴とする音声合成装置。 - 請求項8に記載の音声合成装置であって、
前記処理部は、
前記(準)肉声音声データを選択するため、前記入力テキストを解析することにより、選択する前記(準)肉声音声データを決定する
ことを特徴とする音声合成装置。 - 請求項8に記載の音声合成装置であって、
前記処理部は、
抽出した前記長時間声質情報を前記記憶部に記憶し、
抽出した前記長時間声質情報に応じて、前記音声波形データを選択する際に、前記記憶部に記憶した直近数個の前記長時間声質情報にも応じて音声波形データの選択を行う
ことを特徴とする音声合成装置。 - 請求項9に記載の音声合成装置であって、
前記処理部は、
抽出した前記長時間声質情報を前記記憶部に記憶し、
抽出した前記長時間声質情報に応じて、前記音声波形データを選択する際に、前記記憶部に記憶した直近数個の前記長時間声質情報にも応じて音声波形データの選択を行う
ことを特徴とする音声合成装置。 - 音声合成装置の処理部で実行される音声合成プログラムであって、
前記処理部を、
入力テキスト内から発話スタイルの特徴的な箇所に対応する肉声音声データ、もしくは韻律や声質面で肉声に準じる準肉声音声データを、(準)肉声音声データとして選択し、
選択した前記(準)肉声音声データから韻律情報、及び前記(準)肉声音声データの短時間区間に対応する短時間声質情報と、前記(準)肉声音声データの前記短時間区間より長い時間区間に対応する長時間声質情報とを声質情報として抽出し、
抽出した前記韻律情報に基づいて、前記入力テキストに対応する音素列の韻律情報を調整し、調整した前記韻律情報と抽出した前記短時間声質情報と抽出した前記長時間声質情報に応じて音声波形データを選択し、選択した音声波形データを組み合わせて合成音声波形データを生成し、
生成した前記合成音声波形データ、及び選択した前記(準)肉声音声データを接続端点で接合する
よう動作させる
ことを特徴とする音声合成プログラム。 - 請求項12に記載の音声合成プログラムであって、
前記処理部を、
前記(準)肉声音声データを選択するため、前記入力テキストを解析することにより、選択する前記(準)肉声音声データを決定する
よう動作させる
ことを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012206980A JP6013104B2 (ja) | 2012-09-20 | 2012-09-20 | 音声合成方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012206980A JP6013104B2 (ja) | 2012-09-20 | 2012-09-20 | 音声合成方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014062970A JP2014062970A (ja) | 2014-04-10 |
JP6013104B2 true JP6013104B2 (ja) | 2016-10-25 |
Family
ID=50618288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012206980A Active JP6013104B2 (ja) | 2012-09-20 | 2012-09-20 | 音声合成方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6013104B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6436806B2 (ja) * | 2015-02-03 | 2018-12-12 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成用データ作成方法、及び音声合成用データ作成装置 |
CN112562637B (zh) * | 2019-09-25 | 2024-02-06 | 北京中关村科金技术有限公司 | 拼接语音音频的方法、装置以及存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN113129899B (zh) * | 2021-04-16 | 2023-01-20 | 广东电网有限责任公司 | 一种安全作业监管方法、设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009133890A (ja) * | 2007-11-28 | 2009-06-18 | Toshiba Corp | 音声合成装置及びその方法 |
JP2012042974A (ja) * | 2011-10-26 | 2012-03-01 | Hitachi Ltd | 音声合成装置 |
-
2012
- 2012-09-20 JP JP2012206980A patent/JP6013104B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110097894B (zh) * | 2019-05-21 | 2021-06-11 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2014062970A (ja) | 2014-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
US8352270B2 (en) | Interactive TTS optimization tool | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US9508338B1 (en) | Inserting breath sounds into text-to-speech output | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
JPWO2006134736A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Ramani et al. | A multi-level GMM-based cross-lingual voice conversion using language-specific mixture weights for polyglot synthesis | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
US9484014B1 (en) | Hybrid unit selection / parametric TTS system | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
Toman et al. | Unsupervised and phonologically controlled interpolation of Austrian German language varieties for speech synthesis | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20141030 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6013104 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |