JP5930738B2 - 音声合成装置及び音声合成方法 - Google Patents
音声合成装置及び音声合成方法 Download PDFInfo
- Publication number
- JP5930738B2 JP5930738B2 JP2012017670A JP2012017670A JP5930738B2 JP 5930738 B2 JP5930738 B2 JP 5930738B2 JP 2012017670 A JP2012017670 A JP 2012017670A JP 2012017670 A JP2012017670 A JP 2012017670A JP 5930738 B2 JP5930738 B2 JP 5930738B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- speech
- segment
- feature
- speech feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims description 12
- 230000015572 biosynthetic process Effects 0.000 title claims description 3
- 238000003786 synthesis reaction Methods 0.000 title claims description 3
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 21
- 230000000694 effects Effects 0.000 description 10
- 238000000034 method Methods 0.000 description 7
- 239000011295 pitch Substances 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 206010015535 Euphoric mood Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Processing Or Creating Images (AREA)
Description
音声特徴情報とを含む素片情報を複数記憶した素片辞書を参照し、言語情報一致度算出部が、少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に対応する言語情報一致度を算出する言語情報一致度算出ステップと、候補素片選択部が、上記言語情報一致度算出ステップで算出された言語情報一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択する候補素片選択ステップと、目標音声特徴算出部が、上記候補素片選択ステップで選択された候補素片情報を用いて、目標音声の特徴を示す目標音声特徴情報を算出する目標音声特徴算出ステップと、音声特徴コスト算出部が、上記目標音声特徴算出ステップで算出された目標音声特徴情報と、上記候補素片情報の音声特徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出ステップと、素片決定部が、上記音声特徴コスト算出ステップで算出された音声特徴コストに基づいて、上記候補素片情報から素片情報を決定する素片決定ステップと、音声波形生成部が、上記素片決定ステップで決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成ステップとを有するものである。
音声特徴情報とを含む素片情報を複数記憶した素片辞書を参照し、言語情報一致度算出部が、少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に対応する言語情報一致度を算出する言語情報一致度算出ステップと、候補素片選択部が、上記言語情報一致度算出ステップで算出された言語情報一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択する候補素片選択ステップと、目標音声特徴算出部が、上記候補素片選択ステップで選択された候補素片情報を用いて、目標音声の特徴を示す目標音声特徴情報を算出する目標音声特徴算出ステップと、音声特徴コスト算出部が、上記目標音声特徴算出ステップで算出された目標音声特徴情報と、上記候補素片情報の音声特徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出ステップと、素片決定部が、上記音声特徴コスト算出ステップで算出された音声特徴コストに基づいて、上記候補素片情報から素片情報を決定する素片決定ステップと、音声波形生成部が、上記素片決定ステップで決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成ステップとを有することにより、イントネーションの自然性を保ったまま、肉声感が高く、素片間の音色の連続性も高い合成音声を得ることができる。
図1は本実施の形態による音声合成装置の全体の構成図を示したブロック図である。
図1の音声合成装置は、言語情報一致度算出部1、候補素片選択部2、目標音声特徴算出部3、音声特徴コスト算出部4、音声特徴コスト最小素片決定部5、音声特徴変形部6、波形接続部7、素片辞書8で構成されている。
素片辞書8は、例えば、ナレータが原稿などを読み発声した音声(以下、原音声)などを切り出し、分析して、事前に作成されたものである。図2の素片辞書8では、音声「かまくら」を分析して得られた情報が格納されている。
図3は、音声合成装置へ入力される入力言語情報101の一例を示したものである。入力言語情報101は、少なくとも音素を含むものであり、例えば、従来の既知の形態素解析技術を用いて漢字仮名交じり文を解析することで得られたものである。図3に示した例は、「ねりまく」を形態素解析技術を用いて得た入力言語情報101であり、素片辞書8の言語情報と同様に、素片ごとに番号201、音素202、高低203の情報を含んでいる。具体的には、音素202はsil、n、e、r、i、m、a、k、u、silであり、高低203は(なし)L、L、H、H、H、H、L、L(なし)である。
図4は、言語情報一致度103の概要を示す説明図である。入力言語情報101(左の表)と素片情報102(右の表)であり、入力言語情報101の番号6と素片情報102の番号4を中心に上下方向の音素、高低をそれぞれ比較していき、一致しないところまで比較する。入力言語情報101の番号5(上方向)と番号8(下方向)で一致しないので、ここで比較をやめる。この結果、入力言語情報101の番号6と番号7が一致していることがわかり、一致する数が2となりI(6,4)が2となる。
なお、変形する必要がない場合、例えば、素片辞書の素変数が多い場合、決定された素片情報の音声特徴情報と目標音声特徴情報とが一致する場合等は、変形することを省略しても良い。
実施の形態1では、目標音声特徴算出3は、言語情報一致度103と入力言語情報101とを参照して、候補素片情報104から目標音声特徴情報105を算出するとしたが、これに代えて、目標音声特徴算出3は、言語情報一致度103と入力言語情報101とを参照せずに、候補素片情報104から目標音声特徴情報105を算出するようにしてもよい。
実施の形態1では、目標音声特徴算出3は、言語情報一致度103と入力言語情報101とを参照して、候補素片情報104から目標音声特徴情報105を算出するとしたが、これに代えて、目標音声特徴算出3は、入力言語情報101を参照せずに、言語情報一致度103を参照して候補素片情報104から目標音声特徴情報105を算出するようにしてもよい。
実施の形態1では、目標音声特徴算出3は、言語情報一致度103と入力言語情報101とを参照して、候補素片情報104から目標音声特徴情報105を算出するとしたが、これに代えて、目標音声特徴算出3は、言語情報一致度103を参照せずに、入力言語情報101を参照して候補素片情報104から目標音声特徴情報105を算出するようにしてもよい。
実施の形態1では、言語情報一致度を、入力言語情報101の音素と高低と、素片情報102の音素と高低とがそれぞれ同時に一致する数としたが、これに代えて、音素が一致する数と、高低が一致する数をそれぞれ求め、これらに重みをつけて加算した数を言語情報一致度としてもよい。このとき、入力言語情報101I(n,m)を次式で算出する。
実施の形態1では、1次音声特徴を基本周波数パターン、または、短時間振幅スペクトルパターン、または、これら両方としたが、1次音声特徴にパワーパターンや継続長パターンを加えてもよい。
前述の実施の形態において、式3、式5、式6、式10の候補素片音声特徴Fs(n,i)を基本周波数パターンFs1(n,i)、または、短時間振幅スペクトルパターンFs2(n,i)、または、これら両方としたが、候補素片音声特徴Fs(n,i)にパワーパターンや継続長パターンを加えても良い。この場合は、素片辞書の素片情報にパワーや継続長を記憶する。
Claims (10)
- 少なくとも音素を含む素片の言語情報と上記素片の音声特徴情報とを含む素片情報を複
数記憶した素片辞書と、
少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報と
の一致度に対応する言語情報一致度を算出する言語情報一致度算出部と、
上記言語情報一致度算出部で算出された言語情報一致度に基づいて、候補素片情報とし
て、上記素片辞書から素片情報を選択する候補素片選択部と、
上記候補素片選択部で選択された候補素片情報を用いて、目標音声の特徴を示す目標音
声特徴情報を算出する目標音声特徴算出部と、
上記目標音声特徴算出部で算出された目標音声特徴情報と、上記候補素片情報の音声特
徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出部と、
上記音声特徴コスト算出部で算出された音声特徴コストに基づいて、上記候補素片情報
から素片情報を決定する素片決定部と、
上記素片決定部で決定された素片情報の音声特徴情報を用いて、音声波形を生成する音
声波形生成部と
を備えたことを特徴とする音声合成装置。 - 上記目標音声特徴算出部は、上記候補素片選択部で選択された候補素片情報と、上記言
語情報一致度算出部で算出された言語情報一致度とを用いて、上記目標音声特徴情報を算
出することを特徴とする請求項1に記載の音声合成装置。 - 上記目標音声特徴算出部は、上記候補素片選択部で選択された候補素片情報と、上記入
力言語情報とを用いて、上記目標音声特徴情報を算出することを特徴とする請求項1に記
載の音声合成装置。 - 上記音声波形生成部は、上記目標音声特徴情報を用いて、上記素片決定部で決定された
素片情報の音声特徴情報を変形する音声特徴変形部を備えたことを特徴とする請求項1に
記載の音声合成装置。 - 上記音声波形生成部は、上記素片決定部で決定された複数の素片情報の音声特徴情報を
接続して音声波形を生成することを特徴とする請求項1に記載の音声合成装置。 - 少なくとも音素を含む素片の言語情報と上記素片の音声特徴情報とを含む素片情報を複
数記憶した素片辞書を参照し、
言語情報一致度算出部が、少なくとも音素を含む入力言語情報と上記素片辞書に記憶された素片情報の言語情報との一致度に対応する言語情報一致度を算出する言語情報一致度算出ステップと、
候補素片選択部が、上記言語情報一致度算出ステップで算出された言語情報一致度に基づいて、候補素片情報として、上記素片辞書から素片情報を選択する候補素片選択ステップと、
目標音声特徴算出部が、上記候補素片選択ステップで選択された候補素片情報を用いて、目標音声の特徴を示す目標音声特徴情報を算出する目標音声特徴算出ステップと、
音声特徴コスト算出部が、上記目標音声特徴算出ステップで算出された目標音声特徴情報と、上記候補素片情報の音声特徴情報との距離に対応する音声特徴コストを算出する音声特徴コスト算出ステップと、
素片決定部が、上記音声特徴コスト算出ステップで算出された音声特徴コストに基づいて、上記候補素片情報から素片情報を決定する素片決定ステップと、
音声波形生成部が、上記素片決定ステップで決定された素片情報の音声特徴情報を用いて、音声波形を生成する音声波形生成ステップと
を有することを特徴とする音声合成方法。 - 上記目標音声特徴算出ステップは、上記候補素片選択ステップで選択された候補素片情
報と、上記言語情報一致度算出ステップで算出された言語情報一致度とを用いて、上記目
標音声特徴情報を算出することを特徴とする請求項6に記載の音声合成方法。 - 上記目標音声特徴算出ステップは、上記候補素片選択ステップで選択された候補素片情
報と、上記入力言語情報とを用いて、上記目標音声特徴情報を算出することを特徴とする
請求項6に記載の音声合成方法。 - 上記音声波形生成ステップは、上記目標音声特徴情報を用いて、上記素片決定ステップ
で決定された素片情報の音声特徴情報を変形する音声特徴変形ステップを有することを特
徴とする請求項6に記載の音声合成方法。 - 上記音声波形生成ステップは、上記素片決定ステップで決定された複数の素片情報の音
声特徴情報を接続して音声波形を生成することを特徴とする請求項6に記載の音声合成方
法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012017670A JP5930738B2 (ja) | 2012-01-31 | 2012-01-31 | 音声合成装置及び音声合成方法 |
CN201310013370.4A CN103226945B (zh) | 2012-01-31 | 2013-01-15 | 声音合成装置以及声音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012017670A JP5930738B2 (ja) | 2012-01-31 | 2012-01-31 | 音声合成装置及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013156472A JP2013156472A (ja) | 2013-08-15 |
JP5930738B2 true JP5930738B2 (ja) | 2016-06-08 |
Family
ID=48837368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012017670A Active JP5930738B2 (ja) | 2012-01-31 | 2012-01-31 | 音声合成装置及び音声合成方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5930738B2 (ja) |
CN (1) | CN103226945B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6234134B2 (ja) | 2013-09-25 | 2017-11-22 | 三菱電機株式会社 | 音声合成装置 |
JP6519096B2 (ja) * | 2014-02-14 | 2019-05-29 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
KR20210060897A (ko) * | 2019-11-19 | 2021-05-27 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
CN112599113B (zh) * | 2020-12-30 | 2024-01-30 | 北京大米科技有限公司 | 方言语音合成方法、装置、电子设备和可读存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1168068C (zh) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
JP2001117577A (ja) * | 1999-10-19 | 2001-04-27 | Victor Co Of Japan Ltd | 音声合成装置 |
JP2002318590A (ja) * | 2001-04-20 | 2002-10-31 | Sony Corp | 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体 |
WO2005071663A2 (en) * | 2004-01-16 | 2005-08-04 | Scansoft, Inc. | Corpus-based speech synthesis based on segment recombination |
JP4241762B2 (ja) * | 2006-05-18 | 2009-03-18 | 株式会社東芝 | 音声合成装置、その方法、及びプログラム |
CN101159134A (zh) * | 2006-10-08 | 2008-04-09 | 开曼群岛威睿电通股份有限公司 | 用于频率调制合成的波形产生 |
JP4247289B1 (ja) * | 2007-11-14 | 2009-04-02 | 日本電信電話株式会社 | 音声合成装置、音声合成方法およびそのプログラム |
-
2012
- 2012-01-31 JP JP2012017670A patent/JP5930738B2/ja active Active
-
2013
- 2013-01-15 CN CN201310013370.4A patent/CN103226945B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013156472A (ja) | 2013-08-15 |
CN103226945B (zh) | 2016-04-13 |
CN103226945A (zh) | 2013-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
WO2021101665A1 (en) | Singing voice synthesis | |
JP5320363B2 (ja) | 音声編集方法、装置及び音声合成方法 | |
Umbert et al. | Generating singing voice expression contours based on unit selection | |
JP2006309162A (ja) | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP5726822B2 (ja) | 音声合成装置、方法及びプログラム | |
JP4403996B2 (ja) | 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2007004011A (ja) | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
JP2008015424A (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP5387410B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP4353174B2 (ja) | 音声合成装置 | |
JP2013117638A (ja) | 音声合成装置および音声合成プログラム | |
JP6552146B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2004054063A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JP2006133559A (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5930738 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |