JP5754141B2 - 音声合成装置および音声合成プログラム - Google Patents
音声合成装置および音声合成プログラム Download PDFInfo
- Publication number
- JP5754141B2 JP5754141B2 JP2011004728A JP2011004728A JP5754141B2 JP 5754141 B2 JP5754141 B2 JP 5754141B2 JP 2011004728 A JP2011004728 A JP 2011004728A JP 2011004728 A JP2011004728 A JP 2011004728A JP 5754141 B2 JP5754141 B2 JP 5754141B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- mora
- input
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
図1ないし図8を用いて,第1実施形態について説明する。
置)」に修正するとする。
図9ないし図12を用いて,第2実施例について説明する。
図13および図14を用いて,第3実施形態について説明する。
図15を用いて,第4実施形態について説明する。
テキストを合成音声に変換する音声合成装置において,
韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成するタイミング制御部と,
前記リズム情報を出力するリズム情報出力部と,
前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する音声入力部と,
前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する音響特徴量抽出部と,
前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出するピッチ抽出部と,
前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成するモーラ境界修正部と,
前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出するモーラ境界抽出部と,
前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する抑揚生成部と,
前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成するモーラ長生成部と,
前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する韻律生成部とを備える
ことを特徴とする音声合成装置。
前記モーラ長生成部に代えて,前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の音素長を示す音素長情報を生成する音素長生成部を備えて,
前記韻律生成部は,前記第2入力音声の抑揚情報,および前記モーラ長情報に代わる前記音素長情報から,前記第2入力音声の韻律情報を生成して出力する
ことを特徴とする前記付記1に記載の音声合成装置。
テキストを合成音声に変換する音声合成装置において,
アクセント修正の対象となるテキスト情報を取得し,テキスト情報のモーラ数に対応するリズム情報を生成するタイミング制御部と,
前記リズム情報を出力するリズム情報出力部と,
リズム情報に同期した第1入力音声を取得する音声入力部と,
前記第1入力音声から,音声のピッチ周波数を示すピッチ周波数情報を抽出するピッチ抽出部と,
前記リズム情報と前記ピッチ周波数情報から,前記第1入力音声の各モーラのモーラ境界を修正し,修正した前記モーラ境界を示すモーラ境界情報を生成するモーラ境界修正部と,
前記テキスト情報,前記第1入力音声のモーラ境界情報,および前記ピッチ周波数情報から,アクセント位置が設定されるモーラを決定し,前記アクセント位置を示すアクセント情報を抽出するアクセント抽出部とを備える
ことを特徴とする音声合成装置。
前記音声入力部は,外部で生成されたリズム音が重畳された前記第1入力音声を入力し,
前記タイミング制御部は,前記リズム情報の生成に代えて,前記リズム音が重畳された第1入力音声から前記リズム音の位置を決定し,決定した前記リズム音の位置を示すリズム情報を生成する
ことを特徴とする前記付記1ないし前記付記3のいずれか1項に記載の音声合成装置。
前記ピッチ抽出部は,前記第1入力音声から,音声が存在する区間を抽出し,抽出した前記区間を示す音声区間情報を生成し,
前記モーラ境界修正部は,前記テキスト情報,前記リズム情報,前記第1入力音声のピッチ周波数情報,および前記音声区間情報から,第1入力音声が長音発声または単音発声のいずれであるかを判定する
ことを特徴とする前記付記1ないし前記付記4のいずれか1項に記載の音声合成装置。
前記モーラ境界修正部は,前記第1入力音声が長音発声であると判定した場合に,前記第1入力音声のピッチ周波数の連続性が途切れる位置を,モーラ境界として抽出する
ことを特徴とする前記付記5に記載の音声合成装置。
前記モーラ境界修正部は,前記第1入力音声が長音発声であると判定した場合に,前記第1入力音声のピッチ周波数変化率を算出し,算出した前記ピッチ周波数変化率が所定の閾値を超えた位置を,モーラ境界として抽出する
ことを特徴とする前記付記5に記載の音声合成装置。
前記モーラ境界修正部は,前記第1入力音声が単音発声であると判定した場合に,前記第1入力音声の音声区間の開始位置またはピッチ周波数の開始位置を,モーラ境界として抽出する
ことを特徴とする前記付記5に記載の音声合成装置。
前記タイミング制御部が生成する前記リズム情報は,一定間隔で発せられる音,一定間隔で画像が変化する静止画像もしくは動画像,または一定間隔で発せられる光である
ことを特徴とする前記付記1または前記付記3に記載の音声合成装置。
コンピュータに,テキストを合成音声に変換する音声合成処理として,
韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成する処理と,
前記リズム情報を出力する処理と,
前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する処理と,
前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する処理と,
前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出する処理と,
前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成する処理と,
前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出する処理と,
前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する処理と,
前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成する処理と,
前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する処理とを,実行させる
ことを特徴とする音声合成プログラム。
コンピュータに,テキストを合成音声に変換する音声合成処理として,
アクセント修正の対象となるテキスト情報を取得し,テキスト情報のモーラ数に対応するリズム情報を生成する処理と,
前記リズム情報を出力する処理と,
リズム情報に同期した第1入力音声を取得する処理と,
前記第1入力音声から,音声のピッチ周波数を示すピッチ周波数情報を抽出する処理と,
前記リズム情報と前記ピッチ周波数情報から,前記第1入力音声の各モーラのモーラ境界を修正し,修正した前記モーラ境界を示すモーラ境界情報を生成する処理と,
前記テキスト情報,前記第1入力音声のモーラ境界情報,および前記ピッチ周波数情報から,アクセント位置が設定されるモーラを決定し,前記アクセント位置を示すアクセント情報を抽出する処理とを,実行させる
ことを特徴とする音声合成プログラム。
11,11b,11c タイミング制御部
12 リズム情報出力部
13,13a,13b,13c 音声入力部
14,14a ピッチ抽出部
15 モーラ境界修正部
16 アクセント抽出部
21 音響特徴量抽出部
22 モーラ境界抽出部
23 モーラ長生成部
24 音素長生成部
25 抑揚生成部
26 韻律生成部
5 テキスト情報
6 アクセント情報
7 韻律情報
Claims (8)
- テキストを合成音声に変換する音声合成装置において,
韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成するタイミング制御部と,
前記リズム情報を出力するリズム情報出力部と,
前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する音声入力部と,
前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する音響特徴量抽出部と,
前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出するピッチ抽出部と,
前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成するモーラ境界修正部と,
前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出するモーラ境界抽出部と,
前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する抑揚生成部と,
前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成するモーラ長生成部と,
前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する韻律生成部とを備える
ことを特徴とする音声合成装置。 - 前記モーラ長生成部に代えて,前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の音素長を示す音素長情報を生成する音素長生成部を備えて,
前記韻律生成部は,前記第2入力音声の抑揚情報,および前記モーラ長情報に代わる前記音素長情報から,前記第2入力音声の韻律情報を生成して出力する
ことを特徴とする請求項1に記載の音声合成装置。 - 前記テキスト情報,前記第1入力音声のモーラ境界情報,および前記第1入力音声のピッチ周波数情報から,アクセント位置が設定されるモーラを決定し,前記アクセント位置を示すアクセント情報を抽出するアクセント抽出部とを備える
ことを特徴とする請求項1または請求項2に記載の音声合成装置。 - 前記音声入力部は,外部で生成されたリズム音が重畳された前記第1入力音声を入力し,
前記タイミング制御部は,前記リズム情報の生成に代えて,前記リズム音が重畳された第1入力音声から前記リズム音の位置を決定し,決定した前記リズム音の位置を示すリズム情報を生成する
ことを特徴とする請求項1ないし請求項3のいずれか1項に記載の音声合成装置。 - 前記ピッチ抽出部は,前記第1入力音声から,音声が存在する区間を抽出し,抽出した前記区間を示す音声区間情報を生成し,
前記モーラ境界修正部は,前記テキスト情報,前記リズム情報,前記第1入力音声のピッチ周波数情報,および前記音声区間情報から,第1入力音声が長音発声または単音発声のいずれであるかを判定する
ことを特徴とする請求項1ないし請求項4のいずれか1項に記載の音声合成装置。 - 前記タイミング制御部が生成する前記リズム情報は,一定間隔で発せられる音,一定間隔で画像が変化する静止画像もしくは動画像,または一定間隔で発せられる光である
ことを特徴とする請求項1または請求項3に記載の音声合成装置。 - コンピュータに,テキストを合成音声に変換する音声合成処理として,
韻律修正の対象となるテキスト情報を取得し,テキスト情報に対応するリズム情報を生成する処理と,
前記リズム情報を出力する処理と,
前記リズム情報に同期した第1入力音声と,前記リズム情報と非同期の第2入力音声を入力する処理と,
前記第1入力音声および前記第2入力音声の各音響特徴量を抽出する処理と,
前記第1入力音声および前記第2入力音声の各ピッチ周波数情報を抽出する処理と,
前記リズム情報および前記第1入力音声のピッチ周波数情報から,前記第1入力音声のモーラ境界を修正し,修正した前記モーラ境界を示す第1入力音声のモーラ境界情報を生成する処理と,
前記第1入力音声のモーラ境界情報をもとに,前記第1入力音声および前記第2入力音声の各音響特徴量をマッチング処理し,前記マッチング処理結果をもとに,前記第2入力音声のモーラ境界を示す第2入力音声のモーラ境界情報を抽出する処理と,
前記第2入力音声のピッチ周波数情報から,前記第2入力音声の抑揚情報を生成する処理と,
前記第2入力音声のモーラ境界情報および前記テキスト情報から,前記第2入力音声の各モーラのモーラ長を示すモーラ長情報を生成する処理と,
前記第2入力音声の抑揚情報および前記モーラ長情報から,前記第2入力音声の韻律情報を生成して出力する処理とを,実行させる
ことを特徴とする音声合成プログラム。 - 前記テキスト情報,前記第1入力音声のモーラ境界情報,および前記第1入力音声のピッチ周波数情報から,アクセント位置が設定されるモーラを決定し,前記アクセント位置を示すアクセント情報を抽出する処理とを,実行させる
ことを特徴とする請求項7に記載の音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011004728A JP5754141B2 (ja) | 2011-01-13 | 2011-01-13 | 音声合成装置および音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011004728A JP5754141B2 (ja) | 2011-01-13 | 2011-01-13 | 音声合成装置および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012145802A JP2012145802A (ja) | 2012-08-02 |
JP5754141B2 true JP5754141B2 (ja) | 2015-07-29 |
Family
ID=46789408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011004728A Active JP5754141B2 (ja) | 2011-01-13 | 2011-01-13 | 音声合成装置および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5754141B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667816A (zh) * | 2020-06-15 | 2020-09-15 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015132777A (ja) * | 2014-01-15 | 2015-07-23 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
WO2019082321A1 (ja) * | 2017-10-25 | 2019-05-02 | ヤマハ株式会社 | テンポ設定装置及びその制御方法、プログラム |
CN111681639B (zh) * | 2020-05-28 | 2023-05-30 | 上海墨百意信息科技有限公司 | 一种多说话人语音合成方法、装置及计算设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000047683A (ja) * | 1998-07-30 | 2000-02-18 | Matsushita Electric Ind Co Ltd | セグメンテーション補助装置及び媒体 |
JP2002258885A (ja) * | 2001-02-27 | 2002-09-11 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
JP4759827B2 (ja) * | 2001-03-28 | 2011-08-31 | 日本電気株式会社 | 音声セグメンテーション装置及びその方法並びにその制御プログラム |
JP4856560B2 (ja) * | 2007-01-31 | 2012-01-18 | 株式会社アルカディア | 音声合成装置 |
JP2009042509A (ja) * | 2007-08-09 | 2009-02-26 | Toshiba Corp | アクセント情報抽出装置及びその方法 |
US8140326B2 (en) * | 2008-06-06 | 2012-03-20 | Fuji Xerox Co., Ltd. | Systems and methods for reducing speech intelligibility while preserving environmental sounds |
-
2011
- 2011-01-13 JP JP2011004728A patent/JP5754141B2/ja active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667816A (zh) * | 2020-06-15 | 2020-09-15 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
US11769480B2 (en) | 2020-06-15 | 2023-09-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium |
CN111667816B (zh) * | 2020-06-15 | 2024-01-23 | 北京百度网讯科技有限公司 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2012145802A (ja) | 2012-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iseli et al. | Age, sex, and vowel dependencies of acoustic measures related to the voice source | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
US9147392B2 (en) | Speech synthesis device and speech synthesis method | |
US9508338B1 (en) | Inserting breath sounds into text-to-speech output | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
JP5040778B2 (ja) | 音声合成装置、方法及びプログラム | |
JP5754141B2 (ja) | 音声合成装置および音声合成プログラム | |
Suni et al. | The GlottHMM Entry for Blizzard Challenge 2012: Hybrid Approach | |
CN107610691B (zh) | 英语元音发声纠错方法及装置 | |
Urbain et al. | Automatic phonetic transcription of laughter and its application to laughter synthesis | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
Mannell | Formant diphone parameter extraction utilising a labelled single-speaker database. | |
JP4778402B2 (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
KR20040061070A (ko) | 음성인식시스템에서의 음성인식장치 및 그 방법 | |
Lertwongkhanakool et al. | An automatic real-time synchronization of live speech with its transcription approach | |
JP2009042509A (ja) | アクセント情報抽出装置及びその方法 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
Verkhodanova et al. | Automatic detection of speech disfluencies in the spontaneous Russian speech | |
Ninh et al. | F0 parameterization of glottalized tones in HMM-based speech synthesis for Hanoi Vietnamese | |
Kupryjanow et al. | A non-uniform real-time speech time-scale stretching method | |
JP3883318B2 (ja) | 音声素片作成方法及び装置 | |
CN113409762B (zh) | 情感语音合成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5754141 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |