JP2016085408A - 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム - Google Patents
基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2016085408A JP2016085408A JP2014219547A JP2014219547A JP2016085408A JP 2016085408 A JP2016085408 A JP 2016085408A JP 2014219547 A JP2014219547 A JP 2014219547A JP 2014219547 A JP2014219547 A JP 2014219547A JP 2016085408 A JP2016085408 A JP 2016085408A
- Authority
- JP
- Japan
- Prior art keywords
- fundamental frequency
- pattern
- text
- information
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 38
- 230000015572 biosynthetic process Effects 0.000 title claims description 21
- 238000003786 synthesis reaction Methods 0.000 title claims description 21
- 230000008859 change Effects 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 19
- 238000001308 synthesis method Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】基本周波数パターン推定部(16)は、テキストに対応する隠れマルコフモデルの情報を用いて、テキストに対応する音声の基本周波数パターンを推定する。また、基本周波数変更部(18、20)は、推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する。また、再推定部(22)は、隠れマルコフモデルの情報を用いて、テキストに対応し、かつ指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する。
【選択図】図1
Description
(2)
(3)
(4)
(6)
(7)
(9)
(10)
(12)
(13)
(15)
(17)
(18)
(19)
(20)
(21)
(23)
(24)
(26)
(27)
(29)
(30)
(31)
(33)
(34)
(35)
(36)
(38)
(39)
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
を含む基本周波数調整装置。
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記1に記載の基本周波数調整装置。
前記再推定部は、前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記1または2に記載の基本周波数調整装置。
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記1〜3のいずれかに記載の基本周波数調整装置。
前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記1〜4のいずれかに記載の基本周波数調整装置。
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記1〜5のいずれかに記載の基本周波数調整装置。
コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
基本周波数調整方法。
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記7に記載の基本周波数調整方法。
前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記7または8に記載の基本周波数調整方法。
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記7〜9のいずれかに記載の基本周波数調整方法。
前記指定された部分は、前記推定された基本周波数パターン内の指定された部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記7〜10のいずれかに記載の基本周波数調整方法。
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記7〜11に記載のいずれかに記載の基本周波数調整方法。
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
ことを含む基本周波数調整処理をコンピュータに実行させるためのプログラム。
前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、付記13に記載のプログラム。
前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
付記13または14に記載のプログラム。
前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
付記13〜15のいずれかに記載のプログラム。
前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、付記13〜16のいずれかに記載のプログラム。
前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、付記13〜17のいずれかに記載のプログラム。
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する音声合成部と、
を含む音声合成装置。
コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
音声合成方法。
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の代表部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
ことを含む音声合成処理をコンピュータに実行させるためのプログラム。
16 パラメータ推定部
18 アクセント強度−F0変換部
20 F0指定部
22 F0再推定部
24 分析合成部
30 HMM DB
60 CPU
62 1次記憶部
64 2次記憶部
68 HMM DB記憶領域
Claims (11)
- テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
を含む基本周波数調整装置。 - 前記隠れマルコフモデルの情報は、前記隠れマルコフモデルの状態に対応する平均ベクトル及び共分散行列である、請求項1に記載の基本周波数調整装置。
- 前記再推定部は、前記隠れマルコフモデルの情報、前記推定された基本周波数パターンの動的特徴及び前記指定された部分の変更された基本周波数の値を用いて、基本周波数パターンを再推定する、
請求項1または2に記載の基本周波数調整装置。 - 前記推定された基本周波数パターン内の指定された部分及び前記指定されたアクセント強度は、
ユーザによって指定される、及び、
前記テキストから取得される言語情報に基づいて推定される、
の少なくとも一方によって指定される、
請求項1〜3のいずれか1項に記載の基本周波数調整装置。 - 前記指定された部分は、前記推定された基本周波数パターン内の指定された代表部分に含まれるモーラ、音節、音素、もしくは母音の中央である、請求項1〜4のいずれか1項に記載の基本周波数調整装置。
- 前記推定された基本周波数パターン内の指定された部分に含まれるアクセント句のアクセント型情報に基づいて、前記指定された部分の基本周波数の値を決定する、請求項1〜5のいずれか1項に記載の基本周波数調整装置。
- コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
基本周波数調整方法。 - テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する、
ことを含む基本周波数調整処理をコンピュータに実行させるためのプログラム。 - テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定する基本周波数パターン推定部と、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更する基本周波数変更部と、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定する再推定部と、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する音声合成部と、
を含む音声合成装置。 - コンピュータが、
テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記指定された部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
音声合成方法。 - テキストに対応する隠れマルコフモデルの情報を用いて、前記テキストに対応する音声の基本周波数パターンを推定し、
推定された基本周波数パターン内の指定された部分の基本周波数の値を、指定されたアクセント強度に応じた値に変更し、
前記隠れマルコフモデルの情報を用いて、前記テキストに対応し、かつ前記代表部分の基本周波数の値が変更された値になった基本周波数パターンを再推定し、
統合された基本周波数パターン及び前記隠れマルコフモデルが有する情報を用いて推定されたメルケプストラムパターンに基づいて音声信号を合成する、
ことを含む音声合成処理をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014219547A JP6442982B2 (ja) | 2014-10-28 | 2014-10-28 | 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014219547A JP6442982B2 (ja) | 2014-10-28 | 2014-10-28 | 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016085408A true JP2016085408A (ja) | 2016-05-19 |
JP6442982B2 JP6442982B2 (ja) | 2018-12-26 |
Family
ID=55972153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014219547A Expired - Fee Related JP6442982B2 (ja) | 2014-10-28 | 2014-10-28 | 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6442982B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144403A (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声信号解析装置、方法、及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249677A (ja) * | 2000-03-03 | 2001-09-14 | Oki Electric Ind Co Ltd | テキスト音声変換装置におけるピッチパタン制御方法 |
JP2002268660A (ja) * | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
JP2008275698A (ja) * | 2007-04-25 | 2008-11-13 | National Institute Of Information & Communication Technology | 所望のイントネーションを備えた音声信号を生成するための音声合成装置 |
WO2013014858A1 (ja) * | 2011-07-25 | 2013-01-31 | 日本電気株式会社 | ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム |
-
2014
- 2014-10-28 JP JP2014219547A patent/JP6442982B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249677A (ja) * | 2000-03-03 | 2001-09-14 | Oki Electric Ind Co Ltd | テキスト音声変換装置におけるピッチパタン制御方法 |
JP2002268660A (ja) * | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
JP2008275698A (ja) * | 2007-04-25 | 2008-11-13 | National Institute Of Information & Communication Technology | 所望のイントネーションを備えた音声信号を生成するための音声合成装置 |
WO2013014858A1 (ja) * | 2011-07-25 | 2013-01-31 | 日本電気株式会社 | ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144403A (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声信号解析装置、方法、及びプログラム |
WO2019163753A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声信号解析装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6442982B2 (ja) | 2018-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
JP4455610B2 (ja) | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 | |
US6778960B2 (en) | Speech information processing method and apparatus and storage medium | |
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
WO2018192424A1 (zh) | 统计参数模型建立方法、语音合成方法、服务器和存储介质 | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
US20130268275A1 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP6442982B2 (ja) | 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム | |
Jayakumari et al. | An improved text to speech technique for tamil language using hidden Markov model | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP5318042B2 (ja) | 信号解析装置、信号解析方法及び信号解析プログラム | |
JP7162579B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2018041116A (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP7498408B2 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
Moungsri et al. | GPR-based Thai speech synthesis using multi-level duration prediction | |
JP2001282273A (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP2016151709A (ja) | 音声合成装置及び音声合成プログラム | |
JP6495781B2 (ja) | 音声パラメータ生成装置、音声パラメータ生成方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6442982 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |