JP2012058343A - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents
音声合成装置、音声合成方法および音声合成プログラム Download PDFInfo
- Publication number
- JP2012058343A JP2012058343A JP2010199288A JP2010199288A JP2012058343A JP 2012058343 A JP2012058343 A JP 2012058343A JP 2010199288 A JP2010199288 A JP 2010199288A JP 2010199288 A JP2010199288 A JP 2010199288A JP 2012058343 A JP2012058343 A JP 2012058343A
- Authority
- JP
- Japan
- Prior art keywords
- speech synthesis
- speech
- series data
- synthesis parameter
- parameter time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000002194 synthesizing effect Effects 0.000 title abstract description 20
- 238000009826 distribution Methods 0.000 claims abstract description 71
- 239000013598 vector Substances 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 230000015572 biosynthetic process Effects 0.000 claims description 255
- 238000003786 synthesis reaction Methods 0.000 claims description 249
- 238000012545 processing Methods 0.000 claims description 23
- 230000003068 static effect Effects 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000001308 synthesis method Methods 0.000 claims description 8
- 238000007476 Maximum Likelihood Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000007796 conventional method Methods 0.000 description 14
- 238000003066 decision tree Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成し、与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、第1の音声合成パラメータとの差の時系列データとして、第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成し、第1の音声合成パラメータ時系列データと第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成し、第3の音声合成パラメータ時系列データに基づく合成音声波形を生成する。
【選択図】図1
Description
図1は、音声合成装置100を示すブロック図である。音声合成装置100は音声合成用記号の入力に対して合成音声波形を出力する。図1に示すように、音声合成装置100は、音声特徴分布パラメータ生成部105、第1の音声合成パラメータ生成部110、第2の音声合成パラメータ生成部120、音声合成パラメータ加算部130、音声波形生成部140で構成される。また、第2の音声合成パラメータ生成部は音声特徴分布パラメータ修正部121と音声合成パラメータ時系列計算部122で構成される。
上記のように構成される音声合成装置100の動作を説明する。図2は、音声合成装置100の動作を示すフローチャートである。まず音声合成記号列をもとに音声合成特徴分布パラメータを生成する(ステップS1)。次に、音声合成特徴分布パラメータから、予め設定された基準により第1の音声合成パラメータ時系列データX0を生成する(ステップS2)。予め設定された基準は、たとえば計算結果の数値範囲の大きいものと小さいものに分離するという基準である。
上記の実施形態により得られる音声合成パラメータ時系列データの一例を説明する。図3(a)〜(c)は、各音声合成パラメータ時系列データの一例を示す図である。図の横軸は時間を、縦軸は音声特徴ベクトルのある次元の値を表している。図3(a)は、ある区分された時間ごとの平均値として得られた第1の音声合成パラメータ時系列データX0を示している。これは区分された時間内で特徴分布パラメータが一定であることを想定した音声生成モデルに対応する。第1の音声合成パラメータは広い数値範囲にわたっているが、区分された時間ごとに独立に平均値を計算できるので、計算の際に誤差は生じにくい。図3(b)は、これと最終的に得ようとする第3の音声合成パラメータ時系列データXとの差として得られた第2の音声合成パラメータ時系列データX1を示している。第2の音声合成パラメータは、時系列の変化は複雑であるが、狭い数値範囲に制約されている。図3(c)は、第1の音声合成パラメータ時系列データX0と第2の音声合成パラメータ時系列データX1とを加算して得られる第3の音声合成パラメータ時系列データXを示している。
以上の説明では、1つのベクトルXから音声波形を生成するが、スペクトル、基本周波数等、音声の音響的特徴の種類毎に音声合成ベクトル時系列を独立に計算し、音声波形生成処理でそれらを結合して用いてもよい。
105 音声特徴分布パラメータ生成部
110 第1の音声合成パラメータ生成部
120 第2の音声合成パラメータ生成部
121 音声特徴分布パラメータ修正部
122 音声合成パラメータ時系列計算部
130 音声合成パラメータ加算部
140 音声波形生成部
Claims (7)
- 一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成装置であって、
与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成する第1の音声合成パラメータ生成部と、
前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成する第2の音声合成パラメータ生成部と、
前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成する音声合成パラメータ加算部を備え、
前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成装置。 - 前記第2の音声合成パラメータ生成部は、最ゆう基準に基づく一般的なパラメータ時系列の算出過程において、特徴ベクトルの分布情報における平均パラメータを前記第1の音声合成パラメータ時系列データに対する特徴ベクトルとの差に置換して計算することで、前記特徴ベクトルの分布情報を修正することを特徴とする請求項1記載の音声合成装置。
- 前記第1の音声合成パラメータ生成部は、直接的に時間的変化を表さない静的特徴の分布情報から音声合成パラメータ時系列データを生成することを特徴とする請求項1または請求項2記載の音声合成装置。
- 前記静的特徴の特徴ベクトルの分布情報から生成される音声合成パラメータ時系列データは、静的特徴の分布平均パラメータの時系列であることを特徴とする請求項3記載の音声合成装置。
- 前記第1の音声合成パラメータ生成部は、前記第1の音声合成パラメータの生成により、最終的に生成しようとする前記第3の音声合成パラメータ時系列データの区分された時間ごとの数値範囲情報を保存し、
前記第2の音声合成パラメータ生成部は、前記第2の音声合成パラメータの生成により、前記第3の音声合成パラメータ時系列データの前記区分された時間ごとの数値変化を算出し、
前記音声合成パラメータ加算部は、前記加算により、前記保存した数値範囲情報を前記算出された数値変化に反映させることを特徴とする請求項1または請求項2記載の音声合成装置。 - 一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成する音声合成方法であって、
与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成するステップと、
前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成するステップと、
前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成するステップと、を含み、
前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成方法。 - 一連の単位音声列に含まれる単位音声の種類を記述する音声合成用情報から合成音声波形を生成するためにコンピュータに実行させる音声合成プログラムであって、
与えられた音声合成用情報に基づく特徴ベクトルの分布情報を用いて、数値範囲の大きい第1の音声合成パラメータ時系列データを生成する処理と、
前記与えられた音声合成用情報に基づく特徴ベクトルの分布情報を修正し、前記第1の音声合成パラメータとの差の時系列データとして、前記第1の音声合成パラメータ時系列データよりも数値範囲が小さい第2の音声合成パラメータ時系列データを生成する処理と、
前記第1の音声合成パラメータ時系列データと前記第2の音声合成パラメータ時系列データとを加算し、第3の音声合成パラメータ時系列データを生成する処理と、を含み、
前記第3の音声合成パラメータ時系列データに基づく合成音声波形を生成することを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010199288A JP5474713B2 (ja) | 2010-09-06 | 2010-09-06 | 音声合成装置、音声合成方法および音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010199288A JP5474713B2 (ja) | 2010-09-06 | 2010-09-06 | 音声合成装置、音声合成方法および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012058343A true JP2012058343A (ja) | 2012-03-22 |
JP5474713B2 JP5474713B2 (ja) | 2014-04-16 |
Family
ID=46055544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010199288A Expired - Fee Related JP5474713B2 (ja) | 2010-09-06 | 2010-09-06 | 音声合成装置、音声合成方法および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5474713B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017049535A (ja) * | 2015-09-04 | 2017-03-09 | Kddi株式会社 | 音声合成システムならびにその予測モデル学習方法および装置 |
US11186093B2 (en) | 2018-07-13 | 2021-11-30 | Hewlett-Packard Development Company, L.P. | Spouts with angled clamp flanges for a print liquid supply |
US11807016B2 (en) | 2018-07-13 | 2023-11-07 | Hewlett-Packard Development Company, L.P. | Pliable print liquid supply reservoirs with offset spout |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210081059A (ko) | 2019-12-23 | 2021-07-01 | 삼성전자주식회사 | 배터리 상태 추정 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08161000A (ja) * | 1994-12-02 | 1996-06-21 | Yamaha Corp | 音声情報圧縮方法及び装置 |
JPH0916198A (ja) * | 1995-06-27 | 1997-01-17 | Japan Radio Co Ltd | 低ビットレートボコーダにおける励起信号発生装置及び励起信号発生方法 |
JP2004077918A (ja) * | 2002-08-20 | 2004-03-11 | Yamaha Corp | 音声合成装置、方法及びプログラム |
-
2010
- 2010-09-06 JP JP2010199288A patent/JP5474713B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08161000A (ja) * | 1994-12-02 | 1996-06-21 | Yamaha Corp | 音声情報圧縮方法及び装置 |
JPH0916198A (ja) * | 1995-06-27 | 1997-01-17 | Japan Radio Co Ltd | 低ビットレートボコーダにおける励起信号発生装置及び励起信号発生方法 |
JP2004077918A (ja) * | 2002-08-20 | 2004-03-11 | Yamaha Corp | 音声合成装置、方法及びプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017049535A (ja) * | 2015-09-04 | 2017-03-09 | Kddi株式会社 | 音声合成システムならびにその予測モデル学習方法および装置 |
US11186093B2 (en) | 2018-07-13 | 2021-11-30 | Hewlett-Packard Development Company, L.P. | Spouts with angled clamp flanges for a print liquid supply |
US11807016B2 (en) | 2018-07-13 | 2023-11-07 | Hewlett-Packard Development Company, L.P. | Pliable print liquid supply reservoirs with offset spout |
Also Published As
Publication number | Publication date |
---|---|
JP5474713B2 (ja) | 2014-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
WO2017046887A1 (ja) | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム | |
Wang et al. | An RNN-based quantized F0 model with multi-tier feedback links for text-to-speech synthesis | |
JP5474713B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
Zen et al. | Recent development of the HMM-based speech synthesis system (HTS) | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Chen et al. | Discrete Duration Model for Speech Synthesis. | |
JP6580911B2 (ja) | 音声合成システムならびにその予測モデル学習方法および装置 | |
JP5143809B2 (ja) | 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム | |
US20220172703A1 (en) | Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5268731B2 (ja) | 音声合成装置、方法およびプログラム | |
WO2011118207A1 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
JP6959901B2 (ja) | 時系列データ生成装置、方法及びプログラム | |
JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP5345967B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP4230254B2 (ja) | 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 | |
KR20180041114A (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
JP4034751B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP4226831B2 (ja) | 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体 | |
WO2023157066A1 (ja) | 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム | |
JP5763414B2 (ja) | 特徴パラメータ生成装置、特徴パラメータ生成方法および特徴パラメータ生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5474713 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |