JP2011107408A - 音声合成装置、方法及びプログラム - Google Patents
音声合成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2011107408A JP2011107408A JP2009262212A JP2009262212A JP2011107408A JP 2011107408 A JP2011107408 A JP 2011107408A JP 2009262212 A JP2009262212 A JP 2009262212A JP 2009262212 A JP2009262212 A JP 2009262212A JP 2011107408 A JP2011107408 A JP 2011107408A
- Authority
- JP
- Japan
- Prior art keywords
- synthesis unit
- unit
- synthesis
- candidate
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】融合合成単位追加部5は、合成単位の探索時に、探索の候補である合成単位同士を融合して、音声データベース部2には格納されていない新たな合成単位である融合合成単位を生成して、探索パスに含める。合成単位を融合することにより、音素環境が一致し、基本周波数F0ギャップも少ない合成単位を生成し、音声合成に利用できる可能性が高くなる。
【選択図】図1
Description
〔参考文献2〕電子情報通信学会論文誌 A Vol.J67-A No.7 pp.629-636
〔参考文献3〕「音声情報工学」、NTTアドバンステクノロジ刊、昭和62年、第5章4節
例えば入力されたテキストについて形態素解析を行い、事前に用意した辞書を参照してテキストに対応するヨミ及びアクセントを決定する。そして、ヨミを音素に変換して、各音素の継続時間長及び周波数情報を推定する。この推定は、例えば事前に用意した辞書を参照することにより行う。その後、音素から合成単位を生成する。この場合、合成単位を構成する音素の継続時間長の合計がその合成単位の継続時間長となり、合成単位を構成する音素の周波数情報がその合成単位の周波数情報となる。
IC1は、分割された合成単位の基本周波数の平均値と、合成単位候補の基本周波数の平均値との差である。IC2は、分割された合成単位の基本周波数の傾きと、合成単位候補の基本周波数の傾きとの差である。傾きとしては、フレームごとの基本周波数の列に対して最小二乗法等により引いた直線の傾きを例えば用いる。wc1,wc2は適宜決定される重み係数である。
ここで、1≦m≦N、1≦n≦N、m≠nであり、Nは合成単位候補集合Uiに含まれる合成単位候補の数である。例えば、N個の合成単位候補から、例えばN(N−1)個の融合合成単位を生成することができる。Fusion(a,b)は、合成単位候補a及び合成単位候補bから融合合成単位を生成する関数を表わす。
IC1は、分割された合成単位の基本周波数の平均値と、融合合成単位の基本周波数の平均値との差である。IC2は、分割された合成単位の基本周波数の傾きと、融合合成単位の基本周波数の傾きとの差である。傾きとしては、フレームごとの基本周波数の列に対して最小二乗法等により引いた直線の傾きを例えば用いる。融合合成単位の基本周波数は近似的に、例えば前半部分については遷移元の合成単位候補ui(m)の基本周波数を、後半部分については遷移先の合成単位候補ui(n)の基本周波数を用いる。FC1は、遷移元の合成単位候補ui(m)の遷移の位置に対応するフレームのスペクトル特徴量と、遷移先の合成単位候補ui(n)の遷移の位置に対応するフレームのスペクトル特徴量との距離(例えば、ユークリッド距離)である。wc3,wc4,wf1は適宜決定される重み係数である。
CC1は、先行合成単位と後続合成単位とが元の発話コーパスにおいて連接していれば0であり、連接していなければ1となる。元の発話コーパスにおいて連接しているかどうかは、先行合成単位に付与された番号及び後続合成単位に付与された番号を参照することにより判断することができる。
図6のように状態2で合成単位候補ui(m)から合成単位候補ui(n)に遷移するように融合した融合合成単位のスペクトル特徴量を図12に例示する。この例では、状態2に対応するフレームについて、上記式により、合成単位候補ui(m)の状態2のスペクトル特徴量と、合成単位候補ui(n)の状態2のスペクトル特徴量と広義単調減少関数である重みw(k)により重み付き加算して、融合合成単位fi(m,n)のスペクトル特徴量を計算している。
上記式によるSa(p)とSb(p)の重み付け加算の例を図13に示す。図13の例では、合成単位のスペクトル情報には、元の発話コーパスにおいて連接していた合成単位のスペクトル情報を含むとする。具体的には、先行合成単位のスペクトル情報には元の発話コーパスにおいてその先行合成単位に後続していた合成単位の最初の状態のスペクトル特徴量が含まれ、後続合成単位のスペクトル情報には元の発話コーパスにおいてその後続合成単位に先行していた合成単位の最後の状態のスペクトル特徴量が含まれるとする。
2 音声データベース部
3 合成単位候補列挙部
4 合成単位単体コスト計算部
5 融合合成単位追加部
6 融合合成単位単体コスト計算部
7 最適パス探索部
8 合成音声生成部
Claims (7)
- 各ラベルに対応する合成単位並びにその合成単位のスペクトル情報及び周波数情報を記憶する音声データベース部と、
各ターゲット合成単位と同じラベルを有する複数の合成単位を、上記音声データベース部から読み込み、上記各ターゲット合成単位の合成単位候補とする合成単位候補列挙部と、
上記各ターゲット合成単位と各上記合成単位候補との距離を、上記各ターゲット合成単位の周波数情報及び上記各合成単位候補の周波数情報を用いて計算して、上記各合成単位候補のコストとする合成単位単体コスト計算部と、
上記複数の合成単位候補から合成単位候補のペアである融合合成単位を選択して、上記各ターゲット合成単位の合成単位候補とする融合合成単位追加部と、
上記各ターゲット合成単位と上記融合合成単位との距離を、上記各ターゲット合成単位の周波数情報並びに上記ペアを構成する合成単位候補の周波数情報及びスペクトル情報を用いて計算して、上記融合合成単位のコストとする融合合成単位単体コスト計算部と、
合成単位単体コスト、融合合成単位コスト及び連続する2つの合成単位候補の距離である合成単位接続コストを重み付け加算した値を最小にする合成単位候補を、各上記ターゲット合成単位の合成単位候補から選択して、最適パスを構成する合成単位とする最適パス探索部と、
を含む音声合成装置。 - 請求項1の音声合成装置において、
上記最適パスを構成する合成単位のスペクトル情報及び上記推定された継続時間長を用いて、上記最適パスを構成する合成単位に対応する合成音声を生成する合成音声生成部を更に含む、
ことを特徴とする音声合成装置。 - 請求項2の音声合成装置において、
上記合成音声生成部は、上記最適パスを構成する合成単位が融合合成単位である場合には、そのスペクトル情報として、その融合合成単位を構成する合成単位候補のペアのそれぞれのスペクトル情報を重み付き加算したスペクトル情報を用いる、
ことを特徴とする音声合成装置。 - 請求項2又は3の音声合成装置において、
上記合成音声生成部は、上記最適パスを構成する連続する2つの合成単位のそれぞれのスペクトル情報を重み付き加算したスペクトル情報を用いて、その連続する2つの合成単位の境界に対応する合成音声を生成する、
ことを特徴とする音声合成装置。 - 請求項1から4の何れかの音声合成装置において、
入力されたテキストを合成単位に分割し、分割された合成単位であるターゲット合成単位の継続時間長及び周波数情報を推定するテキスト分析部を更に含む、
ことを特徴とする音声合成装置。 - 合成単位候補列挙部が、各ターゲット合成単位と同じラベルを有する複数の合成単位を、各ラベルに対応する合成単位並びにその合成単位のスペクトル情報及び周波数情報が記憶された音声データベース部から読み込み、上記各ターゲット合成単位の合成単位候補とする合成単位候補列挙ステップと、
合成単位単体コスト計算部が、上記各ターゲット合成単位と各上記合成単位候補との距離を、上記各ターゲット合成単位の周波数情報及び上記各合成単位候補の周波数情報を用いて計算して、上記各合成単位候補のコストとする合成単位単体コスト計算ステップと、
融合合成単位追加部が、上記複数の合成単位候補から合成単位候補のペアである融合合成単位を選択して、上記各ターゲット合成単位の合成単位候補とする融合合成単位追加ステップと、
融合合成単位単体コスト計算部が、上記各ターゲット合成単位と上記融合合成単位との距離を、上記各ターゲット合成単位の周波数情報並びに上記ペアを構成する合成単位候補の周波数情報及びスペクトル情報を用いて計算して、上記融合合成単位のコストとする融合合成単位単体コスト計算ステップと、
最適パス探索部が、合成単位単体コスト、融合合成単位コスト及び連続する2つの合成単位候補の距離である合成単位接続コストを重み付け加算した値を最小にする合成単位候補を、各上記ターゲット合成単位の合成単位候補から選択して、最適パスを構成する合成単位とする最適パス探索ステップと、
を含む音声合成方法。 - 請求項1から5の何れかの音声合成装置の各部としてコンピュータを機能させるための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009262212A JP5052585B2 (ja) | 2009-11-17 | 2009-11-17 | 音声合成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009262212A JP5052585B2 (ja) | 2009-11-17 | 2009-11-17 | 音声合成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011107408A true JP2011107408A (ja) | 2011-06-02 |
JP5052585B2 JP5052585B2 (ja) | 2012-10-17 |
Family
ID=44230942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009262212A Active JP5052585B2 (ja) | 2009-11-17 | 2009-11-17 | 音声合成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5052585B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06250691A (ja) * | 1993-02-25 | 1994-09-09 | N T T Data Tsushin Kk | 音声合成装置 |
JP2005164749A (ja) * | 2003-11-28 | 2005-06-23 | Toshiba Corp | 音声合成方法、音声合成装置および音声合成プログラム |
JP2008033133A (ja) * | 2006-07-31 | 2008-02-14 | Toshiba Corp | 音声合成装置、音声合成方法および音声合成プログラム |
JP2009133890A (ja) * | 2007-11-28 | 2009-06-18 | Toshiba Corp | 音声合成装置及びその方法 |
-
2009
- 2009-11-17 JP JP2009262212A patent/JP5052585B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06250691A (ja) * | 1993-02-25 | 1994-09-09 | N T T Data Tsushin Kk | 音声合成装置 |
JP2005164749A (ja) * | 2003-11-28 | 2005-06-23 | Toshiba Corp | 音声合成方法、音声合成装置および音声合成プログラム |
JP2008033133A (ja) * | 2006-07-31 | 2008-02-14 | Toshiba Corp | 音声合成装置、音声合成方法および音声合成プログラム |
JP2009133890A (ja) * | 2007-11-28 | 2009-06-18 | Toshiba Corp | 音声合成装置及びその方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5052585B2 (ja) | 2012-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4130190B2 (ja) | 音声合成システム | |
US7454343B2 (en) | Speech synthesizer, speech synthesizing method, and program | |
US9767790B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
JP4241762B2 (ja) | 音声合成装置、その方法、及びプログラム | |
US8175881B2 (en) | Method and apparatus using fused formant parameters to generate synthesized speech | |
US20080027727A1 (en) | Speech synthesis apparatus and method | |
CN101710488B (zh) | 语音合成方法及装置 | |
US9754024B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
JP2011013454A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
CN105609097A (zh) | 语音合成装置及其控制方法 | |
JP5434587B2 (ja) | 音声合成装置及び方法とプログラム | |
US20110054903A1 (en) | Rich context modeling for text-to-speech engines | |
JPWO2016042659A1 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5320363B2 (ja) | 音声編集方法、装置及び音声合成方法 | |
KR20130059476A (ko) | 음성 인식용 탐색 공간 생성 방법 및 장치 | |
JP5512597B2 (ja) | 音声合成装置とその方法とプログラム | |
JP4639932B2 (ja) | 音声合成装置 | |
JP5052585B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2013164609A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
Barbot et al. | Large linguistic corpus reduction with SCP algorithms | |
JP5177135B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP5387410B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
KR101650739B1 (ko) | 음성 합성 방법, 서버 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110722 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120724 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5052585 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |