JP4476855B2 - 音声合成装置及びその方法 - Google Patents
音声合成装置及びその方法 Download PDFInfo
- Publication number
- JP4476855B2 JP4476855B2 JP2005096472A JP2005096472A JP4476855B2 JP 4476855 B2 JP4476855 B2 JP 4476855B2 JP 2005096472 A JP2005096472 A JP 2005096472A JP 2005096472 A JP2005096472 A JP 2005096472A JP 4476855 B2 JP4476855 B2 JP 4476855B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- synthesized
- fusion
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Processing Or Creating Images (AREA)
Description
上述したように、複数素片選択型の音声合成方法は、複数個の音声素片を融合して新たな音声素片を生成しているため、素片選択で品質の悪い音声素片が選択されたとしても、融合する他の音声素片によって補われ、合成音声の品質の劣化が抑えられる。その結果、高品質かつ安定感のある合成音声の生成が可能となっている。
水谷竜也、籠嶋岳彦:「複数素片選択融合方式による音声合成」、日本音響学会春季研究発表会講演論文集I、pp.217-218、Mar.2004
以下、本発明の第1の実施形態に係るテキスト音声合成装置について説明する。
図1は、本実施形態に係るテキスト音声合成装置の構成を示すブロック図である。
図2は、本実施形態の特徴的な部分である音声合成部34の構成例を示すブロック図である。
以下、音声合成部34の各処理について詳しく説明する。ここでは、合成単位の音声素片は音素であるとする。
図7は、素片選択処理を説明するためのフローチャートである。
まずは、第1の融合部5において、有声音の場合について説明する。
一方、第2の素片融合部6では、第1の融合部5と比較して、計算量は増加するが品質が改善されるような手法を用いる。例えば、閉ループ学習を使うことで、それぞれの音声素片のピッチ波形を取り出すことなく、合成音のレベルで最適なピッチ波形系列を作り出すことができる。閉ループ学習とは、実際に基本周波数や韻律継続時間長を変更して合成された合成音声のレベルで、自然音声に対する歪が小さくなるような代表音声素片を生成する方法である。閉ループ学習では、合成音声のレベルで歪が小さくなるような素片を生成するため、第1の素片融合部5のように、ピッチ波形の平均化によって新たな音声素片を作成する場合よりも、高品質な音声素片が作成される(特許第3281281号参照)。
素片編集・接続部9では、第1あるいは第2の素片融合部5,6で求めたセグメント毎の融合された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。融合された音声素片は、実際にはピッチ波形の形になっているので、当該融合された音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
(7−1)変更例1
なお、本実施形態は、コンピュータのリソースが貧弱な場合であっても、素片融合方式を切り替えることにより、自然で高品質な合成音声をリアルタイムな処理で生成することを目的としている。しかし、図15に示されるように、図2におけるリソース分析部13の代わりに音声素片記憶部1の容量やそこに格納されている音声素片の特性を分析する音声素片分析部15を設け、音声素片記憶部1の容量やそこに格納さている音声素片の特性に応じて素片融合部を適切に切り替えることにより、合成音声の品質を改善することも可能である。
また、音声素片選択部12で算出されたコストに応じて素片融合部を適切に切り替えることにより、合成音声の品質を改善することも可能である。
更には、図16に示されるように、音韻系列及び韻律情報に応じて、素片融合方式を切り替えることも可能である。予め、音韻系列及び韻律情報に対する最適な(合成音声の品質が良くなる)素片融合方式を求めておけば、生成される合成音声の品質を大きく改善することが可能となる。
なお、本実施形態では、素片融合方式を2つ設け、それらを切り替えて使用する構成になっているが、素片融合方式は2つに限定される必要はなく、3つ以上の素片融合方式を設けて、それらを適応的に切り替えるような構成にしても良い。
本発明の第2の実施形態に係るテキスト音声合成装置について説明する。
図17は、本発明の第2の実施形態に係るテキスト音声合成装置の音声合成部34の構成を示すブロック図である。
一方、音声素片選択部12は、融合素片数決定部16の結果を受けて、そこで決定された数の音声素片を各セグメントに対して音声素片記憶部1から選択し、それらを素片融合部8に送る。複数の音声素片の選択は第1の実施形態で述べた手法で実施できる。
(2−1)変更例1
なお、本実施形態は、コンピュータのリソースが貧弱な場合であっても、融合素片数を適応的に制御することにより、自然で高品質な合成音声をリアルタイムな処理で生成することを目的としている。しかし、図18に示されるように、図17におけるリソース分析部13の代わりに音声素片記憶部1の容量やそこに格納されている音声素片の特性を分析する音声素片分析部15を設け、音声素片記憶部1の容量やそこに格納さている音声素片の特性に応じて融合素片数を適応的に制御することにより、合成音声の品質を改善することも可能である。また、音声素片選択部12で算出されたコストに応じて融合素片数を適応的に制御することにより、合成音声の品質を改善することも可能である。
更には、図19に示されるように、音韻系列及び韻律情報に応じて、融合素片数を適応的に制御することも可能である。予め、音韻系列及び韻律情報に対する最適な(合成音声の品質が良くなる)融合素片数を求めておき、入力音韻系列及び韻律情報に応じて融合素片数を適応的に制御すれば、生成される合成音声の品質を大きく改善することが可能である。
図20は、本発明の第3の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。
そして、新たな音声素片の系列は、素片編集・接続部9において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。
図23は、本発明の第4の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。
図24は、本発明の第5の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。
通常、帯域分割数が増えるに従い素片融合に伴う計算量は増加すると考えられるので、帯域分割決定部21において、コンピュータのCPUパワーが小さいときは帯域分割の数が少なくなるように、逆に、コンピュータのCPUパワーが大きいときは帯域分割の数が多くなるように帯域分割数を制御すれば、貧弱なCPUパワーを持つコンピュータを利用する場合でも高速な処理が可能となる。
以上、本発明の実施形態を幾つか説明したが、本発明は上述した実施形態に限られるものではなく、種々変形して実施が可能である。例えば、音声素片の抽出単位、コスト関数、融合方式を変えて本発明を実施することも可能である。
2 ・・・音素環境記憶部
5 ・・・第1の素片融合部
6 ・・・第2の素片融合部
7 ・・・音韻系列・韻律情報入力部
8 ・・・素片融合部
9 ・・・素片編集・接続部
10・・・音声波形出力部
12・・・音声素片選択部
13・・・リソース分析部
14・・・融合方式決定部
15・・・音声素片分析部
16・・・融合素片数決定部
17・・・融合重み付け係数決定部
18・・・重み付け素片融合部
19・・・相関計算範囲決定部
20・・・相関計算付き素片融合部
21・・・帯域分割数決定部
22・・・帯域分割素片融合部
31・・・テキスト入力部
32・・・言語処理部
33・・・韻律情報処理部
34・・・音声合成部
41・・・素片番号
42・・・音素記号
43・・・基本周波数
44・・・音韻継続時間長
71・・・音声データ
72・・・ラベル境界
73・・・ラベルデータ
Claims (4)
- 合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第1の音声素片を選択する第1の音声素片選択手段と、
前記複数の第1の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第2の音声素片を生成する第2の音声素片生成手段と、
前記第2の音声素片を接続することによって合成音声を生成する合成音声生成手段と、
前記合成音声の高品質化のために前記複数の第1の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御手段と、
を備え、
前記融合制御手段は、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
ことを特徴とする音声合成装置。 - 前記生成した合成音声と前記合成すべき音声との歪の度合いを、前記韻律情報を用いて推定する歪度合い推定手段を備える
ことを特徴とする請求項1に記載の音声合成装置。 - コンピュータが、合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第1の音声素片を選択する第1の音声素片選択ステップと、
前記コンピュータが、前記複数の第1の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第2の音声素片を生成する第2の音声素片生成ステップと、
前記コンピュータが、前記第2の音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
前記コンピュータが、前記合成音声の高品質化のために前記複数の第1の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御ステップと、
を備え、
前記融合制御ステップにおいては、前記コンピュータが、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
ことを特徴とする音声合成方法。 - コンピュータに、
合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第1の音声素片を選択する第1の音声素片選択機能と、
前記複数の第1の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第2の音声素片を生成する第2の音声素片生成機能と、
前記第2の音声素片を接続することによって合成音声を生成する合成音声生成機能と、
前記合成音声の高品質化のために前記複数の第1の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御機能と、
を実現させるための音声合成プログラムであり、
前記融合制御機能においては、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
ことを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005096472A JP4476855B2 (ja) | 2005-03-29 | 2005-03-29 | 音声合成装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005096472A JP4476855B2 (ja) | 2005-03-29 | 2005-03-29 | 音声合成装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006276522A JP2006276522A (ja) | 2006-10-12 |
JP4476855B2 true JP4476855B2 (ja) | 2010-06-09 |
Family
ID=37211342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005096472A Expired - Fee Related JP4476855B2 (ja) | 2005-03-29 | 2005-03-29 | 音声合成装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4476855B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011030424A1 (ja) * | 2009-09-10 | 2011-03-17 | 株式会社東芝 | 音声合成装置およびプログラム |
CN103329200B (zh) * | 2011-05-24 | 2016-04-20 | 三菱电机株式会社 | 目标音增强装置以及车辆导航系统 |
JP6024191B2 (ja) * | 2011-05-30 | 2016-11-09 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
-
2005
- 2005-03-29 JP JP2005096472A patent/JP4476855B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006276522A (ja) | 2006-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4080989B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
US8010362B2 (en) | Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
US7580839B2 (en) | Apparatus and method for voice conversion using attribute information | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
US8630857B2 (en) | Speech synthesizing apparatus, method, and program | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP5177135B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
JP4034751B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP5862667B2 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP5275470B2 (ja) | 音声合成装置およびプログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP5999092B2 (ja) | ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム | |
WO2014017024A1 (ja) | 音声合成装置、音声合成方法、及び音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100310 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140319 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |