JP4056319B2 - 音声合成方法 - Google Patents
音声合成方法 Download PDFInfo
- Publication number
- JP4056319B2 JP4056319B2 JP2002222511A JP2002222511A JP4056319B2 JP 4056319 B2 JP4056319 B2 JP 4056319B2 JP 2002222511 A JP2002222511 A JP 2002222511A JP 2002222511 A JP2002222511 A JP 2002222511A JP 4056319 B2 JP4056319 B2 JP 4056319B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- phoneme
- pitch
- phoneme unit
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、任意のテキスト情報を合成音声で読み上げることのできる音声合成方法に関する。
【0002】
【従来の技術】
図1は、音声合成装置の概略構成を示している。
【0003】
入力された日本語仮名漢字混じりのテキストは、言語処理部1で形態素解析、係り受け解析が行なわれ、音素記号、アクセント記号等に変換せしめられる。
【0004】
韻律パターン生成部2では、音素記号、アクセント記号列および形態素解析結果から得られる入力テキストの品詞情報を用いて、音韻継続時間長(声の長さ DURT )、基本周波数(声の高さ FO T )、母音中心のパワー(声の大きさPOW T )等の推定が行なわれる。
【0005】
音素単位選択部3では、推定された音韻継続時間長 DURT 、基本周波数 FO T および母音中心のパワーPOW T に最も近く、かつ波形辞書5に蓄積されている音素単位( 音素片) を接続したときの歪みが最も小さくなる音素片の組み合わせがDP(動的プログラミング)を用いて選択される。
【0006】
音声波形生成部4では、選択された音素片の組み合わせにしたがって、ピッチを変換しつつ音素片の接続を行なうことによって音声が生成される。
【0007】
図2は、波形辞書5の内容を示している。
波形辞書5は、複数の音素片が格納された音素片格納部51と、音素片格納部51内の各音素片に関する補助情報が格納された補助情報格納部52とがある。補助情報には、音素片のパワー(POW Dic )、基本周波数( FO Dic )、継続時間長( DURDic )等がある。
【0008】
ところで、音素単位選択部3では、波形辞書5に蓄積されている音素片の組み合わせの中で、歪みが少なくなる組み合わせを選択しているが、この歪みには次のようなものがある。
【0009】
つまり、図3に示すように、ui-1 、ui 、ui+1 を波形辞書5から抽出した音素片として、ti-1 、ti 、ti+1 を実際に使用する環境( ターゲット)とすると、ui に対する歪みには、Ct i と、Cc i とがある。
【0010】
ここで、Ct i は、i番目の音素について辞書から抽出した音素片(ui )と実際に使用する環境( ターゲットti )との間の歪みである。また、Cc i は、i番目の音素片(ui )と、i−1番目の素片(ui-1 )とを接続したときに生じる歪みである。音素単位選択部3は、動的計画法(DP法)に用いて音素片を接続していき、入力された全ての音素に対するCt i とCc i との総和Call が最小となる素片の組み合わせを選択する。
【0011】
Ct i は、次式(1)で表される。
【0012】
【数1】
【0013】
上記式(1)において、各変数は、次のように定義される。
【0014】
Dt POW (ti ,ui )は、i番目の音素について、辞書から抽出した音素片(ui )のパワー(POW Dic (i) )と、実際に使用する環境(ターゲットti )のパワー(POW T (i) )との間の距離の自乗であり、{(POW Dic (i) )−(POW T (i) )}2 となる。
【0015】
wt POW は、Dt POW (ti ,ui )に対する重み係数である。
【0016】
Dt F0(ti ,ui )は、i番目の音素について、辞書から抽出した音素片(ui )の基本周波数( FO Dic (i) )と、実際に使用する環境(ターゲットti )の基本周波数( FO T (i) )との間の距離の自乗であり、{( FO Dic (i) )−( FO T (i) )}2 となる。
【0017】
wt F0 は、Dt F0(ti ,ui )に対する重み係数である。
【0018】
Dt DUR (ti ,ui )は、i番目の音素について、辞書から抽出した音素片(ui )の継続時間長( DURDic (i) )と、実際に使用する環境(ターゲットti )の継続時間長( DURT (i) )との間の距離の自乗であり、{( DURDic (i) )−( DURT (i) )}2 となる。
【0019】
wt DUR は、Dt DUR (ti ,ui )に対する重み係数である。
【0020】
Cc i は、次式(2)で表される。
【0021】
【数2】
【0022】
上記式(2)において、各変数は、次のように定義される。
【0023】
Dc POW (ui ,ui-1 )は、i番目の音素片(ui )の始端のパワー(POW DicS(i) )と、i−1番目の音素片(ui-1 )の終端のパワー(POW DicE(i-1) )との間の距離の自乗であり、{(POW DicS(i) )−(POW DicE(i-1) )}2 となる。
【0024】
wc POW は、Dc POW (ui ,ui-1 )に対する重み係数である。
【0025】
Dc F0(ui ,ui-1 )は、i番目の音素片(ui )の始端の基本周波数( FO DicS(i) )と、i−1番目の音素片(ui-1 )の終端の基本周波数(FODicE (i-1))との間の距離の自乗であり、{( FO DicS(i) )−(FODicE (i-1))}2 となる。
【0026】
wc F0は、Dc F0(ui ,ui-1 )に対する重み係数である。
【0027】
Dc SPC (ui ,ui-1 )は、i番目の音素片(ui )の始端のスペクトル( SPCDicS(i,j), j=1 〜16 )と、i−1番目の音素片(ui-1 )の終端のスペクトル( SPCDicE(i-1,j) , j =1 〜16)との間の距離の自乗であり、{( SPCDicS(i,j) )−( SPCDicE(i-1,j) )}2 となる。
【0028】
wc SPC は、Dc SPC (ui ,ui-1 )に対する重み係数である。
【0029】
入力された全ての音素に対するCt i とCc i との総和Call は、次式(3)で表される。
【0030】
【数3】
【0031】
音声波形生成部4は、ここでは、波形重畳方式を用いて音声を合成する。波形重畳方式とは、選択された音素片を目標とする基本周波数F0T 、継続時間長DURT に合うように変形する方式の1つである。つまり、図4に示すように、音素片を生成するための元波形のピッチに同期して2ピッチの幅の窓(w1,w2,w3…)を、元波形に乗じてピッチ波形(x1,x2,x3…)を取り出す。
【0032】
このようにして元波形から取り出されたピッチ波形群が元波形に対応する1つの音素片として波形辞書5に登録されている。それらのピッチ波形を目標とする基本周波数F0T の間隔で、継続時間長DURT に合うように同じ波形を繰り返したり間引いたりしながら、再配置し加え合わせることで目的の波形を得る。ここで、窓を乗ずる位置は、1ピッチごとに設定されたピッチマークと呼ばれる位置が窓の中心となるように設定される。
【0033】
【発明が解決しようとする課題】
ところで、音素片を生成するための元波形において、基本周波数、パワー、周波数エンベロープが等しければ、同じ形状の波形(音素片)が得られるはずである。しかしながら、ピッチマークの付与の仕方が異なると抽出したピッチ波形(音素片)は異なる形状を示し、音素片を接続した場合に歪みとなる可能性がある。ピッチマークの付与は非常に困難な作業であり、すべてを相対的に等しく付与することは不可能である。
【0034】
なお、ピッチマークの位置は、次のようにして決定されている。つまり、ピッチマークの間隔が元波形のピッチ周期間隔に近く、ピッチマークの間隔が急激に変化することなく、元波形の1ピッチ内で最も大きな波形の山の直前で、かつ右上がりのゼロクロスの位置を、ピッチマークとして手作業で設定している。
【0035】
音声波形は、発声する言葉によって形状が変化するので、全ての条件を満足するようにピッチマークを設定することは不可能である。そこで、それぞれの条件を適当に妥協しながら、ピッチマークを設定している。また、どの条件を妥協するかは、合成した音声の音質を元に決定しているので、音素によって妥協する条件が異なる場合がある。その結果、同じ音素でも、その元波形を抽出した音声波形において、その音素の前側にある音素の種類によって、ピッチマークの位置が異なるといったことが生ずる。
【0036】
この発明は、ピッチマークの位置に基づく音素片の接続歪みを小さくできる音声合成方法を提供することを目的とする。
【0037】
この発明による音声合成方法は、複数の音素単位と、各音素単位毎にターゲットとの間の歪みおよび音素単位の接続歪みを算出するために用いられる補助情報とが波形辞書に格納されており、波形辞書に格納されている音素単位の組み合わせの中で、ターゲットとの間の歪みおよび音素単位の接続歪みとの和が最も少なくなる組み合わせを選択し、選択した音素単位の組み合わせに基づいて、波長重畳方式で合成音声波形を生成する音声合成方法において、
各音素単位の補助情報に、音素単位の始端のピッチ波形の位相情報と音素単位の終端のピッチ波形の位相情報とを追加しておき、音素単位の接続歪みを算出する際のパラメータとして、接続される2つの音素単位のうちの前側の音素単位の終端のピッチ波形の位相と、接続される後側の音声単位の始端のピッチ波形の位相との間の距離を追加し、
前記補助情報に追加されるピッチ波形の位相情報は、音素単位の元波形に元波形のピッチに同期した窓を乗じて、音素単位を形成するピッチ波形を取り出す際に、元波形の1ピッチ内の最大値の直前のゼロクロスの位置と、窓の中心の位置であるピッチマークとの時間的な距離に関する情報としたことを特徴とする。
【0039】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
【0040】
音声合成装置の全体構成は、図1と同じである。
【0041】
この実施の形態では、次の点(1)、(2)が従来と異なっている。
【0042】
(1) 図5に示すように、各音素片の補助情報に、音素片のピッチ波形の位相PHASDic ( ui )を追加する。音素片のピッチ波形の位相PHASDic ( ui )には、音素片の始端のピッチ波形の位相PHASDicS(ui )と、音素片の終端のピッチ波形の位相PHASDicE(ui )とが含まれている。
【0043】
ここで、ピッチ波形の位相とは、図6に示すように、元波形に窓を掛けてピッチ波形を取り出すときの窓の中心の位置(ピッチマークの位置)と1ピッチ内で形状的な特徴を表す位置(特徴点)との時間的な距離を示す数値である。特徴点としては、たとえば、1ピッチ内の最大値の直前のゼロクロスの位置が用いられる。なお、図6において、ピッチ波形1は窓1を用いた場合に得られるピッチ波形であり、ピッチ波形2は窓2を用いた場合に得られるピッチ波形である。
【0044】
(2) 接続歪みCc i に、位相の歪みDc phas(ui ,ui-1 )をパラメータとして加える。
【0045】
つまり、接続歪みCc i は、次式(4)で表わされる。
【0046】
【数4】
【0047】
上記式(4)において、Wc phasは、Dc phas(ui ,ui-1 )に対する重み計数である。また、Dc phas(ui ,ui-1 )は、i番目の音素片ui の始端のピッチ波形の位相PHASDicS(ui )と、i−1番目の音素片ui-1 の終端のピッチ波形の位相PHASDicE(ui-1 )との間の距離の自乗であり、次式(5)で表される。
【0048】
【数5】
【0049】
つまり、この実施の形態では、音素片のピッチ波形の位相情報も、接続歪みCc i のパラメータとして追加し、そのパラメータによる歪みが小さくなるように音素片が選択される。このため、音素片を接続した際の聴感的な歪みを減少させることができる。
【0050】
例えば、図7に示すように、i−1番目の音素片ui-1 の終端のピッチ波形がX0であるとする。また、i番目の音素片ui としては、波形X11、X12およびX13の候補があるとする。
【0051】
波形X13はi−1番目の音素片ui-1 とスペクトルが異なる波形である。波形X12はi−1番目の音素片ui-1 とスペクトルは近いが、ピッチ波形の位相が異なる波形である。波形X11はi−1番目の音素片ui-1 とスペクトルが近くかつピッチ波形の位相もほぼ等しい波形である。したがって、この場合には、i番目の音素片ui としては、接続歪みが最も小さくなる波形X11が選択される。
【0052】
【発明の効果】
この発明によれば、ピッチマークの位置に基づく音素片の接続歪みを小さくできるようになる。
【図面の簡単な説明】
【図1】音声合成装置の全体構成を示すブロック図である。
【図2】波形辞書5の内容を示す模式図である。
【図3】音素単位選択部3において、音素片の組み合わせを選択するために用いられる2種の歪みCt i 、Cc i を説明するための模式図である。
【図4】波形重畳方式を説明するための模式図である。
【図5】音素片の補助情報に、音素片の始端のピッチ波形の位相PHASDicS(ui )と、音素片の終端のピッチ波形の位相PHASDicE(ui )が追加された様子を示す模式図である。
【図6】ピッチ波形の位相を説明するための模式図である。
【図7】音素片の選択例を示す模式図である。
Claims (1)
- 複数の音素単位と、各音素単位毎にターゲットとの間の歪みおよび音素単位の接続歪みを算出するために用いられる補助情報とが波形辞書に格納されており、波形辞書に格納されている音素単位の組み合わせの中で、ターゲットとの間の歪みおよび音素単位の接続歪みとの和が最も少なくなる組み合わせを選択し、選択した音素単位の組み合わせに基づいて、波長重畳方式で合成音声波形を生成する音声合成方法において、
各音素単位の補助情報に、音素単位の始端のピッチ波形の位相情報と音素単位の終端のピッチ波形の位相情報とを追加しておき、音素単位の接続歪みを算出する際のパラメータとして、接続される2つの音素単位のうちの前側の音素単位の終端のピッチ波形の位相と、接続される後側の音声単位の始端のピッチ波形の位相との間の距離を追加し、
前記補助情報に追加されるピッチ波形の位相情報は、音素単位の元波形に元波形のピッチに同期した窓を乗じて、音素単位を形成するピッチ波形を取り出す際に、元波形の1ピッチ内の最大値の直前のゼロクロスの位置と、窓の中心の位置であるピッチマークとの時間的な距離に関する情報としたことを特徴とする音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002222511A JP4056319B2 (ja) | 2002-07-31 | 2002-07-31 | 音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002222511A JP4056319B2 (ja) | 2002-07-31 | 2002-07-31 | 音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004062002A JP2004062002A (ja) | 2004-02-26 |
JP4056319B2 true JP4056319B2 (ja) | 2008-03-05 |
Family
ID=31942514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002222511A Expired - Fee Related JP4056319B2 (ja) | 2002-07-31 | 2002-07-31 | 音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4056319B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4869898B2 (ja) * | 2006-12-08 | 2012-02-08 | 三菱電機株式会社 | 音声合成装置及び音声合成方法 |
JP4930069B2 (ja) * | 2007-01-22 | 2012-05-09 | 富士通株式会社 | ブロックデータ合成装置 |
JP5141688B2 (ja) | 2007-09-06 | 2013-02-13 | 富士通株式会社 | 音信号生成方法、音信号生成装置及びコンピュータプログラム |
-
2002
- 2002-07-31 JP JP2002222511A patent/JP4056319B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004062002A (ja) | 2004-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3361066B2 (ja) | 音声合成方法および装置 | |
JP3913770B2 (ja) | 音声合成装置および方法 | |
JP3083640B2 (ja) | 音声合成方法および装置 | |
JP3563772B2 (ja) | 音声合成方法及び装置並びに音声合成制御方法及び装置 | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP2001034283A (ja) | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 | |
JP4056319B2 (ja) | 音声合成方法 | |
JPH01284898A (ja) | 音声合成方法 | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JP3515406B2 (ja) | 音声合成方法及び装置 | |
JP5862667B2 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JPH06318094A (ja) | 音声規則合成装置 | |
JP2004354644A (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP2005091747A (ja) | 音声合成装置 | |
JPH0950295A (ja) | 音声合成方法およびそのための装置 | |
JP2007226174A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP3423276B2 (ja) | 音声合成方法 | |
JP2008299266A (ja) | 音声合成装置および音声合成方法 | |
JP2011191528A (ja) | 韻律作成装置及び韻律作成方法 | |
JP3292218B2 (ja) | 音声メッセージ作成装置 | |
JP2004125843A (ja) | 音声合成方法 | |
JP2573586B2 (ja) | 規則型音声合成装置 | |
JP6159436B2 (ja) | 読み記号列編集装置および読み記号列編集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071211 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131221 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |