JP2002055693A - 音声合成方法 - Google Patents
音声合成方法Info
- Publication number
- JP2002055693A JP2002055693A JP2000242068A JP2000242068A JP2002055693A JP 2002055693 A JP2002055693 A JP 2002055693A JP 2000242068 A JP2000242068 A JP 2000242068A JP 2000242068 A JP2000242068 A JP 2000242068A JP 2002055693 A JP2002055693 A JP 2002055693A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- quality
- target
- speech
- synthesized voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
ことなく、音質劣化につながる品質の悪い音素片が最適
な音素片として選択されにくくすることができる音声合
成方法を提供することを目的とする。 【解決手段】 各音素単位の補助情報にペナルティ情報
を追加しておくステップ、ユーザが音声合成結果を聞い
て、その品質が悪い場合には、品質の悪い合成音声箇所
をユーザに入力させるステップ、ならびにユーザによっ
て入力された品質の悪い合成音声箇所が入力された場合
には、当該品質の悪い合成音声箇所に対応する音素片の
補助情報内のペナルティ情報に、当該音素片が候補とし
て選択されたときにターゲットとの歪み算出値を強制的
に大きくさせるような値を設定するステップを備えてい
る。
Description
情報を合成音声で読み上げることのできる音声合成方法
に関する。
ている。
トは、言語処理部1で形態素解析、係り受け解析が行な
われ、音素記号、アクセント記号等に変換せしめられ
る。
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音韻継続時間長(声の長
さ DURT )、基本周波数(声の高さ FO T )、母音中心
のパワー(声の大きさPOW T)等の推定が行なわれる。
続時間長 DURT 、基本周波数 FO Tおよび母音中心のパ
ワーPOW T に最も近く、かつ波形辞書5に蓄積されてい
る音素単位( 音素片) を接続したときの歪みが最も小さ
くなる音素片の組み合わせがDP(動的プログラミン
グ)を用いて選択される。
の組み合わせにしたがって、ピッチを変換しつつ音素片
の接続を行なうことによって音声が生成される。
波形辞書5は、複数の音素片が格納された音素片格納部
51と、音素片格納部51内の各音素片に関する補助情
報が格納された補助情報格納部52とがある。補助情報
には、音素片のパワー(POW Dic )、基本周波数( FO
Dic )、継続時間長( DURDic )等がある。
書5に蓄積されている音素片の組み合わせの中で、歪み
が少なくなる組み合わせを選択しているが、この歪みに
は次のようなものがある。
ui 、ui+1 を波形辞書5から抽出した音素片として、
ti-1 、ti 、ti+1 を実際に使用する環境( ターゲッ
ト)とすると、ui に対する歪みには、Ci t と、Ci
c とがある。
辞書から抽出した音素片(ui )と実際に使用する環境
( ターゲットti )との間の歪みである。また、Ci c
は、i番目の音素片(ui )と、i−1番目の素片(u
i-1 )とを接続したときに生じる歪みである。音素単位
選択部3は、動的計画法(DP法)に用いて音素片を接
続していき、入力された全ての音素に対するCi t とC
i c との総和Call が最小となる素片の組み合わせを選
択する。
義される。
について、辞書から抽出した音素片(ui )のパワー
(POW Dic (i) )と、実際に使用する環境(ターゲット
ti )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
する重み係数である。
ついて、辞書から抽出した音素片(ui )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
ti)の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
る重み係数である。
について、辞書から抽出した音素片(ui )の継続時間
長( DURDic (i) )と、実際に使用する環境(ターゲッ
トt i )の継続時間長( DURT (i) )との間の距離の自
乗であり、{( DURDic (i))−( DURT (i) )}2 と
なる。
する重み係数である。
義される。
素片(ui )の始端のパワー(POW DicS(i) )と、i−
1番目の音素片(ui-1 )の終端のパワー(POW DicE(i
-1))との間の距離の自乗であり、{(POW DicS(i) )
−(POW DicE(i-1) )}2 となる。
対する重み係数である。
片(ui )の始端の基本周波数( FO DicS(i) )と、i
−1番目の音素片(ui-1 )の終端の基本周波数(FO
DicE (i-1))との間の距離の自乗であり、{( FO DicS
(i) )−(FODicE (i-1))}2となる。
る重み係数である。
素片(ui )の始端のスペクトル(SPCDicS(i,j), j=1
〜16 )と、i−1番目の音素片(ui-1 )の終端の
スペクトル( SPCDicE(i-1,j) , j =1 〜16)との間の
距離の自乗であり、{( SPC DicS(i,j) )−( SPCDicE
(i-1,j) )}2 となる。
対する重み係数である。
i c との総和Call は、次の数式3で表される。
うに音声合成方法によれば、品質の高い合成音声、つま
り、自然発話に近い合成音声を得ることができる。しか
しながら、自然発話から作成した音素片には、”なま
け”、”いいよどみ”など、実際に選択された場合に音
質の劣化につながる音素片が存在している可能性が高
い。このような音素片を含まないように波形辞書5を作
成することが好ましいが、実際上には音質劣化につなが
る音素片をすべて取り除いて波形辞書5を作成すること
は困難である。
化につながる音素片を削除していくといったことも考え
られるが、そのようにすると、波形辞書5の大幅な修正
が必要となる。
うことなく、音質劣化につながる品質の悪い音素片が最
適な音素片として選択されにくくすることができる音声
合成方法を提供することを目的とする。
声合成方法は、複数の音声単位と各音素単位毎にターゲ
ットとの歪みを算出するために用いられる補助情報とが
波形辞書に格納されており、波形辞書に格納されている
音素単位の組み合わせの中で、ターゲットとの歪みが最
も少なくなる組み合わせを選択する音素単位選択型の音
声合成方法において、各音素単位の補助情報にペナルテ
ィ情報を追加しておくステップ、ユーザが音声合成結果
を聞いて、その品質が悪い場合には、品質の悪い合成音
声箇所をユーザに入力させるステップ、ならびにユーザ
によって入力された品質の悪い合成音声箇所が入力され
た場合には、当該品質の悪い合成音声箇所に対応する音
素片の補助情報内のペナルティ情報に、当該音素片が候
補として選択されたときにターゲットとの歪み算出値を
強制的に大きくさせるような値を設定するステップを備
えていることを特徴とする。
数の音声単位と各音素単位毎にターゲットに対する適応
度を算出するために用いられる補助情報とが波形辞書に
格納されており、波形辞書に格納されている音素単位の
組み合わせの中で、ターゲットに対する適応度が最も大
きくなる組み合わせを選択する音素単位選択型の音声合
成方法において、各音素単位の補助情報に優先度情報を
追加しておくステップ、ユーザが音声合成結果を聞い
て、その品質が悪い場合には、品質の悪い合成音声箇所
をユーザに入力させるステップ、ならびにユーザによっ
て入力された品質の悪い合成音声箇所が入力された場合
には、当該品質の悪い合成音声箇所に対応する音素片の
補助情報内の優先度情報に、当該音素片が候補として選
択されたときにターゲットに対する適応度の算出値を強
制的に小さくさせるような値を設定するステップを備え
ていることを特徴とする。
いて説明する。
(2)、(3)が従来と異なっている。
助情報に、ペナルティー情報Dt pri(ui )を追加す
る。ペナルティー情報Dt pri (ui )の初期値は、0
である。
算出するためのCi t に、ペナルティー情報D
t pri (ui )をパラメータとして加える。
る。
その品質が悪い場合には、品質の悪い合成音声箇所を音
声合成装置に入力するようにする。音声合成装置は、ユ
ーザによって入力された品質の悪い合成音声箇所が入力
された場合には、品質の悪い合成音声箇所に対応する音
素片の補助情報内のペナルティー情報Dt pri (ui )
の値を、所定値αに設定する。
の Ci t の予想される最大値の約100倍の値が用い
られる。具体的には、任意数の文章を入力したときの数
式1の最大値を実験により求めておき、その最大値の1
00倍の値を、所定値αとして設定する。
を行なうことにより、ペナルティー情報D
t pri (ui )の値としてαが設定されている品質の悪
い音素片(ui )が候補として選択された場合には、そ
の音素片とターゲットとの歪みCi t が、従来法に比べ
てα分だけ大きくなり、当該音素片(ui )が最適な音
素片として選択されにくくなる。
質の悪い音素片が存在している場合に、その音素片を削
除するといった大幅な辞書の修正を行なうことなく、音
素片の補助情報にペナルティー情報Dt pri (ui )を
追加するといった小規模な修正を行なうことによって、
品質の悪い音素片を選択されにくくすることができるよ
うになる。
書内の音素片格納部には6万個程度の音素片が格納され
るため、音素片格納部の容量は数十MBに及ぶが、波形
辞書内の補助情報格納部の容量は数MBというように、
音素片格納部の容量の十分の1以下とである。このた
め、上記実施の形態のように補助情報格納部のみの修正
を行なう方が容易である。また、音素片の削除に品質の
改善を行なう従来方法では、波形辞書全てを置き換える
必要があるが、上記実施の形態の方法では補助情報にペ
ナルティー情報Dt pri (ui )を追加するといった修
正のみであるため、波形辞書の一部の変更のみで修正が
可能である。
悪い音素片を削除することにより、合成音声の品質を改
善させることも考えられるが、音素の種類によってはそ
の音素に対応する全ての音素片を削除してしまうおそれ
がある。そうすると、当該音素を含む文章に対して合成
音声を生成できなくなる可能性がある。
では、たとえ、ある音素に対応する全ての音素片に対す
るペナルティー情報Dt pri (ui )の値が所定値αに
設定されたとしても、当該音素を音声合成する際には、
その音素に対応する音素片の中で最適な音素片が選択さ
れるため、当該音素に対して合成音声を生成することが
できるという利点がある。
波形辞書に蓄積されている音素片の組み合わせの中で、
歪みが少なくなる組み合わせを選択しているが、音素単
位選択部として、波形辞書に蓄積されている音素片の組
み合わせの中で、適応度が大きくなる組み合わせを選択
するものが知られている。
される。
ついて辞書から抽出した音素片(u i )と実際に使用す
る環境( ターゲットti )との間の類似度を示してお
り、次の数式6で表される。数式6中の各変数は、数式
1中の変数と同じである。
の音素について辞書から選択した音素片(ui )の始端
と、i−1番目の音素について辞書から選択した音素片
(u i-1 )の終端との間の類似度を示しており、次の数
式7で表される。数式7中の各変数は、数式2中の変数
と同じである。
(2)、(3)が、適応度を用いて音素単位を選択する
従来例と異なっている。
報Et pri (ui )を追加する。優先度情報E
t pri (ui )の初期値は、所定値である。
を算出するためのSi t に、優先度情報E
t pri (ui )をパラメータとして加える。
その品質が悪い場合には、品質の悪い合成音声箇所を音
声合成装置に入力するようにする。音声合成装置は、ユ
ーザによって入力された品質の悪い合成音声箇所が入力
された場合には、品質の悪い合成音声箇所に対応する音
素片の補助情報内の優先度情報Et pri (ui )の値
を、初期値より小さい値に設定する。
正を行なうことなく、音質劣化につながる品質の悪い音
素片が最適な音素片として選択されにくくすることがで
きる。
る。
せを選択するために用いられる2種の歪みCi t 、Ci
c を説明するための模式図である。
助情報に、ペナルティー情報D t pri を追加された様子
を示す模式図である。
Claims (2)
- 【請求項1】 複数の音声単位と各音素単位毎にターゲ
ットとの歪みを算出するために用いられる補助情報とが
波形辞書に格納されており、波形辞書に格納されている
音素単位の組み合わせの中で、ターゲットとの歪みが最
も少なくなる組み合わせを選択する音素単位選択型の音
声合成方法において、 各音素単位の補助情報にペナルティ情報を追加しておく
ステップ、 ユーザが音声合成結果を聞いて、その品質が悪い場合に
は、品質の悪い合成音声箇所をユーザに入力させるステ
ップ、ならびにユーザによって入力された品質の悪い合
成音声箇所が入力された場合には、当該品質の悪い合成
音声箇所に対応する音素片の補助情報内のペナルティ情
報に、当該音素片が候補として選択されたときにターゲ
ットとの歪み算出値を強制的に大きくさせるような値を
設定するステップ、 を備えていることを特徴とする音声合成方法。 - 【請求項2】 複数の音声単位と各音素単位毎にターゲ
ットに対する適応度を算出するために用いられる補助情
報とが波形辞書に格納されており、波形辞書に格納され
ている音素単位の組み合わせの中で、ターゲットに対す
る適応度が最も大きくなる組み合わせを選択する音素単
位選択型の音声合成方法において、 各音素単位の補助情報に優先度情報を追加しておくステ
ップ、 ユーザが音声合成結果を聞いて、その品質が悪い場合に
は、品質の悪い合成音声箇所をユーザに入力させるステ
ップ、ならびにユーザによって入力された品質の悪い合
成音声箇所が入力された場合には、当該品質の悪い合成
音声箇所に対応する音素片の補助情報内の優先度情報
に、当該音素片が候補として選択されたときにターゲッ
トに対する適応度の算出値を強制的に小さくさせるよう
な値を設定するステップ、 を備えていることを特徴とする音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000242068A JP3423276B2 (ja) | 2000-08-10 | 2000-08-10 | 音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000242068A JP3423276B2 (ja) | 2000-08-10 | 2000-08-10 | 音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002055693A true JP2002055693A (ja) | 2002-02-20 |
JP3423276B2 JP3423276B2 (ja) | 2003-07-07 |
Family
ID=18733149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000242068A Expired - Fee Related JP3423276B2 (ja) | 2000-08-10 | 2000-08-10 | 音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3423276B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148172A (ja) * | 2005-11-29 | 2007-06-14 | Matsushita Electric Ind Co Ltd | 声質制御装置および方法およびプログラム記憶媒体 |
JP2011215419A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | 音声合成装置 |
-
2000
- 2000-08-10 JP JP2000242068A patent/JP3423276B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148172A (ja) * | 2005-11-29 | 2007-06-14 | Matsushita Electric Ind Co Ltd | 声質制御装置および方法およびプログラム記憶媒体 |
JP4664194B2 (ja) * | 2005-11-29 | 2011-04-06 | パナソニック株式会社 | 声質制御装置および方法およびプログラム記憶媒体 |
JP2011215419A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | 音声合成装置 |
US8554565B2 (en) | 2010-03-31 | 2013-10-08 | Kabushiki Kaisha Toshiba | Speech segment processor |
Also Published As
Publication number | Publication date |
---|---|
JP3423276B2 (ja) | 2003-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3361066B2 (ja) | 音声合成方法および装置 | |
JP3913770B2 (ja) | 音声合成装置および方法 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPH10171484A (ja) | 音声合成方法および装置 | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP3346671B2 (ja) | 音声素片選択方法および音声合成装置 | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP4170819B2 (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP2002055693A (ja) | 音声合成方法 | |
JP2004347653A (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP5198200B2 (ja) | 音声合成装置及び方法 | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP5177135B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5862667B2 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP4056319B2 (ja) | 音声合成方法 | |
JP2005321520A (ja) | 音声合成装置及びそのプログラム | |
JP2000231395A (ja) | 音声合成方法及び装置 | |
JP4414864B2 (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
JP4223783B2 (ja) | 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体 | |
JP2004233774A (ja) | 音声合成方法及び装置、並びに音声合成プログラム | |
JPH09230893A (ja) | 規則音声合成方法及び音声合成装置 | |
JP2005241789A (ja) | 素片接続型音声合成装置及び方法、並びに音声素片データベースの作成方法 | |
JP4805121B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2004347994A (ja) | 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090425 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090425 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100425 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110425 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120425 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130425 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140425 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |