JP2001092480A

JP2001092480A - 音声合成方法

Info

Publication number: JP2001092480A
Application number: JP26988399A
Authority: JP
Inventors: Hiroyuki Hirai; 啓之平井
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1999-09-24
Filing date: 1999-09-24
Publication date: 2001-04-06

Abstract

(57)【要約】【課題】この発明は、流暢さよりも明瞭性を重視する
場合には、明瞭性を重視した音声合成を行え、明瞭性よ
りも流暢さを重視する場合には、流暢さを重視した音声
合成を行えるようになる音声合成方法を提供することを
目的とする。【解決手段】音素単位の抽出環境と使用環境との違い
による歪みとして、流暢な合成音声を生成する場合に除
去されるべき第１の歪み要素と、明確な合成音声を生成
する場合に除去されるべき第２の歪み要素との和からな
り、かつ変数αを０≦α≦１の範囲内の値とし、第１の
歪み要素と第２の歪み要素とのうち一方にαの重み付け
を、他方に（１−α）の重み付けを行い、αを変化させ
ることにより、流暢さまたは明確性の重要度を調整でき
るようにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、任意のテキスト
情報を合成音声で読み上げることのできる音声合成方法
に関する。

【０００２】

【従来の技術】図１は、音声合成装置の概略構成を示し
ている。

【０００３】入力された日本語仮名漢字混じりのテキス
トは、言語処理部１で形態素解析、係り受け解析が行な
われ、音素記号、アクセント記号等に変換せしめられ
る。

【０００４】韻律パターン生成部２では、音素記号、ア
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音韻継続時間長（声の長
さ）、基本周波数パターン、ピッチパターン（声の高
さ）、母音中心のパワー（声の大きさ）等の推定が行な
われる。

【０００５】音素単位選択部３では、音素記号列と、推
定された音韻継続時間長、基本周波数パターン、ピッチ
パターンおよび母音中心のパワー情報等とに基づいて算
出された評価値に基づいて、波形辞書に蓄積されている
音素単位( 素片) 組み合わせの中で、最適な組み合わ
せ、つまり歪みが最も少なくなる組み合わせが選択され
る。

【０００６】音声波形生成部４では、選択された音素単
位の組み合わせにしたがって、ピッチを変換しつつ音素
単位の接続を行なうことによって音声が生成される。

【０００７】ところで、音素単位選択部３では、波形辞
書に蓄積されている音素単位の組み合わせの中で、歪み
が少なくなる組み合わせを選択しているが、この歪みに
は次のようなものがある。

【０００８】つまり、図２に示すように、ｕ_i-1、
ｕ_i、ｕ_i+1を辞書から抽出した素片として、ｔ_i-1、
ｔ_i、ｔ_i+1を実際に使用する環境( ターゲット）とす
ると、ｕi に対する歪みには、Ｃ_i ^tと、Ｃ_i ^cとがあ
る。

【０００９】ここで、Ｃ_i ^tは、ｉ番目の音素について
辞書から抽出した素片（ｕ_i）と実際に使用する環境(
ターゲットｔ_i）との間の歪みである。また、Ｃ
_i ^cは、ｉ番目の素片（ｕ_i）と、ｉ−１番目の素片
（ｕ_i-1）とを接続したときに生じる歪みである。音素
単位選択部３は、動的計画法（ＤＰ法）に用いて素片を
接続していき、入力された全ての音素に対するＣ_i ^tと
Ｃ_i ^cとの総和Ｃ^allが最小となる素片の組み合わせを
選択する。

【００１０】Ｃ_i ^tは、次の数式１で表される。

【００１１】

【数１】

【００１２】数式１において、各変数は、次のように定
義される。

【００１３】Ｄ_POW ^t（ｔ_i，ｕ_i）は、ｉ番目の音素
について、辞書から抽出した素片（ｕ_i）のパワー（PO
W ^Dic(i) ）と、実際に使用する環境（ターゲット
ｔ_i）のパワー（POW ^T(i) ）との間の距離の自乗であ
り、｛（POW ^Dic(i) ）−（POW ^T(i) ）｝²となる。

【００１４】Ｗ_POW ^tは、Ｄ_POW ^t（ｔ_i，ｕ_i）に対
する重み係数である。

【００１５】Ｄ_F0 ^t（ｔ_i，ｕ_i）は、ｉ番目の音素に
ついて、辞書から抽出した素片（ｕ _i）の基本周波数
（ FO ^Dic(i) ）と、実際に使用する環境（ターゲット
ｔ_i）の基本周波数（ FO ^T(i) ）との間の距離の自乗
であり、｛（ FO ^Dic(i) ）−（ FO ^T(i) ）｝²とな
る。

【００１６】Ｗ_F0 ^t は、Ｄ_F0 ^t（ｔ_i，ｕ_i）に対す
る重み係数である。

【００１７】Ｄ_DUR ^t（ｔ_i，ｕ_i）は、ｉ番目の音素
について、辞書から抽出した素片（ｕ_i）の継続時間長
（ DUR^Dic(i) ）と、実際に使用する環境（ターゲット
ｔ_i）の継続時間長（ DUR^T(i) ）との間の距離の自乗
であり、｛（ DUR^Dic(i) ）−（ DUR^T(i) ）｝²とな
る。

【００１８】Ｗ_DUR ^tは、Ｄ_DUR ^t（ｔ_i，ｕ_i）に対
する重み係数である。

【００１９】Ｃ_i ^cは、次の数式２で表される。

【００２０】

【数２】

【００２１】数式２において、各変数は、次のように定
義される。

【００２２】Ｄ_POW ^c（ｕ_i，ｕ_i-1）は、ｉ番目の素
片（ｕ_i）の始端のパワー（POW ^Di ^cS(i) ）と、ｉ−１
番目の素片（ｕ_i-1）の終端のパワー（POW ^DicE(i-1)
）との間の距離の自乗であり、｛（POW ^DicS(i) ）−
（POW ^DicE(i-1) ）｝²となる。

【００２３】Ｗ_POW ^cは、Ｄ_POW ^c（ｕ_i，ｕ_i-1）に
対する重み係数である。

【００２４】Ｄ_F0 ^c（ｕ_i，ｕ_i-1）は、ｉ番目の素片
（ｕ_i）の始端の基本周波数（ FO ^DicS(i) ）と、ｉ−
１番目の素片（ｕ_i-1）の終端の基本周波数（FO^DicE
(i-1)）との間の距離の自乗であり、｛（ FO ^DicS(i)
）−（FO^DicE (i-1)）｝²となる。

【００２５】Ｗ_F0 ^cは、Ｄ_F0 ^c（ｕ_i，ｕ_i-1）に対す
る重み係数である。

【００２６】Ｄ_SPC ^c（ｕ_i，ｕ_i-1）は、ｉ番目の素
片（ｕ_i）の始端のスペクトル（ SPC^DicS(i,j), j＝1
〜16 ）と、ｉ−１番目の素片（ｕ_i-1）の終端のスペ
クトル（ SPC^DicE(i-1,j) , j ＝1 〜16）との間の距離
の自乗であり、｛（ SPC^DicS(i,j) ）−（ SPC^DicE(i-
1,j) ）｝²となる。

【００２７】Ｗ_SPC ^cは、Ｄ_SPC ^c（ｕ_i，ｕ_i-1）に
対する重み係数である。

【００２８】入力された全ての音素に対するＣ_i ^tとＣ
_i ^cとの総和Ｃ^allは、次の数式３で表される。

【００２９】

【数３】

【００３０】

【発明が解決しようとする課題】ところで、上述したよ
うに音声合成方法によれば、品質の高い合成音声、つま
り、自然発話に近い合成音声を得ることができる。しか
しながら、自然発話には”なまけ”が含まれているた
め、自然発話に近い合成音声が再現されると流暢ではあ
るが、明瞭性に欠ける音声が生成される場合がある。

【００３１】しかしながら、音声合成の用途あるいは読
み上げる内容によっては、流暢さよりも明瞭性が要求さ
れる場合もある。たとえば、金額の読み上げ、住所の読
み上げでは、流暢さよりも明瞭性を向上させることが要
求される場合がある。

【００３２】この発明は、流暢さよりも明瞭性を重視す
る場合には、明瞭性を重視した音声合成を行え、明瞭性
よりも流暢さを重視する場合には、流暢さを重視した音
声合成を行えるようになる音声合成方法を提供すること
を目的とする。

【００３３】

【課題を解決するための手段】この発明による音声合成
方法は、辞書に蓄積されている音素単位の組み合わせの
中で、歪みが最も少なくなる組み合わせを選択する音素
単位選択型の音声合成方法において、音素単位の抽出
環境と使用環境との違いによる歪みとして、流暢な合成
音声を生成する場合に除去されるべき第１の歪み要素
と、明確な合成音声を生成する場合に除去されるべき第
２の歪み要素との和からなり、かつ変数αを０≦α≦１
の範囲内の値とし、第１の歪み要素と第２の歪み要素と
のうち一方にαの重み付けを、他方に（１−α）の重み
付けを行い、αを変化させることにより、流暢さまたは
明確性の重要度を調整できるようにしたことを特徴とす
る。

【００３４】第２の歪み要素としては、たとえば、注目
音素について辞書から選択された音素単位のスペクトル
の平均値と、注目音素を明確に発声したときの音声から
分析したスペクトルとの距離の自乗が用いられる。

【００３５】

【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。

【００３６】音声合成装置の全体構成は、図１と同じで
ある。この実施の形態では、音素単位選択部３での処理
方法が従来と異なっている。

【００３７】つまり、音素単位選択部３において、素片
の組み合わせを選択するために用いられる２種の歪みＣ
_i ^t、Ｃ_i ^cのうち、Ｃ_i ^tを求める式が従来と異なっ
ている。

【００３８】この実施の形態では、Ｃ_i ^tは次式４で示
される。

【００３９】

【数４】

【００４０】数式４において、各変数は、次のように定
義される。

【００４１】Ｄ_POW ^t（ｔ_i，ｕ_i）は、ｉ番目の音素
について、辞書から抽出した素片（ｕ_i）のパワー（PO
W ^Dic(i) ）と、実際に使用する環境（ターゲット
ｔ_i）のパワー（POW ^T(i) ）との間の距離の自乗であ
り、｛（POW ^Dic(i) ）−（POW ^T(i) ）｝²となる。

【００４２】Ｗ_POW ^tは、Ｄ_POW ^t（ｔ_i，ｕ_i）に対
する重み係数である。

【００４３】Ｄ_F0 ^t（ｔ_i，ｕ_i）は、ｉ番目の音素に
ついて、辞書から抽出した素片（ｕ _i）の基本周波数
（ FO ^Dic(i) ）と、実際に使用する環境（ターゲット
ｔ_i）の基本周波数（ FO ^T(i) ）との間の距離の自乗
であり、｛（ FO ^Dic(i) ）−（ FO ^T(i) ）｝²とな
る。

【００４４】Ｗ_F0 ^t は、Ｄ_F0 ^t（ｔ_i，ｕ_i）に対す
る重み係数である。

【００４５】Ｄ_DUR ^t（ｔ_i，ｕ_i）は、ｉ番目の音素
について、辞書から抽出した素片（ｕ_i）の継続時間長
（ DUR^Dic(i) ）と、実際に使用する環境（ターゲット
ｔ_i）の継続時間長（ DUR^T(i) ）との間の距離の自乗
であり、｛（ DUR^Dic(i) ）−（ DUR^T(i) ）｝²とな
る。

【００４６】Ｗ_DUR ^tは、Ｄ_DUR ^t（ｔ_i，ｕ_i）に対
する重み係数である。

【００４７】Ｄ_SPC ^t（ｔ_i，ｕ_i）は、ｉ番目の音素
について、辞書から抽出した素片（ｕ_i）のスペクトル
の平均値（ SPC^Dic (i,j),j＝1 〜16）と、ｉ番目の音
素を明確に発声したとき（たとえば、無意味語発声した
とき）の音声から分析したスペクトル（ SPC^r(i,j),j
＝1 〜16）との間の距離の自乗であり、次の数式５で表
される。スペクトルを表現するには、１６次スペクトル
等が用いられる。

【００４８】

【数５】

【００４９】Ｗ_SPC ^tは、Ｄ_SPC ^t（ｔ_i，ｕ_i）に対
する重み係数である。

【００５０】αは、流暢性を重要視するか、明瞭性を重
要視するかを決定する変数であり、０≦α≦１の範囲内
で選択される。

【００５１】数式４の右辺において、（１−α）を係数
とする項が、流暢さのある合成音声を生成する場合に除
去されるべき第１の歪み要素であり、従来においてＣ_i
^tとして用いられてた内容と同じである。数式４の右辺
において、αを係数とする項が、明確性のある合成音声
を生成する場合に除去されるべき第２の歪み要素であ
る。

【００５２】αの値が大きくなるほど音素単位選択時に
おいて明瞭性が重視され、αの値が小さくなるほど流暢
さが重視される。合成する単語の種類、たとえば、数値
または固有名詞である場合には、αを大きくすることが
可能となる。また、入力テキストに明瞭性を重視する単
語にはタグを入れておき、タグによって示された単語に
対してはαを大きくすることが可能となる。

【００５３】

【発明の効果】この発明によれば、流暢さよりも明瞭性
を重視する場合には、明瞭性を重視した音声合成を行
え、明瞭性よりも流暢さを重視する場合には、流暢さを
重視した音声合成を行えるようになる。

【図面の簡単な説明】

【図１】音声合成装置の全体構成を示すブロック図であ
る。

【図２】音素単位選択部１３において、素片の組み合わ
せを選択するために用いられる２種の歪みＣ_i ^t、Ｃ_i
^cを説明するための模式図である。

Claims

【特許請求の範囲】

【請求項１】辞書に蓄積されている音素単位の組み合
わせの中で、歪みが最も少なくなる組み合わせを選択す
る音素単位選択型の音声合成方法において、音素単位の抽出環境と使用環境との違いによる歪みとし
て、流暢な合成音声を生成する場合に除去されるべき第
１の歪み要素と、明確な合成音声を生成する場合に除去
されるべき第２の歪み要素との和からなり、かつ変数α
を０≦α≦１の範囲内の値とし、第１の歪み要素と第２
の歪み要素とのうち一方にαの重み付けを、他方に（１
−α）の重み付けを行い、αを変化させることにより、
流暢さまたは明確性の重要度を調整できるようにしたこ
とを特徴とする音声合成方法。
【請求項２】第２の歪み要素は、注目音素について辞
書から選択された音素単位のスペクトルの平均値と、注
目音素を明確に発声したときの音声から分析したスペク
トルとの距離の自乗が用いられる請求項１に記載の音声
合成方法。