JP2002055693A

JP2002055693A - 音声合成方法

Info

Publication number: JP2002055693A
Application number: JP2000242068A
Authority: JP
Inventors: Hiroyuki Hirai; 啓之平井
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2000-08-10
Filing date: 2000-08-10
Publication date: 2002-02-20
Anticipated expiration: 2020-08-10
Also published as: JP3423276B2

Abstract

(57)【要約】【課題】この発明は、波形辞書の大幅な修正を行なう
ことなく、音質劣化につながる品質の悪い音素片が最適
な音素片として選択されにくくすることができる音声合
成方法を提供することを目的とする。【解決手段】各音素単位の補助情報にペナルティ情報
を追加しておくステップ、ユーザが音声合成結果を聞い
て、その品質が悪い場合には、品質の悪い合成音声箇所
をユーザに入力させるステップ、ならびにユーザによっ
て入力された品質の悪い合成音声箇所が入力された場合
には、当該品質の悪い合成音声箇所に対応する音素片の
補助情報内のペナルティ情報に、当該音素片が候補とし
て選択されたときにターゲットとの歪み算出値を強制的
に大きくさせるような値を設定するステップを備えてい
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、任意のテキスト
情報を合成音声で読み上げることのできる音声合成方法
に関する。

【０００２】

【従来の技術】図１は、音声合成装置の概略構成を示し
ている。

【０００３】入力された日本語仮名漢字混じりのテキス
トは、言語処理部１で形態素解析、係り受け解析が行な
われ、音素記号、アクセント記号等に変換せしめられ
る。

【０００４】韻律パターン生成部２では、音素記号、ア
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音韻継続時間長（声の長
さ DUR^T）、基本周波数（声の高さ FO ^T）、母音中心
のパワー（声の大きさPOW ^T）等の推定が行なわれる。

【０００５】音素単位選択部３では、推定された音韻継
続時間長 DUR^T、基本周波数 FO ^Tおよび母音中心のパ
ワーPOW ^Tに最も近く、かつ波形辞書５に蓄積されてい
る音素単位( 音素片) を接続したときの歪みが最も小さ
くなる音素片の組み合わせがＤＰ（動的プログラミン
グ）を用いて選択される。

【０００６】音声波形生成部４では、選択された音素片
の組み合わせにしたがって、ピッチを変換しつつ音素片
の接続を行なうことによって音声が生成される。

【０００７】図２は、波形辞書５の内容を示している。
波形辞書５は、複数の音素片が格納された音素片格納部
５１と、音素片格納部５１内の各音素片に関する補助情
報が格納された補助情報格納部５２とがある。補助情報
には、音素片のパワー（POW ^Dic）、基本周波数（ FO
^Dic）、継続時間長（ DUR^Dic）等がある。

【０００８】ところで、音素単位選択部３では、波形辞
書５に蓄積されている音素片の組み合わせの中で、歪み
が少なくなる組み合わせを選択しているが、この歪みに
は次のようなものがある。

【０００９】つまり、図３に示すように、ｕ_i-1、
ｕ_i、ｕ_i+1を波形辞書５から抽出した音素片として、
ｔ_i-1、ｔ_i、ｔ_i+1を実際に使用する環境( ターゲッ
ト）とすると、ｕi に対する歪みには、Ｃ_i ^tと、Ｃ_i
^cとがある。

【００１０】ここで、Ｃ_i ^tは、ｉ番目の音素について
辞書から抽出した音素片（ｕ_i）と実際に使用する環境
( ターゲットｔ_i）との間の歪みである。また、Ｃ_i ^c
は、ｉ番目の音素片（ｕ_i）と、ｉ−１番目の素片（ｕ
_i-1）とを接続したときに生じる歪みである。音素単位
選択部３は、動的計画法（ＤＰ法）に用いて音素片を接
続していき、入力された全ての音素に対するＣ_i ^tとＣ
_i ^cとの総和Ｃ^allが最小となる素片の組み合わせを選
択する。

【００１１】Ｃ_i ^tは、次の数式１で表される。

【００１２】

【数１】

【００１３】数式１において、各変数は、次のように定
義される。

【００１４】Ｄ_POW ^t（ｔ_i，ｕ_i）は、ｉ番目の音素
について、辞書から抽出した音素片（ｕ_i）のパワー
（POW ^Dic(i) ）と、実際に使用する環境（ターゲット
ｔ_i）のパワー（POW ^T(i) ）との間の距離の自乗であ
り、｛（POW ^Dic(i) ）−（POW ^T(i) ）｝²となる。

【００１５】ｗ_POW ^tは、Ｄ_POW ^t（ｔ_i，ｕ_i）に対
する重み係数である。

【００１６】Ｄ_F0 ^t（ｔ_i，ｕ_i）は、ｉ番目の音素に
ついて、辞書から抽出した音素片（ｕ_i）の基本周波数
（ FO ^Dic(i) ）と、実際に使用する環境（ターゲット
ｔ_i）の基本周波数（ FO ^T(i) ）との間の距離の自乗
であり、｛（ FO ^Dic(i) ）−（ FO ^T(i) ）｝²とな
る。

【００１７】ｗ_F0 ^t は、Ｄ_F0 ^t（ｔ_i，ｕ_i）に対す
る重み係数である。

【００１８】Ｄ_DUR ^t（ｔ_i，ｕ_i）は、ｉ番目の音素
について、辞書から抽出した音素片（ｕ_i）の継続時間
長（ DUR^Dic(i) ）と、実際に使用する環境（ターゲッ
トｔ _i）の継続時間長（ DUR^T(i) ）との間の距離の自
乗であり、｛（ DUR^Dic(i)）−（ DUR^T(i) ）｝²と
なる。

【００１９】ｗ_DUR ^tは、Ｄ_DUR ^t（ｔ_i，ｕ_i）に対
する重み係数である。

【００２０】Ｃ_i ^cは、次の数式２で表される。

【００２１】

【数２】

【００２２】数式２において、各変数は、次のように定
義される。

【００２３】Ｄ_POW ^c（ｕ_i，ｕ_i-1）は、ｉ番目の音
素片（ｕ_i）の始端のパワー（POW ^DicS(i) ）と、ｉ−
１番目の音素片（ｕ_i-1）の終端のパワー（POW ^DicE(i
-1)）との間の距離の自乗であり、｛（POW ^DicS(i) ）
−（POW ^DicE(i-1) ）｝²となる。

【００２４】ｗ_POW ^cは、Ｄ_POW ^c（ｕ_i，ｕ_i-1）に
対する重み係数である。

【００２５】Ｄ_F0 ^c（ｕ_i，ｕ_i-1）は、ｉ番目の音素
片（ｕ_i）の始端の基本周波数（ FO ^DicS(i) ）と、ｉ
−１番目の音素片（ｕ_i-1）の終端の基本周波数（FO
^DicE (i-1)）との間の距離の自乗であり、｛（ FO ^DicS
(i) ）−（FO^DicE (i-1)）｝²となる。

【００２６】ｗ_F0 ^cは、Ｄ_F0 ^c（ｕ_i，ｕ_i-1）に対す
る重み係数である。

【００２７】Ｄ_SPC ^c（ｕ_i，ｕ_i-1）は、ｉ番目の音
素片（ｕ_i）の始端のスペクトル（SPC^DicS(i,j), j＝1
〜16 ）と、ｉ−１番目の音素片（ｕ_i-1）の終端の
スペクトル（ SPC^DicE(i-1,j) , j ＝1 〜16）との間の
距離の自乗であり、｛（ SPC ^DicS(i,j) ）−（ SPC^DicE
(i-1,j) ）｝²となる。

【００２８】ｗ_SPC ^cは、Ｄ_SPC ^c（ｕ_i，ｕ_i-1）に
対する重み係数である。

【００２９】入力された全ての音素に対するＣ_i ^tとＣ
_i ^cとの総和Ｃ^allは、次の数式３で表される。

【００３０】

【数３】

【００３１】

【発明が解決しようとする課題】ところで、上述したよ
うに音声合成方法によれば、品質の高い合成音声、つま
り、自然発話に近い合成音声を得ることができる。しか
しながら、自然発話から作成した音素片には、”なま
け”、”いいよどみ”など、実際に選択された場合に音
質の劣化につながる音素片が存在している可能性が高
い。このような音素片を含まないように波形辞書５を作
成することが好ましいが、実際上には音質劣化につなが
る音素片をすべて取り除いて波形辞書５を作成すること
は困難である。

【００３２】また、波形辞書５を作成した後に、音質劣
化につながる音素片を削除していくといったことも考え
られるが、そのようにすると、波形辞書５の大幅な修正
が必要となる。

【００３３】この発明は、波形辞書の大幅な修正を行な
うことなく、音質劣化につながる品質の悪い音素片が最
適な音素片として選択されにくくすることができる音声
合成方法を提供することを目的とする。

【００３４】

【課題を解決するための手段】この発明による第１の音
声合成方法は、複数の音声単位と各音素単位毎にターゲ
ットとの歪みを算出するために用いられる補助情報とが
波形辞書に格納されており、波形辞書に格納されている
音素単位の組み合わせの中で、ターゲットとの歪みが最
も少なくなる組み合わせを選択する音素単位選択型の音
声合成方法において、各音素単位の補助情報にペナルテ
ィ情報を追加しておくステップ、ユーザが音声合成結果
を聞いて、その品質が悪い場合には、品質の悪い合成音
声箇所をユーザに入力させるステップ、ならびにユーザ
によって入力された品質の悪い合成音声箇所が入力され
た場合には、当該品質の悪い合成音声箇所に対応する音
素片の補助情報内のペナルティ情報に、当該音素片が候
補として選択されたときにターゲットとの歪み算出値を
強制的に大きくさせるような値を設定するステップを備
えていることを特徴とする。

【００３５】この発明による第２の音声合成方法は、複
数の音声単位と各音素単位毎にターゲットに対する適応
度を算出するために用いられる補助情報とが波形辞書に
格納されており、波形辞書に格納されている音素単位の
組み合わせの中で、ターゲットに対する適応度が最も大
きくなる組み合わせを選択する音素単位選択型の音声合
成方法において、各音素単位の補助情報に優先度情報を
追加しておくステップ、ユーザが音声合成結果を聞い
て、その品質が悪い場合には、品質の悪い合成音声箇所
をユーザに入力させるステップ、ならびにユーザによっ
て入力された品質の悪い合成音声箇所が入力された場合
には、当該品質の悪い合成音声箇所に対応する音素片の
補助情報内の優先度情報に、当該音素片が候補として選
択されたときにターゲットに対する適応度の算出値を強
制的に小さくさせるような値を設定するステップを備え
ていることを特徴とする。

【００３６】

【発明の実施の形態】以下、この発明の実施の形態につ
いて説明する。

【００３７】〔１〕第１の実施の形態の説明音声合成装置の全体構成は、図１と同じである。

【００３８】第１の実施の形態では、次の点（１）、
（２）、（３）が従来と異なっている。

【００３９】（１）図４に示すように、各音素片の補
助情報に、ペナルティー情報Ｄ^t _pri（ｕ_i）を追加す
る。ペナルティー情報Ｄ^t _pri（ｕ_i）の初期値は、０
である。

【００４０】（２）音素単位選択部３で歪みＣ^allを
算出するためのＣ_i ^tに、ペナルティー情報Ｄ
^t _pri（ｕ_i）をパラメータとして加える。

【００４１】つまり、Ｃ_i ^tは、次の数式４で表わされ
る。

【００４２】

【数４】

【００４３】（３）ユーザが音声合成結果を聞いて、
その品質が悪い場合には、品質の悪い合成音声箇所を音
声合成装置に入力するようにする。音声合成装置は、ユ
ーザによって入力された品質の悪い合成音声箇所が入力
された場合には、品質の悪い合成音声箇所に対応する音
素片の補助情報内のペナルティー情報Ｄ^t _pri（ｕ_i）
の値を、所定値αに設定する。

【００４４】この所定値αとしては、たとえば、数式１
のＣ_i ^tの予想される最大値の約１００倍の値が用い
られる。具体的には、任意数の文章を入力したときの数
式１の最大値を実験により求めておき、その最大値の１
００倍の値を、所定値αとして設定する。

【００４５】上記（１），（２），（３）のような変更
を行なうことにより、ペナルティー情報Ｄ
^t _pri（ｕ_i）の値としてαが設定されている品質の悪
い音素片（ｕ_i）が候補として選択された場合には、そ
の音素片とターゲットとの歪みＣ_i ^tが、従来法に比べ
てα分だけ大きくなり、当該音素片（ｕ_i）が最適な音
素片として選択されにくくなる。

【００４６】上記実施の形態によれば、波形辞書内に品
質の悪い音素片が存在している場合に、その音素片を削
除するといった大幅な辞書の修正を行なうことなく、音
素片の補助情報にペナルティー情報Ｄ^t _pri（ｕ_i）を
追加するといった小規模な修正を行なうことによって、
品質の悪い音素片を選択されにくくすることができるよ
うになる。

【００４７】高品質の音声合成装置の場合には、波形辞
書内の音素片格納部には６万個程度の音素片が格納され
るため、音素片格納部の容量は数十ＭＢに及ぶが、波形
辞書内の補助情報格納部の容量は数ＭＢというように、
音素片格納部の容量の十分の１以下とである。このた
め、上記実施の形態のように補助情報格納部のみの修正
を行なう方が容易である。また、音素片の削除に品質の
改善を行なう従来方法では、波形辞書全てを置き換える
必要があるが、上記実施の形態の方法では補助情報にペ
ナルティー情報Ｄ^t _pri（ｕ_i）を追加するといった修
正のみであるため、波形辞書の一部の変更のみで修正が
可能である。

【００４８】また、ユーザが自由に波形辞書から品質の
悪い音素片を削除することにより、合成音声の品質を改
善させることも考えられるが、音素の種類によってはそ
の音素に対応する全ての音素片を削除してしまうおそれ
がある。そうすると、当該音素を含む文章に対して合成
音声を生成できなくなる可能性がある。

【００４９】これに対して、上記実施の形態による方法
では、たとえ、ある音素に対応する全ての音素片に対す
るペナルティー情報Ｄ^t _pri（ｕ_i）の値が所定値αに
設定されたとしても、当該音素を音声合成する際には、
その音素に対応する音素片の中で最適な音素片が選択さ
れるため、当該音素に対して合成音声を生成することが
できるという利点がある。

【００５０】〔２〕第２の実施の形態の説明第１の実施の形態においては、音素単位選択部３では、
波形辞書に蓄積されている音素片の組み合わせの中で、
歪みが少なくなる組み合わせを選択しているが、音素単
位選択部として、波形辞書に蓄積されている音素片の組
み合わせの中で、適応度が大きくなる組み合わせを選択
するものが知られている。

【００５１】適応度Ｓ^allは、一般的に次の数式５で表
される。

【００５２】

【数５】

【００５３】数式５においてＳ_i ^tは、ｉ番目の音素に
ついて辞書から抽出した音素片（ｕ _i）と実際に使用す
る環境( ターゲットｔ_i）との間の類似度を示してお
り、次の数式６で表される。数式６中の各変数は、数式
１中の変数と同じである。

【００５４】

【数６】

【００５５】また、数式５において、Ｓ_i ^cは、ｉ番目
の音素について辞書から選択した音素片（ｕ_i）の始端
と、ｉ−１番目の音素について辞書から選択した音素片
（ｕ _i-1）の終端との間の類似度を示しており、次の数
式７で表される。数式７中の各変数は、数式２中の変数
と同じである。

【００５６】

【数７】

【００５７】第２の実施の形態では、次の点（１）、
（２）、（３）が、適応度を用いて音素単位を選択する
従来例と異なっている。

【００５８】（１）各音素片の補助情報に、優先度情
報Ｅ^t _pri（ｕ_i）を追加する。優先度情報Ｅ
^t _pri（ｕ_i）の初期値は、所定値である。

【００５９】（２）音素単位選択部３で適応度Ｓ^all
を算出するためのＳ_i ^tに、優先度情報Ｅ
^t _pri（ｕ_i）をパラメータとして加える。

【００６０】つまり、Ｓ_i ^tは、次式８で表わされる。

【００６１】

【数８】

【００６２】（３）ユーザが音声合成結果を聞いて、
その品質が悪い場合には、品質の悪い合成音声箇所を音
声合成装置に入力するようにする。音声合成装置は、ユ
ーザによって入力された品質の悪い合成音声箇所が入力
された場合には、品質の悪い合成音声箇所に対応する音
素片の補助情報内の優先度情報Ｅ^t _pri（ｕ_i）の値
を、初期値より小さい値に設定する。

【００６３】

【発明の効果】この発明によれば、波形辞書の大幅な修
正を行なうことなく、音質劣化につながる品質の悪い音
素片が最適な音素片として選択されにくくすることがで
きる。

【図面の簡単な説明】

【図１】音声合成装置の全体構成を示すブロック図であ
る。

【図２】波形辞書５の内容を示す模式図である。

【図３】音素単位選択部３において、音素片の組み合わ
せを選択するために用いられる２種の歪みＣ_i ^t、Ｃ_i
^cを説明するための模式図である。

【図４】品質の悪い合成音声箇所に対応する音素片の補
助情報に、ペナルティー情報Ｄ ^t _priを追加された様子
を示す模式図である。

Claims

【特許請求の範囲】

【請求項１】複数の音声単位と各音素単位毎にターゲ
ットとの歪みを算出するために用いられる補助情報とが
波形辞書に格納されており、波形辞書に格納されている
音素単位の組み合わせの中で、ターゲットとの歪みが最
も少なくなる組み合わせを選択する音素単位選択型の音
声合成方法において、各音素単位の補助情報にペナルティ情報を追加しておく
ステップ、ユーザが音声合成結果を聞いて、その品質が悪い場合に
は、品質の悪い合成音声箇所をユーザに入力させるステ
ップ、ならびにユーザによって入力された品質の悪い合
成音声箇所が入力された場合には、当該品質の悪い合成
音声箇所に対応する音素片の補助情報内のペナルティ情
報に、当該音素片が候補として選択されたときにターゲ
ットとの歪み算出値を強制的に大きくさせるような値を
設定するステップ、を備えていることを特徴とする音声合成方法。
【請求項２】複数の音声単位と各音素単位毎にターゲ
ットに対する適応度を算出するために用いられる補助情
報とが波形辞書に格納されており、波形辞書に格納され
ている音素単位の組み合わせの中で、ターゲットに対す
る適応度が最も大きくなる組み合わせを選択する音素単
位選択型の音声合成方法において、各音素単位の補助情報に優先度情報を追加しておくステ
ップ、ユーザが音声合成結果を聞いて、その品質が悪い場合に
は、品質の悪い合成音声箇所をユーザに入力させるステ
ップ、ならびにユーザによって入力された品質の悪い合
成音声箇所が入力された場合には、当該品質の悪い合成
音声箇所に対応する音素片の補助情報内の優先度情報
に、当該音素片が候補として選択されたときにターゲッ
トに対する適応度の算出値を強制的に小さくさせるよう
な値を設定するステップ、を備えていることを特徴とする音声合成方法。