JP2001092480A - 音声合成方法 - Google Patents
音声合成方法Info
- Publication number
- JP2001092480A JP2001092480A JP26988399A JP26988399A JP2001092480A JP 2001092480 A JP2001092480 A JP 2001092480A JP 26988399 A JP26988399 A JP 26988399A JP 26988399 A JP26988399 A JP 26988399A JP 2001092480 A JP2001092480 A JP 2001092480A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- distortion
- speech
- clarity
- fluency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 この発明は、流暢さよりも明瞭性を重視する
場合には、明瞭性を重視した音声合成を行え、明瞭性よ
りも流暢さを重視する場合には、流暢さを重視した音声
合成を行えるようになる音声合成方法を提供することを
目的とする。 【解決手段】 音素単位の抽出環境と使用環境との違い
による歪みとして、流暢な合成音声を生成する場合に除
去されるべき第1の歪み要素と、明確な合成音声を生成
する場合に除去されるべき第2の歪み要素との和からな
り、かつ変数αを0≦α≦1の範囲内の値とし、第1の
歪み要素と第2の歪み要素とのうち一方にαの重み付け
を、他方に(1−α)の重み付けを行い、αを変化させ
ることにより、流暢さまたは明確性の重要度を調整でき
るようにした。
場合には、明瞭性を重視した音声合成を行え、明瞭性よ
りも流暢さを重視する場合には、流暢さを重視した音声
合成を行えるようになる音声合成方法を提供することを
目的とする。 【解決手段】 音素単位の抽出環境と使用環境との違い
による歪みとして、流暢な合成音声を生成する場合に除
去されるべき第1の歪み要素と、明確な合成音声を生成
する場合に除去されるべき第2の歪み要素との和からな
り、かつ変数αを0≦α≦1の範囲内の値とし、第1の
歪み要素と第2の歪み要素とのうち一方にαの重み付け
を、他方に(1−α)の重み付けを行い、αを変化させ
ることにより、流暢さまたは明確性の重要度を調整でき
るようにした。
Description
【0001】
【発明の属する技術分野】この発明は、任意のテキスト
情報を合成音声で読み上げることのできる音声合成方法
に関する。
情報を合成音声で読み上げることのできる音声合成方法
に関する。
【0002】
【従来の技術】図1は、音声合成装置の概略構成を示し
ている。
ている。
【0003】入力された日本語仮名漢字混じりのテキス
トは、言語処理部1で形態素解析、係り受け解析が行な
われ、音素記号、アクセント記号等に変換せしめられ
る。
トは、言語処理部1で形態素解析、係り受け解析が行な
われ、音素記号、アクセント記号等に変換せしめられ
る。
【0004】韻律パターン生成部2では、音素記号、ア
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音韻継続時間長(声の長
さ)、基本周波数パターン、ピッチパターン(声の高
さ)、母音中心のパワー(声の大きさ)等の推定が行な
われる。
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音韻継続時間長(声の長
さ)、基本周波数パターン、ピッチパターン(声の高
さ)、母音中心のパワー(声の大きさ)等の推定が行な
われる。
【0005】音素単位選択部3では、音素記号列と、推
定された音韻継続時間長、基本周波数パターン、ピッチ
パターンおよび母音中心のパワー情報等とに基づいて算
出された評価値に基づいて、波形辞書に蓄積されている
音素単位( 素片) 組み合わせの中で、最適な組み合わ
せ、つまり歪みが最も少なくなる組み合わせが選択され
る。
定された音韻継続時間長、基本周波数パターン、ピッチ
パターンおよび母音中心のパワー情報等とに基づいて算
出された評価値に基づいて、波形辞書に蓄積されている
音素単位( 素片) 組み合わせの中で、最適な組み合わ
せ、つまり歪みが最も少なくなる組み合わせが選択され
る。
【0006】音声波形生成部4では、選択された音素単
位の組み合わせにしたがって、ピッチを変換しつつ音素
単位の接続を行なうことによって音声が生成される。
位の組み合わせにしたがって、ピッチを変換しつつ音素
単位の接続を行なうことによって音声が生成される。
【0007】ところで、音素単位選択部3では、波形辞
書に蓄積されている音素単位の組み合わせの中で、歪み
が少なくなる組み合わせを選択しているが、この歪みに
は次のようなものがある。
書に蓄積されている音素単位の組み合わせの中で、歪み
が少なくなる組み合わせを選択しているが、この歪みに
は次のようなものがある。
【0008】つまり、図2に示すように、ui-1 、
ui 、ui+1 を辞書から抽出した素片として、ti-1 、
ti 、ti+1 を実際に使用する環境( ターゲット)とす
ると、ui に対する歪みには、Ci t と、Ci c とがあ
る。
ui 、ui+1 を辞書から抽出した素片として、ti-1 、
ti 、ti+1 を実際に使用する環境( ターゲット)とす
ると、ui に対する歪みには、Ci t と、Ci c とがあ
る。
【0009】ここで、Ci t は、i番目の音素について
辞書から抽出した素片(ui )と実際に使用する環境(
ターゲットti )との間の歪みである。また、C
i c は、i番目の素片(ui )と、i−1番目の素片
(ui-1 )とを接続したときに生じる歪みである。音素
単位選択部3は、動的計画法(DP法)に用いて素片を
接続していき、入力された全ての音素に対するCi t と
Ci c との総和Call が最小となる素片の組み合わせを
選択する。
辞書から抽出した素片(ui )と実際に使用する環境(
ターゲットti )との間の歪みである。また、C
i c は、i番目の素片(ui )と、i−1番目の素片
(ui-1 )とを接続したときに生じる歪みである。音素
単位選択部3は、動的計画法(DP法)に用いて素片を
接続していき、入力された全ての音素に対するCi t と
Ci c との総和Call が最小となる素片の組み合わせを
選択する。
【0010】Ci t は、次の数式1で表される。
【0011】
【数1】
【0012】数式1において、各変数は、次のように定
義される。
義される。
【0013】DPOW t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )のパワー(PO
W Dic (i) )と、実際に使用する環境(ターゲット
ti )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
について、辞書から抽出した素片(ui )のパワー(PO
W Dic (i) )と、実際に使用する環境(ターゲット
ti )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
【0014】WPOW t は、DPOW t (ti ,ui )に対
する重み係数である。
する重み係数である。
【0015】DF0 t (ti ,ui )は、i番目の音素に
ついて、辞書から抽出した素片(u i )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
ti )の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
ついて、辞書から抽出した素片(u i )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
ti )の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
【0016】WF0 t は、DF0 t (ti ,ui )に対す
る重み係数である。
る重み係数である。
【0017】DDUR t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )の継続時間長
( DURDic (i) )と、実際に使用する環境(ターゲット
ti)の継続時間長( DURT (i) )との間の距離の自乗
であり、{( DURDic (i) )−( DURT (i) )}2 とな
る。
について、辞書から抽出した素片(ui )の継続時間長
( DURDic (i) )と、実際に使用する環境(ターゲット
ti)の継続時間長( DURT (i) )との間の距離の自乗
であり、{( DURDic (i) )−( DURT (i) )}2 とな
る。
【0018】WDUR t は、DDUR t (ti ,ui )に対
する重み係数である。
する重み係数である。
【0019】Ci c は、次の数式2で表される。
【0020】
【数2】
【0021】数式2において、各変数は、次のように定
義される。
義される。
【0022】DPOW c (ui ,ui-1 )は、i番目の素
片(ui )の始端のパワー(POW Di cS(i) )と、i−1
番目の素片(ui-1 )の終端のパワー(POW DicE(i-1)
)との間の距離の自乗であり、{(POW DicS(i) )−
(POW DicE(i-1) )}2 となる。
片(ui )の始端のパワー(POW Di cS(i) )と、i−1
番目の素片(ui-1 )の終端のパワー(POW DicE(i-1)
)との間の距離の自乗であり、{(POW DicS(i) )−
(POW DicE(i-1) )}2 となる。
【0023】WPOW c は、DPOW c (ui ,ui-1 )に
対する重み係数である。
対する重み係数である。
【0024】DF0 c (ui ,ui-1 )は、i番目の素片
(ui )の始端の基本周波数( FO DicS(i) )と、i−
1番目の素片(ui-1 )の終端の基本周波数(FODicE
(i-1))との間の距離の自乗であり、{( FO DicS(i)
)−(FODicE (i-1))}2 となる。
(ui )の始端の基本周波数( FO DicS(i) )と、i−
1番目の素片(ui-1 )の終端の基本周波数(FODicE
(i-1))との間の距離の自乗であり、{( FO DicS(i)
)−(FODicE (i-1))}2 となる。
【0025】WF0 c は、DF0 c (ui ,ui-1 )に対す
る重み係数である。
る重み係数である。
【0026】DSPC c (ui ,ui-1 )は、i番目の素
片(ui )の始端のスペクトル( SPCDicS(i,j), j=1
〜16 )と、i−1番目の素片(ui-1 )の終端のスペ
クトル( SPCDicE(i-1,j) , j =1 〜16)との間の距離
の自乗であり、{( SPCDicS(i,j) )−( SPCDicE(i-
1,j) )}2 となる。
片(ui )の始端のスペクトル( SPCDicS(i,j), j=1
〜16 )と、i−1番目の素片(ui-1 )の終端のスペ
クトル( SPCDicE(i-1,j) , j =1 〜16)との間の距離
の自乗であり、{( SPCDicS(i,j) )−( SPCDicE(i-
1,j) )}2 となる。
【0027】WSPC c は、DSPC c (ui ,ui-1 )に
対する重み係数である。
対する重み係数である。
【0028】入力された全ての音素に対するCi t とC
i c との総和Call は、次の数式3で表される。
i c との総和Call は、次の数式3で表される。
【0029】
【数3】
【0030】
【発明が解決しようとする課題】ところで、上述したよ
うに音声合成方法によれば、品質の高い合成音声、つま
り、自然発話に近い合成音声を得ることができる。しか
しながら、自然発話には”なまけ”が含まれているた
め、自然発話に近い合成音声が再現されると流暢ではあ
るが、明瞭性に欠ける音声が生成される場合がある。
うに音声合成方法によれば、品質の高い合成音声、つま
り、自然発話に近い合成音声を得ることができる。しか
しながら、自然発話には”なまけ”が含まれているた
め、自然発話に近い合成音声が再現されると流暢ではあ
るが、明瞭性に欠ける音声が生成される場合がある。
【0031】しかしながら、音声合成の用途あるいは読
み上げる内容によっては、流暢さよりも明瞭性が要求さ
れる場合もある。たとえば、金額の読み上げ、住所の読
み上げでは、流暢さよりも明瞭性を向上させることが要
求される場合がある。
み上げる内容によっては、流暢さよりも明瞭性が要求さ
れる場合もある。たとえば、金額の読み上げ、住所の読
み上げでは、流暢さよりも明瞭性を向上させることが要
求される場合がある。
【0032】この発明は、流暢さよりも明瞭性を重視す
る場合には、明瞭性を重視した音声合成を行え、明瞭性
よりも流暢さを重視する場合には、流暢さを重視した音
声合成を行えるようになる音声合成方法を提供すること
を目的とする。
る場合には、明瞭性を重視した音声合成を行え、明瞭性
よりも流暢さを重視する場合には、流暢さを重視した音
声合成を行えるようになる音声合成方法を提供すること
を目的とする。
【0033】
【課題を解決するための手段】この発明による音声合成
方法は、辞書に蓄積されている音素単位の組み合わせの
中で、歪みが最も少なくなる組み合わせを選択する音素
単位選択型の音声合成方法において、 音素単位の抽出
環境と使用環境との違いによる歪みとして、流暢な合成
音声を生成する場合に除去されるべき第1の歪み要素
と、明確な合成音声を生成する場合に除去されるべき第
2の歪み要素との和からなり、かつ変数αを0≦α≦1
の範囲内の値とし、第1の歪み要素と第2の歪み要素と
のうち一方にαの重み付けを、他方に(1−α)の重み
付けを行い、αを変化させることにより、流暢さまたは
明確性の重要度を調整できるようにしたことを特徴とす
る。
方法は、辞書に蓄積されている音素単位の組み合わせの
中で、歪みが最も少なくなる組み合わせを選択する音素
単位選択型の音声合成方法において、 音素単位の抽出
環境と使用環境との違いによる歪みとして、流暢な合成
音声を生成する場合に除去されるべき第1の歪み要素
と、明確な合成音声を生成する場合に除去されるべき第
2の歪み要素との和からなり、かつ変数αを0≦α≦1
の範囲内の値とし、第1の歪み要素と第2の歪み要素と
のうち一方にαの重み付けを、他方に(1−α)の重み
付けを行い、αを変化させることにより、流暢さまたは
明確性の重要度を調整できるようにしたことを特徴とす
る。
【0034】第2の歪み要素としては、たとえば、注目
音素について辞書から選択された音素単位のスペクトル
の平均値と、注目音素を明確に発声したときの音声から
分析したスペクトルとの距離の自乗が用いられる。
音素について辞書から選択された音素単位のスペクトル
の平均値と、注目音素を明確に発声したときの音声から
分析したスペクトルとの距離の自乗が用いられる。
【0035】
【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。
の実施の形態について説明する。
【0036】音声合成装置の全体構成は、図1と同じで
ある。この実施の形態では、音素単位選択部3での処理
方法が従来と異なっている。
ある。この実施の形態では、音素単位選択部3での処理
方法が従来と異なっている。
【0037】つまり、音素単位選択部3において、素片
の組み合わせを選択するために用いられる2種の歪みC
i t 、Ci c のうち、Ci t を求める式が従来と異なっ
ている。
の組み合わせを選択するために用いられる2種の歪みC
i t 、Ci c のうち、Ci t を求める式が従来と異なっ
ている。
【0038】この実施の形態では、Ci t は次式4で示
される。
される。
【0039】
【数4】
【0040】数式4において、各変数は、次のように定
義される。
義される。
【0041】DPOW t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )のパワー(PO
W Dic (i) )と、実際に使用する環境(ターゲット
ti )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
について、辞書から抽出した素片(ui )のパワー(PO
W Dic (i) )と、実際に使用する環境(ターゲット
ti )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
【0042】WPOW t は、DPOW t (ti ,ui )に対
する重み係数である。
する重み係数である。
【0043】DF0 t (ti ,ui )は、i番目の音素に
ついて、辞書から抽出した素片(u i )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
ti )の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
ついて、辞書から抽出した素片(u i )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
ti )の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
【0044】WF0 t は、DF0 t (ti ,ui )に対す
る重み係数である。
る重み係数である。
【0045】DDUR t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )の継続時間長
( DURDic (i) )と、実際に使用する環境(ターゲット
ti)の継続時間長( DURT (i) )との間の距離の自乗
であり、{( DURDic (i) )−( DURT (i) )}2 とな
る。
について、辞書から抽出した素片(ui )の継続時間長
( DURDic (i) )と、実際に使用する環境(ターゲット
ti)の継続時間長( DURT (i) )との間の距離の自乗
であり、{( DURDic (i) )−( DURT (i) )}2 とな
る。
【0046】WDUR t は、DDUR t (ti ,ui )に対
する重み係数である。
する重み係数である。
【0047】DSPC t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )のスペクトル
の平均値( SPC Dic (i,j),j=1 〜16)と、i番目の音
素を明確に発声したとき(たとえば、無意味語発声した
とき)の音声から分析したスペクトル( SPCr (i,j),j
=1 〜16)との間の距離の自乗であり、次の数式5で表
される。スペクトルを表現するには、16次スペクトル
等が用いられる。
について、辞書から抽出した素片(ui )のスペクトル
の平均値( SPC Dic (i,j),j=1 〜16)と、i番目の音
素を明確に発声したとき(たとえば、無意味語発声した
とき)の音声から分析したスペクトル( SPCr (i,j),j
=1 〜16)との間の距離の自乗であり、次の数式5で表
される。スペクトルを表現するには、16次スペクトル
等が用いられる。
【0048】
【数5】
【0049】WSPC t は、DSPC t (ti ,ui )に対
する重み係数である。
する重み係数である。
【0050】αは、流暢性を重要視するか、明瞭性を重
要視するかを決定する変数であり、0≦α≦1の範囲内
で選択される。
要視するかを決定する変数であり、0≦α≦1の範囲内
で選択される。
【0051】数式4の右辺において、(1−α)を係数
とする項が、流暢さのある合成音声を生成する場合に除
去されるべき第1の歪み要素であり、従来においてCi
t として用いられてた内容と同じである。数式4の右辺
において、αを係数とする項が、明確性のある合成音声
を生成する場合に除去されるべき第2の歪み要素であ
る。
とする項が、流暢さのある合成音声を生成する場合に除
去されるべき第1の歪み要素であり、従来においてCi
t として用いられてた内容と同じである。数式4の右辺
において、αを係数とする項が、明確性のある合成音声
を生成する場合に除去されるべき第2の歪み要素であ
る。
【0052】αの値が大きくなるほど音素単位選択時に
おいて明瞭性が重視され、αの値が小さくなるほど流暢
さが重視される。合成する単語の種類、たとえば、数値
または固有名詞である場合には、αを大きくすることが
可能となる。また、入力テキストに明瞭性を重視する単
語にはタグを入れておき、タグによって示された単語に
対してはαを大きくすることが可能となる。
おいて明瞭性が重視され、αの値が小さくなるほど流暢
さが重視される。合成する単語の種類、たとえば、数値
または固有名詞である場合には、αを大きくすることが
可能となる。また、入力テキストに明瞭性を重視する単
語にはタグを入れておき、タグによって示された単語に
対してはαを大きくすることが可能となる。
【0053】
【発明の効果】この発明によれば、流暢さよりも明瞭性
を重視する場合には、明瞭性を重視した音声合成を行
え、明瞭性よりも流暢さを重視する場合には、流暢さを
重視した音声合成を行えるようになる。
を重視する場合には、明瞭性を重視した音声合成を行
え、明瞭性よりも流暢さを重視する場合には、流暢さを
重視した音声合成を行えるようになる。
【図1】音声合成装置の全体構成を示すブロック図であ
る。
る。
【図2】音素単位選択部13において、素片の組み合わ
せを選択するために用いられる2種の歪みCi t 、Ci
c を説明するための模式図である。
せを選択するために用いられる2種の歪みCi t 、Ci
c を説明するための模式図である。
Claims (2)
- 【請求項1】 辞書に蓄積されている音素単位の組み合
わせの中で、歪みが最も少なくなる組み合わせを選択す
る音素単位選択型の音声合成方法において、 音素単位の抽出環境と使用環境との違いによる歪みとし
て、流暢な合成音声を生成する場合に除去されるべき第
1の歪み要素と、明確な合成音声を生成する場合に除去
されるべき第2の歪み要素との和からなり、かつ変数α
を0≦α≦1の範囲内の値とし、第1の歪み要素と第2
の歪み要素とのうち一方にαの重み付けを、他方に(1
−α)の重み付けを行い、αを変化させることにより、
流暢さまたは明確性の重要度を調整できるようにしたこ
とを特徴とする音声合成方法。 - 【請求項2】 第2の歪み要素は、注目音素について辞
書から選択された音素単位のスペクトルの平均値と、注
目音素を明確に発声したときの音声から分析したスペク
トルとの距離の自乗が用いられる請求項1に記載の音声
合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26988399A JP2001092480A (ja) | 1999-09-24 | 1999-09-24 | 音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26988399A JP2001092480A (ja) | 1999-09-24 | 1999-09-24 | 音声合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001092480A true JP2001092480A (ja) | 2001-04-06 |
Family
ID=17478550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26988399A Pending JP2001092480A (ja) | 1999-09-24 | 1999-09-24 | 音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001092480A (ja) |
-
1999
- 1999-09-24 JP JP26988399A patent/JP2001092480A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3361066B2 (ja) | 音声合成方法および装置 | |
Isewon et al. | Design and implementation of text to speech conversion for visually impaired people | |
JP2000305585A (ja) | 音声合成装置 | |
JP3576840B2 (ja) | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 | |
JP2005004104A (ja) | 規則音声合成装置及び規則音声合成方法 | |
US7558727B2 (en) | Method of synthesis for a steady sound signal | |
JPH01284898A (ja) | 音声合成方法 | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
Lukaszewicz et al. | Microphonemic method of speech synthesis | |
JP2001092480A (ja) | 音声合成方法 | |
JPH06318094A (ja) | 音声規則合成装置 | |
JP3423276B2 (ja) | 音声合成方法 | |
JP3113101B2 (ja) | 音声合成装置 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JPH09179576A (ja) | 音声合成方法 | |
JP3059751B2 (ja) | 残差駆動型音声合成装置 | |
JP2703253B2 (ja) | 音声合成装置 | |
JPH1097268A (ja) | 音声合成装置 | |
JP2004347994A (ja) | 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム | |
JP2004206144A (ja) | 基本周波数パタン生成方法、及びプログラム記録媒体 | |
JP3515268B2 (ja) | 音声合成装置 | |
JP2001312300A (ja) | 音声合成装置 | |
Min et al. | A hybrid approach to synthesize high quality Cantonese speech | |
van Santen et al. | When will synthetic speech sound human: role of rules and data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050401 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050608 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051012 |