JP2001092480A - 音声合成方法 - Google Patents

音声合成方法

Info

Publication number
JP2001092480A
JP2001092480A JP26988399A JP26988399A JP2001092480A JP 2001092480 A JP2001092480 A JP 2001092480A JP 26988399 A JP26988399 A JP 26988399A JP 26988399 A JP26988399 A JP 26988399A JP 2001092480 A JP2001092480 A JP 2001092480A
Authority
JP
Japan
Prior art keywords
phoneme
distortion
speech
clarity
fluency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP26988399A
Other languages
English (en)
Inventor
Hiroyuki Hirai
啓之 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP26988399A priority Critical patent/JP2001092480A/ja
Publication of JP2001092480A publication Critical patent/JP2001092480A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 この発明は、流暢さよりも明瞭性を重視する
場合には、明瞭性を重視した音声合成を行え、明瞭性よ
りも流暢さを重視する場合には、流暢さを重視した音声
合成を行えるようになる音声合成方法を提供することを
目的とする。 【解決手段】 音素単位の抽出環境と使用環境との違い
による歪みとして、流暢な合成音声を生成する場合に除
去されるべき第1の歪み要素と、明確な合成音声を生成
する場合に除去されるべき第2の歪み要素との和からな
り、かつ変数αを0≦α≦1の範囲内の値とし、第1の
歪み要素と第2の歪み要素とのうち一方にαの重み付け
を、他方に(1−α)の重み付けを行い、αを変化させ
ることにより、流暢さまたは明確性の重要度を調整でき
るようにした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、任意のテキスト
情報を合成音声で読み上げることのできる音声合成方法
に関する。
【0002】
【従来の技術】図1は、音声合成装置の概略構成を示し
ている。
【0003】入力された日本語仮名漢字混じりのテキス
トは、言語処理部1で形態素解析、係り受け解析が行な
われ、音素記号、アクセント記号等に変換せしめられ
る。
【0004】韻律パターン生成部2では、音素記号、ア
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音韻継続時間長(声の長
さ)、基本周波数パターン、ピッチパターン(声の高
さ)、母音中心のパワー(声の大きさ)等の推定が行な
われる。
【0005】音素単位選択部3では、音素記号列と、推
定された音韻継続時間長、基本周波数パターン、ピッチ
パターンおよび母音中心のパワー情報等とに基づいて算
出された評価値に基づいて、波形辞書に蓄積されている
音素単位( 素片) 組み合わせの中で、最適な組み合わ
せ、つまり歪みが最も少なくなる組み合わせが選択され
る。
【0006】音声波形生成部4では、選択された音素単
位の組み合わせにしたがって、ピッチを変換しつつ音素
単位の接続を行なうことによって音声が生成される。
【0007】ところで、音素単位選択部3では、波形辞
書に蓄積されている音素単位の組み合わせの中で、歪み
が少なくなる組み合わせを選択しているが、この歪みに
は次のようなものがある。
【0008】つまり、図2に示すように、ui-1
i 、ui+1 を辞書から抽出した素片として、ti-1
i 、ti+1 を実際に使用する環境( ターゲット)とす
ると、ui に対する歪みには、Ci t と、Ci c とがあ
る。
【0009】ここで、Ci t は、i番目の音素について
辞書から抽出した素片(ui )と実際に使用する環境(
ターゲットti )との間の歪みである。また、C
i c は、i番目の素片(ui )と、i−1番目の素片
(ui-1 )とを接続したときに生じる歪みである。音素
単位選択部3は、動的計画法(DP法)に用いて素片を
接続していき、入力された全ての音素に対するCi t
i c との総和Call が最小となる素片の組み合わせを
選択する。
【0010】Ci t は、次の数式1で表される。
【0011】
【数1】
【0012】数式1において、各変数は、次のように定
義される。
【0013】DPOW t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )のパワー(PO
W Dic (i) )と、実際に使用する環境(ターゲット
i )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
【0014】WPOW t は、DPOW t (ti ,ui )に対
する重み係数である。
【0015】DF0 t (ti ,ui )は、i番目の音素に
ついて、辞書から抽出した素片(u i )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
i )の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
【0016】WF0 t は、DF0 t (ti ,ui )に対す
る重み係数である。
【0017】DDUR t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )の継続時間長
( DURDic (i) )と、実際に使用する環境(ターゲット
i)の継続時間長( DURT (i) )との間の距離の自乗
であり、{( DURDic (i) )−( DURT (i) )}2 とな
る。
【0018】WDUR t は、DDUR t (ti ,ui )に対
する重み係数である。
【0019】Ci c は、次の数式2で表される。
【0020】
【数2】
【0021】数式2において、各変数は、次のように定
義される。
【0022】DPOW c (ui ,ui-1 )は、i番目の素
片(ui )の始端のパワー(POW Di cS(i) )と、i−1
番目の素片(ui-1 )の終端のパワー(POW DicE(i-1)
)との間の距離の自乗であり、{(POW DicS(i) )−
(POW DicE(i-1) )}2 となる。
【0023】WPOW c は、DPOW c (ui ,ui-1 )に
対する重み係数である。
【0024】DF0 c (ui ,ui-1 )は、i番目の素片
(ui )の始端の基本周波数( FO DicS(i) )と、i−
1番目の素片(ui-1 )の終端の基本周波数(FODicE
(i-1))との間の距離の自乗であり、{( FO DicS(i)
)−(FODicE (i-1))}2 となる。
【0025】WF0 c は、DF0 c (ui ,ui-1 )に対す
る重み係数である。
【0026】DSPC c (ui ,ui-1 )は、i番目の素
片(ui )の始端のスペクトル( SPCDicS(i,j), j=1
〜16 )と、i−1番目の素片(ui-1 )の終端のスペ
クトル( SPCDicE(i-1,j) , j =1 〜16)との間の距離
の自乗であり、{( SPCDicS(i,j) )−( SPCDicE(i-
1,j) )}2 となる。
【0027】WSPC c は、DSPC c (ui ,ui-1 )に
対する重み係数である。
【0028】入力された全ての音素に対するCi t とC
i c との総和Call は、次の数式3で表される。
【0029】
【数3】
【0030】
【発明が解決しようとする課題】ところで、上述したよ
うに音声合成方法によれば、品質の高い合成音声、つま
り、自然発話に近い合成音声を得ることができる。しか
しながら、自然発話には”なまけ”が含まれているた
め、自然発話に近い合成音声が再現されると流暢ではあ
るが、明瞭性に欠ける音声が生成される場合がある。
【0031】しかしながら、音声合成の用途あるいは読
み上げる内容によっては、流暢さよりも明瞭性が要求さ
れる場合もある。たとえば、金額の読み上げ、住所の読
み上げでは、流暢さよりも明瞭性を向上させることが要
求される場合がある。
【0032】この発明は、流暢さよりも明瞭性を重視す
る場合には、明瞭性を重視した音声合成を行え、明瞭性
よりも流暢さを重視する場合には、流暢さを重視した音
声合成を行えるようになる音声合成方法を提供すること
を目的とする。
【0033】
【課題を解決するための手段】この発明による音声合成
方法は、辞書に蓄積されている音素単位の組み合わせの
中で、歪みが最も少なくなる組み合わせを選択する音素
単位選択型の音声合成方法において、 音素単位の抽出
環境と使用環境との違いによる歪みとして、流暢な合成
音声を生成する場合に除去されるべき第1の歪み要素
と、明確な合成音声を生成する場合に除去されるべき第
2の歪み要素との和からなり、かつ変数αを0≦α≦1
の範囲内の値とし、第1の歪み要素と第2の歪み要素と
のうち一方にαの重み付けを、他方に(1−α)の重み
付けを行い、αを変化させることにより、流暢さまたは
明確性の重要度を調整できるようにしたことを特徴とす
る。
【0034】第2の歪み要素としては、たとえば、注目
音素について辞書から選択された音素単位のスペクトル
の平均値と、注目音素を明確に発声したときの音声から
分析したスペクトルとの距離の自乗が用いられる。
【0035】
【発明の実施の形態】以下、図面を参照して、この発明
の実施の形態について説明する。
【0036】音声合成装置の全体構成は、図1と同じで
ある。この実施の形態では、音素単位選択部3での処理
方法が従来と異なっている。
【0037】つまり、音素単位選択部3において、素片
の組み合わせを選択するために用いられる2種の歪みC
i t 、Ci c のうち、Ci t を求める式が従来と異なっ
ている。
【0038】この実施の形態では、Ci t は次式4で示
される。
【0039】
【数4】
【0040】数式4において、各変数は、次のように定
義される。
【0041】DPOW t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )のパワー(PO
W Dic (i) )と、実際に使用する環境(ターゲット
i )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
【0042】WPOW t は、DPOW t (ti ,ui )に対
する重み係数である。
【0043】DF0 t (ti ,ui )は、i番目の音素に
ついて、辞書から抽出した素片(u i )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
i )の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
【0044】WF0 t は、DF0 t (ti ,ui )に対す
る重み係数である。
【0045】DDUR t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )の継続時間長
( DURDic (i) )と、実際に使用する環境(ターゲット
i)の継続時間長( DURT (i) )との間の距離の自乗
であり、{( DURDic (i) )−( DURT (i) )}2 とな
る。
【0046】WDUR t は、DDUR t (ti ,ui )に対
する重み係数である。
【0047】DSPC t (ti ,ui )は、i番目の音素
について、辞書から抽出した素片(ui )のスペクトル
の平均値( SPC Dic (i,j),j=1 〜16)と、i番目の音
素を明確に発声したとき(たとえば、無意味語発声した
とき)の音声から分析したスペクトル( SPCr (i,j),j
=1 〜16)との間の距離の自乗であり、次の数式5で表
される。スペクトルを表現するには、16次スペクトル
等が用いられる。
【0048】
【数5】
【0049】WSPC t は、DSPC t (ti ,ui )に対
する重み係数である。
【0050】αは、流暢性を重要視するか、明瞭性を重
要視するかを決定する変数であり、0≦α≦1の範囲内
で選択される。
【0051】数式4の右辺において、(1−α)を係数
とする項が、流暢さのある合成音声を生成する場合に除
去されるべき第1の歪み要素であり、従来においてCi
t として用いられてた内容と同じである。数式4の右辺
において、αを係数とする項が、明確性のある合成音声
を生成する場合に除去されるべき第2の歪み要素であ
る。
【0052】αの値が大きくなるほど音素単位選択時に
おいて明瞭性が重視され、αの値が小さくなるほど流暢
さが重視される。合成する単語の種類、たとえば、数値
または固有名詞である場合には、αを大きくすることが
可能となる。また、入力テキストに明瞭性を重視する単
語にはタグを入れておき、タグによって示された単語に
対してはαを大きくすることが可能となる。
【0053】
【発明の効果】この発明によれば、流暢さよりも明瞭性
を重視する場合には、明瞭性を重視した音声合成を行
え、明瞭性よりも流暢さを重視する場合には、流暢さを
重視した音声合成を行えるようになる。
【図面の簡単な説明】
【図1】音声合成装置の全体構成を示すブロック図であ
る。
【図2】音素単位選択部13において、素片の組み合わ
せを選択するために用いられる2種の歪みCi t 、Ci
c を説明するための模式図である。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 辞書に蓄積されている音素単位の組み合
    わせの中で、歪みが最も少なくなる組み合わせを選択す
    る音素単位選択型の音声合成方法において、 音素単位の抽出環境と使用環境との違いによる歪みとし
    て、流暢な合成音声を生成する場合に除去されるべき第
    1の歪み要素と、明確な合成音声を生成する場合に除去
    されるべき第2の歪み要素との和からなり、かつ変数α
    を0≦α≦1の範囲内の値とし、第1の歪み要素と第2
    の歪み要素とのうち一方にαの重み付けを、他方に(1
    −α)の重み付けを行い、αを変化させることにより、
    流暢さまたは明確性の重要度を調整できるようにしたこ
    とを特徴とする音声合成方法。
  2. 【請求項2】 第2の歪み要素は、注目音素について辞
    書から選択された音素単位のスペクトルの平均値と、注
    目音素を明確に発声したときの音声から分析したスペク
    トルとの距離の自乗が用いられる請求項1に記載の音声
    合成方法。
JP26988399A 1999-09-24 1999-09-24 音声合成方法 Pending JP2001092480A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26988399A JP2001092480A (ja) 1999-09-24 1999-09-24 音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26988399A JP2001092480A (ja) 1999-09-24 1999-09-24 音声合成方法

Publications (1)

Publication Number Publication Date
JP2001092480A true JP2001092480A (ja) 2001-04-06

Family

ID=17478550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26988399A Pending JP2001092480A (ja) 1999-09-24 1999-09-24 音声合成方法

Country Status (1)

Country Link
JP (1) JP2001092480A (ja)

Similar Documents

Publication Publication Date Title
JP3361066B2 (ja) 音声合成方法および装置
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
JP2000305585A (ja) 音声合成装置
JP3576840B2 (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP2005004104A (ja) 規則音声合成装置及び規則音声合成方法
US7558727B2 (en) Method of synthesis for a steady sound signal
JPH01284898A (ja) 音声合成方法
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
Lukaszewicz et al. Microphonemic method of speech synthesis
JP2001092480A (ja) 音声合成方法
JPH06318094A (ja) 音声規則合成装置
JP3423276B2 (ja) 音声合成方法
JP3113101B2 (ja) 音声合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JPH09179576A (ja) 音声合成方法
JP3059751B2 (ja) 残差駆動型音声合成装置
JP2703253B2 (ja) 音声合成装置
JPH1097268A (ja) 音声合成装置
JP2004347994A (ja) 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム
JP2004206144A (ja) 基本周波数パタン生成方法、及びプログラム記録媒体
JP3515268B2 (ja) 音声合成装置
JP2001312300A (ja) 音声合成装置
Min et al. A hybrid approach to synthesize high quality Cantonese speech
van Santen et al. When will synthetic speech sound human: role of rules and data.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050608

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051012