JP2002055693A - 音声合成方法 - Google Patents

音声合成方法

Info

Publication number
JP2002055693A
JP2002055693A JP2000242068A JP2000242068A JP2002055693A JP 2002055693 A JP2002055693 A JP 2002055693A JP 2000242068 A JP2000242068 A JP 2000242068A JP 2000242068 A JP2000242068 A JP 2000242068A JP 2002055693 A JP2002055693 A JP 2002055693A
Authority
JP
Japan
Prior art keywords
phoneme
quality
target
speech
synthesized voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000242068A
Other languages
English (en)
Other versions
JP3423276B2 (ja
Inventor
Hiroyuki Hirai
啓之 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2000242068A priority Critical patent/JP3423276B2/ja
Publication of JP2002055693A publication Critical patent/JP2002055693A/ja
Application granted granted Critical
Publication of JP3423276B2 publication Critical patent/JP3423276B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 この発明は、波形辞書の大幅な修正を行なう
ことなく、音質劣化につながる品質の悪い音素片が最適
な音素片として選択されにくくすることができる音声合
成方法を提供することを目的とする。 【解決手段】 各音素単位の補助情報にペナルティ情報
を追加しておくステップ、ユーザが音声合成結果を聞い
て、その品質が悪い場合には、品質の悪い合成音声箇所
をユーザに入力させるステップ、ならびにユーザによっ
て入力された品質の悪い合成音声箇所が入力された場合
には、当該品質の悪い合成音声箇所に対応する音素片の
補助情報内のペナルティ情報に、当該音素片が候補とし
て選択されたときにターゲットとの歪み算出値を強制的
に大きくさせるような値を設定するステップを備えてい
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、任意のテキスト
情報を合成音声で読み上げることのできる音声合成方法
に関する。
【0002】
【従来の技術】図1は、音声合成装置の概略構成を示し
ている。
【0003】入力された日本語仮名漢字混じりのテキス
トは、言語処理部1で形態素解析、係り受け解析が行な
われ、音素記号、アクセント記号等に変換せしめられ
る。
【0004】韻律パターン生成部2では、音素記号、ア
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音韻継続時間長(声の長
さ DURT )、基本周波数(声の高さ FO T )、母音中心
のパワー(声の大きさPOW T)等の推定が行なわれる。
【0005】音素単位選択部3では、推定された音韻継
続時間長 DURT 、基本周波数 FO Tおよび母音中心のパ
ワーPOW T に最も近く、かつ波形辞書5に蓄積されてい
る音素単位( 音素片) を接続したときの歪みが最も小さ
くなる音素片の組み合わせがDP(動的プログラミン
グ)を用いて選択される。
【0006】音声波形生成部4では、選択された音素片
の組み合わせにしたがって、ピッチを変換しつつ音素片
の接続を行なうことによって音声が生成される。
【0007】図2は、波形辞書5の内容を示している。
波形辞書5は、複数の音素片が格納された音素片格納部
51と、音素片格納部51内の各音素片に関する補助情
報が格納された補助情報格納部52とがある。補助情報
には、音素片のパワー(POW Dic )、基本周波数( FO
Dic )、継続時間長( DURDic )等がある。
【0008】ところで、音素単位選択部3では、波形辞
書5に蓄積されている音素片の組み合わせの中で、歪み
が少なくなる組み合わせを選択しているが、この歪みに
は次のようなものがある。
【0009】つまり、図3に示すように、ui-1
i 、ui+1 を波形辞書5から抽出した音素片として、
i-1 、ti 、ti+1 を実際に使用する環境( ターゲッ
ト)とすると、ui に対する歪みには、Ci t と、Ci
c とがある。
【0010】ここで、Ci t は、i番目の音素について
辞書から抽出した音素片(ui )と実際に使用する環境
( ターゲットti )との間の歪みである。また、Ci c
は、i番目の音素片(ui )と、i−1番目の素片(u
i-1 )とを接続したときに生じる歪みである。音素単位
選択部3は、動的計画法(DP法)に用いて音素片を接
続していき、入力された全ての音素に対するCi t とC
i c との総和Call が最小となる素片の組み合わせを選
択する。
【0011】Ci t は、次の数式1で表される。
【0012】
【数1】
【0013】数式1において、各変数は、次のように定
義される。
【0014】DPOW t (ti ,ui )は、i番目の音素
について、辞書から抽出した音素片(ui )のパワー
(POW Dic (i) )と、実際に使用する環境(ターゲット
i )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
【0015】wPOW t は、DPOW t (ti ,ui )に対
する重み係数である。
【0016】DF0 t (ti ,ui )は、i番目の音素に
ついて、辞書から抽出した音素片(ui )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
i)の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
【0017】wF0 t は、DF0 t (ti ,ui )に対す
る重み係数である。
【0018】DDUR t (ti ,ui )は、i番目の音素
について、辞書から抽出した音素片(ui )の継続時間
長( DURDic (i) )と、実際に使用する環境(ターゲッ
トt i )の継続時間長( DURT (i) )との間の距離の自
乗であり、{( DURDic (i))−( DURT (i) )}2
なる。
【0019】wDUR t は、DDUR t (ti ,ui )に対
する重み係数である。
【0020】Ci c は、次の数式2で表される。
【0021】
【数2】
【0022】数式2において、各変数は、次のように定
義される。
【0023】DPOW c (ui ,ui-1 )は、i番目の音
素片(ui )の始端のパワー(POW DicS(i) )と、i−
1番目の音素片(ui-1 )の終端のパワー(POW DicE(i
-1))との間の距離の自乗であり、{(POW DicS(i) )
−(POW DicE(i-1) )}2 となる。
【0024】wPOW c は、DPOW c (ui ,ui-1 )に
対する重み係数である。
【0025】DF0 c (ui ,ui-1 )は、i番目の音素
片(ui )の始端の基本周波数( FO DicS(i) )と、i
−1番目の音素片(ui-1 )の終端の基本周波数(FO
DicE (i-1))との間の距離の自乗であり、{( FO DicS
(i) )−(FODicE (i-1))}2となる。
【0026】wF0 c は、DF0 c (ui ,ui-1 )に対す
る重み係数である。
【0027】DSPC c (ui ,ui-1 )は、i番目の音
素片(ui )の始端のスペクトル(SPCDicS(i,j), j=1
〜16 )と、i−1番目の音素片(ui-1 )の終端の
スペクトル( SPCDicE(i-1,j) , j =1 〜16)との間の
距離の自乗であり、{( SPC DicS(i,j) )−( SPCDicE
(i-1,j) )}2 となる。
【0028】wSPC c は、DSPC c (ui ,ui-1 )に
対する重み係数である。
【0029】入力された全ての音素に対するCi t とC
i c との総和Call は、次の数式3で表される。
【0030】
【数3】
【0031】
【発明が解決しようとする課題】ところで、上述したよ
うに音声合成方法によれば、品質の高い合成音声、つま
り、自然発話に近い合成音声を得ることができる。しか
しながら、自然発話から作成した音素片には、”なま
け”、”いいよどみ”など、実際に選択された場合に音
質の劣化につながる音素片が存在している可能性が高
い。このような音素片を含まないように波形辞書5を作
成することが好ましいが、実際上には音質劣化につなが
る音素片をすべて取り除いて波形辞書5を作成すること
は困難である。
【0032】また、波形辞書5を作成した後に、音質劣
化につながる音素片を削除していくといったことも考え
られるが、そのようにすると、波形辞書5の大幅な修正
が必要となる。
【0033】この発明は、波形辞書の大幅な修正を行な
うことなく、音質劣化につながる品質の悪い音素片が最
適な音素片として選択されにくくすることができる音声
合成方法を提供することを目的とする。
【0034】
【課題を解決するための手段】この発明による第1の音
声合成方法は、複数の音声単位と各音素単位毎にターゲ
ットとの歪みを算出するために用いられる補助情報とが
波形辞書に格納されており、波形辞書に格納されている
音素単位の組み合わせの中で、ターゲットとの歪みが最
も少なくなる組み合わせを選択する音素単位選択型の音
声合成方法において、各音素単位の補助情報にペナルテ
ィ情報を追加しておくステップ、ユーザが音声合成結果
を聞いて、その品質が悪い場合には、品質の悪い合成音
声箇所をユーザに入力させるステップ、ならびにユーザ
によって入力された品質の悪い合成音声箇所が入力され
た場合には、当該品質の悪い合成音声箇所に対応する音
素片の補助情報内のペナルティ情報に、当該音素片が候
補として選択されたときにターゲットとの歪み算出値を
強制的に大きくさせるような値を設定するステップを備
えていることを特徴とする。
【0035】この発明による第2の音声合成方法は、複
数の音声単位と各音素単位毎にターゲットに対する適応
度を算出するために用いられる補助情報とが波形辞書に
格納されており、波形辞書に格納されている音素単位の
組み合わせの中で、ターゲットに対する適応度が最も大
きくなる組み合わせを選択する音素単位選択型の音声合
成方法において、各音素単位の補助情報に優先度情報を
追加しておくステップ、ユーザが音声合成結果を聞い
て、その品質が悪い場合には、品質の悪い合成音声箇所
をユーザに入力させるステップ、ならびにユーザによっ
て入力された品質の悪い合成音声箇所が入力された場合
には、当該品質の悪い合成音声箇所に対応する音素片の
補助情報内の優先度情報に、当該音素片が候補として選
択されたときにターゲットに対する適応度の算出値を強
制的に小さくさせるような値を設定するステップを備え
ていることを特徴とする。
【0036】
【発明の実施の形態】以下、この発明の実施の形態につ
いて説明する。
【0037】〔1〕第1の実施の形態の説明 音声合成装置の全体構成は、図1と同じである。
【0038】第1の実施の形態では、次の点(1)、
(2)、(3)が従来と異なっている。
【0039】(1) 図4に示すように、各音素片の補
助情報に、ペナルティー情報Dt pri(ui )を追加す
る。ペナルティー情報Dt pri (ui )の初期値は、0
である。
【0040】(2) 音素単位選択部3で歪みCall
算出するためのCi t に、ペナルティー情報D
t pri (ui )をパラメータとして加える。
【0041】つまり、Ci t は、次の数式4で表わされ
る。
【0042】
【数4】
【0043】(3) ユーザが音声合成結果を聞いて、
その品質が悪い場合には、品質の悪い合成音声箇所を音
声合成装置に入力するようにする。音声合成装置は、ユ
ーザによって入力された品質の悪い合成音声箇所が入力
された場合には、品質の悪い合成音声箇所に対応する音
素片の補助情報内のペナルティー情報Dt pri (ui
の値を、所定値αに設定する。
【0044】この所定値αとしては、たとえば、数式1
の Ci t の予想される最大値の約100倍の値が用い
られる。具体的には、任意数の文章を入力したときの数
式1の最大値を実験により求めておき、その最大値の1
00倍の値を、所定値αとして設定する。
【0045】上記(1),(2),(3)のような変更
を行なうことにより、ペナルティー情報D
t pri (ui )の値としてαが設定されている品質の悪
い音素片(ui )が候補として選択された場合には、そ
の音素片とターゲットとの歪みCi t が、従来法に比べ
てα分だけ大きくなり、当該音素片(ui )が最適な音
素片として選択されにくくなる。
【0046】上記実施の形態によれば、波形辞書内に品
質の悪い音素片が存在している場合に、その音素片を削
除するといった大幅な辞書の修正を行なうことなく、音
素片の補助情報にペナルティー情報Dt pri (ui )を
追加するといった小規模な修正を行なうことによって、
品質の悪い音素片を選択されにくくすることができるよ
うになる。
【0047】高品質の音声合成装置の場合には、波形辞
書内の音素片格納部には6万個程度の音素片が格納され
るため、音素片格納部の容量は数十MBに及ぶが、波形
辞書内の補助情報格納部の容量は数MBというように、
音素片格納部の容量の十分の1以下とである。このた
め、上記実施の形態のように補助情報格納部のみの修正
を行なう方が容易である。また、音素片の削除に品質の
改善を行なう従来方法では、波形辞書全てを置き換える
必要があるが、上記実施の形態の方法では補助情報にペ
ナルティー情報Dt pri (ui )を追加するといった修
正のみであるため、波形辞書の一部の変更のみで修正が
可能である。
【0048】また、ユーザが自由に波形辞書から品質の
悪い音素片を削除することにより、合成音声の品質を改
善させることも考えられるが、音素の種類によってはそ
の音素に対応する全ての音素片を削除してしまうおそれ
がある。そうすると、当該音素を含む文章に対して合成
音声を生成できなくなる可能性がある。
【0049】これに対して、上記実施の形態による方法
では、たとえ、ある音素に対応する全ての音素片に対す
るペナルティー情報Dt pri (ui )の値が所定値αに
設定されたとしても、当該音素を音声合成する際には、
その音素に対応する音素片の中で最適な音素片が選択さ
れるため、当該音素に対して合成音声を生成することが
できるという利点がある。
【0050】〔2〕第2の実施の形態の説明 第1の実施の形態においては、音素単位選択部3では、
波形辞書に蓄積されている音素片の組み合わせの中で、
歪みが少なくなる組み合わせを選択しているが、音素単
位選択部として、波形辞書に蓄積されている音素片の組
み合わせの中で、適応度が大きくなる組み合わせを選択
するものが知られている。
【0051】適応度Sall は、一般的に次の数式5で表
される。
【0052】
【数5】
【0053】数式5においてSi t は、i番目の音素に
ついて辞書から抽出した音素片(u i )と実際に使用す
る環境( ターゲットti )との間の類似度を示してお
り、次の数式6で表される。数式6中の各変数は、数式
1中の変数と同じである。
【0054】
【数6】
【0055】また、数式5において、Si c は、i番目
の音素について辞書から選択した音素片(ui )の始端
と、i−1番目の音素について辞書から選択した音素片
(u i-1 )の終端との間の類似度を示しており、次の数
式7で表される。数式7中の各変数は、数式2中の変数
と同じである。
【0056】
【数7】
【0057】第2の実施の形態では、次の点(1)、
(2)、(3)が、適応度を用いて音素単位を選択する
従来例と異なっている。
【0058】(1) 各音素片の補助情報に、優先度情
報Et pri (ui )を追加する。優先度情報E
t pri (ui )の初期値は、所定値である。
【0059】(2) 音素単位選択部3で適応度Sall
を算出するためのSi t に、優先度情報E
t pri (ui )をパラメータとして加える。
【0060】つまり、Si t は、次式8で表わされる。
【0061】
【数8】
【0062】(3) ユーザが音声合成結果を聞いて、
その品質が悪い場合には、品質の悪い合成音声箇所を音
声合成装置に入力するようにする。音声合成装置は、ユ
ーザによって入力された品質の悪い合成音声箇所が入力
された場合には、品質の悪い合成音声箇所に対応する音
素片の補助情報内の優先度情報Et pri (ui )の値
を、初期値より小さい値に設定する。
【0063】
【発明の効果】この発明によれば、波形辞書の大幅な修
正を行なうことなく、音質劣化につながる品質の悪い音
素片が最適な音素片として選択されにくくすることがで
きる。
【図面の簡単な説明】
【図1】音声合成装置の全体構成を示すブロック図であ
る。
【図2】波形辞書5の内容を示す模式図である。
【図3】音素単位選択部3において、音素片の組み合わ
せを選択するために用いられる2種の歪みCi t 、Ci
c を説明するための模式図である。
【図4】品質の悪い合成音声箇所に対応する音素片の補
助情報に、ペナルティー情報D t pri を追加された様子
を示す模式図である。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数の音声単位と各音素単位毎にターゲ
    ットとの歪みを算出するために用いられる補助情報とが
    波形辞書に格納されており、波形辞書に格納されている
    音素単位の組み合わせの中で、ターゲットとの歪みが最
    も少なくなる組み合わせを選択する音素単位選択型の音
    声合成方法において、 各音素単位の補助情報にペナルティ情報を追加しておく
    ステップ、 ユーザが音声合成結果を聞いて、その品質が悪い場合に
    は、品質の悪い合成音声箇所をユーザに入力させるステ
    ップ、ならびにユーザによって入力された品質の悪い合
    成音声箇所が入力された場合には、当該品質の悪い合成
    音声箇所に対応する音素片の補助情報内のペナルティ情
    報に、当該音素片が候補として選択されたときにターゲ
    ットとの歪み算出値を強制的に大きくさせるような値を
    設定するステップ、 を備えていることを特徴とする音声合成方法。
  2. 【請求項2】 複数の音声単位と各音素単位毎にターゲ
    ットに対する適応度を算出するために用いられる補助情
    報とが波形辞書に格納されており、波形辞書に格納され
    ている音素単位の組み合わせの中で、ターゲットに対す
    る適応度が最も大きくなる組み合わせを選択する音素単
    位選択型の音声合成方法において、 各音素単位の補助情報に優先度情報を追加しておくステ
    ップ、 ユーザが音声合成結果を聞いて、その品質が悪い場合に
    は、品質の悪い合成音声箇所をユーザに入力させるステ
    ップ、ならびにユーザによって入力された品質の悪い合
    成音声箇所が入力された場合には、当該品質の悪い合成
    音声箇所に対応する音素片の補助情報内の優先度情報
    に、当該音素片が候補として選択されたときにターゲッ
    トに対する適応度の算出値を強制的に小さくさせるよう
    な値を設定するステップ、 を備えていることを特徴とする音声合成方法。
JP2000242068A 2000-08-10 2000-08-10 音声合成方法 Expired - Fee Related JP3423276B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000242068A JP3423276B2 (ja) 2000-08-10 2000-08-10 音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000242068A JP3423276B2 (ja) 2000-08-10 2000-08-10 音声合成方法

Publications (2)

Publication Number Publication Date
JP2002055693A true JP2002055693A (ja) 2002-02-20
JP3423276B2 JP3423276B2 (ja) 2003-07-07

Family

ID=18733149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000242068A Expired - Fee Related JP3423276B2 (ja) 2000-08-10 2000-08-10 音声合成方法

Country Status (1)

Country Link
JP (1) JP3423276B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148172A (ja) * 2005-11-29 2007-06-14 Matsushita Electric Ind Co Ltd 声質制御装置および方法およびプログラム記憶媒体
JP2011215419A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 音声合成装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148172A (ja) * 2005-11-29 2007-06-14 Matsushita Electric Ind Co Ltd 声質制御装置および方法およびプログラム記憶媒体
JP4664194B2 (ja) * 2005-11-29 2011-04-06 パナソニック株式会社 声質制御装置および方法およびプログラム記憶媒体
JP2011215419A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 音声合成装置
US8554565B2 (en) 2010-03-31 2013-10-08 Kabushiki Kaisha Toshiba Speech segment processor

Also Published As

Publication number Publication date
JP3423276B2 (ja) 2003-07-07

Similar Documents

Publication Publication Date Title
JP3361066B2 (ja) 音声合成方法および装置
JP3913770B2 (ja) 音声合成装置および方法
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JPH10171484A (ja) 音声合成方法および装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP3346671B2 (ja) 音声素片選択方法および音声合成装置
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP4170819B2 (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP2002055693A (ja) 音声合成方法
JP2004347653A (ja) 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP5198200B2 (ja) 音声合成装置及び方法
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5862667B2 (ja) 波形処理装置、波形処理方法および波形処理プログラム
JP4056319B2 (ja) 音声合成方法
JP2005321520A (ja) 音声合成装置及びそのプログラム
JP2000231395A (ja) 音声合成方法及び装置
JP4414864B2 (ja) 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体
JP4223783B2 (ja) 音声合成装置、音声合成方法、音声合成プログラム、および、プログラム記録媒体
JP2004233774A (ja) 音声合成方法及び装置、並びに音声合成プログラム
JPH09230893A (ja) 規則音声合成方法及び音声合成装置
JP2005241789A (ja) 素片接続型音声合成装置及び方法、並びに音声素片データベースの作成方法
JP4805121B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2004347994A (ja) 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees