JP3423276B2 - Voice synthesis method - Google Patents

Voice synthesis method

Info

Publication number
JP3423276B2
JP3423276B2 JP2000242068A JP2000242068A JP3423276B2 JP 3423276 B2 JP3423276 B2 JP 3423276B2 JP 2000242068 A JP2000242068 A JP 2000242068A JP 2000242068 A JP2000242068 A JP 2000242068A JP 3423276 B2 JP3423276 B2 JP 3423276B2
Authority
JP
Japan
Prior art keywords
phoneme
poor
quality
target
auxiliary information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000242068A
Other languages
Japanese (ja)
Other versions
JP2002055693A (en
Inventor
啓之 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2000242068A priority Critical patent/JP3423276B2/en
Publication of JP2002055693A publication Critical patent/JP2002055693A/en
Application granted granted Critical
Publication of JP3423276B2 publication Critical patent/JP3423276B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】この発明は、任意のテキスト
情報を合成音声で読み上げることのできる音声合成方法
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice synthesizing method capable of reading arbitrary text information by synthetic voice.

【0002】[0002]

【従来の技術】図1は、音声合成装置の概略構成を示し
ている。
2. Description of the Related Art FIG. 1 shows a schematic structure of a speech synthesizer.

【0003】入力された日本語仮名漢字混じりのテキス
トは、言語処理部1で形態素解析、係り受け解析が行な
われ、音素記号、アクセント記号等に変換せしめられ
る。
The input text containing Japanese kana and kanji characters is subjected to morphological analysis and dependency analysis in the language processing unit 1 and converted into phoneme symbols, accent symbols and the like.

【0004】韻律パターン生成部2では、音素記号、ア
クセント記号列および形態素解析結果から得られる入力
テキストの品詞情報を用いて、音韻継続時間長(声の長
さ DURT )、基本周波数(声の高さ FO T )、母音中心
のパワー(声の大きさPOW T)等の推定が行なわれる。
The prosody pattern generation unit 2 uses the phoneme symbol, the accent symbol string, and the part-of-speech information of the input text obtained from the result of morphological analysis, and uses the phoneme duration (voice length DUR T ) and the fundamental frequency (voice Pitch (FO T ), power of vowel center (loudness POW T ) and so on are estimated.

【0005】音素単位選択部3では、推定された音韻継
続時間長 DURT 、基本周波数 FO Tおよび母音中心のパ
ワーPOW T に最も近く、かつ波形辞書5に蓄積されてい
る音素単位( 音素片) を接続したときの歪みが最も小さ
くなる音素片の組み合わせがDP(動的プログラミン
グ)を用いて選択される。
[0005] In the phoneme unit selector 3, estimated phoneme duration DUR T, fundamental frequency FO T and closest to the power POW T vowel center, and phonemes stored in the waveform dictionary 5 (phoneme) The combination of phonemes that produces the smallest distortion when the are connected is selected using DP (dynamic programming).

【0006】音声波形生成部4では、選択された音素片
の組み合わせにしたがって、ピッチを変換しつつ音素片
の接続を行なうことによって音声が生成される。
The speech waveform generator 4 generates speech by connecting the phonemes while converting the pitch according to the selected combination of the phonemes.

【0007】図2は、波形辞書5の内容を示している。
波形辞書5は、複数の音素片が格納された音素片格納部
51と、音素片格納部51内の各音素片に関する補助情
報が格納された補助情報格納部52とがある。補助情報
には、音素片のパワー(POW Dic )、基本周波数( FO
Dic )、継続時間長( DURDic )等がある。
FIG. 2 shows the contents of the waveform dictionary 5.
The waveform dictionary 5 includes a phoneme piece storage unit 51 that stores a plurality of phoneme pieces, and an auxiliary information storage unit 52 that stores auxiliary information regarding each phoneme piece in the phoneme piece storage unit 51. The auxiliary information includes the power (POW Dic ) of the phoneme piece and the fundamental frequency (FO
Dic ), duration (DUR Dic ), etc.

【0008】ところで、音素単位選択部3では、波形辞
書5に蓄積されている音素片の組み合わせの中で、歪み
が少なくなる組み合わせを選択しているが、この歪みに
は次のようなものがある。
By the way, the phoneme unit selecting section 3 selects a combination with less distortion among the combinations of phoneme pieces stored in the waveform dictionary 5. The distortion is as follows. is there.

【0009】つまり、図3に示すように、ui-1
i 、ui+1 を波形辞書5から抽出した音素片として、
i-1 、ti 、ti+1 を実際に使用する環境( ターゲッ
ト)とすると、ui に対する歪みには、Ci t と、Ci
c とがある。
That is, as shown in FIG. 3, u i-1 ,
u i and u i + 1 are phoneme pieces extracted from the waveform dictionary 5,
Assuming that t i−1 , t i , and t i + 1 are actually used environments (targets), the distortion with respect to u i is C i t and C i.
There is c .

【0010】ここで、Ci t は、i番目の音素について
辞書から抽出した音素片(ui )と実際に使用する環境
( ターゲットti )との間の歪みである。また、Ci c
は、i番目の音素片(ui )と、i−1番目の素片(u
i-1 )とを接続したときに生じる歪みである。音素単位
選択部3は、動的計画法(DP法)に用いて音素片を接
続していき、入力された全ての音素に対するCi t とC
i c との総和Call が最小となる素片の組み合わせを選
択する。
Here, C i t is a phoneme piece (u i ) extracted from the dictionary for the i-th phoneme and the environment actually used.
(Target t i ) and the distortion. Also, C i c
Is the i-th phoneme (u i ) and the i−1-th phoneme (u i ).
i-1 ) is the distortion that occurs when and are connected. The phoneme unit selection unit 3 connects the phoneme pieces using the dynamic programming (DP method), and outputs C i t and C for all input phonemes.
A combination of the pieces that minimizes the sum C all with i c is selected.

【0011】Ci t は、次の数式1で表される。C i t is expressed by the following equation 1.

【0012】[0012]

【数1】 [Equation 1]

【0013】数式1において、各変数は、次のように定
義される。
In equation 1, each variable is defined as follows.

【0014】DPOW t (ti ,ui )は、i番目の音素
について、辞書から抽出した音素片(ui )のパワー
(POW Dic (i) )と、実際に使用する環境(ターゲット
i )のパワー(POW T (i) )との間の距離の自乗であ
り、{(POW Dic (i) )−(POW T (i) )}2 となる。
D POW t (t i , u i ) is the power (POW Dic (i)) of the phoneme piece (u i ) extracted from the dictionary for the i-th phoneme and the environment (target t) actually used. It is the square of the distance between the power of ( i ) and the power (POW T (i)) and is {(POW Dic (i)) − (POW T (i))} 2 .

【0015】wPOW t は、DPOW t (ti ,ui )に対
する重み係数である。
W POW t is a weighting factor for D POW t (t i , u i ).

【0016】DF0 t (ti ,ui )は、i番目の音素に
ついて、辞書から抽出した音素片(ui )の基本周波数
( FO Dic (i) )と、実際に使用する環境(ターゲット
i)の基本周波数( FO T (i) )との間の距離の自乗
であり、{( FO Dic (i) )−( FO T (i) )}2 とな
る。
D F0 t (t i , u i ) is the fundamental frequency (FO Dic (i)) of the phoneme piece (u i ) extracted from the dictionary for the i-th phoneme and the environment (target) to be actually used. It is the square of the distance between the fundamental frequency (FO T (i)) of t i ) and is {(FO Dic (i)) − (FO T (i))} 2 .

【0017】wF0 t は、DF0 t (ti ,ui )に対す
る重み係数である。
W F0 t is a weighting coefficient for D F0 t (t i , u i ).

【0018】DDUR t (ti ,ui )は、i番目の音素
について、辞書から抽出した音素片(ui )の継続時間
長( DURDic (i) )と、実際に使用する環境(ターゲッ
トt i )の継続時間長( DURT (i) )との間の距離の自
乗であり、{( DURDic (i))−( DURT (i) )}2
なる。
DDUR t(Ti, Ui) Is the i-th phoneme
For phonemes (ui) Duration
Length (DURDic(i)) and the actual usage environment (target
To t i) Duration (DURT(i)) the distance between
Squared, {(DURDic(i)) − (DURT(i))}2When
Become.

【0019】wDUR t は、DDUR t (ti ,ui )に対
する重み係数である。
W DUR t is a weighting coefficient for D DUR t (t i , u i ).

【0020】Ci c は、次の数式2で表される。C i c is expressed by the following equation 2.

【0021】[0021]

【数2】 [Equation 2]

【0022】数式2において、各変数は、次のように定
義される。
In equation 2, each variable is defined as follows.

【0023】DPOW c (ui ,ui-1 )は、i番目の音
素片(ui )の始端のパワー(POW DicS(i) )と、i−
1番目の音素片(ui-1 )の終端のパワー(POW DicE(i
-1))との間の距離の自乗であり、{(POW DicS(i) )
−(POW DicE(i-1) )}2 となる。
DPOW c(Ui, Ui-1) Is the i-th sound
Element (ui) Starting power (POW DicS(i)) and i-
First phoneme (ui-1) End power (POWDicE(i
-1)) is the square of the distance to {(POWDicS(i))
− (POWDicE(i-1))}2Becomes

【0024】wPOW c は、DPOW c (ui ,ui-1 )に
対する重み係数である。
W POW c is a weighting coefficient for D POW c (u i , u i-1 ).

【0025】DF0 c (ui ,ui-1 )は、i番目の音素
片(ui )の始端の基本周波数( FO DicS(i) )と、i
−1番目の音素片(ui-1 )の終端の基本周波数(FO
DicE (i-1))との間の距離の自乗であり、{( FO DicS
(i) )−(FODicE (i-1))}2となる。
D F0 c (u i , u i-1 ) is the fundamental frequency (FO DicS (i)) of the starting end of the i-th phoneme piece (u i ) and i
The fundamental frequency (FO at the end of the -1st phoneme unit (u i-1 )
DicE (i-1)) is the square of the distance to, {(FO DicS
(i))-(FO DicE (i-1))} 2 .

【0026】wF0 c は、DF0 c (ui ,ui-1 )に対す
る重み係数である。
W F0 c is a weighting coefficient for D F0 c (u i , u i-1 ).

【0027】DSPC c (ui ,ui-1 )は、i番目の音
素片(ui )の始端のスペクトル(SPCDicS(i,j), j=1
〜16 )と、i−1番目の音素片(ui-1 )の終端の
スペクトル( SPCDicE(i-1,j) , j =1 〜16)との間の
距離の自乗であり、{( SPC DicS(i,j) )−( SPCDicE
(i-1,j) )}2 となる。
DSPC c(Ui, Ui-1) Is the i-th sound
Element (ui) Beginning spectrum (SPCDicS(i, j), j = 1
 ~ 16) and the i-1th phoneme piece (ui-1) End of
Spectrum (SPCDicEbetween (i-1, j), j = 1 to 16)
It is the square of the distance, and {(SPC DicS(i, j))-(SPCDicE
(i-1, j))}2Becomes

【0028】wSPC c は、DSPC c (ui ,ui-1 )に
対する重み係数である。
W SPC c is a weighting coefficient for D SPC c (u i , u i-1 ).

【0029】入力された全ての音素に対するCi t とC
i c との総和Call は、次の数式3で表される。
C i t and C for all input phonemes
The total sum C all with i c is represented by the following Expression 3.

【0030】[0030]

【数3】 [Equation 3]

【0031】[0031]

【発明が解決しようとする課題】ところで、上述したよ
うに音声合成方法によれば、品質の高い合成音声、つま
り、自然発話に近い合成音声を得ることができる。しか
しながら、自然発話から作成した音素片には、”なま
け”、”いいよどみ”など、実際に選択された場合に音
質の劣化につながる音素片が存在している可能性が高
い。このような音素片を含まないように波形辞書5を作
成することが好ましいが、実際上には音質劣化につなが
る音素片をすべて取り除いて波形辞書5を作成すること
は困難である。
By the way, as described above, according to the voice synthesizing method, it is possible to obtain a high quality synthetic voice, that is, a synthetic voice close to natural speech. However, there is a high possibility that a phoneme piece created from a natural utterance may have a phoneme piece such as “smoothness” or “good stagnation” that leads to deterioration in sound quality when actually selected. Although it is preferable to create the waveform dictionary 5 so as not to include such phonemes, it is actually difficult to create the waveform dictionary 5 by removing all phonemes that lead to sound quality deterioration.

【0032】また、波形辞書5を作成した後に、音質劣
化につながる音素片を削除していくといったことも考え
られるが、そのようにすると、波形辞書5の大幅な修正
が必要となる。
It is also conceivable to delete the phonemes that lead to the deterioration of the sound quality after creating the waveform dictionary 5, but in that case, the waveform dictionary 5 needs to be largely modified.

【0033】この発明は、波形辞書の大幅な修正を行な
うことなく、音質劣化につながる品質の悪い音素片が最
適な音素片として選択されにくくすることができる音声
合成方法を提供することを目的とする。
It is an object of the present invention to provide a speech synthesizing method capable of making it difficult to select a phoneme piece of poor quality which leads to deterioration of sound quality as an optimum phoneme piece without making a large modification to the waveform dictionary. To do.

【0034】[0034]

【課題を解決するための手段】この発明による第1の音
声合成方法は、複数の音声単位と各音素単位毎にターゲ
ットとの歪みを算出するために用いられる補助情報とが
波形辞書に格納されており、波形辞書に格納されている
音素単位の組み合わせの中で、ターゲットとの歪みが最
も少なくなる組み合わせを選択する音素単位選択型の音
声合成方法において、各音素単位の補助情報にペナルテ
ィ情報を追加しておくステップ、ユーザが音声合成結果
を聞いて、その品質が悪い場合には、品質の悪い合成音
声箇所をユーザに入力させるステップ、ならびにユーザ
によって入力された品質の悪い合成音声箇所が入力され
た場合には、当該品質の悪い合成音声箇所に対応する音
素片の補助情報内のペナルティ情報に、当該音素片が候
補として選択されたときにターゲットとの歪み算出値を
強制的に大きくさせるような値を設定するステップを備
えていることを特徴とする。
In a first speech synthesis method according to the present invention, a plurality of speech units and auxiliary information used for calculating distortion with a target for each phoneme unit are stored in a waveform dictionary. In the phoneme unit selection type speech synthesis method, which selects the combination with the least distortion from the target among the combinations of phoneme units stored in the waveform dictionary, penalty information is added to the auxiliary information of each phoneme unit. The step of adding, the step in which the user listens to the speech synthesis result, and if the quality is poor, the step of causing the user to input the poor quality synthesized speech portion, and the poor quality synthesized speech portion input by the user are input. If this is the case, the phoneme piece is selected as a candidate for the penalty information in the auxiliary information of the phoneme piece corresponding to the poor-quality synthesized speech part. Characterized in that it comprises a step of setting a value that forcibly increases the distortion calculation value of the target when.

【0035】この発明による第2の音声合成方法は、複
数の音声単位と各音素単位毎にターゲットに対する適応
度を算出するために用いられる補助情報とが波形辞書に
格納されており、波形辞書に格納されている音素単位の
組み合わせの中で、ターゲットに対する適応度が最も大
きくなる組み合わせを選択する音素単位選択型の音声合
成方法において、各音素単位の補助情報に優先度情報を
追加しておくステップ、ユーザが音声合成結果を聞い
て、その品質が悪い場合には、品質の悪い合成音声箇所
をユーザに入力させるステップ、ならびにユーザによっ
て入力された品質の悪い合成音声箇所が入力された場合
には、当該品質の悪い合成音声箇所に対応する音素片の
補助情報内の優先度情報に、当該音素片が候補として選
択されたときにターゲットに対する適応度の算出値を強
制的に小さくさせるような値を設定するステップを備え
ていることを特徴とする。
In the second speech synthesis method according to the present invention, a plurality of speech units and auxiliary information used for calculating the fitness for the target for each phoneme unit are stored in the waveform dictionary, and the waveform dictionary stores the auxiliary information. A step of adding priority information to auxiliary information of each phoneme unit in a phoneme unit selection-type speech synthesis method that selects a combination having the largest fitness for a target among combinations of stored phoneme units. , If the user hears the speech synthesis result and the quality is poor, the step of causing the user to input the poor quality synthesized speech location, and if the poor quality synthesized speech location input by the user is input, , The priority information in the auxiliary information of the phoneme piece corresponding to the synthesized speech part of the poor quality is selected when the phoneme piece is selected as a candidate. Characterized in that it comprises a step of setting a value that is forcibly reduced calculation value of fitness for Tsu bets.

【0036】[0036]

【発明の実施の形態】以下、この発明の実施の形態につ
いて説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below.

【0037】〔1〕第1の実施の形態の説明 音声合成装置の全体構成は、図1と同じである。[1] Description of First Embodiment The overall configuration of the speech synthesizer is the same as in FIG.

【0038】第1の実施の形態では、次の点(1)、
(2)、(3)が従来と異なっている。
In the first embodiment, the following points (1),
(2) and (3) are different from conventional ones.

【0039】(1) 図4に示すように、各音素片の補
助情報に、ペナルティー情報Dt pri(ui )を追加す
る。ペナルティー情報Dt pri (ui )の初期値は、0
である。
(1) As shown in FIG. 4, penalty information D t pri (u i ) is added to the auxiliary information of each phoneme piece. The initial value of the penalty information D t pri (u i ) is 0.
Is.

【0040】(2) 音素単位選択部3で歪みCall
算出するためのCi t に、ペナルティー情報D
t pri (ui )をパラメータとして加える。
(2) The penalty information D is added to C i t for calculating the distortion C all in the phoneme unit selection unit 3.
Add t pri (u i ) as a parameter.

【0041】つまり、Ci t は、次の数式4で表わされ
る。
That is, C i t is expressed by the following equation 4.

【0042】[0042]

【数4】 [Equation 4]

【0043】(3) ユーザが音声合成結果を聞いて、
その品質が悪い場合には、品質の悪い合成音声箇所を音
声合成装置に入力するようにする。音声合成装置は、ユ
ーザによって入力された品質の悪い合成音声箇所が入力
された場合には、品質の悪い合成音声箇所に対応する音
素片の補助情報内のペナルティー情報Dt pri (ui
の値を、所定値αに設定する。
(3) The user hears the voice synthesis result,
If the quality is poor, the poor-quality synthesized speech portion is input to the speech synthesizer. When a poor-quality synthesized speech portion input by the user is input, the speech synthesis device receives penalty information D t pri (u i ) in the auxiliary information of the phoneme unit corresponding to the poor-quality synthesized speech location.
Is set to a predetermined value α.

【0044】この所定値αとしては、たとえば、数式1
の Ci t の予想される最大値の約100倍の値が用い
られる。具体的には、任意数の文章を入力したときの数
式1の最大値を実験により求めておき、その最大値の1
00倍の値を、所定値αとして設定する。
The predetermined value α is, for example, Equation 1
A value of about 100 times the expected maximum value of C i t of is used. Specifically, the maximum value of Equation 1 when an arbitrary number of sentences is input is obtained by an experiment, and the maximum value of 1 is calculated.
A value multiplied by 00 is set as the predetermined value α.

【0045】上記(1),(2),(3)のような変更
を行なうことにより、ペナルティー情報D
t pri (ui )の値としてαが設定されている品質の悪
い音素片(ui )が候補として選択された場合には、そ
の音素片とターゲットとの歪みCi t が、従来法に比べ
てα分だけ大きくなり、当該音素片(ui )が最適な音
素片として選択されにくくなる。
By making the above changes (1), (2) and (3), the penalty information D
When a poor-quality phoneme piece (u i ) for which α is set as the value of t pri (u i ) is selected as a candidate, the distortion C i t between the phoneme piece and the target is determined by the conventional method. Compared with this, it becomes larger by α, and it becomes difficult to select the phoneme piece (u i ) as the optimum phoneme piece.

【0046】上記実施の形態によれば、波形辞書内に品
質の悪い音素片が存在している場合に、その音素片を削
除するといった大幅な辞書の修正を行なうことなく、音
素片の補助情報にペナルティー情報Dt pri (ui )を
追加するといった小規模な修正を行なうことによって、
品質の悪い音素片を選択されにくくすることができるよ
うになる。
According to the above embodiment, when there is a poor quality phoneme piece in the waveform dictionary, the auxiliary information of the phoneme piece is deleted without making a large correction of the dictionary such as deleting the phoneme piece. By making a small modification such as adding penalty information D t pri (u i ) to
It becomes possible to make it difficult to select a phoneme piece with poor quality.

【0047】高品質の音声合成装置の場合には、波形辞
書内の音素片格納部には6万個程度の音素片が格納され
るため、音素片格納部の容量は数十MBに及ぶが、波形
辞書内の補助情報格納部の容量は数MBというように、
音素片格納部の容量の十分の1以下とである。このた
め、上記実施の形態のように補助情報格納部のみの修正
を行なう方が容易である。また、音素片の削除に品質の
改善を行なう従来方法では、波形辞書全てを置き換える
必要があるが、上記実施の形態の方法では補助情報にペ
ナルティー情報Dt pri (ui )を追加するといった修
正のみであるため、波形辞書の一部の変更のみで修正が
可能である。
In the case of a high quality speech synthesizer, since the phoneme piece storage unit in the waveform dictionary stores about 60,000 phoneme pieces, the capacity of the phoneme piece storage unit reaches several tens of MB. , The capacity of the auxiliary information storage in the waveform dictionary is several MB,
It is 1 or less, which is a sufficient capacity of the phoneme piece storage unit. Therefore, it is easier to modify only the auxiliary information storage unit as in the above embodiment. Further, in the conventional method of improving the quality by deleting the phoneme pieces, it is necessary to replace the entire waveform dictionary, but in the method of the above embodiment, the penalty information D t pri (u i ) is added to the auxiliary information. Therefore, the correction can be made by only changing a part of the waveform dictionary.

【0048】また、ユーザが自由に波形辞書から品質の
悪い音素片を削除することにより、合成音声の品質を改
善させることも考えられるが、音素の種類によってはそ
の音素に対応する全ての音素片を削除してしまうおそれ
がある。そうすると、当該音素を含む文章に対して合成
音声を生成できなくなる可能性がある。
It is also possible for the user to improve the quality of synthesized speech by freely deleting low quality phoneme pieces from the waveform dictionary. However, depending on the type of phoneme, all phoneme pieces corresponding to the phoneme piece may be improved. Might be deleted. Then, there is a possibility that a synthesized voice cannot be generated for a sentence including the phoneme.

【0049】これに対して、上記実施の形態による方法
では、たとえ、ある音素に対応する全ての音素片に対す
るペナルティー情報Dt pri (ui )の値が所定値αに
設定されたとしても、当該音素を音声合成する際には、
その音素に対応する音素片の中で最適な音素片が選択さ
れるため、当該音素に対して合成音声を生成することが
できるという利点がある。
On the other hand, in the method according to the above embodiment, even if the value of the penalty information D t pri (u i ) for all the phoneme pieces corresponding to a certain phoneme is set to the predetermined value α, When synthesizing the phoneme,
Since an optimum phoneme piece is selected from the phoneme pieces corresponding to the phoneme, there is an advantage that a synthetic speech can be generated for the phoneme.

【0050】〔2〕第2の実施の形態の説明 第1の実施の形態においては、音素単位選択部3では、
波形辞書に蓄積されている音素片の組み合わせの中で、
歪みが少なくなる組み合わせを選択しているが、音素単
位選択部として、波形辞書に蓄積されている音素片の組
み合わせの中で、適応度が大きくなる組み合わせを選択
するものが知られている。
[2] Description of Second Embodiment In the first embodiment, in the phoneme unit selection section 3,
Among the combinations of phoneme pieces accumulated in the waveform dictionary,
Although a combination with less distortion is selected, as a phoneme unit selection unit, there is known a phoneme unit selection unit that selects a combination with a large fitness from among combinations of phoneme pieces accumulated in the waveform dictionary.

【0051】適応度Sall は、一般的に次の数式5で表
される。
The fitness S all is generally expressed by the following equation 5.

【0052】[0052]

【数5】 [Equation 5]

【0053】数式5においてSi t は、i番目の音素に
ついて辞書から抽出した音素片(u i )と実際に使用す
る環境( ターゲットti )との間の類似度を示してお
り、次の数式6で表される。数式6中の各変数は、数式
1中の変数と同じである。
In equation 5, Si tIs the i-th phoneme
About phoneme pieces (u i) And actually use
Environment (target ti) And the similarity between
Is expressed by the following equation 6. Each variable in Equation 6 is an equation
It is the same as the variable in 1.

【0054】[0054]

【数6】 [Equation 6]

【0055】また、数式5において、Si c は、i番目
の音素について辞書から選択した音素片(ui )の始端
と、i−1番目の音素について辞書から選択した音素片
(u i-1 )の終端との間の類似度を示しており、次の数
式7で表される。数式7中の各変数は、数式2中の変数
と同じである。
In equation 5, Si cIs the i-th
Phonemes (u) selected from the dictionaryi) Starting point
And the phoneme piece selected from the dictionary for the i-1th phoneme
(U i-1) Indicates the similarity to the end of
It is expressed by Equation 7. Each variable in Equation 7 is a variable in Equation 2
Is the same as.

【0056】[0056]

【数7】 [Equation 7]

【0057】第2の実施の形態では、次の点(1)、
(2)、(3)が、適応度を用いて音素単位を選択する
従来例と異なっている。
In the second embodiment, the following points (1),
(2) and (3) are different from the conventional example in which the phoneme unit is selected using the fitness.

【0058】(1) 各音素片の補助情報に、優先度情
報Et pri (ui )を追加する。優先度情報E
t pri (ui )の初期値は、所定値である。
(1) Priority information E t pri (u i ) is added to the auxiliary information of each phoneme piece. Priority information E
The initial value of t pri (u i ) is a predetermined value.

【0059】(2) 音素単位選択部3で適応度Sall
を算出するためのSi t に、優先度情報E
t pri (ui )をパラメータとして加える。
(2) The fitness S all in the phoneme unit selection unit 3
The S i t for calculating the priority information E
Add t pri (u i ) as a parameter.

【0060】つまり、Si t は、次式8で表わされる。That is, S i t is expressed by the following equation 8.

【0061】[0061]

【数8】 [Equation 8]

【0062】(3) ユーザが音声合成結果を聞いて、
その品質が悪い場合には、品質の悪い合成音声箇所を音
声合成装置に入力するようにする。音声合成装置は、ユ
ーザによって入力された品質の悪い合成音声箇所が入力
された場合には、品質の悪い合成音声箇所に対応する音
素片の補助情報内の優先度情報Et pri (ui )の値
を、初期値より小さい値に設定する。
(3) The user hears the voice synthesis result,
If the quality is poor, the poor-quality synthesized speech portion is input to the speech synthesizer. When a poor-quality synthesized speech portion input by the user is input, the speech synthesizer inputs priority information E t pri (u i ) in the auxiliary information of the phoneme unit corresponding to the poor-quality synthesized speech portion. Set the value of to a value smaller than the initial value.

【0063】[0063]

【発明の効果】この発明によれば、波形辞書の大幅な修
正を行なうことなく、音質劣化につながる品質の悪い音
素片が最適な音素片として選択されにくくすることがで
きる。
According to the present invention, it is possible to make it difficult to select a phoneme piece of poor quality that leads to sound quality deterioration as the optimum phoneme piece without making a large modification to the waveform dictionary.

【図面の簡単な説明】[Brief description of drawings]

【図1】音声合成装置の全体構成を示すブロック図であ
る。
FIG. 1 is a block diagram showing an overall configuration of a speech synthesizer.

【図2】波形辞書5の内容を示す模式図である。FIG. 2 is a schematic diagram showing the contents of a waveform dictionary 5.

【図3】音素単位選択部3において、音素片の組み合わ
せを選択するために用いられる2種の歪みCi t 、Ci
c を説明するための模式図である。
FIG. 3 shows two types of distortions C i t and C i used for selecting a combination of phoneme pieces in a phoneme unit selection unit 3.
It is a schematic diagram for demonstrating c .

【図4】品質の悪い合成音声箇所に対応する音素片の補
助情報に、ペナルティー情報D t pri を追加された様子
を示す模式図である。
[Fig. 4] Supplement of phoneme pieces corresponding to a synthesized speech portion of poor quality
Penalty information D for auxiliary information t priAdded
It is a schematic diagram which shows.

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 13/06 ─────────────────────────────────────────────────── ─── Continuation of front page (58) Fields surveyed (Int.Cl. 7 , DB name) G10L 13/06

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 複数の音声単位と各音素単位毎にターゲ
ットとの歪みを算出するために用いられる補助情報とが
波形辞書に格納されており、波形辞書に格納されている
音素単位の組み合わせの中で、ターゲットとの歪みが最
も少なくなる組み合わせを選択する音素単位選択型の音
声合成方法において、 各音素単位の補助情報にペナルティ情報を追加しておく
ステップ、 ユーザが音声合成結果を聞いて、その品質が悪い場合に
は、品質の悪い合成音声箇所をユーザに入力させるステ
ップ、ならびにユーザによって入力された品質の悪い合
成音声箇所が入力された場合には、当該品質の悪い合成
音声箇所に対応する音素片の補助情報内のペナルティ情
報に、当該音素片が候補として選択されたときにターゲ
ットとの歪み算出値を強制的に大きくさせるような値を
設定するステップ、 を備えていることを特徴とする音声合成方法。
1. A plurality of voice units and auxiliary information used for calculating distortion with a target for each phoneme unit are stored in a waveform dictionary, and combinations of phoneme units stored in the waveform dictionary are stored. Among them, in the phoneme unit selection type speech synthesis method that selects the combination with the least distortion with the target, the step of adding penalty information to the auxiliary information of each phoneme unit, the user hears the speech synthesis result, If the quality is poor, the step of prompting the user to input a poor-quality synthesized speech location, and if the poor-quality synthesized speech location input by the user is input, correspond to the poor-quality synthesized speech location. In the penalty information in the auxiliary information of the phoneme piece to be set, the distortion calculation value with the target is forcibly increased when the phoneme piece is selected as a candidate. Speech synthesis method characterized in that it comprises a step of setting a so that value.
【請求項2】 複数の音声単位と各音素単位毎にターゲ
ットに対する適応度を算出するために用いられる補助情
報とが波形辞書に格納されており、波形辞書に格納され
ている音素単位の組み合わせの中で、ターゲットに対す
る適応度が最も大きくなる組み合わせを選択する音素単
位選択型の音声合成方法において、 各音素単位の補助情報に優先度情報を追加しておくステ
ップ、 ユーザが音声合成結果を聞いて、その品質が悪い場合に
は、品質の悪い合成音声箇所をユーザに入力させるステ
ップ、ならびにユーザによって入力された品質の悪い合
成音声箇所が入力された場合には、当該品質の悪い合成
音声箇所に対応する音素片の補助情報内の優先度情報
に、当該音素片が候補として選択されたときにターゲッ
トに対する適応度の算出値を強制的に小さくさせるよう
な値を設定するステップ、 を備えていることを特徴とする音声合成方法。
2. A plurality of voice units and auxiliary information used to calculate the fitness for a target for each phoneme unit are stored in a waveform dictionary, and combinations of phoneme units stored in the waveform dictionary are stored. Among them, in the phoneme unit selection type speech synthesis method that selects the combination with the highest fitness for the target, the step of adding priority information to the auxiliary information of each phoneme unit, the user hears the speech synthesis result. , If the quality is poor, the step of prompting the user to input a poor quality synthesized speech location, and if the poor quality synthesized speech location input by the user is entered, The priority information in the auxiliary information of the corresponding phoneme piece is forced to the calculated value of the fitness for the target when the phoneme piece is selected as a candidate. Speech synthesis method characterized by comprising the step, a setting a value that is small.
JP2000242068A 2000-08-10 2000-08-10 Voice synthesis method Expired - Fee Related JP3423276B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000242068A JP3423276B2 (en) 2000-08-10 2000-08-10 Voice synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000242068A JP3423276B2 (en) 2000-08-10 2000-08-10 Voice synthesis method

Publications (2)

Publication Number Publication Date
JP2002055693A JP2002055693A (en) 2002-02-20
JP3423276B2 true JP3423276B2 (en) 2003-07-07

Family

ID=18733149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000242068A Expired - Fee Related JP3423276B2 (en) 2000-08-10 2000-08-10 Voice synthesis method

Country Status (1)

Country Link
JP (1) JP3423276B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4664194B2 (en) * 2005-11-29 2011-04-06 パナソニック株式会社 Voice quality control device and method, and program storage medium
JP5123347B2 (en) 2010-03-31 2013-01-23 株式会社東芝 Speech synthesizer

Also Published As

Publication number Publication date
JP2002055693A (en) 2002-02-20

Similar Documents

Publication Publication Date Title
US6499014B1 (en) Speech synthesis apparatus
KR100403293B1 (en) Speech synthesizing method, speech synthesis apparatus, and computer-readable medium recording speech synthesis program
US7039588B2 (en) Synthesis unit selection apparatus and method, and storage medium
JP3361066B2 (en) Voice synthesis method and apparatus
JP3349905B2 (en) Voice synthesis method and apparatus
EP1221693B1 (en) Prosody template matching for text-to-speech systems
JP3910628B2 (en) Speech synthesis apparatus, speech synthesis method and program
JP4406440B2 (en) Speech synthesis apparatus, speech synthesis method and program
WO2002027709A2 (en) Corpus-based prosody translation system
US7328157B1 (en) Domain adaptation for TTS systems
JP4403996B2 (en) Prosody pattern generation apparatus, prosody pattern generation method, and prosody pattern generation program
JP3423276B2 (en) Voice synthesis method
JP4247289B1 (en) Speech synthesis apparatus, speech synthesis method and program thereof
JP4829605B2 (en) Speech synthesis apparatus and speech synthesis program
JP4170819B2 (en) Speech synthesis method and apparatus, computer program and information storage medium storing the same
JP3960928B2 (en) Text selection method, apparatus and program
JP5393546B2 (en) Prosody creation device and prosody creation method
JP2005265895A (en) Piece connecting type voice synthesizer and its method
JPH06318094A (en) Speech rule synthesizing device
JP3505364B2 (en) Method and apparatus for optimizing phoneme information in speech database
JP2008015362A (en) Rhythm correction device, speech synthesis device, rhythm correction method, speech synthesis method, rhythm correction program, and speech synthesis program
JP2001092482A (en) Speech synthesis system and speech synthesis method
JP4056319B2 (en) Speech synthesis method
JPH1097268A (en) Speech synthesizing device
JP2000231395A (en) Method and device for synthesizing voice

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees