JP2004125843A - Voice synthesis method - Google Patents

Voice synthesis method Download PDF

Info

Publication number
JP2004125843A
JP2004125843A JP2002285568A JP2002285568A JP2004125843A JP 2004125843 A JP2004125843 A JP 2004125843A JP 2002285568 A JP2002285568 A JP 2002285568A JP 2002285568 A JP2002285568 A JP 2002285568A JP 2004125843 A JP2004125843 A JP 2004125843A
Authority
JP
Japan
Prior art keywords
phoneme
distortion
speech
waveform
phoneme units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002285568A
Other languages
Japanese (ja)
Inventor
Hiroyuki Hirai
平井 啓之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2002285568A priority Critical patent/JP2004125843A/en
Publication of JP2004125843A publication Critical patent/JP2004125843A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice synthesis method which obtains a smooth synthesized voice by allowing phoneme units to be selected in consideration of articulation parameters. <P>SOLUTION: In the voice synthesis method, a combination of phoneme units which has the least sum of distortion from a target and connection distortion of phoneme units is selected from combinations of phoneme units stored in a waveform dictionary, and a synthesized voice waveform is generated on the basis of the selected combination of phoneme units. Information related to the difference of an articulation parameter between two phoneme units to be connected is used as an element of connection distortion of phoneme units. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
この発明は、任意のテキスト情報を合成音声で読み上げることのできる音声合成方法に関する。
【0002】
【従来の技術】
図1は、音声合成装置の概略構成を示している。
【0003】
入力された日本語仮名漢字混じりのテキストは、言語処理部1で形態素解析、係り受け解析が行なわれ、音素記号、アクセント記号等に変換せしめられる。
【0004】
韻律パターン生成部2では、音素記号、アクセント記号列および形態素解析結果から得られる入力テキストの品詞情報を用いて、音韻継続時間長(声の長さ DURT )、基本周波数(声の高さ FO T )、母音中心のパワー(声の大きさPOW T )等の推定が行なわれる。
【0005】
音素単位選択部3では、推定された音韻継続時間長 DURT 、基本周波数 FO T および母音中心のパワーPOW T に最も近く、かつ波形辞書5に蓄積されている音素単位( 音素片) を接続したときの歪み(後述するCall )が最も小さくなる音素片の組み合わせがDP(動的プログラミング)を用いて選択される。
【0006】
音声波形生成部4では、選択された音素片の組み合わせにしたがって、ピッチを変換しつつ音素片の接続を行なうことによって音声が生成される。
【0007】
図2は、波形辞書5の内容を示している。
波形辞書5は、複数の音素片が格納された音素片格納部51と、音素片格納部51内の各音素片に関する補助情報が格納された補助情報格納部52とがある。補助情報には、音素片のパワー(POW Dic )、基本周波数( FO Dic )、継続時間長( DURDic )、スペクトル(SPC Dic)等がある。
【0008】
ところで、音素単位選択部3では、波形辞書5に蓄積されている音素片の組み合わせの中で、歪みが少なくなる組み合わせを選択しているが、この歪みには次のようなものがある。
【0009】
つまり、図3に示すように、ui−1 、ui 、ui+1 を波形辞書5から抽出した音素片として、ti−1 、ti 、ti+1 を実際に使用する環境( ターゲット)とすると、ui に対する歪みには、Ct  i と、Cc  i とがある。
【0010】
ここで、Ct  i は、i番目の音素について辞書から抽出した音素片(ui )と実際に使用する環境( ターゲットti )との間の歪みである。また、Cc  i は、i番目の音素片(ui )と、i−1番目の素片(ui−1 )とを接続したときに生じる歪みである。音素単位選択部3は、動的計画法(DP法)に用いて音素片を接続していき、入力された全ての音素に対するCt  i とCc  i との総和Call が最小となる素片の組み合わせを選択する。
【0011】
t  i は、次式(1)で表される。
【0012】
【数1】

Figure 2004125843
【0013】
上記式(1)において、各変数は、次のように定義される。
【0014】
t  POW (ti ,ui )は、i番目の音素について、辞書から抽出した音素片(ui )のパワー(POW Dic (i) )と、実際に使用する環境(ターゲットti )のパワー(POW T (i) )との間の距離の自乗であり、{(POW Dic (i) )−(POW T (i) )}2 となる。
【0015】
t  POW は、Dt  POW (ti ,ui )に対する重み係数である。
【0016】
t  F0(ti ,ui )は、i番目の音素について、辞書から抽出した音素片(ui )の基本周波数( FO Dic (i) )と、実際に使用する環境(ターゲットti )の基本周波数( FO T (i) )との間の距離の自乗であり、{( FO Dic (i) )−( FO T (i) )}2 となる。
【0017】
t  F0  は、Dt  F0(ti ,ui )に対する重み係数である。
【0018】
t  DUR (ti ,ui )は、i番目の音素について、辞書から抽出した音素片(ui )の継続時間長( DURDic (i) )と、実際に使用する環境(ターゲットti )の継続時間長( DURT (i) )との間の距離の自乗であり、{( DURDic (i) )−( DURT (i) )}2 となる。
【0019】
t  DUR は、Dt  DUR (ti ,ui )に対する重み係数である。
【0020】
c  i は、次式(2)で表される。
【0021】
【数2】
Figure 2004125843
【0022】
上記式(2)において、各変数は、次のように定義される。
【0023】
c  POW (ui ,ui−1 )は、i番目の音素片(ui )の始端のパワー(POW DicS(i) )と、i−1番目の音素片(ui−1 )の終端のパワー(POW DicE(i−1) )との間の距離の自乗であり、{(POW DicS(i) )−(POW DicE(i−1) )}2 となる。
【0024】
c  POW は、Dc  POW (ui ,ui−1 )に対する重み係数である。
【0025】
c  F0(ui ,ui−1 )は、i番目の音素片(ui )の始端の基本周波数( FO DicS(i) )と、i−1番目の音素片(ui−1 )の終端の基本周波数(FODicE (i−1))との間の距離の自乗であり、{( FO DicS(i) )−(FODicE (i−1))}2 となる。
【0026】
c  F0は、Dc  F0(ui ,ui−1 )に対する重み係数である。
【0027】
c  SPC (ui ,ui−1 )は、i番目の音素片(ui )の始端のスペクトル(SPCDicS(i,j), j=1 〜16  )と、i−1番目の音素片(ui−1 )の終端のスペクトル( SPCDicE(i−1,j) , j =1 〜16)との間の距離の自乗であり、{( SPCDicS(i,j) )−( SPCDicE(i−1,j) )}2 となる。
【0028】
c  SPC は、Dc  SPC (ui ,ui−1 )に対する重み係数である。
【0029】
入力された全ての音素に対するCt  i とCc  i との総和Call は、次式(3)で表される。
【0030】
【数3】
Figure 2004125843
【0031】
【発明が解決しようとする課題】
この発明は、調音パラメータを考慮して音素単位を選択でき、滑らかな合成音声を得ることができるようになる音声合成方法を提供することを目的とする。
【0032】
【課題を解決するための手段】
この発明による第1の音声合成方法は、波形辞書に格納されている音素単位の組み合わせの中で、ターゲットとの間の歪みおよび音素単位の接続歪みとの和が最も少なくなる組み合わせを選択し、選択した音素単位の組み合わせに基づいて合成音声波形を生成する音声合成方法において、音素単位の接続歪みの要素として、接続される2つの音素単位間の調音パラメータの差異に関する情報が用いられていることを特徴とする。
【0033】
この発明による第2の音声合成方法は、波形辞書に格納されている音素単位の組み合わせの中で、ターゲットとの間の歪みおよび音素単位の接続歪みとの和が最も少なくなる組み合わせを選択し、選択した音素単位の組み合わせに基づいて合成音声波形を生成する音声合成方法において、音素単位の接続歪みの要素として、接続される2つの音素単位間の調音モデルの差異に関する情報が用いられており、ターゲットとの間の歪みの要素として、ターゲットの調音パラメータと音素単位の調音パラメータとの差異に関する情報が用いられていることを特徴とする。
【0034】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
【0035】
〔1〕第1の実施の形態の説明
音声合成装置の全体構成は、図1と同じである。
【0036】
上述したように、音素単位選択部3では、波形辞書5に蓄積されている音素片の組み合わせの中で、歪みが少なくなる組み合わせを選択している。そして、この歪みには、上述したように、次の2つがある。
【0037】
t  i :i番目の音素について辞書から抽出した音素片(ui )と実際に使用する環境( ターゲットti )との間の歪み。
c  i :i番目の音素片(ui )と、i−1番目の素片(ui−1 )とを接続したときに生じる歪み。
【0038】
音素単位選択部3は、動的計画法(DP法)に用いて音素片を接続していき、入力された全ての音素に対するCt  i とCc  i との総和Call が最小となる素片の組み合わせを選択する。
【0039】
第1の実施の形態では、Cc  i を算出するための要素が異なっている。Cc  i は、次式(4)で表される。
【0040】
【数4】
Figure 2004125843
【0041】
つまり、従来のCc  i を算出する式(2)における Dc  SPC (ui, ui−1)が、D’c  SPC (u i, u i−1)に置き換えられている。
【0042】
D’ c  SPC (u i, u i−1)は、素片 ui に対する調音パラメータx(ui ) =(X(ui ) ,Y(ui ) ,L(ui ) ,W(ui ) ,R(ui ) ,B(ui ) ,N(ui ) )と、素片 ui−1 に対する調音パラメータx(ui−1 ) =(X(ui−1),Y(ui−1),L(ui−1 ) ,W(ui−1 ) ,R(ui−1 ) ,B(ui−1 ) ,N(ui−1 ) )とを用いて、次式(5)で表される。
【0043】
【数5】
Figure 2004125843
【0044】
上記式(5)において、wc  X ,wc  Y ,wc  B ,wc  R ,wc  L ,wc  W ,wC  N は重み係数である。なお、波形辞書の補助情報格納部には、音素片のパワー(POW Dic )、基本周波数( FO Dic )、継続時間長( DURDic )に加えて、調音パラメータ(xDic )も格納される。
【0045】
以下、調音モデルについて説明する。
【0046】
調音モデルは、声道の形を決定する下、咽頭、口蓋、唇、顎などの調音器官そのものの構造と運動を直接モデル化し、その結果として声道形状を表現するモデルである。
【0047】
調音モデルの構成例を図4に示す。このモデルにおける調音パラメータは7個で、舌の中心位置X,Y、唇の突き出しL、唇の開口W、舌先の位置と狭めR,B、軟口蓋の結合度Nである。
【0048】
調音パラメータx=(X,Y,L,W,R,B,N)が与えられれば、これに対応する声道断面積が決定され、声道伝達特性を経て音声波形y=f(x)を得ることができる。
【0049】
逆に、与えられた音声波形yから調音パラメータxを推定する問題は、逆変換x=f−1(y)の解放に帰着する。調音パラメータの動きは、調音器官の構造に依存した制約をもつため、調音パラメータの推定は与えられた拘束条件と適切な評価関数のもとでの非線形最適化問題となる。
【0050】
具体的な解法としては、例えば、合成による分析法(Analysis by Synthesis) が用いられる。この方法では、モデルにより合成された音声波形( 推定値) と実際の音声波形( 観測値) の誤差を、例えばケプストラム係数の二乗誤差で定義し、この誤差を減少させるようパラメータを逐次変化させ、誤差を最小化するパラメータ値を決定する。
【0051】
また、音声波形から調音の状態を推定する方法には、調音モデルに基づいたものではなく、声道の音響管モデルに基づき、声道断面積を推定するモデルがある。その代表的なものが線形予測分析を用いる手法であり、適当な境界条件のもとに無損失な音響管の形状を推定することができる。
【0052】
また、線形予測分析の手法を基礎としながら、音声器官の構造に基づく自然な拘束条件を音声分析の段階で導入し、音声波形から直接声道形状を抽出する方法も提案されている。この方法では、まず、音声波の(唇から空間への)放射特性を含めた声帯波特性モデルを使って、音声波から声帯波特性を推定する。そして、この声帯波特性の逆特性でフィルタリングを行うことによって声道特性を近似的に分離する方法で、適応型フィルタ法と呼ばれ、声道形状のより安定した抽出が可能となる。
【0053】
〔2〕第2の実施の形態
【0054】
第2の実施の形態では、第1の実施の形態同様に、Cc  i を上記式(4)に基づいて算出するとともに、Cc  i を次式(6)に基づいて算出する。
【0055】
【数6】
Figure 2004125843
【0056】
上記式(6)では、従来のCt  i を算出する式(1)の要素に、D’t  SPC (  ti, ui ) が追加されている。
【0057】
D’t  SPC (  ti, ui ) は、ターゲット ti に対する調音パラメータx(ti ) =(X(ti ) ,Y(ti ) ,L(ti ) ,W(ti ) ,R(ti ) ,B(ti ) ,N(ti ) )と、素片 ui に対する調音パラメータx(ui ) =(X(ui ) ,Y(ui ) ,L(ui ) ,W(ui ) ,R(ui ) ,B(ui ) ,N(ui ) )とを用いて、次式(7)で表される。
【0058】
【数7】
Figure 2004125843
【0059】
上記式(7)において、wt  X ,wt  Y ,wt  B ,wt  R ,wt  L ,wt  W ,wt  N は重み係数である。
【0060】
ターゲット ti に対する調音パラメータx(ti ) の求め方について説明する。明確な音声を生成する場合について説明する。この場合、D’t  SPC (  ti, ui ) は、母音である部分のみにCt  i の要素として加えられる。ここでは、説明の便宜上、パラメータX(ti ) ,Y(ti ) のみから、ターゲット ti に対する調音パラメータx(ti ) を求める場合について説明する。
【0061】
まず、波形辞書に登録されている波形のうち母音部分のみを抽出する。そして、各母音部分毎に、パラメータX,Yを求める。そして、得られた各母音(ア、イ、ウ、エ、オ)毎にX,Yの平均値を求め、各母音毎に得られたX,Yの平均値を、各母音に対するX、Yとする。
【0062】
図5は、このようにして得られた各母音に対するX、Yと、それらの平均値(母音全体の平均値)allとを示している。そして、図6に示すように、全ての母音の平均allから各母音へのベクトルを、例えば、1.5倍した位置を、ターゲットでの位置X(ti ) ,Y(ti ) とする。この値X(ti ) ,Y(ti ) を用いて、ターゲット ti に対する調音パラメータx(ti ) を算出する。
【0063】
ところで、一般に声道情報は周波数分析した結果をパラメータ化したもの(LSP,LPC,PARCOR,ケプトラム等)を用いている。声道形状のパラメータ(調音パラメータ)は、これらと同等の情報を表すものであるが、パラメータが実際の発話器官を表現しているため、パラメータ間の独立性が高く直観的に物理的な意味を理解することができるといった利点がある。このため、素片の種類毎にパラメータの重みを変えることや、パラメータの微分値を用いて発話器官動作の方向を一致させることなどにより、滑らかな音声の生成が可能となる。また、調音パラメータは、周波数を表現するパラメータと比較し、発話の状態(なまけの程度や、強調しているかなど)を類推しやすいパラメータであることから、指定した発話の状態の音声の合成が可能となる。
【0064】
【発明の効果】
この発明によれば、調音パラメータを考慮して音素単位を選択でき、滑らかな合成音声を得ることができるようになる。
【図面の簡単な説明】
【図1】音声合成装置の全体構成を示すブロック図である。
【図2】波形辞書5の内容を示す模式図である。
【図3】音素単位選択部3において、音素片の組み合わせを選択するために用いられる2種の歪みCt  i 、Cc  i を説明するための模式図である。
【図4】調音モデルの構成例を示す模式図である。
【図5】ターゲット ti に対する調音パラメータx(ti ) の求め方を説明するための模式図である。
【図6】各母音に対するX、Yとそれらの平均値(母音全体の平均値)allとが図5に示すような場合に、全ての母音の平均allから各母音へのベクトルを1.5倍した例を示す模式図である。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech synthesis method capable of reading out arbitrary text information with synthesized speech.
[0002]
[Prior art]
FIG. 1 shows a schematic configuration of the speech synthesizer.
[0003]
The input text mixed with Japanese kana and kanji is subjected to morphological analysis and dependency analysis by the language processing unit 1 and converted into phoneme symbols, accent symbols, and the like.
[0004]
The prosody pattern generation unit 2 uses a phoneme symbol, an accent symbol string, and the part-of-speech information of the input text obtained from the morphological analysis result to obtain a phoneme duration (voice length DUR T ), a fundamental frequency (voice pitch FO). T ), the power at the center of the vowel (loudness POW T ), and the like are estimated.
[0005]
In the phoneme unit selector 3, and connect the estimated phoneme duration DUR T, fundamental frequency FO T and closest to the power POW T vowel center, and phonemes stored in the waveform dictionary 5 (phoneme) the combination of smallest phoneme strain (C all to be described later) when it is selected using the DP (dynamic programming).
[0006]
The speech waveform generation unit 4 generates speech by connecting the phonemes while converting the pitch in accordance with the combination of the selected phonemes.
[0007]
FIG. 2 shows the contents of the waveform dictionary 5.
The waveform dictionary 5 includes a phoneme unit storage unit 51 in which a plurality of phoneme units are stored, and an auxiliary information storage unit 52 in which auxiliary information on each phoneme unit in the phoneme unit storage unit 51 is stored. The auxiliary information includes the power (POW Dic ), fundamental frequency (FO Dic ), duration (DUR Dic ), spectrum (SPC Dic ), and the like of the phoneme segment .
[0008]
By the way, the phoneme unit selection unit 3 selects a combination that reduces distortion among combinations of phonemic pieces stored in the waveform dictionary 5, and the following distortions are available.
[0009]
That is, as shown in FIG. 3, u i-1, u i, as phoneme extracting the u i + 1 from the waveform dictionary 5, t i-1, t i, and environment (target) actually using the t i + 1 Then, distortions for ui include C t i and C c i .
[0010]
Here, C t i is the distortion between the phoneme segment (u i ) extracted from the dictionary for the i-th phoneme and the environment actually used (target t i ). Also, C c i is, i-th speech segment and (u i), a strain generated when connecting the i-1 th segment (u i-1). Phoneme unit selector 3, dynamic programming is used to (DP method) will connect the speech segments, containing the sum C all of the C t i and C c i for all the phonemes inputted is minimized Select a combination of pieces.
[0011]
C t i is expressed by the following equation (1).
[0012]
(Equation 1)
Figure 2004125843
[0013]
In the above equation (1), each variable is defined as follows.
[0014]
D t POW (t i , u i ) is the power of the phoneme fragment (u i ) extracted from the dictionary for the i-th phoneme, and the power (POW Dic (i)) of the actual use environment (target t i ). This is the square of the distance from the power (POW T (i)), and is {(POW Dic (i)) − (POW T (i))} 2 .
[0015]
w t POW is a weighting factor for D t POW (t i , u i ).
[0016]
D t F0 (t i, u i) , for i-th phoneme, phoneme extracted from the dictionary and the fundamental frequency of the (u i) (FO Dic ( i)), environment actually used (target t i) the fundamental frequency is the square of the distance between the (FO T (i)), the - a 2 {(FO Dic (i) ) (FO T (i))}.
[0017]
w t F 0 is a weight coefficient for D t F 0 (t i , u i ).
[0018]
D t DUR (t i, u i), for i-th phoneme, phoneme extracted from the dictionary duration of (u i) and (DUR Dic (i)), actually used environment (target t i ) Is the square of the distance to the duration (DUR T (i)), and {(DUR Dic (i)) − (DUR T (i))} 2 .
[0019]
w t DUR is a weighting factor for D t DUR (t i , u i ).
[0020]
C c i is represented by the following formula (2).
[0021]
(Equation 2)
Figure 2004125843
[0022]
In the above equation (2), each variable is defined as follows.
[0023]
D c POW (u i , u i-1 ) is the power (POW DicS (i)) at the beginning of the i-th phoneme segment (u i ) and the power of the i-th phoneme segment (u i-1 ). This is the square of the distance between the terminal power (POW DicE (i-1)) and {(POW DicS (i))-(POW DicE (i-1))} 2 .
[0024]
w c POW is a weighting factor for D c POW (u i, u i-1).
[0025]
D c F0 (u i, u i-1) is, i-th phoneme beginning of the fundamental frequency of (u i) (FO DicS ( i)) and, i-1 th phoneme (u i-1) Is the square of the distance from the fundamental frequency (FO DicE (i-1)) at the end of, and is {(FO DicS (i))-(FO DicE (i-1))} 2 .
[0026]
w c F0 is a weighting factor for D c F0 (u i, u i-1).
[0027]
D c SPC (u i, u i-1) , the starting end of the spectrum (SPC DicS (i, j) , j = 1 ~16) of i-th speech segment (u i) and, i-1 th phoneme Is the square of the distance between the spectrum (SPC DicE (i-1, j), j = 1 to 16) at the end of the piece (u i-1 ), and {(SPC DicS (i, j)) − ( SPC DicE (i-1, j))} 2 .
[0028]
w c SPC is a weighting factor for D c SPC (u i, u i-1).
[0029]
The sum C all of C t i and C c i for all input phonemes is represented by the following equation (3).
[0030]
[Equation 3]
Figure 2004125843
[0031]
[Problems to be solved by the invention]
SUMMARY OF THE INVENTION It is an object of the present invention to provide a speech synthesizing method capable of selecting a phoneme unit in consideration of articulation parameters and obtaining a smooth synthesized speech.
[0032]
[Means for Solving the Problems]
The first speech synthesis method according to the present invention selects, from among combinations of phoneme units stored in a waveform dictionary, a combination that minimizes the sum of distortion between a target and a connection distortion in phoneme units, In a speech synthesis method for generating a synthesized speech waveform based on a combination of selected phoneme units, information on a difference in articulation parameters between two connected phoneme units is used as an element of connection distortion of the phoneme units. It is characterized by.
[0033]
The second speech synthesis method according to the present invention selects, from among combinations of phoneme units stored in the waveform dictionary, a combination that minimizes the sum of the distortion with the target and the connection distortion of the phoneme unit, In a speech synthesis method that generates a synthesized speech waveform based on a selected combination of phoneme units, information on a difference in articulatory model between two connected phoneme units is used as an element of connection distortion of the phoneme units, It is characterized in that information on the difference between the articulation parameter of the target and the articulation parameter of each phoneme is used as an element of the distortion with respect to the target.
[0034]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described.
[0035]
[1] Description of First Embodiment The overall configuration of the speech synthesizer is the same as that of FIG.
[0036]
As described above, the phoneme unit selection unit 3 selects a combination that reduces distortion from combinations of phoneme pieces stored in the waveform dictionary 5. As described above, the distortion includes the following two types.
[0037]
C t i : Distortion between the phoneme segment (u i ) extracted from the dictionary for the i-th phoneme and the environment actually used (target t i ).
C c i: i-th speech segment and (u i), distortion that occurs when the connection between i-1 th segment (u i-1).
[0038]
Phoneme unit selector 3, dynamic programming is used to (DP method) will connect the speech segments, containing the sum C all of the C t i and C c i for all the phonemes inputted is minimized Select a combination of pieces.
[0039]
In the first embodiment, are different elements for calculating the C c i. C c i is expressed by the following equation (4).
[0040]
(Equation 4)
Figure 2004125843
[0041]
That is, the conventional C c i D c SPC (u i, u i-1) in equation (2) for calculating a is replaced by D 'c SPC (u i, u i-1).
[0042]
D 'c SPC (u i, u i-1) is articulatory parameters for units u i x (u i) = (X (u i), Y (u i), L (u i), W (u i), R (u i) , B (u i), N ( the u i)), articulatory parameter x (u i-1 for the units u i-1) = (X (u i-1), Y (Ui -1 ), L (ui -1 ), W (ui -1 ), R (ui -1 ), B (ui -1 ), N (ui -1 )). Thus, it is expressed by the following equation (5).
[0043]
(Equation 5)
Figure 2004125843
[0044]
In the above formula (5), w c X, w c Y, w c B, w c R, w c L, w c W, w C N is a weighting factor. The auxiliary information storage unit of the waveform dictionary stores the articulation parameter ( xDic ) in addition to the power (POW Dic ), the fundamental frequency (FO Dic ), and the duration time (DUR Dic ) of the speech element .
[0045]
Hereinafter, the articulation model will be described.
[0046]
The articulatory model is a model that directly models the structure and movement of articulatory organs such as the pharynx, palate, lips, and jaw, which determines the shape of the vocal tract, and expresses the vocal tract shape as a result.
[0047]
FIG. 4 shows a configuration example of the articulation model. There are seven articulation parameters in this model: tongue center position X, Y, lip protrusion L, lip opening W, tongue position and narrowing R, B, and soft palate coupling N.
[0048]
Given the articulation parameter x = (X, Y, L, W, R, B, N), the corresponding vocal tract cross-sectional area is determined, and the voice waveform y = f (x) via the vocal tract transfer characteristics. Can be obtained.
[0049]
Conversely, the problem of estimating the articulation parameter x from a given speech waveform y results in the release of the inverse transform x = f −1 (y). Since the movement of the articulatory parameters has restrictions depending on the structure of the articulatory organ, the estimation of the articulatory parameters becomes a nonlinear optimization problem under given constraints and an appropriate evaluation function.
[0050]
As a specific solution, for example, an analysis method by synthesis (Analysis by Synthesis) is used. In this method, the error between the speech waveform (estimated value) synthesized by the model and the actual speech waveform (observed value) is defined as, for example, the square error of the cepstrum coefficient, and the parameters are sequentially changed so as to reduce this error. Determine the parameter value that minimizes the error.
[0051]
As a method for estimating the state of articulation from a speech waveform, there is a model for estimating a vocal tract cross-sectional area based on a sound tube model of a vocal tract, not based on an articulatory model. A typical example is a method using linear prediction analysis, which can estimate the shape of a lossless acoustic tube under appropriate boundary conditions.
[0052]
Also, a method has been proposed in which a natural constraint condition based on the structure of a speech organ is introduced at the stage of speech analysis, and a vocal tract shape is directly extracted from a speech waveform, based on a method of linear prediction analysis. In this method, first, a vocal fold wave characteristic is estimated from a voice wave using a vocal fold wave characteristic model including a radiation characteristic (from the lips to the space) of the voice wave. Then, a method of approximately separating the vocal tract characteristics by performing filtering with the inverse characteristics of the vocal fold wave characteristics, which is called an adaptive filter method, enables more stable extraction of the vocal tract shape.
[0053]
[2] Second Embodiment [0054]
In the second embodiment, similar to the first embodiment, the C c i to calculate, based on the equation (4), is calculated based on the C c i in the following equation (6).
[0055]
(Equation 6)
Figure 2004125843
[0056]
In the above formula (6), the blocks of formula (1) for calculating a conventional C t i, D 't SPC (t i, u i) is added.
[0057]
D 't SPC (t i, u i) is articulatory parameters for the target t i x (t i) = (X (t i), Y (t i), L (t i), W (t i), R (t i), B ( t i), and N (t i)), articulatory parameters for units u i x (u i) = (X (u i), Y (u i), L (u i ), W (u i), R (u i), B (u i), by using the N (u i)), is expressed by the following equation (7).
[0058]
(Equation 7)
Figure 2004125843
[0059]
In the above equation (7), w t X , w t Y , w t B , w t R , w t L , w t W , and w t N are weight coefficients.
[0060]
A method of obtaining the articulation parameter x (t i ) for the target t i will be described. A case where a clear voice is generated will be described. In this case, D 't SPC (t i , u i) is added as an element of C t i only partially a vowel. Here, for convenience of explanation, the parameter X (t i), only Y (t i), will be described for obtaining the articulatory parameters x (t i) for the target t i.
[0061]
First, only the vowel part is extracted from the waveform registered in the waveform dictionary. Then, parameters X and Y are obtained for each vowel part. Then, an average value of X, Y is obtained for each of the obtained vowels (A, I, U, D, E), and the average value of X, Y obtained for each vowel is calculated as X, Y for each vowel. And
[0062]
FIG. 5 shows X and Y for each vowel obtained in this way and their average value (average value of all vowels) all. Then, as shown in FIG. 6, a position obtained by multiplying a vector from an average all of all vowels to each vowel, for example, by 1.5 is defined as positions X (t i ) and Y (t i ) at the target. . Using these values X (t i ) and Y (t i ), an articulation parameter x (t i ) for the target t i is calculated.
[0063]
Generally, vocal tract information is obtained by parameterizing the result of frequency analysis (LSP, LPC, PARCOR, Ceptrum, etc.). The parameters of the vocal tract shape (articulation parameters) represent the same information as these, but since the parameters represent the actual speech organs, the independence between the parameters is high and the intuitive physical meaning There is an advantage that you can understand. For this reason, it is possible to generate a smooth voice by changing the weight of the parameter for each type of segment, or by matching the direction of the speech organ motion using the differential value of the parameter. In addition, since the articulation parameter is a parameter that makes it easier to infer the utterance state (such as the degree of slackness or emphasis) compared to the parameter expressing the frequency, the synthesis of the voice of the specified utterance state can be performed. It becomes possible.
[0064]
【The invention's effect】
According to the present invention, a phoneme unit can be selected in consideration of articulation parameters, and a smooth synthesized speech can be obtained.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating an overall configuration of a speech synthesizer.
FIG. 2 is a schematic diagram showing the contents of a waveform dictionary 5;
FIG. 3 is a schematic diagram for explaining two types of distortions C t i and C c i used for selecting a combination of phoneme segments in a phoneme unit selection unit 3;
FIG. 4 is a schematic diagram showing a configuration example of an articulation model.
FIG. 5 is a schematic diagram for explaining how to obtain an articulation parameter x (t i ) for a target t i .
FIG. 6 is a diagram showing an example in which X and Y for each vowel and their average value (average value of all vowels) all are as shown in FIG. 5, and a vector from the average all of all vowels to each vowel is 1.5. It is a schematic diagram which shows the example which multiplied.

Claims (2)

波形辞書に格納されている音素単位の組み合わせの中で、ターゲットとの間の歪みおよび音素単位の接続歪みとの和が最も少なくなる組み合わせを選択し、選択した音素単位の組み合わせに基づいて合成音声波形を生成する音声合成方法において、
音素単位の接続歪みの要素として、接続される2つの音素単位間の調音パラメータの差異に関する情報が用いられていることを特徴とする音声合成方法。
From the combinations of phoneme units stored in the waveform dictionary, select the combination that minimizes the sum of the distortion with the target and the connection distortion of the phoneme unit, and based on the selected combination of phoneme units, In a speech synthesis method for generating a waveform,
A speech synthesis method characterized in that information on a difference in articulation parameters between two connected phoneme units is used as an element of connection distortion in phoneme units.
波形辞書に格納されている音素単位の組み合わせの中で、ターゲットとの間の歪みおよび音素単位の接続歪みとの和が最も少なくなる組み合わせを選択し、選択した音素単位の組み合わせに基づいて合成音声波形を生成する音声合成方法において、
音素単位の接続歪みの要素として、接続される2つの音素単位間の調音モデルの差異に関する情報が用いられており、ターゲットとの間の歪みの要素として、ターゲットの調音パラメータと音素単位の調音パラメータとの差異に関する情報が用いられていることを特徴とする音声合成方法。
From the combinations of phoneme units stored in the waveform dictionary, select the combination that minimizes the sum of the distortion with the target and the connection distortion of the phoneme unit, and based on the selected combination of phoneme units, In a speech synthesis method for generating a waveform,
Information on the difference in the articulatory model between the two connected phoneme units is used as the element of the connection distortion in the phoneme unit, and the articulation parameter of the target and the articulation parameter in the phoneme unit are used as the distortion elements between the target and the phoneme unit. A speech synthesizing method characterized in that information on a difference from the above is used.
JP2002285568A 2002-09-30 2002-09-30 Voice synthesis method Pending JP2004125843A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002285568A JP2004125843A (en) 2002-09-30 2002-09-30 Voice synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002285568A JP2004125843A (en) 2002-09-30 2002-09-30 Voice synthesis method

Publications (1)

Publication Number Publication Date
JP2004125843A true JP2004125843A (en) 2004-04-22

Family

ID=32278838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002285568A Pending JP2004125843A (en) 2002-09-30 2002-09-30 Voice synthesis method

Country Status (1)

Country Link
JP (1) JP2004125843A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191334A (en) * 2007-02-02 2008-08-21 Oki Electric Ind Co Ltd Speech synthesis method, speech synthesis program, speech synthesis device and speech synthesis system
JP2012123096A (en) * 2010-12-07 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> Speech synthesis method, device, and program
US9147392B2 (en) 2011-08-01 2015-09-29 Panasonic Intellectual Property Management Co., Ltd. Speech synthesis device and speech synthesis method
JP2017530393A (en) * 2014-09-25 2017-10-12 インテル コーポレイション Method and apparatus for synthesizing voice based on facial structure

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008191334A (en) * 2007-02-02 2008-08-21 Oki Electric Ind Co Ltd Speech synthesis method, speech synthesis program, speech synthesis device and speech synthesis system
JP2012123096A (en) * 2010-12-07 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> Speech synthesis method, device, and program
US9147392B2 (en) 2011-08-01 2015-09-29 Panasonic Intellectual Property Management Co., Ltd. Speech synthesis device and speech synthesis method
JP2017530393A (en) * 2014-09-25 2017-10-12 インテル コーポレイション Method and apparatus for synthesizing voice based on facial structure

Similar Documents

Publication Publication Date Title
JP3913770B2 (en) Speech synthesis apparatus and method
JP4738057B2 (en) Pitch pattern generation method and apparatus
JP4469883B2 (en) Speech synthesis method and apparatus
JP5039865B2 (en) Voice quality conversion apparatus and method
JP2009047957A (en) Pitch pattern generation method and system thereof
JP2003255974A (en) Singing synthesis device, method and program
JP6821970B2 (en) Speech synthesizer and speech synthesizer
JP2004125843A (en) Voice synthesis method
JP2009133890A (en) Voice synthesizing device and method
JP3513071B2 (en) Speech synthesis method and speech synthesis device
JP2005004104A (en) Ruled voice synthesizer and ruled voice synthesizing method
JP5874639B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP5106274B2 (en) Audio processing apparatus, audio processing method, and program
JP2013033103A (en) Voice quality conversion device and voice quality conversion method
JP3515406B2 (en) Speech synthesis method and apparatus
JP2007226174A (en) Singing synthesizer, singing synthesizing method, and program for singing synthesis
JP2007011042A (en) Rhythm generator and voice synthesizer
JP6234134B2 (en) Speech synthesizer
JP5999092B2 (en) Pitch pattern generation method, pitch pattern generation device, speech synthesizer, and pitch pattern generation program
JP2006084854A (en) Device, method, and program for speech synthesis
JP6191094B2 (en) Speech segment extractor
JP2005091747A (en) Speech synthesizer
JPH0632037B2 (en) Speech synthesizer
JP2011191528A (en) Rhythm creation device and rhythm creation method
JP3576792B2 (en) Voice information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061025

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070307