JP4526934B2 - 調音運動の正規化を用いた音声合成方法および装置 - Google Patents
調音運動の正規化を用いた音声合成方法および装置 Download PDFInfo
- Publication number
- JP4526934B2 JP4526934B2 JP2004338880A JP2004338880A JP4526934B2 JP 4526934 B2 JP4526934 B2 JP 4526934B2 JP 2004338880 A JP2004338880 A JP 2004338880A JP 2004338880 A JP2004338880 A JP 2004338880A JP 4526934 B2 JP4526934 B2 JP 4526934B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- articulation
- statistical model
- articulatory
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Stereophonic System (AREA)
Description
ただし、本実施の形態においては、調音運動の統計モデルとして、隠れマルコフモデル(HMM)を用い、HMMの構造は、後続音素を考慮した2音素組の3状態単混合ガウス分布で、スキップなしのleft−to−rightモデルとする。例えば、3つの状態q1,q2,q3があり、各状態での出力確率を夫々1つのガウス分布とし、状態過程は同一状態から同一状態への遷移、状態q1から状態q2への遷移、状態q2から状態q3への遷移の、計5つのみである。
また、本実施の形態において、全話者共通の音素固有の調音運動(固有調音)の抽出は、話者適応学習(Speaker Adaptive Training:SAT)に基づいて行われる。
以上により、話者kの時刻tにおける口蓋の位置を回転させることにより口蓋の正規化を行い、この回転に従って調音パラメータベクトルの正規化を行う。
図3に調音パラメータ正規化部18による正規化前後の調音器官の様子の一例を示しており、(a)は正規化前を、(b)は正規化後を示している。
これは、全ての話者の全ての時刻における調音パラメータベクトルを連結して、下記式(5)に示すベクトルxを作成する。モデルλaverageにおいて、状態系列qを構成する一つの状態をqmとするとき、状態qmに対する連結したベクトルxの出力確率は、その状態qmへの遷移確率P(qm|λaverage)とその状態qmに対するベクトルxの出力確率P(x|qm,λaverage)との積で表され、連結したベクトルxの出力確率P(x|λaverage)は、状態系列qを構成する全ての状態に対するベクトルxの出力確率を加算したものであるので、下記式(6)に示すものとなる。連結したベクトルxの下記式(6)で表される出力確率P(x|λaverage)が最大となるように平均調音HMMのモデルλaverageを作成する。
話者適応行列計算部21は、全ての話者に対して話者適応行列を求める。
固有調音モデル作成部23は、求めた(推定した)話者iの平均調音パラメータベクトルWixmに対する話者iの調音パラメータベクトルxiの尤度(出力確率P(xi|λeigen)を全話者で加算し、加算した値が最大となるような固有調音HMMのモデルλeigen={xm,σm}を求める。そして、固有調音モデル作成部23は、固有調音モデル記憶部24に固有調音HMMのモデルλeigenを新たに保存し、或いは、固有調音モデル記憶部24の記憶内容を求めた固有調音HMMのモデルλeigenに更新する。
なお、全話者で加算した尤度を最大にすることで、話者間のばらつきを考慮した学習を行うことができる。
具体的には、話者iの全ての時刻における調音パラメータベクトル(調音パラメータ記憶部14に記憶されている。)を連結したベクトルxiを作成する(式(11)参照)。
モデルλaverage(1回目は平均調音モデル記憶部20に記憶されているモデルλaverage、2回目以降はモデル置換部26により置き換えられたモデルλaverage)からそれに含まれる平均調音パラメータベクトルxmを取り出し、話者iを利用して話者iに関連付けて話者適応行列記憶部22に記憶されている話者適応行列Wiを取り出す。取り出した平均調音パラメータベクトルxmと取り出した話者適応行列Wiとの積をとることにより話者iの話者適応調音HMMを作成する。
音声合成部33は、基本周波数生成部31とパワー生成部32から入力される基本周波数とパワーを、音声スペクトル生成部30により得られる音響パラメータベクトル系列に与えて音声を合成する。
音声出力部34は、音声合成部33により合成される音声を出力する。
調音パラメータ生成部13は、音声信号と同時計測された話者iの上顎(UJ)、下顎(LJ)、上唇(UL)、下唇(LL)、舌上の3点(T1,T2,T3)の計7点の水平位置および垂直位置に基づき、各時刻tにおける調音パラメータベクトルxitを生成し、この生成した調音パラメータベクトルxitを話者iと時刻tとに関連付けて調音パラメータ記憶部14に保存する。これを話者ごとに行う(ステップS102)。
コードブック作成部16は、話者iと時刻tとを利用して、音響パラメータ記憶部12、調音パラメータ記憶部14、音素系列記憶部15の夫々から、話者iと時刻tとに対応して記憶されている、音響パラメータベクトルyit、調音パラメータベクトルxit、音素を取り出す。そして、コードブック作成部16は、話者iと時刻tとに取り出した音響パラメータベクトルyitと調音パラメータベクトルxitと音素とを関連付けてコードブック記憶部17に記憶する。これを、全ての話者の全ての時刻において行う(調音・音響対コードブックの作成)(ステップS103)。
調音パラメータ正規化部18は、参照話者jの口蓋の位置座標(Vxj,Vyj)と話者kの口蓋の位置座標(Vxk,Vyk)とを用いて、上顎(UJ)の位置に対して、参照話者jの口蓋の位置座標と話者kの口蓋の位置座標との誤差が最小になるように、話者kの口蓋の位置を回転させる回転角thetaを求める。
調音パラメータ正規化部18は、話者kの調音パラメータベクトルxktに含まれる調音器官の下顎(LJ)、上唇(UL)、下唇(LL)、舌上(T1)、舌上(T2)、および舌上(T3)の位置座標の夫々を求めた回転角theta回転させる。そして、調音パラメータ正規化部18は、新たに平行移動後或いは回転後の各位置座標を並べて調音パラメータベクトルxktを生成する。調音パラメータ正規化部18は、調音パラメータ記億部14とコードブック記憶部17とに記憶されている話者kの時刻tにおける調音パラメータベクトルxktを、新たに生成した調音パラメータベクトルxktに置き換え、調音パラメータ記億部14とコードブック記憶部17の記憶内容を更新する。これを、参照話者j以外の全ての話者の全ての時刻において行う(調音パラメータベクトルの正規化)(ステップS104)。
11 音響パラメータ生成部
13 調音パラメータ生成部
14 調音パラメータ記憶部
17 コードブック記憶部
18 調音パラメータ正規化部
19 平均調音モデル作成部
20 平均調音モデル記憶部
21 話者適応行列計算部
22 話者適応行列記憶部
23 固有調音モデル作成部
24 固有調音モデル記憶部
25 モデル収束判定部
26 モデル置換部
27 話者適応調音モデル作成部
29 調音パラメータ作成部
30 音声スペクトル生成部
Claims (4)
- 複数の話者の各時刻における調音器官の複数の位置から得られる各話者の各時刻における調音パラメータベクトル系列に関して、一の話者以外の他の話者の夫々の各時刻おいて、該一の話者の一の前記調音器官の位置と前記他の話者の夫々の該一の前記調音器官の位置とが一致するように各前記他の話者の前記一の前記調音器官の位置を移動させ、前記他の話者の夫々について、前記一の前記調音器官の位置に対して前記一の話者の口蓋と前記他の話者の口蓋との誤差が最小になるように前記他の話者の口蓋を回転させる回転角を求めて前記一の前記調音器官の位置以外の他の位置を該回転角により回転させて、前記調音パラメータベクトル系列を正規化する調音パラメータ正規化手順と、
調音運動の第1統計モデルに対する前記調音パラメータ正規化手順において正規化した後の全ての調音パラメータベクトル系列を連結したベクトル系列の出力確率が最大となる該第1統計モデルを生成する第1統計モデル生成手順と、
話者の夫々について、前記第1統計モデル生成手順で生成された前記第1統計モデルに対して、前記調音パラメータ正規化手順において正規化した後の話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率が最大となる話者適応行列を求めて該求めた話者適応行列を話者に関連付けて話者適応行列記憶手段に記憶する話者適応行列計算手順と、
話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手順において生成された前記第1統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、この求めた話者のベクトル系列に対して、前記調音パラメータ正規化手順において正規化した後の当該話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率を求め、この求めた各話者の出力確率を全話者について加算した値が最大となるような第2統計モデルを生成し、該生成した第2統計モデルをモデル記憶手段に記憶する第2統計モデル生成手順と、
を備えたことを特徴とする調音運動の正規化を用いた音声合成方法。 - 話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手順において生成された前記第1統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、この求めた話者のベクトル系列に対して、前記調音パラメータ正規化手順において正規化した後の当該話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率を求め、この求めた各話者の出力確率を全話者について加算して第1の加算値を得、
話者の夫々について、話者のベクトル系列を前記第2統計モデル生成手順において生成された前記第2統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、この求めた話者のベクトル系列に対して、前記調音パラメータ正規化手順において正規化した後の当該話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率を求め、この求めた各話者の出力確率を全話者について加算して第2の加算値を得、
前記第1の加算値と前記第2の加算値との差が所定の値以下であるか否かを判断するモデル収束判断手順と、
前記モデル収束判断手順で前記差が予め設定された閾値以下であると判断された場合、
前記第1統計モデルを前記第2統計モデルに置き換えるモデル置換手順と、
をさらに備え、
前記話者適応行列計算手順および前記第2統計モデル生成手順を前記モデル置換手順で置き換えられた第1統計モデルを利用して行うことを特徴とする請求項1に記載の調音運動の正規化を用いた音声合成方法。 - 話者の話者適応調音モデルを前記話者適応記憶手段に記憶されているこの話者の話者適応行列と前記第2統計モデル記憶手段に記憶されている第2統計モデルとを利用して求める話者適応調音モデル生成手順をさらに備えていることを特徴とする請求項1または請求項2に記載の調音運動の正規化を用いた音声合成方法。
- 複数の話者の各時刻における調音器官の複数の位置から得られる各話者の各時刻における調音パラメータベクトル系列に関して、一の話者以外の他の話者の夫々の各時刻おいて、該一の話者の一の前記調音器官の位置と前記他の話者の夫々の該一の前記調音器官の位置とが一致するように各前記他の話者の前記一の前記調音器官の位置を移動させ、前記他の話者の夫々について、前記一の前記調音器官の位置に対して前記一の話者の口蓋と前記他の話者の口蓋との誤差が最小になるように前記他の話者の口蓋を回転させる回転角を求めて前記一の前記調音器官の位置以外の他の位置を該回転角により回転させて、前記調音パラメータベクトル系列を正規化する調音パラメータ正規化手段と、
調音運動の第1統計モデルに対する前記調音パラメータ正規化手段により正規化した後の全ての調音パラメータベクトル系列を連結したベクトル系列の出力確率が最大となる該第1統計モデルを生成する第1統計モデル生成手段と、
話者の夫々について、前記第1統計モデル生成手段により生成される前記第1統計モデルに対して、前記調音パラメータ正規化手段において正規化した後の話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率が最大となる話者適応行列を求める話者適応行列計算手段と、
前記話者適応行列計算手段により求められる話者適応行列を話者に関連付けて記憶する話者適応行列記憶手段と、
話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手段により生成される前記第1統計モデルと前記話者適応行列記憶手段に記憶されている当該話者の話者適応行列とを利用して求め、この求めた話者のベクトル系列に対して、前記調音パラメータ正規化手順において正規化した後の当該話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率を求め、この求めた各話者の出力確率を全話者について加算した値が最大となるような第2統計モデルを生成し、該生成した第2統計モデルをモデル記憶手段に記憶する第2統計モデル生成手段と、
前記第2統計モデル生成手段により生成される第2統計モデルを記憶するモデル記憶手段と、
を備えたことを特徴とする調音運動の正規化を用いた音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004338880A JP4526934B2 (ja) | 2004-11-24 | 2004-11-24 | 調音運動の正規化を用いた音声合成方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004338880A JP4526934B2 (ja) | 2004-11-24 | 2004-11-24 | 調音運動の正規化を用いた音声合成方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006146042A JP2006146042A (ja) | 2006-06-08 |
JP4526934B2 true JP4526934B2 (ja) | 2010-08-18 |
Family
ID=36625794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004338880A Expired - Fee Related JP4526934B2 (ja) | 2004-11-24 | 2004-11-24 | 調音運動の正規化を用いた音声合成方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4526934B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6206960B2 (ja) * | 2011-08-26 | 2017-10-04 | 国立大学法人豊橋技術科学大学 | 発音動作可視化装置および発音学習装置 |
US9607609B2 (en) * | 2014-09-25 | 2017-03-28 | Intel Corporation | Method and apparatus to synthesize voice based on facial structures |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002099295A (ja) * | 2000-09-22 | 2002-04-05 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体 |
JP2003022088A (ja) * | 2001-07-10 | 2003-01-24 | Sharp Corp | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 |
JP2006078641A (ja) * | 2004-09-08 | 2006-03-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置およびその方法 |
-
2004
- 2004-11-24 JP JP2004338880A patent/JP4526934B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002099295A (ja) * | 2000-09-22 | 2002-04-05 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体 |
JP2003022088A (ja) * | 2001-07-10 | 2003-01-24 | Sharp Corp | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 |
JP2006078641A (ja) * | 2004-09-08 | 2006-03-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置およびその方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2006146042A (ja) | 2006-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | Multi-speaker modeling and speaker adaptation for DNN-based TTS synthesis | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
KR101394253B1 (ko) | 음성 인식 오류 보정 장치 | |
JP6523893B2 (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
Poncela et al. | Command-based voice teleoperation of a mobile robot via a human-robot interface | |
Yamagishi et al. | Robustness of HMM-based speech synthesis | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Hu et al. | Whispered and Lombard neural speech synthesis | |
Nose et al. | HMM-based style control for expressive speech synthesis with arbitrary speaker's voice using model adaptation | |
Dhanalakshmi et al. | Intelligibility modification of dysarthric speech using HMM-based adaptive synthesis system | |
JP2018084604A (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP2001117582A (ja) | 音声処理装置およびカラオケ装置 | |
Maseri et al. | Malay language speech recognition for preschool children using hidden Markov model (HMM) system training | |
JP4526934B2 (ja) | 調音運動の正規化を用いた音声合成方法および装置 | |
JP2017167526A (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
Toda et al. | Modeling of speech parameter sequence considering global variance for HMM-based speech synthesis | |
WO2010104040A1 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
JP2002182682A (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
Golda Brunet et al. | Transcription correction using group delay processing for continuous speech recognition | |
JP2010230913A (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
Huang et al. | An SNR-incremental stochastic matching algorithm for noisy speech recognition | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100525 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100602 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140611 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |