JP4526934B2 - 調音運動の正規化を用いた音声合成方法および装置 - Google Patents

調音運動の正規化を用いた音声合成方法および装置 Download PDF

Info

Publication number
JP4526934B2
JP4526934B2 JP2004338880A JP2004338880A JP4526934B2 JP 4526934 B2 JP4526934 B2 JP 4526934B2 JP 2004338880 A JP2004338880 A JP 2004338880A JP 2004338880 A JP2004338880 A JP 2004338880A JP 4526934 B2 JP4526934 B2 JP 4526934B2
Authority
JP
Japan
Prior art keywords
speaker
articulation
statistical model
articulatory
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004338880A
Other languages
English (en)
Other versions
JP2006146042A (ja
Inventor
定男 廣谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004338880A priority Critical patent/JP4526934B2/ja
Publication of JP2006146042A publication Critical patent/JP2006146042A/ja
Application granted granted Critical
Publication of JP4526934B2 publication Critical patent/JP4526934B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、調音運動の正規化を用いた音声合成方法および装置に関するものである。
音声信号の中には、話者に依存しない音韻性の特徴と、声道形状・声道長・発話スタイル・性別などの話者に依存した特徴が存在する。これまでに、発話内容を表す話者共通の音韻性の特徴と話者の違いを表す話者性の特徴を分離するために、複数の話者の文章発声の音声スペクトルデータを用いて、全ての話者に共通な特徴(音韻性の特徴)と、話者性の特徴に分離する方法が提案されている(例えば、非特許文献1、非特許文献2参照。)。しかしながら、音声スペクトルの複雑さにより、話者性の特徴を十分に分離することができないという問題がある。
音声を調音運動の観点から捉え、調音運動を音素固有の調音運動と話者性の特徴に分離する場合には、上記の音声スペクトルを用いる場合に比較して両者の分離の精度が良くなることが期待される。しかしながら、音声スペクトルは全話者共通の周波数上で定義されているのに対し、調音運動は全話者に共通な軸を設定しにくいという問題があり、話者に共通な調音運動の軸を設定するために調音運動の正規化法が提案されている(例えば、非特許文献3参照。)。この提案されている調音運動の正規化法では、声道の正中面における垂直方向の正規化にとどまっているために水平方向の正規化誤差が大きいという問題や、調音器官の静的な特徴を母音のみで分析するにとどまっており、調音運動の正規化法としては不十分であると考えられる。
大量の文章発声により観測した調音運動の動的な振る舞いを考慮するために、調音運動を調音運動の動的な振る舞いを記述した隠れマルコフモデル(以下、HMMと略す。)にモデル化することで、任意の話者の音声信号から調音運動を推定する技術が提案されている(例えば、特許文献1、非特許文献4参照。)。
特開2004−279454号公報 Junichi Yamagishi, Masatsune Tamura, Takashi Masuko, Keiichi Tokuda, and Takao Kobayashi, "A Training Method of Average Voice Model for HMM−Based Speech Synthesis," IEICE Trans. Fundamentals, vol.E86−A, No.8 pp.1956−1963, 2003. Tasos Anastasakos, John McDonough, Richard Schwartz, and John Makhoul, "A Compact Model for Speaker−Adaptive Training," Proc.ICSLP, pp.1137−1140, 1996. Michiko Hashi, John R.Westbury, and Kiyoshi Honda,"Vowel posture normalization," Journal of Acoustical Society of America, vol,104, No.4, pp.2426−2437,1998. Sadao Hiroya and Masaaki Honda,"Speaker Adaptation Method for Acoustic−to−Articulatory Inversion using an HMM−Based Speech Production Model,"IEICE TANS.INF.&SYST., Vol.E87−D, No.5 pp.1071−1078, 2004.
上記の特許文献1や非特許文献4には、話者間の調音運動を比較するための正規化法として、参照話者の調音運動に基づくHMMに対する未知話者の調音運動の出力確率が最大となる線形変換を決定する技術が提案されている。しかしながら、話者毎に作成したHMMの中には話者に依存した特徴が多く含まれているため、この提案されている技術では調音運動の正規化、特に、口蓋音において、十分ではないという問題がある。従って、話者に依存した特徴が含まれない調音運動に基づくHMMの作成が必要になる。
そこで、本発明は、話者に依存した特徴が含まれない調音運動を表現する統計モデルを作成することが可能な調音運動の正規化を用いた音声合成方法および装置を提供することを目的とする。
請求項1に記載の調音運動の正規化を用いた音声合成方法は、複数の話者の各時刻における調音器官の複数の位置から得られる各話者の各時刻における調音パラメータベクトル系列に関して、一の話者以外の他の話者の夫々の各時刻おいて、該一の話者の一の前記調音器官の位置と前記他の話者の夫々の該一の前記調音器官の位置とが一致するように各前記他の話者の前記一の前記調音器官の位置を移動させ、前記他の話者の夫々について、前記一の前記調音器官の位置に対して前記一の話者の口蓋と前記他の話者の口蓋との誤差が最小になるように前記他の話者の口蓋を回転させる回転角を求めて前記一の前記調音器官の位置以外の他の位置を該回転角により回転させて調音パラメータベクトル系列を正規化する調音パラメータ正規化手順と、調音運動の第1統計モデルに対する前記調音パラメータ正規化手順において生成された全ての調音パラメータベクトル系列を連結したベクトル系列の出力確率が最大となる該第1統計モデルを生成する第1統計モデル生成手順と、話者の夫々について、前記第1統計モデル生成手順で生成された前記第1統計モデルに対する前記調音パラメータ正規化手順において生成された話者の各調音パラメータベクトル系列を連結したベクトル系列の出力確率が最大となる話者適応行列を求めて該求めた話者適応行列を話者に関連付けて話者適応行列記憶手段に記憶する話者適応行列計算手順と、話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手順において生成された前記第1統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、該第1統計モデルにおいて当該話者のベクトル系列に対する前記調音パラメータ正規化手順において生成されたこの話者の調音パラメータベクトル系列を連結したベクトル系列の出力確率を求め、各話者の出力確率を加算した値が最大となるような第2統計モデルを生成し、該生成した第2統計モデルをモデル記憶手段に記憶する第2統計モデル生成手順と、を備えたことを特徴とする。
請求項2に記載の調音運動の正規化を用いた音声合成方法は、話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手順において生成された前記第1統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、該第1統計モデルにおいて当該話者のベクトル系列に対する前記調音パラメータ正規化手順において生成されたこの話者の調音パラメータベクトル系列を連結したベクトル系列の出力確率を求め、各話者の出力確率を加算して第1の加算値を得、話者の夫々について、話者のベクトル系列を前記第2統計モデル生成手順において生成された前記第2統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、該第2統計モデルにおいて当該話者のベクトル系列に対する前記調音パラメータ正規化手順において生成されたこの話者の調音パラメータベクトル系列を連結したベクトル系列の出力確率を求め、各話者の出力確率を加算して第2の加算値を得、前記第1の加算値と前記第2の加算値との差が所定の値以下であるか否かを判断するモデル収束判断手順と、前記モデル収束判断手順で前記差が予め設定された閾値以下であると判断された場合、前記第1統計モデルを前記第2統計モデルに置き換えるモデル置換手順と、をさらに備え、前記話者適応行列計算手順および前記第2統計モデル生成手順を前記モデル置換手順で置き換えられた第1統計モデルを利用して行うことを特徴とする。
請求項3に記載の調音運動の正規化を用いた音声合成方法は、話者の話者適応調音モデルを前記話者適応記憶手段に記憶されているこの話者の話者適応行列と前記第2統計モデル記憶手段に記憶されている第2統計モデルとを利用して求める話者適応調音モデル生成手順をさらに備えていることを特徴とする。
請求項4に記載の調音運動の正規化を用いた音声合成装置は、複数の話者の各時刻における調音器官の複数の位置から得られる各話者の各時刻における調音パラメータベクトル系列に関して、一の話者以外の他の話者の夫々の各時刻おいて、該一の話者の一の前記調音器官の位置と前記他の話者の夫々の該一の前記調音器官の位置とが一致するように各前記他の話者の前記一の前記調音器官の位置を移動させ、前記他の話者の夫々について、前記一の前記調音器官の位置に対して前記一の話者の口蓋と前記他の話者の口蓋との誤差が最小になるように前記他の話者の口蓋を回転させる回転角を求めて前記一の前記調音器官の位置以外の他の位置を該回転角により回転させて調音パラメータベクトル系列を正規化する調音パラメータ正規化手段と、調音運動の第1統計モデルに対する前記調音パラメータ正規化手段により生成される全ての調音パラメータベクトル系列を連結したベクトル系列の出力確率が最大となる該第1統計モデルを生成する第1統計モデル生成手段と、話者の夫々について、前記第1統計モデル生成手段により生成される前記第1統計モデルに対する前記調音パラメータ正規化手段において生成される話者の各調音パラメータベクトル系列を連結したベクトル系列の出力確率が最大となる話者適応行列を求める話者適応行列計算手段と、前記話者適応行列計算手段により求められる話者適応行列を話者に関連付けて記憶する話者適応行列記憶手段と、話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手段により生成される前記第1統計モデルと前記話者適応行列記憶手段に記憶されている当該話者の話者適応行列とを利用して求め、該第1統計モデルにおいて当該話者のベクトル系列に対する前記調音パラメータ正規化手段において生成されるこの話者の調音パラメータベクトル系列を連結したベクトル系列の出力確率を求め、各話者の出力確率を加算した値が最大となるような第2統計モデルを生成する第2統計モデル生成手段と、前記第2統計モデル生成手段により生成される第2統計モデルを記憶するモデル記憶手段と、を備えたことを特徴とする。
本発明によれば、話者に依存した特徴が含まれない調音運動を表現する統計モデルを作成することができる。
以下、本発明を実施するための最良の形態について図面を参照しつつ説明する。
まず、本発明の実施の形態における調音運動の正規化を用いた音声合成装置の機能について図1を参照しつつ説明する。図1は本実施の形態における正規化を用いた音声合成装置の機能を示す機能ブロック図である。
ただし、本実施の形態においては、調音運動の統計モデルとして、隠れマルコフモデル(HMM)を用い、HMMの構造は、後続音素を考慮した2音素組の3状態単混合ガウス分布で、スキップなしのleft−to−rightモデルとする。例えば、3つの状態q1,q2,q3があり、各状態での出力確率を夫々1つのガウス分布とし、状態過程は同一状態から同一状態への遷移、状態q1から状態q2への遷移、状態q2から状態q3への遷移の、計5つのみである。
また、本実施の形態において、全話者共通の音素固有の調音運動(固有調音)の抽出は、話者適応学習(Speaker Adaptive Training:SAT)に基づいて行われる。
図1に示すように、音声合成装置1は、音響パラメータ生成部11、音響パラメータ記憶部12、調音パラメータ生成部13、調音パラメータ記憶部14、音素系列記憶部15、コードブック(調音・音響対コードブック)作成部16、コードブック(調音・音響対コードブック)記憶部17、調音パラメータ正規化部18、平均調音モデル作成部19、平均調音モデル記憶部20、話者適応行列計算部21、話者適応行列記憶部22、固有調音モデル作成部23、固有調音モデル記憶部24、モデル収束判定部25、モデル置換部26、話者適応調音モデル作成部27、発話タイミング生成部28、調音パラメータ作成部29、音声スペクトル生成部30、基本周波数生成部31、パワー生成部32、音声合成部33、および音声出力部34として機能する各部を有している。
音響パラメータ生成部11は、観測され、入力される音声信号をフレームごとに、毎秒250回のレートで、窓長32msのブラックマン窓で切り出し、スペクトル分析し、25次のメルケプストラム係数を求め、この求めた25次のメルケプストラム係数を並べて下記式(1)に示す音響パラメータベクトルyitを生成する。ただし、添字iは話者を、添字tは時刻を表しており、yit (1)〜yit (25)は求められた1次から25次のメルケプストラム係数である。そして、音響パラメータ生成部11は、各話者の各時刻において生成した音響パラメータベクトルを話者と時刻とに関連付けて音響パラメータ記億部12に保存する。
Figure 0004526934
音響パラメータ記億部12は、音響パラメータ生成部11により生成される音響パラメータベクトルyitを話者iと時刻tとに関連付けて記憶するものである。
調音パラメータ生成部13は、磁気センサシステムを用いて音声信号と同時観測した調音器官の複数の位置(本実施の形態では、上顎(UJ)、下顎(LJ)、上唇(UL)、下唇(LL)、舌上の3点(T1,T2,T3)の計7点)の水平位置と垂直位置を毎秒250回のレートで取り込み、この各位置の水平位置と垂直位置とを並べて下記式(2)に示す調音パラメータベクトルxitを生成する。ただし、添字iは話者を、添字tは時刻を表しており、式(2)中の、xit (UJx)、xit (UJy)、xit (LJx)、xit (T2y)、xit (T3x)、xit (T3y)は、夫々、得られた上顎(UJ)の水平位置、上顎(UJ)の垂直位置、下顎(LJ)の水平位置、舌上(T2)の垂直位置、舌上(T3)の水平位置、舌上(T3)の垂直位置を表している。そして、調音パラメータ生成部13は、各話者の各時刻において生成した調音パラメータベクトルを話者と時刻とに関連付けて調音パラメータ記億部14に保存する。
Figure 0004526934
調音パラメータ記億部14は、調音パラメータ生成部13により生成される、または、調音パラメータ正規化部18により更新される、調音パラメータベクトルxitを話者iと時刻tとに関連付けて記憶するものである。
音素系列記億部15は、発声された音素(/a/,/u/など)を発声した話者iと発声された時刻tとに関連付けて記憶するものである。
コードブック作成部16は、話者iと時刻tとを利用して、話者iと時刻tとに対応して音響パラメータ記憶部12に記憶されている音響パラメータベクトルyitを取り出す。コードブック作成部16は、話者iと時刻tとを利用して、話者iと時刻tとに対応して調音パラメータ記憶部14に記憶されている調音パラメータベクトルxitを取り出す。コードブック作成部16は、話者iと時刻tを利用して、話者iと時刻tとに対応して音素系列記憶15に記憶されている音素を取り出す。そして、コードブック作成部16は、話者iと時刻tとに取り出した音響パラメータベクトルyitと調音パラメータベクトルxitと音素とを関連付けてコードブック記憶部17に記憶する。これを、全ての話者の全ての時刻において行う(調音・音響対コードブックの作成)。
コードブック記憶部17は、話者iと時刻tとに音素と音響パラメータベクトルyitと調音パラメータベクトルxitとを関連付けて記憶するものであり、その一例を図2に示している。ただし、コードブック記憶部17には、全ての話者の全ての時刻における、音素と音響パラメータベクトルと調音パラメータベクトルとの組が記憶され、例えば、その組の数は20万セットである。
なお、話者として日本人男性5名(話者1〜話者5)で、「青空に入道雲が浮かんでいます」などの連続文章を夫々375文章発声したものを用いる。
調音パラメータ正規化部18は、調音器官の位置の基準とする話者(以下、参照話者という。)jと時刻tとを利用して、参照話者jと時刻tとに関連付けて調音パラメータ記憶部14に記憶されている調音パラメータベクトルxjtを取り出す。そして、調音パラメータ正規化部18は、参照話者j以外の話者kと時刻tとを利用して、話者kと時刻tとに関連付けて調音パラメータ記憶部14に記憶されている調音パラメータベクトルxktを取り出す。
調音パラメータ正規化部18は、取り出した参照話者jの調音パラメータベクトルxjtに含まれる上顎(UJ)の位置座標(xjt (UJx),xjt (UJy))と、取り出した話者kの調音パラメータベクトルxktに含まれる上顎(UJ)の位置座標(xkt (UJx),xkt (UJy))とが一致するように話者kの上顎(UJ)の位置を平行移動させ、平行移動後の位置座標を新たに上顎(UJ)の位置座標(xkt (UJx),xkt (UJy))とする。これを参照話者j以外の全ての話者について行う。なお、この時点で話者の全ての上顎(UJ)の位置は等しくなっている。
調音パラメータ正規化部18は、参照話者jの口蓋の位置座標(Vxj,Vyj)と話者kの口蓋の位置座標(Vxk,Vyk)とを用いて、上顎(UJ)の位置(両話者の上顎は一致)に対して、参照話者jの口蓋の位置座標と話者kの口蓋の位置座標との誤差が最小になるように、話者kの口蓋の位置を回転させる回転角thetaを下記式(3)を演算することにより求める。なお、各話者の口蓋の位置座標は調音観測時点で取得され、図3の各線は一人の話者の口蓋を示している。
Figure 0004526934
そして、調音パラメータ正規化部18は、取り出した話者kの調音パラメータベクトルxktに含まれる下顎(LJ)の位置座標(xkt (LJx),xkt (LJy))を、位置座標(xkt (LJx),xkt (LJy))と回転角thetaとを利用して下記式(4)を算出して回転させ、回転後の下顎(LJ)の位置座標(xkt (LJx),xkt (LJy))を得る。
Figure 0004526934
同様に、調音パラメータ正規化部18は、話者kの調音パラメータベクトルxktに含まれる上唇(UL)の位置座標(xkt (ULx),xkt (ULy))、および下唇(LL)の位置座標(xkt (LLx),xkt (LLy))の夫々についても算出した回転角thetaを利用して回転させる。また、調音パラメータ正規化部18は、話者kの調音パラメータベクトルxktに含まれる舌上(T1)の位置座標(xkt (T1x),xkt (T1y))、舌上(T2)の位置座標(xkt (T2x),xkt (T2y))、および舌上(T3)の位置座標(xkt (T3x),xkt (T3y))の夫々についても算出した回転角thetaを利用して回転させる。
調音パラメータ正規化部18は、平行移動後の上顎(UJ)の位置座標、回転後の下顎(LJ)、上唇(UL)、下唇(LL)、舌上(T1)、舌上(T2)、舌上(T3)の位置座標を並べて調音パラメータベクトルxktを新たに生成する(正規化)。調音パラメータ正規化部18は、調音パラメータ記億部14とコードブック記憶部17とに記憶されている話者kの時刻tにおける調音パラメータベクトルxktを新たに生成された調音パラメータベクトルxktに置き換え、調音パラメータ記億部14とコードブック記憶部17の記憶内容を更新する。
以上により、話者kの時刻tにおける口蓋の位置を回転させることにより口蓋の正規化を行い、この回転に従って調音パラメータベクトルの正規化を行う。
調音パラメータ正規化部18は、参照話者j以外の全ての話者の全ての時刻について、上記の内容を行い、調音パラメータベクトルの正規化を行う。
図3に調音パラメータ正規化部18による正規化前後の調音器官の様子の一例を示しており、(a)は正規化前を、(b)は正規化後を示している。
平均調音モデル作成部19は、初期モデルとして、調音パラメータ記憶部14に記憶されている全ての話者の全ての時刻における調音パラメータベクトルの平均により構成される平均調音HMMのモデルλaverageを作成する。
これは、全ての話者の全ての時刻における調音パラメータベクトルを連結して、下記式(5)に示すベクトルxを作成する。モデルλaverageにおいて、状態系列qを構成する一つの状態をqとするとき、状態qに対する連結したベクトルxの出力確率は、その状態qへの遷移確率P(q|λaverage)とその状態qに対するベクトルxの出力確率P(x|q,λaverage)との積で表され、連結したベクトルxの出力確率P(x|λaverage)は、状態系列qを構成する全ての状態に対するベクトルxの出力確率を加算したものであるので、下記式(6)に示すものとなる。連結したベクトルxの下記式(6)で表される出力確率P(x|λaverage)が最大となるように平均調音HMMのモデルλaverageを作成する。
Figure 0004526934
Figure 0004526934
ここで、m,nはHMMの状態、qはHMMの状態系列を表すものとする。また、与えられた状態qに対する調音パラメータベクトルxitの出力確率P(xit|q,λaverage)を下記式(7)に示すガウス分布と仮定する。ただし、Mは調音パラメータベクトルの次数、Tは転置である。
Figure 0004526934
平均調音パラメータベクトルxおよび共分散行列σは、状態qに存在する調音パラメータベクトルを、全ての話者および全ての時刻で平均化したものであるため、話者iの調音パラメータベクトルxitが、ある時刻tにおいて状態qに存在する確率をγit(q)と定義すると、平均調音パラメータベクトルxおよび共分散行列σは、夫々、下記式(8)および下記式(9)により得られる。
Figure 0004526934
Figure 0004526934
m,nは状態mから状態nへ遷移する確率(状態遷移確率)を表す。状態遷移確率am,nは、話者iの調音パラメータベクトルxi(t−1)が時刻(t−1)において状態qに存在し、時刻tにおいて状態qに存在する確率をξi(t−1)(q,q)と定義すると、下記式(10)により得られる。
Figure 0004526934
平均調音HMMのモデルλaverageには、全ての状態mに対して、平均調音パラメータベクトルx、共分散行列σ、状態遷移確率am,nが含まれている。
平均調音モデル記憶部20は、平均調音モデル作成部19により作成される平均調音HMMのモデルλaverageを記憶するものである。
話者適応行列計算部21は、話者iの各時刻tにおける調音パラメータベクトルxitを、話者iを利用して調音パラメータ記憶部14から取り出し、これを連結して下記式(11)に示すベクトルxを作成する。
Figure 0004526934
話者適応行列計算部21は、平均調音モデルHMMのモデルλaverage(平均調音モデル記憶部20に記憶されている平均調音HMMのモデルλaverage、或いは、モデル置換部26により置き換えられたモデルλaverage)に対して、話者iの連結したベクトルxの出力確率P(x|λaverage)が最大となる話者適応行列Wを、最尤線形回帰(Maximum Likelihood Linear Regression:MLLR)法に基づいて求め、求めた話者適応行列Wを話者iに関連付けて話者適応行列記憶部22に記憶する。ただし、出力確率P(x|λaverage)は、モデルλaverageにおいて、状態系列qを構成する一つの状態をqとするとき、下記式(12)に示すように、その状態qへの遷移確率P(q|λaverage)とその状態qに対するベクトルxの出力確率P(x|q,λaverage)との積で表され、状態qを構成する全ての状態に対するベクトルxの出力確率を加算したものである。
Figure 0004526934
具体的には、話者適応行列計算部21は、話者iに対して、下記式(13)の値が最小となるような話者適応行列Wを求める。ただし、γit(q)は話者iの調音パラメータベクトルxitが時刻tにおいて状態qに存在する確率である。また、式中、xitは話者iと時刻tとを利用して調音パラメータ記憶部14から取り出される調音パラメータベクトルxit、xはモデルλaverageに含まれている平均調音パラメータベクトルx、σはモデルλaverageに含まれている共分散行列σ、σ −1はσの逆行列である。
話者適応行列計算部21は、全ての話者に対して話者適応行列を求める。
Figure 0004526934
話者適応行列記憶部22は、話者ごとに、話者適応行列計算部21により求められる話者適応行列Wを話者iに関連付けて記憶するものである。
固有調音モデル作成部23は、平均調音HMMのモデルλaverage(平均調音モデル記憶部20に記憶されている平均調音HMMのモデルλaverage、或いは、モデル置換部26により置き換えられたモデルλaverage)に含まれている平均調音パラメータベクトルxと、話者iに対応して話者適応行列記憶部22に記憶されている話者適応行列Wとの積をとることにより、話者iの平均調音パラメータベクトルWを求める(推定)。これを全話者について行う。
固有調音モデル作成部23は、求めた(推定した)話者iの平均調音パラメータベクトルWに対する話者iの調音パラメータベクトルxの尤度(出力確率P(x|λeigen)を全話者で加算し、加算した値が最大となるような固有調音HMMのモデルλeigen={x,σ}を求める。そして、固有調音モデル作成部23は、固有調音モデル記憶部24に固有調音HMMのモデルλeigenを新たに保存し、或いは、固有調音モデル記憶部24の記憶内容を求めた固有調音HMMのモデルλeigenに更新する。
具体的には、下記式(14)の値が最小となる平均調音パラメータベクトルxと共分散行列σとを求める。ただし、γit(q)は話者iの調音パラメータベクトルxitが時刻tにおいて状態qに存在する確率である。また、式中、xitは話者iと時刻tとを利用して調音パラメータ記憶部14から取り出される調音パラメータベクトルxit、xはモデルλaverageに含まれている平均調音パラメータベクトルx、σはモデルλaverageに含まれている共分散行列σ、σ −1はσの逆行列である。
なお、全話者で加算した尤度を最大にすることで、話者間のばらつきを考慮した学習を行うことができる。
Figure 0004526934
固有調音モデル記憶部24は固有調音モデル作成部23により作成される固有調音HMMのモデルλeigenを記憶するものである。
モデル収束判定部25は、尤度の変化が収束したかを判断する。
具体的には、話者iの全ての時刻における調音パラメータベクトル(調音パラメータ記憶部14に記憶されている。)を連結したベクトルxを作成する(式(11)参照)。
モデルλaverage(1回目は平均調音モデル記憶部20に記憶されているモデルλaverage、2回目以降はモデル置換部26により置き換えられたモデルλaverage)からそれに含まれる平均調音パラメータベクトルxを取り出し、話者iを利用して話者iに関連付けて話者適応行列記憶部22に記憶されている話者適応行列Wを取り出す。取り出した平均調音パラメータベクトルxと取り出した話者適応行列Wとの積をとることにより話者iの話者適応調音HMMを作成する。
モデルλaverageにおいて、状態系列qを構成する一つの状態をqとするとき、作成した話者適応調音HMMに含まれる平均調音パラメータベクトルおよび共分散行列に対する、話者iの連結したベクトルxの出力確率は、その状態qへの遷移確率P(q|λaverage)とその状態qに対するベクトルxの出力確率P(x|q,λaverage)との積で表され、連結したベクトルxの出力確率P(x|λaverage)は、状態系列qを構成する全ての状態に対するベクトルxの出力確率を加算したものであるので、下記式(15)に示すものとなる。これを全ての話者において行う。
Figure 0004526934
ここで、m,nはHMMの状態、qはHMMの状態系列を表すものとする。また、与えられた状態qに対する調音パラメータベクトルxitの出力確率P(xit|q,λaverage)を下記式(16)に示すガウス分布と仮定する。ただし、Mは調音パラメータベクトルの次数、Tは転置である。
Figure 0004526934
各話者の式(15)により得られた値を合計する(下記式(17))。
Figure 0004526934
モデルλeigen(固有調音モデル記憶部24に記憶されているモデルλeigen)からそれに含まれる平均調音パラメータベクトルxを取り出し、話者iを利用して話者iに関連付けて話者適応行列記憶部22に記憶されている話者適応行列Wを取り出す。取り出した平均調音パラメータベクトルxと取り出した話者適応行列Wとの積をとることにより話者iの話者適応調音HMMを作成する。
モデルλeigenにおいて、状態系列qを構成する一つの状態をqとするとき、作成した話者適応調音HMMに含まれる平均調音パラメータベクトルおよび共分散行列に対する、話者iの連結したベクトルxの出力確率は、その状態qへの遷移確率P(q|λeigen)とその状態qに対するベクトルxの出力確率P(x|q,λeigen)との積で表され、連結したベクトルxの出力確率P(x|λeigen)は、状態系列qを構成する全ての状態に対するベクトルxの出力確率を加算したものであるので、下記式(18)に示すものとなる。これを全ての話者において行う。
Figure 0004526934
ここで、m,nはHMMの状態、qはHMMの状態系列を表すものとする。また、与えられた状態qに対する調音パラメータベクトルxitの出力確率P(xit|q,λeigen)を下記式(19)に示すガウス分布と仮定する。ただし、Mは調音パラメータベクトルの次数、Tは転置である。
Figure 0004526934
各話者の式(18)により得られた値を合計する(下記式(20))。
Figure 0004526934
モデルλeigenに関して式(20)で得られる値から、モデルλaverageに関して式(17)で得られる値を引いた値(下記式(21)に示す値)の絶対値が予め設定された閾値(例えば、0.01)よりも小さくなったか否かにより判断する。
Figure 0004526934
モデル置換部26は、モデルλaverageを固有調音モデル記憶部24に記憶されているモデルλeigenに置き換える。
話者適応調音モデル作成部27は、固有調音モデル記憶部24から固有調音HMMのモデルλeigenを取り出し、取り出したモデルλeigenからそれに含まれる、全話者共通の音素固有の、平均調音パラメータベクトルxを取り出す。また、話者適応調音モデル作成部27は、話者iに対応して話者適応行列記憶部22に記憶されている、話者性を表す、話者適応行列Wを取り出す。そして、話者適応調音モデル作成部27は、取り出した平均調音パラメータベクトルxと話者適応行列Wとの積をとることにより話者iの話者適応調音HMMを作成する。
発話タイミング生成部28は、音響パラメータ生成部11と同じレートの発話タイミングを生成する。
調音パラメータ作成部29は、話者適応調音モデル作成部27により得られる話者iの話者適応調音HMMを用いて、発話タイミング生成部28により生成される発話タイミングに従って、各時刻における調音パラメータベクトルを生成する。この生成には、音声パラメータ生成アルゴリズム(徳田恵一、益子貴史、小林隆夫、今井聖、“動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム、”日本音響学会誌第53巻3号(1997),pp.102−200)を利用する。
まず、与えられた音素系列、すなわち、HMMの状態系列qを発話タイミングに応じて設定する。例えば、状態系列を下記式(22)とする。ここで、Lは状態数である。
Figure 0004526934
次に、話者iの話者適応調音HMMから、状態系列に対応する下記式(23)に示す平均調音パラメータベクトルxと下記式(24)に示す共分散行列σとを並べ、上記文献に記載された音声パラメータ生成アルゴリズムに従って、前後のフレームの連続性を考慮した調音パラメータベクトル系列xを生成する。
Figure 0004526934
Figure 0004526934
通常、HMMは平均調音パラメータベクトルおよび共分散を保持しているため、与えられた状態系列に対する出力確率が最大となる調音パラメータベクトル系列は、下記式(25)が未知のベクトルXについて最小にすることと等価であるため、与えられた状態系列における平均調音パラメータベクトルを並べたものとなる。この場合、HMMの状態間で得られた調音パラメータベクトルの不連続が起るため、なんらかの平滑化処理が後処理として必要となる。しかしながら、この場合、平滑化後の調音パラメータベクトルの出力確率が高くなることが保障されていない。
Figure 0004526934
これに対して、上記文献の音声パラメータ生成アルゴリズムは前後のフレームの連続性を考慮しつつ、出力確率が最大となる調音パラメータベクトルを生成することを行っているために、後処理として平滑化処理を行う必要がない。
具体的には、平均調音パラメータベクトルを、動的特徴(速度および加速度)を加えたベクトルに拡張する。すなわち、ベクトルxを下記式(26)とする。ここで、xはこれまでの静的な平均調音パラメータベクトルxであり、xΔとxΔ2は、下記式(27)、(28)で表される。これら2つのパラメータを平均調音パラメータベクトルに追加する。
Figure 0004526934
Figure 0004526934
Figure 0004526934
次に、静的な平均調音パラメータベクトルxを、動的特徴を加えた平均調音パラメータベクトルに変換する行列Rを下記式(29)に示すように定義する。ただし、Iは単位行列である。
Figure 0004526934
前後のフレームの連続性を考慮して、調音パラメータベクトルの出力確率を最大にすることは、下記式(30)を未知のベクトルXについて最小にすることと等価である。
Figure 0004526934
つまり、下記式(31)を演算することである。
Figure 0004526934
音声スペクトル生成部30は、調音・音響対コードブックの検索アルゴリズム(鏑木時彦、誉田雅彰、津村尚志、“音素ラベル付き調音・音響対コードブックの検索に基づく調音運動からの音声合成法の検討、”日本音響学会誌54巻3号(1998),pp.207−214)に基づき、調音パラメータ作成部29により生成される時刻tにおける調音パラメータベクトルを、コードブック記憶部17に記憶されている各調音パラメータベクトルと比較し、その中から調音パラメータ作成部29により生成される時刻tにおける調音パラメータベクトルと誤差の小さい調音パラメータベクトルを選択し、これと対となる音響パラメータベクトルを出力する。この操作を全ての時刻tにおいて行い、所望の音響パラメータベクトル系列を得る。
基本周波数生成部31は基本周波数を生成し、パワー生成部32はパワーを生成する。
音声合成部33は、基本周波数生成部31とパワー生成部32から入力される基本周波数とパワーを、音声スペクトル生成部30により得られる音響パラメータベクトル系列に与えて音声を合成する。
音声出力部34は、音声合成部33により合成される音声を出力する。
以下、上述した正規化を用いた音声合成装置1により行われる調音運動の正規化を用いた音声合成方法における固有調音HMMのモデルの作成の手順について図4を参照しつつ説明する。図4は音声合成装置1により行われる固有調音HMMのモデルの作成の手順を示すフローチャートである。
音響パラメータ生成部11は、話者iにより発声された音声信号に基づき、各時刻tにおける音響パラメータベクトルyitを生成し、この生成した音響パラメータベクトルyitを、話者iと時刻tとに関連付けて音響パラメータ記憶部12に保存する。これを話者ごとに行う(ステップS101)。
調音パラメータ生成部13は、音声信号と同時計測された話者iの上顎(UJ)、下顎(LJ)、上唇(UL)、下唇(LL)、舌上の3点(T1,T2,T3)の計7点の水平位置および垂直位置に基づき、各時刻tにおける調音パラメータベクトルxitを生成し、この生成した調音パラメータベクトルxitを話者iと時刻tとに関連付けて調音パラメータ記憶部14に保存する。これを話者ごとに行う(ステップS102)。
コードブック作成部16は、話者iと時刻tとを利用して、音響パラメータ記憶部12、調音パラメータ記憶部14、音素系列記憶部15の夫々から、話者iと時刻tとに対応して記憶されている、音響パラメータベクトルyit、調音パラメータベクトルxit、音素を取り出す。そして、コードブック作成部16は、話者iと時刻tとに取り出した音響パラメータベクトルyitと調音パラメータベクトルxitと音素とを関連付けてコードブック記憶部17に記憶する。これを、全ての話者の全ての時刻において行う(調音・音響対コードブックの作成)(ステップS103)。
調音パラメータ正規化部18は、参照話者jと時刻tとを利用して、参照話者jと時刻tとに関連付けて調音パラメータ記憶部14に記憶されている調音パラメータベクトルxjtを取り出す。調音パラメータ正規化部18は、参照話者以外の話者kと時刻tとを利用して、話者kと時刻tとに関連付けて調音パラメータ記憶部14に記憶されている調音パラメータベクトルxktを取り出す。そして、調音パラメータ正規化部18は、取り出した参照話者jの調音パラメータベクトルxjtに含まれる上顎(UJ)の位置座標(xjt (UJx),xkt (UJy))と、取り出した話者kの調音パラメータベクトルxktに含まれる上顎(UJ)の位置座標(xkt (UJx),xkt (UJy))とが一致するように話者kの上顎(UJ)の位置を平行移動させ、平行移動後の位置座標を新たに上顎(UJ)の位置座標(xkt (UJx),xkt (UJy))とする。これを参照話者j以外の全ての話者について行う。
調音パラメータ正規化部18は、参照話者jの口蓋の位置座標(Vxj,Vyj)と話者kの口蓋の位置座標(Vxk,Vyk)とを用いて、上顎(UJ)の位置に対して、参照話者jの口蓋の位置座標と話者kの口蓋の位置座標との誤差が最小になるように、話者kの口蓋の位置を回転させる回転角thetaを求める。
調音パラメータ正規化部18は、話者kの調音パラメータベクトルxktに含まれる調音器官の下顎(LJ)、上唇(UL)、下唇(LL)、舌上(T1)、舌上(T2)、および舌上(T3)の位置座標の夫々を求めた回転角theta回転させる。そして、調音パラメータ正規化部18は、新たに平行移動後或いは回転後の各位置座標を並べて調音パラメータベクトルxktを生成する。調音パラメータ正規化部18は、調音パラメータ記億部14とコードブック記憶部17とに記憶されている話者kの時刻tにおける調音パラメータベクトルxktを、新たに生成した調音パラメータベクトルxktに置き換え、調音パラメータ記億部14とコードブック記憶部17の記憶内容を更新する。これを、参照話者j以外の全ての話者の全ての時刻において行う(調音パラメータベクトルの正規化)(ステップS104)。
平均調音モデル作成部19は、調音パラメータ記憶部14に記憶されている全ての話者の全ての時刻における調音パラメータベクトルの平均により構成される平均調音HMMのモデルλaverageを作成し、作成した平均調音HMMのモデルλaverageを平均調音モデル記憶部20に保存する(ステップS105)。
話者適応行列計算部21は、平均調音モデル記憶部20から平均調音モデルHMMのモデルλaverageを取り出す(ステップS106)。
話者適応行列計算部21は、話者iの各時刻tにおける調音パラメータベクトルxitを、話者iを利用して調音パラメータ記憶部14から取り出し、これを連結したベクトルxを作成する。そして、話者適応行列計算部21は、モデルλaverageに対して、連結したベクトルxの出力確率が最大となる話者適応行列WをMLLR法に基づいて求め、求めた話者適応行列Wを話者iに関連付けて話者適応行列記憶部22に保存する。これを全ての話者において行う(ステップS107)。
固有調音モデル作成部23は、話者iを利用して話者適応行列記憶部22から話者iに関連付けられた話者適応行列Wを取り出す。そして、固有調音モデル作成部23は、λaverageに含まれている平均調音パラメータベクトルxと、取り出した話者適応行列Wとの積をとることにより、話者iの平均調音パラメータベクトルWを求める(推定)。これを全話者について行う。そして、固有調音モデル作成部23は、求めた話者iの平均調音パラメータベクトルWに対する話者iの調音パラメータベクトルxの尤度を全話者で加算し、加算した値が最大となるような固有調音HMMのモデルλeigen={x,σ}を求める。そして、固有調音モデル作成部23は、固有調音モデル記憶部24に求めた固有調音HMMのモデルλeigenを格納する(ステップS108)。
モデル収束判定部25は、調音パラメータ記憶部14から話者iの全ての時刻における調音パラメータベクトルを取り出し、これを連結したベクトルxを作成する。これを全ての話者で行う。そして、モデル収束判定部25は、モデルλeigenに対する各話者の連結したベクトルの出力確率を加算した値から、モデルλaverageに対する各話者の連結したベクトルxの出力確率を加算した値を引いた値が予め設定された閾値よりも小さくなったか否かにより、尤度の変化が収束したか否かを判断する(ステップS109)。尤度の変化が収束していないと判断した場合(S109:NO)ステップS110の処理へ進み、尤度の変化が収束したと判断した場合(S109:YES)処理を終了する。
モデル置換部26は、モデルλaverageを今回使用していた(固有調音モデル記憶部24に記憶されている)モデルλeigenに置き換える(ステップS110)、ステップS107の処理へ戻る。尤度の変化が収束するまでモデルλeigenの更新を繰り返される。
以下、上述した正規化を用いた音声合成装置1により行われる調音運動の正規化を用いた音声合成方法における音声出力の手順について図5を参照しつつ説明する。図5は音声合成装置1により行われる音声出力の手順を示すフローチャートである。
話者適応調音モデル作成部27は、固有調音モデル記憶部24から固有調音HMMのモデルλeigenを取り出し、取り出したモデルλeigenからそれに含まれる平均調音パラメータベクトルxを取り出す。また、話者適応調音モデル作成部27は、話者iに対応して話者適応行列記憶部22に記憶されている話者適応行列Wを取り出す。そして、話者適応調音モデル作成部27は、取り出した平均調音パラメータベクトルxと話者適応行列Wとの積をとることにより話者iの話者適応調音HMMを作成する(ステップS201)。
調音パラメータ作成部29は、ステップS201で作成された話者iの話者適応調音HMMを用いて、発話タイミング生成部28で生成された発話タイミングに従って、各時刻における調音パラメータベクトルを上記音声パラメータ生成アルゴリズムを用いて生成する(ステップS202)。
音声スペクトル生成部30は、調音・音響対コードブックの検索アルゴリズムに基づき、ステップS202で生成された時刻tにおける調音パラメータベクトルを、コードブック記憶部17に記憶されている各話者の調音パラメータベクトルと比較し、その中から調音パラメータ作成部29により生成された時刻tにおける調音パラメータベクトルと誤差の小さい調音パラメータベクトルを選択し、これと対となる音響パラメータベクトルを出力する。全ての時刻tにおいて行い、音響パラメータベクトル系列を得る(ステップS203)。
音声合成部33は、基本周波数生成部31とパワー生成部32から入力される基本周波数とパワー音圧とをステップS203で得た音響パラメータベクトル系列に与えて音声を合成し(ステップS204)、音声出力部34は、ステップS204で合成された音声を出力する(ステップS205)。
平均調音HMMと固有調音HMMの比較を行った結果を図6に示す。図6は、平均調音HMM或いは固有調音HMMと話者iの話者適応行列Wとから話者iの話者適応調音HMMを作成する。そして、得られた話者適応調音HMMから生成した話者iの推定調音パラメータと話者iの観測した調音パラメータの間の誤差の平均を計算したものである。ただし、話者適応行列の数は1つとした。その結果、固有調音HMMから生成した調音パラメータの推定誤差は、平均調音HMMから生成した調音パラメータの推定誤差と比較して小さいことが分かる。特に、/k/や/g/などの口蓋音で固有調音HMMと平均調音HMMの間で大きな相違が見られる。これは、平均調音HMMでは特定の話者に偏って学習が行われたのに対して、固有調音HMMでは話者適応学習による話者間のばらつきを考慮した学習により、話者性の特徴が固有調音HMMから精度よく分離されたことを意味している。また、固有調音HMMの学習における繰り返しの数(反復回数)は2程度でよいことが分かる。
話者適応行列Wの個数による固有調音HMMから生成した調音パラメータの推定誤差について検討する。固有調音HMMから話者iの適応に用いる話者適応行列Wの個数を増やすことにより、話者性の表現能力が上がることが期待される。話者適応行列の数を1個から6個に増やした場合、推定誤差は0.04mmしか減少せず、推定された調音パラメータに大きな相違が見られないことが分かる。さらに、話者適応行列を最大の739個に増やしても、誤差は1個の場合と比較して0.1mmしか減少しない。一般に、音声スペクトルの領域においては、この話者適応行列の数が2以上必要なことが知られている。このことから、調音運動の領域においては、話者の相違を1個の話者適応行列で表現でき、これは、調音運動領域での話者性の制御が音声スペクトルと比較してうまくいくことを示唆している。
話者2の観測した調音運動と、固有調音HMMの平均調音パラメータベクトルxから話者適応行列Wを用いて推定した話者2の調音運動とを比較した結果を図7に示す。図7は、「気管ぜんそくや鼻炎も広まっている」という文章を用いた。調音運動全体における平均二乗誤差は約1.35mmとなった。この値は人間が同じ文章を10回繰り返し発声した場合の調音運動の標準偏差2mmよりも小さいため、推定誤差は十分に小さいといえる。
図7において推定された話者2の調音運動から、話者1の調音・音響対コードブックを用いて生成した音声スペクトルを図8(b)に示す。比較のため、話者1の推定された話者1の調音運動から、話者1の調音・音響対コードブックを用いて生成した音声スペクトルを図8(a)に示す。ここで、(b)は話者2の調音運動に従って話者1が音声を生成したことを意味しており、話者1が話者2の話し方をまねたことに対応する。この結果、異なる調音パラメータから、異なる音声スペクトルを生成可能であることが分かる。さらに、得られた音声パラメータに基づき音声を合成した結果、(b)の音声には十分な話者性が存在することが音声の聞き取り実験においても確認された。このことは、本手法が調音パラメータの領域において話者性を制御するのに有効であることが分かる。
以上、本発明の好適な実施の形態について説明したが、本発明は上述の実施の形態に限られるものではなく、特許請求の範囲に記載した限りにおいて様々な設計変更が可能なものである。
尚、上述した各処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上記各種処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。更に「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本発明の実施の形態における正規化を用いた音声合成装置の機能を示す機能ブロック図。 図1のコードブック記憶部に記憶される調音・音響対コードブックを説明するための図。 正規化前後の話者の調音器官の位置を示す図。 図1の音声合成装置が行う音声合成方法における固有調音HMMのモデルの作成手順を示すフローチャート。 図1の音声合成装置が行う音声合成方法における音声出力の手順を示すフローチャート。 平均調音HMMと固有調音HMMから生成された調音パラメータの推定誤差を示す図。 固有調音HMMから生成された調音運動と観測された調音運動の垂直成分を示す図。 調音運動から生成した音声スペクトルを示す図。
符号の説明
1 音声合成装置
11 音響パラメータ生成部
13 調音パラメータ生成部
14 調音パラメータ記憶部
17 コードブック記憶部
18 調音パラメータ正規化部
19 平均調音モデル作成部
20 平均調音モデル記憶部
21 話者適応行列計算部
22 話者適応行列記憶部
23 固有調音モデル作成部
24 固有調音モデル記憶部
25 モデル収束判定部
26 モデル置換部
27 話者適応調音モデル作成部
29 調音パラメータ作成部
30 音声スペクトル生成部

Claims (4)

  1. 複数の話者の各時刻における調音器官の複数の位置から得られる各話者の各時刻における調音パラメータベクトル系列に関して、一の話者以外の他の話者の夫々の各時刻おいて、該一の話者の一の前記調音器官の位置と前記他の話者の夫々の該一の前記調音器官の位置とが一致するように各前記他の話者の前記一の前記調音器官の位置を移動させ、前記他の話者の夫々について、前記一の前記調音器官の位置に対して前記一の話者の口蓋と前記他の話者の口蓋との誤差が最小になるように前記他の話者の口蓋を回転させる回転角を求めて前記一の前記調音器官の位置以外の他の位置を該回転角により回転させて、前記調音パラメータベクトル系列を正規化する調音パラメータ正規化手順と、
    調音運動の第1統計モデルに対する前記調音パラメータ正規化手順において正規化した後の全ての調音パラメータベクトル系列を連結したベクトル系列の出力確率が最大となる該第1統計モデルを生成する第1統計モデル生成手順と、
    話者の夫々について、前記第1統計モデル生成手順で生成された前記第1統計モデルに対して、前記調音パラメータ正規化手順において正規化した後の話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率が最大となる話者適応行列を求めて該求めた話者適応行列を話者に関連付けて話者適応行列記憶手段に記憶する話者適応行列計算手順と、
    話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手順において生成された前記第1統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、この求めた話者のベクトル系列に対して、前記調音パラメータ正規化手順において正規化した後の当該話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率を求め、この求めた各話者の出力確率を全話者について加算した値が最大となるような第2統計モデルを生成し、該生成した第2統計モデルをモデル記憶手段に記憶する第2統計モデル生成手順と、
    を備えたことを特徴とする調音運動の正規化を用いた音声合成方法。
  2. 話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手順において生成された前記第1統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、この求めた話者のベクトル系列に対して、前記調音パラメータ正規化手順において正規化した後の当該話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率を求め、この求めた各話者の出力確率を全話者について加算して第1の加算値を得、
    話者の夫々について、話者のベクトル系列を前記第2統計モデル生成手順において生成された前記第2統計モデルと前記話者適応行列計算手順において求められた当該話者の話者適応行列とを利用して求め、この求めた話者のベクトル系列に対して、前記調音パラメータ正規化手順において正規化した後の当該話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率を求め、この求めた各話者の出力確率を全話者について加算して第2の加算値を得、
    前記第1の加算値と前記第2の加算値との差が所定の値以下であるか否かを判断するモデル収束判断手順と、
    前記モデル収束判断手順で前記差が予め設定された閾値以下であると判断された場合、
    前記第1統計モデルを前記第2統計モデルに置き換えるモデル置換手順と、
    をさらに備え、
    前記話者適応行列計算手順および前記第2統計モデル生成手順を前記モデル置換手順で置き換えられた第1統計モデルを利用して行うことを特徴とする請求項1に記載の調音運動の正規化を用いた音声合成方法。
  3. 話者の話者適応調音モデルを前記話者適応記憶手段に記憶されているこの話者の話者適応行列と前記第2統計モデル記憶手段に記憶されている第2統計モデルとを利用して求める話者適応調音モデル生成手順をさらに備えていることを特徴とする請求項1または請求項2に記載の調音運動の正規化を用いた音声合成方法。
  4. 複数の話者の各時刻における調音器官の複数の位置から得られる各話者の各時刻における調音パラメータベクトル系列に関して、一の話者以外の他の話者の夫々の各時刻おいて、該一の話者の一の前記調音器官の位置と前記他の話者の夫々の該一の前記調音器官の位置とが一致するように各前記他の話者の前記一の前記調音器官の位置を移動させ、前記他の話者の夫々について、前記一の前記調音器官の位置に対して前記一の話者の口蓋と前記他の話者の口蓋との誤差が最小になるように前記他の話者の口蓋を回転させる回転角を求めて前記一の前記調音器官の位置以外の他の位置を該回転角により回転させて、前記調音パラメータベクトル系列を正規化する調音パラメータ正規化手段と、
    調音運動の第1統計モデルに対する前記調音パラメータ正規化手段により正規化した後の全ての調音パラメータベクトル系列を連結したベクトル系列の出力確率が最大となる該第1統計モデルを生成する第1統計モデル生成手段と、
    話者の夫々について、前記第1統計モデル生成手段により生成される前記第1統計モデルに対して、前記調音パラメータ正規化手段において正規化した後の話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率が最大となる話者適応行列を求める話者適応行列計算手段と、
    前記話者適応行列計算手段により求められる話者適応行列を話者に関連付けて記憶する話者適応行列記憶手段と、
    話者の夫々について、話者のベクトル系列を前記第1統計モデル生成手段により生成される前記第1統計モデルと前記話者適応行列記憶手段に記憶されている当該話者の話者適応行列とを利用して求め、この求めた話者のベクトル系列に対して、前記調音パラメータ正規化手順において正規化した後の当該話者の各時刻における調音パラメータベクトル系列を全ての時刻について連結したベクトル系列の出力確率を求め、この求めた各話者の出力確率を全話者について加算した値が最大となるような第2統計モデルを生成し、該生成した第2統計モデルをモデル記憶手段に記憶する第2統計モデル生成手段と、
    前記第2統計モデル生成手段により生成される第2統計モデルを記憶するモデル記憶手段と、
    を備えたことを特徴とする調音運動の正規化を用いた音声合成装置。
JP2004338880A 2004-11-24 2004-11-24 調音運動の正規化を用いた音声合成方法および装置 Expired - Fee Related JP4526934B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004338880A JP4526934B2 (ja) 2004-11-24 2004-11-24 調音運動の正規化を用いた音声合成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004338880A JP4526934B2 (ja) 2004-11-24 2004-11-24 調音運動の正規化を用いた音声合成方法および装置

Publications (2)

Publication Number Publication Date
JP2006146042A JP2006146042A (ja) 2006-06-08
JP4526934B2 true JP4526934B2 (ja) 2010-08-18

Family

ID=36625794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004338880A Expired - Fee Related JP4526934B2 (ja) 2004-11-24 2004-11-24 調音運動の正規化を用いた音声合成方法および装置

Country Status (1)

Country Link
JP (1) JP4526934B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6206960B2 (ja) * 2011-08-26 2017-10-04 国立大学法人豊橋技術科学大学 発音動作可視化装置および発音学習装置
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099295A (ja) * 2000-09-22 2002-04-05 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体
JP2003022088A (ja) * 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2006078641A (ja) * 2004-09-08 2006-03-23 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置およびその方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099295A (ja) * 2000-09-22 2002-04-05 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体
JP2003022088A (ja) * 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2006078641A (ja) * 2004-09-08 2006-03-23 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置およびその方法

Also Published As

Publication number Publication date
JP2006146042A (ja) 2006-06-08

Similar Documents

Publication Publication Date Title
Fan et al. Multi-speaker modeling and speaker adaptation for DNN-based TTS synthesis
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
KR101394253B1 (ko) 음성 인식 오류 보정 장치
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
JP6392012B2 (ja) 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
Poncela et al. Command-based voice teleoperation of a mobile robot via a human-robot interface
Yamagishi et al. Robustness of HMM-based speech synthesis
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Hu et al. Whispered and Lombard neural speech synthesis
Nose et al. HMM-based style control for expressive speech synthesis with arbitrary speaker's voice using model adaptation
Dhanalakshmi et al. Intelligibility modification of dysarthric speech using HMM-based adaptive synthesis system
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2001117582A (ja) 音声処理装置およびカラオケ装置
Maseri et al. Malay language speech recognition for preschool children using hidden Markov model (HMM) system training
JP4526934B2 (ja) 調音運動の正規化を用いた音声合成方法および装置
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
Toda et al. Modeling of speech parameter sequence considering global variance for HMM-based speech synthesis
WO2010104040A1 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP2002182682A (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
Golda Brunet et al. Transcription correction using group delay processing for continuous speech recognition
JP2010230913A (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
Huang et al. An SNR-incremental stochastic matching algorithm for noisy speech recognition
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100602

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140611

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees