JP4230254B2 - 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 - Google Patents
音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 Download PDFInfo
- Publication number
- JP4230254B2 JP4230254B2 JP2003066847A JP2003066847A JP4230254B2 JP 4230254 B2 JP4230254 B2 JP 4230254B2 JP 2003066847 A JP2003066847 A JP 2003066847A JP 2003066847 A JP2003066847 A JP 2003066847A JP 4230254 B2 JP4230254 B2 JP 4230254B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- articulation
- parameter vector
- model
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数を含む音声生成モデルを、入力された話者の音声信号を用いて適応化する音声生成モデル適応化方法、その装置、プログラム及びその記録媒体に関する。
【0002】
【従来の技術】
音声信号からその音声の調音運動の逆推定手法として、調音運動の動的な振舞いを記述した隠れマルコフモデル(以下HMMと書く)と、調音運動の調音パラメータベクトルと音声スペクトル(音声パラメータベクトル)との関係を関数近似するための調音・音響マッピング係数とにより構成される音声生成モデルに基づき、音声信号からその音声の調音運動(調音パラメータベクトル系列)を逆推定する方法を提案した(非特許文献1)。
【0003】
しかし、調音運動の逆推定に関する研究は特定話者を対象としたものが多い。これまでに不特定話者の音声入力を対象とした研究は、ニューラルネットワークを用いた逆推定法に基づく話者適応化法が考えられているが、入力音声とモデル音声との声道長正規化に基づくものであった(S.Dusan and L.Deng,“Vocal-Tract Length Normalization for Acoustic-to-Articulatory Mapping Using Neural Networks,”in The 138th Meeting of the Acoustic Society of America,1999.)。
また、ある音声パラメータを持つモデルに対して、入力音声パラメータの出力確率(尤度)を最大にするようにそのモデルのパラメータを適応化する手法がある(非特許文献2)。
【0004】
【非特許文献1】
Sadao Hiroya and Masaaki Honda,“Acoustic-to-articulatory inverse mapping using an HMM-based speech production model,”in ICSLP,2002,pp.2305-2308.
【非特許文献2】
C.J.Leggetter and P.C.Woodland,“Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models,”in Computer Speech and Language,vol.9,pp.171-185,1995.
【0005】
【発明が解決しようとする課題】
従来の声道長正規化に基づく不特定話者の音声入力を対象とした調音運動の逆推定の研究は、入力音声の音響空間を、特定話者のモデルの音響空間に適応させるものである。しかしながら、音声スペクトルと調音運動の間の冗長性から、音響空間の適応が調音運動の適応に直接結びつかず、したがって、音響空間の適応だけでは、発話者の調音運動に基づく発話スタイルを適応することができない。また、従来の適応化法の研究では、あるモデルのパラメータに対して、入力パラメータ系列の尤度を上げるようにパラメータを適応化していくため、高い尤度ではあるが、パラメータに関する動的な制約などは利用していないため、十分な精度が得られない。この発明の目的は発話者の調音運動に基づく発話スタイルを適応することができ、かつ十分な精度が得られる音声生成モデル適応化方法、その装置、プログラム及びその記録媒体を提供することにある。つまりこの発明が解決しようとする課題は、音響空間の適応だけではなく、音声生成モデル自体を、音声から動的な特徴を考慮して推定した調音運動に基づいて適応化することであるとも云える。
【0006】
【課題を解決するための手段】
この発明によれば、入力話者の音声信号から、(1)既存の音声生成モデルにより生成される音声スペクトルを、入力された音声スペクトルに適応化することにより、音声生成モデルを入力話者に適応する、あるいは(2)入力話者の音声信号から既存の音声生成モデルに基づきその入力音声の調音運動を決定し、この決定された調音運動を用いて、その既存の音声生成モデル中の調音運動軌道の確率的な動的モデル(調音モデルと書く)、更に必要に応じて調音パラメータベクトルに対する音声スペクトルベクトルを関連させるマッピング係数を入力話者に適応化する。
【0007】
前記(1)の方法は、既存の音声生成モデルにより生成される音声スペクトル(パラメータ)ベクトルを、入力話者の入力音声の音声スペクトル(パラメータ)ベクトル系列の出力確率が最大となる適応化を行う。その適応化を関連付ける関係係数を用いて音声生成モデル中の調音・音響マッピング係数を適応化する。
前記(2)の方法は、入力話者の入力音声スペクトル(パラメータ)ベクトル系列に対する事後確率が最大となる調音運動(調音パラメータベクトル系列)を、既存の音声生成モデルを用いて決定し、この決定された調音運動(調音パラメータベクトル系列)の出力確率が最大となるように調音モデルを適応化する。また、必要に応じて上記の決定された調音運動から生成される音声スペクトル(パラメータ)ベクトルに対する、入力話者の入力音声スペクトル(パラメータ)ベクトル系列の出力確率が最大となるように調音・音響マッピング係数を適応化する。
【0008】
また、前記(2)の方法は、前記(1)の方法を組み合わせ、初めに既存の音声生成モデルにより生成される音声スペクトル(パラメータ)ベクトルを、入力話者の入力音声の音声スペクトル(パラメータ)ベクトル系列に適応化した後、この適応化された音声スペクトル(パラメータ)ベクトルを用いて、入力された音声スペクトル(パラメータ)ベクトル系列から調音運動(調音パラメータベクトル)を決定し、決定された調音運動を用いて、少なくとも調音モデルを適応化し、更に必要に応じて調音・音響マッピング係数を適応化する。
【0009】
【発明の実施の形態】
まずこの発明における適応化の対象である音声生成モデルの作成方法を説明する。
モデル作成
文章を連続発声した音声信号と、磁気センサシステムにより同時観測された調音データを用いて、調音・音響対コードブックを作成する。音声信号はフレームごとに、例えば毎秒250回のレートで、窓長32msのブラックマン窓で切り出され、スペクトル分析され、例えば0次項を除いた16次のメルケプストラム係数が音声パラメータとして求められる。必要に応じてその音声パラメータから微分(差分)により、時間的変化として速度、加速度のパラメータが検出され、これら音声パラメータと速度、加速度パラメータを要素とするベクトルが音声パラメータベクトルyとして生成される。
【0010】
同時に観測された調音器官の複数の各位置、例えば下顎と、上・下唇と、舌上の4箇所と軟口蓋の計8点のそれぞれについての水平方向および垂直方向における各位置情報信号が毎秒250回のレートで取り込まれ、その各位置パラメータから必要に応じて、微分(差分)により時間的変化としての速度パラメータが求められ、更に必要に応じて各速度パラメータの微分(差分)により時間的変化としての加速度パラメータが求められる。これら各16個の位置パラメータ、速度パラメータ、加速度パラメータを要素とする調音パラメータベクトルxが生成される。
【0011】
つまりこの例では音声パラメータベクトルy、調音パラメータベクトルxはそれぞれ下記のように48個の要素からなるベクトルである。
y=[k1,……,k16,k1′,……,k16′,k1″,……,k16″]
x=[pa ,……,pn ,pa′,……,pn′,pa″,……,pn″]
このようにして同一の時点において求まった音声パラメータベクトルyと調音パラメータベクトルxを対とするデータを複数個、例えば20万セット保持して調音・音響対コードブックを構成する。
【0012】
このようにして求めた調音パラメータベクトルxおよび音声パラメータベクトルyを用いて調音運動を表現する確率的な動的モデル(以下調音モデルと書く)、この例では隠れマルコフモデル(以下HMMと記す)λを作成する。このHMMのモデルλの作成は、前記文章の連続発声により得られた全体の音声パラメータベクトル系列yの出力確率P(y,q|λ)が最大となるようにする。ここでqは全体の音声パラメータベクトル系列yに対する状態系列を表す。この例ではHMMのモデルλの構造は、2音素組の3状態1混合ガウス分布で、スキップなしのleft-to-rightモデルとする。例えば図1に示すように3つの状態q1,q2 ,q3 があり、各状態での調音パラメータベクトル、音声パラメータベクトルの各出力確率をそれぞれ1つのガウス分布とし、状態過程は同一状態から同一状態への遷移(ループ)と、q1 からq2 又はq2 からq3 への遷移の計5つのみである。各音素について次に続く異なる音素ごとにモデルが作られる。
【0013】
調音パラメータベクトル系列xを含むモデルにおいては、状態系列qを構成する各1つの状態をqj とする時、状態qj の音声パラメータベクトルyの出力確率は、その状態qj への遷移確率Pt =P(qj |λ)と、その状態qj に対する調音パラメータベクトルxの出力確率Px =P(x|qj ,λ)と、その状態qj に対する調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率Py =P(y|x,qj ,λ)との積である。従ってP(y,qj|λ)=∫P(y|x,qj ,λ)P(x|qj ,λ)P(qj |λ)dxが最大となるように各モデルを作成すればよい。ここで与えられた調音パラメータベクトルに対する音声パラメータの出力確率P(y|x,qj ,λ)と、調音パラメータベクトルの出力確率P(x|qj ,λ)は共にガウス分布を仮定する。
【0014】
図2にモデル作成処理手順例を示す。この学習法は「ビタビ学習法」と呼ばれるものである。まず入力音声パラメータベクトル系列y及び入力調音パラメータベクトル系列xと発声文章との対応付けにより各同一音素の両パラメータベクトル対を集め、その各音素ごとに、その複数の各パラメータベクトル対ごとに前記3状態q1 ,q2 ,q3 をそれぞれ同一時間長として対応付け、各状態ごとにモデルパラメータA,b,xm ,σx ,wm ,σw を演算し、つまり初期モデルλを作って記憶する(S1)。
【0015】
つまり調音パラメータベクトルxから音声パラメータベクトルyを決定する関数y=f(x)として、y=Ax+bを用い、調音パラメータベクトルxを用いて計算した音声パラメータベクトルy′=Ax+bと、その調音パラメータベクトルxと対をなす音声パラメータベクトルyとの二乗誤差が最小となるAとbを求め、かつy′のyに対する誤差wを求め、その誤差wの平均wm を計算し、更に誤差wの共分散σw を計算し、調音パラメータベクトルxの平均xm を計算し、調音パラメータベクトルxの共分散σx を計算し、状態遷移確率γを計算する。初期状態遷移確率γは自己遷移確率を0.8、ある状態から他の状態に遷移する確率を0.2など適当な値に設定し、その後はある状態qj に注目した場合、その状態に対応するフレームすべてに対して、同じ状態に遷移するフレームの数をその状態に対応するフレームの総数で割った値を自己遷移確率とし、ある状態から他の状態に遷移する確率を(1−自己遷移確率)として計算する。
【0016】
これらモデルパラメータA,b,wm ,σw ,xm ,σm ,Pt を各音素の各状態ごとに計算して音素対応に記憶する。なお、変換関数はこの例では左辺のベクトルyは要素数が48であり、右辺中のベクトルxも要素数が48であり、係数Aは48×48の行列となり、定数bも要素数が48のベクトルとなる。
従ってA,bを決定するにはyとxの対を最低48個必要とする。
次にこの初期モデルλに対して入力音声パラメータベクトルyの出力確率
P(y,q|λ)=∫P(y|x,q,λ)P(x|q,λ)P(q|λ)dx(1)
が最大になるように音声パラメータベクトルyおよび調音パラメータベクトルxに状態qj を対応付けることをビタビ(Viterbi)アルゴリズムを用いて決定する(S2)。つまり前記文章の最初の音素を初期値としてその各状態における調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率P(y|x,q,λ)と調音パラメータベクトルxの出力確率P(x|q,λ)とを、先に記憶したモデルを参照して、確率がガウス分布していることに基づき、それぞれ下記式(2)、式(3)により求める。
【0017】
P(y|x,q,λ)=[1/((2π)N/2 )|σw |1/2 ]×exp[−(1/2)(y−Ax−b−wm )T σw -1(y−Ax−b−wm)] (2)
P(x|q,λ)=[1/((2π)M/2 )|σx |1/2 )]×exp[−(1/2)(x−xm )T σx -1(x−xm)] (3)
Nはベクトルyの次数、Mはベクトルxの次数であり、前記例では共に42であり、( )T は行列の転置を表わす。
【0018】
また遷移確率P(q|λ)を求め、P(y|x,q,λ)とP(x|q,λ)とP(q|λ)の積をブランチメトリックとし、各状態について求めたブランチメトリックの最大のものを生き残りパスとし、そのブランチメトリックをそれまでのパスメトリックに加算することを順次行う。最終的に得られたパスメトリックの最大の状態系列qが式(1)を最大とするものである。
次にこの状態系列qの決定の際に求まった入力音声パラメータベクトルyの出力確率の最大値、つまり最大パスメトリックの値が収束したかを調べ(S3)、収束していなければステップS2で決定された状態系列qと入力音声パラメータベクトル系列y及び入力調音パラメータベクトル系列xとを対応付け、その状態系列qにおけるモデルからモデルへの変化点を検出して、音素区間の入力音声パラメータベクトル系列y及び入力調音パラメータベクトル系列xに対する対応付けを再設定する(S4)。
【0019】
この再設定された各音素についての音声パラメータベクトル及び調音パラメータベクトルの集合について、各モデルパラメータA,b,wm ,σw ,xm ,σx ,Pt をそれぞれ演算し、つまり音素モデルを作成し、記憶していた対応モデルパラメータを更新記憶してステップS2に戻る(S5)。
以下ステップS2〜S5を繰返すことにより、得られる音声パラメータベクトルの出力確率の最大値はほぼ一定値となり、つまりステップS3で収束したことが検出されて終了とする。
【0020】
このようにして得られたHMMの各モデルは、例えば図3に示すように各音素対応のモデルλ1 〜λJの格納部25−1〜25−Jごとに状態遷移確率γ(これは前述したように各ループと隣りへとの計5つの確率よりなる)が遷移確率格納部27に格納され、各状態ごとのA,bが係数格納部28に格納され、xm ,wm が平均格納部29に、σm ,σw が共分散格納部31に格納される。係数A,bは調音パラメータベクトルXと対応した音声パラメータベクトルyの近似値を対応ずけるためのパラメータであるから調音・音響マッピング係数と呼ぶ。その他のパラメータxm ,wm ,σm ,σw は調音モデルと呼ぶ。またP(y|x,q,λ)は式(2)で計算され、P(x|q,λ)は式(3)で計算されるから、調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率、また調音パラメータベクトルxの出力確率もモデル記憶部25に格納されていると云える。モデル作成方法として「ビタビ学習法」を示したが、より精度の良い学習法「EM学習法」(Expectation-Maximization)を用いてもよい。
【0021】
第1実施形態
この発明の第1実施形態においては既存の音声生成モデルにより生成される音声パラメータ(スペクトル)ベクトルを、入力話者の入力音声パラメータ(スペクトル)ベクトル系列の出力確率が最大となるように適応化し、この生成音声パラメータベクトルと入力音声パラメータベクトル系列とを関係付ける係数を用いて、音声生成モデル中の調音・音響マッピング係数を適応化する。
以下この第1実施形態を、図4及び図5を参照して説明する。話者の入力音声信号は入力端子11からディジタル信号として入力され信号記憶部42に一旦格納される(S1)。この話者入力音声信号は音声パラメータベクトル生成部43において、フレームごとに入力音声パラメータ(スペクトル)ベクトルyが生成され、入力音声パラメータベクトル系列Yが生成される(S2)。例えば入力音声信号はフレームごとにスペクトル分析され、音声パラメータが検出され(S2−1)、更にそのスペクトルの時間的変化としての速度、加速度パラメータが検出され(S2−2)、これら両パラメータにより音声パラメータベクトルとされ、各フレームの音声パラメータベクトルの時系列が音声パラメータベクトル系列Yとされる。これらパラメータとしては、適応化の対象であるモデル記憶部48に記憶されている音声生成モデルの作成時に用いた音声パラメータと同一のもの、前記例では0次項を除いた16次のメルケプストラム係数とその速度パラメータが検出される。この入力音声パラメータベクトル系列Yは記憶部42に一旦格納される(S3)。なお話者入力音声信号と対応した文章の音素列が音素列記憶部45に格納される。
【0022】
音声生成モデルより生成された音声パラメータベクトルの平均ベクトルymjに対して、入力音声パラメータベクトル系列Y=(Y1 ,…,Y2 )の出力確率P(Y|q,λ)が最大となるように、音声生成モデルの平均ベクトルを適応化する。出力確率P(Y|q,λ)を最大化する平均ベクトルymjは前記非特許文献2の174頁を参考にすると、対数尤度log P(Y|q,λ)を最大にするように求めればよい。従って
log P(Y|q,λ)=K−(1/2)Σt Σj γt(j)(Yt −Hs ymj)T σyj -1(Yt −Hs ymj)
を最大にするHs を
Σt Σj γt(j)σyj -1Yt ymj T =Σt Σj γt(j)σyj -1Hs ymjymj T (4)
を計算することで求めることができる。ここでtはベクトル系列の離散的時刻を、jは各音素における状態番号をそれぞれ表わし、Kは定数、Hs は回帰係数であり、γt(j)は音声パラメータベクトルが時刻tで状態jに存在する確率であってγt(j)=P(qt =j|y,λ)であり、音声パラメータベクトルyj の平均ベクトルはymj=Aj xmj+bj により、ベクトルyj の共分散行列はσyj=Aj σxjAj T+σw により求める。( )T は転置行列を表わし、sは音響空間を分割するクラスタを表わす。つまり音声生成モデルλの全てを1つのクラスタとするか、あるいは母音と子音とを別のクラスタとして求めるなど、全音素モデルをいくつかのクラスタに分けて求める。
【0023】
つまり図4、図5に示すように入力音声パラメータベクトル系列Yと、音声生成モデルとを用いて、音声関係係数算出部46で、音声関係係数Hs を計算する(S4)。モデル記憶部44中の各モデルの調音・音響マッピング係数Aj ,bj と調音平均ベクトルxmjを取出し、音声パラメータの平均ベクトルymjを平均ベクトル生成部47でymj=Aj xmj+bj の計算によりそれぞれ生成する(S4−1)。またモデル記憶部44中の各モデルの調音パラメータベクトルxj の共分散σxjと調音平均ベクトルxmjの誤差wj の共分散σwjを取り出し、音声パラメータベクトルyj の共分散行列σyjを共分散計算部48でσyj=Aj σxjAj T+σwjの計算によりそれぞれ生成する(S4−2)。更に音声関係係数算出部46において、記憶部45内の音素系列に従って各音素についてモデル記憶部44内の対応音素モデルλの遷移確率γj を取出し、これと、入力音声パラメータベクトル系列Yと、平均ベクトル生成部47よりの平均ベクトルymjと、共分散計算部48よりの共分散行列σyjとを用いて、Σt Σj γt(j)σyj -1Yt ymj T ,Σt Σj γt(j)σyj -1ymjymj T を計算し、式(4)を満す回帰係数(音声関係係数)Hs を求める(S4−3)。
【0024】
この音声関係係数Hs を用いて、音声生成モデルの調音・音響マッピング係数Aj ,bj を、それぞれHs Aj ,Hs bj と係数適応化部49で入力話者音声に適応化する(S5)。
更に必要に応じて、先に求めた音声パラメータベクトルの平均ベクトルymjを音声適応化部51でYmj=Hs ymjの計算により変更する(S6)。
この適応化された音声生成モデルを用いれば、調音パラメータベクトル系列を入力して、これと対応した前記入力話者の音声に近い音声信号を合成することができる。
なお図5において制御部52は各部を順次動作させ、また各記憶部に対する読み書きを行う。
【0025】
第2実施形態
次にこの発明の第2実施形態を図6及び図7を参照して説明する。第2実施形態は入力音声の調音運動を、適応対象音声生成モデルを用いて決定し、この調音運動の出力確率が最大となるように音声生成モデルを適応化する。
入力端子41からの入力話者の入力音声信号から入力音声パラメータ(スペクトル)ベクトル系列Yを音声パラメータベクトル生成部43で生成し(S2)、これを一旦記憶部43に記憶する(S3)ことは第1実施形態と同様である。
【0026】
この第2実施形態においては、入力音声パラメータベクトル系列Yの出力確率P(Y|q,λ)を最大にする状態系列qを、記憶部45の音素系列に基づき、例えばビタビアルゴリズムにより状態系列生成部61で生成する(S4)。この生成の手法は先に述べたモデル作成法とほぼ同様に行えばよい。
次にこの状態系列qに対して事後確率P(x|y,q,λ)を最大にする調音運動、つまり調音パラメータベクトル系列を調音パラメータベクトル生成部62で生成する(S5)。P(x|y,q,λ)を最大にする調音パラメータベクトル系列xは前記非特許文献1の2306頁左欄の記載から明らかなように次式(5)を最小化する系列x e を求めればよい。
【0027】
J=(Y−Ax e −b)T σw -1(Y−Ax e −b) (5)
つまり非特許文献1中の式(4)(下記の式)により求める。
x e=(σx -1+ATσw -1A)-1(σx -1xm+ATσw -1(y−b))
このようにして生成された調音パラメータベクトル系列x e と、出力確率P(x e |q,λ)が最大となる調音パラメータベクトルxe の平均ベクトルxemとを関係付ける次式(6)を平均関係係数計算部63で計算して、平均関係係数Cs を求める(S6)。
【0028】
Σt Σj γt(j)σxj -1xetxmj T =Σt Σj γt(j)σxj -1Cs xmjxmj T (6)
つまり生成された調音パラメータベクトル系列x e の各ベクトルxetについて、記憶部44中の音声生成モデルの対応音素モデルλの遷移確率γj 、共分散σxj、平均xmjを取出し、Σt Σj γt(j)σxj -1xetxmj,Σt Σj γt(j)σxj -1xmjxmj T を計算して式(6)を計算して回帰係数Cs を求める。このようにして求めた平均関係係数Cs を用いて、記憶部44中の調音平均ベクトルxmjを平均適応化部64でXmj=Cs xmjとして調音平均ベクトルを適応化する(S7)。
【0029】
この適応化された音声生成モデルを用いて入力話者の音声信号の調音運動(調音パラメータベクトル系列)を求めることにより、適応化前のモデルを用いる場合よりも高い精度で調音運動を求めることができる。
更に調音・音響マッピング係数Aj ,bj も適応化する場合は次のようにする。
ステップS15で生成された調音パラメータベクトル系列x e の各調音スペクトルベクトルxetと対応する音声スペクトルベクトルを音素系列を参照しながら、音声生成モデルの調音・音響マッピング係数Aj ,bj を用いて、音声ベクトル生成部65で音声スペクトルベクトルyj =Aj xet+bj を生成する(S8)。
【0030】
この音声生成モデルを用いた音声スペクトルベクトルyに対して、入力音声パラメータベクトル系列Yの出力確率P(Y|q,λ)を最大にする調音・音響マッピング係数は、第1実施形態の場合と同様に、
P(Y|q,λ)=∫P(Y|x,q,λ)P(x|q,λ)dxの対数尤度log P(Y|q,λ)を最大にすることにより与えられる。従って、式(4)の導出と同様に次式(7)を満す回帰係数(マッピング関係係数)Ds をマッピング関係係数算出部66で算出する(S9)。
【0031】
Σt Σj γt(j)σwj -1Yt(Aj xet+bj)T =Σt Σj γt(j)σwj -1Ds(Aj xet+b)(Aj xet+bj) T (7)
つまりマッピング関係係数計算部66で、入力音声パラメータベクトル系列Yと、音声ベクトル生成部65よりの音声ベクトルyj と、モデル記憶部44中の誤差の共分散σwj、遷移確率γj とを用いて、
Σt Σj γt(j)σwj -1Yt yj T=Σt Σj γt(j)σwj -1Ds yj yj T
を満すDs を計算する。
【0032】
このマッピング関係係数Ds を用いてモデル記憶部44中の各音声生成モデルの各調音・音響マッピング係数Aj ,bj を係数適応化部67でDs Aj ,Ds bj として適応化する(S10)。
ステップS4における状態系列の生成は、第1実施形態において音声適応化部51で生成した適応化音声平均ベクトルYmj(=Hs ymj)を用いて行ってもよい。この場合、回帰係数Cs とDsで共通のクラスタを用いた場合、回帰係数の冗長性のため第1実施形態と同じ尤度になるが、適応化された音声生成モデルは第1実施形態と異なるものとなる。
【0033】
以上のような各種の適応化法により音声生成モデルを話者音声に適応化し、その適応化音声生成モデルを用いて、その話者の音声信号に対する調音運動を例えば非特許文献1に示すように推定する。
実験
日本人男性3名によって発声された356文章の音声信号と調音データを用い、モデル作成の項で述べた条件でパラメータベクトルを生成し、3者ごとにモデルを作成し、各入力話者から、入力話者以外の話者2名のそれぞれのモデルに対して適応を行い、評価は計6つのテストの平均で行った。今回用いた調音データは、調音観測点上に小さな受信コイルを接着する磁気センサシステムを用いて観測された。しかし、話者毎に受信コイルを接着する位置が異なり、また、話者毎に調音器官の大きさが異なるため、入力話者の観測した調音運動と別の特定話者のモデルを用いて推定した調音運動は、そのままでは比較することができない。したがって、あらかじめ求めた入力話者の観測調音運動と別の話者の観測調音運動の位置とサイズの線形変換を用いて正規化し、評価を行った。適応の際には、教師ありの学習を用い、適応文章数は40とした。調音運動の逆推定の際には、音素ありの条件を用いた(非特許文献1)。適応化法は、(A)第1実施形態、(B)第2実施形態、(C)第1実施形態と第2実施形態との併用の3つで実験を行った。クラスタ数sは全適応化法において共通とした。
【0034】
図8に、クラスタ数の値を1,3,5,10としたときの、学習データに対する音響パラメータベクトルの対数尤度を示す。適応化法を用いることで、話者独立モデルよりも尤度が上昇することが分かる。また、(A)法と(C)法の尤度はほぼ同じであり、(B)法の尤度はそれらに比べて低い。
なお、話者の音声と調音運動を用いて作ったモデル(話者モデル)を用いた場合と、話者と無関係の音声とその対応調音運動を用いて作ったモデル(話者独立モデル)を用いた場合についての実験結果も示した。
【0035】
図9に、クラスタ数における、適応化法による調音運動の二乗誤差を示す。適応化法を用いることで、すべてのクラスタ数において話者独立モデルよりも誤差が減少している。(A)法を用いた場合、調音運動に関する適応は行われないため、クラスタの数によらず、誤差はほぼ一定である。一方、(B)法の場合、クラスタ数の増加につれて誤差が減少していく。(C)法は、クラスタ数が5までは(B)法よりも誤差が小さいが、クラスタ数が10では尤度が高いにも関わらず、誤差が大きくなっている。
【0036】
図10に各種音素毎の二乗誤差を示す。評価はクラスタ数10を用いて行った。‘Total’は発声全体の二乗誤差であり、‘Vowel’から‘Nasal’まではそれぞれ、その発声の際に重要な調音器官における二乗誤差である。適応化法を用いることで、すべての音素クラスに対して話者独立モデルよりも向上が見られた。最大約44.4%の改善が見られた。また、適応化法による音素クラスに対する誤差の違いは見られなかった。
入力男性話者が「やるべきことはやっており何ら落ち度はない」という文章を発声した音声信号から、話者独立モデルを利用して推定された調音運動軌道(太線)と観測された調音運動軌道(細線)の垂直信号の例を図11に示し、(C)法により適応化したモデルを利用して推定された調音運動軌道(太線)と観測された調音運動軌道(細線)の垂直信号の例を図12に示す。これら両図を比較すれば図12の方が太線が細線に近いものとなっており、モデル適応化の効果が得られていることが理解できる。
【0037】
また推定された調音運動は発声した音素の特徴を良く再現している。推定された調音運動から生成した音声スペクトルと入力音声スペクトルとのスペクトル歪みも約69.0%の改善が見られた。
図5、図7に示した適応化装置をコンピュータに機能させてもよい。この場合は図4又は図7に示した適応化方法の各手順をコンピュータに実行させるためのプログラムをCD−ROM、磁気ディスクなどの記録媒体からコンピュータにインストールし、又は通信回線を介してダウンロードし、そのプログラムをコンピュータに実行させればよい。上述においては調音パラメータベクトルを変数として音声パラメータベクトルを近似する関数に線形関数を用いたが他の関数でもよい。音声パラメータベクトル、及び調音パラメータベクトルとしては加速度成分や速度成分を用いなくてもよい。
【0038】
【発明の効果】
この発明によれば、調音運動を表現する確率的な動的モデルと調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを話者適応化することができ、この適応化した音声生成モデルを使用することにより、入力話者音声の調音運動を、適応化しないモデルを用いる場合より、精度よく推定することができる。更に、調音パラメータベクトルから音声合成する場合に、所望の話者の音声を合成することができる。また、同様にこのモデルを用いて音声認識する場合も高認識精度を得ることができるようになる。更にこの発明によれば小量の音声データからでも音声生成モデルを適応化することができる。
【図面の簡単な説明】
【図1】1つの音素モデルの状態遷移の例を示す図。
【図2】モデル作成手順の例を示す流れ図。
【図3】音声生成モデルが記憶されている記憶装置の記憶内容例を示す図。
【図4】この発明の第1実施形態の処理手順の例を示す流れ図。
【図5】この発明の第1実施形態の機能構成例を示すブロック図。
【図6】この発明の第2実施形態の処理手順の例を示す流れ図。
【図7】この発明の第2実施形態の機能構成例を示すブロック図。
【図8】学習音声パラメータベクトルに対する合成音声パラメータベクトルの対数尤度の実験結果を示すグラフ。
【図9】入力音声信号に対して推定した調音パラメータベクトルの2乗誤差の実験結果を示すグラフ。
【図10】入力音声信号に対して推定した調音パラメータベクトルの各種音素ごとの2乗誤差の実験結果を示す図。
【図11】実測した調音運動と、話者独立モデルを利用して推定した調音運動の例を示す図。
【図12】実測した調音運動と、話者適応化したモデルを利用して推定した調音運動の例を示す図。
Claims (10)
- 記憶装置に記憶された調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号に適応化する方法であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する手順と、
上記各調音モデルにおける調音パラメータベクトルの平均ベクトルと上記各調音・音響マッピング係数とを用いて、音声パラメータベクトルの平均ベクトルを生成する手順と、
上記入力音声パラメータベクトル系列と、上記音声パラメータベクトルの平均ベクトルに適応係数を乗算したものと、上記各調音モデルにおける調音パラメータベクトルの共分散と、上記各調音モデルにおける音声パラメータベクトルの予測誤差の共分散と、上記調音・音響マッピング係数と、上記各調音モデルにおける遷移確率とを用いて、上記入力音声パラメータベクトル系列の出力確率の対数尤度が最大値をとる上記適応係数の値を求める手順と、
上記適応係数を上記各音声生成モデルの各調音・音響マッピング係数に乗算して、上記音声生成モデルを適応化する手順と
を有することを特徴とする音声生成モデル話者適応化方法。 - 記憶装置に記憶された調音モデルと、調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号から適応化する方法であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する手順と、
上記音声生成モデルを用いて、上記入力音声パラメータベクトル系列に対する事後確率が最大となる調音パラメータベクトル系列を生成する手順と、
上記調音パラメータベクトル系列と、それに対応する上記各調音モデルにおける調音パラメータベクトルの平均ベクトルに平均関係係数を乗算したものと、上記各調音モデルにおける調音パラメータベクトルの共分散と遷移確率とを用いて、上記調音パラメータベクトル系列の出力確率の対数尤度が最大値をとる上記平均関係係数の値を求める手順と、
上記平均関係係数を上記各調音モデルの平均ベクトルに乗算して適応化する手順と
を有することを特徴とする音声生成モデル話者適応化方法。 - 上記各音声生成モデルの各調音・音響マッピング係数を用いて上記調音パラメータベクトル系列と対応する音声パラメータベクトル系列を生成する手順と、
上記入力音声パラメータベクトル系列と、上記生成した音声パラメータベクトル系列に適応係数を乗算したものと、上記各調音モデルにおける音声パラメータ予測誤差の共分散と遷移確率とを用いて、上記入力音声パラメータベクトル系列の出力確率の対数尤度が最大値をとる上記適応係数の値を求める手順と、
上記適応係数を上記音声生成モデルの調音・音響マッピング係数に乗算して適応化する手順と
を有することを特徴とする請求項2記載の音声生成モデル話者適応化方法。 - 上記調音パラメータベクトル系列を生成する手順は、
上記各音声生成モデルについて、その各調音・音響マッピング係数を用いて、上記調音パラメータベクトル系列と対応する音声パラメータベクトルの各平均ベクトルを生成する手順と、
上記入力音声パラメータベクトル系列の出力確率を最大化するように上記平均ベクトルを適応化する手順と、
上記入力音声パラメータベクトルの出力確率を最大化する上記平均ベクトルの系列を生成する手順と、
上記平均ベクトルの系列に対して入力音声パラメータベクトル系列に対する事後確率が最大となる上記調音パラメータベクトル系列を生成する手順とを有する
ことを特徴とする請求項2又は3記載の音声生成モデル話者適応化方法。 - 記憶装置に記憶された調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号に適応化する装置であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する音声パラメータベクトル生成部と、
上記各調音モデルにおける調音パラメータベクトルの平均ベクトルと上記各調音・音響マッピング係数とを用いて、音声パラメータベクトルの平均ベクトルを生成する平均ベクトル生成部と、
上記入力音声パラメータベクトル系列と、上記音声パラメータベクトルの平均ベクトルに適応係数を乗算したものと、上記各調音モデルにおける調音パラメータベクトルの共分散と、上記各調音モデルにおける音声パラメータベクトルの予測誤差の共分散と、上記調音・音響マッピング係数と、上記各調音モデルにおける遷移確率とを用いて、上記入力音声パラメータベクトル系列の出力確率の対数尤度が最大値をとる上記適応係数の値を求める音声関係係数計算部と、
上記適応係数を上記各音声生成モデルの各調音・音響マッピング係数に乗算して、上記音声生成モデルを適応化する平均適応化部と
を具備することを特徴とする音声生成モデル話者適応化装置。 - 記憶装置に記憶された調音モデルと、調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号から適応化する装置であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する音声パラメータベクトル生成部と、
上記音声生成モデルを用いて、上記入力音声パラメータベクトル系列に対する事後確率が最大となる調音パラメータベクトル系列を生成する調音パラメータベクトル生成部と、
上記調音パラメータベクトル系列と、それに対応する上記各調音モデルにおける調音パラメータベクトルの平均ベクトルに平均関係係数を乗算したものと、上記各調音モデルにおける調音パラメータベクトルの共分散と遷移確率とを用いて、上記調音パラメータベクトル系列の出力確率の対数尤度が最大値をとる上記平均関係係数の値を求める平均関係係数計算部と、
上記平均関係係数を上記各調音モデルの平均ベクトルに乗算して適応化する平均ベクトル計算部と
を具備することを特徴とする音声生成モデル話者適応化装置。 - 上記各音声生成モデルの各調音・音響マッピング係数を用いて上記調音パラメータベクトル系列と対応する音声パラメータベクトル系列を生成する音声ベクトル生成部と、
上記入力音声パラメータベクトル系列と、上記生成した音声パラメータベクトル系列に適応係数を乗算したものと、上記各調音モデルにおける音声パラメータ予測誤差の共分散と遷移確率とを用いて、上記入力音声パラメータベクトル系列の出力確率の対数尤度が最大値をとる上記適応係数の値を求めるマッピング関係係数計算部と、
上記適応係数を上記音声生成モデルの調音・音響マッピング係数に乗算して適応化するマッピング適応化部と
を具備することを特徴とする請求項2記載の音声生成モデル話者適応化装置。 - 上記調音パラメータベクトル生成部は、
上記各音声生成モデルの各調音・音響マッピング係数と各調音平均ベクトルとを入力して、音声パラメータベクトルの各平均ベクトルをそれぞれ生成する音声平均ベクトル生成部と、
上記入力音声パラメータベクトル系列と上記各音声平均ベクトルを入力して、これらを上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける音声関係係数を計算する音声関係係数計算部と、
上記音声関係係数と上記各音声平均ベクトルとを乗算して適応化音声平均ベクトルを生成する音声適応化部と、
上記入力音声パラメータベクトル系列の出力確率を最大化する上記適応化音声平均ベクトルの系列を生成する音声平均ベクトル系列生成部と、
上記適応化音声平均ベクトル系列に対して上記入力音声パラメータベクトル系列に対する事後確率が最大となる上記調音パラメータベクトル系列を生成するパラメータ系列生成部とを有する
ことを特徴とする請求項6又は7記載の音声生成モデル話者適応化装置。 - 請求項1〜4の何れかに記載した音声生成モデル話者適応化方法の各手順をコンピュータに実行させるためのプログラム。
- 請求項9に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003066847A JP4230254B2 (ja) | 2003-03-12 | 2003-03-12 | 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003066847A JP4230254B2 (ja) | 2003-03-12 | 2003-03-12 | 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004279454A JP2004279454A (ja) | 2004-10-07 |
JP4230254B2 true JP4230254B2 (ja) | 2009-02-25 |
Family
ID=33284630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003066847A Expired - Fee Related JP4230254B2 (ja) | 2003-03-12 | 2003-03-12 | 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4230254B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8906334B2 (en) | 2007-05-14 | 2014-12-09 | Invista North America S.A R.L. | High efficiency reactor and process |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11264044B2 (en) * | 2016-02-02 | 2022-03-01 | Nippon Telegraph And Telephone Corporation | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program |
CN111402922B (zh) * | 2020-03-06 | 2023-06-30 | 武汉轻工大学 | 基于小样本的音频信号分类方法、装置、设备及存储介质 |
CN111883117B (zh) * | 2020-07-03 | 2024-04-16 | 北京声智科技有限公司 | 语音唤醒方法及装置 |
-
2003
- 2003-03-12 JP JP2003066847A patent/JP4230254B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8906334B2 (en) | 2007-05-14 | 2014-12-09 | Invista North America S.A R.L. | High efficiency reactor and process |
Also Published As
Publication number | Publication date |
---|---|
JP2004279454A (ja) | 2004-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Battenberg et al. | Effective use of variational embedding capacity in expressive end-to-end speech synthesis | |
US8571871B1 (en) | Methods and systems for adaptation of synthetic speech in an environment | |
Qian et al. | On the training aspects of deep neural network (DNN) for parametric TTS synthesis | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US9099082B2 (en) | Apparatus for correcting error in speech recognition | |
JP4545456B2 (ja) | 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 | |
JP6293912B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
CN107924678A (zh) | 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序 | |
JP2015180966A (ja) | 音声処理システム | |
Bridle et al. | An investigation of segmental hidden dynamic models of speech coarticulation for automatic speech recognition | |
Hashimoto et al. | Trajectory training considering global variance for speech synthesis based on neural networks | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
US7680663B2 (en) | Using a discretized, higher order representation of hidden dynamic variables for speech recognition | |
Aryal et al. | Articulatory inversion and synthesis: towards articulatory-based modification of speech | |
JP4230254B2 (ja) | 音声生成モデル話者適応化方法、その装置、そのプログラム及びその記録媒体 | |
JP5474713B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP3541224B2 (ja) | 音源の分離方法および分離装置 | |
JP4779239B2 (ja) | 音響モデル学習装置、音響モデル学習方法、およびそのプログラム | |
Al Bawab et al. | Analysis-by-synthesis features for speech recognition | |
JP2002182682A (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
JP4226831B2 (ja) | 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体 | |
Wei et al. | Predicting articulatory movement from text using deep architecture with stacked bottleneck features | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
KR20180041114A (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
JP2003241776A (ja) | 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050303 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081203 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121212 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |