JP2004279454A - Method for speech generation model speaker adaptation, and its device, its program, and its recording medium - Google Patents

Method for speech generation model speaker adaptation, and its device, its program, and its recording medium Download PDF

Info

Publication number
JP2004279454A
JP2004279454A JP2003066847A JP2003066847A JP2004279454A JP 2004279454 A JP2004279454 A JP 2004279454A JP 2003066847 A JP2003066847 A JP 2003066847A JP 2003066847 A JP2003066847 A JP 2003066847A JP 2004279454 A JP2004279454 A JP 2004279454A
Authority
JP
Japan
Prior art keywords
speech
articulation
parameter vector
input
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003066847A
Other languages
Japanese (ja)
Other versions
JP4230254B2 (en
Inventor
Sadao Hiroya
定男 廣谷
Masaaki Yoda
雅彰 誉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003066847A priority Critical patent/JP4230254B2/en
Publication of JP2004279454A publication Critical patent/JP2004279454A/en
Application granted granted Critical
Publication of JP4230254B2 publication Critical patent/JP4230254B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech generation model adapting method which can adapt a speaking style based upon articulation motion of a speaker and obtain sufficient precision and to adapt not only a sound space but also a speech generation model itself according to articulation motion estimated from a speech while taking dynamic features into consideration. <P>SOLUTION: As articulation and sound mapping of a speech generation model, adaptation into a speech given a statistical speech generation model composed of a linear function of determining a speech spectrum from an articulation parameter is performed by a hidden Markov model (hereinafter HMM) constituted as dynamic models for articulation motion and states of the HMMs. A speech generated by a model is adapted so that the output probability of a given speech becomes maximum, articulation motion maximizing the fact probability is estimated from the given speech by using the adapted speech, and adaptation that maximizes the output probability of the articulation motion and also maximizes the output probability of the given speech for the speech generated from the estimated articulation motion is performed. Consequently, the speech generation model is so adapted to maximize the output probability of the given speech. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
この発明は、調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数を含む音声生成モデルを、入力された話者の音声信号を用いて適応化する音声生成モデル適応化方法、その装置、プログラム及びその記録媒体に関する。
【0002】
【従来の技術】
音声信号からその音声の調音運動の逆推定手法として、調音運動の動的な振舞いを記述した隠れマルコフモデル(以下HMMと書く)と、調音運動の調音パラメータベクトルと音声スペクトル(音声パラメータベクトル)との関係を関数近似するための調音・音響マッピング係数とにより構成される音声生成モデルに基づき、音声信号からその音声の調音運動(調音パラメータベクトル系列)を逆推定する方法を提案した(非特許文献1)。
【0003】
しかし、調音運動の逆推定に関する研究は特定話者を対象としたものが多い。これまでに不特定話者の音声入力を対象とした研究は、ニューラルネットワークを用いた逆推定法に基づく話者適応化法が考えられているが、入力音声とモデル音声との声道長正規化に基づくものであった(S.Dusan and L.Deng,“Vocal−Tract Length Normalization for Acoustic−to−Articulatory Mapping Using Neural Networks,”in The 138th Meeting of the Acoustic Society of America,1999.)。
また、ある音声パラメータを持つモデルに対して、入力音声パラメータの出力確率(尤度)を最大にするようにそのモデルのパラメータを適応化する手法がある(非特許文献2)。
【0004】
【非特許文献1】
Sadao Hiroya and Masaaki Honda,“Acoustic−to−articulatory inverse mapping using an HMM−based speech production model,”in ICSLP,2002,pp.2305−2308.
【非特許文献2】
C.J.Leggetter and P.C.Woodland,“Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models,”in Computer Speech and Language,vol.9,pp.171−185,1995.
【0005】
【発明が解決しようとする課題】
従来の声道長正規化に基づく不特定話者の音声入力を対象とした調音運動の逆推定の研究は、入力音声の音響空間を、特定話者のモデルの音響空間に適応させるものである。しかしながら、音声スペクトルと調音運動の間の冗長性から、音響空間の適応が調音運動の適応に直接結びつかず、したがって、音響空間の適応だけでは、発話者の調音運動に基づく発話スタイルを適応することができない。また、従来の適応化法の研究では、あるモデルのパラメータに対して、入力パラメータ系列の尤度を上げるようにパラメータを適応化していくため、高い尤度ではあるが、パラメータに関する動的な制約などは利用していないため、十分な精度が得られない。この発明の目的は発話者の調音運動に基づく発話スタイルを適応することができ、かつ十分な精度が得られる音声生成モデル適応化方法、その装置、プログラム及びその記録媒体を提供することにある。つまりこの発明が解決しようとする課題は、音響空間の適応だけではなく、音声生成モデル自体を、音声から動的な特徴を考慮して推定した調音運動に基づいて適応化することであるとも云える。
【0006】
【課題を解決するための手段】
この発明によれば、入力話者の音声信号から、(1)既存の音声生成モデルにより生成される音声スペクトルを、入力された音声スペクトルに適応化することにより、音声生成モデルを入力話者に適応する、あるいは(2)入力話者の音声信号から既存の音声生成モデルに基づきその入力音声の調音運動を決定し、この決定された調音運動を用いて、その既存の音声生成モデル中の調音運動軌道の確率的な動的モデル(調音モデルと書く)、更に必要に応じて調音パラメータベクトルに対する音声スペクトルベクトルを関連させるマッピング係数を入力話者に適応化する。
【0007】
前記(1)の方法は、既存の音声生成モデルにより生成される音声スペクトル(パラメータ)ベクトルを、入力話者の入力音声の音声スペクトル(パラメータ)ベクトル系列の出力確率が最大となる適応化を行う。その適応化を関連付ける関係係数を用いて音声生成モデル中の調音・音響マッピング係数を適応化する。
前記(2)の方法は、入力話者の入力音声スペクトル(パラメータ)ベクトル系列に対する事後確率が最大となる調音運動(調音パラメータベクトル系列)を、既存の音声生成モデルを用いて決定し、この決定された調音運動(調音パラメータベクトル系列)の出力確率が最大となるように調音モデルを適応化する。また、必要に応じて上記の決定された調音運動から生成される音声スペクトル(パラメータ)ベクトルに対する、入力話者の入力音声スペクトル(パラメータ)ベクトル系列の出力確率が最大となるように調音・音響マッピング係数を適応化する。
【0008】
また、前記(2)の方法は、前記(1)の方法を組み合わせ、初めに既存の音声生成モデルにより生成される音声スペクトル(パラメータ)ベクトルを、入力話者の入力音声の音声スペクトル(パラメータ)ベクトル系列に適応化した後、この適応化された音声スペクトル(パラメータ)ベクトルを用いて、入力された音声スペクトル(パラメータ)ベクトル系列から調音運動(調音パラメータベクトル)を決定し、決定された調音運動を用いて、少なくとも調音モデルを適応化し、更に必要に応じて調音・音響マッピング係数を適応化する。
【0009】
【発明の実施の形態】
まずこの発明における適応化の対象である音声生成モデルの作成方法を説明する。
モデル作成
文章を連続発声した音声信号と、磁気センサシステムにより同時観測された調音データを用いて、調音・音響対コードブックを作成する。音声信号はフレームごとに、例えば毎秒250回のレートで、窓長32msのブラックマン窓で切り出され、スペクトル分析され、例えば0次項を除いた16次のメルケプストラム係数が音声パラメータとして求められる。必要に応じてその音声パラメータから微分(差分)により、時間的変化として速度、加速度のパラメータが検出され、これら音声パラメータと速度、加速度パラメータを要素とするベクトルが音声パラメータベクトルyとして生成される。
【0010】
同時に観測された調音器官の複数の各位置、例えば下顎と、上・下唇と、舌上の4箇所と軟口蓋の計8点のそれぞれについての水平方向および垂直方向における各位置情報信号が毎秒250回のレートで取り込まれ、その各位置パラメータから必要に応じて、微分(差分)により時間的変化としての速度パラメータが求められ、更に必要に応じて各速度パラメータの微分(差分)により時間的変化としての加速度パラメータが求められる。これら各16個の位置パラメータ、速度パラメータ、加速度パラメータを要素とする調音パラメータベクトルxが生成される。
【0011】
つまりこの例では音声パラメータベクトルy、調音パラメータベクトルxはそれぞれ下記のように48個の要素からなるベクトルである。
y=[k,……,k16,k′,……,k16′,k″,……,k16″]
x=[p ,……,p ,p′,……,p′,p″,……,p″]
このようにして同一の時点において求まった音声パラメータベクトルyと調音パラメータベクトルxを対とするデータを複数個、例えば20万セット保持して調音・音響対コードブックを構成する。
【0012】
このようにして求めた調音パラメータベクトルxおよび音声パラメータベクトルyを用いて調音運動を表現する確率的な動的モデル(以下調音モデルと書く)、この例では隠れマルコフモデル(以下HMMと記す)λを作成する。このHMMのモデルλの作成は、前記文章の連続発声により得られた全体の音声パラメータベクトル系列の出力確率P(,q|λ)が最大となるようにする。ここでqは全体の音声パラメータベクトル系列に対する状態系列を表す。この例ではHMMのモデルλの構造は、2音素組の3状態1混合ガウス分布で、スキップなしのleft−to−rightモデルとする。例えば図1に示すように3つの状態q,q ,q があり、各状態での調音パラメータベクトル、音声パラメータベクトルの各出力確率をそれぞれ1つのガウス分布とし、状態過程は同一状態から同一状態への遷移(ループ)と、q からq 又はq からq への遷移の計5つのみである。各音素について次に続く異なる音素ごとにモデルが作られる。
【0013】
調音パラメータベクトル系列を含むモデルにおいては、状態系列qを構成する各1つの状態をq とする時、状態q の音声パラメータベクトルyの出力確率は、その状態q への遷移確率P =P(q|λ)と、その状態qに対する調音パラメータベクトルxの出力確率P =P(x|q ,λ)と、その状態qに対する調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率P=P(y|x,q,λ)との積である。従ってP(y,q|λ)=∫P(y|x,q,λ)P(x|q,λ)P(q|λ)dxが最大となるように各モデルを作成すればよい。ここで与えられた調音パラメータベクトルに対する音声パラメータの出力確率P(y|x,q,λ)と、調音パラメータベクトルの出力確率P(x|q,λ)は共にガウス分布を仮定する。
【0014】
図2にモデル作成処理手順例を示す。この学習法は「ビタビ学習法」と呼ばれるものである。まず入力音声パラメータベクトル系列及び入力調音パラメータベクトル系列と発声文章との対応付けにより各同一音素の両パラメータベクトル対を集め、その各音素ごとに、その複数の各パラメータベクトル対ごとに前記3状態q,q,qをそれぞれ同一時間長として対応付け、各状態ごとにモデルパラメータA,b,x,σ,w,σを演算し、つまり初期モデルλを作って記憶する(S1)。
【0015】
つまり調音パラメータベクトルxから音声パラメータベクトルyを決定する関数y=f(x)として、y=Ax+bを用い、調音パラメータベクトルxを用いて計算した音声パラメータベクトルy′=Ax+bと、その調音パラメータベクトルxと対をなす音声パラメータベクトルyとの二乗誤差が最小となるAとbを求め、かつy′のyに対する誤差wを求め、その誤差wの平均wを計算し、更に誤差wの共分散σを計算し、調音パラメータベクトルxの平均xを計算し、調音パラメータベクトルxの共分散σを計算し、状態遷移確率γを計算する。初期状態遷移確率γは自己遷移確率を0.8、ある状態から他の状態に遷移する確率を0.2など適当な値に設定し、その後はある状態qに注目した場合、その状態に対応するフレームすべてに対して、同じ状態に遷移するフレームの数をその状態に対応するフレームの総数で割った値を自己遷移確率とし、ある状態から他の状態に遷移する確率を(1−自己遷移確率)として計算する。
【0016】
これらモデルパラメータA,b,w,σ,x,σ,Pを各音素の各状態ごとに計算して音素対応に記憶する。なお、変換関数はこの例では左辺のベクトルyは要素数が48であり、右辺中のベクトルxも要素数が48であり、係数Aは48×48の行列となり、定数bも要素数が48のベクトルとなる。
従ってA,bを決定するにはyとxの対を最低48個必要とする。
次にこの初期モデルλに対して入力音声パラメータベクトルyの出力確率
P(y,q|λ)=∫P(y|x,q,λ)P(x|q,λ)P(q|λ)dx(1)
が最大になるように音声パラメータベクトルyおよび調音パラメータベクトルxに状態qを対応付けることをビタビ(Viterbi)アルゴリズムを用いて決定する(S2)。つまり前記文章の最初の音素を初期値としてその各状態における調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率P(y|x,q,λ)と調音パラメータベクトルxの出力確率P(x|q,λ)とを、先に記憶したモデルを参照して、確率がガウス分布していることに基づき、それぞれ下記式(2)、式(3)により求める。
【0017】
P(y|x,q,λ)=[1/((2π)N/2 )|σ1/2 ]×exp[−(1/2)(y−Ax−b−wσ −1(y−Ax−b−w)] (2)
P(x|q,λ)=[1/((2π)M/2 )|σ1/2 )]×exp[−(1/2)(x−xσ −1(x−x)] (3)
Nはベクトルyの次数、Mはベクトルxの次数であり、前記例では共に42であり、( )は行列の転置を表わす。
【0018】
また遷移確率P(q|λ)を求め、P(y|x,q,λ)とP(x|q,λ)とP(q|λ)の積をブランチメトリックとし、各状態について求めたブランチメトリックの最大のものを生き残りパスとし、そのブランチメトリックをそれまでのパスメトリックに加算することを順次行う。最終的に得られたパスメトリックの最大の状態系列qが式(1)を最大とするものである。
次にこの状態系列qの決定の際に求まった入力音声パラメータベクトルyの出力確率の最大値、つまり最大パスメトリックの値が収束したかを調べ(S3)、収束していなければステップS2で決定された状態系列qと入力音声パラメータベクトル系列及び入力調音パラメータベクトル系列とを対応付け、その
状態系列qにおけるモデルからモデルへの変化点を検出して、音素区間の入力音声パラメータベクトル系列及び入力調音パラメータベクトル系列に対す
る対応付けを再設定する(S4)。
【0019】
この再設定された各音素についての音声パラメータベクトル及び調音パラメータベクトルの集合について、各モデルパラメータA,b,w,σ,x,σ,Pをそれぞれ演算し、つまり音素モデルを作成し、記憶していた対応モデルパラメータを更新記憶してステップS2に戻る(S5)。
以下ステップS2〜S5を繰返すことにより、得られる音声パラメータベクトルの出力確率の最大値はほぼ一定値となり、つまりステップS3で収束したことが検出されて終了とする。
【0020】
このようにして得られたHMMの各モデルは、例えば図3に示すように各音素対応のモデルλ1 〜λJの格納部25−1〜25−Jごとに状態遷移確率γ(これは前述したように各ループと隣りへとの計5つの確率よりなる)が遷移確率格納部27に格納され、各状態ごとのA,bが係数格納部28に格納され、x,wが平均格納部29に、σ,σが共分散格納部31に格納される。係数A,bは調音パラメータベクトルXと対応した音声パラメータベクトルyの近似値を対応ずけるためのパラメータであるから調音・音響マッピング係数と呼ぶ。その他のパラメータx,w,σ,σは調音モデルと呼ぶ。またP(y|x,q,λ)は式(2)で計算され、P(x|q,λ)は式(3)で計算されるから、調音パラメータベクトルxに対する音声パラメータベクトルyの出力確率、また調音パラメータベクトルxの出力確率もモデル記憶部25に格納されていると云える。モデル作成方法として「ビタビ学習法」を示したが、より精度の良い学習法「EM学習法」(Expectation−Maximization)を用いてもよい。
【0021】
第1実施形態
この発明の第1実施形態においては既存の音声生成モデルにより生成される音声パラメータ(スペクトル)ベクトルを、入力話者の入力音声パラメータ(スペクトル)ベクトル系列の出力確率が最大となるように適応化し、この生成音声パラメータベクトルと入力音声パラメータベクトル系列とを関係付ける係数を用いて、音声生成モデル中の調音・音響マッピング係数を適応化する。
以下この第1実施形態を、図4及び図5を参照して説明する。話者の入力音声信号は入力端子11からディジタル信号として入力され信号記憶部42に一旦格納される(S1)。この話者入力音声信号は音声パラメータベクトル生成部43において、フレームごとに入力音声パラメータ(スペクトル)ベクトルyが生成され、入力音声パラメータベクトル系列が生成される(S2)。例えば入力音声信号はフレームごとにスペクトル分析され、音声パラメータが検出され(S2−1)、更にそのスペクトルの時間的変化としての速度、加速度パラメータが検出され(S2−2)、これら両パラメータにより音声パラメータベクトルとされ、各フレームの音声パラメータベクトルの時系列が音声パラメータベクトル系列とされる。これらパラメータとしては、適応化の対象であるモデル記憶部48に記憶されている音声生成モデルの作成時に用いた音声パラメータと同一のもの、前記例では0次項を除いた16次のメルケプストラム係数とその速度パラメータが検出される。この入力音声パラメータベクトル系列は記憶部42に一旦格納される(S3)。なお話者入力音声信号と対応した文章の音素列が音素列記憶部45に格納される。
【0022】
音声生成モデルより生成された音声パラメータベクトルの平均ベクトルymjに対して、入力音声パラメータベクトル系列=(Y,…,Y)の出力確率P(|q,λ)が最大となるように、音声生成モデルの平均ベクトルを適応化する。出力確率P(|q,λ)を最大化する平均ベクトルymjは前記非特許文献2の174頁を参考にすると、対数尤度log P(|q,λ)を最大にするように求めればよい。従って
log P(|q,λ)=K−(1/2)ΣΣγ(j)(Y−Hmjσyj −1(Y−Hmj
を最大にするH
ΣΣγ(j)σyj −1mj =ΣΣγ(j)σyj −1mjmj (4)
を計算することで求めることができる。ここでtはベクトル系列の離散的時刻を、jは各音素における状態番号をそれぞれ表わし、Kは定数、Hは回帰係数であり、γ(j)は音声パラメータベクトルが時刻tで状態jに存在する確率であってγ(j)=P(q=j|y,λ)であり、音声パラメータベクトルyの平均ベクトルはymj=Amj+bにより、ベクトルyの共分散行列はσyj=Aσxj +σにより求める。( )は転置行列を表わし、sは音響空間を分割するクラスタを表わす。つまり音声生成モデルλの全てを1つのクラスタとするか、あるいは母音と子音とを別のクラスタとして求めるなど、全音素モデルをいくつかのクラスタに分けて求める。
【0023】
つまり図4、図5に示すように入力音声パラメータベクトル系列と、音声
生成モデルとを用いて、音声関係係数算出部46で、音声関係係数Hを計算する(S4)。モデル記憶部44中の各モデルの調音・音響マッピング係数A,bと調音平均ベクトルxmjを取出し、音声パラメータの平均ベクトルymjを平均ベクトル生成部47でymj=Amj+bの計算によりそれぞれ生成する(S4−1)。またモデル記憶部44中の各モデルの調音パラメータベクトルxの共分散σxjと調音平均ベクトルxmjの誤差wの共分散σwjを取り出し、音声パラメータベクトルyの共分散行列σyjを共分散計算部48でσyj=Aσxj +σwjの計算によりそれぞれ生成する(S4−2)。更に音声関係係数算出部46において、記憶部45内の音素系列に従って各音素についてモデル記憶部44内の対応音素モデルλの遷移確率γを取出し、これと、入力音声パラメータベクトル系列と、平均ベクトル生成部47よりの平均ベクトルymjと、共分散計算部48よりの共分散行列σyjとを用いて、ΣΣγ(j)σyj −1mj ,ΣΣγ(j)σyj −1mjmj を計算し、式(4)を満す回帰係数(音声関係係数)Hを求める(S4−3)。
【0024】
この音声関係係数Hを用いて、音声生成モデルの調音・音響マッピング係数A,bを、それぞれH,Hと係数適応化部49で入力話者音声に適応化する(S5)。
更に必要に応じて、先に求めた音声パラメータベクトルの平均ベクトルymjを音声適応化部51でYmj=Hmjの計算により変更する(S6)。
この適応化された音声生成モデルを用いれば、調音パラメータベクトル系列を入力して、これと対応した前記入力話者の音声に近い音声信号を合成することができる。
なお図5において制御部52は各部を順次動作させ、また各記憶部に対する読み書きを行う。
【0025】
第2実施形態
次にこの発明の第2実施形態を図6及び図7を参照して説明する。第2実施形態は入力音声の調音運動を、適応対象音声生成モデルを用いて決定し、この調音運動の出力確率が最大となるように音声生成モデルを適応化する。
入力端子41からの入力話者の入力音声信号から入力音声パラメータ(スペクトル)ベクトル系列を音声パラメータベクトル生成部43で生成し(S2)、これを一旦記憶部43に記憶する(S3)ことは第1実施形態と同様である。
【0026】
この第2実施形態においては、入力音声パラメータベクトル系列の出力確率P(|q,λ)を最大にする状態系列qを、記憶部45の音素系列に基づき、例えばビタビアルゴリズムにより状態系列生成部61で生成する(S4)。この生成の手法は先に述べたモデル作成法とほぼ同様に行えばよい。
次にこの状態系列qに対して事後確率P(x|y,q,λ)を最大にする調音運動、つまり調音パラメータベクトル系列を調音パラメータベクトル生成部62で生成する(S5)。P(x|y,q,λ)を最大にする調音パラメータベクトル系列は前記非特許文献1の2306頁左欄の記載から明らかなように次式(5)を最小化する系列 を求めればよい。
【0027】
J=(−A −b)σ −1−A −b) (5)
つまり非特許文献1中の式(4)(下記の式)により求める。
=(σ −1+Aσ −1A)−1(σ −1+Aσ −1(y−b))
このようにして生成された調音パラメータベクトル系列 と、出力確率P( |q,λ)が最大となる調音パラメータベクトルxの平均ベクトルxemとを関係付ける次式(6)を平均関係係数計算部63で計算して、平均関係係数Cを求める(S6)。
【0028】
ΣΣγ(j)σxj −1etmj =ΣΣγ(j)σxj −1mjmj (6)
つまり生成された調音パラメータベクトル系列 の各ベクトルxetについて、記憶部44中の音声生成モデルの対応音素モデルλの遷移確率γ、共分散σxj、平均xmjを取出し、ΣΣγ(j)σxj −1etmj,ΣΣγ(j)σxj −1mjmj を計算して式(6)を計算して回帰係数Cを求める。このようにして求めた平均関係係数Cを用いて、記憶部44中の調音平均ベクトルxmjを平均適応化部64でXmj=Cmjとして調音平均ベクトルを適応化する(S7)。
【0029】
この適応化された音声生成モデルを用いて入力話者の音声信号の調音運動(調音パラメータベクトル系列)を求めることにより、適応化前のモデルを用いる場合よりも高い精度で調音運動を求めることができる。
更に調音・音響マッピング係数A,bも適応化する場合は次のようにする。
ステップS15で生成された調音パラメータベクトル系列 の各調音スペクトルベクトルxetと対応する音声スペクトルベクトルを音素系列を参照しながら、音声生成モデルの調音・音響マッピング係数A,bを用いて、音声ベクトル生成部65で音声スペクトルベクトルy=Aet+bを生成する(S8)。
【0030】
この音声生成モデルを用いた音声スペクトルベクトルyに対して、入力音声パラメータベクトル系列の出力確率P(|q,λ)を最大にする調音・音響マッピング係数は、第1実施形態の場合と同様に、
P(|q,λ)=∫P(Y|x,q,λ)P(x|q,λ)dxの対数尤度log P(|q,λ)を最大にすることにより与えられる。従って、式(4)の導出と同様に次式(7)を満す回帰係数(マッピング関係係数)Dをマッピング関係係数算出部66で算出する(S9)。
【0031】
ΣΣγ(j)σwj −1(Aet+b=ΣΣγ(j)σwj −1(Aet+b)(Aet+b (7)
つまりマッピング関係係数計算部66で、入力音声パラメータベクトル系列と、音声ベクトル生成部65よりの音声ベクトルyと、モデル記憶部44中の誤差の共分散σwj、遷移確率γとを用いて、
ΣΣγ(j)σwj −1 =ΣΣγ(j)σwj −1
を満すDを計算する。
【0032】
このマッピング関係係数Dを用いてモデル記憶部44中の各音声生成モデルの各調音・音響マッピング係数A,bを係数適応化部67でD,Dとして適応化する(S10)。
ステップS4における状態系列の生成は、第1実施形態において音声適応化部51で生成した適応化音声平均ベクトルYmj(=Hmj)を用いて行ってもよい。この場合、回帰係数CとDで共通のクラスタを用いた場合、回帰係数の冗長性のため第1実施形態と同じ尤度になるが、適応化された音声生成モデルは第1実施形態と異なるものとなる。
【0033】
以上のような各種の適応化法により音声生成モデルを話者音声に適応化し、その適応化音声生成モデルを用いて、その話者の音声信号に対する調音運動を例えば非特許文献1に示すように推定する。
実験
日本人男性3名によって発声された356文章の音声信号と調音データを用い、モデル作成の項で述べた条件でパラメータベクトルを生成し、3者ごとにモデルを作成し、各入力話者から、入力話者以外の話者2名のそれぞれのモデルに対して適応を行い、評価は計6つのテストの平均で行った。今回用いた調音データは、調音観測点上に小さな受信コイルを接着する磁気センサシステムを用いて観測された。しかし、話者毎に受信コイルを接着する位置が異なり、また、話者毎に調音器官の大きさが異なるため、入力話者の観測した調音運動と別の特定話者のモデルを用いて推定した調音運動は、そのままでは比較することができない。したがって、あらかじめ求めた入力話者の観測調音運動と別の話者の観測調音運動の位置とサイズの線形変換を用いて正規化し、評価を行った。適応の際には、教師ありの学習を用い、適応文章数は40とした。調音運動の逆推定の際には、音素ありの条件を用いた(非特許文献1)。適応化法は、(A)第1実施形態、(B)第2実施形態、(C)第1実施形態と第2実施形態との併用の3つで実験を行った。クラスタ数sは全適応化法において共通とした。
【0034】
図8に、クラスタ数の値を1,3,5,10としたときの、学習データに対する音響パラメータベクトルの対数尤度を示す。適応化法を用いることで、話者独立モデルよりも尤度が上昇することが分かる。また、(A)法と(C)法の尤度はほぼ同じであり、(B)法の尤度はそれらに比べて低い。
なお、話者の音声と調音運動を用いて作ったモデル(話者モデル)を用いた場合と、話者と無関係の音声とその対応調音運動を用いて作ったモデル(話者独立モデル)を用いた場合についての実験結果も示した。
【0035】
図9に、クラスタ数における、適応化法による調音運動の二乗誤差を示す。適応化法を用いることで、すべてのクラスタ数において話者独立モデルよりも誤差が減少している。(A)法を用いた場合、調音運動に関する適応は行われないため、クラスタの数によらず、誤差はほぼ一定である。一方、(B)法の場合、クラスタ数の増加につれて誤差が減少していく。(C)法は、クラスタ数が5までは(B)法よりも誤差が小さいが、クラスタ数が10では尤度が高いにも関わらず、誤差が大きくなっている。
【0036】
図10に各種音素毎の二乗誤差を示す。評価はクラスタ数10を用いて行った。‘Total’は発声全体の二乗誤差であり、‘Vowel’から‘Nasal’まではそれぞれ、その発声の際に重要な調音器官における二乗誤差である。適応化法を用いることで、すべての音素クラスに対して話者独立モデルよりも向上が見られた。最大約44.4%の改善が見られた。また、適応化法による音素クラスに対する誤差の違いは見られなかった。
入力男性話者が「やるべきことはやっており何ら落ち度はない」という文章を発声した音声信号から、話者独立モデルを利用して推定された調音運動軌道(太線)と観測された調音運動軌道(細線)の垂直信号の例を図11に示し、(C)法により適応化したモデルを利用して推定された調音運動軌道(太線)と観測された調音運動軌道(細線)の垂直信号の例を図12に示す。これら両図を比較すれば図12の方が太線が細線に近いものとなっており、モデル適応化の効果が得られていることが理解できる。
【0037】
また推定された調音運動は発声した音素の特徴を良く再現している。推定された調音運動から生成した音声スペクトルと入力音声スペクトルとのスペクトル歪みも約69.0%の改善が見られた。
図5、図7に示した適応化装置をコンピュータに機能させてもよい。この場合は図4又は図7に示した適応化方法の各手順をコンピュータに実行させるためのプログラムをCD−ROM、磁気ディスクなどの記録媒体からコンピュータにインストールし、又は通信回線を介してダウンロードし、そのプログラムをコンピュータに実行させればよい。上述においては調音パラメータベクトルを変数として音声パラメータベクトルを近似する関数に線形関数を用いたが他の関数でもよい。音声パラメータベクトル、及び調音パラメータベクトルとしては加速度成分や速度成分を用いなくてもよい。
【0038】
【発明の効果】
この発明によれば、調音運動を表現する確率的な動的モデルと調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを話者適応化することができ、この適応化した音声生成モデルを使用することにより、入力話者音声の調音運動を、適応化しないモデルを用いる場合より、精度よく推定することができる。更に、調音パラメータベクトルから音声合成する場合に、所望の話者の音声を合成することができる。また、同様にこのモデルを用いて音声認識する場合も高認識精度を得ることができるようになる。更にこの発明によれば小量の音声データからでも音声生成モデルを適応化することができる。
【図面の簡単な説明】
【図1】1つの音素モデルの状態遷移の例を示す図。
【図2】モデル作成手順の例を示す流れ図。
【図3】音声生成モデルが記憶されている記憶装置の記憶内容例を示す図。
【図4】この発明の第1実施形態の処理手順の例を示す流れ図。
【図5】この発明の第1実施形態の機能構成例を示すブロック図。
【図6】この発明の第2実施形態の処理手順の例を示す流れ図。
【図7】この発明の第2実施形態の機能構成例を示すブロック図。
【図8】学習音声パラメータベクトルに対する合成音声パラメータベクトルの対数尤度の実験結果を示すグラフ。
【図9】入力音声信号に対して推定した調音パラメータベクトルの2乗誤差の実験結果を示すグラフ。
【図10】入力音声信号に対して推定した調音パラメータベクトルの各種音素ごとの2乗誤差の実験結果を示す図。
【図11】実測した調音運動と、話者独立モデルを利用して推定した調音運動の例を示す図。
【図12】実測した調音運動と、話者適応化したモデルを利用して推定した調音運動の例を示す図。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech generation model including a probabilistic dynamic model expressing articulation movement (hereinafter referred to as an articulation model) and an articulation / acoustic mapping coefficient for associating an articulation parameter vector with an audio parameter vector. The present invention relates to a speech generation model adaptation method, a device, a program, and a recording medium for adapting using a speech signal of a user.
[0002]
[Prior art]
A hidden Markov model (hereinafter referred to as HMM) describing the dynamic behavior of articulatory motion, an articulatory parameter vector and a speech spectrum (speech parameter vector) of the articulatory motion, as an inverse estimation method of the articulatory motion of the voice from the voice signal. Proposed a method for inversely estimating the articulation motion (articulation parameter vector sequence) of a speech from a speech signal based on a speech generation model composed of articulation and acoustic mapping coefficients for functionally approximating the relationship of 1).
[0003]
However, many studies on inverse estimation of articulatory movements focus on specific speakers. So far, research on speech input from unspecified speakers has considered a speaker adaptation method based on an inverse estimation method using a neural network. (S. Dusan and L. Deng, "Vocal-Tact Length Normalization for Acoustic-to-Articulatory Mapping Utilizing Neural Networks," in The 138.th  Meeting of the Acoustic Society of America, 1999. ).
In addition, there is a method of adapting the parameters of a model having a certain voice parameter so that the output probability (likelihood) of the input voice parameter is maximized (Non-Patent Document 2).
[0004]
[Non-patent document 1]
Sadao Hiroya and Masaaki Honda, “Acoustic-to-articulatory inverse mapping using an HMM-based speech production model,” in ICSLP, 2002, pp. 2305-2308.
[Non-patent document 2]
C. J. Leggetter and P.M. C. Woodland, "Maximum Likelihood linear regression for speakers adaptation of continuity density hidden markovov models," in Computer magazine. 9, pp. 171-185, 1995.
[0005]
[Problems to be solved by the invention]
Conventional research on inversion estimation of articulatory motion for speech input of unspecified speakers based on vocal tract length normalization adapts the acoustic space of the input speech to the acoustic space of the model of the specific speaker. . However, due to the redundancy between the speech spectrum and articulatory movements, the adaptation of the acoustic space does not directly lead to the adaptation of the articulatory movements, and thus the adaptation of the acoustic space alone will adapt the speaking style based on the articulatory movements of the speaker. Can not. In addition, in the study of conventional adaptation methods, parameters are adapted to increase the likelihood of an input parameter sequence for a certain model parameter. Since it is not used, sufficient accuracy cannot be obtained. An object of the present invention is to provide a method, an apparatus, a program, and a recording medium for adapting a speech generation model capable of adapting an utterance style based on articulatory movements of a speaker and obtaining sufficient accuracy. In other words, the problem to be solved by the present invention is not only the adaptation of the acoustic space, but also the adaptation of the speech generation model itself based on the articulation motion estimated from the speech in consideration of the dynamic features. I can.
[0006]
[Means for Solving the Problems]
According to the present invention, (1) adapting the speech spectrum generated by the existing speech generation model to the input speech spectrum from the speech signal of the input speaker, thereby providing the speech generation model to the input speaker. Adapting or (2) determining the articulation of the input speech from the input speaker's speech signal based on the existing speech production model, and using the determined articulation motion, the articulation in the existing speech production model. A probabilistic dynamic model of the motion trajectory (referred to as articulation model) and, if necessary, a mapping coefficient relating the speech spectrum vector to the articulation parameter vector are adapted to the input speaker.
[0007]
In the method (1), the speech spectrum (parameter) vector generated by the existing speech generation model is adapted to maximize the output probability of the speech spectrum (parameter) vector sequence of the input speech of the input speaker. . Adapting the articulatory / acoustic mapping coefficients in the speech production model using the relation coefficients relating the adaptation.
According to the method (2), an articulatory motion (articulatory parameter vector sequence) that maximizes the posterior probability of the input speaker with respect to the input speech spectrum (parameter) vector sequence is determined using an existing speech generation model. The articulatory model is adapted so that the output probability of the performed articulatory movement (articulatory parameter vector sequence) is maximized. Further, if necessary, articulation / acoustic mapping is performed such that the output probability of the input speech spectrum (parameter) vector sequence of the input speaker with respect to the speech spectrum (parameter) vector generated from the determined articulation motion is maximized. Adapt coefficients.
[0008]
The method (2) is a combination of the method (1), and firstly converts the speech spectrum (parameter) vector generated by the existing speech generation model into the speech spectrum (parameter) of the input speech of the input speaker. After adaptation to the vector sequence, articulation motion (articulation parameter vector) is determined from the input speech spectrum (parameter) vector sequence using the adapted speech spectrum (parameter) vector, and the determined articulation motion is determined. Is used to at least adapt the articulatory model and, if necessary, the articulatory / acoustic mapping coefficients.
[0009]
BEST MODE FOR CARRYING OUT THE INVENTION
First, a method for creating a speech generation model to be adapted in the present invention will be described.
Model creation
An articulatory / sound pair codebook is created using an audio signal obtained by continuously uttering sentences and articulatory data simultaneously observed by a magnetic sensor system. The audio signal is cut out by a Blackman window having a window length of 32 ms at a rate of, for example, 250 times per second for each frame, and subjected to spectrum analysis. For example, a 16th-order mel-cepstral coefficient excluding the 0th-order term is obtained as an audio parameter. If necessary, velocity and acceleration parameters are detected as temporal changes by differentiation (difference) from the voice parameters, and a vector having these voice parameters and the speed and acceleration parameters as elements is generated as a voice parameter vector y.
[0010]
At each of a plurality of simultaneously observed articulatory positions, for example, the lower jaw, upper and lower lips, four points on the tongue, and eight positions of the soft palate, each position information signal in the horizontal and vertical directions is 250 per second. The velocity parameter is taken in at each rate, and the velocity parameter as a temporal change is obtained from the position parameter by differentiation (difference) as needed, and the temporal change is obtained by differentiation (difference) of each velocity parameter as needed. Is obtained. An articulation parameter vector x having these 16 position parameters, velocity parameters, and acceleration parameters as elements is generated.
[0011]
That is, in this example, the voice parameter vector y and the articulation parameter vector x are vectors composed of 48 elements, respectively, as described below.
y = [k1, ……, k16, K1', ……, k16', K1″, ……, k16″]
x = [pa  , ……, pn  , Pa', ..., pn', Pa″, ……, pn″]
A plurality of, for example, 200,000 sets of pairs of the speech parameter vector y and the articulation parameter vector x obtained at the same point in time as described above are stored to form the articulation / sound pair codebook.
[0012]
A probabilistic dynamic model (hereinafter referred to as an articulatory model) that expresses articulation using the articulatory parameter vector x and the speech parameter vector y obtained in this manner. In this example, a hidden Markov model (hereinafter referred to as an HMM) λ Create The generation of the HMM model λ is based on the entire speech parameter vector sequence obtained by continuous utterance of the sentence.yOutput probability P (y, Q | λ) is maximized. Where q is the entire speech parameter vector sequenceyRepresents a state sequence for. In this example, the structure of the HMM model λ is a left-to-right model with no skip and a three-state one-gaussian mixture of two phonemes. For example, as shown in FIG.1, Q2  , Q3  The output probabilities of the articulatory parameter vector and the speech parameter vector in each state are each set to one Gaussian distribution, and the state process is a transition (loop) from the same state to the same state, and q1  To q2  Or q2  To q3  There are only a total of five transitions to. For each phoneme, a model is created for each of the following different phonemes.
[0013]
Articulation parameter vector sequencexIn the model including, each state constituting the state sequence q is represented by qj  Then state qj  The output probability of the voice parameter vector y ofj  Transition probability P tot  = P (qj| Λ) and its state qjOutput probability P of articulation parameter vector x forx  = P (x | qj  , Λ) and its state qjOutput probability P of speech parameter vector y for articulation parameter vector x fory= P (y | x, qj, Λ). Therefore, P (y, qj| Λ) = ∫P (y | x, qj, Λ) P (x | qj, Λ) P (qj| Λ) Each model may be created such that dx is maximized. The output probability P (y | x, q) of the speech parameter for the given articulation parameter vectorj, Λ) and the output probability P (x | q) of the articulatory parameter vector.j, Λ) both assume a Gaussian distribution.
[0014]
FIG. 2 shows an example of a model creation processing procedure. This learning method is called “Viterbi learning method”. First, the input speech parameter vector sequenceyAnd input articulation parameter vector sequencexAnd the utterance sentence, the two parameter vector pairs of the same phoneme are collected, and for each phoneme, for each of the plurality of parameter vector pairs, the three state q1, Q2, Q3As the same time length, and model parameters A, b, x for each statem, Σx, Wm, ΣwIs calculated, that is, an initial model λ is created and stored (S1).
[0015]
That is, as a function y = f (x) for determining the speech parameter vector y from the articulation parameter vector x, y = Ax + b, the speech parameter vector y ′ = Ax + b calculated using the articulation parameter vector x, and the articulation parameter vector A and b that minimize the square error between the speech parameter vector y forming a pair with x are obtained, and the error w of y ′ with respect to y is obtained. The average w of the errors w is obtained.mAnd the covariance σ of the error wwAnd calculate the average x of the articulation parameter vector xmAnd calculate the covariance σ of the articulation parameter vector xxAnd the state transition probability γ is calculated. The initial state transition probability γ is set to an appropriate value such as 0.8 for the self transition probability and 0.2 for the probability of transition from one state to another state.jFor all frames corresponding to that state, the value obtained by dividing the number of frames transitioning to the same state by the total number of frames corresponding to that state is defined as the self-transition probability. The transition probability is calculated as (1-self transition probability).
[0016]
These model parameters A, b, wm, Σw, Xm, Σm, PtIs calculated for each state of each phoneme and stored for each phoneme. In this example, the vector y on the left side has 48 elements, the vector x on the right side has 48 elements, the coefficient A is a 48 × 48 matrix, and the constant b has 48 elements in this example. Is the vector of
Therefore, at least 48 pairs of y and x are required to determine A and b.
Next, for this initial model λ, the output probability of the input speech parameter vector y
P (y, q | λ) = ∫P (y | x, q, λ) P (x | q, λ) P (q | λ) dx (1)
To the speech parameter vector y and the articulation parameter vector x such thatjIs determined using the Viterbi algorithm (S2). That is, the output probability P (y | x, q, λ) of the speech parameter vector y with respect to the articulation parameter vector x in each state and the output probability P (x | q , Λ) are obtained by the following equations (2) and (3) based on the fact that the probabilities are Gaussian-distributed with reference to the previously stored model.
[0017]
P (y | x, q, λ) = [1 / ((2π))N / 2  ) | Σw|1/2  ] × exp [-(1/2) (y-Ax-bw)m)Tσw -1(Y-Ax-bwm)] (2)
P (x | q, λ) = [1 / ((2π)M / 2  ) | Σx|1/2  )] × exp [-(1/2) (xxm)Tσx -1(Xxm)] (3)
N is the order of the vector y, M is the order of the vector x, and both are 42 in the above example.TRepresents the transpose of a matrix.
[0018]
Further, a transition probability P (q | λ) is obtained, and a product of P (y | x, q, λ), P (x | q, λ) and P (q | λ) is used as a branch metric to obtain each state. The largest branch metric is determined to be the surviving path, and the branch metric is sequentially added to the previous path metric. The maximum state sequence q of the finally obtained path metric maximizes the equation (1).
Next, it is checked whether or not the maximum value of the output probability of the input speech parameter vector y obtained at the time of determining the state sequence q, that is, the value of the maximum path metric has converged (S3). State sequence q and input speech parameter vector sequenceyAnd input articulation parameter vector sequencexAnd
A change point from the model to the model in the state sequence q is detected, and the input speech parameter vector sequence of the phoneme section is detected.yAnd input articulation parameter vector sequencexAgainst
Is reset (S4).
[0019]
For the set of the speech parameter vector and the articulation parameter vector for each of the reset phonemes, each model parameter A, b, wm, Σw, Xm, Σx, Pt, That is, a phoneme model is created, the stored corresponding model parameters are updated and stored, and the process returns to step S2 (S5).
By repeating steps S2 to S5 below, the maximum value of the output probabilities of the obtained speech parameter vectors becomes substantially constant, that is, the convergence is detected in step S3, and the process ends.
[0020]
Each model of the HMM obtained in this manner is, for example, as shown in FIG. The state transition probabilities γ (which consist of a total of five probabilities for each loop and the adjacent one as described above) are stored in the transition probability storage unit 27 for each of the storage units 25-1 to 25-J of. A and b for each state are stored in the coefficient storage unit 28, and xm, WmIs stored in the average storage unit 29.m, ΣwIs stored in the covariance storage unit 31. The coefficients A and b are referred to as articulation / acoustic mapping coefficients because they are parameters for associating an approximate value of the speech parameter vector y corresponding to the articulation parameter vector X. Other parameters xm, Wm, Σm, ΣwIs called the articulatory model. Further, since P (y | x, q, λ) is calculated by equation (2) and P (x | q, λ) is calculated by equation (3), the output of the speech parameter vector y with respect to the articulation parameter vector x It can be said that the probability and the output probability of the articulation parameter vector x are also stored in the model storage unit 25. Although the “Viterbi learning method” has been described as a model creation method, a more accurate learning method “EM learning method” (Expectation-Maximization) may be used.
[0021]
First embodiment
In the first embodiment of the present invention, a speech parameter (spectrum) vector generated by an existing speech generation model is adapted so that an output probability of an input speech parameter (spectrum) vector sequence of an input speaker is maximized, Using the coefficients relating the generated speech parameter vector and the input speech parameter vector sequence, the articulatory / acoustic mapping coefficients in the speech production model are adapted.
Hereinafter, the first embodiment will be described with reference to FIGS. The input voice signal of the speaker is input as a digital signal from the input terminal 11 and is temporarily stored in the signal storage unit 42 (S1). In the speaker input speech signal, an input speech parameter (spectrum) vector y is generated for each frame in a speech parameter vector generation unit 43, and an input speech parameter vector sequenceYIs generated (S2). For example, an input audio signal is subjected to spectrum analysis for each frame, audio parameters are detected (S2-1), and velocity and acceleration parameters as temporal changes in the spectrum are detected (S2-2). Parameter vector, and the time series of the voice parameter vector of each frame is the voice parameter vector sequence.YIt is said. These parameters are the same as the speech parameters used when creating the speech generation model stored in the model storage unit 48 to be adapted, and in the above example, the 16th-order mel-cepstral coefficients excluding the 0th-order term and The speed parameter is detected. This input speech parameter vector sequenceYIs temporarily stored in the storage unit 42 (S3). Note that a phoneme string of a sentence corresponding to the speaker input voice signal is stored in the phoneme string storage unit 45.
[0022]
Average vector y of speech parameter vectors generated from the speech generation modelmjFor the input speech parameter vector sequenceY= (Y1, ..., Y2) Output probability P (Y| Q, λ) is adapted to maximize the average vector of the speech generation model. Output probability P (Y| Q, λ) to maximize the average vector ymjReferring to page 174 of Non-patent Document 2, log likelihood log P (Y| Q, λ) may be determined so as to maximize it. Therefore
log P (Y| Q, λ) = K- (1/2) ΣtΣjγt(J) (Yt-Hsymj)Tσyj -1(Yt-Hsymj)
H to maximizesTo
ΣtΣjγt(J) σyj -1Ytymj T= ΣtΣjγt(J) σyj -1Hsymjymj T(4)
Can be obtained by calculating Here, t represents the discrete time of the vector sequence, j represents the state number of each phoneme, K is a constant, HsIs the regression coefficient, γt(J) is the probability that the speech parameter vector exists in state j at time t, and γt(J) = P (qt= J | y, λ) and the speech parameter vector yjMean vector of ymj= Ajxmj+ BjYields the vector yjIs the covariance matrix of σyj= AjσxjAj T+ ΣwAsk by ()TRepresents a transposed matrix, and s represents a cluster dividing the acoustic space. That is, the whole phoneme model is divided into several clusters, for example, all the speech generation models λ are made into one cluster, or vowels and consonants are found as separate clusters.
[0023]
That is, as shown in FIG. 4 and FIG.YAnd voice
Using the generated model, the voice-related coefficient calculating unit 46 uses the voice-related coefficient HsIs calculated (S4). Articulatory / acoustic mapping coefficient A for each model in model storage unit 44j, BjAnd the articulatory average vector xmjAnd the average vector y of speech parametersmjIn the average vector generation unit 47mj= Ajxmj+ Bj(S4-1). The articulation parameter vector x of each model in the model storage unit 44jCovariance σ ofxjAnd the articulatory average vector xmjError wjCovariance σ ofwjAnd the voice parameter vector yjCovariance matrix σyjIn the covariance calculation unit 48yj= AjσxjAj T+ Σwj(S4-2). Further, in the speech relation coefficient calculating section 46, the transition probability γ of the corresponding phoneme model λ in the model storage section 44 for each phoneme according to the phoneme sequence in the storage section 45.jFrom the input speech parameter vector sequenceYAnd the average vector y from the average vector generation unit 47mjAnd the covariance matrix σ from the covariance calculation unit 48yjAnd with ΣtΣjγt(J) σyj -1Ytymj T, ΣtΣjγt(J) σyj -1ymjymj TIs calculated, and a regression coefficient (speech-related coefficient) H that satisfies equation (4)sIs obtained (S4-3).
[0024]
This voice relation coefficient Hs, The articulatory / acoustic mapping coefficient A of the speech generation modelj, BjAnd HsAj, HsbjAnd the coefficient adaptation unit 49 adapts to the input speaker's voice (S5).
Further, if necessary, the average vector y of the speech parameter vectors obtained earliermjBy the voice adaptation unit 51mj= Hsymj(S6).
If this adapted speech generation model is used, it is possible to input an articulatory parameter vector sequence and synthesize a speech signal corresponding to the input, which is close to the speech of the input speaker.
In FIG. 5, the control unit 52 sequentially operates each unit, and performs reading and writing for each storage unit.
[0025]
Second embodiment
Next, a second embodiment of the present invention will be described with reference to FIGS. In the second embodiment, the articulatory motion of the input speech is determined using the adaptation target speech generation model, and the speech generation model is adapted so that the output probability of this articulation motion is maximized.
Input speech parameter (spectrum) vector sequence from the input speech signal of the input speaker from the input terminal 41YIs generated by the voice parameter vector generation unit 43 (S2), and is temporarily stored in the storage unit 43 (S3), as in the first embodiment.
[0026]
In the second embodiment, the input speech parameter vector seriesYOutput probability P (YThe state sequence q that maximizes | q, λ) is generated by the state sequence generation unit 61 by, for example, the Viterbi algorithm based on the phoneme sequence in the storage unit 45 (S4). This generation method may be performed in substantially the same manner as the model creation method described above.
Next, the articulatory motion that maximizes the posterior probability P (x | y, q, λ) for this state sequence q, that is, an articulatory parameter vector sequence, is generated by the articulatory parameter vector generator 62 (S5). Articulatory parameter vector sequence that maximizes P (x | y, q, λ)xIs a sequence that minimizes the following equation (5), as is clear from the description in the left column of page 2306 of Non-Patent Document 1.x eShould be obtained.
[0027]
J = (Y-Ax e-B)Tσw -1(Y-Ax e-B) (5)
That is, it is obtained by Expression (4) (the following expression) in Non-Patent Document 1.
x e= (Σx -1+ ATσw -1A)-1x -1xm+ ATσw -1(Y-b))
The articulation parameter vector sequence generated in this wayx eAnd the output probability P (x e| Q, λ) is the maximum articulation parameter vector xeMean vector x ofemIs calculated by the average relation coefficient calculation unit 63 to obtain the average relation coefficient Cs(S6).
[0028]
ΣtΣjγt(J) σxj -1xetxmj T= ΣtΣjγt(J) σxj -1Csxmjxmj T(6)
In other words, the generated articulation parameter vector sequencex eEach vector xet, The transition probability γ of the corresponding phoneme model λ of the speech generation model in the storage unit 44j, Covariance σxj, Average xmjTake out and ΣtΣjγt(J) σxj -1xetxmj, ΣtΣjγt(J) σxj -1xmjxmj TIs calculated, and equation (6) is calculated to obtain the regression coefficient CsAsk for. The average relation coefficient C thus obtaineds, The articulation average vector x in the storage unit 44mjIn the average adaptation unit 64mj= Csxmj(S7).
[0029]
By using this adapted speech generation model to determine the articulatory motion (articulatory parameter vector sequence) of the speech signal of the input speaker, it is possible to obtain the articulatory motion with higher accuracy than when using the model before adaptation. it can.
Further, articulation / acoustic mapping coefficient Aj, BjWhen adapting also,
Articulatory parameter vector sequence generated in step S15x eEach articulatory spectrum vector xetAnd a speech spectrum vector corresponding to the speech generation model while referring to the phoneme sequence.j, Bj, The speech spectrum vector y in the speech vector generation unit 65j= Ajxet+ BjIs generated (S8).
[0030]
For a speech spectrum vector y using this speech generation model, an input speech parameter vector sequenceYOutput probability P (Y| Q, λ) is maximized, as in the case of the first embodiment.
P (Y| Q, λ) = ∫P (Y | x, q, λ) P (x | q, λ) dx log likelihood log P (Y| Q, λ) is maximized. Therefore, similarly to the derivation of equation (4), a regression coefficient (mapping relation coefficient) D satisfying the following equation (7):sIs calculated by the mapping relation coefficient calculation unit 66 (S9).
[0031]
ΣtΣjγt(J) σwj -1Yt(Ajxet+ Bj)T= ΣtΣjγt(J) σwj -1Ds(Ajxet+ B) (Ajxet+ Bj)T            (7)
That is, in the mapping relation coefficient calculation unit 66, the input speech parameter vector sequenceYAnd the speech vector y from the speech vector generation unit 65jAnd the error covariance σ in the model storage unit 44wj, Transition probability γjAnd using
ΣtΣjγt(J) σwj -1Yt  yj T= ΣtΣjγt(J) σwj -1Dsyjyj T
Fill DsIs calculated.
[0032]
This mapping relation coefficient Ds, Each articulatory / acoustic mapping coefficient A of each sound generation model in the model storage unit 44.j, BjIn the coefficient adaptation unit 67sAj, Dsbj(S10).
The generation of the state series in step S4 is performed by the adaptive speech average vector Y generated by the speech adaptation unit 51 in the first embodiment.mj(= Hsymj) May be used. In this case, the regression coefficient CsAnd DsWhen a common cluster is used, the likelihood is the same as that of the first embodiment due to the redundancy of the regression coefficient, but the adapted speech generation model is different from that of the first embodiment.
[0033]
The speech generation model is adapted to the speaker's speech by the various adaptation methods as described above, and the articulatory motion of the speaker's speech signal using the adapted speech production model is shown in, for example, Non-Patent Document 1. presume.
Experiment
Using speech signals and articulatory data of 356 sentences uttered by three Japanese men, parameter vectors are generated under the conditions described in the section on model creation, models are created for each of the three persons, and from each input speaker, Adaptation was performed for each model of two speakers other than the input speaker, and the evaluation was performed on the average of a total of six tests. The articulation data used this time was observed using a magnetic sensor system that adheres a small receiving coil to the articulation observation point. However, since the position where the receiving coil is bonded differs for each speaker, and the size of the articulatory organ differs for each speaker, it is estimated using the articulatory movement observed by the input speaker and another specific speaker model. Articulatory movements cannot be compared as they are. Therefore, normalization was performed using a linear transformation of the position and size of the observation articulation movement of the input speaker and the observation articulation movement of another speaker, which were obtained in advance, and the evaluation was performed. At the time of adaptation, supervised learning was used, and the number of adapted sentences was 40. In the case of articulatory motion reverse estimation, a condition with phonemes was used (Non-Patent Document 1). Experiments were performed on three adaptation methods: (A) the first embodiment, (B) the second embodiment, and (C) a combination of the first and second embodiments. The number of clusters s was common in all adaptation methods.
[0034]
FIG. 8 shows the log likelihood of the acoustic parameter vector for the learning data when the values of the number of clusters are 1, 3, 5, and 10. It can be seen that the use of the adaptation method increases the likelihood as compared with the speaker independent model. The likelihoods of the (A) method and the (C) method are almost the same, and the likelihood of the (B) method is lower than those.
Note that a model created using speaker's voice and articulatory movement (speaker model) and a model created using speech unrelated to the speaker and its corresponding articulatory movement (speaker independent model) were used. Experimental results for the case used are also shown.
[0035]
FIG. 9 shows the square error of the articulation motion by the adaptation method with respect to the number of clusters. By using the adaptation method, the error is smaller than that of the speaker independent model at all cluster numbers. In the case where the method (A) is used, the adaptation relating to the articulatory movement is not performed, so that the error is substantially constant regardless of the number of clusters. On the other hand, in the case of the method (B), the error decreases as the number of clusters increases. The (C) method has a smaller error than the (B) method when the number of clusters is up to 5, but the error is large when the number of clusters is 10, despite the high likelihood.
[0036]
FIG. 10 shows the square error for each phoneme. The evaluation was performed using 10 clusters. 'Total' is the square error of the entire utterance, and from 'Vowel' to 'Nasal' are the square errors of articulatory organs important in the utterance. By using the adaptation method, all phoneme classes showed improvement over the speaker independent model. Up to about 44.4% improvement was seen. In addition, there was no difference in error between phoneme classes by the adaptation method.
An articulatory trajectory (thick line) and an observed articulatory trajectory estimated by using a speaker-independent model from a speech signal in which the input male speaker uttered a sentence saying "I am doing what I need to do and there is no fault" An example of a vertical signal (thin line) is shown in FIG. 11, and the vertical signal of the articulatory orbit (thick line) estimated using the model adapted by the method (C) and the observed vertical signal of the articulatory orbit (thin line) is used. An example is shown in FIG. By comparing these figures, the thick line in FIG. 12 is closer to the thin line, and it can be understood that the effect of model adaptation is obtained.
[0037]
The estimated articulatory movements well reproduce the characteristics of the uttered phonemes. The spectral distortion between the speech spectrum generated from the estimated articulatory movement and the input speech spectrum was also improved by about 69.0%.
The adaptation device shown in FIGS. 5 and 7 may be caused to function by a computer. In this case, a program for causing the computer to execute each procedure of the adaptation method shown in FIG. 4 or FIG. 7 is installed in the computer from a recording medium such as a CD-ROM or a magnetic disk, or downloaded via a communication line. The program may be executed by a computer. In the above description, a linear function is used as a function for approximating the speech parameter vector using the articulation parameter vector as a variable, but another function may be used. The acceleration component and the velocity component need not be used as the voice parameter vector and the articulation parameter vector.
[0038]
【The invention's effect】
According to the present invention, it is possible to speaker-adapt a speech generation model including a probabilistic dynamic model representing articulatory movement and an articulation / acoustic mapping coefficient that associates an articulation parameter vector and a speech parameter vector. By using the adapted speech generation model, the articulatory motion of the input speaker's speech can be estimated more accurately than when using a model that does not adapt. Further, when speech synthesis is performed from the articulation parameter vector, speech of a desired speaker can be synthesized. Similarly, in the case of speech recognition using this model, high recognition accuracy can be obtained. Further, according to the present invention, a speech generation model can be adapted even from a small amount of speech data.
[Brief description of the drawings]
FIG. 1 is a diagram showing an example of a state transition of one phoneme model.
FIG. 2 is a flowchart illustrating an example of a model creation procedure.
FIG. 3 is a diagram showing an example of storage contents of a storage device in which a speech generation model is stored.
FIG. 4 is a flowchart showing an example of a processing procedure according to the first embodiment of the present invention.
FIG. 5 is a block diagram showing a functional configuration example of the first embodiment of the present invention.
FIG. 6 is a flowchart illustrating an example of a processing procedure according to a second embodiment of the present invention.
FIG. 7 is a block diagram showing a functional configuration example according to a second embodiment of the present invention;
FIG. 8 is a graph showing experimental results of log likelihood of a synthesized speech parameter vector with respect to a learning speech parameter vector.
FIG. 9 is a graph showing an experimental result of a square error of an articulation parameter vector estimated for an input audio signal.
FIG. 10 is a diagram showing experimental results of square errors of various types of phonemes of an articulation parameter vector estimated for an input speech signal.
FIG. 11 is a diagram showing an example of an actually measured articulation motion and an articulation motion estimated using a speaker independent model.
FIG. 12 is a diagram showing an example of an actually measured articulation motion and an articulation motion estimated using a speaker-adapted model.

Claims (10)

記憶装置に記憶された調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号に適応化する方法であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する手順と、
上記各音声生成モデルについてその各調音・音響マッピング係数を用いて調音パラメータベクトル系列、音声パラメータベクトルの各平均ベクトルをそれぞれ生成する手順と、
上記入力音声パラメータベクトル系列の平均ベクトル系列(以下入力音声平均ベクトル)と上記平均ベクトルの系列とを、上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける手順と、
その関係づけを上記各音声生成モデルの各調音・音響マッピング係数に与えて、上記音声生成モデルを適応化する手順と
を有することを特徴とする音声生成モデル話者適応化方法。
A speech generation model including a probabilistic dynamic model (hereinafter, referred to as an articulation model) representing articulation movement stored in a storage device and an articulation / acoustic mapping coefficient for associating an articulation parameter vector with a speech parameter vector is input. A method of adapting to a speaker voice signal,
Analyzing the input speaker voice signal for each frame to generate an input voice parameter vector sequence;
A procedure for generating each of the articulatory parameter vector sequences and the respective average vectors of the speech parameter vectors using the respective articulatory / acoustic mapping coefficients for each of the above sound generation models,
A step of relating the average vector sequence of the input voice parameter vector sequence (hereinafter referred to as the input voice average vector) and the sequence of the average vector so as to maximize the output probability of the input voice parameter vector sequence;
Applying the relation to each of the articulatory / acoustic mapping coefficients of each of the above-mentioned speech generation models, and adapting the above-mentioned speech generation model.
記憶装置に記憶された調音モデルと、調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号から適応化する方法であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する手順と、
上記音声生成モデルを用いて、上記入力音声パラメータベクトル系列に対する事後確率が最大となる調音パラメータベクトル系列を生成する手順と、
上記調音パラメータベクトル系列の出力確率が最大となるように上記調音パラメータベクトル系列の平均ベクトル系列と上記音声生成モデルの平均ベクトル系列とを関係づける手順と、
上記関係づけを上記音声生成モデルの平均ベクトルに与えて適応化する手順とを有することを特徴とする音声生成モデル話者適応化方法。
A method of adapting an articulatory model stored in a storage device and a speech generation model including articulatory / acoustic mapping coefficients from an input speaker audio signal,
Analyzing the input speaker voice signal for each frame to generate an input voice parameter vector sequence;
A procedure for generating an articulation parameter vector sequence having a maximum posterior probability for the input speech parameter vector sequence using the speech generation model;
A procedure for relating the average vector sequence of the articulation parameter vector sequence and the average vector sequence of the speech generation model such that the output probability of the articulation parameter vector sequence is maximized,
Applying the association to the average vector of the speech generation model and adapting the average vector.
上記各音声生成モデルの各調音・音響マッピング係数を用いて上記調音パラメータベクトル系列と対応する音声パラメータベクトル系列を生成する手順と、
その生成した音声パラメータベクトル系列と上記入力音声パラメータベクトル系列とを、その入力音声パラメータベクトル系列の出力確率を最大化するように関係づける手順と、
その関係づけを上記音声生成モデルの調音・音響マッピング係数に与えて適応化する手順と
を有することを特徴とする請求項2記載の音声生成モデル話者適応化方法。
A procedure for generating a speech parameter vector sequence corresponding to the articulation parameter vector sequence using each articulation / acoustic mapping coefficient of each speech generation model,
A step of relating the generated voice parameter vector sequence and the input voice parameter vector sequence to maximize the output probability of the input voice parameter vector sequence;
3. A method according to claim 2, further comprising the step of giving the association to the articulation / acoustic mapping coefficients of the speech generation model and adapting them.
上記調音パラメータベクトル系列を生成する手順は、
上記各音声生成モデルについて、その各調音・音響マッピング係数を用いて、上記調音パラメータベクトル系列と対応する音声パラメータベクトルの各平均ベクトルを生成する手順と、
上記入力音声パラメータベクトル系列の出力確率を最大化するように上記平均ベクトルを適応化する手順と、
上記入力音声パラメータベクトルの出力確率を最大化する上記平均ベクトルの系列を生成する手順と、
上記平均ベクトルの系列に対して入力音声パラメータベクトル系列に対する事後確率が最大となる上記調音パラメータベクトル系列を生成する手順とを有することを特徴とする請求項2又は3記載の音声生成モデル話者適応化方法。
The procedure for generating the articulation parameter vector sequence includes:
For each of the speech generation models, using each of the articulation and acoustic mapping coefficients, a step of generating each average vector of the speech parameter vector corresponding to the articulation parameter vector sequence,
Adapting the average vector to maximize the output probability of the input speech parameter vector sequence,
Generating a sequence of the average vector that maximizes the output probability of the input speech parameter vector;
Generating the articulation parameter vector sequence that maximizes the posterior probability for the input speech parameter vector sequence with respect to the average vector sequence. Method.
記憶装置に記憶された調音運動を表現する確率的な動的モデル(以下調音モデルと書く)と、調音パラメータベクトルと音声パラメータベクトルとを関連付ける調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号に適応化する装置であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する音声パラメータベクトル生成部と、
上記各音声生成モデルの各調音・音響マッピング係数を入力して音声パラメータベクトルの各平均ベクトルをそれぞれ生成する平均ベクトル生成部と、
上記入力音声パラメータベクトル系列の平均ベクトル系列(以下入力音声平均ベクトル)と上記各平均ベクトルとを入力して、これらを、上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける音声関係係数を計算する音声関係係数計算部と、
上記音声関係係数と各音声生成モデルの各調音・音響マッピング係数とをそれぞれ乗算して適応化された調音・音響マッピング係数を出力する適応化部と
を具備することを特徴とする音声生成モデル話者適応化装置。
A speech generation model including a probabilistic dynamic model (hereinafter, referred to as an articulation model) representing articulation movement stored in a storage device and an articulation / acoustic mapping coefficient for associating an articulation parameter vector with a speech parameter vector is input. A device adapted to a speaker voice signal,
A speech parameter vector generation unit that performs spectrum analysis of the input speaker speech signal for each frame and generates an input speech parameter vector sequence;
An average vector generation unit that inputs each articulatory / acoustic mapping coefficient of each of the audio generation models and generates an average vector of the audio parameter vector,
A speech relation that inputs an average vector sequence of the input speech parameter vector sequence (hereinafter referred to as an input speech average vector) and the respective average vectors and relates them so as to maximize the output probability of the input speech parameter vector sequence. A voice-related coefficient calculator for calculating a coefficient,
An audio adaptation unit for multiplying each of the audio relation coefficients and each articulation / acoustic mapping coefficient of each audio production model and outputting an adapted articulation / acoustic mapping coefficient. Person adaptation device.
記憶装置に記憶された調音モデルと、調音・音響マッピング係数とを含む音声生成モデルを、入力話者音声信号から適応化する装置であって、
入力話者音声信号をフレームごとにスペクトル分析して、入力音声パラメータベクトル系列を生成する音声パラメータベクトル生成部と、
上記音声生成モデルと、上記入力音声パラメータベクトル系列を入力して、その入力音声パラメータベクトル系列に対する事後確率が最大となる調音パラメータベクトル系列を生成する調音パラメータベクトル生成部と、
上記調音パラメータベクトル系列と各音声生成ベクトルの各調音平均ベクトルを入力してこれらを、上記調音パラメータベクトル系列の出力確率が最大となるように上記関係づける平均関係係数を計算する平均関係係数計算部と、
上記平均関係係数と上記各音声生成モデルの各調音平均ベクトルとをそれぞれ乗算して適応化された調音平均ベクトルを生成する平均ベクトル適応化部と
を具備することを特徴とする音声生成モデル話者適応化装置。
An articulation model stored in a storage device, a device for adapting a speech generation model including articulation and acoustic mapping coefficients from an input speaker speech signal,
A speech parameter vector generation unit that performs spectrum analysis of the input speaker speech signal for each frame and generates an input speech parameter vector sequence;
The speech generation model, the input speech parameter vector sequence, input, the posterior probability for the input speech parameter vector sequence, the articulation parameter vector generation unit that generates an articulation parameter vector sequence that maximizes,
An average relation coefficient calculation unit for inputting the articulation parameter vector series and each articulation average vector of each sound generation vector and calculating an average relation coefficient for relating the articulation parameter vector series so that the output probability of the articulation parameter vector series is maximized; When,
A voice generation model speaker comprising: an average vector adaptation unit configured to generate an adapted articulation average vector by multiplying each of the average relation coefficients and each of the articulation average vectors of each of the speech generation models. Adaptation device.
上記各音声生成モデルの各調音・音響マッピング係数と上記調音パラメータベクトル系列を入力して対応する音声パラメータベクトル系列を生成する音声ベクトル生成部と、
上記生成した音声パラメータベクトル系列と上記入力音声パラメータベクトル系列とを入力して、これらを、その入力音声パラメータベクトル系列の出力確率を最大化するように関係づけるマッピング関係係数を計算するマッピング関係係数計算部と、
上記マッピング関係係数と上記各音声生成モデルの各調音・音響マッピング係数をそれぞれ乗算して適応化された調音・音響マッピング係数を生成するマッピング適応化部と
を具備することを特徴とする請求項6記載の音声生成モデル話者適応化装置。
A speech vector generation unit that receives each of the articulation / acoustic mapping coefficients of the speech generation models and the articulation parameter vector sequence and generates a corresponding speech parameter vector sequence;
A mapping relation coefficient calculation for inputting the generated speech parameter vector series and the input speech parameter vector series, and calculating a mapping relation coefficient for relating the input speech parameter vector series to maximize the output probability thereof. Department and
7. A mapping adaptation unit for multiplying each of the mapping relation coefficients and each of the articulation and acoustic mapping coefficients of each of the speech generation models to generate an adapted articulation and acoustic mapping coefficient. The described speech generation model speaker adaptation device.
上記調音パラメータベクトル生成部は、
上記各音声生成モデルの各調音・音響マッピング係数と各調音平均ベクトルとを入力して、音声パラメータベクトルの各平均ベクトルをそれぞれ生成する音声平均ベクトル生成部と、
上記入力音声パラメータベクトル系列と上記各音声平均ベクトルを入力して、これらを上記入力音声パラメータベクトル系列の出力確率を最大化するように関係づける音声関係係数を計算する音声関係係数計算部と、
上記音声関係係数と上記各音声平均ベクトルとを乗算して適応化音声平均ベクトルを生成する音声適応化部と、
上記入力音声パラメータベクトル系列の出力確率を最大化する上記適応化音声平均ベクトルの系列を生成する音声平均ベクトル系列生成部と、
上記適応化音声平均ベクトル系列に対して上記入力音声パラメータベクトル系列に対する事後確率が最大となる上記調音パラメータベクトル系列を生成するパラメータ系列生成部とを有する
ことを特徴とする請求項6又は7記載の音声生成モデル話者適応化装置。
The articulatory parameter vector generator,
A speech average vector generation unit that inputs each articulatory / acoustic mapping coefficient and each articulation average vector of each of the above speech generation models, and generates each average vector of the speech parameter vector,
A voice-related coefficient calculating unit that receives the input voice parameter vector sequence and each of the voice average vectors, and calculates a voice-related coefficient that relates these to maximize the output probability of the input voice parameter vector sequence;
A voice adaptation unit that generates an adapted voice average vector by multiplying the voice relation coefficient and each of the voice average vectors,
A speech average vector sequence generation unit that generates the sequence of the adapted speech average vector that maximizes the output probability of the input speech parameter vector sequence,
8. The parameter sequence generator according to claim 6, further comprising: a parameter sequence generator configured to generate the articulation parameter vector sequence having a maximum posterior probability with respect to the input audio parameter vector sequence with respect to the adaptive audio average vector sequence. 9. Speech generation model speaker adaptation device.
請求項1〜4の何れかに記載した音声生成モデル話者適応化方法の各手順をコンピュータに実行させるためのプログラム。A program for causing a computer to execute each procedure of the speech generation model speaker adaptation method according to claim 1. 請求項9に記載したプログラムを記録したコンピュータ読み取り可能な記録媒体。A computer-readable recording medium recording the program according to claim 9.
JP2003066847A 2003-03-12 2003-03-12 Speech generation model speaker adaptation method, apparatus thereof, program thereof and recording medium thereof Expired - Fee Related JP4230254B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003066847A JP4230254B2 (en) 2003-03-12 2003-03-12 Speech generation model speaker adaptation method, apparatus thereof, program thereof and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003066847A JP4230254B2 (en) 2003-03-12 2003-03-12 Speech generation model speaker adaptation method, apparatus thereof, program thereof and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2004279454A true JP2004279454A (en) 2004-10-07
JP4230254B2 JP4230254B2 (en) 2009-02-25

Family

ID=33284630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003066847A Expired - Fee Related JP4230254B2 (en) 2003-03-12 2003-03-12 Speech generation model speaker adaptation method, apparatus thereof, program thereof and recording medium thereof

Country Status (1)

Country Link
JP (1) JP4230254B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701452A (en) * 2016-02-02 2018-10-23 日本电信电话株式会社 Audio model learning method, audio recognition method, audio model learning device, speech recognition equipment, audio model learning program and speech recognition program
CN111402922A (en) * 2020-03-06 2020-07-10 武汉轻工大学 Audio signal classification method, device, equipment and storage medium based on small samples
CN111883117A (en) * 2020-07-03 2020-11-03 北京声智科技有限公司 Voice wake-up method and device

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009075692A2 (en) 2007-05-14 2009-06-18 Invista Technologies S.A.R.L. High efficiency reactor and process

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701452A (en) * 2016-02-02 2018-10-23 日本电信电话株式会社 Audio model learning method, audio recognition method, audio model learning device, speech recognition equipment, audio model learning program and speech recognition program
CN108701452B (en) * 2016-02-02 2023-09-26 日本电信电话株式会社 Audio model learning method, speech recognition method, audio model learning device, speech recognition device, and recording medium
CN111402922A (en) * 2020-03-06 2020-07-10 武汉轻工大学 Audio signal classification method, device, equipment and storage medium based on small samples
CN111883117A (en) * 2020-07-03 2020-11-03 北京声智科技有限公司 Voice wake-up method and device
CN111883117B (en) * 2020-07-03 2024-04-16 北京声智科技有限公司 Voice wake-up method and device

Also Published As

Publication number Publication date
JP4230254B2 (en) 2009-02-25

Similar Documents

Publication Publication Date Title
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
Zen et al. Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis
Sun et al. Voice conversion using deep bidirectional long short-term memory based recurrent neural networks
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
JP2543148B2 (en) A device for learning a voice recognition device
US9099082B2 (en) Apparatus for correcting error in speech recognition
CN107615376B (en) Voice recognition device and computer program recording medium
US6006186A (en) Method and apparatus for a parameter sharing speech recognition system
JPH11327592A (en) Speaker normalizing processor and voice recognition device
JP2007047818A (en) Method and apparatus for speech recognition using optimized partial mixture tying of probability
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Henter et al. Gaussian process dynamical models for nonparametric speech representation and synthesis
CN113744755A (en) Device and method for generating voice animation from audio signal
Stuttle A Gaussian mixture model spectral representation for speech recognition
Mitra et al. Articulatory trajectories for large-vocabulary speech recognition
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Hueber et al. Speaker adaptation of an acoustic-to-articulatory inversion model using cascaded Gaussian mixture regressions
Ramos Voice conversion with deep learning
JP5474713B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
JP4230254B2 (en) Speech generation model speaker adaptation method, apparatus thereof, program thereof and recording medium thereof
Ong et al. Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN)
JP4779239B2 (en) Acoustic model learning apparatus, acoustic model learning method, and program thereof
Wei et al. Predicting articulatory movement from text using deep architecture with stacked bottleneck features
JP4226831B2 (en) Voice analysis method and apparatus, voice analysis program and recording medium therefor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050303

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121212

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees