JP4891806B2 - 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 - Google Patents

適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 Download PDF

Info

Publication number
JP4891806B2
JP4891806B2 JP2007046632A JP2007046632A JP4891806B2 JP 4891806 B2 JP4891806 B2 JP 4891806B2 JP 2007046632 A JP2007046632 A JP 2007046632A JP 2007046632 A JP2007046632 A JP 2007046632A JP 4891806 B2 JP4891806 B2 JP 4891806B2
Authority
JP
Japan
Prior art keywords
affine transformation
vector
model
fine
course
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007046632A
Other languages
English (en)
Other versions
JP2008209698A (ja
Inventor
晋治 渡部
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007046632A priority Critical patent/JP4891806B2/ja
Publication of JP2008209698A publication Critical patent/JP2008209698A/ja
Application granted granted Critical
Publication of JP4891806B2 publication Critical patent/JP4891806B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、少量の学習用データから適応モデルパラメータを推定する適応モデル学習方法とその装置、及びその適応モデル学習方法を用いた音声認識用音響モデル作成方法とその装置、及びその音声認識用音響モデル作成方法により作成された音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムを記憶する記憶媒体に関する。
適応モデル学習方法は、例えば音声認識や画像処理等の信号処理分野で広く用いられている。ヒューマンインターフェースにおいて大きく期待される分野である音声認識装置を一例に上げて、従来の適応モデル学習方法について簡単に説明する。
音声認識装置は一般に図10に示す様に、音響モデル学習装置400と音声認識処理部500とを備えて構成される。音響モデル学習装置400は、学習用音声データを特徴量ベクトルに変換する特徴量ベクトル変換部402と、適応モデル学習方法を用いた音響モデル作成部404と、音響モデル記憶部406とによって構成され、学習用音声データに従って音響モデルを作成し、音響モデル記憶部406に学習により作成した音響モデルを記録する。
音声認識処理部500は、被認識音声データを特徴量ベクトル変換部502で特徴量ベクトルに変換し、音声認識部504で音響モデル記憶部406に記録された音響モデルと、言語モデル記録部506に記録した言語モデル及び発話辞書508に記録した辞書を参照して、被認識音声データの認識結果を例えばテキストデータの形式で出力する。
ここで音響モデルの作成方法について説明する。音響モデルは、音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は、音声認識装置の性能を大きく左右する。通常音声認識用音響モデルは、各音素をLeft to rightの隠れマルコフモデル(Hidden Markov Model:HMMと称す)であり、HMM状態の出力確率分布を混合ガウス分布モデル(Gaussian Mixture Model:GMMと称す)で表現する。これを連続密度分布HMM(Continous Density HMM)と呼ぶ。そのため、実際に音響モデルとして記憶部に記録されているのは、音素などの各シンボルにおけるHMMの状態遷移確率a、GMMの混合重み因子w、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣとなる。これらをモデルパラメータと呼びその集合をθとする。つまり、θ={a,w,μ,Σ}とする。このモデルパラメータθの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。つまり、これを音声に限らず一般化した呼称が、適応モデル学習方法である。以降においても音声認識を一例として説明を行う。
近年、音響モデルは確率統計的手法により大量の音声データとそのラベル情報から、モデルパラメータθを学習することにより作成される。通常、学習データに対しては、その何れの部分が何れの音素であるかを示すラベル情報が与えられている。ラベル情報が与えられていない場合は、実際に人が音を聞いてラベルを付けたり、また音声認識装置を用いることによりラベル情報を付与する。以降では学習用音声データにはラベル情報が付与されているものとし、ラベル情報の付与についての説明は省略する。ラベル情報により得られる学習データ中の各音素に対応するデータから、モデルパラメータθを推定することをモデルパラメータの学習と呼ぶ。
モデルパラメータを学習する手法としては最尤学習法がある。音響モデルパラメータは数百万の自由度を持つため、これらを学習するためには数百時間に及ぶ大量の学習用音声データが必要になる。しかし、事前に話者、雑音、発話スタイルといった全ての音響的変動要因を含む音声データを大量に収集するのは不可能である。そこで、少量の学習用音声データから音響モデルパラメータを推定する手法として、適応モデル学習が非常に重要な技術となる。
近年の適応モデル学習において最も頻繁に用いられる手法は、アフィン変換パラメータの学習アプローチであり、それは例えば非特許文献1に開示されている。その適応モデル学習方法について簡単に説明する。
初期音響モデル中のあるガウス分布gの平均ベクトルパラメータμg iniに注目する。またt番目の適応データのD次元特徴量ベクトルをo∈R、その集合をo={o,…,o,…,o}とする。このとき、適応後データの平均ベクトルパラメータμg adaへの変換を、前もって母集団の分布型を仮定して行い、その変換パラメータoから推定することによる実現方法を考えることができる。この変換として、広く式(1)に示すアフィン変換が用いられている。
Figure 0004891806
ここで、Aは回転伸縮を表わすD×Dの線形変換行列であり、bは平行移動を表わすD次元のベクトルである。また一般的に式(1)は線形である方が解析的な扱いが容易である。
Figure 0004891806
そこで、式(2)と(3)を導入することで適応後データの平均ベクトルパラメータμg adaを線形化する。
Figure 0004891806
このとき推定すべきパラメータWは、D×(D+1)の行列であり、これをアフィン変換パラメータWと呼ぶ。また、ξg iniは同次ベクトルである。
一般にアフィン変換パラメータWのパラメータ数は、D=40〜50(D×(D+1)=2000〜2500)と多いので、少量の適応データoで過学習を起こすことなく推定するために、多数のガウス分布間で同じアフィン変換パラメータWを共有する方法が取られる。つまり式(5)である。
Figure 0004891806
ここでL(g)は分布gを含む共有ガウス分布クラスであり、AL(g),bL(g),WL(g)は、そのガウス分布間で同一の変換パラメータが共有されることを表わす。従って、Lに含まれる全てのガウス分布は、図11に示す様に、複数の平均ベクトルμg=4 ini,μg=5 ini,μg=6 ini,μg=7 iniに対して同一の回転伸縮Aと平行移動bによるアフィン変換で変換される。
このとき、共有ガウス分布クラスは、ガウス分布集合が各ノードに割り当てられる木構造として表現される。その木構造は音声学的知見やガウス分布間距離尺度を用いて構築される。このとき、クラスは木の深さやリーフノードの数、ノードに割り当てられるデータ量などを閾値として設定される。
この共有ガウス分布クラスにおけるアフィン変換パラメータWL(g)は、最尤(Maximum Likelihood)推定や事後確率最大化(Maximum A Posteriori)推定の枠組みで推定することができる。
音声認識の音響モデルで標準的に用いられる連続密度分布HMM(Continous Density HMM)では、HMMやGMMに潜在変数が存在するため、その推定は一般に困難であるが、例えば期待値最大化法(EMアルゴリズムとも称す)によって効率よく推定することができる。
EMアルゴリズムによって推定したアフィン変換パラメータ^Wを用いて適応後のモデルパラメータμg adaを式(6)で求める。なお、文中の^Wは数式中のWの上に^を付したものと同一である。以降に示す他の変数及び記号についても同じである。
Figure 0004891806
次に本願出願人が他の適応モデル学習方法として特許文献1と非特許文献2に開示した方法を説明する。この方法は、平行移動ベクトルを方向ベクトルとスケーリングファクタとに分解し、方向ベクトルをコースクラスのパラメータ推定における学習により求め、スケーリングファクタをファインクラスのパラメータ推定における学習により求める音声認識用音響モデル作成方法である。つまり式(7)である。
Figure 0004891806
ここでρf(g)δc(g)は平行移動パラメータであり、方向ベクトルδとスケーリング因子ρとに分解されている。スケーリング因子ρのパラメータ数は1であり、特徴量の次元数分ある方向ベクトルδのパラメータ数に比べて非常に小さい。そこで、移動ベクトルの推定に際し、方向ベクトルの推定においては共有ガウス分布クラスに割り当てられた十分多い適応データを用いたコースクラスパラメータ推定で求め、スケーリング因子の推定においては少量の適応データを用いたファインクラスパラメータ推定で求める。このように方向ベクトルとスケーリング因子とを個別に求めても、コースクラスとファインクラスの両クラスにおけるパラメータ推定を内包することができる。このコース/ファインクラスの設定は上記と同様にガウス分布の木構造を用意してコースクラス用とファインクラス用の2種類の閾値を与えればよい。コース/ファインクラスの設定と閾値については、詳しくは後述する。
コース/ファインクラスにおける平行移動パラメータρf(g),δc(g)は、最尤推定や事後確率最大化推定の枠組みで推定することができる。また、期待値最大化法によって効率よく推定できる点も上記したアフィン変換パラメータの推定と同じである。
EMアルゴリズムによって推定した平行移動パラメータ^ρ,^δを用いて適応後データの平均ベクトルパラメータμg adaを式(8)で求める。
Figure 0004891806
公開特許公報2006−53431号 C.J.Leggetter and P.C. Woodland. Maximum likelihood linear regression for speaker adaptation of contininuous density hidden Markov models. Computer Speech and Language,Vol.9,pp.171-185,1995. 渡部晋治、中村篤、「方向統計を用いた移動ベクトルのコース/ファイン学習に基づく音響モデル適応」春季音響学会講演論文集、1-11-24,69-70頁,2006
しかしながら、従来のアフィン変換パラメータを用いた適応モデル学習方法では、ガウス分布gを共有しているために分解能が低く、学習データ量に応じた細かな適応に適していない。つまり、図11に示したように複数の平均ベクトルμg iniが一様に変換されてしまう課題がある。また、平行移動ベクトルにコース/ファイン学習方法を適用した従来の方法は、学習データ量に応じた微細な適応を可能とするが、平均ベクトルパラメータの変換にとって重要な要素である回転伸縮(式(1)における行列A)が考慮されない課題がある。
このように適応後のモデルパラメータを微細に推定する適応モデル学習方法がなかった。
この発明は、このような問題点に鑑みてなされたものであり、従来のアフィン変換パラメータの推定方法に、コース/ファイン学習の概念を導入した新しい適応モデル学習方法とその装置、その適応モデル学習方法を用いた音声認識用音響モデル作成方法とその装置、及びその音響モデルを用いた音声認識装置、及びその音声認識用音響モデルを用いた音声認識方法、及びそれら装置のプログラムと、それらのプログラムを記憶する記憶媒体を提供することを目的とする。
この発明による適応モデル学習装置は、初期モデル記憶部と特徴量ベクトル変換部と、コース/ファインクラス設定部と、アフィン変換パラメータ学習部と、モデルパラメータ
変換部とを具備する。
初期モデル記憶部は、混合ガウス分布から成る初期モデルを記憶し、特徴量ベクトル変換部が学習データを特徴量ベクトルに変換する。
コース/ファインクラス設定部は、混合ガウス分布中の各ガウス分布のアフィン変換パ
ラメータを線形変換行列と平行移動ベクトルとに分解し、線形変換行列を複数のガウス分布内で同一のものを用いることにより粗いコースクラスcで設定し、平行移動ベクトルをコースクラスc内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスfで設定して上記ガウス分布のアフィン変換パラメータをコース/ファ
イン表現する。
アフィン変換パラメータ学習部は、初期モデル記憶部から取得した初期モデルと、上記特徴量ベクトル変換部から取得した特徴量ベクトルと、上記コース/ファインクラス設定
部から取得した上記アフィン変換パラメータとから、アフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定する。
モデルパラメータ変換部は、アフィン変換パラメータの推定値から初期モデルを変換した適応モデルを生成する。
そして、コース/ファインクラス設定部は、初期モデルを階層分類するガウス分布階層分類手段と、アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、一般化された同次ベクトルを生成する同次ベクトル生成部と、を備え、アフィン変換パラメータ生成部は、コースクラスc内で同一の線形変換行列A とコースクラスcに属しファインクラスfを含むF個のファインクラス内の平行移動ベクトルb ,…,b ,…,b とを、まとめて一つの行列で表わしたアフィン変換パラメータW ≡(b ,…,b ,…,b ,A )として生成するものであり、同次ベクトル生成部は、上記ファインクラスfに属するガウス分布gの平均ベクトルμ ini と、ガウス分布gがファインクラスfに属することを表わす0若しくは1で表現される部分ベクトルとから成る一般化された同次ベクトル(ξ cfg ini )´≡(0 … 0 1 0 … 0 (μ g ini )´)を生成するものであり、コース/ファインクラス設定部は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータW と上記一般化された同次ベクトル(ξ cfg ini )´との積で線形表現するものである。
また、この発明による音声認識用音響モデル作成装置は、上記した適応モデル学習装置の初期モデル記憶部に記憶される初期モデルを初期音響モデルとし、学習データを学習用音声データにしたものである。
更に、この発明による音声認識装置は、音声認識用音響モデル作成装置を用いて、被認識音声データを特徴量ベクトルに変換する特徴量ベクトル変換部と、その特徴量ベクトルと音声認識用音響モデル作成装置が作成した音響モデルとから被認識音声データを音声認識する音声認識部とを具備する。
この発明による適応モデル学習装置によれば、モデルパラメータを微細に推定した適応モデルを生成することができる。また、この発明による音声認識用音響モデル作成装置によれば、少量の学習用音声データから正確な音響モデルを推定することができる。また、この発明による音声認識装置によれば、音声の認識率を向上させることができる。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
この発明の適応モデル学習装置100の機能構成例を図1に、その動作フローを図2示す。実施例1の適応モデル学習装置100は、混合ガウス分布から成る初期モデルを記憶した初期モデル記憶部10と、学習データを特徴量ベクトルに変換する特徴量ベクトル変換部12と、コース/ファインクラス設定部14と、アフィン変換パラメータ学習部16と、モデルパラメータ変換部18とから構成される。この実施例1では、適応モデルμg adaが、適応モデル学習部100内に設けられたモデル記憶部19に記憶される。
特徴量ベクトル変換部12は、学習データを特徴量ベクトルに変換する(ステップS12)。コース/ファインクラス設定部14は、初期モデル記憶部10に記憶された複数の初期モデルの各ガウス分布のアフィン変換パラメータを線形変換行列と平均移動ベクトルとに分解し、線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスcで設定し、平行移動ベクトルをコースクラスc内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスfで設定し、上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現する(ステップS14)。アフィン変換パラメータ学習部16は、初期モデルと特徴量ベクトルとアフィン変換パラメータWと一般化された同次ベクトルξcfg iniとからアフィン変換パラメータの推定値W MLを潜在モデルに対する統計的学習法によって推定する(ステップS16)。アフィン変換パラメータWと一般化された同次ベクトルξcfg iniについて、詳しくは後述する。モデルパラメータ変換部18は、アフィン変換パラメータの推定値W MLと一般化された同次ベクトル(ξcfg ini)´とから上記初期モデルを変換した適応モデルμg ada=W MLξcfg iniを生成する(ステップS18)。
〔この発明の概念〕
この発明の要部は、コース/ファインクラス設定部14である。ここで、初期モデル記憶部10に記憶されている混合ガウス分布の各ガウス分布のアフィン変換パラメータを式(9)に示すように、線形変換行列Ac(g)と平行移動ベクトルbf(g)とに分解するところにこの発明の特徴がある。
コース/ファインクラス設定部14は、ガウス分布階層分類手段141とアフィン変換パラメータ生成部142と同次ベクトル生成部143とで構成される。ガウス分布階層分類部141aは、混合ガウス分布の階層的な分類を行う。アフィン変換パラメータ生成部142は、各ガウス分布のアフィン変換パラメータを平均移動ベクトルと線形変換行列とに分解し、コース/ファイン表現したアフィン変換パラメータWを生成する。同次ベクトル生成部143は、部分ベクトルと平均ベクトルとから成る一般化された同次ベクトルξcfg iniを生成する。
アフィン変換パラメータのコース/ファイン表現を式(9)に示し、コース/ファインクラス設定部14の動作を説明する。
Figure 0004891806
以降においては、簡単のためc(g),f(g)をc,fとして説明を行う。式(9)において、平行移動ベクトルbfを共有するガウス分布集合は、線形変換行列Aを共有するガウス分布集合の部分集合とする。このような内包関係を効率よく表現するために、予め音響モデル中の全ガウス分布を階層的に分類する必要がある。
ガウス分布集合を階層的に分類する手法としては、分布間距離(平均のユークリッド距離やマハラノビス距離)を用いたk-meansアルゴリズムがよく知られている。また、音響モデルは単語、音素、環境依存音素、HMM状態といった階層性を持つため、そのような音素の階層性を元に階層的に分類することができる。
以上の手法を用いることにより、図3に示すように最上位のルートノード(root node)に全ガウス分布集合が属し、それよりも下位の各ノードにはそれ以下に属するガウス分布の部分集合で表わされる階層表現された木構造で表現することができる。図3では簡単のため、分岐が常に2つである2分木で8個のガウス分布を階層的に表現している。
この階層的表現の上位ノードに属するガウス分布集合をコースクラスとし、それよりも下位のノードに属するガウス分布集合をファインクラスとして、コースクラスで線形変換行列を、ファインクラスで平行移動ベクトルを共有することにより、コース/ファインクラスを設定することができる。
この上位ノードと下位ノードは例えば2種類の閾値を与えることにより設定できる。各ノードは、木の深さや、属するガウス分布の数を情報として持っている。そこで、例えばそれらを2種類の閾値として予め与えることによりコース/ファインクラスを設定することができる。図4では2種類の深さを閾値として、その浅い方をコースクラス、深い方をファインクラスとしている。
図4において、c=1のコースクラスは、f=1及びf=2の2つのファインクラスを含んでいるのが分かる。g=1のガウス分布に注目すると、それはf=1のファインクラスに属しており、それはさらにc=1のコースクラスに属しているのが分かる。つまり、c=1のコースクラスはf=1及びf=2の2つのファインクラスを内包している。
以上のような階層表現を予め用意した上で、コース/ファイン表現されたアフィン変換パラメータWを生成する。ここで従来法のアフィン変換パラメータの推定アプローチと同様に式(9)を線形に表現する必要がある。しかし、式(9)は式(1)と異なり、A及びbが、違うクラスc及びfに属するため、式(2)の表現を用いた線形化は不可能である。そこで、アフィン変換パラメータWと同次ベクトルξcfgを次のように定義する。
Figure 0004891806
ここで、b…b…bFは、コースクラスcに属する複数のファインクラス中の平行移動ベクトルパラメータである。Fはコースクラスcに含まれるファインクラスの数を表わす。これらのベクトルは、上記した階層表現を用いて与えることができる。
Figure 0004891806
ここで、ξcfg iniの内、μg iniより上の要素は、F個の0若しくは1で表現される部分ベクトルであり、もしガウス分布gがf番目のファインクラスに含まれる場合、部分ベクトルのf番目の要素が1となり、他の要素は0となる。ここで、1は0以外の数値であれば何でもよい。この部分ベクトルは、コース/ファインクラスの階層表現を表わしている。このξcfg iniを一般化された同次ベクトルと称する。このアフィン変換パラメータ行列と一般化された同次ベクトルは、アフィン変換パラメータ行列の列ベクトルと同次ベクトルの要素の対応が取れれば、その順番が入れ替わっても転置されてもよい。
図4に示したg=1のガウス分布の一般化された同次ベクトルの部分ベクトルは(1,0)´となる。ここで´は転置を表わす。この部分ベクトルは、ガウス分布gがあるコースクラス中のどのファインクラスに含まれるかをビットマップで表現したものだといえる。つまり、g=1のガウス分布のアフィン変換パラメータWc=1は、Wc=1=(bf=1,bf=2,Ac=1)、一般化された同次ベクトルξ111 iniは、(ξ111 ini)´=(1,0,(μ1 ini)´)となる。同様に図4のg=2〜g=5のガウス分布のアフィン変換パラメータW及び一般化された同次ベクトルξcfg iniは、次のようになる。これらのアフィン変換パラメータWは、アフィン変換パラメータ生成部142で生成される。一般化された同次ベクトルξcfg iniは、同次ベクトル生成部143で生成される(ステップS14、図2)。
g=2:Wc=1=(bf=1,bf=2,Ac=1),(ξ112 ini)´=(1,0,(μ ini)´)
g=3:Wc=1=(bf=1,bf=2,Ac=1),(ξ123 ini)´=(0,1,(μ ini)´)
g=4:Wc=1=(bf=1,bf=2,Ac=1),(ξ124 ini)´=(0,1,(μ ini)´)
g=5:Wc=1=(bf=1,bf=2,Ac=1),(ξ125 ini)´=(0,1,(μ ini)´)
以上のように表現されるので、もしコースクラス中のファインクラスの要素数が1、つまりコース/ファイン表現ではなく式(5)のような通常の共有表現の場合、一般化された同次ベクトルξcfg iniは、式(3)で定義された同次ベクトルξg iniと一致する。従って、式(11)は、従来法を拡張した表現とみなすことができる。
これらの表現を用いると式(9)は、次のように線形の方程式として書き直すことができる。
Figure 0004891806
この線形表現に基づいて、コース/ファイン表現されたアフィン変換パラメータの推定を行う。
なお、ガウス分布階層分類手段141が分類された階層構造が固定であれば、アフィン変換パラメータWと、一般化された同次ベクトルξcfg iniは、それぞれの生成部に予め固定値として設定しておけばよい。アフィン変換パラメータWと一般化された同次ベクトルξcfg iniが適応的に変化する例は、実施例2で説明する。
〔期待値最大化法による最尤推定解〕
連続密度分布HMMは、HMMやGMMで構成されており、それらのモデルは潜在変数を含むため、そのようなモデルに対してのアフィン変換パラメータ推定法として、セグメンタルk-means法やMCMC(Markov Chain Monte Carlo)法、期待値最大化法などの潜在モデルに対する統計的学習法が有効である。この実施例では、計算量の問題や、連続密度分布HMMのモデルパラメータの推定アルゴリズムとの親和性から期待値最大化法に基づく推定法について説明を行う。
期待値最大化法には尤度最大化(最尤法)に基づくアルゴリズムや、MAP法、変分ベイズ法といったベイズ法に基づくアルゴリズムが存在する。それぞれ評価関数としては最尤法の場合は尤度、MAP法の場合は事前確率分布で補正のかかった尤度、また変分ベイズ法では周辺化対数尤度が用いられる。以下では最尤法に基づく期待値最大化法について説明を行う。最尤法に基づく期待値最大化法は、完全データの出力分布に対応して潜在変数の事後確率分布で期待値を取ることにより補助関数を求めるE-stepと、補助関数を最大にするパラメータを求めるM-stepとの2つの工程を評価関数が収束するまで繰り返すものである。
その動作フローを図5に示す。E-stepは、アフィン変換パラメータ学習部16で行われる(ステップS161)。E-stepの後にM-stepが、モデルパラメータ変換部18で行われる(ステップS181)。期待値最大化法ではM-stepで更新されたμg adaを用いて、再びE-stepに戻って統計量を計算しμg adaの更新を繰り返す。この繰り返しは、例えば所定回数の繰り返し、或いはE-stepで計算される尤度が収束した場合に停止させる(ステップS190)。更新が繰り返されたμg adaは適応モデルとしてモデル記憶部19に記憶される(ステップS200)。
E-step(ステップS161)とM-step(ステップS181)を順に説明する。
〔E-step〕
連続密度分布HMMにおいて、データoの出力に伴い、状態iから状態jへの遷移及び混合成分kが出力される際の完全データの出力確率分布は次のように表わされる。
Figure 0004891806
ここでaijは状態iから状態jに遷移する際の遷移確率、wjkは状態jにおける混合成分kでの重み因子、N(ot|μjk,Σjk)はガウス分布であり、平均ベクトルパラメータμjk,共分散行列Σjkを用いて次のように表現される。
Figure 0004891806
このように連続密度分布HMMのパラメータ集合θは、aij,wjk,μjk,Σjkの4種類のパラメータにより構成される。このとき、データ集合oに対する補助関数Qは次のように定義される。
Figure 0004891806
ここでp(zt={i,j,k}|oT,-θ)は、時間tにおいて、i,j,kが出力される際の占有事後確率である。ここで、平均ベクトルに注目するため式(13)〜(14)に対して次のような簡略表現を用いる。
Figure 0004891806
ここで、gは初期モデル中の全てのガウス分布に対しての指標である。このとき式(15)は次のように表わすことができる。
Figure 0004891806
ここで、推定対象μg adaに依存しない項は除いた。式(12)を式(17)に代入することにより、次のような補助関数を得ることができる。
Figure 0004891806
ここで推定対象Wに依存しない項は除いた。ζgとMgは次のように定義される。
Figure 0004891806
これらは連続密度分布HMMのガウス分布の平均を計算する際の十分統計量であり、フォワード・バックワードアルゴリズム若しくはビタービアルゴリズムで効率よく算出することができる。またその際、尤度p(o|θ)は、隠れ変数のあらゆる組み合わせに対する総和(Σall z)として式(20)で表現され、HMMの場合はフォワードアルゴリズム若しくはバックワードアルゴリズムの過程において効率よく算出される。
Figure 0004891806
〔M-step〕
式(18)の補助関数はWに関して2次形式である。従って、min-max法にもとづきWの最尤推定値を補助関数QをWに関して微分することにより得ることができる。つまり、
Figure 0004891806
この解析解は共分散行列Σg iniが対角行列のときに次のように得られる。
Figure 0004891806
式(23)は、それぞれアフィン変換パラメータのコースファイン学習における0次と1次の十分統計量である。式(22)を式(12)に代入することにより適応後のモデルパラメータμg adaを得る。
Figure 0004891806
期待値最大化法では、M-stepで更新されたμg adaを用いて、再びE-stepに戻って統計量を計算しμg adaの更新を繰り返す。この繰り返しは、例えば式(20)に示した尤度が、予め決めた所定の値ε(0.01〜0.001)よりも小さくなったときに停止させてもよい。例えば、|(前回のE-stepの尤度−今回のE-stepの尤度)/今回のE-stepの尤度|<εの条件になるまで繰り返す。
実施例1では、コース/ファインクラス設定部14におけるアフィン変換パラメータWと、一般化された同次ベクトルξcfg iniの設定は、それぞれ固定値として一回のみ設定される例で説明を行った。E-stepで計算される統計量を、コース/ファインクラス設定部に帰還させ、アフィン変換パラメータWと一般化された同次ベクトル(ξcfg ini)´とを再生成するようにしてもよい。その機能構成例を図1中に破線で示す。また、その動作フローを図6に示す。
期待値最大化法のE-stepにおいて、初期モデル記憶部10に記憶された各ガウス分布毎の0次から高次の統計量が計算される。
Figure 0004891806
ζは、各ガウス分布の0次の統計量であり、その分布に割り当てられた仮想的なデータ数を意味する。Mは、1次の統計量であり各分布のベクトル値を表わす。νは、2次の統計量でありその分布の偏りを表わす。
そしてこれらは占有確率ζgtで重み付けされた特徴量ベクトルoのべき乗の和である。従って、各ノードに属するガウス分布集合の全統計量は、ガウス分布集合中の統計量の和を取ることにより式(26)で表わせる。
Figure 0004891806
この統計量を利用すれば、適応的にコース/ファインクラスの再設定を行うことができる。例えば、E-stepで計算された統計量に対して2種類の閾値を予め用意して、全てのノードに対してその閾値が満たされるかの判定を行なえばよい。例えば、各ノードに割り当てられたデータ量に相当すると0次の統計量ζに対して、コースクラスに対しては1000、ファインクラスに対しては50という閾値を置くとする。このときコースクラスに対しては、ζ<1000であるノードは全て枝刈をし、最下部のリーフノードをコースクラスとすればよい。同様にζ<50であるノードを全て枝刈し、最下部のリーフノードをファインクラスとすることにより、コース/ファインクラスを設定することができる。
この閾値はζ以外の統計量に対して設定することも可能である。例えば、分布の偏りを表わす2次の統計量νを帰還させて、ガウス分布階層分類手段141内のポインタ設定部141bにおいて、ガウス分布の階層構造を再構成させてもよい。
このようなコース/ファインクラスの更新を伴う期待値最大化法の動作フローは図6のように表わせる。図5のコース/ファインクラスの更新を伴わない場合と比較して、一回目のE-step(ステップS161)の後に、E-stepで計算された統計量に基づいてコース/ファインクラスを再設定するステップS140と、再設定されたコース/ファインクラスを基に再びE-stepを処理するステップS161’が設けられている点が異なる。
このようにしてコース/ファインクラスの更新を行うと、適応モデル学習の収束が早くなる。また尤度を高くすることができる。この方法を例えば音声認識装置に応用すると音声認識率を向上させることができる。
〔音声認識用音響モデル作成装置〕
この発明の音声認識用音響モデル作成装置200の機能構成例を図7に示す。音声認識用音響モデル作成装置200は、図1に示した適応モデル作成装置100を音声認識用に対応させたものである。混合ガウス分布から成る初期音響モデルを記憶する初期音響モデル記憶部60と、適応モデル学習後の音響モデルを記憶する音響モデル記憶部62とが、図1と異なり、他の構成は同じである。
つまり、図1に示した適応モデル学習装置の初期モデルが初期音響モデルであり、学習データが学習用音声データであり、学習後の適応モデルが音響モデルである点が異なるだけである。その動作は説明済みのものと全く同じである。したがって、図7の動作説明は省略する。
〔音声認識装置〕
この発明の音声認識装置800の機能構成例を図8に示す。音声認識装置800は、従来の音声認識装置900の音響モデル学習装置400を、この発明の音声認識用音響モデル作成装置200に置き換えたものである。他の構成は、図10に示した音声認識装置800と同じである。
音声認識処理部500は、被認識音声データを特徴量ベクトル変換部502で特徴量ベクトルに変換し、音声認識部504でこの発明による音声認識用音響モデル作成装置200に記録された音響モデルと、言語モデル記録部506に記録した言語モデル及び発話辞書508に記録した辞書を参照して、被認識音声データの認識結果を例えばテキストデータの形式で出力する。
この発明による音声認識装置800によれば、音声認識率を向上させることができる。その向上の程度を検証したシミュレーション結果については後述する。
〔変形例〕
実施例1で説明した共分散行列Σg iniは対角行列である仮定が存在した。共分散行列が対角行列でない場合は、式(22)の段階で共分散行列の対角項の影響を無視する、又は式(21)を数値計算法により解く手法などがある。
そこで、対角行列の近似を用いることなく解析的にコース/ファイン学習を行うことができる変形例として、分散正規化された平均ベクトルに対するアフィン変換パラメータの線形表現について説明する。
LU分解法やCholesky分解法などの行列分解法を用いると、ガウス分布の共分散行列パラメータは、式(27)で表わせる。
Figure 0004891806
ここでU iniは上方三角行列である。この上方三角行列を用いて、平均ベクトルパラメータが分散正規化された場合のアフィン変換について考察する。そのコース/ファイン表現は、式(28)で表わせる。
Figure 0004891806
この場合も線形表現するために一般化された同次ベクトルξcfg iniを導入する。
Figure 0004891806
式(29)は式(11)のμ iniを、分散正規化表現U iniμ iniに置き換えたものである。このようにして、平均ベクトルを上記と同様に線形変換として表わすことができる。
Figure 0004891806
以降、上記説明と同様に期待値最大化法によりパラメータを推定する。
〔E-step〕
式(31)を式(17)に代入すると補助関数は次のように書ける。
Figure 0004891806
ここで推定対象Wに依存しない項は除いた。ζgとMgは式(19)で定義された連続密度分布HMMのガウス分布の平均を計算する際の十分統計量である。
〔M-step〕
式(32)の補助関数はWに関して2次形式である。従って、min-max法に基づきWの最尤推定値を補助関数QをWに関して微分することにより得ることができる。
Figure 0004891806
式(33)と異なり、共分散行列Σg iniが対角行列でなくても次のような解析解が存在する。
Figure 0004891806
式(35)はそれぞれ、分散正規化表現を用いた場合のアフィン変換パラメータのコース/ファイン学習における0次と1次の十分統計量である。
最後に式(34)を式(31)に代入することにより適応モデルが得られる。
Figure 0004891806
〔シミュレーション結果〕
従来の適応モデル学習方法と、この発明で提案した適応モデル学習方法の単語誤り率を比較したシミュレーション結果を図9に示す。横軸は発話数であり、縦軸は単語誤り率(%)である。単語誤り率は、分母が総単語数、分子が(置換誤り+削除誤り+挿入誤り)である。
シミュレーション条件:ASJ(日本音響学会)読み上げ音声データベースの男性話者44人分を用いてトライフォンHMMの総状態数1000、HMM状態当たりの混合数の不特定話者音響モデルを構築し、CSJ(日本語話し言葉コーパス)講演音声データベースの男性話者20人に対し、教師ラベルありの逐次対応を行った。
特徴量は、12次元MFCC(Mel Frequency Cepstral Coefficient)+Energy(パワースペクトル)+Δ(MFCC時系列の一次差分値)+ΔΔ(MFCC時系列の二次差分値)として、語彙サイズ3万語の3つ組確率(トライグラム)を用いて大語彙連続音声認識実験を行った(不特定話者音響モデルの単語誤り率は37.1%)。
比較として従来のアフィン変換パラメータ推定(MLLR:Maximum Likelihood Linear Regression)及び平行移動ベクトルのコース/ファイン学習(CFT-bias:Coarse Fine Training)の特性も図9に示す。この発明の方法(CFT-LR: Coarse Fine Training- Linear Regression)は、従来法と比較してMLLRとは最大で1%、CFT-biasとは最大で2%上回っており、全適応データ領域において従来法よりも誤り率が小さい。これは、従来のアフィン変換パラメータの推定方法に、コース/ファイン学習の概念を導入したこの発明の新しい適応モデル学習方法の効果の現れであるといえる。
なお、この適応モデル学習法の応用例として音声認識技術についてのみ説明を行ったが、この発明による適応モデル学習法の応用としては、この例に限定されない。例えば、画像処理にこの発明の適応モデル学習法が、容易に適用できることはいうまでもない。
また、以上の各実施例の他、この発明である各装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記各装置における処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記憶しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記憶媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記憶したDVD、CD−ROM等の可搬型記憶媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、この形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の適応モデル学習装置100の機能構成例を示す図。 図1の適応モデル学習装置の動作フローを示す図。 2分木を用いたガウス分布集合の階層的表現を示す図。 2種類の閾値を用いたコース/ファインクラスの設定例を示す図。 期待値最大化法による推定解を求めるフロー図。 コース/ファインクラスの更新を伴う期待値最大化法の動作フロー図。 この発明の音声認識用音響モデル学習装置200の機能構成例を示す図。 この発明の音声認識装置800の機能構成例を示す図。 適応モデル学習方法による単語誤り率を比較したシミュレーション結果を示す図。 従来の音声認識装置の機能構成例を示す図。 従来のアフィン変換パラメータを共有化する方法で変換されるベクトルの例を示す概念図。

Claims (10)

  1. 混合ガウス分布から成る初期モデルを記憶した初期モデル記憶部と、
    学習データを特徴量ベクトルに変換する特徴量ベクトル変換部と、
    上記混合ガウス分布中の各ガウス分布のアフィン変換パラメータを線形変換行列と平行移動ベクトルとに分解し、上記線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスcで設定し、上記平行移動ベクトルを上記コースクラスc内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスfで設定して上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現す
    るコース/ファインクラス設定部と、
    上記初期モデル記憶部から取得した初期モデルと、上記特徴量ベクトル変換部から取得した特徴量ベクトルと、上記コース/ファインクラス設定部から取得した上記アフィン変
    換パラメータとから、アフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定するアフィン変換パラメータ学習部と、
    上記アフィン変換パラメータの推定値から上記初期モデルを変換した適応モデルを生成するモデルパラメータ変換部と、
    を具備し、
    上記コース/ファインクラス設定部は、
    上記初期モデルを階層分類するガウス分布階層分類手段と、
    上記アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、
    上記一般化された同次ベクトルを生成する同次ベクトル生成部と、
    を備え、
    上記アフィン変換パラメータ生成部は、上記コースクラスc内で同一の線形変換行列A と上記コースクラスcに属しファインクラスfを含むF個のファインクラス内の平行移動ベクトルb ,…,b ,…,b とを、まとめて一つの行列で表わしたアフィン変換パラメータW ≡(b ,…,b ,…,b ,A )として生成するものであり、
    上記同次ベクトル生成部は、上記ファインクラスfに属するガウス分布gの平均ベクトルμ ini と、ガウス分布gがファインクラスfに属することを表わす0若しくは1で表現される部分ベクトルとから成る一般化された同次ベクトル(ξ cfg ini )´≡(0 … 0 1 0 … 0 (μ g ini )´)を生成するものであり、
    上記コース/ファインクラス設定部は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータW と上記一般化された同次ベクトル(ξ cfg ini )´との積で線形表現するものであることを特徴とする適応モデル学習装置。
  2. 請求項1に記載の適応モデル学習装置において、
    上記アフィン変換パラメータ学習部は、期待値最大化法に基づいて上記アフィン変換パラメータの推定値を推定するものであることを特徴とする適応モデル学習装置。
  3. 請求項1又は2に記載された適応モデル学習装置において、
    上記コース/ファインクラス設定部は、
    上記初期モデルを階層分類するガウス分布階層分類手段と、
    上記アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、
    上記一般化された同次ベクトルを生成する同次ベクトル生成部と、
    を備え、
    上記アフィン変換パラメータ学習部は、アフィン変換パラメータの推定値を生成する際に計算する統計量を、上記コース/ファインクラス設定部に帰還させる手段も有し、
    かつ、上記アフィン変換パラメータ生成部と上記同次ベクトル生成部とは、上記帰還された統計量から上記アフィン変換パラメータWと上記一般化された同次ベクトル(ξcfg ini)´とを再生成する手段も有することを特徴とする適応モデル学習装置。
  4. 請求項1乃至の何れかに記載された適応モデル学習装置の、
    上記初期モデルが初期音響モデルであり、上記学習データが学習用音声データであることを特徴とする音声認識用音響モデル作成装置。
  5. 請求項に記載した音声認識用音響モデル作成装置と、
    被認識音声データを特徴量ベクトルに変換する特徴量ベクトル変換部と、
    上記特徴量ベクトルと上記音声認識用音響モデル作成装置が作成した音響モデルとから上記被認識音声データを音声認識する音声認識部と、
    を具備することを特徴とする音声認識装置。
  6. 学習データを特徴量ベクトルに変換する特徴量ベクトル変換過程と、
    初期モデルである各ガウス分布のアフィン変換パラメータを線形変換行列と平行移動ベクトルとに分解し、上記線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスcで設定し、上記平行移動ベクトルを上記コースクラスc内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスfで設定し、上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現するコー
    ス/ファインクラス設定過程と、
    上記初期モデルと上記特徴量ベクトルと上記アフィン変換パラメータと一般化された同次ベクトルとからアフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定するアフィン変換パラメータ学習過程と、
    上記アフィン変換パラメータの推定値から上記初期モデルを変換した適応モデルを生成するモデルパラメータ変換過程と、
    を含み、
    上記コース/ファインクラス設定過程は、
    更に、
    上記初期モデルを階層分類するガウス分布階層分類ステップと、
    上記アフィン変換パラメータを生成するアフィン変換パラメータ生成過程と、
    上記一般化された同次ベクトルを生成する同次ベクトル生成過程と、
    を含み、
    上記アフィン変換パラメータ生成過程は、上記コースクラスc内で同一の線形変換行列A と上記コースクラスcに属しファインクラスfを含むF個のファインクラス内の平行移動ベクトルb ,…,b ,…,b とを、まとめて一つの行列で表わしたアフィン変換パラメータW ≡(b ,…,b ,…,b ,A )として生成し、
    上記同次ベクトル生成過程は、上記ファインクラスfに属するガウス分布gの平均ベクトルμ ini と、ガウス分布gがファインクラスfに属することを表わす0若しくは1で表現される部分ベクトルとから成る一般化された同次ベクトル(ξ cfg ini )´≡(0 … 0 1 0 … 0 (μ g ini )´)を生成し、
    上記コース/ファインクラス設定過程は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータW と上記一般化された同次ベクトル(ξ cfg ini )´との積で線形表現する過程であることを特徴とする適応モデル学習方法。
  7. 請求項に記載の適応モデル学習方法において、
    上記アフィン変換パラメータ学習過程は、アフィン変換パラメータの推定値を生成する際に計算される統計量を上記コース/ファインクラス設定部に帰還させる過程と、
    上記帰還された統計量を用いて上記アフィン変換パラメータWと一般化された同次ベクトル(ξcfg ini)´とを再生成する過程も含むことを特徴とする適応モデル学習方法。
  8. 請求項又はに記載の適応モデル学習方法の、
    上記初期モデルが音響モデルであり、上記学習データが学習用音声データであることを特徴とする音声認識用音響モデル作成方法。
  9. 請求項1乃至の何れかに記載した各装置としてコンピュータを機能させるための装置プログラム。
  10. 請求項に記載したプログラムを記憶したコンピュータで読み取り可能な記憶媒体。
JP2007046632A 2007-02-27 2007-02-27 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 Expired - Fee Related JP4891806B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007046632A JP4891806B2 (ja) 2007-02-27 2007-02-27 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007046632A JP4891806B2 (ja) 2007-02-27 2007-02-27 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体

Publications (2)

Publication Number Publication Date
JP2008209698A JP2008209698A (ja) 2008-09-11
JP4891806B2 true JP4891806B2 (ja) 2012-03-07

Family

ID=39786051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007046632A Expired - Fee Related JP4891806B2 (ja) 2007-02-27 2007-02-27 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体

Country Status (1)

Country Link
JP (1) JP4891806B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251784B2 (en) 2013-10-23 2016-02-02 International Business Machines Corporation Regularized feature space discrimination adaptation
CN103824557B (zh) * 2014-02-19 2016-06-15 清华大学 一种具有自定义功能的音频检测分类方法
CN117196909B (zh) * 2023-11-03 2024-04-05 湖南强智科技发展有限公司 一种基于自定义分类的高校排课方法、系统、设备及介质
CN117610891B (zh) * 2024-01-22 2024-04-02 湖南小翅科技有限公司 一种基于大数据的灵活用工接单与风险控制系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4256314B2 (ja) * 2004-08-13 2009-04-22 日本電信電話株式会社 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2008209698A (ja) 2008-09-11

Similar Documents

Publication Publication Date Title
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US20140025382A1 (en) Speech processing system
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
US8595010B2 (en) Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP4891806B2 (ja) 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体
Zhang et al. A new data selection approach for semi-supervised acoustic modeling
Sha Large margin training of acoustic models for speech recognition
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4881357B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP2008129527A (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
GB2508411A (en) Speech synthesis by combining probability distributions from different linguistic levels
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP4256314B2 (ja) 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体
JP2014102345A (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
Shinozaki et al. Automated development of dnn based spoken language systems using evolutionary algorithms
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
JP4004368B2 (ja) 音声認識システム
JP6057170B2 (ja) 音声言語評価装置、パラメータ推定装置、方法、及びプログラム
Zablotskiy et al. GMM parameter estimation by means of EM and genetic algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110520

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111216

R150 Certificate of patent or registration of utility model

Ref document number: 4891806

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees