JP4891806B2 - 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 - Google Patents
適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 Download PDFInfo
- Publication number
- JP4891806B2 JP4891806B2 JP2007046632A JP2007046632A JP4891806B2 JP 4891806 B2 JP4891806 B2 JP 4891806B2 JP 2007046632 A JP2007046632 A JP 2007046632A JP 2007046632 A JP2007046632 A JP 2007046632A JP 4891806 B2 JP4891806 B2 JP 4891806B2
- Authority
- JP
- Japan
- Prior art keywords
- affine transformation
- vector
- model
- fine
- course
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
音声認識装置は一般に図10に示す様に、音響モデル学習装置400と音声認識処理部500とを備えて構成される。音響モデル学習装置400は、学習用音声データを特徴量ベクトルに変換する特徴量ベクトル変換部402と、適応モデル学習方法を用いた音響モデル作成部404と、音響モデル記憶部406とによって構成され、学習用音声データに従って音響モデルを作成し、音響モデル記憶部406に学習により作成した音響モデルを記録する。
ここで音響モデルの作成方法について説明する。音響モデルは、音響的特徴をモデル化したものであり、認識用音声データと音響モデルを参照することにより、音声データを音素や単語といったシンボルに変換する。そのため、音響モデルの作成は、音声認識装置の性能を大きく左右する。通常音声認識用音響モデルは、各音素をLeft to rightの隠れマルコフモデル(Hidden Markov Model:HMMと称す)であり、HMM状態の出力確率分布を混合ガウス分布モデル(Gaussian Mixture Model:GMMと称す)で表現する。これを連続密度分布HMM(Continous Density HMM)と呼ぶ。そのため、実際に音響モデルとして記憶部に記録されているのは、音素などの各シンボルにおけるHMMの状態遷移確率a、GMMの混合重み因子w、及びガウス分布の平均ベクトルパラメータμ及び共分散行列パラメータΣとなる。これらをモデルパラメータと呼びその集合をθとする。つまり、θ={a,w,μ,Σ}とする。このモデルパラメータθの値を正確に求めるのが音響モデルの作成過程となり、この過程を音響モデル作成方法と呼ぶ。つまり、これを音声に限らず一般化した呼称が、適応モデル学習方法である。以降においても音声認識を一例として説明を行う。
モデルパラメータを学習する手法としては最尤学習法がある。音響モデルパラメータは数百万の自由度を持つため、これらを学習するためには数百時間に及ぶ大量の学習用音声データが必要になる。しかし、事前に話者、雑音、発話スタイルといった全ての音響的変動要因を含む音声データを大量に収集するのは不可能である。そこで、少量の学習用音声データから音響モデルパラメータを推定する手法として、適応モデル学習が非常に重要な技術となる。
初期音響モデル中のあるガウス分布gの平均ベクトルパラメータμg iniに注目する。またt番目の適応データのD次元特徴量ベクトルをot∈RD、その集合をoT={o1,…,ot,…,oT}とする。このとき、適応後データの平均ベクトルパラメータμg adaへの変換を、前もって母集団の分布型を仮定して行い、その変換パラメータoTから推定することによる実現方法を考えることができる。この変換として、広く式(1)に示すアフィン変換が用いられている。
一般にアフィン変換パラメータWのパラメータ数は、D=40〜50(D×(D+1)=2000〜2500)と多いので、少量の適応データoTで過学習を起こすことなく推定するために、多数のガウス分布間で同じアフィン変換パラメータWを共有する方法が取られる。つまり式(5)である。
このとき、共有ガウス分布クラスは、ガウス分布集合が各ノードに割り当てられる木構造として表現される。その木構造は音声学的知見やガウス分布間距離尺度を用いて構築される。このとき、クラスは木の深さやリーフノードの数、ノードに割り当てられるデータ量などを閾値として設定される。
音声認識の音響モデルで標準的に用いられる連続密度分布HMM(Continous Density HMM)では、HMMやGMMに潜在変数が存在するため、その推定は一般に困難であるが、例えば期待値最大化法(EMアルゴリズムとも称す)によって効率よく推定することができる。
EMアルゴリズムによって推定した平行移動パラメータ^ρ,^δを用いて適応後データの平均ベクトルパラメータμg adaを式(8)で求める。
この発明は、このような問題点に鑑みてなされたものであり、従来のアフィン変換パラメータの推定方法に、コース/ファイン学習の概念を導入した新しい適応モデル学習方法とその装置、その適応モデル学習方法を用いた音声認識用音響モデル作成方法とその装置、及びその音響モデルを用いた音声認識装置、及びその音声認識用音響モデルを用いた音声認識方法、及びそれら装置のプログラムと、それらのプログラムを記憶する記憶媒体を提供することを目的とする。
変換部とを具備する。
初期モデル記憶部は、混合ガウス分布から成る初期モデルを記憶し、特徴量ベクトル変換部が学習データを特徴量ベクトルに変換する。
コース/ファインクラス設定部は、混合ガウス分布中の各ガウス分布のアフィン変換パ
ラメータを線形変換行列と平行移動ベクトルとに分解し、線形変換行列を複数のガウス分布内で同一のものを用いることにより粗いコースクラスcで設定し、平行移動ベクトルをコースクラスc内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスfで設定して上記ガウス分布のアフィン変換パラメータをコース/ファ
イン表現する。
アフィン変換パラメータ学習部は、初期モデル記憶部から取得した初期モデルと、上記特徴量ベクトル変換部から取得した特徴量ベクトルと、上記コース/ファインクラス設定
部から取得した上記アフィン変換パラメータとから、アフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定する。
モデルパラメータ変換部は、アフィン変換パラメータの推定値から初期モデルを変換した適応モデルを生成する。
そして、コース/ファインクラス設定部は、初期モデルを階層分類するガウス分布階層分類手段と、アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、一般化された同次ベクトルを生成する同次ベクトル生成部と、を備え、アフィン変換パラメータ生成部は、コースクラスc内で同一の線形変換行列A c とコースクラスcに属しファインクラスfを含むF個のファインクラス内の平行移動ベクトルb 1 ,…,b f ,…,b F とを、まとめて一つの行列で表わしたアフィン変換パラメータW c ≡(b 1 ,…,b f ,…,b F ,A c )として生成するものであり、同次ベクトル生成部は、上記ファインクラスfに属するガウス分布gの平均ベクトルμ g ini と、ガウス分布gがファインクラスfに属することを表わす0若しくは1で表現される部分ベクトルとから成る一般化された同次ベクトル(ξ cfg ini )´≡(0 … 0 1 0 … 0 (μ g ini )´)を生成するものであり、コース/ファインクラス設定部は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータW c と上記一般化された同次ベクトル(ξ cfg ini )´との積で線形表現するものである。
更に、この発明による音声認識装置は、音声認識用音響モデル作成装置を用いて、被認識音声データを特徴量ベクトルに変換する特徴量ベクトル変換部と、その特徴量ベクトルと音声認識用音響モデル作成装置が作成した音響モデルとから被認識音声データを音声認識する音声認識部とを具備する。
特徴量ベクトル変換部12は、学習データを特徴量ベクトルに変換する(ステップS12)。コース/ファインクラス設定部14は、初期モデル記憶部10に記憶された複数の初期モデルの各ガウス分布のアフィン変換パラメータを線形変換行列と平均移動ベクトルとに分解し、線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスcで設定し、平行移動ベクトルをコースクラスc内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスfで設定し、上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現する(ステップS14)。アフィン変換パラメータ学習部16は、初期モデルと特徴量ベクトルとアフィン変換パラメータWcと一般化された同次ベクトルξcfg iniとからアフィン変換パラメータの推定値Wc MLを潜在モデルに対する統計的学習法によって推定する(ステップS16)。アフィン変換パラメータWcと一般化された同次ベクトルξcfg iniについて、詳しくは後述する。モデルパラメータ変換部18は、アフィン変換パラメータの推定値Wc MLと一般化された同次ベクトル(ξcfg ini)´とから上記初期モデルを変換した適応モデルμg ada=Wc MLξcfg iniを生成する(ステップS18)。
この発明の要部は、コース/ファインクラス設定部14である。ここで、初期モデル記憶部10に記憶されている混合ガウス分布の各ガウス分布のアフィン変換パラメータを式(9)に示すように、線形変換行列Ac(g)と平行移動ベクトルbf(g)とに分解するところにこの発明の特徴がある。
コース/ファインクラス設定部14は、ガウス分布階層分類手段141とアフィン変換パラメータ生成部142と同次ベクトル生成部143とで構成される。ガウス分布階層分類部141aは、混合ガウス分布の階層的な分類を行う。アフィン変換パラメータ生成部142は、各ガウス分布のアフィン変換パラメータを平均移動ベクトルと線形変換行列とに分解し、コース/ファイン表現したアフィン変換パラメータWcを生成する。同次ベクトル生成部143は、部分ベクトルと平均ベクトルとから成る一般化された同次ベクトルξcfg iniを生成する。
ガウス分布集合を階層的に分類する手法としては、分布間距離(平均のユークリッド距離やマハラノビス距離)を用いたk-meansアルゴリズムがよく知られている。また、音響モデルは単語、音素、環境依存音素、HMM状態といった階層性を持つため、そのような音素の階層性を元に階層的に分類することができる。
この階層的表現の上位ノードに属するガウス分布集合をコースクラスとし、それよりも下位のノードに属するガウス分布集合をファインクラスとして、コースクラスで線形変換行列を、ファインクラスで平行移動ベクトルを共有することにより、コース/ファインクラスを設定することができる。
図4において、c=1のコースクラスは、f=1及びf=2の2つのファインクラスを含んでいるのが分かる。g=1のガウス分布に注目すると、それはf=1のファインクラスに属しており、それはさらにc=1のコースクラスに属しているのが分かる。つまり、c=1のコースクラスはf=1及びf=2の2つのファインクラスを内包している。
g=3:Wc=1=(bf=1,bf=2,Ac=1),(ξ123 ini)´=(0,1,(μ3 ini)´)
g=4:Wc=1=(bf=1,bf=2,Ac=1),(ξ124 ini)´=(0,1,(μ4 ini)´)
g=5:Wc=1=(bf=1,bf=2,Ac=1),(ξ125 ini)´=(0,1,(μ5 ini)´)
以上のように表現されるので、もしコースクラス中のファインクラスの要素数が1、つまりコース/ファイン表現ではなく式(5)のような通常の共有表現の場合、一般化された同次ベクトルξcfg iniは、式(3)で定義された同次ベクトルξg iniと一致する。従って、式(11)は、従来法を拡張した表現とみなすことができる。
これらの表現を用いると式(9)は、次のように線形の方程式として書き直すことができる。
なお、ガウス分布階層分類手段141が分類された階層構造が固定であれば、アフィン変換パラメータWcと、一般化された同次ベクトルξcfg iniは、それぞれの生成部に予め固定値として設定しておけばよい。アフィン変換パラメータWcと一般化された同次ベクトルξcfg iniが適応的に変化する例は、実施例2で説明する。
連続密度分布HMMは、HMMやGMMで構成されており、それらのモデルは潜在変数を含むため、そのようなモデルに対してのアフィン変換パラメータ推定法として、セグメンタルk-means法やMCMC(Markov Chain Monte Carlo)法、期待値最大化法などの潜在モデルに対する統計的学習法が有効である。この実施例では、計算量の問題や、連続密度分布HMMのモデルパラメータの推定アルゴリズムとの親和性から期待値最大化法に基づく推定法について説明を行う。
その動作フローを図5に示す。E-stepは、アフィン変換パラメータ学習部16で行われる(ステップS161)。E-stepの後にM-stepが、モデルパラメータ変換部18で行われる(ステップS181)。期待値最大化法ではM-stepで更新されたμg adaを用いて、再びE-stepに戻って統計量を計算しμg adaの更新を繰り返す。この繰り返しは、例えば所定回数の繰り返し、或いはE-stepで計算される尤度が収束した場合に停止させる(ステップS190)。更新が繰り返されたμg adaは適応モデルとしてモデル記憶部19に記憶される(ステップS200)。
E-step(ステップS161)とM-step(ステップS181)を順に説明する。
連続密度分布HMMにおいて、データotの出力に伴い、状態iから状態jへの遷移及び混合成分kが出力される際の完全データの出力確率分布は次のように表わされる。
式(18)の補助関数はWcに関して2次形式である。従って、min-max法にもとづきWcの最尤推定値を補助関数QをWcに関して微分することにより得ることができる。つまり、
期待値最大化法のE-stepにおいて、初期モデル記憶部10に記憶された各ガウス分布毎の0次から高次の統計量が計算される。
そしてこれらは占有確率ζgtで重み付けされた特徴量ベクトルotのべき乗の和である。従って、各ノードに属するガウス分布集合の全統計量は、ガウス分布集合中の統計量の和を取ることにより式(26)で表わせる。
このようなコース/ファインクラスの更新を伴う期待値最大化法の動作フローは図6のように表わせる。図5のコース/ファインクラスの更新を伴わない場合と比較して、一回目のE-step(ステップS161)の後に、E-stepで計算された統計量に基づいてコース/ファインクラスを再設定するステップS140と、再設定されたコース/ファインクラスを基に再びE-stepを処理するステップS161’が設けられている点が異なる。
このようにしてコース/ファインクラスの更新を行うと、適応モデル学習の収束が早くなる。また尤度を高くすることができる。この方法を例えば音声認識装置に応用すると音声認識率を向上させることができる。
この発明の音声認識用音響モデル作成装置200の機能構成例を図7に示す。音声認識用音響モデル作成装置200は、図1に示した適応モデル作成装置100を音声認識用に対応させたものである。混合ガウス分布から成る初期音響モデルを記憶する初期音響モデル記憶部60と、適応モデル学習後の音響モデルを記憶する音響モデル記憶部62とが、図1と異なり、他の構成は同じである。
つまり、図1に示した適応モデル学習装置の初期モデルが初期音響モデルであり、学習データが学習用音声データであり、学習後の適応モデルが音響モデルである点が異なるだけである。その動作は説明済みのものと全く同じである。したがって、図7の動作説明は省略する。
この発明の音声認識装置800の機能構成例を図8に示す。音声認識装置800は、従来の音声認識装置900の音響モデル学習装置400を、この発明の音声認識用音響モデル作成装置200に置き換えたものである。他の構成は、図10に示した音声認識装置800と同じである。
音声認識処理部500は、被認識音声データを特徴量ベクトル変換部502で特徴量ベクトルに変換し、音声認識部504でこの発明による音声認識用音響モデル作成装置200に記録された音響モデルと、言語モデル記録部506に記録した言語モデル及び発話辞書508に記録した辞書を参照して、被認識音声データの認識結果を例えばテキストデータの形式で出力する。
この発明による音声認識装置800によれば、音声認識率を向上させることができる。その向上の程度を検証したシミュレーション結果については後述する。
実施例1で説明した共分散行列Σg iniは対角行列である仮定が存在した。共分散行列が対角行列でない場合は、式(22)の段階で共分散行列の対角項の影響を無視する、又は式(21)を数値計算法により解く手法などがある。
そこで、対角行列の近似を用いることなく解析的にコース/ファイン学習を行うことができる変形例として、分散正規化された平均ベクトルに対するアフィン変換パラメータの線形表現について説明する。
式(31)を式(17)に代入すると補助関数は次のように書ける。
式(32)の補助関数はWcに関して2次形式である。従って、min-max法に基づきWcの最尤推定値を補助関数QをWcに関して微分することにより得ることができる。
最後に式(34)を式(31)に代入することにより適応モデルが得られる。
従来の適応モデル学習方法と、この発明で提案した適応モデル学習方法の単語誤り率を比較したシミュレーション結果を図9に示す。横軸は発話数であり、縦軸は単語誤り率(%)である。単語誤り率は、分母が総単語数、分子が(置換誤り+削除誤り+挿入誤り)である。
特徴量は、12次元MFCC(Mel Frequency Cepstral Coefficient)+Energy(パワースペクトル)+Δ(MFCC時系列の一次差分値)+ΔΔ(MFCC時系列の二次差分値)として、語彙サイズ3万語の3つ組確率(トライグラム)を用いて大語彙連続音声認識実験を行った(不特定話者音響モデルの単語誤り率は37.1%)。
また、以上の各実施例の他、この発明である各装置及び方法は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体に記憶しておくことができる。コンピュータで読み取り可能な記憶媒体としては、例えば、磁気記憶装置、光ディスク、光磁気記憶媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記憶装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記憶媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記憶媒体に記憶されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、この形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
Claims (10)
- 混合ガウス分布から成る初期モデルを記憶した初期モデル記憶部と、
学習データを特徴量ベクトルに変換する特徴量ベクトル変換部と、
上記混合ガウス分布中の各ガウス分布のアフィン変換パラメータを線形変換行列と平行移動ベクトルとに分解し、上記線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスcで設定し、上記平行移動ベクトルを上記コースクラスc内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスfで設定して上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現す
るコース/ファインクラス設定部と、
上記初期モデル記憶部から取得した初期モデルと、上記特徴量ベクトル変換部から取得した特徴量ベクトルと、上記コース/ファインクラス設定部から取得した上記アフィン変
換パラメータとから、アフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定するアフィン変換パラメータ学習部と、
上記アフィン変換パラメータの推定値から上記初期モデルを変換した適応モデルを生成するモデルパラメータ変換部と、
を具備し、
上記コース/ファインクラス設定部は、
上記初期モデルを階層分類するガウス分布階層分類手段と、
上記アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、
上記一般化された同次ベクトルを生成する同次ベクトル生成部と、
を備え、
上記アフィン変換パラメータ生成部は、上記コースクラスc内で同一の線形変換行列A c と上記コースクラスcに属しファインクラスfを含むF個のファインクラス内の平行移動ベクトルb 1 ,…,b f ,…,b F とを、まとめて一つの行列で表わしたアフィン変換パラメータW c ≡(b 1 ,…,b f ,…,b F ,A c )として生成するものであり、
上記同次ベクトル生成部は、上記ファインクラスfに属するガウス分布gの平均ベクトルμ g ini と、ガウス分布gがファインクラスfに属することを表わす0若しくは1で表現される部分ベクトルとから成る一般化された同次ベクトル(ξ cfg ini )´≡(0 … 0 1 0 … 0 (μ g ini )´)を生成するものであり、
上記コース/ファインクラス設定部は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータW c と上記一般化された同次ベクトル(ξ cfg ini )´との積で線形表現するものであることを特徴とする適応モデル学習装置。 - 請求項1に記載の適応モデル学習装置において、
上記アフィン変換パラメータ学習部は、期待値最大化法に基づいて上記アフィン変換パラメータの推定値を推定するものであることを特徴とする適応モデル学習装置。 - 請求項1又は2に記載された適応モデル学習装置において、
上記コース/ファインクラス設定部は、
上記初期モデルを階層分類するガウス分布階層分類手段と、
上記アフィン変換パラメータを生成するアフィン変換パラメータ生成部と、
上記一般化された同次ベクトルを生成する同次ベクトル生成部と、
を備え、
上記アフィン変換パラメータ学習部は、アフィン変換パラメータの推定値を生成する際に計算する統計量を、上記コース/ファインクラス設定部に帰還させる手段も有し、
かつ、上記アフィン変換パラメータ生成部と上記同次ベクトル生成部とは、上記帰還された統計量から上記アフィン変換パラメータWcと上記一般化された同次ベクトル(ξcfg ini)´とを再生成する手段も有することを特徴とする適応モデル学習装置。 - 請求項1乃至3の何れかに記載された適応モデル学習装置の、
上記初期モデルが初期音響モデルであり、上記学習データが学習用音声データであることを特徴とする音声認識用音響モデル作成装置。 - 請求項4に記載した音声認識用音響モデル作成装置と、
被認識音声データを特徴量ベクトルに変換する特徴量ベクトル変換部と、
上記特徴量ベクトルと上記音声認識用音響モデル作成装置が作成した音響モデルとから上記被認識音声データを音声認識する音声認識部と、
を具備することを特徴とする音声認識装置。 - 学習データを特徴量ベクトルに変換する特徴量ベクトル変換過程と、
初期モデルである各ガウス分布のアフィン変換パラメータを線形変換行列と平行移動ベクトルとに分解し、上記線形変換行列を上記複数のガウス分布内で同一のものを用いることにより粗いコースクラスcで設定し、上記平行移動ベクトルを上記コースクラスc内の部分集合である少数のガウス分布内で同一のものを用いることで精密なファインクラスfで設定し、上記各ガウス分布のアフィン変換パラメータをコース/ファイン表現するコー
ス/ファインクラス設定過程と、
上記初期モデルと上記特徴量ベクトルと上記アフィン変換パラメータと一般化された同次ベクトルとからアフィン変換パラメータの推定値を潜在モデルに対する統計的学習法によって推定するアフィン変換パラメータ学習過程と、
上記アフィン変換パラメータの推定値から上記初期モデルを変換した適応モデルを生成するモデルパラメータ変換過程と、
を含み、
上記コース/ファインクラス設定過程は、
更に、
上記初期モデルを階層分類するガウス分布階層分類ステップと、
上記アフィン変換パラメータを生成するアフィン変換パラメータ生成過程と、
上記一般化された同次ベクトルを生成する同次ベクトル生成過程と、
を含み、
上記アフィン変換パラメータ生成過程は、上記コースクラスc内で同一の線形変換行列A c と上記コースクラスcに属しファインクラスfを含むF個のファインクラス内の平行移動ベクトルb 1 ,…,b f ,…,b F とを、まとめて一つの行列で表わしたアフィン変換パラメータW c ≡(b 1 ,…,b f ,…,b F ,A c )として生成し、
上記同次ベクトル生成過程は、上記ファインクラスfに属するガウス分布gの平均ベクトルμ g ini と、ガウス分布gがファインクラスfに属することを表わす0若しくは1で表現される部分ベクトルとから成る一般化された同次ベクトル(ξ cfg ini )´≡(0 … 0 1 0 … 0 (μ g ini )´)を生成し、
上記コース/ファインクラス設定過程は、アフィン変換パラメータのコース/ファイン表現を、上記アフィン変換パラメータW c と上記一般化された同次ベクトル(ξ cfg ini )´との積で線形表現する過程であることを特徴とする適応モデル学習方法。 - 請求項6に記載の適応モデル学習方法において、
上記アフィン変換パラメータ学習過程は、アフィン変換パラメータの推定値を生成する際に計算される統計量を上記コース/ファインクラス設定部に帰還させる過程と、
上記帰還された統計量を用いて上記アフィン変換パラメータWcと一般化された同次ベクトル(ξcfg ini)´とを再生成する過程も含むことを特徴とする適応モデル学習方法。 - 請求項6又は7に記載の適応モデル学習方法の、
上記初期モデルが音響モデルであり、上記学習データが学習用音声データであることを特徴とする音声認識用音響モデル作成方法。 - 請求項1乃至5の何れかに記載した各装置としてコンピュータを機能させるための装置プログラム。
- 請求項9に記載したプログラムを記憶したコンピュータで読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007046632A JP4891806B2 (ja) | 2007-02-27 | 2007-02-27 | 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007046632A JP4891806B2 (ja) | 2007-02-27 | 2007-02-27 | 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008209698A JP2008209698A (ja) | 2008-09-11 |
JP4891806B2 true JP4891806B2 (ja) | 2012-03-07 |
Family
ID=39786051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007046632A Expired - Fee Related JP4891806B2 (ja) | 2007-02-27 | 2007-02-27 | 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4891806B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9251784B2 (en) | 2013-10-23 | 2016-02-02 | International Business Machines Corporation | Regularized feature space discrimination adaptation |
CN103824557B (zh) * | 2014-02-19 | 2016-06-15 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
CN117196909B (zh) * | 2023-11-03 | 2024-04-05 | 湖南强智科技发展有限公司 | 一种基于自定义分类的高校排课方法、系统、设备及介质 |
CN117610891B (zh) * | 2024-01-22 | 2024-04-02 | 湖南小翅科技有限公司 | 一种基于大数据的灵活用工接单与风险控制系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4256314B2 (ja) * | 2004-08-13 | 2009-04-22 | 日本電信電話株式会社 | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 |
-
2007
- 2007-02-27 JP JP2007046632A patent/JP4891806B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008209698A (ja) | 2008-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
US20140025382A1 (en) | Speech processing system | |
JP5249967B2 (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
US8595010B2 (en) | Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
JP4891806B2 (ja) | 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 | |
Zhang et al. | A new data selection approach for semi-supervised acoustic modeling | |
Sha | Large margin training of acoustic models for speech recognition | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP2008129527A (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
GB2508411A (en) | Speech synthesis by combining probability distributions from different linguistic levels | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP4256314B2 (ja) | 音声認識用音響モデル作成方法、音声認識用音響モデル作成装置、音声認識用音響モデル作成プログラム及びこのプログラムを記録した記録媒体 | |
JP2014102345A (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
Shinozaki et al. | Automated development of dnn based spoken language systems using evolutionary algorithms | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis | |
JP4004368B2 (ja) | 音声認識システム | |
JP6057170B2 (ja) | 音声言語評価装置、パラメータ推定装置、方法、及びプログラム | |
Zablotskiy et al. | GMM parameter estimation by means of EM and genetic algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110520 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4891806 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141222 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |