JP5321596B2

JP5321596B2 - 統計モデル学習装置、統計モデル学習方法、およびプログラム

Info

Publication number: JP5321596B2
Application number: JP2010534655A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-10-21
Filing date: 2009-07-22
Publication date: 2013-10-23
Anticipated expiration: 2029-07-22
Also published as: US20110202487A1; WO2010047019A1; JPWO2010047019A1

Description

本発明は統計モデル学習装置、統計モデル学習方法、および統計モデル学習用プログラムに関し、特に、学習データを選択的に使用することで効率的にモデルパラメータを推定することが可能な統計モデル学習装置、統計モデル学習方法、および統計モデル学習用プログラムに関する。

従来この種の統計モデル学習装置は、パタン認識装置が入力パタンをいずれかのカテゴリに分類する際に参照する統計モデルを作成する用途に供されてきた。一般に、良質の統計モデルを作成するには、ラベル付きデータ、すなわち分類すべきカテゴリの正解ラベルが付与されたデータが大量に必要であり、かつラベルを付与するには人手作業などのコストがかかるという問題が知られている。この種の統計モデル学習装置は、特にこのような問題に対処するために、情報量の大きいデータ、すなわちラベル情報が自明でなく、統計モデルの品質向上に有効なデータを自動的に検出し、効率的にラベル付きデータを生成することに用いられてきた。

本発明に関連する統計モデル学習装置の一例が、非特許文献1、非特許文献2に記載されている。図5に示すように、本発明に関連する統計モデル学習装置は、ラベル付きデータ記憶手段501と、統計モデル学習手段502と、統計モデル記憶手段503と、ラベルなしデータ記憶手段504と、データ認識手段505と、信頼度計算手段506と、データ選択手段507とから構成されている。

このような構成を有する本発明に関連する統計モデル学習装置は次のように動作する。

すなわち、統計モデル学習手段502は、ラベル付きデータ記憶手段501に記憶された、当初は限られた量のラベル付きデータを用いて、統計モデルを作成し、統計モデル記憶手段503に記憶する。データ認識手段505は、統計モデル記憶手段503に記憶された統計モデルを参照して、ラベルなしデータ記憶手段504に記憶された個々のデータを認識し、認識結果を算出する。信頼度計算手段506は、データ認識手段505が出力した認識結果を受けて、その結果の確からしさの尺度である信頼度を計算する。データ選択手段507は、信頼度計算手段506が計算した信頼度の値が所定のしきい値よりも低いデータをすべて選択し、ディスプレイやスピーカー等を介して作業者等に表示し、正しいラベルの入力を受け取った上で、当該データを新たなラベル付きデータとして、ラベル付きデータ記憶手段501に記憶する。

以上の動作を必要回数反復することにより、ラベル付きデータ記憶手段501に記憶されたラベル付きデータが増量され、良質の統計モデルが統計モデル記憶手段503に記憶される。

リカルディ、ハッカニツール著「アクティブ・アンド・アンスーパバイズド・ラーニング・フォー・オートマティック・スピーチ・レコグニション」ユーロスピーチ2003予稿集、2003年9月(G.Riccardi & D.Hakkani-Tur, "Active and unsupervisedlearning for automatic speech recognition," Proc.ofEUROSPEECH2003,Sep.2003) 加藤、戸田、猿渡、鹿野著「音響尤度を用いた書き起こしデータ選択による音響モデル構築コストの削減」、社団法人情報処理学会研究報告、2005-SLP-59(45)、2005年12月22日、229〜234頁

上述した本発明に関連する技術の問題点は、統計モデルの品質向上に有効なデータをラベルなしデータから高効率に選択する精度が低いということである。

上述した本発明に関連する技術のように、信頼度に基づいてラベルなしデータを選択した場合、現時点で得られている統計モデルと理想的な統計モデルとの間に大きな隔たりがある初期の段階で、必ずしも有効なデータを選択できない。なぜなら、信頼度の値が所定のしきい値より低いデータを選択することは、統計モデルが規定するカテゴリ境界に近いデータを選択するように動作するが、統計モデルの品質が低い初期の段階では、カテゴリ境界も正確でなく、カテゴリ境界付近のデータが必ずしも統計モデルの品質向上に有効とは限らないからである。そのようなデータ選択を行った場合、統計モデルの品質の上昇は緩やかであり、結果として、多くのデータを選択して、多大なラベル付与コストをかけることとなる。

本発明の目的は、統計モデルの品質向上に有効なデータをラベルなしデータから高効率に選択する精度が低いという上述した課題を解決した統計モデル学習装置、統計モデル学習方法、および統計モデル学習用プログラムを提供することにある。

本発明の統計モデル学習装置は、学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出するデータ分類手段と、サブセットを学習してそれぞれ統計モデルを作成する統計モデル学習手段と、それぞれの統計モデルを用いて学習データと異なる別のデータを認識して認識結果を取得するデータ認識手段と、それぞれの統計モデルから得られた認識結果の不一致の度合いから別のデータの情報量を計算する情報量計算手段と、別のデータの中から、情報量の高いものを選択し、学習データに追加するデータ選択手段とを備える。

本発明の効果は、統計モデルの品質向上に有効なデータを予備データから効率的に選択し、良質の学習データ、ひいては良質の統計モデルを低コストで作成できる統計モデル学習装置、統計モデル学習方法、および統計モデル学習用プログラムを提供できることである。

本発明の第1の実施の形態の構成を示すブロック図である。典型的な話者T名分のガウス混合モデルを生成する装置の一例の構成を示すブロック図である。本発明の第1の実施の形態の動作を示す流れ図である。本発明の第２の実施の形態の構成を示すブロック図である。本発明に関連する統計モデル学習装置の一例の構成を示すブロック図である。本発明の第３の実施の形態の構成を示すブロック図である。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

[第１の実施の形態]
図1を参照すると、本発明の第1の実施の形態は、学習データ記憶手段101と、データ分類手段102と、統計モデル学習手段103と、統計モデル記憶手段104と、予備データ記憶手段105と、データ認識手段106と、情報量計算手段107と、データ選択手段108と、データ構造情報記憶手段109とを含み、データ構造情報記憶手段109に記憶されたデータの構造に関する情報に基づき、一般に極めて高次元の統計モデル空間に、T個の統計モデルを偏りなく生成し、また、個々の予備データが有する情報量を、T個の統計モデルから得られる認識結果の多様性、すなわち不一致の度合いに基づいて計算するよう動作する。このような構成を採用し、実世界のデータの構造を考慮してより可能性の高い領域に配置されたT個の統計モデルを用いて、統計モデルの品質向上に有効なデータを予備データから選択することにより、本発明の目的を達成することができる。以下、構成要素の詳細について説明する。

学習データ記憶手段101は、統計モデルの学習に必要な学習データを記憶する。通常、学習データには、そのデータが属するカテゴリを示すラベルが付与されており、このようなデータをラベル付きデータと呼ぶことにする。ラベル付きデータの具体的内容は任意であり、想定するパタン認識装置により決まる。例えば、パタン認識装置として文字認識装置を想定する場合、データは文字画像であり、その文字画像に対応する文字コードなどがラベルに相当する。パタン認識装置として顔認識装置を想定する場合は、データとラベルはそれぞれ、ある人物の顔画像、およびその人物を特定する何らかのIDとなる。パタン認識装置として音声認識装置を想定する場合は、データは発話ごとなどの単位で分けられた音声信号であり、ラベルはその発話内容を示す単語IDや発音記号列などである。

予備データ記憶手段105は、学習データ記憶手段101に記憶されたデータとは別に収集されたデータを記憶する。これらのデータは、学習データ記憶手段101に記憶されたデータと同様、想定するパタン認識装置に応じて決まる文字画像、顔画像、一般の物体画像、音声信号等であるが、ラベルは必ずしも付与されていなくてもよい。

データ構造情報記憶手段109は、学習データ記憶手段101や予備データ記憶手段105に記憶されたデータが通常有する構造に関する情報を記憶する。例えば、音声認識装置を想定して、データとして音声信号を扱う場合、概略どのような話者が存在し得るか、どのような雑音が重畳し得るか、といった、音声信号が通常有する構造情報が存在する。

音声信号以外のデータにおいても同様のことがいえる。例えば顔画像や一般の物体画像であれば、照明条件や物体の向き(姿勢)など、文字画像であれば、例えば筆者や筆記具のバリエーションなどが、前記構造情報に該当する。

データ分類手段102は、データ構造情報記憶手段109に記憶された構造情報を参照して、学習データ記憶手段101に記憶されたデータを所定数、例えばT個のサブセットS₁,…,S_Tに分類する。サブセットは重複なく学習データを分割したものであってもよいし、互いに共通部分を持つように構成してもよい。

データ分類手段102およびデータ構造情報記憶手段109の動作については、後により詳しく説明する。

統計モデル学習手段103は、データ分類手段102から、T個のサブセットS₁,…,S_Tを順次受け取り学習を行って、統計モデルを規定するパラメータを推定し、結果として得られる統計モデルを順次統計モデル記憶手段104に記憶する。結果として、T回の学習の後、統計モデル記憶手段104にはT個の統計モデルθ₁,…,θ_Tが記憶されている。ただしθ_iは、統計モデルを一意に指定するパラメータのセットであり、例えば音声認識用の音響モデルによく用いられる隠れマルコフモデルの場合は、状態遷移確率、混合ガウス分布の平均、分散、混合係数等のパラメータの一式がθ_iに含まれる。

データ認識手段106は、統計モデル記憶手段104に記憶されたT個の統計モデルを各々参照して、予備データ記憶手段105に記憶されたデータを認識し、T個の認識結果をデータごとに取得する。

情報量計算手段107は、データ認識手段106がデータごとに出力したT個の認識結果を相互に比較して、個々のデータの情報量を計算する。ここで情報量とは、データごとに算出される量で、T個の認識結果の多様性、すなわち不一致の度合いとする。すなわち、異なるT個のモデルが、すべて同じ認識結果を生成した場合、そのデータの情報量は低い。逆に、T個のモデルから生成された認識結果がまったく一致せず、T通りの異なる認識結果が出たならば、そのデータの情報量は高いと考える。

このような情報量を定量的に表す方法は種々考えられるが、以下にいくつかの例を示す。一つは、もっとも多く得られた認識結果の個数をr₁、2番目に多く得られた認識結果の個数をr₂として、その差分r₂-r₁を情報量と定義する方法である。例えばT個の認識結果がすべて同じ場合は、r₂-r₁=-Tで情報量は最小となり、T個の認識結果がすべて異なる場合などは、r₂-r₁=0で情報量は最大となる。別の例としては、認識結果iの個数をf_iとして、そのばらつきの度合いを数1のようなエントロピーで表現する方法も考えられる。

また別の例としては、データxに対するT個の認識結果をy₁,y₂,…,y_Tとして、これらの一致不一致を数2のように網羅的に計数してもよい。ただしδ_ijはクロネッカのデルタ、すなわち、i=jなら1、そうでなければ0を取る2値変数である。

認識結果が確率またはそれに準ずるスコアの形式で出力される場合には、さらに数2を拡張した別の例を考えることができる。すなわち、ある統計モデルθ_iによるデータxの認識結果y∈{1,2,…,C}(ただしCはカテゴリ総数)が確率分布p(y|x,θ_i)で出力される場合、数3のように、確率分布の差異をもとにして情報量を定義すればよい。

ここに、Dは確率分布間の相違度を測る何らかの尺度、例えばKLダイバージェンスなどである。

なお、認識結果yが、何らかの単位が連続する系列データである場合、すなわち、例えば大語彙連続音声認識の結果のように単語の列である場合は、単語単位に分割し、単語ごとに上述の計算を行うなどすればよい。

データ選択手段108は、情報量計算手段107が計算した情報量の値が所定のしきい値よりも低いデータ、あるいは情報量が小さい順に所定個数のデータを選択し、必要に応じてそれらのデータをディスプレイやスピーカー等を介して作業者等に提示し、正しいラベルの入力を受け取った上で、当該データを学習データ記憶手段101に追加し、当該データを予備データ記憶手段105から消去する。

以上の動作を所定の回数反復することにより、学習データ記憶手段101には、統計モデルの品質向上に有効なデータが効率よく蓄積される。そこで、所定回の反復が終わった後、統計モデル学習手段103は、学習データ記憶手段101に記憶された学習データすべてを用いて、1つの統計モデルを作成し、出力する。

次に、データ分類手段102およびデータ構造情報記憶手段109の動作について、より詳しく説明する。

前述したように、データ構造情報記憶手段109は、学習データ記憶手段101や予備データ記憶手段105に記憶されたデータが通常有する構造に関する情報が記憶されている。

例えばデータが音声信号であるとして、話者に関する構造情報をデータ構造情報記憶手段109に記憶する場合を考える。この場合、データ構造情報記憶手段109に記憶される構造情報は、典型的な話者T名分のモデルである。モデルの種類としては、公知のガウス混合モデル(Gaussian
Mixture ModelまたはGMM)などの確率モデルが好適と考えられる。よって以下ではGMMを仮定して説明を行うが、構造情報の表現に適していれば他の任意のモデルでもよく、また確率モデルをさらに特殊化したような単純な形式、例えば単なるデータ点(GMMの平均ベクトルなど)を用いることも可能である。

典型的な話者T名分のGMMの作成は、次のように行えばよい。すなわち、図2に示すように、様々な話者の発話が含まれる音声信号をデータ記憶手段201に収集し、クラスタリング手段202を用いて、K平均法(K-means法)等の公知のクラスタリング技術によりこれらの音声信号をT個のクラスタ(グループ)203-1〜203-Tに分類し、その後、生成手段204を用いて、クラスタ203-1〜203-Tごとに公知の最尤推定法等を適用して、T個のGMM λ₁,…,λ_T 205-1〜205-Tを作成する。

話者の代わりに雑音環境に関する構造情報をデータ構造情報記憶手段109に記憶する場合も同様である。また、話者、雑音環境、その他任意の要因を合わせた構造情報を記憶する場合は、様々な話者、雑音環境の発話が含まれる音声信号を収集し、上述の手順を実施すればよい。音声信号以外のデータ、例えば物体画像に対する照明条件や物体の向き(姿勢)、文字画像に対する筆者や筆記具、フォント等についても、同様の手順が実施可能であることは自明である。

データ分類手段102は、データ構造情報記憶手段109に記憶された構造情報であるところの、典型的な話者、雑音環境等に関するT個のモデルを参照し、学習データ記憶手段101に記憶されたデータからT個のサブセットS₁,…,S_Tを取り出す。具体的には、学習データ記憶手段101に記憶された個々のデータxと各GMMの類似度(近さ)p(x|λ_i)を計算し、各々のデータをT個のモデルのうち少なくとも一つに割り当てる。

具体的な割り当て方、すなわちサブセットS₁,…,S_Tの作り方については、いくつか考えられる。一つの例としては、数4のように、各々のデータを、T個のモデルのうちもっとも近いものに割り当てる(arg maxは目的関数が最大となるインデクスを取る演算子)。この場合は、T個のサブセットは、学習データ記憶手段101に記憶されたデータを、互いに重複がないように分割したものとなる。

別の例としては、学習データ記憶手段101に記憶された各々のデータとi番目のモデルとの類似度を計算し、数5のように所定のしきい値αよりも大きいデータをすべてi番目のモデルλ_iに割り当てることにしてもよい。この場合T個のサブセットは、互いに重複することがあり得る。

これと類似の例として、i番目のモデルλ_iとの類似度が近い順に、所定のデータ量に達するまで(所定の件数に達するまで、あるいは、もとのデータ量の所定割合に達するまで等)、データをモデルλ_iに対応付けるという方法も考えられる。

このように、データが有する構造に即してデータのサブセットを構成することには、データのある種の変動要因に対する統計モデルの頑健性を向上させるという意味がある。例えば、データとして音声信号があり、典型的な話者T名分のモデルλ₁,…,λ_Tを使ってT個のサブセットS₁,…,S_Tを構成し、ここからT個の統計モデルθ₁,…,θ_Tを作成した場合、これらの統計モデルは、話者の変動による統計モデルの変動を偏りなくカバーした統計モデル群と考えることができる。よって、統計モデルθ₁,…,θ_Tをもとにして算出された情報量は、話者の変動という変動要因に関して、そのデータが高い情報量を有するか否かを表していると考えられる。したがって、このような条件で情報量の高いデータに優先的にラベルを付与して統計モデルの学習に活用することは、話者の変動に対して頑健な統計モデルの獲得に有用と考えられる。

次に、図1および図3のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。

まず、データ分類手段102は、データ構造情報記憶手段109に記憶された、データの構造情報λ₁,…,λ_Tを読み込み(図3のステップA1)、カウンタiを1にセットし(ステップA2)、学習データ記憶手段101に記憶された学習データを読み込み(ステップA3)、前記構造情報を参照して、前記学習データからデータを選択して、数4や数5のような方法でT個のサブセットS₁,…,S_Tを作る(ステップA4)。次に、統計モデル学習手段103は、カウンタjを1にセットし(ステップA5)、j番目のサブセットS_jを用いて統計モデルの学習を行い、得られた統計モデルθ_jを統計モデル記憶手段104に記憶する(ステップA6)。次に、データ認識手段106は、前記j番目の統計モデルθ_jを参照しながら、予備データ記憶手段105に記憶された個々のデータを認識し、認識結果を取得する(ステップA7)。カウンタjがTよりも小さければ(ステップA8)、カウンタをインクリメントして(ステップA9)、ステップA6に戻り、そうでなければ次のステップに進む。

情報量計算手段107は、前記認識結果を用いて、予備データ記憶手段105に記憶された個々のデータごとに、数1、数2、数3などの計算式に従って情報量を計算する(ステップA10)。次に、データ選択手段108は、前記情報量が所定のしきい値よりも大きいデータを予備データ記憶手段105から選択し、必要に応じてディスプレイやスピーカー等を介して作業者等に提示し、正しいラベルの入力を受け取り(ステップA11)、当該データを学習データ記憶手段101に記録し、必要に応じて予備データ記憶手段105から消去する(ステップA12)。さらに、カウンタiが所定数Nに達していなければ(ステップA13)、カウンタをインクリメントして(ステップA14)、ステップA3に戻り、そうでなければ次のステップに進む。

最後に、統計モデル学習手段103は、学習データ記憶手段101に蓄積された学習データすべてを用いて、1つの統計モデルを作成した後、動作を終了する(ステップA15)。

なお、カウンタiによる終了判定は、所定回数Nの反復で動作を終了するという単純な条件判定であるが、これ以外の条件に置き換えたり、組み合わせたりしてもよい。例えば、学習データ記憶手段101に記憶された学習データが所定の量に達した時点で動作を終了するという条件判定を用いてもよいし、統計モデルθ₁,…,θ_Tの更新状況をみて、変化がなくなった時点で動作を終了するという条件判定を用いてもよい。

以上のように、本実施の形態では、データ分類手段102が、データ構造情報記憶手段109に記憶されたデータの構造情報、すなわち、音声信号に対する典型的な話者や雑音のモデル、物体画像に対する典型的な照明条件や物体の姿勢(向き)のモデル、といった情報を参照しながら、学習データ記憶手段101に記憶された学習データからデータを選択してT個のサブセットを作り、また統計モデル学習手段103が、前記T個のサブセットを用いて、前記データの構造情報に即したT個の統計モデルをモデル空間上の特定の領域に偏りなく配置する、というように構成されているため、個々の予備データが有する情報量を、前記データの構造情報の観点で正確に計算し、統計モデルの品質向上に有効なデータを効率的に選択でき、良質な統計モデルを低コストで作成することが可能となる。

ここで、低コストとは、一つには、予備データ記憶手段105にラベルを付与するコストを低く抑えられるという意味がある。さらにもう一つとして、学習データ記憶手段101に記憶されたデータ量を必要最小限に抑え、学習にかかる計算量を抑制できるという意味がある。特に後者は、仮に予備データ記憶手段105に記憶されたデータすべてにラベルが付与されていたとしても得られる効果である。

[第２の実施の形態]
次に、本発明の第２の実施の形態について、図面を参照して詳細に説明する。

図4を参照すると、本発明の第２の実施の形態は、入力装置41と、表示装置42と、データ処理装置43と、統計モデル学習用プログラム44と、記憶装置45とで構成されている。また、記憶装置45は、学習データ記憶手段451と、予備データ記憶手段452と、データ構造情報記憶手段453と、統計モデル記憶手段454とを有する。

統計モデル学習用プログラム44は、データ処理装置43に読み込まれ、データ処理装置43の動作を制御する。データ処理装置43は統計モデル学習用プログラム44の制御により以下の処理、すなわち第1の実施の形態におけるデータ分類手段102、統計モデル学習手段103、データ認識手段106、情報量計算手段107、データ選択手段108による処理と同一の処理を実行する。

まず、学習データ、予備データ、データ構造情報が、入力装置41を通して、記憶装置45内の学習データ記憶手段451、予備データ記憶手段452、データ構造情報記憶手段453にそれぞれ記憶される。なお、データ構造情報は図2で説明した処理をコンピュータに実行させるプログラムにより生成することができる。

次に、データ構造情報記憶手段453に記憶されたデータ構造情報を参照して、学習データ記憶手段451に記憶された学習データを分類し、所定のT個のサブセットを作成し、各々のサブセットについて統計モデルを学習し、得られた統計モデルを統計モデル記憶手段454に記憶し、上記統計モデルを用いて、予備データ記憶手段452に記憶された予備データを認識して認識結果を得る。

さらに、T個の統計モデルごとに得られた上記認識結果を用いて、個々の予備データの情報量を計算し、情報量の大きいデータを選択し、必要に応じて表示装置42を通して表示する。また、表示されたデータについて入力装置41を通して入力されたラベルを受け取り、当該データとともに学習データ記憶手段451に記憶し、必要に応じて当該データを予備データ記憶手段452から消去する。

以上の処理を所定回反復し、その後、学習データ記憶手段451に記憶されたデータすべてを用いて統計モデルを学習し、得られた統計モデルを統計モデル記憶手段454に記憶する。

[第３の実施の形態]
次に、本発明の第３の実施の形態を、図6を参照して説明する。図6は、本実施の形態における統計モデル学習装置の構成を示す機能ブロック図である。なお、本実施の形態では、上述した統計モデル学習装置の概略を説明する。

図6に示すように、本実施の形態における統計モデル学習装置は、学習対象となるデータが通常有する構造情報611を参照して、学習データ612から複数個のサブセット613を抽出するデータ分類手段601と、サブセット613を学習してそれぞれ統計モデル614を作成する統計モデル学習手段602と、それぞれの統計モデル614を用いて学習データ612と異なる別のデータ615を認識して認識結果616を取得するデータ認識手段603と、それぞれの統計モデル614から得られた認識結果616の不一致の度合いから別のデータ615の情報量を計算する情報量計算手段604と、別のデータ615の中から、情報量の高いものを選択し、学習データ612に追加するデータ選択手段605とを備えている。

そして、上記統計モデル学習装置では、データ分類手段601によるサブセット613の抽出、統計モデル学習手段602による統計モデルの作成、データ認識手段603による認識結果616の取得、情報量計算手段604による情報量の計算、および、データ選択手段605による学習データ612への別のデータ615の追加を1つのサイクルとして、所定の条件が満たされるまで上記サイクルを繰り返す、という構成を採る。

また、上記統計モデル学習装置では、統計モデル学習手段602は、上記所定の条件が満たされた後の学習データ612から１つの統計モデルを作成する、という構成を採る。

また、上記統計モデル学習装置では、学習対象となるデータが通常有する構造情報611は、データの変動要因に関するモデルである、という構成を採る。

また、上記統計モデル学習装置では、上記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットである、という構成を採る。

また、上記統計モデル学習装置では、上記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルである、という構成を採る。

また、上記統計モデル学習装置では、上記確率モデルはガウス混合モデルである、という構成を採る。

また、上記統計モデル学習装置では、変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類するクラスタリング手段と、上記クラスタ毎に上記ガウス混合モデルを生成するガウス混合モデル生成手段とを備える、という構成を採る。

また、上記統計モデル学習装置では、上記データは音声信号であり、上記変動要因は話者、雑音環境のうち少なくともいずれか一つである、という構成を採る。

また、上記統計モデル学習装置では、上記データは文字画像であり、上記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つである、という構成を採る。

また、上記統計モデル学習装置では、上記データは物体画像であり、上記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つである、という構成を採る。

また、上記統計モデル学習装置では、データ分類手段601は、上記確率モデルと上記ラベルが付与されたデータとの類似度に基づいて、上記ラベルが付与されたデータから複数個のサブセットを抽出する、という構成を採る。

また、上述した統計モデル学習装置が作動することにより実行される、本発明の他の形態である統計モデル学習方法は、学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出し、前記サブセットを学習してそれぞれ統計モデルを作成し、前記それぞれの統計モデルを用いて前記学習データと異なる別のデータを認識して認識結果を取得し、前記それぞれの統計モデルから得られた認識結果の不一致の度合いから前記別のデータの情報量を計算し、前記別のデータの中から、前記情報量の高いものを選択し、前記学習データに追加する、という構成を採る。

また、上記統計モデル学習方法では、上記複数個のサブセットの抽出、上記統計モデルの作成、上記別のデータの認識結果の取得、上記別のデータの情報量の計算、上記学習データへの追加を、1つのサイクルとして、所定の条件が満たされるまで上記サイクルを繰り返す、という構成を採る。

また、上記統計モデル学習方法では、上記所定の条件が満たされた後の上記学習データから１つの統計モデルを作成する、という構成を採る。

また、上記統計モデル学習方法では、上記データが通常有する構造情報は、データの変動要因に関するモデルである、という構成を採る。

また、上記統計モデル学習方法では、上記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットである、という構成を採る。

また、上記統計モデル学習方法では、上記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルである、という構成を採る。

また、上記統計モデル学習方法では、上記確率モデルはガウス混合モデルである、という構成を採る。

また、上記統計モデル学習方法では、変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類し、上記クラスタ毎に上記ガウス混合モデルを生成する、という構成を採る。

また、上記統計モデル学習方法では、上記データは音声信号であり、上記変動要因は話者、雑音環境のうち少なくともいずれか一つである、という構成を採る。

また、上記統計モデル学習方法では、上記データは文字画像であり、上記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つである、という構成を採る。

また、上記統計モデル学習方法では、上記データは物体画像であり、上記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つである、という構成を採る。

また、上記統計モデル学習方法では、上記複数個のサブセットの抽出では、上記確率モデルとラベルが付与されたデータとの類似度に基づいて、上記ラベルが付与されたデータから複数個のサブセットを抽出する、という構成を採る。

また、上述した統計モデル学習装置および方法は、コンピュータに、プログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出するデータ分類処理と、上記サブセットを学習してそれぞれ統計モデルを作成する統計モデル学習処理と、上記それぞれの統計モデルを用いて上記学習データと異なる別のデータを認識して認識結果を取得するデータ認識処理と、上記それぞれの統計モデルから得られた認識結果の不一致の度合いから上記別のデータの情報量を計算する情報量計算処理と、上記別のデータの中から、上記情報量の高いものを選択し、上記学習データに追加するデータ選択処理とを、コンピュータに実行させる、という構成を採る。

また、上記プログラムでは、上記データ分類処理、上記統計モデル学習処理、上記データ認識処理、上記情報量計算処理および上記データ選択処理を1つのサイクルとして、所定の条件が満たされるまで上記サイクルを繰り返す、という構成を採る。

また、上記プログラムでは、上記所定の条件が満たされた後の上記学習データから１つの統計モデルを作成する処理を、上記コンピュータにさらに実行させる、という構成を採る。

また、上記プログラムでは、上記データが通常有する構造情報は、データの変動要因に関するモデルである、という構成を採る。

また、上記プログラムでは、上記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットである、という構成を採る。

また、上記プログラムでは、上記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルである、という構成を採る。

また、上記プログラムでは、上記確率モデルはガウス混合モデルである、という構成を採る。

また、上記プログラムでは、変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類し、上記クラスタ毎に上記ガウス混合モデルを生成する処理を、上記コンピュータにさらに行わせる、という構成を採る。

また、上記プログラムでは、上記データは音声信号であり、上記変動要因は話者、雑音環境のうち少なくともいずれか一つである、という構成を採る。

また、上記プログラムでは、上記データは文字画像であり、上記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つである、という構成を採る。

また、上記プログラムでは、上記データは物体画像であり、上記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つである、という構成を採る。

また、上記プログラムでは、上記データ分類処理では、上記確率モデルとラベルが付与されたデータとの類似度に基づいて、上記ラベルが付与されたデータから複数個のサブセットを抽出する、という構成を採る。

上述した構成を有する、統計モデル学習方法、又は、プログラム、の発明であっても、上記統計モデル学習装置と同様の作用を有するために、上述した本発明の目的を達成することができる。

以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。

なお、本発明は、日本国にて２００８年１０月２１日に特許出願された特願２００８−２７０８０２の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。

本発明によれば、音声認識装置、文字認識装置、生体個人認証装置を含む各種パタン認識装置、パタン認識用プログラムが参照する統計モデルを学習する統計モデル学習装置や、統計モデル学習をコンピュータに実現させるためのプログラムといった用途に広く適用できる。

101…学習データ記憶手段
102…データ分類手段
103…統計モデル学習手段
104…統計モデル記憶手段
105…予備データ記憶手段
106…データ認識手段
107…情報量計算手段
108…データ選択手段
109…データ構造情報記憶手段
201…データ記憶手段
202…クラスタリング手段
203-1〜203-T…クラスタ
204…生成手段
205-1〜205-T…GMM λ₁〜λ_T
501…ラベル付きデータ記憶手段
502…統計モデル学習手段
503…統計モデル記憶手段
504…ラベルなしデータ記憶手段
505…データ認識手段
506…信頼度計算手段
507…データ選択手段
41…入力装置
42…表示装置
43…データ処理装置
44…統計モデル学習用プログラム
45…記憶装置
451…学習データ記憶手段
452…予備データ記憶手段
453…データ構造情報記憶手段
454…統計モデル記憶手段

Claims

学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出するデータ分類手段と、
前記サブセットを学習してそれぞれ統計モデルを作成する統計モデル学習手段と、
前記それぞれの統計モデルを用いて前記学習データと異なる別のデータを認識して認識結果を取得するデータ認識手段と、
前記それぞれの統計モデルから得られた認識結果の不一致の度合いから前記別のデータの情報量を計算する情報量計算手段と、
前記別のデータの中から、前記情報量の高いものを選択し、前記学習データに追加するデータ選択手段と
を備えたことを特徴とする統計モデル学習装置。
前記データ分類手段による前記サブセットの抽出、前記統計モデル学習手段による統計モデルの作成、前記データ認識手段による認識結果の取得、前記情報量計算手段による情報量の計算、および、前記データ選択手段による前記学習データへの別のデータの追加を1つのサイクルとして、所定の条件が満たされるまで前記サイクルを繰り返すことを特徴とする請求項1記載の統計モデル学習装置。
前記統計モデル学習手段は、前記所定の条件が満たされた後の前記学習データから１つの統計モデルを作成することを特徴とする請求項2記載の統計モデル学習装置。
前記データが通常有する構造情報は、データの変動要因に関するモデルであることを特徴とする請求項1乃至3の何れか1項に記載の統計モデル学習装置。
前記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットであることを特徴とする請求項4記載の統計モデル学習装置。
前記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルであることを特徴とする請求項4記載の統計モデル学習装置。
前記確率モデルはガウス混合モデルであることを特徴とする請求項6記載の統計モデル学習装置。
変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類するクラスタリング手段と、前記クラスタ毎に前記ガウス混合モデルを生成するガウス混合モデル生成手段とを備えることを特徴とする請求項7記載の統計モデル学習装置。
前記データは音声信号であり、前記変動要因は話者、雑音環境のうち少なくともいずれか一つであることを特徴とする請求項4乃至8の何れか1項に記載の統計モデル学習装置。
前記データは文字画像であり、前記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つであることを特徴とする請求項4乃至8の何れか1項に記載の統計モデル学習装置。
前記データは物体画像であり、前記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つであることを特徴とする請求項4乃至8の何れか1項に記載の統計モデル学習装置。
前記データ分類手段は、前記確率モデルとラベルが付与されたデータとの類似度に基づいて、前記ラベルが付与されたデータから複数個のサブセットを抽出することを特徴とする請求項6乃至8の何れか1項に記載の統計モデル学習装置。
学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出し、
前記サブセットを学習してそれぞれ統計モデルを作成し、
前記それぞれの統計モデルを用いて前記学習データと異なる別のデータを認識して認識結果を取得し、
前記それぞれの統計モデルから得られた認識結果の不一致の度合いから前記別のデータの情報量を計算し、
前記別のデータの中から、前記情報量の高いものを選択し、前記学習データに追加する、
ことを特徴とする統計モデル学習方法。
前記複数個のサブセットの抽出、前記統計モデルの作成、前記別のデータの認識結果の取得、前記別のデータの情報量の計算、前記学習データへの追加を、1つのサイクルとして、所定の条件が満たされるまで前記サイクルを繰り返すことを特徴とする請求項13記載の統計モデル学習方法。
前記所定の条件が満たされた後の前記学習データから１つの統計モデルを作成することを特徴とする請求項14記載の統計モデル学習方法。
前記データが通常有する構造情報は、データの変動要因に関するモデルであることを特徴とする請求項13乃至15の何れか1項に記載の統計モデル学習方法。
前記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットであることを特徴とする請求項16記載の統計モデル学習方法。
前記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルであることを特徴とする請求項16記載の統計モデル学習方法。
前記確率モデルはガウス混合モデルであることを特徴とする請求項18記載の統計モデル学習方法。
変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類し、前記クラスタ毎に前記ガウス混合モデルを生成することを特徴とする請求項19記載の統計モデル学習方法。
前記データは音声信号であり、前記変動要因は話者、雑音環境のうち少なくともいずれか一つであることを特徴とする請求項16乃至20の何れか1項に記載の統計モデル学習方法。
前記データは文字画像であり、前記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つであることを特徴とする請求項16乃至20の何れか1項に記載の統計モデル学習方法。
前記データは物体画像であり、前記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つであることを特徴とする請求項16乃至20の何れか1項に記載の統計モデル学習方法。
前記複数個のサブセットの抽出では、前記確率モデルとラベルが付与されたデータとの類似度に基づいて、前記ラベルが付与されたデータから複数個のサブセットを抽出することを特徴とする請求項18乃至20の何れか1項に記載の統計モデル学習方法。
学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出するデータ分類処理と、
前記サブセットを学習してそれぞれ統計モデルを作成する統計モデル学習処理と、
前記それぞれの統計モデルを用いて前記学習データと異なる別のデータを認識して認識結果を取得するデータ認識処理と、
前記それぞれの統計モデルから得られた認識結果の不一致の度合いから前記別のデータの情報量を計算する情報量計算処理と、
前記別のデータの中から、前記情報量の高いものを選択し、前記学習データに追加するデータ選択処理と
をコンピュータに実行させるためのプログラム。
前記データ分類処理、前記統計モデル学習処理、前記データ認識処理、前記情報量計算処理および前記データ選択処理を1つのサイクルとして、所定の条件が満たされるまで前記サイクルを繰り返すことを特徴とする請求項25記載のプログラム。
前記所定の条件が満たされた後の前記学習データから１つの統計モデルを作成する処理を、前記コンピュータにさらに実行させることを特徴とする請求項26記載のプログラム。
前記データが通常有する構造情報は、データの変動要因に関するモデルであることを特徴とする請求項25乃至27の何れか1項に記載のプログラム。
前記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットであることを特徴とする請求項28記載のプログラム。
前記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルであることを特徴とする請求項28記載のプログラム。
前記確率モデルはガウス混合モデルであることを特徴とする請求項30記載のプログラム。
変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類し、前記クラスタ毎に前記ガウス混合モデルを生成する処理を、前記コンピュータにさらに行わせることを特徴とする請求項31記載のプログラム。
前記データは音声信号であり、前記変動要因は話者、雑音環境のうち少なくともいずれか一つであることを特徴とする請求項28乃至32の何れか1項に記載のプログラム。
前記データは文字画像であり、前記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つであることを特徴とする請求項28乃至32の何れか1項に記載のプログラム。
前記データは物体画像であり、前記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つであることを特徴とする請求項28乃至32の何れか1項に記載のプログラム。
前記データ分類処理では、前記確率モデルとラベルが付与されたデータとの類似度に基づいて、前記ラベルが付与されたデータから複数個のサブセットを抽出することを特徴とする請求項30乃至32の何れか1項に記載のプログラム。
前記所定の条件は、前記サイクルの繰り返し数、前記学習データの量、または、前記統計モデルの更新状況の何れか1つまたは複数の組み合わせによって定められていることを特徴とする請求項2または3記載の統計モデル学習装置。