JP2011065579A

JP2011065579A - 標準パタン学習装置、ラベル付与基準算出装置、標準パタン学習方法およびプログラム

Info

Publication number: JP2011065579A
Application number: JP2009217804A
Authority: JP
Inventors: Yoshifumi Onishi; 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-09-18
Filing date: 2009-09-18
Publication date: 2011-03-31
Anticipated expiration: 2029-09-18
Also published as: JP5387274B2

Abstract

【課題】ラベルあり学習データとラベルなし学習データとを用いた識別モデルおよび生成モデルの統合学習において、識別モデルの性能を高める。
【解決手段】ラベルあり学習データと、ラベルなし学習データとを用いて、識別モデルと生成モデルとを当該２つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習する識別生成モデル統合学習手段５００と、識別生成モデル統合学習手段５００に与えられる各ラベルなし学習データに対して、識別生成モデル統合学習手段５００により学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、識別モデルと生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出手段５０１とを備える。
【選択図】図５

Description

本発明は、識別モデルと生成モデルとを用いて導出される標準パタンを学習する標準パタン学習装置、ラベル付与基準算出装置、標準パタン学習方法および標準パタン学習用プログラムに関する。

標準パタン学習システムの一例が、非特許文献１や非特許文献２に記載されている。非特許文献１や非特許文献２に記載された標準パタン学習システムは、概略次のように動作する。

すなわち、特徴量とその特徴量が属するクラスを示す教師ラベルが与えられたラベルあり学習データと、特徴量集合だけで教師ラベルは与えられていないデータ集合であるラベルなし学習データとを用いて識別・生成モデルを統合的に学習して、識別モデルのパラメタθと生成モデルのパラメタθ’を算出し、識別モデルのパラメタθを有する確率分布モデルを標準パタンとして出力する。

［データ集合］
以下の式（１）に示すように、特徴量ｘとそのｘが属するクラスｃが与えられたデータ集合をＬ、クラスラベル（教師ラベル）が与えられない特徴量の集合をＵとし、ラベルあり学習データとしてＬを、ラベルなし学習データとしてＤをそれぞれ記憶する。なお、以下の式（２）に示すように、全データ集合はＬとＵの和集合でＤとする。

Ｌ＝｛ｘ_ｌ，ｃ_ｌ｝、Ｕ＝｛ｘ_ｕ｝・・・式（１）
Ｄ＝Ｌ∪Ｕ・・・式（２）

［モデル］
また、識別モデルパラメタθ、生成モデルパラメタθ’が与えられた時、特徴量ｘとクラスｃの同時出力確率分布ｑを、以下の式（３）のように定義する。

ｑ（ｘ，ｃ｜θ，θ’）＝ｐ（ｃ｜ｘ，θ）ｐ（ｘ｜θ’）・・・式（３）

ｑは、式（３）の右辺より、識別モデルパラメタθを有し特徴量ｘが与えられた時のクラス出現確率分布を与える識別モデルと、生成モデルパラメタθ’を有し特徴量ｘの出現確率分布を与える生成モデルの積から構成されている。また、ベイズの定理より以下の式（４）、および確率分布の周辺化より以下の式（５）の関係が成立する。

さらに、以下の式（６）により、基本となる確率分布モデルは、クラスｃと識別モデルパラメタθまたは生成モデルパラメタθ’が与えられた時の特徴量出力分布と、各クラス出現の事前分布との積である。

ｐ（ｘ，ｃ｜λ）＝ｐ（ｘ｜ｃ，λ）ｐ（ｃ）， λ＝θorθ’ ・・・式（６）

すなわち、識別モデルパラメタθ、生成モデルパラメタθ’は、共に同じ確率モデル族ｐ（ｘ｜ｃ，λ）における、異なるパラメタ点を表していることとなる。

［学習］
式（３）で示したモデルｑを用いて、識別モデルと生成モデルの学習を行う。本例では、以下に示す式（７）により、全データ集合Ｄが与えられた時の尤度が最大となるように、識別モデルパラメタθと生成モデルパラメタθ’を同時最適化する。

ここで、ｐ（θ，θ’）は、識別モデルと生成モデルの関係を表す事前知識であり、例えば、以下の式（８）に示すように、θの事前分布ｆとθ’の事前分布ｇ、およびθとθ’の乖離に対する罰則項（この場合は分散σをもつモデル間距離‖θ−θ’‖に対する正規分布）で与えられる。

識別モデルおよび生成モデルの統合学習においては、図４に示すように、クラスラベルが与えられたデータを識別モデルが、全データ特徴量の分布を生成モデルが表現し、さらに両モデルのパラメタが罰則項で関係づけられた構造となる。

学習されたパラメタはそれぞれ、識別モデルパラメタθ、生成モデルパラメタθ’として保存され、識別モデルパラメタを有する確率分布モデルを標準パタンとして出力する。

T.Minka, "discriminative models, not discriminative training", Technical report, Microsoft Research, Cambridge, UK, 2005 J.A.Lasserre, C.M.Bishop, T.P.Minka, "Principled Hybrids of Generative and Discriminative Models", IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), vol.1, 2006, p.87-p.94

しかし、非特許文献１および非特許文献２に示された学習方法によると、式（４）の識別モデルを単体で学習する際の教師ラベルが必須であるという問題がある。また、クラス出現確率分布をモデル化しているため学習データが十分にない場合やクラスごとのデータに偏りが大きい場合に頑健な学習が難しいという問題がある。

例えば、与えられたラベルあり学習データとラベルなし学習データを用いて、識別モデルと生成モデルの統合学習を行うことにより、生成モデルパラメタから離れると罰則が与えられる制約のもと学習された識別モデルパラメタを有する標準パタンを学習するため、ラベルあり学習データが少ないクラスに対しては生成モデルのパラメタに近い値が選択されてしまう。このような場合に、識別モデルの性能が十分に得られないという問題がある。

そこで、本発明は、ラベルあり学習データとラベルなし学習データとを用いた識別モデルおよび生成モデルの統合学習において、識別モデルの性能を高めることができる標準パタン学習装置、ラベル付与基準算出装置、標準パタン学習方法および標準パタン学習用プログラムを提供することを目的とする。

本発明による標準パタン学習装置は、入力されたデータが属するクラスを識別するためのモデルである識別モデルと、クラスラベルに対してデータ出力の確率分布を求めるためのモデルである生成モデルとを用いて導出される、入力されたデータが属するクラスの情報であるクラスラベルに対するデータをモデル化した情報である標準パタンを学習する標準パタン学習装置であって、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データと、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データとを用いて、識別モデルと生成モデルとを当該２つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習する識別生成モデル統合学習手段と、識別生成モデル統合学習手段に与えられる各ラベルなし学習データに対して、識別生成モデル統合学習手段により学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、識別モデルと生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出手段とを備えたことを特徴とする。

また、本発明によるラベル付与基準算出装置は、入力されたデータが属するクラスを識別するためのモデルである識別モデルと、クラスラベルに対してデータ出力の確率分布を求めるためのモデルである生成モデルとを統合的に学習する学習装置に学習用に与えられるデータまたはその特徴量であって、当該データが属するクラスの情報であるクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データに対して、学習装置によって学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、識別モデルと生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出手段を備えたことを特徴とする。

また、本発明による標準パタン学習方法は、入力されたデータが属するクラスを識別するためのモデルである識別モデルと、クラスラベルに対してデータ出力の確率分布を求めるためのモデルである生成モデルとを用いて導出される、入力されたデータが属するクラスの情報であるクラスラベルに対するデータをモデル化した情報である標準パタンを学習するための標準パタン学習方法であって、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データと、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データとを用いて、識別モデルと生成モデルとを当該２つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習し、識別モデルと生成モデルの統合学習用に与えられる各ラベルなし学習データに対して、学習結果として得られた識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、識別モデルと生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出することを特徴とする。

また、本発明による標準パタン学習用プログラムは、入力されたデータが属するクラスを識別するためのモデルである識別モデルと、クラスラベルに対してデータ出力の確率分布を求めるためのモデルである生成モデルとを用いて導出される、入力されたデータが属するクラスの情報であるクラスラベルに対するデータをモデル化した情報である標準パタンを学習するための標準パタン学習用プログラムであって、コンピュータに、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データと、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データとを用いて、識別モデルと生成モデルとを当該２つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習する識別生成モデル統合学習処理と、識別生成モデル統合学習処理に与えられる各ラベルなし学習データに対して、識別生成モデル統合学習処理で学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、識別モデルと生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出処理とを実行させることを特徴とする。

本発明によれば、ラベルあり学習データとラベルなし学習データとを用いた識別モデルおよび生成モデルの統合学習において、学習される識別モデルの性能を高めるのに有効な、ラベル付与基準を提示することができる。従って、識別モデルの性能を高めることができる。

本発明による標準パタン学習装置の構成例を示すブロックである。本実施形態の標準パタン学習装置の動作の一例を示すフローチャートである。クラス推定結果の場合分けの例を示す説明図である。識別モデルと生成モデルの統合学習におけるモデル構造を説明するための説明図である。本発明の概要を示すブロック図である。本発明による標準パタン学習装置の他の構成例を示すブロック図である。

まず、本発明で使用する用語について説明する。標準パタンとは、入力されたデータに対して、そのデータが何であるかを自動的に認識するシステムにおいて、事前に与えられたデータとその教師ラベルとを用いて、各教師ラベルに対するデータをモデル化したものをいう。例えば、自動認識システムにおいて、属するクラスが未知の入力データに対して、標準パタンと比較して類似性を算出し、どのクラスに属するものかを推定するために用いられる。ここで、教師ラベルとは、学習データに与えられるクラスラベルであって、そのデータがそのクラスに属するかを示す情報をいう。なお、自動認識システムには、部分的に教師ラベルがないデータを含めて学習する形態も含む。

また、本発明では、標準パタンは、識別モデルと生成モデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと、識別モデルと生成モデルの両方を学習する統合学習により、導出されるものとする。ここで、識別モデルとは、ｐ（ｃ｜ｘ，θ）で表されるような、データが入力されたときにクラスラベルが直接出力される確率分布モデルをいう。また、生成モデルとは、ｐ（ｘ｜ｃ，θ’）で表されるような、あるクラスラベルに対してデータ出力に対する確率分布モデルをいう。両モデルとも確率分布モデルであると一般化されるが、上述した数（３）〜（５）になるような関係があるものとする。また、モデルパラメタθ，θ’は、例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）やＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）といった確率分布モデルによって実現される識別モデルや生成モデルを一意に特定づける数値の集合をいう。

なお、両モデルが乖離するとは、同じ確率分布モデル族に属する識別モデルと生成モデルとの間で、各モデルが有するパラメタθ（識別モデルパラメタθ）とθ’（生成モデルパラメタθ’）の値が大きく異なる状況のことを指す。より具体的には、予め定められた範囲を超えた差分がでることをいう。

次に本発明を実施するための形態について図面を参照して説明する。図１は、本発明による標準パタン学習装置の構成例を示すブロックである。図１に示す標準パタン学習装置１００は、ラベルあり学習データ記憶部１１０と、ラベルなし学習データ記憶部１１１と、識別・生成モデル統合学習部１１２と、識別モデルパラメタ記憶部１１３と、生成モデルパラメタ記憶部１１４と、ラベル付与基準算出部１１５と、追加ラベル付与基準出力部１１６と追加ラベル入力部１１７と、学習データ更新部１１８と、標準パタン出力部１１９とを備える。

標準パタン学習装置１００は、これら各手段を実現するハードウェア、ソフトウェアおよびこれらの組み合わせにより実現される。例えば、パーソナルコンピュータによって実現可能である。

ラベルあり学習データ記憶部１１０は、学習データである特徴量を示す情報と、その特徴量が属するクラスの情報である教師ラベルとを対応づけて記憶する。すなわち、ラベルあり学習データ記憶部１１０は、教師ラベルが付与された特徴量を学習データとして記憶する。以下、ラベルあり学習データ記憶部１１０が記憶する学習データを、ラベルあり学習データを呼ぶ場合がある。

ラベルなし学習データ記憶部１１１は、学習データである特徴量を示す情報を記憶する。ラベルなし学習データ記憶部１１１に記憶される特徴量には、教師ラベルが付与されていない。以下、ラベルなし学習データ記憶部１１１が記憶する学習データを、ラベルなし学習データを呼ぶ場合がある。

識別・生成モデル統合学習部１１２は、ラベルあり学習データ記憶部１１０に記憶されているラベルあり学習データと、ラベルなし学習データ記憶部１１１に記憶されているラベルなし学習データとを用いて、識別モデルパラメタと生成モデルパラメタとを統合的に学習する。識別・生成モデル統合学習部１１２は、識別モデルパラメタと生成モデルパラメタの統合学習において、両モデル（識別モデルおよび生成モデル）が乖離すると罰則が与えられる制約のもと、それぞれのパラメタを算出することにより、両モデルを統合的に学習する。また、統合学習において求めたパラメタを、識別モデルパラメタ記憶部１１３と生成モデルパラメタ記憶部１１４とに記憶させる。

識別モデルパラメタ記憶部１１３は、識別モデルについての学習結果である識別モデルパラメタθを記憶する。生成モデルパラメタ記憶部１１４は、生成モデルについての学習結果である生成モデルパラメタθ’を記憶する。

ラベル付与基準算出部１１５は、ラベルなし学習データ記憶部１１１に記憶されている学習データに対して、識別・生成モデル統合学習部１１２により学習された識別モデルおよび生成モデルのそれぞれを用いてクラスの識別処理をしてクラスラベルを推定する。そして、両モデルによる推定結果が異なるデータについて追加ラベルを付与すべきであるとしてラベル付与基準を算出し、その結果を追加ラベル付与基準出力部１１６で出力する。

ここで、ラベル付与基準とは、該当するデータに新たにラベルを付与すべき旨（またはその度合い）を示すための情報であって、ラベルなし学習データの中から該当する一部のデータに対して付加される情報である。本実施形態では、両モデルでのラベル推定値の算出結果を比較処理することにより求める。

ラベル付与基準出力部１１６は、ラベル付与基準算出部１１５が算出した、ラベルなし学習データに対するラベル付与基準をユーザに提示可能なように出力する。

追加ラベル入力部１１７は、ラベル付与基準算出部１１５で算出された基準に従い、追加されたラベルを入力する。例えば、ユーザにラベル付与基準を提示し、ユーザがそのラベル付与基準により追加ラベルが必要であると示された学習データに対して、適当なラベルの情報を入力してもよい。そのような場合には、追加ラベル入力部１１７は、ユーザ操作に応じて、キーボードやファイル、通信等の入力手段を介してラベルの情報を入力すればよい。

学習データ更新部１１８は、この追加されたラベルと、それに対応するラベルなし学習データ（より具体的にはラベルなし学習データ記憶部１１１に記憶されている、ラベルが付与されていない特徴量を示す情報）とを合わせて、ラベルあり学習データ記憶部１１０に移動して、学習データを更新する。

標準パタン出力部１１９は、最終的に学習された識別モデルパラメタを有する確率分布モデルを標準パタンとして出力する。

なお、本実施形態において、ラベルあり学習データ記憶部１１０、ラベルなし学習データ記憶部１１１、識別モデルパラメタ記憶部１１３、生成モデルパラメタ記憶部１１４は、例えば、メモリなどの記憶装置によって実現される。なお、データベースシステムのように、その記憶装置に対するアクセス制御を行う制御手段を含んでいてもよい。また、識別・生成モデル統合学習部１１２、ラベル付与基準算出部１１５、学習データ更新部１１８は、例えば、ＣＰＵ等のプログラムに従って動作する情報処理装置によって実現される。また、追加ラベル入力部１１７は、例えば、各種入力装置（マウス、キーボード、ファイル入力インタフェース、通信インタフェース等）とＣＰＵ等のプログラムに従って動作する情報処理装置とによって実現される。また、ラベル付与基準出力部１１６、標準パタン出力部１１９は、例えば、各種出力装置（ディスプレイ、ファイル出力インタフェース、通信インタフェース等）とＣＰＵ等のプログラムに従って動作する情報処理装置とによって実現される。

次に、本実施形態の動作について説明する。図２は、本実施形態の標準パタン学習装置の動作の一例を示すフローチャートである。図２に示す例では、まず識別・生成モデル統合学習部１１２は、与えられたラベルあり学習データとラベルなし学習データとを用いて、識別モデルと生成モデルとを統合的に学習する（ステップＳ１０１）。なお、学習処理については、別途、統合学習を行う既存の学習装置を利用して行うようにしてもよい。そのような場合には、学習結果としての両モデルのパラメタがそれぞれ、識別モデルパラメタ記憶部１１３と生成モデルパラメタ記憶部１１４とに記憶されるようになっていればよい。

学習結果としての両モデルのパラメタが得られると、標準パタン学習装置は、予め定めておいた標準パタンの出力基準を満たすまで、以下の処理を繰り返す（ステップＳ１０２のＮｏ）。

まず、ラベル付与基準算出部１１５は、学習された両モデル（識別モデルと生成モデル）を用いて、ラベルなし学習データを識別する（ステップＳ１０３）。そして、両モデルの識別結果から、ラベル付与基準を算出する（ステップＳ１０４）。ラベル付与基準算出部１１５は、例えば、両モデルを用いて、ラベルなし学習データそれぞれに対してクラスの識別処理を行うことにより、学習データに付与されるクラスラベルを推定し、その推定結果が異なる学習データに対して、追加ラベルを付与すべき旨を示すラベル付与基準を与えればよい。

次に、ラベル付与基準出力部１１６は、ラベル付与基準算出部１１５が算出したラベルなし学習データに対するラベル付与基準をユーザに提示可能なように出力する（ステップＳ１０５）。なお、いずれのラベルなし学習データに対しても追加ラベルを付与すべきとするラベル付与基準が与えられなかった場合には、その旨を提示してそのまま処理を終了してもよい。

次いで、追加ラベル入力部１１７により、ラベル付与基準算出部１１５で算出された基準に従い、追加ラベルが入力されると（ステップＳ１０６のＹｅｓ）、学習データ更新部１１８は、入力された追加ラベルを該当するラベルなし学習データに付与し、学習データを更新する（ステップＳ１０７，Ｓ１０８）。ここでは、ラベルなし学習データ記憶部１１１に記憶されている付与対象とされたラベルなし学習データに、入力された追加ラベルを付与してラベルあり学習データとし、ラベルなし学習データ記憶部１１１からラベルあり学習データ記憶部１１０に移動して記憶させる。

一方、いずれの学習データに対しても追加ラベルの付与を必要としない旨のラベル付与基準が算出された場合など、ラベル付与基準に従い追加ラベルの入力がない場合には（ステップＳ１０６のＮｏ）、それまでの学習結果から特定される標準パタンを出力して処理を終了してもよい（ステップＳ１０９）。

他方、ステップＳ１０８において学習データを更新した場合には、更新された学習データを用いて、識別・生成モデル統合学習部１１２が、再度識別モデルと生成モデルの統合学習を行う（ステップＳ１０１に戻る）。学習データを更新することにより、識別・生成モデル統合学習において、識別モデル、生成モデルが異なるクラス推定結果を生じさせることができる。

なお、本実施形態では、学習データの更新に伴って、識別・生成モデル統合学習部１１２が、学習データ更新部１１８により更新された学習データ（ラベルあり学習データおよびラベルなし学習データ）を用いて、識別モデルパラメタと生成モデルパラメタとを同様に統合的に学習した後は、その学習結果に基づき、さらにラベル付与基準算出を行って、再度必要であれば追加ラベルを付与する。このようにして、標準パタンの出力基準を満たすまで、算出された基準に基づく追加ラベルの付与により更新された学習データを用いて識別・生成モデルの統合学習を繰り返し実行する。

標準パタンの出力基準としては、例えば、学習されたモデルのパラメタ移動量が所定の値まで小さくなるまで、または学習されたモデルの性能テストで所定の基準以上の性能が確保されるまで、あるいは追加ラベルの入力上限が指定された数に達するまで、といったものが考えられる。

学習データの更新に伴う統合学習の繰り返し処理の結果、標準パタンの出力基準を満たした場合には（ステップＳ１０２のＹｅｓ）、それまでの学習結果から特定される標準パタンを出力して処理を終了する（ステップＳ１０９）。

以上のように、本実施形態によれば、与えられたラベルなし学習データに対して、学習されるモデルの性能を高めるのに有効なラベル付与基準を示すことができる。その理由は学習された両モデルを用いて推定したクラスラベルが異なるところは、クラス判別が困難な部分であり、その部分に教師ラベルを付与することは識別モデルの性能を高めるのに有効であるためである。またこれにより、ラベル付与基準で提示されたラベルを追加して識別・生成モデル統合学習を行うことで識別モデルの性能を効果的に高めることができる。

また、図３は、ラベル付与基準算出部１１５における、クラス推定結果の場合分けの例を示す説明図である。ラベル付与基準算出部１１５において、クラス推定結果が異なる結果となる場合については図３に示すように、生成モデルパラメタと識別モデルパラメタのどちらか一方のみ正解あるいは両方誤りの場合が含まれる。これらはいずれも学習が不十分な場合で、識別・生成モデル統合学習において、当該クラスのラベル付き学習データの追加が有効となる場合である。一方、共に結果は一致するが両方不正解となる場合については、これも学習データが不十分な場合であるが、識別・生成モデル統合学習特有のものでなく、識別モデルのみあるいは生成モデルのみの学習方式であってもデータ量が足りない場合に当たる。この場合はクラス推定結果の信頼度などが低い場合に教師ラベルを追加すればよいが、この技術は通常のモデル学習において考えられる技術であり、本発明と組み合わせることは容易である。

またさらに、ここで学習データ全体を途中で増減させない場合特に明らかなように、本発明においては全体の学習データは変わらず、そのなかで教師ラベルを付与すべき優先順位を示しそれに従って教師ラベルを追加して学習データ更新を行い識別・生成モデル統合学習を行っている。このため学習の目的関数は常に同一の基準が保たれており、矛盾しない学習基準を保ったまま、ラベル付与基準を提示して学習の効率を高めている。これにより従前の識別・生成モデル統合学習が獲得した問題点の回避、すなわち、学習に教師ラベルが必須である問題点と、クラス出現確率分布をモデル化しているため学習データが十分にない場合やクラスごとのデータに偏りが大きい場合に頑健な学習が難しい問題点の回避といった利点を保ったまま、さらに学習されるモデルの性能を効率的に高めることができる。

なお、教師ラベルを付与すべき優先順位とは、ラベルなし学習データ全体のうちの個々の学習データに対する優先順位（追加ラベルを付与すべき度合い）をいい、これは追加ラベル付与基準算出部１１５が求めた個々の学習データに対する追加ラベル付与基準によって示すことが可能なものである。すなわち、本実施形態によれば、追加ラベル付与基準によって指示されたデータに教師ラベルを付与するのが最も望ましいということをユーザに示すことができるので、ユーザは追加ラベル付与基準に従って教師ラベルを付与することで、ラベル付与コストを抑えつつ、最適なラベルを付与することが可能になる。

これは、教師ラベルなしの学習データを作成するのは容易だが、教師ラベルなしでは識別モデルを学習できないという前提状況の下、ラベル付き学習データを用いて識別モデルを学習するのが最も性能がよくなる方法ではあるが、その教師ラベル付き学習データを作成するのにコストがかかるという問題点を改善するものである。

このような前提状況において、低いコストで性能のよい識別モデルを学習するために、本実施形態では、学習データ全体に対してどのデータにラベルが付与されるべきかの制御を加えている。なお、学習方法の中心部分は変化を要しない。このため、内在させる学習方法により獲得される効果を損なわず、または学習の目的関数は常に同一の基準や矛盾しない学習基準を保ったまま、学習されるモデルの性能を高めることができる。

一方で、学習データにラベルを付与することはユーザに高コストを強いる問題であるところ、本実施形態によれば、満遍なくラベルを付与するのではなく、優先順位が示すところにラベルを付与すれば、もっとも低コストで効果が高いところにラベルを付与することができ、これにより低いコストで学習の効果を高められるといった新たな効果を付け加えることが可能となる。

次に、具体的な実施例を用いて本実施形態の動作を説明する。以下では、標準パタンとして、音声認識のための音響モデルを学習する場合を例に説明する。

特徴量ｘは、例えば、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）系列を用いる。クラスラベルｃは音素列とする。なお、音素単位としては、例えば、モノフォンやトライフォンを用いればよい。

ラベルあり学習データ記憶部１１０には、発話内容が書き起こされた音声データから導出された、特徴量ｘとクラスラベルｃとが対応つけられて記憶されている。また、ラベルなし学習データ記憶部１１１には、発話内容の書き起こしが存在しない音声データから導出された特徴量ｘが記憶されている。一般に、学習データ構築において音声データの記録に比較して発話内容の書き起こしはコストが高いため、ラベルあり学習データのコストを抑えるべく、ラベルあり学習データの量はラベルなし学習データに比べて少なくてよい。ラベルあり学習データは、初期の学習のため一定量を事前に準備しておき、用いることとする。

識別・生成モデル統合学習部１１２が行う学習処理は、例えば、既に説明した非特許文献１、２に記載されている方法を用いてもよい。音声モデル学習の場合は、例えば、式（６）のｐ（ｘ｜ｃ，λ）はＨＭＭを用いてもよい。また、式（７）の最適化式を再急降下法や共役勾配法あるいは一般化ＥＭアルゴリズム等で求めることにより、識別モデルパラメタθおよび生成モデルパラメタθ’を学習すればよい。

この場合、式（８）におけるｆおよびｇは、ＨＭＭのパラメタの事前分布であり、モデル間距離‖θ−θ’‖として、例えば、パラメタθ及びθ’を持つＨＭＭのＫＬ距離（ＫｕｌｌｂａｃｋＬｅｉｂｌｅｒ距離）あるいはＢｈａｔｔａｃｈａｒｙｙａ距離を用いる。

ラベル付与基準算出部１１５は、ラベルなし学習データ記憶部１１１に記憶された音声データの特徴量ｘに対して、学習後のパラメタθをもつＨＭＭと、学習後のパラメタθ’をもつＨＭＭと用いて、連続音素認識や大語彙連続音声認識を行うことによりクラスラベルを推定し、両ＨＭＭで異なる結果が推定された音声データに対し、追加ラベルを付与すべきであるとしてラベル付与基準を算出する。ここで、音声データの場合には、一般に発話内容や発話ポーズなどで分離された文単位で取り扱われるので、両モデルでの認識結果も文単位で比較し、不一致度が高いもの（例えば、所定の数以上）に対し、追加ラベルを付与すべきであるとするラベル付与基準を定める。例えば、不一致度がある一定の基準以上であるものに対して、その不一致度をそのまま追加ラベル付与基準として用いてもよい。

追加ラベル付与基準出力部１１６では、ラベル付与基準算出部１１５で算出された追加ラベル付与基準に従い、追加ラベルを付与すべき対象とされたラベルなし学習データのリストを、不一致度（すなわち追加ラベル付与基準）が高い順に出力する。この際、不一致度の数値を併せて出力してもよい。

追加ラベル入力部１１７では、追加ラベル付与基準出力部１１６で出力されたリストに従い、例えば、ユーザ操作により指定された教師ラベルを入力する。教師ラベルが入力されると、該当する学習データを教師ラベルあり学習データに更新する。なお、教師ラベルが付与された学習データを入力するようにしてもよい。教師ラベルが付与された学習データとして、例えば、該当するラベルなし学習データの音声を書き起こし、音素列に変換されたものを使用してもよい。

学習データ更新部１１８では、ラベルが追加されたデータに対し、そのラベルと対応するラベルなし学習データ（すなわち、ラベルなし学習データ記憶部１１１に記憶された特徴量ｘ）を、ラベルあり学習データ記憶部１１０に移動させることにより、学習データを更新する。

学習データを更新した場合には、続いてその更新された学習データを用いて、識別・生成モデル統合学習部１１２が統合学習を行う。このような処理を繰り返し、最終的に学習された識別モデルのＨＭＭを標準パタンとして出力する。

例えば、繰り返すごとで学習されるＨＭＭのパラメタ移動量が十分小さくなるまで、あるいは学習されたＨＭＭの性能テストで十分な性能が確保されるまで、あるいは追加ラベルの入力上限を指定してそれに達するまで繰り返し実行してもよい。

なお、本実施例では、標準パタンとして音声認識のための音響モデルＨＭＭを例に説明したが、話者検索のための話者モデルや、その他統計的パタン認識における標準パタンの学習方法としても利用することが可能である。

次に、本発明の概要について説明する。図５は、本発明の概要を示すブロック図である。図５に示す標準パタン学習装置は、識別モデルと生成モデルとを用いて導出される標準パタンを学習する標準パタン学習装置であって、識別生成モデル統合学習手段５００と、ラベル付与基準算出手段５０１とを備える。

識別生成モデル統合学習手段５００（例えば、識別・生成モデル統合学習部１１２）は、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データと、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データとを用いて、識別モデルと生成モデルとを当該２つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習する。

ラベル付与基準算出手段５０１（例えば、ラベル付与基準算出部１１５）は、識別生成モデル統合学習手段５００に与えられる各ラベルなし学習データに対して、識別生成モデル統合学習手段５００により学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、識別モデルと生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出する。

ラベル付与基準算出手段５０１は、例えば、推定結果が異なるデータについて追加にラベルを付与すべきであるとするラベル付与基準を算出してもよい。

また、図６は、本発明による標準パタン学習装置の他の構成例を示すブロック図である。図６に示すように、標準パタン学習装置は、さらにラベルあり学習データ記憶手段５０２と、ラベルなし学習データ記憶手段５０３と、学習データ更新手段５０４とを備えていてもよい。

ラベルあり学習データ記憶手段５０２（例えば、ラベルあり学習データ記憶部１１０）は、学習用に与えられるデータまたはその特徴量のうち、クラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データを記憶する。

ラベルなし学習データ記憶手段５０３（例えば、ラベルなし学習データ記憶部１１１）は、学習用に与えられるデータまたはその特徴量のうち、クラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データを記憶する。

学習データ更新手段（例えば、学習データ更新部１１８）は、ラベル付与基準算出手段５０１が算出したラベル付与基準に従って追加されたラベルを該当するラベルなし学習データに付与してラベルあり学習データとし、ラベルあり学習データ記憶手段５０２およびラベルなし学習データ記憶手段５０３の記憶内容を更新する。

そのような構成の場合には、識別生成モデル統合学習手段５００は、ラベルなし学習データ記憶手段５０３に記憶されているラベルなし学習データと、ラベルあり学習データ記憶手段５０２に記憶されているラベルあり学習データとを用いて、識別モデルと生成モデルとを学習してもよい。このようにすることによって、更新後の学習データに対しても特に意識せずに学習処理を行わせることができる。

また、識別生成モデル統合学習手段５００は、学習データ更新手段５０４による学習データの更新に応じて、識別モデルと生成モデルの統合学習を繰り返し行ってもよい。そうすることによって、学習されるモデルの性能を高めることができる。

また、図６に示すように、標準パタン学習装置は、さらにラベル付与基準出力手段５０５と、ラベル情報入力手段５０６とを備えていてもよい。

ラベル付与基準出力手段５０５（例えば、追加ラベル付与基準ン出力部１１６）は、ラベル付与基準算出手段５０１が算出したラベル付与基準の情報をユーザに提示する。

ラベル情報入力手段５０６（例えば、追加ラベル入力部１１７）は、ユーザ操作に応じて、ラベル付与基準に従って追加されるラベルの情報を入力する。

そのような構成によれば、必要最低限のユーザコストで、最適なラベルを付与することができる。

なお、学習装置を別途備える場合には、本発明を標準パタン学習装置としてではなくラベル付与基準算出装置として実現させてもよい。そのような場合には、少なくとも識別モデルと、生成モデルとを統合的に学習する学習装置に学習用に与えられるラベルなし学習データに対して、該学習装置によって学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、その識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出手段を備えていればよい。

本発明は、例えば、音声認識のための音響モデル学習や、話者検索のための話者モデル学習、その他統計的パタン認識における標準パタンの学習方法といった用途に適用可能である。

１００標準パタン学習装置
１１０ラベルあり学習データ記憶部
１１１ラベルなし学習データ記憶部
１１２識別・生成モデル統合学習部
１１３識別モデルパラメタ記憶部
１１４生成モデルパラメタ記憶部
１１５ラベル付与基準算出部
１１６追加ラベル付与基準出力部
１１７追加ラベル入力部
１１８学習データ更新部
１１９標準パタン出力部
５００識別生成モデル統合学習手段
５０１ラベル付与基準算出手段
５０２ラベルあり学習データ記憶手段
５０３ラベルなし学習データ記憶手段
５０４学習データ更新手段
５０５ラベル付与基準出力手段
５０６ラベル情報入力手段

Claims

入力されたデータが属するクラスを識別するためのモデルである識別モデルと、クラスラベルに対してデータ出力の確率分布を求めるためのモデルである生成モデルとを用いて導出される、入力されたデータが属するクラスの情報であるクラスラベルに対するデータをモデル化した情報である標準パタンを学習する標準パタン学習装置であって、
学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データと、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データとを用いて、識別モデルと生成モデルとを当該２つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習する識別生成モデル統合学習手段と、
前記識別生成モデル統合学習手段に与えられる各ラベルなし学習データに対して、前記識別生成モデル統合学習手段により学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、前記識別モデルと前記生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出手段とを備えた
ことを特徴とする標準パタン学習装置。
ラベル付与基準算出手段は、推定結果が異なるデータについて追加にラベルを付与すべきであるとするラベル付与基準を算出する
請求項１に記載の標準パタン学習装置。
学習用に与えられるデータまたはその特徴量のうち、クラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データを記憶するラベルあり学習データ記憶手段と、
学習用に与えられるデータまたはその特徴量のうち、クラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データを記憶するラベルなし学習データ記憶手段と、
ラベル付与基準算出手段が算出したラベル付与基準に従って追加されたラベルを該当するラベルなし学習データに付与してラベルあり学習データとし、前記ラベルあり学習データ記憶手段および前記ラベルなし学習データ記憶手段の記憶内容を更新する学習データ更新手段とを備え、
識別生成モデル統合学習手段は、前記ラベルなし学習データ記憶手段に記憶されているラベルなし学習データと、前記ラベルあり学習データ記憶手段に記憶されているラベルあり学習データとを用いて、識別モデルと生成モデルとを学習する
請求項１または請求項２に記載の標準パタン学習装置。
識別生成モデル統合学習手段は、学習データ更新手段による学習データの更新に応じて、識別モデルと生成モデルの統合学習を繰り返し行う
請求項３に記載の標準パタン学習装置。
ラベル付与基準算出手段が算出したラベル付与基準の情報をユーザに提示するラベル付与基準出力手段と、
ユーザ操作に応じて、ラベル付与基準に従って追加されるラベルの情報を入力するラベル情報入力手段とを備えた
請求項１から請求項４のうちのいずれか１項に記載の標準パタン学習装置。
入力されたデータが属するクラスを識別するためのモデルである識別モデルと、クラスラベルに対してデータ出力の確率分布を求めるためのモデルである生成モデルとを統合的に学習する学習装置に学習用に与えられるデータまたはその特徴量であって、当該データが属するクラスの情報であるクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データに対して、前記学習装置によって学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、前記識別モデルと前記生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出手段を備えた
ことを特徴とするラベル付与基準算出装置。
入力されたデータが属するクラスを識別するためのモデルである識別モデルと、クラスラベルに対してデータ出力の確率分布を求めるためのモデルである生成モデルとを用いて導出される、入力されたデータが属するクラスの情報であるクラスラベルに対するデータをモデル化した情報である標準パタンを学習するための標準パタン学習方法であって、
学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データと、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データとを用いて、識別モデルと生成モデルとを当該２つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習し、
前記識別モデルと前記生成モデルの統合学習用に与えられる各ラベルなし学習データに対して、学習結果として得られた前記識別モデルと前記生成モデルのそれぞれによりクラスの識別処理を行い、前記識別モデルと前記生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出する
ことを特徴とする標準パタン学習方法。
算出されたラベル付与基準に従って追加されたラベルを該当するラベルなし学習データに付与して、ラベルあり学習データとして更新する
請求項７に記載の標準パタン学習方法。
入力されたデータが属するクラスを識別するためのモデルである識別モデルと、クラスラベルに対してデータ出力の確率分布を求めるためのモデルである生成モデルとを用いて導出される、入力されたデータが属するクラスの情報であるクラスラベルに対するデータをモデル化した情報である標準パタンを学習するための標準パタン学習用プログラムであって、
コンピュータに、
学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されたデータまたはその特徴量であるラベルあり学習データと、学習用に与えられるデータまたはその特徴量であってクラスラベルが付与されていないデータまたはその特徴量であるラベルなし学習データとを用いて、識別モデルと生成モデルとを当該２つのモデルのパラメタ間の乖離に対する罰則項を含んだ制約のもと統合的に学習する識別生成モデル統合学習処理と、
前記識別生成モデル統合学習処理に与えられる各ラベルなし学習データに対して、前記識別生成モデル統合学習処理で学習された識別モデルと生成モデルのそれぞれによりクラスの識別処理を行い、前記識別モデルと前記生成モデルの識別結果の差異に基づいて、追加ラベルの付与の必要度を示すラベル付与基準を算出するラベル付与基準算出処理とを
実行させるための標準パタン学習用プログラム。
コンピュータに、
ラベル付与基準算出処理で算出されたラベル付与基準に従って追加されたラベルを該当するラベルなし学習データに付与して、ラベルあり学習データとして更新する学習データ更新処理を含む
請求項９に記載の標準パタン学習用プログラム。