JP2009110064A

JP2009110064A - 分類モデル学習装置および分類モデル学習方法

Info

Publication number: JP2009110064A
Application number: JP2007278893A
Authority: JP
Inventors: Kota Nakata; 康太中田; Shigeaki Sakurai; 茂明櫻井; Ryohei Orihara; 良平折原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-10-26
Filing date: 2007-10-26
Publication date: 2009-05-21

Abstract

【課題】質の高い教師データが少量の状況であっても精度の良い分類モデルを構築する。
【解決手段】ラベル付けの精度が所定の基準を満たす教師データをエキスパートデータとして格納するエキスパートデータ格納部１１と、精度が不明の教師データを非エキスパートデータとして格納する非エキスパートデータ格納部１２と、非エキスパートデータの信頼度をラベル付けが共通するエキスパートデータとの比較によって決定すると共に、非エキスパートデータに対して信頼度を付加する信頼度決定部１３と、信頼度が付加された非エキスパートデータを格納する信頼度付き非エキスパートデータ格納部１４と、エキスパートデータおよび信頼度付きの非エキスパートデータに基づいて所望のデータにラベル付けを行う分類モデルを学習する分類モデル学習部１５と、を有することを特徴とする分類モデル学習装置。
【選択図】図１

Description

本発明は、分類モデル学習装置および分類モデル学習方法に関する。

データマイニングにおいて重要な分野の一つに機械学習が挙げられる。機械学習は分類問題に使われることが多く、分類問題において計算機は人間のつけた評価を学習することで分類モデルを構築する。この分類モデルは画像認識、文字認識、テキスト分類など広い分野で多くの成果を上げている。

機械学習には計算機に正しい判断を教える「教師データ」、つまり人間の手によって「ラベル」が付けられたデータが必要である。教師データをもとに計算機はどのような分類をすれば良いかを学習し、新しいデータに対して自動的に判断を下せるようになる。現代ではＩＴ環境の発展により、大量で詳細な情報・データが機械学習に利用可能であり、これらを教師データとして用いればより正確な分類モデルの構築に繋がると期待されている。

しかし、ここで「大量のデータ」から「大量の教師データ」を得る際のラベル付けが問題になっている。すなわち、得られたデータを教師データとして利用するためには、データに対して人間が判断したラベルを付与することが必要であるが、正確なラベル付けには、データが取られたドメインに対しての知識や経験などに基づく正確な判断が不可欠である。

理想的にはこれらの条件を満たす対象分野のエキスパートがラベル付けを行うことが望ましいが、全てのデータのラベル付けをエキスパートに依頼することは金銭的・時間的にコストが高くなってしまう。すなわち、現実的にはコストに制限がある場合がほとんどであり、その場合には非エキスパートがラベル付けを行い、低コストで教師データを得る。しかし、非エキスパートによる教師データには判断の不正確さから比較的多くの誤ったラベルが含まれてしまうことが考えられる。

一般に、機械学習においては、教師データの取得に関する情報は用いられず、エキスパートによるラベル付けのような「良質の教師データ」と非エキスパートによるラベル付けのような「ノイズを含む教師データ」が混在する状況においても、全てのデータを同列に扱い、等しく学習に使用する。

また、前述のコストの関係から、高コストであるエキスパートによる教師データは少量になりがちなのに対し、低コストである非エキスパートによる教師データは比較的大量に獲得できると考えられる。

そのため、エキスパートによる少量の教師データと非エキスパートによる大量の教師データを従来どおり同列とみなして学習に使用した場合、非エキスパートデータに含まれるノイズが学習に大きく影響し、精度の良い分類モデルが構築できないケースが考えられる。

一方、分類モデルを学習する際に、一部の教師データを選択的に使用して学習を行うことや、一部の教師データに重みを置いて学習を行うことは一般的に広く行われている。

アンサンブル学習の代表的手法の１つであるＡｄａＢｏｏｓｔもその一つである。ＡｄａＢｏｏｓｔは、学習データに対して重みを与えて学習器を生成し、その際に誤った分類をしたデータに対して重みを増して再度学習器を生成することを繰り返して複数の弱学習器を得て、それらの弱学習器の重みつき投票により分類を行う手法である（例えば特許文献１参照）。
特開２００２−１３３３８９号公報

しかしながら、従来技術は、あくまで所定のアルゴリズムに即した形で教師データに対してデータ重みをつけるものであり、教師データの精度の差異という学習過程を開始する前の知識・情報を含んだものではない。

したがって、例えばエキスパートによる少量の教師データと非エキスパートによる大量の教師データのような、質の異なる教師データを従来どおり同列として学習に使用した場合、質の劣る教師データに含まれるノイズが学習に大きく影響し、精度の良い分類モデルが構築できないという問題があった。

そこで、本発明は、従来技術の問題に鑑み、質の良い教師データが少量しか得られていない状況であっても精度の良い分類モデルの構築が可能になり、教師データ獲得に要するコストを削減可能な分類モデル学習装置および分類モデル学習方法を提供することを目的とする。

本発明に係る分類モデル学習装置は、ラベル付けの精度が所定の基準を満たす教師データをエキスパートデータとして格納するエキスパートデータ格納部と、前記ラベル付けの精度が不明の教師データを非エキスパートデータとして格納する非エキスパートデータ格納部と、前記エキスパートデータ格納部および前記非エキスパートデータ格納部に接続され、前記非エキスパートデータの信頼度を前記ラベル付けが共通する前記エキスパートデータとの比較によって決定すると共に、前記非エキスパートデータに対して前記信頼度を付加する信頼度決定部と、この信頼度決定部に接続され、前記信頼度が付加された非エキスパートデータを格納する信頼度付き非エキスパートデータ格納部と、前記エキスパートデータ格納部および前記信頼度付き非エキスパートデータ格納部に接続され、前記エキスパートデータおよび前記信頼度が付加された非エキスパートデータに基づいて所望のデータに前記ラベル付けを行う分類モデルを学習する分類モデル学習部と、を有することを特徴とする。

本発明に係る分類モデル学習方法は、ラベル付けの精度が所定の基準を満たしている教師データをエキスパートデータ、前記ラベル付けの精度が不明の教師データを非エキスパートデータとして格納するコンピュータが行う分類モデル学習方法であって、前記非エキスパートデータの信頼度を前記ラベル付けが共通する前記エキスパートデータとの比較によって決定すると共に、前記非エキスパートデータに対して前記信頼度を付加する信頼度決定ステップと、この信頼度決定ステップにおいて前記信頼度が付加された非エキスパートデータと前記エキスパートデータに基づいて所望のデータに前記ラベル付けを行う分類モデルを学習する分類モデル学習ステップと、を有することを特徴とする。

本発明によれば、質の良い教師データが少量しか得られていない状況であっても精度の良い分類モデルの構築が可能であり、教師データ獲得に要するコストを削減可能な分類モデル学習装置および分類モデル学習方法が提供される。

以下、本発明の実施形態について図面を用いて説明する。図１は、本発明の一実施形態に係る分類モデル学習装置１の全体構成例を示すブロック図である。同図に示されるように、本実施形態に係る分類モデル学習装置１は、エキスパートデータ格納部１１、非エキスパートデータ格納部１２、信頼度決定部１３、信頼度付き非エキスパートデータ格納部１４、分類モデル学習部１５、分類対象データ格納部１６、予測部１７、および表示部１８から構成されている。

エキスパートデータ格納部１１は、エキスパートデータを格納する記憶装置である。「エキスパートデータ」とは、知識、経験が豊かな専門家によってラベル付けが行われており、ラベル付けの精度（信頼性）が高い教師データを示すものとする。

非エキスパートデータ格納部１２は、非エキスパートデータを格納する記憶装置である。「非エキスパートデータ」とは、ラベル付けは行われているが、その精度（信頼性）が不明確な教師データを示すものとする。

信頼度決定部１３は、エキスパートデータを参照することにより全ての非エキスパートデータの信頼度を決定し、信頼度付き非エキスパートデータ格納部１４へ登録するプログラムである。

信頼度付き非エキスパートデータ格納部１４は、信頼度決定部１３における処理よって信頼度が付与された非エキスパートデータ（以下、「信頼度付き非エキスパートデータ」という。）を格納する記憶装置である。

分類モデル学習部１５は、エキスパートデータと信頼度付き非エキスパートデータを用いて分類モデルを学習するプログラムである。

分類対象データ格納部１６は、新たに分類の対象となる、ラベルが付与されていないデータ（以下、「分類対象データ」という。）を格納する記憶装置である。

予測部１７は、分類モデル学習部１５で得られた分類モデルを用いて分類対象データ格納部１６に格納されているデータにラベル付けを行うプログラムである。尚、ＡｄａＢｏｏｓｔを用いた場合、予測部１７での分類手法は、一般的なＡｄａＢｏｏｓｔにおける手法と同様である。

表示部１８は、予測部１７における予測結果を表示する表示装置である。

以下、図２乃至図４に基づいて信頼度決定処理を詳細に説明する。信頼度決定部１３は、非エキスパートデータを順次選択し、その非エキスパートデータの近傍のエキスパートデータを参照して信頼度を付与する。ここでは、２次元のデータを具体例として説明を行う。図２は、エキスパートデータおよび非エキスパートデータを２次元で具体的に表した図である。同図において、丸印はエキスパートデータ、四角印は非エキスパートデータを表し、各印の色はラベルを表している。これらの座標はデータを所定の規則に基づいて変換されたものである。例えば、電子メールの分類においては、多数の迷惑メールを解析することによって特徴語リストを予め作成しておき、この特徴語リストと受信メール本文内の単語を比較することで座標化を行う。具体的には、特徴語リストに含まれるＮ個の単語との比較結果を受信メール内に含まれる場合を１、含まれない場合を０として（１,０，１，…，１）のように表すことにより受信メールのデータをＮ次元に座標化することができる。ここでは、説明のためにメールを座標化したＮ次元のデータを擬似的に２次元で表しているものとする。すなわち、受信メール本文の内容が近似する場合には、座標も近似するので迷惑メールか否かのラベル付け等に用いることができる。

図３は、信頼度決定部１３における信頼度決定処理の具体例を示すフローチャートである。

S３０１においては、信頼度が未設定の非エキスパートデータが存在するか否かを判定する。ここで、全ての非エキスパートデータに信頼度が付与されており、信頼度が未設定の非エキスパートデータが無いと判定された場合は処理を終了する。これに対し、信頼度が未設定の非エキスパートデータが有ると判定された場合は、S３０２に進む。

S３０２においては、非エキスパートデータ格納部１２から信頼度が未設定の非エキスパートデータを１つ選択する。ここでは非エキスパートデータ具体例として、

式（１）で示される非エキスパート２次元データの中でｊ番目のデータが選択されたものとする。

S３０３においては、選択された非エキスパートデータの近傍のN個のエキスパートデータをエキスパートデータ格納部１１から探索する。「近傍」とはデータの同士の近さを意味するため、素性の重みを考えた距離など問題に特化した距離の尺度を用いることも可能であるが、ここでは選択した非エキスパートデータとのユークリッド距離が所定の値の範囲内にあることを示すものとする。図４は、エキスパートデータと非エキスパートデータとのユークリッド距離を具体的に説明する図である。ここでは、点Ｎに位置する非エキスパートデータが選択され、点Ｎからのユークリッド距離が所定の値の範囲内であるエキスパートデータが探索されていることが示されている。

S３０４においては、探索されたN個のエキスパートデータから、選択された非エキスパートデータの信頼度を決定する。尚、信頼度の上限値、下限値は任意に設定可能であるが、ここでは上限値を１、下限値を０とする。尚、エキスパートデータの信頼度は全て１とする。

非エキスパートデータは、近傍のN個のエキスパートデータの中から自らと同じラベルを持つもののみから信頼度を受け取ることができ、受け取る信頼度はエキスパートデータへのユークリッド距離に応じた値となるように設定する。

ここで、非エキスパートデータ（ｘ_ｊ，ｙ_ｊ）が選択されており、Ｎ個のエキスパートデータ（Ｘ_ｉ，Ｙ_ｉ）（ｉ＝１，２，…，Ｎ）が探索されていたとすると、この信頼度は

式（２）で設定することができる。ここでｌ_iは、非エキスパートデータ（ｘ_ｊ，ｙ_ｊ）とi番目のエキスパートデータXiとのユークリッド距離である。

したがって、式（２）は、参照したエキスパートデータとのラベルが等しく、かつ、ユークリッド距離が近い非エキスパートデータの信頼度が高くなることを示す。すなわち、対象の非エキスパートデータと参照したエキスパートデータとの距離が全て０であり、かつ、全てが同じラベルであった場合、信頼度は１となり、エキスパートデータと同じ信頼度となる。

逆に、参照したエキスパートデータが全て異なるラベルであった場合、どのエキスパートデータからも信頼度を獲得できないため、対象の非エキスパートデータの信頼度は０になり、データが削除されたのと同様の状況となる。多くの非エキスパートデータは、０から１の間の値をとると考えられ、その値の大きさによって学習への影響度が異なってくる。

エキスパートデータの具体例として、N=３のときエキスパートデータ格納部１１の中から

式（３）〜（５）で表されるエキスパートデータがＳ３０３において探索されているものとすると、S３０４においては非エキスパートデータ（ｘ_ｊ，ｙ_ｊ）の信頼度を式（１）および式（３）〜（５）を式（２）に代入し、

式（６）により計算する。

ここで、式（６）右辺の括弧内の第１項は式（３）で表されるエキスパートデータによって与えられる信頼度、第２項は式（５）で表されるエキスパートデータによって与えられる信頼度である。エキスパートデータ式（４）についてはラベルY_I２が非エキスパートデータ式（１）のラベルｙ_ｊと異なるため、信頼度は与えられない。

S３０５において、S３０４で得られた信頼度ｃ_ｊを対象の非エキスパートデータに付加し、

式（７）の形で信頼度付き非エキスパートデータ格納部１４に格納する。例えば、前述の式（１）で表される２次元データの場合は

式（８）の形で信頼度付き非エキスパートデータ格納部１４に格納し、処理を終了する。尚、エキスパートデータの信頼度は常に１としているので、エキスパートデータは擬似的に

式（９）の形でエキスパートデータ格納部１１に格納されているとみなすことができる。

図５は、分類モデル学習部１５における分類モデル学習処理の具体例を示すフローチャートである。学習器については信頼度を反映する形のものであれば、どのような学習器でも機能すると考えられるが、ここではデータ重みに対する信頼度の組み込み易さを考慮してＡｄａＢｏｏｓｔの手法に即した形で処理を行うものとする。尚、Ｂａｇｇｉｎｇなどの他の手法を用いても良い。

S５０１においては、読み込まれた信頼度付き非エキスパートデータとエキスパートデータに、ＡｄａＢｏｏｓｔの手法に即して均等のデータ重みｗ_ｊを付ける。本発明では、ＡｄａＢｏｏｓｔにおける従来のデータ重みｗ_ｊに加え、信頼度決定部１３で得られた信頼度ｃ_ｊが教師データに付加されているため、ここでは読み込まれたエキスパートデータ、非エキスパートデータは

式（１０）の形で処理されるものとする。

S５０２においては、非エキスパートデータに付与された信頼度ｃ_ｊをデータ重みに反映させる。ここでは、ＡｄａＢｏｏｓｔにおけるデータ重みｗ_ｊに対して信頼度ｃ_ｊを反映させたデータ重みｗ’_ｊを

式（１１）により設定する。このように設定することにより、データ重みｗ_ｊが大きく学習に大きな影響を及ぼすと考えられる非エキスパートデータに関しても、その非エキスパートデータの信頼度ｃ_ｊが低ければデータ重みｗ’_ｊの値は小さくなり、非エキスパートデータに含まれる信頼度ｃ_ｊの低い教師データの影響を自然な形で小さくすることができる。

S５０３においては、S５０２で得られたデータ重みｗ’_ｊを用いて弱学習器を生成する。ＡｄａＢｏｏｓｔに用いられる弱学習器には決定木など様々なものが考えられる。

S５０４においては、ＡｄａＢｏｏｓｔのアルゴリズムに従いデータ重みと弱学習器の性能に依るコスト関数の更新を行う。

S５０５においては、終了条件を満たしているか否かを判定する。ここで、終了条件を満たすと判定された場合にはＳ５０６へ進む。これに対し、終了条件を満たさないと判定された場合はS５０１に戻る。尚、一般的なＡｄａＢｏｏｓｔの手法における終了条件は、弱学習器の数が所定数を満たすことである。例えばユーザが弱学習器を１００個作るという設定にすれば、S５０１からS５０５を１００回繰り返すことが終了条件である。

Ｓ５０６においては、生成された弱学習器を組合せることにより精度の高い分類モデルである強学習器を生成し、処理を終了する。

このように、教師データの精度の差異という学習過程を開始する前の知識を利用して非エキスパートデータに信頼度を付与し、分類モデルの学習に組み込むことで、エキスパートデータが少ない場合であっても精度の良い分類モデルを得ることができる。

図６は、予測部１７における分類処理の具体例を示すフローチャートである。

Ｓ６０１においては、分類対象データ格納部１６における分類対象データの有無を判定する。ここで、分類対象データが有ると判定された場合には、Ｓ６０２へ進む。これに対し、分類対象データが無いと判定された場合には、処理を終了する。

Ｓ６０２においては、分類対象データ格納部１６から分類対象データを1つ選択する。

Ｓ６０３においては、選択した分類対象データを分類モデルに当てはめることにより、ラベル付けを行う。

このように、分類モデル学習部１５で得られた分類モデルを用いて分類対象データにラベル付けを行うことができる。

尚、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。

本発明の一実施形態に係る分類モデル学習装置１の全体構成例を示すブロック図。本発明の一実施形態に係るエキスパートデータおよび非エキスパートデータを２次元で具体的に表した図。本発明の一実施形態に係る信頼度決定部１３における信頼度決定処理の具体例を示すフローチャート。本発明の一実施形態に係るエキスパートデータと非エキスパートデータとのユークリッド距離を具体的に説明する図。本発明の一実施形態に係る分類モデル学習部１５における分類モデル学習処理の具体例を示すフローチャート。本発明の一実施形態に係る予測部１７における分類処理の具体例を示すフローチャート。

符号の説明

１…分類モデル学習装置、
１１…エキスパートデータ格納部、
１２…非エキスパートデータ格納部、
１３…信頼度決定部、
１４…信頼度付き非エキスパートデータ格納部、
１５…分類モデル学習部、
１６…分類対象データ格納部、
１７…予測部。

Claims

ラベル付けの精度が所定の基準を満たす教師データをエキスパートデータとして格納するエキスパートデータ格納部と、
前記ラベル付けの精度が不明の教師データを非エキスパートデータとして格納する非エキスパートデータ格納部と、
前記エキスパートデータ格納部および前記非エキスパートデータ格納部に接続され、前記非エキスパートデータの信頼度を前記ラベル付けが共通する前記エキスパートデータとの比較によって決定すると共に、前記非エキスパートデータに対して前記信頼度を付加する信頼度決定部と、
この信頼度決定部に接続され、前記信頼度が付加された非エキスパートデータを格納する信頼度付き非エキスパートデータ格納部と、
前記エキスパートデータ格納部および前記信頼度付き非エキスパートデータ格納部に接続され、前記エキスパートデータおよび前記信頼度が付加された非エキスパートデータに基づいて所望のデータに前記ラベル付けを行う分類モデルを学習する分類モデル学習部と、
を有することを特徴とする分類モデル学習装置。
前記信頼度決定部が、前記エキスパートデータおよび前記非エキスパートデータの各々を所定の規則に基づいて対応付けた座標の間の距離を求め、前記信頼度を前記距離に応じて付加することを特徴とする請求項１記載の分類モデル学習装置。
前記分類モデル学習部が、アンサンブル学習におけるデータ重みに対して前記信頼度決定部で付加された信頼度を反映させることにより前記分類モデルを学習することを特徴とする請求項１または請求項２記載の分類モデル学習装置。
ラベル付けの精度が所定の基準を満たしている教師データをエキスパートデータ、前記ラベル付けの精度が不明の教師データを非エキスパートデータとして格納するコンピュータが行う分類モデル学習方法であって、
前記非エキスパートデータの信頼度を前記ラベル付けが共通する前記エキスパートデータとの比較によって決定すると共に、前記非エキスパートデータに対して前記信頼度を付加する信頼度決定ステップと、
この信頼度決定ステップにおいて前記信頼度が付加された非エキスパートデータと前記エキスパートデータに基づいて所望のデータに前記ラベル付けを行う分類モデルを学習する分類モデル学習ステップと、
を有することを特徴とする分類モデル学習方法。
前記信頼度決定ステップにおいて、前記エキスパートデータおよび前記非エキスパートデータの各々を所定の規則に基づいて対応付けた座標の間の距離を求め、前記信頼度を前記距離に応じて付加することを特徴とする請求項４記載の分類モデル学習方法。
前記分類モデル学習ステップにおいて、アンサンブル学習におけるデータ重みに対して前記信頼度決定ステップにおいて付加された信頼度を反映させることにより前記分類モデルを学習することを特徴とする請求項４または請求項５記載の分類モデル学習方法。