JP6509717B2 - 事例選択装置、分類装置、方法、及びプログラム - Google Patents

事例選択装置、分類装置、方法、及びプログラム Download PDF

Info

Publication number
JP6509717B2
JP6509717B2 JP2015240392A JP2015240392A JP6509717B2 JP 6509717 B2 JP6509717 B2 JP 6509717B2 JP 2015240392 A JP2015240392 A JP 2015240392A JP 2015240392 A JP2015240392 A JP 2015240392A JP 6509717 B2 JP6509717 B2 JP 6509717B2
Authority
JP
Japan
Prior art keywords
case
class
cases
learning
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015240392A
Other languages
English (en)
Other versions
JP2017107386A (ja
Inventor
真由美 羽田野
真由美 羽田野
京介 西田
京介 西田
浩之 戸田
浩之 戸田
彰久 川野辺
彰久 川野辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015240392A priority Critical patent/JP6509717B2/ja
Publication of JP2017107386A publication Critical patent/JP2017107386A/ja
Application granted granted Critical
Publication of JP6509717B2 publication Critical patent/JP6509717B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、事例選択装置、分類装置、方法、及びプログラムに関する。
教師有り学習による分類問題とは、事前に与えられた正解クラス付きのデータを利用して、正解クラスが与えられていないデータのクラスを予測する問題であり、広い分野(メールのスパムフィルタや、画像の自動分類、加速度データを利用した行動認識など)で実用化されている。
また、能動学習とは、教師データを作成する際に最大の効果を発揮するように教師とするデータを選択する方法についての研究分野である。一般的に事例にアノテーションを付与することは高いコストが要求されるため、どのデータに正解ラベルを付与すればより高精度な学習器が作成出来るか、という事例の選択手法はアノテーションコストを下げる意味で重要である。能動学習による事例選択の従来技術は、予測モデルにおける確信度が低い事例を選択して優先的にアノテーションを与えることが、次のイテレーションにおける分類精度を向上させるという考えに基づいている。具体的には、あるイテレーションにおいて、各クラスに分類される確率を事例ごとに計算し、その確率が最大となるクラスの予測確率が最低の事例を選択する手法(Least confident法)が提案されている(非特許文献1)。また、このLeast confident法をベースとして、確率が2番に大きいクラスも考慮に入れるMargin sampling法や、特徴空間における密度も考慮に入れるDensity weighted等の手法が提案されている(非特許文献1)。
ここでは、能動学習の枠組みでイテレーションごとに事例選択・モデル生成を行う際、クラスの頻度にばらつきがあるデータ(不均衡データ)を扱うことを考える。
Settles, B. (2010). "Active learning literature survey.", University of Wisconsin, Madison, Comput. Sci. Tech. Rep. 648, 2010.
能動学習の枠組みで不均衡データを扱う際、従来技術では各クラスの頻度の差を考慮していないために、アノテーションを付与する際に低頻度のクラスの事例が選ばれづらいおそれがある。その結果、少ないアノテーション数で、低頻度クラスの事例に対するアノテーションを十分に付与することが難しくなり、低頻度クラスの分類精度が下がるおそれがある。また、ある分類精度に達することを要件とした際に、必要となるアノテーション回数が多くなるおそれがある。この問題は低頻度クラスの分類精度を重視するようなタスクの場合、特に重要である。
本発明は、上記の事情を鑑みてなされたもので、事例頻度が低いクラスに属する事例を学習データに含ませて、アノテーションを行うことができる事例選択装置、方法、及びプログラムを提供することを目的とする。
また、事例頻度が低いクラスに属する事例から予測モデルを生成することができる分類装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明の事例選択装置は、複数の初期モデル学習用事例と、前記複数の初期モデル学習用事例に予め対応付けられた正解クラスとに基づいて、事例が分類されるクラスを予測するための予測モデルを生成する初期モデル生成部と、前記複数の初期モデル学習用事例の正解クラス、又は前記予測モデルに基づいて、前記クラスの各々の事例頻度を計算する事例頻度計算部と、複数の事例の各々について、前記事例と前記初期モデル生成部によって生成された前記予測モデルとに基づいて、前記クラスの各々に対し、前記事例が前記クラスに分類される確率である分類確率を推定する確率推定部と、前記事例頻度計算部によって計算された前記クラスの各々についての事例頻度と、前記確率推定部によって推定された前記事例の各々についての前記クラスの各々に対する前記分類確率とに基づいて、前記複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択する事例選択部と、を含んで構成されている。
本発明の事例選択方法は、初期モデル生成部、確率推定部、事例頻度計算部、及び事例選択部を含む事例選択装置における事例選択方法であって、前記初期モデル生成部が、複数の初期モデル学習用事例と、前記複数の初期モデル学習用事例に予め対応付けられた正解クラスとに基づいて、事例が分類されるクラスを予測するための予測モデルを生成するステップと、前記確率推定部が、前記複数の初期モデル学習用事例の正解クラス、又は前記予測モデルに基づいて、前記クラスの各々の事例頻度を計算するステップと、前記事例頻度計算部が、複数の事例の各々について、前記事例と前記初期モデル生成部によって生成された前記予測モデルとに基づいて、前記クラスの各々に対し、前記事例が前記クラスに分類される確率である分類確率を推定するステップと、前記事例選択部が、前記事例頻度計算部によって計算された前記クラスの各々についての事例頻度と、前記確率推定部によって推定された前記事例の各々についての前記クラスの各々に対する前記分類確率とに基づいて、前記複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択するステップと、を含んで構成されている。
また、本発明の前記事例選択部は、前記事例頻度計算部によって計算された前記クラスの各々についての事例頻度と、前記確率推定部によって推定された前記事例の各々についての前記クラスの各々に対する前記分類確率とに基づいて、前記事例頻度が最小のクラスに対する前記分類確率が最大である前記事例を、前記正解クラスの付与対象となる学習用事例としてh個だけ選択するようにすることができる。
また、本発明の前記事例選択部は、前記事例頻度計算部によって計算された前記クラスの各々についての事例頻度と、前記確率推定部によって推定された前記事例の各々についての前記クラスの各々に対する前記分類確率とに基づいて、前記事例頻度が最小のクラスに対する前記分類確率と、前記事例頻度が最大のクラスに対する前記分類確率との差が最大となる前記事例を、前記正解クラスの付与対象となる学習用事例としてh個だけ選択するようにすることができる。
また、本発明の分類装置は、上記の事例選択装置によって選択された前記学習用事例と、該学習用事例に付与された正解クラスとに基づいて、前記予測モデルを生成する予測モデル生成部を含んで構成されている。
また、本発明の分類方法は、予測モデル生成部を含む分類装置における分類方法であって、前記予測モデル生成部が、上記の事例選択方法によって選択された前記学習用事例と、該学習用事例に付与された正解クラスとに基づいて、前記予測モデルを生成するステップを含んで構成されている。
本発明の第1のプログラムは、コンピュータを、本発明の事例選択装置の各部として機能させるためのプログラムである。
本発明の第2のプログラムは、コンピュータを、本発明の分類装置の各部として機能させるためのプログラムである。
以上説明したように、本発明の事例選択装置、方法、及びプログラムによれば、クラスの各々についての事例頻度と、事例の各々についてのクラスの各々に対する分類確率とに基づいて、複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択することにより、事例頻度が低いクラスに属する事例を学習データに含ませて、アノテーションを行うことができる、という効果が得られる。
また、本発明の分類装置、方法、及びプログラムによれば、選択された学習用事例と、学習用事例に付与された正解クラスとに基づいて、予測モデルを生成することにより、事例頻度が低いクラスに属する事例から予測モデルを生成することができる、という効果が得られる。
アノテータによるアノテーションを説明するための説明図である。 従来技術による事例の選択の一例を示す図である。 バリアデータとバリアデータのクラスとの組み合わせの一例を示す図である。 本発明の実施の形態の事例選択装置の一構成例を示すブロック図である。 モデル構築用データベース22のデータ構造の一部の例を示す図である。 正解アノテーションデータベース24のデータ構造の例を示す図である。 事例頻度データベース30のデータ構造の例を示す図である。 分類確率データベース34のデータ構造の例を示す図である。 予測モデルデータベース40のデータ構造の例を示す図である。 本発明の実施の形態の事例選択装置における能動的クラス分類処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の事例選択装置における初期モデル生成処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の事例選択装置における事例頻度計算処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の事例選択装置における確率推定処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の事例選択装置における事例選択理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の事例選択装置における予測モデル生成処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明の実施は、教師有り学習の枠組みでデータ群をあらかじめ定められたクラスに分類する技術分野に属するものである。
<概要>
教師有り学習の枠組みの中で、出来るだけ少ない学習データ数の学習データを用いて出来るだけ高い精度の分類器を作成するための事例選択手法が存在する。
具体的には、事例選択手法においては、図1に示すように、ラベルなしデータから事例が選択され、アノテータにより正解クラスが付与される。そして、正解クラスが付与された事例に基づいて、予測モデルの更新が行われる。
従来技術では、学習データの中からランダムに選ぶよりは良い方法があるだろうという前提のもと、能動学習によるアノテーションコストの低減を目的としている。
また、従来技術では、現在の予測モデルで確信度が低い事例(データ)を選択するアルゴリズムがベースとなっている。例えば、上記非特許文献1に記載のleast confidentに関する技術では、確率が最大のラベルの分類確率が最も低い事例が選ばれる。予測モデルとしてマージン分類器(例えば、SVM)を用いる場合、図2に示すように、分離超平面に近い事例が選ばれる。確率が最大のラベルの分類確率が最も低い事例が選ばれることは、以下の式によって表される。なお、xは事例を表し、P(y|x)は、ある事例xがi番目のラベルyに分類される分類確率を表す。
また、上記非特許文献1に記載のmargin samplingに関する技術では、最大の分類確率と2番目の分類確率との差が最小の事例が選ばれる。
また、上記非特許文献1に記載のdensity weightedに関する技術では、事例の密集している部分から事例がより選ばれやすくなる。
しかし、従来技術では各ラベルの頻度を考慮していないため、例えば図3に示すようなバリアデータなどの不均衡データでは、低頻度である段差の検出率がなかなか上がらないおそれがある。例えば、毎回選択した事例のクラスが「Flat」だと、クラス「Step」やクラス「Slope」の検出率がなかなか上がらない。
そこで、本発明の実施の形態では、あるエリアで分類器を継続的に更新しながら精度を向上させる状況を想定して能動学習の適用を考える。具体的には、本発明の実施の形態では、頻度の少ないクラスに対応する事例を優先的に選択する。より詳細には、本発明の実施の形態では、以下の式(1)に従って、頻度が最小のクラスyminの分類確率P(ymin|x)が最も大きい事例xを選択する。
また、本発明の実施の形態では、以下の式(2)に従って、頻度が最小クラスyminの分類確率P(ymin|x)と、頻度が最大のクラスymaxの分類確率P(ymax|x)との差が最も大きい事例xを選択する。
また、上記式(1)及び式(2)を組み合わせて、事例を選択することもできる。
本実施の形態では、複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択する事例選択装置に本発明を適用した場合を例に説明する。また、本実施の形態では、人の加速度データを用いた行動推定を、能動学習の枠組みで行う場合の例を用いて説明する。
<事例選択装置のシステム構成>
以下、図面を参照して本発明の第1の実施の形態を詳細に説明する。図4は、本発明の実施の形態の事例選択装置100を示すブロック図である。事例選択装置100は、CPUと、RAMと、事例選択処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態の事例選択装置100は、図4に示すように、入力部10と、正解入力部12と、演算部20と、出力部50とを備えている。
入力部10は、複数の初期モデル学習用事例と、複数の初期モデル学習用事例に予め対応付けられた正解クラスとを受け付ける。初期モデル学習用事例は、後述する初期モデル生成部26により予測モデルを学習させるための事例である。
また、入力部10は、正解クラスが未知の複数の事例を受け付ける。後述する事例選択部36により、複数の事例から、正解クラスの付与対象となる学習用事例が選択される。
そして、入力部10は、複数の初期モデル学習用事例と複数の事例とを、後述するモデル構築用データベース22に格納する。また、入力部10は、複数の初期モデル学習用事例に予め対応付けられた正解クラスを、後述する正解アノテーションデータベース24に格納する。
正解入力部12は、後述する事例選択部36によって選択された学習用事例に対する、正解クラスの入力を受け付ける。正解クラスは、例えばユーザによって入力される。
演算部20は、モデル構築用データベース22と、正解アノテーションデータベース24と、初期モデル生成部26と、事例頻度計算部28と、事例頻度データベース30と、確率推定部32と、分類確率データベース34と、事例選択部36と、予測モデル生成部38と、予測モデルデータベース40とを備えている。
モデル構築用データベース22には、入力部10によって受け付けられた、複数の初期モデル学習用事例と複数の事例とが格納される。
モデル構築用データベース22のデータ構造の一部の例を図5に示す。なお、図5はモデル構築用データベース22に格納される初期モデル学習用事例の例を示している。モデル構築用データベース22には、図5に示すように、複数の初期モデル学習用事例が、学習に用いるデータ候補として格納される。
本実施の形態では、人の加速度データを用いた行動推定を行うためのモデルを学習する場合を想定する。加速度データが取得された時刻と、ある時間窓(本実施の形態では約1秒)で区切った際の加速度データ系列から特徴ベクトル{x’,x’,...,x’}を抽出した値が、初期モデル学習用事例及び事例として格納されている。
なお、モデル構築用データベース22のデータには、上記図5に示すように、外部からレコードを指定するために各レコードにデータIDが付与されている。なお、加速度系列から特徴ベクトルを抽出する際は、各時間窓内での平均値や分散を計算するほか、FFT(Fast Fourier Transform)によって得られたパワースペクトルのヒストグラム情報を用いる手法などが存在する(例えば、参考文献1を参照)。
参考文献1:Brajdic, A., & Harle, R. (2013). “Walk detection and step counting on unconstrained smartphones.” In Proceedings of the 2013 ACM International Joint Conference on Pervasive and ubiquitous computing (pp. 225-234).
正解アノテーションデータベース24には、入力部10によって受け付けられた、複数の初期モデル学習用事例に予め対応付けられた正解クラスが、正解アノテーションデータとして格納される。
正解アノテーションデータベース24のデータ構造の例を図6に示す。正解アノテーションデータベース24は、図6に示すように、モデル構築用データベース22のデータIDに対応する初期モデル学習用事例における時刻情報と正解クラスのID情報が格納されている。
上記図6の例ではクラスIDが1から3までの値が格納されており、それぞれ歩行動作、階段歩行動作、スロープ歩行動作のクラスが対応する。なお通常の能動学習の枠組みでは、上記図1に示すように、イテレーションごとに、オラクルと呼ばれるアノテータによって正解のクラスが随時付与されることを想定している。
本実施の形態では、図4で示した構成図のように、後述する事例選択部36によって選択された事例のみに対し、正解入力部12からユーザにより正解クラスを入力することで、オラクルの存在を表現する。
初期モデル生成部26は、モデル構築用データベース22に格納された複数の初期モデル学習用事例と、正解アノテーションデータベース24に格納された複数の初期モデル学習用事例に予め対応付けられた正解クラスとに基づいて、教師あり学習を用いて、事例が分類されるクラスを予測するための予測モデルを生成する。初期モデル生成部26は、事例選択の際に用いる予測モデルを生成するための機能を有する。
本実施の形態では、初期モデル学習用事例の特徴ベクトルの情報と当該特徴ベクトルの情報に対応するクラスとを用いて、マルチクラス分類を行う予測モデルの生成を想定している。マルチクラス分類を行う予測モデルの構築には、例えばロジスティック回帰モデルやサポートベクターマシーンなどを利用することができる。ロジスティック回帰モデルやサポートベクターマシーン以外にもマルチクラス分類ができる教師あり機械学習手法であれば、任意の方法を用いることができる。
事例頻度計算部28は、正解アノテーションデータベース24に格納された複数の初期モデル学習用事例の正解クラスに基づいて、クラスの各々の事例頻度を計算する。
具体的には、事例頻度計算部28は、初期モデル学習用事例の各々に対応する正解クラスを正解アノテーションデータベース24から取得し、クラスの各々の事例頻度を計算する。
なお、事例頻度のカウントには、正解クラスが付与された初期モデル学習用事例の事例頻度を利用することができる他、予測モデルを利用して推定された、正解クラスが未知のテストデータの各々についてのクラス分類から、クラスの各々の事例頻度を計算するようにしてもよい。テストデータとしては、例えば、モデル構築用データベース22に格納された複数の事例を用いることができる。この場合、事例頻度計算部28は、初期モデル生成部26によって生成された予測モデルに基づいて、複数の事例の各々のクラス分類を推定し、クラスの各々の事例頻度を計算する。
本実施の形態では、初期モデル学習用事例の各々に対応する正解クラスを正解アノテーションデータベース24から取得し、クラスの各々の事例頻度を計算する場合について説明する。
そして、事例頻度計算部28は、計算したクラスの各々の事例頻度に基づいて、クラスIDと当該クラスIDに対応する事例頻度との組み合わせを事例頻度データベース30に格納する。
事例頻度データベース30には、事例頻度計算部28によって計算された、クラスIDと当該クラスIDに対応する事例頻度との組み合わせが格納される。事例頻度データベース30のデータ構造の例を図7に示す。
図7に示すように、事例頻度データベース30には、各クラスIDに対応する事例頻度が格納されている。上記図7の例では、歩行クラスの事例頻度が10であるのに比べて、階段歩行とスロープ歩行の事例頻度がそれぞれ1、2となっており、不均衡なデータとなっている。
確率推定部32は、モデル構築用データベース22に格納された複数の事例の各々について、初期モデル生成部26によって生成された予測モデルに基づいて、クラスの各々に対し、当該事例が当該クラスに分類される確率である分類確率を推定する。
具体的には、まず、確率推定部32は、初期モデル生成部26の結果得られた予測モデルCを取得する。次に、確率推定部32は、モデル構築用データベース22に格納された複数の事例の各々について、予測モデルCから各クラスyにデータID=xの事例が分類される確率である分類確率P(y|x)を計算する。
この分類確率の計算方法は、用いる予測モデルによって変わる。予測モデルがロジスティック回帰モデルの場合は、計算途中に出てくる分類確率をそのまま用いることができる。また、予測モデルが、サポートベクターマシーンのような2値分類器の場合でも、以下の参考文献2に記載された方法で、マルチクラス分類での各クラスの分類確率を求めることができる。
参考文献2:Wu, T. F., Lin, C. J., & Weng, R. C. (2004). “Probability estimates for multi-class classification by pairwise coupling.” The Journal of Machine Learning Research, 5, 975-1005.
そして、確率推定部32は、モデル構築用データベース22に格納された各事例のデータIDと計算した分類確率P(y|x)との組み合わせを分類確率データベース34に格納する。
分類確率データベース34には、モデル構築用データベース22に格納された各事例のデータIDと確率推定部32によって計算された分類確率P(y|x)との組み合わせが格納される。分類確率データベース34のデータ構造の例を図8に示す。分類確率データベース34は、各クラスに分類される分類確率をデータIDごとに格納したものである。
事例選択部36は、事例頻度データベース30に格納されたクラスの各々についての事例頻度と、分類確率データベース34に格納された事例の各々についてのクラスの各々に対する分類確率とに基づいて、モデル構築用データベース22に格納された複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択する。事例選択部36は、事例頻度データベース30と分類確率データベース34とを入力として、正解クラスを与える事例を学習用事例として選択する機能を有する。
具体的には、まず、事例選択部36は、事例頻度データベース30からクラスの各々についての事例頻度を読み込み、集合Xとする。また、事例選択部36は、分類確率データベース34から事例の各々についてのクラスの各々に対する分類確率を読み込み、集合Pとする。
次に、事例選択部36は、集合Xの中で事例頻度が最小のクラスをyminとする。
そして、事例選択部36は、事例頻度が最小のクラスに対する分類確率が最大である事例を、正解クラスの付与対象となる学習用事例としてh個だけ選択し、選択事例集合X’とする。具体的には、事例選択部36は、集合Pの中で、yminに分類される確率P(ymin|x)が上位h個の事例を学習用事例として抽出する。学習用事例として選択される事例xは、以下の式(3)で表せる。
予測モデル生成部38は、事例選択部36によって選択された学習用事例と、正解入力部12によって受け付けた、学習用事例に付与された正解クラスとに基づいて、予測モデルを生成する。
具体的には、予測モデル生成部38は、モデル構築用データベース22に格納されている初期モデル学習用事例、及び事例選択部36によって選択された学習用事例を合わせて訓練事例集合Eとする。
次に、予測モデル生成部38は、訓練事例集合Eと、正解アノテーションデータベース24に格納された初期モデル学習用事例のクラスと、正解入力部12で受け付けた選択事例集合X’の各学習用事例の正解クラスとに基づいて、予測モデルC’を生成する。予測アルゴリズムは、初期モデル生成部26で用いたものと同じものを利用してもいいし、異なるものを利用してもよい。本実施の形態では、説明の簡単ため、特徴ベクトルと同じ次元の重みベクトルの内積によって予測を行う線形識別モデルによって予測モデルを表現するが、利用可能なアルゴリズムは線形識別モデルに限定されない。非線形モデルを適用する場合には、予測モデルデータベース40のデータ構造をアルゴリズムに合わせたスキーマに変更する。
そして、予測モデル生成部38は、予測モデルC’のパラメータを予測モデルデータベース40に格納する。
予測モデルデータベース40には、予測モデル生成部38によって生成された予測モデルのパラメータが格納される。
予測モデルデータベース40のデータ構造の例を図9に示す。図9に示すように、予測モデルデータベース40には、N次元の重みベクトルが分類するクラスごとに格納されている。
本実施の形態では、予測モデルとして線形識別モデル(例えば、参考文献3を参照)を用いた例で説明するため、この例では線形識別モデルのパラメータを格納している。線形識別モデルにて複数のクラス分類を行う際は、各クラスに対応する重みベクトルを予測モデルとして保持し、入力特徴ベクトルに対して内積の和が最大であるクラスに分類するという方法を用いることが出来る。そのため、クラスの数だけN次元の重みベクトルを格納する必要がある。
参考文献3:Cortes, C., & Vapnik, V. (1995). “Support-vector networks.” Machine learning, 20(3), 273-297.
出力部50は、予測モデルデータベース40に格納された予測モデルのパラメータを、結果として出力する。
<事例選択装置100の作用>
次に、本実施の形態の事例選択装置100の作用について説明する。まず、複数の初期モデル学習用事例と、複数の事例とが事例選択装置100に入力されると、入力部10によって、入力された複数の初期モデル学習用事例及び複数の事例が、モデル構築用データベース22へ格納される。また、複数の初期モデル学習用事例に予め対応付けられた正解クラスが事例選択装置100に入力されると、入力部10によって、複数の初期モデル学習用事例に予め対応付けられた正解クラスが正解アノテーションデータベース24に格納される。そして、事例選択装置100によって、図10に示す能動的クラス分類処理ルーチンが実行される。
まず、ステップS100において、初期モデル生成部26は、モデル構築用データベース22に格納された複数の初期モデル学習用事例と、正解アノテーションデータベース24に格納された複数の初期モデル学習用事例に予め対応付けられた正解クラスとに基づいて、教師あり学習を用いて、事例が分類されるクラスを予測するための予測モデルを生成する。当該ステップS100は、図11に示す初期モデル生成処理ルーチンによって実現される。
<初期モデル生成処理ルーチン>
まず、ステップS200において、初期モデル生成部26は、モデル構築用データベース22から初期モデル学習用事例の各々を取得する。
次に、ステップS202において、初期モデル生成部26は、正解アノテーションデータベース24から、上記ステップS200で得られた初期モデル学習用事例の各々のデータIDと対応する正解クラスを取得する。
ステップS204において、初期モデル生成部26は、上記ステップS100で得られた初期モデル学習用事例の各々と、上記ステップS202で得られた正解クラスの各々とを用いて予測モデルを生成する。
次に、能動的クラス分類処理ルーチンのステップS102に戻り、ステップS102において、事例頻度計算部28は、正解アノテーションデータベース24に格納された複数の初期モデル学習用事例の正解クラスに基づいて、クラスの各々の事例頻度を計算する。当該ステップS102は、図12に示す事例頻度計算処理ルーチンによって実現される。
<事例頻度計算処理ルーチン>
まず、ステップS300において、事例頻度計算部28は、モデル構築用データベース22に格納された初期モデル学習用事例の各々を取得する。
次に、ステップS302において、事例頻度計算部28は、上記ステップS300で得られた初期モデル学習用事例の各々に対応する正解クラスを、正解アノテーションデータベース24から取得し、クラスの各々の事例頻度を計算する。
ステップS304において、事例頻度計算部28は、上記ステップS302で計算したクラスの各々の事例頻度に基づいて、クラスIDと当該クラスIDに対応する事例頻度との組み合わせを事例頻度データベース30に格納する。
次に、能動的クラス分類処理ルーチンのステップS104に戻り、ステップS104において、確率推定部32は、モデル構築用データベース22に格納された複数の事例の各々について、初期モデル生成部26によって生成された予測モデルに基づいて、クラスの各々に対し、当該事例が当該クラスに分類される確率である分類確率を推定する。当該ステップS104は、図13に示す確率推定処理ルーチンによって実現される。
<確率推定処理ルーチン>
まず、ステップS400において、確率推定部32は、上記ステップS100で得られた予測モデルCを取得する。
次に、ステップS402において、確率推定部32は、モデル構築用データベース22に格納された複数の事例の各々について、上記ステップS400で取得した予測モデルCから各クラスyにデータID=xの事例が分類される確率である分類確率P(y|x)を計算する。
ステップS404において、確率推定部32は、モデル構築用データベース22に格納された各事例のデータIDと、上記ステップS403で計算した分類確率P(y|x)との組み合わせを分類確率データベース34に格納する。
次に、能動的クラス分類処理ルーチンのステップS106に戻り、ステップS106において、事例選択部36は、事例頻度データベース30に格納されたクラスの各々についての事例頻度と、分類確率データベース34に格納された事例の各々についてのクラスの各々に対する分類確率とに基づいて、モデル構築用データベース22に格納された複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択する。当該ステップS106は、図14に示す事例選択処理ルーチンによって実現される。
<事例選択処理ルーチン>
まず、ステップS500において、事例選択部36は、事例頻度データベース30からクラスの各々についての事例頻度を読み込み、集合Xとする。また、事例選択部36は、分類確率データベース34から事例の各々についてのクラスの各々に対する分類確率を読み込み、集合Pとする。
次に、ステップS502において、事例選択部36は、上記ステップS500で得られた集合Xの中で事例頻度が最小のクラスをyminとする。
ステップS504において、事例選択部36は、上記ステップS502で得られたクラスyminに対する分類確率P(ymin|x)が上位h個の事例を、上記式(3)に従って、学習用事例としてh個だけ選択し、選択事例集合X’とする。
次に、能動的クラス分類処理ルーチンのステップS107に戻り、上記ステップS504で得られた選択事例集合X’を表示部(図示省略)によりユーザに提示する。そして、ユーザは、選択事例集合X’のh個の学習用事例の各々に対し、正解クラスを入力する。そして、正解入力部12は、ユーザにより入力された正解クラスの各々を受け付ける。
ステップS108において、予測モデル生成部38は、事例選択部36によって選択された選択事例集合X’と、上記ステップS107で受け付けた正解クラスの各々とに基づいて、予測モデルを生成する。当該ステップS108は、図15に示す予測モデル生成処理ルーチンによって実現される。
<予測モデル生成処理ルーチン>
まず、ステップS600において、予測モデル生成部38は、モデル構築用データベース22に格納されている初期モデル学習用事例、及び事例選択部36によって選択された選択事例集合X’を合わせて訓練事例集合Eとする。
次に、ステップS602において、予測モデル生成部38は、上記ステップS600で得られた訓練事例集合Eと、正解アノテーションデータベース24に格納された初期モデル学習用事例のクラスと、上記ステップS107で受け付けた選択事例集合X’の各学習用事例の正解クラスとに基づいて、予測モデルC’を生成する。
ステップS604において、予測モデル生成部38は、上記ステップS602で生成された予測モデルC’のパラメータを予測モデルデータベース40に格納する。
次に、能動的クラス分類処理ルーチンのステップS110に戻り、出力部50は、予測モデルデータベース40に格納された予測モデルのパラメータを、結果として出力して、能動的クラス分類処理ルーチンを終了する。
以上説明したように、本実施の形態の事例選択装置によれば、クラスの各々についての事例頻度と、事例の各々についてのクラスの各々に対する分類確率とに基づいて、複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択することにより、事例頻度が低いクラスに属する事例を学習データに含ませて、アノテーションを行うことができる。
また、選択された学習用事例と、学習用事例に付与された正解クラスとに基づいて、予測モデルを生成することにより、事例頻度が低いクラスに属する事例から予測モデルを生成することができる。
また、クラスごとに事例頻度を計算し、事例頻度が低いクラスにおいて分類確率が高い事例を選択することで、事例頻度が低いクラスに属する事例に対し優先的にアノテーションを与えることが可能となる。この結果、少ないアノテーションコストで事例頻度が低いクラスの事例に対するアノテーションを十分に付与することが可能となり、事例頻度が低いクラスの分類精度が低下することを防ぎ、必要となるアノテーション回数を抑制することができる。
また、逐次的にアノテーションを与える事例を選択することで、予測モデルの精度要件を満たすまでにかかるアノテーションコストを低減することができる。その結果、アノテーションを人手で付与する際に支払うコストを低減することができる。
また、本実施の形態の事例選択装置が事例頻度計算部28と事例選択部36とを有することにより、少ないイテレーション数で低頻度クラスの事例に対するアノテーションを十分に付与することが可能となる。さらに、多くの低頻度クラスの正解情報を考慮に入れて重みを計算することが可能となり、その重みを利用した予測モデルを作成することが可能となるため、少ないアノテーションコストで高精度な予測を行う予測モデルを生成することが可能となる。
また、本実施の形態の事例選択装置の事例選択部36が、事例頻度が最小のクラスに対する分類確率が最大である事例を、正解クラスの付与対象となる学習用事例としてh個だけ選択する機能を有することにより、各クラスの事例頻度と分類確率から、低頻度の事例を積極的に選択することが可能となる。
なお、本実施の形態では、初期モデル生成部26で予測モデルを一度生成した後に、事例選択部36によってアノテーションを付与する事例を選択し、予測モデル生成部38によって予測モデルを一度更新する場合について説明した。一方で、予測モデル生成部38の結果を、再度事例頻度計算部28と確率推定部32とに入力することによって、再帰的に予測モデルを更新することも可能である。
[第2の実施の形態]
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第2の実施の形態に係る事例選択装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第2の実施の形態では、事例頻度が最小のクラスに対する分類確率と、事例頻度が最大のクラスに対する分類確率との差が最大となる事例を、正解クラスの付与対象となる学習用事例として選択する点が、第1の実施の形態と異なっている。
第2の実施の形態に係る事例選択装置の事例選択部36は事例頻度データベース30に格納されたクラスの各々についての事例頻度と、分類確率データベース34に格納された事例の各々についてのクラスの各々に対する分類確率とに基づいて、事例頻度が最小のクラスに対する分類確率と、事例頻度が最大のクラスに対する分類確率との差が最大となる事例を、正解クラスの付与対象となる学習用事例としてh個だけ選択する。
具体的には、まず、事例選択部36は、第1の実施の形態と同様に、事例頻度データベース30からクラスの各々についての事例頻度を読み込み、集合Xとする。また、事例選択部36は、分類確率データベース34から事例の各々についてのクラスの各々に対する分類確率を読み込み、集合Pとする。
次に、事例選択部36は、集合Xの中で事例頻度が最小のクラスをyminとする。そして、事例選択部36は、集合Xの中で事例頻度が最大のクラスをymaxとする。
そして、事例選択部36は、集合Pの中で、クラスyminに分類される分類確率とクラスymax分類される分類確率との差が最も大きい事例を抽出する。選択される事例xは、以下の式(4)で表せる。
以上の方法で上位h件の事例を選択し、選択事例集合X’とする。
なお、第2の実施の形態に係る事例選択装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る事例選択装置によれば、事例頻度が最小のクラスに対する前記分類確率と、前記事例頻度が最大のクラスに対する前記分類確率との差が最大となる前記事例を、前記正解クラスの付与対象となる学習用事例として選択することにより、事例頻度が最大のクラスに分類される分類確率が、事例頻度が最小のクラスに分類される分類確率よりもが相対的に小さい事例を選択することができる。つまり、事例頻度が最大のクラスに分類される分類確率が大きい事例が選ばれづらくなる効果がある。
[第3の実施の形態]
<システム構成>
次に、本発明の第3の実施の形態について説明する。なお、第3の実施の形態に係る事例選択装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第3の実施の形態では、事例頻度が最小のクラスに対する分類確率と、事例頻度が最大のクラスに対する分類確率とを組み合わせて、正解クラスの付与対象となる学習用事例を選択する点が、第1又は第2の実施の形態と異なっている。
第3の実施の形態に係る事例選択装置の事例選択部36は、第1の実施の形態における事例の選択方法と、第2の実施の形態における事例の選択方法との両方を利用して、事例を選択する。
第1及び第2の実施の形態における事例の選択方法の利用方法としては、例えば予め定めた上位h件の選択事例集合のうち、上位半分を第1の実施の形態における事例の選択方法を用いて事例を選択し、下位半分を第2の実施の形態における事例の選択方法を用いて事例を選択することが考えられる。
また、上位奇数番目を第1の実施の形態における事例の選択方法を用いて事例を選択し、上位偶数番目を第2の実施の形態における事例の選択方法を用いて事例を選択するなどの方法も考えられる。
これにより、第1の実施の形態における事例の選択方法と第2の実施の形態における事例の選択方法との両者の異なる観点で事例を選択することで、事例の特徴空間上で多様な事例を選択することができる効果がある。
なお、第3の実施の形態に係る事例選択装置の他の構成及び作用については、第1又は第2の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る事例選択装置によれば、事例頻度が最小のクラスに対する分類確率と、事例頻度が最大のクラスに対する分類確率とを組み合わせて、正解クラスの付与対象となる学習用事例を選択することにより、多様な事例を選択することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態では、人の加速度データを用いた行動推定を行うためのモデルを学習する場合を例に説明したが、この用途に限定されるものではなく、能動学習の枠組みで教師有り学習を行うタスク(例えば、テキストデータを用いたスパム判定や、画像データを用いた種別分類など)に対しても適用することができる。
また、上記実施の形態における、事例選択部36と予測モデル生成部38とを別々の装置として構成してもよい。その場合には、事例選択部36を含んで事例選択装置を構成し、予測モデル生成部38を含んで分類装置を構成する。
また、モデル構築用データベース22、正解アノテーションデータベース24、事例頻度データベース30、分類確率データベース34、及び予測モデルデータベース40の少なくとも1つは、事例選択装置の外部に設けられ、事例選択装置とネットワークで接続されていてもよい。
上述の事例選択装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
12 正解入力部
20 演算部
22 モデル構築用データベース
24 正解アノテーションデータベース
26 初期モデル生成部
28 事例頻度計算部
30 事例頻度データベース
32 確率推定部
34 分類確率データベース
36 事例選択部
38 予測モデル生成部
40 予測モデルデータベース
50 出力部
100 事例選択装置

Claims (8)

  1. 複数の初期モデル学習用事例と、前記複数の初期モデル学習用事例に予め対応付けられた正解クラスとに基づいて、事例が分類されるクラスを予測するための予測モデルを生成する初期モデル生成部と、
    前記複数の初期モデル学習用事例の正解クラス、又は前記予測モデルに基づいて、前記クラスの各々の事例頻度を計算する事例頻度計算部と、
    複数の事例の各々について、前記事例と前記初期モデル生成部によって生成された前記予測モデルとに基づいて、前記クラスの各々に対し、前記事例が前記クラスに分類される確率である分類確率を推定する確率推定部と、
    前記事例頻度計算部によって計算された前記クラスの各々についての事例頻度と、前記確率推定部によって推定された前記事例の各々についての前記クラスの各々に対する前記分類確率とに基づいて、前記複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択する事例選択部と、
    を含む事例選択装置。
  2. 前記事例選択部は、前記事例頻度計算部によって計算された前記クラスの各々についての事例頻度と、前記確率推定部によって推定された前記事例の各々についての前記クラスの各々に対する前記分類確率とに基づいて、前記事例頻度が最小のクラスに対する前記分類確率が最大である前記事例を、前記正解クラスの付与対象となる学習用事例としてh個だけ選択する
    請求項1に記載の事例選択装置。
  3. 前記事例選択部は、前記事例頻度計算部によって計算された前記クラスの各々についての事例頻度と、前記確率推定部によって推定された前記事例の各々についての前記クラスの各々に対する前記分類確率とに基づいて、前記事例頻度が最小のクラスに対する前記分類確率と、前記事例頻度が最大のクラスに対する前記分類確率との差が最大となる前記事例を、前記正解クラスの付与対象となる学習用事例としてh個だけ選択する
    請求項1に記載の事例選択装置。
  4. 請求項1〜請求項3の何れか1項に記載の事例選択装置によって選択された前記学習用事例と、該学習用事例に付与された正解クラスとに基づいて、前記予測モデルを生成する予測モデル生成部を含む
    分類装置。
  5. 初期モデル生成部、確率推定部、事例頻度計算部、及び事例選択部を含む事例選択装置における事例選択方法であって、
    前記初期モデル生成部が、複数の初期モデル学習用事例と、前記複数の初期モデル学習用事例に予め対応付けられた正解クラスとに基づいて、事例が分類されるクラスを予測するための予測モデルを生成するステップと、
    前記確率推定部が、前記複数の初期モデル学習用事例の正解クラス、又は前記予測モデルに基づいて、前記クラスの各々の事例頻度を計算するステップと、
    前記事例頻度計算部が、複数の事例の各々について、前記事例と前記初期モデル生成部によって生成された前記予測モデルとに基づいて、前記クラスの各々に対し、前記事例が前記クラスに分類される確率である分類確率を推定するステップと、
    前記事例選択部が、前記事例頻度計算部によって計算された前記クラスの各々についての事例頻度と、前記確率推定部によって推定された前記事例の各々についての前記クラスの各々に対する前記分類確率とに基づいて、前記複数の事例から、事例頻度が低いクラスに対する分類確率が高い事例を、正解クラスの付与対象となる学習用事例として選択するステップと、
    を含む事例選択方法。
  6. 予測モデル生成部を含む分類装置における分類方法であって、
    前記予測モデル生成部が、請求項5に記載の事例選択方法によって選択された前記学習用事例と、該学習用事例に付与された正解クラスとに基づいて、前記予測モデルを生成するステップを含む
    分類方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項に記載の事例選択装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項4に記載の分類装置の各部として機能させるためのプログラム。
JP2015240392A 2015-12-09 2015-12-09 事例選択装置、分類装置、方法、及びプログラム Active JP6509717B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015240392A JP6509717B2 (ja) 2015-12-09 2015-12-09 事例選択装置、分類装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015240392A JP6509717B2 (ja) 2015-12-09 2015-12-09 事例選択装置、分類装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017107386A JP2017107386A (ja) 2017-06-15
JP6509717B2 true JP6509717B2 (ja) 2019-05-08

Family

ID=59059710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015240392A Active JP6509717B2 (ja) 2015-12-09 2015-12-09 事例選択装置、分類装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6509717B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3896646A4 (en) 2018-12-14 2022-01-26 FUJIFILM Corporation MINI-LOT LEARNING DEVICE, AND RELATED OPERATING PROGRAM AND METHOD OF OPERATING
JP7096361B2 (ja) 2018-12-14 2022-07-05 富士フイルム株式会社 ミニバッチ学習装置とその作動プログラム、作動方法、および画像処理装置
CN113196335A (zh) 2018-12-14 2021-07-30 富士胶片株式会社 小批量学习装置及其工作程序和工作方法
WO2020202594A1 (en) * 2019-04-04 2020-10-08 Nec Corporation Learning system, method and program
CN114467146A (zh) * 2019-09-26 2022-05-10 株式会社润医 用于对部署机构中的人工智能模型进行专业化的训练方法以及用于对人工智能模型进行训练的装置
US20240005217A1 (en) * 2020-11-30 2024-01-04 Nec Corporation Information processing device, information processing method, and recording medium
WO2023145089A1 (ja) * 2022-01-31 2023-08-03 株式会社Abeja 人工知能システム及び人工知能の動作方法を実施するコンピュータシステム、並びにコンピュータプログラム記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140450B2 (en) * 2009-03-27 2012-03-20 Mitsubishi Electric Research Laboratories, Inc. Active learning method for multi-class classifiers
JP6277818B2 (ja) * 2014-03-26 2018-02-14 日本電気株式会社 機械学習装置、機械学習方法、及びプログラム

Also Published As

Publication number Publication date
JP2017107386A (ja) 2017-06-15

Similar Documents

Publication Publication Date Title
JP6509717B2 (ja) 事例選択装置、分類装置、方法、及びプログラム
US10885383B2 (en) Unsupervised cross-domain distance metric adaptation with feature transfer network
CN108182394B (zh) 卷积神经网络的训练方法、人脸识别方法及装置
WO2022121289A1 (en) Methods and systems for mining minority-class data samples for training neural network
US9002101B2 (en) Recognition device, recognition method, and computer program product
CN113614738A (zh) 使用蒸馏的具有个体目标类别的多个模型的统一
JP6235082B1 (ja) データ分類装置、データ分類方法、およびプログラム
JP2019521443A (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
US11610097B2 (en) Apparatus and method for generating sampling model for uncertainty prediction, and apparatus for predicting uncertainty
Freytag et al. Labeling examples that matter: Relevance-based active learning with gaussian processes
Zemmal et al. A new hybrid system combining active learning and particle swarm optimisation for medical data classification
WO2021238279A1 (zh) 数据分类方法、分类器训练方法及系统
JP6199461B1 (ja) 情報処理装置、情報処理方法、およびプログラム
Zhou et al. Active learning of Gaussian processes with manifold-preserving graph reduction
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
US20220078198A1 (en) Method and system for generating investigation cases in the context of cybersecurity
JPWO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
US20230115987A1 (en) Data adjustment system, data adjustment device, data adjustment method, terminal device, and information processing apparatus
JP5728534B2 (ja) 統合識別器学習装置、統合識別器学習方法、及び統合識別器学習プログラム
Akın A new hybrid approach based on genetic algorithm and support vector machine methods for hyperparameter optimization in synthetic minority over-sampling technique (SMOTE)
US20220027677A1 (en) Information processing device, information processing method, and storage medium
JP2017220001A (ja) 予測装置、予測方法及びプログラム
US20220207368A1 (en) Embedding Normalization Method and Electronic Device Using Same
Zhang et al. Quadratic graph attention network (Q-GAT) for robust construction of gene regulatory networks
Fabris et al. Dependency network methods for hierarchical multi-label classification of gene functions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190403

R150 Certificate of patent or registration of utility model

Ref document number: 6509717

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150