JP2017167834A

JP2017167834A - 学習データ選択装置

Info

Publication number: JP2017167834A
Application number: JP2016052718A
Authority: JP
Inventors: 健糸賀; Takeshi Itoga
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2017-09-21
Anticipated expiration: 2036-03-16
Also published as: JP6364037B2

Abstract

【課題】識別器を生成する能動学習において多様性が保持され学習効果の高い学習データを効率的に選択する。
【解決手段】記憶部２はデータが属するクラスを示すラベルが付与されたラベル有り学習データ２２と、ラベルが付与されていないラベル無し学習データ２３とを記憶する。解析手段５２はラベル有り学習データによって学習した識別器（識別器情報２１）を用い、ラベル無し学習データに対する識別スコアを算出する。選択手段５３はデータの特徴ベクトルが定義される特徴空間においてラベル無し学習データ２３をクラスタリングして複数のクラスタを生成し、当該ラベル無しクラスタから識別スコアに基づいて識別器の識別境界に近い順に所定数の低信頼度クラスタを選択し、当該低信頼度クラスタのそれぞれから所定の均等な割当個数のラベル無し学習データを能動学習のために選択する。
【選択図】図１

Description

本発明は、例えば、画像、音声、文章、動画、セキュリティ信号などのデータが属するクラスを識別する識別器の能動学習のために利用者に提示する学習データを選択する学習データ選択装置に関する。

様々な分野にて、機械学習により事前学習した識別器を用いて、各種データから知識、法則などを自動的に取得する技術が利用され始めている。特に、画像処理の分野では当該技術により、例えば、人物の顔画像や頭部画像から性別や年齢などの属性を推定することが従来より研究されている。

識別器は予め正解属性のラベルが付与されたデータを用いて事前に学習させる必要がある。しかし、性別や年齢など属性種類ごとに正解属性ラベルが付与されたデータを大量に用意することは一般的に容易ではない。また、正解ラベル付け作業は人手と時間を要するため、最小限の数のデータに対してラベル付けを行いたいという要請がある。そこで、能動学習とよばれる、学習効果の高いデータを効率的に収集する手法が提案されている。

特許文献１に示される技術によれば、能動学習は少数の正解ラベル有りデータと大量のラベル無しデータとがある状態から始められる。まず、少数の正解ラベル有りデータを学習データとして用い初期の識別器を学習させる。そして、コンピュータが識別器の識別境界からの距離を基準に、学習効果の高いラベル無しデータを自動選択して、オラクルと呼ばれる学習管理者に提示する。オラクルは提示されたデータに正解ラベルを付与することでラベル有りデータを追加し、再度、識別器をさせる。この学習データの追加と学習とを繰り返すことで識別器の推定精度を徐々に向上させることができる。

特許文献１では、画像上の所定領域に識別対象が存在するか否かを識別する識別器の学習に能動学習を用いており、オラクルに提示するラベル無しデータを選択する基準に関し、データの特徴ベクトルを定義する特徴空間にて識別境界付近のデータ、言い換えると推定の信頼度が低い画像を選択する方法が記載されている。

特開２０１１−１５０５４１号公報

しかし、データは特徴空間にて一様には分布しているとは限らず、通常はデータの分布には偏りが存在する。ここで、偏った分布から識別境界に近いという基準のみで一度に複数のデータを選択すると、分布が集中した箇所のデータが選ばれやすい傾向となる。つまり、似た特徴のデータが選ばれやすくなり、オラクルは似たようなデータに対してラベル付けすることになり非効率である。また別の側面から考えると、分布密度が疎なデータは選ばれにくくなるため、選ばれる学習データの多様性を失ってしまうという問題があった。

本発明は上記問題を鑑みてなされたものであり、多様性が保持され学習効果の高い学習データを効率的に選択することが可能な学習データ選択装置を提供し、ひいては効率的な学習で識別器の精度向上を図れる能動学習装置を提供することを目的とする。

（１）本発明に係る学習データ選択装置は、データが属するクラスを識別する識別器の能動学習のために利用者に提示する学習データを選択する学習データ選択装置であって、前記クラスを示すラベルが付与されたラベル有り学習データと、前記ラベルが付与されていないラベル無し学習データとを記憶する記憶部と、前記ラベル有り学習データによって学習した前記識別器を用い、前記ラベル無し学習データに対する識別スコアを算出する解析手段と、前記データの特徴ベクトルが定義される特徴空間において前記ラベル無し学習データをクラスタリングして複数のラベル無しクラスタを生成し、当該ラベル無しクラスタから前記識別スコアに基づいて前記識別器の識別境界に近い所定数の低信頼度クラスタを選択し、当該低信頼度クラスタのそれぞれから所定の均等な割当個数の前記ラベル無し学習データを前記能動学習のために選択する選択手段と、を有する。

（２）上記（１）の学習データ選択装置において、前記解析手段は、前記識別スコアに基づき前記各ラベル無し学習データについて前記クラスを推定し、前記選択手段は、前記クラスごとに前記ラベル無しクラスタを生成し、前記クラスそれぞれから所定の同数の前記低信頼度クラスタを選択する構成とすることができる。

（３）上記（１）、（２）の学習データ選択装置において、前記選択手段は、前記ラベル無しクラスタの数及び前記低信頼度クラスタの数を、それらの差が前記能動学習を繰り返すに従って大きくなるように設定する構成とすることができる。

（４）上記（１）から（３）の学習データ選択装置において、前記選択手段は、前記各低信頼度クラスタを所定数のサブクラスタにクラスタリングし、当該サブクラスタのそれぞれから所定の均等な個数の前記ラベル無し学習データを選択する構成とすることができる。

（５）上記（１）から（３）の学習データ選択装置において、前記選択手段は、前記各低信頼度クラスタにて、前記特徴空間における前記ラベル有り学習データまでの距離が大きいものから順に前記ラベル無し学習データを選択する構成とすることができる。

（６）上記（１）から（３）の学習データ選択装置において、前記選択手段は、前記各低信頼度クラスタにて、前記ラベル無し学習データの前記識別スコアの範囲を前記割当個数の区間に等分し、当該各区間から前記識別スコアの絶対値が最小である前記ラベル無し学習データを１つずつ選択する構成とすることができる。

本発明によれば、多様性が保持され学習効果の高い学習データを効率的に選択することが可能な学習データ選択装置が得られ、ひいては効率的な学習で識別器の精度向上を図れる能動学習装置が実現される。

本発明の実施形態に係る能動学習装置の概略の構成を示すブロック図である。本発明の実施形態に係る能動学習装置による能動学習における概略の処理フロー図である。性別属性クラスの入力をオラクルに求める際に表示部に表示する画面の一例の模式図である。特徴空間におけるラベル無し学習データの分布及び識別境界の例を示す模式図である。図４に示すラベル無し学習データに対し推定クラスごとのクラスタリングを行った状態を示す模式図である。

以下、本発明の実施の形態（以下実施形態という）である能動学習装置１について、図面に基づいて説明する。本実施形態では能動学習装置１を、人物の顔画像から性別を推定する識別器の学習に用いる場合を例に説明する。

［能動学習装置１の構成］
能動学習装置１は本発明に係る学習データ選択装置、及びオラクルとのインターフェース手段を有する。図１は能動学習装置１の概略の構成を示すブロック図である。能動学習装置１は記憶部２、表示部３、入力部４及び制御部５から構成される。このうち、専ら、記憶部２及び制御部５の解析手段５２と選択手段５３が学習データ選択装置として機能し、一方、表示部３及び入力部４が制御部５の制御の下、インターフェース手段として機能する。具体的には、制御部５は、記憶部２に記憶されたラベル無し学習データの中からオラクルに提示するデータを自動選択して表示部３に出力する。そして、制御部５は、提示したデータに対してオラクルが判別した正解ラベルを入力部４を介して取得し、ラベルを付与したデータをラベル有り学習データに移動させる。さらに制御部５はラベル有り学習データを用いて識別器を学習する機能を有する。能動学習装置１はこれらを繰り返し行う。以下、能動学習装置１の各部について詳細に説明する。

記憶部２は例えば、ハードディスクドライブ（Hard disk drive：HDD）、ＲＡＭ(Random Access Memory)等の記憶装置からなり、制御部５と接続される。記憶部２は識別器情報２１、学習データ（ラベル有り学習データ２２及びラベル無し学習データ２３）、その他、制御部５で用いられる各種プログラムや各種パラメータなどを記憶し、制御部５との間でこれらのプログラムやデータなどを入出力する。

識別器情報２１は、正解クラスと不正解クラスとの２クラスを推定する識別器（識別関数）を表すパラメータである。本実施形態で用いる識別器（識別関数）は、画像から得た特徴量（特徴ベクトル）を入力され、特徴量が正解クラスの特徴に類似している程度を示す評価値であるスコア（識別スコア）を出力する。

特徴量はベクトル形式で表現される特徴ベクトルであり、例えば、ハールライク（Haar-Like）特徴量や、ＨＯＧ（Histogram of Oriented Gradients）特徴量、ＬＢＰ（Local Binary Pattern）特徴量などの画像特徴量、あるいはそれら画像特徴量の組み合わせなど、推定対象とする属性に応じて適切に選択される。

識別器として用いる識別関数のパラメータは、例えば、一般的に利用される機械学習法の１つであるサポートベクターマシン（Support Vector Machine：ＳＶＭ）法を用いて属性を認識する場合、識別境界の法線ベクトルｗとバイアス項ｂとの組であり、評価値は尤度となる。

スコアは特徴量が正解クラスの特徴に類似しているほど高く、類似していないほど低い。また、スコアが正値の場合は推定結果のクラス（推定クラス）は正解クラスであるとされ、負値の場合は推定クラスは不正解クラスであるとされる。ここで、識別境界は特徴ベクトルが定義される特徴空間においてクラスを分ける超平面であり、スコアの絶対値が０に近いほど特徴量は識別境界に近くなり、クラス推定の確からしさ（推定信頼度）が低いことを意味する。

ラベル有り学習データ２２は、画像と、画像から得た特徴量と、属性クラスとが対応付けて記憶されたデータ群で構成される。属性クラスは本実施形態では顔画像に写る人物の性別であり、「男性」、「女性」の２クラスの状態を有する。ちなみに、属性が人物の年代である場合は、「１０代」、「２０代」、「３０代」、…、「７０代」などの多クラスの状態を有する。学習開始前の初期状態では、少数のデータがラベル有り学習データ２２に記憶された状態となる。

ラベル無し学習データ２３は、画像と、画像から得た特徴量とが対応付けて記憶されたデータ群で構成される。学習開始前の初期状態では、大量のデータがラベル無し学習データ２３に記憶された状態となる。なお、本実施形態では、ラベル有り学習データ２２及びラベル無し学習データ２３の其々が、特徴量を予め記憶しているが、これに限らず、特徴量を予め記憶せずに記憶部２からの読み出し時に制御部５により画像から特徴量を計算してもよい。

表示部３は制御部５が選択したラベル無し学習データに対応する画像をオラクルに視認可能に表示するインターフェース機器である。具体的には、表示部３は制御部５に接続されたディスプレイなどから構成される。

入力部４は更新する学習データの属性クラスをオラクルが入力するためのインターフェース機器である。具体的には、入力部４は制御部５に接続されたキーボード、マウス、視線入力装置、音声認識機能付きマイクロフォンなどの入力装置であり、入力された属性クラスを制御部５へ出力する。なお、表示部３及び入力部４をそれらを一体化した液晶タッチパネルディスプレイで実現してもよい。

制御部５はマイクロプロセッサ等の演算装置で構成され、記憶部２、表示部３、入力部４と接続される。制御部５は記憶部２からプログラムを読み出して実行し、識別器生成手段５１、解析手段５２、選択手段５３及び更新手段５４等として機能する。

識別器生成手段５１は、ラベル有り学習データ２２を用いて識別器を学習する機能を有する。本実施形態のように「性別」の属性クラスを識別するには例えば、「男性」と「男性以外」との２クラスの識別器を構成すればよい。この場合、識別器生成手段５１は具体的には、例えば「男性」人物の顔画像データに正解クラスがラベル付けされ、「男性以外」つまり「女性」人物の顔画像データに不正解クラスがラベル付けされたラベル有り学習データ２２にＳＶＭ法を適用して識別器を学習、生成することができる。

当該学習の結果、正解クラスと不正解クラスとを識別するのに適した識別境界が導出される。学習によって求めた最新の識別器のパラメータは、識別器情報２１として記憶部２に記憶される。

なお、上述した「年代」の属性クラスのような多クラスの識別は例えば、「性別」を識別する場合の２クラス分類ＳＶＭと同様にして、年代のクラスごとに、当該年代（例えば、「１０代」）を正解クラス、当該年代以外（例えば「１０代以外」）を不正解クラスとしてラベル有り学習データ２２を２分割して識別器を学習、生成し、それら複数の識別器を用いることで可能である。また、本実施形態では機械学習法としてＳＶＭ法を例として示したが、これに限定されず、ロジスティック回帰法などといった正解クラスと不正解クラスの２クラス分類問題の様々な機械学習法を採用することができる。

解析手段５２は、ラベル有り学習データ２２によって学習した識別器によりラベル無し学習データ２３を解析する。具体的には、解析手段５２は、記憶部２に記憶された識別器情報２１を読み出して識別器を構築する。そして、構築した識別器に、ラベル無し学習データ２３に登録された各画像の特徴量を入力してスコアを算出し、当該スコアに基づいて当該画像が属するクラスを推定する。求めた推定クラス及びスコアは当該画像に対応付けて、選択手段５３の処理に供するため記憶部２に一時保存される。

選択手段５３はラベル無し学習データ２３からオラクルに提示するデータを自動選択する。その選択に際して、ラベル無し学習データ２３に記憶されている各画像に対応付けられている特徴量と、当該画像について解析手段５２にて求めた推定クラス及びスコアとが用いられる。具体的な選択方法は後述する。選択された画像は表示部３に出力される。

更新手段５４は表示部３に表示された画像に対してオラクルが入力した属性クラスを入力部４から受け取り、当該画像とその特徴量と属性クラスとを対応付けたデータをラベル有り学習データ２２に登録する一方、当該画像に対応するデータをラベル無し学習データ２３から削除する。

［能動学習装置１の動作］
図２は能動学習装置１による能動学習における概略の処理フロー図である。

能動学習の動作を起動されると、制御部５は解析手段５２として動作し、記憶部２に予め記憶されている識別器情報２１で表される識別器を用いてラベル無し学習データ２３の各画像についてスコアを算出し推定クラスを求める（ステップＳ１）。算出したスコア及び推定クラスは記憶部２に記憶する。

続いて制御部５は選択手段５３として動作し、以下に説明するステップＳ２〜Ｓ５の処理を行う。

選択手段５３はラベル無し学習データ２３を推定クラスごとに分ける（ステップＳ２）。これにより具体的には、ラベル無し学習データ２３は、推定クラスが「正解クラス（男性）」であるラベル無し学習データ群と、推定クラスが「不正解クラス（女性）」であるラベル無し学習データ群とに分割される。

選択手段５３は推定クラスごとのラベル無し学習データ群をそれぞれクラスタリングして複数のクラスタ（ラベル無しクラスタ）を生成する（ステップＳ３）。クラスタリング手法には、ｋ−ｍｅａｎｓなど既知の手法を用いることができる。ラベル無し学習データ２３に登録された各画像には、クラスタリングにより当該画像が属するラベル無しクラスタのインデックスが付与され、各画像についての当該クラスタインデックスが記憶部２に一時記憶される。

以下、ステップＳ２で推定クラスごとに生成するラベル無しクラスタの数をＫで表す。Ｋは変数とすることができ、利用者がＫを直接設定する構成とすることもできるし、利用者がラベル無しクラスタのおおよそのサイズ（大きさ、分割粗さ）を指定し、選択手段５３が当該サイズと各推定クラスのラベル無し学習データのデータ数とに基づいて推定クラスごとにＫを決定する構成とすることもできる。また、後述するように識別器の学習の進行に応じて選択手段５３がＫを変化させることも可能である。ここでは、利用者がＫを２つの推定クラスに共通に設定する構成例を説明する。

選択手段５３は推定クラスごとにＫ個のラベル無しクラスタから、スコアに基づいて識別器の識別境界に近い順に所定数のラベル無しクラスタ（低信頼度クラスタ）を選択する（ステップＳ４）。低信頼度クラスタの数をＬで表す。ＬはＬ≦Ｋを満たす値であり、各推定クラスについて同じ値に設定される。例えば利用者がＫと共にＬを予め設定する。具体的には選択手段５３は、ラベル無し学習データ２３の画像について解析手段５２によりステップＳ１で算出され記憶部２に記憶されているスコアを用い、各ラベル無しクラスタに属する画像についてのスコアの平均値を算出する。そして、当該スコアの平均値の絶対値を当該ラベル無しクラスタの推定信頼度とし、Ｋ個のラベル無しクラスタから推定信頼度が低い順にＬ個を選択する。なお、本実施形態では、識別境界から近い所定数の低信頼度クラスタを選択するに際し、推定クラスごとに生成したラベル無しクラスタの中から識別境界から近い順に所定数（Ｌ）だけ選択している。しかし、これに限らず、特徴空間における識別境界からの近傍距離（閾値）を予め記憶しておき、当該近傍距離内に含まれるラベル無しクラスタの中からランダムに所定数（Ｌ）だけ選択することにより、識別境界から近い所定数の低信頼度クラスタを選択してもよい。

選択手段５３は低信頼度クラスタのそれぞれから所定の均等な割当個数のラベル無し学習データを能動学習のために選択する（ステップＳ５）。ここで各低信頼度クラスタから選択する画像の割当個数をＮで表す。Ｎは予め利用者により設定される。各低信頼度クラスタにおけるＮ個の画像の選択方法としては、例えば、当該低信頼度クラスタ内からランダムに選ぶ、又は当該低信頼度クラスタ内のスコアの絶対値が小さい画像から選ぶなどが好適である。

制御部５は選択された画像を表示部３に出力し、入力部４におけるオラクルの入力操作を待つ。図３は、性別属性クラスの入力をオラクルに求める際に表示部３に表示する画面の一例の模式図である。当該画面３１には学習データである顔画像３２が表示されると共に、性別属性を示すラジオボタン３３及び登録を指示するボタン３４が表示されている。

オラクルは顔画像３２について「男性」か「女性」かを判断して、入力部４として用意されたマウス等を操作してラジオボタン３３を選択しボタン３４をクリックする。この入力操作に対し、制御部５は更新手段５４として動作する。すなわち制御部５は表示部３に表示した画像についての属性クラスを入力部４から受け取り、当該画像に属性クラスを付与する（ステップＳ６）。具体的には、既に述べたように、当該画像とその特徴量と属性クラスとを対応付けたデータをラベル有り学習データ２２に登録する一方、当該画像に対応するデータをラベル無し学習データ２３から削除する。

ステップＳ２〜Ｓ５で選択された（属性クラス数×Ｌ×Ｎ）個の学習データについてステップＳ６の属性クラスの更新処理が完了すると、制御部５は識別器生成手段５１として動作する。すなわち、制御部５は記憶部２に記憶されたラベル有り学習データ２２を用いて識別器を再学習し、識別器情報２１を更新する（ステップＳ７）。

ステップＳ７の識別器の学習が完了すると、制御部５は、さらに識別器の学習を繰り返すためにデータ収集を続けるかどうかを、予め定めた終了条件に基づいて判断し（ステップＳ８）、終了条件が満たされた場合は能動学習を終了し、満たされていない場合はステップＳ１に戻り能動学習を継続する。

終了条件としては例えば、データ収集の繰り返し回数が所定回数に達したことを設定することができる。また、別に用意した属性クラスが付与されている評価用のデータを用いて現時点の識別器の性能を評価し、その性能値が基準値に達したり、性能値が上昇しなくなったりしたことなどを終了条件とすることもできる。

［学習データの選択手法についての追加説明］
（１）ラベル無しクラスタの数Ｋはデータ収集の多様性度合に関係するパラメータである。図４、図５はパラメータＫの違いと、多様性度合の違いとの関係を説明する模式図である。図４は能動学習の過程におけるラベル無し学習データ２３及び識別境界６０の例を２次元の特徴空間にて示している。図にプロットした“＋”，“○”は属性クラスが異なるデータを表しており、例えば“＋”は「男性」の顔画像データ、“○”は「女性」の顔画像データであるとする。なお、識別境界６０は現時点までの学習に基づき推定された境界であり、推定クラスの境界である。識別境界６０より左側の領域の各データの推定クラスは「男性」であり、当該領域に存在する“○”はクラスを誤推定されているデータである。同様に識別境界６０より右側の領域の各データの推定クラスは「女性」であり、当該領域に存在する“＋”はクラスを誤推定されているデータである。

また図５は図４に示すラベル無し学習データ２３に対し推定クラスごとのクラスタリングを行った状態（ステップＳ３の処理を行った状態）を示している。同図にて、データ点を囲む線（楕円）がラベル無しクラスタを表しており、図５（ａ）はＫをＬよりも非常に大きい値に設定した場合の例としてＫ＝１０の場合を示し、図５（ｂ）はＫをＬに近い値に設定した場合の例としてＫ＝４の場合を表している。ここでは、Ｌ＝３とし、低信頼度クラスタとして選択された低信頼度クラスタを実線の楕円で示し、それ以外のラベル無しクラスタを一点鎖線の楕円で示している。また、Ｎ＝１とし、各低信頼度クラスタからデータ１個を選ぶ基準は識別境界に最も近いデータとする。図５では各低信頼度クラスタにて選択されたデータを太線の“＋”，“○”で表している。

この例を用いて、ＫをＬよりも非常に大きい値に設定した場合と、ＫをＬに近い値に設定した場合の２ケースについて、多様性の度合がどのように変わるかを説明する。Ｋが大きいほどラベル無し学習データ２３は細かく分割され、識別境界に近いラベル無しクラスタの数は多くなりやすい。よって、同じＬ個の低信頼度クラスタを選ぶ場合、Ｋが大きいほど、識別境界に近いラベル無しクラスタが選ばれやすくなり、一方、Ｋが小さくなるにつれ低信頼度クラスタに識別境界から離れたラベル無しクラスタが含まれやすくなる。その結果、ＫがＬよりも非常に大きい場合には、低信頼度クラスタから選ばれる学習データは総じて識別境界に近くなるので、学習効果が高いデータが選ばれる一方、データの多様性度合は低くなる。これに対して、ＫをＬに近い値に設定した場合には、識別境界に近い学習データだけでなく識別境界から比較的離れた学習データも選ばれやすくなるため、データの多様性度合が高くなる。

このように、Ｋはデータ収集の多様性度合を決めるパラメータであり、Ｋを適切に設定することで、識別境界付近に沿って分布する信頼度が低い画像の中から、万遍なくデータが選ばれるため、学習効果の高いデータを効率的に収集することができる。なお、経験的にはＫはＬに対して２倍程度の値に設定するのが好適であり、仮にＬ＝３とした場合はＫ＝６程度が望ましい。

（２）本発明では上述したように、ラベル無し学習データ２３をクラスタリングし、その中から選択した複数の低信頼度クラスタそれぞれから同数（Ｎ個ずつ）の学習データを選んでオラクルに提示する。このように各低信頼度クラスタから選ぶ学習データの個数を均等にすることの意義について説明する。

既に述べたようにラベル無し学習データ２３に登録されたデータの特徴空間における分布は一様とは限らず、むしろ通常はデータの分布には偏りが存在する。偏った分布からランダムにデータを抽出すると、分布密度が高い箇所のデータが選ばれやすい。その結果、似た特徴のデータが選ばれやすくなり、オラクルは似たようなデータに対してラベル付けすることになり非効率である。また、事前に用意したラベル無し学習データ２３の分布と実際の適用環境のデータ分布とは必ずしも一致しない。したがって、ラベル無し学習データ２３の分布密度が高い場所から重点的にラベル付けするデータを選んでしまうと、実際に適用する環境には相応しくない識別境界面を学習することが起こりやすくなる。例えば、事前に用意したラベル無し学習データ２３のデータの分布が「眼鏡を着用した女性の顔画像データ」に比べて「眼鏡を着用した男性の顔画像データ」が極めて多いようなデータの分布に偏りが存在する場合、特徴空間における眼鏡を着用した男性の箇所の分布密度が高くなる。そして、このような分布密度が高い箇所からラベル付けするデータが重点的に選ばれ、それらのデータを用いて識別境界面を学習してしまうと、たとえ「眼鏡を着用した女性の顔画像データ」であっても「男性」として誤った属性クラスで識別されやすくなる。

複数の低信頼度クラスタから均等に学習データを選択する本発明は当該不都合を緩和することができる。すなわち、選択される学習データが複数の低信頼度クラスタに分散するので、ラベル無し学習データ２３における分布密度が高い箇所にデータ選択が集中しにくくなり、また、選択される学習データの分布とラベル無し学習データ２３におけるデータ分布との相関度合いが低減し、多様な学習データが選択されやすい。

さらに、識別境界に近い低信頼度クラスタから学習データを選ぶことで、識別境界に近くクラス判別が難しい領域にラベル有り学習データが得られるので、学習効果の高いデータを効率的に収集できる。

さて、上述の実施形態では、ラベル無し学習データ２３を推定クラスで分け、各クラスのラベル無し学習データ２３をそれぞれクラスタリングする例を説明したが、ラベル無し学習データ２３を推定クラスで分けずにクラスタリングしラベル無しクラスタを生成した場合にも同様の手法で学習データを選択することができる。このラベル無し学習データ２３を推定クラスで分けずクラスタリングした場合にも上述した、低信頼度クラスタから均等に学習データを選択する効果、及び低信頼度クラスタを選ぶ効果が得られる。

一方、ラベル無し学習データ２３を推定クラスで分けてクラスタリングする上述の実施形態の構成では、各クラスについてＬ個の低信頼度クラスタ（Ｌ×Ｎ個の学習データ）を選択することで、ラベル無し学習データ２３の推定クラス間の偏り（データ数の違い）の影響を軽減できる効果も得られる。例えば、ラベル無し学習データ２３が特定のクラスに偏っていると、その特定クラスから学習データが選ばれやすくなる。これは、実際の適用環境がラベル無し学習データ２３とは異なるクラス間の偏りを有する場合には、相応しくない学習データが収集されやすい不都合がある。この点、各推定クラスの低信頼度クラスタの数を同じにすることで当該問題を軽減できる。

（３）上述の実施形態では、Ｌ，Ｎは利用者により設定された固定値とし、また、属性クラス数は２であり、やはり固定値であるので、能動学習の各反復回でオラクルが属性付与するデータ数（属性クラス数×Ｌ×Ｎ）は固定となる。能動学習により削減しようとするデータ数は本実施形態のように反復的に学習を行う場合、反復が完了するまでに選択される総データ数であるが、各反復回にて選択されるデータ数の抑制も効率的な学習の１つの目安となり得る。ここで、Ｎが大きいということは同一のラベル無しクラスタから選出される画像が多くなる、つまり類似した画像が多く選ばれることを意味し、学習が効率的でなくなり得る。一方、Ｌが大きいことは選択されるデータの多様性が高まることにより、効率的な学習に寄与し得る。よって、各反復回で選択するデータ数を一定、つまりＬ×Ｎを一定とする条件の下では基本的にはＬは大きくし、逆にＮは小さくするのが好適である。すなわち、Ｎは１に近い小さな値を使用し、その分、Ｌを大きくしてデータの多様性を保持する。

［変形例］
（１）図２のステップＳ３に関し、データ収集の初期からＫをＬよりも非常に大きい値に設定すると、図５（ａ）に示すように、誤推定しているデータのラベル無しクラスタが低信頼度クラスタとして選ばれにくくなるため、最適な識別境界が得られにくくなりやすい。つまり初期値依存問題が起こりやすくなる。

そこで、当該初期値依存問題を低減するために、以下のように能動学習の反復ごとにＫを変えて、データ収集の多様性度合を変化させてもよい。つまり、データ収集初期では、ＫをＬに近い値に設定し多様性度合を高くする一方、反復回を重ね学習が進むに従って徐々にＫを大きくすることで、識別の難しい境界付近のデータ収集に移行させる。例えば、Ｌ＝３，Ｎ＝１の場合は、データ収集初期では、Ｋ＝３から開始し、ステップＳ１〜Ｓ７の処理を１回行うごとにＫの値を１ずつ増やしていく。

なお、このＫを漸次大きくすることと同様の効果は一般に、ラベル無しクラスタの数Ｋ及び低信頼度クラスタの数Ｌを、それらの差が能動学習を繰り返すに従って大きくなるように設定することで得られる。例えば、図５（ａ）に示すＫ＝１０の場合においても、Ｌを大きくすれば誤推定しているデータのラベル無しクラスタも低信頼度クラスタとして選択される。従ってＫは一定に保ち、データ収集初期では、ＬをＫに近い値に設定し多様性度合を高くする一方、反復回を重ね学習が進むに従って徐々にＬを小さくしてもよい。

（２）上記実施形態ではステップＳ５における低信頼度クラスタからＮ個の学習データを選択する第１の方法として、当該クラスタ内からランダムに選ぶ方法、また第２の方法として、当該クラスタ内のスコアの絶対値が小さい画像から選ぶ方法を示した。

ここで、第２の方法は、識別の難しい識別境界付近の画像が学習データとされる点で好適であるが、Ｎが２以上、つまり１つの低信頼度クラスタから複数の画像を選択する場合に、単純にスコア絶対値が小さい順に選択すると、似た画像が選ばれて学習の効率が低下しやすくなる。そこで、低信頼度クラスタから複数の画像を選択する場合には、そのうちの１つは当該クラスタ内のスコア絶対値が小さい画像（例えばスコア絶対値が最小値の画像）とし、残りはＮ個の画像のスコアが分散するように選択することができる。

具体的には、選択手段５３は例えば、低信頼度クラスタ内のラベル無し学習データ２３をスコア絶対値が低い順にソートし、スコア絶対値が小さいデータ（例えばスコア絶対値が最小値のデータ）からスコア絶対値が大きいデータ（例えばスコア絶対値が最大値のデータ）まで、スコアの間隔が基本的に均等になるようにラベル無し学習データを選択することができる。またはスコア絶対値の順位の間隔が均等になるように選択してもよい。

また、選択手段５３は、各低信頼度クラスタにて、ラベル無し学習データ２３のスコアの範囲をＮ個の区間に等分し、当該各区間からスコア絶対値が最小であるラベル無し学習データを１つずつ選択する構成としてもよい。または、スコア絶対値の順位をＮ個の区間に等分し、当該各区間から順位が最小であるデータを１つずつ選択してもよい。

（３）低信頼度クラスタからＮ個の学習データを選択する第３の方法として、ｋ，ｎをｋ×ｎ＝Ｎなる予め定めた自然数とし、選択手段５３は各低信頼度クラスタを所定数（ｋ個）のサブクラスタにクラスタリングし、当該サブクラスタのそれぞれから所定の均等な個数（ｎ個）のラベル無し学習データを選択してもよい。例えば、ｋ＝Ｎ，ｎ＝１とすることができる。なお、各サブクラスタにおけるｎ個のデータの選択には上述した第１，第２の方法を用いることができる。

（４）低信頼度クラスタからＮ個の学習データを選択する第４の方法として、選択手段５３は、各低信頼度クラスタにて、特徴空間におけるラベル有り学習データまでの距離が大きいものから順にラベル無し学習データを選択してもよい。この方法では、ラベル有り学習データに似ない画像が学習データに選ばれやすくなり学習の効率が向上する。例えば、Ｎ＝１の場合には、特徴空間にてラベル有り学習データから最も離れているラベル無し学習データを学習データとして選択する。具体的には、低信頼度クラスタ内の各ラベル無し学習データについて任意のラベル有り学習データとの距離の最小値を求め、当該最小値が最大であるラベル無し学習データを１つ学習データとして選ぶ。

上述の実施形態及び変形例により説明した本発明では、能動学習の学習データの選択に際し、データの多様性度合と推定信頼度という２つの基準を考慮する。つまり、データの多様性を保持しつつ、推定信頼度が低いデータの中からの選択を図る。これにより、効率的でかつ偏りの少ない良質な学習データが収集できる。つまり、似た画像に対して何度もラベル付けする非効率を軽減することができ、また少数の学習データでも推定性能の高い識別器を学習することができる。

なお、上述の実施形態及び変形例では、人物の顔画像から属性を推定する識別器の学習を例に説明したが、本発明の適用はそれに限られるものではない。例えば、車両画像から車種を判定する識別器や、一般物体画像が食べ物であるか否かを判定する識別器など、人物画像や人物属性に限らない識別対象について、本発明を適用して属性推定器を構成することができる。

１能動学習装置、２記憶部、３表示部、４入力部、５制御部、２１識別器情報、２２ラベル有り学習データ、２３ラベル無し学習データ、５１識別器生成手段、５２解析手段、５３選択手段、５４更新手段。

Claims

データが属するクラスを識別する識別器の能動学習のために利用者に提示する学習データを選択する学習データ選択装置であって、
前記クラスを示すラベルが付与されたラベル有り学習データと、前記ラベルが付与されていないラベル無し学習データとを記憶する記憶部と、
前記ラベル有り学習データによって学習した前記識別器を用い、前記ラベル無し学習データに対する識別スコアを算出する解析手段と、
前記データの特徴ベクトルが定義される特徴空間において前記ラベル無し学習データをクラスタリングして複数のラベル無しクラスタを生成し、当該ラベル無しクラスタから前記識別スコアに基づいて前記識別器の識別境界に近い所定数の低信頼度クラスタを選択し、当該低信頼度クラスタのそれぞれから所定の均等な割当個数の前記ラベル無し学習データを前記能動学習のために選択する選択手段と、
を有することを特徴とする学習データ選択装置。
前記解析手段は、前記識別スコアに基づき前記各ラベル無し学習データについて前記クラスを推定し、
前記選択手段は、前記クラスごとに前記ラベル無しクラスタを生成し、前記クラスそれぞれから所定の同数の前記低信頼度クラスタを選択すること、
を特徴とする請求項１に記載の学習データ選択装置。
前記選択手段は、前記ラベル無しクラスタの数及び前記低信頼度クラスタの数を、それらの差が前記能動学習を繰り返すに従って大きくなるように設定すること、を特徴とする請求項１又は請求項２に記載の学習データ選択装置。
前記選択手段は、前記各低信頼度クラスタを所定数のサブクラスタにクラスタリングし、当該サブクラスタのそれぞれから所定の均等な個数の前記ラベル無し学習データを選択すること、を特徴とする請求項１から請求項３のいずれか１つに記載の学習データ選択装置。
前記選択手段は、前記各低信頼度クラスタにて、前記特徴空間における前記ラベル有り学習データまでの距離が大きいものから順に前記ラベル無し学習データを選択すること、を特徴とする請求項１から請求項３のいずれか１つに記載の学習データ選択装置。
前記選択手段は、前記各低信頼度クラスタにて、前記ラベル無し学習データの前記識別スコアの範囲を前記割当個数の区間に等分し、当該各区間から前記識別スコアの絶対値が最小である前記ラベル無し学習データを１つずつ選択すること、を特徴とする請求項１から請求項３のいずれか１つに記載の学習データ選択装置。