JP7350587B2

JP7350587B2 - 能動学習装置、能動学習方法及びプログラム

Info

Publication number: JP7350587B2
Application number: JP2019171017A
Authority: JP
Inventors: 信太郎高橋; 鳴鏑蘇; 邦雄馬場; 実西澤
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2023-09-26
Anticipated expiration: 2039-09-20
Also published as: JP2021047751A

Description

本発明の実施形態は、能動学習装置、能動学習方法及びプログラムに関する。

機械学習における学習の方法の一つに能動学習がある。能動学習では学習効果の高い質問であるクエリを学習器が選択し、提示されたクエリに対する回答を回答者（オラクル）が入力することで学習が進む。より具体的には、能動学習においては、クエリの提示、オラクルの回答、回答に基づく学習、学習結果に基づく新たなクエリの提示、という一連の処理のサイクルが繰り返されることで学習が進む。

しかしながら、１サイクルにつき１つのクエリだけが提示される場合、オラクルが複数のクエリに回答するためには、１つのクエリに回答するたびに学習の処理が完了するのを待つ必要があり、オラクルの待機時間が長くなる問題があった。そこで、オラクルの待機時間を軽減する学習法として、バッチモード能動学習が提案された。バッチモード能動学習では１サイクルに複数のクエリが提示されるため、オラクルの待機時間を軽減することができる。

しかしながら、バッチモード能動学習では、１サイクルに複数のクエリが提示されるが、選択される複数のクエリは、学習の進行具合が同じ学習モデルに基づいて選択される。そのため、１サイクルに提示されるクエリの内容が似たような内容ばかりになる場合があり、オラクルが回答する労力に対する学習の効果が薄くオラクルの負担が大きくなる場合があった。

特許第６３６４０３７号公報特許第５５１８７５７号公報

本発明が解決しようとする課題は、能動学習におけるオラクルの負担を軽減する能動学習装置、能動学習方法及びプログラムを提供することである。

実施形態の能動学習装置は、解析部と、選択部と、出力部と、入力部と、学習モデル更新部とを持つ。解析部は、予め定められた複数の分類先のうち入力された複数の教師無しの学習データ（以下「教師無しデータ」という。）が属する分類先をそれぞれ推定する機械学習モデルの各推定結果の信頼度を算出する。選択部は、前記学習データを複数のクラスタにクラスタリングし、クラスタリングした後に前記信頼度が低いものから優先的に１つ以上の学習データを選択する。出力部は、前記選択部が選択した前記学習データの教師データを回答することをオラクルに要求するクエリを出力する。入力部は、前記回答を取得する。学習モデル更新部は、前記回答に基づいて前記機械学習モデルの学習を進める。前記選択部は、１つのクラスタから所定の数以上の前記学習データを選択しないように前記学習データを選択する。

実施形態の能動学習装置１００のハードウェア構成の一例を示す図。実施形態における特徴量空間及び識別境界を説明する説明図。実施形態における制御部１１の機能構成の一例を示すブロック図。実施形態におけるクエリ対象選択処理の流れの一例を示すフローチャート。実施形態の能動学習装置１００が、オラクルによる回答に基づいて学習済みモデルを更新する処理の流れの一例を示すフローチャート。実施形態におけるクエリ対象データを説明する第１の説明図。実施形態におけるクエリ対象データを説明する第２の説明図。

以下、実施形態の能動学習装置、能動学習方法及びプログラムを、図面を参照して説明する。

図１は、実施形態の能動学習装置１００のハードウェア構成の一例を示す図である。能動学習装置１００は、学習器の機能と識別器の機能とを有し分類問題の解を出力する。以下、能動学習装置１００の動作の概要を説明する。

＜能動学習装置１００の動作の概要＞
能動学習装置１００は、能動学習によって機械学習モデルのパラメータを好適に調整する。機械学習モデルのパラメータを好適に調整することが能動学習装置１００による学習である。能動学習装置１００が学習する機械学習モデルは、分類問題の解を取得可能な機械学習モデルであればどのような機械学習モデルであってもよい。機械学習モデルは、例えば、サポートベクターマシン（ＳＶＭ：Support Vector Machine）であってもよいし、ニューラルネットワークであってもよい。ニューラルネットワークとしては、例えば、エンコーダとデコーダとからなるモデルであってもよい。ニューラルネットワークは、全結合型のパーセプトロンであってもよいし、畳み込みニューラルネットワークであってもよい。機械学習モデルのパラメータは、誤差逆伝搬法のアルゴリズムによって調整されてもよい。以下、機械学習モデルがサポートベクターマシンである場合を例に説明する。

能動学習装置１００は、能動学習によって学習した学習済みモデルに基づき、予め定められた複数の分類先のうち入力されたデータが属する分類先を推定する。学習済みモデルは、終了条件が満たされた時点における機械学習モデルである。終了条件は、学習の終了に関する条件であればどのような条件であってもよい。終了条件は、例えば、所定数のデータセットによる学習が実行された、という条件であってもよいし、学習によるパラメータの変化量が所定の大きさ未満であるという条件であってもよい。

分類先の数は２つであってもよいし、３つ以上であってもよい。以下、説明の簡単のため分類先の数が２つである場合を例に説明する。例えば機械学習モデルに入力されるデータが製造された製品を撮影した画像である場合、分類先の１つは、例えば、撮影された製品が良品である状態であり、分類先の１つは、例えば、撮影された製品が不良品である状態である。

能動学習装置１００においては、機械学習モデルのパラメータが好適に調整されることで、特徴量空間における識別境界が好適に調整される。特徴量空間は座標空間であって、座標軸の座標が特徴量を示す座標空間である。以降、機械学習モデルに入力されるデータを「モデル入力データ」と呼ぶ。モデル入力データは、機械学習モデルの推定対象となるデータそのものであってもよい。例えば、機械学習モデルが、画像データを対象に何らかの出力を推定するものである場合、モデル入力データは画像データそのものであってもよい。もしくは、モデル入力データは、元となる何らかのデータ（例えば画像データ）から、何らかの関数やルールに基づいて算出されたデータ（例えば画像データから抽出される色やエッジなどの情報）であってもよい。特徴量は、例えば、モデル入力データそのものであってもよい。もしくは特徴量は、機械学習モデルに基づいて算出されたデータであってもよい。例えば、機械学習モデルがニューラルネットワークである場合には、特徴量は中間層の出力であってもよい。また、特徴量は、モデル入力データ、もしくはモデル入力データの元となるデータから、機械学習モデルとは独立に算出されたデータであってもよい。以下、説明の簡単のため、特徴量はモデル入力データそのものである場合を例に説明する。

識別境界は、特徴量空間において１つの分類先と別の他の分類先とを分ける超平面である。能動学習装置１００による推定対象のデータの特徴量ベクトルが示す特徴量空間における座標値が識別境界に近いほど、能動学習装置１００による推定結果の信頼度は低い。特徴ベクトルは、特徴量空間に定義されるベクトルであって、特徴量を要素とするベクトルである。信頼度は、能動学習装置１００による推定結果の信頼の度合を示す指標である。信頼度は、推定結果の信頼の度合を示すことができればどのような指標であってもよい。信頼度は、例えば、機械学習モデルが識別モデルであれば、ＭａｒｇｉｎＳａｍｐｌｉｎｇや、ＬｅａｓｔＣｏｎｆｉｄｅｎｃｅや、ＥｎｔｏｒｏｐｙＢａｓｅｄ等の、識別境界と特徴ベクトルに対応する座標との距離に基づく指標であってもよい。

図２は、実施形態における特徴量空間及び識別境界を説明する説明図である。図２が示す特徴量空間の座標軸の１つは特徴量Ｃ１を示し、他の１つは特徴量Ｃ２を示す。図２において、ベクトルＶ１は特徴量ベクトルの１つである。図２において黒丸で表される点と、白丸で表される点とは、異なる分類先の要素である。識別境界は、黒丸で表される点を要素とする分類先と、白丸で表される点を要素とする分類先とを分ける境界である。識別境界に近い点ほど識別境界を挟んだ反対側の分類先との距離が近い。そのため、能動学習装置１００によって識別境界を挟んだ反対側の分類先に属する点であると推定される可能性が高い。このことは、識別境界からの距離が遠いほど能動学習装置１００の推定結果の信頼度が高いことを意味する。すなわち、図２においては、距離が信頼度を示す指標である。距離は、特徴量空間に規定される２点間の関係を示す量であって、例えば、ユークリッド距離である。距離は、ミンコフスキー距離であってもよい。図２において、点線の丸は、識別境界を挟んだ反対側の分類先に属する確率が、能動学習装置１００によって所定以上の値であると推定された点である。

能動学習装置１００が実行する能動学習の流れの概要を説明する。
能動学習装置１００は能動学習において、まず複数の教師有りの学習データ（以下「教師有りデータ」という。）に基づいて学習する。教師有りデータは、互いに対応付けられたモデル入力データと、特徴量と、教師データとを含むデータである。教師データは、具体的には、分類先を示す情報である。能動学習装置１００は、この学習によって識別境界の位置も学習する。識別境界の位置とは、具体的には、特徴量空間における識別境界を表す関数である。

能動学習装置１００は、次に、複数の教師無しデータの各々の分類先を推定する。教師無しデータは、互いに対応付けられたモデル入力データと特徴量とを含むデータであり、教師データを含まないデータである。能動学習装置１００は、分類結果に基づき、各教師無しデータの信頼度を算出する。

能動学習装置１００は、次に、各教師無しデータの特徴量及び信頼度に基づき、所定の条件を満たす複数の教師無しデータをクエリ対象データに選択する。クエリ対象データは、分類先を回答するように能動学習装置１００がオラクルに要求する教師無しデータである。所定の条件の詳細は後述する。

能動学習装置１００は、選択したクエリ対象データが属する分類先を回答するようオラクルに要求する。能動学習装置１００によるオラクルへの要求がクエリである。能動学習装置１００は、クエリに対するオラクルの回答を取得し学習を進める。オラクルの回答とは、具体的には、分類先を示す情報である。
このようにして能動学習装置１００は能動学習する。
ここまでで能動学習装置１００の動作の概要の説明を終了する。

能動学習装置１００は、バスで接続されたＣＰＵ（Central Processing Unit）等のプロセッサとメモリとを備える制御部１１を備えプログラムを実行する。能動学習装置１００は、プログラムの実行によって、制御部１１、記憶部１２、入力部１３及び出力部１４を備える装置として機能する。

制御部１１は、能動学習装置１００が備える各機能部の動作を制御する。制御部１１は、例えば、記憶部１２に各種情報を記録する。
記憶部１２は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部１２は、能動学習装置１００の動作に関する各種情報を記憶する。記憶部１２は、モデル情報を記憶する。モデル情報は、機械学習モデルと、機械学習モデルのハイパーパラメータの値と、機械学習モデルのパラメータの値とを含む。記憶部１２は、複数の教師有りデータと、複数の教師無しデータとを予め記憶している。記憶部１２は、識別境界を示す情報を記憶する。記憶部１２は、選択済み集合に属する要素を記憶する。選択済み集合は、他の要素との類似度が所定の類似度（以下「類似度閾値」という。）未満であるという条件を満たす教師無しデータを要素とする集合である。類似度とは、特徴量空間における２つの教師無しデータ間の距離の近さを示す値である。複数のクエリ対象データ間の類似度が低いほどクエリの内容が異なる。そのため、クエリ対象データ間の類似度が低いほど、オラクルの回答が得られた場合の能動学習装置１００の学習効率が高い。

入力部１３は、マウスやキーボード、タッチパネルやマイクロフォン等の入力装置を含んで構成される。入力部１３は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部１３は、これらの入力装置を介してクエリに対するオラクルの回答を受け付ける。入力部１３は、入力された回答を制御部１１に出力する。

出力部１４は、ＣＲＴ（Cathode Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro-Luminescence）ディスプレイ等の表示装置や、スピーカー等の音声を出力する装置（以下「音声出力装置」という。）を含んで構成される。出力部１４は、これらの表示装置又は音声出力装置を自装置に接続するインタフェースとして構成されてもよい。出力部１４は、これらの表示装置又は音声出力装置によってクエリを出力する。

図３は、実施形態における制御部１１の機能構成の一例を示すブロック図である。
制御部１１は、学習モデル更新部１１１、解析部１１２、選択部１１３、出力制御部１１４、回答取得部１１５、学習データ更新部１１６及び推定部１１７を備える。

学習モデル更新部１１１は、記憶部１２に記憶されている教師有りデータに基づいて学習する。具体的には、学習モデル更新部１１１は、記憶部１２に記憶されている教師有りデータに基づいてモデル情報が示す機械学習モデルのパラメータを最適化する。学習モデル更新部１１１によってパラメータが最適化された学習モデルが学習済みモデルである。学習モデル更新部１１１による学習によって、識別境界の位置が好適に調整される。

解析部１１２は、記憶部１２に記憶されている教師無しデータを学習済みモデルに入力し、各教師無しデータの分類先を推定する。解析部１１２は、推定結果と各教師無しデータの特徴量と識別境界とに基づいて、各教師無しデータの信頼度を算出する。

選択部１１３は、クエリ対象選択処理を実行することで複数の教師無しデータをクエリ対象データに選択する。クエリ対象選択処理は、信頼度及び特徴量に基づきクエリ対象データを選択する処理である。クエリ対象選択処理の詳細は後述する。

出力制御部１１４は、出力部１４にクエリを出力させる。
回答取得部１１５は、クエリに対するオラクルの回答を取得する。

学習データ更新部１１６は、回答取得部１１５が取得したオラクルの回答を教師データとしクエリ対象データをモデル入力データ及び特徴量とする学習データを、記憶部１２が記憶する教師有りデータに追加する。学習データ更新部１１６は、オラクルの回答が得られたクエリ対象データを記憶部１２が記憶する教師無しデータから削除する。

推定部１１７は、学習済みモデルに基づき、例えば入力部１３を介して入力されたデータの分類先を推定する。推定部１１７の推定結果は、出力部１４に出力されてもよいし、記憶部１２に記録されてもよい。

（クエリ対象選択処理の詳細）
図４は、実施形態におけるクエリ対象選択処理の流れの一例を示すフローチャートである。
選択部１１３は、まず教師無しデータの特徴量に基づき教師無しデータを複数のクラスタにクラスタリングする（ステップＳ１０１）。以下、説明の簡単のためクラスタの数がＫ個（Ｋは２以上の整数）である場合を例に説明する。クラスタリングの方法は、例えば、ｋ－ｍｅａｎｓ法であってもよいし、ｋ－ｍｅａｎｓ＋＋法であってもよい。クラスリングにおけるクラスタ数は、予め定められていてもよいし定められていなくてもよい。クラスタ数は予めユーザが定めてもよい。

次に選択部１１３は、各クラスタについて、属する教師無しデータの特徴量に基づき、クラスタ内分散を算出する（ステップＳ１０２）。クラスタの１つを例えばクラスタＧ１として、クラスタＧ１のクラスタ内分散は、クラスタＧ１に属する教師無しデータのばらつきを示す値である。例えば、クラスタＧ１のクラスタ内分散は、特徴量空間におけるクラスタ重心とクラスタＧ１に属する各教師無しデータとの間の距離の二乗和の分布を示す値である。クラスタ重心は、クラスタＧ１に属する教師無しデータの位置を示す特徴量ベクトルの全てを合成した合成ベクトルを、クラスタＧ１に属する教師無しデータの数で割り算したベクトルが示す位置である。

次に選択部１１３は、各クラスタにごとに、クラスタ内分散の大きさに関する所定の条件を満たすクラスタを選択する（ステップＳ１０３）。クラスタ内分散の大きさに関する所定の条件は、例えば、クラスタ内分散の大きさが所定の大きさ以上という条件である。クラスタ内分散の大きさに関する所定の条件は、例えば、クラスタ内分散の大きさが、Ｋ個のクラスタ内分散のうち大きい方から数えてＭ番目以前（Ｍは１以上の整数）の大きさである、という条件であってもよい。

次に選択部１１３は、選択したクラスタについて、属する教師無しデータを複数のサブクラスタにクラスタリングする（ステップＳ１０４）。同一のクラスタに属する教師無しデータは、他のクラスタに属する教師無しデータよりは類似度が高い。クラスタリングの方法は、例えば、ｋ－ｍｅａｎｓ法であってもよいし、ｋ－ｍｅａｎｓ＋＋法であってもよい。クラスリングにおけるクラスタ数は、予め定められていてもよいし定められていなくてもよい。クラスタ数は予めユーザが定めてもよい。ただし、クラスタリングの方法は、サブクラスタのクラスタ内分散がステップＳ１０３において選択されなかったクラスタのクラスタ内分散と同程度かつ均一であるようにクラスタリングする方法であることが望ましい。以下、説明の簡単のためサブクラスタもクラスタと呼称する。

次に、選択部１１３が選択済み集合を空集合に設定する（ステップＳ１０５）。空集合に設定するとは、記憶部１２が記憶する選択済み集合に属する要素の数を０にすることを意味する。

次に選択部１１３は、ステップＳ１０７からステップＳ１１３までのループ処理（以下「選択サブ処理」という。）を開始する（ステップＳ１０６）。選択サブ処理では、信頼度が低い教師無しデータから順番に１又は複数の教師無しデータに対して、ループ処理の終了条件が満たされるまでステップＳ１０７からステップＳ１１３までの処理が実行される。

選択部１１３は、選択サブ処理が実行されていない教師無しデータのうち最も信頼度が低い教師無しデータを選択する（ステップＳ１０７）。選択部１１３は、ステップＳ１０７において選択された教師無しデータ（以下「被選択教師無しデータ」という。）の属するクラスタを判定する（ステップＳ１０８）。選択部１１３は、選択済み集合が含む要素のうちクラスタＣに属する要素の数が所定の数Ｎ以上（Ｎは正の整数）か否かを判定する（ステップＳ１０９）。クラスタＣは、ステップＳ１０８の処理によって被選択教師無しデータが属すると判定されたクラスタである。所定の数Ｎは、予め定められた値であってもよいし、学習の状態に応じて動的に決定された値であってもよい。所定の数Ｎは、ユーザが予め定めた値であってもよい。

選択済み集合が含む要素のうちクラスタＣに属する要素の数が所定の数Ｎ以上である場合、ループの終了判定の実行に移行する（ステップＳ１１０）。ステップＳ１１０において選択部１１３は、選択サブ処理終了条件が満たされるか否かを判定する。選択サブ処理終了条件は、選択サブ処理の終了条件である。選択サブ処理終了条件は、例えば、選択済み集合が含む要素の数が所定の数Ｌ以上（ＬはＮ以上の整数）という条件である。選択サブ処理終了条件は、例えば、選択サブ処理の実行回数が所定の回数に達した、という条件であってもよい。

選択サブ処理終了条件が満たされる場合、選択部１１３は選択サブ処理を終了する（ステップＳ１１０：ループ終了）。選択サブ処理の終了は、クエリ対象選択処理の終了である。一方、選択サブ処理終了条件が満たされない場合、ステップＳ１０６の処理に戻る。

一方、選択済み集合が含む要素の内クラスタＣに属する要素の数が所定の数Ｎ未満である場合、選択部１１３は選択済み集合の各要素と、被選択教師無しデータとの類似度を算出する（ステップＳ１１１）。

選択部１１３は、算出した類似度のうち類似度閾値以上の類似度があるか否かを判定する（ステップＳ１１２）。類似度閾値以上の類似度が無い場合、選択部１１３は、被選択教師無しデータを選択済み集合の要素に追加する（ステップＳ１１３）。次にステップＳ１０７の処理に戻る。

一方、類似度閾値以上の類似度が有る場合、ステップＳ１０７の処理に戻る。

ステップＳ１０８からステップＳ１１２までの処理によって、選択部１１３は、１つのクラスタから所定の数Ｎ以上の学習データを選択しないように選択済み集合に加える学習データを選択する。

学習データを選択する前の処理であるステップＳ１０３及びステップＳ１０４の処理によって、選択部１１３はクラスタ内分散が所定の大きさ以上であるクラスタが含む学習データをさらに複数のクラスタにクラスタリングする。

ステップＳ１１１及びステップＳ１１２の処理によって、選択部１１３は既に選択した学習データとの類似度が類似度閾値以上である学習データは選択しない。

図５は、実施形態の能動学習装置１００が、オラクルによる回答に基づいて学習済みモデルを更新する処理の流れの一例を示すフローチャートである。
学習モデル更新部１１１が、記憶部１２に記憶されている教師有りデータに基づいて学習する（ステップＳ２０１）。次に、学習データ更新部１１６は、クエリ対象選択処理の実行に関する終了条件が満たされるか否かを判定する（ステップＳ２０２）。クエリ対象選択処理の実行に関する終了条件が満たされる場合、学習済みモデルの更新の処理が終了する。終了条件は、例えば、記憶部１２に記憶されている教師無しデータの数が０という条件であってもよい。終了条件が満たされない場合、解析部１１２が、記憶部１２に記憶されている教師無しデータをステップＳ２０１で学習された学習済みモデルに入力し、各教師無しデータの分類先を推定する（ステップＳ２０３）。次に、解析部１１２は、ステップＳ２０３の推定結果と、各教師無しデータの特徴量と識別境界とに基づいて、各教師無しデータの信頼度を算出する（ステップＳ２０４）。次に、選択部１１３が、クエリ対象選択処理を実行する（ステップＳ２０５）。クエリ対象選択処理の終了後、出力制御部１１４は、選択済み集合に含まれる全ての教師無しデータを、出力部１４によって出力する（ステップＳ２０６）。ステップＳ２０６において、出力部１４によって出力される情報がクエリである。ステップＳ２０６においては、選択済み集合に含まれる全ての教師無しデータが出力部１４によって出力されるため、オラクルは一度に複数のクエリを知ることができ、オラクルの負担が軽減される。また、選択済み集合に含まれる要素は、クラスタリングされた教師無しデータの中から、同じクラスタのデータが一定数以上にならないように選択されたデータであり、かつ他の要素との類似度が類似度閾値未満である要素である。そのため、選択済み集合の要素に対する教師データを要求する複数のクエリは、類似度の低いクエリであり、似たような内容のクエリに回答しなければならないというオラクルの負担が軽減される。

次に、回答取得部１１５が、入力部１３にオラクルが入力した回答を取得する（ステップＳ２０７）。次に、学習データ更新部１１６が、回答取得部１１５が取得したオラクルの回答を教師データとしクエリ対象データをモデル入力データ及び特徴量とする学習データを、記憶部１２が記憶する教師有りデータに追加する（ステップＳ２０８）。次に、学習データ更新部１１６は、オラクルの回答が得られたクエリ対象データを記憶部１２が記憶する教師無しデータから削除する（ステップＳ２０９）。次に、ステップＳ２０１の処理に戻る。
一方、ステップＳ２０２において、終了条件が満たされる場合、学習済みモデルの更新が終了する。

このように構成された能動学習装置１００は、選択済み集合に含まれる要素を選択する制御部１１を備える。そのため、このように構成された能動学習装置１００は、能動学習におけるオラクルの負担を軽減することができる。

以下、比較例の能動学習装置と能動学習装置１００とを図６及び図７を用いて比較する。
比較例の能動学習装置では、ステップＳ１０１のクラスタリングの実行後に、各クラスタについて識別境界との近さを示す指標を算出する。算出した指標に基づき、識別境界に近い順に所定の数以下のクラスタを選択する。クラスタを選択した後、選択したクラスタ内の教師無しの学習データのうち信頼度の低い学習データを所定の数だけ選択する。このような比較例の能動学習装置では、信頼度に基づいてクエリ対象データを選択する前にクラスタを選択しているので、選択されなかったクラスタに属する信頼度の低い学習データはクエリ対象データとして選択されない。そのため、識別境界に近いにも関わらずクエリ対象データに選択されない教師無しデータが生じる場合がある。

また、比較例の能動学習装置は、各クラスタから所定の数だけの学習データをクエリ対象データとして選択する場合がある。このような場合、特定のクラスタから、お互いの類似度が高い複数の教師無しデータがクエリ対象データに選択される場合がある。

このように、比較例の能動学習装置では、回答を得た場合の学習効果が高いクエリが必ずしもオラクルに提示されない場合がある。

図６は、実施形態におけるクエリ対象データを説明する第１の説明図である。図６は、能動学習装置１００によって選択されたクエリ対象データを示す。図６は、能動学習装置１００によるクラスタリングの結果生成された３つのクラスタ（すなわちクラスタ１、クラスタ２及びクラスタ３）を示す。図６は、クラスタ１、クラスタ２又はクラスタ３のいずれか１つのクラスタに属する教師無しデータを示す。図６においてバツ印は、クラスタ重心を示す。能動学習装置１００は、比較例の能動学習装置と異なり、クエリ対象データを選択するためのクラスタを選択しない。そのため、図６のクラスタ２のように識別境界から重心が遠いクラスタ（及びそのクラスタに含まれる教師無しデータ）でも、予めクエリ対象データの候補から除外されてしまうことがない。また、能動学習装置１００では、各クラスタから選択されるクエリ対象データの数に上限があるため、クエリ対象データ間の冗長性を抑えられる一方で、必ず一定数のデータが各クラスタから選択されるわけではない。そのため、能動学習装置１００では、識別境界から近いデータが多いクラスタからは上限と同数の教師無しデータが、識別境界から遠いデータが多いクラスタからは上限未満の数の教師無しデータがそれぞれ選ばれ、識別境界から遠い教師無しデータが不必要に選ばれる可能性は低い。そのため、能動学習装置１００は、回答を得た場合の学習効果が比較例の能動学習装置よりも高いクエリを提示することができる。

図７は、実施形態におけるクエリ対象データを説明する第２の説明図である。図７は、能動学習装置１００によって選択されたクエリ対象データを示す。図７は、能動学習装置１００によるクラスタリングの結果生成された３つのクラスタ（すなわちクラスタ４、クラスタ５及びクラスタ６）を示す。図７は、クラスタ４、クラスタ５又はクラスタ６のいずれか１つのクラスタに属する教師無しデータを示す。図７はサブクラスタを示す。能動学習装置１００は、サブクラスタを生成するため、クラスタ内分散が大きいクラスタからより多くの教師無しデータをクエリ対象データに選択することができる。そのため、能動学習装置１００は、回答を得た場合の学習効果が比較例の能動学習装置よりも高いクエリを提示することができる。

図７は、類似度閾値よりも類似度の高い３つの教師無しデータがクラスタ６に属することを示す。図７は、クラスタ６に属する３つの教師無しデータの類似度が類似度閾値よりも高いため、選択部１１３によってクラスタ６からは３つの教師無しデータのうち１つだけがクエリ対象選択データとして選択されたことを示す。このように、能動学習装置１００では、１つのクラスタから、お互いの類似度が類似度閾値以上となる複数の教師無しデータがクエリ対象データに選択されることは無い。そのため、能動学習装置１００は、回答を得た場合の学習効果が比較例の能動学習装置よりも高いクエリを提示することができる。

（変形例）
なお、能動学習装置１００は、教師有りデータを予め記憶部１２に記憶していたが、教師有りデータは予め記憶部１２に記憶されている必要は無い。教師有りデータは学習モデル更新部１１１による処理の実行前に入力部１３を介して入力されてもよい。

なお、モデル入力データは、例えば、画像データである。モデル入力データが画像データである場合、分類先（すなわち教師データ）は、例えば、画像に含まれる物体の種類である。この場合、特徴量は、例えば画像から抽出された色やエッジ等に関する情報、あるいは画像データを入力した際のニューラルネットの中間層の出力等である。

なお、能動学習装置１００が備える機能部は必ずしも一つの筐体に実装される必要は無い。能動学習装置１００は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、能動学習装置１００が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。例えば、推定部１１７と、学習モデル更新部１１１、解析部１１２、選択部１１３、出力制御部１１４、回答取得部１１５及び学習データ更新部１１６とはそれぞれ異なる情報処理装置に実装されてもよい。例えば、学習モデル更新部１１１と、解析部１１２及び選択部１１３と、出力制御部１１４と、回答取得部１１５と、学習データ更新部１１６と、推定部１１７とはそれぞれ異なる情報処理装置に実装されてもよい。

上記各実施形態では、制御部１１はソフトウェア機能部であるものとしたが、ＬＳＩ等のハードウェア機能部であってもよい。

なお、制御部１１の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

以上説明した少なくともひとつの実施形態によれば、能動学習装置１００は、予め定められた複数の分類先のうち入力された複数の教師無しの学習データが属する分類先をそれぞれ推定する機械学習モデルの各推定結果の信頼度を算出する解析部１１２と、学習データを複数のクラスタにクラスタリングし、クラスタリングした後に信頼度が低いものから優先的に１つ以上の学習データを選択する選択部１１３と、選択部１１３が選択した学習データの教師データを回答することをオラクルに要求するクエリを出力する出力部１４と、回答を取得する入力部１３と、回答に基づいて機械学習モデルの学習を進める学習モデル更新部１１１と、を備え、選択部１１３は、１つのクラスタから所定の数以上の学習データを選択しないように学習データを選択する。そのため、このように構成された能動学習装置１００は、能動学習におけるオラクルの負担を軽減することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１００…能動学習装置、１１…制御部、１２…記憶部、１３…入力部、１４…出力部、１１１…学習モデル更新部、１１２…解析部、１１３…選択部、１１４…出力制御部、１１５…回答取得部、１１６…学習データ更新部、１１７…推定部

Claims

予め定められた複数の分類先のうち入力された複数の教師無しの学習データが属する分類先をそれぞれ推定する機械学習モデルの各推定結果の信頼度を算出する解析部と、
前記学習データを複数のクラスタにクラスタリングし、クラスタリングした後に前記信頼度が低いものから優先的に１つ以上の学習データを選択する選択部と、
前記選択部が選択した前記学習データの教師データを回答することをオラクルに要求するクエリを出力する出力部と、
前記回答を取得する入力部と、
前記回答に基づいて前記機械学習モデルの学習を進める学習モデル更新部と、
を備え、
前記選択部は、前記クラスタを選択していない状態で前記学習データの選択を行った後、１つのクラスタから所定の数以上の前記学習データを選択しないように前記学習データを選択する、
能動学習装置。
前記選択部は、前記学習データを選択する前に、クラスタ内分散が所定の大きさ以上である前記クラスタが含む前記学習データを、さらに複数のクラスタにクラスタリングする、
請求項１に記載の能動学習装置。
前記選択部は、既に選択した前記学習データとの類似度が所定の類似度以上である学習データは選択しない、
請求項１又は２に記載の能動学習装置。
能動学習装置が、予め定められた複数の分類先のうち入力された複数の教師無しの学習データが属する分類先をそれぞれ推定する機械学習モデルの各推定結果の信頼度を算出する解析ステップと、
能動学習装置が、前記学習データを複数のクラスタにクラスタリングし、クラスタリングした後に前記信頼度が低いものから優先的に１つ以上の学習データを選択する選択ステップと、
能動学習装置が、前記選択ステップにおいて選択された前記学習データの教師データを回答することをオラクルに要求するクエリを出力する出力ステップと、
能動学習装置が、前記回答を取得する入力ステップと、
能動学習装置が、前記回答に基づいて前記機械学習モデルの学習を進める学習モデル更新ステップと、
を有し、
前記選択ステップにおいては、前記クラスタを選択していない状態で前記学習データが選択された後、１つのクラスタから所定の数以上の前記学習データを選択しないように前記学習データが選択される、
能動学習方法。
能動学習装置が、予め定められた複数の分類先のうち入力された複数の教師無しの学習データが属する分類先をそれぞれ推定する機械学習モデルの各推定結果の信頼度を算出する解析ステップと、
能動学習装置が、前記学習データを複数のクラスタにクラスタリングし、クラスタリングした後に前記信頼度が低いものから優先的に１つ以上の学習データを選択する選択ステップと、
能動学習装置が、前記選択ステップにおいて選択された前記学習データの教師データを回答することをオラクルに要求するクエリを出力する出力ステップと、
能動学習装置が、前記回答を取得する入力ステップと、
能動学習装置が、前記回答に基づいて前記機械学習モデルの学習を進める学習モデル更新ステップと、
前記選択ステップにおいて、前記クラスタを選択していない状態で前記学習データが選択された後、１つのクラスタから所定の数以上の前記学習データを選択しないように前記学習データが選択されるステップと、
をコンピュータに実行させるプログラム。