JP7293498B2

JP7293498B2 - サンプル一致度評価による能動学習

Info

Publication number: JP7293498B2
Application number: JP2022511319A
Authority: JP
Inventors: ヂャン，ズーヂャオ; フィスター，トマス・ジョン; アリク，セルカン・オマー; ガオ，ミンフェイ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-08-22
Filing date: 2020-08-21
Publication date: 2023-06-19
Anticipated expiration: 2040-08-21
Also published as: JP2023126769A; CN114600117A; EP4018382A1; JP2022545476A; US20210056417A1; KR20220047851A; WO2021035193A1; US20230325676A1

Description

本開示は、サンプル一致度評価を使用する能動学習のような能動学習に関する。

背景
一般的に、教師あり機械学習モデルは、正確に結果を予測するために、ラベル付けされた訓練データを大量に必要とする。しかしながら、ラベル付けされていないデータを大量に取得するのは簡単なことが多いものの、データをラベル付けすることは往々にして非常に難しい。すなわち、膨大な量のデータをラベル付けすることは、全く不可能ではないにしても、法外に費用がかかることが多い。そのような訳で、能動学習は、最も影響が大きい（すなわち精度の上昇が最も大きい）であろうデータのみについてモデルを訓練するために、ラベル付けされていないデータに優先順位を付けることが可能な、普及しているタイプの機械学習である。典型的に、能動学習アルゴリズムは、先ず、ラベル付けされたデータの小さなサブセットについて訓練され、次に、能動的に教師にクエリし、ラベル付けされていない訓練サンプルを選択してラベル付けする。ラベル付けされていない訓練サンプルを選択するプロセスは、活発に研究されている分野である。

概要
本開示のある局面は、サンプル一致度評価による能動学習の方法を提供する。この方法は、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセットを取得するステップを含む。複数の能動学習サイクルのうちの各能動学習サイクル中に、ラベル付けされていない訓練サンプルのセット内の各々のラベル付けされていない訓練サンプルごとに、この方法は、データ処理ハードウェアが、ラベル付けされていない訓練サンプルを摂動させて拡張訓練サンプルを生成するステップを含む。この方法はまた、データ処理ハードウェアが、ラベル付けされていない訓練サンプルと拡張訓練サンプルとを入力として受けるように構成された機械学習モデルを用いて、ラベル付けされていない訓練サンプルの予測ラベルと、拡張訓練サンプルの予測ラベルとを生成するステップと、データ処理ハードウェアが、ラベル付けされていない訓練サンプルの不一致度値を決定するステップとを含む。不一致度値は、ラベル付けされていない訓練サンプルの予測ラベルと拡張訓練サンプルの予測ラベルとの間の相違を表す。この方法はまた、データ処理ハードウェアが、不一致度値に基づいて、ラベル付けされていない訓練サンプルのセット内のラベル付けされていない訓練サンプルを降順でソートするステップと、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセット内の、ソートしたラベル付けされていない訓練サンプルから選択された、しきい値数のラベル付けされていない訓練サンプルのうちの、各々のラベル付けされていない訓練サンプルごとに、グラウンドトゥルースラベルを取得するステップとを含む。この方法は、データ処理ハードウェアが、ラベル付けされた訓練サンプルの現在のセットを選択するステップを含む。ラベル付けされた訓練サンプルの現在のセットは、ラベル付けされていない訓練サンプルのセット内の、ソートしたラベル付けされていない訓練サンプルから選択された、しきい値数のラベル付けされていない訓練サンプルのうちの、各々のラベル付けされていない訓練サンプルを、対応する取得したグラウンドトゥルースラベルと対にしたものを含む。この方法はまた、データ処理ハードウェアが、ラベル付けされた訓練サンプルの現在のセットと、ラベル付けされていない訓練サンプルのセットのうちのラベル付けされていない訓練サンプルの適切なサブセットとを用いて、機械学習モデルを訓練するステップを含む。

本開示の実装形態は以下の任意の特徴のうちの１つ以上を含み得る。いくつかの実装形態において、しきい値数のラベル付けされていない訓練サンプルは、ラベル付けされていない訓練サンプルのセットのカーディナリティ未満である。しきい値数のラベル付けされていない訓練サンプルのうちの、各々のラベル付けされていない訓練サンプルの不一致度値は、ラベル付けされていない訓練サンプルのセット内の、ソートしたラベル付けされていない訓練サンプルから選択されない、各々のラベル付けされていない訓練サンプルの不一致度値よりも大きくてもよい。

任意で、この方法は、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセットから、しきい値数のラベル付けされていない訓練サンプルを取り除くことにより、ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルの適切なサブセットを取得するステップをさらに含む。この方法は、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセット内の、ソートしたラベル付けされていない訓練サンプルから、最初のＭ個のラベル付けされていない訓練サンプルを、しきい値数のラベル付けされていない訓練サンプルとして、選択するステップをさらに含み得る。

いくつかの例において、この方法は、初期能動学習サイクル中に、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルのランダムなセットを、ランダムに選択するステップと、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのランダムなセット内の、各々のラベル付けされていない訓練サンプルごとに、対応するグラウンドトゥルースラベルを取得するステップとをさらに含む。この方法はまた、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのランダムなセットと、対応するグラウンドトゥルースラベルとを用いて、機械学習モデルを訓練するステップをさらに含み得る。この例は、初期能動学習サイクル中に、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルの候補セットを特定するステップを含み得る。ラベル付けされていない訓練サンプルの候補セットのカーディナリティは、ラベル付けされていない訓練サンプルのセットのカーディナリティ未満であってもよい。この方法はまた、データ処理ハードウェアが、ラベル付けされていない訓練サンプルの候補セット内のラベル付けされていない訓練サンプルに対して機械学習モデルを用いて生成された予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第１の交差エントロピーを求めるステップと、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセット内のラベル付けされていない訓練サンプルに対して機械学習モデルを用いて生成された予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第２の交差エントロピーを求めるステップとをさらに含み得る。この方法はまた、データ処理ハードウェアが、第１の交差エントロピーは第２の交差エントロピー以上か否かを判断するステップと、第１の交差エントロピーが第２の交差エントロピー以上である場合、データ処理ハードウェアが、ラベル付けされていない訓練サンプルの候補セットを、機械学習モデルを初期訓練するための開始サイズとして、選択するステップとを含み得る。ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルの候補セットを特定するステップは、いくつかの実装形態において、ラベル付けされていない訓練サンプルのセットのうちの、各々のラベル付けされていない訓練サンプルごとに、不一致度値を決定するステップを含む。

いくつかの実装形態において、この方法は、第１の交差エントロピーが第２の交差エントロピー未満である場合、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルの拡大されたセットをランダムに選択するステップと、データ処理ハードウェアが、ラベル付けされていない訓練サンプルの候補セットを、ラベル付けされていない訓練サンプルのセットからランダムに選択したラベル付けされていない訓練サンプルの拡大されたセットを含むように、更新するステップとをさらに含み得る。この方法はまた、データ処理ハードウェアが、ラベル付けされていない訓練サンプルのセットを、ラベル付けされていない訓練サンプルのセットのうちのラベル付けされていない訓練サンプルの拡大されたセットから、各々のラベル付けされていない訓練サンプルを取り除くことにより、更新するステップを含み得る。直後の能動学習サイクル中に、この方法はまた、データ処理ハードウェアが、ラベル付けされていない訓練サンプルの更新した候補セット内のラベル付けされていない訓練サンプルについて、機械学習モデルを用いて生成された、予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第１の交差エントロピーを求めるステップと、データ処理ハードウェアが、ラベル付けされていない訓練サンプルの更新した候補セット内のラベル付けされていない訓練サンプルについて、機械学習モデルを使用して生成された、予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第２の交差エントロピーを求めるステップとをさらに含み得る。この方法はまた、データ処理ハードウェアが、第１の交差エントロピーは第２の交差エントロピー以上か否かを判断するステップをさらに含み得る。第１の交差エントロピーが第２の交差エントロピー以上である場合、この方法は、データ処理ハードウェアが、ラベル付けされていない訓練サンプルの更新された候補セットを、機械学習モデルを初期訓練するための開始サイズとして、選択するステップをさらに含み得る。いくつかの例において、機械学習モデルは畳み込みニューラルネットワークを含む。

本開示の別の局面は、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを提供する。メモリハードウェアは、データ処理ハードウェアによって実行されるとデータ処理ハードウェアに動作を実行させる命令を格納する。動作は、ラベル付けされていない訓練サンプルのセットを取得することを含む。複数の能動学習サイクルのうちの各能動学習サイクル中に、ラベル付けされていない訓練サンプルのセット内の各々のラベル付けされていない訓練サンプルごとに、動作は、ラベル付けされていない訓練サンプルを摂動させて拡張訓練サンプルを生成することを含む。動作はまた、ラベル付けされていない訓練サンプルと拡張訓練サンプルとを入力として受けるように構成された機械学習モデルを用いて、ラベル付けされていない訓練サンプルの予測ラベルと、拡張訓練サンプルの予測ラベルとを生成することと、ラベル付けされていない訓練サンプルの不一致度値を決定することとを含む。不一致度値は、ラベル付けされていない訓練サンプルの予測ラベルと拡張訓練サンプルの予測ラベルとの間の相違を表す。動作はまた、不一致度値に基づいて、ラベル付けされていない訓練サンプルのセット内のラベル付けされていない訓練サンプルを降順でソートすることと、ラベル付けされていない訓練サンプルのセット内の、ソートしたラベル付けされていない訓練サンプルから選択された、しきい値数のラベル付けされていない訓練サンプルのうちの、各々のラベル付けされていない訓練サンプルごとに、グラウンドトゥルースラベルを取得することとを含む。動作は、ラベル付けされた訓練サンプルの現在のセットを選択することを含む。ラベル付けされた訓練サンプルの現在のセットは、ラベル付けされていない訓練サンプルのセット内の、ソートしたラベル付けされていない訓練サンプルから選択された、しきい値数のラベル付けされていない訓練サンプルのうちの、各々のラベル付けされていない訓練サンプルを、対応する取得したグラウンドトゥルースラベルと対にしたものを含む。動作はまた、ラベル付けされた訓練サンプルの現在のセットと、ラベル付けされていない訓練サンプルのセットのうちのラベル付けされていない訓練サンプルの適切なサブセットとを用いて、機械学習モデルを訓練することを含む。

この局面は、以下の任意の特徴のうちの１つ以上を含み得る。いくつかの実装形態において、しきい値数のラベル付けされていない訓練サンプルは、ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのカーディナリティ未満である。しきい値数のラベル付けされていない訓練サンプルのうちの、各々のラベル付けされていない訓練サンプルの不一致度値は、ラベル付けされていない訓練サンプルのセット内の、ソートしたラベル付けされていない訓練サンプルから選択されない、各々のラベル付けされていない訓練サンプルの不一致度値よりも大きくてもよい。

任意で、動作は、ラベル付けされていない訓練サンプルのセットから、しきい値数のラベル付けされていない訓練サンプルを取り除くことにより、ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルの適切なサブセットを取得することをさらに含む。動作はまた、ラベル付けされていない訓練サンプルのセット内の、ソートしたラベル付けされていない訓練サンプルから、最初のＭ個のラベル付けされていない訓練サンプルを、しきい値数のラベル付けされていない訓練サンプルとして、選択することをさらに含み得る。

いくつかの例において、動作は、初期能動学習サイクル中に、ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルのランダムなセットを、ランダムに選択することと、ラベル付けされていない訓練サンプルのランダムなセット内の、各々のラベル付けされていない訓練サンプルごとに、対応するグラウンドトゥルースラベルを取得することとをさらに含む。動作はまた、ラベル付けされていない訓練サンプルのランダムなセットと、対応するグラウンドトゥルースラベルとを用いて、機械学習モデルを訓練することをさらに含み得る。この例は、初期能動学習サイクル中に、ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルの候補セットを特定することを含み得る。ラベル付けされていない訓練サンプルの候補セットのカーディナリティは、ラベル付けされていない訓練サンプルのセットのカーディナリティ未満でああってもよい。動作はまた、ラベル付けされていない訓練サンプルの候補セット内のラベル付けされていない訓練サンプルに対して機械学習モデルを用いて生成された予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第１の交差エントロピーを求めることと、ラベル付けされていない訓練サンプルのセット内のラベル付けされていない訓練サンプルに対して機械学習モデルを用いて生成された予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第２の交差エントロピーを求めることとをさらに含み得る。動作はまた、第１の交差エントロピーは第２の交差エントロピー以上か否かを判断することと、第１の交差エントロピーが第２の交差エントロピー以上である場合、ラベル付けされていない訓練サンプルの候補セットを、機械学習モデルを初期訓練するための開始サイズとして、選択することとを含み得る。ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルの候補セットを特定することは、いくつかの実装形態において、ラベル付けされていない訓練サンプルのセットのうちの、各々のラベル付けされていない訓練サンプルごとに、不一致度値を決定することを含む。

いくつかの実装形態において、動作は、第１の交差エントロピーが第２の交差エントロピー未満である場合、ラベル付けされていない訓練サンプルのセットから、ラベル付けされていない訓練サンプルの拡大されたセットをランダムに選択することと、ラベル付けされていない訓練サンプルの候補セットを、ラベル付けされていない訓練サンプルのセットからランダムに選択したラベル付けされていない訓練サンプルの拡大されたセットを含むように、更新することとをさらに含み得る。動作はまた、ラベル付けされていない訓練サンプルのセットを、ラベル付けされていない訓練サンプルのセットのうちのラベル付けされていない訓練サンプルの拡大されたセットから、各々のラベル付けされていない訓練サンプルを取り除くことにより、更新することをさらに含み得る。直後の能動学習サイクル中に、動作はまた、ラベル付けされていない訓練サンプルの更新した候補セット内のラベル付けされていない訓練サンプルについて、機械学習モデルを用いて生成された、予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第１の交差エントロピーを求めることと、ラベル付けされていない訓練サンプルの更新した候補セット内のラベル付けされていない訓練サンプルについて、機械学習モデルを使用して生成された、予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第２の交差エントロピーを求めることとをさらに含み得る。第１の交差エントロピーは第２の交差エントロピー以上か否かを判断することをさらに含み得る。第１の交差エントロピーが第２の交差エントロピー以上である場合、動作はまた、ラベル付けされていない訓練サンプルの更新された候補セットを、機械学習モデルを初期訓練するための開始サイズとして、選択することをさらに含み得る。いくつかの例において、機械学習モデルは畳み込みニューラルネットワークを含む。

本開示の１つ以上の実装形態の詳細は、添付の図面および以下の説明に記載されている。その他の局面、特徴、および利点は、上記説明および図面から、ならびに請求項から明らかになるであろう。

能動学習モデルを訓練するためのシステムの一例の概略図である。図１のシステムの構成要素の例の概略図である。ラベル付けされた訓練サンプルの初期開始サイズを決定するための構成要素の概略図である。ラベル付けされた訓練サンプルの初期開始サイズを決定するための構成要素の概略図である。ラベル付けされた訓練サンプルの初期開始サイズを決定するための構成要素の概略図である。サンプル一致度評価による能動学習の方法の動作の構成の一例のフローチャートを示す図である。本明細書に記載のシステムおよび方法を実現するために使用し得るコンピューティングデバイスの一例の概略図である。

各種図面において同様の参照符号は同様の要素を示す。

詳細な説明
膨大な量のデータの獲得がより低コストにかつより簡単になるのに伴って、機械学習の進歩は、大量のデータに対して深層学習法を用いるモデルの訓練に利用されている。しかしながら、これは新たな課題を提起する、というのも、典型的にデータはラベル付けされていないので、教師あり学習または半教師あり学習モデルに使用される前にラベル付けを必要とするからである。従来、訓練データをラベル付けするのは人間のオペレータである。たとえば、画像データのフレームを用いて物体検出を実行するモデルのために訓練サンプルを準備する場合、熟練したアノテータ（たとえば訓練された人間）が歩行者の周りにバウンディングボックスを描くことによって画像データのフレームにラベル付けすることができる。データの量が膨大である場合、手作業でデータのラベル付けをすることは、良くても高コスト、最悪の場合は不可能である。

データラベル付け問題に対する、よくあるアプローチの１つは、能動学習である。能動学習において、モデルは、ラベル付けされていない訓練サンプルのセットから、訓練サンプルのサブセットを事前対応的に選択し、「オラクル（登録商標）」に、たとえば選択されたサンプルを正確にラベル付けする（すなわち「グラウンドトゥルース（ground truth）ラベル」）ことができる熟練したアノテータまたはその他任意のエンティティに、サブセットのラベル付けを要求することができる。すなわち、能動学習モジュールは、訓練中、動的にクエリすることにより、訓練対象のサンプルを能動的に選択する。能動学習は、データのラベル付けのオーバーヘッドを大幅に減じつつ、それと同時に、ラベル付けされた訓練サンプルが実質的に少ない状態で精度を高める可能性がある。

ターゲットモデルを改善するのに役立つサンプルを選択するために、選択方法は、典型的に、ターゲットモデルの出力および／または中間特徴に依存して、ラベル付けされていないサンプルを測定する。たとえば、ある方法は、出力のエントロピーを用いて不確実性を測定することがある。別の方法は、選択されたサンプルが広範囲の多様性をカバーすることを保証することがある。もう１つの方法は、予測された損失を使用して、最も価値のあるサンプルを選択しようとすることがある。しかしながら、これらの方法はすべて、ラベル付けの予算が少ない場合、畳み込みニューラルネットワーク（ＣＮＮ）への適用に苦労する。なぜなら、典型的に、正確なＣＮＮモデルには、ラベル付けされたデータの大きなセットが必要だからである。

本明細書の実装形態は、追加のラベル付けコストを導入することなくモデル（たとえばＣＮＮモデル）を訓練する能動学習モデル訓練部に向けられている。訓練部は、ラベル付けされていないデータを用いて、訓練されたモデルの品質を改善しつつ、ラベル付けされたサンプルの数を少なく保つ。訓練部は、あるサンプルと、同じサンプルを有意に歪ませたものとの間で、モデルの決定が一致していなければならない（すなわち予測の一致）、という仮定に基づいている。

図１を参照して、いくつかの実装形態において、一例としてのシステム１００は処理システム１０を含む。処理システム１０は、固定されたもしくはスケーラブル／弾力的な計算リソース１２（たとえばデータ処理ハードウェア）および／または記憶リソース１４（たとえばメモリハードウェア）を有する、単一のコンピュータであってもよく、複数のコンピュータであってもよく、または分散型システム（たとえばクラウド環境）であってもよい。処理システム１０は、能動学習モデル訓練部１１０を実行する。モデル訓練部１１０は、ターゲットモデル１３０（たとえば機械学習モデル）を訓練することで、入力データに基づいて予測を行う。たとえば、モデル訓練部１１０は、畳み込みニューラルネットワーク（ＣＮＮ）を訓練する。モデル訓練部１１０は、ラベル付けされていない訓練サンプル１１２、１１２Ｕのセットについて、ターゲットモデル１３０を訓練する。ラベル付けされていない訓練サンプルは、ターゲットモデル１３０に対する正しい結果のアノテーションまたはその他の表示を含まないデータを意味し、このようなアノテーションを含むラベル付けされたデータとは異なる。たとえば、音声データを文書化するように訓練されるターゲットモデル１３０のためのラベル付けされたデータは、この音声データと、対応する、この音声データを正確に文書化したものとを含む。同じターゲットモデル１３０のためのラベル付けされていないデータは、この音声データを、文書化されたものなしで含む。ターゲットモデル１３０は、ラベル付けされたデータを用い、訓練サンプルに基づいて予測を行い、その後、この予測を、グラウンドトゥルースとして機能するラベルと比較することにより、この予測がどれほど正確かを簡単に判断することができる。一方、このようなフィードバックは、ラベル付けされていないデータでは得られない。

ラベル付けされていない訓練サンプル１１２Ｕは、ターゲットモデル１３０がその予測を行うために必要な、いかなるデータも表し得る。たとえば、ラベル付けされていない訓練データは、画像データのフレーム（たとえば物体検出もしくは分類などの場合）、音声データのフレーム（たとえば文書化もしくは音声認識などの場合）、および／またはテキスト（たとえば自然言語分類などの場合）を含み得る。ラベル付けされていない訓練サンプル１１２Ｕは、処理システム１０に（たとえばメモリハードウェア１４内に）格納されてもよく、または、別のエンティティからネットワークもしくはその他の通信チャネルを通して受信されてもよい。

モデル訓練部１１０はサンプル摂動部１２０を含む。サンプル摂動部１２０は、ラベル付けされていない訓練サンプル１１２Ｕのセット内の各々のラベル付けされていない訓練サンプル１１２Ｕを受け、各々のラベル付けされていない訓練サンプル１１２Ｕを摂動させて、対応する拡張訓練サンプル１１２、１１２Ａを生成する。すなわち、サンプル摂動部１２０は、各々のラベル付けされていない訓練サンプル１１２Ｕに、小さいが意味のある変化を導入する。たとえば、サンプル摂動部１２０は、予め定められた量またはランダムな量だけ値を増加または減少させて、元のラベル付けされていない訓練サンプル１１２Ｕと対応する拡張された（すなわち摂動させた）訓練サンプル１１２Ａとを含む、一対の訓練サンプル１１２を生成する。別の例として、ラベル付けされていない訓練サンプル１１２Ｕが画像データのフレームを含む場合、サンプル摂動部１２０は、画像の回転、画像の反転、画像のトリミングなどを行ってもよい。サンプル摂動部１２０は、データを摂動させる任意の他の従来の手段を使用してもよい。

以下でより詳細に説明するように、ターゲットモデル１３０（すなわち能動学習モデル訓練部１１０が訓練している機械学習モデル）は、最初に、ラベル付けされた訓練サンプル１１２、１１２Ｌおよび／またはラベル付けされていない訓練サンプル１１２Ｕの小さなセットについて訓練される。こうして、おおよその初期予測能力が直ちにターゲットモデル１３０に与えられる。この最小限訓練されたターゲットモデル１３０は、各々のラベル付けされていない訓練サンプル１１２Ｕごとに、ラベル付けされていない訓練サンプル１１２Ｕと対応する拡張訓練サンプル１１２Ａとを受ける。ターゲットモデル１３０は、ラベル付けされていない訓練サンプル１１２Ｕを用いて、予測ラベル１３２、１３２Ｐ_Ｕを生成する。予測ラベル１３２Ｐ_Ｕは、ラベル付けされていない訓練サンプル１１２Ｕとこの時点までのこのモデルの訓練とに基づくターゲットモデルの予測を表す。ターゲットモデル１３０は、拡張訓練サンプル１１２Ａを用いて、別の予測ラベル１３２、１３２Ｐ_Ａを生成する。予測ラベル１３２Ｐ_Ａは、拡張訓練サンプル１１２Ａとこの時点までのこのモデルの訓練とに基づくターゲットモデルの予測を表す。なお、ターゲットモデル１３０は、典型的には、ラベル付けされていない訓練サンプル１１２Ｕおよび拡張訓練サンプル１１２Ａの両方を同時に処理するように構成されておらず、代わりに、それらを連続的に（いずれかの順序で）処理して、第１に、第１の予測ラベル１３２Ｐを、ラベル付けされていない訓練サンプル１１２Ｕまたは拡張訓練サンプル１１２Ａのいずれか一方を用いて生成し、第２に、第２の予測ラベル１３２Ｐを、ラベル付けされていない訓練サンプル１１２Ｕまたは拡張訓練サンプル１１２Ａのうちの他方を用いて生成する。

能動学習モデル訓練部１１０は不一致度決定部１４０を含む。不一致度決定部１４０は、ラベル付けされていない訓練サンプル１１２Ｕのセット内の各々のラベル付けされていない訓練サンプル１１２Ｕごとの一対のサンプル１１２ごとに、両方の予測１３２Ｐ_Ｕ、１３２Ｐ_Ａを受ける。不一致度決定部１４０は、ラベル付けされていない訓練サンプル１１２Ｕの予測ラベル１３２Ｐ_Ｕと、拡張訓練サンプル１１２Ａの予測ラベル１３２Ｐ_Ａとの間の相違を表す不一致度値１４２を決定する。すなわち、大きな不一致度値１４２は、ターゲットモデル１３０が収束するときに、ラベル付けされていない訓練サンプル１１２Ｕが大きな教師なし損失を生じさせることを示す。逆に、小さな不一致度値１４２は、ターゲットモデル１３０が収束するときに、ラベル付けされていない訓練サンプル１１２Ｕが、小さな教師なし損失を生じさせることを示す。いくつかの例において、予測ラベル１３２Ｐ_Ｕ、１３２Ｐ_Ａ間の相違が大きいほど、対応付けられる不一致度値１４２は大きくなる。

サンプル選択部１５０は、ラベル付けされていない訓練サンプル１１２Ｕの各々に対応付けられた不一致度値１４２を受ける。サンプル選択部は、不一致度値１４２に基づいて、ラベル付けされていない訓練サンプル１１２Ｕを降順でソートし、ソートしたラベル付けされていない訓練サンプル１１２Ｕからラベル付けされていない訓練サンプル１１２Ｕ_Ｔの現在のセットを選択する。すなわち、サンプル選択部１５０は、それぞれの不一致度値１４２に基づいて、しきい値数のラベル付けされていない訓練サンプル１１２Ｕ_Ｔを選択して、ラベル付けされていない訓練サンプル１１２Ｕ_Ｔの現在のセットを形成する。サンプル選択部１５０は、各々のラベル付けされていない訓練サンプル１１２Ｕ_Ｔごとに、グラウンドトゥルースラベル１３２Ｇを取得する。グラウンドトゥルースラベル１３２Ｇは、別のソースによって経験的に決定されたラベルである。いくつかの実装形態において、オラクル１６０は、ラベル付けされていない訓練サンプル１１２Ｕ_Ｔのグラウンドトゥルースラベル１３２Ｇを決定する。任意でオラクル１６０が人間のアノテータまたは他の人間のエージェントであってもよい。

サンプル選択部１５０は、選択したラベル付けされていない訓練サンプル１１２Ｕ_Ｔをオラクル１６０に送ってもよい。オラクル１６０は、ラベル付けされていない訓練サンプル１１２Ｕ_Ｔを受けたことに応じて、各々のラベル付けされていない訓練サンプル１１２Ｕ_Ｔごとに、対応付けられるグラウンドトゥルースラベル１３２Ｇを決定するか、そうでなければ取得する。グラウンドトゥルースラベル１３２Ｇと組み合わされたラベル付けされていない訓練サンプル１１２Ｕ_Ｔは、ラベル付けされた訓練サンプル１１２Ｌを形成し、他のラベル付けされた訓練サンプル１１２Ｌ（たとえばモデル訓練部１１０がターゲットモデル１３０を最初に訓練するために使用した、ラベル付けされた訓練サンプル１１２Ｌ）とともに、格納されてもよい。すなわち、モデル訓練部１１０は、対応するグラウンドトゥルースラベル１３２Ｇと対にされた選択されたラベル付けされていない訓練サンプル１１０Ｕ_Ｔを含む、ラベル付けされた訓練サンプル１１２Ｌの現在のセットを選択することができる。

モデル訓練部１１０は、ラベル付けされた訓練サンプル１１２Ｌの現在のセット（すなわち選択されたラベル付けされていない訓練サンプル１１２Ｕ_Ｔおよび対応するグラウンドトゥルースラベル１３２Ｇ）を用いて、ターゲットモデル１３０を訓練（たとえば再訓練または微調整）する。いくつかの実装形態において、モデル訓練部１１０は、ラベル付けされた訓練サンプル１１２Ｌの現在のセットと、ラベル付けされていない訓練サンプル１１２Ｕのセットのうちのラベル付けされていない訓練サンプルの適切なサブセット１１２Ｕ_Ｐとを使用して、ターゲットモデル１３０を訓練する。ラベル付けされていない訓練サンプルの適切なサブセット１１２Ｕ_Ｐは、ラベル付けされていない訓練サンプル１１２Ｕ_Ｔのいずれかのセット（すなわち、対応するグラウンドトゥルースラベル１３２Ｇを得るために選択された、ラベル付けされていない訓練サンプル１１２Ｕ）の一部ではない、各々のラベル付けされていない訓練サンプル１１２Ｕを含み得る。言い換えると、モデル訓練部１１０は、ラベル付けされていない訓練サンプル１１２Ｕのセットからしきい値数のラベル付けされていない訓練サンプル１１２Ｕ_Ｔを取り除くことにより、ラベル付けされていない訓練サンプル１１２Ｕのセットからラベル付けされていない訓練サンプルの適切なサブセット１１２Ｕ_Ｐを取得してもよい。

また、モデル訓練部１１０は、以前にラベル付けされた任意の訓練サンプル１１２Ｌ（すなわち初期ラベルからの、または以前の能動学習サイクルからのもの）を、訓練に含めてもよい。したがって、モデル訓練部１１０は、半教師あり学習により、すべてのラベル付けされた訓練サンプル１１２Ｌ（すなわち以前にラベル付けされた任意の訓練サンプル１１２Ｌに加えて、ラベル付けされた訓練サンプル１１０Ｌの現在のセット）および残りのすべてのラベル付けされていない訓練サンプル１１２Ｕ（すなわちラベル付けされていない訓練サンプル１１２Ｕのセットから、選択されたラベル付けされていない訓練サンプル１１２Ｕ_Ｔを差し引いたもの）について、ターゲットモデル１３０を訓練してもよい。すなわち、いくつかの例において、能動学習モデル訓練部１１０は、ラベル付けされていない訓練サンプル１１２Ｕおよびラベル付けされた訓練サンプル１１２Ｌのすべてを用いて、ターゲットモデル１３０を完全に再訓練する。他の例において、能動学習モデル訓練部は、新たに取得されたラベル付けされた訓練サンプル１１２Ｌのみを用いて、ターゲットモデル１３０を漸増的に再訓練する。本明細書で使用される、ターゲットモデル１３０の訓練は、ターゲットモデル１３０を最初から完全に再訓練すること、または、追加の訓練を行うことによる、ターゲットモデル１３０の何らかの形態の再訓練／微調整を意味し得る（パラメータ変更を伴うまたは伴わない、たとえば、１つ以上の層の重みの凍結、学習速度の調整などによるもの）。

モデル訓練部１１０は、任意の数の能動学習サイクルに対して、プロセス（すなわち、ラベル付けされていない訓練サンプル１１２Ｕを摂動させ、不一致度値１４２を決定し、ラベル付けされていない訓練サンプル１１２Ｕ_Ｔを選択し、グラウンドトゥルースラベル１３２Ｇを取得することなど）を繰り返してもよい。たとえば、能動学習モデル訓練部１１０は、予め定められたサイクル数にわたって、またはターゲットモデル１３０がしきい値有効性に達するまで、またはラベル付け予算が満たされるまで、ターゲットモデル１３０の訓練を繰り返す（その後ラベル付けされた訓練サンプル１１２Ｌのセットが増大）。このようにして、モデル訓練部１１０は、ターゲットモデル１３０を訓練するのに十分なサンプル数になるまで、ラベル付けされた訓練サンプル１１２Ｌの数を徐々に増加させる。

次に図２を参照して、いくつかの例において、しきい値数のラベル付けされていない訓練サンプル１１０Ｕ_Ｔのうちの、各々のラベル付けされていない訓練サンプル１１２Ｕの不一致度値１４２は、ラベル付けされていない訓練サンプル１１２Ｕのセット内のソートしたラベル付けされていない訓練サンプル１１２Ｕから選択されていない、各々のラベル付けされていない訓練サンプル１１２Ｕの不一致度値１４２よりも大きい。この例において、概略図２００は、不一致度決定部１４０が、不一致度値１４２、１４２ａ～１４２ｎを、不一致度が最も大きい値１４２ａ（すなわち最高不一致度値１４２）から不一致度が最も小さい値１４２ｎ（すなわち最低不一致度値）までソートすることを示す。各不一致度値１４２は、対応するラベル付けされていない訓練サンプル１１２Ｕ、１１２Ｕａ～ｎを有する。ここで、最大不一致度値１４２ａは、ラベル付けされていない訓練サンプル１１２Ｕａに対応し、最小不一致度値１４２ｎは、ラベル付けされていない訓練サンプル１１２Ｕｎに対応する。この例において、サンプル選択部１５０は、ラベル付けされていない訓練サンプル１１２Ｕ_Ｔの現在のセットとして、５つの最大不一致度値１４２を有する５つのラベル付けされていない訓練サンプル１１２Ｕを選択する。５というのは具体例にすぎずサンプル選択部１５０は任意の数のラベル付けされていない訓練サンプル１１２Ｕを選択し得ることが理解される。そのため、しきい値数のラベル付けされていない訓練サンプル１１２Ｕ_Ｔは、ラベル付けされていない訓練サンプル１１２Ｕのセットのカーディナリティ（cardinality）未満であってもよい。いくつかの実装形態において、サンプル選択部１５０は、ラベル付けされていない訓練サンプル１１２Ｕのセット内の、ソートしたラベル付けされていない訓練サンプル１１２Ｕから、最初のＭ個（たとえば５、１０、５０など）のラベル付けされていない訓練サンプル１１２Ｕを、しきい値数の訓練サンプル１１２Ｕ_Ｔとして、選択する。

選択されたラベル付けされていない訓練サンプル１１２Ｕは、対応するグラウンドトゥルースラベル１３２Ｇを取り出すために、オラクル１６０に送られる。引続きこの例において、オラクル１６０は、５つのラベル付けされていない訓練サンプル１１２Ｕ_Ｔの各々について、対応するグラウンドトゥルースラベル１３２Ｇを決定する。モデル訓練部１１０は、これらの５つのラベル付けされた訓練サンプル１１２Ｌ（すなわちラベル付けされていない訓練サンプル１１２Ｕおよびグラウンドトゥルースラベル１３２Ｇの５つの対応するペア）を用いて、ターゲットモデル１３０を訓練または再訓練または微調整してもよい。

次に図３Ａ～図３Ｃを参照して、いくつかの例において、モデル訓練部１１０は、初期能動学習サイクル（すなわち第１の能動学習サイクル）中に、未訓練のターゲットモデル１３０の初期訓練を提供する。概略図３００ａ（図３Ａ）に示されるように、いくつかの実装形態において、初期セット選択部３１０は、ラベル付けされていない訓練サンプル１１２Ｕのセットから、ラベル付けされていない訓練サンプルのランダムなセット１１２Ｕ_Ｒをランダムに選択する。初期セット選択部３１０はまた、ラベル付けされていない訓練サンプルのランダムなセット１１２Ｕ_Ｒ内の各々のラベル付けされていない訓練サンプル１１２Ｕ_Ｒごとに、対応するグラウンドトゥルースラベル１３２Ｇ_Ｒを取得する。モデル訓練部１１０は、ラベル付けされていない訓練サンプルのランダムなセット１１２Ｕ_Ｒおよび対応するグラウンドトゥルースラベル１３２Ｇ_Ｒ（ラベル付けされた訓練サンプル１１２Ｌ_Ｒのセットを形成する）を使用して、機械学習モデル１３０を訓練してもよい。すなわち、いくつかの実装形態において、ターゲットモデル１３０が任意の訓練を受ける前に、モデル訓練部１１０は、（セット全体に対して）ラベル付けされていない訓練サンプル１１２Ｕ_Ｒの小さなセットをランダムに選択し、対応するグラウンドトゥルースラベル１３２Ｇ_Ｒを取得して、ターゲットモデル１３０の初期訓練を提供する。

ラベル付けされていない訓練サンプルのランダムなセット１１２Ｕ_Ｒはランダムでありかつ小さいので、ターゲットモデル１３０の訓練は不十分である可能性が高い。ラベル付けされた訓練サンプル１１２Ｌの初期セットをさらに改良してターゲットモデルの初期訓練を行うために、モデル訓練部１１０は、ラベル付けされていない訓練サンプル１１２Ｕのセット（たとえば５０個のサンプル、１００個のサンプルなど）から、ラベル付けされていない訓練サンプルの候補セット１１２Ｕ_Ｃを特定してもよい。訓練サンプルの候補セット１１２Ｕ_Ｃのカーディナリティは、ラベル付けされていない訓練サンプル１１２Ｕのセットのカーディナリティ未満であってもよい。たとえば、図３Ｂの概略図３００ｂに示されるように、初期セット選択部３１０は、ターゲットモデル１３０からの予測ラベル１３２Ｐ_Ｕに基づく不一致度決定部１４０からの不一致度値１４２を受け、各々のラベル付けされていない訓練サンプル１１２Ｕの不一致度値１４２に基づいて、ラベル付けされていない訓練サンプルの候補セット１１２Ｕ_Ｃを選択してもよい。すなわち、モデル訓練部１１０は、ラベル付けされていない訓練サンプル１１２Ｕのセットの各々のラベル付けされていない訓練サンプル１１２Ｕについての不一致度値１４２を決定することにより、ラベル付けされていない訓練サンプルの候補セット１１２Ｕ_Ｃを特定する。任意で、ラベル付けされていない訓練サンプルの候補セット１１２Ｕ_Ｃは、対応する、最大の不一致度値１４２を有するラベル付けされていない訓練サンプル１１２Ｕのセット内のラベル付けされていない訓練サンプル１１２Ｕの２分の１を含む。

初期セット選択部３１０は、対応するグラウンドトゥルースラベル１３２Ｇ_Ｃを受けた後に、グラウンドトゥルースラベル１３２Ｇの分布と、ラベル付けされていない訓練サンプルの候補セット１１２Ｕ_Ｃ内の訓練サンプルに対して機械学習モデル１３０を使用して生成された予測ラベル１３２Ｐ_Ｕの分布との間の、第１の交差エントロピー３２０を求めてもよい。また、初期セット選択部３１０は、グラウンドトゥルースラベル１３２Ｇの分布と、ラベル付けされていない訓練サンプル１１２Ｕのセット内の訓練サンプルに対する機械学習モデル１３０によって生成された予測ラベル１３２Ｐ_Ｕの分布との間の、第２の交差エントロピー３３０を求めてもよい。すなわち、第１の交差エントロピー３２０は、候補セット１１２Ｕ_Ｃについての実際のラベル分布と候補セット１１２Ｕ_Ｃについての予測されたラベル分布との間にあり、第２の交差エントロピー３３０は、第１の交差エントロピー３２０と同じ、候補セット１１２Ｕ_Ｃについての実際のラベル分布と、ラベル付けされていない訓練サンプル１１２Ｕのセット全体についての予測されたラベル分布との間にある。交差エントロピーは、一般的に、２つの分布間の差の計算であると考えることができる。

次に図３Ｃおよび決定木３００ｃを参照して、いくつかの実装形態において、初期セット選択部３１０は、ステップ３５０において、第１の交差エントロピー３２０が第２の交差エントロピー３３０以上か否かを判断する。このシナリオにおいて、実際のラベル分布と、候補セット１１２Ｕ_Ｃの予測ラベル分布との間の差は、実際のラベル分布と、ラベル付けされていない訓練サンプル１１２Ｕのセット全体の予測ラベル分布との間の差以上である。候補セット１１２Ｕ_Ｃが、最大の不一致度値１４２に少なくとも一部基づいて選択される場合（すなわちモデル訓練部１１０が、ラベル付けされていない訓練サンプル１１２Ｕのセットのうちの各々のラベル付けされていない訓練サンプル１１２Ｕごとに不一致度値１４２を決定する）、モデル訓練部１１０は、モデル１３０がそれについて最も不確かであるラベル付けされていない訓練サンプル１１２Ｕを選択しており（すなわちデータ分布から遠く離れている傾向があるサンプル１１２Ｕ）、したがってより優れた性能を示す。

このように示されているので、第１の交差エントロピー３２０が第２の交差エントロピー３３０以上である場合、ステップ３６０において、初期セット選択部３１０は、ラベル付けされていない訓練サンプルの候補セット１１２Ｕ_Ｃを、ラベル付けされた訓練サンプル１１２Ｌの現在のセットの開始サイズとして、選択してもよい。ターゲットモデル１３０が最初に訓練されると、モデル訓練部１１０は、上述したように（図１および図２）、その後の能動学習サイクルを続けることができる。

第１の交差エントロピー３２０が第２の交差エントロピー３３０未満である場合（すなわちターゲットモデル１３０が低性能であることを示す）、現在の候補セット１１２Ｕ_Ｃは、ターゲットモデル１３０の初期訓練には不十分である。この例において、初期セット選択部３１０は、ステップ３７０において、訓練サンプル１１２Ｕのラベル付けされていないセットから、訓練サンプルの拡大されたセット１１２Ｕ_Ｅをランダムに選択する。ステップ３８０において、初期セット選択部３１０は、ラベル付けされていない訓練サンプルの候補セット１１２Ｕ_Ｃを更新することにより、ラベル付けされていない訓練サンプル１１２Ｕのセットからランダムに選択された、訓練サンプルの拡大されたセット１１２Ｕ_Ｅを含むようにする。いくつかの例において、初期セット選択部３１０は、訓練サンプルのラベル付けされていないセット１１２Ｕからの訓練サンプルの拡大されたセット１１２Ｕ_Ｓから各訓練サンプルを取り除くことにより、訓練サンプル１１２Ｕのラベル付けされていないセットを更新する。これは、ラベル付けされていない訓練サンプル１１２Ｕが重複していないことを保証する。

直後の能動学習サイクル（すなわち次の能動学習サイクル）中、ステップ３９０において、初期セット選択部３１０は、更新された候補セット１１２Ｕ_Ｃを用いて、以前のステップの各々を繰り返してもよい。たとえば、初期セット選択部３１０は、グラウンドトゥルースラベル１３２Ｇの分布と、ラベル付けされていない訓練サンプルの更新された候補セット１１２Ｕ_Ｃ内の訓練サンプルに対して機械学習モデル１３０を使用して生成された予測ラベル１３２Ｐの分布との間の、第１の交差エントロピー３２０を求める。また、初期セット選択部３１０は、グラウンドトゥルースラベル１３２Ｇの分布と、ラベル付けされていない訓練サンプルの更新された候補セット１１２Ｕ_Ｃ内の訓練サンプルに対して機械学習モデル１３０を使用して生成された予測ラベル１３２Ｐの分布との間の、第２の交差エントロピー３３０を求める。初期セット選択部３１０は、第１の交差エントロピー３２０が第２の交差エントロピー３３０以上であるか否かを再び判断する。第１の交差エントロピー３２０が第２の交差エントロピー３３０以上である場合、初期セット選択部は、機械学習モデル１３０を初期訓練するための開始サイズとして、ラベル付けされていない訓練サンプルの更新された候補セット１１２Ｕ_Ｃを選択する。第１の交差エントロピー３２０が第２の交差エントロピー３３０未満である場合、初期セット選択部３１０は、引続き、第１の交差エントロピー３２０が第２の交差エントロピー３３０以上になる（すなわちターゲットモデル１３０の性能が十分であることを示す）まで、候補セット１１２Ｕ_Ｃを繰り返し拡大してもよい。

図４は、サンプル一致度評価による能動学習の方法４００の動作の具体例としての構成のフローチャートである。方法４００は、ステップ４０２において、データ処理ハードウェア１２が、ラベル付けされていない訓練サンプル１１２Ｕのセットを取得することを含む。複数の能動学習サイクルのうちの各サイクル中、ラベル付けされていない訓練サンプル１１２Ｕのセット内の各々のラベル付けされていない訓練サンプル１１２Ｕごとに、方法４００は、ステップ４０４において、データ処理ハードウェア１２が、ラベル付けされていない訓練サンプル１１２Ｕを摂動させて、拡張訓練サンプル１１２Ａを生成することを含む。ステップ４０６において、方法４００は、データ処理ハードウェア１２が、ラベル付けされていない訓練サンプル１１２Ｕおよび拡張訓練サンプル１１２Ａを入力として受けるように構成された機械学習モデル１３０を使用して、ラベル付けされていない訓練サンプル１１２Ｕの予測ラベル１３２Ｐ_Ｕと、拡張訓練サンプル１１２Ａの予測ラベル１３２Ｐ_Ａとを生成することを含む。

ステップ４０８において、方法４００は、データ処理ハードウェア１２が、ラベル付けされていない訓練サンプル１１２Ｕについて、不一致度値１４２を決定することを含む。不一致度値１４２は、ラベル付けされていない訓練サンプル１１２Ｕの予測ラベル１３２Ｐ_Ｕと、拡張訓練サンプル１１２Ａの予測ラベル１３２Ｐ_Ａとの間の相違を表す。方法４００は、ステップ４１０において、データ処理ハードウェア１２が、ラベル付けされていない訓練サンプル１１２Ｕのセット内のラベル付けされていない訓練サンプル１１２Ｕを、不一致度値１４２に基づいて降順でソートすることを含む。

ステップ４１２において、方法４００は、データ処理ハードウェア１２が、ラベル付けされていない訓練サンプル１１２Ｕのセット内のソートしたラベル付けされていない訓練サンプル１１２Ｕから選択されたしきい値数のラベル付けされていない訓練サンプル１１２Ｕ_Ｔのうちの各々のラベル付けされていない訓練サンプル１１２Ｕごとに、グラウンドトゥルースラベル１３２Ｇを取得することを含む。方法４００は、ステップ４１４において、データ処理ハードウェア１２が、ラベル付けされた訓練サンプル１１２Ｌの現在のセットを選択することを含み、ラベル付けされた訓練サンプル１１２Ｌの現在のセットは、対応する、取得したグラウンドトゥルースラベル１３２Ｇと対にされた、ラベル付けされていない訓練サンプル１１２Ｕのセット内のソートしたラベル付けされていない訓練サンプル１１２Ｕから選択されたしきい値数のラベル付けされていない訓練サンプル１１２Ｕ_Ｔ内の、各々のラベル付けされていない訓練サンプル１１２Ｕを含む。ステップ４１６において、方法４００は、データ処理ハードウェア１２が、ラベル付けされた訓練サンプル１１２Ｌの現在のセットと、ラベル付けされていない訓練サンプル１１２Ｕのセットからのラベル付けされていない訓練サンプルの適切なサブセット１１２Ｕ_Ｐとを使用して、機械学習モデル１３０を訓練することを含む。

このように、モデル訓練部１１０は、ラベル付けの総コスト（たとえば計算リソースの費用、人間のアノテーション時間の消費など）を増加させる（および場合によっては減少させる）ことなく、他のラベル付けされていない訓練サンプル１１２Ｕの性能改善と比較して性能改善の可能性が高い、ラベル付けされていない訓練サンプル１１２Ｕを特定することができる。また、モデル訓練部１１０は、ラベル付けされたデータサンプル１１２Ｌの大きなセットから開始することに起因するオーバーヘッドを回避する費用効率が高い手法を使用することにより、ラベル付けされた訓練例１１２Ｌの初期または開始セットの適切なサイズを決定し、限られた数のラベル付けされた訓練サンプル１１２Ｌを用いて（すなわち従来の技術との比較）最適なモデル性能も保証する。

図５は、本明細書に記載のシステムおよび方法を実現するために使用し得る一例としてのコンピューティングデバイス５００の概略図である。コンピューティングデバイス５００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータ等の、各種形態のデジタルコンピュータを表わすことを意図している。ここに示されている構成要素、それらの接続および関係、ならびにそれらの機能は、具体例を意図しているだけであって、本明細書において記載および／またはクレームされている発明の実装を限定することを意図している訳ではない。

コンピューティングデバイス５００は、プロセッサ５１０と、メモリ５２０と、記憶装置５３０と、メモリ５２０および高速拡張ポート５５０に接続する高速インターフェイス／コントローラ５４０と、低速バス５７０および記憶装置５３０に接続する低速インターフェイス／コントローラ５６０とを含む。構成要素５１０、５２０、５３０、５４０、５５０、および５６０の各々は、各種バスを用いて相互接続され、共通のマザーボード上に実装されてもよく、または必要に応じて他の方法で実装されてもよい。プロセッサ５１０は、コンピューティングデバイス５００内で実行するために命令を処理することができ、命令は、高速インターフェイス５４０に結合されたディスプレイ５８０等の外部入出力装置上のグラフィカルユーザインターフェイス（ＧＵＩ）のためのグラフィック情報を表示するためにメモリ５２０内または記憶装置５３０上に格納された命令を含む。他の実装形態において、複数のメモリおよび複数のタイプのメモリとともに、複数のプロセッサおよび／または複数のバスが必要に応じて使用されてもよい。また、複数のコンピューティングデバイス５００が接続されてもよく、各デバイスは（たとえばサーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の一部を提供する。

メモリ５２０は、コンピューティングデバイス５００内で情報を非一時的に格納する。メモリ５２０は、コンピュータ読取可能媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的なメモリ５２０は、コンピューティングデバイス５００が使用するプログラム（たとえば命令のシーケンス）またはデータ（たとえばプログラム状態情報）を一時的または永続的に格納するために使用される物理デバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読出専用メモリ（ＲＯＭ）／プログラマブル読出専用メモリ（ＰＲＯＭ）／消去可能プログラマブル読出専用メモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブル読出専用メモリ（ＥＥＰＲＯＭ）（たとえば典型的にはブートプログラム等のファームウェアに使用される）を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを含むが、これらに限定されない。

記憶装置５３０は、コンピューティングデバイス５００に大容量記憶を提供することができる。いくつかの実装形態において、記憶装置５３０はコンピュータ読取可能媒体である。各種の異なる実装形態において、記憶装置５３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくはその他同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくはその他の構成におけるデバイスを含むデバイスのアレイであってもよい。その他の実装形態では、コンピュータプログラムプロダクトが情報キャリアにおいて有形に実現される。コンピュータプログラムプロダクトは、実行されたときに上記方法のような方法を１つ以上実行する命令を含む。情報キャリアは、メモリ５２０、記憶装置５３０、またはプロセッサ５１０上のメモリ等のコンピュータまたはマシン読取可能媒体である。

高速コントローラ５４０はコンピューティングデバイス５００について帯域幅を多用する動作を管理し、低速コントローラ５６０はより少ない帯域幅を使用する動作を管理する。このような機能の割り当ては例示にすぎない。いくつかの実装形態において、高速コントローラ５４０は、メモリ５２０およびディスプレイ５８０に（たとえばグラフィックスプロセッサまたはアクセラレータを通して）結合され、かつ、さまざまな拡張カード（図示せず）を受け入れることができる高速拡張ポート５５０に結合されている。いくつかの実装形態において、低速コントローラ５６０は、記憶装置５３０および低速拡張ポート５９０に結合されている。さまざまな通信ポート（たとえばＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット）を含み得る低速拡張ポート５９０は、キーボード、ポインティングデバイス、スキャナ等の１つ以上の入出力デバイス、またはスイッチもしくはルータ等のネットワーキングデバイスに、たとえばネットワークアダプタを通して結合されてもよい。

コンピューティングデバイス５００は、図に示されるように、いくつかの異なる形態で実現することができる。たとえば、標準的なサーバ５００ａとして実現されてもよく、またはそのようなサーバ５００ａのグループ内で複数実現されてもよく、またはラップトップコンピュータ５００ｂとして実現されてもよく、またはラックサーバシステム５００ｃの一部として実現されてもよい。

本明細書に記載されているシステムおよび技術のさまざまな実装形態は、デジタル電子および／または光学回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらのさまざまな実装形態は、プログラム可能なシステム上で実行可能および／または翻訳可能な１つ以上のコンピュータプログラムにおける実装形態を含み得るものであり、上記プログラム可能なシステムは、記憶システムからデータおよび命令を受信し記憶システムにデータおよび命令を送信するように結合された専用または汎用であってもよい少なくとも１つのプログラム可能なプロセッサと、少なくとも１つの入力装置と、少なくとも１つの出力装置とを含む。

ソフトウェアアプリケーション（すなわちソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを意味する場合がある。いくつかの例において、ソフトウェアアプリケーションを、「アプリケーション」、「アプリ」、または「プログラム」と呼ぶ場合がある。アプリケーションの例は、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含むが、これらに限定されない。

（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている）これらのコンピュータプログラムは、プログラム可能なプロセッサのための機械命令を含み、ハイレベルの手続き型プログラミング言語および／またはオブジェクト指向プログラミング言語で実現されてもよく、および／またはアセンブリ言語／機械言語で実現されてもよい。本明細書で使用される「機械読取可能な媒体」および「コンピュータ読取可能な媒体」という用語は、機械命令を機械読取可能な信号として受信する機械読取可能な媒体を含む、機械命令および／またはデータをプログラム可能なプロセッサに提供するために使用される任意のコンピュータプログラムプロダクト、非一時的なコンピュータ読取可能媒体、装置および／またはデバイス（たとえば磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味する。「機械読取可能な信号」という用語は、機械命令および／またはデータをプログラム可能なプロセッサに提供するために使用される任意の信号を意味する。

本明細書に記載のプロセスおよび論理フローは、１つ以上のコンピュータプログラムを実行することで入力データに対して動作し出力を生成することにより機能を果たす、データ処理ハードウェアとも呼ばれる１つ以上のプログラム可能なプロセッサによって実行することができる。プロセスおよび論理フローは、専用ロジック回路たとえばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用双方のマイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサを含む。一般的に、プロセッサは、読出専用メモリまたはランダムアクセスメモリまたはこれらの双方から命令およびデータを受ける。コンピュータの不可欠な要素は、命令を実行するためのプロセッサと、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般的に、コンピュータは、データを格納するための１つ以上の大容量記憶装置、たとえば磁気ディスク、光磁気ディスク、または光ディスクも含む、または、データを受けるためもしくはデータを伝送するためもしくはこれら双方のために上記大容量記憶装置に作動的に結合される。しかしながら、コンピュータはそのような装置を有している必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ読取可能媒体は、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含み、これらは、例として、半導体メモリデバイス、たとえばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスや、磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスクや、光磁気ディスクや、ＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む。プロセッサおよびメモリは、専用論理回路が補充されてもよくまたは専用論理回路に組み込まれてもよい。

ユーザとの対話を提供するために、本開示の１つ以上の局面をディスプレイデバイスを有するコンピュータ上で実現してもよく、ディスプレイデバイスは、情報をユーザに対して表示するための、たとえばＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはタッチスクリーンであり、コンピュータはまた、任意でキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有し、それによってユーザは入力をコンピュータに与えることができる。ユーザとの対話を提供するために他の種類のデバイスも使用することができ、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受けることができる。加えて、コンピュータは、ユーザが使用するデバイスに文書を送信しこのデバイスから文書を受信することにより、たとえば、ユーザのクライアントデバイス上のウェブブラウザに、このウェブブラウザから受けた要求に応じてウェブページを送信することにより、ユーザとの対話を行ってもよい。

いくつかの実装形態について説明した。それでもやはり、本開示の精神および範囲から逸脱することなくさまざまな修正を行い得ることが理解されるであろう。よってその他の実装形態は以下の請求項の範囲に含まれる。

Claims

機械学習モデルを訓練する方法（４００）であって、前記方法（４００）は、
データ処理ハードウェア（１２）が、ラベル付けされていない訓練サンプル（１１２Ｕ）のセットを取得するステップと、
複数の能動学習サイクルのうちの各能動学習サイクル中に、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の各々のラベル付けされていない訓練サンプル（１１２Ｕ）ごとに、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）を摂動させて拡張訓練サンプル（１１２Ａ）を生成するステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）と前記拡張訓練サンプル（１１２Ａ）とを入力として受けるように構成された前記機械学習モデル（１３０）を用いて、前記ラベル付けされていない訓練サンプル(１１２Ｕ）の予測ラベル（１３２ＰＵ）と、前記拡張訓練サンプル（１１２Ａ）の予測ラベル（１３２ＰＡ）とを生成するステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）の不一致度値（１４２）を決定するステップとを含み、前記不一致度値（１４２）は、前記ラベル付けされていない訓練サンプル（１１２Ｕ）の前記予測ラベル（１３２ＰＵ）と前記拡張訓練サンプル（１１２Ａ）の前記予測ラベル（１３２ＰＡ）との間の相違を表し、前記方法はさらに、
前記データ処理ハードウェア（１２）が、前記不一致度値（１４２）に基づいて、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内のラベル付けされていない訓練サンプル（１１２Ｕ）を降順でソートするステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の、前記ソートしたラベル付けされていない訓練サンプル（１１２Ｕ）から選択された、しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）のうちの、各々のラベル付けされていない訓練サンプル（１１２Ｕ）ごとに、グラウンドトゥルースラベル（１３２Ｇ）を取得するステップと、
前記データ処理ハードウェア（１２）が、ラベル付けされた訓練サンプル（１１２Ｕ）の現在のセットを選択するステップとを含み、前記ラベル付けされた訓練サンプルの現在のセットは、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の、前記ソートしたラベル付けされていない訓練サンプル（１１２Ｕ）から選択された、前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）のうちの、各々のラベル付けされていない訓練サンプル（１１２Ｕ）を、対応する前記取得したグラウンドトゥルースラベル（１３２Ｇ）と対にしたものを含み、前記方法はさらに、
前記データ処理ハードウェア（１２）が、前記ラベル付けされた訓練サンプル（１１２Ｕ）の現在のセットと、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのうちのラベル付けされていない訓練サンプルの適切なサブセット（１１２ＵＰ）とを用いて、前記機械学習モデル（１３０）を訓練するステップを含む、方法。
前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）は、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのカーディナリティ未満である、請求項１に記載の方法（４００）。
前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）のうちの、各々のラベル付けされていない訓練サンプル（１１２Ｕ）の前記不一致度値（１４２）は、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の、前記ソートしたラベル付けされていない訓練サンプル（１１２Ｕ）から選択されない、各々のラベル付けされていない訓練サンプル（１１２Ｕ）の前記不一致度値（１４２）よりも大きい、請求項１または２に記載の方法（４００）。
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）を取り除くことにより、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、前記ラベル付けされていない訓練サンプルの適切なサブセット（１１２ＵＰ）を取得するステップをさらに含む、請求項１～３のいずれか１項に記載の方法（４００）。
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の、前記ソートしたラベル付けされていない訓練サンプル（１１２Ｕ）から、最初のＭ個のラベル付けされていない訓練サンプル（１１２Ｕ）を、前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）として、選択するステップをさらに含む、請求項１～４のいずれか１項に記載の方法（４００）。
初期能動学習サイクル中に、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、ラベル付けされていない訓練サンプルのランダムなセット（１１２ＵＲ）を、ランダムに選択するステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルのランダムなセット（１１２ＵＲ）内の、各々のラベル付けされていない訓練サンプル（１１２Ｕ）ごとに、対応するグラウンドトゥルースラベル（１３２Ｇ）を取得するステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルのランダムなセット（１１２ＵＲ）と、前記対応するグラウンドトゥルースラベル（１３２Ｇ）とを用いて、前記機械学習モデル（１３０）を訓練するステップとをさらに含む、請求項１～４のいずれか１項に記載の方法（４００）。
前記初期能動学習サイクル中に、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）を特定するステップをさらに含み、前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）のカーディナリティは、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのカーディナリティ未満であり、さらに、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）内の前記ラベル付けされていない訓練サンプル（１１２Ｕ）に対して前記機械学習モデル（１３０）を用いて生成された予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第１の交差エントロピー（３２０）を求めるステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルのセット（１１２ＵＣ）内の前記ラベル付けされていない訓練サンプル（１１２Ｕ）に対して前記機械学習モデル（１３０）を用いて生成された予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第２の交差エントロピー（３３０）を求めるステップと、
前記データ処理ハードウェア（１２）が、前記第１の交差エントロピー（３２０）は前記第２の交差エントロピー（３３０）以上か否かを判断するステップと、
前記第１の交差エントロピー（３２０）が前記第２の交差エントロピー（３３０）以上である場合、前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）を、前記機械学習モデル（１３０）を初期訓練するための開始サイズとして、選択するステップとを含む、請求項６に記載の方法（４００）。
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）を特定するステップは、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのうちの、各々のラベル付けされていない訓練サンプル（１１２Ｕ）ごとに、前記不一致度値（１４２）を決定するステップを含む、請求項７に記載の方法（４００）。
前記第１の交差エントロピー（３２０）が前記第２の交差エントロピー（３３０）未満である場合、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、ラベル付けされていない訓練サンプルの拡大されたセットをランダムに選択するステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）を、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットからランダムに選択した前記ラベル付けされていない訓練サンプル（１１２Ｕ）の拡大されたセットを含むように、更新するステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットを、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのうちの前記ラベル付けされていない訓練サンプル（１１２Ｕ）の拡大されたセットから、各々のラベル付けされていない訓練サンプル（１１２Ｕ）を取り除くことにより、更新するステップと、
直後の能動学習サイクル中に、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルの前記更新した候補セット（１１２ＵＣ）内の前記ラベル付けされていない訓練サンプル（１１２Ｕ）について、前記機械学習モデル（１３０）を用いて生成された、予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第１の交差エントロピー（３２０）を求めるステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルの前記更新した候補セット（１１２ＵＣ）内の前記ラベル付けされていない訓練サンプル（１１２Ｕ）について、前記機械学習モデル（１３０）を使用して生成された、予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第２の交差エントロピー（３３０）を求めるステップと、
前記データ処理ハードウェア（１２）が、前記第１の交差エントロピー（３２０）は前記第２の交差エントロピー（３３０）以上か否かを判断するステップと、
前記第１の交差エントロピー（３２０）が前記第２の交差エントロピー（３３０）以上である場合、前記データ処理ハードウェア（１２）が、前記ラベル付けされていない訓練サンプルの前記更新された候補セット（１１２ＵＣ）を、前記機械学習モデル（１３０）を初期訓練するための開始サイズとして、選択するステップとをさらに含む、請求項７に記載の方法（４００）。
前記機械学習モデル（１３０）は畳み込みニューラルネットワークを含む、請求項１～９のいずれか１項に記載の方法（４００）。
システム（１００）であって、
データ処理ハードウェア（１２）と、
前記データ処理ハードウェア（１２）と通信するメモリハードウェア（１４）とを備え、前記メモリハードウェア（１４）は、前記データ処理ハードウェア（１２）によって実行されると前記データ処理ハードウェア（１２）に動作を実行させる命令を格納し、前記動作は、
ラベル付けされていない訓練サンプル（１１２Ｕ）のセットを取得することと、
複数の能動学習サイクルのうちの各能動学習サイクル中に、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の各々のラベル付けされていない訓練サンプル（１１２Ｕ）ごとに、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）を摂動させて拡張訓練サンプル（１１２Ａ）を生成することと、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）と前記拡張訓練サンプル（１１２Ａ）とを入力として受けるように構成された機械学習モデル（１３０）を用いて、前記ラベル付けされていない訓練サンプル(１１２Ｕ）の予測ラベル（１３２ＰＵ）と、
前記拡張訓練サンプル（１１２Ａ）の予測ラベル（１３２ＰＡ）とを生成することと、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）の不一致度値（１４２）を決定することとを含み、前記不一致度値（１４２）は、前記ラベル付けされていない訓練サンプル（１１２Ｕ）の前記予測ラベル（１３２ＰＵ）と前記拡張訓練サンプル（１１２Ａ）の前記予測ラベル（１３２ＰＡ）との間の相違を表し、前記動作はさらに、
前記不一致度値（１４２）に基づいて、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内のラベル付けされていない訓練サンプル（１１２Ｕ）を降順でソートすることと、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の、前記ソートしたラベル付けされていない訓練サンプル（１１２Ｕ）から選択された、しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）のうちの、各々のラベル付けされていない訓練サンプル（１１２Ｕ）ごとに、グラウンドトゥルースラベル（１３２Ｇ）を取得することと、
ラベル付けされた訓練サンプル（１１２Ｕ）の現在のセットを選択することとを含み、前記ラベル付けされた訓練サンプルの現在のセットは、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の、前記ソートしたラベル付けされていない訓練サンプル（１１２Ｕ）から選択された、前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）のうちの、各々のラベル付けされていない訓練サンプル（１１２Ｕ）を、対応する前記取得したグラウンドトゥルースラベル（１３２Ｇ）と対にしたものを含み、前記動作はさらに、
前記ラベル付けされた訓練サンプル（１１２Ｕ）の現在のセットと、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのうちのラベル付けされていない訓練サンプルの適切なサブセット（１１２ＵＰ）とを用いて、前記機械学習モデル（１３０）を訓練することを含む、システム（１００）。
前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）は、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのカーディナリティ未満である、請求項１１に記載のシステム（１００）。
前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）のうちの、各々のラベル付けされていない訓練サンプル（１１２Ｕ）の前記不一致度値（１４２）は、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の、前記ソートしたラベル付けされていない訓練サンプル（１１２Ｕ）から選択されない、各々のラベル付けされていない訓練サンプル（１１２Ｕ）の前記不一致度値（１４２）よりも大きい、請求項１１または１２に記載のシステム（１００）。
前記動作は、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）を取り除くことにより、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、前記ラベル付けされていない訓練サンプルの適切なサブセット（１１２ＵＰ）を取得することをさらに含む、請求項１１～１３のいずれか１項に記載のシステム（１００）。
前記動作は、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセット内の、前記ソートしたラベル付けされていない訓練サンプル（１１２Ｕ）から、最初のＭ個のラベル付けされていない訓練サンプル（１１２Ｕ）を、前記しきい値数のラベル付けされていない訓練サンプル（１１２ＵＴ）として、選択することをさらに含む、請求項１１～１４のいずれか１項に記載のシステム（１００）。
前記動作は、初期能動学習サイクル中に、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、ラベル付けされていない訓練サンプルのランダムなセット（１１２ＵＲ）を、ランダムに選択することと、
前記ラベル付けされていない訓練サンプルのランダムなセット（１１２ＵＲ）内の、各々のラベル付けされていない訓練サンプル（１１２Ｕ）ごとに、対応するグラウンドトゥルースラベル（１３２Ｇ）を取得することと、
前記ラベル付けされていない訓練サンプルのランダムなセット（１１２ＵＲ）と、前記対応するグラウンドトゥルースラベル（１３２Ｇ）とを用いて、前記機械学習モデル（１３０）を訓練することとをさらに含む、請求項１１～１５のいずれか１項に記載のシステム（１００）。
前記動作は、前記初期能動学習サイクル中に、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）を特定することをさらに含み、前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）のカーディナリティは、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのカーディナリティ未満であり、さらに、
前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）内の前記ラベル付けされていない訓練サンプル（１１２Ｕ）に対して前記機械学習モデル（１３０）を用いて生成された予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第１の交差エントロピー（３２０）を求めることと、
前記ラベル付けされていない訓練サンプルのセット（１１２ＵＣ）内の前記ラベル付けされていない訓練サンプル（１１２Ｕ）に対して前記機械学習モデル（１３０）を用いて生成された予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第２の交差エントロピー（３３０）を求めることと、
前記第１の交差エントロピー（３２０）は前記第２の交差エントロピー（３３０）以上か否かを判断することと、
前記第１の交差エントロピー（３２０）が前記第２の交差エントロピー（３３０）以上である場合、前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）を、前記機械学習モデル（１３０）を初期訓練するための開始サイズとして、選択することとを含む、請求項１６に記載のシステム（１００）。
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）を特定することは、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのうちの、各々のラベル付けされていない訓練サンプル（１１２Ｕ）ごとに、前記不一致度値（１４２）を決定することを含む、請求項１７に記載のシステム（１００）。
前記動作は、前記第１の交差エントロピー（３２０）が前記第２の交差エントロピー（３３０）未満である場合、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットから、ラベル付けされていない訓練サンプルの拡大されたセットをランダムに選択することと、
前記ラベル付けされていない訓練サンプルの候補セット（１１２ＵＣ）を、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットからランダムに選択した前記ラベル付けされていない訓練サンプル（１１２Ｕ）の拡大されたセットを含むように、更新することと、
前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットを、前記ラベル付けされていない訓練サンプル（１１２Ｕ）のセットのうちの前記ラベル付けされていない訓練サンプル（１１２Ｕ）の拡大されたセットから、各々のラベル付けされていない訓練サンプル（１１２Ｕ）を取り除くことにより、更新することと、
直後の能動学習サイクル中に、
前記ラベル付けされていない訓練サンプルの前記更新した候補セット（１１２ＵＣ）内の前記ラベル付けされていない訓練サンプル（１１２Ｕ）について、前記機械学習モデル（１３０）を用いて生成された、予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第１の交差エントロピー（３２０）を求めることと、
前記ラベル付けされていない訓練サンプルの前記更新した候補セット（１１２ＵＣ）内の前記ラベル付けされていない訓練サンプル（１１２Ｕ）について、前記機械学習モデル（１３０）を使用して生成された、予測ラベルの分布と、グラウンドトゥルースラベルの分布との間の、第２の交差エントロピー（３３０）を求めることと、
前記第１の交差エントロピー（３２０）は前記第２の交差エントロピー（３３０）以上か否かを判断することと、
前記第１の交差エントロピー（３２０）が前記第２の交差エントロピー（３３０）以上である場合、前記ラベル付けされていない訓練サンプルの前記更新された候補セット（１１２ＵＣ）を、前記機械学習モデル（１３０）を初期訓練するための開始サイズとして、選択することとをさらに含む、請求項１７に記載のシステム（１００）。
前記機械学習モデル（１３０）は畳み込みニューラルネットワークを含む、請求項１１～１９のいずれか１項に記載のシステム（１００）。
前記データ処理ハードウェア（１２）に、請求項１～１０のいずれか１項に記載の方法を実行させる、プログラム。