JP2022549226A

JP2022549226A - 強化学習を用いたデータ評価

Info

Publication number: JP2022549226A
Application number: JP2022517883A
Authority: JP
Inventors: アリク，セルジャン・オメール; ユン，ジンソン; フィスター，トマス・ジョン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-09-20
Filing date: 2020-09-19
Publication date: 2022-11-24
Anticipated expiration: 2040-09-19
Also published as: US20210089870A1; JP7293504B2; US11823058B2; CN114424204A; WO2021055887A1; KR20220064398A; US20230325675A1; JP2023116621A; EP4032025A1

Abstract

方法（５００）は、訓練サンプル（１０２）のセットを取得することを含む。複数の訓練反復のうちの各訓練反復中に、上記方法は、訓練サンプルのセットから訓練サンプルのバッチをサンプリングすることを含む。上記方法は、訓練サンプルごとに、データ値推定器（１２０）を用いて選択確率（１０６）を決定することを含む。訓練サンプルの選択確率は、データ値推定器の推定器パラメータ値（１２２）に基づいている。上記方法はまた、各訓練サンプルの選択確率に基づいて訓練サンプルのバッチから訓練サンプルのサブセットを選択することと、訓練サンプルのサブセットを有する予測器モデル（１４２）を用いて性能測定値（１４４）を決定することとを含む。上記方法はまた、性能測定値に基づいて予測器モデルのモデルパラメータ値（１４３）を調整することと、性能測定値に基づいてデータ値推定器の推定器パラメータ値を更新することとを含む。

Description

技術分野
本開示は、強化学習を用いたデータ評価に関する。

背景
機械学習モデルは入力を受け、受けた入力に基づいて出力、たとえば予測出力を生成する。機械学習モデルはデータについて訓練される。しかしながら、データの価値を定量化することは、機械学習における根本的な問題である。機械学習モデルは一般的に、大規模かつ高品質なデータセットについて訓練されることで改善される。しかしながら、そのような大規模かつ高品質なデータセットを収集することは高コストで困難な場合がある。さらに、大規模データセットの中から訓練に最も有用なサンプルを決定し、それに応じてラベル付けするので、複雑さが増大する。実世界の訓練データセットは誤ったラベルを含んでいることが多く、または、入力サンプルは関連性、サンプル品質、もしくはターゲットタスクに対する有用性が異なる。

データの価値を正確に定量化することで、訓練データセットのモデル性能が改善される。すべてのデータサンプルを等しく取り扱うのではなく、データの価値が低い場合はこのデータに低い優先度を割り当てることで、より高性能なモデルを得ることができる。典型的に、データ評価性能を定量化するには、サンプルを個々に除去して性能損失を計算してから、そのサンプルのデータとして損失を割り当てる必要がある。しかしながら、これらの方法は訓練サンプル数とともに線形にスケール変更するため、大規模データセットおよび複雑なモデルの場合は法外なコストがかかる。データ評価は、問題についての洞察を構築する以外にも、領域適応、破損サンプル発見、およびロバスト学習など、多種多様なユースケースがある。

概要
本開示のある局面は、訓練サンプルを評価する方法を提供する。上記方法は、データ処理ハードウェアにおいて訓練サンプルのセットを取得することを含む。上記方法はまた、複数の訓練反復のうちの各訓練反復中に、上記データ処理ハードウェアが、上記訓練サンプルのセットから訓練サンプルのバッチをサンプリングすることを含む。上記方法は、上記訓練サンプルのバッチ内の訓練サンプルごとに、上記データ処理ハードウェアが、データ値推定器を用いて選択確率を決定することを含む。訓練サンプルの選択確率は、データ値推定器の推定器パラメータ値に基づいている。上記方法はまた、上記データ処理ハードウェアが、各訓練サンプルの上記選択確率に基づいて上記訓練サンプルのバッチから訓練サンプルのサブセットを選択することと、上記データ処理ハードウェアが、上記訓練サンプルのサブセットを有する予測器モデルを用いて性能測定値を決定することとを含む。上記方法はまた、上記データ処理ハードウェアが、上記性能測定値に基づいて上記予測器モデルのモデルパラメータ値を調整することと、上記データ処理ハードウェアが、上記性能測定値に基づいて上記データ値推定器の上記推定器パラメータ値を更新することとを含む。

本開示の実装形態は以下の任意の特徴のうちの１つ以上を含み得る。いくつかの実装形態において、上記予測器モデルを用いて上記性能測定値を決定することは、損失関数によって損失データを決定することを含む。これらの実装形態において、上記性能測定値に基づいて上記予測器モデルの上記モデルパラメータ値を調整することは、上記損失データに基づいて上記予測器モデルの上記モデルパラメータ値を調整することを含む。加えて、いくつかの実装形態において、上記性能測定値に基づいて上記データ値推定器の上記推定器パラメータ値を更新することは、上記損失データから強化信号を決定することと、上記強化信号に基づいて上記データ値推定器の推定器パラメータ値を更新することとを含む。上記強化信号に基づいて上記データ値推定器の上記推定器パラメータ値を更新することはさらに、上記損失データに基づいて報酬値を決定することと、上記報酬値に基づいて上記データ値推定器の上記推定器パラメータ値を更新することとを含む。これらの実装形態において、上記損失データに基づいて上記報酬値を決定することは、上記予測器モデルの直近のＮ回の訓練反復に基づいて損失データの移動平均を求めることと、直近の訓練反復についての上記損失データと上記損失データの移動平均との差を求めることと、上記直近の訓練反復についての上記損失データと上記損失データの移動平均との上記差に基づいて上記報酬値を決定することとを含む。

いくつかの例において、上記データ値推定器はニューラルネットワークを含み、上記データ値推定器の推定器パラメータ値を更新することは、上記データ値推定器の上記ニューラルネットワークの層パラメータ値を更新することを含む。いくつかの例において、上記予測器モデルは確率的勾配降下法を用いて訓練される。いくつかの実装形態において、各訓練サンプルの上記選択確率に基づいて上記訓練サンプルのバッチから上記訓練サンプルのサブセットを選択することは、上記訓練サンプルのバッチ内の訓練サンプルごとに、選択または非選択を示す対応する選択値を決定することを含む。上記対応する選択値が選択を示す場合、上記方法は、上記訓練サンプルを上記訓練サンプルのサブセットに追加することを含み、上記対応する選択値が非選択を示す場合、上記方法は、上記訓練サンプルを廃棄することをさらに含む。いくつかの例において、上記訓練サンプルのバッチをサンプリングすることは、上記複数の訓練反復のうちの訓練反復ごとに、上記訓練サンプルのセットから訓練サンプルの異なるバッチをサンプリングすることを含む。

本開示の別の局面は、訓練サンプルを評価するシステムを提供する。上記システムは、データ処理ハードウェアと、上記データ処理ハードウェアと通信するメモリハードウェアとを含む。上記メモリハードウェアは、上記データ処理ハードウェアによって実行されると上記データ処理ハードウェアに動作を実行させる命令を格納し、上記動作は、訓練サンプルのセットを取得することを含む。上記動作はまた、複数の訓練反復のうちの各訓練反復中に、上記訓練サンプルのセットから訓練サンプルのバッチをサンプリングすることを含む。上記動作はさらに、上記訓練サンプルのバッチ内の訓練サンプルごとに、データ値推定器を用いて選択確率を決定することを含む。訓練サンプルの選択確率は、データ値推定器の推定器パラメータ値に基づいている。上記動作はまた、各訓練サンプルの上記選択確率に基づいて上記訓練サンプルのバッチから訓練サンプルのサブセットを選択することと、上記訓練サンプルのサブセットを有する予測器モデルを用いて性能測定値を決定することとを含む。上記動作はまた、上記性能測定値に基づいて上記予測器モデルのモデルパラメータ値を調整することと、上記性能測定値に基づいて上記データ値推定器の上記推定器パラメータ値を更新することとを含む。

この局面は、以下の任意の特徴のうちの１つ以上を含み得る。いくつかの実装形態において、上記予測器モデルを用いて上記性能測定値を決定することは、損失関数によって損失データを決定することを含む。これらの実装形態において、上記性能測定値に基づいて上記予測器モデルの上記モデルパラメータ値を調整することは、上記損失データに基づいて上記予測器モデルの上記モデルパラメータ値を調整することを含む。加えて、いくつかの実装形態において、上記性能測定値に基づいて上記データ値推定器の上記推定器パラメータ値を更新することは、上記損失データから強化信号を決定することと、上記強化信号に基づいて上記データ値推定器の推定器パラメータ値を更新することとを含む。上記強化信号に基づいて上記データ値推定器の上記推定器パラメータ値を更新することはさらに、上記損失データに基づいて報酬値を決定することと、上記報酬値に基づいて上記データ値推定器の上記推定器パラメータ値を更新することとを含む。これらの実装形態において、上記損失データに基づいて上記報酬値を決定することは、上記予測器モデルの直近のＮ回の訓練反復に基づいて損失データの移動平均を求めることと、直近の訓練反復についての上記損失データと上記損失データの移動平均との差を求めることと、上記直近の訓練反復についての上記損失データと上記損失データの移動平均との上記差に基づいて上記報酬値を決定することとを含む。

いくつかの例において、上記データ値推定器はニューラルネットワークを含み、上記データ値推定器の推定器パラメータ値を更新することは、上記データ値推定器の上記ニューラルネットワークの層パラメータ値を更新することを含む。いくつかの例において、上記予測器モデルは確率的勾配降下法を用いて訓練される。いくつかの実装形態において、各訓練サンプルの上記選択確率に基づいて上記訓練サンプルのバッチから上記訓練サンプルのサブセットを選択することは、上記訓練サンプルのバッチ内の訓練サンプルごとに、選択または非選択を示す対応する選択値を決定することを含む。上記対応する選択値が選択を示す場合、上記動作は、上記訓練サンプルを上記訓練サンプルのサブセットに追加することをさらに含み、上記対応する選択値が非選択を示す場合、上記動作は、上記訓練サンプルを廃棄することをさらに含む。いくつかの例において、上記訓練サンプルのバッチをサンプリングすることは、上記複数の訓練反復のうちの訓練反復ごとに、上記訓練サンプルのセットから訓練サンプルの異なるバッチをサンプリングすることを含む。

本開示の１つ以上の実装形態の詳細は、添付の図面および以下の説明に記載されている。その他の局面、特徴、および利点は、説明および図面から、ならびに請求項から明らかになるであろう。

データ評価を実行するシステムの一例の概略図である。図１のシステムの構成要素の一例の概略図である。図１のシステムの追加の構成要素の一例の概略図である。モデルをデータ評価のために訓練するアルゴリズムの概略図である。強化学習を用いたデータ評価の方法の動作の構成の一例のフローチャートを示す図である。本明細書に記載のシステムおよび方法を実現するために使用し得るコンピューティングデバイスの一例の概略図である。

詳細な説明
各種図面において同様の参照符号は同様の要素を示す。

高精度の予測を行うようにディープニューラルネットワークを訓練するには、一般的に大量の訓練データが必要である。しかしながら、大規模かつ高品質な実世界のデータセットを収集することは高コストで困難である。加えて、ニューラルネットワークを正確に訓練することは、かなりの時間および計算オーバーヘッドを必要とし得る。訓練データの価値を正確に定量化することは、誤ったラベルが含むことが多い、または品質および有用性が異なることが多い実世界の訓練データセットのモデル性能を改善する大きな可能性がある。訓練データセット内のすべてのデータサンプルを等しく取り扱うのではなく、低品質のサンプルには低い優先度を割り当てることで、より高性能なモデルを得ることができる。性能を改善することに加えて、データ評価は、データ収集のためのより良い手法の開発に役立つ可能性もある。しかしながら、これまでデータ評価は、その方法がデータセット内の訓練サンプル数とともに線形にスケール変更するため、計算コストによって制限されてきた。

本明細書中の実装形態は、予測器モデルの訓練と合同でデータ値を適応的に学習するメタ学習フレームワークである、強化学習を用いたデータ評価（data valuation using reinforcement learning：ＤＶＲＬ）に向けられている。ディープニューラルネットワークによってモデル化されたデータ値推定器関数が、訓練サンプルが予測器モデルの訓練に使用される尤度を出力する。データ値推定器の訓練は、ターゲットタスクに対する性能から直接得られる報酬を用いた強化信号に基づいている。ＤＶＲＬは、小さな検証セットを用いて、時間を節約して他の方法よりも高性能な、計算効率の良い高品質な訓練データセットのデータ値のランキングを提供することができる。ＤＶＲＬは、複数のタイプのデータセットのさまざまな用途で使用することができる。

図１を参照して、いくつかの実装形態において、一例としてのシステム１００は処理システム１０を含む。処理システム１０は、固定されたもしくはスケーラブル／弾力的な計算リソース１２（たとえばデータ処理ハードウェア）および／または記憶リソース１４（たとえばメモリハードウェア）を有する、単一のコンピュータであってもよく、複数のコンピュータであってもよく、または分散型システム（たとえばクラウド環境）であってもよい。処理システム１０は、メタ学習フレームワーク１１０（本明細書ではＤＶＬＲフレームワークまたは単にＤＶＬＲとも呼ぶ）を実行する。ＤＶＬＲフレームワーク１１０は訓練サンプル１０２のセットを取得する。各訓練サンプルは、訓練データと、訓練データのラベルとを含む。ラベルは、訓練データに基づく予測に対する正しい結果のアノテーションまたはその他の表示を含む。これとは異なり、ラベル付けされていない訓練サンプルは、対応するラベルなしの訓練データのみを含む。

たとえば、訓練サンプル１０２は、表形式データセット、音声データセット（たとえば文書化もしくは音声認識などの場合）、画像データセット（たとえば物体検出もしくは分類などの場合）、および／またはテキストデータセット（たとえば自然言語分類、テキスト翻訳などの場合）を含み得る。訓練サンプル１０２のセットは、処理システム１０に（たとえばメモリハードウェア１４内に）格納されてもよく、または、別のエンティティからネットワークもしくはその他の通信チャネルを通して受信されてもよい。データ値推定器１２０は、訓練サンプル１０２のセットから訓練サンプル１０２をバッチ単位で選択してもよい（すなわち訓練サンプル１０２のセットの選択部分またはランダム部分を選択してもよい）。いくつかの例において、データ値推定器１２０は訓練サンプル１０２のバッチを（すなわち訓練の反復ごとに異なるバッチを）をサンプリングする。

ＤＶＬＲフレームワーク１１０は、データ値推定器モデル１２０（たとえば機械学習モデル）を含む。いくつかの実装形態において、データ値推定器モデル１２０はニューラルネットワークである。データ値推定器モデル１２０は、訓練サンプル１０２のバッチ内の訓練サンプル１０２ごとに、データ値推定器モデル１２０の推定器パラメータ値１２２に基づいて選択確率１０６を決定する。選択確率１０６は、訓練サンプル１０２のバッチ内の各訓練サンプル１０２が予測器モデル１４２にとってどの程度価値があるかの予測を表す。いくつかの例において、データ値推定器モデル１２０は、入力訓練サンプル１０２と予測器モデル１４２との関連性を定量化することによって入力訓練サンプル１０２の値を決定する。

ＤＶＬＲフレームワーク１１０はサンプラー１３０を含む。サンプラー１３０は、バッチ内の訓練サンプル１０２ごとに、データ値推定器モデル１２０によって決定された選択確率１０６を入力として受ける。サンプラー１３０は、各訓練サンプル１０２の選択確率１０６に基づいて、予測器モデル１４２に提供するための訓練サンプル１０２のサブセットを選択する。以下でより詳細に説明するように、サンプラー１３０は、選択確率１０６に基づいて、訓練サンプル１０２のバッチ内の残りの訓練サンプル１０２を廃棄してもよい。いくつかの実装形態において、サンプラー１３０への入力として提供される選択確率１０６は多項分布に基づいている。

予測器モデル１４２（たとえば機械学習モデル）は、サンプラー１３０によってサンプリングされた訓練サンプル１０２のサブセットを受ける。予測器モデル１４２は、現在の訓練反復について選択された入力訓練サンプル１０２のバッチからサンプリングされた訓練サンプル１０２のサブセットに基づいて、性能測定値１４４を決定する。予測器モデル１４２は、サンプラー１３０によってサンプリングされた訓練サンプル１０２のサブセットのみを用いて訓練される。すなわち、いくつかの実装形態において、予測器モデル１４２は、サンプラー１３０によって選択またはサンプリングされない訓練サンプル１０２については訓練されない。

予測器モデル１４２は、予測器モデル１４２の予測能力を制御するモデルパラメータ値１４３を含む。予測器モデル１４２は、入力訓練サンプル１０２に基づいて予測１４５を行う。性能評価器１５０は予測１４５を受け、予測１４５および訓練サンプル１０２（すなわち訓練サンプル１０２に関連付けられたラベル）に基づいて性能測定値１４４（たとえば予測１４５の正確さ）を決定する。いくつかの実装形態において、性能測定値１４４は損失データ（たとえば交差エントロピー損失データ）を含む。これらの実装形態において、ＤＶＬＲフレームワーク１１０は損失データに基づいて強化信号を決定する。任意で、ＤＶＬＲフレームワーク１１０は性能測定値１４４に基づいて報酬値２３０（図２）を生成してもよい。

ＤＶＬＲフレームワーク１１０は、性能測定値１４４に基づいて、予測器モデル１４２のモデルパラメータ値１４３と、データ値推定器モデル１２０の推定器パラメータ値１２２とを調整および／または更新する。複数の訓練反復のうちの各訓練反復中に、ＤＶＬＲ１１０はフィードバックループ１４８（たとえばバックプロパゲーション）を用いて、訓練反復の性能測定値１４４に基づいて予測器モデル１４２のモデルパラメータ値１４３を調整してもよい。ＤＶＬＲ１１０は、訓練反復の性能測定値１４４を用いて、同じまたは異なるフィードバックループ１４８に基づいてデータ値推定器モデル１２０の推定器パラメータ値１２２を調整してもよい。いくつかの実装形態において、ＤＶＬＲフレームワーク１１０は、データ値推定器１２０のニューラルネットワークの層パラメータ値を更新することによってデータ値推定器モデル１２０の推定器パラメータ値１２２を更新する。

次に図２を参照して、概略図２００は、強化信号２６０およびフィードバックループ１４８を有するＤＶＬＲ１１０を含む。性能測定値１４４は損失データを含み得る。ＤＶＲＬフレームワーク１１０は、予測器モデル１４２に入力された訓練サンプル１０２のサブセットに基づく損失関数を用いて損失データ１４４を決定してもよい。いくつかの例において、ＤＶＲＬフレームワーク１１０は、損失関数（たとえば、回帰のための平均二乗誤差（ＭＳＥ）または分類のための交差エントロピー）を有する確率的勾配降下最適化アルゴリズムを用いて予測器モデル１４２を訓練する。性能評価器１５０が損失関数に基づいて損失データ１４４を決定すると、ＤＶＬＲ１１０は、フィードバックループ１４８を用いて性能測定値１４４（たとえば損失データ１４４）で予測器モデル１４２のモデルパラメータ値１４３を更新する。

ＤＶＲＬフレームワーク１１０が訓練反復についての損失データ１４４を決定した後、ＤＶＬＲ１１０は強化信号２６０を生成してもよい。いくつかの実装形態において、ＤＶＲＬフレームワーク１１０は、強化信号２６０に基づいてデータ値推定器モデル１２０の推定器パラメータ値１２２を更新する。強化信号２６０はまた、報酬データ２２０を含み得る。性能評価器１５０は、性能測定値１４４を定量化することによって報酬データ２２０を決定してもよい。たとえば、性能測定値１４４が、予測器モデル１４２が受けた訓練サンプル１０２のサブセットから低損失データ１４４（すなわち最小誤差または正確な予測）を示す場合、報酬データ２２０はデータ値推定器モデル１２０の推定器パラメータ値１２２を強化してもよい。逆に、性能測定値１４４が、予測器モデル１４２が受けた訓練サンプル１０２のサブセットから高損失データ１４４（すなわち高い誤差）を示す場合、報酬データ２２０は、データ値推定器モデル１２０の推定器パラメータ値１２２をさらに更新する必要があることを示してもよい。

いくつかの実装形態において、性能評価器１５０は履歴損失データに基づいて報酬データ２２０を計算する。たとえば、性能評価器１５０は、移動平均計算器１４６を用いて、予測器モデル１４２の直近のＮ回の訓練反復に基づいて損失データの移動平均を求める。言い換えれば、訓練反復ごとに、移動平均計算器１４６は損失データ１４４を取得し、現在の訓練反復損失データ１４４と損失データの直近のＮ回の訓練反復の平均との差を求めてもよい。ＤＶＬＲ１１０は、移動平均計算器１４６によって求められた損失データの移動平均に基づいて報酬値２３０を生成してもよい。報酬値２３０は、現在の訓練反復損失データ１４４と損失データの直近のＮ回の訓練反復の平均との差に基づいていてもよい。いくつかの実装形態において、ＤＶＲＬフレームワーク１１０は、報酬値２３０を強化信号２６０の報酬データ２２０に追加する。他の実装形態において、ＤＶＲＬフレームワーク１１０は、報酬値２３０を用いて強化信号２６０の報酬データ２２０を増減させることによって報酬データ２２０に影響を及ぼすに過ぎない。

次に図３を参照して、概略図３００は、訓練サンプル１０２のサブセットを選択するＤＶＬＲ１１０を含む。いくつかの実装形態において、ＤＶＬＲ１１０は、訓練サンプル１０２ごとに選択値１３２を決定することによって、訓練サンプル１０２のサブセットに対して訓練サンプル１０２のバッチ内の訓練サンプル１０２を選択する。選択値１３２は、対応する訓練サンプル１０２の選択または非選択を示してもよい。サンプラー１３０は、データ値推定器モデル１２０が訓練サンプル１０２のバッチ内の訓練サンプル１０２ごとに選択確率１０６を生成した後、選択３１０または非選択３２０のいずれかを示す対応する選択値１３２を決定する。任意で、データ値推定器モデル１２０によって生成される選択確率１０６は多項分布に一致する。サンプラー１３０は、選択確率１０６の分布と、訓練サンプル１０２のバッチの対応する訓練サンプル１０２とを取得し、訓練サンプル１０２のバッチ内の各訓練サンプル１０２が予測器モデル１４２を訓練する尤度を求めることによって選択値１３２を決定する。

サンプラー１３０は、訓練サンプル１０２の選択値１３２が選択３１０を示すと判断した場合は、訓練サンプル１０２を訓練サンプル１０２のサブセットに追加する。逆に、サンプラー１３０は、訓練サンプル１０２の選択値が非選択３２０を示すと判断した場合は、訓練サンプル１０２を（たとえば廃棄された訓練サンプル３４０に）廃棄してもよい。いくつかの実装形態において、ＤＶＬＲフレームワーク１１０は、廃棄された訓練サンプル３４０を、将来の訓練反復のために訓練サンプル１０２のセットに戻す。他の実装形態において、ＤＶＲＬフレームワーク１１０は、廃棄された訓練サンプル３４０を分離して（すなわち訓練サンプル１０２のセットから取り出して）、将来の訓練反復に含まれないようにする。

次に図４を参照して、いくつかの実装形態において、ＤＶＬＲ１１０は、データ値推定器１２０および予測器モデル１４２を訓練するアルゴリズム４００を実行する。ここで、ＤＶＬＲ１１０は、訓練サンプル１０２のセット（すなわちＤ）を受け付け、データ値推定器モデル１２０の推定器パラメータ値と、予測器モデル１４２のモデルパラメータ値とを初期化し、移動平均損失計算器１４６の移動平均損失をリセットする。ＤＶＬＲ１１０は、収束するまでの訓練反復ごとに、訓練サンプル１０２のセットから訓練サンプル１０２のバッチ（すなわちミニバッチＢ）をサンプリングし、データ値推定器モデル１２０の推定器パラメータ値１２２と、予測器モデル１４２のモデルパラメータ値１４３とを更新する。データ値推定器モデル１２０は、アルゴリズム４００を用いて、訓練サンプル１０２のバッチ内の訓練サンプル１０２（すなわちｊ）ごとに、サンプラー１３０の選択値１３２を用いて選択確率１０６およびサンプルを計算する。ＤＶＬＲ１１０は、訓練反復（すなわちｔ）ごとに、それぞれの選択確率１０６と選択３１０を示す選択値１３２とを用いて訓練サンプル１０２のバッチをサンプリングし、性能測定値１４４（すなわ損失データ）を決定する。次のステップにおいて、ＤＶＬＲ１１０は、訓練反復についての性能測定値１４４に基づいて予測器モデル１４２のモデルパラメータ値１４３を更新する。次に、ＤＶＬＲ１１０は、移動平均損失計算器１４６からの移動平均損失を含む訓練反復についての性能測定値１４４に基づいて、データ値推定器モデル１２０の推定器パラメータ値１２２を更新する。最後のステップにおいて、ＤＶＬＲは移動平均損失計算器１４６の移動平均損失を更新する。

図５は、強化学習を用いたデータ評価のための方法５００の動作の構成の一例のフローチャートである。方法５００は、動作５０２において、データ処理ハードウェア１２において訓練サンプル１０２のセットを取得することを含む。方法５００は、動作５０４において、複数の訓練反復のうちの各訓練反復中に、訓練サンプル１０２のバッチ内の訓練サンプル１０２ごとに、データ処理ハードウェア１２が、データ値推定器１２０を用いて、データ値推定器１２０の推定器パラメータ値に基づいて訓練サンプル１０２の選択確率１０６を決定することを含む。

方法５００は、動作５０６において、データ処理ハードウェア１２が、各訓練サンプル１０２の選択確率１０６に基づいて訓練サンプル１０２のバッチから訓練サンプル１０２のサブセットを選択することを含む。方法５００は、動作５０８において、データ処理ハードウェア１２が、訓練サンプル１０２のサブセットを有する予測器モデル１４２を用いて性能測定値１４４を決定することを含む。方法５００はまた、動作５１０において、データ処理ハードウェア１２が、性能測定値１４４に基づいて予測器モデル１４２のモデルパラメータ値１４３を調整することを含む。この方法は、動作５１２において、データ処理ハードウェア１２が、性能測定値１４４に基づいてデータ値推定器１２０の推定器パラメータ値１２２を更新することを含む。

図６は、本明細書に記載のシステムおよび方法を実現するために使用し得る一例としてのコンピューティングデバイス６００の概略図である。コンピューティングデバイス６００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータ等の、各種形態のデジタルコンピュータを表わすことを意図している。ここに示されている構成要素、それらの接続および関係、ならびにそれらの機能は、具体例を意図しているだけであって、本明細書において記載および／またはクレームされている発明の実装を限定することを意図している訳ではない。

コンピューティングデバイス６００は、プロセッサ６１０と、メモリ６２０と、記憶装置６３０と、メモリ６２０および高速拡張ポート６５０に接続する高速インターフェイス／コントローラ６４０と、低速バス６７０および記憶装置６３０に接続する低速インターフェイス／コントローラ６６０とを含む。構成要素６１０、６２０、６３０、６４０、６５０、および６６０の各々は、各種バスを用いて相互接続され、共通のマザーボード上に実装されてもよく、または必要に応じて他の方法で実装されてもよい。プロセッサ６１０は、コンピューティングデバイス６００内で実行するために命令を処理することができ、命令は、高速インターフェイス６４０に結合されたディスプレイ６８０等の外部入出力装置上のグラフィカルユーザインターフェイス（ＧＵＩ）のためのグラフィック情報を表示するためにメモリ６２０内または記憶装置６３０上に格納された命令を含む。他の実装形態において、複数のメモリおよび複数のタイプのメモリとともに、複数のプロセッサおよび／または複数のバスが必要に応じて使用されてもよい。また、複数のコンピューティングデバイス６００が接続されてもよく、各デバイスは（たとえばサーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の一部を提供する。

メモリ６２０は、コンピューティングデバイス６００内で情報を非一時的に格納する。メモリ６２０は、コンピュータ読取可能媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的なメモリ６２０は、コンピューティングデバイス６００が使用するプログラム（たとえば命令のシーケンス）またはデータ（たとえばプログラム状態情報）を一時的または永続的に格納するために使用される物理デバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読出専用メモリ（ＲＯＭ）／プログラマブル読出専用メモリ（ＰＲＯＭ）／消去可能プログラマブル読出専用メモリ（ＥＰＲＯＭ）／電子的消去可能プログラマブル読出専用メモリ（ＥＥＰＲＯＭ）（たとえば典型的にはブートプログラム等のファームウェアに使用される）を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを含むが、これらに限定されない。

記憶装置６３０は、コンピューティングデバイス６００に大容量記憶を提供することができる。いくつかの実装形態において、記憶装置６３０はコンピュータ読取可能媒体である。各種の異なる実装形態において、記憶装置６３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくはその他同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくはその他の構成におけるデバイスを含むデバイスのアレイであってもよい。その他の実装形態では、コンピュータプログラムプロダクトが情報キャリアにおいて有形に実現される。コンピュータプログラムプロダクトは、実行されたときに上記方法のような方法を１つ以上実行する命令を含む。情報キャリアは、メモリ６２０、記憶装置６３０、またはプロセッサ６１０上のメモリ等のコンピュータまたはマシン読取可能媒体である。

高速コントローラ６４０はコンピューティングデバイス６００について帯域幅を多用する動作を管理し、低速コントローラ６６０はより少ない帯域幅を使用する動作を管理する。このような機能の割り当ては例示にすぎない。いくつかの実装形態において、高速コントローラ６４０は、メモリ６２０およびディスプレイ６８０に（たとえばグラフィックスプロセッサまたはアクセラレータを通して）結合され、かつ、さまざまな拡張カード（図示せず）を受け入れることができる高速拡張ポート６５０に結合されている。いくつかの実装形態において、低速コントローラ６６０は、記憶装置６３０および低速拡張ポート６９０に結合されている。さまざまな通信ポート（たとえばＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット）を含み得る低速拡張ポート６９０は、キーボード、ポインティングデバイス、スキャナ等の１つ以上の入出力デバイス、またはスイッチもしくはルータ等のネットワーキングデバイスに、たとえばネットワークアダプタを通して結合されてもよい。

コンピューティングデバイス６００は、図に示されるように、いくつかの異なる形態で実現することができる。たとえば、標準的なサーバ６００ａとして実現されてもよく、またはそのようなサーバ６００ａのグループ内で複数実現されてもよく、またはラップトップコンピュータ６００ｂとして実現されてもよく、またはラックサーバシステム６００ｃの一部として実現されてもよい。

本明細書に記載されているシステムおよび技術のさまざまな実装形態は、デジタル電子および／または光学回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらのさまざまな実装形態は、プログラム可能なシステム上で実行可能および／または翻訳可能な１つ以上のコンピュータプログラムにおける実装形態を含み得るものであり、上記プログラム可能なシステムは、記憶システムからデータおよび命令を受信し記憶システムにデータおよび命令を送信するように結合された専用または汎用であってもよい少なくとも１つのプログラム可能なプロセッサと、少なくとも１つの入力装置と、少なくとも１つの出力装置とを含む。

ソフトウェアアプリケーション（すなわちソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを意味する場合がある。いくつかの例において、ソフトウェアアプリケーションを、「アプリケーション」、「アプリ」、または「プログラム」と呼ぶ場合がある。アプリケーションの例は、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含むが、これらに限定されない。

（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている）これらのコンピュータプログラムは、プログラム可能なプロセッサのための機械命令を含み、ハイレベルの手続き型プログラミング言語および／またはオブジェクト指向プログラミング言語で実現されてもよく、および／またはアセンブリ言語／機械言語で実現されてもよい。本明細書で使用される「機械読取可能な媒体」および「コンピュータ読取可能な媒体」という用語は、機械命令を機械読取可能な信号として受信する機械読取可能な媒体を含む、機械命令および／またはデータをプログラム可能なプロセッサに提供するために使用される任意のコンピュータプログラムプロダクト、非一時的なコンピュータ読取可能媒体、装置および／またはデバイス（たとえば磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味する。「機械読取可能な信号」という用語は、機械命令および／またはデータをプログラム可能なプロセッサに提供するために使用される任意の信号を意味する。

本明細書に記載のプロセスおよび論理フローは、１つ以上のコンピュータプログラムを実行することで入力データに対して動作し出力を生成することにより機能を果たす、データ処理ハードウェアとも呼ばれる１つ以上のプログラム可能なプロセッサによって実行することができる。プロセスおよび論理フローは、専用論理回路たとえばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用双方のマイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサを含む。一般的に、プロセッサは、読出専用メモリまたはランダムアクセスメモリまたはこれらの双方から命令およびデータを受ける。コンピュータの不可欠な要素は、命令を実行するためのプロセッサと、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般的に、コンピュータは、データを格納するための１つ以上の大容量記憶装置、たとえば磁気ディスク、光磁気ディスク、または光ディスクも含む、または、データを受けるためもしくはデータを伝送するためもしくはこれら双方のために上記大容量記憶装置に作動的に結合される。しかしながら、コンピュータはそのような装置を有している必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ読取可能媒体は、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含み、これらは、例として、半導体メモリデバイス、たとえばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスや、磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスクや、光磁気ディスクや、ＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む。プロセッサおよびメモリは、専用論理回路が補充されてもよくまたは専用論理回路に組み込まれてもよい。

ユーザとの対話を提供するために、本開示の１つ以上の局面をディスプレイデバイスを有するコンピュータ上で実現してもよく、ディスプレイデバイスは、情報をユーザに対して表示するための、たとえばＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはタッチスクリーンであり、コンピュータはまた、任意でキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有し、それによってユーザは入力をコンピュータに与えることができる。ユーザとの対話を提供するために他の種類のデバイスも使用することができ、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受けることができる。加えて、コンピュータは、ユーザが使用するデバイスに文書を送信しこのデバイスから文書を受信することにより、たとえば、ユーザのクライアントデバイス上のウェブブラウザに、このウェブブラウザから受けた要求に応じてウェブページを送信することにより、ユーザとの対話を行ってもよい。

いくつかの実装形態について説明した。それでもやはり、本開示の精神および範囲から逸脱することなくさまざまな修正を行い得ることが理解されるであろう。よってその他の実装形態は以下の請求項の範囲に含まれる。

図１を参照して、いくつかの実装形態において、一例としてのシステム１００は処理システム１０を含む。処理システム１０は、固定されたもしくはスケーラブル／弾力的な計算リソース１２（たとえばデータ処理ハードウェア）および／または記憶リソース１４（たとえばメモリハードウェア）を有する、単一のコンピュータであってもよく、複数のコンピュータであってもよく、または分散型システム（たとえばクラウド環境）であってもよい。処理システム１０は、メタ学習フレームワーク１１０（本明細書ではＤＶＲＬフレームワークまたは単にＤＶＲＬとも呼ぶ）を実行する。ＤＶＲＬフレームワーク１１０は訓練サンプル１０２のセットを取得する。各訓練サンプルは、訓練データと、訓練データのラベルとを含む。ラベルは、訓練データに基づく予測に対する正しい結果のアノテーションまたはその他の表示を含む。これとは異なり、ラベル付けされていない訓練サンプルは、対応するラベルなしの訓練データのみを含む。

ＤＶＲＬフレームワーク１１０は、データ値推定器モデル１２０（たとえば機械学習モデル）を含む。いくつかの実装形態において、データ値推定器モデル１２０はニューラルネットワークである。データ値推定器モデル１２０は、訓練サンプル１０２のバッチ内の訓練サンプル１０２ごとに、データ値推定器モデル１２０の推定器パラメータ値１２２に基づいて選択確率１０６を決定する。選択確率１０６は、訓練サンプル１０２のバッチ内の各訓練サンプル１０２が予測器モデル１４２にとってどの程度価値があるかの予測を表す。いくつかの例において、データ値推定器モデル１２０は、入力訓練サンプル１０２と予測器モデル１４２との関連性を定量化することによって入力訓練サンプル１０２の値を決定する。

ＤＶＲＬフレームワーク１１０はサンプラー１３０を含む。サンプラー１３０は、バッチ内の訓練サンプル１０２ごとに、データ値推定器モデル１２０によって決定された選択確率１０６を入力として受ける。サンプラー１３０は、各訓練サンプル１０２の選択確率１０６に基づいて、予測器モデル１４２に提供するための訓練サンプル１０２のサブセットを選択する。以下でより詳細に説明するように、サンプラー１３０は、選択確率１０６に基づいて、訓練サンプル１０２のバッチ内の残りの訓練サンプル１０２を廃棄してもよい。いくつかの実装形態において、サンプラー１３０への入力として提供される選択確率１０６は多項分布に基づいている。

予測器モデル１４２は、予測器モデル１４２の予測能力を制御するモデルパラメータ値１４３を含む。予測器モデル１４２は、入力訓練サンプル１０２に基づいて予測１４５を行う。性能評価器１５０は予測１４５を受け、予測１４５および訓練サンプル１０２（すなわち訓練サンプル１０２に関連付けられたラベル）に基づいて性能測定値１４４（たとえば予測１４５の正確さ）を決定する。いくつかの実装形態において、性能測定値１４４は損失データ（たとえば交差エントロピー損失データ）を含む。これらの実装形態において、ＤＶＲＬフレームワーク１１０は損失データに基づいて強化信号を決定する。任意で、ＤＶＲＬフレームワーク１１０は性能測定値１４４に基づいて報酬値２３０（図２）を生成してもよい。

ＤＶＲＬフレームワーク１１０は、性能測定値１４４に基づいて、予測器モデル１４２のモデルパラメータ値１４３と、データ値推定器モデル１２０の推定器パラメータ値１２２とを調整および／または更新する。複数の訓練反復のうちの各訓練反復中に、ＤＶＲＬ１１０はフィードバックループ１４８（たとえばバックプロパゲーション）を用いて、訓練反復の性能測定値１４４に基づいて予測器モデル１４２のモデルパラメータ値１４３を調整してもよい。ＤＶＲＬ１１０は、訓練反復の性能測定値１４４を用いて、同じまたは異なるフィードバックループ１４８に基づいてデータ値推定器モデル１２０の推定器パラメータ値１２２を調整してもよい。いくつかの実装形態において、ＤＶＲＬフレームワーク１１０は、データ値推定器１２０のニューラルネットワークの層パラメータ値を更新することによってデータ値推定器モデル１２０の推定器パラメータ値１２２を更新する。

次に図２を参照して、概略図２００は、強化信号２６０およびフィードバックループ１４８を有するＤＶＲＬ１１０を含む。性能測定値１４４は損失データを含み得る。ＤＶＲＬフレームワーク１１０は、予測器モデル１４２に入力された訓練サンプル１０２のサブセットに基づく損失関数を用いて損失データ１４４を決定してもよい。いくつかの例において、ＤＶＲＬフレームワーク１１０は、損失関数（たとえば、回帰のための平均二乗誤差（ＭＳＥ）または分類のための交差エントロピー）を有する確率的勾配降下最適化アルゴリズムを用いて予測器モデル１４２を訓練する。性能評価器１５０が損失関数に基づいて損失データ１４４を決定すると、ＤＶＲＬ１１０は、フィードバックループ１４８を用いて性能測定値１４４（たとえば損失データ１４４）で予測器モデル１４２のモデルパラメータ値１４３を更新する。

ＤＶＲＬフレームワーク１１０が訓練反復についての損失データ１４４を決定した後、ＤＶＲＬ１１０は強化信号２６０を生成してもよい。いくつかの実装形態において、ＤＶＲＬフレームワーク１１０は、強化信号２６０に基づいてデータ値推定器モデル１２０の推定器パラメータ値１２２を更新する。強化信号２６０はまた、報酬データ２２０を含み得る。性能評価器１５０は、性能測定値１４４を定量化することによって報酬データ２２０を決定してもよい。たとえば、性能測定値１４４が、予測器モデル１４２が受けた訓練サンプル１０２のサブセットから低損失データ１４４（すなわち最小誤差または正確な予測）を示す場合、報酬データ２２０はデータ値推定器モデル１２０の推定器パラメータ値１２２を強化してもよい。逆に、性能測定値１４４が、予測器モデル１４２が受けた訓練サンプル１０２のサブセットから高損失データ１４４（すなわち高い誤差）を示す場合、報酬データ２２０は、データ値推定器モデル１２０の推定器パラメータ値１２２をさらに更新する必要があることを示してもよい。

いくつかの実装形態において、性能評価器１５０は履歴損失データに基づいて報酬データ２２０を計算する。たとえば、性能評価器１５０は、移動平均計算器１４６を用いて、予測器モデル１４２の直近のＮ回の訓練反復に基づいて損失データの移動平均を求める。言い換えれば、訓練反復ごとに、移動平均計算器１４６は損失データ１４４を取得し、現在の訓練反復損失データ１４４と損失データの直近のＮ回の訓練反復の平均との差を求めてもよい。ＤＶＲＬ１１０は、移動平均計算器１４６によって求められた損失データの移動平均に基づいて報酬値２３０を生成してもよい。報酬値２３０は、現在の訓練反復損失データ１４４と損失データの直近のＮ回の訓練反復の平均との差に基づいていてもよい。いくつかの実装形態において、ＤＶＲＬフレームワーク１１０は、報酬値２３０を強化信号２６０の報酬データ２２０に追加する。他の実装形態において、ＤＶＲＬフレームワーク１１０は、報酬値２３０を用いて強化信号２６０の報酬データ２２０を増減させることによって報酬データ２２０に影響を及ぼすに過ぎない。

次に図３を参照して、概略図３００は、訓練サンプル１０２のサブセットを選択するＤＶＲＬ１１０を含む。いくつかの実装形態において、ＤＶＲＬ１１０は、訓練サンプル１０２ごとに選択値１３２を決定することによって、訓練サンプル１０２のサブセットに対して訓練サンプル１０２のバッチ内の訓練サンプル１０２を選択する。選択値１３２は、対応する訓練サンプル１０２の選択または非選択を示してもよい。サンプラー１３０は、データ値推定器モデル１２０が訓練サンプル１０２のバッチ内の訓練サンプル１０２ごとに選択確率１０６を生成した後、選択３１０または非選択３２０のいずれかを示す対応する選択値１３２を決定する。任意で、データ値推定器モデル１２０によって生成される選択確率１０６は多項分布に一致する。サンプラー１３０は、選択確率１０６の分布と、訓練サンプル１０２のバッチの対応する訓練サンプル１０２とを取得し、訓練サンプル１０２のバッチ内の各訓練サンプル１０２が予測器モデル１４２を訓練する尤度を求めることによって選択値１３２を決定する。

サンプラー１３０は、訓練サンプル１０２の選択値１３２が選択３１０を示すと判断した場合は、訓練サンプル１０２を訓練サンプル１０２のサブセットに追加する。逆に、サンプラー１３０は、訓練サンプル１０２の選択値が非選択３２０を示すと判断した場合は、訓練サンプル１０２を（たとえば廃棄された訓練サンプル３４０に）廃棄してもよい。いくつかの実装形態において、ＤＶＲＬフレームワーク１１０は、廃棄された訓練サンプル３４０を、将来の訓練反復のために訓練サンプル１０２のセットに戻す。他の実装形態において、ＤＶＲＬフレームワーク１１０は、廃棄された訓練サンプル３４０を分離して（すなわち訓練サンプル１０２のセットから取り出して）、将来の訓練反復に含まれないようにする。

次に図４を参照して、いくつかの実装形態において、ＤＶＲＬ１１０は、データ値推定器１２０および予測器モデル１４２を訓練するアルゴリズム４００を実行する。ここで、ＤＶＲＬ１１０は、訓練サンプル１０２のセット（すなわちＤ）を受け付け、データ値推定器モデル１２０の推定器パラメータ値と、予測器モデル１４２のモデルパラメータ値とを初期化し、移動平均損失計算器１４６の移動平均損失をリセットする。ＤＶＲＬ１１０は、収束するまでの訓練反復ごとに、訓練サンプル１０２のセットから訓練サンプル１０２のバッチ（すなわちミニバッチＢ）をサンプリングし、データ値推定器モデル１２０の推定器パラメータ値１２２と、予測器モデル１４２のモデルパラメータ値１４３とを更新する。データ値推定器モデル１２０は、アルゴリズム４００を用いて、訓練サンプル１０２のバッチ内の訓練サンプル１０２（すなわちｊ）ごとに、サンプラー１３０の選択値１３２を用いて選択確率１０６およびサンプルを計算する。ＤＶＲＬ１１０は、訓練反復（すなわちｔ）ごとに、それぞれの選択確率１０６と選択３１０を示す選択値１３２とを用いて訓練サンプル１０２のバッチをサンプリングし、性能測定値１４４（すなわち損失データ）を決定する。次のステップにおいて、ＤＶＲＬ１１０は、訓練反復についての性能測定値１４４に基づいて予測器モデル１４２のモデルパラメータ値１４３を更新する。次に、ＤＶＲＬ１１０は、移動平均損失計算器１４６からの移動平均損失を含む訓練反復についての性能測定値１４４に基づいて、データ値推定器モデル１２０の推定器パラメータ値１２２を更新する。最後のステップにおいて、ＤＶＲＬは移動平均損失計算器１４６の移動平均損失を更新する。

Claims

訓練サンプル（１０２）を評価する方法（５００）であって、前記方法（５００）は、
データ処理ハードウェア（１２）において訓練サンプル（１０２）のセットを取得することと、
複数の訓練反復のうちの各訓練反復中に、
前記データ処理ハードウェア（１２）が、前記訓練サンプル（１０２）のセットから訓練サンプル（１０２）のバッチをサンプリングすることと、
前記訓練サンプル（１０２）のバッチ内の訓練サンプル（１０２）ごとに、前記データ処理ハードウェア（１２）が、データ値推定器（１２０）を用いて、前記データ値推定器（１２０）の推定器パラメータ値（１２２）に基づいて前記訓練サンプル（１０２）の選択確率（１０６）を決定することと、
前記データ処理ハードウェア（１２）が、各訓練サンプル（１０２）の前記選択確率（１０６）に基づいて前記訓練サンプル（１０２）のバッチから訓練サンプル（１０２）のサブセットを選択することと、
前記データ処理ハードウェア（１２）が、前記訓練サンプル（１０２）のサブセットを有する予測器モデル（１４２）を用いて性能測定値（１４４）を決定することと、
前記データ処理ハードウェア（１２）が、前記性能測定値（１４４）に基づいて前記予測器モデル（１４２）のモデルパラメータ値（１４３）を調整することと、
前記データ処理ハードウェア（１２）が、前記性能測定値（１４４）に基づいて前記データ値推定器（１２０）の前記推定器パラメータ値（１２２）を更新することとを含む、方法（５００）。
前記予測器モデル（１４２）を用いて前記性能測定値（１４４）を決定することは、損失関数によって損失データ（１４４）を決定することを含む、請求項１に記載の方法（５００）。
前記性能測定値（１４４）に基づいて前記予測器モデル（１４２）の前記モデルパラメータ値（１４３）を調整することは、前記損失データ（１４４）に基づいて前記予測器モデル（１４２）の前記モデルパラメータ値（１４３）を調整することを含む、請求項２に記載の方法（５００）。
前記性能測定値（１４４）に基づいて前記データ値推定器（１２０）の前記推定器パラメータ値（１２２）を更新することは、
前記損失データ（１４４）から強化信号（２６０）を決定することと、
前記強化信号（２６０）に基づいて前記データ値推定器（１２０）の推定器パラメータ値（１２２）を更新することとを含む、請求項２または３に記載の方法（５００）。
前記強化信号（２６０）に基づいて前記データ値推定器（１２０）の前記推定器パラメータ値（１２２）を更新することはさらに、
前記損失データ（１４４）に基づいて報酬値（２３０）を決定することと、
前記報酬値（２３０）に基づいて前記データ値推定器（１２０）の前記推定器パラメータ値（１２２）を更新することとを含む、請求項４に記載の方法（５００）。
前記損失データ（１４４）に基づいて前記報酬値（２３０）を決定することは、
前記予測器モデル（１４２）の直近のＮ回の訓練反復に基づいて損失データの移動平均を求めることと、
直近の訓練反復についての前記損失データ（１４４）と前記損失データの移動平均との差を求めることと、
前記直近の訓練反復についての前記損失データ（１４４）と前記損失データの移動平均との前記差に基づいて前記報酬値（２３０）を決定することとを含む、請求項５に記載の方法（５００）。
前記データ値推定器（１２０）はニューラルネットワークを含み、前記データ値推定器（１２０）の推定器パラメータ値（１２２）を更新することは、前記データ値推定器（１２０）の前記ニューラルネットワークの層パラメータ値を更新することを含む、請求項１～６のいずれか１項に記載の方法（５００）。
各訓練サンプル（１０２）の前記選択確率（１０６）に基づいて前記訓練サンプル（１０２）のバッチから前記訓練サンプル（１０２）のサブセットを選択することは、前記訓練サンプル（１０２）のバッチ内の訓練サンプル（１０２）ごとに、
選択（３１０）または非選択（３２０）を示す対応する選択値（１３２）を決定することと、
前記対応する選択値（１３２）が選択（３１０）を示す場合、前記訓練サンプル（１０２）を前記訓練サンプル（１０２）のサブセットに追加することと、
前記対応する選択値（１３２）が非選択（３２０）を示す場合、前記訓練サンプル（１０２）を廃棄することとを含む、請求項１～７のいずれか１項に記載の方法（５００）。
前記予測器モデル（１４２）は確率的勾配降下法を用いて訓練される、請求項１～８のいずれか１項に記載の方法（５００）。
前記訓練サンプル（１０２）のバッチをサンプリングすることは、前記複数の訓練反復のうちの訓練反復ごとに、前記訓練サンプル（１０２）のセットから訓練サンプル（１０２）の異なるバッチをサンプリングすることを含む、請求項１～９のいずれかに記載の方法（５００）。
訓練サンプル（１０２）を評価するシステム（１００）であって、
データ処理ハードウェア（１２）と、
前記データ処理ハードウェア（１２）と通信するメモリハードウェア（１４）とを備え、前記メモリハードウェア（１４）は、前記データ処理ハードウェア（１２）によって実行されると前記データ処理ハードウェア（１２）に動作を実行させる命令を格納し、前記動作は、
訓練サンプル（１０２）のセットを取得することと、
複数の訓練反復のうちの各訓練反復中に、
前記訓練サンプル（１０２）のセットから訓練サンプル（１０２）のバッチをサンプリングすることと、
前記訓練サンプル（１０２）のバッチ内の訓練サンプル（１０２）ごとに、データ値推定器（１２０）を用いて、前記データ値推定器（１２０）の推定器パラメータ値（１２２）に基づいて前記訓練サンプル（１０２）の選択確率（１０６）を決定することと、
各訓練サンプル（１０２）の前記選択確率（１０６）に基づいて前記訓練サンプル（１０２）のバッチから訓練サンプル（１０２）のサブセットを選択することと、
前記訓練サンプル（１０２）のサブセットを有する予測器モデル（１４２）を用いて性能測定値（１４４）を決定することと、
前記性能測定値（１４４）に基づいて前記予測器モデル（１４２）のモデルパラメータ値（１４３）を調整することと、
前記性能測定値（１４４）に基づいて前記データ値推定器（１２０）の前記推定器パラメータ値（１２２）を更新することとを含む、システム（１００）。
前記予測器モデル（１４２）を用いて前記性能測定値（１４４）を決定することは、損失関数によって損失データ（１４４）を決定することを含む、請求項１１に記載のシステム（１００）。
前記性能測定値（１４４）に基づいて前記予測器モデル（１４２）の前記モデルパラメータ値（１４３）を調整することは、前記損失データ（１４４）に基づいて前記予測器モデル（１４２）の前記モデルパラメータ値（１４３）を調整することを含む、請求項１２に記載のシステム（１００）。
前記性能測定値（１４４）に基づいて前記データ値推定器（１２０）の前記推定器パラメータ値（１２２）を更新することは、
前記損失データ（１４４）から強化信号（２６０）を決定することと、
前記強化信号（２６０）に基づいて前記データ値推定器（１２０）の推定器パラメータ値（１２２）を更新することとを含む、請求項１２または１３に記載のシステム（１００）。
前記強化信号（２６０）に基づいて前記データ値推定器（１２０）の前記推定器パラメータ値（１２２）を更新することは、
前記損失データ（１４４）に基づいて報酬値（２３０）を決定することと、
前記報酬値（２３０）に基づいて前記データ値推定器（１２０）の前記推定器パラメータ値（１２２）を更新することとを含む、請求項１４に記載のシステム（１００）。
前記損失データ（１４４）に基づいて前記報酬値（２３０）を決定することは、
前記予測器モデル（１４２）の直近のＮ回の訓練反復に基づいて損失データの移動平均を求めることと、
直近の訓練反復についての前記損失データ（１４４）と前記損失データの移動平均との差を求めることと、
前記直近の訓練反復についての前記損失データ（１４４）と前記損失データの移動平均との前記差に基づいて前記報酬値（２３０）を決定することとを含む、請求項１５に記載のシステム（１００）。
前記データ値推定器（１２０）はニューラルネットワークを含み、前記データ値推定器（１２０）の推定器パラメータ値（１２２）を更新することは、前記データ値推定器（１２０）の前記ニューラルネットワークの層パラメータ値を更新することを含む、請求項１１～１６のいずれか１項に記載のシステム（１００）。
各訓練サンプル（１０２）の前記選択確率（１０６）に基づいて前記訓練サンプル（１０２）のバッチから前記訓練サンプル（１０２）のサブセットを選択することはさらに、前記訓練サンプル（１０２）のバッチ内の訓練サンプル（１０２）ごとに、
選択（３１０）または非選択（３２０）を示す対応する選択値（１３２）を決定することと、
前記対応する選択値（１３２）が選択（３１０）を示す場合、前記訓練サンプル（１０２）を前記訓練サンプル（１０２）のサブセットに追加することと、
前記対応する選択値（１３２）が非選択（３２０）を示す場合、前記訓練サンプル（１０２）を廃棄することとを含む、請求項１１～１７のいずれか１項に記載のシステム（１００）。
前記予測器モデル（１４２）は確率的勾配降下法を用いて訓練される、請求項１１～１８のいずれか１項に記載のシステム（１００）。
前記訓練サンプル（１０２）のバッチをサンプリングすることは、前記複数の訓練反復のうちの訓練反復ごとに、前記訓練サンプル（１０２）のセットから訓練サンプル（１０２）の異なるバッチをサンプリングすることを含む、請求項１１～１９のいずれか１項に記載のシステム（１００）。