JP2022549226A - 強化学習を用いたデータ評価 - Google Patents
強化学習を用いたデータ評価 Download PDFInfo
- Publication number
- JP2022549226A JP2022549226A JP2022517883A JP2022517883A JP2022549226A JP 2022549226 A JP2022549226 A JP 2022549226A JP 2022517883 A JP2022517883 A JP 2022517883A JP 2022517883 A JP2022517883 A JP 2022517883A JP 2022549226 A JP2022549226 A JP 2022549226A
- Authority
- JP
- Japan
- Prior art keywords
- training
- data
- estimator
- training samples
- parameter values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title description 16
- 238000011157 data evaluation Methods 0.000 title description 10
- 238000012549 training Methods 0.000 claims abstract description 297
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000005259 measurement Methods 0.000 claims abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 4
- 239000000523 sample Substances 0.000 description 55
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本開示は、強化学習を用いたデータ評価に関する。
機械学習モデルは入力を受け、受けた入力に基づいて出力、たとえば予測出力を生成する。機械学習モデルはデータについて訓練される。しかしながら、データの価値を定量化することは、機械学習における根本的な問題である。機械学習モデルは一般的に、大規模かつ高品質なデータセットについて訓練されることで改善される。しかしながら、そのような大規模かつ高品質なデータセットを収集することは高コストで困難な場合がある。さらに、大規模データセットの中から訓練に最も有用なサンプルを決定し、それに応じてラベル付けするので、複雑さが増大する。実世界の訓練データセットは誤ったラベルを含んでいることが多く、または、入力サンプルは関連性、サンプル品質、もしくはターゲットタスクに対する有用性が異なる。
本開示のある局面は、訓練サンプルを評価する方法を提供する。上記方法は、データ処理ハードウェアにおいて訓練サンプルのセットを取得することを含む。上記方法はまた、複数の訓練反復のうちの各訓練反復中に、上記データ処理ハードウェアが、上記訓練サンプルのセットから訓練サンプルのバッチをサンプリングすることを含む。上記方法は、上記訓練サンプルのバッチ内の訓練サンプルごとに、上記データ処理ハードウェアが、データ値推定器を用いて選択確率を決定することを含む。訓練サンプルの選択確率は、データ値推定器の推定器パラメータ値に基づいている。上記方法はまた、上記データ処理ハードウェアが、各訓練サンプルの上記選択確率に基づいて上記訓練サンプルのバッチから訓練サンプルのサブセットを選択することと、上記データ処理ハードウェアが、上記訓練サンプルのサブセットを有する予測器モデルを用いて性能測定値を決定することとを含む。上記方法はまた、上記データ処理ハードウェアが、上記性能測定値に基づいて上記予測器モデルのモデルパラメータ値を調整することと、上記データ処理ハードウェアが、上記性能測定値に基づいて上記データ値推定器の上記推定器パラメータ値を更新することとを含む。
各種図面において同様の参照符号は同様の要素を示す。
Claims (20)
- 訓練サンプル(102)を評価する方法(500)であって、前記方法(500)は、
データ処理ハードウェア(12)において訓練サンプル(102)のセットを取得することと、
複数の訓練反復のうちの各訓練反復中に、
前記データ処理ハードウェア(12)が、前記訓練サンプル(102)のセットから訓練サンプル(102)のバッチをサンプリングすることと、
前記訓練サンプル(102)のバッチ内の訓練サンプル(102)ごとに、前記データ処理ハードウェア(12)が、データ値推定器(120)を用いて、前記データ値推定器(120)の推定器パラメータ値(122)に基づいて前記訓練サンプル(102)の選択確率(106)を決定することと、
前記データ処理ハードウェア(12)が、各訓練サンプル(102)の前記選択確率(106)に基づいて前記訓練サンプル(102)のバッチから訓練サンプル(102)のサブセットを選択することと、
前記データ処理ハードウェア(12)が、前記訓練サンプル(102)のサブセットを有する予測器モデル(142)を用いて性能測定値(144)を決定することと、
前記データ処理ハードウェア(12)が、前記性能測定値(144)に基づいて前記予測器モデル(142)のモデルパラメータ値(143)を調整することと、
前記データ処理ハードウェア(12)が、前記性能測定値(144)に基づいて前記データ値推定器(120)の前記推定器パラメータ値(122)を更新することとを含む、方法(500)。 - 前記予測器モデル(142)を用いて前記性能測定値(144)を決定することは、損失関数によって損失データ(144)を決定することを含む、請求項1に記載の方法(500)。
- 前記性能測定値(144)に基づいて前記予測器モデル(142)の前記モデルパラメータ値(143)を調整することは、前記損失データ(144)に基づいて前記予測器モデル(142)の前記モデルパラメータ値(143)を調整することを含む、請求項2に記載の方法(500)。
- 前記性能測定値(144)に基づいて前記データ値推定器(120)の前記推定器パラメータ値(122)を更新することは、
前記損失データ(144)から強化信号(260)を決定することと、
前記強化信号(260)に基づいて前記データ値推定器(120)の推定器パラメータ値(122)を更新することとを含む、請求項2または3に記載の方法(500)。 - 前記強化信号(260)に基づいて前記データ値推定器(120)の前記推定器パラメータ値(122)を更新することはさらに、
前記損失データ(144)に基づいて報酬値(230)を決定することと、
前記報酬値(230)に基づいて前記データ値推定器(120)の前記推定器パラメータ値(122)を更新することとを含む、請求項4に記載の方法(500)。 - 前記損失データ(144)に基づいて前記報酬値(230)を決定することは、
前記予測器モデル(142)の直近のN回の訓練反復に基づいて損失データの移動平均を求めることと、
直近の訓練反復についての前記損失データ(144)と前記損失データの移動平均との差を求めることと、
前記直近の訓練反復についての前記損失データ(144)と前記損失データの移動平均との前記差に基づいて前記報酬値(230)を決定することとを含む、請求項5に記載の方法(500)。 - 前記データ値推定器(120)はニューラルネットワークを含み、前記データ値推定器(120)の推定器パラメータ値(122)を更新することは、前記データ値推定器(120)の前記ニューラルネットワークの層パラメータ値を更新することを含む、請求項1~6のいずれか1項に記載の方法(500)。
- 各訓練サンプル(102)の前記選択確率(106)に基づいて前記訓練サンプル(102)のバッチから前記訓練サンプル(102)のサブセットを選択することは、前記訓練サンプル(102)のバッチ内の訓練サンプル(102)ごとに、
選択(310)または非選択(320)を示す対応する選択値(132)を決定することと、
前記対応する選択値(132)が選択(310)を示す場合、前記訓練サンプル(102)を前記訓練サンプル(102)のサブセットに追加することと、
前記対応する選択値(132)が非選択(320)を示す場合、前記訓練サンプル(102)を廃棄することとを含む、請求項1~7のいずれか1項に記載の方法(500)。 - 前記予測器モデル(142)は確率的勾配降下法を用いて訓練される、請求項1~8のいずれか1項に記載の方法(500)。
- 前記訓練サンプル(102)のバッチをサンプリングすることは、前記複数の訓練反復のうちの訓練反復ごとに、前記訓練サンプル(102)のセットから訓練サンプル(102)の異なるバッチをサンプリングすることを含む、請求項1~9のいずれかに記載の方法(500)。
- 訓練サンプル(102)を評価するシステム(100)であって、
データ処理ハードウェア(12)と、
前記データ処理ハードウェア(12)と通信するメモリハードウェア(14)とを備え、前記メモリハードウェア(14)は、前記データ処理ハードウェア(12)によって実行されると前記データ処理ハードウェア(12)に動作を実行させる命令を格納し、前記動作は、
訓練サンプル(102)のセットを取得することと、
複数の訓練反復のうちの各訓練反復中に、
前記訓練サンプル(102)のセットから訓練サンプル(102)のバッチをサンプリングすることと、
前記訓練サンプル(102)のバッチ内の訓練サンプル(102)ごとに、データ値推定器(120)を用いて、前記データ値推定器(120)の推定器パラメータ値(122)に基づいて前記訓練サンプル(102)の選択確率(106)を決定することと、
各訓練サンプル(102)の前記選択確率(106)に基づいて前記訓練サンプル(102)のバッチから訓練サンプル(102)のサブセットを選択することと、
前記訓練サンプル(102)のサブセットを有する予測器モデル(142)を用いて性能測定値(144)を決定することと、
前記性能測定値(144)に基づいて前記予測器モデル(142)のモデルパラメータ値(143)を調整することと、
前記性能測定値(144)に基づいて前記データ値推定器(120)の前記推定器パラメータ値(122)を更新することとを含む、システム(100)。 - 前記予測器モデル(142)を用いて前記性能測定値(144)を決定することは、損失関数によって損失データ(144)を決定することを含む、請求項11に記載のシステム(100)。
- 前記性能測定値(144)に基づいて前記予測器モデル(142)の前記モデルパラメータ値(143)を調整することは、前記損失データ(144)に基づいて前記予測器モデル(142)の前記モデルパラメータ値(143)を調整することを含む、請求項12に記載のシステム(100)。
- 前記性能測定値(144)に基づいて前記データ値推定器(120)の前記推定器パラメータ値(122)を更新することは、
前記損失データ(144)から強化信号(260)を決定することと、
前記強化信号(260)に基づいて前記データ値推定器(120)の推定器パラメータ値(122)を更新することとを含む、請求項12または13に記載のシステム(100)。 - 前記強化信号(260)に基づいて前記データ値推定器(120)の前記推定器パラメータ値(122)を更新することは、
前記損失データ(144)に基づいて報酬値(230)を決定することと、
前記報酬値(230)に基づいて前記データ値推定器(120)の前記推定器パラメータ値(122)を更新することとを含む、請求項14に記載のシステム(100)。 - 前記損失データ(144)に基づいて前記報酬値(230)を決定することは、
前記予測器モデル(142)の直近のN回の訓練反復に基づいて損失データの移動平均を求めることと、
直近の訓練反復についての前記損失データ(144)と前記損失データの移動平均との差を求めることと、
前記直近の訓練反復についての前記損失データ(144)と前記損失データの移動平均との前記差に基づいて前記報酬値(230)を決定することとを含む、請求項15に記載のシステム(100)。 - 前記データ値推定器(120)はニューラルネットワークを含み、前記データ値推定器(120)の推定器パラメータ値(122)を更新することは、前記データ値推定器(120)の前記ニューラルネットワークの層パラメータ値を更新することを含む、請求項11~16のいずれか1項に記載のシステム(100)。
- 各訓練サンプル(102)の前記選択確率(106)に基づいて前記訓練サンプル(102)のバッチから前記訓練サンプル(102)のサブセットを選択することはさらに、前記訓練サンプル(102)のバッチ内の訓練サンプル(102)ごとに、
選択(310)または非選択(320)を示す対応する選択値(132)を決定することと、
前記対応する選択値(132)が選択(310)を示す場合、前記訓練サンプル(102)を前記訓練サンプル(102)のサブセットに追加することと、
前記対応する選択値(132)が非選択(320)を示す場合、前記訓練サンプル(102)を廃棄することとを含む、請求項11~17のいずれか1項に記載のシステム(100)。 - 前記予測器モデル(142)は確率的勾配降下法を用いて訓練される、請求項11~18のいずれか1項に記載のシステム(100)。
- 前記訓練サンプル(102)のバッチをサンプリングすることは、前記複数の訓練反復のうちの訓練反復ごとに、前記訓練サンプル(102)のセットから訓練サンプル(102)の異なるバッチをサンプリングすることを含む、請求項11~19のいずれか1項に記載のシステム(100)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023094084A JP2023116621A (ja) | 2019-09-20 | 2023-06-07 | 強化学習を用いたデータ評価 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962903448P | 2019-09-20 | 2019-09-20 | |
US62/903,448 | 2019-09-20 | ||
PCT/US2020/051678 WO2021055887A1 (en) | 2019-09-20 | 2020-09-19 | Data valuation using reinforcement learning |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023094084A Division JP2023116621A (ja) | 2019-09-20 | 2023-06-07 | 強化学習を用いたデータ評価 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022549226A true JP2022549226A (ja) | 2022-11-24 |
JP7293504B2 JP7293504B2 (ja) | 2023-06-19 |
Family
ID=72744903
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022517883A Active JP7293504B2 (ja) | 2019-09-20 | 2020-09-19 | 強化学習を用いたデータ評価 |
JP2023094084A Pending JP2023116621A (ja) | 2019-09-20 | 2023-06-07 | 強化学習を用いたデータ評価 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023094084A Pending JP2023116621A (ja) | 2019-09-20 | 2023-06-07 | 強化学習を用いたデータ評価 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11823058B2 (ja) |
EP (1) | EP4032025A1 (ja) |
JP (2) | JP7293504B2 (ja) |
KR (1) | KR20220064398A (ja) |
CN (1) | CN114424204A (ja) |
WO (1) | WO2021055887A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210295130A1 (en) * | 2020-03-19 | 2021-09-23 | Mohammad Rasoolinejad | Artificial intelligent agent rewarding method determined by social interaction with intelligent observers |
US20220101182A1 (en) * | 2020-09-28 | 2022-03-31 | International Business Machines Corporation | Quality assessment of machine-learning model dataset |
CN112949948B (zh) * | 2021-04-28 | 2022-06-21 | 北京理工大学 | 电动汽车分时段换电需求区间预测的集成学习方法及系统 |
CN113434648A (zh) * | 2021-06-24 | 2021-09-24 | 平安科技(深圳)有限公司 | 文本分类模型的元学习方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0991430A (ja) * | 1995-09-27 | 1997-04-04 | Hitachi Ltd | パターン認識装置 |
US20190188566A1 (en) * | 2016-08-25 | 2019-06-20 | Google Llc | Reward augmented model training |
JP2019525329A (ja) * | 2016-07-18 | 2019-09-05 | ディープマインド テクノロジーズ リミテッド | 複数の機械学習タスクに関する機械学習モデルのトレーニング |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9390112B1 (en) * | 2013-11-22 | 2016-07-12 | Groupon, Inc. | Automated dynamic data quality assessment |
-
2020
- 2020-09-18 US US17/026,145 patent/US11823058B2/en active Active
- 2020-09-19 CN CN202080065876.8A patent/CN114424204A/zh active Pending
- 2020-09-19 JP JP2022517883A patent/JP7293504B2/ja active Active
- 2020-09-19 WO PCT/US2020/051678 patent/WO2021055887A1/en unknown
- 2020-09-19 EP EP20786175.8A patent/EP4032025A1/en active Pending
- 2020-09-19 KR KR1020227012701A patent/KR20220064398A/ko unknown
-
2023
- 2023-06-07 JP JP2023094084A patent/JP2023116621A/ja active Pending
- 2023-06-12 US US18/333,301 patent/US20230325675A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0991430A (ja) * | 1995-09-27 | 1997-04-04 | Hitachi Ltd | パターン認識装置 |
JP2019525329A (ja) * | 2016-07-18 | 2019-09-05 | ディープマインド テクノロジーズ リミテッド | 複数の機械学習タスクに関する機械学習モデルのトレーニング |
US20190188566A1 (en) * | 2016-08-25 | 2019-06-20 | Google Llc | Reward augmented model training |
Non-Patent Citations (1)
Title |
---|
JIANGCHAO YAO, DEEP LEARNING FROM NOISY IMAGE LABELS WITH QUALITY EMBEDDING, JPN6023017013, 2 November 2017 (2017-11-02), pages 1 - 12, ISSN: 0005054872 * |
Also Published As
Publication number | Publication date |
---|---|
US20210089870A1 (en) | 2021-03-25 |
JP7293504B2 (ja) | 2023-06-19 |
US11823058B2 (en) | 2023-11-21 |
CN114424204A (zh) | 2022-04-29 |
WO2021055887A1 (en) | 2021-03-25 |
KR20220064398A (ko) | 2022-05-18 |
US20230325675A1 (en) | 2023-10-12 |
JP2023116621A (ja) | 2023-08-22 |
EP4032025A1 (en) | 2022-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7293504B2 (ja) | 強化学習を用いたデータ評価 | |
US11694109B2 (en) | Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure | |
US20210089964A1 (en) | Robust training in the presence of label noise | |
WO2021007812A1 (zh) | 一种深度神经网络超参数优化方法、电子设备及存储介质 | |
JP2023126769A (ja) | サンプル一致度評価による能動学習 | |
JP7304488B2 (ja) | 強化学習ベースの局所解釈可能モデル | |
JP7342242B2 (ja) | 学習を転移させるための学習のためのフレームワーク | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
JP2023116599A (ja) | 距離に基づく学習信頼度モデル | |
Wiegrebe et al. | Deep learning for survival analysis: a review | |
CN107644147B (zh) | 从多个结果确定充分原因的系统和方法 | |
JP6233432B2 (ja) | 混合モデルの選択方法及び装置 | |
CN111724487B (zh) | 一种流场数据可视化方法、装置、设备及存储介质 | |
JP7447985B2 (ja) | 学習装置、学習方法、学習プログラム、推定装置、推定方法及び推定プログラム | |
JP7331938B2 (ja) | 学習装置、推定装置、学習方法及び学習プログラム | |
WO2022157862A1 (ja) | トラフィック変動予測装置、及びトラフィック変動予測方法、並びにトラフィック変動予測プログラム | |
JP7439923B2 (ja) | 学習方法、学習装置及びプログラム | |
US20230106295A1 (en) | System and method for deriving a performance metric of an artificial intelligence (ai) model | |
Lebre et al. | Nonhomogeneous dynamic Bayesian networks in systems biology | |
US20230214629A1 (en) | Transformer-based autoregressive language model selection | |
CA3160910A1 (en) | Systems and methods for semi-supervised active learning | |
WO2023076269A1 (en) | Bnn training with mini-batch particle flow | |
KR20200137130A (ko) | 영 과잉 데이터의 모델을 생성하는 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220627 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220627 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230428 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7293504 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |