JP7238907B2 - 機械学習装置、方法及びプログラム - Google Patents
機械学習装置、方法及びプログラム Download PDFInfo
- Publication number
- JP7238907B2 JP7238907B2 JP2020569508A JP2020569508A JP7238907B2 JP 7238907 B2 JP7238907 B2 JP 7238907B2 JP 2020569508 A JP2020569508 A JP 2020569508A JP 2020569508 A JP2020569508 A JP 2020569508A JP 7238907 B2 JP7238907 B2 JP 7238907B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- group
- inappropriate
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
データとラベルの組である複数の教師データである教師データ集合を記憶する記憶部と、
前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成部と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶部に格納する学習部と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する判定部と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する特定部と、
を備える。
コンピュータが、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得し、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する。
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する処理と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する処理と、
をコンピュータに実行させる。
図1は、本実施形態1にかかる機械学習装置1の全体構成を示すブロック図である。機械学習装置1は、教師あり学習を実行して所定のモデルのパラメータを機械学習するための情報処理装置である。機械学習装置1は、記憶部11と、グループ生成部12と、学習部13と、判定部14と、特定部15とを備える。
ここで、本実施形態が解決しようとする課題について詳述する。まず、教師あり学習を用いて、判定精度の高いデータ判定モデルを作成するための様々な提案がなされている。その一分野として、用意された教師データを一定の条件で削減することにより、すべての教師データを使用する場合より高精度なデータ判定モデルを作成しようとする試みがある。一例として、教師データに対するラベル付けは一般的に人手で行われるため、本来付与されるべきものとは異なるラベルが付与されていることがある。そのため、付与されているラベルに誤りがある教師データ(以降、不適切教師データと呼ぶ。)を取り除いた上でデータ判定モデルのパラメータを学習することで、より精度の高いデータ判定モデルを生成することができる。
本実施形態3は、上述した実施形態2の変形例である。本実施形態3にかかる判定部は、各学習済みモデルに対して、教師データ集合の中で対応する学習グループに含まれない教師データを判定対象データとして入力して、それぞれの第1の判定結果を取得する。そして、特定部は、同一の判定対象データに対する、各学習済みモデルからの第1の判定結果とラベルとの比較結果から第2の不適切データ群を特定する。これにより、学習段階においても不適切データを効率的に特定できる。
本実施形態4は、上述した実施形態2又は3の変形例である。本実施形態4にかかるグループ生成部は、少なくとも他のグループには属さない部分集合が属するように複数の学習グループのそれぞれを生成する。これにより、不適切データの有無による学習済みモデルの判定結果の差がより顕著となり、より明確に第1の不適切データ群を特定可能となる。特に、学習段階での不適切データの検出が容易となる。
尚、上述したグループ生成部による学習グループの生成の仕方、特に、部分集合の組合せ方は上述したものに限定されず、様々な組み合わせを採用して構わない。また、部分集合の分割数、学習グループの数、学習済みモデルの数、所定数nは、10に限定されず、2以上であればよい。ここで、nの値が小さくなるほど、不適切データが存在する可能性のある範囲は広くなるが、必要なリソースは小さくなる。一方、nの値が大きくなるほど、必要なリソースが大きくなるが、不適切データが存在する可能性のある範囲を絞り込むことができる。また、n個のデータ判定モデルを作成する場合、教師データも10分割ではなくn分割するとよい。
(付記A1)
データとラベルの組である複数の教師データである教師データ集合を記憶する記憶部と、
前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成部と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶部に格納する学習部と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する判定部と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する特定部と、
を備える機械学習装置。
(付記A2)
前記特定部は、
前記第1の判定結果のそれぞれと前記正解ラベルとを比較し、
前記複数の学習グループのうち、当該比較の結果が一致した前記学習済みモデルに対応する第1の学習グループ群と、当該比較の結果が一致しない前記学習済みモデルに対応する第2の学習グループ群とを特定し、
前記第1の学習グループ群と前記第2の学習グループ群との差分により、前記第1の不適切データ群を特定する
付記A1に記載の機械学習装置。
(付記A3)
前記判定部は、
前記第1の学習グループ群に対応する少なくとも1つの前記学習済みモデルに対して、前記第1の不適切データ群を入力して、第2の判定結果を取得し、
前記特定部は、
前記第1の不適切データ群のうち前記第2の判定結果と前記ラベルとが一致しない1以上のデータを第2の不適切データ群として特定し、
前記学習部は、
前記教師データ集合から前記第2の不適切データ群を除外した集合を前記教師データとして前記所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルとして前記記憶部に格納する
付記A2に記載の機械学習装置。
(付記A4)
前記複数の学習グループは、前記教師データ集合の全てを含む全教師データグループを含み、
前記学習部は、
前記所定のデータ判定モデルに対して前記全教師データグループを前記教師データとして用いた学習により生成された前記学習済みモデルを運用モデルとして前記記憶部に格納し、
前記判定部は、
前記運用モデルに対して外部から取得した運用データを前記判定対象データとして入力する
付記A1乃至A3のいずれか1項に記載の機械学習装置。
(付記A5)
前記グループ生成部は、
前記教師データ集合から、互いにデータの重複がない、所定数である複数の部分集合に分割し、
前記複数の部分集合のそれぞれが少なくとも1以上のグループに属するように前記複数の学習グループを生成する
付記A1乃至A4のいずれか1項に記載の機械学習装置。
(付記A6)
前記グループ生成部は、
前記教師データ集合から、属するデータ数が均等になるように前記複数の部分集合を分割し、
前記特定部は、
前記複数の部分集合のいずれかを前記第1の不適切データ群として特定する
付記A5に記載の機械学習装置。
(付記A7)
前記グループ生成部は、
各学習グループにおける前記部分集合の所属数が前記所定数以内で異なるように、前記複数の学習グループを生成する
付記A5又はA6に記載の機械学習装置。
(付記A8)
前記グループ生成部は、
各学習グループにおける前記部分集合の所属数の昇順においてN-1番目(Nは2以上かつ前記所属数以下の自然数。)の学習グループに属する全ての部分集合と、前記複数の部分集合のうち当該N-1番目の学習グループに属さない部分集合の1つとが所属するようにN番目の学習グループを生成する
付記A5乃至A7のいずれか1項に記載の機械学習装置。
(付記A9)
前記特定部は、
前記第1の学習グループ群のうち前記所属数が最大の第1の学習グループと、前記第2の学習グループ群のうち前記所属数が最小の第2の学習グループとの差分を前記第1の不適切データ群として特定する
付記A2を引用する付記A8に記載の機械学習装置。
(付記A10)
前記グループ生成部は、
少なくとも他のグループには属さない部分集合が属するように前記複数の学習グループのそれぞれを生成する
付記A5に記載の機械学習装置。
(付記A11)
前記グループ生成部は、
前記複数の学習グループに共通して属する部分集合が属する学習グループをさらに前記複数の学習グループに含めて生成する
付記A10に記載の機械学習装置。
(付記B1)
コンピュータが、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得し、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する
機械学習方法。
(付記C1)
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する処理と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する処理と、
をコンピュータに実行させる機械学習プログラム。
11 記憶部
110 教師データ集合
111 教師データ
1111 データ
1112 ラベル
112 教師データ
12 グループ生成部
13 学習部
14 判定部
15 特定部
161 学習済みモデル
16n 学習済みモデル
2 機械学習装置
21 教師データDB
210 教師データ集合
210a 教師データ集合
211 教師データ
2111 ID
2112 検体
2113 ラベル
212 教師データ
22 テストデータDB
221 テストデータ
2211 ID
2212 検体
222 テストデータ
23 モデル管理DB
2301 データ分割情報
2302 学習グループ情報
231 学習済みモデル
23n 学習済みモデル
24 グループ生成部
25 学習部
26 判定部
27 特定部
28 出力部
291 第1の判定結果
292 比較の結果
293 第1の不適切データ群
294 第2の判定結果
295 第2の不適切データ群
295a 第2の不適切データ群
d0~d99 検体
L0~L99 ラベル
sb0~sb9 部分集合
g0~g9 学習グループ
g0a~g9a 学習グループ
m0~m9 学習済みモデル
dX テストデータの検体
LX 正解ラベル
mX0 学習済みモデル
r0~r99 判定結果
rX0~rX9 判定結果
r0-0~r0-99 判定結果
r1-0~r1-99 判定結果
r9-0~r9-99 判定結果
Claims (10)
- データとラベルの組である複数の教師データである教師データ集合を記憶する記憶手段と、
前記教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成するグループ生成手段と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを前記記憶手段に格納する学習手段と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する判定手段と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する特定手段と、
を備える機械学習装置。 - 前記特定手段は、
前記第1の判定結果のそれぞれと前記正解ラベルとを比較し、
前記複数の学習グループのうち、当該比較の結果が一致した前記学習済みモデルに対応する第1の学習グループ群と、当該比較の結果が一致しない前記学習済みモデルに対応する第2の学習グループ群とを特定し、
前記第1の学習グループ群と前記第2の学習グループ群との差分により、前記第1の不適切データ群を特定する
請求項1に記載の機械学習装置。 - 前記判定手段は、
前記第1の学習グループ群に対応する少なくとも1つの前記学習済みモデルに対して、前記第1の不適切データ群を入力して、第2の判定結果を取得し、
前記特定手段は、
前記第1の不適切データ群のうち前記第2の判定結果と前記ラベルとが一致しない1以上のデータを第2の不適切データ群として特定し、
前記学習手段は、
前記教師データ集合から前記第2の不適切データ群を除外した集合を前記教師データとして前記所定のデータ判定モデルに対して学習を行い、新たな学習済みモデルとして前記記憶手段に格納する
請求項2に記載の機械学習装置。 - 前記複数の学習グループは、前記教師データ集合の全てを含む全教師データグループを含み、
前記学習手段は、
前記所定のデータ判定モデルに対して前記全教師データグループを前記教師データとして用いた学習により生成された前記学習済みモデルを運用モデルとして前記記憶手段に格納し、
前記判定手段は、
前記運用モデルに対して外部から取得した運用データを前記判定対象データとして入力する
請求項1乃至3のいずれか1項に記載の機械学習装置。 - 前記グループ生成手段は、
前記教師データ集合から、互いにデータの重複がない、所定数である複数の部分集合に分割し、
前記複数の部分集合のそれぞれが少なくとも1以上のグループに属するように前記複数の学習グループを生成する
請求項1乃至4のいずれか1項に記載の機械学習装置。 - 前記グループ生成手段は、
前記教師データ集合から、属するデータ数が均等になるように前記複数の部分集合へ分割し、
前記特定手段は、
前記複数の部分集合のいずれかを前記第1の不適切データ群として特定する
請求項5に記載の機械学習装置。 - 前記グループ生成手段は、
各学習グループにおける前記部分集合の所属数が前記所定数以内で異なるように、前記複数の学習グループを生成する
請求項5又は6に記載の機械学習装置。 - 前記グループ生成手段は、
各学習グループにおける前記部分集合の所属数の昇順においてN-1番目(Nは2以上かつ前記所属数以下の自然数。)の学習グループに属する全ての部分集合と、前記複数の部分集合のうち当該N-1番目の学習グループに属さない部分集合の1つとが所属するようにN番目の学習グループを生成する
請求項5乃至7のいずれか1項に記載の機械学習装置。 - コンピュータが、
データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成し、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成し、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得し、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する
機械学習方法。 - データとラベルの組である複数の教師データである教師データ集合から、属するデータの少なくとも一部が異なる複数の学習グループを生成する処理と、
所定のデータ判定モデルに対して前記複数の学習グループごとに学習を行い、各学習グループに対応する複数の学習済みモデルを生成する処理と、
前記複数の学習済みモデルのそれぞれに対して対応する前記学習グループに含まれない判定対象データを入力して、前記学習済みモデルの数の第1の判定結果を取得する処理と、
前記第1の判定結果と前記判定対象データにおける正解ラベルとに基づいて、前記教師データ集合の中から前記ラベルが不適切な可能性のある第1の不適切データ群を特定する処理と、
をコンピュータに実行させる機械学習プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019016650 | 2019-02-01 | ||
JP2019016650 | 2019-02-01 | ||
PCT/JP2020/001470 WO2020158450A1 (ja) | 2019-02-01 | 2020-01-17 | 機械学習装置、方法及びプログラムが格納された非一時的なコンピュータ可読媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020158450A1 JPWO2020158450A1 (ja) | 2021-11-11 |
JP7238907B2 true JP7238907B2 (ja) | 2023-03-14 |
Family
ID=71840325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020569508A Active JP7238907B2 (ja) | 2019-02-01 | 2020-01-17 | 機械学習装置、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220108216A1 (ja) |
JP (1) | JP7238907B2 (ja) |
WO (1) | WO2020158450A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181928A (ja) | 2003-12-24 | 2005-07-07 | Fuji Xerox Co Ltd | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム |
-
2020
- 2020-01-17 WO PCT/JP2020/001470 patent/WO2020158450A1/ja active Application Filing
- 2020-01-17 JP JP2020569508A patent/JP7238907B2/ja active Active
- 2020-01-17 US US17/426,923 patent/US20220108216A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181928A (ja) | 2003-12-24 | 2005-07-07 | Fuji Xerox Co Ltd | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム |
Non-Patent Citations (1)
Title |
---|
TAKAMATSU, S et al.,"Reducing Wrong Labels in Distant Supervision for Relation Extraction",Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics [online],2012年,pp. 721-729,[Retrieved on 2020.02.07], <Retrieved from the Internet: URL:https://aclweb.org/anthology/P12-2076.pdf> |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020158450A1 (ja) | 2021-11-11 |
US20220108216A1 (en) | 2022-04-07 |
WO2020158450A1 (ja) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Diaz-Mejia et al. | Evaluation of methods to assign cell type labels to cell clusters from single-cell RNA-sequencing data | |
CN109388675B (zh) | 数据分析方法、装置、计算机设备及存储介质 | |
US10262272B2 (en) | Active machine learning | |
US10504035B2 (en) | Reasoning classification based on feature pertubation | |
JP7395960B2 (ja) | 予測モデル説明方法、予測モデル説明プログラム、予測モデル説明装置 | |
Li et al. | Automated analysis and reannotation of subcellular locations in confocal images from the human protein atlas | |
US11954202B2 (en) | Deep learning based detection of malicious shell scripts | |
CN110929524A (zh) | 数据筛选方法、装置、设备及计算机可读存储介质 | |
CN108268373A (zh) | 自动化测试用例管理方法、装置、设备及存储介质 | |
US11410065B2 (en) | Storage medium, model output method, and model output device | |
AU2017251771A1 (en) | Statistical self learning archival system | |
Rahim et al. | Software defect prediction with naïve Bayes classifier | |
US20210342707A1 (en) | Data-driven techniques for model ensembles | |
WO2023280229A1 (zh) | 图像处理方法、电子设备及存储介质 | |
US11593700B1 (en) | Network-accessible service for exploration of machine learning models and results | |
CN111582315A (zh) | 样本数据处理方法、装置及电子设备 | |
CN113128565B (zh) | 面向预训练标注数据不可知的图像自动标注系统和装置 | |
KR20200073822A (ko) | 악성코드 분류 방법 및 그 장치 | |
JP7238907B2 (ja) | 機械学習装置、方法及びプログラム | |
CN111582313A (zh) | 样本数据生成方法、装置及电子设备 | |
CN111198943B (zh) | 一种简历筛选方法、装置及终端设备 | |
JP6356015B2 (ja) | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム | |
JP2018018197A (ja) | ソースコード評価プログラム | |
CN112433952B (zh) | 深度神经网络模型公平性测试方法、系统、设备及介质 | |
US11514311B2 (en) | Automated data slicing based on an artificial neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210623 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230213 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7238907 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |