JP7409513B2 - 機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置 - Google Patents
機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置 Download PDFInfo
- Publication number
- JP7409513B2 JP7409513B2 JP2022544887A JP2022544887A JP7409513B2 JP 7409513 B2 JP7409513 B2 JP 7409513B2 JP 2022544887 A JP2022544887 A JP 2022544887A JP 2022544887 A JP2022544887 A JP 2022544887A JP 7409513 B2 JP7409513 B2 JP 7409513B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- attribute
- machine learning
- types
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000010801 machine learning Methods 0.000 title claims description 37
- 230000008569 process Effects 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 51
- 230000008859 change Effects 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 description 81
- 238000012549 training Methods 0.000 description 56
- 238000004364 calculation method Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 38
- 230000010365 information processing Effects 0.000 description 33
- 230000002776 aggregation Effects 0.000 description 24
- 238000004220 aggregation Methods 0.000 description 24
- 238000012986 modification Methods 0.000 description 22
- 230000004048 modification Effects 0.000 description 22
- 238000012360 testing method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000012447 hatching Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005067 remediation Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
20 情報処理装置
21 入力部
22 制御部
23 記憶部
24 出力部
30 是正済み訓練データ
40 訓練装置
50 訓練済みモデル
60 分類装置
70 分類データ
80 是正済み分類データ
221 取得部
222 グループ化部
223 是正試行部
224 集約部
225 算出部
226 特定部
227 選択部
228 変更部
Claims (12)
- それぞれに正例または負例がラベル付けされた複数のデータを取得し、
前記複数のデータのそれぞれに関連付けられた第1の属性と第2の属性との組の複数の種類毎に、正例のデータ数と負例のデータ数との比率を算出し、
前記複数の種類のそれぞれに対して算出された前記比率の差が閾値以上である場合、前記複数の種類に含まれる第1の種類と他の全ての種類それぞれとの組み合わせ毎に、前記比率に基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、変更候補のデータを特定し、
前記組み合わせ毎に特定された前記変更候補のデータに基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、第1のデータを選択し、
前記複数のデータに含まれる前記第1のデータのラベルを変更することによって機械学習データを生成する、
処理をコンピュータに実行させることを特徴とする機械学習データ生成プログラム。 - 前記特定する処理は、前記複数の種類のうち、前記比率の差が前記閾値から最も離れている種類を、前記第1の種類として選択する処理、
を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。 - 前記特定する処理は、前記選択する処理によって前記第1のデータが選択され、前記生成する処理によって前記第1のデータのラベルが変更された後、前記複数の種類のうちの前記第1の種類とは別の第1の種類と他の全ての種類それぞれとの組み合わせ毎に、前記比率に基づいて、前記別の第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、変更候補のデータを特定する処理、
を含むことを特徴とする請求項1または2に記載の機械学習データ生成プログラム。 - 前記算出する処理は、前記比率の差として、2つの前記種類の間の確率、距離および分布の少なくとも一つに基づく値である公平性メトリクスを算出する処理、
を含み、
前記特定する処理は、前記算出する処理によって算出された前記公平性メトリクスに基づいて、前記第1の種類を選択する処理、
を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。 - 前記特定する処理は、前記複数の種類のうち、前記公平性メトリクスが閾値に対して超過している種類から、前記第1の種類を選択する処理、
を含むことを特徴とする請求項4に記載の機械学習データ生成プログラム。 - 前記特定する処理は、前記第1の属性および前記第2の属性それぞれに対して設定された閾値に対する前記公平性メトリクスの超過度の小計値の加算または減算の結果に基づいて、前記第1の種類を選択する処理、
を含むことを特徴とする請求項4に記載の機械学習データ生成プログラム。 - 前記選択する処理は、2つの前記種類の間の公平性を是正する公平性アルゴリズムを用いて、前記第1のデータを選択する処理、
を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。 - 前記生成する処理は、前記選択する処理によって選択された前記第1のデータのラベルを変更しても前記複数の種類間の前記比率の順位が変わらない場合に、前記第1のデータのラベルを変更する処理、
を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。 - 前記特定する処理は、前記複数の種類のうち、前記比率の差が前記閾値から最も離れている種類が複数ある場合には、前記変更候補の数が最も多いまたは前記比率が最も大きい種類を前記第1の種類とする処理、
を含むことを特徴とする請求項1に記載の機械学習データ生成プログラム。 - 前記第1の属性および前記第2の属性は、いずれも保護属性である、
ことを特徴とする請求項1に記載の機械学習データ生成プログラム。 - それぞれに正例または負例がラベル付けされた複数のデータを取得し、
前記複数のデータのそれぞれに関連付けられた第1の属性と第2の属性との組の複数の種類毎に、正例のデータ数と負例のデータ数との比率を算出し、
前記複数の種類のそれぞれに対して算出された前記比率の差が閾値以上である場合、前記複数の種類に含まれる第1の種類と他の全ての種類それぞれとの組み合わせ毎に、前記比率に基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、変更候補のデータを特定し、
前記組み合わせ毎に特定された前記変更候補のデータに基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、第1のデータを選択し、
前記複数のデータに含まれる前記第1のデータのラベルを変更することによって機械学習データを生成する、
処理をコンピュータが実行することを特徴とする機械学習データ生成方法。 - それぞれに正例または負例がラベル付けされた複数のデータを取得し、
前記複数のデータのそれぞれに関連付けられた第1の属性と第2の属性との組の複数の種類毎に、正例のデータ数と負例のデータ数との比率を算出し、
前記複数の種類のそれぞれに対して算出された前記比率の差が閾値以上である場合、前記複数の種類に含まれる第1の種類と他の全ての種類それぞれとの組み合わせ毎に、前記比率に基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、変更候補のデータを特定し、
前記組み合わせ毎に特定された前記変更候補のデータに基づいて、前記第1の種類に対応する前記第1の属性と前記第2の属性とが関連付いたデータのうち、第1のデータを選択し、
前記複数のデータに含まれる前記第1のデータのラベルを変更することによって機械学習データを生成する、
処理を実行する制御部を含むことを特徴とする機械学習データ生成装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/031769 WO2022044064A1 (ja) | 2020-08-24 | 2020-08-24 | 機械学習データ生成プログラム、機械学習データ生成方法、機械学習データ生成装置、分類データ生成プログラム、分類データ生成方法および分類データ生成装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022044064A1 JPWO2022044064A1 (ja) | 2022-03-03 |
JPWO2022044064A5 JPWO2022044064A5 (ja) | 2023-04-14 |
JP7409513B2 true JP7409513B2 (ja) | 2024-01-09 |
Family
ID=80352812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022544887A Active JP7409513B2 (ja) | 2020-08-24 | 2020-08-24 | 機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230153694A1 (ja) |
EP (1) | EP4202799A4 (ja) |
JP (1) | JP7409513B2 (ja) |
WO (1) | WO2022044064A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7410209B2 (ja) * | 2022-04-20 | 2024-01-09 | Lineヤフー株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
WO2024047735A1 (ja) * | 2022-08-30 | 2024-03-07 | 富士通株式会社 | 公平性評価プログラム、公平性評価方法、及び、情報処理装置 |
WO2024047766A1 (ja) * | 2022-08-30 | 2024-03-07 | 富士通株式会社 | バイアス評価プログラム、バイアス評価方法及びバイアス評価装置 |
JP2024072687A (ja) | 2022-11-16 | 2024-05-28 | 富士通株式会社 | データ生成プログラム、データ生成方法およびデータ生成装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008123043A (ja) | 2006-11-08 | 2008-05-29 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP2019519021A (ja) | 2016-04-12 | 2019-07-04 | ハイアービュー インコーポレイテッド | パフォーマンスモデル悪影響補正 |
US20200184350A1 (en) | 2018-12-10 | 2020-06-11 | International Business Machines Corporation | Post-hoc improvement of instance-level and group-level prediction metrics |
-
2020
- 2020-08-24 JP JP2022544887A patent/JP7409513B2/ja active Active
- 2020-08-24 WO PCT/JP2020/031769 patent/WO2022044064A1/ja unknown
- 2020-08-24 EP EP20951320.9A patent/EP4202799A4/en active Pending
-
2023
- 2023-01-20 US US18/099,266 patent/US20230153694A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008123043A (ja) | 2006-11-08 | 2008-05-29 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP2019519021A (ja) | 2016-04-12 | 2019-07-04 | ハイアービュー インコーポレイテッド | パフォーマンスモデル悪影響補正 |
US20200184350A1 (en) | 2018-12-10 | 2020-06-11 | International Business Machines Corporation | Post-hoc improvement of instance-level and group-level prediction metrics |
Non-Patent Citations (2)
Title |
---|
CALMON Flavio P. et al.,Optimized Pre-Processing for Discrimination Prevention,Conference on Neural Information Processing Systems,米国,2017年12月04日,p.2-5 |
Flavio P. Calmon, 外3名,"Optimized Data Pre-Processing for Discrimination Prevention",[online],2017年04月11日,p.1-18,[令和5年11月14日検索], インターネット<URL:https://arxiv.org/pdf/1704.03354.pdf> |
Also Published As
Publication number | Publication date |
---|---|
EP4202799A4 (en) | 2023-09-13 |
JPWO2022044064A1 (ja) | 2022-03-03 |
WO2022044064A1 (ja) | 2022-03-03 |
EP4202799A1 (en) | 2023-06-28 |
US20230153694A1 (en) | 2023-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7409513B2 (ja) | 機械学習データ生成プログラム、機械学習データ生成方法および機械学習データ生成装置 | |
TWI631518B (zh) | 具有一或多個計算裝置的電腦伺服系統及訓練事件分類器模型的電腦實作方法 | |
KR102189295B1 (ko) | 컴퓨터 보안 어플리케이션들을 위한 연속형 분류자들 | |
JP6414363B2 (ja) | 予測システム、方法およびプログラム | |
US11017489B2 (en) | Systems and methods for implementing search and recommendation tools for attorney selection | |
JP6421421B2 (ja) | 注釈情報付与プログラム及び情報処理装置 | |
JP6311851B2 (ja) | 共クラスタリングシステム、方法およびプログラム | |
US20130332249A1 (en) | Optimal supplementary award allocation | |
KR20160113685A (ko) | 콘텐츠 추천 방법, 장치 및 시스템 | |
de Lima Júnior et al. | Developers assignment for analyzing pull requests | |
Fang et al. | Subjectivity grouping: Learning from users' rating behavior | |
CN116739759A (zh) | 基于订单风险识别的资产资金匹配方法、装置及设备 | |
Chu et al. | Variational cross-network embedding for anonymized user identity linkage | |
Nguyen-Trang | A new efficient approach to detect skin in color image using Bayesian classifier and connected component algorithm | |
Abdel-Hafez et al. | A normal-distribution based reputation model | |
Tubella et al. | Ethical implications of fairness interventions: what might be hidden behind engineering choices? | |
US11551121B2 (en) | Methods and systems for privacy preserving inference generation in a distributed computing environment | |
Zola et al. | Attacking Bitcoin anonymity: generative adversarial networks for improving Bitcoin entity classification | |
EP4287083A1 (en) | Determination program, determination apparatus, and method of determining | |
Majeed et al. | CTGAN-MOS: Conditional generative adversarial network based minority-class-augmented oversampling scheme for imbalanced problems | |
Mielniczuk et al. | One-Class Classification Approach to Variational Learning from Biased Positive Unlabeled Data | |
Boratto et al. | Influence of rating prediction on the accuracy of a group recommender system that detects groups | |
Gomes et al. | Pairwise combination of classifiers for ensemble learning on data streams | |
Jang et al. | On analyzing churn prediction in mobile games | |
Berthier | Progressive differential evolution on clustering real world problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230130 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7409513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |