JP7141371B2 - 学習データの精練方法及び計算機システム - Google Patents
学習データの精練方法及び計算機システム Download PDFInfo
- Publication number
- JP7141371B2 JP7141371B2 JP2019151646A JP2019151646A JP7141371B2 JP 7141371 B2 JP7141371 B2 JP 7141371B2 JP 2019151646 A JP2019151646 A JP 2019151646A JP 2019151646 A JP2019151646 A JP 2019151646A JP 7141371 B2 JP7141371 B2 JP 7141371B2
- Authority
- JP
- Japan
- Prior art keywords
- learning data
- data set
- learning
- score
- harmful
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
101 プロセッサ
102 ネットワークインタフェース
103 主記憶装置
104 副記憶装置
105 入力装置
106 出力装置
111 データ受付部
112 学習部
113 影響度情報生成部
114 学習データセット精練部
115 出力部
116 評価部
121 学習データ
122 検証データ
123 モデル情報
124 影響度情報
125 スコア情報
126 閾値情報
127 テストデータ
128 評価情報
500、700 GUI
Claims (10)
- 計算機システムが実行する学習データの精練方法であって、
前記計算機システムは、プロセッサ及び前記プロセッサに接続される記憶装置を有する計算機を有し、
前記計算機は、モデルの生成に用いる複数の学習データから構成される学習データセット及び前記モデルの予測精度の検証に用いる複数の検証データから構成される検証データセットを格納するデータベースとアクセス可能な状態で接続し、
前記学習データの精練方法は、
前記プロセッサが、前記検証データセットから前記複数の検証データを含むサンプルデータセットを複数生成する第1のステップと、
前記プロセッサが、前記学習データセットに含まれる前記複数の学習データの各々について、前記学習データが、一つのサンプルデータセットに対する前記モデルの予測精度に与える影響の強さを表すスコアを算出する第2のステップと、
前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、当該サンプルデータセットに対する前記モデルの予測精度に悪影響を与える有害学習データを特定する第3のステップと、
前記プロセッサが、前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データを削除するか否かを判定する第4のステップと、
前記プロセッサが、前記判定の結果に基づいて前記学習データセットから前記有害学習データが削除された精練学習データセットを生成する第5のステップと、を含むことを特徴とする学習データの精練方法。 - 請求項1に記載の学習データの精練方法であって、
前記第4のステップは、
前記プロセッサが、前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データの総合スコアを算出するステップと、
前記プロセッサが、前記有害学習データの総合スコアに基づいて、前記有害学習データを削除するか否かを判定するステップと、を含むことを特徴とする学習データの精練方法。 - 請求項1に記載の学習データの精練方法であって、
前記データベースは、前記複数のサンプルデータセットの各々に対して設定される閾値を管理するための閾値情報を格納し、
前記第3のステップは、前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアと、前記サンプルデータセットに対して設定された前記閾値との比較結果に基づいて、前記有害学習データを特定するステップを含むことを特徴とする学習データの精練方法。 - 請求項3に記載の学習データの精練方法であって、
前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、前記学習データセットから少なくとも一つの学習データを削除して評価用学習データセットを生成するステップと、
前記プロセッサが、前記評価用学習データセットを用いて評価モデルを生成するステップと、
前記プロセッサが、前記サンプルデータセットに対する前記評価モデルの予測精度の変化傾向、及び、前記サンプルデータセットにおける、前記評価用学習データセットに含まれる前記複数の学習データの各々の前記スコアに基づいて、前記サンプルデータセットの閾値を決定し、前記決定された閾値を前記閾値情報に設定するステップと、を含むことを特徴とする学習データの精練方法。 - 請求項1に記載の学習データの精練方法であって、
前記第1のステップは、前記プロセッサが、前記検証データセットに含まれる前記複数の検証データをサンプリングすることによって、前記複数のサンプルデータセットを生成するステップを含むことを特徴とする学習データの精練方法。 - プロセッサ及び前記プロセッサに接続される記憶装置を有する計算機を備える計算機システムであって、
前記計算機は、
モデルの生成に用いる複数の学習データから構成される学習データセット及び前記モデルの予測精度の検証に用いる複数の検証データから構成される検証データセットを格納するデータベースとアクセス可能な状態で接続し、
前記検証データセットから前記複数の検証データを含むサンプルデータセットを複数生成し、
前記学習データセットに含まれる前記複数の学習データの各々について、前記学習データが、一つのサンプルデータセットに対する前記モデルの予測精度に与える影響の強さを表すスコアを算出し、
前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、当該サンプルデータセットに対する前記モデルの予測精度に悪影響を与える有害学習データを特定し、
前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データを削除するか否かを判定し、
前記判定の結果に基づいて前記学習データセットから前記有害学習データが削除された精練学習データセットを生成することを特徴とする計算機システム。 - 請求項6に記載の計算機システムであって、
前記計算機は、
前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データの総合スコアを算出し、
前記有害学習データの総合スコアに基づいて、前記有害学習データを削除するか否かを判定することを特徴とする計算機システム。 - 請求項6に記載の計算機システムであって、
前記データベースは、前記複数のサンプルデータセットの各々に対して設定される閾値を管理するための閾値情報を格納し、
前記計算機は、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアと前記サンプルデータセットに対して設定された前記閾値との比較結果に基づいて、前記有害学習データを特定することを特徴とする計算機システム。 - 請求項8に記載の計算機システムであって、
前記計算機は、
前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、前記学習データセットから少なくとも一つの学習データを削除して評価用学習データセットを生成し、
前記評価用学習データセットを用いて評価モデルを生成し、
前記サンプルデータセットに対する前記評価モデルの予測精度の変化傾向、及び、前記サンプルデータセットにおける、前記評価用学習データセットに含まれる前記複数の学習データの各々の前記スコアに基づいて、前記サンプルデータセットの閾値を決定し、前記決定された閾値を前記閾値情報に設定することを特徴とする計算機システム。 - 請求項6に記載の計算機システムであって、
前記計算機は、前記検証データセットに含まれる前記複数の検証データをサンプリングすることによって、前記複数のサンプルデータセットを生成することを特徴とする計算機システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019151646A JP7141371B2 (ja) | 2019-08-22 | 2019-08-22 | 学習データの精練方法及び計算機システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019151646A JP7141371B2 (ja) | 2019-08-22 | 2019-08-22 | 学習データの精練方法及び計算機システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033544A JP2021033544A (ja) | 2021-03-01 |
JP7141371B2 true JP7141371B2 (ja) | 2022-09-22 |
Family
ID=74677479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019151646A Active JP7141371B2 (ja) | 2019-08-22 | 2019-08-22 | 学習データの精練方法及び計算機システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7141371B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023286234A1 (ja) * | 2021-07-15 | 2023-01-19 | 三菱電機株式会社 | 学習データ評価装置、学習データ評価システム、学習データ評価方法及びプログラム |
WO2023047542A1 (ja) * | 2021-09-24 | 2023-03-30 | 日本電気株式会社 | 学習装置 |
WO2024185155A1 (ja) * | 2023-03-03 | 2024-09-12 | 国立研究開発法人理化学研究所 | 訓練装置、評価装置、訓練方法、評価方法、及びプログラム |
CN117877737B (zh) * | 2024-03-12 | 2024-07-05 | 北方健康医疗大数据科技有限公司 | 一种原发性肺癌风险预测模型的构建方法、系统及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190205620A1 (en) | 2017-12-31 | 2019-07-04 | Altumview Systems Inc. | High-quality training data preparation for high-performance face recognition systems |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017010111A (ja) * | 2015-06-17 | 2017-01-12 | 日本電気株式会社 | ノイズデータ除去支援装置、方法、および、プログラム |
JP2019061494A (ja) * | 2017-09-26 | 2019-04-18 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
2019
- 2019-08-22 JP JP2019151646A patent/JP7141371B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190205620A1 (en) | 2017-12-31 | 2019-07-04 | Altumview Systems Inc. | High-quality training data preparation for high-performance face recognition systems |
Also Published As
Publication number | Publication date |
---|---|
JP2021033544A (ja) | 2021-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7141371B2 (ja) | 学習データの精練方法及び計算機システム | |
JP7125358B2 (ja) | 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法 | |
WO2017216980A1 (ja) | 機械学習装置 | |
EP2991003A2 (en) | Method and apparatus for classification | |
WO2017157262A1 (en) | System and method for rule generation using data processed by binary classifier | |
JP7145059B2 (ja) | モデルの予測根拠提示システム及びモデルの予測根拠提示方法 | |
EP3599617A1 (en) | Computer system and method of presenting information related to basis of predicted value output by predictor, data carrier | |
Idris et al. | Ensemble based efficient churn prediction model for telecom | |
KR20190125840A (ko) | 질병 관련 유전자 순위정보 제공 방법 | |
JP7097261B2 (ja) | 学習データの解析方法及び計算機システム | |
CN115329746A (zh) | 一种事件抽取方法、装置及设备 | |
Patra et al. | Evolutionary hybrid feature selection for cancer diagnosis | |
JP2016031629A (ja) | 特徴選択装置、特徴選択システム、特徴選択方法、および、特徴選択プログラム | |
US7698237B2 (en) | Interactive course of action analysis tool using case based injected genetic algorithm | |
WO2021140884A1 (ja) | モデルを再利用する方法及びコンピュータシステム | |
CN105608460A (zh) | 多分类器融合方法和系统 | |
US20210350260A1 (en) | Decision list learning device, decision list learning method, and decision list learning program | |
JP2013003611A (ja) | 設計検証方法及びプログラム | |
JP2023013082A (ja) | 学習データの選択方法及び計算機システム | |
JP2010033214A (ja) | 規則学習方法、プログラム及び装置 | |
JP7349404B2 (ja) | 判定装置、判定方法及び判定プログラム | |
US11281747B2 (en) | Predicting variables where a portion are input by a user and a portion are predicted by a system | |
JP2021174330A (ja) | 異種機械学習のアンサンブル学習による予測装置 | |
CN116324938A (zh) | 秘密决策树学习装置、秘密决策树学习系统、秘密决策树学习方法、及程序 | |
Alden et al. | Eugenic evolution utilizing a domain model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7141371 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |