JP2021033544A - 学習データの精練方法及び計算機システム - Google Patents
学習データの精練方法及び計算機システム Download PDFInfo
- Publication number
- JP2021033544A JP2021033544A JP2019151646A JP2019151646A JP2021033544A JP 2021033544 A JP2021033544 A JP 2021033544A JP 2019151646 A JP2019151646 A JP 2019151646A JP 2019151646 A JP2019151646 A JP 2019151646A JP 2021033544 A JP2021033544 A JP 2021033544A
- Authority
- JP
- Japan
- Prior art keywords
- data set
- learning data
- learning
- data
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
101 プロセッサ
102 ネットワークインタフェース
103 主記憶装置
104 副記憶装置
105 入力装置
106 出力装置
111 データ受付部
112 学習部
113 影響度情報生成部
114 学習データセット精練部
115 出力部
116 評価部
121 学習データ
122 検証データ
123 モデル情報
124 影響度情報
125 スコア情報
126 閾値情報
127 テストデータ
128 評価情報
500、700 GUI
Claims (10)
- 計算機システムが実行する学習データの精練方法であって、
前記計算機システムは、プロセッサ及び前記プロセッサに接続される記憶装置を有する計算機を有し、
前記計算機は、モデルの生成に用いる複数の学習データから構成される学習データセット及び前記モデルの予測精度の検証に用いる複数の検証データから構成される検証データセットを格納するデータベースとアクセス可能な状態で接続し、
前記学習データの精練方法は、
前記プロセッサが、前記検証データセットから前記複数の検証データを含むサンプルデータセットを複数生成する第1のステップと、
前記プロセッサが、前記学習データセットに含まれる前記複数の学習データの各々について、前記学習データが、一つのサンプルデータセットに対する前記モデルの予測精度に与える影響の強さを表すスコアを算出する第2のステップと、
前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、当該サンプルデータセットに対する前記モデルの予測精度に悪影響を与える有害学習データを特定する第3のステップと、
前記プロセッサが、前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データを削除するか否かを判定する第4のステップと、
前記プロセッサが、前記判定の結果に基づいて前記学習データセットから前記有害学習データが削除された精練学習データセットを生成する第5のステップと、を含むことを特徴とする学習データの精練方法。 - 請求項1に記載の学習データの精練方法であって、
前記第4のステップは、
前記プロセッサが、前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データの総合スコアを算出するステップと、
前記プロセッサが、前記有害学習データの総合スコアに基づいて、前記有害学習データを削除するか否かを判定するステップと、を含むことを特徴とする学習データの精練方法。 - 請求項1に記載の学習データの精練方法であって、
前記データベースは、前記複数のサンプルデータセットの各々に対して設定される閾値を管理するための閾値情報を格納し、
前記第3のステップは、前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアと、前記サンプルデータセットに対して設定された前記閾値との比較結果に基づいて、前記有害学習データを特定するステップを含むことを特徴とする学習データの精練方法。 - 請求項3に記載の学習データの精練方法であって、
前記プロセッサが、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、前記学習データセットから少なくとも一つの学習データを削除して評価用学習データセットを生成するステップと、
前記プロセッサが、前記評価用学習データセットを用いて評価モデルを生成するステップと、
前記プロセッサが、前記サンプルデータセットに対する前記評価モデルの予測精度の変化傾向、及び、前記サンプルデータセットにおける、前記評価用学習データセットに含まれる前記複数の学習データの各々の前記スコアに基づいて、前記サンプルデータセットの閾値を決定し、前記決定された閾値を前記閾値情報に設定するステップと、を含むことを特徴とする学習データの精練方法。 - 請求項1に記載の学習データの精練方法であって、
前記第1のステップは、前記プロセッサが、前記検証データセットに含まれる前記複数の検証データをサンプリングすることによって、前記複数のサンプルデータセットを生成するステップを含むことを特徴とする学習データの精練方法。 - プロセッサ及び前記プロセッサに接続される記憶装置を有する計算機を備える計算機システムであって、
前記計算機は、
モデルの生成に用いる複数の学習データから構成される学習データセット及び前記モデルの予測精度の検証に用いる複数の検証データから構成される検証データセットを格納するデータベースとアクセス可能な状態で接続し、
前記検証データセットから前記複数の検証データを含むサンプルデータセットを複数生成し、
前記学習データセットに含まれる前記複数の学習データの各々について、前記学習データが、一つのサンプルデータセットに対する前記モデルの予測精度に与える影響の強さを表すスコアを算出し、
前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、当該サンプルデータセットに対する前記モデルの予測精度に悪影響を与える有害学習データを特定し、
前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データを削除するか否かを判定し、
前記判定の結果に基づいて前記学習データセットから前記有害学習データが削除された精練学習データセットを生成することを特徴とする計算機システム。 - 請求項6に記載の計算機システムであって、
前記計算機は、
前記複数のサンプルデータセットの各々における前記有害学習データの前記スコアに基づいて、前記有害学習データの総合スコアを算出し、
前記有害学習データの総合スコアに基づいて、前記有害学習データを削除するか否かを判定することを特徴とする計算機システム。 - 請求項6に記載の計算機システムであって、
前記データベースは、前記複数のサンプルデータセットの各々に対して設定される閾値を管理するための閾値情報を格納し、
前記計算機は、前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアと前記サンプルデータセットに対して設定された前記閾値との比較結果に基づいて、前記有害学習データを特定することを特徴とする計算機システム。 - 請求項8に記載の計算機システムであって、
前記計算機は、
前記サンプルデータセットにおける前記複数の学習データの各々の前記スコアに基づいて、前記学習データセットから少なくとも一つの学習データを削除して評価用学習データセットを生成し、
前記評価用学習データセットを用いて評価モデルを生成し、
前記サンプルデータセットに対する前記評価モデルの予測精度の変化傾向、及び、前記サンプルデータセットにおける、前記評価用学習データセットに含まれる前記複数の学習データの各々の前記スコアに基づいて、前記サンプルデータセットの閾値を決定し、前記決定された閾値を前記閾値情報に設定することを特徴とする計算機システム。 - 請求項6に記載の計算機システムであって、
前記計算機は、前記検証データセットに含まれる前記複数の検証データをサンプリングすることによって、前記複数のサンプルデータセットを生成することを特徴とする計算機システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019151646A JP7141371B2 (ja) | 2019-08-22 | 2019-08-22 | 学習データの精練方法及び計算機システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019151646A JP7141371B2 (ja) | 2019-08-22 | 2019-08-22 | 学習データの精練方法及び計算機システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033544A true JP2021033544A (ja) | 2021-03-01 |
JP7141371B2 JP7141371B2 (ja) | 2022-09-22 |
Family
ID=74677479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019151646A Active JP7141371B2 (ja) | 2019-08-22 | 2019-08-22 | 学習データの精練方法及び計算機システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7141371B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023286234A1 (ja) * | 2021-07-15 | 2023-01-19 | 三菱電機株式会社 | 学習データ評価装置、学習データ評価システム、学習データ評価方法及びプログラム |
WO2023047542A1 (ja) * | 2021-09-24 | 2023-03-30 | 日本電気株式会社 | 学習装置 |
CN117877737A (zh) * | 2024-03-12 | 2024-04-12 | 北方健康医疗大数据科技有限公司 | 一种原发性肺癌风险预测模型的构建方法、系统及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017010111A (ja) * | 2015-06-17 | 2017-01-12 | 日本電気株式会社 | ノイズデータ除去支援装置、方法、および、プログラム |
JP2019061494A (ja) * | 2017-09-26 | 2019-04-18 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US20190205620A1 (en) * | 2017-12-31 | 2019-07-04 | Altumview Systems Inc. | High-quality training data preparation for high-performance face recognition systems |
-
2019
- 2019-08-22 JP JP2019151646A patent/JP7141371B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017010111A (ja) * | 2015-06-17 | 2017-01-12 | 日本電気株式会社 | ノイズデータ除去支援装置、方法、および、プログラム |
JP2019061494A (ja) * | 2017-09-26 | 2019-04-18 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US20190205620A1 (en) * | 2017-12-31 | 2019-07-04 | Altumview Systems Inc. | High-quality training data preparation for high-performance face recognition systems |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023286234A1 (ja) * | 2021-07-15 | 2023-01-19 | 三菱電機株式会社 | 学習データ評価装置、学習データ評価システム、学習データ評価方法及びプログラム |
WO2023047542A1 (ja) * | 2021-09-24 | 2023-03-30 | 日本電気株式会社 | 学習装置 |
CN117877737A (zh) * | 2024-03-12 | 2024-04-12 | 北方健康医疗大数据科技有限公司 | 一种原发性肺癌风险预测模型的构建方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7141371B2 (ja) | 2022-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10671933B2 (en) | Method and apparatus for evaluating predictive model | |
EP2991003A2 (en) | Method and apparatus for classification | |
CN110532376B (zh) | 分类文本以确定用于选择机器学习算法结果的目标类型 | |
JP7141371B2 (ja) | 学習データの精練方法及び計算機システム | |
JP2017224184A (ja) | 機械学習装置 | |
JP6975692B2 (ja) | 計算機システム及び予測器が出力した予測値の根拠に関連する情報の提示方法 | |
JP7125358B2 (ja) | 計算機システム及び入力データに対する予測結果の根拠に関する情報の提示方法 | |
KR102075270B1 (ko) | 어노테이션 작업 관리 방법, 이를 지원하는 장치 및 시스템 | |
JP2017111731A (ja) | 情報処理システム、情報処理方法、プログラム | |
JP7145059B2 (ja) | モデルの予測根拠提示システム及びモデルの予測根拠提示方法 | |
US20170061284A1 (en) | Optimization of predictor variables | |
US20220101186A1 (en) | Machine-learning model retraining detection | |
US20230019364A1 (en) | Selection method of learning data and computer system | |
KR102188115B1 (ko) | 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법 | |
JP7097261B2 (ja) | 学習データの解析方法及び計算機システム | |
CN113919510A (zh) | 一种样本特征选择方法、装置、设备及介质 | |
CN115769194A (zh) | 跨数据集的自动数据链接 | |
US11335434B2 (en) | Feature selection for efficient epistasis modeling for phenotype prediction | |
JP2021174330A (ja) | 異種機械学習のアンサンブル学習による予測装置 | |
US11321424B2 (en) | Predicting variables where a portion are input by a user and a portion are predicted by a system | |
CN111383052A (zh) | 一种智能柜选址模型建模方法、装置、服务器及存储介质 | |
JP2021110974A (ja) | モデルを再利用する方法 | |
JP7283548B2 (ja) | 学習装置、予測システム、方法およびプログラム | |
EP4290426A1 (en) | Accuracy calculation program, accuracy calculation method, and information processing device | |
Lin | Pattern Recognition for Hidden Markov Processes: Locality and Accuracy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7141371 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |