JP2022152911A - プログラム、情報処理装置、及び学習モデルの生成方法 - Google Patents
プログラム、情報処理装置、及び学習モデルの生成方法 Download PDFInfo
- Publication number
- JP2022152911A JP2022152911A JP2021055855A JP2021055855A JP2022152911A JP 2022152911 A JP2022152911 A JP 2022152911A JP 2021055855 A JP2021055855 A JP 2021055855A JP 2021055855 A JP2021055855 A JP 2021055855A JP 2022152911 A JP2022152911 A JP 2022152911A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- data
- subsets
- labels
- learning data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims description 31
- 238000011156 evaluation Methods 0.000 claims abstract description 95
- 238000003860 storage Methods 0.000 claims description 30
- 238000012795 verification Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 21
- 238000010801 machine learning Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 230000005856 abnormality Effects 0.000 description 14
- 238000013500 data storage Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
11 記憶部
111 データ記憶部
112 学習モデル記憶部
12 入力部
121 データ入力部
122 判定用データ入力部
13 出力部
14 制御部
141 分割部
142 機械学習部
143 評価部
144 判定部
Claims (10)
- データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成するプログラムであって、情報処理装置に、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定するステップと、
前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成するステップと、
生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成するステップと、
生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを保存するステップと、
を含む動作を実行させる、
プログラム。 - 前記動作は、前記複数のサブセットを生成するステップの前に、前記学習用データ群を前記複数のサブセットに分割するときの分割数を決定するステップをさらに含む、
請求項1に記載のプログラム。 - 前記分割数を決定するステップは、ユーザにより入力された情報に基づいて前記分割数を決定するステップを含む、
請求項2に記載のプログラム。 - 前記分割数を決定するステップは、初期設定に基づいて自動的に前記分割数を決定するステップを含む、
請求項2に記載のプログラム。 - 前記動作は、決定された前記分割数を所定範囲内で異なる値に繰り返し更新するステップと、更新された前記分割数のそれぞれに基づいて前記第1評価指標を算出するステップと、前記第1評価指標の値が最も高いときの前記分割数を決定するステップと、をさらに含む、
請求項2乃至4のいずれか1項に記載のプログラム。 - 前記動作は、前記複数の第1学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合するステップをさらに含む、
請求項1乃至5のいずれか1項に記載のプログラム。 - 前記複数のサブセットを生成するステップは、一の前記サブセットにサンプリングされた前記第1学習用データを除く前記学習用データ群から新たに前記第1学習用データをサンプリングして他の前記サブセットを生成するステップを含む、
請求項1乃至6のいずれか1項に記載のプログラム。 - 前記ラベルの数は2つであり、
前記複数の第1学習モデルは二値分類に用いられる、
請求項1乃至7のいずれか1項に記載のプログラム。 - データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成する情報処理装置であって、制御部と、記憶部と、を備え、
前記制御部は、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定し、
前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成し、
生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成し、
生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを前記記憶部に格納する、
情報処理装置。 - データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルの生成方法であって、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定するステップと、
前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を分割して前記複数のサブセットを生成するステップと、
生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成するステップと、
生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを保存するステップと、
を含む、
学習モデルの生成方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021055855A JP7322918B2 (ja) | 2021-03-29 | 2021-03-29 | プログラム、情報処理装置、及び学習モデルの生成方法 |
EP22160893.8A EP4080422A1 (en) | 2021-03-29 | 2022-03-08 | Non-transitory computer readable medium, information processing apparatus, and method of generating a learning model |
CN202210240215.5A CN115221934A (zh) | 2021-03-29 | 2022-03-10 | 计算机可读介质、信息处理装置和学习模型的生成方法 |
US17/654,333 US20220309406A1 (en) | 2021-03-29 | 2022-03-10 | Non-transitory computer readable medium, information processing apparatus, and method of generating a learning model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021055855A JP7322918B2 (ja) | 2021-03-29 | 2021-03-29 | プログラム、情報処理装置、及び学習モデルの生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022152911A true JP2022152911A (ja) | 2022-10-12 |
JP7322918B2 JP7322918B2 (ja) | 2023-08-08 |
Family
ID=80683689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021055855A Active JP7322918B2 (ja) | 2021-03-29 | 2021-03-29 | プログラム、情報処理装置、及び学習モデルの生成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220309406A1 (ja) |
EP (1) | EP4080422A1 (ja) |
JP (1) | JP7322918B2 (ja) |
CN (1) | CN115221934A (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999026164A1 (fr) * | 1997-11-19 | 1999-05-27 | Yamatake Corporation | Procede pour generer un modele de classification, et support d'enregistrement |
JP2009122851A (ja) * | 2007-11-13 | 2009-06-04 | Internatl Business Mach Corp <Ibm> | データを分類する技術 |
WO2020055581A1 (en) * | 2018-09-10 | 2020-03-19 | Google Llc | Rejecting biased data using a machine learning model |
WO2020112478A1 (en) * | 2018-11-29 | 2020-06-04 | Somalogic, Inc. | Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis |
WO2020208445A1 (en) * | 2019-04-11 | 2020-10-15 | International Business Machines Corporation | Enhanced ensemble model diversity and learning |
US20200380309A1 (en) * | 2019-05-28 | 2020-12-03 | Microsoft Technology Licensing, Llc | Method and System of Correcting Data Imbalance in a Dataset Used in Machine-Learning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11526701B2 (en) * | 2019-05-28 | 2022-12-13 | Microsoft Technology Licensing, Llc | Method and system of performing data imbalance detection and correction in training a machine-learning model |
-
2021
- 2021-03-29 JP JP2021055855A patent/JP7322918B2/ja active Active
-
2022
- 2022-03-08 EP EP22160893.8A patent/EP4080422A1/en active Pending
- 2022-03-10 CN CN202210240215.5A patent/CN115221934A/zh active Pending
- 2022-03-10 US US17/654,333 patent/US20220309406A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999026164A1 (fr) * | 1997-11-19 | 1999-05-27 | Yamatake Corporation | Procede pour generer un modele de classification, et support d'enregistrement |
JP2009122851A (ja) * | 2007-11-13 | 2009-06-04 | Internatl Business Mach Corp <Ibm> | データを分類する技術 |
WO2020055581A1 (en) * | 2018-09-10 | 2020-03-19 | Google Llc | Rejecting biased data using a machine learning model |
WO2020112478A1 (en) * | 2018-11-29 | 2020-06-04 | Somalogic, Inc. | Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis |
WO2020208445A1 (en) * | 2019-04-11 | 2020-10-15 | International Business Machines Corporation | Enhanced ensemble model diversity and learning |
US20200380309A1 (en) * | 2019-05-28 | 2020-12-03 | Microsoft Technology Licensing, Llc | Method and System of Correcting Data Imbalance in a Dataset Used in Machine-Learning |
Also Published As
Publication number | Publication date |
---|---|
EP4080422A1 (en) | 2022-10-26 |
US20220309406A1 (en) | 2022-09-29 |
CN115221934A (zh) | 2022-10-21 |
JP7322918B2 (ja) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210110211A1 (en) | Automated and customized post-production release review of a model | |
CN109242135B (zh) | 一种模型运营方法、装置、及业务服务器 | |
US10216558B1 (en) | Predicting drive failures | |
US11580425B2 (en) | Managing defects in a model training pipeline using synthetic data sets associated with defect types | |
WO2020175147A1 (ja) | 検知装置及び検知プログラム | |
JP6869347B2 (ja) | リスク制御イベント自動処理の方法および装置 | |
CN109426655B (zh) | 数据分析方法、装置、电子设备及计算机可读存储介质 | |
CN107357764B (zh) | 数据分析方法、电子设备及计算机存储介质 | |
US20220036178A1 (en) | Dynamic gradient aggregation for training neural networks | |
CN111542792A (zh) | 诊断装置和诊断方法 | |
CN112990330A (zh) | 用户用能异常数据检测方法及设备 | |
JP2020042757A (ja) | 加工装置、加工方法、加工プログラム、及び検査装置 | |
US20190220924A1 (en) | Method and device for determining key variable in model | |
WO2022252630A1 (zh) | 基于模型集合的数据预测方法、装置、设备及存储介质 | |
CN114661568A (zh) | 异常操作行为检测方法、装置、设备及存储介质 | |
CN113705074B (zh) | 一种化工事故风险预测方法及装置 | |
CN114168318A (zh) | 存储释放模型的训练方法、存储释放方法及设备 | |
JP7322918B2 (ja) | プログラム、情報処理装置、及び学習モデルの生成方法 | |
JP2007164346A (ja) | 決定木変更方法、異常性判定方法およびプログラム | |
CN114118306B (zh) | Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂 | |
CN110715799B (zh) | 断路器机械状态检测方法、装置及终端设备 | |
CN114387089A (zh) | 客户信用风险评估方法、装置、设备及存储介质 | |
CN111190800B (zh) | 预测主机的批量运行时长的方法、系统、装置及存储介质 | |
CN113515577A (zh) | 数据预处理方法及装置 | |
CN113994378A (zh) | 检查装置、检查方法及检查程序、以及学习装置、学习方法及学习程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220427 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7322918 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |