JP7322918B2 - プログラム、情報処理装置、及び学習モデルの生成方法 - Google Patents
プログラム、情報処理装置、及び学習モデルの生成方法 Download PDFInfo
- Publication number
- JP7322918B2 JP7322918B2 JP2021055855A JP2021055855A JP7322918B2 JP 7322918 B2 JP7322918 B2 JP 7322918B2 JP 2021055855 A JP2021055855 A JP 2021055855A JP 2021055855 A JP2021055855 A JP 2021055855A JP 7322918 B2 JP7322918 B2 JP 7322918B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- data
- labels
- learning data
- subsets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
11 記憶部
111 データ記憶部
112 学習モデル記憶部
12 入力部
121 データ入力部
122 判定用データ入力部
13 出力部
14 制御部
141 分割部
142 機械学習部
143 評価部
144 判定部
Claims (10)
- データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成するプログラムであって、情報処理装置に、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定するステップと、
前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成するステップと、
生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成するステップと、
所定の前記分割数で生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを保存するステップと、
を含む動作を実行させる、
プログラム。 - 前記動作は、前記複数のサブセットを生成するステップの前に、前記学習用データ群を前記複数のサブセットに分割するときの前記分割数を決定するステップをさらに含む、
請求項1に記載のプログラム。 - 前記分割数を決定するステップは、ユーザにより入力された情報に基づいて前記分割数を決定するステップを含む、
請求項2に記載のプログラム。 - 前記分割数を決定するステップは、初期設定に基づいて自動的に前記分割数を決定するステップを含む、
請求項2に記載のプログラム。 - 前記動作は、決定された前記分割数を所定範囲内で異なる値に繰り返し更新するステップと、更新された前記分割数のそれぞれに基づいて前記第1評価指標を算出するステップと、前記第1評価指標の値が最も高いときの前記分割数を決定するステップと、をさらに含む、
請求項2乃至4のいずれか1項に記載のプログラム。 - 前記動作は、前記複数の第1学習モデルのそれぞれに検証用データを入力したときの結果の予測値を多数決により統合するステップをさらに含む、
請求項1乃至5のいずれか1項に記載のプログラム。 - 前記複数のサブセットを生成するステップは、一の前記サブセットにサンプリングされた前記第1学習用データを除く前記学習用データ群から新たに前記第1学習用データをサンプリングして他の前記サブセットを生成するステップを含む、
請求項1乃至6のいずれか1項に記載のプログラム。 - 前記ラベルの数は2つであり、
前記複数の第1学習モデルは二値分類に用いられる、
請求項1乃至7のいずれか1項に記載のプログラム。 - データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルを生成する情報処理装置であって、制御部と、記憶部と、を備え、
前記制御部は、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定し、
前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成し、
生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成し、
所定の前記分割数で生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを前記記憶部に格納する、
情報処理装置。 - データを複数のラベルのうちの一のラベルで特徴づけて分類する学習モデルの生成方法であって、情報処理装置が、
複数の学習用データを含む学習用データ群において、前記学習用データに最も多く特徴づけられる第1ラベルの数と前記学習用データに最も少なく特徴づけられる第2ラベルの数とが不均衡であるか否かを判定するステップと、
前記第1ラベルの数と前記第2ラベルの数とが不均衡であると判定すると、前記第2ラベルの数と均衡する数の前記第1ラベルの第1学習用データと前記第2ラベルの第2学習用データの少なくとも一部とをそれぞれ含む複数のサブセットであって、各前記サブセットに含まれる前記第1学習用データの組が互いに異なる前記複数のサブセットに前記学習用データ群を、分割数を更新しながら分割して前記複数のサブセットを生成するステップと、
生成された前記複数のサブセットのそれぞれに基づいて複数の第1学習モデルを生成するステップと、
所定の前記分割数で生成された前記複数の第1学習モデルに対する第1評価指標の値が前記複数のサブセットを生成せずに前記学習用データ群に基づいて生成された第2学習モデルに対する第2評価指標の値よりも高いと判定すると前記複数の第1学習モデルを保存するステップと、
を含む動作を実行する、
学習モデルの生成方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021055855A JP7322918B2 (ja) | 2021-03-29 | 2021-03-29 | プログラム、情報処理装置、及び学習モデルの生成方法 |
EP22160893.8A EP4080422A1 (en) | 2021-03-29 | 2022-03-08 | Non-transitory computer readable medium, information processing apparatus, and method of generating a learning model |
CN202210240215.5A CN115221934A (zh) | 2021-03-29 | 2022-03-10 | 计算机可读介质、信息处理装置和学习模型的生成方法 |
US17/654,333 US20220309406A1 (en) | 2021-03-29 | 2022-03-10 | Non-transitory computer readable medium, information processing apparatus, and method of generating a learning model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021055855A JP7322918B2 (ja) | 2021-03-29 | 2021-03-29 | プログラム、情報処理装置、及び学習モデルの生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022152911A JP2022152911A (ja) | 2022-10-12 |
JP7322918B2 true JP7322918B2 (ja) | 2023-08-08 |
Family
ID=80683689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021055855A Active JP7322918B2 (ja) | 2021-03-29 | 2021-03-29 | プログラム、情報処理装置、及び学習モデルの生成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220309406A1 (ja) |
EP (1) | EP4080422A1 (ja) |
JP (1) | JP7322918B2 (ja) |
CN (1) | CN115221934A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009122851A (ja) | 2007-11-13 | 2009-06-04 | Internatl Business Mach Corp <Ibm> | データを分類する技術 |
WO2020055581A1 (en) | 2018-09-10 | 2020-03-19 | Google Llc | Rejecting biased data using a machine learning model |
WO2020112478A1 (en) | 2018-11-29 | 2020-06-04 | Somalogic, Inc. | Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis |
WO2020208445A1 (en) | 2019-04-11 | 2020-10-15 | International Business Machines Corporation | Enhanced ensemble model diversity and learning |
US20200380309A1 (en) | 2019-05-28 | 2020-12-03 | Microsoft Technology Licensing, Llc | Method and System of Correcting Data Imbalance in a Dataset Used in Machine-Learning |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999026164A1 (fr) * | 1997-11-19 | 1999-05-27 | Yamatake Corporation | Procede pour generer un modele de classification, et support d'enregistrement |
US11526701B2 (en) * | 2019-05-28 | 2022-12-13 | Microsoft Technology Licensing, Llc | Method and system of performing data imbalance detection and correction in training a machine-learning model |
-
2021
- 2021-03-29 JP JP2021055855A patent/JP7322918B2/ja active Active
-
2022
- 2022-03-08 EP EP22160893.8A patent/EP4080422A1/en active Pending
- 2022-03-10 US US17/654,333 patent/US20220309406A1/en active Pending
- 2022-03-10 CN CN202210240215.5A patent/CN115221934A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009122851A (ja) | 2007-11-13 | 2009-06-04 | Internatl Business Mach Corp <Ibm> | データを分類する技術 |
WO2020055581A1 (en) | 2018-09-10 | 2020-03-19 | Google Llc | Rejecting biased data using a machine learning model |
WO2020112478A1 (en) | 2018-11-29 | 2020-06-04 | Somalogic, Inc. | Methods for determining disease risk combining downsampling of class-imbalanced sets with survival analysis |
WO2020208445A1 (en) | 2019-04-11 | 2020-10-15 | International Business Machines Corporation | Enhanced ensemble model diversity and learning |
US20200380309A1 (en) | 2019-05-28 | 2020-12-03 | Microsoft Technology Licensing, Llc | Method and System of Correcting Data Imbalance in a Dataset Used in Machine-Learning |
Also Published As
Publication number | Publication date |
---|---|
US20220309406A1 (en) | 2022-09-29 |
CN115221934A (zh) | 2022-10-21 |
JP2022152911A (ja) | 2022-10-12 |
EP4080422A1 (en) | 2022-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720821B2 (en) | Automated and customized post-production release review of a model | |
CN109242135B (zh) | 一种模型运营方法、装置、及业务服务器 | |
US10216558B1 (en) | Predicting drive failures | |
WO2020175147A1 (ja) | 検知装置及び検知プログラム | |
US20210406727A1 (en) | Managing defects in a model training pipeline using synthetic data sets associated with defect types | |
JP6869347B2 (ja) | リスク制御イベント自動処理の方法および装置 | |
CN109426655B (zh) | 数据分析方法、装置、电子设备及计算机可读存储介质 | |
EP3761133A1 (en) | Diagnosis device and diagnosis method | |
CN107357764B (zh) | 数据分析方法、电子设备及计算机存储介质 | |
CN112990330A (zh) | 用户用能异常数据检测方法及设备 | |
JP2020042757A (ja) | 加工装置、加工方法、加工プログラム、及び検査装置 | |
CN114661568A (zh) | 异常操作行为检测方法、装置、设备及存储介质 | |
CN114168318A (zh) | 存储释放模型的训练方法、存储释放方法及设备 | |
JP7322918B2 (ja) | プログラム、情報処理装置、及び学習モデルの生成方法 | |
CN112597435A (zh) | 基于设备监理的火电设备质量数据处理方法及装置 | |
JP2007164346A (ja) | 決定木変更方法、異常性判定方法およびプログラム | |
CN110715799B (zh) | 断路器机械状态检测方法、装置及终端设备 | |
CN114387089A (zh) | 客户信用风险评估方法、装置、设备及存储介质 | |
CN111190800B (zh) | 预测主机的批量运行时长的方法、系统、装置及存储介质 | |
CN109284354B (zh) | 脚本搜索方法、装置、计算机设备及存储介质 | |
CN113994378A (zh) | 检查装置、检查方法及检查程序、以及学习装置、学习方法及学习程序 | |
JP2020205026A (ja) | 情報処理装置、情報処理システム、モデルの学習方法 | |
CN110990256A (zh) | 开源代码检测方法、装置及计算机可读存储介质 | |
CN112365070B (zh) | 一种电力负荷预测方法、装置、设备及可读存储介质 | |
CN116777305B (zh) | 电力数据质量提升方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220427 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7322918 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |