JP5142135B2 - データを分類する技術 - Google Patents
データを分類する技術 Download PDFInfo
- Publication number
- JP5142135B2 JP5142135B2 JP2007294648A JP2007294648A JP5142135B2 JP 5142135 B2 JP5142135 B2 JP 5142135B2 JP 2007294648 A JP2007294648 A JP 2007294648A JP 2007294648 A JP2007294648 A JP 2007294648A JP 5142135 B2 JP5142135 B2 JP 5142135B2
- Authority
- JP
- Japan
- Prior art keywords
- elements
- classified
- classes
- class
- sets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
図2は、本実施形態に係る記憶装置104が記憶する訓練データの具体例を示す。記憶装置104は、訓練データとして、複数のクラスに予め分類されている複数の要素のそれぞれを、その要素の属性に対応付けて記憶している。
図3は、本実施形態に係る入力データ20の具体例を示す。入力データ20は、複数の要素のそれぞれを、その要素が有する少なくとも1つの属性に対応付けて記録している。この図3の例でも、図2の例と同様に、コンピュータ10の用途に応じて要素は様々な具体的対象となり得る。例えばコンピュータ10が与信審査を支援するシステムである場合において、要素は、新たに与信の審査をするべき審査対象であってよい。
20 入力データ
102 通信インターフェイス
104 記憶装置
106 分類システム
200 サンプリング部
210 学習部
215 学習制御部
220 分類部
225 分類制御部
228 アンサンブル部
Claims (15)
- 複数のクラスに予め分類されている訓練データに基づいて、入力データを前記複数のクラスに分類するためのモデルを生成するシステムであって、
前記訓練データを記憶する記憶装置と、
前記訓練データから、少数クラスに分類された予め定められた数の要素、および、多数クラスに分類された要素をそれぞれ含む、複数の集合をサンプリングするサンプリング部と、
サンプリングした前記複数の集合のそれぞれに基づいて、それぞれが前記入力データを前記複数のクラスに分類するための複数のモデルのそれぞれを機械学習させる学習部と
を備え、
前記サンプリング部は、
前記記憶装置に記憶された前記訓練データから、前記予め定められた数の前記少数クラスの要素、および、前記多数クラスの要素を、コンピュータの処理によって、前記少数クラスに分類された要素の数および前記多数クラスに分類された要素の数の比率が、予め定められた確率分布に従うように、無作為に読み出す処理を複数回行うことで前記複数の集合をサンプリングし、
サンプリングした前記複数の集合を前記記憶装置に格納し、
前記学習部は、前記記憶装置から前記複数の集合を読み出し、前記複数のモデルのそれぞれを、読み出した前記複数の集合のそれぞれに基づいてコンピュータの処理によって機械学習させて、学習されたモデルを示すデータを出力するシステム。 - 前記少数クラスは、前記訓練データに含まれている数が他のクラスと比較して少ないことが、予め判明している要素のクラスを示し、
前記モデルは、要素の集合を入力とし、入力された当該要素の集合を前記複数のクラスに分類した結果を出力するモデルであり、
前記学習部は、前記複数のモデルのそれぞれを、サンプリングした前記集合を当該モデルに入力した場合に当該集合を前記複数のクラスに分類した結果が、当該集合を予め前記複数のクラスに分類した結果に近づくように、学習させる、請求項1に記載のシステム。 - 前記サンプリング部は、前記少数クラスに分類された前記予め定められた数の要素をそれぞれ含み、かつ、含んでいる要素の数の合計が互いに異なる複数の集合をサンプリングする、請求項1または2に記載のシステム。
- 前記サンプリング部は、サンプリングするそれぞれの集合についての前記多数クラスに分類された要素の合計と、サンプリングするそれぞれの集合についての前記少数クラスに分類された要素の合計との比率が予め定められた比率と略等しくなるように、複数の集合をサンプリングする、請求項1から3のいずれか一項に記載のシステム。
- 前記サンプリング部は、サンプリングするそれぞれの集合についての前記少数クラスに分類された要素の数および前記多数クラスに分類された要素の数の比率が、負の2項分布に従うように、前記訓練データから複数の集合をサンプリングする、請求項1から4のいずれか一項に記載のシステム。
- 前記サンプリング部は、サンプリングするそれぞれの集合についての前記少数クラスに分類された要素の数および前記多数クラスに分類された要素の数の比率が、ユーザによって予め作成された分布に従うように、前記訓練データから複数の集合をサンプリングする、請求項1から4のいずれか一項に記載のシステム。
- 前記予め定められた数は前記訓練データに含まれる前記少数クラスの要素の数であり、
前記サンプリング部は、前記訓練データのうち前記少数クラスに分類された全ての要素を抽出することで、前記少数クラスの要素をサンプリングする、請求項1から6のいずれか一項に記載のシステム。 - 前記サンプリング部は、前記訓練データのうち前記少数クラスから前記予め定められた数の要素を無作為に復元抽出することで、前記少数クラスの要素をサンプリングする、請求項1から7のいずれか一項に記載のシステム。
- 前記サンプリング部は、前記多数クラスの要素を無作為に復元抽出することで、前記多数クラスの要素をサンプリングする、請求項1から8のいずれか一項に記載のシステム。
- 前記サンプリング部は、前記多数クラスの要素を無作為に非復元抽出することで、前記多数クラスの要素をサンプリングする、請求項1から8のいずれか一項に記載のシステム。
- 前記学習部は、サンプリングされたそれぞれの集合について、当該集合に含まれるそれぞれの要素を、当該要素の属性に基づいて前記複数のクラスに分類する決定木を前記モデルとして生成する、請求項1から10のいずれか一項に記載のシステム。
- 複数の要素を含む新たに入力したデータを、前記学習部により学習された前記複数のモデルのそれぞれによって分類して、前記複数のモデルのそれぞれによる複数の分類結果に基づいて、当該新たに入力したデータを分類する分類部をさらに備える、請求項1から11のいずれか一項に記載のシステム。
- 当該システムは、与信審査を支援するシステムであり、
前記訓練データは、審査対象の属性を当該審査対象に与信した結果として事故が発生したか否かによって複数のクラスに分類したデータであり、
前記入力データは、新たに審査するべき複数の審査対象について当該審査対象の属性を記録したデータであり、
前記サンプリング部は、前記訓練データから、事故が発生したクラスに分類された予め定められた数の要素、および、事故が発生しなかったクラスに分類された要素をそれぞれ含む、複数の集合をサンプリングし、
前記学習部は、サンプリングした前記複数の集合のそれぞれに基づいて、前記入力データに属性の記録された審査対象を与信した場合に事故が発生するか否かを判断させるための複数のモデルのそれぞれを機械学習させる、請求項1から11のいずれか一項に記載のシステム。 - 複数のクラスに予め分類されている訓練データに基づいて、入力データを前記複数のクラスに分類するためのモデルを生成する方法であって、
前記訓練データを記憶するステップと、
前記訓練データから、少数クラスに分類された予め定められた数の要素、および、多数クラスに分類された要素をそれぞれ含む、複数の集合をサンプリングするステップと、
サンプリングした前記複数の集合のそれぞれに基づいて、それぞれが前記入力データを前記複数のクラスに分類するための複数のモデルのそれぞれを機械学習させるステップと
を備え、
前記サンプリングするステップは、
記憶された前記訓練データから、前記予め定められた数の前記少数クラスの要素、および、前記多数クラスの要素を、コンピュータの処理によって、前記少数クラスに分類された要素の数および前記多数クラスに分類された要素の数の比率が、一定の比率とは異なる予め定められた分布に従うように、無作為に読み出す処理を複数回行うことで前記複数の集合をサンプリングするステップと、
サンプリングした前記複数の集合を格納するステップと
を有し、
前記機械学習させるステップは、格納された前記複数の集合を読み出し、前記複数のモデルのそれぞれを、読み出した前記複数の集合のそれぞれに基づいてコンピュータの処理によって機械学習させて、学習されたモデルを示すデータを出力するステップを有する方法。 - コンピュータを、請求項1から13のいずれか一項に記載の入力データを前記複数のクラスに分類するためのモデルを生成するシステムとして機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007294648A JP5142135B2 (ja) | 2007-11-13 | 2007-11-13 | データを分類する技術 |
US12/270,721 US9218572B2 (en) | 2007-11-13 | 2008-11-13 | Technique for classifying data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007294648A JP5142135B2 (ja) | 2007-11-13 | 2007-11-13 | データを分類する技術 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009122851A JP2009122851A (ja) | 2009-06-04 |
JP5142135B2 true JP5142135B2 (ja) | 2013-02-13 |
Family
ID=40624687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007294648A Expired - Fee Related JP5142135B2 (ja) | 2007-11-13 | 2007-11-13 | データを分類する技術 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9218572B2 (ja) |
JP (1) | JP5142135B2 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9652802B1 (en) | 2010-03-24 | 2017-05-16 | Consumerinfo.Com, Inc. | Indirect monitoring and reporting of a user's credit data |
US9235728B2 (en) | 2011-02-18 | 2016-01-12 | Csidentity Corporation | System and methods for identifying compromised personally identifiable information on the internet |
US11030562B1 (en) | 2011-10-31 | 2021-06-08 | Consumerinfo.Com, Inc. | Pre-data breach monitoring |
WO2013112160A1 (en) * | 2012-01-26 | 2013-08-01 | Hewlett-Packard Development Company, L.P. | Image-based application automation |
US9483544B2 (en) * | 2012-05-25 | 2016-11-01 | Crimson Hexagon, Inc. | Systems and methods for calculating category proportions |
KR101993716B1 (ko) | 2012-09-28 | 2019-06-27 | 삼성전자주식회사 | 카테고리별 진단 모델을 이용한 병변 진단 장치 및 방법 |
US8812387B1 (en) | 2013-03-14 | 2014-08-19 | Csidentity Corporation | System and method for identifying related credit inquiries |
US10157175B2 (en) | 2013-03-15 | 2018-12-18 | International Business Machines Corporation | Business intelligence data models with concept identification using language-specific clues |
US10332210B1 (en) * | 2013-11-06 | 2019-06-25 | Nationwide Mutual Insurance Company | System and method for implementing computer modeling techniques |
US20150317374A1 (en) * | 2014-04-30 | 2015-11-05 | International Business Machines Corporation | User-relevant statistical analytics using business intelligence semantic modeling |
US10698924B2 (en) | 2014-05-22 | 2020-06-30 | International Business Machines Corporation | Generating partitioned hierarchical groups based on data sets for business intelligence data models |
US10572877B2 (en) * | 2014-10-14 | 2020-02-25 | Jpmorgan Chase Bank, N.A. | Identifying potentially risky transactions |
US10339527B1 (en) | 2014-10-31 | 2019-07-02 | Experian Information Solutions, Inc. | System and architecture for electronic fraud detection |
KR101636973B1 (ko) * | 2014-11-25 | 2016-07-08 | 대한민국 | 토석류 퇴적 모델의 파라미터를 추정하기 위한 장치 및 그 방법 |
US10002179B2 (en) | 2015-01-30 | 2018-06-19 | International Business Machines Corporation | Detection and creation of appropriate row concept during automated model generation |
US11151468B1 (en) | 2015-07-02 | 2021-10-19 | Experian Information Solutions, Inc. | Behavior analysis using distributed representations of event data |
US9984116B2 (en) | 2015-08-28 | 2018-05-29 | International Business Machines Corporation | Automated management of natural language queries in enterprise business intelligence analytics |
US20170091619A1 (en) * | 2015-09-29 | 2017-03-30 | Qualcomm Incorporated | Selective backpropagation |
CN105335350A (zh) * | 2015-10-08 | 2016-02-17 | 北京理工大学 | 一种基于集成学习的语种识别方法 |
US10410113B2 (en) * | 2016-01-14 | 2019-09-10 | Preferred Networks, Inc. | Time series data adaptation and sensor fusion systems, methods, and apparatus |
JP6719724B2 (ja) * | 2016-02-05 | 2020-07-08 | 富士ゼロックス株式会社 | データ分類装置およびプログラム |
CN107103171B (zh) * | 2016-02-19 | 2020-09-25 | 阿里巴巴集团控股有限公司 | 机器学习模型的建模方法及装置 |
JP6148427B1 (ja) * | 2016-03-03 | 2017-06-14 | 楽天株式会社 | 文書分類装置、文書分類方法、および文書分類プログラム |
US11657077B2 (en) * | 2016-03-03 | 2023-05-23 | Rakuten Group, Inc. | Document classification device, document classification method and document classification program |
KR101928732B1 (ko) | 2017-03-13 | 2018-12-13 | 국민대학교산학협력단 | 텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 시스템 및 방법 |
JP6915356B2 (ja) * | 2017-04-11 | 2021-08-04 | 富士通株式会社 | 分析プログラム、分析装置及び分析方法 |
US10699028B1 (en) | 2017-09-28 | 2020-06-30 | Csidentity Corporation | Identity security architecture systems and methods |
US10896472B1 (en) | 2017-11-14 | 2021-01-19 | Csidentity Corporation | Security and identity verification system and architecture |
KR102205518B1 (ko) * | 2018-04-02 | 2021-01-21 | 한양대학교 산학협력단 | 기계학습을 수행하는 저장 장치 및 그 장치의 기계학습 방법 |
US10529018B1 (en) | 2018-07-16 | 2020-01-07 | Capital One Services, Llc | Credit scoring and pre-approval engine integration |
CN109635839B (zh) * | 2018-11-12 | 2020-07-14 | 国家电网有限公司 | 一种基于机器学习的非平衡数据集的处理方法和装置 |
US11593716B2 (en) * | 2019-04-11 | 2023-02-28 | International Business Machines Corporation | Enhanced ensemble model diversity and learning |
KR102058345B1 (ko) * | 2019-05-31 | 2019-12-23 | 한국산업기술평가관리원 | 인공지능 기반 자금 관리 시스템 |
WO2022003986A1 (en) * | 2020-06-29 | 2022-01-06 | Nec Corporation | Information processing apparatus, information processing method, non-transitory computer readable medium |
WO2022202366A1 (ja) * | 2021-03-25 | 2022-09-29 | パナソニックIpマネジメント株式会社 | データ支援システム、データ支援方法、プログラム、統合システム、及び処理装置 |
JP7322918B2 (ja) * | 2021-03-29 | 2023-08-08 | 横河電機株式会社 | プログラム、情報処理装置、及び学習モデルの生成方法 |
CN118313345B (zh) * | 2024-06-07 | 2024-08-16 | 成都佳发安泰教育科技股份有限公司 | 一种文本数据集处理方法、系统、设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6938049B2 (en) * | 2002-06-11 | 2005-08-30 | The Regents Of The University Of California | Creating ensembles of decision trees through sampling |
WO2006099492A2 (en) * | 2005-03-15 | 2006-09-21 | Bridgeforce, Inc. | Credit scoring method and system |
-
2007
- 2007-11-13 JP JP2007294648A patent/JP5142135B2/ja not_active Expired - Fee Related
-
2008
- 2008-11-13 US US12/270,721 patent/US9218572B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20090125463A1 (en) | 2009-05-14 |
JP2009122851A (ja) | 2009-06-04 |
US9218572B2 (en) | 2015-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5142135B2 (ja) | データを分類する技術 | |
CN109598231A (zh) | 一种视频水印的识别方法、装置、设备及存储介质 | |
US10452627B2 (en) | Column weight calculation for data deduplication | |
US20210279606A1 (en) | Automatic detection and association of new attributes with entities in knowledge bases | |
US20200073878A1 (en) | System And Method For Extracting Structured Information From Implicit Tables | |
CN113435545A (zh) | 图像处理模型的训练方法及装置 | |
Angeli et al. | Stanford’s 2014 slot filling systems | |
JP7276436B2 (ja) | 学習装置、学習方法、コンピュータプログラム及び記録媒体 | |
JP7332949B2 (ja) | 評価方法、評価プログラム、および情報処理装置 | |
JP6950504B2 (ja) | 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置 | |
US20210406693A1 (en) | Data sample analysis in a dataset for a machine learning model | |
CN111125658A (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
Shoohi et al. | DCGAN for Handling Imbalanced Malaria Dataset based on Over-Sampling Technique and using CNN. | |
CN112131322A (zh) | 时间序列分类方法及装置 | |
JP7207540B2 (ja) | 学習支援装置、学習支援方法、及びプログラム | |
EP3499429A1 (en) | Behavior inference model building apparatus and method | |
JP5959063B2 (ja) | 情報の取得を支援する装置及び方法 | |
JP2018163527A (ja) | 分類装置の製造方法、画像の分類方法、画像の分類装置、半導体の検査装置および分類基準モジュール | |
US20220138627A1 (en) | Computer-readable recording medium storing machine learning program, machine learning apparatus, and machine learning method | |
US10467258B2 (en) | Data categorizing system, method, program software and recording medium therein | |
US11693925B2 (en) | Anomaly detection by ranking from algorithm | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
Walkowiak et al. | Utilizing local outlier factor for open-set classification in high-dimensional data-case study applied for text documents | |
Patel et al. | An empirical study of multi-class imbalance learning algorithms | |
JP5946949B1 (ja) | データ分析システム、その制御方法、プログラム、および、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121023 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20121024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5142135 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |