JP5141767B2 - サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置 - Google Patents
サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置 Download PDFInfo
- Publication number
- JP5141767B2 JP5141767B2 JP2010523668A JP2010523668A JP5141767B2 JP 5141767 B2 JP5141767 B2 JP 5141767B2 JP 2010523668 A JP2010523668 A JP 2010523668A JP 2010523668 A JP2010523668 A JP 2010523668A JP 5141767 B2 JP5141767 B2 JP 5141767B2
- Authority
- JP
- Japan
- Prior art keywords
- sample
- class
- learning
- discrimination score
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
2 クラス2の誤分類サンプル
100 サンプルの帰属クラス予測装置
110 入力装置
120 出力装置
130 入力データテーブル
140 初期パラメータセットテーブル
150 最終パラメータセットテーブル
160 予測結果保存テーブル
200 解析部
210 初期パラメータ発生エンジン
220 制御部
230 特徴抽出エンジン
240 判別関数作成エンジン
250 判別得点算出部
260 サンプルセット設定部
270 解析終了条件検出部
280 判別得点比較部
290 帰属クラス決定部
300 サンプルライブラリ
Yk=a1x1k±a2x2k±・・・±anxnk±C (2)
として計算される。ここで、x1k、x2k、・・・xnkは、k番目のサンプルのパラメータ(説明変数)データ、a1、a2、a3・・・anは各パラメータに対する重み係数であり、各サンプルについて共通である。Cは定数である。
2)バイオ関連研究
3)蛋白質関連研究
4)医療関連研究
5)食品関連研究
6)経済関連研究
7)工学関連研究
8)生産歩留まり向上等を目的としたデータ解析
9)環境関連研究
1)の化学データ解析分野では、より詳細には、下記のような研究に適用できる。
(1)構造−活性/ADME/毒性/物性相関の研究
(2)構造−スペクトル相関研究
(3)メタボノミクス関連研究
(4)ケモメトリクス研究
Claims (10)
- a)学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第1または第2のクラスに分類予測する判別関数を求め、
b)前記判別関数に基づいて前記各学習サンプルと前記第1または第2のクラスの何れに帰属するかが不明である未知サンプルの判別得点を算出し、
c)前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定し、
d)前記c)で肯定判断の場合、前記未知サンプルの判別得点の符号に従ってその帰属クラスを決定し、
e)前記c)で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築し、
f)前記新たな学習サンプルセットに対して、前記a)〜e)のステップを繰り返す、各ステップを備える、コンピュータによって実施されるサンプルの帰属クラス予測方法。 - 請求項1に記載の方法において、さらに、g)帰属クラス未定の未知サンプルが存在するか否かを判定するステップを備え、当該ステップで否定判断の場合、前記ステップf)の繰り返しを停止する、サンプルの帰属クラス予測方法。
- 請求項1に記載の方法において、前記ステップa)における判別関数は、前記複数の説明変数に特徴抽出を実施して不要な説明変数を除去した残りの説明変数に基づいて求める、サンプルの帰属クラス予測方法。
- 請求項3に記載の方法において、前記ステップf)の繰り返しは、前記学習サンプルセット中の総サンプル数と、前記特徴抽出後の説明変数の数との比が予め決定した一定数以下となった場合、停止する、サンプルの帰属クラス予測方法。
- 請求項1に記載の方法において、前記各学習サンプルは化合物であり、前記第1と第2のクラスは、任意の毒性を有する化合物のクラスと前記毒性を有さない化合物のクラスである、サンプルの帰属クラス予測方法。
- a)学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第1または第2のクラスに分類予測する判別関数を求める手順と、
b)前記判別関数に基づいて各学習サンプルと前記第1または第2のクラスの何れに帰属するかが不明である未知サンプルの判別得点を算出する手順と、
c)前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定する手順と、
d)前記c)で肯定判断の場合、前記未知サンプルの判別得点の符号に従ってその帰属クラスを決定する手順と、
e)前記c)で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築する手順と、
f)前記新たな学習サンプルセットに対して、前記a)〜e)の手順を繰り返して実行する手順と、をコンピュータに実行させるための、サンプルの帰属クラス予測プログラム。 - 請求項6に記載のプログラムにおいて、さらに、g)帰属クラス未定の未知サンプルが存在するか否かを判定する手順を備え、当該手順で否定判断の場合、前記手順f)の繰り返しを停止する、サンプルの帰属クラス予測プログラム。
- 請求項6に記載のプログラムにおいて、前記各学習サンプルは化合物であり、前記第1、第2のクラスは、任意の毒性を有する化合物のクラスと前記毒性を有さない化合物のクラスである、サンプルの帰属クラス予測プログラム。
- クラス1あるいはクラス2に帰属することが既知の複数のサンプルで構成される学習サンプルセットをデータ解析して、前記クラス1あるいはクラス2への帰属が不明である未知サンプルの帰属クラスを予測する装置であって、
前記学習サンプルセットの各学習サンプルと前記未知サンプルに対して説明変数を発生する説明変数発生装置と、
前記各学習サンプルについて発生した説明変数に基づいて判別分析を行い、上記クラス1およびクラス2を判別するための判別関数を得る、判別関数作成エンジンと、
前記作成された判別関数に基づいて、前記各学習サンプルと前記未知サンプルの判別得点を算出する、判別得点算出装置と、
前記算出された各学習サンプルの判別得点と前記未知サンプルの判別得点を比較する、判別得点比較装置と、
前記判別得点比較装置の比較結果に基づいて、前記未知サンプルの帰属クラスを決定する帰属クラス決定装置と、
前記判別得点比較装置の比較結果に基づいて、前記学習サンプルセットから、少なくとも最大の判別得点を有する学習サンプルと最小の判別得点を有する学習サンプルとを取り除いて新たな学習サンプルセットを構築するサンプルセット設定装置と、
前記設定された新たな学習サンプルセットを前記学習サンプルセットとして用いて前記説明変数発生装置、前記判別関数作成エンジン、前記判別得点算出装置、前記判別得点比較装置、前記帰属クラス決定装置および前記サンプルセット設定装置を繰り返し動作させる制御装置と、を備え、
前記帰属クラス決定装置は、前記判別得点比較装置における比較結果が、前記未知サンプルの判別得点が前記各学習サンプルのうちの最大の判別得点以上か、あるいは最小の判別得点以下かの何れかである場合、前記未知サンプルの判別得点の符号にしたがって前記未知サンプルの帰属クラスを決定する、サンプルの帰属クラス予測装置。 - 請求項9に記載の装置において、更に、分類予測に不要な説明変数を除去するために、前記説明変数発生装置によって発生された説明変数に対して特徴抽出を行うための特徴抽出エンジンを備える、サンプルの帰属クラス予測装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2008/064058 WO2010016109A1 (ja) | 2008-08-05 | 2008-08-05 | サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010016109A1 JPWO2010016109A1 (ja) | 2012-01-12 |
JP5141767B2 true JP5141767B2 (ja) | 2013-02-13 |
Family
ID=41663339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010523668A Active JP5141767B2 (ja) | 2008-08-05 | 2008-08-05 | サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8682813B2 (ja) |
EP (1) | EP2323080B1 (ja) |
JP (1) | JP5141767B2 (ja) |
WO (1) | WO2010016109A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8935258B2 (en) * | 2009-06-15 | 2015-01-13 | Microsoft Corporation | Identification of sample data items for re-judging |
WO2014037481A1 (en) * | 2012-09-06 | 2014-03-13 | Shell Internationale Research | Method of estimating the mutagenicity of hydrocarbon samples |
CN103679190B (zh) * | 2012-09-20 | 2019-03-01 | 富士通株式会社 | 分类装置、分类方法以及电子设备 |
CN107045506A (zh) * | 2016-02-05 | 2017-08-15 | 阿里巴巴集团控股有限公司 | 评估指标获取方法及装置 |
WO2017145960A1 (ja) * | 2016-02-24 | 2017-08-31 | 日本電気株式会社 | 学習装置、学習方法および記録媒体 |
US10353008B2 (en) * | 2016-10-06 | 2019-07-16 | Mitsubishi Electric Research Laboratories, Inc. | Hybrid battery state sensor |
WO2018213112A1 (en) * | 2017-05-15 | 2018-11-22 | Bioanalytix, Inc. | Systems and methods for automated design of an analytical study for the structural characterization of a biologic composition |
CN108038108B (zh) * | 2017-12-27 | 2021-12-10 | 东软集团股份有限公司 | 分词模型训练方法和装置、及存储介质 |
WO2019187594A1 (ja) * | 2018-03-29 | 2019-10-03 | 日本電気株式会社 | 学習装置、学習方法および学習プログラム |
JP7122699B2 (ja) * | 2018-08-23 | 2022-08-22 | パナソニックIpマネジメント株式会社 | 材料情報出力方法、材料情報出力装置、材料情報出力システム、及びプログラム |
CN113454728A (zh) * | 2019-02-12 | 2021-09-28 | Jsr株式会社 | 数据处理方法、数据处理装置以及数据处理系统 |
CN109960808B (zh) * | 2019-03-26 | 2023-02-07 | 广东工业大学 | 一种文本识别方法、装置、设备及计算机可读存储介质 |
CN110457654A (zh) * | 2019-08-08 | 2019-11-15 | 哈尔滨理工大学 | 一种基于现场数据的机载设备可靠性预测方法 |
CN110728313B (zh) * | 2019-09-29 | 2023-01-17 | 北京声智科技有限公司 | 一种用于意图分类识别的分类模型训练方法及装置 |
US11410064B2 (en) * | 2020-01-14 | 2022-08-09 | International Business Machines Corporation | Automated determination of explanatory variables |
US20210406758A1 (en) * | 2020-06-24 | 2021-12-30 | Surveymonkey Inc. | Double-barreled question predictor and correction |
CN111967541B (zh) * | 2020-10-21 | 2021-01-05 | 上海冰鉴信息科技有限公司 | 基于多平台样本的数据分类方法及装置 |
CN113177521B (zh) * | 2021-05-26 | 2022-07-01 | 电子科技大学 | 一种基于组合孪生网络的智能辐射源识别方法 |
CN113327136B (zh) * | 2021-06-23 | 2023-06-02 | 中国平安财产保险股份有限公司 | 归因分析方法、装置、电子设备及存储介质 |
CN117493514B (zh) * | 2023-11-09 | 2024-05-14 | 广州方舟信息科技有限公司 | 文本标注方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123781A (ja) * | 1994-10-20 | 1996-05-17 | Fujitsu Ltd | 3次元化合物構造式の周辺空間情報を数値データへ変換する方法、並びに、3次元化合物構造式とその周辺空間との相互作用を数値データへ変換する方法 |
JP2002073076A (ja) * | 2000-09-04 | 2002-03-12 | Sumitomo Metal Ind Ltd | パターン認識方法、パターン認識装置及び記録媒体 |
WO2008059624A1 (fr) * | 2006-11-13 | 2008-05-22 | Fujitsu Limited | Procédé, programme et dispositif de réalisation d'un modèle de classification/prévision à deux classes |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143636A (ja) * | 1991-11-22 | 1993-06-11 | Omron Corp | 判別分析方法及び装置 |
JP2004086897A (ja) * | 2002-08-06 | 2004-03-18 | Fuji Electric Holdings Co Ltd | モデル構築方法およびモデル構築システム |
CN101903895B (zh) * | 2007-12-18 | 2014-03-26 | 富士通株式会社 | 化合物毒性预测模型的生成方法以及化合物毒性预测模型生成装置 |
-
2008
- 2008-08-05 JP JP2010523668A patent/JP5141767B2/ja active Active
- 2008-08-05 EP EP08792225.8A patent/EP2323080B1/en active Active
- 2008-08-05 WO PCT/JP2008/064058 patent/WO2010016109A1/ja active Application Filing
-
2011
- 2011-02-02 US US13/019,683 patent/US8682813B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123781A (ja) * | 1994-10-20 | 1996-05-17 | Fujitsu Ltd | 3次元化合物構造式の周辺空間情報を数値データへ変換する方法、並びに、3次元化合物構造式とその周辺空間との相互作用を数値データへ変換する方法 |
JP2002073076A (ja) * | 2000-09-04 | 2002-03-12 | Sumitomo Metal Ind Ltd | パターン認識方法、パターン認識装置及び記録媒体 |
WO2008059624A1 (fr) * | 2006-11-13 | 2008-05-22 | Fujitsu Limited | Procédé, programme et dispositif de réalisation d'un modèle de classification/prévision à deux classes |
Also Published As
Publication number | Publication date |
---|---|
EP2323080A1 (en) | 2011-05-18 |
JPWO2010016109A1 (ja) | 2012-01-12 |
EP2323080A4 (en) | 2017-04-26 |
US8682813B2 (en) | 2014-03-25 |
WO2010016109A1 (ja) | 2010-02-11 |
EP2323080B1 (en) | 2019-05-15 |
US20110137841A1 (en) | 2011-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5141767B2 (ja) | サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置 | |
JP5104877B2 (ja) | 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置 | |
Ghorbani et al. | Comparing different resampling methods in predicting students’ performance using machine learning techniques | |
JP4985653B2 (ja) | 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置 | |
CN111444247B (zh) | 一种基于kpi指标的根因定位方法、装置及存储介质 | |
Aghdam et al. | Feature selection using particle swarm optimization in text categorization | |
US7769759B1 (en) | Data classification based on point-of-view dependency | |
JP2011150541A (ja) | 学習装置、学習方法、及びプログラム | |
Idris et al. | Ensemble based efficient churn prediction model for telecom | |
US8965111B2 (en) | Learning apparatus, a learning system, learning method and a learning program for object discrimination | |
Mohamad et al. | A model for gene selection and classification of gene expression data | |
JP5087756B2 (ja) | 化合物の予測信頼性評価システム | |
CN109460474B (zh) | 用户偏好趋势挖掘方法 | |
CN111048145A (zh) | 蛋白质预测模型的生成方法、装置、设备和存储介质 | |
Khoshgoftaar et al. | Improving software quality estimation by combining feature selection strategies with sampled ensemble learning | |
CN111009287B (zh) | SLiMs预测模型的生成方法、装置、设备和存储介质 | |
JP4079354B2 (ja) | 順位付けのための評価関数推定装置、プログラム及び記憶媒体、並びに、順位付け装置及びプログラム | |
JP2005108183A (ja) | タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム | |
Jaskie et al. | Evaluating the Positive Unlabeled Learning Problem | |
Cuarteros et al. | On Robustifying the Fisher’s Discriminant Function using L–Estimators | |
CN110598760A (zh) | 一种变压器振动数据无监督特征选择方法 | |
Marhon | A New, Model-Independent, Spectrum-Based Gene Prediction Technique | |
Shukir | Class Prediction Methods Applied to Microarray Data for Classification | |
JP2008129657A (ja) | 特徴評価方法及び装置及びプログラム | |
Hsu et al. | FEATURE SELECTION FOR IDENTIFYING PROTEIN-DISORDERED REGIONS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121023 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121105 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5141767 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |