JP5141767B2 - サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置 - Google Patents

サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置 Download PDF

Info

Publication number
JP5141767B2
JP5141767B2 JP2010523668A JP2010523668A JP5141767B2 JP 5141767 B2 JP5141767 B2 JP 5141767B2 JP 2010523668 A JP2010523668 A JP 2010523668A JP 2010523668 A JP2010523668 A JP 2010523668A JP 5141767 B2 JP5141767 B2 JP 5141767B2
Authority
JP
Japan
Prior art keywords
sample
class
learning
discrimination score
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010523668A
Other languages
English (en)
Other versions
JPWO2010016109A1 (ja
Inventor
浩太郎 湯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2010016109A1 publication Critical patent/JPWO2010016109A1/ja
Application granted granted Critical
Publication of JP5141767B2 publication Critical patent/JP5141767B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クラス未知のサンプルについて、そのサンプルが帰属するクラスを予測するための方法、プログラムおよび装置に関する。
典型的なクラス分類問題として文字認識問題がある。そのデータ解析は極めて高い水準まで達しており、一般には99%以上の認識率が達成される。一方で、環境問題等で最近注目されるようになった化合物の毒性(以下、安全性)評価のための二クラス分類問題では、文字認識問題に比べてその分類率や予測率はかなり低い。通常、分類率としては80%から90%が精々であり、予測率は70%から80%が限界と言われている。その原因は、化合物における毒性発現の要因が複雑で多岐にわたること、更に化合物間の構造が多様であること等である。ところが、化合物の安全性評価は極めて重要性の高い問題であり、その分類や予測が間違った場合、特に、毒性化合物を安全な化合物と分類予測した場合に社会に与えるインパクトは大きい。この点で、化合物の安全性評価における分類予測の正確さを改善することが強く求められている。
従って、現在、化合物のクラス分類問題において分類率を上げることが特に重要な問題であると認識され、そのために種々の努力がなされている。本発明者は、二クラス分類問題において分類率を限りなく100%に近づけることが可能な方法、即ち、「K−step・Yard・sampling・method」(以下、KY法)を提案している(特許文献1、非特許文献1参照)。
この方法では、まず、学習サンプルセットを判別分析して、クラス1あるいはクラス2に属することが明確なサンプル群と、どちらのクラスに属するかが明確でないサンプル(グレークラスサンプル)群に別ける。クラス帰属が明確なサンプル群については判別分析の結果に基づくクラスにアサインし、グレークラスサンプル群についてはこれを新たな学習サンプルセットに設定して新たな判別分析を行う。このプロセスをグレークラスサンプルがなくなるまで繰り返すことにより、分類率をほぼ100%とするようにしている。
KY法を実施することによって得られた複数の判別関数は、分類目的である特性が未知のサンプルについて、その帰属クラスを予測するための予測モデルとなる。この予測モデルでは分類率がほぼ100%であるため、高い予測率を期待することができる。
最近、EUでREACH規則の運用が開始されており、その運用に伴って化合物の毒性に関して大量のデータの蓄積が進むものと考えられる。通常、予測モデルは、サンプルの予測目的である特性値、即ち、目的変数の値が既知のサンプルを集め、これを学習サンプルセットとしてデータ解析を適用することにより作成される。学習サンプルセットに含まれるサンプル数が多いほど、信頼性の高い予測モデルを作成することができる。したがって、一旦作成された予測モデルであっても、学習サンプルとして使用可能な新たなデータが蓄積されると、そのデータを加えた新たな学習サンプルセットで新たな予測モデルを作成することが望まれる。
しかしながら、そのためには定期的に予測モデルを更新する必要があり、多大の労力と経費を要する。上述したKY法によって予測モデルを作成する場合、学習サンプルセットを何段階にもわたって判別分析する必要があり、1個の学習サンプルセットから予測モデルを作成するためには、従来の方法に比べてより多くの労力と経費を要する。したがって、固定された学習サンプルセットに基づいて作成された予測モデルを使用することなく、未知サンプルの予測を行うことができれば、極めて効率的に未知サンプルの帰属を決定することができる。また、その場合、常に新しいデータを加えた学習サンプルセットに基づいてクラス帰属を予測することが可能となるため、予測率の向上が期待される。
WO2008/059624 「K−step・Yard・sampling・methodの開発とADME−T予測への適用」34回構造活性相関シンポジウム、2006年11月
したがって、本発明の課題は、高い予測率を維持しながら、既成の予測モデルを使用することなく、常に新しい学習サンプルデータを用いて未知サンプルのクラス分類予測を行うことが可能な、サンプルの帰属クラス予測方法、そのためのプログラムおよび装置を提供することである。既成の予測モデルを必要としない点で、この方法をモデルフリー予測方法と呼ぶ。
前記課題を解決するために、サンプルの帰属クラス予測方法は、a)学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第1または第2のクラスに分類予測する判別関数を求め、b)前記判別関数に基づいて前記各学習サンプルと未知サンプルの判別得点を算出し、c)前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定し、d)前記c)で肯定判断の場合、前記未知サンプルの判別得点に従ってその帰属クラスを決定し、e)前記c)で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築し、f)前記新たな学習サンプルセットに対して、前記a)〜e)のステップを繰り返す、各ステップを備える。
前記課題を解決するために、サンプルの帰属クラス予測プログラムは、a)学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第1または第2のクラスに分類予測する判別関数を求める手順と、b)前記判別関数に基づいて各学習サンプルと未知サンプルの判別得点を算出する手順と、c)前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定する手順と、d)前記c)で肯定判断の場合、前記未知サンプルの判別得点に従ってその帰属クラスを決定する手順と、e)前記c)で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築する手順と、f)前記新たな学習サンプルセットに対して、前記a)〜e)の手順を繰り返して実行する手順と、をコンピュータに実行させる。
前記課題を解決するために、サンプルの帰属クラス予測装置は、クラス1あるいはクラス2に帰属することが既知の複数のサンプルで構成される学習サンプルセットをデータ解析して、前記クラス1あるいはクラス2への帰属が不明である未知サンプルの帰属クラスを予測する装置であって、前記学習サンプルセットの各学習サンプルと前記未知サンプルに対して説明変数を発生する説明変数発生装置と、前記各学習サンプルについて発生した説明変数に基づいて判別分析を行い、上記クラス1およびクラス2を判別するための判別関数を得る、判別関数作成エンジンと、前記作成された判別関数に基づいて、前記各学習サンプルと前記未知サンプルの判別得点を算出する、判別得点算出装置と、前記算出された各学習サンプルの判別得点と前記未知サンプルの判別得点を比較する、判別得点比較装置と、前記判別得点比較装置の比較結果に基づいて、前記未知サンプルの帰属クラスを決定する帰属クラス決定装置と、前記判別得点比較装置の比較結果に基づいて、前記学習サンプルセットから、少なくとも最大の判別得点を有する学習サンプルと最小の判別得点を有する学習サンプルとを取り除いて新たな学習サンプルセットを構築するサンプルセット設定装置と、前記設定された新たな学習サンプルセットを前記学習サンプルセットとして用いて前記説明変数発生装置、前記判別関数作成エンジン、前記判別得点算出装置、前記判別得点比較装置、前記帰属クラス決定装置および前記サンプルセット設定装置を繰り返し動作させる制御装置と、を備え、前記帰属クラス決定装置は、前記判別得点比較装置における比較結果が、前記未知サンプルの判別得点が前記各学習サンプルのうちの最大の判別得点以上か、あるいは最小の判別得点以下かの何れかである場合、前記未知サンプルの判別得点にしたがって前記未知サンプルの帰属クラスを決定するようにしている。
学習サンプルセットを判別分析することにより、各学習サンプルを第1のクラスまたは第2のクラスに分類予測する判別関数を得ることができる。この判別関数に基づいて計算された各サンプルの判別得点は、分類予測の確からしさを示す指標と考えられる。したがって、最大の判別得点を有する学習サンプル、最小の判別得点を有する学習サンプルは、判別得点の符号に従って行われるクラス分類予測の精度がもっとも高い。
未知サンプルの判別得点を同じ判別式を用いて計算し、もしこの判別得点が、学習サンプル中の最大の判別得点以上か、あるいは最小の判別得点以下の場合、判別得点に従った未知サンプルのクラス分類精度は、前記最大あるいは最小の判別得点を有する学習サンプルのクラス分類精度と同じかそれ以上となる。したがって、この場合、未知サンプルのクラスを判別得点の、例えば符号にしたがって決定する。
一方、未知サンプルの判別得点が、学習サンプル中の最大の判別得点より小さくかつ最小の判別得点以上の場合、判別得点にしたがって未知サンプルをクラス決定せず、学習サンプルセットから少なくとも最大、最小の判別得点を有する学習サンプルを除去して新たな学習サンプルセットを構築する。その後、この新たな学習サンプルセットについて新たな判別分析を行う。これを、未知サンプルの判別得点が、学習サンプル中の最大の判別得点以上か、あるいは最小の判別得点より小さくなるまで続けることにより、未知サンプルを非常に高い精度でクラス分類予測することができる。
本明細書で開示する方法、プログラムおよび装置によれば、学習サンプルセットが存在すればそのデータ解析と並行して未知サンプルのクラス予測を行うことができる。したがって、既成の分類予測モデルを必要としないので、学習サンプルデータの蓄積に伴って分類予測モデルを更新する必要がなくなる。また、未知サンプルのクラス分類予測は、未知サンプルの判別得点が、学習サンプルセット中の最大の判別得点よりも大かあるいは最小の判別得点よりも小さいかに基づいて行われるため、その分類予測精度は極めて高くなる。
図1は、理想的な二クラス分類の結果としてのパターン空間を示す。 図2は、通常の二クラス分類の結果としてのパターン空間を示す。 図3は、未知サンプルのクラス帰属方法を実施する基本的な処理手順を示すフローチャートである。 図4は、一実施形態の処理手順を示すフローチャートの前半部分を示す図である。 図5は、図4に示す一実施形態の処理手順の後半部分を示す図である。 図6は、サンプルデータテーブルの一例を示す図である。 図7は、最終パラメータセットのデータテーブルの一例を示す図である。 図8は、図4に示す1ステップの詳細を示す図である。 図9は、一実施形態に係る特性予測装置の概略構成を示すブロック図である。
符号の説明
1 クラス1の誤分類サンプル
2 クラス2の誤分類サンプル
100 サンプルの帰属クラス予測装置
110 入力装置
120 出力装置
130 入力データテーブル
140 初期パラメータセットテーブル
150 最終パラメータセットテーブル
160 予測結果保存テーブル
200 解析部
210 初期パラメータ発生エンジン
220 制御部
230 特徴抽出エンジン
240 判別関数作成エンジン
250 判別得点算出部
260 サンプルセット設定部
270 解析終了条件検出部
280 判別得点比較部
290 帰属クラス決定部
300 サンプルライブラリ
最適な実施形態を説明する前に、本発明の原理について説明する。
図1は、判別分析による、理想的な二クラス分類の結果としてのパターン空間を示す。理想的とは、分類率が100%であることを意味する。図において、Sは識別面あるいは超平面を示し、識別面Sの右側の領域Aがクラス1のサンプルが存在する領域(以下、クラス1領域)であり、左側の領域Bがクラス2のサンプルが存在する領域(以下、クラス2領域)である。○は本来クラス1に属するサンプル、×は本来クラス2に属するサンプルを示す。
二クラス分類が理想的に、即ち分類率100%で行われた場合は、識別面Sの両側にそれぞれクラス1のサンプル○、クラス2のサンプル×が位置し、クラス1の領域Aとクラス2の領域Bは重ならない。ところが、通常の二クラス分類では領域Aと領域Bに重なりが生じる。
図2は、通常の二クラス分類の結果としてのパターン空間を示す。分類率が100%未満の場合、図示するように、識別面Sによって領域A、Bが完全に分類されず、重複領域Cが形成される。その結果、本来はクラス1のサンプルであってもクラス2領域に入り込み、クラス2サンプルとして間違って分類されるサンプル1、本来はクラス2のサンプルであってもクラス1領域に入り込み間違ってクラス1サンプルとして分類されるサンプル2が発生する。これら間違って分類されるサンプルを誤分類サンプルと呼び、正しく分類されるサンプルを正分類サンプルと呼ぶ。従って、誤分類サンプルには、本来クラス1であるサンプルおよび本来クラス2であるサンプルの両者が含まれる。
クラス1とクラス2を判別するための判別関数(予測モデル)Yは、以下の式(1)で示される。
Y=a1x1±a2x2±・・・±anxn±C (1)
式(1)において、Yは目的変数の値を示し、x1、x2、・・・xnは説明変数(以下、パラメータ)の値、a1、a2、・・・anは重み係数、Cは定数を示す。説明変数の値x1、x2、・・・xnは各サンプルによって異なる値であり、重み係数a1、a2、・・・anは全サンプルに共通の値である。通常、クラス1に帰属するサンプルは目的変数Yの値が正の値に、クラス2に属するサンプルは目的変数Yの値が負の値になるように重み係数が選択されている。この場合、図1および2に示す識別面Sは、Yの値が0となる平面(超平面)を示す。
式(1)に、各サンプルについて求めた説明変数(パラメータ)の値x1、x2、・・・xnを代入することにより、各サンプルの目的変数の値Y(k)を求めることができる。この値Y(k)は、判別分析においては「目的変数」あるいは「独立変数」として意味づけされるが、数値データとしてみた場合、連続変数である「判別得点」を示す。判別得点は、パターン空間上において、各サンプルと識別面Sとの間の距離を示している。
二クラス分類において、通常、クラス1サンプルの判別得点はプラス(正)の符号を有し、クラス2サンプルの判別得点はマイナス(負)の符号を有するように判別関数が作成されている。従って、サンプルの帰属クラスの決定には、判別得点がプラスであるか、マイナスであるかしか意味を持たない。判別得点の大きさ(絶対値)が、分類目的の特性の大きさあるいは強さを示すものでは決してない。しかしながら、判別得点Y(k)は、各サンプルによって特定されるパラメータ値を式(1)に当てはめて計算するものであるため、判別得点Y(k)に基づく各サンプル間の関係は固定されている。
図2に示すように、誤分類サンプル1、2は、識別面Sの近傍において発生する傾向がある。即ち、識別面Sとサンプル間の距離が小さい領域において誤分類サンプル1、2が発生しやすい。識別面Sとサンプル間の距離が大きくなる程、誤分類サンプルの発生の度合いが小さくなる。判別得点Y(k)は、識別面Sとサンプル間の距離を表すもので、従って、判別得点が大きいほど、あるいは小さいほど、誤分類サンプルの発生確率が低くなる。即ち、判別得点は、クラス帰属の確からしさを示す指標であると考えてもよい。
一方、目的変数の値が未知のサンプルについて、目的変数の予測値を求める場合、即ち帰属クラスを予測する場合、未知サンプルについて説明変数の値を算出し、これを式(1)に代入してYの値を決定する。値Yの符号にしたがって、未知サンプルが所属するクラスを決定する。例えば、Yの値がプラスの場合、未知サンプルをクラス1にアサインし、Yの値がマイナスの場合、未知サンプルをクラス2にアサインする。
この場合、図2を参照することによって明らかなように、未知サンプルの判別得点Yの絶対値が大きい場合、パターン空間上での未知サンプルの位置10aが識別面Sから充分はなれていると考えられる。したがってその場合の予測結果は正しいと考えられる。一方、未知サンプルの判別得点Yの絶対値が小さい場合は、パターン空間上での未知サンプルの位置10bは識別面Sからあまり離れていないと考えられる。そのため、未知サンプルの位置10bが誤分類領域Cにある可能性が高く、予測結果の信頼性は低い。
したがって、未知サンプル10a、10bの予測が正確か否かを判定するためには、誤分類領域Cを特定することが必要である。本発明者は、KY法の一手法として、誤分類領域Cを各学習サンプルの判別得点に基づいて決定し、その結果に対して新たな判別分析を行うことにより、ほぼ100%の分類率を有する予測モデルを作成する方法を既に提案している(PCT/2007/074334)。
この方法では、学習サンプルセットに対して求めた判別関数に基づいて個々の学習サンプルの判別得点を計算し、個々の学習サンプルの帰属クラスを予測する。この予測クラスと実測値に基づくクラスとを比較し、両者が一致しない場合そのサンプルを誤分類サンプルとする。誤分類サンプル中で最大、最小の判別得点を検出し、その間の領域を誤分類領域Cとしている。誤分類領域Cが特定されれば、判別得点に基づく未知サンプル10a、10bの予測が正しいか否かがわかる。
この方法では、1個の判別関数を求めた時点で、学習サンプル個々の判別得点を求めると同時に、その値を実測値と比較して個々の学習サンプルが誤分類サンプルか正分類サンプルかを特定する必要がある。また、判別手法によって誤分類サンプルの発生の度合いが変化するため、誤分類領域Cを正確に特定することはできない。このような観点から、本発明者は、誤分類領域Cを特定することなく分類予測を実行することができれば、予測プロセスが簡単となり、さらに予測精度も向上すると考えた。
誤分類サンプルは識別面Sの近傍に存在する確率が高い。一方、判別得点が識別面S(Y=0)から離れるほど、サンプルの分類予測は正確となる。図2から明らかなように、最大の判別得点Pmaxを有するサンプル、最小の判別得点Pminiを有するサンプルは正分類サンプルである。また、これらのサンプルの近傍のサンプルも正分類サンプルである。あるいは正分類サンプルである確率が非常に高い。したがって、判別得点に基づいて未知サンプルのクラス予測を行う場合、未知サンプルの判別得点Rが、学習サンプル中の最大の判別得点Pmax以上か(点Ra)、最小の判別得点Pmini以下の場合(点Rb)、その未知サンプルは確実にクラス1サンプル、あるいはクラス2サンプルであると予測することができる。
したがって、未知サンプルの判別得点Rが学習サンプル中の最大の判別得点Pmax以上か、あるいは最小の判別得点Pmini以下の場合、判別得点に基づくクラス予測を正確であると判断し、それ以外の場合、クラス予測は正確でないと判断することにより、誤分類領域Cを特定することなく、未知サンプルのクラス予測を高い精度で実施することができる。
図3は、以上に述べたような予測の正確性に関する判断基準に基づいて、モデルフリーで未知サンプルのクラス帰属予測を行う基本的手順を示すフローチャートである。なお、図3では一個の未知サンプルのクラス帰属をモデルフリーで予測する手順を示しているが、このフローチャートを同時に複数の未知サンプルのクラス帰属を予測する場合に適用させることは容易である。
まず、ステップS1において、目的変数の実測値、即ち、クラス1であるかクラス2であるかが既知の学習サンプルを複数個用意し、判別分析用のシステムに入力して、これらについて二クラス判別分析を行う。次のステップS2では、ステップS1の判別分析によって求めた判別関数を用いて、個々の学習サンプルの判別得点を計算する。ステップS3では、同じ判別関数を用いて目的変数が未知のサンプルの判別得点を計算する。ステップS4では、ステップS2及びS3で求めた判別得点を大小順にソートし、未知サンプルの判別得点Rと、学習サンプルの最大の判別得点Pmaxおよび最小の判別得点Pminiとを比較する。この比較の結果、未知サンプルの判別得点Rが学習サンプル中の最大の判別得点Pmax以上か、あるいは最小の判別得点Pmini以下と判断されると(ステップS4のYES)、ステップS7において、未知サンプルの判別得点Rの正負に基づいて未知サンプルのクラスアサインを行い、予測を終了する。
一方、ステップS4で、未知サンプルの判別得点Rが、学習サンプル中の最大の判別得点Pmaxよりも小さくかつ最小の判別得点Pminiよりも大きいと判定される(ステップS4のNO)と、ステップS5に移行して、学習サンプルセットからある数の学習サンプルを除去し、新たなサンプルセットを構築する。
除去する学習サンプルは、1)判別得点の最大のサンプルから判別得点の大きい順にm個と、判別得点の最小のサンプルから判別得点の小さい順にn個のサンプルを指定するようにしても良い。この場合、m=nであっても良いし、m≠nであっても良い。また、クラスポピュレーションを考慮に入れてmとnの値を決定しても良い。あるいは、2)最大あるいは最小の判別得点を100%とした場合、例えば100%から90%の範囲内の判別得点を有するサンプルを除去するようにしても良い。個数m、nがあまり大きいと、取り除くサンプルの範囲が、最大、最小の判別得点を有するサンプルの近傍から外れ、誤分類領域に入り込む。したがって、学習サンプルの総数の10%以下、数%程度が望ましい。
最も精度の高い分類予測を行おうとする場合には、ステップS4で除去するサンプルは、判別得点が最大のサンプルと、判別得点が最小のサンプルの計2個である。したがって、ステップS4では、少なくとも、判別得点が最大の学習サンプルと、判別得点が最小の学習サンプルとを取り除く。なお、図3において、後述するステップS1からステップS6までの繰り返しの最大の回数をシステムにおいて設定した場合、この最大回数に基づいて、1回の判別分析で取り除くサンプル数を決定するようにしても良い。例えば、総サンプル数が1000個であり、繰り返しの最大回数を100回とした場合、1回の判別分析では10個のサンプルを取り除くようにすれば、100回の判別分析で全てのサンプルを取り除くことができる。
図3のステップS6では、残りの学習サンプルによって新たな学習サンプルセットを構築し、ステップS1に戻って新たな判別分析を開始する。この場合、学習サンプルセットが初期学習サンプルセットとは異なっているので、特徴抽出の結果、新たな説明変数の組合せ(最終パラメータセット)が選択され、第1回目の判別分析とは異なる判別関数が得られる。したがって、第1回目の判別分析によるパターン空間と、第2回目の判別分析によるパターン空間とは異なったものとなる。また、個々の学習サンプルおよび未知サンプルの判別得点も第1回目の判別分析における判別得点とは異なってくる。
したがって、ステップS4では、学習サンプルと未知サンプルについて新に算出された判別得点に基づいて、その大小が比較される。ステップS4でYESと判定されると、ステップS7で未知サンプルの判別得点の符号に基づいてそのクラス帰属が決定される。ステップS4でNOと判定されると、ステップS5以降を実行する。
以上のように、ステップS1〜ステップS6をステップS4でYESとなるまで繰り返すことにより、誤分類領域(グレーゾーン)を特定することなく、未知サンプルのクラス帰属を正確に予測することができる。なお、システムにおいて、繰り返し数の最大値を予め設定しておいても良い。
従来の分類予測方法では、学習サンプル数の数が多くなればなる程、分類率、予測率は低下する。これに対して、図3の方法では、学習サンプルの数が多くなった場合であっても、ステップS1〜ステップS6の繰り返しの回数を多くするだけで、クラス予測の精度を落とすことなく、未知サンプルのクラス帰属を予測することができる。したがって、REACH規則の運用によって何万、あるいは何十万という化合物データが蓄積された場合であっても、これらを全て学習サンプルとして、しかも高いに予測精度を維持して、未知サンプルのクラス帰属を予測することができる。
以下に、第1の実施形態について説明する。この実施形態では、サンプルを化合物とし、予測を行う目的変数をAmesテストにおける活性(+、mutagen)、非活性(−、non−mutagen)としている。
図4および図5は、化合物のAmesテストにおける活性、非活性を予測するための実施手順を示すフローチャートである。まず、ステップS10において、学習サンプルセットおよび予測対象化合物である未知サンプルを用意し、システムに入力する。学習サンプルセットは、Amesテストにおける活性、非活性の実測値が既知の複数の化合物で構成される。未知サンプルは、化学的構造は既知であるがAmesテストにおける活性、非活性の実測値が不明のサンプルである。未知サンプルは1個であっても、複数個を用意しても何れでも良い。
用意された学習サンプルは、1次元、2次元あるいは3次元構造式の形でサンプルの帰属クラス予測装置に入力され、図6に示すようなサンプルデータを保存するためのテーブルが作成される。図6において、コラム60はサンプルである化合物の2次元あるいは3次元の構造式を示す。コラム61はその化合物のCAS番号を示し、コラム62は、Amesテストの結果を示している。コラム62において、mutagenはAmesテストの結果、変異原性有り(+)を示し、nonmutagenは変異原性を持たない(−)ことを示している。図示の例では、mutagenであるサンプルをクラス1(ポジティブクラス)に、nonmutagenであるサンプルをクラス2(ネガティブクラス)に二クラス分類するためのデータテーブルを示している。コラム63は、サンプル番号を示す。未知サンプルについても、同様のデータテーブルが作成されるが、Amesテストの実測値を記載するコラム62は空欄である。
次に、図4のステップS11において、目的変数を算出するための初期パラメータ、即ち説明変数(x1、x2・・・xx)の値を発生させる。初期パラメータは、化合物の構造から自動的に発生させることができる。例えば、富士通株式会社で販売するADMEWORKS−ModelBuilder(登録商標)では、化合物の2次元あるいは3次元構造、各種の物性に基づいて自動的に約800個のパラメータを発生させることができる。初期パラメータは、各学習サンプルおよび未知サンプルについて発生させる。ステップS12では、第1回目の判別分析を開始するために、STAGEを1に設定する。
ステップS13では、学習サンプルの初期パラメータに対して特徴抽出を行い、分類に不必要なノイズパラメータを除去する。これによって、最終パラメータセット(x1、x2・・・xn)が決定される(ステップS14)。特徴抽出としては、単相関係数、重相関係数、出現頻度、Fischer比、Variance法などの種々の既知手法を用いて実施することができる。特徴抽出のための各種のエンジンも一般に提供されている。
図7は、特徴抽出の結果、Amesテスト結果に影響ありとして選択された最終パラメータセットと、個々の化合物のこれらのパラメータに対する数値データを示すテーブルである。コラム70は化合物を構造式で特定し、コラム71以降は各種のパラメータを示している。例えば、コラム71は化合物の分子量を、コラム72は分子表面積を、コラム73はlogPの値をパラメータとしたことを示している。データテーブル中のセル74内に記載された値は、サンプル1分子の分子量を示すデータ、セル75内の値はサンプル1の分子表面積の値を示すデータ、セル76内の値はサンプル1のlogP値を示すデータである。各セル内に示された値が、そのサンプルのパラメータデータとなる。なお、コラム77は各サンプルのサンプル番号を示している。
ステップS14では、解析の終了条件を満足したか否かが判定される。解析の終了条件とは、例えば、クラスアサイン(クラス予測)を行おうとする未知サンプルが存在しないこと、予め設定された最大のSTAGE数に達したか否か、学習サンプルセット中のサンプル数が予め設定した一定個数以下となったか否か、あるいは、信頼性指標が予め決定された値以下となったか否か、等である。ここで、信頼性指標とはサンプル数をパラメータ数で除した値であり、この値が小さくなると、これらのサンプルとパラメータとから得られる判別式ほとんど科学的およびデータ解析的に意味を持たず、その解析は失敗したと判断される。通常の判別分析ではこの値として4が設定されるが、4よりも大きければ大きいほど信頼性の高い判別式とみなされる。
図8に、ステップS15の詳細を示す。ステップS151からステップS154が図4のステップS15に相当する。まず、ステップS151で、予測を行おうとする未知サンプルが存在するか否かを確認する。未知サンプルが存在しない場合(ステップS151のYES)は、予測処理を終了する。ステップS152で、現在の処理STAGEが予め決定しておいた最大のSTAGE数N以上となったか否かを判定する。STAGE数がN以上となった場合(ステップS152のYES)は、処理を終了する。
ステップS153では、サンプル数とパラメータ数で決定される信頼性指標の値が4未満となったか否かを判定する。信頼性指標が4以下となった場合(ステップS153のYES)は、処理を終了する。ステップS154では、学習サンプル数が予め決定した最低のサンプル数Sminiに達したか否かを判定する。最低のサンプル数以下になった場合(ステップS154のYES)は、処理を終了する。
従って、図示の実施形態では、終了条件の全てが満足されない場合に、ステップS16が実行される。なお、ステップS151からステップS154の実行順序は任意でよく、また、ステップS152、154等は省略しても良い。更に、ステップS152に代わって、あるいは追加のステップとして、処理時間に関する制限を入れても良い。
再び図4に戻ると、ステップS15で終了条件が満足される(ステップS15のYES)と、解析処理を終了する。ステップS15で終了条件に達しない場合(ステップS15のNO)、ステップS16で最終パラメータセットを用いて第1段階(STAGE1)の判別式を構築する。判別分析では、判別関数は上記式(1)として示される。
ステップS17では、作成した判別関数を用いて各学習サンプルの判別得点を計算し、更に、同じ判別関数を用いて未知サンプルの判別得点を計算する。k番目のサンプルの判別得点Ykは、
Yk=a1x1k±a2x2k±・・・±anxnk±C (2)
として計算される。ここで、x1k、x2k、・・・xnkは、k番目のサンプルのパラメータ(説明変数)データ、a1、a2、a3・・・anは各パラメータに対する重み係数であり、各サンプルについて共通である。Cは定数である。
パラメータデータx11、x21、x31・・・は、図7の各セル内に記載されたデータから得られる。したがって、判別分析により、各パラメータに対する係数a1、a2・・・を求めると、図7のテーブルに示される各セル内のデータを式(2)に導入することによって、サンプルkの判別得点Ykが計算される。
図5に示すステップS18では、判別得点Ykを全学習サンプルについてソートすることにより、学習サンプルの最大の判別得点Pmax、最小の判別得点Pminiを特定する。ステップS18では、ステップS17で求めた未知サンプルの判別得点Rと、学習サンプルの最大、最小の判別得点Pmax、Pminiとを比較し、R≧PmaxあるいはR≦Pminiを満足する未知サンプルがあるか否かを判定する。複数の未知サンプルのうち、R≧PmaxあるいはR≦Pminiを満足する未知サンプルがあれば(ステップS19のYES)、そのサンプルを取り出し、判別得点の符号にしたがってクラスアサインする(ステップS20)。
次に、再びステップS19に戻って、R≧PmaxあるいはR≦Pminiを満足する他の未知サンプルがあるか否かを判定する。ステップS19とステップS20は、ステップS19においてR(未知サンプルの判別得点)≧PmaxあるいはR≦Pminiを満足する他の未知サンプルがなくなるまで、繰り返して実行される。この結果、ステップS20において、現在のSTAGEでR≧PmaxあるいはR≦Pminiを満足する全ての未知サンプルが取りだされ、そのクラスが決定される。
ステップS19でNOとなった場合、ステップS21において、学習サンプルセットの各クラスから判別得点の大きいあるいは小さいサンプルを、サンプル除去のルールに従って除去する。サンプル除去のルールは、図3を参照して説明したいずれのルールでも良く、ユーザが任意に指定すれば良い。ステップS22では、残りの学習サンプルを新たな学習サンプルセットに設定する。ステップS23ではSTAGEを1だけ進めてSTAGE=2とし、その後、図5のステップS13以下を実行することにより、STAGE2での未知サンプルのクラスアサイン(帰属クラス決定)を実行する。
以上のようにして、ステップS13からステップS23を繰り返し実行することにより、全ての未知サンプルのクラスアサインが終了すると、ステップS15で解析終了条件が満足されるため、その時点で分類予測処理が終了する。この場合、未知サンプルの帰属クラス決定は、未知サンプルの判別得点が学習サンプルの最大の判別得点Pmax以上となった場合、あるいは最小の判別得点Pmini以下となった場合に行われるため、その予測の信頼性は非常に高いものとなる。
なお、各STAGEで実施する判別分析手法としては、各STAGEで同じ手法を使用しても良いし、あるいは異なる手法を使用しても良い。例えば、STAGE1でBayes判別分析法を使用し、STAGE2でAdaBoost法を使用するようにしても良い。更に、各STAGEで除去する学習サンプルの個数を一定にしても良いし、あるいはSTAGE毎に異なる個数を設定しても良い。例えば、比較的初期のSTAGEでは比較的多くのサンプルを除去し、高次のSTAGEではそれよりも小さい数のサンプルを除去するようにしても良い。
以上の結果、モデルフリーでかつ高い予測精度で、未知サンプルの帰属クラス予測を行うことができる。また、予測過程の各STAGEにおいて、各学習サンプルを正分類サンプルと誤分類サンプルとに分類する必要がなくなるので、予測のための計算時間を大幅に短縮することができる。
図9は、第3の実施形態に係るサンプルの帰属クラス予測装置の概略構成を示すブロック図である。本実施形態にかかる予測装置100は、学習サンプル、未知サンプルのデータを入力する入力装置110、未知サンプルの予測結果あるいは処理途中の必要なデータを出力する出力装置120を備えている。サンプルが化合物の場合、入力装置110から化合物の1次元構造式あるいは2次元構造式と共に、その化合物の既知の目的変数の値(即ち、クラス1かクラス2かに関する情報、例えば、安全性データ)が入力され、入力データテーブル130に保持される。未知サンプルを入力する場合は目的変数の値は入力されない。
入力装置110を介して、初期パラメータセットのデータを入力し、これを初期パラメータセットテーブル140に保存するようにしても良い。解析部200が、入力されたサンプルについて初期パラメータを自動的に発生するためのエンジン210を有している場合は、初期パラメータセットデータを入力装置110から入力する必要はない。
図9において、150は最終パラメータセットを保存するテーブルであり、初期パラメータセットに対して特徴抽出を行った結果としての最終パラメータセットを保存する。160は、未知サンプルについてのクラスアサイン情報、即ち予測結果情報を保存する予測結果保存テーブルである。通常、これらのテーブル130、140、150、160は一個の記憶装置に格納されている。
解析部200は、制御部220と、初期パラメータ発生エンジン210、特徴抽出エンジン230、判別関数作成エンジン240、判別得点算出部250、サンプルセット設定部260および解析終了条件検出部270、判別得点比較部280およびクラスアサイン実施部290を備えている。なお、初期パラメータを本装置の外部で発生させる場合は、初期パラメータ発生エンジン210は必要とされない。サンプルが化合物の場合は、初期パラメータ発生エンジン210は、入力装置110から入力された化合物の構造式に基づいて、複数の構造記述子を発生する。300はサンプルライブラリであり、過去の特性予測に用いた学習サンプルの構造式、安全性データ、初期パラメータ値などをライブラリデータとして保存している。
特徴抽出エンジン230は、初期パラメータセットに対して特徴抽出を行って最終パラメータセットを決定し、これを最終パラメータセットテーブル130に保存する。判別関数作成エンジン240は、種々の既存の判別分析エンジンを備えており、ユーザによって任意に指定された判別分析エンジン、あるいはシステムが適宜選択した判別分析エンジンを用いて、最終パラメータセットテーブル130を参照しながら、入力サンプルの判別分析を行い、判別関数を作成する。判別得点算出部250は、判別関数作成エンジン240によって作成された判別関数に各サンプルのパラメータを入力することにより、各サンプルの判別得点を計算する。サンプルセット設定部260は、予め設定したサンプル除去ルールに従って、学習サンプルセットから判別得点の大きいサンプル、小さいサンプルを除去し、新たな学習サンプルセットを構築する。
特徴抽出エンジン230、判別関数作成エンジン240、判別得点算出部250、新たなサンプルセット設定部260は、制御部220の制御下で作動し、図5および図6に示す処理を実行する。なお、解析終了条件検出部270は、1)帰属クラスを予測する未知サンプルが0となった時点、2)処理の繰り返しが予め設定した回数(あるいは時間)を超えた場合、3)新に設定した学習サンプルセット中のサンプル数が予め決定した個数以下となった時点、4)信頼性指標が予め定めた値以下となった時点、の何れかで、解析の実行を停止する。
判別得点比較部280は、未知サンプルの判別得点Rを、学習サンプルの最大の判別得点Pmaxあるいは最小の判別得点Pminiと比較する。帰属クラス決定部290は、判別得点比較部280の結果に基づいて未知サンプルのクラスアサインを実行する。即ち、未知サンプルの判別得点Rが学習サンプルの最大の判別得点Pmax以上の場合あるいは最小の判別得点Pmini以下の場合、未知サンプルを判別得点Rの符号に基づくクラスにアサインし、その何れでもない場合、クラスアサインを行わない。帰属クラス決定部290の結果は、予測結果保存テーブル160に一旦保存された後、出力装置120を介して任意の形状で出力される。出力装置としては、種々の記憶装置、ディスプレイ、プリンタ等が選択可能であり、出力の形態としては、各種ファイル(例えばUSBファイル)、ディスプレイ表示、プリントアウト等を適宜選択することが可能である。
上記した各プログラムは、コンピュータ読取可能な記録媒体に格納することが可能であり、これらの記録媒体を頒布、流通することが可能である。また、同様に上記した各プログラムはインターネット等の通信回線を介して頒布、流通することが可能である。前記したコンピュータ読取可能な記録媒体としては、磁気記録装置、光ディスク、光磁気ディスクあるいは半導体メモリ(RAM、ROM等)などがある。一例として、磁気記録装置としてはハードディスクドライブ(HDD)、フレキシブルディスク(FD)、磁気テープ(MT)等がある。光ディスクの例としては、DVD(Digital・Versatile・Disc)、DVD−RAM、CD−ROM、CD−R、CD−RW等がある。光磁気ディスクとしてはMO(Magneto−Optical・disc)等がある。
入力装置110を介して入力された学習サンプルのデータ、これらの学習サンプルについて発生された初期パラメータセットのデータは、解析部200を介してサンプルライブラリに入力され保存される。従って、サンプルライブラリ300を利用すれば、未知サンプルのクラス帰属予測を行う場合、入力装置110を介して未知サンプルの構造式データを入力するのみで、予測を実行することができる。あるいは、新たな学習サンプルデータが用意されれば、そのデータを入力装置110から帰属クラス予測装置100に入力することにより、サンプルライブラリ300に保存された既存の学習サンプルデータと合わせて最新の学習サンプルセットを作成することができる。クラス予測は、この最新の学習サンプルセットを初期サンプルセットとして用いて行われる。従って、本装置では、常に新しい学習サンプルを加えたデータベースにより、未知サンプルの特性予測を実行することができる。
また、入力装置110および出力装置120を、対話形式のグラフィックユーザインターフェースを備えたディスプレイ装置で構成することも可能である。この場合、解析終了条件の選択、サンプル除去ルールの選択などを、ユーザがディスプレイ画面を介してコンピュータと対話しながら行うようにしても良い。
本明細書に開示する方法、プログラム、装置は、二クラス分類が適用可能な全ての産業分野に適用可能である。以下に、主な適用分野を列挙する。
1)化学データ解析
2)バイオ関連研究
3)蛋白質関連研究
4)医療関連研究
5)食品関連研究
6)経済関連研究
7)工学関連研究
8)生産歩留まり向上等を目的としたデータ解析
9)環境関連研究
1)の化学データ解析分野では、より詳細には、下記のような研究に適用できる。
(1)構造−活性/ADME/毒性/物性相関の研究
(2)構造−スペクトル相関研究
(3)メタボノミクス関連研究
(4)ケモメトリクス研究
例えば、構造−毒性相関研究分野では、Amesテスト結果の予測を行うことが極めて重要である。何故ならば、Amesテストは、毒性化合物規制関連の化合物審査法や労働安全衛生法等の国レベルの化合物規制に、最重要項目の一つして組み込まれているからである。このAmesテストの審査を通らなければ、日本国内での化合物生産はできなくなり、企業の生産活動自体がストップする。また、海外での生産や輸出等も対象国の安全性規制により活動できなくなる。
ヨーロッパ議会におけるREACH規則では、化合物を使用する企業が、その化合物についてAmesテストの結果を予測し、評価する義務を負っている。本発明は、このようなテスト結果の予測に、非常に有用なツールを提供するものである。なお、Amesテストとは、米国のAmes博士が開発した変異原性試験の一つで、発がん性試験の簡易手法である。このために、多くの化学物質あるいはこれらを用いた製品の安全性の指針として採用されている試験である。

Claims (10)

  1. a)学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第1または第2のクラスに分類予測する判別関数を求め、
    b)前記判別関数に基づいて前記各学習サンプルと前記第1または第2のクラスの何れに帰属するかが不明である未知サンプルの判別得点を算出し、
    c)前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定し、
    d)前記c)で肯定判断の場合、前記未知サンプルの判別得点の符号に従ってその帰属クラスを決定し、
    e)前記c)で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築し、
    f)前記新たな学習サンプルセットに対して、前記a)〜e)のステップを繰り返す、各ステップを備える、コンピュータによって実施されるサンプルの帰属クラス予測方法。
  2. 請求項1に記載の方法において、さらに、g)帰属クラス未定の未知サンプルが存在するか否かを判定するステップを備え、当該ステップで否定判断の場合、前記ステップf)の繰り返しを停止する、サンプルの帰属クラス予測方法。
  3. 請求項1に記載の方法において、前記ステップa)における判別関数は、前記複数の説明変数に特徴抽出を実施して不要な説明変数を除去した残りの説明変数に基づいて求める、サンプルの帰属クラス予測方法。
  4. 請求項3に記載の方法において、前記ステップf)の繰り返しは、前記学習サンプルセット中の総サンプル数と、前記特徴抽出後の説明変数の数との比が予め決定した一定数以下となった場合、停止する、サンプルの帰属クラス予測方法。
  5. 請求項1に記載の方法において、前記各学習サンプルは化合物であり、前記第1と第2のクラスは、任意の毒性を有する化合物のクラスと前記毒性を有さない化合物のクラスである、サンプルの帰属クラス予測方法。
  6. a)学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第1または第2のクラスに分類予測する判別関数を求める手順と、
    b)前記判別関数に基づいて各学習サンプルと前記第1または第2のクラスの何れに帰属するかが不明である未知サンプルの判別得点を算出する手順と、
    c)前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定する手順と、
    d)前記c)で肯定判断の場合、前記未知サンプルの判別得点の符号に従ってその帰属クラスを決定する手順と、
    e)前記c)で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築する手順と、
    f)前記新たな学習サンプルセットに対して、前記a)〜e)の手順を繰り返して実行する手順と、をコンピュータに実行させるための、サンプルの帰属クラス予測プログラム。
  7. 請求項6に記載のプログラムにおいて、さらに、g)帰属クラス未定の未知サンプルが存在するか否かを判定する手順を備え、当該手順で否定判断の場合、前記手順f)の繰り返しを停止する、サンプルの帰属クラス予測プログラム。
  8. 請求項6に記載のプログラムにおいて、前記各学習サンプルは化合物であり、前記第1、第2のクラスは、任意の毒性を有する化合物のクラスと前記毒性を有さない化合物のクラスである、サンプルの帰属クラス予測プログラム。
  9. クラス1あるいはクラス2に帰属することが既知の複数のサンプルで構成される学習サンプルセットをデータ解析して、前記クラス1あるいはクラス2への帰属が不明である未知サンプルの帰属クラスを予測する装置であって、
    前記学習サンプルセットの各学習サンプルと前記未知サンプルに対して説明変数を発生する説明変数発生装置と、
    前記各学習サンプルについて発生した説明変数に基づいて判別分析を行い、上記クラス1およびクラス2を判別するための判別関数を得る、判別関数作成エンジンと、
    前記作成された判別関数に基づいて、前記各学習サンプルと前記未知サンプルの判別得点を算出する、判別得点算出装置と、
    前記算出された各学習サンプルの判別得点と前記未知サンプルの判別得点を比較する、判別得点比較装置と、
    前記判別得点比較装置の比較結果に基づいて、前記未知サンプルの帰属クラスを決定する帰属クラス決定装置と、
    前記判別得点比較装置の比較結果に基づいて、前記学習サンプルセットから、少なくとも最大の判別得点を有する学習サンプルと最小の判別得点を有する学習サンプルとを取り除いて新たな学習サンプルセットを構築するサンプルセット設定装置と、
    前記設定された新たな学習サンプルセットを前記学習サンプルセットとして用いて前記説明変数発生装置、前記判別関数作成エンジン、前記判別得点算出装置、前記判別得点比較装置、前記帰属クラス決定装置および前記サンプルセット設定装置を繰り返し動作させる制御装置と、を備え、
    前記帰属クラス決定装置は、前記判別得点比較装置における比較結果が、前記未知サンプルの判別得点が前記各学習サンプルのうちの最大の判別得点以上か、あるいは最小の判別得点以下かの何れかである場合、前記未知サンプルの判別得点の符号にしたがって前記未知サンプルの帰属クラスを決定する、サンプルの帰属クラス予測装置。
  10. 請求項9に記載の装置において、更に、分類予測に不要な説明変数を除去するために、前記説明変数発生装置によって発生された説明変数に対して特徴抽出を行うための特徴抽出エンジンを備える、サンプルの帰属クラス予測装置。
JP2010523668A 2008-08-05 2008-08-05 サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置 Active JP5141767B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/064058 WO2010016109A1 (ja) 2008-08-05 2008-08-05 サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置

Publications (2)

Publication Number Publication Date
JPWO2010016109A1 JPWO2010016109A1 (ja) 2012-01-12
JP5141767B2 true JP5141767B2 (ja) 2013-02-13

Family

ID=41663339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010523668A Active JP5141767B2 (ja) 2008-08-05 2008-08-05 サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置

Country Status (4)

Country Link
US (1) US8682813B2 (ja)
EP (1) EP2323080B1 (ja)
JP (1) JP5141767B2 (ja)
WO (1) WO2010016109A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8935258B2 (en) * 2009-06-15 2015-01-13 Microsoft Corporation Identification of sample data items for re-judging
WO2014037481A1 (en) * 2012-09-06 2014-03-13 Shell Internationale Research Method of estimating the mutagenicity of hydrocarbon samples
CN103679190B (zh) * 2012-09-20 2019-03-01 富士通株式会社 分类装置、分类方法以及电子设备
CN107045506A (zh) * 2016-02-05 2017-08-15 阿里巴巴集团控股有限公司 评估指标获取方法及装置
WO2017145960A1 (ja) * 2016-02-24 2017-08-31 日本電気株式会社 学習装置、学習方法および記録媒体
US10353008B2 (en) * 2016-10-06 2019-07-16 Mitsubishi Electric Research Laboratories, Inc. Hybrid battery state sensor
WO2018213112A1 (en) * 2017-05-15 2018-11-22 Bioanalytix, Inc. Systems and methods for automated design of an analytical study for the structural characterization of a biologic composition
CN108038108B (zh) * 2017-12-27 2021-12-10 东软集团股份有限公司 分词模型训练方法和装置、及存储介质
WO2019187594A1 (ja) * 2018-03-29 2019-10-03 日本電気株式会社 学習装置、学習方法および学習プログラム
JP7122699B2 (ja) * 2018-08-23 2022-08-22 パナソニックIpマネジメント株式会社 材料情報出力方法、材料情報出力装置、材料情報出力システム、及びプログラム
CN113454728A (zh) * 2019-02-12 2021-09-28 Jsr株式会社 数据处理方法、数据处理装置以及数据处理系统
CN109960808B (zh) * 2019-03-26 2023-02-07 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN110457654A (zh) * 2019-08-08 2019-11-15 哈尔滨理工大学 一种基于现场数据的机载设备可靠性预测方法
CN110728313B (zh) * 2019-09-29 2023-01-17 北京声智科技有限公司 一种用于意图分类识别的分类模型训练方法及装置
US11410064B2 (en) * 2020-01-14 2022-08-09 International Business Machines Corporation Automated determination of explanatory variables
US20210406758A1 (en) * 2020-06-24 2021-12-30 Surveymonkey Inc. Double-barreled question predictor and correction
CN111967541B (zh) * 2020-10-21 2021-01-05 上海冰鉴信息科技有限公司 基于多平台样本的数据分类方法及装置
CN113177521B (zh) * 2021-05-26 2022-07-01 电子科技大学 一种基于组合孪生网络的智能辐射源识别方法
CN113327136B (zh) * 2021-06-23 2023-06-02 中国平安财产保险股份有限公司 归因分析方法、装置、电子设备及存储介质
CN117493514B (zh) * 2023-11-09 2024-05-14 广州方舟信息科技有限公司 文本标注方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123781A (ja) * 1994-10-20 1996-05-17 Fujitsu Ltd 3次元化合物構造式の周辺空間情報を数値データへ変換する方法、並びに、3次元化合物構造式とその周辺空間との相互作用を数値データへ変換する方法
JP2002073076A (ja) * 2000-09-04 2002-03-12 Sumitomo Metal Ind Ltd パターン認識方法、パターン認識装置及び記録媒体
WO2008059624A1 (fr) * 2006-11-13 2008-05-22 Fujitsu Limited Procédé, programme et dispositif de réalisation d'un modèle de classification/prévision à deux classes

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143636A (ja) * 1991-11-22 1993-06-11 Omron Corp 判別分析方法及び装置
JP2004086897A (ja) * 2002-08-06 2004-03-18 Fuji Electric Holdings Co Ltd モデル構築方法およびモデル構築システム
CN101903895B (zh) * 2007-12-18 2014-03-26 富士通株式会社 化合物毒性预测模型的生成方法以及化合物毒性预测模型生成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123781A (ja) * 1994-10-20 1996-05-17 Fujitsu Ltd 3次元化合物構造式の周辺空間情報を数値データへ変換する方法、並びに、3次元化合物構造式とその周辺空間との相互作用を数値データへ変換する方法
JP2002073076A (ja) * 2000-09-04 2002-03-12 Sumitomo Metal Ind Ltd パターン認識方法、パターン認識装置及び記録媒体
WO2008059624A1 (fr) * 2006-11-13 2008-05-22 Fujitsu Limited Procédé, programme et dispositif de réalisation d'un modèle de classification/prévision à deux classes

Also Published As

Publication number Publication date
EP2323080A1 (en) 2011-05-18
JPWO2010016109A1 (ja) 2012-01-12
EP2323080A4 (en) 2017-04-26
US8682813B2 (en) 2014-03-25
WO2010016109A1 (ja) 2010-02-11
EP2323080B1 (en) 2019-05-15
US20110137841A1 (en) 2011-06-09

Similar Documents

Publication Publication Date Title
JP5141767B2 (ja) サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
JP5104877B2 (ja) 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置
Ghorbani et al. Comparing different resampling methods in predicting students’ performance using machine learning techniques
JP4985653B2 (ja) 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置
CN111444247B (zh) 一种基于kpi指标的根因定位方法、装置及存储介质
Aghdam et al. Feature selection using particle swarm optimization in text categorization
US7769759B1 (en) Data classification based on point-of-view dependency
JP2011150541A (ja) 学習装置、学習方法、及びプログラム
Idris et al. Ensemble based efficient churn prediction model for telecom
US8965111B2 (en) Learning apparatus, a learning system, learning method and a learning program for object discrimination
Mohamad et al. A model for gene selection and classification of gene expression data
JP5087756B2 (ja) 化合物の予測信頼性評価システム
CN109460474B (zh) 用户偏好趋势挖掘方法
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Khoshgoftaar et al. Improving software quality estimation by combining feature selection strategies with sampled ensemble learning
CN111009287B (zh) SLiMs预测模型的生成方法、装置、设备和存储介质
JP4079354B2 (ja) 順位付けのための評価関数推定装置、プログラム及び記憶媒体、並びに、順位付け装置及びプログラム
JP2005108183A (ja) タンパク質の膜貫通領域の数または位置の予測装置、予測方法及びコンピュータプログラム
Jaskie et al. Evaluating the Positive Unlabeled Learning Problem
Cuarteros et al. On Robustifying the Fisher’s Discriminant Function using L–Estimators
CN110598760A (zh) 一种变压器振动数据无监督特征选择方法
Marhon A New, Model-Independent, Spectrum-Based Gene Prediction Technique
Shukir Class Prediction Methods Applied to Microarray Data for Classification
JP2008129657A (ja) 特徴評価方法及び装置及びプログラム
Hsu et al. FEATURE SELECTION FOR IDENTIFYING PROTEIN-DISORDERED REGIONS

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121105

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5141767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150