JP4985653B2 - 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置 - Google Patents

2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置 Download PDF

Info

Publication number
JP4985653B2
JP4985653B2 JP2008544075A JP2008544075A JP4985653B2 JP 4985653 B2 JP4985653 B2 JP 4985653B2 JP 2008544075 A JP2008544075 A JP 2008544075A JP 2008544075 A JP2008544075 A JP 2008544075A JP 4985653 B2 JP4985653 B2 JP 4985653B2
Authority
JP
Japan
Prior art keywords
class
sample
classification
discriminant
discriminant function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008544075A
Other languages
English (en)
Other versions
JPWO2008059624A1 (ja
Inventor
浩太郎 湯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008544075A priority Critical patent/JP4985653B2/ja
Publication of JPWO2008059624A1 publication Critical patent/JPWO2008059624A1/ja
Application granted granted Critical
Publication of JP4985653B2 publication Critical patent/JP4985653B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、クラス未知のサンプルに対する分類予測モデルを作成するための方法、作成プログラムおよび作成装置に関する。
クラス分類問題とは、複数のクラスのうちどのクラスに属するかが既知であるサンプルの集団から、そのクラスを分類するための規則を学習し、学習した規則を予測モデルとして使用し、どのクラスに属するかが未知のサンプルについてそれが属するクラスを予測する問題である。特に、サンプルセットを2つのクラスに分類する2クラス分類は、長年にわたって構造活性相関研究に活用され、最近では、化合物の毒性等の有無を判別する有用な手法として注目されている。規則を学習するための手法、即ち分類手法には、線形学習機械法、判別分析、Bayes線形判別分析、SVM(サポートベクターマシン)、AdaBoost等の線形判別分析法、および、Bayes非線形判別分析、ニューラルネットワーク、KNN法(最近接法)等の非線形判別分析法がある。
一般的にクラス分類問題では、必ず誤分類が発生し、分類率を100%にすることが大変難しい。ここで「分類率」とは、帰属クラスが既知のサンプルをどの程度正しくクラス分けを行ったのかを示す指標であり、「予測率」とは、帰属クラスが不明のサンプルをどの程度正しくクラス予測を行ったかを示す指標である。基本的に「分類率」は「予測率」を下回ることはない。従って、「分類率」を上げれば、「予測率」の上限も自動的に上がってくる。この事実から、分類率を高い値にすることが出来れば、予測率も高くなる。また、データ解析の一般的な特徴として、サンプル数が増えるに従って、分類率が低下することも知られている。ここで、誤分類とは、本来はクラス1に属するサンプルを誤ってクラス2に属するサンプルとして分類することである。例えば、複数の化合物をサンプルセットとし、これらのサンプルを、毒性を有する化合物セット(クラス1)と毒性を持たない化合物セット(クラス2)にクラス分類する場合、毒性発現の要因が複雑で多岐にわたることから、誤分類が発生しやすく、現状では、分類率を上げることが非常に困難である。
また、分類率の値が高くとも使用するサンプル数が多い場合は誤分類サンプルの絶対数が大きくなるので、この点で注意が必要である。例えば、毒性化合物と非毒性化合物を分類する場合、学習に使用するサンプル数が多い場合、例えば1万個の化合物セットを用いて分類を行う時は、たとえ90%の分類率が得られていても、1千個の化合物について誤分類されており、この数は無視できない。更に、毒性分類の場合の特徴として、毒性を持たない化合物を毒性を持つと誤分類しても大きな影響はないが、毒性化合物を非毒性化合物と誤分類することは非常に危険であり、絶対に避けなければならない問題である。この点でも、分類率は100%であることが望まれる。
従って、現在、クラス分類問題において分類率を上げることが重要な問題であると認識され、そのために種々の努力がなされている。一つのサンプルセットに対して、通常は1本の判別関数を用いて分類を行うが、分類率を上げる手法として、異なる複数の分類手法によって作成された複数の判別関数を用いて分類することで、見かけ上の分類率を向上させる手法がある。以下に、1本の判別関数を用いて分類を行う場合と、複数の判別関数を用いて分類を行う場合について、図を参照して説明する。なお、以下の図において、同一の符号は同じか類似の構成要素を示すので、重複した説明は省略する。
図1は、1本の判別関数を用いてサンプルセットを理想的に2クラス分類した結果を、イメージで示す図である。分類にN個のパラメータ(説明変数)を用いたので、N次元空間上でサンプルがポジティブ(Positive)クラス(クラス1、例えば毒性を有するクラス)とネガティブ(Negative)クラス(クラス2、例えば毒性を持たないクラス)の2クラスに分類されている様子を示している。図1において、○は本来ポジティブクラスに分類されるサンプルを示し、×は本来ネガティブクラスに分類されるサンプルを示している。理想的な分類、即ち、分類率が100%の場合、判別関数(予測モデル)1は、本来ポジティブであるサンプル2と本来ネガティブであるサンプル3とを完全に分離する。ところが、このような理想的な分類は、毒性化合物と非毒性化合物を分類するような2クラス分類問題ではほとんど実現不可能である。
図2は、1本の判別関数を用いた通常の2クラス分類の結果を示す。この場合、判別関数1の左側であって、本来ポジティブサンプルのみが分類される領域に、本来ネガティブサンプルとして判別関数1の右側に分類されねばならないサンプル3’が複数存在する。更に、判別関数1の右側であって、本来ネガティブサンプルのみが分類される領域に、本来ポジティブサンプルとして判別関数1の左側に分類されねばならないサンプル2’が複数存在する。これらのサンプル2’、3’は誤分類されたサンプルであり、分類率を低下させる原因となっている。現在の判別分析では、このような誤分類されたサンプル2’、3’を0とする(即ち、100%分類)ことは困難である。特に、化合物の毒性判別のように、毒性の要因が複雑でかつサンプル数が多いものに関しては、ほとんど不可能である。
図3は、複数の分類手法によって導出した複数の異なる判別関数1a、1b、1cを用いる場合を示す。図示の例は、3本の判別関数を用いる場合であるが、判別関数1aと判別関数1bあるいは1cの2本を用いてもよい。複数の判別関数を用いる場合、クラス決定のためのルールが必要となる。2本の判別関数で分類する場合は、サンプルは、2本の判別関数の分類結果が一致した場合、その分類されたクラスに帰属される。これらが、当初の分類目的である2つのクラスとなる。一方、2本の判別関数による分類結果が異なる場合はサンプルを分類することが出来ない。このような場合は、当初の分類目的としたクラスのいずれにも属さないクラス(ここでは、便宜上、グレークラスと呼ぶ)に割り当てられる。一方、判別関数が3本以上で、かつ、その本数が奇数である場合には、多数決を適用できるため、より細かなクラス決定ルールを設定することで、クラス決定を行うことが可能となる。
複数の判別関数を用いた分類では、判別関数の違いによりクラス帰属が変わらないサンプルセット(A)と、クラス帰属が変わるサンプルセット(B)とに分類される。分類率は全サンプルセットからサンプル(B)セットを除いた残りのサンプルセット(A)のみについての分類結果が示されるので、見かけ上の分類率は向上する。しかし、サンプルセット(B)の分類は実施されないので、全体(A+B)から見れば、完全分類からは程遠く、単に見かけ上の「分類率」向上を実現しているだけである。一般的に、複数の判別関数を用いた分類では、分類が困難なサンプルセットを用いる程、クラス決定できない(即ちグレークラス)サンプルの割合が増えてくる。場合によってはグレークラスの割合が90%を越す場合も出てくる。このような場合は、分類率が高くとも、クラス決定率が極めて低いので、実用上使い物にならない手法となる。
しかしながら、複数の異なる解析手法により得られた判別関数を用いても、サンプルセットを完全に正しく分類することは困難である。これは、図3において、3本の判別関数1a、1b、1cをどのように組み合わせたとしても、判別関数1a、1b及び1cの左側に存在するネガティブ(X)なサンプルや、判別関数1a,1b及び1cの右側に存在するポジティブ(○)なサンプルが存在するためである。即ち、複数の異なる判別関数を用いたとしても、極めて高い分類率を達成することは困難である。
上述したように、化合物の毒性予測では、実際には毒性の無い化合物を毒性があると誤分類してもその影響は小さいが、毒性のある化合物を毒性がないとして分類すること(フォールスネガティブ(偽のネガティブ)と言われる)は許されない。本発明者は、この点に着目して、毒性(発ガン性)のある化合物を意識的に高くする判別関数を作成した(非特許文献1参照)。この判別関数では、全体の分類率はあまり高くないが、フォールスネガティブ(偽のネガティブ)の発生確率を低下させることができた。しかしながら、この方法であっても、フォールスネガティブの発生確率を0とすることはできなかった。
北島正人、Ciloy Martin Jose、湯田浩太郎 「薬理活性 およびADMETを同時評価するインテグレーテッド高速/仮想インシリコンスクリーニング(II):NTP発癌性データ」 第30回構造活性相関シンポジウム講演要旨集、P37、豊橋、2002年
本発明は、従来の2クラス分類問題における、上記のような問題点を解決する目的でなされたものであって、分類手法の違いに関わらず、限りなく100%に近い分類率を達成することが可能な判別関数、即ち分類予測モデルの作成方法、作成のためのプログラム、および作成装置を提供することをその課題とする。また、高い信頼性を有する化合物の毒性予測モデルを作成する方法を提供することをその課題とする。
第1の発明では、上記課題を解決するために、第1のクラスに属する複数のサンプルと第2のクラスに属する複数のサンプルとを含むサンプルセットを学習データとして準備する第1のステップと、前記サンプルセットに判別分析を行って、前記第1のクラスに対する高い分類特性を持つ第1の判別関数と、前記第2のクラスに対する高い分類特性を持つ第2の判別関数を作成する第2のステップと、前記第1および第2の判別関数を用いて前記サンプルセットの分類を実行し、両者の分類結果が一致しないサンプルを特定する第3のステップと、前記第3のステップで特定されたサンプルを新たなサンプルセットとして用いて、前記第2のステップおよび前記第3のステップを繰り返す第4のステップと、前記第3のステップで前記一致しないサンプルの個数が一定値以下となった場合、繰り返し回数が一定値以上となった場合、繰り返しの処理時間が一定値以上となった場合のいずれかにおいて、前記第4のステップを停止させる第5のステップと、を備え、前記第2のステップで特定された前記第1および第2の判別関数を、クラス未知サンプルの分類予測モデルとして設定する、2クラス分類予測モデルの作成方法を提供する。
上記第1の発明では、まず、第1のクラスに属することが既知であるサンプルと第2のクラスに属することが既知であるサンプルとによって学習データが構成される。この学習データに対して判別分析を行って、第1のクラスに対して高い分類率、例えば実質的に100%の分類率を有する第1の判別関数と、第2のクラスに対して高い分類率、例えば実質的に100%の分類率を有する第2の判別関数を形成する。次に、これら2本の判別関数を用いて各サンプルの目的変数を計算し、両判別関数間で目的変数の値、即ち分類結果が一致したサンプルと一致しないサンプルを特定する。
2本の判別関数は、第1のクラスあるいは第2のクラスに対してほぼ100%の分類率を有するため、2本の判別関数間で分類結果が一致したサンプルについては、そのクラス分類は正しいと判断される。したがって、結果が一致したサンプルについては、分類されたクラス1又はクラス2にアサインする。一方、2本の判別関数間で結果が一致しないサンプルはグレークラスにアサインする。
本発明では、このようにして第1段階のグレークラスが形成されると、次に、このグレークラスにアサインされたサンプルを取り出し、新たなサンプルセットを構成する。このサンプルセットに対して、上述した2本の判別関数を形成し、各サンプルのクラス分けを行う。この結果、第2段階のグレークラスが形成される。以下、同様にして、第3段階のグレークラスの形成、第4段階のグレークラスの形成を実行する。このグレークラスの形成は、最終的にグレークラスにアサインされるサンプル数が0となるまで続けられる。
グレークラスにアサインされるサンプル数が0となった時点で、全てのサンプルが正しく本来のクラスに分類される。即ち、分類率100%が達成される。本発明では、グレークラスを形成する各段階で形成した複数の判別関数セットを、2クラス分類予測モデルとして設定する。
第2の発明では、上記課題を解決するために、第1のクラスに属する複数のサンプルと第2のクラスに属する複数のサンプルとを含むサンプルセットを学習データとして準備する第1のステップと、前記サンプルセットに判別分析を行って、前記第1のクラスに対する高い分類特性を持つ第1の判別関数と、前記第2のクラスに対する高い分類特性を持つ第2の判別関数を作成する第2のステップと、前記第1および第2の判別関数を用いて前記サンプルセットの分類を実行し、両者の分類結果が一致しないサンプルを特定する第3のステップと、前記第3のステップで特定されたサンプルを新たなサンプルセットとして用いて、前記第2のステップおよび前記第3のステップを繰り返す第4のステップと、前記第3のステップで前記一致しないサンプルの個数が一定値以下となった場合、繰り返し回数が一定値以上となった場合、繰り返しの処理時間が一定値以上となった場合のいずれかにおいて、前記第4のステップを停止させる第5のステップと、から構成される処理をコンピュータに実行させる、2クラス分類予測モデルの作成プログラムを提供する。
第3の発明では、上記課題を解決するために、特定の毒性を有する場合を第1のクラス、前記毒性を有しない場合を第2のクラスとするとき、前記第1のクラスに属する複数の化合物と前記第2のクラスに属する複数の化合物とを含むサンプルセットを学習データとして準備する第1のステップと、前記サンプルセットに判別分析を行って、前記第1のクラスに対する高い分類特性を持つ第1の判別関数と、前記第2のクラスに対する高い分類特性を持つ第2の判別関数を作成する第2のステップと、前記第1および第2の判別関数を用いて前記サンプルセットの分類を実行し、両者の分類結果が一致しない化合物を特定する第3のステップと、前記第3のステップで特定された化合物を新たなサンプルセットとして用いて、前記第2のステップおよび前記第3のステップを繰り返す第4のステップと、前記第3のステップにおける前記一致しない化合物の個数が一定値以下となった場合、繰り返し回数が一定値以上となった場合、繰り返しの処理時間が一定値以上となった場合のいずれかにおいて、前記第4のステップを停止させる第5のステップと、を備え、前記第5のステップ終了後の前記第2のステップで特定された複数の前記第1および第2の判別関数を、クラス未知の化合物の分類予測モデルとして設定する、化合物の毒性予測モデルの作成方法を提供する。
上記第1、第2および第3の発明において、前記第1の判別関数を、前記サンプルセットに対して判別分析を行って初期判別関数を形成する第6のステップと、前記初期判別関数による分類結果において、前記第2のクラスのサンプルであるにも関わらず前記第1のクラスのサンプルであると誤分類されたサンプルを前記サンプルセットから除去して新たなサンプルセットを形成し、当該サンプルセットに対して判別分析を行って新たな判別関数を得る第7のステップと、前記第7のステップで得られた新たな判別関数を前記初期判別関数として、前記第7のステップを、前記初期判別関数による前記第1のクラスの誤分類サンプルが実質的に0となるまで繰り返す、第8のステップと、を実行することによって形成し、前記第2の判別関数は、前記サンプルセットに対して判別分析を行って初期判別関数を形成する第9のステップと、前記初期判別関数による分類結果において、前記第1のクラスのサンプルであるにも関わらず前記第2のクラスのサンプルであると誤分類されたサンプルを前記サンプルセットから除去して新たなサンプルセットを形成し、当該サンプルセットに対して判別分析を行って新たな判別関数を得る第10のステップと、前記第10のステップで得られた新たな判別関数を前記初期判別関数として、前記第10のステップを、前記初期判別関数による前記第2のクラスの誤分類サンプルが実質的に0となるまで繰り返す、第11のステップと、を実行することによって形成してもよい。
更に、前記初期判別関数および前記新たな判別関数を、前記学習データとして準備されたサンプルセットに対して用意された初期パラメータセットに特徴抽出を行って最終パラメータセットを形成し、当該最終パラメータセットを用いて判別分析を行うことにより形成するようにしてもよい。
なお、第1の判別関数、第2の判別関数を得るための判別分析手法は必ずしも同じ手法を使用する必要は無く、またグレークラスを決定する各段階の判別手法も、各段階で異なっていてもよい。
第4の発明では、上記課題を解決するために、第1のクラスに属する複数のサンプルと第2のクラスに属する複数のサンプルとを含むサンプルセットを学習データとして入力する入力装置と、前記サンプルセットに判別分析を行って、前記第1のクラスに対する高い分類特性を持つ第1の判別関数と、前記第2のクラスに対する高い分類特性を持つ第2の判別関数を作成する判別関数の作成装置と、前記第1および第2の判別関数を用いて前記サンプルセットの分類を実行し、両者の分類結果が一致しないサンプルを特定する分類結果比較装置と、前記分類結果比較装置において特定されたサンプルを新たなサンプルセットとして用いて、前記判別関数の作成装置および前記分類結果比較装置を繰り返し作動させる制御装置と、を備え、前記制御装置は、前記分類結果比較装置における前記分類結果が一致しないサンプルの個数が一定値以下となった場合、繰り返し回数が一定値以上となった場合、繰り返しの処理時間が一定値以上となった場合のいずれかにおいて、前記繰り返し作動を停止させる、2クラス分類予測モデルの作成装置を提供する。
本発明では、上述したように、2クラス分類において、分類手法に関わらず実質的に100%の分類結果を得ることができる。この場合、サンプル数が増加し、初期の判別分析によってグレークラスにアサインされるサンプル数が多い場合であっても、グレークラスを形成する段階を増やすことによって、結果的に全てのサンプルを本来のクラスにアサインすることができる。そのため、この分類手法は、サンプル数の増大により分類率が低下するようなことは無い。実質的に膨大な数のサンプルを用いた場合でも完全分類が可能となる。この「分類率」が上限の100%を達成できることで、「予測率」の上限も向上する。
また、本発明の化合物の毒性予測方法では、毒性予測の学習に用いるサンプル数が例えば数千から数万以上に達した場合であっても、それらのサンプルについて実質的に100%の分類率を達成することができるので、サンプル母集団の増大効果により、毒性未知の化合物に対する毒性有無の判定を高い信頼性で判定する、極めて信頼性の高い化合物の毒性予測モデルを提供することができる。
段落番号(0011)で述べたように、毒性予測においては毒性のある化合物を毒性がないと評価することは大変危険である。本発明の手法は、このような可能性を限りなく小さくすることができる。このため、ヨーロッパ議会で施行が予定されているREACH規則に対応可能な分類/予測率の高いツールを提供することが可能となる。REACH規則では、ITによる化合物の毒性評価を使用者に義務付けるべく検討されており、高い分類率と予測率を達成する手法の開発が、緊急、かつ極めて大きな問題となっている。これらの問題に関しても、本手法を用いることによって、REACH規則が求めている、非常に信頼性の高い化合物の毒性予測モデルを提供することができる。
理想的な2クラス分類の結果を示すイメージ図である。 一般的な2クラス分類の結果を示すイメージ図である。 3本の異なる種類の判別関数を用いた、従来の2クラス分類結果を示すイメージ図である。 本発明の基本原理の説明に供するイメージ図である。 本発明に係るAP判別関数とAN判別関数を説明するイメージ図である。 本発明の一実施形態に係る分類予測モデル作成方法の手順を示すフローチャートである。 サンプルデータを保存するデータテーブルの一例を示す図である。 最終パラメータセットのデータを保存するテーブルの一例を示す図である。 初期判別関数と誤分類サンプルの関係を示すイメージ図である。 グレーサンプルを新たなサンプルセットとして分類を行う手順を示すイメージ図である。 各サンプルの最終帰属クラスを決定する経過を保存するデータテーブルである。 分類予測モデルを記憶するテーブルを示す図である。 AP判別関数を作成する手順を示すフローチャートである。 AP判別関数の作成方法の説明に供するイメージ図である。 AP判別関数の作成方法の説明に供するイメージ図である。 AP判別関数の作成方法の説明に供するイメージ図である。 AP判別関数の作成方法の説明に供するイメージ図である。 AN判別関数の作成手順を示すフローチャートである。 本発明の一実施形態に係る分類予測モデル作成装置のシステム構成を示す図である。 本発明の一実施形態に係る方法によって作成された分類予測モデルを使用してクラス未知サンプルの分類予測を行う手順を示すフローチャートである。
符号の説明
10 AP判別関数
20 AN判別関数
90 初期判別関数
92 ネガティブの誤分類サンプル
94 ポジティブの誤分類サンプル
100、102 グレークラス
200 2クラス分類予測モデルの作成装置
210 入力装置
220 出力装置
310 入力データテーブル
320 初期パラメータセットテーブル
330 最終パラメータセットテーブル
340 STAGEごとのAP/AN判別関数保存テーブル
400 解析部
410 初期パラメータ発生エンジン
420 制御部
430 特徴抽出エンジン
440 判別関数作成エンジン
450 分類結果比較部
460 新たなサンプルセット設定部
470 解析終了条件検出部
[本発明の分類原理]
本発明の実施形態を説明する前に、まず、本発明の分類原理について説明する。
図4は、通常の2クラス分類の結果を示す図であって、図2に示す図と同じものである。なお、以下の説明では、説明の簡略化のために、クラス1をポジティブクラス、クラス2をネガティブクラスとするが、本発明が全ての2クラス分類に適用可能であることは勿論である。2クラス分類の結果得られた判別関数1では、ポジティブサンプルについてもネガティブサンプルについても、誤分類されたサンプル2’、3’が存在する。今、図示のN次元サンプル空間において、点線で囲む領域4および領域5に注目すると、領域4内では誤分類されたポジティブサンプルが存在せず、正しく分類されたネガティブサンプル3のみが存在する。領域5では、誤分類されたネガティブサンプルが存在せず、正しく分類されたポジティブサンプル2のみが存在する。領域4と領域5の中間領域6は、正しく分類されたサンプルと誤分類されたサンプルが混在する領域である。
このような複数の領域の存在に対して、発明者は以下のように考えた。即ち、これらの領域4、5、6を正確に分離することができれば、正しくクラス分類されたサンプル、即ち、領域4、5に属するサンプルをサンプル母集団から除外し、領域6に属するサンプルセットについて新たなN次元パラメータを設定して第2回目のクラス分類を行うことができる。この再度のクラス分類の結果において、第1回目の2クラス分類の場合と同様に、正しく分類されたネガティブサンプルのみを含む領域、正しく分類されたポジティブサンプルのみを含む領域、および誤分類されたサンプルを含む領域が存在する。従って、再度の2クラス分類の結果における、誤分類されたサンプルを含む領域内のサンプルセットを特定し、新たなN次元パラメータを設定して第3回目の2クラス分類を行うことができる。
このようにして、誤分類されたサンプルが0となるまで上記のような2クラス分類を繰り返すことにより、最終的に初期の全サンプルが正確に分類されることとなる。従って、問題は、どのようにして図4に示す領域4、5及び6を特定することができるかである。本発明者は、この点に関して、2本の判別関数を利用することを考えた。これらの判別関数は、何れも2クラス分類のための判別関数であるが、その特性が両者で全く異なっている。
図5は、本発明において用いる2本の判別関数の特性を説明するための図である。図において、10は全てのポジティブサンプルが判別関数の片側のみに偏って局在するので、これらのポジティブサンプルセットを総て正しく分類することができる特性を持つ判別関数である。一方、20は全てのネガティブサンプルが判別関数の片側に局在するので、これらのサンプルセットを総てネガティブであると正しく分類することができる。判別関数10をオールポジティブ(以下、AP)判別関数と呼び、判別関数20をオールネガティブ(以下、AN)判別関数と呼ぶ。AP判別関数10は、全てのポジティブサンプルを正しく分類しているが、ネガティブサンプルについては判別関数の両側に存在するために誤分類サンプルを含む。しかしながら、全てのポジティブサンプルを正しく分類しているが故に、AP判別関数10においてネガティブであると分類されたサンプル中に、誤分類されたポジティブサンプルを含まない。即ち、図5のAP判別関数10の右側の領域には正しく分類されたネガティブサンプルのみが存在する。したがって、AP判別関数10でネガティブと分類されたサンプルついては、ネガティブクラス、即ちクラス2に帰属させても誤分類の発生は0である。
同様に、AN判別関数20は、全てのネガティブサンプルをネガティブであると正しく分類しているが、ポジティブサンプルについては誤分類されたサンプルを含む。しかしながら、全てのネガティブサンプルを正しく分類しているが故に、AN判別関数20においてポジティブであると分類されたサンプル中に、誤分類されたネガティブサンプルを含まない。即ち、図5のAN判別関数20の左側の領域には正分類されたポジティブサンプルのみが存在する。したがって、AN判別関数20でポジティブとされたサンプルについてはポジティブクラス、即ちクラス1に帰属させても誤分類の発生は0となる。
一方、図5において、AP判別関数10とAN判別関数20の中間の領域にはポジティブサンプルとネガティブサンプルが混在し、この領域のサンプルをどちらのクラスに帰属させるかを決定することはできない。したがって、このクラスをグレークラス、即ちクラス3に分類する。上述した2回目、3回目の2クラス分類は、このグレークラス、即ちクラス3に帰属するサンプルについて行われる。したがって、このような2クラス分類を、クラス3に帰属するサンプル数が0となるまで行えば、理論上、初期のサンプル母集団に含まれる全てのサンプルについて、分類率100%の2クラス分類を行うことが可能となる。
なお、図5では、AP判別関数10およびAN判別関数20でサンプル空間を3つのクラスに分離したイメージを示しているが、3クラス分類の実際の作業は、AP判別関数およびAN判別関数を用いて2回の2クラス分類を行い、分類結果が同じサンプルについては、その分類結果にしたがったクラスに帰属させ、分類結果が異なるサンプルについては、クラス3に帰属させることによって行われる。このクラス3は、分類結果に応じて新たに設定されたクラスで、分類に用いた2本の判別関数では当初の目的としたクラス1、クラス2のいずれにも帰属できないサンプルが帰属するクラス(グレークラス)である。したがって、本発明は基本的には2クラス分類であり、元々、サンプルを3種類のクラスに分類する3クラス分類とは異なる。
[本発明の一実施形態に係る分類予測モデルの作成方法]
以下に、AP判別関数およびAN判別関数を得るための手順を含めて、本発明に係る一実施形態について説明する。なお、本発明は、クラス分類手法の種類に関わらず適用可能である。したがって、線形判別分析及び非線形判別分析等の手法の差異に関わらず、同じ原理で適用可能である。例えば、線形判別分析としては、線形学習機械法、判別分析、Bayes線形判別分析、SVM(Support Vector Machine)、AdaBoost等の手法が適用可能であり、非線形判別分析としては、Bayes非線形判別分析、ニューラルネットワーク等の手法が適用可能である。
図6は、本発明の一実施形態にかかる分類予測モデルの作成方法の全体手順を示すフローチャートである。まず、グレークラスを特定する第1の段階、即ちSTAGE1を開始する。ステップP1で、目的特性に対する値が既知の複数のサンプルを用意する。例えば、ある毒性を有することが既知であるサンプル、即ちポジティブサンプルを例えば500個、その毒性を持たないことが既知であるサンプル、即ちネガティブサンプルを例えば500個用意する。用意されたサンプルは分類予測モデルの作成装置に入力され、図7に示すようなサンプルデータを保存するためのテーブルを構成する。
図7において、コラム70はサンプルである化合物の2次元あるいは3次元の構造式を示す。コラム71はその化合物のCAS番号を示し、コラム72は、Amesテストの結果を示している。コラム72において、mutagenはAmesテストの結果、変異原性有り(+)を示し、nonmutagenは変異原性を持たない(−)ことを示している。図示の例では、mutagenであるサンプルをクラス1(ポジティブクラス)にnonmutagenであるサンプルをクラス2(ネガティブクラス)に2クラス分類するためのデータテーブルを示している。なお、コラム73は、サンプル番号を示す。
次に、ステップP2において、目的変数を算出するための初期パラメータ、即ち説明変数(x1、x2・・・xx)を発生させる。初期パラメータは、化合物の構造から自動的に発生させる。例えば、富士通株式会社で販売するADMEWORKS−ModelBuilder(登録商標)では、化合物の2次元あるいは3次元構造、各種の物性に基づいて800個以上のパラメータを発生させることができる。ステップP3では、発生させた初期パラメータに対して特徴抽出を行い、分類に不必要なノイズパラメータを除去する。これによって、最終パラメータセット(x1、x2・・・xn)が決定される(ステップP4)。特徴抽出としては、単相関係数、重相関係数、出現頻度、Fischer比、Variance法などの種々の既知手法を用いて実施することができる。特徴抽出のための各種のエンジンも一般に提供されている。
図8は、特徴抽出の結果、Amesテスト結果に影響あるとして選択された最終パラメータセットと、個々の化合物のこれらのパラメータに対する数値データを示すテーブルである。コラム80は化合物を構造式で特定し、コラム81以降は各種のパラメータを示している。例えば、コラム81は化合物の分子量を、コラム82は分子表面積を、コラム83はlogPの値をパラメータとしたことを示している。データテーブル中のセル84内に記載された値は、サンプル1の分子の分子量を示すデータ、セル85内の値は、サンプル1の分子表面積の値を示すデータ、セル86内の値はサンプル1のlogP値を示すデータである。各セル内に示された値が、そのサンプルのパラメータデータとなる。なお、コラム84は、各サンプルのサンプル番号を示している。
次に、ステップP3で発生させた最終パラメータセットを用いて判別分析を行い、初期判別関数を作成する(ステップP5)。判別分析では、判別関数は以下の式(1)として示される。
Figure 0004985653
式(1)において、Ykはk番目のサンプルの目的変数の値であり、x1k、x2k、x3k・・・xnkは、k番目のサンプルにおけるパラメータ(説明変数)データ、a1、a2、a3・・・anは各パラメータに対する係数である。Constは、定数を表す。パラメータデータx11、x21、x31・・・は、図8の各セル内に記載されたデータにより、得られる。したがって、判別分析により、各パラメータに対する係数a1、a2・・・が求められると、図8のテーブルに示される各セル内のデータを式(1)に導入することによって、各サンプルの目的変数の値Yが計算される。この値Yを用いてサンプルのクラス分類が行われる。図7、8に示す例では、nonmutagenの場合、Yの値がマイナスとなり、mutagenの場合Yの値が+となるように、判別関数を生成する。なお、判別分析を行う各種のエンジンも一般に提供されている。
次に、ステップP6において、作成された初期判別関数を用いて全サンプルのクラス分類を行い、分類結果の正誤チェックを行う(ステップP7)。このチェックはまず、初期判別関数を用いて全サンプルの目的変数Yの値を計算し、各サンプルについて何れのクラスに属するかをアサインした後、アサインされたクラスとそのサンプルについての実測値とを比較することによって行われる。例えば、図7の入力データテーブルでは、サンプル1はAmesテストについてネガティブであるが、これが実測値である。作成した初期判別関数を用いて目的変数Yを計算した結果がネガティブとなれば、サンプル1は正しく分類されたサンプルとしてチェックされる。一方、サンプル4は実測値がポジティブであるが、目的変数Yがネガティブとなれば、サンプル4は誤分類されたサンプルとしてチェックされる。
図9に、ステップP5で作成された初期判別関数による分類結果をイメージとして示す。図において、○は本来ポジティブであるサンプル、×は本来ネガティブであるサンプルを示す。初期判別関数90はもっとも高い分類率を得るように最適化されているが、誤分類サンプルも多く含んでいる。初期判別関数90の左側のサンプルは、ステップP5までの判別分析によってポジティブであるとされたサンプル、初期判別関数90の右側のサンプルは判別分析によってネガティブとされたサンプルを示す。したがって、ポジティブクラスに分類された本来ネガティブであるサンプル92、ネガティブクラスに分類された本来ポジティブであるサンプル94が誤分類サンプルである。サンプル92をネガティブの誤分類サンプル、サンプル94をポジティブの誤分類サンプルと呼ぶ。
図6のステップP7では、誤分類サンプル92、94が存在するか否かを判定する。もしこの段階で誤分類サンプル92、94が存在しなければ(ステップP7のYES)、100%の分類率で2クラス分類が実行されているため、この時点で処理を終了する(ステップP11)。
ステップP7で誤分類サンプル92、94のいずれかが存在すれば(ステップP7のNO)、ステップP8のAP判別関数、AN判別関数の作成・記憶ステップを実行する。AP判別関数、AN判別関数の作成方法については、後述する。
次に、ステップP9において、サンプルのクラス分類を実行する。ステップP9では、ステップP8で得られたAPおよびANの2本の判別関数を用いて、各サンプルのYの値を計算し、2本の判別関数で結果が一致したものを正しく分類されたサンプルとして本来のクラス1(ポジティブクラス)あるいはクラス2(ネガティブクラス)に分類する。2本の判別関数で結果が一致しなかったものを、グレークラスに分類する。このクラス分類は、図5を用いて既に説明されている。
即ち、AP判別関数10とAN判別関数20でともにポジティブとされたサンプル、即ちAN判別関数20の左側の領域に存在するポジティブサンプルを正しく分類されたポジティブサンプルとしてクラス1に分類し、AP判別関数10の右側に存在するネガティブサンプルを正しく分類されたネガティブサンプルとしてクラス2に分類する。2本の判別関数10、20の中間にあるネガティブサンプル、ポジティブサンプルをグレークラスに分類する。
ステップP10で、グレークラスのサンプル数が0であるか否かを判定する。もし、グレークラスのサンプル数が0であれば(ステップP10のYES)、既に全てのサンプルがクラス1、クラス2に正確に分類されているので、この段階で処理を終了し(ステップP11)、ステップP8で得られたAP判別関数、AN判別関数を分類予測モデルとして決定する。
ステップP10でNOの場合、グレークラスに分類されたサンプルを抽出し(ステップP12)、抽出したサンプルで新たなサンプルセットを形成する。次に、ステップP13でSTAGEを1だけ進め、ステップP3以下を再度実行する。ステップP3からステップP13のループは、ステップP7において誤分類サンプルが0となる(ステップP7のYES)か、ステップP10において、グレークラスのサンプル数が0となる(ステップP10のYES)まで繰り返される。
図10に、図6のステップP3からP13に至るループでの処理をイメージとして示す。図10で、AP1、AP2、AP3は、各STAGEにおけるAP判別関数を、AN1、AN2、AN3は各STAGEにおけるAN判別関数を示す。STAGE1では、サンプルの母集団からグレークラスに分類されるサンプルを特定し、STAGE2ではSTAGE1でグレークラスに分類されたサンプル(領域100内のサンプル)を新たなサンプルセットに特定し、ステップP3からステップP13までを行って、新たなグレークラスのサンプル(領域102内のサンプル)を特定する。STAGE3以下でも同じ処理を行う。この処理は、グレークラスに分類されるサンプルが0となるまで行われる。
なお、ステップP3からステップP13までのループは、殆どの場合グレークラスのサンプルが0となるまで繰り返して行われる。しかし、まれなケースではあるが、何らかの理由により、グレークラスのサンプルが0に収束しない場合が起こりうる。そのような場合に対処するために、STAGEの回数を予め設定しておくことや、処理時間を予め設定しておくことによって、不要な処理を強制的に終了させるようにしてもよい。
図11は、各STAGEにおけるサンプル分類結果、および各サンプルの最終帰属結果を格納するテーブルを示す。図のコラム110、111、112、113および114は、各サンプルの各STAGEで決定されたクラス分類に関する情報を示している。コラム115は、各サンプルの最終帰属結果を示す。このテーブルでは、例えば、サンプル1に対してSTAGE1のAP判別関数AP1を適用した結果、ネガティブ(−)と判定され、AN判別関数AN1を適用した結果、ポジティブ(+)と判定されたことを示している。
両者の結果が一致しないので、サンプル1は、STAGE1ではグレークラスに分類される。サンプル1は、STAGE4のAP判別関数AP4、AN判別関数AN4での分類結果がともにネガティブと判定されたので、STAGE4において、ネガティブクラス、即ちクラス2に分類される。したがって、以降の分類は行われず、最終帰属クラスはクラス2と決定される。
サンプル2は、STAGE1のAP判別関数AP1、AN判別関数AN1の結果がともにネガティブであるので、STAGE1においてクラス2に分類され、以降の処理は行われない。サンプルnは、STAGE5においてAP、AN判別関数による分類結果が一致するため、STAGE5においてクラス1に分類される。図11では、STAGE5で全てのサンプルの最終帰属クラスが決定された状態を示しているが、STAGE5でもサンプルの最終帰属クラスが決定されない場合は、STAGE6以降を実行する。
以上の操作を実行することによって、全てのサンプルに対して最終帰属クラスが決定される。この、決定までに要した各STAGEでのAP判別関数、AN判別関数を用いて、クラス未知のサンプルのクラス帰属を予測するためのモデルとする。即ち、AP1、AN1のセット、AP2、AN2のセット、AP3、AN3のセット・・・APn、ANnのセットが未知サンプルの分類予測モデルとして使用される。なお、予測の場合は予め用意された総てのSTAGEでのAPおよびANモデルを用いても、最後までクラス決定のされないサンプルが残る場合がある。この場合のサンプルの最終帰属クラスはグレークラスとなる。但し、STAGEの最後がAP及びAN判別関数の2本による分類でなく、1本の判別関数による分類で終了している場合は、総てのサンプルは必ずどちらかのクラスに帰属されることになる。
図12は、以上のようにして作成された分類予測モデルを保存するためのテーブルである。STAGEごとに決定されたAP判別関数、AN判別関数のセットが保存されている。なお、このような分類予測モデルを使用した未知サンプルの分類予測手順については、後述する。
[AP判別関数、AN判別関数の作成方法]
次に、図6のステップP6に示すAP判別関数、AN判別関数の作成手順について説明する。
図13はAP判別関数の作成手順を示すフローチャートである。図6のステップP7において誤分類サンプルが存在すると判定されると(ステップP7のNO)、AP判別関数関数の作成を開始する。まず、ステップP20において、ポジティブの誤分類サンプル(図9の94)が存在するか否かをチェックする。ポジティブの誤分類サンプルが存在しなければ(ステップP20のYES)、ステップP5で作成した初期判別関数をSTAGE1でのAP判別関数として確定し(ステップP21)、ステップP9へ戻ってSTAGE1のAN判別関数関数の作成を行う。
ステップP20でポジティブの誤分類サンプルが存在するとチェックされると、ステップP22でネガティブの図9の誤分類サンプル92をサンプルセットから取り除く作業を行い、これによって新たなサンプルセットS1を構築する。図14は、このようにして形成された新たなサンプルセットと、初期判別関数90の関係を示す。本来ポジティブであるサンプルは全て残っているが、初期判別関数90によって誤分類されたネガティブサンプル(図9の92)は除去されている。
次のステップP23では、ステップP22で形成された新たなサンプルセットS1に対して、図6のステップP2で発生させた初期パラメータに対して特徴抽出を行い、最終パラメータセットを決定し(ステップP24)、判別分析を行って仮のAP判別関数を作成する(ステップP25)。
図15に、ステップP25で形成された仮のAP判別関数90(AP1)と初期判別関数90との関係を示す。ステップP22で、誤分類されたネガティブサンプル92(図9参照)がサンプルセットS1より除去されているので、ステップP25で新たな判別分析を行った場合、作成される判別関数90(AP1)は元の判別関数90よりもネガティブ側(右側)に移動する。ステップP26では、この新たに作成された判別関数を用いて、サンプルセットS1内の全てのサンプルについてクラス分類を行い、分類の正誤チェックを実施する。図15に示す例では、新たな判別関数、即ち仮のAP判別関数90(AP1)であっても、依然としてポジティブの誤分類サンプル94が存在している。また、判別関数が移動することによって、最初の判別関数90では正しく分類されていたネガティブサンプルが、誤分類されたネガティブサンプル96となる場合もある。
したがって、ステップP20においてポジティブの誤分類サンプルの存在を確認した後(ステップP20のNO)、新たに発生したネガティブの誤分類サンプル96を除去して(ステップP23)、新サンプルセットを形成する。以下、ステップP23以降のループを実行することにより、最終的に、ポジティブの誤分類サンプルを含まないサンプルセットを得ることができる。
図16は、このようにして形成された新たなサンプルセットと、そのときの判別分析に用いられた判別関数90(AP)との関係を示す図である。判別関数90(AP)は、全てのポジティブサンプルを正確に分類しているので、現在のSTAGEにおけるAP判別関数として確定される。
図17は、以上のようにして求めたAP判別関数によって、初期サンプルセットの分類を実行した結果を示す。図示するように、AP判別関数90(AP)によってポジティブサンプルは100%正確に分類されているが、ネガティブサンプルの分類率が悪いことが理解される。このAP判別関数90(AP)は、図5のAP判別関数10に相当する。
図18に、AN判別関数生成のためのフローチャートを示す。ステップP30では、初期判別関数を用いた分類の結果に対して、ネガティブの誤分類サンプルが存在するか否かをチェックする。具体的には、図9において、ポジティブの領域に分類された、本来ネガティブであるサンプル(ネガティブの誤分類サンプル)92が存在するか否かをチェックする。ステップP30で誤分類サンプルが存在しないと判定された場合(ステップP30のYES)は、初期判別関数90を現STAGEでのAN判別関数として決定する(ステップP31)。
ステップP30でネガティブの誤分類有りと判定された場合(ステップP30のNO)は、図9のポジティブの誤分類サンプル94を取り除く処理を行う(ステップP32)。以下、AP判別関数を作成する手順と同様にして、ステップP33以降の手順を実行することにより、AN判別関数を得ることができる。なお、図18において、ステップP33は図13のステップP23に対応し、ステップP34はステップP24に対応し、ステップP35はステップP25に対応し、更にステップP36はステップP26に対応しており、同様の処理を行うのでその説明は省略する。
図13および図18の処理を実行することによって、AP判別関数、AN判別関数が得られると、図6に示すステップP9以下を実行することによって、サンプルのクラス1(ポジティブ)、クラス2(ネガティブ)およびグレークラスへの分類が行われ、それに基づいて分類予測モデルが作成されることは、図6の説明の項で述べたとおりである。
以下に、上述した2クラス分類手法についてのその他の特徴点を記載する。
[判別関数(分類モデル)の組み合わせ]
それぞれのSTAGE間で、使用する2本の判別関数(AP判別関数とAN判別関数)の作成手法は、必ずしも、同じである必要はない。また、1個のSTAGEにおいて、AP判別関とAN判別関数の作成手法も同一である必要はない、以下に、各STAGEにおいて作成する判別関数の作成手法の組み合わせ例を示す。
1)1個のSTAGE内のAP判別関数とAN判別関数で、作成手法を変える。
例)STAGE2 AN判別関数:線形学習機械法
AP判別関数:ニューラルネットワーク
STAGE3 AN判別関数:Bayes判別分析法
AP判別関数:最小二乗アルゴリズムによる判別分析法
2)STAGE内は同一の分類モデルの作成手法で統一するが、STAGE単位では様々な作成手法を用いる。
例)STAGE2 AN判別関数:線形学習機械法
AP判別関数:線形学習機械法
STAGE3 AN判別関数:Bayes判別分析法
AP判別関数:Bayes判別分析法
[システム構成]
図19は、本発明の一実施形態に係る2クラス分類予測モデルの作成装置のシステム構成を示すブロック図である。本実施形態の分類予測モデルの作成装置200は、サンプルデータを入力する入力装置210、分類結果あるいは処理途中の必要なデータを出力する出力装置220を備えている。入力装置210から、分類の学習に必要なサンプル情報が入力データテーブル310に入力される。入力装置210は、同様に初期パラメータセットのデータを初期パラメータセットテーブル320に入力する。なお、解析部400が入力されたサンプルについて初期パラメータを自動的に発生するためのエンジン410を有している場合は、初期パラメータセットデータを入力装置210から入力する必要はない。
図19において、330は最終パラメータセットを保存するテーブルであり、初期パラメータセットに対して特徴抽出を行った結果としての最終パラメータセットを保存する。340は、STAGEごとに決定されたAP/AN判別関数を保存するためのテーブルである。
解析部400は、制御部420と、初期パラメータ発生エンジン410、特徴抽出エンジン430、判別関数作成エンジン440、分類結果比較部450、新たなサンプルセット設定部460および解析終了条件検出部470を備えている。初期パラメータを本装置の外部で発生させる場合は、初期パラメータ発生エンジン410は必要とされない。また、初期パラメータ発生エンジン410、特徴抽出エンジン430は、既存のものを使用することができる。
特徴抽出エンジン430は、初期パラメータセットに対して特徴抽出を行って最終パラメータセットを決定し、これを最終パラメータセットテーブル330に保存する。判別関数作成エンジン440は、種々の既存の判別分析エンジンを備えており、ユーザによって指定された判別分析エンジンあるいはシステムが適宜選択した判別分析エンジンを用いて、最終パラメータセットテーブル330を参照しながら、入力サンプルの判別分析を行って初期判別関数を作成する。更に、この初期判別関数に基づいて、AP判別関数、AN判別関数を作成する。分類結果比較部450は初期判別関数、AP判別関数、AN判別関数による分類結果を適宜比較し、サンプルをクラス1、クラス2およびグレークラスに分類する。新たなサンプルセット設定部460は、分類結果比較部450の出力に基づいて、グレークラスのサンプルのみのサンプルセットを形成する。
特徴抽出エンジン430、判別関数作成エンジン440、分類結果比較部450、新たなサンプルセット設定部460は、制御部420の制御下で作動し、図6、13、18に示す処理を実行する。なお、解析終了条件検出部470は、グレークラスのサンプルが実質的に0となった時点を検出して、分類予測モデルの作成を終了させる働きをする。あるいは、何らかの原因でグレークラスのサンプルが0に収束しない場合、処理の繰り返し回数、即ちSTAGE数が予め決定した回数であることを検出した場合、あるいは、処理時間が予め決定した時間を越えた場合に、処理の終了を決定する。
解析部400で得られた各STAGEのAP/AN判別関数は、判別関数保存テーブル340に保存され、あるいは出力装置220を介して外部に出力される。出力の形態は、USBファイル、ディスプレイ、プリントアウト等を、適宜選択する。
[クラス未知サンプルの分類予測]
図20に、本発明の方法、プログラム、装置によって形成された2クラス分類予測モデルを使用して、クラス未知サンプルの分類予測を行う場合の処理のフローチャートを示す。ステップS50でクラス未知サンプルXについて、パラメータを準備する。ステップS51でSTAGEを1に設定する。ステップS52で、STAGE1のAPおよびAN判別関数として記憶された判別関数を用いて、サンプルXのクラス分類を実行する。クラス分類は、目的変数を計算することによって実行される。ステップS53で、APおよびAN判別関数による分類結果を比較し、結果が同じ(ステップS53のYES)であれば、一致したクラスをサンプルXのクラスにアサインし(ステップS54)、処理を終了する(ステップS55)。
ステップS53でAP、AN判別関数による分類の結果が一致しない場合(ステップS53のNO)は、ステップS56でSTAGEを1だけ進め、ステップS57で進めたSTAGEが最終STAGEでないことを確認した後(ステップS57のNO)、ステップS52に戻って次のSTAGEのAP判別関数、AN判別関数を用いてサンプルXのクラス分類を行う。
以上のステップを、ステップS53で分類結果が一致するまで行うことによって、クラス未知サンプルXの予測クラスが決定される。なお、STAGEが最終STAGEnを超えてもサンプルXの分類予測が決定されない場合は(ステップS57のYES)、処理を終了する(ステップS55)。以上によって、クラス未知サンプルの分類予測が実施される。
本発明は、2クラス分類が適用可能な全ての産業分野に適用可能である。以下に、主な適用分野を列挙する。
1)化学データ解析
2)バイオ関連研究
3)蛋白質関連研究
4)医療関連研究
5)食品関連研究
6)経済関連研究
7)工学関連研究
8)生産歩留まり向上等を目的としたデータ解析
9)環境関連研究
1)の化学データ解析分野では、より詳細には、下記のような研究に適用できる。
(1)構造−活性/ADME/毒性/物性相関の研究
(2)構造−スペクトル相関研究
(3)メタボノミクス関連研究
(4)ケモメトリクス研究
例えば、構造−毒性相関研究分野では、Amesテスト結果の予測を行うことが極めて重要である。何故ならば、Amesテストは、毒性化合物規制関連の化合物審査法や労働安全衛生法等の国レベルの化合物規制に、最重要項目の一つして組み込まれているからである。このAmesテストの審査を通らなければ、日本国内での化合物生産はできなくなり、企業の生産活動自体がストップする。また、海外での生産や輸出等も対象国の安全性規制により活動できなくなる。例えば、ヨーロッパ議会におけるREACH規則では、化合物を使用する企業が、その化合物についてAmesテストの結果を予測し、評価する義務を負っている。なお、Amesテストとは、米国のAmes博士が開発した変異原性試験の一つで、発がん性試験の簡易手法である。このために、多くの化学物質あるいはこれらを用いた製品の安全性の指針として採用されている試験である。

Claims (8)

  1. 第1のクラスに属する複数のサンプルと第2のクラスに属する複数のサンプルとを含むサンプルセットを学習サンプルセットとして準備する第1のステップと、
    前記学習サンプルセットに第1の判別分析を行って、前記第1のクラスに対する高い分類特性を持つ第1の判別関数を得る第1のサブステップと、前記学習サンプルセットに前記第1の判別分析とは異なる第2の判別分析を行って、前記第2のクラスに対する高い分類特性を持つ第2の判別関数を得る第2のサブステップとを含む、第2のステップと、
    前記第1および第2の判別関数を用いて前記学習サンプルセットの分類を実行し、両者の分類結果が一致しないサンプルを特定する第3のステップと、
    前記第3のステップで特定されたサンプルを新たなサンプルセットとして用いて、前記第2のステップおよび前記第3のステップを繰り返す第4のステップと、
    前記第3のステップで前記一致しないサンプルの個数が一定値以下となった場合、繰り返し回数が一定値以上となった場合、繰り返しの処理時間が一定値以上となった場合のいずれかにおいて、前記第4のステップを停止させる第5のステップと、
    から構成される処理をコンピュータに実行させる、2クラス分類予測モデルの作成プログラム。
  2. 請求項1に記載の2クラス分類予測モデルの作成プログラムにおいて、
    前記第1のサブステップは、前記第1の判別関数を得るために、
    前記学習サンプルセットに対して判別分析を行って初期判別関数を形成する第6のステップと、
    前記初期判別関数による分類結果において、前記第2のクラスのサンプルであるにも関わらず前記第1のクラスのサンプルであると誤分類されたサンプルを前記サンプルセットから除去して新たなサンプルセットを形成し、当該サンプルセットに対して判別分析を行って新たな判別関数を得る第7のステップと、
    前記第7のステップで得られた新たな判別関数を前記初期判別関数として、前記第7のステップを、前記初期判別関数による前記第1のクラスの誤分類サンプルが実質的に0となるまで繰り返す、第8のステップと、を備え、
    前記第2のサブステップは、前記第2の判別関数を得るために、
    前記学習サンプルセットに対して判別分析を行って初期判別関数を形成する第9のステップと、
    前記初期判別関数による分類結果において、前記第1のクラスのサンプルであるにも関わらず前記第2のクラスのサンプルであると誤分類されたサンプルを前記サンプルセットから除去して新たなサンプルセットを形成し、当該サンプルセットに対して判別分析を行って新たな判別関数を得る第10のステップと、
    前記第10のステップで得られた新たな判別関数を前記初期判別関数として、前記第10のステップを、前記初期判別関数による前記第2のクラスの誤分類サンプルが実質的に0となるまで繰り返す、第11のステップと、を備える、2クラス分類予測モデルの作成プログラム。
  3. 第1のクラスに属する複数のサンプルと第2のクラスに属する複数のサンプルとを含むサンプルセットを学習サンプルセットとして準備する第1のステップと、
    前記学習サンプルセットに第1の判別分析を行って、前記第1のクラスに対する高い分類特性を持つ第1の判別関数を得る第1のサブステップと、前記学習サンプルセットに前記第1の判別分析とは異なる第2の判別分析を行って前記第2のクラスに対する高い分類特性を持つ第2の判別関数を得る第2のサブステップとを含む、第2のステップと、
    前記第1および第2の判別関数を用いて前記学習サンプルセットの分類を実行し、両者の分類結果が一致しないサンプルを特定する第3のステップと、
    前記第3のステップで特定されたサンプルを新たなサンプルセットとして用いて、前記第2のステップおよび前記第3のステップを繰り返す第4のステップと、
    前記第3のステップで前記一致しないサンプルの個数が一定値以下となった場合、繰り返し回数が一定値以上となった場合、繰り返しの処理時間が一定値以上となった場合のいずれかにおいて、前記第4のステップを停止させる第5のステップと、を備え、
    前記第2のステップで特定された前記第1および第2の判別関数を、クラス未知サンプルの分類予測モデルとして設定する、コンピュータが実行する2クラス分類予測モデルの作成方法。
  4. 請求項3に記載の2クラス分類予測モデルの作成方法において、
    前記第1のサブステップは、前記第1の判別関数を得るために、
    前記学習サンプルセットに対して判別分析を行って初期判別関数を形成する第6のステップと、
    前記初期判別関数による分類結果において、前記第2のクラスのサンプルであるにも関わらず前記第1のクラスのサンプルであると誤分類されたサンプルを前記サンプルセットから除去して新たなサンプルセットを形成し、当該サンプルセットに対して判別分析を行って新たな判別関数を得る第7のステップと、
    前記第7のステップで得られた新たな判別関数を前記初期判別関数として、前記第7のステップを、前記初期判別関数による前記第1のクラスの誤分類サンプルが実質的に0となるまで繰り返す、第8のステップと、を備え、
    前記第2のサブステップは、前記第2の判別関数を得るために、
    前記学習サンプルセットに対して判別分析を行って初期判別関数を形成する第9のステップと、
    前記初期判別関数による分類結果において、前記第1のクラスのサンプルであるにも関わらず前記第2のクラスのサンプルであると誤分類されたサンプルを前記サンプルセットから除去して新たなサンプルセットを形成し、当該サンプルセットに対して判別分析を行って新たな判別関数を得る第10のステップと、
    前記第10のステップで得られた新たな判別関数を前記初期判別関数として、前記第10のステップを、前記初期判別関数による前記第2のクラスの誤分類サンプルが実質的に0となるまで繰り返す、第11のステップと、を備える、コンピュータが実行する2クラス分類予測モデルの作成方法。
  5. 請求項4に記載の2クラス分類予測モデルの作成方法において、
    前記初期判別関数および前記新たな判別関数は、前記学習サンプルセットに対して用意された初期パラメータセットに特徴抽出を行って最終パラメータセットを形成し、当該最終パラメータセットを用いて判別分析を行うことにより形成されることを特徴とする、コンピュータが実行する2クラス分類予測モデルの作成方法。
  6. 特定の毒性を有する場合を第1のクラス、前記毒性を有しない場合を第2のクラスとするとき、前記第1のクラスに属する複数の化合物と前記第2のクラスに属する複数の化合物とを含むサンプルセットを学習サンプルセットとして準備する第1のステップと、
    前記学習サンプルセットに第1の判別分析を行って、前記第1のクラスに対する高い分類特性を持つ第1の判別関数を得る第1のサブステップと、前記学習サンプルセットに前記第1の判別分析とは異なる第2の判別分析を行って前記第2のクラスに対する高い分類特性を持つ第2の判別関数を得る第2のサブステップとを含む、第2のステップと、
    前記第1および第2の判別関数を用いて前記学習サンプルセットの分類を実行し、両者の分類結果が一致しない化合物を特定する第3のステップと、
    前記第3のステップで特定された化合物を新たなサンプルセットとして用いて、前記第2のステップおよび前記第3のステップを繰り返す第4のステップと、
    前記第3のステップにおける前記一致しない化合物の個数が一定値以下となった場合、繰り返し回数が一定値以上となった場合、繰り返しの処理時間が一定値以上となった場合のいずれかにおいて、前記第4のステップを停止させる第5のステップと、を備え、
    前記第5のステップ終了後の前記第2のステップで特定された複数の前記第1および第2の判別関数を、クラス未知の化合物の分類予測モデルとして設定することを特徴とする、コンピュータが実行する化合物の毒性予測モデルの作成方法。
  7. 第1のクラスに属する複数のサンプルと第2のクラスに属する複数のサンプルとを含むサンプルセットを学習サンプルセットのデータとして入力する入力装置と、
    前記学習サンプルセットに第1の判別分析を行って、前記第1のクラスに対する高い分類特性を持つ第1の判別関数を作成し、且つ、前記学習サンプルセットに前記第1の判別分析とは異なる第2の判別分析を行って前記第2のクラスに対する高い分類特性を持つ第2の判別関数を作成する判別関数の作成装置と、
    前記第1および第2の判別関数を用いて前記学習サンプルセットの分類を実行し、両者の分類結果が一致しないサンプルを特定する分類結果比較装置と、
    前記分類結果比較装置において特定されたサンプルを新たなサンプルセットとして用いて、前記判別関数の作成装置および前記分類結果比較装置を繰り返し作動させる制御装置と、を備え、
    前記制御装置は、前記分類結果比較装置における前記分類結果が一致しないサンプルの個数が一定値以下となった場合、繰り返し回数が一定値以上となった場合、繰り返しの処理時間が一定値以上となった場合のいずれかにおいて、前記繰り返し作動を停止させることを特徴とする、2クラス分類予測モデルの作成装置。
  8. 請求項7に記載の2クラス分類予測モデルの作成装置において、
    前記判別関数の作成装置は、前記学習サンプルセットに対して用意された初期パラメータセットに特徴抽出を行って最終パラメータセットを形成し、当該最終パラメータセットを用いて判別分析を行うことにより形成されることを特徴とする、2クラス分類予測モデルの作成装置。
JP2008544075A 2006-11-13 2007-03-27 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置 Active JP4985653B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008544075A JP4985653B2 (ja) 2006-11-13 2007-03-27 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006307277 2006-11-13
JP2006307277 2006-11-13
PCT/JP2007/056412 WO2008059624A1 (fr) 2006-11-13 2007-03-27 Procédé, programme et dispositif de réalisation d'un modèle de classification/prévision à deux classes
JP2008544075A JP4985653B2 (ja) 2006-11-13 2007-03-27 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置

Publications (2)

Publication Number Publication Date
JPWO2008059624A1 JPWO2008059624A1 (ja) 2010-02-25
JP4985653B2 true JP4985653B2 (ja) 2012-07-25

Family

ID=39401438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008544075A Active JP4985653B2 (ja) 2006-11-13 2007-03-27 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置

Country Status (4)

Country Link
US (1) US7725413B2 (ja)
JP (1) JP4985653B2 (ja)
KR (1) KR101232945B1 (ja)
WO (1) WO2008059624A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5104877B2 (ja) * 2007-12-18 2012-12-19 富士通株式会社 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008126209A1 (ja) * 2007-03-27 2008-10-23 Fujitsu Limited 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
WO2010016109A1 (ja) 2008-08-05 2010-02-11 富士通株式会社 サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
EP2323081A1 (en) * 2008-08-05 2011-05-18 Fujitsu Limited Method of creating estimation model by means of multiple regression analysis, creation system and creation program
JP5271877B2 (ja) * 2009-11-17 2013-08-21 日本電信電話株式会社 複数クラス分類装置、複数クラス分類方法および複数クラス分類プログラム
KR101139913B1 (ko) * 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법
US9275331B2 (en) * 2013-05-22 2016-03-01 International Business Machines Corporation Document classification system with user-defined rules
US11093869B2 (en) * 2014-02-13 2021-08-17 Brewmetrix Inc. Analytical system with iterative method of analyzing data in web-based data processor with results display designed for non-experts
JP5885875B1 (ja) * 2015-08-28 2016-03-16 株式会社Ubic データ分析システム、データ分析方法、プログラム、および、記録媒体
JP6792159B2 (ja) * 2017-01-25 2020-11-25 富士通株式会社 並列処理パラメータ決定プログラム、並列処理パラメータ決定方法、および並列処理管理装置
JP6720402B2 (ja) * 2017-03-21 2020-07-08 株式会社Preferred Networks サーバ装置、学習済モデル提供プログラム、学習済モデル提供方法及び学習済モデル提供システム
JP6973625B2 (ja) * 2018-03-29 2021-12-01 日本電気株式会社 学習装置、学習方法および学習プログラム
JP7070334B2 (ja) * 2018-10-30 2022-05-18 オムロン株式会社 画像分類装置、画像検査装置、及び画像分類方法
CN110457654A (zh) * 2019-08-08 2019-11-15 哈尔滨理工大学 一种基于现场数据的机载设备可靠性预测方法
TWI740647B (zh) * 2020-09-15 2021-09-21 宏碁股份有限公司 疾病分類方法及疾病分類裝置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124349A (ja) * 1992-10-12 1994-05-06 Fujitsu Ltd パターン学習方法及びパターン学習装置
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5926804A (en) * 1994-07-01 1999-07-20 The Board Of Governors For Higher Education, State Of Rhode Island And Providence Plantations Discriminant neural networks
US6789069B1 (en) * 1998-05-01 2004-09-07 Biowulf Technologies Llc Method for enhancing knowledge discovered from biological data using a learning machine
US6882990B1 (en) * 1999-05-01 2005-04-19 Biowulf Technologies, Llc Methods of identifying biological patterns using multiple data sets
US6760715B1 (en) * 1998-05-01 2004-07-06 Barnhill Technologies Llc Enhancing biological knowledge discovery using multiples support vector machines

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124349A (ja) * 1992-10-12 1994-05-06 Fujitsu Ltd パターン学習方法及びパターン学習装置
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5104877B2 (ja) * 2007-12-18 2012-12-19 富士通株式会社 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置

Also Published As

Publication number Publication date
JPWO2008059624A1 (ja) 2010-02-25
WO2008059624A1 (fr) 2008-05-22
KR20090060359A (ko) 2009-06-11
US20090222390A1 (en) 2009-09-03
US7725413B2 (en) 2010-05-25
KR101232945B1 (ko) 2013-02-13

Similar Documents

Publication Publication Date Title
JP4985653B2 (ja) 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置
JP5104877B2 (ja) 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置
JP5141767B2 (ja) サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
JP6498107B2 (ja) 分類装置、方法、及びプログラム
US7769759B1 (en) Data classification based on point-of-view dependency
CN101147160B (zh) 自适应分类器以及建立其分类参数的方法
CN106326915B (zh) 一种基于改进核Fisher的化工过程故障诊断方法
CN111428733A (zh) 基于语义特征空间转换的零样本目标检测方法及系统
JP2010039778A (ja) 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
Agrawal et al. Evaluating machine learning classifiers to detect android malware
Kaur et al. Analyzing various machine learning algorithms with smote and adasyn for image classification having imbalanced data
CN111967483A (zh) 确定分类器、确定生成器、识别命令的方法及设备
KR20210158740A (ko) 기계학습 성능 기반 클러스터링 평가 장치 및 그 방법
CN106485286B (zh) 一种基于局部敏感判别的矩阵分类模型
JP2016062249A (ja) 識別辞書学習システム、認識辞書学習方法および認識辞書学習プログラム
CN110942089B (zh) 一种基于多级决策的击键识别方法
Ragab et al. Intelligent data mining For automatic face recognition
Chien et al. Learning Outlier-Aware Representation with Synthetic Boundary Samples
JP2009043280A (ja) パターン認識装置
JP2009037640A (ja) パターン認識装置および特徴抽出パラメータの生成方法
JP3925011B2 (ja) パターン認識装置及び認識方法
Pok et al. Abnormalities and fraud electric meter detection using hybrid support vector machine and modified genetic algorithm
Song et al. A greedy correlation-incorporated SVM-based algorithm for gene selection
Parsi et al. Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY)

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120416

R150 Certificate of patent or registration of utility model

Ref document number: 4985653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3