JP5104877B2 - 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置 - Google Patents

二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置 Download PDF

Info

Publication number
JP5104877B2
JP5104877B2 JP2009546110A JP2009546110A JP5104877B2 JP 5104877 B2 JP5104877 B2 JP 5104877B2 JP 2009546110 A JP2009546110 A JP 2009546110A JP 2009546110 A JP2009546110 A JP 2009546110A JP 5104877 B2 JP5104877 B2 JP 5104877B2
Authority
JP
Japan
Prior art keywords
sample
class
sample set
discriminant
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009546110A
Other languages
English (en)
Other versions
JPWO2009078096A1 (ja
Inventor
浩太郎 湯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009078096A1 publication Critical patent/JPWO2009078096A1/ja
Application granted granted Critical
Publication of JP5104877B2 publication Critical patent/JP5104877B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Systems (AREA)

Description

本発明は、クラス未知のサンプルに対する分類予測モデルを作成するための方法、作成プログラムおよび作成装置に関する。
クラス分類問題とは、複数のクラスのうちどのクラスに属するかが既知であるサンプルの集団から、そのクラスを分類するための規則を学習し、学習した規則を予測モデルのかたちとして使用し、どのクラスに属するかが未知のサンプルについてそれが属するクラスを予測することである。特に、サンプルセットを2つのクラスに分類する二クラス分類は分類問題中でも最も基本的なものであり、長年にわたって構造−活性相関や構造−物性相関研究に活用され、最近では、化合物毒性等の有無を評価する有用な手法として注目されている。規則を学習するための手法、即ち分類手法には、線形学習機械、判別分析、Bayes線形判別分析、SVM(サポートベクターマシン)、AdaBoost等の線形判別分析法、および、Bayes非線形判別分析、SVM(サポートベクターマシン+カーネル)、ニューラルネットワーク、KNN法(最近隣法)、決定木等の非線形判別分析法がある。
一般的にクラス分類問題では、必ず誤分類が発生し、分類率を100%にすることが大変難しい。ここで「分類率」とは、帰属クラスが既知のサンプルをどの程度正しくクラス分けを行ったのかを示す指標であり、「予測率」とは、帰属クラスが不明のサンプルをどの程度正しくクラス予測を行ったかを示す指標である。基本的に「分類率」は「予測率」を下回ることはない。従って、「分類率」を上げれば、「予測率」の上限も自動的に上がってくる。この事実から、分類率を高い値にすることが出来れば、予測率も高くなる。また、データ解析の一般的な特徴として、予測モデル作成時に用いるサンプルの数が増えるに従って、誤分類されるサンプルも多くなり、結果として全体の分類率が低下することも良く知られている。ここで、誤分類とは、本来はクラス1に属するサンプルを誤ってクラス2に属するサンプルとして分類することである。これは全体のサンプル数が増えることで、分類上でノイズとなるサンプルの絶対数も増えることが大きな原因である。統計と異なり、多変量解析/パターン認識のような強力なデータ解析手法ではノイズの影響を受けやすく、サンプル数増大は殆どの場合データ解析そのものを困難にする結果となる。
高い分類/予測率が要求される分野として化合物毒性評価が、環境という観点で重用となりつつある。この分野では化合物群を毒性を有する化合物セット(クラス1)と毒性を持たない化合物セット(クラス2)にクラス分類することが多いが、この分野の特徴として毒性発現の要因が複雑で多岐にわたることから、誤分類が発生しやすく、現在存在するデータ解析手法の単純な適用では、分類率を上げることが非常に困難である。
また、分類率の値が高くとも使用するサンプル数が多い場合は誤分類サンプルの絶対数が大きくなるので、この点で注意が必要である。例えば、毒性化合物と非毒性化合物を分類する場合、学習に使用するサンプル数が多い場合、例えば1万個の化合物セットを用いて分類を行う時は、たとえ90%の分類率が得られていても、1千個の化合物について誤分類されており、この数は無視できない。更に、毒性分類の場合の特徴として、毒性を持たない化合物を毒性を持つと誤分類(フォールスポジティブ)しても大きな影響はないが、毒性化合物を非毒性化合物と誤分類(フォールスネガティブ)することは毒性という特性上非常に危険であり、絶対に避けねばならない問題である。この点でも、分類率は100%であることが望まれる。
従って、現在、予測率はクラス分類問題の最終ターゲットではあるが、それよりも先に分類率を上げることが重要であると認識され、そのために種々の努力がなされている。先にも述べたように、予測率は分類率を越えないという原則から考えれば、分類率を上げれば、同時に予測率の上昇可能枠も増大することは確実である。本発明者はこの点に着目し、分類率を限りなく100%に近づけることが可能な分類方法、即ち、「K−step・Yard・sampling・method」(以下、KY法)を提案している(非特許文献1、PCT/JP2007/056412)。
この方法について簡単に説明すると、まず、第1のクラスに属することが既知であるサンプルと第2のクラスに属することが既知であるサンプルとによって学習サンプルセットを構成する。この学習サンプルセットに対して判別分析を行って、第1のクラスに対して高い分類率、例えば実質的に100%の分類率を有する第1の判別関数(以下、APモデル)と、第2のクラスに対して高い分類率、例えば実質的に100%の分類率を有する第2の判別関数(以下、ANモデル)を形成する。次に、これら2本の判別関数APモデル、ANモデルを用いて各サンプルの目的変数を計算し、両判別関数間で目的変数の値、即ち分類結果が一致したサンプルと一致しないサンプルを特定する。
APモデル、ANモデルは、第1のクラスあるいは第2のクラスに対してほぼ100%の分類率を有するため、APモデルおよびANモデルを用いた分類の結果が一致したサンプルは、そのクラス分類は正しいと判断される。したがって、結果が一致したサンプルについては、分類されたクラス1又はクラス2にアサインする。一方、APモデル、ANモデルで結果が一致しないサンプルはクラス決定がされない第3のクラスとなるグレークラスにアサインする。
以上のようにして第1段階のグレークラスが形成されると、次に、このグレークラスにアサインされたサンプルを取り出し、新たなサンプルセットを構成する。このサンプルセットに対して、上述したAPモデル、ANモデルを新たに作成し各サンプルのクラス分けを行う。この結果、第2段階のグレークラスが形成されると、以下、同様にして、第3段階のグレークラスの形成、第4段階のグレークラスの形成を実行する。このグレークラスの形成を、最終的にグレークラスにアサインされるサンプル数が0となるまで続けることによって、全てのサンプルが正しく本来のクラス1またはクラス2に分類される。即ち、分類率100%が達成される。
「K−step・Yard・sampling・methodの開発とADME−T予測への適用」34回構造活性相関シンポジウム、2006年11月 「テーラーメードモデリングによる化学データ解析手法」第30回情報化学討論会、2007年11月
上述したように、KY法ではほぼ確実に学習サンプルセットを100%分類可能とすることができ、完全分類を実現するという観点からは、従来の手法とは比較にならない程有用である。ところが、この方法では、各段階のグレークラスサンプルを特定するために2本の特殊な判別関数APモデル、ANモデルを作成する必要がある。そのため、サンプル数が増大し、解析に必要な段階数が、例えば数十にも及ぶようになると、モデル作成の手間や時間が膨大となる欠点を有している。また、分類/予測に必要な計算時間も長くなり、このモデルを使用して分類/予測を行おうとするユーザに負担をかけることとなる。
本発明は、従来手法の上記のような問題点を解決するためになされたもので、ほぼ分類率を確保することができ、しかもモデル作成が容易な二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置を提供することを課題とする。
上記課題を解決するために、a)学習サンプルセットの個々の学習サンプルについて発生させた説明変数に基づいて、前記学習サンプルセットを予め決定した二クラスに分類するための判別関数を求め、b)前記求めた判別関数に基づいて各学習サンプルの判別得点を算出し、c)前記算出した判別得点に基づいて各学習サンプルの分類予測の正誤を決定し、d)誤分類された学習サンプルセット中の最大、最小の判別得点に基づいて誤分類サンプル領域を決定し、e)前記誤分類サンプル領域に含まれる学習サンプルを取り出して新たな学習サンプルセットを構成し、f)前記新たな学習サンプルセットに対して、前記a)〜e)のステップを繰り返し、g)前記繰り返しの結果として得られた複数の判別関数と、個々の前記判別関数に付随する誤分類サンプル領域の情報とをクラス未知サンプルの分類予測モデルとして記憶する、各ステップを備える、二クラス分類予測モデルの作成方法を提供する。
上記方法において、前記ステップd)における前記誤分類サンプル領域は、誤分類された学習サンプル中の最大、最小の判別得点に任意の安全幅を付加して決定するようにしても良い。また、前記ステップc)で誤分類された学習サンプルが0となった時点で分類を終了させても良い。
上記方法において、前記ステップf)は、あらかじめ決定した回数、前記ステップa)〜e)を繰り返すようにしても良い。さらに、前記学習サンプルセットに対して発生させた説明変数に特徴抽出を実施して、不要な説明変数を除去するステップを設けても良い。
また、上記課題を解決するために、a)学習サンプルセットの個々の学習サンプルについて発生させた説明変数に基づいて、前記学習サンプルセットを予め決定した二クラスに分類するための判別関数を求めるステップと、b)前記求めた判別関数に基づいて各学習サンプルの判別得点を算出するステップと、c)前記算出した判別得点に基づいて各学習サンプルの分類予測の正誤を決定するステップと、d)誤分類された学習サンプルセット中の最大、最小の判別得点に基づいて誤分類サンプル領域を決定するステップと、e)前記誤分類サンプル領域に含まれる学習サンプルを取り出して新たな学習サンプルセットを構成するステップと、f)前記新たな学習サンプルセットに対して、前記a)〜e)のステップを繰り返すステップと、をコンピュータに実行させるための、二クラス分類予測モデルの作成プログラムを提供する。
また、上記課題を解決するために、クラス1あるいはクラス2に所属することが既知の複数のサンプルで構成される学習サンプルセットから、前記クラス1あるいはクラス2への所属が不明である未知サンプルをクラス分類するためのモデルを作成する装置であって、前記学習サンプルセットの各サンプルについて説明変数を取得する説明変数取得装置と、前記取得した説明変数に基づいて判別分析を行い、上記クラス1およびクラス2を判別するための判別関数を得る、判別関数作成エンジンと、前記作成された判別関数に基づいて前記各サンプルの判別得点を算出する、判別得点算出装置と、前記算出された判別得点に基づいて誤分類サンプル領域を決定し、該領域内の前記サンプルを取り出して新たなサンプルセットとして設定する、サンプルセット設定装置と、前記設定された新たなサンプルセットを前記学習サンプルセットとして用いて前記説明変数取得装置、前記判別関数作成エンジン、前記判別得点算出装置および前記サンプルセット設定装置を繰り返し動作させる制御装置と、前記判別関数作成エンジンによって作成された判別関数と、前記サンプルセット設定装置において決定された誤分類サンプル領域に関する情報とを、分類予測のためのモデルとして保存する記憶装置と、を備える、二クラス分類予測モデルの作成装置を提供する。
本発明では、作成された判別関数に基づいて得た各サンプルの判別得点から、その判別関数によって形成されたパターン空間における誤分類サンプル領域を決定するようにしている。即ち、作成された判別関数によって誤分類とされたサンプルの最大および最小の判別得点に基づいて誤分類サンプル領域、即ちグレーゾーンを特定する。これによって、判別得点がこの最大値および最小値の間にある全てのサンプルをグレークラスサンプルとして特定することができる。即ち、本発明では、1段階のグレークラスサンプルを特定するために1本の判別関数しか必要としない。そのため、特殊な2本の判別関数をグレーゾーン決定のために必要とする従来の方法に比べて、モデル作りのための作業が大幅に簡略化される。
また、誤分類サンプルであると決定されたサンプル中の最大および最小の判別得点に対して安全幅を持たせてグレーゾーンを決定することにより、作成された分類予測モデルの信頼性を向上させることができる。分類予測モデルの信頼性向上は、そのモデルをクラス未知サンプルの分類予測に使用した場合の予測率の向上につながり、非常に重要な指標である。
図1は、理想的に実施された二クラス分類によるパターン空間を示す図である。 図2は、分類率が100%に達しない場合の二クラス分類によるパターン空間を示す図である。 図3は、本発明に係る二クラス分類予測モデルを用いたグレーゾーン決定の基本原理を示す図である。 図4Aは、本発明の一実施形態に係る二クラス分類予測モデル作成方法の実施手順を示すフローチャートの前半部分である。 図4Bは、図4Aに示すフローチャートの後半部分を示す図である。 図5は、入力データテーブルの一例を示す図である。 図6は、初期パラメータセットテーブルの一例を示す図である。 図7は、本発明の一実施形態による、クラス1、クラス2およびグレークラスサンプルの区分を示す図である。 図8は、本発明の一実施形態に係る、グレークラスサンプルの段階的分類方法を説明するための図である。 図9は、予測モデル保存テーブルの一例を示す図である。 図10は、本発明に係る二クラス分類予測モデルの作成方法をテーラーメードモデリングに適用した実施形態を示すフローチャートである。 図11は、本発明の方法によって作成された予測モデルを用いて、未知サンプルの分類予測を行う手順を示すフローチャートである。 図12は、本発明の一実施形態に係る分類予測モデル作成装置のシステム構成を示す図である。
符号の説明
1 クラス1の誤分類サンプル
2 クラス2の誤分類サンプル
10 クラス1サンプル○のうち、最小の判別得点を有する誤分類サンプル
20 クラス2サンプル×のうち、最大の判別得点を有する誤分類サンプル
100 分類予測モデル作成装置
110 入力装置
120 出力装置
130 入力データテーブル
140 初期パラメータセットテーブル
150 最終パラメータセットテーブル
160 予測モデル保存テーブル
200 解析部
210 初期パラメータ発生エンジン
220 制御部
230 特徴抽出エンジン
240 判別関数作成エンジン
250 判別得点算出部
260 新たなサンプルセット設定部
270 解析終了条件検出部
280 類似度計算部
290 スクリーニング装置
最適な実施形態を説明する前に、その原理について簡単に説明する。
図1は、理想的な二クラス分類の結果としてのパターン空間を示す。理想的とは、分類率が100%であることを意味する。図において、Sは識別面あるいは超平面を示し、識別面Sの右側の領域Aがクラス1のサンプルが存在する領域A(以下、クラス1領域)であり、左側の領域Bがクラス2のサンプルが存在する領域B(以下、クラス2領域)である。○は本来クラス1に属するサンプル、×は本来クラス2に属するサンプルを示す。
二クラス分類が理想的に、即ち分類率100%で行われた場合は、識別面Sの両側にそれぞれクラス1のサンプル○、クラス2のサンプル×が位置し、クラス1の領域Aとクラス2の領域Bは重ならない。ところが、通常の二クラス分類では、領域Aと領域Bに重なりが生じる。
図2は、通常の二クラス分類の結果としてのパターン空間を示す。分類率が100%未満の場合、図示するように、識別面Sによって領域A、Bが完全に分類されず、その結果、本来はクラス1のサンプルであってもクラス2領域に入り込み、クラス2サンプルとして分類されるサンプル1、1、・・・、本来はクラス2のサンプルであってもクラス1領域に入り込みクラス1サンプルとして分類されるサンプル2、2、・・・が発生する。これらの間違って分類されるサンプルを誤分類サンプルと呼び、正しく分類されるサンプルを正分類サンプルと呼ぶ。従って、誤分類サンプルには、本来クラス1であるサンプルおよび本来クラス2であるサンプルの両者が含まれる。
従来の分類手法では、このような誤分類サンプルの発生をできるだけ抑えることができる、図1で示されるような判別関数を創造することによって、高い分類率を達成しようとしていたが、このように完全に分類可能な判別関数の作成は極めて困難であり、サンプル数が増える程この困難性は急激に増大する。KY法ではこのような従来の方法とは全く異なるアプローチを取る。即ち、KY法では、パターン空間を正分類サンプルのみが存在する領域と、正分類サンプルと誤分類サンプルとが混在する領域、即ち、グレーゾーンとに別けて考え、このような混在領域(グレーゾーン)に存在するサンプルを取り出して新たな学習サンプルセットを構成し、この学習サンプルセットについて新たな判別分析を行い、この手順を繰り返すことを特徴としている。このとき、個々の段階で正分類されたサンプルは、正分類されたクラスにアサインする。これを繰り返すことにより、最終的には全てのサンプルを正分類することが可能となる。
従って、KY法では、図2のパターン空間において、どのようにして正分類サンプル領域とグレーゾーンとを分離するかが重要な課題となる。本発明者が既に提案した手法では、正分類領域とグレーゾーンを分離するために、APモデルおよびANモデルという正反対の分類特性を有する特殊な2本の判別関数を利用する。
ここで、判別関数(モデル)Yは、以下の式(1)で示される。
Y=a1x1±a2x2±・・・±anxn±C (1)
式(1)において、Yは目的変数、x1、x2、・・・xnは説明変数(パラメータ)、a1、a2、・・・anは重み係数、Cは定数を示す。説明変数x1、x2、・・・xnは、各サンプルによって異なる値であり、重み係数a1、a2、・・・anは全サンプルに共通の値である。通常、クラス1に属するサンプルは目的変数Yの値が正の値に、クラス2に属するサンプルは目的変数Yの値が負の値になるように重み係数が選択されている。この場合、識別面SはYの値が0となる平面(超平面)を示す。
判別関数(1)に、各サンプルについて求めた説明変数(パラメータ)x1、x2、・・・xnを代入することにより、各サンプルの目的変数の値Y(1)、Y(2)、・・・、Y(k)、・・・Y(n)が求められる。この値Y(k)は、判別分析においては「目的変数」あるいは「独立変数」として意味づけされるが、数値データとしてみた場合、連続変数である「判別得点」を示す。判別得点は、パターン空間上において、各サンプルと識別面Sとの距離を示している。本発明では、グレーゾーンの特定にこの判別得点を利用することを考えた。
二クラス分類において、通常、クラス1サンプルの判別得点はプラスの値となり、クラス2のサンプルの判別得点はマイナスの値となるように、判別関数が作成されており、判別得点の絶対値の大きさはクラス分類の情報としては利用されていない。従って、個々のサンプルのクラス決定には判別得点の値がプラスであるか、マイナスであるかの情報しか利用していない。このように、判別分析では判別得点の大きさ(絶対値)が分類目的の特性の強さを示すものでは決してない。
しかしながら、判別得点Yを計算する判別関数自体は、複数のサンプルで構成されるサンプル空間上での相互位置関係に基づいて構築されている。従って、識別面(超平面)からの距離を意味する判別得点は単なる距離関係だけではなく、複数サンプル間の複雑な相互位置関係に関する情報も示している。このように、判別得点は各サンプルを特定するパラメータの値を基に式(1)に従って計算されるものであるから、この判別得点Y(k)により、各サンプル間の関係は固定されることになる。この結果、元の目的変数情報は単純な2クラスの記号情報(例えば、+/−、1/2等)であったものが、判別得点の大小が個々のサンプル間の相互位置関係を含む高度な情報ソースとなる。
図2に示すように、誤分類サンプル1、2は、識別面Sの近傍において発生する傾向がある。即ち、識別面Sとサンプル間の距離が小さい領域において誤分類サンプル1、2が発生しやすい。識別面Sとサンプル間の距離が大きくなる程、誤分類サンプルの発生の度合いが小さくなる。判別得点は、識別面Sとサンプル間の距離を表すもので、従って、判別得点が大きいほど、あるいは小さいほど、誤分類サンプルの発生の度合いが低下すると考えられる。即ち。判別得点は、サンプルパターン空間的な観点から見れば、分類の確からしさを示す指標であると考えてもよい。
従って、誤分類領域を誤分類サンプルのうちの最大の判別得点と、最小の判別得点に基づいて決定することができる。図2に示すように、正分類サンプルと誤分類サンプルの混在領域、即ち、グレーゾーンを判別得点で見た場合、クラス1サンプル○のうち最小の判別得点を有するサンプル10と、クラス2サンプル×のうち最大の判別得点を有するサンプル20間が正分類サンプルと誤分類サンプルが混在するグレーゾーンであることが分かる。
図3は、判別得点Yについて各サンプルをソーティングした状態を示す。各サンプルの判別得点は、最大のY(max)から最小のY(mini)までの範囲に延びる直線Y上に存在する。判別得点Yは識別面上で0となり、クラス1の全てのサンプルは本来、判別得点Yがプラスとなるべきであるが誤分類されたサンプルはマイナスとなる。クラス2の全てのサンプルは本来、判別得点Yがマイナスとなるべきであるが、一部誤分類されたサンプルはプラスとなる。図3から明らかなように、判別得点Yについて考えると、誤分類サンプルと正分類サンプルが混在する領域、即ちグレーゾーンは、誤分類されたクラス1サンプルの内、最小の判別得点Ye(mini)を有するサンプルと、誤分類されたクラス2サンプルの内、最大の判別得点Ye(max)を有するサンプルとで挟まれた領域となることが分かる。
即ち、判別得点Yにおいて、
Ye(mini)≦Y≦Ye(max) (2)
となる領域がグレーゾーンであり、この領域中の正分類および誤分類サンプル全てがグレークラスサンプルとなる。
従って、学習サンプルについて二クラス分類を実行し、得られた判別関数によって各サンプルの分類予測を実行し、誤分類サンプルを特定する。同時に、各サンプルを判別得点に基づいてソーティングし、誤分類サンプルの最大の判別得点Ye(max)と最小の判別得点Ye(mini)を特定し、判別得点Yが、Ye(mini)≦Y≦Ye(max)にあるサンプルを抜き出し、これらのサンプルをグレーゾーンに帰属させる。このようにしてグレーゾーンサンプルが特定されると、これを新たな学習サンプルセットとして次の段階の二クラス分類を実行する。
なお、グレーゾーンの信頼性を上げるために、図3のグレーゾーンをマイナスおよびプラスの方向にα、β分拡大して、拡大グレーゾーンを形成するようにしても良い。この場合、拡大グレーゾーンに帰属しているサンプルを取り出し、これらのサンプルもグレーゾーンに帰属しているサンプル群に加え、形成されたサンプル群を新たな学習サンプルセットとすることで、分類の信頼性がより向上する。これは、本来は正分類領域として設定されるべき領域のうち、誤分類が発生しているグレーゾーンに近い正分類領域を一時的に誤分類領域に組み込むことで、確実に正分類される領域のみを正分類領域として指定することを意味し、結果として予測率の向上が期待されることとなる。
以上のように、本実施形態では、一本の判別関数によって求めた各サンプルの判別得点に基づいてグレーゾーンを形成している。そのため、AN、APの特殊な分類特性を持つ2本の判別関数によってグレーゾーンを作成する場合に比べて、モデル作りが大幅に簡略化される。
図4A、4Bは、一実施形態にかかる分類予測モデルの作成方法の手順を示すフローチャートである。まず、目的特性に対する値が既知の複数のサンプルを用意する。例えば、ある毒性を有することが既知であるサンプル、即ちポジティブサンプルを例えば500個、その毒性を持たないことが既知であるサンプル、即ちネガティブサンプルを例えば500個用意する。用意されたサンプルは分類予測モデルの作成装置に入力され(ステップS1)、図5に示すようなサンプルデータを保存するためのテーブルが作成される。
図5において、コラム50はサンプルである化合物の2次元あるいは3次元の構造式を示す。コラム51はその化合物のCAS番号を示し、コラム52は、Amesテストの結果を示している。コラム52において、mutagenはAmesテストの結果、変異原性有り(+)を示し、nonmutagenは変異原性を持たない(−)ことを示している。図示の例では、mutagenであるサンプルをクラス1(ポジティブクラス)にnonmutagenであるサンプルをクラス2(ネガティブクラス)に二クラス分類するためのデータテーブルを示している。なお、コラム53は、サンプル番号を示す。
次に、図4AのステップS2において、目的変数を算出するための初期パラメータ、即ち説明変数(x1、x2・・・xx)を発生させる。初期パラメータは、化合物の構造から自動的に発生させることができる。例えば、富士通株式会社で販売するADMEWORKS−ModelBuilder(登録商標)では、化合物の2次元あるいは3次元構造、各種の物性に基づいて数千個のパラメータを発生させることができる。なお、これらのパラメータとして、外部で作成されたパラメータ群を持ってきて、先の構造式から作成されたパラメータ群と合わせて用いる、あるいは外部から取り入れたパラメータだけを用いて次のステップに行くことも可能である。ステップS3では、分類/予測モデルの第一段階となるSTAGE1を開始するために、STAGEを1に設定する。
ステップS4では、発生させた初期パラメータに対して特徴抽出を行い、分類に不必要なノイズパラメータを除去する。これによって、最終パラメータセット(x1、x2・・・xn)が決定される(ステップS5)。特徴抽出としては、パラメータの出現頻度、ミッシングパラメータの有無、単相関係数、重相関係数、Fischer比、Variance法、Variance Weight法、遺伝的アルゴリズムに基づくアプローチなどの種々の既知手法を用いて実施することができる。特徴抽出のための各種のエンジンも一般に提供されている。
図6は、特徴抽出の結果、Amesテスト結果の分類/予測に重要な働きをするとして選択された最終パラメータセットと、個々の化合物のこれらのパラメータに対する数値データを示すテーブルである。コラム60は化合物を構造式で特定し、コラム61以降は各種のパラメータを示している。例えば、コラム61は化合物の分子量を、コラム62は分子表面積を、コラム63はlogPの値をパラメータとしたことを示している。データテーブル中のセル64内に記載された値は、サンプル1の分子の分子量を示すデータ、セル65内の値は、サンプル1の分子表面積の値を示すデータ、セル66内の値はサンプル1のlogP値を示すデータである。各セル内に示された値が、そのサンプルのパラメータデータとなる。なお、コラム67は、各サンプルのサンプル番号を示している。
ステップS6では、ステップS5で決定された最終パラメータセットの数とサンプル数とを比較し、[サンプル数]/[最終パラメータ数]があらかじめ決定した数Mより大きいか否かを判定する。即ち、以下の式が満足されるか否かが判定される。
[サンプル数]/[最終パラメータ数]>M (3)
ここで、Mは例えば4程度の値であり、Mがこの値以下の場合、データ解析の有意性が損なわれるとみなされる値である。従って、ステップS6でNOの場合はステップS7に移行して処理を終了する。
ステップS6でYESの場合、ステップS5で決定された最終パラメータセットを用いて判別分析を行い、第1段階の判別関数1を作成する(ステップS8)。判別分析では、判別関数はデータ解析手法ごとに変化するが、一般的には上記式(1)として示される。
ステップS9では、作成した判別関数を用いて各サンプルの判別得点を計算し、サンプルが正分類されているか、誤分類されているかをチェックする。k番目のサンプルの判別得点Ykは、
Yk=a1x1k±a2x2k±・・・±anxnk±C (4)
として計算される。ここで、x1k、x2k、・・・xnkは、k番目のサンプルのパラメータ(説明変数)データ、a1、a2、a3・・・anは各パラメータに対する重み係数である。Constは定数である。
パラメータデータx11、x21、x31・・・は、図6の各セル内に記載されたデータにより得られる。したがって、判別分析により、各パラメータに対する係数a1、a2・・・が求められると、図6のテーブルに示される各セル内のデータを式(4)に導入することによって、サンプルkの判別得点Ykが計算される。なお、パラメータの値の単位がパラメータの種類ごとに大きく異なる場合は、セル内の値を一旦オートスケーリング等の操作により変換された値をセルデータとして用いることもある。
この計算値値Ykの正負により、サンプルのクラス分類が行われる。本実施形態では、nonmutagenの場合、Yの値がマイナスとなり、mutagenの場合Yの値がプラスとなるように判別関数が作成される。従って、判別得点Ykがプラスの値を取るサンプルはクラス1(ポジティブ)に、判別得点Ykがマイナスの値を取るサンプルはクラス2(ネガティブ)にアサインされる。なお、判別分析を行う各種のエンジンも一般に提供されている。
サンプルkの判別得点Ykが計算されると、この値をサンプルYkの本来の特性と比較することによって、サンプルの正分類、誤分類がチェックされる。例えば、図5のサンプル1について計算した判別得点Y1がマイナスであった場合、コラム52からこのサンプルは本来、Amesテストについてマイナスであることが分かるので、サンプル1は正分類されていると判定することができる。サンプル3について計算した判別得点Y3がプラスであった場合、コラム52からこのサンプルは本来、Amesテストについてマイナスであることが分かるので、サンプル3は誤分類されていると判定することができる。
全サンプルの正誤分類のチェックが終了すると、図4AのステップS10で誤分類サンプルが存在するか否かをチェックする。誤分類サンプルが存在しない場合(ステップS10のYES)は、判別関数1によって100%の分類が行われていると考えられるため、ステップS7に進んで処理を終了する。ステップS10で誤分類サンプルが存在する場合(ステップS10のNO)、図4BのステップS11に移動し、全サンプルを判別得点に基づいてソーティングする。ステップS12では、判別得点のソーティング結果に基づいて、誤分類サンプル中の最大の判別得点Ye(max)および最小の判別得点Ye(mini)を決定する。
ステップS12では、ステップS11で決定された誤分類サンプル中の最大の判別得点Ye(max)および最小の判別得点Ye(mini)、予め決定した安全幅α、βに基づいてグレーゾーン、あるいは拡大グレーゾーンを決定する。このグレーゾーンに関する情報は、判別関数1と共にSTAGE1のモデル情報として記憶される。
安全幅α、βは例えば次のようにして設定される。即ち、図3に示すように、判別得点におけるグレーゾーンの最小値Ye(mini)と全サンプルにおける判別得点の最小値Y(mini)との差の例えば50%をαとする。同様に、判別得点におけるグレーゾーンの最大値Ye(max)と全サンプルにおける判別得点の最大値Y(max)との差の例えば50%をβとする。α、βを大きくすればするほど、本方法における分類予測モデルの信頼性は向上するが、反対にグレーゾーン内に帰属するサンプル数が多くなり、その分STAGE(段階)数が増加してモデル作成の作業量が増大し、予測に必用な計算時間も増大する。
最大の信頼性を得るためには、全サンプル中で最小の判別得点を有するサンプルの次に続く二番目に最小の判別得点を有するサンプルの判別得点と、全サンプル中で最大の判別得点を有するサンプルの次に大きい判別得点を有するサンプルの判別得点との間が拡大グレーゾーンとなるようにα、βを設定すれば良い。この場合は、最小の判別得点と最大の判別得点を有する2個のサンプルのみを除いて、その他のサンプルが全て拡大グレーゾーン中のサンプルとして特定されることとなる。
図4BのステップS13で拡大グレーゾーンが決定されると、ステップS14において、拡大グレーゾーン内のサンプル(グレークラスサンプル)を取り出して新たなサンプルセットを構築する。このグレーゾーン内には、ステップS9で誤分類されたサンプルおよび正分類されたサンプルの両者が含まれる。拡大グレーゾーンが決定されると、ステップS15では、拡大グレーゾーンの外側にあるサンプルを特定し、特定したサンプルについて、ステップS9でアサインされたクラスに所属を決定する。従って、ステップS15の終了の時点で、学習サンプルセットは、クラス1のサンプル、クラス2のサンプル、拡大グレーゾーン内のサンプル(グレークラスサンプル)に分類される。なお、純粋に未知サンプルの分類予測モデルを作成する場合は、ステップ15は必要ではない。
図7は、ステップS15の実施の結果としてアサインされた、クラス1サンプル、クラス2サンプルおよびグレークラスサンプルを、図2のパターン空間上で示している。図7に示す状態がSTAGE1の結果である。
以上のようにして、STAGE1の結果が得られると、ステップS16でSTAGEを1だけ進め、図4AのステップS4に戻って、ステップS14で構築された新たなサンプルセット、即ち、グレークラスサンプルセットを新たな学習サンプルとし、STAGE2の判別分析を実行する。STAGE1の場合と同様にして、ステップS4からステップS15を実行することにより、STAGE2でのクラス1サンプル、クラス2サンプルおよびグレークラスサンプルが特定される。グレークラスサンプルが特定されると、ステップS4以下を再度実行して、STAGE3におけるクラス1サンプル、クラス2サンプルおよびグレークラスサンプルの特定を行う。なお、安全幅α、βは全STAGE共通に設定しても良いし、ステージ単位に異なる値を設定しても良い。
ステップS4からステップS15にいたる繰り返し処理は、ステップS6で、サンプル数とパラメータ数との関係が予め決定した比率Mより小さくなる場合(ステップS6のNO)あるいはステップS10で誤分類サンプルが0となる場合に終了する。ステップS10で終了した場合、最初の学習サンプル全てがサンプル本来のクラスに分類され、分類率100%となる。
図8は、STAGE1から例えばSTAGE3までの処理を概念的に示す図である。この図より、STAGE1でグレークラスサンプルと特定されたサンプルによりSTAGE2の学習サンプルセットを構成し、STAGE2でグレークラスサンプルとして特定されたサンプルでSTAGE3の学習サンプルセットを構成することが容易に理解される。この処理は、グレークラスのサンプルが0となるまで続けられる。なお、図8において、Yg1(mini)、Yg2(mini)、Yg1(max)、Yg2(max)等は、グレーゾーン(あるいは拡大グレーゾーン)を規定する判別得点情報であり、これらの情報は各段階の判別関数と共に、モデルを構成するために保存される。
図9は、各STAGEで得られた情報によって構成される分類予測モデルを保存するためのテーブルを示している。図示するように、本実施形態の分類予測モデルは、各STAGEによって作成された判別関数1、判別関数2、・・・判別関数nと、各STAGEにおけるグレーゾーン情報、即ち、拡大グレーゾーンを規定する最小、最大の判別得点[Yg1(mini)、Yg1(max)]、[Yg2(mini)、Yg2(max)]、・・・、[Ygn(mini)、Ygn(max)]とで構成される。
図4Aおよび4Bに示す第1の実施形態では、ステップS10において誤分類サンプルが存在する限り次のSTAGEの判別分析を実行するようにしている。代替的な実施形態では、この代わりに、実施可能なSTAGE数を一定数に限定し、一定数のSTAGEによる処理が終了すると誤分類サンプルが存在しても全体の処理を終了するようにしても良い。
この場合には、図4BのステップS16の次に、STAGE数が予め決定した回数以下であるか否かを判定するステップを設ければ良い。更に代替的な実施形態として、プログラムの処理時間を予め一定時間に制限し、この時間の経過後はプログラムを強制的に終了させるようにしても良い。これらの方法によって、学習サンプル中に間違ったデータ等が含まれていて誤分類サンプルがいつまでも0とならない場合に、モデル作成のための処理を強制終了させることができる。
更に他の代替実施形態では、各STAGEで実施する判別分析手法を異なる手法としても良い。例えば、STAGE1でBayes判別分析法を使用し、STAGE2でAdaBoost法を使用するようにしても良い。もちろん、全STAGEで同一の分類手法を使用しても良い。また、各STAGEにおける安全幅α、βも、全STAGEで一定である必要はなく、各STAGEで任意に設定可能である。
[テーラーメードモデリングへの応用]
本発明者は、1個の未知化合物の特性予測に必要な情報を効率的に反映した予測モデルを作成し、その予測モデルをその1個の未知化合物に対してのみ適用して予測を行う、いわゆるテーラーメードモデリング(非特許文献2、PCT/JP2007/066286)を提案している。テーラーメードモデリングの最も特徴とする点は、1個の未知化合物について1個の予測モデルが対応することである。作成された予測モデルは、予測対象である未知化合物についての重要な情報を含み、ノイズ情報が極めて限定される。そのため、当然のこととして予測率は大幅に向上する。ここで提案した二クラス分類予測モデルの作成方法、装置、あるいはプログラムを、このようなテーラーメードモデリングに対して適用することにより、更に高い効果を得ることができる。
図10は、他の実施形態を示すフローチャートであって、図4A、4Bに示した二クラス分類予測モデルの作成方法を利用してテーラーメードモデリングを実施する場合の手順を示す。ステップS20では、未知化合物Xと学習サンプルセットとを入力し、ステップS21においてこの両者の初期パラメータを発生させる。ステップS22では、ステップS21で発生させた初期パラメータのうち、構造類似に関係するパラメータを選択し、選択したパラメータを用いて未知化合物Xと個々の学習サンプル間の構造の類似度を計算する。構造の類似度の計算には、例えば、Tanimoto係数、ユークリッド距離、コサイン係数、ピアソンの積率相関係数等を利用する等が可能である。
ステップS23では、未知化合物Xと個々の学習サンプルとについて、予め定めた類似度の閾値に基いて学習サンプルセットをスクリーニングし、未知化合物Xと構造が類似する学習サンプルを取り出してサブサンプルセットを構成する(ステップS24)。テーラーメードモデリングでは、このようにして未知化合物Xに類似した構造を有するサブサンプルセットを構築し、このサブサンプルセットについて二クラス分類を行って分類予測モデルを作成するので、未知化合物Xについて高い予測信頼性を有するモデルを作成することが可能となる。
ステップS25は、サブサンプルセットに基づく予測モデルの作成ルーチンを示し、図4A及び図4Bに示すステップS3以下に相当する。ステップS25の実施によって、未知化合物Xに高い有意性を有する予測モデルを、簡単な手順で作成することができる。ステップS25は、予測対象サンプルの分類/予測にとって最適且つ良質なサンプルセットを用いることとなる。この段階に「KY法」や本特許による分類手法を適用すれば、常に100%の分類率を保障されることとなり、この結果、作成された予測モデルの予測率は非常に高いものとなる。
[クラス未知サンプルの分類予測]
図11に、上記各実施形態によって形成された二クラス分類予測モデル(例えば、図9参照)を使用して、クラス未知サンプルの分類予測を行う場合の処理のフローチャートを示す。ステップP1でクラス未知サンプルXを入力し、ステップP2で未知サンプルXについて、パラメータを発生させる。ステップP3でSTAGELをSTAGE1に設定する(L=1)。ステップP4で、STAGE1の判別関数1を用いて未知サンプルXの判別得点Y1を計算する。
ステップP5では、STAGE1のグレークラス情報を取得して未知サンプルXの判別得点Y1と比較する。Y1が、拡大グレーゾーンの最小の判別得点Yg1(mini)以上、最大の判別得点Yg1(max)以下である場合、即ち、ステップP5でYESの場合、未知サンプルXはSTAGE1でグレークラスにアサインされる。一方、ステップP5でNOの場合は未知サンプルXはグレークラスのサンプルではないと判断され、ステップP6において判別得点Y1がYg1(mini)よりも小さい場合は未知サンプルをクラス2に、Yg1(max)よりも大きい場合は未知サンプルをクラス1にアサインして処理を終了する。
一方、ステップP5で未知サンプルXがグレークラスにアサインされた場合は、ステップP7で現在のSTAGEを1だけ進め(L=L+1)、ステップP8で進めたSTAGEが最終STAGEnを超えていないこと(L≦n)を確認した後(ステップP8のYES)、ステップP4に戻って、次のSTAGE2の判別関数およびグレーゾーン情報を用いてサンプルXのクラス分類を行う。以上の処理を繰り返すことにより、クラス未知サンプルの分類予測が実施される。なお、STAGEが最終STAGEnを超えてもサンプルXの分類予測が決定されない場合(ステップP8のNO)は、処理を終了する。
[システム構成]
図12は、一実施形態に係る二クラス分類予測モデルの作成装置のシステム構成を示すブロック図である。本実施形態にかかる分類予測モデルの作成装置100は、サンプルデータを入力する入力装置110、分類結果あるいは処理途中の必要なデータを出力する出力装置120を備えている。入力装置110から、分類の学習に必要なサンプル情報が入力され、入力データテーブル130に保存される。サンプルが化合物の場合、入力装置110から化合物の2次元構造式あるいは3次元構造式と共にその化合物の既知の目的変数の値が入力され、入力データテーブル130に保持される。
入力装置110を介して、初期パラメータセットのデータを入力し、これを初期パラメータセットテーブル140に保存するようにしても良い。なお、解析部200が、入力されたサンプルについて初期パラメータを自動的に発生するためのエンジン210を有している場合は、初期パラメータセットデータを入力装置110から入力する必要はない。
図12において、150は最終パラメータセットを保存するテーブルであり、初期パラメータセットに対して特徴抽出を行った結果としての最終パラメータセットを保存する。160は、STAGEごとに決定された判別関数とグレーゾーン情報、即ち、二クラス分類予測モデルを保存するためのモデル保存テーブルである。
なお、本実施形態の装置をテーラーメードモデリングに適用する場合には、構造の類似度を計算するための類似度計算装置280、および計算された類似度に基づいて初期の学習サンプルセットをスクリーニングするためのスクリーニング装置290が設けられている。
解析部200は、制御部220と、初期パラメータ発生エンジン210、特徴抽出エンジン230、判別関数作成エンジン240、判別得点算出部250、新たなサンプルセット設定部260および解析終了条件検出部270を備えている。さらに、類似度計算装置280、スクリーニング装置290を備えていても良い。なお、初期パラメータを本装置の外部で発生させる場合は、初期パラメータ発生エンジン210は必要とされない。また、初期パラメータ発生エンジン210、特徴抽出エンジン230は、既存のものを使用することができる。
特徴抽出エンジン230は、初期パラメータセットに対して特徴抽出を行って最終パラメータセットを決定し、これを最終パラメータセットテーブル150に保存する。判別関数作成エンジン240は、種々の既存の判別分析エンジンを備えており、ユーザによって指定された判別分析エンジンあるいはシステムが適宜選択した判別分析エンジンを用いて、最終パラメータセットテーブル150を参照しながら、入力サンプルの判別分析を行って判別関数を作成する。判別得点算出部250は、判別関数作成エンジン240によって作成された判別関数に各サンプルのパラメータを入力することにより、各サンプルの判別得点を計算する。新たなサンプルセット設定部260は、図2、図3を使用して説明したアルゴリズムに従って拡大グレーゾーンを設定し、このゾーンに含まれるサンプルを特定して新たなサンプルセットとする。
特徴抽出エンジン230、判別関数作成エンジン240、判別得点算出部250、新たなサンプルセット設定部260は、制御部220の制御下で作動し、図4A、4Bに示す処理を実行する。なお、解析終了条件検出部270は、グレークラスのサンプルが実質的に0となった時点を検出して、分類予測モデルの作成を終了させる働きをする。あるいは、何らかの原因でグレークラスのサンプルが0に収束しない場合、処理の繰り返し回数、即ちSTAGE数が予め決定した回数であることを検出した場合、あるいは、処理時間が予め決定した時間を越えた場合等に、処理の終了を決定する。
解析部200で得られた各STAGEの判別関数、グレーゾーンに関する情報はモデル保存テーブル160に保存され、あるいは出力装置120を介して外部に出力される。出力の形態は、ファイルでの出力、ディスプレイ上への出力、プリントアウト等が、適宜選択される。
テーラーメードモデリングを実施する場合は、図10に示した手順に従って、類似度計算装置280、スクリーニング装置290を作動させ、サブサンプルセットを構成する。
本発明は、二クラス分類が適用可能な全ての産業分野に適用可能である。以下に、主な適用分野を列挙する。
1)化学データ解析
2)バイオ関連研究
3)蛋白質関連研究
4)医療関連研究
5)食品関連研究
6)経済関連研究
7)工学関連研究
8)生産歩留まり向上等を目的としたデータ解析
9)環境関連研究
1)の化学データ解析分野では、より詳細には、下記のような研究に適用できる。
(1)構造−活性/ADME/毒性/物性相関の研究
(2)構造−スペクトル相関研究
(3)メタボノミクス関連研究
(4)ケモメトリクス研究
例えば、環境や創薬研究分野では化合物の毒性に関する構造−毒性相関研究が重要であり、例えば、Amesテスト結果の予測を行うことが極めて重要である。何故ならば、Amesテストは、毒性化合物規制関連の化合物審査法や労働安全衛生法等の国レベルの化合物規制に、最重要項目の一つして組み込まれているからである。このAmesテストの審査を通らなければ、日本国内での化合物生産はできなくなり、企業の生産活動自体がストップする。また、海外での生産や輸出等も対象国の安全性規制により活動できなくなる。
例えば、2007年6月より段階的実施が始まったEUにおけるREACH規則では、化合物を生産および使用する企業が、その化合物についてAmesテストの結果を予測し、評価する義務を負っている。本発明は、このようなテスト結果の予測に、非常に有用なツールを提供するものである。なお、Amesテストとは、米国のAmes博士が開発した変異原性試験の一つで、発がん性試験の簡易手法である。このために、多くの化学物質あるいはこれらを用いた製品の安全性の指針として世界的に採用されている安全性試験法の一つである。

Claims (10)

  1. a)学習サンプルセットの個々の学習サンプルについて発生させた説明変数に基づいて、前記学習サンプルセットを予め設定した二クラスに分類するための判別関数を求め、
    b)前記求めた判別関数に基づいて各学習サンプルの判別得点を算出し、
    c)前記算出した判別得点に基づいて各学習サンプルの分類予測の正誤を決定し、
    d)誤分類された学習サンプルセット中の最大、最小の判別得点に基づいて誤分類サンプル領域を決定し、
    e)前記誤分類サンプル領域に含まれる学習サンプルを取り出して新たな学習サンプルセットを構成し、
    f)前記新たな学習サンプルセットに対して、前記a)〜e)のステップを繰り返し、
    g)前記繰り返しの結果として得られた複数の判別関数と、個々の前記判別関数に付随する誤分類サンプル領域の情報とをクラス未知サンプルの分類予測モデルとして記憶する、各ステップを備える、二クラス分類予測モデルの作成方法。
  2. 請求項1に記載の方法において、前記ステップd)における前記誤分類サンプル領域は、誤分類された学習サンプル中の最大、最小の判別得点に任意の安全幅を付加して決定される、二クラス分類予測モデルの作成方法。
  3. 請求項1に記載の方法において、前記個々の学習サンプルは化合物であり、前記予め決定した二クラスは、任意の毒性を有する化合物のクラスと前記毒性を有さない化合物のクラスである、二クラス分類予測モデルの作成方法。
  4. 請求項1に記載の方法において、さらに、前記学習サンプルセットに対して発生させた説明変数に特徴抽出を実施して、不要な説明変数を除去するステップを備える、二クラス分類予測モデルの作成方法。
  5. 請求項に記載の方法において、前記ステップf)における前記繰り返しは、前記学習サンプルセット中のサンプル数と、前記特徴抽出後の説明変数の数との比が予め決定した一定数以下となった場合、停止される、二クラス分類予測モデルの作成方法。
  6. a)学習サンプルセットの個々の学習サンプルについて発生させた説明変数に基づいて、前記学習サンプルセットを予め設定した二クラスに分類するための判別関数を求めるステップと、
    b)前記求めた判別関数に基づいて各学習サンプルの判別得点を算出するステップと、
    c)前記算出した判別得点に基づいて各学習サンプルの分類予測の正誤を決定するステップと、
    d)誤分類された学習サンプルセット中の最大、最小の判別得点に基づいて誤分類サンプル領域を決定するステップと、
    e)前記誤分類サンプル領域に含まれる学習サンプルを取り出して新たな学習サンプルセットを構成するステップと、
    f)前記新たな学習サンプルセットに対して、前記a)〜e)のステップを繰り返すステップと、をコンピュータに実行させるための、二クラス分類予測モデルの作成プログラム。
  7. 請求項に記載のプログラムにおいて、前記ステップd)における前記誤分類サンプル領域は、誤分類された学習サンプル中の最大、最小の判別得点に任意の安全幅を付加して決定される、二クラス分類予測モデルの作成プログラム。
  8. クラス1あるいはクラス2に所属することが既知の複数のサンプルで構成される学習サンプルセットから、前記クラス1あるいはクラス2への所属が不明である未知サンプルをクラス分類するためのモデルを作成する装置であって、
    前記学習サンプルセットの各サンプルについて説明変数を取得する説明変数取得装置と、
    前記取得した説明変数に基づいて判別分析を行い、上記クラス1およびクラス2を判別するための判別関数を得る、判別関数作成エンジンと、
    前記作成された判別関数に基づいて前記各サンプルの判別得点を算出する、判別得点算出装置と、
    前記算出された判別得点に基づいて誤分類サンプル領域を決定し、該領域内の前記サンプルを取り出して新たなサンプルセットとして設定する、サンプルセット設定装置と、
    前記設定された新たなサンプルセットを前記学習サンプルセットとして用いて前記説明変数取得装置、前記判別関数作成エンジン、前記判別得点算出装置および前記サンプルセット設定装置を繰り返し動作させる制御装置と、
    前記判別関数作成エンジンによって作成された判別関数と、前記サンプルセット設定装置において決定された誤分類サンプル領域に関する情報とを、分類予測のためのモデルとして保存する記憶装置と、を備える、二クラス分類予測モデルの作成装置。
  9. 任意の毒性を有する複数の化合物と、前記毒性を有さない複数の化合物とで構成される学習サンプルセットから、前記毒性を有するか否かが未知の化合物の毒性予測モデルを作成する装置であって、
    前記学習サンプルセット中の各化合物のパラメータを取得するパラメータ取得装置と、
    前記取得したパラメータに基づいて判別分析を行い、上記毒性の有無を判別するための判別関数を得る、判別関数作成エンジンと、
    前記作成された判別関数に基づいて前記各化合物の判別得点を算出する、判別得点算出装置と、
    前記算出された判別得点に基づいて誤分類化合物領域を決定し、該領域内の前記化合物を取り出して新たなサンプルセットとして設定する、サンプルセット設定装置と、
    前記設定された新たなサンプルセットを前記学習サンプルセットとして用いて、前記パラメータ取得装置、前記判別関数作成エンジン、前記判別得点算出装置および前記サンプルセット設定装置を繰り返し動作させる制御装置と、
    前記判別関数作成エンジンによって作成された判別関数と、前記サンプルセット設定装置において決定された誤分類化合物領域に関する情報とを、毒性予測のためのモデルとして保存する記憶装置と、を備える、化合物の毒性予測モデル作成装置。
  10. 請求項に記載の装置において、更に、前記未知の化合物と前記学習サンプルセット中の化合物との構造の類似度に基づいて、前記学習サンプルセットをスクリーニングするスクリーニング装置を備え、前記毒性予測モデルは前記スクリーニング後の学習サンプルセットに基づいて作成される、化合物の毒性予測モデル作成装置。
JP2009546110A 2007-12-18 2007-12-18 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置 Active JP5104877B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/074334 WO2009078096A1 (ja) 2007-12-18 2007-12-18 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置

Publications (2)

Publication Number Publication Date
JPWO2009078096A1 JPWO2009078096A1 (ja) 2011-04-28
JP5104877B2 true JP5104877B2 (ja) 2012-12-19

Family

ID=40795222

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009546110A Active JP5104877B2 (ja) 2007-12-18 2007-12-18 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置

Country Status (6)

Country Link
US (1) US8352390B2 (ja)
EP (1) EP2244213B1 (ja)
JP (1) JP5104877B2 (ja)
KR (1) KR101126390B1 (ja)
CN (1) CN101903895B (ja)
WO (1) WO2009078096A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5141767B2 (ja) * 2008-08-05 2013-02-13 富士通株式会社 サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
US8935258B2 (en) * 2009-06-15 2015-01-13 Microsoft Corporation Identification of sample data items for re-judging
JP5271877B2 (ja) * 2009-11-17 2013-08-21 日本電信電話株式会社 複数クラス分類装置、複数クラス分類方法および複数クラス分類プログラム
SE1000620A1 (sv) * 2010-06-09 2011-12-10 Umbio Ab Förfarande för hyperspektral bildanalys i realtid
JP5699713B2 (ja) * 2011-03-17 2015-04-15 富士通株式会社 データ解析プログラム、データ解析方法、およびデータ解析装置
TWI451336B (zh) 2011-12-20 2014-09-01 Univ Nat Cheng Kung 預測模型之建模樣本的篩選方法及其電腦程式產品
WO2014037481A1 (en) * 2012-09-06 2014-03-13 Shell Internationale Research Method of estimating the mutagenicity of hydrocarbon samples
WO2015123615A1 (en) * 2014-02-13 2015-08-20 Brewmetrix, Inc. Analytical system with iterative method of analyzing data in web-based data processor with results display designed for non-experts
BR102014023780B1 (pt) * 2014-09-25 2023-04-18 Universidade Estadual De Campinas - Unicamp (Br/Sp) Método para classificação multiclasse em cenários abertos e usos do mesmo
KR102185785B1 (ko) * 2014-11-21 2020-12-02 삼성전자주식회사 화합물의 물성을 예측하는 방법 및 시스템
EP3136270B1 (en) * 2015-08-26 2021-02-24 Viavi Solutions Inc. Raw material identification using spectroscopy
KR101747783B1 (ko) 2016-11-09 2017-06-15 (주) 바이오인프라생명과학 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치
CN107437095A (zh) * 2017-07-24 2017-12-05 腾讯科技(深圳)有限公司 类别确定方法及装置
CN108052987B (zh) * 2017-12-29 2020-11-13 苏州体素信息科技有限公司 图像分类输出结果的检测方法
US20210004723A1 (en) * 2018-03-29 2021-01-07 Nec Corporation Learning device, learning method, and learning program
CN108615071B (zh) * 2018-05-10 2020-11-24 创新先进技术有限公司 模型测试的方法及装置
JP7143672B2 (ja) * 2018-08-06 2022-09-29 日本電信電話株式会社 誤り判定装置、誤り判定方法、及びプログラム
CN110287311B (zh) * 2019-05-10 2023-05-26 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
CN114495291B (zh) * 2022-04-01 2022-07-12 杭州魔点科技有限公司 活体检测的方法、系统、电子装置和存储介质
CN115501050A (zh) * 2022-10-31 2022-12-23 江苏理工学院 一种基于计算机视觉的轮椅用户健康监测系统及其检测网络的训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143636A (ja) * 1991-11-22 1993-06-11 Omron Corp 判別分析方法及び装置
JPH06124349A (ja) * 1992-10-12 1994-05-06 Fujitsu Ltd パターン学習方法及びパターン学習装置
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
JP4985653B2 (ja) * 2006-11-13 2012-07-25 富士通株式会社 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2754080B1 (fr) * 1996-10-01 1998-10-30 Commissariat Energie Atomique Procede d'apprentissage pour la classification de donnees selon deux classes separees par une surface separatrice d'ordre 1 ou 2
AU2002249913A1 (en) * 2001-01-03 2002-08-12 President And Fellows Of Harvard College Compounds regulating cell proliferation and differentiation
WO2004097408A1 (en) * 2003-03-24 2004-11-11 Novascreen Biosciences Corporation Drug discovery method and apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143636A (ja) * 1991-11-22 1993-06-11 Omron Corp 判別分析方法及び装置
JPH06124349A (ja) * 1992-10-12 1994-05-06 Fujitsu Ltd パターン学習方法及びパターン学習装置
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
JP4985653B2 (ja) * 2006-11-13 2012-07-25 富士通株式会社 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置

Also Published As

Publication number Publication date
JPWO2009078096A1 (ja) 2011-04-28
US8352390B2 (en) 2013-01-08
KR20100082377A (ko) 2010-07-16
EP2244213A1 (en) 2010-10-27
WO2009078096A1 (ja) 2009-06-25
CN101903895B (zh) 2014-03-26
EP2244213A4 (en) 2011-06-08
KR101126390B1 (ko) 2012-03-29
EP2244213B1 (en) 2015-10-28
CN101903895A (zh) 2010-12-01
US20100241598A1 (en) 2010-09-23

Similar Documents

Publication Publication Date Title
JP5104877B2 (ja) 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置
JP4985653B2 (ja) 2クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび2クラス分類予測モデルの作成装置
JP5141767B2 (ja) サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置
Kumar et al. An efficient feature selection system to integrating SVM with genetic algorithm for large medical datasets
CN110084314B (zh) 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
Zhao et al. A novel approach to extracting features from motif content and protein composition for protein sequence classification
Gao et al. Combining feature selection and ensemble learning for software quality estimation
Agrawal et al. Evaluating machine learning classifiers to detect android malware
JP5087756B2 (ja) 化合物の予測信頼性評価システム
JP2007179413A (ja) パターン認識装置、パターン認識方法、および特徴抽出パラメータの生成方法
Liu Serum proteomic pattern analysis for early cancer detection
JP4852086B2 (ja) パターン認識装置
Yu et al. A multi-model exponential discriminant analysis algorithm for online probabilistic diagnosis of time-varying faults
JP2009037640A (ja) パターン認識装置および特徴抽出パラメータの生成方法
Sun Imbalanced Binary Classification for Detecting Transcription Factor Binding Sites in H1 Human Embryonic Stem Cells
Al-Shalalfa et al. Application of double clustering to gene expression data for class prediction
Tamer et al. A comparative study on Bioinformatics Feature Selection and Classification
Buza et al. IQ estimation for accurate time-series classification
Kukkapalli et al. Impact Analysis of Feature Selection in Supervised and Unsupervised Methods
del Pozo-Baños et al. Discriminative multi-projection vectors: modifying the discriminative common vectors approach for face verification
Bacher et al. An approach to bayesian multi-mode statistical process control based on subspace selection
Gao et al. Comparing Two Approaches for Adding Feature Ranking to Sampled Ensemble Learning for Software Quality Estimation.
Huang et al. New Feature Selection Method Combined with SVM-RFE and PCA
Phoemhansa et al. On Comparing Feature Reduction Techniques for Accuracy Improvement of the k-NN Classification
Kozak et al. Classes of Kernels for Hit Definition in Compound Screening

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120917

R150 Certificate of patent or registration of utility model

Ref document number: 5104877

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3