JP5141767B2

JP5141767B2 - サンプルの帰属クラス予測方法、帰属クラス予測プログラムおよび帰属クラス予測装置

Info

Publication number: JP5141767B2
Application number: JP2010523668A
Authority: JP
Inventors: 浩太郎湯田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-08-05
Filing date: 2008-08-05
Publication date: 2013-02-13
Anticipated expiration: 2028-08-05
Also published as: EP2323080A1; JPWO2010016109A1; EP2323080A4; US8682813B2; WO2010016109A1; EP2323080B1; US20110137841A1

Description

本発明は、クラス未知のサンプルについて、そのサンプルが帰属するクラスを予測するための方法、プログラムおよび装置に関する。

典型的なクラス分類問題として文字認識問題がある。そのデータ解析は極めて高い水準まで達しており、一般には９９％以上の認識率が達成される。一方で、環境問題等で最近注目されるようになった化合物の毒性（以下、安全性）評価のための二クラス分類問題では、文字認識問題に比べてその分類率や予測率はかなり低い。通常、分類率としては８０％から９０％が精々であり、予測率は７０％から８０％が限界と言われている。その原因は、化合物における毒性発現の要因が複雑で多岐にわたること、更に化合物間の構造が多様であること等である。ところが、化合物の安全性評価は極めて重要性の高い問題であり、その分類や予測が間違った場合、特に、毒性化合物を安全な化合物と分類予測した場合に社会に与えるインパクトは大きい。この点で、化合物の安全性評価における分類予測の正確さを改善することが強く求められている。

従って、現在、化合物のクラス分類問題において分類率を上げることが特に重要な問題であると認識され、そのために種々の努力がなされている。本発明者は、二クラス分類問題において分類率を限りなく１００％に近づけることが可能な方法、即ち、「Ｋ−ｓｔｅｐ・Ｙａｒｄ・ｓａｍｐｌｉｎｇ・ｍｅｔｈｏｄ」（以下、ＫＹ法）を提案している（特許文献１、非特許文献１参照）。

この方法では、まず、学習サンプルセットを判別分析して、クラス１あるいはクラス２に属することが明確なサンプル群と、どちらのクラスに属するかが明確でないサンプル（グレークラスサンプル）群に別ける。クラス帰属が明確なサンプル群については判別分析の結果に基づくクラスにアサインし、グレークラスサンプル群についてはこれを新たな学習サンプルセットに設定して新たな判別分析を行う。このプロセスをグレークラスサンプルがなくなるまで繰り返すことにより、分類率をほぼ１００％とするようにしている。

ＫＹ法を実施することによって得られた複数の判別関数は、分類目的である特性が未知のサンプルについて、その帰属クラスを予測するための予測モデルとなる。この予測モデルでは分類率がほぼ１００％であるため、高い予測率を期待することができる。

最近、ＥＵでＲＥＡＣＨ規則の運用が開始されており、その運用に伴って化合物の毒性に関して大量のデータの蓄積が進むものと考えられる。通常、予測モデルは、サンプルの予測目的である特性値、即ち、目的変数の値が既知のサンプルを集め、これを学習サンプルセットとしてデータ解析を適用することにより作成される。学習サンプルセットに含まれるサンプル数が多いほど、信頼性の高い予測モデルを作成することができる。したがって、一旦作成された予測モデルであっても、学習サンプルとして使用可能な新たなデータが蓄積されると、そのデータを加えた新たな学習サンプルセットで新たな予測モデルを作成することが望まれる。

しかしながら、そのためには定期的に予測モデルを更新する必要があり、多大の労力と経費を要する。上述したＫＹ法によって予測モデルを作成する場合、学習サンプルセットを何段階にもわたって判別分析する必要があり、１個の学習サンプルセットから予測モデルを作成するためには、従来の方法に比べてより多くの労力と経費を要する。したがって、固定された学習サンプルセットに基づいて作成された予測モデルを使用することなく、未知サンプルの予測を行うことができれば、極めて効率的に未知サンプルの帰属を決定することができる。また、その場合、常に新しいデータを加えた学習サンプルセットに基づいてクラス帰属を予測することが可能となるため、予測率の向上が期待される。

ＷＯ２００８／０５９６２４「Ｋ−ｓｔｅｐ・Ｙａｒｄ・ｓａｍｐｌｉｎｇ・ｍｅｔｈｏｄの開発とＡＤＭＥ−Ｔ予測への適用」３４回構造活性相関シンポジウム、２００６年１１月

したがって、本発明の課題は、高い予測率を維持しながら、既成の予測モデルを使用することなく、常に新しい学習サンプルデータを用いて未知サンプルのクラス分類予測を行うことが可能な、サンプルの帰属クラス予測方法、そのためのプログラムおよび装置を提供することである。既成の予測モデルを必要としない点で、この方法をモデルフリー予測方法と呼ぶ。

前記課題を解決するために、サンプルの帰属クラス予測方法は、ａ）学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第１または第２のクラスに分類予測する判別関数を求め、ｂ）前記判別関数に基づいて前記各学習サンプルと未知サンプルの判別得点を算出し、ｃ）前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定し、ｄ）前記ｃ）で肯定判断の場合、前記未知サンプルの判別得点に従ってその帰属クラスを決定し、ｅ）前記ｃ）で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築し、ｆ）前記新たな学習サンプルセットに対して、前記ａ）〜ｅ）のステップを繰り返す、各ステップを備える。

前記課題を解決するために、サンプルの帰属クラス予測プログラムは、ａ）学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第１または第２のクラスに分類予測する判別関数を求める手順と、ｂ）前記判別関数に基づいて各学習サンプルと未知サンプルの判別得点を算出する手順と、ｃ）前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定する手順と、ｄ）前記ｃ）で肯定判断の場合、前記未知サンプルの判別得点に従ってその帰属クラスを決定する手順と、ｅ）前記ｃ）で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築する手順と、ｆ）前記新たな学習サンプルセットに対して、前記ａ）〜ｅ）の手順を繰り返して実行する手順と、をコンピュータに実行させる。

前記課題を解決するために、サンプルの帰属クラス予測装置は、クラス１あるいはクラス２に帰属することが既知の複数のサンプルで構成される学習サンプルセットをデータ解析して、前記クラス１あるいはクラス２への帰属が不明である未知サンプルの帰属クラスを予測する装置であって、前記学習サンプルセットの各学習サンプルと前記未知サンプルに対して説明変数を発生する説明変数発生装置と、前記各学習サンプルについて発生した説明変数に基づいて判別分析を行い、上記クラス１およびクラス２を判別するための判別関数を得る、判別関数作成エンジンと、前記作成された判別関数に基づいて、前記各学習サンプルと前記未知サンプルの判別得点を算出する、判別得点算出装置と、前記算出された各学習サンプルの判別得点と前記未知サンプルの判別得点を比較する、判別得点比較装置と、前記判別得点比較装置の比較結果に基づいて、前記未知サンプルの帰属クラスを決定する帰属クラス決定装置と、前記判別得点比較装置の比較結果に基づいて、前記学習サンプルセットから、少なくとも最大の判別得点を有する学習サンプルと最小の判別得点を有する学習サンプルとを取り除いて新たな学習サンプルセットを構築するサンプルセット設定装置と、前記設定された新たな学習サンプルセットを前記学習サンプルセットとして用いて前記説明変数発生装置、前記判別関数作成エンジン、前記判別得点算出装置、前記判別得点比較装置、前記帰属クラス決定装置および前記サンプルセット設定装置を繰り返し動作させる制御装置と、を備え、前記帰属クラス決定装置は、前記判別得点比較装置における比較結果が、前記未知サンプルの判別得点が前記各学習サンプルのうちの最大の判別得点以上か、あるいは最小の判別得点以下かの何れかである場合、前記未知サンプルの判別得点にしたがって前記未知サンプルの帰属クラスを決定するようにしている。

学習サンプルセットを判別分析することにより、各学習サンプルを第１のクラスまたは第２のクラスに分類予測する判別関数を得ることができる。この判別関数に基づいて計算された各サンプルの判別得点は、分類予測の確からしさを示す指標と考えられる。したがって、最大の判別得点を有する学習サンプル、最小の判別得点を有する学習サンプルは、判別得点の符号に従って行われるクラス分類予測の精度がもっとも高い。

未知サンプルの判別得点を同じ判別式を用いて計算し、もしこの判別得点が、学習サンプル中の最大の判別得点以上か、あるいは最小の判別得点以下の場合、判別得点に従った未知サンプルのクラス分類精度は、前記最大あるいは最小の判別得点を有する学習サンプルのクラス分類精度と同じかそれ以上となる。したがって、この場合、未知サンプルのクラスを判別得点の、例えば符号にしたがって決定する。

一方、未知サンプルの判別得点が、学習サンプル中の最大の判別得点より小さくかつ最小の判別得点以上の場合、判別得点にしたがって未知サンプルをクラス決定せず、学習サンプルセットから少なくとも最大、最小の判別得点を有する学習サンプルを除去して新たな学習サンプルセットを構築する。その後、この新たな学習サンプルセットについて新たな判別分析を行う。これを、未知サンプルの判別得点が、学習サンプル中の最大の判別得点以上か、あるいは最小の判別得点より小さくなるまで続けることにより、未知サンプルを非常に高い精度でクラス分類予測することができる。

本明細書で開示する方法、プログラムおよび装置によれば、学習サンプルセットが存在すればそのデータ解析と並行して未知サンプルのクラス予測を行うことができる。したがって、既成の分類予測モデルを必要としないので、学習サンプルデータの蓄積に伴って分類予測モデルを更新する必要がなくなる。また、未知サンプルのクラス分類予測は、未知サンプルの判別得点が、学習サンプルセット中の最大の判別得点よりも大かあるいは最小の判別得点よりも小さいかに基づいて行われるため、その分類予測精度は極めて高くなる。

図１は、理想的な二クラス分類の結果としてのパターン空間を示す。図２は、通常の二クラス分類の結果としてのパターン空間を示す。図３は、未知サンプルのクラス帰属方法を実施する基本的な処理手順を示すフローチャートである。図４は、一実施形態の処理手順を示すフローチャートの前半部分を示す図である。図５は、図４に示す一実施形態の処理手順の後半部分を示す図である。図６は、サンプルデータテーブルの一例を示す図である。図７は、最終パラメータセットのデータテーブルの一例を示す図である。図８は、図４に示す１ステップの詳細を示す図である。図９は、一実施形態に係る特性予測装置の概略構成を示すブロック図である。

符号の説明

１クラス１の誤分類サンプル
２クラス２の誤分類サンプル
１００サンプルの帰属クラス予測装置
１１０入力装置
１２０出力装置
１３０入力データテーブル
１４０初期パラメータセットテーブル
１５０最終パラメータセットテーブル
１６０予測結果保存テーブル
２００解析部
２１０初期パラメータ発生エンジン
２２０制御部
２３０特徴抽出エンジン
２４０判別関数作成エンジン
２５０判別得点算出部
２６０サンプルセット設定部
２７０解析終了条件検出部
２８０判別得点比較部
２９０帰属クラス決定部
３００サンプルライブラリ

最適な実施形態を説明する前に、本発明の原理について説明する。

図１は、判別分析による、理想的な二クラス分類の結果としてのパターン空間を示す。理想的とは、分類率が１００％であることを意味する。図において、Ｓは識別面あるいは超平面を示し、識別面Ｓの右側の領域Ａがクラス１のサンプルが存在する領域（以下、クラス１領域）であり、左側の領域Ｂがクラス２のサンプルが存在する領域（以下、クラス２領域）である。○は本来クラス１に属するサンプル、×は本来クラス２に属するサンプルを示す。

二クラス分類が理想的に、即ち分類率１００％で行われた場合は、識別面Ｓの両側にそれぞれクラス１のサンプル○、クラス２のサンプル×が位置し、クラス１の領域Ａとクラス２の領域Ｂは重ならない。ところが、通常の二クラス分類では領域Ａと領域Ｂに重なりが生じる。

図２は、通常の二クラス分類の結果としてのパターン空間を示す。分類率が１００％未満の場合、図示するように、識別面Ｓによって領域Ａ、Ｂが完全に分類されず、重複領域Ｃが形成される。その結果、本来はクラス１のサンプルであってもクラス２領域に入り込み、クラス２サンプルとして間違って分類されるサンプル１、本来はクラス２のサンプルであってもクラス１領域に入り込み間違ってクラス１サンプルとして分類されるサンプル２が発生する。これら間違って分類されるサンプルを誤分類サンプルと呼び、正しく分類されるサンプルを正分類サンプルと呼ぶ。従って、誤分類サンプルには、本来クラス１であるサンプルおよび本来クラス２であるサンプルの両者が含まれる。

クラス１とクラス２を判別するための判別関数（予測モデル）Ｙは、以下の式（１）で示される。

Ｙ＝ａ１ｘ１±ａ２ｘ２±・・・±ａｎｘｎ±Ｃ（１）

式（１）において、Ｙは目的変数の値を示し、ｘ１、ｘ２、・・・ｘｎは説明変数（以下、パラメータ）の値、ａ１、ａ２、・・・ａｎは重み係数、Ｃは定数を示す。説明変数の値ｘ１、ｘ２、・・・ｘｎは各サンプルによって異なる値であり、重み係数ａ１、ａ２、・・・ａｎは全サンプルに共通の値である。通常、クラス１に帰属するサンプルは目的変数Ｙの値が正の値に、クラス２に属するサンプルは目的変数Ｙの値が負の値になるように重み係数が選択されている。この場合、図１および２に示す識別面Ｓは、Ｙの値が０となる平面（超平面）を示す。

式（１）に、各サンプルについて求めた説明変数（パラメータ）の値ｘ１、ｘ２、・・・ｘｎを代入することにより、各サンプルの目的変数の値Ｙ（ｋ）を求めることができる。この値Ｙ（ｋ）は、判別分析においては「目的変数」あるいは「独立変数」として意味づけされるが、数値データとしてみた場合、連続変数である「判別得点」を示す。判別得点は、パターン空間上において、各サンプルと識別面Ｓとの間の距離を示している。

二クラス分類において、通常、クラス１サンプルの判別得点はプラス（正）の符号を有し、クラス２サンプルの判別得点はマイナス（負）の符号を有するように判別関数が作成されている。従って、サンプルの帰属クラスの決定には、判別得点がプラスであるか、マイナスであるかしか意味を持たない。判別得点の大きさ（絶対値）が、分類目的の特性の大きさあるいは強さを示すものでは決してない。しかしながら、判別得点Ｙ（ｋ）は、各サンプルによって特定されるパラメータ値を式（１）に当てはめて計算するものであるため、判別得点Ｙ（ｋ）に基づく各サンプル間の関係は固定されている。

図２に示すように、誤分類サンプル１、２は、識別面Ｓの近傍において発生する傾向がある。即ち、識別面Ｓとサンプル間の距離が小さい領域において誤分類サンプル１、２が発生しやすい。識別面Ｓとサンプル間の距離が大きくなる程、誤分類サンプルの発生の度合いが小さくなる。判別得点Ｙ（ｋ）は、識別面Ｓとサンプル間の距離を表すもので、従って、判別得点が大きいほど、あるいは小さいほど、誤分類サンプルの発生確率が低くなる。即ち、判別得点は、クラス帰属の確からしさを示す指標であると考えてもよい。

一方、目的変数の値が未知のサンプルについて、目的変数の予測値を求める場合、即ち帰属クラスを予測する場合、未知サンプルについて説明変数の値を算出し、これを式（１）に代入してＹの値を決定する。値Ｙの符号にしたがって、未知サンプルが所属するクラスを決定する。例えば、Ｙの値がプラスの場合、未知サンプルをクラス１にアサインし、Ｙの値がマイナスの場合、未知サンプルをクラス２にアサインする。

この場合、図２を参照することによって明らかなように、未知サンプルの判別得点Ｙの絶対値が大きい場合、パターン空間上での未知サンプルの位置１０ａが識別面Ｓから充分はなれていると考えられる。したがってその場合の予測結果は正しいと考えられる。一方、未知サンプルの判別得点Ｙの絶対値が小さい場合は、パターン空間上での未知サンプルの位置１０ｂは識別面Ｓからあまり離れていないと考えられる。そのため、未知サンプルの位置１０ｂが誤分類領域Ｃにある可能性が高く、予測結果の信頼性は低い。

したがって、未知サンプル１０ａ、１０ｂの予測が正確か否かを判定するためには、誤分類領域Ｃを特定することが必要である。本発明者は、ＫＹ法の一手法として、誤分類領域Ｃを各学習サンプルの判別得点に基づいて決定し、その結果に対して新たな判別分析を行うことにより、ほぼ１００％の分類率を有する予測モデルを作成する方法を既に提案している（ＰＣＴ／２００７／０７４３３４）。

この方法では、学習サンプルセットに対して求めた判別関数に基づいて個々の学習サンプルの判別得点を計算し、個々の学習サンプルの帰属クラスを予測する。この予測クラスと実測値に基づくクラスとを比較し、両者が一致しない場合そのサンプルを誤分類サンプルとする。誤分類サンプル中で最大、最小の判別得点を検出し、その間の領域を誤分類領域Ｃとしている。誤分類領域Ｃが特定されれば、判別得点に基づく未知サンプル１０ａ、１０ｂの予測が正しいか否かがわかる。

この方法では、１個の判別関数を求めた時点で、学習サンプル個々の判別得点を求めると同時に、その値を実測値と比較して個々の学習サンプルが誤分類サンプルか正分類サンプルかを特定する必要がある。また、判別手法によって誤分類サンプルの発生の度合いが変化するため、誤分類領域Ｃを正確に特定することはできない。このような観点から、本発明者は、誤分類領域Ｃを特定することなく分類予測を実行することができれば、予測プロセスが簡単となり、さらに予測精度も向上すると考えた。

誤分類サンプルは識別面Ｓの近傍に存在する確率が高い。一方、判別得点が識別面Ｓ（Ｙ＝０）から離れるほど、サンプルの分類予測は正確となる。図２から明らかなように、最大の判別得点Ｐｍａｘを有するサンプル、最小の判別得点Ｐｍｉｎｉを有するサンプルは正分類サンプルである。また、これらのサンプルの近傍のサンプルも正分類サンプルである。あるいは正分類サンプルである確率が非常に高い。したがって、判別得点に基づいて未知サンプルのクラス予測を行う場合、未知サンプルの判別得点Ｒが、学習サンプル中の最大の判別得点Ｐｍａｘ以上か（点Ｒａ）、最小の判別得点Ｐｍｉｎｉ以下の場合（点Ｒｂ）、その未知サンプルは確実にクラス１サンプル、あるいはクラス２サンプルであると予測することができる。

したがって、未知サンプルの判別得点Ｒが学習サンプル中の最大の判別得点Ｐｍａｘ以上か、あるいは最小の判別得点Ｐｍｉｎｉ以下の場合、判別得点に基づくクラス予測を正確であると判断し、それ以外の場合、クラス予測は正確でないと判断することにより、誤分類領域Ｃを特定することなく、未知サンプルのクラス予測を高い精度で実施することができる。

図３は、以上に述べたような予測の正確性に関する判断基準に基づいて、モデルフリーで未知サンプルのクラス帰属予測を行う基本的手順を示すフローチャートである。なお、図３では一個の未知サンプルのクラス帰属をモデルフリーで予測する手順を示しているが、このフローチャートを同時に複数の未知サンプルのクラス帰属を予測する場合に適用させることは容易である。

まず、ステップＳ１において、目的変数の実測値、即ち、クラス１であるかクラス２であるかが既知の学習サンプルを複数個用意し、判別分析用のシステムに入力して、これらについて二クラス判別分析を行う。次のステップＳ２では、ステップＳ１の判別分析によって求めた判別関数を用いて、個々の学習サンプルの判別得点を計算する。ステップＳ３では、同じ判別関数を用いて目的変数が未知のサンプルの判別得点を計算する。ステップＳ４では、ステップＳ２及びＳ３で求めた判別得点を大小順にソートし、未知サンプルの判別得点Ｒと、学習サンプルの最大の判別得点Ｐｍａｘおよび最小の判別得点Ｐｍｉｎｉとを比較する。この比較の結果、未知サンプルの判別得点Ｒが学習サンプル中の最大の判別得点Ｐｍａｘ以上か、あるいは最小の判別得点Ｐｍｉｎｉ以下と判断されると（ステップＳ４のＹＥＳ）、ステップＳ７において、未知サンプルの判別得点Ｒの正負に基づいて未知サンプルのクラスアサインを行い、予測を終了する。

一方、ステップＳ４で、未知サンプルの判別得点Ｒが、学習サンプル中の最大の判別得点Ｐｍａｘよりも小さくかつ最小の判別得点Ｐｍｉｎｉよりも大きいと判定される（ステップＳ４のＮＯ）と、ステップＳ５に移行して、学習サンプルセットからある数の学習サンプルを除去し、新たなサンプルセットを構築する。

除去する学習サンプルは、１）判別得点の最大のサンプルから判別得点の大きい順にｍ個と、判別得点の最小のサンプルから判別得点の小さい順にｎ個のサンプルを指定するようにしても良い。この場合、ｍ＝ｎであっても良いし、ｍ≠ｎであっても良い。また、クラスポピュレーションを考慮に入れてｍとｎの値を決定しても良い。あるいは、２）最大あるいは最小の判別得点を１００％とした場合、例えば１００％から９０％の範囲内の判別得点を有するサンプルを除去するようにしても良い。個数ｍ、ｎがあまり大きいと、取り除くサンプルの範囲が、最大、最小の判別得点を有するサンプルの近傍から外れ、誤分類領域に入り込む。したがって、学習サンプルの総数の１０％以下、数％程度が望ましい。

最も精度の高い分類予測を行おうとする場合には、ステップＳ４で除去するサンプルは、判別得点が最大のサンプルと、判別得点が最小のサンプルの計２個である。したがって、ステップＳ４では、少なくとも、判別得点が最大の学習サンプルと、判別得点が最小の学習サンプルとを取り除く。なお、図３において、後述するステップＳ１からステップＳ６までの繰り返しの最大の回数をシステムにおいて設定した場合、この最大回数に基づいて、１回の判別分析で取り除くサンプル数を決定するようにしても良い。例えば、総サンプル数が１０００個であり、繰り返しの最大回数を１００回とした場合、１回の判別分析では１０個のサンプルを取り除くようにすれば、１００回の判別分析で全てのサンプルを取り除くことができる。

図３のステップＳ６では、残りの学習サンプルによって新たな学習サンプルセットを構築し、ステップＳ１に戻って新たな判別分析を開始する。この場合、学習サンプルセットが初期学習サンプルセットとは異なっているので、特徴抽出の結果、新たな説明変数の組合せ（最終パラメータセット）が選択され、第１回目の判別分析とは異なる判別関数が得られる。したがって、第１回目の判別分析によるパターン空間と、第２回目の判別分析によるパターン空間とは異なったものとなる。また、個々の学習サンプルおよび未知サンプルの判別得点も第１回目の判別分析における判別得点とは異なってくる。

したがって、ステップＳ４では、学習サンプルと未知サンプルについて新に算出された判別得点に基づいて、その大小が比較される。ステップＳ４でＹＥＳと判定されると、ステップＳ７で未知サンプルの判別得点の符号に基づいてそのクラス帰属が決定される。ステップＳ４でＮＯと判定されると、ステップＳ５以降を実行する。

以上のように、ステップＳ１〜ステップＳ６をステップＳ４でＹＥＳとなるまで繰り返すことにより、誤分類領域（グレーゾーン）を特定することなく、未知サンプルのクラス帰属を正確に予測することができる。なお、システムにおいて、繰り返し数の最大値を予め設定しておいても良い。

従来の分類予測方法では、学習サンプル数の数が多くなればなる程、分類率、予測率は低下する。これに対して、図３の方法では、学習サンプルの数が多くなった場合であっても、ステップＳ１〜ステップＳ６の繰り返しの回数を多くするだけで、クラス予測の精度を落とすことなく、未知サンプルのクラス帰属を予測することができる。したがって、ＲＥＡＣＨ規則の運用によって何万、あるいは何十万という化合物データが蓄積された場合であっても、これらを全て学習サンプルとして、しかも高いに予測精度を維持して、未知サンプルのクラス帰属を予測することができる。

以下に、第１の実施形態について説明する。この実施形態では、サンプルを化合物とし、予測を行う目的変数をＡｍｅｓテストにおける活性（＋、ｍｕｔａｇｅｎ）、非活性（−、ｎｏｎ−ｍｕｔａｇｅｎ）としている。

図４および図５は、化合物のＡｍｅｓテストにおける活性、非活性を予測するための実施手順を示すフローチャートである。まず、ステップＳ１０において、学習サンプルセットおよび予測対象化合物である未知サンプルを用意し、システムに入力する。学習サンプルセットは、Ａｍｅｓテストにおける活性、非活性の実測値が既知の複数の化合物で構成される。未知サンプルは、化学的構造は既知であるがＡｍｅｓテストにおける活性、非活性の実測値が不明のサンプルである。未知サンプルは１個であっても、複数個を用意しても何れでも良い。

用意された学習サンプルは、１次元、２次元あるいは３次元構造式の形でサンプルの帰属クラス予測装置に入力され、図６に示すようなサンプルデータを保存するためのテーブルが作成される。図６において、コラム６０はサンプルである化合物の２次元あるいは３次元の構造式を示す。コラム６１はその化合物のＣＡＳ番号を示し、コラム６２は、Ａｍｅｓテストの結果を示している。コラム６２において、ｍｕｔａｇｅｎはＡｍｅｓテストの結果、変異原性有り（＋）を示し、ｎｏｎｍｕｔａｇｅｎは変異原性を持たない（−）ことを示している。図示の例では、ｍｕｔａｇｅｎであるサンプルをクラス１（ポジティブクラス）に、ｎｏｎｍｕｔａｇｅｎであるサンプルをクラス２（ネガティブクラス）に二クラス分類するためのデータテーブルを示している。コラム６３は、サンプル番号を示す。未知サンプルについても、同様のデータテーブルが作成されるが、Ａｍｅｓテストの実測値を記載するコラム６２は空欄である。

次に、図４のステップＳ１１において、目的変数を算出するための初期パラメータ、即ち説明変数（ｘ１、ｘ２・・・ｘｘ）の値を発生させる。初期パラメータは、化合物の構造から自動的に発生させることができる。例えば、富士通株式会社で販売するＡＤＭＥＷＯＲＫＳ−ＭｏｄｅｌＢｕｉｌｄｅｒ（登録商標）では、化合物の２次元あるいは３次元構造、各種の物性に基づいて自動的に約８００個のパラメータを発生させることができる。初期パラメータは、各学習サンプルおよび未知サンプルについて発生させる。ステップＳ１２では、第１回目の判別分析を開始するために、ＳＴＡＧＥを１に設定する。

ステップＳ１３では、学習サンプルの初期パラメータに対して特徴抽出を行い、分類に不必要なノイズパラメータを除去する。これによって、最終パラメータセット（ｘ１、ｘ２・・・ｘｎ）が決定される（ステップＳ１４）。特徴抽出としては、単相関係数、重相関係数、出現頻度、Ｆｉｓｃｈｅｒ比、Ｖａｒｉａｎｃｅ法などの種々の既知手法を用いて実施することができる。特徴抽出のための各種のエンジンも一般に提供されている。

図７は、特徴抽出の結果、Ａｍｅｓテスト結果に影響ありとして選択された最終パラメータセットと、個々の化合物のこれらのパラメータに対する数値データを示すテーブルである。コラム７０は化合物を構造式で特定し、コラム７１以降は各種のパラメータを示している。例えば、コラム７１は化合物の分子量を、コラム７２は分子表面積を、コラム７３はｌｏｇＰの値をパラメータとしたことを示している。データテーブル中のセル７４内に記載された値は、サンプル１分子の分子量を示すデータ、セル７５内の値はサンプル１の分子表面積の値を示すデータ、セル７６内の値はサンプル１のｌｏｇＰ値を示すデータである。各セル内に示された値が、そのサンプルのパラメータデータとなる。なお、コラム７７は各サンプルのサンプル番号を示している。

ステップＳ１４では、解析の終了条件を満足したか否かが判定される。解析の終了条件とは、例えば、クラスアサイン（クラス予測）を行おうとする未知サンプルが存在しないこと、予め設定された最大のＳＴＡＧＥ数に達したか否か、学習サンプルセット中のサンプル数が予め設定した一定個数以下となったか否か、あるいは、信頼性指標が予め決定された値以下となったか否か、等である。ここで、信頼性指標とはサンプル数をパラメータ数で除した値であり、この値が小さくなると、これらのサンプルとパラメータとから得られる判別式ほとんど科学的およびデータ解析的に意味を持たず、その解析は失敗したと判断される。通常の判別分析ではこの値として４が設定されるが、４よりも大きければ大きいほど信頼性の高い判別式とみなされる。

図８に、ステップＳ１５の詳細を示す。ステップＳ１５１からステップＳ１５４が図４のステップＳ１５に相当する。まず、ステップＳ１５１で、予測を行おうとする未知サンプルが存在するか否かを確認する。未知サンプルが存在しない場合（ステップＳ１５１のＹＥＳ）は、予測処理を終了する。ステップＳ１５２で、現在の処理ＳＴＡＧＥが予め決定しておいた最大のＳＴＡＧＥ数Ｎ以上となったか否かを判定する。ＳＴＡＧＥ数がＮ以上となった場合（ステップＳ１５２のＹＥＳ）は、処理を終了する。

ステップＳ１５３では、サンプル数とパラメータ数で決定される信頼性指標の値が４未満となったか否かを判定する。信頼性指標が４以下となった場合（ステップＳ１５３のＹＥＳ）は、処理を終了する。ステップＳ１５４では、学習サンプル数が予め決定した最低のサンプル数Ｓｍｉｎｉに達したか否かを判定する。最低のサンプル数以下になった場合（ステップＳ１５４のＹＥＳ）は、処理を終了する。

従って、図示の実施形態では、終了条件の全てが満足されない場合に、ステップＳ１６が実行される。なお、ステップＳ１５１からステップＳ１５４の実行順序は任意でよく、また、ステップＳ１５２、１５４等は省略しても良い。更に、ステップＳ１５２に代わって、あるいは追加のステップとして、処理時間に関する制限を入れても良い。

再び図４に戻ると、ステップＳ１５で終了条件が満足される（ステップＳ１５のＹＥＳ）と、解析処理を終了する。ステップＳ１５で終了条件に達しない場合（ステップＳ１５のＮＯ）、ステップＳ１６で最終パラメータセットを用いて第１段階（ＳＴＡＧＥ１）の判別式を構築する。判別分析では、判別関数は上記式（１）として示される。

ステップＳ１７では、作成した判別関数を用いて各学習サンプルの判別得点を計算し、更に、同じ判別関数を用いて未知サンプルの判別得点を計算する。ｋ番目のサンプルの判別得点Ｙｋは、
Ｙｋ＝ａ１ｘ１ｋ±ａ２ｘ２ｋ±・・・±ａｎｘｎｋ±Ｃ（２）
として計算される。ここで、ｘ１ｋ、ｘ２ｋ、・・・ｘｎｋは、ｋ番目のサンプルのパラメータ（説明変数）データ、ａ１、ａ２、ａ３・・・ａｎは各パラメータに対する重み係数であり、各サンプルについて共通である。Ｃは定数である。

パラメータデータｘ１１、ｘ２１、ｘ３１・・・は、図７の各セル内に記載されたデータから得られる。したがって、判別分析により、各パラメータに対する係数ａ１、ａ２・・・を求めると、図７のテーブルに示される各セル内のデータを式（２）に導入することによって、サンプルｋの判別得点Ｙｋが計算される。

図５に示すステップＳ１８では、判別得点Ｙｋを全学習サンプルについてソートすることにより、学習サンプルの最大の判別得点Ｐｍａｘ、最小の判別得点Ｐｍｉｎｉを特定する。ステップＳ１８では、ステップＳ１７で求めた未知サンプルの判別得点Ｒと、学習サンプルの最大、最小の判別得点Ｐｍａｘ、Ｐｍｉｎｉとを比較し、Ｒ≧ＰｍａｘあるいはＲ≦Ｐｍｉｎｉを満足する未知サンプルがあるか否かを判定する。複数の未知サンプルのうち、Ｒ≧ＰｍａｘあるいはＲ≦Ｐｍｉｎｉを満足する未知サンプルがあれば（ステップＳ１９のＹＥＳ）、そのサンプルを取り出し、判別得点の符号にしたがってクラスアサインする（ステップＳ２０）。

次に、再びステップＳ１９に戻って、Ｒ≧ＰｍａｘあるいはＲ≦Ｐｍｉｎｉを満足する他の未知サンプルがあるか否かを判定する。ステップＳ１９とステップＳ２０は、ステップＳ１９においてＲ（未知サンプルの判別得点）≧ＰｍａｘあるいはＲ≦Ｐｍｉｎｉを満足する他の未知サンプルがなくなるまで、繰り返して実行される。この結果、ステップＳ２０において、現在のＳＴＡＧＥでＲ≧ＰｍａｘあるいはＲ≦Ｐｍｉｎｉを満足する全ての未知サンプルが取りだされ、そのクラスが決定される。

ステップＳ１９でＮＯとなった場合、ステップＳ２１において、学習サンプルセットの各クラスから判別得点の大きいあるいは小さいサンプルを、サンプル除去のルールに従って除去する。サンプル除去のルールは、図３を参照して説明したいずれのルールでも良く、ユーザが任意に指定すれば良い。ステップＳ２２では、残りの学習サンプルを新たな学習サンプルセットに設定する。ステップＳ２３ではＳＴＡＧＥを１だけ進めてＳＴＡＧＥ＝２とし、その後、図５のステップＳ１３以下を実行することにより、ＳＴＡＧＥ２での未知サンプルのクラスアサイン（帰属クラス決定）を実行する。

以上のようにして、ステップＳ１３からステップＳ２３を繰り返し実行することにより、全ての未知サンプルのクラスアサインが終了すると、ステップＳ１５で解析終了条件が満足されるため、その時点で分類予測処理が終了する。この場合、未知サンプルの帰属クラス決定は、未知サンプルの判別得点が学習サンプルの最大の判別得点Ｐｍａｘ以上となった場合、あるいは最小の判別得点Ｐｍｉｎｉ以下となった場合に行われるため、その予測の信頼性は非常に高いものとなる。

なお、各ＳＴＡＧＥで実施する判別分析手法としては、各ＳＴＡＧＥで同じ手法を使用しても良いし、あるいは異なる手法を使用しても良い。例えば、ＳＴＡＧＥ１でＢａｙｅｓ判別分析法を使用し、ＳＴＡＧＥ２でＡｄａＢｏｏｓｔ法を使用するようにしても良い。更に、各ＳＴＡＧＥで除去する学習サンプルの個数を一定にしても良いし、あるいはＳＴＡＧＥ毎に異なる個数を設定しても良い。例えば、比較的初期のＳＴＡＧＥでは比較的多くのサンプルを除去し、高次のＳＴＡＧＥではそれよりも小さい数のサンプルを除去するようにしても良い。

以上の結果、モデルフリーでかつ高い予測精度で、未知サンプルの帰属クラス予測を行うことができる。また、予測過程の各ＳＴＡＧＥにおいて、各学習サンプルを正分類サンプルと誤分類サンプルとに分類する必要がなくなるので、予測のための計算時間を大幅に短縮することができる。

図９は、第３の実施形態に係るサンプルの帰属クラス予測装置の概略構成を示すブロック図である。本実施形態にかかる予測装置１００は、学習サンプル、未知サンプルのデータを入力する入力装置１１０、未知サンプルの予測結果あるいは処理途中の必要なデータを出力する出力装置１２０を備えている。サンプルが化合物の場合、入力装置１１０から化合物の１次元構造式あるいは２次元構造式と共に、その化合物の既知の目的変数の値（即ち、クラス１かクラス２かに関する情報、例えば、安全性データ）が入力され、入力データテーブル１３０に保持される。未知サンプルを入力する場合は目的変数の値は入力されない。

入力装置１１０を介して、初期パラメータセットのデータを入力し、これを初期パラメータセットテーブル１４０に保存するようにしても良い。解析部２００が、入力されたサンプルについて初期パラメータを自動的に発生するためのエンジン２１０を有している場合は、初期パラメータセットデータを入力装置１１０から入力する必要はない。

図９において、１５０は最終パラメータセットを保存するテーブルであり、初期パラメータセットに対して特徴抽出を行った結果としての最終パラメータセットを保存する。１６０は、未知サンプルについてのクラスアサイン情報、即ち予測結果情報を保存する予測結果保存テーブルである。通常、これらのテーブル１３０、１４０、１５０、１６０は一個の記憶装置に格納されている。

解析部２００は、制御部２２０と、初期パラメータ発生エンジン２１０、特徴抽出エンジン２３０、判別関数作成エンジン２４０、判別得点算出部２５０、サンプルセット設定部２６０および解析終了条件検出部２７０、判別得点比較部２８０およびクラスアサイン実施部２９０を備えている。なお、初期パラメータを本装置の外部で発生させる場合は、初期パラメータ発生エンジン２１０は必要とされない。サンプルが化合物の場合は、初期パラメータ発生エンジン２１０は、入力装置１１０から入力された化合物の構造式に基づいて、複数の構造記述子を発生する。３００はサンプルライブラリであり、過去の特性予測に用いた学習サンプルの構造式、安全性データ、初期パラメータ値などをライブラリデータとして保存している。

特徴抽出エンジン２３０は、初期パラメータセットに対して特徴抽出を行って最終パラメータセットを決定し、これを最終パラメータセットテーブル１３０に保存する。判別関数作成エンジン２４０は、種々の既存の判別分析エンジンを備えており、ユーザによって任意に指定された判別分析エンジン、あるいはシステムが適宜選択した判別分析エンジンを用いて、最終パラメータセットテーブル１３０を参照しながら、入力サンプルの判別分析を行い、判別関数を作成する。判別得点算出部２５０は、判別関数作成エンジン２４０によって作成された判別関数に各サンプルのパラメータを入力することにより、各サンプルの判別得点を計算する。サンプルセット設定部２６０は、予め設定したサンプル除去ルールに従って、学習サンプルセットから判別得点の大きいサンプル、小さいサンプルを除去し、新たな学習サンプルセットを構築する。

特徴抽出エンジン２３０、判別関数作成エンジン２４０、判別得点算出部２５０、新たなサンプルセット設定部２６０は、制御部２２０の制御下で作動し、図５および図６に示す処理を実行する。なお、解析終了条件検出部２７０は、１）帰属クラスを予測する未知サンプルが０となった時点、２）処理の繰り返しが予め設定した回数（あるいは時間）を超えた場合、３）新に設定した学習サンプルセット中のサンプル数が予め決定した個数以下となった時点、４）信頼性指標が予め定めた値以下となった時点、の何れかで、解析の実行を停止する。

判別得点比較部２８０は、未知サンプルの判別得点Ｒを、学習サンプルの最大の判別得点Ｐｍａｘあるいは最小の判別得点Ｐｍｉｎｉと比較する。帰属クラス決定部２９０は、判別得点比較部２８０の結果に基づいて未知サンプルのクラスアサインを実行する。即ち、未知サンプルの判別得点Ｒが学習サンプルの最大の判別得点Ｐｍａｘ以上の場合あるいは最小の判別得点Ｐｍｉｎｉ以下の場合、未知サンプルを判別得点Ｒの符号に基づくクラスにアサインし、その何れでもない場合、クラスアサインを行わない。帰属クラス決定部２９０の結果は、予測結果保存テーブル１６０に一旦保存された後、出力装置１２０を介して任意の形状で出力される。出力装置としては、種々の記憶装置、ディスプレイ、プリンタ等が選択可能であり、出力の形態としては、各種ファイル（例えばＵＳＢファイル）、ディスプレイ表示、プリントアウト等を適宜選択することが可能である。

上記した各プログラムは、コンピュータ読取可能な記録媒体に格納することが可能であり、これらの記録媒体を頒布、流通することが可能である。また、同様に上記した各プログラムはインターネット等の通信回線を介して頒布、流通することが可能である。前記したコンピュータ読取可能な記録媒体としては、磁気記録装置、光ディスク、光磁気ディスクあるいは半導体メモリ（ＲＡＭ、ＲＯＭ等）などがある。一例として、磁気記録装置としてはハードディスクドライブ（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープ（ＭＴ）等がある。光ディスクの例としては、ＤＶＤ（Ｄｉｇｉｔａｌ・Ｖｅｒｓａｔｉｌｅ・Ｄｉｓｃ）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ等がある。光磁気ディスクとしてはＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌ・ｄｉｓｃ）等がある。

入力装置１１０を介して入力された学習サンプルのデータ、これらの学習サンプルについて発生された初期パラメータセットのデータは、解析部２００を介してサンプルライブラリに入力され保存される。従って、サンプルライブラリ３００を利用すれば、未知サンプルのクラス帰属予測を行う場合、入力装置１１０を介して未知サンプルの構造式データを入力するのみで、予測を実行することができる。あるいは、新たな学習サンプルデータが用意されれば、そのデータを入力装置１１０から帰属クラス予測装置１００に入力することにより、サンプルライブラリ３００に保存された既存の学習サンプルデータと合わせて最新の学習サンプルセットを作成することができる。クラス予測は、この最新の学習サンプルセットを初期サンプルセットとして用いて行われる。従って、本装置では、常に新しい学習サンプルを加えたデータベースにより、未知サンプルの特性予測を実行することができる。

また、入力装置１１０および出力装置１２０を、対話形式のグラフィックユーザインターフェースを備えたディスプレイ装置で構成することも可能である。この場合、解析終了条件の選択、サンプル除去ルールの選択などを、ユーザがディスプレイ画面を介してコンピュータと対話しながら行うようにしても良い。

本明細書に開示する方法、プログラム、装置は、二クラス分類が適用可能な全ての産業分野に適用可能である。以下に、主な適用分野を列挙する。

１）化学データ解析
２）バイオ関連研究
３）蛋白質関連研究
４）医療関連研究
５）食品関連研究
６）経済関連研究
７）工学関連研究
８）生産歩留まり向上等を目的としたデータ解析
９）環境関連研究
１）の化学データ解析分野では、より詳細には、下記のような研究に適用できる。
（１）構造−活性／ＡＤＭＥ／毒性／物性相関の研究
（２）構造−スペクトル相関研究
（３）メタボノミクス関連研究
（４）ケモメトリクス研究

例えば、構造−毒性相関研究分野では、Ａｍｅｓテスト結果の予測を行うことが極めて重要である。何故ならば、Ａｍｅｓテストは、毒性化合物規制関連の化合物審査法や労働安全衛生法等の国レベルの化合物規制に、最重要項目の一つして組み込まれているからである。このＡｍｅｓテストの審査を通らなければ、日本国内での化合物生産はできなくなり、企業の生産活動自体がストップする。また、海外での生産や輸出等も対象国の安全性規制により活動できなくなる。

ヨーロッパ議会におけるＲＥＡＣＨ規則では、化合物を使用する企業が、その化合物についてＡｍｅｓテストの結果を予測し、評価する義務を負っている。本発明は、このようなテスト結果の予測に、非常に有用なツールを提供するものである。なお、Ａｍｅｓテストとは、米国のＡｍｅｓ博士が開発した変異原性試験の一つで、発がん性試験の簡易手法である。このために、多くの化学物質あるいはこれらを用いた製品の安全性の指針として採用されている試験である。

Claims

ａ）学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第１または第２のクラスに分類予測する判別関数を求め、
ｂ）前記判別関数に基づいて前記各学習サンプルと前記第１または第２のクラスの何れに帰属するかが不明である未知サンプルの判別得点を算出し、
ｃ）前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定し、
ｄ）前記ｃ）で肯定判断の場合、前記未知サンプルの判別得点の符号に従ってその帰属クラスを決定し、
ｅ）前記ｃ）で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築し、
ｆ）前記新たな学習サンプルセットに対して、前記ａ）〜ｅ）のステップを繰り返す、各ステップを備える、コンピュータによって実施されるサンプルの帰属クラス予測方法。
請求項１に記載の方法において、さらに、ｇ）帰属クラス未定の未知サンプルが存在するか否かを判定するステップを備え、当該ステップで否定判断の場合、前記ステップｆ）の繰り返しを停止する、サンプルの帰属クラス予測方法。
請求項１に記載の方法において、前記ステップａ）における判別関数は、前記複数の説明変数に特徴抽出を実施して不要な説明変数を除去した残りの説明変数に基づいて求める、サンプルの帰属クラス予測方法。
請求項３に記載の方法において、前記ステップｆ）の繰り返しは、前記学習サンプルセット中の総サンプル数と、前記特徴抽出後の説明変数の数との比が予め決定した一定数以下となった場合、停止する、サンプルの帰属クラス予測方法。
請求項１に記載の方法において、前記各学習サンプルは化合物であり、前記第１と第２のクラスは、任意の毒性を有する化合物のクラスと前記毒性を有さない化合物のクラスである、サンプルの帰属クラス予測方法。
ａ）学習サンプルセットの各学習サンプルに対して発生させた複数の説明変数に基づいて、前記各学習サンプルを第１または第２のクラスに分類予測する判別関数を求める手順と、
ｂ）前記判別関数に基づいて各学習サンプルと前記第１または第２のクラスの何れに帰属するかが不明である未知サンプルの判別得点を算出する手順と、
ｃ）前記未知サンプルの判別得点が、前記全ての学習サンプルのうちの最大の判別得点以上あるいは最小の判別得点以下の何れかであるか否かを判定する手順と、
ｄ）前記ｃ）で肯定判断の場合、前記未知サンプルの判別得点の符号に従ってその帰属クラスを決定する手順と、
ｅ）前記ｃ）で否定判断の場合、少なくとも、前記最大の判別得点を有する学習サンプルと前記最小の判別得点を有する学習サンプルとを前記学習サンプルセットから除去して、残りの学習サンプルによって新たな学習サンプルセットを構築する手順と、
ｆ）前記新たな学習サンプルセットに対して、前記ａ）〜ｅ）の手順を繰り返して実行する手順と、をコンピュータに実行させるための、サンプルの帰属クラス予測プログラム。
請求項６に記載のプログラムにおいて、さらに、ｇ）帰属クラス未定の未知サンプルが存在するか否かを判定する手順を備え、当該手順で否定判断の場合、前記手順ｆ）の繰り返しを停止する、サンプルの帰属クラス予測プログラム。
請求項６に記載のプログラムにおいて、前記各学習サンプルは化合物であり、前記第１、第２のクラスは、任意の毒性を有する化合物のクラスと前記毒性を有さない化合物のクラスである、サンプルの帰属クラス予測プログラム。
クラス１あるいはクラス２に帰属することが既知の複数のサンプルで構成される学習サンプルセットをデータ解析して、前記クラス１あるいはクラス２への帰属が不明である未知サンプルの帰属クラスを予測する装置であって、
前記学習サンプルセットの各学習サンプルと前記未知サンプルに対して説明変数を発生する説明変数発生装置と、
前記各学習サンプルについて発生した説明変数に基づいて判別分析を行い、上記クラス１およびクラス２を判別するための判別関数を得る、判別関数作成エンジンと、
前記作成された判別関数に基づいて、前記各学習サンプルと前記未知サンプルの判別得点を算出する、判別得点算出装置と、
前記算出された各学習サンプルの判別得点と前記未知サンプルの判別得点を比較する、判別得点比較装置と、
前記判別得点比較装置の比較結果に基づいて、前記未知サンプルの帰属クラスを決定する帰属クラス決定装置と、
前記判別得点比較装置の比較結果に基づいて、前記学習サンプルセットから、少なくとも最大の判別得点を有する学習サンプルと最小の判別得点を有する学習サンプルとを取り除いて新たな学習サンプルセットを構築するサンプルセット設定装置と、
前記設定された新たな学習サンプルセットを前記学習サンプルセットとして用いて前記説明変数発生装置、前記判別関数作成エンジン、前記判別得点算出装置、前記判別得点比較装置、前記帰属クラス決定装置および前記サンプルセット設定装置を繰り返し動作させる制御装置と、を備え、
前記帰属クラス決定装置は、前記判別得点比較装置における比較結果が、前記未知サンプルの判別得点が前記各学習サンプルのうちの最大の判別得点以上か、あるいは最小の判別得点以下かの何れかである場合、前記未知サンプルの判別得点の符号にしたがって前記未知サンプルの帰属クラスを決定する、サンプルの帰属クラス予測装置。
請求項９に記載の装置において、更に、分類予測に不要な説明変数を除去するために、前記説明変数発生装置によって発生された説明変数に対して特徴抽出を行うための特徴抽出エンジンを備える、サンプルの帰属クラス予測装置。