JP5005208B2

JP5005208B2 - 予測方法、予測装置および予測プログラム

Info

Publication number: JP5005208B2
Application number: JP2005313930A
Authority: JP
Inventors: 野修平間
Original assignee: BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC.
Current assignee: BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC.
Priority date: 2005-10-28
Filing date: 2005-10-28
Publication date: 2012-08-22
Anticipated expiration: 2025-10-28
Also published as: JP2007122418A

Description

本発明は、予測方法、予測装置および予測プログラムに係わり、特に、遺伝的体質、生活習慣、生活環境、医療機関で入手可能な臨床情報などに基づき、治療法の提案、病態の予測、治療の副作用の予測などを行うための予測方法、予測装置および予測プログラムに関する。

ガン、２型糖尿病、本態性高血圧、統合失調症のような、高齢で発症し、多くの人が罹患する疾患の治療は、患者数が多いこと、医療費を圧迫することなどから、高齢化社会を迎えるにあたり、重要な課題になっている。

多くの人が罹患する疾患では、患者の遺伝的体質、生活習慣、生活環境などはまちまちであるから、個々の患者に特化した医療が求められる。特に、最近は、従来は知られていなかった疾患の遺伝的要因が明らかになりつつある。

疾患の要因を統計学的に推測する手法として、複数の説明変数を従属変数に線形回帰し、
それをロジスティック変換によりある事象が起こる確率とするロジスティック重回帰分析がある。各説明変数の従属変数への寄与の指標として、オッズ比が得られる。

一方、各説明変数の相互作用、非線形な寄与を扱う手法として、非線形SVM(Support Vector Machine)がある。SVMは、説明変数の組み合わせと推測すべき状態が既知のデータである学習データにより学習を行い、推測すべき状態が未知の説明変数の組み合わせに対して、推測すべき状態を２値的に判別するアルゴリズムである。
Vapnik, V.N., 1999."The nature of statistical learning theory", Springer-Verlag. Haussler, D., 1999."Convolution kernels on discrete structure", UCSC-CRL-99-10. Guyon, I., Weston, J., Barnhill, S., Vapnik, V.N., 2002."Gene selection for cancer classification using support vector machine", Machine Learning, Vol.46: 389-422. Hartl, D., 2000."A primer of population genetics, 3rd eds.", Sinauer Associates. Courant, R., Hilbert, D., 1953."Methods of mathematical physics, Vol.1", Interscience.

しかしながら、上述の重回帰分析は、線形回帰に基づくため、各説明変数の相互作用、非線形な効果を扱うことができない。

また、SVMは、２値的な判別しか与えないため、患者と医師の医療行為の方針選択を適切に補助することができない。

さらに、重回帰分析、また非線形SVMのほとんどのカーネル関数において、説明変数はスカラー量であるとされるが、疾患の要因となりうる変数は様々である。例えば、遺伝子型は、個人が２つのアレルを持っているため、ベクトル量である。したがって、既存のカーネル関数を遺伝子型に適用することは適切ではない。

本発明は、各説明変数の相互作用および非線形な寄与を考慮して、予測すべき状態の確率を精度よく予測できる、予測方法、予測装置および予測プログラムを提供する。

本発明の一態様としての予測方法は、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データをデータベースから読み出す読出ステップと、前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める係数計算ステップと、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求める従属変数算出ステップと、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する確率予測ステップと、を備える。

本発明の一態様としての予測プログラムは、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データをデータベースから読み出す読出ステップと、前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める係数計算ステップと、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求める従属変数算出ステップと、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する確率予測ステップと、をコンピュータに実行させることを特徴とする。

本発明の一態様としての予測装置は、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データを格納したデータベースと、前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める学習計算部と、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求め、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する解析計算部と、を備える。

本発明により、各説明変数の相互作用および非線形な寄与を考慮して、予測すべき状態の確率を精度よく予測できる。

図１は、本発明の予測方法を実施するための予測装置の構成を概略的に示すブロック図である。

この予測装置は、端末１１、解析用計算機１２、学習用計算機１３、学習データベース１４を備える。学習用計算機１３および解析用計算機１２は本発明の特徴となる予測プログラムを実行する。予測プログラムは、学習用計算機１３で実行する部分と、解析用計算機１２で実行する部分とからなる。

学習データベース１４は学習データを格納する。学習データは、随時学習データベース１４に追加されてもよい。

図２は、学習データベース１４の一例を示す。

学習データベース１４は複数個体分の学習データを格納する。１つの個体の学習データはサンプルと称されることもある。各サンプルはそれぞれ、複数の説明変数（因子）と、１つの従属変数とを含む。

ここでは説明変数として、拡張期血圧(mmHg)と、ある遺伝子のある一塩基多型（T(チミン)またはC(シトシン)）とが示される。拡張期血圧はスカラー量であり、一塩基多型はベクトル量である。

従属変数は、個体がある疾患に罹患しているか否かの状態を示す。本例では、罹患している場合は”1”、罹患していない場合は“-1”である。

学習用計算機１３は、このような学習データを学習データベース１４から読み出す（読出ステップ）。学習用計算機１３は、読み出した学習データを元に予測プログラムを実行して、後述するカーネル関数を用いて定義される回帰式のパラメータ（回帰係数）α_j(j=0,1,2,...,n)を学習する（係数計算ステップ）。学習用計算機１３は、常時学習データベース１４と通信し、学習データに更新があれば速やかに学習データを受信し、予測プログラムを実行してもよい。

解析用計算機１２は、予測対象となる個体（例えば患者）の各因子（説明変数の組み合わせ）の値を端末１１から受信する。受信する説明変数は、後述する予測に用いて有用な説明変数である。また、解析用計算機１２は、学習用計算機１３によって学習されたパラメータα_j(j=0,1,2,…,n)と、学習用計算機１３による学習で使用した学習データ（後述するように予測に用いて有用な説明変数のみでもよい）とを受け取る。解析用計算機１２は、受け取ったこれらのデータ（説明変数の組み合わせ、パラメータおよび学習データ）に基づき、予測プログラムを実行し、予測対象となる個体の予測すべき状態の確率（例えばある年齢に達するまでにある疾患に罹患するまたはしない確率（％））を予測する。より詳しくは、解析用計算機１２は、端末１１から受信した説明変数の組み合わせを回帰式に入力して従属変数を求め（従属変数算出ステップ）、求めた従属変数をロジスティック関数（確率予測関数）に入力することにより、予測対象となる個体の予測すべき状態の確率を求める（確率予測ステップ）。さらに、解析用計算機１２は、予測に用いて有用な各説明変数の従属変数に対する寄与率（相対寄与率）を計算することも行う（寄与率計算ステップ）。解析用計算機１２は、このようにして求めた確率と相対寄与率とを端末１１に送信する。

端末１１は、患者の各因子の値（例えば測定値）を取得し、取得した各因子の値を解析用計算機１２に送信する。端末１１は、解析用計算機１２による解析結果（予測対象となる個体の予測すべき状態の確率、予測に有用な各因子の寄与率）を受信し、受信した内容を自身が備えるディスプレイに表示する。

解析用計算機１２と学習用計算機１３とはそれぞれ別個のハードウェアとして実施されていてもよいし、１つのハードウェアとして一体に実施されてもよい。また、上述した予測プログラムは２つ以上のプログラムモジュールとして２つ以上に分かれて存在してもよいし、１つのプログラムとして存在してもよい。

また、端末１１と解析用計算機１２とはそれぞれ別個のハードウェアとして実施されていてもよいし、１つのハードウェアとして一体に実施されていてもよい。前者の場合、端末１１と解析用計算機１２とはLAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の通信ネットワークを介して接続されもよい。

以下、図１の学習用計算機１３、解析用計算機１２および端末１１についてさらに詳細に説明する。

まず、学習用計算機１３について説明する。

以下の説明において、添え字の用法として、
説明変数：i(1,2,...,l)、
個体の番号：j,k(1,2,...,n)とする。

一般に、ロジスティック重回帰分析においては、各説明変数をスカラーs_i(i=1,2,...,l)とすると、

となる。ここで、lは説明変数の個数、pは予測すべき状態の確率、yは従属変数、b₀,b_i(i=1,2,...,l)は回帰係数である。

本実施の形態では、ロジスティック重回帰における従属変数に非線形SVMを適用する。この際、ベクトル量の説明変数に対しては適切なカーネル関数を定義し、スカラー量の説明変数に対しては既存のカーネル関数を用いる。そして、各説明変数についてのカーネル関数の和を、非線形SVMにおけるカーネル関数として用いる。以下これについて詳細に説明する。

説明変数の組み合わせをベクトルD_i(i=1,2,...,l)、すなわち(D₁,D₂,...,D_l)とする。ベクトルD_i(i=1,2,...,l)は例えば予測対象となる個体の説明変数の組み合わせであるとする。ベクトルD_i(i=1,2,...,l)の成分はD_i=(D_i1,D_i2,...,D_im)とあらわされる。ここで、m_iは説明変数iの成分の個数をあらわす。

例えば、説明変数が拡張期血圧(mmHg)とある遺伝子のある一塩基多型（T(チミン)またはC(シトシン)）のとき、説明変数の組み合わせは、D₁=120, D₂=(D₂₁,D₂₂)=(T,C)となる。

以上に基づき、本実施の形態における回帰式を

と定める。

ここで、E_j0,E_ji(i=1,2,…,l; j=1,2,…,n)は学習データである。スカラーE_j0は各個体の状態であり、予測すべき状態であれば1、そうでなければ-1である。ベクトルE_jiの成分はE_ji=(E_ji1,E_ji2,...,E_jim)とあらわされる。

例えば、図２の学習データの例においては、E₁₀=1, E₁₁=125, E₁₂=(T,T), E₂₀=-1, E₂₁=100, E₂₂=(T,C)のようなものになる。

α_j(j=0,1,2,…,n)はSVMにより学習すべきパラメータである。SVMによるパラメータの学習については後述する。

k_i(D_i, E_ji)、およびi=1,…,lについてk_i(D_i, E_ji)の和をとったK(D,E_j)はカーネル関数である。k_i(D_i, E_ji)は要素カーネル関数と称されることもある。

本実施形態では、個々の説明変数について、適切なカーネル関数（要素カーネル関数）を定義する。例えば、説明変数が順序に意味のない2成分をもつ離散的なベクトル量であるとき、１番目の個体のi番目の説明変数における成分の組み合わせをベクトルF_1i(i=1,2,…,l)とし、２番目の個体のi番目の説明変数における成分の組み合わせをF_2i(i=1,2,…,l)とすると、ｉ番目の説明変数に対するカーネル関数を

と定義する。ここで、δ(x,y)は、x=yのとき１、そうでないとき０を与える関数である。より一般に任意数の成分をもつｉ番目の説明変数に対するカーネル関数は（式５）として定義できる。本発明の対象とするカーネル関数は、（式５）と実質的に等価な関数（例えば（式５）の右辺に定数を乗じたもの）も含んでもよい。上述の（式４）は（式５）において特にm_i=2（成分数が２）としたものである。

ここで、k₁,k₂,…,k_mは、1,2,…,m_iの置換（m_i!通りある）をあらわす。特に、m_i=2のときは

の2通りの置換があり、(k₁,k₂)=(1,2)、(2,1)となるので、（式４）のようになる。

（式４）のカーネル関数の適用例を図３に示す。ｉ番目の説明変数が、ある遺伝子のある一塩基多型（T（チミン）またはC（シトシン））であるとする。

一例としてF_1i=(T,C), F_2i=(C,C)の場合（式４）の計算は以下のようになる。

k_i(F_1i, F_2i)=max{δ(T, C)+δ(C, C), δ(T, C)+δ(C, C)}=max{0+1, 0+1}=1
また、F_1i=(T,C), F_2i=(T,C)の場合は以下のようになる。

k_i(F_1i, F_2i)=max{δ(T, T)+δ(C, C), δ(T, C)+δ(C, T)}=max{1+1, 0+0}=2
図３の値からも理解されるように、（式４）のカーネル関数は、遺伝学におけるidentical by descentの関係（非特許文献４参照）にありうる対立遺伝子の最大の数をあらわすものである。

カーネル関数の和はカーネル関数になるから、各説明変数について定義されたカーネル関数の和

を非線形SVMにおけるカーネル関数として用いる。

上述した（式５）（および（式４））のカーネル関数はベクトル量の説明変数（上の例ではE₁₂=(T,T), E₂₂=(T,C)）に適用するものであるが、スカラー量の説明変数（上の例ではE₁₁=125, E₂₁=100）には、既存のカーネル関数を用いればよい。例えば、説明変数が連続的な量である場合、（式７）のガウシアンカーネルを用いることができる。

ここで、γは適当なパラメータである。

上述したように（式３−１）のパラメータα_j(j=0,1,2,…,n)はSVMにより学習する。より詳細には、まず、α_j(j=1,2,…,n)を学習し、その後、（式３−１）に基づきα₀を求める。

SVMによりα_j(j=1,2,…,n)を学習する問題は、目的関数

を条件

の下で最大化（最適化）する問題に帰着する(非特許文献１参照)。cは、ロジスティック関数のスプライン近似のための適当な定数である。この問題は、凸二次関数の最大値を求める問題であるから、既に知られているアルゴリズムを適用すればよく、例えば、最急降下法を適用すればよい。

この際、学習用計算機１３は、パラメータα_jの決定に加えて、予測に有用な説明変数を選択することも行う（変数選択処理）。例えば、多くの人が罹患する疾患においては、疾患の要因となる要素は多数ありうるが、要素（説明変数）の数を増やして予測すればよいというわけではない。疾患の要因とはならない要素は、予測を擾乱することになりかねない。しかし、ある要素を説明変数として採用するか否かを事前に決定することは困難である。そこで、本実施形態では、パラメータα_jの決定とともに、説明変数として有用な因子を選択する処理（変数選択処理）も行う。

この変数選択処理では、説明変数として採用する因子を選択するために、まず全ての因子を検討し、有用でない因子を取り除くRFE(Recursive Future Elimination)を採用する（非特許文献３参照）。RFEの各段階においては、学習データのleave-one-outにより、各個体について予測される確率を階級に分類し、階級の代表値と実際の比率との適合度により、性能を評価する。以下、変数選択処理について詳細に説明する。

ステップ１：まず、学習データから１個体のサンプルを除き、残り全ての個体のサンプルを用いて（式８−１）および（式８−２）によるパラメータ学習を行う。次いで、除いた個体の予測すべき状態の確率を（式３−１）、（式３−２）および（式１）から求める。つまり、（式３−１）および（式３−２）からy(D)を求め、求めたy(D)を（式１）に入力することにより、確率を求める。これを全ての個体について行う（予測ステップ）。なお、パラメータα₀は、（式８−１）の最適化によりパラメータα_j(j=1,2,…,n)を求めた後、例えばある学習データE_kを（式３−１）の回帰式に代入して、

として求める。

ステップ２：各個体について計算された予測すべき状態の確率によって各個体（サンプル）を階級に分類する（分類ステップ）。各階級はそれぞれ同一の確率幅(0.3以上0.35未満、0.35以上0.4未満など)をもつ。それぞれの階級について、予測すべき状態をとる個体の割合を求める（計算ステップ）。そして、階級の代表値（例えば階級の中央値）と予測すべき状態をとる個体の割合とについてカイ二乗適合度検定を行い、p値を求める（適合度検定ステップ）。

ステップ３：（式８−１）の関数W(α)からある説明変数を含む項を除き、除く前とのW(α)の値の差分を求める。これを全ての説明変数について行い、最も差分が小さい説明変数を除く（除去ステップ）。

ステップ４：ステップ１〜ステップ３を繰り返し行い、説明変数の個数を減じていく（再帰ステップ）。説明変数の個数が閾値に達したら処理を終了する。処理の結果、説明変数の個数とp値とを関連づけたデータを得ることができる。最大のp値をとるときの説明変数を、予測に有用な説明変数とする。また、パラメータα_j(j=0,1,2,…,n)は最大のp値をとるときのものを採用する。

学習用計算機１３は、以上のようにして求めたパラメータα_j(j=0,1,2,…,n)と、パラメータ学習に用いた学習データとを解析用計算機１２に出力する。ただし、学習データのうち、予測に有用でない説明変数は解析用計算機１２に出力しなくてもよい。

次に、解析用計算機１２について説明する。

解析用計算機１２は、端末１１から予測対象となる個体の説明変数（予測に有用な説明変数）の組み合わせDを受信し、受信した説明変数の組み合わせDと、学習用計算機１３から受け取ったパラメータα_j(j=0,1,2,…,n)と、学習データとから（式３−１）の回帰式に基づきy(D)を求める。この際、予測に有用な説明変数以外の説明変数を含む項は回帰式から除去する。そして、求めたy(D)を（式１）のロジスティック関数に入力して、予測すべき状態の確率を計算する。

また、解析用計算機１２は、
以下の（式９）の関数（寄与率計算関数）により、説明変数の組み合わせDにおける各説明変数（予測に有用な説明変数）について、従属変数に対する寄与度を計算する。

R_i(D)は説明変数の組み合わせDの従属変数へのｉ番目の説明変数の寄与率をあらわしている。当然ながら各iについてR_i(D)の合計をとると１になる。

解析用計算機１２は、以上のようにして計算した予測すべき状態の確率と、予測に有用な各説明変数の寄与率とを端末１１に送信する。

端末１１は、解析用計算機１２から受け取った情報をディスプレイに表示する。ディスプレイに表示された内容を参考に、例えば医師は、患者に対する医療行為の方針を選択する。例えばある説明変数が塩分摂取量であり、その説明変数の寄与率が大きければ、塩分摂取量を小さくするよう助言を行うことができる。

ところで、先に示した（式５）（および（式４））のカーネル関数は本発明者が独自に考案したものである。以下、本発明者がこのカーネル関数を考案した経緯について述べ、さらに、この関数が非線形SVMのカーネル関数であることの証明をm_i=2の場合（成分数が２の場合）を例にして行う。

本実施の形態において用いるカーネル関数は、遺伝学における遺伝子型に適用できるものであることを想定している。遺伝子型は、順序に意味のない２つの対立遺伝子であらわされる。ここでの対立遺伝子は、遺伝子のみならず、一塩基多型の塩基、マイクロサテライトマーカーの繰り返し数、ハプロタイプなども指すものとする。したがって、順序に意味のない２成分をもつ離散的なベクトル量についてカーネル関数を定義することが必要である。ベクトル量についてのカーネル関数は、畳み込みカーネルなど若干考案されているものの（非特許文献２参照）、遺伝子型に適用できるものは存在しなかった。そこで、新規カーネル関数を考案する必要があった。

本実施の形態で用いるカーネル関数は、Mercer条件とよばれる次に証明する数学的な条件を満たすのみならず、遺伝学における妥当性がなくてはならない。そこで、遺伝学におけるidentical by descent（非特許文献４参照）、つまり、対立遺伝子が祖先を共有することと対応がつけられるカーネル関数を探した。考案した新規カーネル関数は、Mercer条件を満たし、かつ、identical by descentの関係にありうる対立遺伝子の最大の個数を与える。ここで、最大と断るのは、突然変異などにより、祖先を共有しないにもかかわらず偶然に対立遺伝子を共有することがありうるからである。

次に、本発明者が考案した関数がカーネル関数であることの証明を成分数が２の場合を例にして以下に示す。

［定理］
説明変数が順序に意味のない２成分をもつ離散的なベクトル量であるとき、１番目のサンプルの説明変数をベクトルF₁とし、２番目のサンプルの説明変数をベクトルF₂とすると、関数

は非線形SVMにおけるカーネル関数である。

［証明］
非線形SVMにおけるカーネル関数は

なる展開をもたねばならない（非特許文献１参照）が、Mercerの定理（非特許文献５参照）によれば、そのための必要十分条件は、

である。ただし、ここでの和は、それぞれのベクトルがとりうる全ての値についての和をあらわす。

（式１０）より、

となる。ここで、F₂ ^*の和は、F₁の成分と１つのみ共通するものがある値についての和をあらわす。

説明変数は順序に意味のない２成分をもつ離散的なベクトル量であるから、

とあらわすことができる。（式１３）は、

となる。ゆえに、（式１０）の関数は非線形SVMにおけるカーネル関数である。

（式１４）の不等式の適用例を以下に示す。

となる。

以上のように、本実施の形態によれば、ロジスティック重回帰における従属変数に非線形SVMを適用するようにしたため、各説明変数の相互作用や、非線形な寄与を考慮しつつ、予測すべき状態の確率を計算できる。また、ベクトル量の説明変数に対しMercer条件を満たすカーネル関数を定義したため、ベクトル量の説明変数も対象とすることができる。また、遺伝学におけるidentical by descentと対応付けできるようにカーネル関数を定めたため本実施の形態におけるカーネル関数は遺伝学における遺伝子型にも適用できる。

また、本実施の形態によれば、予測に用いて有用な説明変数を選択するようにしたため、精度の向上に関係のない因子が学習データベースに入ってきても、精度の低下が起こることを防ぐことができる。また、予測に有用でない説明変数を特定できることで、予測をするために無意味な測定（予測に有用でない因子について測定）を無くすことができる。これらにより、予測の精度を維持しながら測定者、被験者の負担を軽減できる。

また、本実施の形態によれば、予測に有用な各説明変数について従属変数に対する寄与度も計算するようにしたため、例えば医師は患者に対して適切な助言を行うとことが可能となる。また、学習データベース１４を随時更新し、更新の都度、予測プログラムを起動するようにしたため、常に最新の学習データを予測に反映することができる。また、端末１１の利用者は、ある患者について各因子の値を測定し、各因子の測定値を端末１１に入力すれば、予測すべき状態の確率と、予測に有用な各因子の寄与の大きさを、ほぼ瞬時に得ることができる。

本発明の予測方法を実施するための予測装置の構成を概略的に示すブロック図。学習データベースの例を示す図。カーネル関数の適用例を示す図。

符号の説明

１１端末
１２解析用計算機
１３学習用計算機
１４学習データベース

Claims

複数の個体について、前記個体の因子の値をそれぞれ表す複数の説明変数と、前記個体についてある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データを用いて、前記ある状態が発生するまたは発生しない確率を予測するための予測装置であって、
前記学習データをデータベースから読み出す読出ステップと、
（A-1）前記説明変数ごとに用意され前記複数の個体のうち異なる２つの個体の前記説明変数を入力とする要素カーネル関数の、前記複数の説明変数についての和を表すカーネル関数と、
（A-2）前記複数の個体ごとに用意された回帰係数とを用いて、
（A-3）前記複数の個体のうちの２つの個体のすべての組み合わせについて、前記カーネル関数と、前記２つの個体のそれぞれの回帰係数と、前記２つの個体の従属変数とを乗算し、合計した値を、すべての個体に対する前記回帰係数の合計から減算することを定めた、目的関数を作成し、前記個体ごとの前記回帰係数が取り得る値の範囲の条件と、前記個体ごとの前記回帰係数と前記個体ごとの前記従属変数との乗算和がとる値の条件を満たすように、前記目的関数を最大化することにより、前記複数の個体ごとの回帰係数を同定する、
係数計算ステップと、
予測対象となる個体の因子の値をそれぞれ表す複数の説明変数を入力するステップと、
（B-1）前記説明変数ごとに用意され、予測対象となる個体の前記説明変数と前記複数の個体のうちの１つの前記説明変数とを入力とする要素カーネル関数の、前記複数の説明変数についての和を表すカーネル関数を用いて、
（B-2）前記個体のすべてについて、前記カーネル関数と、前記複数の個体のうちの１つの個体について同定された回帰係数と、前記１つの個体の従属変数とを乗算し、合計することを定めた回帰式を計算することにより、前記予測対象となる個体の従属変数を求める、
従属変数算出ステップと、
前記従属変数算出ステップで求められた従属変数を、ロジスティック関数により変換することで前記予測対象となる個体について前記ある状態が発生する、または発生しない確率を予測する確率予測ステップと
をコンピュータが実行する予測方法。
ベクトル量である説明変数に対する要素カーネル関数として、

に基づく関数を用いることを特徴とする請求項１に記載の予測方法。
leave-one-out法を用いて前記複数の個体のそれぞれについて前記ある状態が発生するまたは発生しない確率を予測する予測ステップと、
前記予測ステップで各個体について予測した確率を、それぞれ異なる確率範囲を表す階級に分類する分類ステップと、
前記階級に属する個体のうち、前記ある状態が発生したまたは発生していないことを示す従属変数をもつ個体の数の比率を計算する計算ステップと、
各前記階級の中央値と、各前記階級について計算した前記個体の比率とからカイ二乗適合度検定を行うことにより、ｐ値を求める適合度検定ステップと、
をさらに前記コンピュータが実行することを特徴とする請求項１または２に記載の予測方法。
前記目的関数からある説明変数を含む項を除いて、除く前との前記目的関数の値の差分を求めることを全ての説明変数について行い、最も差分が小さい説明変数を除く除去ステップと、
前記係数計算ステップ、前記予測ステップ、前記分類ステップ、前記計算ステップ、前記適合度検定ステップ、前記除去ステップを繰り返す再帰ステップと、
をさらに前記コンピュータが実行することを特徴とする請求項３に記載の予測方法。
前記再帰ステップは、前記除去ステップによる除去後の説明変数の個数が閾値に達した場合は繰り返しを終了し、前記適合度検定ステップで最も高いｐ値が得られたときの回帰式で用いられている説明変数を、予測に有用な説明変数として選択することを特徴とする請求項４に記載の予測方法。
予測に有用として選択された各前記説明変数のそれぞれについて、
前記予測対象となる個体の前記選択された説明変数と、前記複数の個体のうちの１つの個体の前記選択された説明変数とを入力とする要素カーネル関数と、前記１つの個体の前記回帰係数と、前記１つの個体の前記従属変数とを乗算し、前記複数の個体について合計することを定めた関数に基づき、
前記関数を前記選択された説明変数のすべてについて合計した値に対する、前記選択された説明変数のそれぞれに対応する前記関数の比率を、前記選択された説明変数の寄与率としてそれぞれ計算する寄与率計算ステップをさらに前記コンピュータが実行することを特徴とする請求項５に記載の予測方法。
請求項１ないし６のいずれか一項に記載の各ステップをコンピュータに実行させるための予測プログラム。
複数の個体について、前記個体の因子の値をそれぞれ表す複数の説明変数と、前記個体についてある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データを格納したデータベースと、
（A-1）前記説明変数ごとに用意され前記複数の個体のうち異なる２つの個体の前記説明変数を入力とする要素カーネル関数の、前記複数の説明変数についての和を表すカーネル関数と、
（A-2）前記複数の個体ごとに用意された回帰係数とを用いて、
（A-3）前記複数の個体のうちの２つの個体のすべての組み合わせについて、前記カーネル関数と、前記２つの個体のそれぞれの回帰係数と、前記２つの個体の従属変数とを乗算し、合計した値を、すべての個体に対する前記回帰係数の合計から減算することを定めた、目的関数を作成し、前記個体ごとの前記回帰係数が取り得る値の範囲の条件と、前記個体ごとの前記回帰係数と前記個体ごとの前記従属変数との乗算和がとる値の条件を満たすように、前記目的関数を最大化することにより、前記複数の個体ごとの回帰係数を同定する、手段と、
予測対象となる個体の因子の値をそれぞれ表す複数の説明変数を受ける手段と、
（B-1）前記説明変数ごとに用意され、予測対象となる個体の前記説明変数と前記複数の個体のうちの１つの前記説明変数とを入力とする要素カーネル関数の、前記複数の説明変数についての和を表すカーネル関数を用いて、
（B-2）前記個体のすべてについて、前記カーネル関数と、前記複数の個体のうちの１つの個体について同定された回帰係数と、前記１つの個体の従属変数とを乗算し、合計することを定めた回帰式を計算することにより、前記予測対象となる個体の従属変数を求める、
手段と、
を有する学習計算部と、
前記従属変数算出ステップで求められた従属変数を、ロジスティック関数により変換することで、前記予測対象となる個体について前記ある状態が発生する、または発生しない確率を予測する解析計算部と、
を備えた予測装置。
ベクトル量である説明変数に対する要素カーネル関数として、

に基づく関数を用いることを特徴とする請求項８に記載の予測装置。