JP5005208B2 - 予測方法、予測装置および予測プログラム - Google Patents

予測方法、予測装置および予測プログラム Download PDF

Info

Publication number
JP5005208B2
JP5005208B2 JP2005313930A JP2005313930A JP5005208B2 JP 5005208 B2 JP5005208 B2 JP 5005208B2 JP 2005313930 A JP2005313930 A JP 2005313930A JP 2005313930 A JP2005313930 A JP 2005313930A JP 5005208 B2 JP5005208 B2 JP 5005208B2
Authority
JP
Japan
Prior art keywords
individuals
individual
explanatory
variable
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005313930A
Other languages
English (en)
Other versions
JP2007122418A (ja
Inventor
野 修 平 間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC.
Original Assignee
BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC. filed Critical BIOINFORMATICS INSTITUTE FOR GLOBAL GOOD INC.
Priority to JP2005313930A priority Critical patent/JP5005208B2/ja
Publication of JP2007122418A publication Critical patent/JP2007122418A/ja
Application granted granted Critical
Publication of JP5005208B2 publication Critical patent/JP5005208B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、予測方法、予測装置および予測プログラムに係わり、特に、遺伝的体質、生活習慣、生活環境、医療機関で入手可能な臨床情報などに基づき、治療法の提案、病態の予測、治療の副作用の予測などを行うための予測方法、予測装置および予測プログラムに関する。
ガン、2型糖尿病、本態性高血圧、統合失調症のような、高齢で発症し、多くの人が罹患する疾患の治療は、患者数が多いこと、医療費を圧迫することなどから、高齢化社会を迎えるにあたり、重要な課題になっている。
多くの人が罹患する疾患では、患者の遺伝的体質、生活習慣、生活環境などはまちまちであるから、個々の患者に特化した医療が求められる。特に、最近は、従来は知られていなかった疾患の遺伝的要因が明らかになりつつある。
疾患の要因を統計学的に推測する手法として、複数の説明変数を従属変数に線形回帰し、
それをロジスティック変換によりある事象が起こる確率とするロジスティック重回帰分析がある。各説明変数の従属変数への寄与の指標として、オッズ比が得られる。
一方、各説明変数の相互作用、非線形な寄与を扱う手法として、非線形SVM(Support Vector Machine)がある。SVMは、説明変数の組み合わせと推測すべき状態が既知のデータである学習データにより学習を行い、推測すべき状態が未知の説明変数の組み合わせに対して、推測すべき状態を2値的に判別するアルゴリズムである。
Vapnik, V.N., 1999."The nature of statistical learning theory", Springer-Verlag. Haussler, D., 1999."Convolution kernels on discrete structure", UCSC-CRL-99-10. Guyon, I., Weston, J., Barnhill, S., Vapnik, V.N., 2002."Gene selection for cancer classification using support vector machine", Machine Learning, Vol.46: 389-422. Hartl, D., 2000."A primer of population genetics, 3rd eds.", Sinauer Associates. Courant, R., Hilbert, D., 1953."Methods of mathematical physics, Vol.1", Interscience.
しかしながら、上述の重回帰分析は、線形回帰に基づくため、各説明変数の相互作用、非線形な効果を扱うことができない。
また、SVMは、2値的な判別しか与えないため、患者と医師の医療行為の方針選択を適切に補助することができない。
さらに、重回帰分析、また非線形SVMのほとんどのカーネル関数において、説明変数はスカラー量であるとされるが、疾患の要因となりうる変数は様々である。例えば、遺伝子型は、個人が2つのアレルを持っているため、ベクトル量である。したがって、既存のカーネル関数を遺伝子型に適用することは適切ではない。
本発明は、各説明変数の相互作用および非線形な寄与を考慮して、予測すべき状態の確率を精度よく予測できる、予測方法、予測装置および予測プログラムを提供する。
本発明の一態様としての予測方法は、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データをデータベースから読み出す読出ステップと、前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める係数計算ステップと、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求める従属変数算出ステップと、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する確率予測ステップと、を備える。
本発明の一態様としての予測プログラムは、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データをデータベースから読み出す読出ステップと、前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める係数計算ステップと、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求める従属変数算出ステップと、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する確率予測ステップと、をコンピュータに実行させることを特徴とする。
本発明の一態様としての予測装置は、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データを格納したデータベースと、 前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める学習計算部と、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求め、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する解析計算部と、を備える。
本発明により、各説明変数の相互作用および非線形な寄与を考慮して、予測すべき状態の確率を精度よく予測できる。
図1は、本発明の予測方法を実施するための予測装置の構成を概略的に示すブロック図である。
この予測装置は、端末11、解析用計算機12、学習用計算機13、学習データベース14を備える。学習用計算機13および解析用計算機12は本発明の特徴となる予測プログラムを実行する。予測プログラムは、学習用計算機13で実行する部分と、解析用計算機12で実行する部分とからなる。
学習データベース14は学習データを格納する。学習データは、随時学習データベース14に追加されてもよい。
図2は、学習データベース14の一例を示す。
学習データベース14は複数個体分の学習データを格納する。1つの個体の学習データはサンプルと称されることもある。各サンプルはそれぞれ、複数の説明変数(因子)と、1つの従属変数とを含む。
ここでは説明変数として、拡張期血圧(mmHg)と、ある遺伝子のある一塩基多型(T(チミン)またはC(シトシン))とが示される。拡張期血圧はスカラー量であり、一塩基多型はベクトル量である。
従属変数は、個体がある疾患に罹患しているか否かの状態を示す。本例では、罹患している場合は”1”、罹患していない場合は“-1”である。
学習用計算機13は、このような学習データを学習データベース14から読み出す(読出ステップ)。学習用計算機13は、読み出した学習データを元に予測プログラムを実行して、後述するカーネル関数を用いて定義される回帰式のパラメータ(回帰係数)αj(j=0,1,2,...,n)を学習する(係数計算ステップ)。学習用計算機13は、常時学習データベース14と通信し、学習データに更新があれば速やかに学習データを受信し、予測プログラムを実行してもよい。
解析用計算機12は、予測対象となる個体(例えば患者)の各因子(説明変数の組み合わせ)の値を端末11から受信する。受信する説明変数は、後述する予測に用いて有用な説明変数である。また、解析用計算機12は、学習用計算機13によって学習されたパラメータαj(j=0,1,2,…,n)と、学習用計算機13による学習で使用した学習データ(後述するように予測に用いて有用な説明変数のみでもよい)とを受け取る。解析用計算機12は、受け取ったこれらのデータ(説明変数の組み合わせ、パラメータおよび学習データ)に基づき、予測プログラムを実行し、予測対象となる個体の予測すべき状態の確率(例えばある年齢に達するまでにある疾患に罹患するまたはしない確率(%))を予測する。より詳しくは、解析用計算機12は、端末11から受信した説明変数の組み合わせを回帰式に入力して従属変数を求め(従属変数算出ステップ)、求めた従属変数をロジスティック関数(確率予測関数)に入力することにより、予測対象となる個体の予測すべき状態の確率を求める(確率予測ステップ)。さらに、解析用計算機12は、予測に用いて有用な各説明変数の従属変数に対する寄与率(相対寄与率)を計算することも行う(寄与率計算ステップ)。解析用計算機12は、このようにして求めた確率と相対寄与率とを端末11に送信する。
端末11は、患者の各因子の値(例えば測定値)を取得し、取得した各因子の値を解析用計算機12に送信する。端末11は、解析用計算機12による解析結果(予測対象となる個体の予測すべき状態の確率、予測に有用な各因子の寄与率)を受信し、受信した内容を自身が備えるディスプレイに表示する。
解析用計算機12と学習用計算機13とはそれぞれ別個のハードウェアとして実施されていてもよいし、1つのハードウェアとして一体に実施されてもよい。また、上述した予測プログラムは2つ以上のプログラムモジュールとして2つ以上に分かれて存在してもよいし、1つのプログラムとして存在してもよい。
また、端末11と解析用計算機12とはそれぞれ別個のハードウェアとして実施されていてもよいし、1つのハードウェアとして一体に実施されていてもよい。前者の場合、端末11と解析用計算機12とはLAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の通信ネットワークを介して接続されもよい。
以下、図1の学習用計算機13、解析用計算機12および端末11についてさらに詳細に説明する。
まず、学習用計算機13について説明する。
以下の説明において、添え字の用法として、
説明変数:i(1,2,...,l)、
個体の番号:j,k(1,2,...,n)とする。
一般に、ロジスティック重回帰分析においては、各説明変数をスカラーsi(i=1,2,...,l)とすると、
Figure 0005005208
となる。ここで、lは説明変数の個数、pは予測すべき状態の確率、yは従属変数、b0,bi(i=1,2,...,l)は回帰係数である。
本実施の形態では、ロジスティック重回帰における従属変数に非線形SVMを適用する。この際、ベクトル量の説明変数に対しては適切なカーネル関数を定義し、スカラー量の説明変数に対しては既存のカーネル関数を用いる。そして、各説明変数についてのカーネル関数の和を、非線形SVMにおけるカーネル関数として用いる。以下これについて詳細に説明する。
説明変数の組み合わせをベクトルDi(i=1,2,...,l)、すなわち(D1,D2,...,Dl)とする。ベクトルDi(i=1,2,...,l)は例えば予測対象となる個体の説明変数の組み合わせであるとする。ベクトルDi(i=1,2,...,l)の成分はDi=(Di1,Di2,...,Dim)とあらわされる。ここで、miは説明変数iの成分の個数をあらわす。
例えば、説明変数が拡張期血圧(mmHg)とある遺伝子のある一塩基多型(T(チミン)またはC(シトシン))のとき、説明変数の組み合わせは、D1=120, D2=(D21,D22)=(T,C)となる。
以上に基づき、本実施の形態における回帰式を
Figure 0005005208
と定める。
ここで、Ej0,Eji(i=1,2,…,l; j=1,2,…,n)は学習データである。スカラーEj0は各個体の状態であり、予測すべき状態であれば1、そうでなければ-1である。ベクトルEjiの成分はEji=(Eji1,Eji2,...,Ejim)とあらわされる。
例えば、図2の学習データの例においては、E10=1, E11=125, E12=(T,T), E20=-1, E21=100, E22=(T,C)のようなものになる。
αj(j=0,1,2,…,n)はSVMにより学習すべきパラメータである。SVMによるパラメータの学習については後述する。
ki(Di, Eji)、およびi=1,…,lについてki(Di, Eji)の和をとったK(D,Ej)はカーネル関数である。ki(Di, Eji)は要素カーネル関数と称されることもある。
本実施形態では、個々の説明変数について、適切なカーネル関数(要素カーネル関数)を定義する。例えば、説明変数が順序に意味のない2成分をもつ離散的なベクトル量であるとき、1番目の個体のi番目の説明変数における成分の組み合わせをベクトルF1i(i=1,2,…,l)とし、2番目の個体のi番目の説明変数における成分の組み合わせをF2i(i=1,2,…,l)とすると、i番目の説明変数に対するカーネル関数を
Figure 0005005208
と定義する。ここで、δ(x,y)は、x=yのとき1、そうでないとき0を与える関数である。より一般に任意数の成分をもつi番目の説明変数に対するカーネル関数は(式5)として定義できる。本発明の対象とするカーネル関数は、(式5)と実質的に等価な関数(例えば(式5)の右辺に定数を乗じたもの)も含んでもよい。上述の(式4)は(式5)において特にmi=2(成分数が2)としたものである。
Figure 0005005208
ここで、k1,k2,…,kmは、1,2,…,miの置換(mi!通りある)をあらわす。特に、mi=2のときは
Figure 0005005208
の2通りの置換があり、(k1,k2)=(1,2)、(2,1)となるので、(式4)のようになる。
(式4)のカーネル関数の適用例を図3に示す。i番目の説明変数が、ある遺伝子のある一塩基多型(T(チミン)またはC(シトシン))であるとする。
一例としてF1i=(T,C), F2i=(C,C)の場合(式4)の計算は以下のようになる。
ki(F1i, F2i)=max{δ(T, C)+δ(C, C), δ(T, C)+δ(C, C)}=max{0+1, 0+1}=1
また、F1i=(T,C), F2i=(T,C)の場合は以下のようになる。
ki(F1i, F2i)=max{δ(T, T)+δ(C, C), δ(T, C)+δ(C, T)}=max{1+1, 0+0}=2
図3の値からも理解されるように、(式4)のカーネル関数は、遺伝学におけるidentical by descentの関係(非特許文献4参照)にありうる対立遺伝子の最大の数をあらわすものである。
カーネル関数の和はカーネル関数になるから、各説明変数について定義されたカーネル関数の和
Figure 0005005208
を非線形SVMにおけるカーネル関数として用いる。
上述した(式5)(および(式4))のカーネル関数はベクトル量の説明変数(上の例ではE12=(T,T), E22=(T,C))に適用するものであるが、スカラー量の説明変数(上の例ではE11=125, E21=100)には、既存のカーネル関数を用いればよい。例えば、説明変数が連続的な量である場合、(式7)のガウシアンカーネルを用いることができる。
Figure 0005005208
ここで、γは適当なパラメータである。
上述したように(式3−1)のパラメータαj(j=0,1,2,…,n)はSVMにより学習する。より詳細には、まず、αj(j=1,2,…,n)を学習し、その後、(式3−1)に基づきα0を求める。
SVMによりαj(j=1,2,…,n)を学習する問題は、目的関数
Figure 0005005208
を条件
Figure 0005005208
の下で最大化(最適化)する問題に帰着する(非特許文献1参照)。cは、ロジスティック関数のスプライン近似のための適当な定数である。この問題は、凸二次関数の最大値を求める問題であるから、既に知られているアルゴリズムを適用すればよく、例えば、最急降下法を適用すればよい。
この際、学習用計算機13は、パラメータαjの決定に加えて、予測に有用な説明変数を選択することも行う(変数選択処理)。例えば、多くの人が罹患する疾患においては、疾患の要因となる要素は多数ありうるが、要素(説明変数)の数を増やして予測すればよいというわけではない。疾患の要因とはならない要素は、予測を擾乱することになりかねない。しかし、ある要素を説明変数として採用するか否かを事前に決定することは困難である。そこで、本実施形態では、パラメータαjの決定とともに、説明変数として有用な因子を選択する処理(変数選択処理)も行う。
この変数選択処理では、説明変数として採用する因子を選択するために、まず全ての因子を検討し、有用でない因子を取り除くRFE(Recursive Future Elimination)を採用する(非特許文献3参照)。RFEの各段階においては、学習データのleave-one-outにより、各個体について予測される確率を階級に分類し、階級の代表値と実際の比率との適合度により、性能を評価する。以下、変数選択処理について詳細に説明する。
ステップ1:まず、学習データから1個体のサンプルを除き、残り全ての個体のサンプルを用いて(式8−1)および(式8−2)によるパラメータ学習を行う。次いで、除いた個体の予測すべき状態の確率を(式3−1)、(式3−2)および(式1)から求める。つまり、(式3−1)および(式3−2)からy(D)を求め、求めたy(D)を(式1)に入力することにより、確率を求める。これを全ての個体について行う(予測ステップ)。なお、パラメータα0は、(式8−1)の最適化によりパラメータαj(j=1,2,…,n)を求めた後、例えばある学習データEkを(式3−1)の回帰式に代入して、
Figure 0005005208
として求める。
ステップ2:各個体について計算された予測すべき状態の確率によって各個体(サンプル)を階級に分類する(分類ステップ)。各階級はそれぞれ同一の確率幅(0.3以上0.35未満、0.35以上0.4未満 など)をもつ。それぞれの階級について、予測すべき状態をとる個体の割合を求める(計算ステップ)。そして、階級の代表値(例えば階級の中央値)と予測すべき状態をとる個体の割合とについてカイ二乗適合度検定を行い、p値を求める(適合度検定ステップ)。
ステップ3:(式8−1)の関数W(α)からある説明変数を含む項を除き、除く前とのW(α)の値の差分を求める。これを全ての説明変数について行い、最も差分が小さい説明変数を除く(除去ステップ)。
ステップ4:ステップ1〜ステップ3を繰り返し行い、説明変数の個数を減じていく(再帰ステップ)。説明変数の個数が閾値に達したら処理を終了する。処理の結果、説明変数の個数とp値とを関連づけたデータを得ることができる。最大のp値をとるときの説明変数を、予測に有用な説明変数とする。また、パラメータαj(j=0,1,2,…,n)は最大のp値をとるときのものを採用する。
学習用計算機13は、以上のようにして求めたパラメータαj(j=0,1,2,…,n)と、パラメータ学習に用いた学習データとを解析用計算機12に出力する。ただし、学習データのうち、予測に有用でない説明変数は解析用計算機12に出力しなくてもよい。
次に、解析用計算機12について説明する。
解析用計算機12は、端末11から予測対象となる個体の説明変数(予測に有用な説明変数)の組み合わせDを受信し、受信した説明変数の組み合わせDと、学習用計算機13から受け取ったパラメータαj(j=0,1,2,…,n)と、学習データとから(式3−1)の回帰式に基づきy(D)を求める。この際、予測に有用な説明変数以外の説明変数を含む項は回帰式から除去する。そして、求めたy(D)を(式1)のロジスティック関数に入力して、予測すべき状態の確率を計算する。
また、解析用計算機12は、
以下の(式9)の関数(寄与率計算関数)により、説明変数の組み合わせDにおける各説明変数(予測に有用な説明変数)について、従属変数に対する寄与度を計算する。
Figure 0005005208
Ri(D)は説明変数の組み合わせDの従属変数へのi番目の説明変数の寄与率をあらわしている。当然ながら各iについてRi(D)の合計をとると1になる。
解析用計算機12は、以上のようにして計算した予測すべき状態の確率と、予測に有用な各説明変数の寄与率とを端末11に送信する。
端末11は、解析用計算機12から受け取った情報をディスプレイに表示する。ディスプレイに表示された内容を参考に、例えば医師は、患者に対する医療行為の方針を選択する。例えばある説明変数が塩分摂取量であり、その説明変数の寄与率が大きければ、塩分摂取量を小さくするよう助言を行うことができる。
ところで、先に示した(式5)(および(式4))のカーネル関数は本発明者が独自に考案したものである。以下、本発明者がこのカーネル関数を考案した経緯について述べ、さらに、この関数が非線形SVMのカーネル関数であることの証明をmi=2の場合(成分数が2の場合)を例にして行う。
本実施の形態において用いるカーネル関数は、遺伝学における遺伝子型に適用できるものであることを想定している。遺伝子型は、順序に意味のない2つの対立遺伝子であらわされる。ここでの対立遺伝子は、遺伝子のみならず、一塩基多型の塩基、マイクロサテライトマーカーの繰り返し数、ハプロタイプなども指すものとする。したがって、順序に意味のない2成分をもつ離散的なベクトル量についてカーネル関数を定義することが必要である。ベクトル量についてのカーネル関数は、畳み込みカーネルなど若干考案されているものの(非特許文献2参照)、遺伝子型に適用できるものは存在しなかった。そこで、新規カーネル関数を考案する必要があった。
本実施の形態で用いるカーネル関数は、Mercer条件とよばれる次に証明する数学的な条件を満たすのみならず、遺伝学における妥当性がなくてはならない。そこで、遺伝学におけるidentical by descent(非特許文献4参照)、つまり、対立遺伝子が祖先を共有することと対応がつけられるカーネル関数を探した。考案した新規カーネル関数は、Mercer条件を満たし、かつ、identical by descentの関係にありうる対立遺伝子の最大の個数を与える。ここで、最大と断るのは、突然変異などにより、祖先を共有しないにもかかわらず偶然に対立遺伝子を共有することがありうるからである。
次に、本発明者が考案した関数がカーネル関数であることの証明を成分数が2の場合を例にして以下に示す。
[定理]
説明変数が順序に意味のない2成分をもつ離散的なベクトル量であるとき、1番目のサンプルの説明変数をベクトルF1とし、2番目のサンプルの説明変数をベクトルF2とすると、関数
Figure 0005005208
は非線形SVMにおけるカーネル関数である。
[証明]
非線形SVMにおけるカーネル関数は
Figure 0005005208
なる展開をもたねばならない(非特許文献1参照)が、Mercerの定理(非特許文献5参照)によれば、そのための必要十分条件は、
Figure 0005005208
である。ただし、ここでの和は、それぞれのベクトルがとりうる全ての値についての和をあらわす。
(式10)より、
Figure 0005005208
となる。ここで、F2 *の和は、F1の成分と1つのみ共通するものがある値についての和をあらわす。
説明変数は順序に意味のない2成分をもつ離散的なベクトル量であるから、
Figure 0005005208
とあらわすことができる。(式13)は、
Figure 0005005208
となる。ゆえに、(式10)の関数は非線形SVMにおけるカーネル関数である。
(式14)の不等式の適用例を以下に示す。
Figure 0005005208
となる。
以上のように、本実施の形態によれば、ロジスティック重回帰における従属変数に非線形SVMを適用するようにしたため、各説明変数の相互作用や、非線形な寄与を考慮しつつ、予測すべき状態の確率を計算できる。また、ベクトル量の説明変数に対しMercer条件を満たすカーネル関数を定義したため、ベクトル量の説明変数も対象とすることができる。また、遺伝学におけるidentical by descentと対応付けできるようにカーネル関数を定めたため本実施の形態におけるカーネル関数は遺伝学における遺伝子型にも適用できる。
また、本実施の形態によれば、予測に用いて有用な説明変数を選択するようにしたため、精度の向上に関係のない因子が学習データベースに入ってきても、精度の低下が起こることを防ぐことができる。また、予測に有用でない説明変数を特定できることで、予測をするために無意味な測定(予測に有用でない因子について測定)を無くすことができる。これらにより、予測の精度を維持しながら測定者、被験者の負担を軽減できる。
また、本実施の形態によれば、予測に有用な各説明変数について従属変数に対する寄与度も計算するようにしたため、例えば医師は患者に対して適切な助言を行うとことが可能となる。また、学習データベース14を随時更新し、更新の都度、予測プログラムを起動するようにしたため、常に最新の学習データを予測に反映することができる。また、端末11の利用者は、ある患者について各因子の値を測定し、各因子の測定値を端末11に入力すれば、予測すべき状態の確率と、予測に有用な各因子の寄与の大きさを、ほぼ瞬時に得ることができる。
本発明の予測方法を実施するための予測装置の構成を概略的に示すブロック図。 学習データベースの例を示す図。 カーネル関数の適用例を示す図。
符号の説明
11 端末
12 解析用計算機
13 学習用計算機
14 学習データベース

Claims (9)

  1. 複数の個体について、前記個体の因子の値をそれぞれ表す複数の説明変数と、前記個体についてある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データを用いて、前記ある状態が発生するまたは発生しない確率を予測するための予測装置であって、
    前記学習データをデータベースから読み出す読出ステップと、
    (A-1)前記説明変数ごとに用意され前記複数の個体のうち異なる2つの個体の前記説明変数を入力とする要素カーネル関数の、前記複数の説明変数についての和を表すカーネル関数と、
    (A-2)前記複数の個体ごとに用意された回帰係数とを用いて、
    (A-3)前記複数の個体のうちの2つの個体のすべての組み合わせについて、前記カーネル関数と、前記2つの個体のそれぞれの回帰係数と、前記2つの個体の従属変数とを乗算し、合計した値を、すべての個体に対する前記回帰係数の合計から減算することを定めた、目的関数を作成し、前記個体ごとの前記回帰係数が取り得る値の範囲の条件と、前記個体ごとの前記回帰係数と前記個体ごとの前記従属変数との乗算和がとる値の条件を満たすように、前記目的関数を最大化することにより、前記複数の個体ごとの回帰係数を同定する、
    係数計算ステップと、
    予測対象となる個体の因子の値をそれぞれ表す複数の説明変数を入力するステップと、
    (B-1)前記説明変数ごとに用意され、予測対象となる個体の前記説明変数と前記複数の個体のうちの1つの前記説明変数とを入力とする要素カーネル関数の、前記複数の説明変数についての和を表すカーネル関数を用いて、
    (B-2)前記個体のすべてについて、前記カーネル関数と、前記複数の個体のうちの1つの個体について同定された回帰係数と、前記1つの個体の従属変数とを乗算し、合計することを定めた回帰式を計算することにより、前記予測対象となる個体の従属変数を求める、
    従属変数算出ステップと、
    前記従属変数算出ステップで求められた従属変数を、ロジスティック関数により変換することで前記予測対象となる個体について前記ある状態が発生する、または発生しない確率を予測する確率予測ステップと
    をコンピュータが実行する予測方法。
  2. ベクトル量である説明変数に対する要素カーネル関数として、
    Figure 0005005208
    に基づく関数を用いることを特徴とする請求項1に記載の予測方法。
  3. leave-one-out法を用いて前記複数の個体のそれぞれについて前記ある状態が発生するまたは発生しない確率を予測する予測ステップと、
    前記予測ステップで各個体について予測した確率を、それぞれ異なる確率範囲を表す階級に分類する分類ステップと、
    前記階級に属する個体のうち、前記ある状態が発生したまたは発生していないことを示す従属変数をもつ個体の数の比率を計算する計算ステップと、
    各前記階級の中央値と、各前記階級について計算した前記個体の比率とからカイ二乗適合度検定を行うことにより、p値を求める適合度検定ステップと、
    をさらに前記コンピュータが実行することを特徴とする請求項1または2に記載の予測方法。
  4. 前記目的関数からある説明変数を含む項を除いて、除く前との前記目的関数の値の差分を求めることを全ての説明変数について行い、最も差分が小さい説明変数を除く除去ステップと、
    前記係数計算ステップ、前記予測ステップ、前記分類ステップ、前記計算ステップ、前記適合度検定ステップ、前記除去ステップを繰り返す再帰ステップと、
    をさらに前記コンピュータが実行することを特徴とする請求項3に記載の予測方法。
  5. 前記再帰ステップは、前記除去ステップによる除去後の説明変数の個数が閾値に達した場合は繰り返しを終了し、前記適合度検定ステップで最も高いp値が得られたときの回帰式で用いられている説明変数を、予測に有用な説明変数として選択することを特徴とする請求項4に記載の予測方法。
  6. 予測に有用として選択された各前記説明変数のそれぞれについて、
    前記予測対象となる個体の前記選択された説明変数と、前記複数の個体のうちの1つの個体の前記選択された説明変数とを入力とする要素カーネル関数と、前記1つの個体の前記回帰係数と、前記1つの個体の前記従属変数とを乗算し、前記複数の個体について合計することを定めた関数に基づき、
    前記関数を前記選択された説明変数のすべてについて合計した値に対する、前記選択された説明変数のそれぞれに対応する前記関数の比率を、前記選択された説明変数の寄与率としてそれぞれ計算する寄与率計算ステップをさらに前記コンピュータが実行することを特徴とする請求項5に記載の予測方法。
  7. 請求項1ないし6のいずれか一項に記載の各ステップをコンピュータに実行させるための予測プログラム。
  8. 複数の個体について、前記個体の因子の値をそれぞれ表す複数の説明変数と、前記個体についてある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データを格納したデータベースと、
    (A-1)前記説明変数ごとに用意され前記複数の個体のうち異なる2つの個体の前記説明変数を入力とする要素カーネル関数の、前記複数の説明変数についての和を表すカーネル関数と、
    (A-2)前記複数の個体ごとに用意された回帰係数とを用いて、
    (A-3)前記複数の個体のうちの2つの個体のすべての組み合わせについて、前記カーネル関数と、前記2つの個体のそれぞれの回帰係数と、前記2つの個体の従属変数とを乗算し、合計した値を、すべての個体に対する前記回帰係数の合計から減算することを定めた、目的関数を作成し、前記個体ごとの前記回帰係数が取り得る値の範囲の条件と、前記個体ごとの前記回帰係数と前記個体ごとの前記従属変数との乗算和がとる値の条件を満たすように、前記目的関数を最大化することにより、前記複数の個体ごとの回帰係数を同定する、手段と、
    予測対象となる個体の因子の値をそれぞれ表す複数の説明変数を受ける手段と、
    (B-1)前記説明変数ごとに用意され、予測対象となる個体の前記説明変数と前記複数の個体のうちの1つの前記説明変数とを入力とする要素カーネル関数の、前記複数の説明変数についての和を表すカーネル関数を用いて、
    (B-2)前記個体のすべてについて、前記カーネル関数と、前記複数の個体のうちの1つの個体について同定された回帰係数と、前記1つの個体の従属変数とを乗算し、合計することを定めた回帰式を計算することにより、前記予測対象となる個体の従属変数を求める、
    手段と、
    を有する学習計算部と、
    前記従属変数算出ステップで求められた従属変数を、ロジスティック関数により変換することで、前記予測対象となる個体について前記ある状態が発生する、または発生しない確率を予測する解析計算部と、
    を備えた予測装置。
  9. ベクトル量である説明変数に対する要素カーネル関数として、
    Figure 0005005208
    に基づく関数を用いることを特徴とする請求項8に記載の予測装置。
JP2005313930A 2005-10-28 2005-10-28 予測方法、予測装置および予測プログラム Expired - Fee Related JP5005208B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005313930A JP5005208B2 (ja) 2005-10-28 2005-10-28 予測方法、予測装置および予測プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005313930A JP5005208B2 (ja) 2005-10-28 2005-10-28 予測方法、予測装置および予測プログラム

Publications (2)

Publication Number Publication Date
JP2007122418A JP2007122418A (ja) 2007-05-17
JP5005208B2 true JP5005208B2 (ja) 2012-08-22

Family

ID=38146205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005313930A Expired - Fee Related JP5005208B2 (ja) 2005-10-28 2005-10-28 予測方法、予測装置および予測プログラム

Country Status (1)

Country Link
JP (1) JP5005208B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4701371B2 (ja) * 2009-05-21 2011-06-15 国立大学法人山口大学 災害発生確率評価システムとそのプログラム
WO2012001921A1 (ja) * 2010-06-28 2012-01-05 日本電気株式会社 フィードバック情報を用いた医療情報からの異常イベント抽出装置、方法およびプログラム
WO2012001920A1 (ja) * 2010-06-28 2012-01-05 日本電気株式会社 医療情報からの異常イベント抽出装置、方法及びプログラム
JP2012256182A (ja) * 2011-06-08 2012-12-27 Sharp Corp データ解析装置、データ解析方法およびデータ解析プログラム
JP5988419B2 (ja) 2012-01-11 2016-09-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 予測方法、予測システムおよびプログラム
JP2018147280A (ja) * 2017-03-07 2018-09-20 株式会社日立ソリューションズ データ分析装置及びデータ分析方法
JP7015740B2 (ja) * 2018-06-14 2022-02-03 株式会社日立物流 予測システム及び予測方法
CN111445992B (zh) * 2020-01-21 2023-11-03 中国医学科学院肿瘤医院 建立预测模型的方法、装置、介质及设备
CN111340361B (zh) * 2020-02-25 2023-04-28 武汉轻工大学 求解黄酒原料指标范围的数据驱动模型分析方法及装置
CN115115056A (zh) 2021-03-23 2022-09-27 日本电气株式会社 用于数据处理的方法、装置和介质

Also Published As

Publication number Publication date
JP2007122418A (ja) 2007-05-17

Similar Documents

Publication Publication Date Title
JP5005208B2 (ja) 予測方法、予測装置および予測プログラム
Chatterjee et al. Developing and evaluating polygenic risk prediction models for stratified disease prevention
Lazar et al. Batch effect removal methods for microarray gene expression data integration: a survey
Bravo et al. Model-based quality assessment and base-calling for second-generation sequencing data
US20210375392A1 (en) Machine learning platform for generating risk models
Lange et al. A joint model for multistate disease processes and random informative observation times, with applications to electronic medical records data
Cologne et al. Conventional case–cohort design and analysis for studies of interaction
EP3471107A1 (en) Medical device and computer-implemented method of predicting risk, occurrence or progression of adverse health conditions in test subjects in subpopulations arbitrarily selected from a total population
Mughal et al. Localizing and classifying adaptive targets with trend filtered regression
JP2006519440A (ja) 疾患の増大リスクの統計学的同定法
US20210343414A1 (en) Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm
Derkach et al. Power Analysis for Genetic Association Test (PAGEANT) provides insights to challenges for rare variant association studies
CA2877011A1 (en) Systems and methods for identifying a contributor's str genotype based on a dna sample having multiple contributors
Logsdon et al. A novel variational Bayes multiple locus Z-statistic for genome-wide association studies with Bayesian model averaging
Deshwar et al. PLIDA: cross-platform gene expression normalization using perturbed topic models
Marciano et al. Developmental validation of PACE™: Automated artifact identification and contributor estimation for use with GlobalFiler™ and PowerPlex® fusion 6c generated data
Bao et al. Genome-wide association studies using a penalized moving-window regression
Sauk et al. NIPTmer: rapid k-mer-based software package for detection of fetal aneuploidies
Le et al. Nearest-neighbor Projected-Distance Regression (NPDR) for detecting network interactions with adjustments for multiple tests and confounding
Bolli et al. Software as a service for the genomic prediction of complex diseases
Palowitch et al. Estimation of cis-eQTL effect sizes using a log of linear model
JP6374532B2 (ja) 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム
CN116525108A (zh) 基于snp数据的预测方法、装置、设备及存储介质
Huang et al. Statistical modeling of isoform splicing dynamics from RNA-seq time series data
Xu et al. High-throughput and efficient multilocus genome-wide association study on longitudinal outcomes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120523

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150601

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees