JP2004355174A - データ解析方法及びそのシステム - Google Patents

データ解析方法及びそのシステム Download PDF

Info

Publication number
JP2004355174A
JP2004355174A JP2003150168A JP2003150168A JP2004355174A JP 2004355174 A JP2004355174 A JP 2004355174A JP 2003150168 A JP2003150168 A JP 2003150168A JP 2003150168 A JP2003150168 A JP 2003150168A JP 2004355174 A JP2004355174 A JP 2004355174A
Authority
JP
Japan
Prior art keywords
data analysis
likelihood
correlation model
data
fitness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003150168A
Other languages
English (en)
Inventor
Toshio Ishikawa
俊夫 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ishihara Sangyo Kaisha Ltd
Original Assignee
Ishihara Sangyo Kaisha Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ishihara Sangyo Kaisha Ltd filed Critical Ishihara Sangyo Kaisha Ltd
Priority to JP2003150168A priority Critical patent/JP2004355174A/ja
Publication of JP2004355174A publication Critical patent/JP2004355174A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】生体データの解析において、より少ない説明変数の選択で分類能力の高い解析ができるデータ解析方法を提供する。
【解決手段】カテゴリー分類された生体の状態と、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータからなるサンプルの集合をコンピュータの記憶部に記憶しておき、カテゴリー分類された生体の状態を目的変数とし、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータ内の説明変数の候補に基づいてSIMCAモデルの適応度をAIC(赤池情報基準)によって算出し、算出された適応度に基づいて相関モデルを最適化するモデル構築処理を行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、生体に関する情報を解析するデータ解析方法及びそのシステムに関する。
【0002】
【従来技術】
2000年6月のヒトゲノムの解読宣言以降、ゲノムに書かれた遺伝情報がどのように発現して機能しているのかを解明するポストゲノム時代に突入したと言われている。ヒトゲノム計画の進展の中で、ゲノム発現状態を測定する方法論も進展してきた。トランスクリプトーム(mRNA)測定手段としてオリゴヌクレオチドアレイやマイクロチップが知られている。またプロテオーム(蛋白質)測定手段として、以前からある2次元電気泳動に加えて、最近では質量分析の方法が進歩してきた。また抗体チップなどの先進の技術も注目されている。これらの測定技術は、生体の状態パラメータを短時間に一挙に測定できることがそれまでの技術と比較して画期的であると言える。
【0003】
遺伝子発現状態を効率的に測定する技術として次のものがあげられる。トランスクリプトーム(mRNAの総体)を特定するものとして、基盤に複数種のDNAを担持し、それに相補的なmRNAを検出するDNAチップが知られている。代表的なDNAチップには、遺伝子チップやDNAマイクロアレイがある。また、プロテオーム(蛋白質の総体)を特定するものには、2次元電気泳動、抗体チップ、質量スペクトルを用いるものがある。またメタボローム(代謝中間体を含めた代謝産物の総体)を測定する手法も質量分析などによって試みられており、進展が見られる。
【0004】
生体内の細胞の状態は遺伝子産物の発現によってよく記述されるため、従来の診断マーカーでは情報が不足している場面でも、精度のより高い診断が可能になるという期待も出てきている。たとえば、次のような研究があげられる。
下記非特許文献1に示すように、P. O. Brownらは、DNAチップによってリンパ腫患者の細胞のトランスクリプトームを測定し、クラスター解析によって悪性と良性のリンパ腫(DLBCL)を別クラスターに分離した。しかし、これは因果関係(相関関係)のモデルを得る方法ではなく、どの遺伝子がどの程度重要かを判断できない。
【0005】
下記非特許文献2に示すように、C.Ooiらは、GA/MLHDという線型判別分析に基礎を置いたクラス分類法を提案している。61細胞の9カテゴリー分類(NCI60)と、198細胞の14カテゴリー分類(GCM)とがそれぞれ13, 32個の遺伝子の発現量で良好に説明されている。
【0006】
また、下記非特許文献3及び特許文献1に示すように、Nguyenらは、PLSが次元圧縮とモデルフィットとを同時に行なう優れた方法であることに注目して、判別分析のための特徴抽出方法としてPLSの利用を提案している。これらの方法はDNAチップによって可能となった遺伝子発現量の測定を利用して、診断を複数カテゴリー分類問題に帰着させることで解決を図ろうとするものである。しかし、以下に述べるように解決すべき課題が残っている。
【0007】
【特許文献1】国際公開02/25405号 『METHODS FOR CLASSIFYING HIGH−DIMENSIONAL BIOLOGICAL DATA』
【非特許文献1】A.A.Alizadeh, M.B.Eisen, R.E.Davis, C.Ma, I.S.Lossos, A.Rosenwald, J.C. Boldrick, H.Sabet, T.Tran, X.Yu, J.I.Powell, L.Yang, G.E.Marti, T.Moore, J.Hudson.Jr, L.Lu, D.B.Lewis, R.Tibshirani, G.Sherlock,W.C.Chan, T.C.Greiner, D.D.Weisenburger, J.O.Armitage, R.Warnke, R.Levy, W.Wilson, M.R.Grever, J.C.Byrd, D.Botstein, P.O.Brown & L.M.Staudt; Distinct types of diffuse large B−cell lymphoma identified by gene expression profiling; Nature, 403(3) 503−11 2000
【非特許文献2】C.H.Ooi & P.Tan; Genetic algorithm applied to multi−class prediction for the analysis of gene expression data; Bioinformatics,19,37−44(2003)
【非特許文献3】D.V.Nguyen & D.M.Rocke; Multiclass cancer classification via partial least squares with gene expression profiles; Bioinformatics, 18,1216−26(2002)
【0008】
【発明が解決しようとする課題】
従来の診断マーカーでは情報が不足している場面でも、遺伝子発現情報を活用することで、より精度(解像度)の高い診断が可能になるという期待も出てきている。遺伝子発現状態の測定結果は、膨大な情報量が得られることが従来にはなかった特徴であり、逆に情報量が多いために、効果的なデータ処理なくしてデータの活用はありえない。上述のようにこれを複数カテゴリー分類問題としてとらえ、線型モデルによる解決を目指す方法が報告されている。しかし複雑なデータでは、特徴空間の次元を低くした場合に線型分離不可能な事態に陥るために、線型モデルに基づく限り説明変数の絞込みに限度がある。
【0009】
遺伝子発現解析において説明変数を効果的に絞り込むことができれば、選抜された説明変数(遺伝子発現)を詳細に研究し、学問レベルを向上させることを容易にする。また診断用DNAチップなどの設計や製造を容易にし、結果的に安価な診断用機材が普及することで、ゲノム研究の恩恵を受ける患者の範囲を増やすなどの社会的インパクトが期待される。このように、線型分離不可能なデータを解析できる複数カテゴリー分類法が求められていると言える。
【0010】
線型分離不可能データを解析する方法として階層型人工ニューラルネット(ANN)、サポートベクターマシン(SVM)などが用いられている。
代表的なANNは入力層、中間層、出力層からなる3層構造であり、説明変数が入力層に、目的変数が出力層に、それぞれ対応付けられる。入力層と中間層、中間層と出力層をつなぐ重みは逆伝播アルゴリズムによって機械学習される。しかし、中間層のユニット数などのネットワーク構造そのものは、通常、機械学習に先だって与えられるものである。このようにANNのモデル構築には任意性が多いと言える。加えて、逆伝播アルゴリズムによる機械学習の場合、学習結果が初期パラメータによって異なる結果に収束するという問題がある。
【0011】
一方、SVMでは線型分離不可能問題は非線型写像(カーネルトリック)によって解消される。しかし、SVMはカテゴリー境界領域に位置するサポートベクターに重きをおいた手法であるため、生体データのように避けることのできない測定誤差が存在する分野では困難であると考えられる。またSVMは本来2群分類に適した方法であり、複数カテゴリーへの拡張は容易ではない。例えばN個のカテゴリーをone against oneで比較するSVMモデルを構築した場合には、N ×(N −1)/2個の判別面が必要となる。判別面が多くなればなるほど「3すくみ」の問題が発生する危険が増大する。
【0012】
本発明は上記課題に鑑みてなされたものであり、本発明の目的は、上記課題を解決できる、データ解析方法及びそのシステムを提供することにある。
具体的な目的の一例を示すと、以下の通りである。
(a)実験誤差や診断誤差がつきものの生体データの解析に適した方法及びそのシステムを提供する。
(b)生体データの解析において、より少ない説明変数の選択で分類能力の高いデータ解析ができる方法及びそのシステムを提供する。
(c)線型分離不可能なデータを解析できる複数カテゴリー分類法を提供する。
(d)カテゴリー分類される生体の情報を予測する場合に精度の高い予測出力を得ることができるデータ解析方法及びそのシステムを提供する。
なお、上記に記載した以外の発明の課題及びその解決手段は、後述する明細書内の記載において詳しく説明する。
【0013】
【課題を解決するための手段】
本発明は、例えば、次のように構成したものである。
第1発明のデータ解析方法は、コンピュータを用いて、カテゴリー分類された生体の状態を目的変数とし、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータを説明変数とする相関モデルを決定するデータ解析方法であって、
前記相関モデルは、多変量特徴空間の各サンプルを主成分分析によって得られた部分空間により複数カテゴリーに分類する相関モデルであり、
カテゴリー分類された生体の状態と、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータからなるサンプルの集合をコンピュータの記憶手段に記憶しておき、
カテゴリー分類された生体の状態を目的変数とし、前記複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータ内の説明変数の候補に基づいて相関モデルの尤度を算出する尤度算出処理と、少なくともその算出された尤度に基づいて相関モデルの適応度を算出する適応度算出処理と、その算出された適応度に基づいて相関モデルを最適化する最適化処理と、を含んでモデル構築処理が行なわれることを特徴とする。
第2発明は、第1発明において、前記適応度算出処理が、前記尤度算出処理のみならず、相関モデルのパラメータ数を算出する処理も含んで行われることを特徴とする。
【0014】
第3発明は、第1発明ないし第2発明のいずれか一つに記載の発明において、前記適応度算出処理がAIC(Akaike’s Information Criterion:赤池情報基準)に基づいて行われることを特徴とする。
第4発明は、第1発明ないし第3発明のいずれか一つに記載の発明において、前記相関モデルがSIMCA(Soft Independent Modeling of Class Analogy)モデルであることを特徴とする。
第5発明は、第2発明ないし第4発明のいずれか一つに記載の発明において、相関モデルのパラメータ数を、カテゴリーの部分空間を表す重心の数と、ローディング行列の係数の数との和に基づいて算出することを特徴とする。
【0015】
第6発明は、第1発明ないし第5発明のいずれか一つに記載の発明において、前記尤度算出処理が、各サンプルのカテゴリーへの帰属尤度を算出する帰属尤度算出処理を含んで行われ、前記最適化処理が、算出された適応度に基づいて説明変数の採用、不採用を判別する処理を含んで行われることを特徴とする。
第7発明は、第1発明ないし第6発明のいずれか一つに記載の発明において、前記最適化処理が遺伝子アルゴリズムを含んで行われることを特徴とする。
第8発明は、第1発明ないし第6発明のいずれか一つに記載の発明において、前記最適化処理がステップワイズな方法を含んで行われることを特徴とする。
【0016】
第9発明は、第6発明ないし第8発明のいずれか一つに記載の発明において、前記尤度算出処理が、前記帰属尤度算出処理によって算出された各サンプルの帰属尤度を全サンプルについて乗算することにより得られた尤度に基づいて行われることを特徴とする。
第10発明は、第9発明において、前記尤度算出処理が、前記帰属尤度算出処理によって算出された帰属尤度の中で各サンプルが一番大きな帰属尤度を有するカテゴリーに帰属すると決定する処理を含むことを特徴とする。
【0017】
第11発明は、第6発明ないし第10発明のいずれか一つに記載の発明において、前記最適化処理が、説明変数の相関モデルへの採用、不採用を判別することに加えて、部分空間次元の決定も行うことを特徴とする。
第12発明は、第6発明ないし第11発明のいずれか一つに記載の発明において、前記最適化処理が、説明変数の相関モデルへの採用、不採用を判別する処理に遺伝子アルゴリズムを用い、部分空間次元の決定にステップワイズな方法を用いることを特徴とする。
第13発明のデータ解析方法は、第1発明ないし第12発明のいずれか一つに記載のデータ解析方法を使用して構築された相関モデルに、選抜された説明変数を入力してカテゴリー分類された生体の状態を予測する出力を得ることを特徴とする。
【0018】
第14発明のデータ解析システムは、コンピュータを用いて、カテゴリー分類された生体の状態を目的変数とし、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータを説明変数とする相関モデルを決定するデータ解析システムであって、
前記相関モデルは、多変量特徴空間の各サンプルを主成分分析によって得られた部分空間により複数カテゴリーに分類する相関モデルであり、
カテゴリー分類された生体の状態と、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータからなるサンプルの集合を記憶した記憶手段と、
カテゴリー分類された生体の状態を目的変数とし、前記複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータ内の説明変数の候補に基づいて相関モデルの尤度を算出する尤度算出手段と、少なくともその算出された尤度に基づいて相関モデルの適応度を算出する適応度算出手段と、その算出された適応度に基づいて相関モデルを最適化する最適化処理手段と、を備えていることを特徴とする。
【0019】
第15発明は、第14発明において、前記適応度算出手段が、前記尤度算出手段によって算出された尤度を使用するのみならず、相関モデルのパラメータ数を算出する処理も含んで適応度の算出を行うことを特徴とする。
第16発明は、第14発明ないし第15発明のいずれか一つに記載の発明において、前記適応度算出手段がAICに基づいて適応度の算出を行うことを特徴とする。
第17発明は、第14発明ないし第16発明のいずれか一つに記載の発明において、前記相関モデルがSIMCAモデルであることを特徴とする。
【0020】
第18発明は、第15発明ないし第17発明のいずれか一つに記載の発明において、相関モデルのパラメータ数を、カテゴリーの部分空間を表す重心の数と、ローディング行列の係数の数との和に基づいて算出することを特徴とする。
第19発明は、第14発明ないし第18発明のいずれか一つに記載の発明において、前記尤度算出手段が、各サンプルのカテゴリーへの帰属尤度を算出する帰属尤度算出手段を含んで尤度の算出を行い、前記最適化処理手段が、算出された適応度に基づいて説明変数の採用、不採用を判別する処理を含んで最適化処理を行うことを特徴とする。
【0021】
第20発明は、第14発明ないし第19発明のいずれか一つに記載の発明において、前記最適化処理手段が遺伝子アルゴリズムを含んで最適化処理を行うことを特徴とする。
第21発明は、第14発明ないし第19発明のいずれか一つに記載の発明において、前記最適化処理手段がステップワイズな方法を含んで最適化処理を行うことを特徴とする。
第22発明は、第19発明ないし第21発明のいずれか一つに記載の発明において、前記尤度算出手段の算出する尤度が、前記帰属尤度算出手段によって算出された各サンプルの帰属尤度を全サンプルについて乗算することにより得られた尤度に基づいていることを特徴とする。
【0022】
第23発明は、第22発明において、前記尤度算出手段の行う処理が、前記帰属尤度算出手段によって算出された帰属尤度の中で各サンプルが一番大きな帰属尤度を有するカテゴリーに帰属すると決定する処理を含んでいることを特徴とする。
第24発明は、第19発明ないし第23発明のいずれか一つに記載の発明において、前記最適化処理手段が、説明変数の相関モデルへの採用、不採用を判別することに加えて、部分空間次元の決定も行うことを特徴とする。
【0023】
第25発明は、第19発明ないし第24発明のいずれか一つに記載の発明において、前記最適化処理手段が、説明変数の相関モデルへの採用、不採用を判別する処理に遺伝子アルゴリズムを用い、部分空間次元の決定にステップワイズな方法を用いることを特徴とする。
第26発明のデータ解析システムは、第14発明ないし第25発明のいずれか一つに記載のデータ解析システムを使用して構築された相関モデルに、選抜された説明変数を入力してカテゴリー分類された生体の状態を予測する出力を得ることを特徴とする。
【0024】
以下、上記の各発明について説明する。
第1発明などにおいて、記憶手段に記憶される『カテゴリー分類された生体の状態』には、カテゴリー分類された生体の状態を記憶する形態のみならず、その生体の状態を導出する元になるデータを入力し、各種の処理を行った結果として、記憶手段にカテゴリー分類された生体の状態を記憶させる形態も含まれる。また、『細胞内物質のデータ』としては、例えば細胞内タンパク質の量が挙げられる。
第1発明などに記載した『適応度』は少なくとも相関モデルの当てはまりの良さを計量する要素を含んで算出される。本発明では相関モデルの当てはまりの良さを計量する要素として相関モデルの尤度を用いる。尤度を算出する場合には第6発明などに記載したように各サンプルのカテゴリーへの帰属尤度を算出することが好ましい。
【0025】
第4発明などに記載したSIMCAでは、各サンプルの帰属尤度としては、F検定などで求めることのできる帰属の信頼度や、帰属の信頼度をスケーリングしたものなどを用いることができる。また分類が正解か不正解かを判断してそれを尤度の計算に反映させることも考えられる。あるいはSIMCAにおいて識別力やモデリング力を計算する際に用いられる量を尤度の計算に反映させることも考えられる。さらに、相関モデルの尤度の具体的な求め方の一つとしては、第9発明などに記載したように各サンプルの帰属尤度の積を求める方法がある。
【0026】
『適応度』は、相関モデルの当てはまりの良さが増加すれば増加し、相関モデルの複雑さに依存する場合には複雑さが増せば減少する量として定義することもできる。
相関モデルの複雑さに依存する場合に複雑さが増せば減少する量の要素としては、第2発明のように相関モデルのパラメータ数を用いることができる。これは、モデルに用いる説明変数の数であったり、第5発明で述べるものであってもよい。あるいは、『パラメータ数』という表現に束縛されることなく、例えば相関モデルを伝達する情報量などであっても良い。
【0027】
上記2つの要素を含む『適応度』の定義の仕方はさまざまに考えられるが、モデルの対数尤度とパラメータ数の重みつきの差、あるいは商、あるいはさらにそれらの複雑な関数でも採用することができる。これは、上記2つの要素のバランスを取ることにより、与えられたデータに適応した相関モデルを構築できる可能性を高められるからである。
【0028】
第4発明などに記載したSIMCAは、ケモメトリクスと呼ばれる研究分野で紹介されてきた多変量解析方法であり、複数カテゴリー分類向きの方法である。SIMCAでは各カテゴリー毎に、特徴ベクトルが主成分分析され、そのカテゴリーの部分空間モデルが構築される。
SIMCAはパラメトリックな方法であり、実験誤差(診断誤差)がつきものの生体データ解析に適した方法であると考えられる。本発明者はこのようなSIMCAの特徴に注目して遺伝子発現解析による複数カテゴリー分類法について検討を進め、上記各発明に至った。
【0029】
DNAチップなどの遺伝子発現データは膨大な次元数である。SIMCAは次元によらず実行可能な方法であり、モデル構築において計算不能の事態に陥ることは無い。しかし計算量を減らすという観点では特徴空間の次元数を絞ることが望ましい。それ以外にも、次元数を絞ることは、診断用の簡易測定キットの設計などの実用上の観点や、重要遺伝子を絞り込んで生化学的考察を容易にするなどのメリットが考えられる。一般にモデルの複雑さが増すほど訓練集合のデータの説明度合いが向上するが、テスト集合への予測力は限度を越すと逆に低下することが知られており、オーバーフィットと呼ばれている。
【0030】
遺伝子発現データのように膨大な次元数のデータではオーバーフィットを回避しながら如何に有効なモデルを構築するかが課題となる。
本発明者はモデル選抜の基準として上記適応度を算出するようにした。上記適応度としては、例えば第3発明などに記載されるように赤池情報基準(AIC)あるいはその応用をモデル選抜の基準にすることで良好なモデルが得られること確認した。
モデル選抜の最適化処理方法としては第7発明、第8発明などに記載したように、遺伝的アルゴリズムやステップワイズな方法の他に、シミュレーテッドアニーリングなどが考えられる。
【0031】
第1発明〜第26発明は、サーバー型コンピュータで構成される場合や、デスクトップ型コンピュータで構成される場合を問わずに適用できる。
サーバー型コンピュータで構成される場合は、前記モデル構築処理手段をモデル構築処理サーバーで構成することもできる。
また、本発明においては、遺伝子発現データなどをコンピュータに手軽に入力する入力手段(例えば、入力装置、入力ソフトウエア等)と、データを選択する選択手段(例えば、選択装置、選択ソフトウエア等)を備えることが好ましい。上記選択手段はキーボード、マウス等を用いてオペレータがデータを選択する形態や、コンピュータが選択ソフトウエアによって自動的に選択する形態が考えられる。
【0032】
以下、上記発明の効果等について説明する。
第1発明および第14発明であれば、相関モデルの当てはまりの良さを計量するために相関モデルの尤度を用い、少なくとも算出された相関モデルの尤度に基づいて相関モデルの適応度を算出し、その算出された適応度に基づいて相関モデルを最適化してモデル構築処理を行うので、分類能力の高いデータ解析ができる可能性を高めることができる。
第2発明および第15発明であれば、適応度の算出において、相関モデルの尤度のみならず、相関モデルの複雑さに起因する要素として相関モデルのパラメータ数も考慮しているので、より少ない説明変数の選択で優れた相関モデル構築の可能性を高めることができる。
【0033】
第3発明および第16発明であれば、前記適応度の算出がAICに基づいて算出されるので、データの情報量に見合う最適な相関モデルを選定することが期待できる。
第4発明および第17発明であれば、SIMCAはパラメトリックな方法であるので、実験誤差(診断誤差)が生じやすい生体情報データに適した解析を行うことができる。
第13発明および第26発明であれば、より少ない説明変数の選択で分類能力の高いデータ解析ができる相関モデルを使用しているので、少ない説明変数の選抜であっても生体の情報を予測する場合に精度の高い出力を得ることができる。
【0034】
【発明の実施の形態】
以下、上記各発明について数式、図面などを用いて、より具体的に説明する。
下記実施形態では、本発明のデータ解析方法を複数カテゴリー分類のための遺伝子発現解析法に適用する。また、相関モデルとしてSIMCAを採用するとともに、最適化処理として主に遺伝子アルゴリズムを採用した場合を例に取り、説明する。
【0035】
まず、SIMCAに関する予備的説明を行う。
SIMCAは多変量特徴空間の各サンプルを部分空間によって複数カテゴリー分類するパターン認識方法である。図8にSIMCAによる部分空間分類のイメージを示す。図8では、黒点で示された線状の部分空間と白点で示された面状の部分空間が存在する場合が示されており、2つの部分空間はカテゴリーとして分類できるものである。
SIMCAを説明した文献としては、(宮下芳勝, 佐々木慎一著;ケモメトリクス−化学パターン認識と多変量解析;共立(1995))などがある。
【0036】
以下、次の記号を用いて簡単に説明する。
jは説明変数(遺伝子発現量)のインデックス
は説明変数の個数
kはカテゴリーのインデックス
はカテゴリーの個数
iはサンプルのインデックス
はサンプルの個数
はカテゴリーkに属するサンプルの個数
aは主成分のインデックス(a=1〜N
ijは各サンプルの特徴変数(説明変数)
は各サンプルのカテゴリー(目的変数)
但し、上記Nはカテゴリーk毎に変化する値なので、そのカテゴリー毎に変化することを明示的に表示する場合は、以下に記述する数式及び添付するフローチャートにおいてN (k)と表示する。
まず、特徴変数Xijからカテゴリーkに属するサンプルの重心Xkjを差し引いたものをX’ijとする。
【0037】
【数1】
Figure 2004355174
【0038】
ここでΣ(i k)はカテゴリーkに属するサンプルiについての総和を意味している。kに限定した主成分分析を行なうことにより、次のような主成分モデルが得られる。
【0039】
【数2】
Figure 2004355174
【0040】
ここではTiaはスコア行列、Pajはローディング行列、Eijは残差行列と呼ばれる。a=1が第1主成分、a=2が第2主成分、以下同様である。主成分モデルのa=1〜Nの各段階ごとに、残差行列が小さくなるようにT, Pが決定される。そのため、上式はカテゴリーkに属するサンプルが特徴空間内で占有する部分空間を表現したものとなる。
【0041】
あるカテゴリーがほぼ直線上に並んでいる場合にはN=1でX’が十分表現されて|E|が小さくなる。また平面上に位置する場合にはN=2で十分である。このようにSIMCAでは各カテゴリーを部分空間で表現する。主成分モデルを得る方法としてNIPALSアルゴリズムなどが知られている。またNを決定する方法としては予め一定数(例えばN=3)に固定する方法、|E|/|X|が一定値より小さくなることを基準とする方法、leave−one−outなどのPRESS値を基準とする方法などが知られている。
カテゴリーkの部分空間の広がりは下記(3)式で求められる。
【0042】
【数3】
Figure 2004355174
【0043】
特徴空間内の任意のサンプルベクトルXijがカテゴリーkに属するかどうかは(1)式、(2)式よりEijを求め、下記(4)式によってベクトルと部分空間との距離D を求めて、(3)式より求められるRSDを用いてF検定を行なうことによって判定することができる。SIMCAによる分類結果は、図9に示すようなCoomansプロットなどによって分り易く表示することができる。
【0044】
【数4】
Figure 2004355174
【0045】
また、カテゴリーk1のサンプルk2との重心Xk2jとの距離を反映した量(下記(5−1)式を参照)や、カテゴリーk1のサンプルk2との部分空間との距離を反映した量(下記(5−2)式, (5−3)式を参照)などを用いてカテゴリー間の識別力やモデリング力を評価することができる。
【0046】
【数5】
Figure 2004355174
【0047】
次に、遺伝子アルゴリズムについての予備的説明を行う。
遺伝的アルゴリズム(GA; Genetic Algorithm)は、進化論をヒントとした非線型最適化手法であり、ここ数年間、頻繁に用いられて定着してきた。遺伝子アルゴリズムを説明した文献としては、伊庭斉志;「遺伝的アルゴリズムの基礎」;オーム社;(1994)などがある。
GAでは最適化対象がビット列などで表現される。このような表現の形式を遺伝型(genotype)と呼び、ひとつひとつの遺伝型の具体的な文字列を染色体(chromosome)と呼ぶ。最適化の指標である適応度(fitness)は遺伝型より一義的に決定される。
【0048】
(処理1) 初期染色体プールの準備
ランダムに染色体の集合を準備する。染色体の数はプールサイズと呼ばれる。
(処理2) 交叉、突然変異、選択による最適化
[2−1] 交叉(crossover)
集合より2つの染色体を選抜し、ビット列のランダムな交叉によって新しい染色体を創生する。交叉を1個所に限る一点交叉(one point crossover)と全ビット間で交叉を行なう一様交叉(unform crossover,UX)などがあり、一般的にはUX法が優れているとされている。
[2−2] 突然変異
集合あるいは新しい染色体の任意のビットをランダムに選んで反転させる。
[2−3] 選択(selection)
各染色体の適応度を計算し、染色体プールを次世代のものに置き換える。適応度に比例した確率で染色体を選抜するルーレット方式や親世代と子世代との間で適応度の対決を行なうトーナメント方式などがある。これらいずれにおいても乱数が用いられることが多く、一度得られた最適染色体が失なわれることもある。このようなことが無いよう、プール内の最適染色体は必ず次世代に選抜されるとするエリート戦略なども用いられる。
【0049】
(処理3) 終了
世代数がある回数に達した場合や、最適適応度に変化が見られなくなった場合に処理2は終了し、最適解は最適染色体の遺伝型およびその適応度として出力される。GAは基本的には乱数を用いた方法であるため、処理1〜処理3が何回か試みられ(Run)、その中の最適染色体が用いられることが多い。
【0050】
次に、相関モデルの適応度を算出する方法について説明する。
本実施形態では、前記適応度としてAIC(赤池情報基準)を最適化したSIMCAモデルを得ることを特徴とする
ここでAICとは、例えば、(6)式で計算される量であり、相関モデルの複雑さに依存する場合にその複雑さを表す第1項と、相関モデルの当てはまりの良さを表す第2項とのバランスを取った量である。
なお、この実施形態ではAIC値が小さいほど優れたモデルとなる。
【0051】
【数6】
Figure 2004355174
【0052】
ここでkは両項のバランスを取るための調節パラメータであり、任意に設定できるものとする。k=0という特別なケースは最尤法に相当し、k=1は通常のAICの計算方法である。(6)式を使用する場合にk≠0の時は、前記第2発明のようにモデルのパラメータ数も考慮して適応度を算出することになる。
SIMCAモデルのパラメータ数は例えば(7)式、(8)式で定義することとした。この(8)式は前記第5発明の一形態を示したものである。
【0053】
【数7】
Figure 2004355174
【0054】
【数8】
Figure 2004355174
【0055】
ここで、(8)式に示すΣk=1 Nkはカテゴリーkについての和を取ることを意味し、Nはカテゴリーkの部分空間次元、NはSIMCAモデル構築に用いられた特徴空間次元数である。上式において、右辺は各カテゴリーの部分空間を表す重心とローディングの係数の数の和を意味している。
SIMCAモデルの尤度は例えば下記(9)式で定義することとした。これは前記第9発明の一形態を示すものである。
【0056】
【数9】
Figure 2004355174
【0057】
但し、Lは訓練サンプルiの尤度であり、Πは訓練集合の全サンプルi=1〜Nについての積を表す。Likはiがカテゴリーkに帰属する信頼度としての帰属尤度であり、次の(10)式の関係式を満たす量である。
【0058】
【数10】
Figure 2004355174
【0059】
ここでF(Nf,P)は自由度Nf、危険率PのF検定の限界値である。このようなLikを求めることは、公知のF分布表あるいはアルゴリズムを利用することによって可能である。あるサンプルiに対して最大のLikを与えるカテゴリーk=kmaxが最尤帰属カテゴリーであり、kmaxと実測カテゴリーが一致する場合を識別正解、そうでない場合を不正解と呼ぶ。
(9)式を用いた場合には識別正解と不正解との区別が鮮明ではない。そこで敢えて鮮明にするために、各iごとにLik (k=1〜N)を全て計算し、一番大きなカテゴリーに帰属するとして(11)式のようにLを定義することもできる。これは前記第10発明の一形態である。ここでpenaltyは十分小さな量であり、例えば10−6である。
【0060】
【数11】
Figure 2004355174
【0061】
本実施形態では、AIC値が小さくなるようにSIMCAモデルを決定することを特徴とする。モデルに用いられる説明変数が決定され、各カテゴリーの部分空間次元Nが決定された時のAIC値の計算方法は既に述べた。通常の主成分分析やSIMCAにおいては次元Nを決定する方法としては予め一定数(例えばN=3)に固定する方法、|E|が一定値より小さくなることを基準とする方法、leave−one−outなどのPRESS値を基準とする方法などが知られている。本発明の一つの適応形態で、AIC値が小さくなるように各Nを決定することで良好な複数カテゴリー分類モデルが得られることが見出された。
【0062】
各遺伝子発現量の説明変数への採否、および各Nというモデルパラメータを決定する方法は種々考えられるが、例えば、前記したような遺伝的アルゴリズム(GA)を用いることができる。GAは汎用性の高い組合せ最適化アルゴリズムである。モデルパラメータの全てをGAで最適化する代わりに、各Nの決定に下記のようなステップワイズな方法を用いるとともに、説明変数採否にGAを用いるハイブリッド最適化手法を用いることもできる。これは前記第12発明の一形態でもある。
【0063】
【数12】
Figure 2004355174
【0064】
ここで上記ステップワイズな方法において、第2工程はAICが改善する限りNを1づつ増加させること、第3工程はいかなる改善もなくなるまで第2工程を繰り返すことを意味している。別の最適化方法として、後述する図5に示したように、説明変数の採否もステップワイズに行なう方法が考えられる。
【0065】
以下、上記発明の内容を限定するものではないが、データ解析方法の一例のフローチャートを図1〜図5に示す。
図1はデータ解析処理の全体を示すフローチャートであり、ステップ(1)において、カテゴリーデータ(目的変数Y)および遺伝子発現データ(説明変数の候補Xij)からなる訓練データを入力した後、ステップ(2)において最適AICの前記相関モデルの一例としてのSIMCAモデルを構築し、ステップ(3)においてそのSIMCAモデルを出力する。
また、ステップ(4)において、遺伝子発現データ(選抜された説明変数Xij)を入力し、ステップ(5)において前記SIMCAモデルに基づいて診断予測結果を出力する。入出力データは必ずしも図1に厳密に従ったものである必要はなく、よく定義された加工方法による加工前あるいは加工後のものでもよい。
診断予測とモデル構築は必ずしも時間的、空間的に連続した処理である必要はない。例えば、胃癌、肺癌、肝臓癌、……と診断された多数の患者の各遺伝子発現データを使用して図1のステップ(1)〜ステップ(3)の処理により、各癌診断の相関モデルの構築をデータ解析センターにおいて集中的に行い、そのデータ解析の成果として構築された癌診断用の相関モデルを世界各地の病院において診断に利用する形態などが考えられる。
【0066】
図2、図3は共に図1のモデル構築部を遺伝的アルゴリズム(GA)で行なった場合のフローチャートである。
図2は説明変数選抜だけをGAで行なった場合を示し、図3は説明変数選抜に加えて部分空間次元Nの決定もGAで行なった場合である。図2に示すフローチャートは前記第6発明の一形態と言え、図3に示すフローチャートは前記第11発明の一形態と言えるものである。図2、図3において、フローは通常のGA適用に準拠しており、当該分野の研究者であれば、容易に理解できるものである。
図4、図5はそれぞれ前記最適化処理手段の一例として適応度の評価による最適化を示したもので、このフローチャートでは、適応度として赤池情報基準(−AIC)を用いた場合の、その計算方法のフローチャートの一例である。
【0067】
図4、図5に示すようにステップ(2−3−1’)においてサンプル毎に各カテゴリーの部分空間からのスケールされた距離(RSD)を計算し、ステップ(2−3−2’)においてF検定によって帰属尤度Likを計算する。そして、ステップ(2−3−4’)において最尤帰属カテゴリーkmaxが実測カテゴリーk(i)と一致するかどうかの条件判定も行ないながらモデル尤度の計算を行なう。
一方、ステップ(2−3−5’)においてモデルの自由度(パラメータ数)の計算も行ない、ステップ(2−3−6’)においてAIC値を求める。
【0068】
図4、図5に示すフローチャートは前記(11)式に準拠したものであり、前記(9)式に準拠する場合には最尤帰属の判定は不要であり、フローチャートは簡素なものになる。
図6は図3のフローを用いた場合に、適応度を基準に部分空間次元をステップワイズに決定する場合のフローチャートである。初期値として各カテゴリーの部分空間の次元をゼロにセットし、適応度が改善する限り、次元を増加させていくものである。
【0069】
図7はデータ解析システムの一例を示す概略的なブロック図である。
本実施形態に係るデータ解析システムは、例えば、相関モデル構築処理部1と、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータを記憶する前記記憶手段としての記憶部2と、カテゴリー分類された生体の状態や遺伝子発現データなどを記憶した生体関係情報記憶部3と、生体関係情報記憶部3のデータを記憶部2に入力する入力部4と、相関モデル構築処理部1の処理を行う際に、説明変数の候補などを選択する選択部5と、構築された相関モデルを出力する出力部6と、前述の各機能部を接続・連携させる接続連携部7と、を含んで構成してある。
なお、相関モデル構築処理部1は、前記適応度算出手段としての適応度算出部8と、前記帰属尤度算出手段としての帰属尤度算出部9と、前記最適化処理手段としての最適化処理部10と、を含んで構成してある。
【0070】
本システムはスタンドアロン型のコンピュータでも、クライアントサーバー型のコンピュータでも構成できる。
スタンドアロン型のコンピュータの場合は、接続連携部7はバス線などで構成し、主にソフトウエア処理で相関モデル構築処理部1を構成し、記憶部2を内部記憶装置や外部記憶装置で構成する。生体関係情報記憶部3は、光学的、磁気的記憶装置などの大容量記録媒体で構成されることが多い。入力部4、選択部5、出力部6はコンピュータに付随する入力装置、出力装置を利用するとともに、必要に応じて、入力、選択、出力を効率化する各種のソフトウエアで構成することもできる。内部記憶装置などに記憶されたサンプルの集合としてデータを選択する方法としては、データが記憶された少なくとも一つのファイルを指定する方法や、データが記憶されたファイル内の特定データを個別に指定する方法などが考えられる。
【0071】
クライアントサーバー型のコンピュータの場合は、例えば、接続連携部7をインターネットなどのネットワークで構成し、相関モデル構築処理部1をモデル構築処理サーバーとし、生物関係情報記憶部3を大学、研究所が提供する生物ゲノム関連ウエブサイトなどで構成することも可能である。選択部5、出力部6などはクライアントコンピュータ側に設ける場合が一般的であるが、記憶部3、入力部4、選択部5は、クライアントコンピュータ内に設ける形態の他、ネットワーク上の記憶装置、機能実現プログラムで構成しても良い。
【0072】
【実施例】
以下、上記実施形態のデータ解析方法と従来のデータ解析方法を比較した実施例について説明する。
[実施例1] 癌細胞分類1
127細胞の16カテゴリーへの分類を行なった。ホワイトヘッド研究所/MITゲノム研究センターのWeb(http://www−genome.wi.mit.edu/mpr/publications/projects/Global Cancer Map/)よりデータを入手し、発現の変動が大きい上位1000遺伝子を説明変数の候補として解析を行なった。なお、前処理方法については省略する。
SIMCAモデルの部分空間の次元は上記(12)式の方法で決定した。またSIMCAモデルの尤度は(11)式に基づいて計算し、Penalty値=10−6とした。
【0073】
SIMCAモデルの最適化に用いたGAは次のとおりである。
(1)genotype=[b,b,b,,,,,,bNg
遺伝子発現量gを説明変数に用いる場合にはb=ON状態、
用いない場合にはb=OFF状態とする。
Ngは説明変数候補の数
(2)fitness=−AIC
(3)プールサイズ=100
(4)初期染色体は、平均でmin of(Ni, Ng, 300)/2個のビットがON状態となるように乱数を用いて準備する。ここで300は実装の都合上設定された定数である。
(5)交叉は、2つの染色体を乱数にて抽出し、各ビットをそれぞれ1/2の確率でいずれかの親染色体から引き継いだ子染色体を作成する。
【0074】
(6)突然変異は、ON状態ビット数が増加する変異と減少する変異とが同じ確率で発生するように乱数でビット反転を行なった。
(i)ON状態ビットの反転確率=1.1/ON状態ビット数
(ii)OFF状態ビットの反転確率=1.1/OFF状態ビット数
(7)選抜は、子染色体を作成する毎にトーナメント方式でプールを置換する。
(i)子染色体が新たな最適解となる場合は無条件で置換
(ii)トーナメント相手が最適解の場合には無置換
(iii)子染色体のfitness<トーナメント相手のfitnessの場合には0.25の確率で置換
(iv)子染色体のfitness>トーナメント相手のfitnessの場合には0.75の確率で置換
(8)終了は、交叉→突然変異→選抜の繰り返し回数の上限を最初10000とし、最適解が見出される毎に1000追加されるものとした。
【0075】
12回行なったGAによる最適化を表1に示した。2回目のRunが最良の結果となり、AIC=1318.72, 誤分類数(Nmis)=21であった。得られたモデルでは部分空間が1次元のカテゴリーは3個、2次元が5個、3次元が8個であった。
【0076】
【表1】
Figure 2004355174
【0077】
比較のため、部分空間次元を0に固定した解析(SIMCA0)を行なった。SIMCA0は線形分離可能な場合のみにおいて有効な方法である。15回のRunを行なった。
更に比較のため、kNN法(k−最近接法、ただしk=1とした)による解析を行なった。距離の計算にはユークリッド距離を用い、
【0078】
【数13】
Figure 2004355174
【0079】
を最適化するGAを13回のRunを行なった。
これらの方法の最良の結果を表2に比較する。kNNの結果はSIMCA,SIMCA0と比較して明らかに劣るものである。またSIMCAとSIMCA0を比較すると、線形分離の方法であるSIMCA0では16個の説明変数を用いることで漸くNmis=26の結果となっているが、SIMCAでは僅か6個の説明変数でAIC値、識別率ともに、優れたモデルが得られている。これは、SIMCAで用いられている部分空間法が、カテゴリー分類をする上で有効に機能していることの結果である。なお、表2においてSubspace dimensionの欄は16個あるカテゴリーのそれぞれが分類される部分空間の次元をカンマで区切って示したものである。
【0080】
本実施例によって、SIMCAモデルを用い、AICが最適化するように部分空間の次元や説明変数の採否を決定する方法の有効性が示された。
なお、本実施例1のデータでは実施例2で述べるようなステップワイズな説明変数選択は有効ではなかった。
【0081】
【表2】
Figure 2004355174
【0082】
[実施例2] 癌細胞分類2
スタンフォード大学ゲノムソースが提供するWeb(http://genome−www.stanford.edu/suteeh/download/nci60)よりデータを入手し、58細胞の8カテゴリーへの分類を行なった。
GAによるモデル最適化は実施例1と同様の方法で行なった(表3参照)。また、SIMCA、SIMCA0, kNNでそれぞれ10,14,11回のRunを行なった。最良の結果を表4に比較する。ここではSIMCA0モデルの識別正解率がSIMCAを上回った。
次にNj=0から開始して、逐次最良のfitnessを与える説明変数を1つずつ追加するステップワイズな処理によって最適モデルを求めたところ、SIMCA、SIMCA0ともにGAより優れたモデルが得られ、しかもSIMCAモデルが最良の結果となった。ここでもSIMCAモデルの説明変数は7個と少なく、部分空間法の有効性が示されている。
【0083】
SIMCAモデルはSIMCA0モデルを特殊例として含むため、厳密最適解はSIMCAが勝る。有限の探索の中でより適応度の高いモデルを得ることができるかどうかという実際上の問題についても、最適化が十分であれば、SIMCAモデルが優れた結果を収めることが、実施例1,2より明らかとなった。
【0084】
【表3】
Figure 2004355174
【表4】
Figure 2004355174
【0085】
上記実施例ではAIC最適化を行なうGAやステップワイズな説明変数選択によって良好なSIMCAモデルが見出されることが示されている。得られたSIMCAモデルのカテゴリー分類能力は、よく用いられるパターン分類手法であるkNNと比較して優れたものであることが示されている。また、線形分離の方法(実施例ではSIMCA0と呼んでいる)との比較でも、より少ない説明変数でより優れたカテゴリー分類能力を有していることが示されている。
【0086】
単純パーセプトロンや線形判別分析、PLSはSIMCA0と同じく線型モデルに基づく方法である。これらの方法では、線型分離不可能問題の解決のためには特徴空間の次元を大きくする必要がある。実際、実施例でもSIMCA0はSIMCAと比べて多くの説明変数を必要とし、しかも分類能力が劣るという傾向が示されている。
ANNに見られるモデル構築上の任意性の問題はSIMCAモデルには存在しない。またSVMと異なり、SIMCAはパラメトリックな方法であり、実験誤差(診断誤差)がつきものの生体データ解析に適した方法であると考えられる。
【図面の簡単な説明】
【図1】図1は本発明の一実施形態を示す、データ解析処理の全体を示すフローチャートである。
【図2】図2はモデル構築処理を遺伝的アルゴリズム(GA)による説明変数選抜で行なった場合のフローチャートの一例である。
【図3】図3はモデル構築処理を説明変数選抜のみならず、部分空間次元の決定も遺伝的アルゴリズム(GA)で行なった場合のフローチャートの一例である。
【図4】図4は適応度の評価を示したもので、適応度として赤池情報基準(−AIC)を用いた場合のフローチャートの一例である。
【図5】図5は適応度の評価を示したもので、適応度として赤池情報基準(−AIC)を用いた場合のフローチャートの一例である。
【図6】図6は図3のフローを用いた場合に、適応度を基準に部分空間次元をステップワイズに決定する場合のフローチャートの一例である。
【図7】図7は本実施形態に係るデータ解析システムの一例を示す概略的なブロック図である。
【図8】図8はSIMCAによる部分空間分類のイメージを示す図である。
【図9】図9はSIMCAによる分類結果をCoomansプロットで示した図である。
【符号の説明】
1…相関モデル構築処理部、2…記憶部、3…生体関係情報記憶部、8…適応度算出部、9…帰属尤度算出部、10…最適化処理部。

Claims (26)

  1. コンピュータを用いて、カテゴリー分類された生体の状態を目的変数とし、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータを説明変数とする相関モデルを決定するデータ解析方法であって、
    前記相関モデルは、多変量特徴空間の各サンプルを主成分分析によって得られた部分空間により複数カテゴリーに分類する相関モデルであり、
    カテゴリー分類された生体の状態と、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータからなるサンプルの集合をコンピュータの記憶手段に記憶しておき、
    カテゴリー分類された生体の状態を目的変数とし、前記複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータ内の説明変数の候補に基づいて相関モデルの尤度を算出する尤度算出処理と、少なくともその算出された尤度に基づいて相関モデルの適応度を算出する適応度算出処理と、その算出された適応度に基づいて相関モデルを最適化する最適化処理と、を含んでモデル構築処理が行なわれることを特徴とする、データ解析方法。
  2. 前記請求項1に記載のデータ解析方法において、前記適応度算出処理が、前記尤度算出処理のみならず、相関モデルのパラメータ数を算出する処理も含んで行われる、データ解析方法。
  3. 請求項1ないし請求項2のいずれか一項に記載のデータ解析方法において、前記適応度算出処理がAICに基づいて行われる、データ解析方法。
  4. 請求項1ないし請求項3のいずれか一項に記載のデータ解析方法において、前記相関モデルがSIMCAモデルである、データ解析方法。
  5. 請求項2ないし請求項4のいずれか一項に記載のデータ解析方法において、相関モデルのパラメータ数を、カテゴリーの部分空間を表す重心の数と、ローディング行列の係数の数との和に基づいて算出する、データ解析方法。
  6. 請求項1ないし請求項5のいずれか一項に記載のデータ解析方法において、前記尤度算出処理が、各サンプルのカテゴリーへの帰属尤度を算出する帰属尤度算出処理を含んで行われ、前記最適化処理が、算出された適応度に基づいて説明変数の採用、不採用を判別する処理を含んで行われる、データ解析方法。
  7. 請求項1ないし請求項6のいずれか一項に記載のデータ解析方法において、前記最適化処理が遺伝子アルゴリズムを含んで行われる、データ解析方法。
  8. 請求項1ないし請求項6のいずれか一項に記載のデータ解析方法において、前記最適化処理がステップワイズな方法を含んで行われる、データ解析方法。
  9. 請求項6ないし請求項8のいずれか一項に記載のデータ解析方法において、前記尤度算出処理が、前記帰属尤度算出処理によって算出された各サンプルの帰属尤度を全サンプルについて乗算することにより得られた尤度に基づいて行われる、データ解析方法。
  10. 請求項9に記載のデータ解析方法において、前記尤度算出処理が、前記帰属尤度算出処理によって算出された帰属尤度の中で各サンプルが一番大きな帰属尤度を有するカテゴリーに帰属すると決定する処理を含む、データ解析方法。
  11. 請求項6ないし請求項10のいずれか一項に記載のデータ解析方法において、前記最適化処理が、説明変数の相関モデルへの採用、不採用を判別することに加えて、部分空間次元の決定も行う、データ解析方法。
  12. 請求項6ないし請求項11のいずれか一項に記載のデータ解析方法において、前記最適化処理が、説明変数の相関モデルへの採用、不採用を判別する処理に遺伝子アルゴリズムを用い、部分空間次元の決定にステップワイズな方法を用いる、データ解析方法。
  13. 請求項1ないし請求項12のいずれか一項に記載のデータ解析方法を使用して構築された相関モデルに、選抜された説明変数を入力してカテゴリー分類された生体の状態を予測する出力を得ることを特徴とする、データ解析方法。
  14. コンピュータを用いて、カテゴリー分類された生体の状態を目的変数とし、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータを説明変数とする相関モデルを決定するデータ解析システムであって、
    前記相関モデルは、多変量特徴空間の各サンプルを主成分分析によって得られた部分空間により複数カテゴリーに分類する相関モデルであり、
    カテゴリー分類された生体の状態と、複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータからなるサンプルの集合を記憶した記憶手段と、
    カテゴリー分類された生体の状態を目的変数とし、前記複数の遺伝子発現のデータ、細胞内物質のデータの少なくとも一方のデータ内の説明変数の候補に基づいて相関モデルの尤度を算出する尤度算出手段と、少なくともその算出された尤度に基づいて相関モデルの適応度を算出する適応度算出手段と、その算出された適応度に基づいて相関モデルを最適化する最適化処理手段と、を備えていることを特徴とする、データ解析システム。
  15. 請求項14に記載のデータ解析システムにおいて、前記適応度算出手段が、前記尤度算出手段によって算出された尤度を使用するのみならず、相関モデルのパラメータ数を算出する処理も含んで適応度の算出を行う、データ解析システム。
  16. 請求項14ないし請求項15のいずれか一項に記載のデータ解析システムにおいて、前記適応度算出手段がAICに基づいて適応度の算出を行う、データ解析システム。
  17. 請求項14ないし請求項16のいずれか一項に記載のデータ解析システムにおいて、前記相関モデルがSIMCAモデルである、データ解析システム。
  18. 請求項15ないし請求項17のいずれか一項に記載のデータ解析システムにおいて、相関モデルのパラメータ数を、カテゴリーの部分空間を表す重心の数と、ローディング行列の係数の数との和に基づいて算出する、データ解析システム。
  19. 請求項14ないし請求項18のいずれか一項に記載のデータ解析システムにおいて、前記尤度算出手段が、各サンプルのカテゴリーへの帰属尤度を算出する帰属尤度算出手段を含んで尤度の算出を行い、前記最適化処理手段が、算出された適応度に基づいて説明変数の採用、不採用を判別する処理を含んで最適化処理を行う、データ解析システム。
  20. 請求項14ないし請求項19のいずれか一項に記載のデータ解析システムにおいて、前記最適化処理手段が遺伝子アルゴリズムを含んで最適化処理を行う、データ解析システム。
  21. 請求項14ないし請求項19のいずれか一項に記載のデータ解析システムにおいて、前記最適化処理手段がステップワイズな方法を含んで最適化処理を行う、データ解析システム。
  22. 請求項19ないし請求項21のいずれか一項に記載のデータ解析システムにおいて、前記尤度算出手段の算出する尤度が、前記帰属尤度算出手段によって算出された各サンプルの帰属尤度を全サンプルについて乗算することにより得られた尤度に基づいている、データ解析システム。
  23. 請求項22に記載のデータ解析システムにおいて、前記尤度算出手段の行う処理が、前記帰属尤度算出手段によって算出された帰属尤度の中で各サンプルが一番大きな帰属尤度を有するカテゴリーに帰属すると決定する処理を含んでいる、データ解析システム。
  24. 請求項19ないし請求項23のいずれか一項に記載のデータ解析システムにおいて、前記最適化処理手段が、説明変数の相関モデルへの採用、不採用を判別することに加えて、部分空間次元の決定も行う、データ解析システム。
  25. 請求項19ないし請求項24のいずれか一項に記載のデータ解析システムにおいて、前記最適化処理手段が、説明変数の相関モデルへの採用、不採用を判別する処理に遺伝子アルゴリズムを用い、部分空間次元の決定にステップワイズな方法を用いる、データ解析システム。
  26. 請求項14ないし請求項25のいずれか一項に記載のデータ解析システムを使用して構築された相関モデルに、選抜された説明変数を入力してカテゴリー分類された生体の状態を予測する出力を得ることを特徴とする、データ解析システム。
JP2003150168A 2003-05-28 2003-05-28 データ解析方法及びそのシステム Pending JP2004355174A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003150168A JP2004355174A (ja) 2003-05-28 2003-05-28 データ解析方法及びそのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003150168A JP2004355174A (ja) 2003-05-28 2003-05-28 データ解析方法及びそのシステム

Publications (1)

Publication Number Publication Date
JP2004355174A true JP2004355174A (ja) 2004-12-16

Family

ID=34046049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003150168A Pending JP2004355174A (ja) 2003-05-28 2003-05-28 データ解析方法及びそのシステム

Country Status (1)

Country Link
JP (1) JP2004355174A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
JP2006251955A (ja) * 2005-03-09 2006-09-21 Fuji Photo Film Co Ltd 判別器生成装置、判別器生成方法およびそのプログラム
JP2008123011A (ja) * 2005-10-25 2008-05-29 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2009503533A (ja) * 2005-08-05 2009-01-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 動的遺伝子分布によるサーチ空間保護
US8131657B2 (en) 2007-10-22 2012-03-06 Sony Corporation Information processing device, information processing method, and program
US8170963B2 (en) 2007-08-14 2012-05-01 Sony Corporation Apparatus and method for processing information, recording medium and computer program
JP2016511884A (ja) * 2013-01-31 2016-04-21 コデクシス, インコーポレイテッド 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア
WO2016148107A1 (ja) * 2015-03-16 2016-09-22 国立大学法人東京農工大学 データ処理装置、データ処理方法、および、データ処理用プログラム
CN110033823A (zh) * 2018-01-12 2019-07-19 丰田自动车株式会社 转录组解析装置及解析方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
JPWO2006088208A1 (ja) * 2005-02-21 2008-07-10 大日本住友製薬株式会社 生体の生理変化の予測方法および装置
JP4667912B2 (ja) * 2005-03-09 2011-04-13 富士フイルム株式会社 判別器生成装置、判別器生成方法およびそのプログラム
JP2006251955A (ja) * 2005-03-09 2006-09-21 Fuji Photo Film Co Ltd 判別器生成装置、判別器生成方法およびそのプログラム
JP2009503533A (ja) * 2005-08-05 2009-01-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 動的遺伝子分布によるサーチ空間保護
KR101193265B1 (ko) 2005-10-25 2012-10-19 소니 주식회사 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독가능 기록매체
JP2008123011A (ja) * 2005-10-25 2008-05-29 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US8315954B2 (en) 2005-10-25 2012-11-20 Sony Corporation Device, method, and program for high level feature extraction
US8170963B2 (en) 2007-08-14 2012-05-01 Sony Corporation Apparatus and method for processing information, recording medium and computer program
US8131657B2 (en) 2007-10-22 2012-03-06 Sony Corporation Information processing device, information processing method, and program
US8326779B2 (en) 2007-10-22 2012-12-04 Sony Corporation Information processing device, information processing method, and program
JP2016511884A (ja) * 2013-01-31 2016-04-21 コデクシス, インコーポレイテッド 相互作用する構成要素を有する生体分子を同定するための方法、システム、およびソフトウェア
WO2016148107A1 (ja) * 2015-03-16 2016-09-22 国立大学法人東京農工大学 データ処理装置、データ処理方法、および、データ処理用プログラム
CN110033823A (zh) * 2018-01-12 2019-07-19 丰田自动车株式会社 转录组解析装置及解析方法
JP2019125045A (ja) * 2018-01-12 2019-07-25 国立大学法人 東京大学 トランスクリプトーム解析装置及び解析方法
JP7025216B2 (ja) 2018-01-12 2022-02-24 国立大学法人 東京大学 トランスクリプトーム解析装置及び解析方法

Similar Documents

Publication Publication Date Title
Xiao et al. False discovery rate control incorporating phylogenetic tree increases detection power in microbiome-wide multiple testing
Bonato et al. Bayesian ensemble methods for survival prediction in gene expression data
Tseng Penalized and weighted K-means for clustering with scattered objects and prior information in high-throughput biological data
CN108595916B (zh) 基于生成对抗网络的基因表达全谱推断方法
Tuo et al. Multipopulation harmony search algorithm for the detection of high-order SNP interactions
WO2011135410A1 (en) Optimization technique using evolutionary algorithms
CN107679367B (zh) 一种基于网络节点关联度的共调控网络功能模块识别方法及系统
EP3797423A1 (en) System and method for integrating genotypic information and phenotypic measurements for precision health assessments
CN112215259A (zh) 基因选择方法和装置
Dou et al. Accurate identification of RNA D modification using multiple features
JP2004355174A (ja) データ解析方法及びそのシステム
Shibahara et al. Deep learning generates custom-made logistic regression models for explaining how breast cancer subtypes are classified
Vimaladevi et al. A microarray gene expression data classification using hybrid back propagation neural network
Malbranke et al. Computational design of novel Cas9 PAM-interacting domains using evolution-based modelling and structural quality assessment
Kruisselbrink et al. Enhancing search space diversity in multi-objective evolutionary drug molecule design using niching
Zviling et al. Genetic algorithm-based optimization of hydrophobicity tables
CN110739028B (zh) 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法
Saha et al. Simultaneous clustering and feature weighting using multiobjective optimization for identifying functionally similar mirnas
Jafari et al. A hybrid framework for reverse engineering of robust Gene Regulatory Networks
Wang et al. Semisupervised Bacterial Heuristic Feature Selection Algorithm for High‐Dimensional Classification with Missing Labels
Wahde et al. Improving the prediction of the clinical outcome of breast cancer using evolutionary algorithms
Xu et al. Bioinformatics and fuzzy logic
Husseini et al. Type2 soft biclustering framework for Alzheimer microarray
Zannat et al. Disease Prediction Through Syndromes by Clustering Algorithm
Shen et al. Dynamically weighted clustering with noise set

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090707