JP2005524124A - システムの診断構成要素を識別するための方法および装置 - Google Patents

システムの診断構成要素を識別するための方法および装置 Download PDF

Info

Publication number
JP2005524124A
JP2005524124A JP2003536930A JP2003536930A JP2005524124A JP 2005524124 A JP2005524124 A JP 2005524124A JP 2003536930 A JP2003536930 A JP 2003536930A JP 2003536930 A JP2003536930 A JP 2003536930A JP 2005524124 A JP2005524124 A JP 2005524124A
Authority
JP
Japan
Prior art keywords
model
distribution
components
sample
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003536930A
Other languages
English (en)
Inventor
キイベリ、ハッリ
トラジストマン、アルバート
トーマス、メルビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commonwealth Scientific and Industrial Research Organization CSIRO
Original Assignee
Commonwealth Scientific and Industrial Research Organization CSIRO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AUPR8321A external-priority patent/AUPR832101A0/en
Priority claimed from AUPS0556A external-priority patent/AUPS055602A0/en
Priority claimed from AUPS1844A external-priority patent/AUPS184402A0/en
Application filed by Commonwealth Scientific and Industrial Research Organization CSIRO filed Critical Commonwealth Scientific and Industrial Research Organization CSIRO
Publication of JP2005524124A publication Critical patent/JP2005524124A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Complex Calculations (AREA)

Abstract

テストサンプルの特徴を予測することのできるシステムの構成要素の部分集合を識別するための方法および装置が記載されている。この方法は、構成要素と構成要素加重との線形結合を発生するステップを含んでおり、この線形結合において、各訓練サンプルが1つの既知の特徴を有している複数の訓練サンプルから発生されたデータから各構成要素に対する値が決定される。ある特徴の確率分布に対するモデルが規定され、このモデルは線形結合を条件とし、また、このモデルは2クラス反応に対する二項分布を、線形結合とこの反応の期待値とをリンクするプロビット関数と組合せたものではない。事前(prior)分布はゼロに近い高い確率密度を有するハイパープライアを含む線形結合の構成要素加重に対して構成され、また、事前分布とモデルとを組合せることにより、事後分布が生成される。この事後分布を最大にする構成要素加重を有する構成要素の部分集合が識別される。

Description

本発明は、システムのサンプルから発生されたデータから、そのシステム内のサンプルの特徴を予測することのできるシステムの構成要素を識別するための方法および装置に関し、とくに、本発明は、それに限定されるものではないが、生物学的方法によって発生されたデータから、その生物学的システムからのサンプルと関連付けられた重要な特徴を予測することのできる生物学的システムの構成要素を識別するための方法および装置に関する。
種々の重要な特徴に分類されることのできる多くの“システム”が存在する。この“システム”という用語には、本質的に、データが提供されることのできる全てのタイプのシステムが含まれ、それには化学的システム、金融システム(たとえば、個人、グループまたは法人向けクレジットシステム、ローン履歴)、地質学的システムおよびその他多数が含まれる。システムのサンプルから特定の特徴を識別するために[たとえば、金融システムの解析により、金融システム内に存在するグループを識別する(信用が“申し分のない”者および信用貸しは危険である者という非常に簡単な関係で)ことを補助するために]システムから発生されたデータ(たとえば、統計的データ)を使用できることが望ましい。大量の統計的データが存在している場合、そのシステムからのサンプルの特定の特徴を予測するそのデータから構成要素を識別することは困難な作業である。これは一般に、処理すべき大量のデータの大部分が、そのデータが得られた特定のサンプルの重要な特徴を全く、あるいはほとんど示さない可能性があるためである。さらに、テストサンプルデータが訓練サンプルデータに関して高度の可変性を有しているときには、その訓練サンプルデータを使用して識別された構成要素はそのテストサンプルデータに関する特徴の識別には役に立たないことが多い。これは、たとえば、データが多数の異なったソースから得られる状況においてよくあるケースであり、それは、個々のソースのそれぞれからデータが収集される条件を制御することが不可能なことが多いためである。
これらの問題がとくに関係するシステムのタイプの一例は生物学的システムであり、以下の説明はとくに生物学的システムに該当するものである。しかしながら、本発明は生物学的システムによる使用に限定されず、任意のシステムに対して一般的に適用される。
バイオテクノロジーにおける近年の進歩の結果、システムの大規模スクリーニングおよびサンプルの解析に対する生物学的方法が発達してきた。このような方法には、たとえば、DNA、RNAまたは抗体マイクロアレイ解析、プロテオミクス解析、プロテオミクス電気泳動ゲル解析および高度なスループットのスクリーニング技術が含まれる。これらのタイプの方法の結果、テストされたサンプルのそれぞれに対して30,000以上の構成要素を有することのできるデータがしばしば発生される。
生物学的システムからのサンプル中の重要な特徴を識別できることが明らかに重要である。たとえば、“病気にかかっている”および“病気にかかっていない”のようなグループを分類すること等が挙げられる。これらの生物学的方法の多くは、生物学的システム中のサンプルの特徴を予測する診断ツール(たとえば、組織または体液をスクリーニングすることにより病気を識別する)として(、あるいは、たとえば、薬剤化合物の効能を決定するツールとして)有用である。
今日、このような適用におけるバイオテクノロジーアレイのような生物学的方法の使用は、これらのタイプの方法から発生された大量のデータと、および意味のある結果を得るためにデータをスクリーニングする効率的な方法の欠如のために制限されている。その結果、従来技術の方法を使用した生物学的データの解析は、データ中の情報を十分に利用することができないか、あるいは時間を要し、誤った陽性および陰性の結果を出し易く、また、データから意味のある結果が得られなければならない場合には大量のコンピュータメモリを必要とする。これは、迅速で正確なスクリーニングが要求される規模スクリーニングシナリオにおいて問題である。
したがって、とくに生物学的データを解析する改善された方法が必要とされており、さらに一般的には、システムからのサンプルに対する重要な特徴を予測するために任意のシステムからのデータを解析する改善された方法が必要とされている。
第1の特徴において、本発明は、テストサンプルの特徴を予測することのできるシステムの構成要素の部分集合を識別する方法を提供し、この方法は、
(a)構成要素と構成要素加重との線形結合を発生し、この線形結合において、各訓練サンプルが1つの既知の特徴を有している複数の訓練サンプルから発生されたデータから各構成要素に対する値が決定され、
(b)ある特徴の確率分布に対するモデルを規定し、このモデルは線形結合を条件付けし、また、このモデルは2クラス反応に対する二項分布を、線形結合とこの反応の期待値とをリンクするプロビット関数と組合せたものではなく、
(c)ゼロに近い高い確率密度を有するハイパープライア(hyperprior)を含む線形結合の構成要素加重に対して事前(prior)分布を構成し、
(d)この事前分布とモデルとを組合せて事後(posterior)分布を生成し、
(e)この事後分布を最大にする構成要素加重を有する構成要素の部分集合を識別するステップを含んでいる。
この方法は、訓練サンプルに対する特徴を予測することのできる構成要素の部分集合を識別するために既知の特徴を有する訓練サンプルを使用する。続いて、たとえば、臨床テストのようなテストに対して構成要素の部分集合情報を使用して、組織サンプルが悪性であるかまたは良性であるか、あるいは腫瘍の重量はどれくらいか等の特徴を予測することができ、あるいは特定の症状を有する患者の推定生存時間を提供することができる。ここで使用されているように、“特徴”という用語は、あるサンプルと関連付けられた任意の応答または識別可能な特性または特質のことである。たとえば、ある特徴は、特定のサンプルに対するある事象までの特定の時間であってもよいし、あるいはあるサンプルの寸法または量、もしくはあるサンプルが分類されることのできるクラスまたはグループであってもよい。
本発明の方法は、ベイズの統計的方法を使用して構成要素の加重を推定する。大量の構成要素がシステムから発生された場合(通常、本発明の方法が有効であるケースである)、本発明は、大部分の構成要素は、ある特徴を予測するための構成要素の部分集合の一部を形成している構成要素ではなさそうであるというアプリオリ仮定を行うことが好ましい。したがって、大部分の構成要素の加重はゼロであるようだという仮定がなされる。この仮定を念頭に置いて加重の事後(posterior)確率が最大化されるように構成要素加重を設定したあるモデルが構成される。予め定められたしきい値より下の加重を有する構成要素(アプリオリ仮定によるとそれらの大部分となるであろう)はその適用を免除される。このプロセスは、残った診断構成要素が識別されるまで繰返される。この方法は、主に、大部分の構成要素を迅速に除去するアプリオリ仮定のために迅速である。
あるシステムのほとんどの特徴は典型的に確率分布を示し、ある特徴の確率分布は、訓練サンプルから発生されたデータに基づいた統計モデルを使用してモデル化されることができる。本発明の方法は、1つのまたは一連の重要な特徴に対する確率分布をモデル化する統計モデルを使用する。したがって、特定の確率分布を有する1つの重要な特徴に対して、その分布をモデル化した1つの適切なモデルが規定される。この方法は、線形結合を条件とする任意のモデルを使用することができ、また、訓練サンプルから得られたデータに基づいて確率分布を提供する尤度関数の形態の数学的方程式であることが好ましい。この尤度関数は、ある確率分布を記述するために上述されたモデルに基づいていることが好ましい。1実施形態において、モデルは、多項または二項ロジスティック回帰、一般化された線形モデル、コックスの比例ハザードモデル、加速された故障(failure)モデル、パラメトリック生存モデル、x2分布モデル、または指数分布モデルからなるグループから選択されたモデルに基づいた尤度関数である。
1実施形態において、尤度関数は多項または二項ロジスティック回帰に基づいている。多項または二項ロジスティック回帰は、多項または二項分布を有する特徴をモデル化することが好ましい。二項分布は、オン/オフ状態のような2つの可能性のあるクラスまたはグループを有する統計的分布である。このようなグループの例には、死亡/生存、改善された/改善されていない、衰弱した/衰弱していない、が含まれる。多項分布は、複数のクラスまたはグループが複数のサンプルのそれぞれに対して可能である、換言すると、あるサンプルが複数のクラスまたはグループの1つに分類されることのできる二項分布を一般化したものである。したがって、多項または二項ロジスティック回帰に基づいて尤度関数を規定することにより、サンプルを複数のグループまたはクラスの1つに分類することのできる構成要素の部分集合を識別することが可能である。これを行うために、訓練サンプルはそれの予め定められた特徴に基づいて複数のサンプルグループ(または“クラス”)にグループ化され、この予め定められた特徴において、各サンプルのメンバーは共通の特徴を有しており、共通のグループ識別子を割当てられる。尤度関数は、線形結合(グループ化された訓練サンプルから発生されたデータを含む)を条件とする多項または二項ロジスティック回帰に基づいて公式化される。特徴は、訓練サンプルがグループ化される任意の所望の分類であってもよい。たとえば、組織サンプルを分類する特徴は、その組織が正常、悪性または良性であることでもよいし、あるいはその細胞が白血病細胞または健康な細胞であることでもよいし、もしくは訓練サンプルがある症状を有する患者または有しない患者のいずれの血液から得られたことでもよく、あるいは訓練サンプルが正常な細胞と比較されるいくつかのタイプの癌の1つからの細胞から得られたことであってもよい。
尤度関数は、
Figure 2005524124
の形態のロジスティック回帰に基づいていることが好ましく、ここで、
i Tβgは、構成要素加重βgを有する訓練サンプルiからの入力データから発生された線形結合であり、
i Tは、Xのi番目の行に対する構成要素であり、βgはサンプルクラスgに対する構成要素加重のセットであり、
訓練サンプルiがクラスgのメンバーである場合、eig=1であり、そうでない場合にはeig=0であり、
Xは、p個の構成要素を含むn個の訓練サンプルからのデータである。
別の実施形態において、尤度関数は順序付けられたカテゴリー的ロジスティック回帰に基づいている。この順序付けられたカテゴリー的ロジスティック回帰は、クラスが特定の順序にされている(たとえば、病気の重大度が増加または減少していくクラスのような順序付けられたクラスの)多項分布をモデル化する。順序付けられたカテゴリー的ロジスティック回帰に基づいて尤度関数を規定することにより、あるサンプルをあるクラスに分類することのできる構成要素の部分集合を識別することが可能であり、この場合そのクラスは複数の予め規定された順序付けられたクラスの1つである。各グループ識別子がある順序付けられたクラスのあるメンバーに対応している一連のグループ識別子を規定し、訓練サンプルをその訓練サンプルの予め定められた特徴に基づいてその順序付けられたクラスの1つにグループ化することにより、尤度関数は、線形結合(グループ化された訓練サンプルから発生されたデータを含む)を条件とする順序付けられたカテゴリー的ロジスティック回帰に基づいて公式化されることができる。
尤度関数は、
Figure 2005524124
の形態の順序付けられたカテゴリー的ロジスティック回帰に基づいていることが好ましく、ここで、
γikは、訓練サンプルiがk以下である識別子を有するクラスに属している確率であり(ここで、順序付けられたクラスの合計はGである)、
i Tβ*は、構成要素加重β* iを有する訓練サンプルiからの入力データから発生された線形結合であり、
i Tは、Xのi番目の行に対する構成要素であり、
ijは、
Figure 2005524124
として定義されており、ここで、
観察iがクラスj中のものである場合はcij=1であり、そうでない場合はcij=0である。
本発明の別の実施形態において、尤度関数は一般化された線形モデルに基づいている。一般化された線形モデルは、分布の正規指数族に属する分布を有する特徴をモデル化することが好ましい。正規指数族分布の例には、正規分布、ガウス分布、ポアソン分布、ガンマ分布および逆ガンマ分布が含まれる。したがって、本発明の方法の別の実施形態では、予測されるべき特性をモデル化する一般化された線形モデルを規定することにより、分布の正規指数族の範囲内であるサンプルの予め規定された特性を予測することのできる構成要素の部分集合が識別される。一般化された線形モデルを使用して予測されることのできる特性の例には、たとえば、あるサンプルの重量、寸法、カウント、グループメンバーシップその他のディメンションまたは量あるいは特性のような指定された分布を示すあるサンプルの任意の量が含まれる。
一般化された線形モデルは、
Figure 2005524124
の形態のものであることが好ましく、ここで、
y=(y1,・・・,ynTであり、yiはi番目のサンプルに関して測定された特性であり、
i(φ)=φ/wiであり、wiは既知の加重の固定されたセットであり、φは単一の
スケールパラメータであり、
関数b(.)およびc(.)はNelderおよびWedderburn氏等による文献(1972)において定義されたものであり、
E{yi}=b’(θi
Var{y}=b’’(θi)ai(φ)=τi 2i(φ)であることが好ましい。
各観察はコバリエイトxiと線形予測子ηi=xi Tβとのセットを有していることが好ましい。i番目の観察の平均とそれの線形予測子との間の関係は、リンク関数ηi=g(μi)=g(b’(θi))によって与えられることが好ましい。このリンクの逆数はhによって表され、それは:
E{yi}=b’(θi)=h(ηi
であることが好ましい。
別の実施形態において、本発明の方法は、ある事象がデータを得た時点では発生していないと仮定してその事象までの時間の確率を推定することが好ましいハザードモデルに基づいた尤度関数を使用することにより、あるサンプルに対して事象までの時間を予測するために使用されてもよい。1実施形態において、尤度関数は、コックスの比例ハザードモデル、パラメトリック生存モデルおよび加速された故障時間モデルからなるグループから選択されたモデルに基づいている。コックスの比例ハザードモデルは、ハザード関数の形式に関して制限的仮定を行わずに、ある事象までの時間が構成要素と構成要素加重のセットに関してモデル化されることを可能にする。加速された故障モデルは、構成要素の測定値が時間スケールに乗法的に作用すると仮定されているので、個体が時間軸に沿って進行する速度に影響を与える生存時間からなるデータに対する一般的なモデルであることが好ましい。したがって、加速された生存モデルは、たとえば、病気の進行速度に関して解釈されることができる。パラメトリック生存モデルは、ある事象までの時間(たとえば、生存時間)に対する分布関数が既知の分布によってモデル化されているか、あるいは特定されたパラメトリック公式を有するものである。一般に使用されている生存分布には、ワイブル指数および極値分布がある。
あるサンプルに対するある事象までの時間を予測することのできる構成要素の部分集合は、コックスの比例ハザードモデル、パラメトリック生存モデルまたは加速された生存時間モデルに基づいて尤度を規定することにより識別され、この尤度は、複数のサンプルに対してそのサンプルが得られた時間から事象の時間までの経過した時間を測定することを含んでいる。
ある事象までの時間を予測する尤度関数は、以下の形態のものであることが好ましい:
Figure 2005524124
コックスの比例ハザードモデルに基づいた尤度関数は、
Figure 2005524124
の形態のものであることが好ましく、ここで、
ZはXの行の再配列であるマトリックスであることが好ましく、ここでZの行の順序付けは生存時間の順序付けにより誘発された順序付けに対応し、dは生存時間を順序付けるために必要とされる同じ置換により検閲削除インデックスを順序付けた結果である。また、ZjはマトリックスZのj番目の行であり、djはdのj番目のエレメントであり、ここで、
Figure 2005524124
であり、Rj={i:i=j,j+1,・・・,N}=j番目の順序付けられた事象時間t(j)におけるリスクセットである。
パラメトリック生存モデルに基づいた対数尤度関数は、以下の形態のものであることが好ましい:
Figure 2005524124
i番目のサンプルが検閲削除されていない場合はci=1、i番目のサンプルが検閲削除されていない場合はci=0である。尤度関数のこの形態は、ワイブル指数および極値分布によって共用される。関数λ(.)およびΛ(.)は、AitkinおよびClayton氏等による文献(1980)において定義されたものである。
任意の規定されたモデルに対して、典型的にベイズの統計的モデルを使用して構成要素加重が推定され(KotzおよびJohnson氏等による文献、1983)、その場合、尤度関数と事前分布を組合せる構成要素加重の事後分布が公式化される。構成要素加重は、各訓練サンプルに対して発生されたデータを与えられた加重の事後分布を最大化することによって推定される。したがって、最大化されるべき目標関数は、上述した特徴に対するモデルと加重に対する事前分布とに基づいた尤度関数からなる。
事前分布は、
Figure 2005524124
の形態のものであることが好ましく、
ここで、vはハイパーパラメータのp×1ベクトルであり、また、p(β|v2)はN(0,diag{v2})であり、p(v2)はv2に対するあるハイパープライア分布である。このハイパープライア分布(この方法の全ての実施形態に対して同じであることが好ましい)は、種々の表記規定を使用して表現されてもよく、好ましい実施形態の詳細な説明(以下、参照)においては、以下の表記規定は単に特定の好ましい実施形態に対する便宜性のために採用されたに過ぎない。
ここで使用されているように、確率分布に対する尤度関数が多項または二項ロジスティック回帰に基づいているとき、事前分布に対する表記は:
Figure 2005524124
また、p(βgg 2)はN(0,diag{τg 2})であり、p(τg 2)はτg 2に対するあるハイパープライア分布である。
ここで使用されているように、確率分布に対する尤度関数が順序付けられたカテゴリー的ロジスティック回帰に基づいているとき、事前分布に対する表記は:
Figure 2005524124
ここで、β1,β2,・・・,βnは構成要素加重であり、p(βii)はN(0,τi 2)であり、p(τi)はτiに対するあるハイパープライア分布である。
ここで使用されているように、分布に対する尤度関数が一般化された線形モデルに基づいているとき、事前分布に対する表記は:
Figure 2005524124
ここで、vはハイパーパラメータのp×1ベクトルであり、また、p(β|v2)はN(0,diag{v2})であり、p(v2)はv2に対するある事前分布である。
ここで使用されているように、分布に対する尤度関数がハザードモデルに基づいているとき、事前分布に対する表記は:
Figure 2005524124
ここで、p(β*|v2)はN(0,diag{v2})であり、p(v2)はv2に対するあるハイパープライア分布である。
事前分布は、可能な限り常に0加重が好ましいことを保証するハイパープライアを含んでいる。
ハイパープライアは、ジェフェリーのハイパープライアである(KotzおよびJohnson氏等の文献、1983)。
上述したように、事後分布を生成するために事前分布と尤度関数が組合せられる。事後分布は以下の形態のものであることが好ましい:
Figure 2005524124
事後分布における構成要素加重は、事後分布の確率密度が最大化されるように反復的な処理手続きで推定されることが好ましい。反復的な処理手続き中、予め定められたしきい値より小さい値を有する構成要素加重は、好ましくはこれらの構成要素をゼロに設定することによって推定される。この結果、対応した構成要素が除去される。
反復的な処理手続きは、EMアルゴリズムであることが好ましい。EMアルゴリズムは、事後分布の確率密度を最大化する所定の構成要素加重に収斂する構成要素加重推定値のシーケンスを処理する。EMアルゴリズムは、Eまたは期待ステップおよびMまたは最大化ステップとして知られている2つのステップから構成されている。Eステップにおいて、観察されたデータおよび現在のパラメータ値を条件とする対数−事後関数期待値が決定される。Mステップにおいて、尤度を増加させる更新された構成要素加重推定値を求めるために、期待された対数−事後関数が最大化される。2つのステップは、EステップおよびMステップの収斂が達成されるまで、換言すると、期待値および対数−事後関数の最大化された値が収斂するまで交互に実施される。
本発明の方法は、測定値が得られることのできる任意のシステムに対して、好ましくは、非常に大量のデータが発生されるシステムに対して適用可能であると考えられる。本発明の方法が適用可能なシステムの例には、たとえば、クレジットリスク査定システム、保険システム、マーケティングシステムまたは企業記録システム、電子システム、物理的システム、天体物理学的システムおよび機械的システムが含まれる。たとえば、金融システムにおいては、サンプルは特定の株であることができ、構成要素は、企業収益、従業員数、株主の数等の、株価に影響を与える可能性のある任意の数のファクタに対してなされた測定値であることができる。
本発明の方法は、とくに、生物学的システムの解析における使用に適している。本発明の方法は、構成要素に対する測定可能な値を生成し、その構成要素が特有のラベルを付けられる任意の生物学的システムからのサンプルを分類するために、構成要素の部分集合を識別するために使用されることができる。換言すると、構成要素は、1つの構成要素からのデータと別の構成要素からのデータとの区別を可能にするようにラベル付けされるか、あるいは編成される。たとえば、構成要素は、たとえば、各構成要素からのデータと別のものとを空間的な位置で区別することをを可能にするアレイで空間的に編成されてもよいし、あるいは各構成要素は、それと関連付けられた、識別信号またはタグのようなある特有の識別物を有していてもよい。たとえば、構成要素は個々のキャリアに結び付けられてもよく、各キャリアは量子ドット[たとえば、Rosenthal氏による文献(2001,Nature Biotech 19: 621-622);Han氏他による文献(2001,Nature Biotechnology 19: 631-635)を参照]、蛍光マーカ[たとえば、Fu氏他による文献(1999,Nature Biotech 17: 1109-1111)を参照]、バーコード付きタグ[たとえば、LockhartおよびTrulson氏等による文献(2001,Nature Biotechnology 19: 1122-1123)を参照]のような検出可能な識別シグナチャを有している。
とくに好ましい実施形態において、生物学的システムはバイオテクノロジーアレイである。バイオテクノロジーアレイ[それらの例はSchena氏他による文献(1995,Science 270: 467-470);Lockhart氏他による文献(1996,Nature Biotechnology 14: 1649);米国特許第 5,569,5880号明細書に記載されている]の例には、オリゴヌクレオチドアレイ、DNAアレイ、DNAマイクロアレイ、RNAアレイ、RNAマイクロアレイ、DNAマイクロチップ、RNAマイクロチップ、蛋白質アレイ、蛋白質マイクロチップ、抗体アレイ、化学物質アレイ、炭水化物アレイ、プロテオミクスアレイ、脂質アレイが含まれる。別の実施形態において、生物学的システムは、たとえば、DNAまたはRNA電気泳動ゲル、蛋白質またはプロテオミクス電気泳動ゲル、Biacore解析、アミノ酸解析、ADMEToxスクリーニング[たとえば、High-throughput ADMETox estimation: In Vitro and In Silico approaches(2002),Ference Darvas and Gyorgy Dorman(Eds),Biotechniques Pressを参照]のような生体分子相互作用解析、蛋白質電気泳動ゲルおよびプロテオミクス電気泳動ゲルを含むグループから選択されてもよい。
構成要素は、システムの任意の測定可能な構成要素であることができる。生物学的システムの場合、構成要素は、たとえば、遺伝子またはその一部、DNAシーケンス、RNAシーケンス、ペプチド、蛋白質、炭水化物分子、脂質またはその混合物、生理学的構成要素、解剖学的構成要素、疫学的構成要素または化学的構成要素であってもよい。
訓練サンプルは、サンプルの特徴が知られているシステムから得られた任意のデータであることができる。たとえば、訓練サンプルは発生されたデータであってもよい。たとえば、訓練サンプルは、生物学的システムに適用されたサンプルから得られた任意のデータであることができる。たとえば、生物学的システムがDNAマイクロアレイであるとき、訓練サンプルは、既知の特徴を有する細胞から抽出されたRNAとのアレイのハイブリダイゼーションに後続してそのアレイから得られたデータ、または細胞から抽出されたRNAから合成されたcDNAであることができ、あるいは生物学的システムがプロテオミクス電気泳動ゲルである場合には、訓練サンプルは、そのシステムに適用された蛋白質または細胞抽出から発生されてもよい。
本発明者は、本発明の方法がテスト治療に反応して混合した結果を示した被験者からのテストデータを再推定または推定するときに1実施形態において使用されてもよいと考えている。したがって、第2の特徴において、本発明は、被験者を複数の予め規定されたグループの1つに分類することのできる被験者の構成要素の部分集合を識別する方法を提供し、各グループは、
(a)複数の被験者をテスト治療に露出し、その治療に対する反応に基づいて被験者を反応グループにグループ化し、
(b)被験者の構成要素を測定し、
(c)統計的解析方法を使用して被験者を反応グループに分類することのできる構成要素の部分集合を識別するステップを含むテスト治療に対する反応によって規定される。
統計的解析方法は、本発明の第1の特徴による方法であることが好ましい。
構成要素の部分集合が識別されると、その部分集合を使用して、テスト治療に反応する可能性の高いものおよび反応しないもののようなグループに被験者を分類することができる。このようにして、本発明の方法は、人口のほんの一部分に対して有効である可能性がある治療が識別されることを可能にし、また、テスト治療に対して反応するであろう人口のその一部分の識別を可能にする。
第3の特徴において、本発明は、各反応グループが複数の被験者をテスト治療に露出し、被験者をその治療に対する反応に基づいて反応グループにグループ化することにより形成された複数の予め規定された反応グループの1つに被験者を分類することのできる被験者の構成要素の部分集合を識別する装置を提供し、この装置は、
(a)被験者の測定された構成要素を受取る手段と、
(b)統計的解析方法を使用して被験者を反応グループに分類することのできる構成要素の部分集合を識別する手段とを備えている。
統計的解析方法は、本発明の第1または第2の特徴による方法であることが好ましい。
第4の特徴において、本発明は、被験者をテスト化合物による治療に反応した者あるいは反応しなかった者として分類することのできる被験者の構成要素の部分集合を識別する方法を提供し、この方法は、
(a)複数の被験者を化合物に露出し、その化合物に対する各被験者の反応に基づいて被験者を反応グループにグループ化し、
(b)被験者の構成要素を測定し、
(c)統計的解析方法を使用して被験者を反応グループに分類することのできる構成要素の部分集合を識別するステップを含んでいる。
統計的解析方法は、第1の特徴による方法であることが好ましい。
第5の特徴において、本発明は、各反応グループが複数の被験者を化合物に露出し、被験者をその化合物に対する反応に基づいて反応グループにグループ化することにより形成された複数の予め規定された反応グループの1つに被験者を分類することのできる被験者の構成要素の部分集合を識別する装置を提供し、この装置は、
(c)被験者の測定された構成要素を受取る手段と、
(d)統計的解析方法を使用して被験者を反応グループに分類することのできる構成要素の部分集合を識別する手段とを備えている。
統計的解析方法は、本発明の第1または第2の特徴による方法であることが好ましい。
本発明の第2乃至第5の特徴において測定された構成要素は、たとえば、その被験者の遺伝子または小さいヌクレオチド多型(SNPs)、蛋白質、抗体、炭水化物、脂質、あるいは任意の別の測定可能な構成要素であることができる。
とくに好ましい実施形態において、化合物は、薬剤化合物、または薬剤化合物と薬剤的に許容可能なキャリアとを含む合成物である。
本発明の識別方法は、適切なコンピュータソフトウェアおよびハードウェアによって実施されてもよい。
第6の特徴において、本発明は、テストサンプルの特徴を予測することのできるシステムから発生されたデータからのシステムの構成要素の部分集合を、そのシステムからの複数のサンプルから識別する装置を提供し、この装置は、
(a)各訓練サンプルが1つの既知の特徴を有している複数の訓練サンプルから発生されたデータから各構成要素に対する値が導かれる、構成要素と構成要素加重との線形結合を発生する手段と、
(b)線形結合を条件とし、また、2クラス反応に対する二項分布を、線形結合とこの反応の期待値とをリンクするプロビット関数と組合せたものではない、ある特徴の確率分布に対するモデルを規定する手段と、
(c)ゼロに近い高い確率密度を有するハイパープライアを含む線形結合の構成要素加重に対して事前分布を構成する手段と、
(d)この事前分布とモデルとを組合せて事後分布を生成する手段と、
(e)この事後分布を最大にする構成要素加重を有する構成要素の部分集合を識別する手段とを具備している。
この装置は、適切にプログラムされた計算装置を備えていてもよい。
第7の特徴によると、本発明は、計算装置にロードされたときにこの計算装置を制御して、本発明の第1の特徴による方法を実施するように構成されているコンピュータプログラムを提供する。
コンピュータプログラムは、上述した本発明の第1または第2の特徴の好ましいアルゴリズムおよび方法ステップの任意のものを実施することができる。
本発明の第8の特徴によると、本発明の第4の特徴によるコンピュータプログラムを提供するコンピュータ読出し可能な媒体が提供される。
本発明の第9の特徴によると、システムからのサンプルをテストしてそのサンプルの特徴を識別する方法が提供され、この方法は、特徴の診断に役立つ構成要素の部分集合をテストするステップを含んでおり、その構成要素の部分集合は本発明の第1または第2の特徴による方法によって決定されている。
システムは生物学的システムであることが好ましい。
本発明の第10の特徴によると、サンプルの特徴を決定するためにシステムからのサンプルをテストする装置が提供され、この装置は本発明の第1または第2の特徴による方法にしたがって識別された構成要素をテストする手段を備えている。
本発明の第11の特徴によると、本発明は、計算装置上で実行されたときに、システムからのテストサンプルの特徴を予測することのできるそのシステムからの構成要素を識別する方法でこの計算装置を制御するように構成されており、構成要素と構成要素加重との線形結合は、各訓練サンプルが1つの既知の特徴を有する複数の訓練サンプルから発生されたデータから発生され、ゼロに近い高い確率密度を有するハイパープライアを含む構成要素加重に対する事前分布と、線形結合を条件とするモデルとを組合せることによって事後分布が発生され、それによって事後分布を最大にする構成要素加重を推定し、前記モデルは2クラス反応に対する二項分布を、線形結合とこの反応の期待値とをリンクするプロビット関数と組合せたものではないコンピュータプログラムを提供する。
本発明の特徴が計算装置によって実施される場合、たとえば、PCまたは主フレームあるいはネットワーク計算インフラストラクチャ等の、任意の適切なコンピュータハードウェアが使用されてもよいことが認識されるであろう。
第12の特徴において、本発明は、生物学的システムからのテストサンプルの特徴を予測することのできる生物学的システムの構成要素の部分集合を識別する方法を提供し、この方法は、
(a)構成要素と構成要素加重との線形結合を発生し、この線形結合において、各訓練サンプルが1つの既知の特徴を有している複数の訓練サンプルから発生されたデータから各構成要素に対する値が決定され、
(b)ある特徴の確率分布に対するモデルを規定し、このモデルは線形結合を条件とし、
(c)ゼロに近い高い確率密度を有するハイパープライアを含む線形結合の構成要素加重に対して事前分布を構成し、
(d)この事前分布とモデルとを組合せて事後分布を生成し、
この事後分布を最大にする構成要素加重を有する構成要素の部分集合を識別するステップを含んでいる。
図1は、本発明の1実施形態の予測の成功に関する置換テストの結果を示している。クラスラベルは200回ランダムに入れ替えられ、各置換に対して解析が繰返された。このヒストグラムは置換の下での予測の成功分布を示している。x軸は正しく分類されたサンプルの数を示し、y軸は頻度を示している。
図2は、本発明の1実施形態の予測の成功に関する置換テストの結果を示している。クラスラベルは200回ランダムに入れ替えられ、各置換に対して解析が繰返された。このヒストグラムはクラスラベルの置換の下での予測の成功分布を示している。x軸は合計サンプルの割合を示し、y軸(ラムダ)は正しく分類されるケースの割合を示している。
図3は、本発明の方法の1実施形態において使用される一般化された線形モデルに対する曲線のプロットを示している。この方法により選択された5つの構成要素がこのモデル中で使用されたとき、あてはめられた曲線(実線)が生成され、真の曲線(点線)は破線として示されており、その5つの構成要素に基づく200回の観察(x軸)からのデータ(nf,y軸)が円として示されている。
図4は、本発明の方法の1実施形態を使用して識別された単一の遺伝子に対するあてはめられた確率のプロットを示している。x軸は遺伝子インデックスを示し、y軸は特定の順序にされたクラスに属するサンプルの確率を示している。ラインは以下のようにクラスを表している:破線=クラス1、実線=クラス2、点線=クラス3、点線と破線を組合せた線=クラス4。
図5は、本発明によるシステムを構成するために使用されるパーソナルコンピュータの概略図である。
本発明は、特定の訓練サンプルが特定の特徴を有しているか否かを識別するために使用されることのできる、好ましくは最少数の、構成要素を識別する。この最少数の構成要素はその特徴の“診断に役立ち”、あるいは異なった特徴を有するサンプルを区別することを可能にする。本質的に、システムから発生されたデータの全てから、本発明の方法は、特定の特徴をテストするために使用されることのできる最少数の構成要素を識別することを可能にする。この方法によってこれらの構成要素が識別されると、その構成要素は新しいサンプルを評価するために将来使用されることができる。本発明の方法は統計的方法を使用して、特徴を正しく予測するのに必要とされない構成要素を除去する。
本発明者は、訓練サンプルから発生されたデータの構成要素の線形結合の構成要素加重が、訓練サンプルの特徴を正しく予測するのに必要とされない構成要素を消去する方法で推定可能であることを発見した。その結果、訓練サンプルの特徴を正しく予測することのできる構成要素の部分集合が識別される。このようにして、本発明の方法は、ある特徴を正しく予測することのできる比較的少数の構成要素を大量のデータから識別することを可能にする。
また、本発明の方法には、使用する必要のあるコンピュータメモリが、構成要素に関する限界情報ではなく共有(joint)情報を使用する従来技術の方法よりも少ないという利点がある。したがって、本発明の方法は、たとえば、ラップトップマシンのようなコンピュータ上で迅速に行われることができる。本発明の方法はまた、少ないメモリを使用することにより、たとえば、生物学的データの解析のために構成要素に関する共有情報(限界情報ではなく)を使用する従来技術の方法よりも迅速に行われることを可能にする。
以下、多クラスロジスティック回帰モデルに関する第1の実施形態を説明する。
A.多クラスロジスティック回帰モデル
この実施形態の方法は、訓練サンプルを予め規定されたグループに分類することのできる構成要素の部分集合を識別するために訓練サンプルを使用する。続いて、たとえば、臨床テストのようなテストに対して構成要素の部分集合の情報を使用して、サンプルに病気クラスのようなグループに分類することができる。たとえば、DNAマイクロアレイの構成要素の部分集合は、臨床サンプルを、たとえば、健康または病気のような臨床的に適切なクラスにグループ化するために使用されることができる。
このようにして、本発明は、ある特定の訓練サンプルがある特定のグループに属しているか否かを識別するために使用されることのできる、好ましくは最少数の構成要素を識別する。最少数の構成要素はそのグループの“診断に役立ち”、あるいはグループの区別を可能にする。本質的に、システムから発生されたデータの全てから、本発明の方法は、特定のグループをテストするために使用されることのできる最少数の構成要素を識別することを可能にする。この方法によってこれらの構成要素が識別されると、その構成要素は新しいサンプルをグループに分類するために将来使用されることができる。本発明の方法は統計的方法を使用して、サンプルが属しているグループを正しく識別するのに必要とされない構成要素を除去することが好ましい。
サンプルは、予め定められた分類に基づいてサンプルグループ(または“クラス”)にグループ化される。この分類は、訓練サンプルがグループ化される任意の所望の分類であってよい。この分類は、たとえば、訓練サンプルが得られたのは白血病細胞または健康な細胞のどちらからかでもよく、あるいは訓練サンプルが得られたのはある症状を有する患者または有しない患者のどちらの血液からかでもよく、もしくは訓練サンプルが得られたのは正常な細胞と比較されるいくつかのタイプの癌の1つからの細胞からであってもよい。
1実施形態において、入力データは、n個の訓練サンプルおよびp個の構成要素を有するn×pデータマトリックスX=(xij)に編成される。典型的に、pはnよりはるかに大きくなる。
別の実施形態において、データマトリックスXは、線形予測子の代りの予測子としてXの平滑な関数を得るためにn×nカーネルマトリックスKによって置換されてもよい。カーネルマトリックスKの一例はkij=exp(−0.5*(xi−xjt(xi−xj)/σ2)であり、ここでxの添字はマトリックスX中の行の数を示している。理想的には、これらの平滑な関数の希薄な(sparse)表現を提供するKの列の部分集合が選択される。カーネルマトリックスKの別の例は以下の表2に示されている。(表3は少しでも必要か。)
各サンプルクラス(グループ)にはあるクラスラベルyiが関連付けられており、ここでyi=k,k∈{1,・・・,G}であり、これは、訓練サンプルがGのサンプルクラスのいずれに属しているかを示す。エレメントyiを有するn×lベクトルをyと書く。そのベクトル:
Figure 2005524124
を仮定すると、インジケータ変数が規定されることができる:
i=gならば、eig=1
その他場合、eig=0 (1A)
1実施形態において、構成要素加重は、ベイズの統計的モデル(KotzJohnson氏等による1983年の文献を参照されたい)を使用して推定される。この加重は、各訓練サンプルから発生されたデータを与えられた加重の事後分布を最大化することによって推定されることが好ましい。その結果、最大化されるべき目標関数は2つの部分から構成されたものとなる。第1の部分は尤度関数であり、第2の部分は、可能な限り常にゼロ加重が好ましいことを保証する加重に対する事前分布である。好ましい実施形態において、尤度関数は多クラスロジスティックモデルから導出される。尤度関数は、確率から計算されることが好ましい:
Figure 2005524124
ここで、
igは、入力データXiを有する訓練サンプルがサンプルクラスg中に存在する確率であり、
i Tβgは、構成要素加重βgを有する訓練サンプルiからの入力データから発生された線形結合であり、
i TはXのi番目の行に対する構成要素であり、βgはサンプルクラスgに対する構成要素加重のセットである。
上述したように、構成要素加重は典型的に、構成要素加重の大部分がゼロであるアプリオリ仮定を考慮した方式で推定される。
1実施形態において、式(2A)中の構成要素加重βgは、値の大部分がゼロであるが、そのサンプルが依然として正確に分類されることのできる方式で推定される。
1実施形態において、パラメータβ1,・・・,βG-1に対して特定されたプライアは以下の形態のものである:
Figure 2005524124
また、p(βgg 2)はN(0,diag{τg 2})であり、
Figure 2005524124
はジェフェリーのハイパープライアである(KotzおよびJohnson氏等の文献、1983)。
1実施形態において、尤度関数は式(8A)中の形の
Figure 2005524124
であり、yを与えられたβおよび
Figure 2005524124
の事後分布は、
Figure 2005524124
1実施形態において、第1の導関数は以下の式から決定される:
Figure 2005524124
ここで、
Figure 2005524124
は、サンプルクラスgのメンバーシップおよびクラスgの確率をそれぞれ示すベクトルである。
1実施形態において、第2の導関数は以下のアルゴリズムから決定される:
Figure 2005524124
式6および式7は、次のように導出されてもよい:
(a)式(1A),(2A)および(3A)を使用することにより、データの尤度関数を以下のように書くことができる:
Figure 2005524124
(b)式(8A)の対数をとり、全てのiに対して
Figure 2005524124
であることを使用することによって、
Figure 2005524124
が得られる。
(c)式(9A)をβgに関して微分することにより、次式が得られる:
Figure 2005524124
ここで、
Figure 2005524124
は、サンプルクラスgのメンバーシップおよびクラスgの確率をそれぞれ示すベクトルである。
(d)式(9A)の第2の微分はエレメント:
Figure 2005524124
を有しており、ここで、
h=gならば、δhg=1
そうでない場合、δhg=0である。
尤度関数の事後分布を最大化する構成要素加重は、EステップおよびMステップを含むEMアルゴリズムを使用して特定されてもよい。
典型的に、EMアルゴリズムは:
(a)関数:
Figure 2005524124
を使用して構成要素加重の事後分布の条件付き期待値を計算することによってEステップを行い、
(b)γの関数としてQを最大化するために反復的な処理手続きを適用することによりMステップを行い、このとき、
Figure 2005524124
この場合、α’はステップ長であり、このとき0≦α’≦1である;
βg=Pgγg
ここで、Pgはゼロと1との、PT gβgがβgのゼロでないエレメントを選択するようなマトリックスである;
γ=(γg,g=1,・・・,G−1)
式(12A)は以下のように導出されることができる:
パラメータ推定値のセット:
Figure 2005524124
と観察されたデータyとを与えられた式(5A)の条件付き期待値を計算する。
Figure 2005524124
β(および
Figure 2005524124
)の構成要素がゼロに設定される場合、すなわち、g=1,・・・,G−1、βg=Pgγgおよび
Figure 2005524124
に対する場合を検討する。ここで、Pgはゼロと1との、PT gβgがβgのゼロでないエレメントを選択するようなマトリックスである。以下において、γ=(γg,g=1,・・・,G−1)と書く。γgは実際にβgの構成要素の部分集合であることに注意されたい。それらを使用して、表記を可能な限り単純なものにしておく。
γを含まない項を無視し、式(4A),(5A),(9A)を使用することにより、次式が得られる:
Figure 2005524124
条件付き期待値は、式(4A)を与えられた第1の原理から推定されることができることに注意されたい。
反復的な処理手続きは以下のように得られることができる:
式(13A)において必要とされる導関数を得るために、最初に、式(8A)、(9A)および(10A)から以下の式を得ることに注意されたい:
Figure 2005524124
ここで、
g=hの場合、 δgh=1
それ以外の場合、δgh=0
および
g T=Pg TT , g=1,・・・,G−1 (17A)
好ましい実施形態において、反復的な処理手続きは、式(13A)において式(16A)のブロック対角線上の成分(diagonals)だけを使用することによって簡単化されることができる。これによって、g=1,・・・,G−1に対して、以下の関係が得られる:
Figure 2005524124
式(18A)を再構成することにより、次式が得られる:
Figure 2005524124
gの列の数に対してp(g)を書くと、式(19A)は、非常に大きいものとなる可能性のあるp(g)×p(g)マトリックスの逆数を必要とする。これは、p(g)>nに対しては、以下のように表すことによりn×nマトリックスに減少されることができる:
Figure 2005524124
ここで、Zg=Δ1/2 gggである。p(g)<nのときは、式(19A)が使用され、p(g)≧nであるときには、式(19A)に式(20A)を代入したものが使用されることが好ましい。
好ましい実施形態において、EMアルゴリズムは以下のように行われる:
1.n=0、Pg=Iと設定し、
Figure 2005524124
に対する初期値を選択する。これは、xiに関するlog(pig/piG)のリッジ(ridge)回帰により行われ、ここでpigは、全ての確率が合計すると1になるという制約を条件として、グループgにおいて観察されたものに対して1に近くなり、その他の場合は、わずかな量>0となるように選択される。
2.Eステップを行う。すなわち、
Figure 2005524124
を推定する。
3.t=0を設定する。g=1,・・・,G−1に対して、以下を計算する:
(a)p(g)≧nであるとき、式(19A)に式(20A)を代入したものを使用して、δt g=γt+1 g−γt g
(b)δt=(δt g,g=1,・・・,G−1)と書く。式(12A)をαtの関数として最大化する(あるいは単に増加させる)
Figure 2005524124
中のαtの値を見つけるためにラインサーチを行う。
(c)
Figure 2005524124
およびt=t+1を設定する。
収斂するまでステップ(a)乃至(c)を繰り返す。
これによって、たとえば、現在のQ関数をγの関数として最大化するγ*n+1が生成される。
g=1,・・・,G−1に対して、
Figure 2005524124
を決定する。
ここで、ε<<1、たとえば10-5である。i∈Sgおよび
Figure 2005524124
に対してΒig=0となるようにPgを定める。
このステップにより、小さい係数を有する変数がモデルから除去される。
4.n=n+1を設定し、収斂するまで2を行う。
以下、順序付けられたカテゴリー的ロジスティック回帰に関する第2の実施形態を説明する。
B.順序付けられたカテゴリー的モデル
この実施形態の方法は訓練サンプルを使用して、あるテストサンプルが特定のクラスに属しているか否かを決定するために使用されることのできる構成要素の部分集合を識別することができる。たとえば、マイクロアレイ解析を使用して組織生検サンプルを評価するために遺伝子を識別するために、正常な組織、良性の組織、局所化した腫瘍および転移した腫瘍組織のような、前に病気の重大度が増加するまたは減少するクラスに順序付けられた組織からの一連のサンプルからのマイクロアレイデータは、訓練サンプルに関連した病気の重大度を示すことのできる構成要素の部分集合を識別するために訓練サンプルとして使用される。その後、構成要素の部分集合は、以前分類されていなかったテストサンプルが正常、良性、局所化した腫瘍、または転移した腫瘍組織のいずれとして分類されるかを決定するために後続的に使用されることができる。したがって、構成要素の部分集合は、テストサンプルが順序付けられたクラスセット内の特定のクラスに属するかどうかの診断に役立つ。構成要素の部分集合がひとたび識別されると、将来の診断処理手続きにおいて、あるサンプルが順序付けられたクラスのどれに属しているのかを決定するのに、その構成要素の部分集合がテストされるだけでよいことが認識される。
本発明の方法はとくに、非常に大量のデータの解析に適している。典型的に、テストサンプルから得られた大量のデータセットは非常に多種多様であり、また、訓練サンプルから得られたものとは著しく異なっていることが多い。本発明の方法は訓練サンプルから発生された非常に大量のデータからの構成要素の部分集合を識別することが可能であり、また、この方法によって識別された構成要素の部分集合は、その後、テストサンプルから発生されたデータが同じクラスに属している訓練サンプルから発生されたデータと比較して大幅に異なっている場合でも、そのテストサンプルを分類するために使用されることができる。したがって、本発明の方法は、データが品質の低いものであっても、および、または順序付けられた同じクラスのサンプル間に大きいばらつきがある場合であってさえも、サンプルを正しく分類する可能性が高い構成要素の部分集合を識別することができる。
最少数の構成要素は、その特定の順序付けられたクラスに対する“予測的な”ものである。本質的に、システムから発生された全てのデータから、本発明の方法は訓練データを分類するために使用されることのできる最少数の構成要素を識別することができる。この方法によってこれらの構成要素が識別されると、その構成要素は、将来、テストサンプルを分類するために使用されることができる。本発明の方法は統計的方法を使用して、サンプルを順序付けられたクラスのメンバーであるクラスに正しく分類するのに必要でない構成要素を除去することが好ましい。
以下において、N個のサンプルが存在し、y、zおよびμのようなベクトルはi=1,・・・,Nに対して構成要素yi、ziおよびμiを有している。ベクトル乗算および除算が構成要素に関して定義され、diag{・}は、対角線上の成分がアーギュメントに等しい対角行列を表す。ユークリッドのノルムを表すために||・||もまた使用される。
N個の観察yiが存在していることが好ましく、ここでyiは整数値1,・・・,Gである。これらの値は、たとえば、病気の重大度のようなある方式で順序付けられたクラスを表す。N行およびp列を有するマトリックスXに配列されたあるセットのコバリエイト(たとえば、遺伝子発現値等の変数)が各観察と関連付けられており、ここでNはサンプルであり、pは構成要素である。表記xi TはXのi番目の行を表す。個体(サンプル)iは、πik=πk(xi)で与えられるクラスkに属する確率を有している。
累積確率を規定する:
Figure 2005524124
γikは観察iがk以下のインデックスを有するクラスに属する確率であることに注意されたい。Cを、
観察iがクラスj中のものである場合、cij=1
そうでない場合、cij=0
により与えられるエレメントcijを有するn×pマトリックスとし、Rを
Figure 2005524124
により与えられるエレメントrijを有するn×Pマトリックスとする。
これらは、行内におけるCの列の累積的な和である。
独立した観察(サンプル)に関して、データの尤度は以下のように書かれることができる:
Figure 2005524124
また、対数尤度(log(L))lは以下のように書かれることができる:
Figure 2005524124
ここにおいて、以下のように、k=2,・・・,Gに対して、連続率(continuation ratio)モデルが採用されてもよい:
Figure 2005524124
McCullaghおよびNelder氏等の文献(1989)、McCullagh氏の文献(1980)ならびにこの明細書における説明を参照されたい。
Figure 2005524124
であることに注意されたい。
尤度は、反応ベクトルyおよびコバリエイトマトリックスXを有する対数回帰尤度に等しい
Figure 2005524124
ここで、IG-1は(G−1)×(G−1)識別子マトリックスであり、lG-1は1の(G−1)×lベクトルである。
ここにおいて、vec{ }はマトリックスをとり、ベクトル行×行を成す。
典型的に、上述したように、構成要素加重は、構成要素加重の大部分がゼロであるというアプリオリ仮定を考慮したやり方で推定される。
Figueiredo氏の文献(2001)にならって、冗長な変数(コバリエイト)を除去するために、ハイパーパラメータ(hyperparameters)のp×lベクトルを導入することにより、あるプライアがパラメータβ*に対して特定される。
構成要素加重に対して特定されたプライアは、以下の形のものであることが好ましい:
Figure 2005524124
ここで、KotzおよびJohnson氏等の文献(1983)に示されているように、p(β*|v2)はN(0,diag{v2})であり、
Figure 2005524124
はジェフェリーのプライアである。θ=(θ2,・・・θGTのエレメントは非有益プライアを有している。
尤度関数を
Figure 2005524124
と書くことにより、ベイズのフレームワークにおいて、yを与えられたβ*、θおよびvの事後分布は、以下のようになる:
Figure 2005524124
Vを失われたデータのベクトルとして処理することにより、式(6B)を最大化して局所極大であるβ*およびθの事後推定値を生成するために、EMアルゴリズム[Dempster氏の文献(1977)]のような反復的アルゴリズムが使用可能であることが好ましい。上記のプライアは最大である事後推定値が希薄(sparse)になる傾向がある、すなわち、多数のパラメータが冗長である場合、β*の多くの構成要素がゼロになるようなものである。以下においてβT=(θT,β*T)であり、diag()は対角行列を表すことが好ましい:
上記の順序付けられたカテゴリーに関して、
Figure 2005524124
であることが証明されることができる。
上述したように、事後分布を最大化する構成要素加重は、反復的な処理手続きを使用して決定されることができる。構成要素および構成要素加重の事後分布を最大化する反復的な処理手続きは、たとえば、Dempster氏の文献(1977)に記載されているようなEMアルゴリズムであることが好ましい。EMアルゴリズムは以下のようにして行われることが好ましい:
1.n=0,S0={1,2,・・・,p},φ(0) および(たとえば)ε=10-5を設定する。レギュラリゼーション(regularization)パラメータκを1よりはるかに大きい値、たとえば、100に設定する。これは、1/κ2を第2の微分マトリックスの第1のG−1対角エレメントに以下のMステップで加算することに対応する。
p≦Nである場合、
Figure 2005524124
によって初期値β*を計算し、
p>Nである場合、
Figure 2005524124
によって初期値β*を計算する。ここでリッジパラメータλは、0<λ≦1を満足させ、ζは小さく、ロジット(logit)リンク関数gがy+ζにおいて明確に定義されるように選択される。
2.
Figure 2005524124
と定義し、Pnを、β(n)のゼロでないエレメントγ(n)
γ(n)=Pn Tβ(n) , β(n)=Pnγ(n)
γ=Pn Tβ , β=Pnγ
を満足させるような0と1とのマトリックスとする。
i≧Gである場合、wβi=1
それ以外の場合、wβi=0
であるようにwβ=(wβi,i=1,p)と定義し、wγ=Pnβとする。
3.
Figure 2005524124
を計算することによってEステップを行う。ここで、lはyの対数尤度関数である。
β=Pnγおよびβ(n)=Pnγ(n)を使用することにより、式(11B)は以下のように書かれることができる:
Figure 2005524124
4.Mステップを行う。これは、以下のようにNewton Raphson反復により行われることができる。γ0=γ(n) を設定し、r=0,1,2,・・・に対してγr+1=γr+αrδrであり、ここでαrは、
Q(γr+1|γ(n))>Q(γr|γ(n)
を保証するようにラインサーチアルゴリズムによって選択される。
p≦Nに対しては、以下の式を使用する:
Figure 2005524124
p>Nに対しては、以下の式を使用する:
Figure 2005524124
rおよびzrは前のように定義されている。
γ*を、ある収斂基準が満足されたとき、たとえば、以下のようなときのγrの値とする:
||γr−γr+1||<ε(たとえば、10-5
5.
Figure 2005524124
と定義する。ここで、ε1は、たとえば、le−5等の小さい定数である。n=n+1を設定する。
6.収斂をチェックする。||γ*−γ(n)||<ε2である場合、中止し、ここでε2は適切に小さく、その他の場合、上記のステップ2に進む。
確率を再生する。
パラメータβの推定値が得られると、i=1,・・・,Nおよびk=2,・・・,Gに対して、
Figure 2005524124
を計算する。
確率を得るために、以下の反復が使用されることが好ましい:
Figure 2005524124
また、i=1,・・・,Nに対して、この確率の合計は1になる。
1実施形態において、行xi Tを有するコバリエイトマトリックスXは、ij番目のエレメントkijを有し、あるカーネル関数κに対してkij=κ(xi−xj)であるマトリックスKによって置換されることができる。このマトリックスはまた1のベクトルにより増加されることができる。ある例のカーネルが以下の表1に与えられている[Evgeniou氏他による文献(1999)参照]。
カーネル関数 κ(x−y)に対する公式
ガウスのラジアル基礎関数 exp(−||x−y||2/a),a>0
逆マルチクアドリック(multiquadric) (||x−y||2+c2-1/2
マルチクアドリック (||x−y||2+c21/2
薄板スプライン ||x−y||2n+1
||x−y||2nln(||x−y||)
マルチレーヤ知覚 適切なθに対して、tanh(x’y−θ)
度数dの多項式 (1+x’y)d
Bスプライン B2n+1(x−y)
三角多項式 sin((d+1/2)(x−y))/sin((x−
y)/2)
表1:カーネル関数の例
表1において、最後の2つのカーネルは1次元、すなわち、Xが列を1つしか有しない場合に対して1次元であることが好ましい。多変量バージョンはこれらのカーネル関数の積から得られることができる。B2n+1の定義はDe Boor氏による文献(1978)に記載されている。カーネル関数を使用した結果、推定された確率はコバリエイトXの平滑な(線形の変換とは対照的に)関数となる。このようなモデルにより、データに対する実質的に良好な適合が得られる。
以下、一般化された線形モデルに関する第3の実施形態を説明する。
C.一般化された線形モデル
この実施形態の方法は、あるサンプルの特徴を予測することのできる構成要素の部分集合を識別するために訓練サンプルを使用する。後続的に、構成要素の部分集合の知識は、重要な特徴の未知の値を予測するための、たとえば、臨床テスト等の、テストのために使用されることができる。たとえば、DNAマイクロアレイの構成要素の部分集合は、たとえば、血液グルコースレベル、白血球細胞数、腫瘍の寸法、腫瘍の成長速度または生存時間等の、臨床的に関連した特徴を予測するために使用されることができる。
このようにして、本発明は、特定のサンプルに対する特徴を予測するために使用されることのできる最少数の構成要素を識別することが好ましい。最少数の構成要素が、その特徴に対する“予測的な”ものである。本質的に、システムから発生された全てのデータから、本発明の方法は、特定の特徴を予測するために使用されることのできる最少数の構成要素を識別することができる。この方法によってこれらの構成要素が識別されると、その構成要素は、将来、新しいサンプルに対する特徴を予測するために使用されることができる。本発明の方法は統計的方法を使用して、サンプルに対する特徴を正しく予測するのに必要でない構成要素を除去することが好ましい。
本発明は、訓練サンプルから発生されたデータの構成要素の線形結合の構成要素加重が、ある訓練サンプルに対する特徴を予測するのに必要とされない構成要素を除去する方式で推定されることができることを見出している。その結果、訓練セット中のサンプルに対する特徴を正しく予測することのできる構成要素の部分集合が識別される。したがって、本発明の方法は、たとえば、重要な量等の、訓練サンプルに対する特徴を正しく予測することのできる比較的少数の構成要素を大量のデータから識別することを可能にする。
特徴は任意の重要な特徴であることができる。1実施形態において、特徴は量または測定値である。別の実施形態において、それらはあるグループのインデックス番号であることができ、ここにおいて、サンプルは予め定められた分類に基づいて2つのサンプルグループ(または“クラス”)にグループ化されている。この分類は、訓練サンプルがグループ化される任意の所望の分類であることができる。たとえば、分類は、訓練サンプルが白血病細胞からのものか、あるいは健康な細胞からのものかであってもよく、もしくは訓練サンプルが得られたのはある症状を有する患者または有しない患者かでもよく、あるいは訓練サンプルが得られたのは正常な細胞と比較されるいくつかのタイプの癌の1つからの細胞からであってもよい。別の実施形態において、特徴は、特定の患者が少なくとも所定の日数生存していることを示す検定された生存時間であってもよい。別の実施形態において、量は、たとえば、血圧等の、測定可能なサンプルの連続的に変化する任意の特徴であってもよい。
1実施形態において、データは量yiであってもよく、ここでi∈{1,・・・,N}。エレメントyiを有するN×1ベクトルをyと書く。構成要素加重のp×1パラメータベクトルβ(それらの多くはゼロであると期待される)およびパラメータφのq×1ベクトル(ゼロでないと期待される)が規定される。qはゼロであることができる(すなわち、ゼロでないと期待されたパラメータのセットは空であることができる)ことに注意されたい。
1実施形態において、入力データはN個のテスト訓練サンプルとp個の構成要素とを有するN×pデータマトリックスX=(xij)に編成される。典型的に、pはNよりはるかに大きい。
別の実施形態において、データマトリックスXは、線形予測子の代りの予測子としてXの平滑な関数を得るためにN×NカーネルマトリックスKによって置換されることができる。カーネルマトリックスKの一例はkij=exp(−0.5*(xi−xjt(xi−xj)/σ2)であり、ここでxの添字はマトリックスX中の行番号を示す。理想的には、これらの平滑な関数のスパース表現を提供するKの構成要素の部分集合が選択される。
典型的に、上述したように、構成要素加重は、構成要素加重の大部分がゼロであるというアプリオリ仮定を考慮した方式で推定される。
1実施形態において、構成要素加重に対して特定されたプライアは以下の形態のものである:
Figure 2005524124
また、p(β|v2)はN(0,diag{v2})であり、
Figure 2005524124
はジェフェリーのプライアである(KotzおよびJohnson氏等の文献、1983)。φに対する非有益プライアが特定されることが好ましい。
尤度関数は、データの分布に基づいてそのデータに適合するモデルを規定する。尤度関数は、一般化された線形モデルから得られることが好ましい。たとえば、尤度関数:
Figure 2005524124
は、たとえば、NelderおよびWedderburn氏等の文献(1972)に記載されているもののような、一般化された線形モデル(GLM)に対して適した形態であることができる。尤度関数は、以下の形態のものであることが好ましい:
Figure 2005524124
ここで、y=(y1,・・・,ynTおよびai(φ)=φ/wiであり、wiは既知の加重の固定されたセットであり、φは単一のスケールパラメータである。
尤度関数は、以下のように特定されることが好ましい:
Figure 2005524124
各観察はコバリエイトのセットxiおよび線形予測子ηi=xi Tβを有している。i番目の観察の平均とそれの線形予測子との間の関係は、リンク関数ηi=g(μi)=g(b’(θi))によって与えられる。このリンクの逆数はhによって表される。すなわち、
μi==b’(θi)=h(ηi
である。
スケールパラメータに加えて、一般化された線形モデルは4つの構成要素によって特定されることができる:
・尤度または(スケールされた)逸脱関数
・リンク関数
・リンク関数の微分
・分散関数。
一般化された線形モデルのいくつかの共通した例は、以下の表2に与えられている。
Figure 2005524124
別の実施形態において、尤度関数は多クラスロジスティックモデルから得られる。
別の実施形態において、リンク関数および分散関数だけが規定される擬似尤度モデルが特定される。いくつかの例において、このような仕様は結果的に上記の表中のモデルを生じさせる。別の例では、分散は特定されない。
1実施形態において、yを与えられたβφおよびvの事後分布は、以下の式を使用して推定される:
Figure 2005524124
1実施形態において、vは失われたデータのベクトルとして処理されてもよく、反復的な処理手続きは局所極大であるβの事後推定値を生成するように式(2C)を最大化するために使用されてもよい。式(5C)のプライアは、最大である事後推定値が希薄になるようなもの、すなわち、非常に多くのパラメータが冗長である場合にβの多くの構成要素がゼロになるようなものである。
上述したように、事後分布を最大化する構成要素加重は、反復的処理手続きを使用して決定されることができる。構成要素および構成要素加重の事後分布を最大化する反復的処理手続きは、たとえば、Dempster氏他の文献(1977)に記載されているようなEMアルゴリズムである。
1実施形態において、EMアルゴリズムは以下のステップを含んでいる:
(c)n=0,S0={1,2,・・・,p}を設定することによりアルゴリズムを初期化し、φ(0) ,β*を初期化し、たとえばε=10-5のようなεに対する値を適用する;
(d)iεSnのときは、βi (n) =βi *
それ以外のときは、βi (n) =0 (5C)
と定義し、pnを、β(n)のゼロでないエレメントγ(n)が
γ(n)=Pn Tβ(n) , β(n)=Pnγ(n)
γ=Pn Tβ , β=Pnγ
を満足させるような0と1とのマトリックスとする。
(e)以下の関数を使用して構成要素加重の事後分布の条件付き期待値を計算することにより推定(E)ステップを行う:
Figure 2005524124
ここで、lはyの対数尤度関数である。
β=Pnγおよびβ(n)=Pnγ(n)を使用することにより、この式(6C)は以下のように書かれることができる:
Figure 2005524124
(f)反復的な処理手続きを適用してQをγの関数として最大化することにより、最大化(M)ステップを行う。このとき、γ0=γ(n) であり、r=0,1,2,・・・に対してγr+1=γr+αrδrであり、ここでαrは、
Q(γr+1|γ(n),φ(n))>Q(γr|γ(n),φ(n)
を保証するようにラインサーチアルゴリズムによって選択され、また、
Figure 2005524124
(g)γ*を、ある収斂基準が満足されたとき、たとえば、以下のようなときのγrの値とする:
||γr−γr+1||<ε(たとえば、10-5);
(h)
Figure 2005524124
と定義する。ここで、ε1は、たとえば、le−5等の小さい定数である。
(i)n=n+1を設定し、φ(n+1)=φ(n)+κn(φ*−φ(n))を選択し、ここでφ*は、
Figure 2005524124
を満足させ、κnは0<κn≦1となるような減衰定数である;
(j)収斂をチェックする。||γ*−γ(n)||<ε2である場合、ε2は適切に小さく、停止し、その他の場合、上記のステップ(b)に進む。
別の実施形態において、最大化ステップにおけるステップ(d)は、
Figure 2005524124
をその期待値:
Figure 2005524124
で置換することにより推定されることができる。これは、データのモデルが一般化された線形モデルであるときに好ましい。
一般化された線形モデルについて、期待値:
Figure 2005524124
は以下のように計算されることができる:
Figure 2005524124
ここで、XはN×pマトリックスであり、i番目の行がxi Tであり、
Figure 2005524124
これは、以下のように書かれることができる:
Figure 2005524124
EMアルゴリズムは、以下のステップを含んでいることが好ましい:
(a)n=0,S0={1,2,・・・,p},φ(0) を設定することによりアルゴリズムを初期化し、たとえばε=10-5のようなεに対する値を適用し、
p≦Nである場合、
Figure 2005524124
によって初期値β*を計算し、
p>Nである場合、
Figure 2005524124
によって初期値β*を計算する。ここでリッジパラメータλは、0<λ≦1を満足させ、ζは小さく、リンク関数gがy+ζにおいて明確に定義されるように選択される。
(b)iεSnのときは、βi (n) =βi *
それ以外のときは、βi (n) =0
と定義し、pnを、β(n)のゼロでないエレメントγ(n)が
γ(n)=Pn Tβ(n) , β(n)=Pnγ(n)
γ=Pn Tβ , β=Pnγ
を満足させるような0と1とのマトリックスとする。
(c)以下の関数を使用して構成要素加重の事後分布の条件付き期待値を計算することにより推定(E)ステップを行う:
Figure 2005524124
ここで、lはyの対数尤度関数である。
β=Pnγおよびβ(n)=Pnγ(n)を使用することにより、この式(16C)は以下のように書かれることができる:
Figure 2005524124
(d)たとえば、Newton Raphson反復等の、反復的な処理手続きを適用してQをγの関数として最大化することにより、最大化(M)ステップを行う。このとき、γ0=γ(n) であり、r=0,1,2,・・・に対してγr+1=γr+αrδrであり、ここでαrは、
Q(γr+1|γ(n),φ(n))>Q(γr|γ(n),φ(n)
を確実にするようにラインサーチアルゴリズムによって選択され、また、
p≦Nである場合、
Figure 2005524124
添字rはこれらの量がμ=h(XPnγr)で推定されることを示す。
p>Nである場合、
Figure 2005524124
rおよびzrは前のように定義されている。
γ*を、ある収斂基準が満足されたとき、たとえば、以下のようなときのγrの値とする:
||γr−γr+1||<ε(たとえば、10-5
1)
Figure 2005524124
と定義する。ここで、ε1は、たとえば、le−5等の小さい定数である。
n=n+1を設定し、φn+1=φn+κn(φ*−φn)を選択し、ここでφ*は、
Figure 2005524124
を満足させ、κnは0<κn≦1となるような制動定数である。いくつかの場合において、スケールパラメータは知られており、あるいはこの式は明示的に解かれることができるため、φに対する更新方程式が得られることに注意されたい。
上記の実施形態は、Wedderburn氏による文献(1974)ならびにMcCullaghおよびNelder氏等による文献(1983)に記載されている擬似尤度方法を含むように拡張されることができる。このようなの実施形態において、詳細に上述された同じ反復的な処理手続きは適切であるが、しかし尤度が上記および、たとえば、McCullaghおよびNelder氏等による文献(1983)中の表8.1に示されている擬似尤度によって置換される。1実施形態において、スケールパラメータφに対する修正された更新方法が存在する。これらのモデルを規定するには、分散関数τ2、リンク関数g、およびリンク関数の導関数:
Figure 2005524124
の仕様が必要である。
これらがひとたび規定されると、上記のアルゴリズムは適用されることができる。1実施形態において、擬似尤度モデルに対して、上記のアルゴリズムのステップ5は、スケールパラメータが以下を計算することにより更新されるように修正される:
Figure 2005524124
ここで、μおよびτはβ*=Pnγ*で推定される。この更新は、モデル中のパラメータの数sがNより小さいときに行われることが好ましい。N−sの除数は、sがNよりはるかに小さいときに使用されることができる。
別の実施形態において、一般化された線形モデルおよび擬似尤度モデルの両者に対して、行xi Tを有するコバリエイトマトリックスXは、ij番目のエレメントkijを有し、あるカーネル関数κに対してkij=κ(xi−xj)であるマトリックスKによって置換されることができる。このマトリックスはまた1のベクトルにより増加されることができる。ある例のカーネルが以下の表3に与えられている[Evgeniou氏他による文献(1999)参照]。
カーネル関数 κ(x−y)に対する公式
ガウスのラジアル基礎関数 exp(−||x−y||2/a),a>0
逆マルチクアドリック(multiquadric) (||x−y||2+c2-1/2
マルチクアドリック (||x−y||2+c21/2
薄板スプライン ||x−y||2n+1
||x−y||2nln(||x−y||)
マルチレーヤ知覚 適切なθに対して、tanh(x’y−θ)
度数dの多項式 (1+x’y)d
Bスプライン B2n+1(x−y)
三角多項式 sin((d+1/2)(x−y))/sin((x−
y)/2)
表3:カーネル関数の例
表3において、最後の2つのカーネルは1次元である、すなわち、Xが列を1つしか有しない場合に対して1次元である。多変量バージョンはこれらのカーネル関数の積から得られることができる。B2n+1の定義はDe Boor氏による文献(1978)に記載されている。一般化された線形モデルまたは擬似尤度モデルのいずれかにおいてカーネル関数を使用した結果、推定された確率はコバリエイトXの平滑な(線形の変換とは対照的に)関数である平均値が得られる。このようなモデルにより、データに対する実質的に良好な適合が得られる。
以下、比例ハザードモデルに関する第4の実施形態を説明する。
D.比例ハザードモデル
この実施形態の方法は、規定された事象(たとえば、死、回復等)がある時間期間内に発生する確率に影響を与えることのできる構成要素の部分集合を識別するために訓練サンプルを使用することができる。訓練サンプルはシステムと、その訓練サンプルが得られたときからその事象が発生したときまで測定された時間とから得られる。統計的方法を使用して、複数の訓練サンプルから得られたデータにより時間を事象に関連付けることにより、事象までの時間の分布を予想することのできる構成要素の部分集合が識別されることができる。後続的に、その構成要素の部分集合の情報は、たとえば、死までの時間または病気の再発までの時間の統計的特徴を予測するために、たとえば、臨床テスト等のテストに対して使用されることができる。たとえば、システムの構成要素の部分集合からのデータは、DNAマイクロアレイから得られることができる。このデータは、たとえば、期待されるまたは中間的な患者の生存時間のような臨床的に関連した事象を予測するために、あるいはある症状の始まりまたは病気の再発を予測するために使用されることができる。
このようにして、本発明は、あるシステムのある事象までの時間の分布を予測するために使用されることのできる最少数の構成要素を識別することが好ましい。この最少数の構成要素が、そのある事象に対する時間の“予測的な”ものである。本質的に、本発明の方法は、システムから発生された全てのデータから、ある事象までの時間を予測するために使用されることのできる最少数の構成要素を識別することができる。この方法によってこれらの構成要素が識別されると、その構成要素は、将来、あるシステムのある事象までの時間の統計的特徴を新しいサンプルから予測するために使用されることができる。本発明の方法は統計的方法を使用して、あるシステムのある事象までの時間を正しく予測するのに必要でない構成要素を除去することが好ましい。
この明細書において使用されているように、“ある事象までの時間”とは、本発明の方法が適用されるサンプルを獲得したときからある事象の時間までの時間の尺度のことである。ある事象はどのような観察可能な事象であってもよい。システムが生物学的システムである場合、事象は、たとえば、あるシステムの故障までの時間、死までの時間、特定の症状の始まり、病気の始まりまたは再発、表現型または遺伝子型の変化、生化学的特徴の変化、組織体または組織の形態学的特徴の変化、行動の変化であることができる。
ある事象までの以前の時間からのサンプルがある事象までの特定の時間と関連付けられる。ある事象までの時間は、たとえば、サンプリングしたときから死までの時間が知られている患者から得られたデータ、換言すると“本当の”生存時間と、およびサンプルが最後に得られたときに生きていたことが唯一の情報である患者から得られたデータ、換言すると、特定の患者が少なくとも所定の日数生存していることを示す“検閲削除された”生存時間とから決定された時間であってもよい。
1実施形態において、入力データはN×pマトリックスX=(xij)に編成され、ここで、Nはテスト訓練サンプルであり、pは構成要素である。典型的に、pはNよりはるかに大きい。
たとえば、マイクロアレイ実験からのN×pデータマトリックスX=(xij)を考慮する。ここで、Nは個人(またはサンプル)であり、各個人に対して同じpの遺伝子が存在する。たとえば、生存時間等のある事象までの時間を示す変数yi(yi≧0)が各個人i(i=1,2,・・・,N)と関連付けられることが好ましい。各個人に対して、その個人の生存時間が本当の生存時間であるか、あるいは検閲削除された生存時間であるかを示す変数が規定されることができることも好ましい。ciのような検閲削除インジケータは、
iが検閲削除されていない場合、ci=1、
iが検閲削除された場合、ci=0
を表す。
生存時間yiを有するN×1ベクトルは、
Figure 2005524124
と書くことができ、検閲削除インジケータciを有するN×1ベクトルは、
Figure 2005524124
と書くことができる。
典型的に、上述したように、構成要素加重は、その構成要素加重の大部分がゼロであるというアプリオリ仮定が何を考慮したかで推定される。
構成要素加重に対して特定されたプライアは以下の形態のものである:
Figure 2005524124
ここで、β1,β2,・・・,βnは構成要素加重であり、P(βi|τi)はN(0,τi 2)であり、P(τi)α1/τi 2はジェフェリーのプライアである(KotzおよびJohnson氏等の文献、1983)。
尤度関数は、データの分布に基づいてデータに適合したモデルを規定する。尤度関数は以下の形態のものであることが好ましい:
Figure 2005524124
尤度関数によって規定されたモデルは、あるシステムのある事象までの時間を予測する任意のモデルであってもよい。
1実施形態において、尤度関数によって規定されたモデルは、コックスの比例ハザードモデルである。コックスの比例ハザードモデルはコックス氏によって導入され(1972年)、好ましいことに、生存データに対する回帰モデルとして使用されることができる。コックスの比例ハザードモデル:
Figure 2005524124
は、構成要素と関連付けられた(説明的な)パラメータのベクトルである。本発明の方法は、データ:
Figure 2005524124
を与えられたコックスの比例ハザードモデルに対して、パラメータ:
Figure 2005524124
からの非常に少数のものの選択(および除去)を行うことが好ましい。
コックスの比例ハザードモデルの適用は、同じ生存時間に対して種々のデータがシステムから得られる状況において、換言すると、同点の生存時間が生じた場合に問題となる可能性が高い。同点の生存時間は予備処理ステップを実施され、それによって特有の生存時間にされることができる。提案された予備処理により、コックスの比例ハザードモデルが後続的に適用されたときに同点の生存時間に関する問題が回避されるため、必然的に続いて発生するアルゴリズムは簡単なものになる。
生存時間の予備処理は、非常に小量のランダム雑音を追加することにより適用される。この処理手続きは、同点の時間のセットを選び、ゼロ平均と、分類された生存時間の間の最小の非ゼロ距離に比例した分散とを有する正規分布から引き出されたランダムな量を同点の時間のセット内の各同点時間に付加することであることが好ましい。このような予備処理により、生存時間の厳しい摂動を生ぜずに同点時間の除去が行われる。
予備処理により、異なった生存時間が発生する。好ましいことに、これらの時間は、以下に表されるように大きさが増加していく順に順序付けられることができる:
Figure 2005524124
Xの行の再配列であるN×pマトリックスをZで表し、ここで、Zの行の順序付けは、
Figure 2005524124
の順序付けにより誘発された順序付けに対応し、また、マトリックスZのj番目の行はZjで表される。dを、
Figure 2005524124
を順序付けるために必要とされる同じ置換によりcを順序付けた結果とする。
同点の生存時間に対する予備処理を考慮し、生存データ解析に関する標準テキスト(たとえば、CoxおよびOakes氏等の文献,1984)への参照を行った後、確率ハザードモデルに対する尤度関数を以下のように書くことができることが好ましい:
Figure 2005524124
尤度の対数(すなわち、l=log(L))は以下のように書くことができることが好ましい:
Figure 2005524124
ここで、
j<iである場合、ζi,j=0
j≧iである場合、ζi,j=1
このモデルは、生存分布のパラメトリック形態が特定されておらず、生存時間の通常の特性だけが使用されることが好ましい(リスクセットの決定において)ため、非パラメトリックであることに注意されたい。これは非パラメトリックなケースであるため、
Figure 2005524124
は必要とされない(すなわち、q=0)。
本発明の方法の別の実施形態において、尤度関数により規定されるモデルはパラメトリック生存モデルである。パラメトリック生存モデルでは、
Figure 2005524124
は構成要素に関連付けられた(説明的な)パラメータのベクトルであり、
Figure 2005524124
は生存密度関数の関数形態に関連付けられたパラメータのベクトルであることが好ましい。好ましくは、本発明の方法は、データ:
Figure 2005524124
を与えられたパラメトリック生存モデルに対して、パラメータ:
Figure 2005524124
および
Figure 2005524124
の推定値からの非常に少数のものの選択(および除去)を行うことが好ましい。
パラメトリック生存モデルを適用するとき、生存時間は予備処理を必要とせず、
Figure 2005524124
として表される。パラメトリック生存モデルは次のように適用される:
生存時間のパラメトリック密度関数を、
Figure 2005524124
で表し、その生存関数を、
Figure 2005524124
で表し、ここで、
Figure 2005524124
は密度関数のパラメトリック形態に関連したパラメータであり、
Figure 2005524124
は上記に規定されたものである。ハザード関数は以下のように規定される:
Figure 2005524124
対数尤度関数の一般的な公式は、検閲削除されたデータを考慮して、以下のように表されることが好ましい:
Figure 2005524124
パラメトリック回帰生存モデルを介した生存時間データの解析に関する標準的なテキストへの参照により、使用されることのできる生存時間分布の集りが示される。使用されることのできる生存分布には、たとえば、ワイブル、指数または極値分布が含まれる。
ハザード関数が
Figure 2005524124
として書かれることができる場合、
Figure 2005524124
ワイブル、指数または極値分布は、このようにして表された形態で書かれることのできる密度およびハザード関数を有している。
詳細な適用は部分的に、AitkenおよびClayton氏等の文献(1980)に記載されているアルゴリズムに依存するが、しかしながら、それによってユーザは任意のパラメトリック基礎ハザード関数を指定することが可能になる。
AitkinおよびClayton氏等の文献(1980)によると、パラメトリック生存モデルをモデル化する好ましい尤度関数は以下のように表される:
Figure 2005524124
AitkinおよびClayton氏等の文献(1980)には、式(5D)の結果として、ciは平均μiを有するポアソン変量として処理されてもよく、また、式(11D)中の最後の項は、
Figure 2005524124
に依存しない(もっとも、それは
Figure 2005524124
に依存する)ことが示されている。
Figure 2005524124
の事後分布は以下のように表されることが好ましい:
Figure 2005524124
1実施形態において、
Figure 2005524124
は失われたデータのベクトルとして処理され、式(6D)を最大化して、
Figure 2005524124
の事後推定値を生成するために反復的な処理手続きが使用されることができる。式(1D)のプライアは、極大である事後推定値が希薄になる、すなわち、多数のパラメータが冗長である場合に、
Figure 2005524124
の多くの構成要素がゼロになるようなものである。
Figure 2005524124
の多くの構成要素がゼロであるプライア期待値が存在するため、推定は、推定されたβiの大部分がゼロであり、残りのゼロでない推定値が生存時間の適切な説明を提供するように行われる。
マイクロアレイデータの状況においては、この動作の結果、その事象時間に対する適切な説明を提供する非常に少数の遺伝子のセットが識別されることとなる。
上述したように、事後分布を最大化する構成要素加重は、反復的な処理手続きを使用して決定されることができる。構成要素および構成要素加重の事後分布を最大化するための反復的な処理手続きは、たとえば、Dempster氏他による文献(1977)に記載されているようなEMアルゴリズムであることが好ましい。
1実施形態において、EMアルゴリズムは以下のステップを含んでいる:
1.n=0,S0={1,2,・・・,p}を設定することによりアルゴリズムを初期化し、
Figure 2005524124
を初期化する
2. iεSnのときは、βi (n) =βi *
それ以外のときは、βi (n) =0
と定義し、Pnを、
Figure 2005524124
ような0と1とのマトリックスとする。
3.構成要素加重の事後分布の期待値を計算することにより推定ステップを行う。これは以下の関数を使用して行われる:
Figure 2005524124
4.最大化ステップを行う。これは、以下のようにNewton Raphson反復を使用して行われることができる:
Figure 2005524124
を設定し、r=0,1,2,・・・に対して
Figure 2005524124
であり、ここでαrは、以下を保証するようにラインサーチアルゴリズムによって選択される:
Figure 2005524124
5.
Figure 2005524124
と定義する。ここでε1は、たとえば、10-5等の小さい定数である。n=n+1を設定し、
Figure 2005524124
を選択する。ここで、
Figure 2005524124
また、κnは、0<κn<1であるような減衰定数である。
6.収斂をチェックする。
Figure 2005524124
である場合、中止し、ここでε2は適切に小さく、その他の場合、上記のステップ2に進む。
別の実施形態において、最大化ステップの中のステップ(4)は、
Figure 2005524124
をその期待値:
Figure 2005524124
で置換することにより推定されることができる。
1実施形態において、EMアルゴリズムは、モデルがコックスの比例ハザードモデルであるときの事後分布を最大化するために適用される。
モデルがコックスの比例ハザードモデルであるときのEMアルゴリズムの適用の説明を助けるために、“動的加重”およびこれらの加重に基づいたマトリックスを規定することが好ましい。加重は以下のように表される:
Figure 2005524124
これらの加重に基づいたマトリックスは以下のように表される:
Figure 2005524124
加重のマトリックスに関して、lの第1および第2の微分を以下のように書いてもよい:
Figure 2005524124
ここで、K=W**−Δ(W*)である。したがって、EMアルゴリズムのステップ(2)の一部(式7D)(式10Dも参照)として示された変換マトリックスPnから、
Figure 2005524124
となることに注意しなければならない。
モデルがコックスの比例ハザードモデルであるとき、EMアルゴリズムのEステップおよびMステップは、以下のように行われることが好ましい:
1.n=0,S0={1,2,・・・,p}を設定する。vを、構成要素Viを有するベクトルとする。ここで、たとえば0.001のような、ある小さいεに対して、
i=1である場合、Vi=1−ε,
i=0である場合、Vi=ε
である。fはlog(v/t)であると定義する。
p≦Nである場合、
Figure 2005524124
によって初期値:
Figure 2005524124
を計算し、
p>Nである場合、
Figure 2005524124
によって初期値:
Figure 2005524124
を計算する。ここで、リッジパラメータλは、0<λ≦1を満足させる。
2. i∈Snの場合、βi (n) =βi *
それ以外の場合、βi (n) =0
と定義する。
nを、
Figure 2005524124
ような0と1のマトリックスとする。
3.以下を計算することによりEステップを行う:
Figure 2005524124
β=Pnγおよびβ(n)=Pnγ(n)を使用することにより、以下の式が得られる:
Figure 2005524124
4.Mステップを行う。これは、以下のようにNewton Raphson反復により行われることができる。
Figure 2005524124
を設定し、r=0,1,2,・・・に対して、
Figure 2005524124
ここで、αrは、
Figure 2005524124
を保証するようにラインサーチアルゴリズムによって選択される。
p≦Nに対しては、以下の式を使用する:
Figure 2005524124
p>Nに対しては、以下の式を使用する:
Figure 2005524124
γ*を、ある収斂基準が満足されたとき、たとえば、
||γr−γr+1||<ε(たとえば、10-5
であるときのγrの値とする。
5.
Figure 2005524124
と定義する。ここで、ε1は、たとえば、10-5等の小さい定数である。このステップにより、非常に小さい係数を有する変数が除去される。
6.収斂をチェックする。
Figure 2005524124
である場合、中止し、ここでε2は適切に小さく、その他の場合には、n=n+1を設定し、上記のステップ2に進んで、収斂が発生するまで処理手続きを繰返す。
別の実施形態において、EMアルゴリズムは、モデルがパラメトリック生存モデルであるときの事後分布を最大化するために適用される。
パラメトリック生存モデルにEMアルゴリズムを適用したとき、式(5D)の結果として、ciは平均μiを有するポアソン変量として処理されてもよく、また、式(5D)中の最後の項はβに依存しない(もっとも、それはφに依存する)。
Figure 2005524124
であり、したがって、ポアソンのような平均に対する対数・線形モデルで問題を表すことができることに注意されたい。対数尤度関数の反復的な最大化が行われ、
Figure 2005524124
の初期推定値が与えられた場合に
Figure 2005524124
の推定値が得られることが好ましい。それ故、
Figure 2005524124
のこれらの推定値が与えられた場合には、
Figure 2005524124
の更新された推定値が得られる。この処理手続きは、収斂が発生するまで続けられる。
上述した事後分を適用することにより、
Figure 2005524124
であることが認識される。
結果的に、式(11D)および(12D)から、
Figure 2005524124
パラメトリック生存モデルに関連した式(12D)の別の形は以下のとおりである:
Figure 2005524124
EMアルゴリズムの各Mステップの後に
Figure 2005524124
について解く(以下の、ステップ5を参照)ために、
Figure 2005524124
とし、ここで、0<κn≦1に対して
Figure 2005524124
βは前のMステップから得られた値に固定されていることが好ましい。
パラメトリック生存モデルおよびマイクロアレイデータの状況においてパラメータ選択のためのEMアルゴリズムを提供することができる。このEMアルゴリズムは以下のようなものであることが好ましい:
1.
Figure 2005524124
を設定する。vを、構成要素Viを有するベクトルとする。ここで、たとえば0.001のような、ある小さいεに対して、
i=1である場合、Vi=1−ε,
i=0である場合、Vi=ε
である。fはlog(v/Λ(y,φ))であると定義する。
p≦Nである場合、
Figure 2005524124
によって初期値:
Figure 2005524124
を計算し、
p>Nである場合、
Figure 2005524124
によって初期値:
Figure 2005524124
を計算する。ここで、リッジパラメータλは、0<λ≦1を満足させる。
2. i∈Snの場合、βi (n) =βi *
それ以外の場合、βi (n) =0
と定義する。
nを、
Figure 2005524124
ような0と1のマトリックスとする。
3.以下を計算することによりEステップを行う:
Figure 2005524124
β=Pnγおよびβ(n)=Pnγ(n)を使用することにより、以下の式が得られる:
Figure 2005524124
4.Mステップを行う。これは、以下のようにNewton Raphson反復により行われることができる。
Figure 2005524124
を設定し、r=0,1,2,・・・に対して、
Figure 2005524124
ここで、αrは、
Figure 2005524124
を保証するようにラインサーチアルゴリズムによって選択される。
p≦Nに対しては、以下の式を使用する:
Figure 2005524124
p>Nに対しては、以下の式を使用する:
Figure 2005524124
γ*を、ある収斂基準が満足されたとき、たとえば、
||γr−γr+1||<ε(たとえば、10-5
であるときのγrの値とする。
5.
Figure 2005524124
と定義する。ここで、ε1は、たとえば、10-5等の小さい定数である。n=n+1を設定し、
Figure 2005524124
を選択し、ここで、
Figure 2005524124
κnは0<κn<1となるような減衰定数である。
6.収斂をチェックする。
Figure 2005524124
である場合、中止し、ここでε2は適切に小さく、その他の場合には、ステップ2に進む。
別の実施形態において、生存時間はワイブル生存密度関数によって表される。ワイブルの場合、
Figure 2005524124
は1次元であり、
Figure 2005524124
であることが好ましい。
αの更新された値を提供するために、各Mステップの後に
Figure 2005524124
が解かれることが好ましい。コックスの比例ハザードモデルに対して適用されたステップに後続して、αが推定されることができ、また、生存時間がワイブル分布に従ったものである場合にその生存時間を適切に説明することのできる
Figure 2005524124
からのパラメータの非常に少数の部分集合が選択されることができる。
本発明の特徴および利点は、以下の例の説明から明らかになるであろう。

例1:対数回帰モデルを使用する前立腺癌に対する2グループ分類
組織を前立腺および非前立腺グループに分類することのできる遺伝子の部分集合を識別するために、Luo氏他の文献(2001)で報告され、解析されたマイクロアレイデータセットは、二項ロジスティック回帰がモデルとして使用される本発明の方法を使用して解析された。このデータセットは6500の人の遺伝子に関するマイクロアレイを含んでいる。研究対象には、前立腺癌を有することが知られている16人の被験者と、良性の前立腺細胞過形成である9人の被験者が含まれている。しかしながら、表現を単に簡潔にするために、50の遺伝子が解析のために選択された。この50の全ての遺伝子の遺伝子発現率(行)および25人の患者(列)は表4に示されている。
以下、この方法を適用した結果を示す。モデルはG=2クラスを有しており、50の遺伝子の全てをそのモデル中の前立腺変数(構成要素または基礎関数)として開始された。21回の反復後(以下を参照)、アルゴリズムは、完全な分類を与える2つの遺伝子(表5の番号36および47)を発見した。この結果がデータセット中で利用可能な多数の遺伝子(変数)による人為結果だったのか否かを決定するために、クラスラベルがランダムに置換され、後続的にアルゴリズムが適用される置換テストがランされた。これは200回繰返された。図1は、正しく分類された場合の数のヒストグラムを示している。実際のデータセットに対する100%の正確さはこの置換分布の末尾にあり、0.015のp値を有する。これは、この結果が偶然によるものではないことを示唆している。
以下に交換されていないデータに対する反復の詳細を示す:
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124


Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
例2:大きいデータセットおよび二項ロジスティック回帰モデルを使用する2グループ分類
組織を異なった臨床タイプのリンパ腫に分類することのできる遺伝子の部分集合を識別するために、Alizadeh,A.A.氏他の文献[Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling,Nature 403:503-511(2000)]で報告され、解析されたデータセットは、二項ロジスティック回帰がモデルとして使用される本発明の方法を使用して解析された。
データセットには、n=4026の遺伝子およびn=42のサンプルが存在している。以下において、DLBCLとは“びまん性大B細胞リンパ腫”のことである。サンプルは、GC B様DLBCL(21個のサンプル)および活性化されたB様DLBCL(21個のサンプル)の2つの疾病タイプに分類されている。このセットを使用して、異なった疾病タイプの診断に役立つ遺伝子を迅速に発見するための上記の方法の使用法を説明する。
以下において、この方法を適用した結果が与えられている。モデルはG=2クラスを有しており、全ての遺伝子をそのモデル中の潜在的変数(基礎関数)として開始された。20回の反復後、アルゴリズムは、以下の誤分類(表5)を与える番号1281および1312(GENE3332XおよびGENE3258X)の2つの遺伝子を発見し、全体的な分類成功率は98%であった。この例は、ラップトップマシンで約20秒で稼動した。
表 5

予測されたクラス1 予測されたクラス2
真のクラス1 20 1
真のクラス2 0 21
結果がデータセット中で利用可能な多数の遺伝子(変数)による人為結果だったのか否かを決定するために、クラスラベルがランダムに置換され、後続的にアルゴリズムが適用される置換テストがランされた。これは1000回繰返された。図2は、正しく分類された場合の割合(ラムダ)のヒストグラムを示している。実際のデータセットに対する97.6%の正確さはこの置換分布の末尾にあり、0.013のp値を有する。これらの観察は、この結果が偶然によるものではないことを示唆している。
例3:多グループ分類
サンプルを多数のクラスの1つに分類することのできる遺伝子を識別するために、Yeoh氏他の文献[Cancer Cell v1 : 133-143(2002)]で報告され、解析されたデータセットは、尤度が多項ロジスティック回帰に基づいて使用される本発明の方法を使用して解析された。Yeoh氏他の文献に記載されているものと同じ予備処理が適用されている。これは、以下から構成されている:
・8つのアレイ:BCR.ABL.R4,MLL.R5,Normal.R4,T.ALL.R7,T.ALL.R8,Hyperdip.50.2M.3,Hypodip.2M.3,およびHypodip.2M.2をドロップする
・各アレイの平均反応値を2500に設定する
・しきい値化する;100より小さい45000個の値に設定された45000個を越える値が1に設定される
・存在が0.01未満の遺伝子が除去される;これは合計1607個の遺伝子である
・最大値と最小値との間の差が100未満であった遺伝子(1604個)が除去される
予備処理後、n=11005個の遺伝子およびn=248個のサンプルが存在している。サンプルは6つの疾病タイプに分類されている:
1.BCR−ABL;
2.E2A−PBX1;
3.Hyperdip>50;
4.MLL;
5.T−ALLおよび
6.TEL−AML1
このセットは、異なった疾病タイプの診断に役立つ遺伝子を迅速に発見するための方法の使用法を示すために使用された。この方法を適用した結果を以下に示す。モデルはG=6のクラスを有しており、全ての遺伝子をそのモデル中の潜在的変数(基礎関数)として開始された。20回の反復の後、アルゴリズムは、以下の10個の遺伝子がクラスを分けることを発見した:
Figure 2005524124
15重の相互確認(cross validation)から、分類成功率が94%である以下の誤分類表(表6)が得られた:
Figure 2005524124
交換テスト(クラスラベルを交換する)は、0.94%の相互確認されたエラーレートが非常に重要であること(p=0.00)を示した。
例4:一般化された線形モデルを使用する標準回帰
この例は、この方法が一般化された線形モデルフレームワークでどのようにして実施されることができるかを示す。この例は、200の観察および41の変数(基礎関数)に関する標準回帰問題である。真の曲線はエラー(または雑音)を伴なって観察され、変数の一部だけに依存することが知られている。反応は連続し、正規分布される。これらのデータは、一般化された線形モデル変数選択のために本発明のアルゴリズムを使用して解析される。
これは、以下を有する一般化された線形モデルである:
リンク関数:g(μ)=μ
リンク関数の偏微分:
Figure 2005524124
分散関数:τ2=1
スケールパラメータφ=σ2
逸脱(尤度関数):
Figure 2005524124
σ2に対する更新公式は
Figure 2005524124
であり、ここでμi *はアルゴリズムのステップ5においてβ*で推定された平均である。
以下にアルゴリズムの出力を示す。
EM反復:1 期待事後分布:-55.45434 基礎関数 41 シグマの2乗 0.5607509
EM反復:2 期待事後分布:-43.96193 基礎関数 41 シグマの2乗 0.5773566
EM反復:3 期待事後分布:-48.87198 基礎関数 39 シグマの2乗 0.5943395
EM反復:4 期待事後分布:-52.79632 基礎関数 31 シグマの2乗 0.6072137
EM反復:5 期待事後分布:-55.18578 基礎関数 28 シグマの2乗 0.6161707
EM反復:6 期待事後分布:-56.5303 基礎関数 23 シグマの2乗 0.6224545
EM反復:7 期待事後分布:-57.47589 基礎関数 17 シグマの2乗 0.626674
EM反復:8 期待事後分布:-58.0566 基礎関数 15 シグマの2乗 0.6293923
EM反復:9 期待事後分布:-58.41912 基礎関数 13 シグマの2乗 0.6315789
EM反復:10 期待事後分布:-58.6923 基礎関数 11 シグマの2乗 0.633089
EM反復:11 期待事後分布:-58.88766 基礎関数 10 シグマの2乗 0.6343793
EM反復:12 期待事後分布:-59.05261 基礎関数 10 シグマの2乗 0.635997
EM反復:13 期待事後分布:-59.24126 基礎関数 9 シグマの2乗 0.6381456
EM反復:14 期待事後分布:-59.47668 基礎関数 9 シグマの2乗 0.640962
EM反復:15 期待事後分布:-59.7677 基礎関数 9 シグマの2乗 0.6443392
EM反復:16 期待事後分布:-60.10277 基礎関数 9 シグマの2乗 0.6477088
EM反復:17 期待事後分布:-60.44193 基礎関数 9 シグマの2乗 0.6508144
EM反復:18 期待事後分布:-60.7684 基礎関数 9 シグマの2乗 0.6539145
EM反復:19 期待事後分布:-61.09251 基礎関数 9 シグマの2乗 0.6565873
EM反復:20 期待事後分布:-61.38427 基礎関数 8 シグマの2乗 0.6589498
EM反復:21 期待事後分布:-61.65061 基礎関数 8 シグマの2乗 0.6615976
EM反復:22 期待事後分布:-61.92217 基礎関数 8 シグマの2乗 0.664281
EM反復:23 期待事後分布:-62.17683 基礎関数 7 シグマの2乗 0.6663748
EM反復:24 期待事後分布:-62.37402 基礎関数 7 シグマの2乗 0.6679655
EM反復:25 期待事後分布:-62.51645 基礎関数 7 シグマの2乗 0.6689011
EM反復:26 期待事後分布:-62.59567 基礎関数 6 シグマの2乗 0.6689011
EM反復:27 期待事後分布:-62.6151 基礎関数 6 シグマの2乗 0.6690962
EM反復:28 期待事後分布:-62.61717 基礎関数 6 シグマの2乗 0.6691031
EM反復:29 期待事後分布:-62.61739 基礎関数 5 シグマの2乗 0.6691035
アルゴリズムは、41の基礎ベクトル(変数)の中の5つを含むモデルにより収斂する。図3には、アルゴリズムにより選択された5つの変数(基礎関数)を有するモデルに対するあてはめられた曲線(実線)、真の曲線(破線)、および雑音の多いデータのプロットが示されており、ここでy変数はnfで示されている。
例5:一般化された線形モデルを使用する小さい線形回帰の例
この例は例4に類似しているが、しかし簡潔にするために、少数の変数(10)が使用される。これによって、全データセットが一覧表にされることが可能になる(表7参照)。従属変数は最初の4つの変数だけの関数であり、残りの変数は雑音である。
データは、アイデンティティリンク、一定の分散および正常な反応を有する一般化された線形モデルとして解析された。12回の反復後、アルゴリズムは、予測情報を有することが知られている4つの変数を含み、6つの雑音変数を全て廃棄した解に収斂した。
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
例6:リンパ種生存解析
この例は、http://llmpp.nih.gov/lymphoma/data.shtml からの実際の生存データを使用する。
参考文献は、Alizadeh AA氏他の文献(2000)[Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature 403(6769):503-11]である。
データは4026個の遺伝子および40個のサンプル(個人)に対するデータからなるマイクロアレイデータであり、生存時間および検閲削除インジケータが各サンプルに対して利用可能である。結果は、アルゴリズムを使用し、コックスの比例ハザードモデルを実施して解析された。
アルゴリズムは3つの遺伝子(遺伝子:3797X,3302X,356X)を生存時間と関連付けられたものとして選択したことに注意されたい。
例7:減少されたリンパ腫生存解析
文書による証明を完全なものにするために、ランダムに選択された47個の遺伝子と全データセットの解析で意味のあるものとして識別された3個の遺伝子とを含む50個の遺伝子が、Alizadeh氏他の文献に記載されている遺伝子の部分集合に基づいて選択された例もまた示されている。データは以下の表9に示されている。
データは、コックスの比例ハザード生存モデルを含むアルゴリズムの別形式を使用して解析された。22回の反復後、全セットに対する解からの2つの遺伝子を含む5つの遺伝子が選択された。全ての結果(反復履歴を含む)を以下に示す:
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
例8:パラメトリックハザードによる生存解析
データは、
Figure 2005524124
からの1694w.datである。これは、黒色腫の生存に関するデータである。n=255の個人が存在し、その中の100人は生存時間を検閲削除されている。各個人は4つのコバリエイト、すなわち、治療、シックネス(thickness)、年齢および性別を有している。方法を示すために、4000個のダミーの遺伝子がこのデータセットに追加され、その結果4004列と255行を有するデータマトリックスが得られた。故意に、4000個の“遺伝子”は生存時間と関連付けられていない。そのほとんどが情報を持たない4004個の可能性のある予測子から重要な変数を識別することは、アルゴリズム的に難題である。ハザード関数に対してパラメトリックワイブルモデルを使用して、データが解析された。
アルゴリズムは変数:年齢に関してのみ選択を行った。擬似遺伝子変数は全て迅速に廃棄された。ワイブル形状パラメータは0.68と推定された。
例9:前立腺癌に対する順序付けられたカテゴリー的解析
この例は、Dhanasekaran氏他による文献(2001)からのものである。
Figure 2005524124
および
Figure 2005524124
における補足ファイルもまた参照されたい。
9605個の遺伝子と共に15個のサンプル(個人)が存在する。失われた値は、行平均+列平均マイナス総(grand)平均によって置換された。4つの順序付けられたカテゴリー(G=4)、すなわち、
1.NAP正常な
2.BPH良性の
3.PCA局所化した
4.MET転移した
カテゴリーが存在する。
アルゴリズムは、1つの誤分類を除いて全ての個人を正しく分類することのできる1つの遺伝子(遺伝子番号6611、それらの取得ID R31679)を発見した。
EMアルゴリズムからの反復は以下のとおりである:
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
Figure 2005524124
あてはめられた確率のプロットは以下の図6に示されている。ラインは以下のようにクラスを表している:破線=クラス1、実線=クラス2、点線=クラス3、点線と破線を組合せた線=クラス4。観察(インデックス)1乃至3はクラス2中にあり、観察4乃至7はクラス1中にあり、観察8乃至11はクラス3中にあり、観察12乃至15はクラス4中にある。
例10:前立腺癌−選択された遺伝子に対する順序付けられたカテゴリー的解析
この例は、データセットが50個の選択された遺伝子に減少されていることを除いて、例9のものと同一である。これらの遺伝子の1つは例9において重要であると認められた遺伝子であり、その他のものはランダムに選択された。この例の目的は、完全に表にされたデータセット(表10)に基づいて例証を行うことである。
失われた値は、行平均+列平均マイナス総(grand)平均によって置換された。4つの順序付けられたカテゴリー(G=4)、すなわち、
1.NAP正常な
2.BPH良性の
3.PCA局所化した
4.MET転移した
カテゴリーが存在する。
アルゴリズムは、例9の遺伝子6611(取得 R31679)に等価である1つの予測遺伝子(表10の遺伝子1)を発見した。予測の成功は、当然ながら、例9のものと同じであった(それは同じ単一の遺伝子に基づいていたので)。
Figure 2005524124
Figure 2005524124
例11:方法を使用するための装置
図5を参照とすると、本発明の実施形態による方法を実施するのに適したパーソナルコンピュータ20が示されている。コンピュータ20は、ハードディスクデータ記憶装置21上に記憶されたソフトウェアタプログラムの命令の下で動作する。コンピュータ20はさらに、プロセッサ22、メモリ23、表示スクリーン24、プリンタ25、ならびにマウス26およびキーボード27のような入力装置を備えている。コンピュータはインターネット28へのネットワーク接続27のような通信手段、またはデータのダウンロードまたは収集および共用を容易にするデータ収集手段28を有していてもよい。
データ収集手段はデータをシステムから収集し、あるいはダウンロードする。コンピュータはソフトウェアに埋込まれた操作手段を備えており、この操作手段はマウス26およびキーボード27と通信して、ユーザが本発明の実施形態による方法をデータに関して実施することを可能にする。システムは、本発明の実施形態による方法を実施するソフトウェアに埋込まれた手段と、およびグラフィックを生成する手段とを備えている。この方法が実施された後、出力は表示スクリーン24上にグラフィック的に示され、および、またはプリンタ25でプリントされることができる。
上記の例では、生物学的システムに関して本発明の構成を説明してきた。前に述べたように、本発明は、サンプルの特徴が予測されることを必要とする任意の“システム”に適用されることができる。システムの例には、化学的システム、農業システム、気象システム、たとえば、クレジットリスク査定システムを含む金融システム、保険システム、マーケティングシステム、または企業記録システム、電子システム、物理的システム、天文物理学的システムおよび機械的システムが含まれる。
当業者に明らかであるように、修正および変形は本発明の技術的範囲内であると考えられる。
参照文献
Figure 2005524124
Figure 2005524124
本発明の1実施形態の予測の成功に関する置換テストの結果を示すヒストグラム。 本発明の1実施形態の予測の成功に関する置換テストの結果を示すヒストグラム。 本発明の方法の1実施形態において使用される一般化された線形モデルに対する曲線のプロット。 本発明の方法の1実施形態を使用して識別された単一の遺伝子に対するあてはめられた確率のプロット。 本発明によるシステムを実施するために使用されるパーソナルコンピュータの概略図。

Claims (35)

  1. テストサンプルの特徴を予測することのできるシステムの構成要素の部分集合を識別する方法において、
    (a)構成要素と構成要素加重との線形結合を発生し、この線形結合において、各訓練サンプルが1つの既知の特徴を有している複数の訓練サンプルから発生されたデータから各構成要素に対する値が導かれ、
    (b)ある特徴の確率分布に対するモデルを規定し、このモデルは線形結合を条件付けし、また、このモデルは2クラス反応に対する二項分布を、線形結合とこの反応の期待値とをリンクするプロビット関数と組合せたものではなく、
    (c)ゼロに近い高い確率密度を有するハイパープライア(hyperprior)を含む線形結合の構成要素加重に対して事前(prior)分布を構成し、
    (d)この事前分布とモデルとを組合せて事後(posterior)分布を生成し、
    (e)この事後分布を最大にする構成要素加重を有する構成要素の部分集合を識別するステップを含んでいる方法。
  2. モデルは、多項または二項ロジスティック回帰、一般化された線形モデル、コックスの比例ハザードモデル、およびパラメトリック生存モデルを含むグループから選択されたモデルに基づいた尤度関数である請求項1記載の方法。
  3. モデルは、多項または二項ロジスティック回帰に基づいた尤度関数である項1または2記載の方法。
  4. ロジスティック回帰は、多項または二項分布を有する特徴をモデル化する請求項2または3記載の方法。
  5. 構成要素の部分集合はロジスティック回帰を規定することによってサンプルを複数の予め規定されたグループの1つに分類することが可能であり、このロジスティック回帰はサンプルを複数のサンプルグループにグループ化することを含んでおり、各サンプルグループは共通のグループ識別子を有している請求項1乃至4のいずれか1項記載の方法。
  6. ロジスティック回帰は、
    Figure 2005524124
    の形態のものであり、ここで、
    i Tβgは、構成要素加重βgを有する訓練サンプルiからの入力データから発生された線形結合であり、
    i Tは、Xのi番目の行に対する構成要素であり、βgはサンプルクラスgに対する構成要素加重のセットであり、
    訓練サンプルiがクラスgのメンバーである場合、eig=1であり、そうでない場合にはeig=0であり、
    Xは、p個の構成要素を含むn個の訓練サンプルからのデータである請求項1乃至5のいずれか1項記載の方法。
  7. 構成要素の部分集合は、ロジスティック回帰を規定することによってサンプルをクラスに分類することができ、このクラスは複数の予め規定された順序付けられたクラスの1つであり、前記ロジスティック回帰は、各グループ識別子が順序付けられたクラスのメンバーに対応している一連のグループ識別子を規定し、サンプルを順序付けられたクラスの1つにグループ化することを含んでいる請求項1または2記載の方法。
  8. ロジスティック回帰は、
    Figure 2005524124
    の形態のものであり、ここで、
    Figure 2005524124
    は、訓練サンプルiがk以下である識別子を有するクラスに属している確率であり(ここで、順序付けられたクラスの合計はGである)、
    Figure 2005524124
    は、構成要素加重:
    Figure 2005524124
    を有する訓練サンプルiからの入力データから発生された線形結合であり、
    Xは、p個の構成要素を含むn個の訓練サンプルからのデータであり、
    i Tは、Xのi番目の行に対する構成要素であり、
    ijは、
    Figure 2005524124
    として定義されており、ここで、
    観察iがクラスj中のものである場合はcij=1であり、そうでない場合はcij=0である請求項7記載の方法。
  9. モデルは、一般化された線形モデルに基づいた尤度関数である請求項1または2記載の方法。
  10. 一般化された線形モデルは、分布の正規指数族として分布された特徴をモデル化する請求項9記載の方法。
  11. 分布の正規指数族は、正規分布、ガウス分布、ポアソン分布、指数分布、ガンマ分布、x2分布、および逆ガンマ分布からなるグループから選択される請求項10記載の方法。
  12. 構成要素の部分集合は、一般化された線形モデルを規定することによってサンプルの予め規定された特性を予測することができ、この一般化された線形モデルは予測される特性をモデル化することを含んでいる請求項1または2記載の方法。
  13. 一般化された線形モデルは、
    Figure 2005524124
    の形態のものであり、ここで、
    y=(y1,・・・,ynTであり、yiはi番目のサンプルに関して測定された特性であり、
    i(φ)=φ/wiであり、wiは既知の加重の固定されたセットであり、φは単一の
    スケールパラメータであり、
    関数b(.)およびc(.)はNelderおよびWedderburn氏等による文献(1972)において定義されたものであり、
    E{yi}=b’(θi
    Var{y}=b’’(θi)ai(φ)=τi 2i(φ)であり、
    ここで、各観察はコバリエイト(covariate)xiと線形予測子ηi=xi Tβとのセットを有している請求項9または10記載の方法。
  14. モデルは、コックスの比例ハザードモデル、パラメトリック生存モデルおよび加速された生存時間モデルからなるグループから選択されたモデルに基づいた尤度関数である請求項1または2記載の方法。
  15. 構成要素の部分集合は、コックスの比例ハザードモデル、パラメトリック生存モデルまたは加速された生存時間モデルに基づいて尤度を規定することにより、あるサンプルに対するある事象までの時間を予測することができ、この尤度は、複数のサンプルに対して、そのサンプルが得られた時間からその事象の時間までに経過した時間を測定することを含んでいる請求項1記載の方法。
  16. コックスの比例ハザードモデルは、
    Figure 2005524124
    の形態のものであり、ここで、
    Xは、p個の構成要素を含むn個の訓練サンプルからのデータであり、
    Zは、Xの行の再配列であるマトリックスであり、ここで、Zの行の順序付けは生存時間の順序付けにより誘発された順序付けに対応し、
    dは、生存時間を順序付けるために必要とされる同じ置換により検閲削除インデックスを順序付けた結果であり、
    jはマトリックスZのj番目の行であり、djはdのj番目のエレメントであり、
    Figure 2005524124
    j={i:i=j,j+1,・・・,N}=j番目の順序付けられた事象時間t(j)におけるリスクセットである請求項14記載の方法。
  17. パラメトリックハザードモデルは、
    Figure 2005524124
    の形態のものであり、ここで、
    Figure 2005524124
    i番目のサンプルが検閲削除されていない場合はci=1、i番目のサンプルが検閲削除されていない場合はci=0であり、
    関数λ(.)およびΛ(.)は、AitkinおよびClayton氏等による文献(1980)において定義されたものであり、
    jはXのi番目の行であり、Xはp個の構成要素を含むn個の訓練サンプルからのデータである請求項14記載の方法。
  18. 事前分布は、
    Figure 2005524124
    の形態のものであり、
    ここで、p(β|v2)はN(0,diag{v2})であり、
    vはハイパーパラメータであり、
    p(v2)はハイパープライア分布である請求項1乃至17のいずれか1項記載の方法。
  19. ハイパープライアは、
    Figure 2005524124
    の形態のジェフェリーのプライア(prior)である請求項1乃至18のいずれか1項記載の方法。
  20. 事後分布は、
    Figure 2005524124
    の形態のものであり、
    ここで、
    Figure 2005524124
    は尤度関数である請求項1乃至19のいずれか1項記載の方法。
  21. 事後分布は、反復的な処理手続きを使用して最大化される請求項1乃至20のいずれか1項記載の方法。
  22. 反復的な処理手続きは、EMアルゴリズムである請求項21記載の方法。
  23. システムは、生物学的システムである請求項1乃至22のいずれか1項記載の方法。
  24. 生物学的システムは、バイオテクノロジーアレイである請求項23記載の方法。
  25. バイオテクノロジーアレイは、DNAアレイ、蛋白質アレイ、抗体アレイ、RNAアレイ、炭水化物アレイ、化学物質アレイ、脂質アレイからなるグループから選択される請求項24記載の方法。
  26. 各グループがテスト治療に対する反応によって規定されている複数の予め規定されたグループの1つに部分集合を分類することのできる被験者の構成要素の部分集合を識別する方法において、
    (d)複数の被験者をテスト治療に露出し、そのテスト治療に対する反応に基づいて被験者を反応グループにグループ化し、
    (e)被験者の構成要素を測定し、
    (f)請求項1乃至25のいずれか1項記載の方法を使用して被験者を反応グループに分類することのできる構成要素の部分集合を識別するステップを含んでいる方法。
  27. 構成要素は、遺伝子、小さいヌクレオチド多型(SNPs)、蛋白質、抗体、炭水化物、脂質からなるグループから選択される請求項26記載の方法。
  28. システムから発生されたデータからのテストサンプルの特徴を、そのシステムからの複数のサンプルから予測することのできるシステムの構成要素の部分集合を識別する装置において、
    (a)各訓練サンプルが1つの既知の特徴を有している複数の訓練サンプルから発生されたデータから各構成要素に対する値が導かれる、構成要素と構成要素加重との線形結合を発生する手段と、
    (b)線形結合を条件付けし、また、2クラス反応に対する二項分布を、線形結合とこの反応の期待値とをリンクするプロビット関数と組合せたものではない、ある特徴の確率分布に対するモデルを規定する手段と、
    (c)ゼロに近い高い確率密度を有するハイパープライアを含む線形結合の構成要素加重に対して事前分布を構成する手段と、
    (d)この事前分布とモデルとを組合せて事後分布を生成する手段と、
    (e)この事後分布を最大にする構成要素加重を有する構成要素の部分集合を識別する手段とを具備している装置。
  29. 計算装置にロードされたときにこの計算装置を制御して、請求項1乃至27のいずれか1項記載の方法を実行するように構成されているコンピュータプログラム。
  30. 請求項1乃至27のいずれか1項記載の方法により実施される請求項29記載のコンピュータプログラム。
  31. 請求項29または30記載のコンピュータプログラムを提供するコンピュータ読出し可能な媒体。
  32. システムからのサンプルをテストしてそのサンプルの特徴を識別する方法において、
    特徴の診断に役立つ構成要素の部分集合をテストするステップを含んでおり、
    構成要素の部分集合は請求項1乃至27のいずれか1項記載の方法によって決定されている方法。
  33. サンプルの特徴を決定するためにシステムからのサンプルをテストする装置において、
    請求項1乃至27のいずれか1項記載の方法にしたがって識別された構成要素をテストする手段を備えている装置。
  34. 計算装置上で実行されたときに、システムからのテストサンプルの特徴を予測することのできるそのシステムからの構成要素を識別する方法でこの計算装置を制御するように構成されており、構成要素と構成要素加重との線形結合は、各訓練サンプルが1つの既知の特徴を有する複数の訓練サンプルから発生されたデータから発生され、ゼロに近い高い確率密度を有するハイパープライアを含む構成要素加重に対する事前分布と、線形結合に条件付けするモデルとを組合せることによって事後分布が発生され、それによって事後分布を最大にする構成要素加重を推定し、前記モデルは2つのクラス反応に対する二項分布を、線形結合とこの反応の期待値とをリンクするプロビット関数と組合せたものではないコンピュータプログラム。
  35. 生物学的システムからのテストサンプルの特徴を予測することのできる生物学的システムの構成要素の部分集合を識別する方法において、
    (a)構成要素と構成要素加重との線形結合を発生し、この線形結合において、各訓練サンプルが1つの既知の特徴を有している複数の訓練サンプルから発生されたデータから各構成要素に対する値が決定され、
    (b)ある特徴の確率分布に対するモデルを規定し、このモデルは線形結合に条件付けし、
    (c)ゼロに近い高い確率密度を有するハイパープライアを含む線形結合の構成要素加重に対して事前分布を構成し、
    (d)この事前分布とモデルとを組合せて事後分布を生成し、
    (e)この事後分布を最大にする構成要素加重を有する構成要素の部分集合を識別するステップを含んでいる方法。
JP2003536930A 2001-10-17 2002-10-17 システムの診断構成要素を識別するための方法および装置 Pending JP2005524124A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
AUPR8321A AUPR832101A0 (en) 2001-10-17 2001-10-17 Method and apparatus for identifying diagnostic components of a sys tem
AUPS0556A AUPS055602A0 (en) 2002-02-15 2002-02-15 Method and apparatus for identifying diagnostic components of a system
AUPS1844A AUPS184402A0 (en) 2002-04-19 2002-04-19 Method and apparatus for identifying predictive components of a system
PCT/AU2002/001417 WO2003034270A1 (en) 2001-10-17 2002-10-17 Method and apparatus for identifying diagnostic components of a system

Publications (1)

Publication Number Publication Date
JP2005524124A true JP2005524124A (ja) 2005-08-11

Family

ID=27158321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003536930A Pending JP2005524124A (ja) 2001-10-17 2002-10-17 システムの診断構成要素を識別するための方法および装置

Country Status (5)

Country Link
US (1) US20050171923A1 (ja)
JP (1) JP2005524124A (ja)
AU (1) AU2002332967B2 (ja)
CA (1) CA2464364A1 (ja)
WO (1) WO2003034270A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101517898B1 (ko) * 2013-05-06 2015-05-07 서울시립대학교 산학협력단 도시형태결정요소 기반의 공간개발 패턴 추정 시스템 및 방법
KR20210124710A (ko) * 2020-04-07 2021-10-15 강만수 광고 제공 시스템

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395253B2 (en) 2001-06-18 2008-07-01 Wisconsin Alumni Research Foundation Lagrangian support vector machine
AU2003902589A0 (en) * 2003-05-26 2003-06-12 Commonwealth Scientific And Industrial Research Organisation A method for identifying a subset of components of a system
US7421417B2 (en) * 2003-08-28 2008-09-02 Wisconsin Alumni Research Foundation Input feature and kernel selection for support vector machine classification
US20060149713A1 (en) * 2005-01-06 2006-07-06 Sabre Inc. System, method, and computer program product for improving accuracy of cache-based searches
CA2597947C (en) * 2005-02-16 2014-05-13 Genetic Technologies Limited Methods of genetic analysis involving the amplification of complementary duplicons
US7894568B2 (en) * 2005-04-14 2011-02-22 Koninklijke Philips Electronics N.V. Energy distribution reconstruction in CT
US20060241904A1 (en) * 2005-04-26 2006-10-26 Middleton John S Determination of standard deviation
US20070269818A1 (en) * 2005-12-28 2007-11-22 Affymetrix, Inc. Carbohydrate arrays
JPWO2008111349A1 (ja) * 2007-03-09 2010-06-24 日本電気株式会社 生存分析システム、生存分析方法および生存分析用プログラム
US9275353B2 (en) * 2007-11-09 2016-03-01 Oracle America, Inc. Event-processing operators
JP4810552B2 (ja) * 2008-04-25 2011-11-09 株式会社東芝 故障確率算出に用いられる生存曲線を生成する装置および方法
US9361274B2 (en) * 2013-03-11 2016-06-07 International Business Machines Corporation Interaction detection for generalized linear models for a purchase decision
US8912512B1 (en) 2013-06-26 2014-12-16 General Electric Company System and method for optical biopsy tissue characterization
EP3251024A4 (en) * 2015-01-27 2018-06-06 National ICT Australia Limited Group infrastructure components
US10817796B2 (en) * 2016-03-07 2020-10-27 D-Wave Systems Inc. Systems and methods for machine learning
KR101747783B1 (ko) * 2016-11-09 2017-06-15 (주) 바이오인프라생명과학 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치
CN109323876B (zh) * 2018-09-17 2020-10-16 中国人民解放军海军工程大学 一种估计伽玛型单元可靠性参数的方法
WO2020180424A1 (en) 2019-03-04 2020-09-10 Iocurrents, Inc. Data compression and communication using machine learning
US10691528B1 (en) * 2019-07-23 2020-06-23 Core Scientific, Inc. Automatic repair of computing devices in a data center
CN111984626A (zh) * 2020-08-25 2020-11-24 西安建筑科技大学 一种基于统计模式的能耗数据识别与修复方法
CN113609785B (zh) * 2021-08-19 2023-05-09 成都数融科技有限公司 基于贝叶斯优化的联邦学习超参数选择系统及方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4573354A (en) * 1982-09-20 1986-03-04 Colorado School Of Mines Apparatus and method for geochemical prospecting
US5159249A (en) * 1989-05-16 1992-10-27 Dalila Megherbi Method and apparatus for controlling robot motion at and near singularities and for robot mechanical design
CU22179A1 (es) * 1990-11-09 1994-01-31 Neurociencias Centro Metodo y sistema para la evaluacion y graficacion de la actividad fisiologica electromagnetica anormal del cerebro y corazon
US6018587A (en) * 1991-02-21 2000-01-25 Applied Spectral Imaging Ltd. Method for remote sensing analysis be decorrelation statistical analysis and hardware therefor
DE69227545T2 (de) * 1991-07-12 1999-04-29 Mark R Robinson Oximeter zur zuverlässigen klinischen Bestimmung der Blutsauerstoffsättigung in einem Fötus
DE4221807C2 (de) * 1992-07-03 1994-07-14 Boehringer Mannheim Gmbh Verfahren zur analytischen Bestimmung der Konzentration eines Bestandteiles einer medizinischen Probe
US5596992A (en) * 1993-06-30 1997-01-28 Sandia Corporation Multivariate classification of infrared spectra of cell and tissue samples
US5435309A (en) * 1993-08-10 1995-07-25 Thomas; Edward V. Systematic wavelength selection for improved multivariate spectral analysis
US5983251A (en) * 1993-09-08 1999-11-09 Idt, Inc. Method and apparatus for data analysis
US5416750A (en) * 1994-03-25 1995-05-16 Western Atlas International, Inc. Bayesian sequential indicator simulation of lithology from seismic data
GB2292605B (en) * 1994-08-24 1998-04-08 Guy Richard John Fowler Scanning arrangement and method
US6035246A (en) * 1994-11-04 2000-03-07 Sandia Corporation Method for identifying known materials within a mixture of unknowns
US5569588A (en) * 1995-08-09 1996-10-29 The Regents Of The University Of California Methods for drug screening
US5713016A (en) * 1995-09-05 1998-01-27 Electronic Data Systems Corporation Process and system for determining relevance
US6031232A (en) * 1995-11-13 2000-02-29 Bio-Rad Laboratories, Inc. Method for the detection of malignant and premalignant stages of cervical cancer
EP0991932A1 (en) * 1997-06-27 2000-04-12 Pacific Northwest Research Institute Methods of differentiating metastatic and non-metastatic tumors
FR2768818B1 (fr) * 1997-09-22 1999-12-03 Inst Francais Du Petrole Methode statistique de classement d'evenements lies au proprietes physiques d'un milieu complexe tel que le sous-sol
US20020102553A1 (en) * 1997-10-24 2002-08-01 University Of Rochester Molecular markers for the diagnosis of alzheimer's disease
US6324531B1 (en) * 1997-12-12 2001-11-27 Florida Department Of Citrus System and method for identifying the geographic origin of a fresh commodity
US6216049B1 (en) * 1998-11-20 2001-04-10 Becton, Dickinson And Company Computerized method and apparatus for analyzing nucleic acid assay readings
US6298315B1 (en) * 1998-12-11 2001-10-02 Wavecrest Corporation Method and apparatus for analyzing measurements
US6341257B1 (en) * 1999-03-04 2002-01-22 Sandia Corporation Hybrid least squares multivariate spectral analysis methods
US6415233B1 (en) * 1999-03-04 2002-07-02 Sandia Corporation Classical least squares multivariate spectral analysis
US6349265B1 (en) * 1999-03-24 2002-02-19 International Business Machines Corporation Method and apparatus for mapping components of descriptor vectors for molecular complexes to a space that discriminates between groups
US6853920B2 (en) * 2000-03-10 2005-02-08 Smiths Detection-Pasadena, Inc. Control for an industrial process using one or more multidimensional variables
GB0007788D0 (en) * 2000-03-30 2000-05-17 Pharmacia & Upjohn Spa Method to evaluate the therapeutic and toxic effects related to drug administration
US20020077775A1 (en) * 2000-05-25 2002-06-20 Schork Nicholas J. Methods of DNA marker-based genetic analysis using estimated haplotype frequencies and uses thereof
GB0013010D0 (en) * 2000-05-26 2000-07-19 Ncr Int Inc Method and apparatus for predicting whether a specified event will occur after a specified trigger event has occurred
AU2001296266A1 (en) * 2000-09-19 2002-04-02 The Regents Of The University Of California Method for determining measurement error for gene expression microarrays
WO2002025405A2 (en) * 2000-09-19 2002-03-28 The Regents Of The University Of California Methods for classifying high-dimensional biological data
US20020042681A1 (en) * 2000-10-03 2002-04-11 International Business Machines Corporation Characterization of phenotypes by gene expression patterns and classification of samples based thereon
US6996472B2 (en) * 2000-10-10 2006-02-07 The United States Of America As Represented By The Department Of Health And Human Services Drift compensation method for fingerprint spectra
US6714897B2 (en) * 2001-01-02 2004-03-30 Battelle Memorial Institute Method for generating analyses of categorical data
US9856533B2 (en) * 2003-09-19 2018-01-02 Biotheranostics, Inc. Predicting breast cancer treatment outcome

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101517898B1 (ko) * 2013-05-06 2015-05-07 서울시립대학교 산학협력단 도시형태결정요소 기반의 공간개발 패턴 추정 시스템 및 방법
KR20210124710A (ko) * 2020-04-07 2021-10-15 강만수 광고 제공 시스템
KR102419034B1 (ko) * 2020-04-07 2022-07-08 주식회사 하이퍼리서치 광고 제공 시스템

Also Published As

Publication number Publication date
AU2002332967B2 (en) 2008-07-17
WO2003034270A1 (en) 2003-04-24
CA2464364A1 (en) 2003-04-24
US20050171923A1 (en) 2005-08-04

Similar Documents

Publication Publication Date Title
Whalen et al. Navigating the pitfalls of applying machine learning in genomics
JP2005524124A (ja) システムの診断構成要素を識別するための方法および装置
Sharma et al. C-HMOSHSSA: Gene selection for cancer classification using multi-objective meta-heuristic and machine learning methods
Statnikov et al. GEMS: a system for automated cancer diagnosis and biomarker discovery from microarray gene expression data
JP2007513391A (ja) システムの複数の構成要素のうちのサブセットを識別する方法
Krawczuk et al. The feature selection bias problem in relation to high-dimensional gene data
Huerta et al. A hybrid LDA and genetic algorithm for gene selection and classification of microarray data
EP2864919B1 (en) Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
EP1498825A1 (en) Apparatus and method for analyzing data
AU2002332967A1 (en) Method and apparatus for identifying diagnostic components of a system
Zheng et al. Gene selection using independent variable group analysis for tumor classification
Cuperlovic-Culf et al. Determination of tumour marker genes from gene expression data
US20140180599A1 (en) Methods and apparatus for analyzing genetic information
Mittal et al. Large‐scale parametric survival analysis
Hong et al. Gene boosting for cancer classification based on gene expression profiles
Mallick et al. Bayesian analysis of gene expression data
Huynh et al. Performance comparison of SLFN training algorithms for DNA microarray classification
Osseni et al. MOT: a Multi-Omics Transformer for multiclass classification tumour types predictions
US20090006055A1 (en) Automated Reduction of Biomarkers
US20050209838A1 (en) Fast microarray expression data analysis method for network exploration
D'Souza et al. A phenomic algorithm for reconstruction of gene networks
EP1436726A1 (en) Method and apparatus for identifying diagnostic components of a system
Reyes Glioma Brain Cancer Classification Using Microarrays and Support Vector Machines
Cheung Classification approaches for microarray gene expression data analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080520

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080820

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080827

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203