JP2012523000A

JP2012523000A - インビトロで多因子疾患を診断する方法

Info

Publication number: JP2012523000A
Application number: JP2012503982A
Authority: JP
Inventors: デイグナー，ハンス‐ピーター; コール，マティアス; ケラー，マティアス; コール，テレーゼ; ヴァインベルガー，クラウス
Original assignee: バイオクレイツライフサイエンスエージー
Priority date: 2009-04-07
Filing date: 2010-03-31
Publication date: 2012-09-27
Also published as: CN102362279A; EP2239675A1; EP2942724A3; EP2417545A1; AU2010233846A1; CA2754389A1; US20120115138A1; WO2010115833A1; EP2417545B1; EP2942724A2

Abstract

本発明は、生体試料中の癌、特に、急性骨髄性白血病（ＡＭＬ）、結腸癌、腎臓癌、前立腺癌；一過性脳虚血発作（ＴＩＡ）、虚血、特に脳卒中、低酸素、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症；脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、アルツハイマーおよびパーキンソン病、等の多因子疾患をインビトロで診断するための方法およびキットに関する。診断のために、少なくとも２つの異なる種の生体分子ならびに適切な分類器アルゴリズムおよび他の統計的手法による結果の分類を利用する。本発明により、例えば、発現プロファイルの信頼性の大きな改善がなされる。すなわち、一定の集団において１００％までの正確な確定診断が可能となり、このことが本発明方法を先行技術に対して優れたものにしている。

Description

本発明は請求項１に従ってインビトロで多因子疾患またはそのタブタイプを診断する方法、および請求項１８に従ってその方法を実行するキットに関する。

標準的な患者の検診および診断では、開業医は多くの診断ツールを使って特定の疾患を有する患者を診断する。これらのツールのなかで、一連の単一のルーチンパラメーター、例えば、血液サンプル中のパラメーター、の測定が通常の実験室的診断手法である。これらの単一パラメーターには、例えば、酵素活性および酵素濃度および／またはグルコース等の代謝指標の検出がある。容易にかつ明確に臨床化学により確立された単一のパラメーター、または２、３のパラメーターに関連付けることができる疾患に関する限り、これらのツールは最近の臨床検査および診断には不可欠なツールであることが明らかになっている。糖尿病の場合のようにうまく適合したカットオフ値があるという前提があれば、血糖のような臨床化学パラメーターを信頼して診断に使うことができる。通常、高い血中グルコース濃度がインスリン遺伝子の遺伝的欠損を反映しているように、先導的パラメーターが生成されるよく知られている病態生理学的メカニズムを根底に内在している病態生理学的状態を調査する場合、特に、このような単一パラメーターが「その」疾患の信頼できるバイオマーカーであることがわかっている。

しかし、癌または多発性硬化症等の脱髄疾患のような病態生理学的条件では、明確に帰すべき単一パラメーターまたはマーカーが無く、血液または組織試料による鑑別診断は現状では困難ないし不可能となっている。それでも、癌の予防、検診、診断、治療および後処理では、特定の種類の癌に対しある程度特異性のある一連のいわゆる「腫瘍マーカー」をそれぞれ使って悪性プロセスの診断と治療のモニターを行うのが臨床ルーチンである。現在使われているこのような腫瘍マーカーには、例えば、α１−フェトプロテイン、癌抗原１２５（ＣＡ１２５）、癌抗原１５−３、ＣＡ５０、ＣＡ７２−４、炭水化物抗原１９−９、カルシトニン、癌胎児抗原（ＣＥＡ）、サイトケラチン断片２１−１、ムチン様癌関連抗原、神経特異的エノラーゼ、核マトリックスタンパク質２２、アルカリフォスファターゼ、前立腺特異的抗原（ＰＳＡ）、扁平上皮癌抗原、テロメラーゼ、チミジンキナーゼ、チレオグロブリン、および組織ポリペプチド抗原がある。

先行技術では、この間もすでに多くの上記腫瘍マーカーがルーチン的に使われているが、一回の測定により信頼できる診断を得るのが難しいことが多い。一例であるが、非喫煙者ではＣＥＡのカットオフ値は４．６ｎｇ／ｍｌで、一方、喫煙者の２５％が３．５〜１０ｎｇ／ｍｌの範囲の正常値を示し、また喫煙者の１％が１０ｎｇ／ｍｌを越える正常値を示す。従って、２０ｎｇ／ｍｌを越える値のみが、「悪性プロセスが極めて疑わしい」と解釈されねばならない。これでは、大きなグレーゾーンが残され、この領域では医師は患者の試料から測定したＣＥＡ値に頼ることはできない。

ＥＰ５４０５７３Ｂ１には、前立腺特異的抗原（ＰＳＡ）に関して同様のカットオフ値の問題が開示されている。通常、総ＰＳＡが測定され、患者の前立腺癌を診断または除去するが、この値がグレーゾーンにある場合、遊離ＰＳＡに特異的なモノクローナル抗体アッセイを使って、総ＰＳＡに追加して遊離ＰＳＡも測定し両パラメーターの比率を計算することにより良性の前立腺肥大と前立腺癌を鑑別する、さらに正確な手段を用いるのが普通である。

前記のＣＥＡとＰＳＡ検出の例は、単一の腫瘍マーカーでは、一方で比較的低い特異性と、他方で、得られた値の解釈が難しい不確かで信頼性の低いカットオフ値が普通であることを強く示すものである。

従って、一般的な結論として、検診における腫瘍マーカーの使用を曖昧なものとして考えるのが望ましい。さらなる臨床的相関のない腫瘍マーカーの増加レベルにより患者が落胆させられ、また、これがいかなる診断の価値も有しないことが、珍しいことではない。

さらに、悪性疾患の後処理において、各腫瘍マーカーが陽性反応を示すまでに、癌細胞の「臨界質量」が最初に必要であることに注意しなければならない。また、全ての再発性腫瘍が腫瘍マーカーレベルの増加を伴わねばならないとは限らない。

要約すると、単一の腫瘍マーカーは、内視鏡検査および生検のような他の診断ツールと一緒に、また続けて組織学的検査を行う場合のみ診断に使えることがわかったが、ルーチン癌検診に使うには信頼性がない。

単一腫瘍マーカーの腫瘍マーカーの先行技術に対し、マイクロアレイ技術による複数の遺伝子の遺伝子発現レベルを利用することが急速に進展した。

例えば、ＷＯ２００４１１１１９７Ａ２は、発現プロファイリング、例えば、アレイベース遺伝子発現プロファイリングによって解析できる気道上皮細胞ＲＮＡを得るための低侵襲試料入手方法を開示している。これらの方法を使って、肺障害もしくは肺障害に対する感受性の診断または予測のために、癌のような肺障害の診断法である遺伝子発現のパターンを特定し、肺障害の進行の危険に曝されている患者を特定し、また、アレイ、例えば、マイクロアレイのカスタムデザインを行うことができる。配列と情報価値のある遺伝子も、この目的のため開示されている。

このような同義遺伝子手法は上述の単一パラメーターよりは信頼性がずっと高いが、複雑な数学的、かつバイオインフォマティクス的手順が必要である。にもかかわらず、これらの遺伝子発現サインは癌の診断に有望なツールである。しかし、内在する統計データや一種の核酸への限定に起因して信頼性のない結果や検証問題に繋がることもあるという不確定な制約もある。

疾患のある患者を特定するための早期診断のために、患者の予備選択と層別化に使用するために、また、治療の管理が診断法開発の主要目的であり、種々の多因子疾患、特に癌で緊急の必要性がいまだにあることから、前述の先行技術から明らかなように、可能な限り高い信頼性のある感度と特異性を有する診断ツールとしてバイオマーカーの使用を可能にすることが本発明の課題である。

上述の課題は、請求項１に記載の方法および請求項１８に記載のキットにより解決される。特に、本発明は、インビトロで、少なくとも１つの哺乳類の患者の組織の少なくとも１つの生物学的試料を用いて、癌、特に、急性骨髄性白血病（ＡＭＬ）結腸癌、腎臓癌、前立腺癌；虚血、特に脳卒中、低酸素症、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症; 脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、からなる群から選択された多因子疾患またはそのサブタイプを診断する方法であって、
ａ）少なくとも２つの異なった種の生体分子を選択するステップであって、前記生体分子がＲＮＡおよび／またはそのＤＮＡカウンターパート、マイクロＲＮＡおよび／またはそのＤＮＡカウンターパート、ペプチド、タンパク質、および代謝物の群から選択されるステップと、
ｂ）前記試料のそれぞれの種の複数の生体分子の存在（陽性または陰性）、定性的および／または定量的分子パターンおよび／または分子サイン、レベル、量、濃度および発現レベルの群から選択された少なくとも１つのパラメーターを、少なくとも２セットの異なる種の生体分子を使って測定し、得られた一連の値を生データとしてデータベースに蓄積するステップと、
ｃ）前記生データを数学的に前処理してステップｂ）の測定手続きに固有の技術的エラーを減らすステップと、
ｄ）ロジスティック回帰分析、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、パーセプトロン、収縮重心法正規化判別分析（ＲＤＡ）、ランダムフォレスト（ＲＦ）、ニューラルネットワーク（ＮＮ）、ベイジアンネットワーク、隠れマルコフモデル、サポートベクターマシン（ＳＶＭ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ｐａｒｔｉｔｉｏｎｉｎｇａｒｏｕｎｄｍｅｄｏｉｄ）（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、ファジー分類器、バッギング、ブースティング、および単純ベイズの群から少なくとも１つの適切な分類アルゴリズムを選択し、前記選択した分類アルゴリズムを前記ステップｃ）の前処理データに適用するステップと、
ｅ）ステップｄ）の前記分類アルゴリズムを、その病態生理学的、生理的、予後的、または応答者としての状態に従ってクラスに分類された患者の前処理データを含む、少なくとも１つの訓練データセットを使って訓練して分類器機能を選択し前記前処理データを前記状態にマッピングするステップと、
ｆ）前記訓練したステップｅ）の分類アルゴリズムを病態生理学的、生理的、予後的、または応答者としての未知の状態の患者の前処理したデータセットに適用し、訓練した分類アルゴリズムを使って前記データセットのクラスラベルを予測して患者の状態を診断するステップと、
を含む方法を提供する。
従属請求項２〜１８は本発明の好ましい実施形態である。

本発明は、前述の課題に対する回答を与え、また、一般的には、これに限定されるものではないが、ｍＲＮＡ発現データ、マイクロＲＮＡ発現データ、プロテオミクスデータ、およびメタボロミクスデータを含む「オミクス（ｏｍｉｃｓ）」データの使用、分子サインの特定のための機械学習によるそれぞれ統計的な訓練、およびバイオマーカーに関する。これには、ポリメラーゼ連鎖反応（ＰＣＲ）、マイクロアレイおよびＲＮＡ濃度の測定のためのシーケンシング等の他の方法、質量分析（ＭＳ）によるタンパク質の特定と定量化、特にＭＡＬＤＩ、ＥＳＩ、大気圧化学イオン化（ＡＰＣＩ）等のＭＳ技術、および他の方法、等の既知の方法による前述の生体分子の濃度の測定、ＭＳ技術または代替法による代謝物濃度の測定、これに続く特徴選択および少なくとも２つの分子レベルの分子データ（すなわち、少なくとも２つの異なるタイプの内在性生体分子、例えば、ＲＮＡ濃度＋メタボロミクスデータ、それぞれ代謝物濃度またはＲＮＡ濃度＋タンパク質またはペプチド、等の濃度）を含むこれらの特徴と分類器との組み合わせ、および最適な複合マーカーセットが、統計的方法とデータ分類法により抽出される。

個別の分子レベル（ＲＮＡ分子、ペプチド／タンパク質、代謝物等）の各マーカーの濃度はこのようにして測定され、データは分類器へ送られるが、１つのタイプの生体分子に限定された方式とバイオマーカーに比べて優れた感度と特異性を発揮して病的状態等を指摘する。

診断および早期診断に使用するためにこれらの分子群のデータ由来の統計的方法および分類器を使って特定された、バイオマーカーおよび生体分子、特に１つまたはいくつかのｍＲＮＡ、マイクロＲＮＡ、タンパク質、またはペプチド、小さな内在性化合物（代謝物）について、これらと体液または組織から得られた生体分子との組み合わせ（少なくとも２つの前述のタイプの生体分子の組み合わせ）、の分子サインの選択と組み合わせの方法が、多因子疾患における患者の層別化、治療選択、治療モニタリングおよびテラグノスティックス（ｔｈｅｒａｇｎｏｓｔｉｃｓ＝治療と診断の融合）への利用を目的として記載される。

先行技術
ゲノミクス、プロテオミクス、およびメタボロミクス等の様々なオミクス手法を使ったシステムバイオロジー法の多因子疾患の研究と診断への適用が増えてきている。これらの技術により、診断の臨床診療に変革をもたらす可能性のあるデータおよび生物指標、いわゆる（診断、予知、および薬力学的）バイオマーカーの提供が可能となる。

早期癌検出のために、通常は単一バイオマーカーが用いられる。しかし、例えば、広く用いられている癌抗原１２５（ＣＡ１２５）は、第１期卵巣癌の患者の５０％−６０％を検出できているに過ぎない。同様に、早期前立腺癌の特定に使われる前立腺特異的抗原（ＰＳＡ）値の単独使用は擬陽性の数を減らすのに十分に特異的ではない［ＰｅｔｒｉｃｏｉｎＥＦ３ｒｄ、ＯｒｎｓｔｅｉｎＤＫ、ＰａｗｅｌｅｔｚＣＰ、ＡｒｄｅｋａｎｉＡ、ＨａｃｋｅｔｔＰＳ、ＨｉｔｔＢＡ、ＶｅｌａｓｓｃｏＡ、ＴｒｕｃｃｏＣ、ＷｉｅｇａｎｄＬ、ＷｏｏｄＫ、ＳｉｍｏｎｅＣＢ、ＬｅｖｉｎｅＰＪ、ＬｉｎｅｈａｎＷＭ、Ｅｍｍｅｒｔ−ＢｕｃｋＭＲ、ＳｔｅｉｎｂｅｒｇＳＭ、ＫｏｈｎＥＣ、ＬｉｏｔｔａＬＡ、前立腺癌検出用血清プロテオミクスパターン、ＪＮａｔｌＣａｎｃｅｒＩｎｓｔ．２００２；９４（２０）：１５７６−８．］、また、多因子疾患を特徴付け、または診断できそうにないこと、および単一のバイオマーカーを使用して治療の効果を評価できそうにないことは極めて明らかである。

診断ツール、例えば、癌診断の最近の進歩には、通常、いくつかのタンパク質、ＲＮＡまたはマイクロＲＮＡ等のいくつかの同じクラスの生体分子を使う多成分試験が含まれる。また、高度の寸法データの分析により、異常な信号伝達およびネットワーキングに対してより深い洞察が得られ、このことにより、以前は見つけられなかったマーカー候補を特定できる大きな可能性が得られる。しかし、現時点での最新技術による方法は、いくつかのＲＮＡ、マイクロＲＮＡまたはタンパク質分子等のバイオマーカーセットのための単一の生体分子または単一型生体分子のセットを使用する。ＧａｒｚｏｎＲ、ＶｏｌｉｎｉａＳ、ＬｉｕＣＧＦｅｒｎａｎｄｅｚ−ＣｙｍｅｒｉｎｇＣ、ＰａｌｕｍｂｏＴ、ＰｉｃｈｉｏｒｒｉＦ、ＦａｂｂｒｉＭ、ＣｏｏｍｂｅｓＫ、ＡｌｄｅｒＨ、ＮａｋａｍｕｒａＴ、ＦｌｏｍｅｎｂｅｒｇＮ、ＭａｒｃｕｃｃｉＧ、ＣａｌｉｎＧＡ、ＫｏｍｂｌａｕＳＭ、ＫａｎｔａｒｊｉａｎＨ、ＢｌｏｏｍｆｉｅｌｄＣＤ、ＡｎｄｒｅｅｆｆＭ、ＣｒｏｃｅＣＭ、急性骨髄性白血病の細胞遺伝学および予後に関連したマイクロＲＮＡのサイン、Ｂｌｏｏｄ．２００８；１１１（６）：３１８３−９ａｎｄＲａｍａｓｗａｍｙＳ、ＴａｍａｙｏＰ、ＲｉｆｋｉｎＲ、ＭｕｋｈｅｒｊｅｅＳＹｅａｎｇＣＨ、ＡｎｇｅｌｏＭ、ＬａｄｄＣ、ＲｅｉｃｈＭ、ＬａｔｕｌｉｐｐｅＥ、ＭｅｓｉｒｏｖＪＰ、ＰｏｇｇｉｏＴ、ＧｅｒａｌｄＷ、ＬｏｄａＭ、ＬａｎｄｅｒＥＳ、ＧｏｌｕｂＴＲ．、腫瘍遺伝子発現サインを使ったマルチクラス癌診断、ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２００１；９８（２６）：１５１４９−５４を参照。癌のｍｉＲＮＡについてはＷＯ２００８０５５１５８を参照。

さらに、ＯｎｃｏｔｙｐｅＤＸは最近の、多重遺伝子活性アッセイのような、多成分ＲＮＡベース試験で、タモキシフェン治療リンパ節転移陰性乳癌の再発を予測するために行われる。これは、ＰａｉｋＳ、ＳｈａｋＳ、ＴａｎｇＧ、ＫｉｍＣ、ＢａｋｅｒＪ、ＣｒｏｎｉｎＭ、ＢａｅｈｎｅｒＦＬ、ＷａｌｋｅｒＭＧ、ＷａｔｓｏｎＤ、ＰａｒｋＴ、ＨｉｌｌｅｒＷ、ＦｉｓｈｅｒＥＲ、ＷｉｃｋｅｒｈａｍＤＬ、ＢｒｙａｎｔＪ、ＷｏｌｍａｒｋＮ、ＥｎｇｌＪＭｅｄ．２００４；３５１（２７）：２８１７−２６に記載されている。

ＨａｂｅｌＬＡ、ＳｈａｋＳ、ＪａｃｏｂｓＭＫ、ＣａｐｒａＡ、ＡｌｅｘａｎｄｅｒＣ、ＰｈｏＭ、ＢａｋｅｒＪ、ＷａｌｋｅｒＭ、ＷａｔｓｏｎＤ、ＨａｃｋｅｔｔＪ、ＢｌｉｃｋＮＴ、ＧｒｅｅｎｂｅｒｇＤ、ＦｅｈｒｅｎｂａｃｈｅｒＬ、ＬａｎｇｈｏｌｚＢ、ＱｕｅｓｅｎｂｅｒｒｙＣＰは、ＢｒｅａｓｔＣａｎｃｅｒＲｅｓ．２００６；８（３）：Ｒ２５でリンパ節無症状患者の中で腫瘍遺伝子発現および乳癌死亡のリスクに関する集団ベースの調査について報告している。

他の最近の例には、乳癌遺伝子発現サインがある。これは臨床用途用にＭａｍｍａＰｒｉｎｔ（Ａｇｅｎｄｉａ）として販売された。

さらに、ＧｌａｓＡＭ、ＦｌｏｏｒｅＡ、ＤｅｌａｈａｙｅＬＪ、ＷｉｔｔｅｖｅｅｎＡＴ、ＰｏｖｅｒＲＣ、ＢａｋｘＮ、Ｌａｈｔｉ−ＤｏｍｅｎｉｃｉＪＳ、ＢｒｕｉｎｓｍａＴＪ、ＷａｒｍｏｅｓＭＯ、ＢｅｒｎａｒｄｓＲ、ＷｅｓｓｅｌｓＬＦ、Ｖａｎ’ｔＶｅｅｒＬＪは、ＢＭＣＧｅｎｏｍｉｃｓ．２００６；７：２７８中で、乳癌マイクロアレイサインを高スループットで診断試験に変換する方法を開示している。

別の既知の方法は、いわゆるＨ／Ｉ試験（ＡｖｉａｒａＤｘ）として開示されている（ＮｉｃｈｏｌａｓＣＴｕｒｎｅｒａｎｄＡｌｉｓｏｎＬＪｏｎｅｓＢＭＪ．２００８Ｊｕｌｙ１９；３３７（７６６２）：１６４−１６９）。この方法では、切除後の元の乳癌の再発確率が推定されている。

これらの製品やプロトタイプには、特定の分野での診断に大きな進展が認められるが、多くの多因子疾患、例えば、これに限定されないが、癌、特に、急性骨髄性白血病（ＡＭＬ）、結腸癌、腎臓癌、前立腺癌；虚血、特に、脳卒中、低酸素、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症；脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、アルツハイマーおよびパーキンソン病、に対し高い感度と特異性を有する信頼性のある早期診断に対する差し迫った必要性がいまだ存在する。これらの診断ツールとバイオマーカーは、患者中の応答者の選別のため、また、疾患再発、治療オプションの選択、有効性、薬剤耐性および毒性の評価のためにも使われる。

本発明はこれらの問題に対処するために優れた感度と特異性を有する多因子疾患診断用診断ツールを創出可能とする原理と方法を提供する。

例えば、変質ＲＮＡ転写物からのタンパク質濃度のあり得る変化を特定するために、種々の「オミクス」データのデータ統合を行うことは、システムバイオロジーと当業者にとって長年にわたりよく知られている問題である。

それにもかかわらず、異なるタイプの生体分子からのバイオマーカーセットの統計的な組み合わせはデータ統合とは無関係であり、本明細書に記載のように、組み合わせた診断サイン（いくつかのタイプの生体分子の組み合わせ）の種々の分類法を適用した統計的ベースに基づいた生化学的解釈は明らかでなく、当業者に知られておらず、また、文献にも記載がない。それは統合多次元解析や、例えば、ゲノム、エピゲノムおよびトランスクリプトームの組み合わせを使った試み（ＳＩＧＭＡ２：癌ゲノム、エピゲノム、およびトランスクリプトームの統合的ゲノム多次元解析のためのシステム、ＲａｊＣｈａｒｉｅｔａｌ．ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ２００８、９：４２２、ここでは異なるオミクスデータ間の生物学的関係を種々の手段を使って解析することを試みている）とは別物であることは明らかである。

基本的に、本発明の方法は、既知または未知のいかなる生物学的関係、因果関係、およびいくつかのタイプの生体分子からなる組み合わせバイオマーカーを利用可能にする明らかな生物学的妥当性には全く関係なく、統計的ベースに基づいて少なくとも２つの異なるタイプの生体分子の重要な生体分子パラメーターを統計的に組み合わせる。本発明の基礎となる患者の症例により、少なくとも２つの前述の生体分子タイプおよび測定分子の集合体の中で細胞、組織、器官または生命体のそれぞれの状態を最も良く記述した少なくとも２つのタイプのこれら組み合わせ生体分子からなる診断法および疾患状態特異的分類器は、分子組成物またはマーカーおよびそれらの記述された分子サインよりも優れていることが示される。さらに、それは、１つのタイプのみの生体分子からなる生体分子の分類器より優れており、本明細書に示すように診断への利用に際しより高い感度と特異性をもたらす。このように、本発明は現在の技術レベルを遙かに超えて、これまでの方法に比べて、より高い感度と特異性、および偽陽性比率の減少化をもたらす診断用分子サインを生成する方法を提供する。この方法は種々の多因子疾患および完全に非関連の多因子疾患、例えば、癌や虚血の診断に適用でき、また、通常の診断にも使用可能である。

定義
本明細書で使われる用語の「遺伝子発現」は、遺伝子をコードした遺伝情報を遺伝子の「転写」（例えば、ＲＮＡポリメラーゼの酵素作用により）を経由してリボ核酸、ＲＮＡ（例えば、ｍＲＮＡ、ｒＲＮＡ、ｔＲＮＡ、またはｓｎＲＮＡ）に変換するプロセス、および遺伝子をコードしたタンパク質に対しては、ｍＲＮＡの「翻訳」経由でタンパク質に変換するプロセスを指す。遺伝子発現はこのプロセスの多くの段階で調節されうる。「上方制御」または「活性化」は、遺伝子発現産物の産生を増加させる調節を指し、他方、「下方制御」または「抑制」はその産生を減らす調節を指す。

ポリヌクレオチド：３つ以上の塩基を有する核酸ポリマー。
「ペプチド」はαアミノ酸を決まった順序で結合して作られるヘテロポリマーである。１つのアミノ酸残基と次のものとの間の結合はアミド結合またはペプチド結合として知られる。タンパク質はポリペプチド分子（または、多数のポリペプチドサブユニットからなる分子）である。ペプチドは短く、ポリペプチド／タンパク質は長いことから区別できる。これらに定義にはいくつかの異なる慣習があり、その全てに補足説明や微妙なニュアンスの差がある。

本発明の範囲における「多因子疾患」は、これに限定されないが、以下に記載の群に属するものである：癌、特に、急性骨髄性白血病（ＡＭＬ）、結腸癌、腎臓癌、前立腺癌；一過性脳虚血発作（ＴＩＡ）、虚血、特に、脳卒中、低酸素、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症；脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、アルツハイマーおよびパーキンソン病。

代謝物：本明細書で使われる用語「代謝物」は、通常、分子量１５００ダルトン未満の、細胞、生命体、組織の内在性有機化合物または前述のソースから得られた体液中または抽出物中に存在する内在性有機化合物を指す。代謝物の典型的例には、炭水化物、脂質、リン脂質、スフィンゴ脂質およびスフィンゴリン脂質、アミノ酸、コレステロール、ステロイドホルモンおよび酸化型ステロールおよびヒト代謝物データベース（ｈｔｔｐ：／／ｗｗｗ．ｈｍｄｂ．ｃａ／）および他のデータベースや文献に収集されているような他の化合物がある。これには、代謝または代謝プロセスにより産生された任意の物質、および代謝に関わる任意の物質が含まれる。

本発明の範囲内では「メタボロミクス」は、例えば、これに限定されないが、質量分析、または液体クロマトグラフィー、ガスクロマトグラフィーや他の分離法クロマトグラフィーと質量分析の組み合わせ、等の方法により、いくつかの（２千の）代謝物の網羅的な定量測定を示す。

「オリゴヌクレオチド配列」または「オリゴヌクレオチドチップ」または「遺伝子チップ」は「マイクロアレイ」に関する用語で、「チップ」、「バイオチップ」、または「生物学的チップ」とも呼ばれ、例えば、少なくとも１００／ｃｍ^２、および好ましくは少なくとも約１０００／ｃｍ^２の適切な不連続領域密度を有する領域のアレイである。マイクロアレイ中のその領域は、例えば、径で好ましくは約１０〜２５μｍに寸法を有し、アレイ中で他の領域から同じ距離だけ離れている。通常用いられる形式には、Ａｇｉｌｅｎｔ、Ａｆｆｙｍｅｔｒｉｘ、ｌｌｌｕｍｉｎａの製品、ならびにオリゴヌクレオチドおよびｃＤＮＡをディスペンサーまたはマニュアルで固体表面上に析出させてスポット状に製作されたアレイが含まれる。

核酸、タンパク質およびペプチドならびに代謝物は上記アレイシステムおよび、これには限定されないが、定量シーケンシング、定量ポリメラーゼ連鎖反応および定量逆転写ポリメラーゼ連鎖反応（ｑＰＣＲおよびＲＴ−ＰＣＲ）、イムノアッセイ、抗体を使ったタンパク質アレイ、質量分析、を含む種々の方法により数量化できることは当業者には自明である。

「マイクロＲＮＡ」（ｍｉＲＮＡ）は、１９〜２５ヌクレオチドの小形ＲＮＡで遺伝子発現に対し負の制御因子である。ｍｉＲＮＡが急性骨髄性白血病（ＡＭＬ）で細胞遺伝学的異常および臨床的特徴に関連しているかどうかを決定するために、ＣＤ３４（＋）細胞のｍｉＲＮＡ発現および１２２の成人ＡＭＬ症例がマイクロアレイプラットホームを用いて評価されている。

これに関して、異なる種、タイプまたはクラスの生体分子に対して、代謝物と同様に種々の長さのＲＮＡ、マイクロＲＮＡ、タンパク質およびペプチドが知られている。

これに関するバイオマーカーは、特徴的で、生物学的プロセス、病原性プロセス、または治療介入の指標として測定し評価される少なくとも２つの異なるタイプの少なくとも２つの生体分子（ＲＮＡ、マイクロＲＮＡ、タンパク質およびペプチド、代謝物）を含む。本明細書で使われる、組み合わせたバイオマーカーは、少なくとも２つの次のタイプの生体分子を選択することができる：センスおよびアンチセンス核酸、メッセンジャーＲＮＡ、小型ＲＮＡ、すなわち、ｓｉＲＮＡおよびマイクロＲＮＡ、ポリペプチド、抗体を含むタンパク質、小形内在性分子および代謝物。

データ分類は、最も有効で能率的に使えるようにデータをカテゴリー化することである。分類器は、典型的な決定論的関数であり、この関数は、生物学的測定値の多次元ベクトルを臨床的に意義のあるクラス、表現型、特異的生理的状態または特異的疾患状態の非存在または存在をコードした２値（またはｎ値変数）の結果変数にマッピングする。これを実行するため、種々の分類法、例えば、これに限定されないが、ロジスティック回帰分析、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、パーセプトロン、収縮重心法正規化判別分析（ＲＤＡ）、ランダムフォレスト（ＲＦ）、ニューラルネットワーク（ＮＮ）、ベイジアンネットワーク、隠れマルコフモデル、サポートベクターマシン（ＳＶＭ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、ファジー分類器、バッギング、ブースティング、および単純ベイズ、等々を使用可能である。

用語の「結合（ｂｉｎｄｉｎｇ）」、「結合する（ｔｏｂｉｎｄ）」、「結合（ｂｉｎｄ）」、「結合（ｂｏｕｎｄ）」またはそのいずれかの派生語は、２つ以上の分子間の任意の安定な、一過性ではない、化学結合を指す。この化学結合には、これに限定されないが、共有結合、イオン結合、および水素結合が含まれる。従って、この用語は、２つ以上の分子間の別のタイプの化学結合に属する２つの核酸分子間のハイブリダイゼーションも包含する。

説明
本発明の方法において、異なる種の生体分子の内の少なくとも２つの異なるタイプの生体分子の組み合わせにより得られたバイオマーカーデータおよび分類器は、生理的な状態の説明を可能にし、多因子疾患診断用の優れたツールとして使用可能である。ここで前記生体分子の種は、本発明に従って特定されたＲＮＡおよび／またはそのＤＮＡカウンターパート、マイクロＲＮＡおよび／またはそのＤＮＡカウンターパート、ペプチド、タンパク質、および代謝物からなる群より選択される。

健常検体由来の病理学的試料または組織の識別には、下記の表１に示した方法に従って、少なくとも２つの異なるタイプの生体分子のデータの組み合わせ、その濃度の決定および統計的処理と分類器生成が必要である。

上述のように、分類の手段によりバイオマーカーとして組み合わされた分子間の生物学的関連性は問題の結果や選択とは全く無関係であり、必ずしも生物学的モデルで説明できない。

本発明による方法は、基本的に次のステップを含む：
ステップ１；患者または生命体生命体からの生体試料の取得。
ステップ２；次のタイプ（ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物）の生体分子の量の測定およびデータベースへの生データとしての保存。
ステップ３；データベースの生データの前処理。
ステップ４；試料中で検出されたＲＮＡおよび／またはそのＤＮＡカウンターパート、マイクロＲＮＡおよび／またはそのＤＮＡカウンターパート、ペプチドまたはタンパク質、代謝物の量は、正常細胞または組織で測定されたそれぞれの生体分子の標準量またはデータベースに保存されたそれぞれの生体分子の参照量と比較される。試料中の目的の生体分子の量が標準または対照試料で測定した生体分子の量と異なる場合は、差分濃度データは処理され、下記のステップ５の分類器の生成のステップで使用される。
分類器はステップ６で検証され、ステップ７で使われる：本発明に従って、分類器は、上述のタイプの内の少なくとも２つの群の生体分子からのデータを使用し、値またはスコアを与える。このスコアは、血漿、組織または器官の変化した生理的な状態に対し計算確率として割り当てられ、病的状態、介入（例えば、治療、手術または薬物療法による治療的介入）による状態または中毒による状態を確率で示すことが可能である。このスコアを診断ツールとして使用して患者または生命体に対し病気であるとの診断を提示し、また、中毒症を癌があると指摘する。
スコアとスコアの時間依存変化は、治療の成果または患者や生命体への薬剤投与に対する成果の評価、または患者または生命体の治療に対する個別反応の評価、または生理的な状態または疾患および転帰の成り行きについての予測のために使用可能である。予後は、少なくとも２つの生体分子から構成されているスコアまたは分類器の正常なレベルまたは平均値を有する、疾患や中毒のない患者に対する相対値である。

ｍＲＮＡおよびマイクロＲＮＡデータの場合、データの前処理は、通常、バックグラウンド補正および正規化で構成される。当業者なら多くの適切な既知のバックグラウンド補正および正規化方策を知っている；Ａｆｆｙｍｅｔｒｉｘデータの比較調査については、Ｌ．Ｍ．Ｃｏｐｅｅｔａｌ．、Ａｆｆｙｍｅｔｒｉｘ遺伝子チップ発現量のベンチマーク、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２００４、２０（３）、３２３−３３１またはＲ．Ａ．Ｉｒｉｚａｒｒｙｅｔａｌ．、Ａｆｆｙｍｅｔｒｉｘ遺伝子チップ発現量の比較、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２００６、２２（７）、７８９−７９４に記載されている。

手元にあるデータによっては、例えば、対数化、またはボックス−コックスべき変換［Ｂｏｘ、Ｇ．Ｅ．Ｐ．ａｎｄＣｏｘ、Ｄ．Ｒ．変換による解析（ディスカッション付き）．ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙＢ１９６４、２６、２１１−２５２］の使用のような、いくつかの分散安定化変換または正規性への変換により構成しても良い。

ときには、例えば、標準偏差または中央絶対偏差（ＭＡＤ）を使った拡大縮小を使って生データを変換しても良い。しかし、このステップは、全ての種類のデータ、後で行うそれぞれのデータの統計解析に対し必ずしも必要ではなく、従って省略しても良い。

特徴（変数、測定値）選択ステップもまた任意選択で良い。しかし、特徴の数が標本数より多い場合はこれを行うことが推奨される。特徴選択方法により最高の識別能を有する特徴のサブセットを見つけ出す試みがなされる。

ｍＲＮＡおよびマイクロＲＮＡデータの高次元性のため、大抵の分類アルゴリズは直接適用できない。１つの理由はいわゆる次元の呪いである：次元の増加と共にインスタンスの間の距離が同化する。雑音および無関係の特徴がさらにこの効果に加わり、分類アルゴリズムが決定境界を確立するのを難しくする。分類アルゴリズムが全次元空間で適用できないさらなる理由はパフォーマンス上の制約である。最終的には、特徴変換技術が分類の前に適用される。例えば、［Ｊ．Ｓ．Ｙｕｅｔａｌ．、高スループット質量分析データのための次元縮小法に基づく卵巣癌特定、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ、２１（１０）：２２００−２２０９、２００５］に記載がある。さらに、未知のマーカー候補特定の目的のために、従来の方法を使用することもデータの高次元性のために制約がある。

可能な限り高い感度と特異性で病気の患者を特定することが、診断手法開発の主要目的である。この目的のため、多くの分類アルゴリズムが選択可能である。例えば、ロジスティック回帰分析、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、収縮重心法正規化判別分析（ＲＤＡ）、ランダムフォレスト（ＲＦ）、ニューラルネットワーク（ＮＮ）、サポートベクターマシン（ＳＶＭ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、バッギング、ブースティング、単純ベイズ、等々、が新しいマーカー候補の開発のために適用可能である。これらのアルゴリズムは、例えば、健康や病気のクラスに従ってラベル付けしたインスタンスを含む少なくとも１つの訓練データセットで訓練され、次いで、訓練には使用されなかった新規インスタンスを含む少なくとも１つの試験データセットで試験される。訓練試験ステップでは、１つまたは複数のラウンドの交差検定、ブートストラップまたはいくつかの分割検体手法を使って実際にどれくらい正確に予測モデルが機能するかを評価する。最後に、分類器を使って新規のラベル付けされていないインスタンスのクラスラベルを予測する［Ｔ．Ｍ．Ｍｉｔｃｈｅｌｌ．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＭｃＧｒａｗ−Ｈｉｌｌ、１９９７］。

分類器は、典型的な決定論的関数であり、この関数は、生物学的測定値の多次元ベクトルを臨床的に意義のあるクラス、表現型、または特異的疾患状態の非存在または存在をコードした２値（またはｎ値）の結果変数にマッピングする。分類器の構築または学習プロセスは２つのステップ：（１）システムの応答を近似できるファミリー関数群の選択、および（２）有限の観察試料（訓練データ）を使って関数のファミリーから任意の時点でのシステムの応答と関数の予測との間の相違または期待損失を最小化することにより、最も良く近似できる関数を選択すること、を含む。

選んだ特徴選択方策に応じて、特徴選択のまたは後で異なるデータ（臨床データ、ｍＲＮＡ、マイクロＲＮＡ、代謝物、タンパク質）の組み合わせが実施される。組み合わされたデータは、次に、分類器を訓練し検証する入力データとして使われる。しかし、異なる分類器を異なるデータで別々に訓練し、分類器を予測特性に結びつけることも可能である。データ型は、定性的／カテゴリー的から定量的／数値的まで大きく異なっていても良いので、必ずしも全ての分類器がこのような複数のレベルのデータに対し機能しなくても良い。例えば、一部の分類器は定量的データのみ受け付けるのであっても良い。従って、データ型に応じて、適切な領域を有する分類に対応した関数を選ぶ必要がある。

網羅的調査を目的として、分類に対応した多くの特徴選択方策が提案されており、例えば、［Ｍ．Ａ．ＨａｌｌａｎｄＧ．Ｈｏｌｍｅｓ、離散クラスデータマイニングのためのベンチマーク属性選択技術、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ、１５（６）：１４３７−１４４７、２００３．］を参照。ここでは、通常のキャラクタリゼーションに続き、フィルターとラッパー手法の区別がなされている。

フィルター手法は、特徴の識別能力を判定する評価基準を使用する。フィルター手法の中で、さらにランカーと特徴サブセット評価法の区別がなされる。ランカーはその分類に対する有用性に関し各特徴を独立に評価する。結果として、ランク付けされたリストがユーザーに戻される。ランカーは非常に孤立的であるが、交互作用項であり、特徴間の相関は無視される。特徴サブセット評価法は、特徴のサブセットの有用性を判定する。特徴間の相互作用の情報は、原則として保存されるが、探索空間はＯ（２＜ｄ＞）のサイズに拡張される。高次元データに対しては、極単純で効率的探索方策、例えば、前進選択アルゴリズムのみがパフォーマンスの制約の理由から適用される。

ラッパー属性選択法は分類器を使って属性サブセットを評価する。交差検定を使って未分類オブジェクトに対する分類器の正確さを評価する。それぞれの調査属性サブセットに対し、分類の正確さが測定される。大抵の場合、分類器の特性に合わせて、ラッパー手法は、フィルター手法より高い分類精度の属性サブセットを特定する（Ｐｏｃｈｅｔ、Ｎ．、ＤｅＳｍｅｔ、Ｆ．、Ｓｕｙｋｅｎｓ、Ｊ．Ａ．、ａｎｄＤｅＭｏｏｒ、Ｂ．Ｌ．、マイクロアレイデータ分類のシステマティックベンチマーキング：非線形性および次元縮退の役割評価、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ、２０（１７）：３１８５−９５（２００４））。属性サブセット評価法として、ラッパー手法は、品位の探索法策と共に使用可能である。全ての特徴選択方法の中で、ラッパーはそれぞれ調査した特徴サブセットに対し学習アルゴリズムを使用するため、計算費用が最も高価である。

本発明の好ましい実施形態は、前記多因子疾患がＡＭＬ、前記哺乳類患者がヒトで、前記生体試料が血液および／または血液細胞および／または骨髄であり；前記生体分子の異なる種がマイクロＲＮＡおよびタンパク質、特に非成熟造血幹細胞由来の表面タンパク質、好ましくはＣＤ３４であり；マイクロＲＮＡ発現レベルおよびＣＤ３４の存在がステップｂ）の前記パラメーターとして使用され；マイクロＲＮＡ発現の生データが分散安定化正規化を使って前処理され、中央値を使って多重プローブ信号（技術的複製物）を単一の発現値に集約し；ランカー、特にマイクロＲＮＡ発現データ用のフィルターとして最大中央値のペワイズ差と組み合わされたＭａｎｎ−Ｗｈｉｔｎｅｙ有意性検定が前記特徴選択に用いられ；ロジスティック回帰分析が適切な分類アルゴリズムとして選択され、前処理されフィルターを通したマイクロＲＮＡ発現データおよびＣＤ３４情報（陽性または陰性）を含む分類アルゴリズムの訓練がｎ分割交差検定、特に、５〜１０分割、好ましくは、５分割交差検定を使って実行され；前記訓練したロジスティック回帰分析分類器をＡＭＬの疑いのある患者の前記前処理したマイクロＲＮＡ発現データセットおよびＣＤ３４情報に適用し、訓練した分類器を使って具体的なＡＭＬタイプを診断する、方法である。

本発明の別の好ましい実施形態は、前記多因子疾患が結腸癌であり、前記哺乳類患者がヒトであり、前記生体試料が結腸組織であり；生体分子の前記異なる種がｍＲＮＡおよび／またはそのＤＮＡカウンターパートおよびマイクロＲＮＡおよび／またはそのＤＮＡカウンターパートであり；ｍＲＮＡ発現レベルおよびマイクロＲＮＡ発現レベルがステップｂ）の前記パラメーターとして使われ；マイクロＲＮＡ発現の生データが分散安定化正規化を使って前処理され；ｍＲＮＡ発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ（ＰＭ）およびミスマッチ（ＭＭ）プローブをロバストマルチアレイ（ＲＭＡ）法を使って発現測定値に集約し；ランカー、特に、マイクロＲＮＡ発現データ用のフィルターとして最大中央値のペアワイズ差と組み合わされたＭａｎｎ−Ｗｈｉｔｎｅｙ有意性検定が前記特徴選択に用いられ；ランダムフォレストが適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたｍＲＮＡおよびマイクロＲＮＡ発現データを含む分類アルゴリズムの訓練がｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定を使って実行され；前記訓練したランダムフォレスト分類器を結腸癌の疑いのある患者の前記前処理したｍＲＮＡおよびマイクロＲＮＡ発現データセットに適用し、訓練した分類器を使って結腸癌および／またはそのサブタイプを診断する、方法である。

本発明のさらに好ましい実施形態は、前記多因子疾患が腎臓癌であり、前記哺乳類患者がヒトであり、前記生体試料が腎臓組織であり；生体分子の前記異なる種がｍＲＮＡおよび／またはそのＤＮＡカウンターパートおよびマイクロＲＮＡおよび／またはそのＤＮＡカウンターパートであり；ｍＲＮＡ発現レベルおよびマイクロＲＮＡ発現レベルがステップｂ）の前記パラメーターとして使われ；マイクロＲＮＡ発現の生データが分散安定化正規化を使って前処理され；ｍＲＮＡ発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ（ＰＭ）およびミスマッチ（ＭＭ）プローブをロバストマルチアレイ（ＲＭＡ）法を使って発現測定値に集約し；ランカー、特に、マイクロＲＮＡ発現データ用のフィルターとして最大中央値のペアワイズ差と組み合わされたＷｅｌｃｈｔ検定（有意差検定）が前記特徴選択に用いられ；単一隠れ層ニューラルネットワークが適切な分類アルゴリズムとして選択され、前処理されフィルターを通されたｍＲＮＡおよびマイクロＲＮＡ発現データを含む分類アルゴリズムの訓練がｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定を使って実行され；前記訓練した単一隠れ層ニューラルネットワーク分類器を腎臓癌の疑いのある患者の前記前処理したｍＲＮＡおよびマイクロＲＮＡ発現データセットに適用し、訓練した分類器を使って腎臓癌および／またはそのサブタイプを診断する、方法である。

本発明の別の好ましい実施形態は、前記多因子疾患が前立腺癌であり、前記哺乳類患者がヒトであり、前記生体試料が尿および／または前立腺組織であり；生体分子の前記異なる種がｍＲＮＡおよび／またはそのＤＮＡカウンターパートおよびマイクロＲＮＡおよび／またはそのＤＮＡカウンターパートであり；ｍＲＮＡ発現レベルおよびマイクロＲＮＡ発現レベルがステップｂ）の前記パラメーターとして使われ；マイクロＲＮＡ発現の生データが分散安定化正規化を使って前処理され；ｍＲＮＡ発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ（ＰＭ）およびミスマッチ（ＭＭ）プローブをロバストマルチアレイ（ＲＭＡ）法を使って発現測定値に集約され；ランカー、特に、ｍＲＮＡおよびマイクロＲＮＡ発現データ用のフィルターとして最大中央値のペアワイズ差と組み合わされたＭａｎｎ−Ｗｈｉｔｎｅｙ有意性検定が前記特徴選択に用いられ；線形判別分析が適切な分類アルゴリズムとして選択され、前処理されフィルターを通されたｍＲＮＡおよびマイクロＲＮＡ発現データを含む分類アルゴリズムの訓練がｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定を使って実行され；前記訓練した線形判別分析分類器を前立腺癌の疑いのある患者の前記前処理したｍＲＮＡおよびマイクロＲＮＡ発現データセットに適用し、訓練した分類器を使って前立腺癌および／またはそのサブタイプを診断する、方法である。

本発明のさらに別の好ましい実施形態は、前記多因子疾患が一過性脳虚血発作（ＴＩＡ）および／または虚血および／または低酸素症であり、前記哺乳類患者がヒトであり、前記生体試料が血液および／または血液細胞および／または脳脊髄液および／または脳組織であり；生体分子の前記異なる種がｍＲＮＡおよび／またはそのＤＮＡカウンターパートおよび脳代謝物、特に、遊離プロスタグランジン、リポオキシゲナーゼ由来の脂肪酸代謝物、グルタミン、グルタミン酸、ロイシン、アラニン、セリン、ドコサヘキサエン酸（ＤＨＡ）、１２（Ｓ）−ヒドロキシエイコサテトラエン酸（１２Ｓ−ＨＥＴＥ）；ｍＲＮＡ発現レベルおよび定量的および／または定性的分子代謝物パターン（メタボロミクスデータ）がステップｂ）の前記パラメーターとして使われ；ｍＲＮＡ発現の生データが参照遺伝子としてβアクチンを使って前処理され、前記脳代謝物のメタボロミクスデータがバイナリー対数（すなわち、２が底の対数）を使って分散安定化変換によって前処理され；ランカー、特に、メタボロミクスデータ用のフィルターとして最大中央値のペアワイズ差と組み合わされたＷｅｌｃｈｔ検定（有意差検定）が前記特徴選択に用いられ；サポートベクターマシンが適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたｍＲＮＡおよびマイクロＲＮＡ発現データを含む分類アルゴリズムの訓練がｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定を使って実行され；前記訓練したサポートベクターマシン分類器を虚血および／または低酸素症の疑いのある患者の前記前処理したｍＲＮＡおよび前記メタボロミクスデータセットに適用し、訓練した分類器を使って虚血および／または低酸素症および／またはそのグレードを診断する、方法である。

実施例
実施例１：マイクロＲＮＡおよびタンパク質データを使用する方法
最初の実施例として、マイクロＲＮＡおよびＧａｒｚｏｎＲ、ＧａｒｏｆａｌｏＭ、ＭａｒｔｅｌｌｉＭＰ、ＢｒｉｅｓｅｗｉｔｚＲ、ＷａｎｇＬ、Ｆｅｒｎａｎｄｅｚ−ＣｙｍｅｒｉｎｇＣ、ＶｏｌｉｎｉａＳ、ＬｉｕＣＧ、ＳｃｈｎｉｔｔｇｅｒＳ、ＨａｆｅｒｌａｃｈＴ、ＬｉｓｏＡ、ＤｉｖｅｒｉｏＤ、ＭａｎｃｉｎｉＭ、ＭｅｌｏｎｉＧ、ＦｏａＲ、ＭａｒｔｅｌｌｉＭＦ、ＭｅｃｕｃｃｉＣ、ＣｒｏｃｅＣＭ、ＦａｌｉｎｉＢ、細胞質変異ヌクレオフォスミンを有する急性骨髄性白血病の特徴的なマイクロＲＮＡサイン、ＰＮＡＳ２００８、１０５（１０）：３９４５−５０の臨床データを使用する。

これらのデータはＡｒｒａｙＥｘｐｒｅｓｓオンラインデータベースｈｔｔｐ：／／ｗｗｗ．ｅｂｉ．ａｃ．ｕｋ／ａｒｒａｙｅｘｐｒｅｓｓの受入番号Ｅ−ＴＡＢＭ−４２９から入手可能である。ＮＰＭ１およびＦＬＴ３変異の細胞内局在／変異の状態が特徴である８５例の新規成人ＡＭＬ患者の全てのマイクロＲＮＡデータが入手可能である。ハイブリダイゼーションは、オハイオ州立大学（ＯＳＵ−ＣＣＣ）総合がんセンターのＯＳＵ−ＣＣＣヒトおよびマウスマイクロＲＮＡ１１Ｋ
ｖ２マイクロアレイ共有リソースを使って行った。

ＮＰＭ１変異と細胞質ヌクレオフォスミン（ＮＰＭｃ＋ＡＭＬ）保有急性骨髄性白血病（ＡＭＬ）は、成人ＡＭＬの約１／３を占め、独特の遺伝子発現プロファイルを含む明確な特徴を示す。発明者はマイクロＲＮＡ発現値を使ってＮＰＭｃ＋変異（ｎ＝５５）を細胞質陰性（ＮＰＭｃ−、すなわち、未変異ＮＰＭ１）症例（ｎ＝３０）と区別した。

分析：
これらのデータに基づき分類器の開発と検証を行うために、我々は５分割交差検定と組み合わせてロジスティック回帰分析を使用した。この方法では、低レベル分析を含む各分析ステップが交差検定ステップ毎に繰り返される。さらに、我々は５分割交差検定を２０回繰り返した。これは実行可能な１つの例である。むろん、分割検体、ブートストラップまたは別のｋ−分割（ｋは５ではない）交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、収縮重心法正規化判別分析（ＲＤＡ）、ランダムフォレスト（ＲＦ）、ニューラルネットワーク（ＮＮ）、サポートベクターマシン（ＳＶＭ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。低レベル分析は、Ｈｕｂｅｒｅｔａｌ．（２００２）の分散安定化変換（正規化と呼ばれることが多い）［ＨｕｂｅｒＷ、ｖｏｎＨｅｙｄｅｂｒｅｃｋＡ、ＳｕｅｌｔｍａｎｎＨ、ＰｏｕｓｔｋａＡ、ＶｉｎｇｒｏｎＭ．分散安定化のマイクロアレイデータ検量および発現差異の定量化への適用、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２００２、１８：９６−１０４］および中央値を使った正規化反復の平均化で構成された。ここでも、使用可能な多くの別の方法がある。いくつかの例が、Ｌ．Ｍ．Ｃｏｐｅｅｔａｌ．、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２００４、２０（３）、３２３−３３１またはＲ．Ａ．Ｉｒｉｚａｒｒｙｅｔａｌ．、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２００６、２２（７）、７８９−７９４に報告されている。各交差検証ステップで、分類用として、５つの正規化および平均化したマイクロＲＮＡプローブを選択した。これらはマイクロＲＮＡプローブを超える最大のペアワイズ差中央値（絶対値で）を有し、またＭａｎｎ−Ｗｈｉｔｎｅｙ検定で０．０１以下のｐ値を有している。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、［Ｍ．Ａ．ＨａｌｌａｎｄＧ．Ｈｏｌｍｅｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ、１５（６）：１４３７−１４４７、２００３．］に記載されている。マイクロＲＮＡプローブは、５分割交差検定の２０回反復により全部で１００回まで選択することが可能である。

表２に得られたエラー推計値を示した。

５分割交差検定を使った場合の推計全体精度は、７９．９％である。第２ステップでは、これらマイクロＲＮＡアレイだけを使い、ＣＤ３４に関する情報（すなわち、ＣＤ３４陰性またはＣＤ３４陽性）を付加し；残されている５４のＮＰＭｃ＋および２９のＮＰＭｃ−試料を選択している。分類にＣＤ３４のみを使った場合の結果を表３に示す。全体精度は８５．５％である。

次に、上位５つのマイクロＲＮＡプローブの情報をＣＤ３４情報と組み合わせた場合、表４の結果が得られている。交差検定を使った場合の推計全体精度は８８．１％である。従って、この組み合わせにより、それぞれ７９．９％と８５．５％から８８．１％に向上している。

交差検定に使われたプローブを表５に示す

Ｇｒｉｆｆｉｔｈｓ−ＪｏｎｅｓＳ、ＳａｉｎｉＨＫ、ｖａｎＤｏｎｇｅｎＳ、ＥｎｒｉｇｈｔＡＪ．、ｍｉＲＢａｓｅ：マイクロＲＮＡゲノム科学のためのツール、ＮＡＲ２００８３６（Ｄａｔａｂａｓｅｌｓｓｕｅ）：Ｄ１５４−Ｄ１５８による既知のヒトマイクロＲＮＡに対するＳａｎｇｅｒ配列探索結果を表６に示す。

実施例２．１：ｍＲＮＡおよびマイクロＲＮＡ：結腸癌
Ｒａｍａｓｗａｍｙｅｔａｌ．（２００１）［ＲａｍａｓｗａｍｙＳ_、ＴａｍａｙｏＰ、ＲｉｆｋｉｎＲ、ＭｕｋｈｅｒｊｅｅＳ、ＹｅａｎｇＣＨ、ＡｎｇｅｉｏＭ、ＬａｄｄＣ、ＲｅｉｃｈＭ、ＬａｔｕｌｉｐｐｅＥ、ＭｅｓｉｒｏｖＪＰ、ＰｏｇｇｉｏＴＧｅｒａｌｄＷ、ＬｏｄａＭ、ＬａｎｄｅｒＥＳ、ＧｏｌｕｂＴＲ．、腫瘍遺伝子発現サインを使ったマルチクラス癌診断、ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２００１；９８（２６）：１５１４９−５４］およびＬｕｅｔａｌ．（２００５）［ＬｕＪ、ＧｅｔｚＧ、ＭｉｓｋａＥＡ、Ａｌｖａｒｅｚ−ＳａａｖｅｄｒａＥ、ＬａｍｂＪ、ＰｅｃｋＤ、Ｓｗｅｅｔ−ＣｏｒｄｅｒｏＡ、ＥｂｅｒｔＢＬ、ＭａｋＲＨ、ＦｅｒｒａｎｄｏＡＡ、ＤｏｗｎｉｎｇＪＲ、ＪａｃｋｓＴ、ＨｏｒｖｉｔｚＨＲ、ＧｏｌｕｂＴＲ．、マイクロＲＮＡ発現プロファイルによるヒト癌の分類、Ｎａｔｕｒｅ．２００５；４３５（７０４３）：８３４−８］の結腸癌データを使用してｍＲＮＡおよびマイクロＲＮＡデータを使ったマルチレベル分類器の開発を行う。データは、ＢｒｏａｄＩｎｓｔｉｔｕｔｅのホームページ［ｈｔｔｐ：／／ｗｗｗ．ｂｒｏａｄ．ｍｉｔ．ｅｄｕ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｂｒｏａｄ９００およびｈｔｔｐ：／／ｗｗｗ．ｂｒｏａｄ．ｍｉｔ．ｅｄｕ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｂｒｏａｄ９９３ｓ］から入手可能である。
全体として４つの正常組織および７つの腫瘍組織のｍＲＮＡおよびマイクロＲＮＡデータが入手可能である。マイクロＲＮＡプローブを含むビーズベースのアレイおよびｍＲＮＡ測定用ＡｆｆｙｍｅｔｒｉｘＨＵ６８００とＨＵ３５ＫｓｕｂＡアレイを使ってハイブリダイゼーションを行った。ＨＵ６８００アレイのｍＲＮＡデータのみを使用した。

分析：
これらのデータに基づいて分類器を開発および検証するために、ランダムフォレスト法［Ｂｒｅｉｍａｎ、Ｌ．ＲａｎｄｏｍＦｏｒｅｓｔｓ、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ２００１、４５（１）、５−３２］をｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定と組み合わせて使用し、低レベル分析を含む各分析ステップを交差検定ステップ毎に繰り返した。これは実行可能な１つの例である。むろん、分割検体、ブートストラップまたは別のｋ−分割（ｋは１ではない）交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、ロジスティック回帰分析、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、収縮重心法正規化判別分析（ＲＤＡ）、ニューラルネットワーク（ＮＮ）、サポートベクターマシン（ＳＶＭ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。前処理（低レベル分析とも呼ばれる）は、マイクロＲＮＡおよびｍＲＮＡデータの場合には、Ｈｕｂｅｒｅｔａｌ（２００２）の分散安定化変換（正規化と呼ばれることが多い）により構成されている。ここでも、使用可能な多くの別の方法がある。いくつかの例が、Ｃｏｐｅｅｔａｌ．（２００４）またはＩｒｉｚａｒｒｙｅｔａｌ．（２００６）に報告されている。各交差検定ステップで、分類用として、６つの正規化マイクロＲＮＡプローブと、これらのプローブを超える最大のペアワイズ差中央値（絶対値で）を有し、Ｍａｎｎ−Ｗｈｉｔｎｅｙ検定で０．１以下のｐ値を有している６つの正規化ｍＲＮＡプローブをそれぞれ選択した。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、［Ｍ．Ａ．ＨａｌｌａｎｄＧ．Ｈｏｌｍｅｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ、１５（６）：１４３７−１４４７、２００３．］に記載されている。マイクロＲＮＡプローブ、ｍＲＮＡプローブはそれぞれ、ＬＯＯ交差検定により全部で１１回まで選択することが可能である。

マイクロＲＮＡデータのみを使って表７の推計値エラーを得た。

すなわち、８５．７％の感度と１００.０％の特異性が観察された。陽性的中率は１００．０％で、陰性的中率は８０％である。ＬＯＯ交差検定を使った推計全体精度は９０．９％である。

次のステップでは、ＨＵ６８００アレイのｍＲＮＡデータを使った。結果は表８から読み取ることができる。ＬＯＯ交差検定を再度使用した推計全体精度は７２.７％である。推計感度は８５.７％、推計特異性は５０％、推計陽性的中率は７５.０％、推計陰性的中率は６６．７％である。

最後のステップでは、マイクロＲＮＡおよびｍＲＮＡデータを組み合わせ、表９の結果を得た。すなわち、公差検定を使った推計全体精度は１００．０％である。従って、この組み合わせは全体精度がそれぞれ９０．９％と７２．７％から１００．０％に向上する。同様に、感度、特異性、陽性的中率および陰性適中率が１００％に向上する。

公差検定で選択されたマイクロＲＮＡプローブを表１０に示す。

既知ヒトマイクロＲＮＡに対するＳａｎｇｅｒ配列探索（Ｇｒｉｆｆｉｔｈｓ−ＪｏｎｅｓＳ、ＳａｉｎｉＨＫ、ｖａｎＤｏｎｇｅｎＳ、ＥｎｒｉｇｈｔＡＪ．ｍｉＲＢａｓｅ：マイクロＲＮＡゲノム科学のためのツール、ＮＡＲ２００８３６（Ｄａｔａｂａｓｅｌｓｓｕｅ）：Ｄ１５４−Ｄ１５８を参照）の結果を表１１に示す。

公差検定中に選択されたｍＲＮＡを表１２に示す。プローブ配列は、Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージのｈｕ６８００ｐｒｏｂｅ［ＴｈｅＢｉｏｃｏｎｄｕｃｔｏｒＰｒｏｊｅｃｔ、ｗｗｗ．ｂｉｏｃｏｎｄｕｃｔｏｒ．ｏｒｇ（２００８）．ｈｕ６８００ｐｒｏｂｅ：ｈｕ６８００．Ｒｐａｃｋａｇｅｖｅｒｓｉｏｎ２．２．０型マイクロアレイ用プローブ配列データ］から得た。
中間のアミノ酸を変性することにより、より具体的には、ＡをＴに、ＴをＡに、ＧをＣに、さらにＣをＧにそれぞれ変えることによりミスマッチ（ＭＭ）プローブを得た。プローブはそれぞれ長さ２５で、すなわちそれぞれ１３アミノ酸が置き換えられている。

選択したｍＲＮＡプローブの注釈を表１３に示す。この注釈は、Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージｈｕ６８００．ｄｂ［ＭａｒｃＣａｒｌｓｏｎ、ＳｅｔｈＦａｌｃｏｎ、ＨｅｒｖｅＰａｇｅｓａｎｄＮｉａｎｈｕａＬｉ（２００８）、ｈｕ６８００．ｄｂ：ＡｆｆｙｍｅｔｒｉｘＨｕＧｅｎｅＦＬゲノムアレイ注釈データ（ｃｈｉｐｈｕ６８００）、Ｒｐａｃｋａｇｅｖｅｒｓｉｏｎ２．２．３］の情報とＰｕｂＭｅｄ［ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｕｂｍｅｄ／］経由の情報とを組み合わせて得たものである。

実施例２．２：ｍＲＮＡおよびマイクロＲＮＡ：腎臓癌
Ｒａｍａｓｗａｍｙｅｔａｌ．（２００１）［ＲａｍａｓｗａｍｙＳ_、ＴａｍａｙｏＰ、ＲｉｆｋｉｎＲ、ＭｕｋｈｅｒｊｅｅＳ、ＹｅａｎｇＣＨ、ＡｎｇｅｉｏＭ、ＬａｄｄＣ、ＲｅｉｃｈＭ、ＬａｔｕｌｉｐｐｅＥ、ＭｅｓｉｒｏｖＪＰ、ＰｏｇｇｉｏＴＧｅｒａｌｄＷ、ＬｏｄａＭ、ＬａｎｄｅｒＥＳ、ＧｏｌｕｂＴＲ．、腫瘍遺伝子発現サインを使ったマルチクラス癌診断、ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２００１；９８（２６）：１５１４９−５４］およびＬｕｅｔａｌ．（２００５）［ＬｕＪ、ＧｅｔｚＧ、ＭｉｓｋａＥＡ、Ａｌｖａｒｅｚ−ＳａａｖｅｄｒａＥ、ＬａｍｂＪ、ＰｅｃｋＤ、Ｓｗｅｅｔ−ＣｏｒｄｅｒｏＡ、ＥｂｅｒｔＢＬ、ＭａｋＲＨ、ＦｅｒｒａｎｄｏＡＡ、ＤｏｗｎｉｎｇＪＲ、ＪａｃｋｓＴ、ＨｏｒｖｉｔｚＨＲ、ＧｏｌｕｂＴＲ．、マイクロＲＮＡ発現プロファイルによるヒト癌の分類、Ｎａｔｕｒｅ．２００５；４３５（７０４３）：８３４−８］の腎臓癌データを使用してｍＲＮＡおよびマイクロＲＮＡデータを用いたマルチレベル分類器の開発を行った。データは、ＢｒｏａｄＩｎｓｔｉｔｕｔｅのホームページ［ｈｔｔｐ：／／ｗｗｗ．ｂｒｏａｄ．ｍｉｔ．ｅｄｕ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｂｒｏａｄ９００およびｈｔｔｐ：／／ｗｗｗ．ｂｒｏａｄ．ｍｉｔ．ｅｄｕ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｂｒｏａｄ９９３ｓを参照］から入手可能である。全体として３つの正常組織および４つの腫瘍組織のｍＲＮＡおよびマイクロＲＮＡデータが入手可能である。マイクロＲＮＡプローブを含むビーズベースのアレイおよびｍＲＮＡ測定用ＡｆｆｙｍｅｔｒｉｘＨＵ６８００とＨＵ３５ＫｓｕｂＡアレイを使ってハイブリダイゼーションを行った。ＨＵ３５ＫｓｕｂＡアレイのｍＲＮＡデータのみを使用した。

分析：
これらのデータに基づいて分類器の開発と検証を行うために、単一隠れ層ニューラルネットワーク［Ｒｉｐｌｅｙ、Ｂ．Ｄ．（１９９６）、パターン認識とニューラルネットワーク、Ｃａｍｂｒｉｄｇｅ］をｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定と組み合わせて使用し、低レベル分析を含む各分析ステップを交差検定ステップ毎に繰り返した。これは実行可能な１つの例である。むろん、分割検体、ブートストラップまたは別のｋ−分割（ｋは１ではない）交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、ロジスティック回帰分析、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、収縮重心法正規化判別分析（ＲＤＡ）、ランダムフォレスト（ＲＦ）、サポートベクターマシン（ＳＶＭ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。低レベル分析（前処理）は、マイクロＲＮＡおよびｍＲＮＡデータの場合には、Ｈｕｂｅｒｅｔａｌ（２００２）の分散安定化変換（正規化と呼ばれることが多い）により構成されている。ここでも、使用可能な多くの別の方法がある。いくつかの例が、Ｃｏｐｅｅｔａｌ．（２００４）またはＩｒｉｚａｒｒｙｅｔａｌ．（２００６）に報告されている。各交差検定ステップで、分類用として、６つの正規化マイクロＲＮＡプローブと、これらのプローブを超える最大のペアワイズ差平均値（絶対値で）を有し、Ｗｅｌｃｈｔ検定で０．１以下のｐ値を有している６つの正規化ｍＲＮＡプローブをそれぞれ選択した。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、Ｈａｌｌｅｔａｌ．（２００３）に記載されている。

マイクロＲＮＡプローブ、ｍＲＮＡプローブはそれぞれ、ＬＯＯ交差検定により全部で７回まで選択することが可能である。マイクロＲＮＡデータのみを使って表１４の推計分類エラーを得た。

ＬＯＯ交差検定を使った推計全体精度は４２．９％、感度は５０％、特異性は３３．３％、陽性的中率は５０％および陰性適中率は３３．３％］である。

次のステップでは、ＨＵ３５ＫｓｕｂＡアレイのｍＲＮＡデータを使用した。結果は表１５から読みとれる。ＬＯＯ交差検定を使って、推計全体精度４２．９％を得た。特異性、陽性および陰性適中率の推計値は、それぞれ５０％、３３．３％、５０％および３３．３％である。

最終ステップでは、マイクロＲＮＡとｍＲＮＡデータを組み合わせて、得られた結果を表１６に示す。すなわち、交差検定を使ったときの推計全体精度は７１．４％である。従って、この組み合わせにより、全体精度が４２．９％から７１．４％に向上する。感度、特異性、陽性および陰性適中率は、それぞれ７５．０％、６６．７％、７５．０％および６６．７％に向上する。

公差検定中に選択されたマイクロＲＮＡプローブを表１７に示す。

既知ヒトマイクロＲＮＡに対するＧｒｉｆｆｉｔｈｓ−Ｊｏｎｅｓｅｔａｌ．（２００８）によるＳａｎｇｅｒ配列探索の結果を表１８に示す。

公差検定中に選択されたｍＲＮＡプローブを表１９に示す。プローブの配列は、Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージｈｕ３５ｋｓｕｂａｐｒｏｂｅ（ＴｈｅＢｉｏｃｏｎｄｕｃｔｏｒＰｒｏｊｅｃｔ、ｗｗｗ．ｂｉｏｃｏｎｄｕｃｔｏｒ．ｏｒｇ（２００８）．ｈｕ３５ｋｓｕｂａｐｒｏｂｅ：マイクロアレイタイプｈｕ３５ｋｓｕｂａＲｐａｃｋａｇｅｖｅｒｓｉｏｎ２．２．０用プローブ配列データ、を参照）から得た。

選択したｍＲＮＡプローブの注釈を表２０に示す。この注釈は、Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージｈｕ３５ｋｓｕｂａ．ｄｂ［ＭａｒｃＣａｒｌｓｏｎ、ＳｅｔｈＦａｌｃｏｎ、ＨｅｒｖｅＰａｇｅｓａｎｄＮｉａｎｈｕａＬｉ（２００８）．ｈｕ３５ｋｓｕｂａ．ｄｂ：ＡｆｆｙｍｅｔｒｉｘヒトゲノムＨＵ３５Ｋセット注釈データ（ｃｈｉｐｈｕ３５ｋｓｕｂａ）．Ｒｐａｃｋａｇｅｖｅｒｓｉｏｎ２．２．３．］の情報とＰｕｂＭｅｄ［ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｕｂｍｅｄ／］経由の情報とを組み合わせて得たものである。

実施例２．３：ｍＲＮＡおよびマイクロＲＮＡ、前立腺癌
Ｒａｍａｓｗａｍｙｅｔａｌ．（２００１）［ＲａｍａｓｗａｍｙＳ_、ＴａｍａｙｏＰ、ＲｉｆｋｉｎＲ、ＭｕｋｈｅｒｊｅｅＳ、ＹｅａｎｇＣＨ、ＡｎｇｅｉｏＭ、ＬａｄｄＣ、ＲｅｉｃｈＭ、ＬａｔｕｌｉｐｐｅＥ、ＭｅｓｉｒｏｖＪＰ、ＰｏｇｇｉｏＴ、ＧｅｒａｌｄＷ、ＬｏｄａＭ、ＬａｎｄｅｒＥＳ、ＧｏｌｕｂＴＲ．、腫瘍遺伝子発現サインを使ったマルチクラス癌診断、ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２００１；９８（２６）：１５１４９−５４］およびＬｕｅｔａｌ．（２００５）［ＬｕＪ、ＧｅｔｚＧ、ＭｉｓｋａＥＡ、Ａｌｖａｒｅｚ−ＳａａｖｅｄｒａＥ、ＬａｍｂＪ、ＰｅｃｋＤ、Ｓｗｅｅｔ−ＣｏｒｄｅｒｏＡ、ＥｂｅｒｔＢＬ、ＭａｋＲＨ、ＦｅｒｒａｎｄｏＡＡ、ＤｏｗｎｉｎｇＪＲ、ＪａｃｋｓＴ、ＨｏｒｖｉｔｚＨＲ、ＧｏｌｕｂＴＲ．、マイクロＲＮＡ発現プロファイルによるヒト癌の分類、Ｎａｔｕｒｅ．２００５；４３５（７０４３）：８３４−８］の前立腺癌データを使ってｍＲＮＡおよびマイクロＲＮＡデータを用いたマルチレベル分類器の開発を行う。データは、ＢｒｏａｄＩｎｓｔｉｔｕｔｅのホームページ［ｈｔｔｐ：／／ｗｗｗ．ｂｒｏａｄ．ｍｉｔ．ｅｄｕ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｂｒｏａｄ９００およびｈｔｔｐ：／／ｗｗｗ．ｂｒｏａｄ．ｍｉｔ．ｅｄｕ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｂｒｏａｄ９９３ｓを参照］から入手可能である。全体として６つの正常組織および６つの腫瘍組織のｍＲＮＡおよびマイクロＲＮＡデータが入手可能である。マイクロＲＮＡプローブを含むビーズベースのアレイおよびｍＲＮＡ測定用ＡｆｆｙｍｅｔｒｉｘＨＵ６８００とＨＵ３５ＫｓｕｂＡアレイを使ってハイブリダイゼーションを行った。ＨＵ６８００アレイのｍＲＮＡデータのみを使用した。

分析：
これらのデータに基づいて分類器の開発と検証を行うために、線形判別分析をｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定と組み合わせて使用し、低レベル分析を含む各分析ステップを交差検定ステップ毎に繰り返した。これは実行可能な１つの例である。むろん、分割検体、ブートストラップまたは別のｋ−分割（ｋは１ではない）交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、ロジスティック回帰分析、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、収縮重心法正規化判別分析（ＲＤＡ）、ランダムフォレスト（ＲＦ）、ニューラルネットワーク（ＮＮ）、サポートベクターマシン（ＳＶＭ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。低レベル分析は、マイクロＲＮＡおよびｍＲＮＡデータの場合には、Ｈｕｂｅｒｅｔａｌ（２００２）の分散安定化変換（正規化と呼ばれることが多い）により構成されている。ここでも、使用可能な多くの別の方法がある。いくつかの例が、Ｃｏｐｅｅｔａｌ．（２００４）またはＩｒｉｚａｒｒｙｅｔａｌ．（２００６）に報告されている。各交差検定ステップで、分類用として、２つの正規化マイクロＲＮＡプローブと、これらマイクロＲＮＡプローブを超える最大のペアワイズ差中央値（絶対値で）を有し、Ｍａｎｎ−Ｗｈｉｔｎｅｙ検定で０．０１以下のｐ値を有している４つの正規化ｍＲＮＡプローブをそれぞれ選択した。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、Ｈａｌｌｅｔａｌ．（２００３）に記載されている。

マイクロＲＮＡ、ｍＲＮＡプローブはそれぞれ、ＬＯＯ交差検定により全部で１２回まで選択することが可能である。マイクロＲＮＡデータのみを使って表２１の推計分類エラーを得た。

ＬＯＯ交差検定を使った推計全体精度は９１．７％である。感度、特異性、陽性および陰性適中率はそれぞれ、８３．３％、１００％、１００％および８５．７％である。

第２ステップでは、ＨＵ６８００アレイのｍＲＮＡデータを使用した。結果は表２２から読み取れる。ＬＯＯ交差検定を使って推計全体精度７５．０％を得た。感度、特異性、陽性および陰性適中率はそれぞれ、８３．３％、６６．７％、７１．４％および８０．０％である。

最終ステップでは、マイクロＲＮＡおよびｍＲＮＡデータを組み合わせ、表２２の結果を得た。すなわち、交差検定を使った推計全体精度は９１．７％である。感度、特異性、陽性および陰性適中率はそれぞれ、１００．０％、８３．３％、８５．７％および１００．０％である。従って、この組み合わせにより、感度が（癌試料の正確な分類）８３．３％から１００．０％に上がり、また、陰性適中率がそれぞれ８５．７％と８０．０％から１００．０％に向上する。

交差検定中に用いたマイクロＲＮＡを表２４に示す。

Ｇｒｉｆｆｉｔｈｓ−Ｊｏｎｅｓｅｔａｌ．（２００８）による既知ヒトマイクロＲＮＡのＳａｎｇｅｒ配列探索の結果を表２５に示す。

交差検定中に選択されたｍＲＮＡプローブを表２６に示す。プローブ配列は、Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージのｈｕ６８００ｐｒｏｂｅ［ＴｈｅＢｉｏｃｏｎｄｕｃｔｏｒＰｒｏｊｅｃｔ、ｗｗｗ．ｂｉｏｃｏｎｄｕｃｔｏｒ．ｏｒｇ（２００８）．ｈｕ６８００ｐｒｏｂｅ：ｈｕ６８００．Ｒｐａｃｋａｇｅｖｅｒｓｉｏｎ２．２．０型マイクロアレイ用プローブ配列データ］から得た。

選択したｍＲＮＡプローブの注釈を表２７に示す。この注釈は、Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージｈｕ６８００．ｄｂ［ＭａｒｃＣａｒｌｓｏｎ、ＳｅｔｈＦａｌｃｏｎ、ＨｅｒｖｅＰａｇｅｓａｎｄＮｉａｎｈｕａＬｉ（２００８）．ｈｕ６８００．ｄｂ：Ａｆｆｙｍｅｔｒｉｘゲノムアレイ注釈データ（ｃｈｉｐｈｕ６８００）Ｒｐａｃｋａｇｅｖｅｒｓｉｏｎ２．２．３］の情報とＰｕｂＭｅｄ［ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｐｕｂｍｅｄ／］経由の情報とを組み合わせて得たものである。

実施例３：代謝物およびｍＲＮＡ：虚血／低酸素
虚血および低酸素
早期診断を行うことによりタイムリーな介入と適切な治療の選択に必要な重要な時間を手に入れることになり、その結果、致命的な持続性脳損傷を防ぐことになる。先進国の乳幼児に関する限りは、ここ数十年、早産患者の割合が増え、今では全出生数の１２％にまで達している［ＭａｒｔｉｎＪＡ、ＨａｍｉｌｔｏｎＢＥ、ＳｕｔｔｏｎＰＤｅｔａｌ．出生：２００４年期末データ。ＮａｔｌＶｉｔａｌＳｔａｔＲｅｐ．２００６；５５：１−１０１；ＭａｒｔｉｎＪＡ、ＨａｍｉｌｔｏｎＢＥ、ＳｕｔｔｏｎＰＤｅｔａｌ．出生：２００５年期末データ。ＮａｔｌＶｉｔａｌＳｔａｔＲｅｐ．２００７；５６：１−１０３］。

また、発達脳損傷およびその後に起こる神経学的後遺症は患者とその家族にとっていまだ大きな苦しみであり、重要な社会経済的問題になっている。
ヒトの虚血／低酸素や脳卒中状態や周産期の成人患者および未熟児の脳病変の状態の早期発見により、成功する治療法の適用が可能となり、また、これらの方法の結果を管理することが可能となる。

ラット低酸素モデルから得られた虚血データを使って脳検体由来の代謝物データと血漿由来のｑＰＣＲデータを用いたマルチレベル分類器の開発を行う。

動物モデル
Ｒｉｃｅ−Ｖａｎｕｃｃｉ製法によるＨＩ脳損傷の生後７日目（Ｐ７）のラットモデルを使用した［ＲｉｃｅＪＥ、ＩＩＩ、ＶａｎｎｕｃｃｉＲＣ、ＢｒｉｅｒｌｅｙＪＢ、ラットにおいて未成熟が低酸素性虚血性脳損傷に及ぼす影響、ＡｎｎＮｅｕｒｏｌ．１９８１；９：１３１−１４１］。

Ｓｐｒａｇｕｅ−Ｄａｗｌｅｙラットの両性の子供（ＣｈａｒｌｅｓＲｉｖｅｒ、Ｗｉｌｍｉｎｇｔｏｎ、ＭＡ、Ｕ．Ｓ．Ａ．から）をａ）実験群とｂ）時間群にランダムに割り付けた。動物の手術のため、酸素中３％イソフルランの吸入により麻酔をかけ、正中切開により右頚動脈にアクセスして二重縫合および恒久切開により外科的結紮を行った。この処置は、室温（２３〜２５℃）で行った。首の創傷を閉じた後、ラットの子供を２時間雌親のところに戻した。全外科手術は１０分以内に終わった。次にラットの子供を８％酸素の低酸素に１００分間曝した。痛みと不快感を最小限にする適切な手段を講じて、ＥＣ共同体の実験動物の使用に関するガイドラインを遵守した。試験プロトコルはオーストリア動物実験委員会に承認された。
麻酔、首切開および結紮なしの血管操作または低酸素処理を受けて偽手術された動物は、少しの損傷もなく維持された。動物は、低酸素暴露後ｉ）直ちに（Ｐ７）、ｉｉ）２４時間後（Ｐ８）、ｉｉｉ）５日後（Ｐ１２）に安楽死させられ、脳を集めてＰＢＳですすぎ、すぐに液体窒素で凍結して次の調製まで−７０℃で保存した。

試料調製
脳試料を氷の上で１時間解凍し、ＰＢＳ緩衝液（燐酸塩緩衝食塩水、０．１μｍｏｌ／Ｌ；シグマアルドリッチ、ビエンナ、オーストリア）を組織試料に３：１（ｗ／ｖ）の比率で添加してホモジネートを調製した。９ｇを氷の上でＰｏｔｔｅｒＳホモジナイザー（Ｓａｒｔｏｒｉｕｓ、ゲッチンゲン、ドイツ）を使って１分間ホモジナイズした。全試料を１バッチで分析できるようにするため、試料を再度凍結し（−７０℃）、分析の日に氷の上で解凍して（１ｈ）、２℃で１８０００ｇ５分の遠心分離をかけた。自動酸化を防ぐため、全チューブに０．００１％のＢＨＴ（ブチルヒドロキシトルエン；シグマアルドリッチ、ビエンナ、オーストリア）を加えて調製した［Ｍｏｒｒｏｗ、Ｊ．Ｄ．ａｎｄＬ．Ｊ．Ｒｏｂｅｒｔｓ、プロスタノイドの質量分析：非シクロオキシゲナーゼフリーラジカル触媒機構により作成したＦ２イソプロスタン、ＭｅｔｈｏｄｓＥｎｚｙｍｏｌ．２３３（１９９４）：１６３−７４］。９つの対照および７つの虚血性動物の試料から得た全体のデータを処理した。代謝物濃度を市販キット（ＭａｒｋｅｒＩＤＱ（登録商標）、ＢｉｏｃｒａｔｅｓＡＧ、インスブルック、オーストリア）ならびに下記の他の質量分析ベースの方法を使って測定した。

抽出した試料を新規開発のオンライン固相抽出液体クロマトグラフィータンデム型質量分析法（オンラインＳＰＥ−ＬＣ−ＭＳ／ＭＳ）を使って分析した。全処理（試料取り扱い、分析）は群について知らされていない共同研究者が実施した。
脳ホモジネート中の脂肪酸代謝物由来の遊離プロスタグランジンとリポキシゲナーゼの同時定量のため、Ｕｎｔｅｒｗｕｒｚａｃｈｅｒｅｔａｌにより記載された脳組織のためのＬＣ−ＭＳ／ＭＳベースの方法を使った［ＵｎｔｅｒｗｕｒｚａｃｈｅｒＩ、ＫｏａｌＴ、ＢｏｎｎＧＫｅｔａｌ、小容量試料の液体クロマトグラフィー質量分析による脂肪酸代謝物由来のプロスタグランジンとリポキシゲナーゼ急速試料調製および同時定量、ＣｌｉｎＣｈｅｍＬａｂＭｅｄ．２００８；４６：１５８９−１５９７］。脳試料分析の間に観察されたマトリックス効果のため、オンラインＳＰＥカラムとしてＣ１８ＯａｓｉｓＨＬＢカラム（２．１ｘ２０ｍｍ、２５μｍ粒径；Ｗａｔｅｒｓ、ビエンナ、オーストリア）を使うクロマトグラフ分離の前に、オンライン固相抽出（ＳＰＥ）ステップを実施した。適切な内部標準に対する参照、および最も感度と選択性の高いエレクトロスプレーイオン化（ＥＳＩ）多段反応モニタリング（ＭＲＭ）ＭＳ／ＭＳ検出モードの使用により抽出生体試料中の代謝物の定量化を行った。この方法は組織試料ホモジネートに対し、「業界向けガイダンス−生物学的分析法検証」、アメリカ合衆国保健社会福祉省、食品医薬品局、２００１に従って検証された。オンラインＳＰＥ−ＬＣ−ＭＳ／ＭＳ分析のため、２０μＬの抽出ホモジネートを注入した。

ＲＮＡ抽出および相補ＤＮＡ合成：
新生ＲＮＵラットの２分割脳半球を１ｍｌのトリゾール試薬（ＩｎｖｉｔｒｏｇｅｎＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、オーストリア）中に集め、液体窒素中で凍結し、次の処理まで−８０℃で保存した。ＲＮＡ抽出をメーカーのインストラクションに従って行った。簡単に説明すると、脳半球をトリゾール中でｍｉｃｒｏｐｉｓｔｉｌｌを使って氷上でホモジナイズした。完全にホモジナイズした後、クロロホルム抽出ステップによりＲＮＡ含有水相が得られ、次いでイソプロピルアルコールによる沈殿が生成する。７５％エタノールによる２回の洗浄ステップ後、短時間空気乾燥したＲＮＡを、再度ＤＥＰＣ−処理水に再懸濁し、ＵＶ分光光度計（Ｕｌｔｒｏｓｐｅｃ３３００ｐｒｏ、アマシャム、米国）を使ってＲＮＡ濃度を測定し、相補ＤＮＡ合成処理まで−８０℃で保存した。
逆転写（ＲＴ）の前に、合計１μｇのＲＮＡを、メーカーのインストラクションに従ってＤＮａｓｅＩ（ＲＮａｓｅ不含）（デオキシリボヌクレアーゼＩ、Ｆｅｒｍｅｎｔａｓ、ドイツ）で処理し、含まれている可能性のあるＤＮＡを除去した。ＤＮａｓｅＩ処理後、ＲｅｖｅｒｔＡｉｄＭ−ＭｕＬＶ逆転写酵素（Ｆｅｒｍｅｎｔａｓ、ドイツ）を使って試料を処理し相補性ＤＮＡを合成した。各反応は、５ｘＲＴ反応緩衝液、１０ｍＭデオキシリボヌクレオチド３リン酸塩混合物（ｄＮＴＰ）、０、２μｇ／μｌランダム六量体プライマー、ＲＮａｓｅ抑制剤およびＲｅｖｅｒｔＡｉｄＭ−ＭｕＬＶ−ＲＴ（全てＦｅｒｍｅｎｔａｓ、ドイツから入手）で構成された。２５℃で１０分間、次いで水浴中４２℃で６０分間試料をインキュベートした。７０℃で１０分間加熱し、次いで氷上で冷却することにより反応を停止した。ＢｉｏＲａｄｉＣｙｃｌｅｒｉＱを使った定量リアルタイムＰＣＲ処理まで、相補ＤＮＡ試料を−２０℃で保存した。定量リアルタイムＰＣＲ用テンプレートとして使用する前に、相補ＤＮＡ試料を１：１０に予備希釈した。

定量リアルタイムＰＣＲ（ｑ−ＲＴ−ＰＣＲ）：
全容量２５μｌの９６ウエルで光学的に透明な接着シール（ＢｉｏＲａｄＬａｂｏｒａｔｏｒｉｅｓ、オーストリア）で被覆された０．２ｍｌ薄肉ＰＣＲプレートで定量リアルタイムＰＣＲを行った。このリアルタイムＰＣＲ反応混合物は、１ｘｉＱＳＹＢＲＧｒｅｅｎＳｕｐｅｒｍｉｘ（ＢｉｏＲａｄＬａｂｏｒａｔｏｒｉｅｓ、オーストリア）、０．４μＭの各遺伝子特異的プライマーおよび５μｌの予備希釈した相補ＤＮＡで構成した。最初、混合物を９５°Ｃで３分間加熱してｉＴａｑＤＮＡポリメラーゼを活性化し、次に、９５°Ｃで２０秒間の変性と６０℃で４５秒のアニーリングで構成される４５サイクルを行った。増幅後、融解曲線分析を追加し、ＰＣＲ生成物特異性を確認した。テンプレートを含まないコントロールではシグナルが検出されなかった。結果をｉＣｙｃｌｅｒｉＱ５ＯｐｔｉｃａｌＳｙｓｔｅｍＳｏｆｔｗａｒｅＶｅｒｓｉｏｎ２．０（ＢｉｏＲａｄＬａｂｏｒａｔｏｒｉｅｓ、オーストリア）を使って解析した。ベースラインをマニュアルで設定し、スレッシュホールドをソフトウェアで自動的に設定した。増幅曲線とスレッシュホールドラインとの交点がスレッドホールドサイクル（Ｃｔ値）である。全試料を３回測定し、平均値を以降の計算に使用した。最適化処理中、全遺伝子特異的プライマー対で勾配ＰＣＲを行い最適アニール温度を求めた。ＰＣＲ産物を臭化エチジウム含有２％アガロースゲルにロードし増幅産物の特異性、およびプライマー二量体の形成の無いことを確認した。
使用した遺伝子特異的プライマー対の配列を表２８に示す（１列目は配列番号）。

ｑＰＣＲの分析およびメタボロミクスデータ：
これらのデータにもとづいた分類器の開発と検証のために、サポートベクターマシン［Ｓｃｈｏｌｌｋｏｐｆ、Ｂ．ａｎｄＳｍｏｌａ、Ａ．（２００１）カーネル学習：サポートベクターマシン、正則化、最適化、そして次へ、ＭＩＴＰｒｅｓｓ、Ｃａｍｂｒｉｄｇｅ］をｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定と組み合わせて使用し、低レベル分析を含むそれぞれの分析ステップを公差検定ステップ毎に繰り返した。これは実行可能な１つの例である。むろん、分割検体、ブートストラップまたは別のｋ−分割（ｋは１ではない）交差検定、等の手法を使うことも可能であった。さらに、別のクラスの分類関数、例えば、ロジスティック回帰分析、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、収縮重心法正規化判別分析（ＲＤＡ）、ランダムフォレスト（ＲＦ）、ニューラルネットワーク（ＮＮ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、バッギング、ブースティング、単純ベイズ、等々を使うことも可能であった。低レベル分析は、代謝物データの場合には、バイナリー対数（すなわち、底が２の対数）を使った分散安定化変換により構成されている。各交差検定ステップで、４つの正規化代謝物を選択した。選択した代謝物はこれらのプローブを超える最大のペアワイズ差平均値（絶対値で）、ならびに、０．１以下のＷｅｌｃｈｔ検定ｐ値を有している。これは、いわゆる特徴選択用のランカーである。またここでも、使用可能な多くの他の特徴選択方策があり、いくつかの例が、Ｈａｌｌｅｔａｌ．（２００３）に記載されている。ＬＯＯ交差のために代謝物は１６回まで選択、可能である。

メタボロミクスデータのみを使用して表２９の推計エラーを得た。

ＬＯＯ交差検定を使った推計全体精度は６２．５％、感度は５７．１％、特異性は６６．７％、陽性的中率は５７．１％および陰性適中率は６６．７％である。

第２ステップで、ＳＤＦ１とＶＥＧＦ用に得られたｑＰＣＲデータを使った。ＰＣＲデータを参照遺伝子βアクチンにより正規化した。分類結果は表３０から読み取れる。ＬＯＯ交差検定を使って推計全体精度６８．９％を得ている。感度、特異性、陽性および陰性適中率推計値は、それぞれ５７．１％、７７．８％、６６．７％および７０．０％である。

最終ステップで、代謝物およびｑＰＣＲデータを組み合わせ、表３１の結果を得た。すなわち、交差検定を使った推計全体精度は７５．０％である。従って、この組み合わせにより、全体精度がそれぞれ、６２．５％と６８．９％から７５．０％に向上した。感度、特異性、陽性および陰性適中率は、それぞれ７１．４％、７７．８％、７１．４％および７７．８％である。すなわち、全体精度と共に、感度ならびに陽性および陰性適中率が向上している。

交差検定中に選択された代謝物を表３２に示す。

表３２で、合計選択回数は６４回であるが、それぞれの代謝物毎に１６回の選択が可能であった。

本発明の実施形態
一実施形態では、最初、診断、または反応または生存予後診断の必要な患者から生体試料を入手する。第２ステップで、ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の量を決め、生体試料から秤量採取する。第３ステップで、試料中のＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の量を検出し、正常細胞または非癌細胞または組織または血漿中に存在するそれぞれの生体分子の標準量、あるいは、対照試料中のＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の量と比較する。
試料中のＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の量が、標準試料または対照試料中のＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の量と異なる場合は、前述の（表１）ように、ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物を含む少なくとも２つの群／種の生体分子を使った濃度データの処理および分類および分類器の生成にょり、病的状態に属する値またはスコアをもたらし、ある確率で、患者が癌に罹っていると診断される、癌治療に対し低い反応期待値が予測される、あるいは低い患者生存期待値が予測されることになる。予後は、正常なレベルのＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物を有する癌患者に対し相対的、または多因子疾患を有する患者の応答や生存の平均的予測に対し相対的なものである。また、多因子疾患の状態は中毒および薬物乱用が原因でありうることも明らかである。

多因子疾患を検出または診断する方法、反応期待値を予測する方法、または生存期待値を予測する方法の別の実施形態は次のステップを含む。最初のステップで、ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物を含む生体試料を患者から入手する。この生体試料をＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物に結合可能な試薬と反応させる。試薬とマイクロＲＮＡの間の反応で測定可能なＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の産物または複合体が形成される。この測定可能なＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の産物または複合体を測定し、データを処理して図１に示したステップによりスコアを求めて、標準値または対照値と比較する。

本実施例は、本発明による方法には、一個人由来の明確に異なる組織から得られた上述のタイプの生体分子の定量データからの分析および分類器生成が含まれることを示す。また、本実施例は、病気の生命体の異なる部位からのデータはバイオマーカー／分類器の記述に寄与するため、多因子疾患に関連した特徴的な状態を認識する点で好都合であることを示している。

本発明は、本発明が意図する多因子疾患進行に関し何らかのリスクがある、任意のヒトを含む哺乳類患者に適用することができる。

本発明に使われる試料は、当業者に既知のいずれかの手段により入手可能である。好ましい試料として、手術で除去された腫瘍等の癌性であると思われる組織や癌細胞を含む血液も含んでもよい。しかし、本発明は多因子疾患が原因で変質した（ＲＮＡ、マイクロＲＮＡ、タンパク質、ペプチド、代謝物、等の生体分子濃度に関して）と考えられる組織にのみ限定されるものではない。それよりむしろ、試料が、多因子疾患、特に、癌に罹っていると思われる少なくとも一部の組織や細胞を含む患者の任意の部位に由来しても、および／または、癌組織や細胞に曝されるか接触したことがある、または特定の生体分子を体内に送り届ける血液等の体液に接触した組織や細胞に由来しても良い。

ＲＮＡまたはマイクロＲＮＡを定量する方法に関する別の実施例は、次の通りである：ＲＮＡまたはマイクロＲＮＡの少なくとも一部を蛍光核酸とハイブリダイズし、ハイブリダイズしたＲＮＡまたはマイクロＲＮＡを蛍光試薬と反応させ、ＲＮＡまたはマイクロＲＮＡに蛍光を発光させる。
試料中のＲＮＡまたはマイクロＲＮＡの量を定量する別の方法は、ＲＮＡまたはマイクロＲＮＡの少なくとも一部を放射線標識した相補的な核酸にハイブリダイズする方法である。ＲＮＡまたはマイクロＲＮＡにハイブリダイズすることが可能な核酸が測定ステップで使える場合で、マイクロＲＮＡのケースでは、核酸は長さが、少なくとも５ヌクレオチド、少なくとも１０ヌクレオチド、少なくとも１５ヌクレオチド、少なくとも２０ヌクレオチド、少なくとも２５ヌクレオチド、少なくとも３０ヌクレオチド、少なくとも４０ヌクレオチドであり；また、２５ヌクレオチド以下、３５ヌクレオチド以下、５０ヌクレオチド以下、７５ヌクレオチド以下、１００ヌクレオチド以下、１２５ヌクレオチド以下、が良い。核酸は、任意の核酸であって、マイクロＲＮＡに対するいずれかの相補的配列と少なくとも８０％の相同性、８５％の相同性、９０％の相同性、９５％の相同性、または１００％の相同性を有する。適切なＲＮＡパラメーターは、例えば、ＲＮＡまたはマイクロＲＮＡの量で、正常細胞または非癌細胞中のＲＮＡまたはマイクロＲＮＡの標準的な量、または、対照試料中のＲＮＡまたはマイクロＲＮＡの量と比較される。この比較は、当業者には既知の任意の方法で行うことができる。試料中のＲＮＡまたはマイクロＲＮＡの量の標準量との比較方法の例は、試料中の５ＳｒＲＮＡとＲＮＡまたはマイクロＲＮＡの間の比率を、発表されているか既知の、正常細胞または非癌細胞中の５ＳｒＲＮＡとＲＮＡまたはマイクロＲＮＡの間の比率と比較することである。試料中のマイクロＲＮＡの量を対照と比較する例は、５ＳｒＲＮＡとＲＮＡまたはマイクロＲＮＡの間の比率を試料中および対照試料中の測定値間で比較することによる方法である。ＲＮＡまたはマイクロＲＮＡの量を対照に対し比較する場合、対照試料を正常細胞または非癌細胞を有すると分かっている任意のソースから得ることができる。対照試料は、正常細胞のみを含む、または非癌細胞のみを含む多因子疾患に罹っていると思われるそれぞれの患者の組織または体液であることが好ましい。

ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の量の測定は、当業者なら試料中のＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質の量の既知の測定手法で行うことができる。ＲＮＡまたはマイクロＲＮＡを定量する方法の例には、定量逆転写酵素ポリメラーゼ連鎖反応（定量ＲＴ−ＰＣＲ）または定量および相対定量適用シークエンシングまたは第二世代シーケンシングがある。

タンパク質測定、各タンパク質種の絶対的および相対的タンパク質定量ならびに組織内または細胞調製中の代謝物の定量は、ウェスタンブロッティング、酵素結合免疫測定法（ＥＬＩＳＡ）、ラジオイムノアッセイまたは抗体または他のタンパク質結合分子を使った他のアッセイ、タンパク質またはペプチド同定用質量分析、ＭＡＬＤＩ、エレクトロスプレーまたは他のタイプのイオン化を使った定量または相対定量、抗体またはアプタマー等の他の分子結合蛋白質を使ったタンパク質および抗体アレイ、を適用して行うことができる。ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質および代謝物に結合可能な化合物は、分子の存在と量の検出を可能とする方法でＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質に結合可能であると当業者に知られている任意の化合物であってよい。ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質ならびに低分子量化合物および代謝物に結合可能な化合物の例は、ハイブリダイズ可能な核酸、または核酸、ＲＮＡ、マイクロＲＮＡ、タンパク質およびペプチドに結合可能なアプタマーである。核酸は、少なくとも５ヌクレオチド、少なくとも１０ヌクレオチド、少なくとも１５ヌクレオチド、少なくとも２０ヌクレオチド、少なくとも２５ヌクレオチド、少なくとも３０ヌクレオチド、少なくとも４０ヌクレオチドまたは少なくとも５０ヌクレオチドを有するのが好ましい。核酸は、ＲＮＡまたはマイクロＲＮＡに相補的な配列に対し、少なくとも８０％相同、８５％相同、９０％相同、９５％相同または１００％相同であるいずれかの核酸であることが好ましく、これらは対応するＤＮＡデータから得ることも可能であり、またはＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質または代謝物に結合可能なアプタマーであってもよい。ＲＮＡまたはマイクロＲＮＡに結合可能な核酸の１つの具体的な例は、逆転写酵素ポリメラーゼ連鎖反に使われる核酸プライマーである。

ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質および代謝物の少なくとも一部への化合物の結合により測定可能な複合体が形成される。この測定可能な複合体は同業者には既知の方法により測定される。このような方法の例には、前に考察した本発明に使われるＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の量を測定する方法が含まれる。

正常または非癌細胞、または対照試料中のＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質の標準的量に比較して測定可能な複合体中の量が増加または減少したレベルである場合、試料は、前癌細胞または癌細胞を含み、それにより癌の診断となり、癌治療に対し反応期待値の予測をするか、または患者の生存期待値の予測をする。

本発明の異なるタイプの生体分子の組成物は、本発明の方法（その実施形態は上述した）で使用可能である。本発明の組成物の一実施形態には、ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物からなる群より選択されたＲＮＡ、マイクロＲＮＡ、ペプチド、タンパク質または代謝物の少なくとも一部に結合可能な化合物が含まれる。この組成物には、記載した実施例中および分子リスト中にリストされた分子およびこれらの内在性生体分子に結合する結合プローブからなる群より選択されたＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質の少なくとも一部に結合可能な化合物が含まれるが、それに限定されない。上述の種々の実施例は、この方法は、通常、２〜４タイプの定義生体分子、タンパク質またはペプチド、ＲＮＡ、マイクロＲＮＡ（すなわち、ＲＮＡ＋マイクロＲＮＡ、ＲＮＡ＋タンパク質、タンパク質＋マイクロＲＮＡ、ＲＮＡ＋タンパク質＋マイクロＲＮＡ、およびこれら生体分子の組み合わせおよび生体分子と代謝物の組み合わせ）の、多因子疾患の患者からの組織を調査する種々の実験から選択し組み合わされた、組成物と一緒に機能し、ＲＮＡ、タンパク質、代謝物またはマイクロＲＮＡのみのような１つのタイプのみからなる予備選択された生体分子セットを含む試験または診断または予後診断のツールよりも優れたパフォーマンスを示すことを立証している。

本発明の組成物の別の実施形態は、第１の化合物が結合できるＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物とは異なるＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質および代謝物に結合可能な第２の化合物を含む組成物である。本発明の組成物の別の実施形態は、第１および第２の化合物が結合できるＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物とは異なるＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物に結合可能な第３の化合物を含む組成物である。

本発明は、さらに候補治療薬を評価する方法を提供する。この方法を使って、少なくとも２つ以上の定められた分子クラス；ＲＮＡ、マイクロＲＮＡ、ペプチド／タンパク質、代謝物、に割り当てられた１つから数個の対象生体分子の濃度を調節する分子を特定することが可能である。あるいは、アッセイを行って、遺伝子によりコードされたタンパク質の活性を調節する分子を特定してもよい。

本発明の別の態様は、多因子疾患の診断または予後診断のためのキットである。この態様の一実施形態では、キットは、多因子疾患の患者を診断するためのものである。この態様の別の実施形態は、多因子疾患の予後診断のためのキットで、予後は多因子疾患の治療に対する患者の反応期待値の予測である。この態様の別の実施形態では、キットは多因子疾患の予後診断のためのものであり、予後は多因子疾患の患者の生存期待値の予測である。このキットは、癌細胞中で濃度が増加または減少や、過剰または低発現した、ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の少なくとも一部と結合可能な組成物を含む。ここでＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物が、前に概要を述べた実施例中で挙げた分子または結合プローブに結合する分子または上述の実施例中で記載された方法により定量的に測定された分子からなる群（これに限定されない）から選択される。またさらに、少なくとも２つの異なる生体分子クラス（ＲＮＡ＋マイクロＲＮＡ、ＲＮＡ＋タンパク質またはペプチド、マイクロＲＮＡ＋タンパク質またはペプチド、ＲＮＡ＋マイクロＲＮＡ＋タンパク質またはペプチドおよびこれらの全ての代謝物の組み合わせ）および、このクラスの化合物に限定されないが、記載した結合プローブ、記載実施例で特定された薬剤と配列を含む、分子の組み合わせにおける、発現差異（過剰発現または低発現）またはＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物の内のいくつかの分子の濃度変化が、多因子疾患の診断となり、または患者の反応期待値の予測や生存期待値の予測となる。核酸またはアプタマーまたは抗体の標的ＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、および／または代謝物への結合は、多因子疾患の患者に対する多因子疾患診断、治療反応期待値の予測、または生存期待値の予測となる。

単離したＲＮＡ、マイクロＲＮＡ、ペプチドまたはタンパク質、代謝物は、フルオロフォアの使用による検出、電気化学的検出または化学信号の電流、抵抗または電荷の変化への変換、ＲＮＡプローブ、またはＲＮＡプライマー（これらに限定されない）を含む種々の結合の検出モードを備えたタンパク質チップ、抗体チップ、アプタマーチップ、ＤＮＡまたはＲＮＡチップ、等の既知の診断ツールに結びつけることができる。

本発明の一態様は、多因子疾患の早期診断、治療に対する反応期待値の予測、または生存率期待値の予測を目的とした検出方法である。本発明は、多因子疾患、癌に対して使うことができ、具体的実施形態では、白血病（ＡＭＬ）、前立腺癌および腎臓癌ならびに一過性脳虚血発作、低酸素／虚血に使用することができる。しかし、これらの別々の、無関係な疾患および完全に異なる分子病因学、表現型、遺伝子型および遺伝的素質を伴う様々なタイプの癌や疾患からすでに明らかであるように、この方法は、多因子疾患一般に適用可能である。

具体的実施形態では、生命体（研究対象、患者）の異なる区画（組織）からの異なるタイプの生体分子から得られたデータを使って、本方法に従って一緒に処理することにより、多因子疾患に対する分類および診断の改善ができる。

これまでの記載は説明のためのものであり、何ら制限するものではない。記載された方法と条件は変わる可能性があることから、本発明は、記載された詳細な方法、および実験条件に制限されるものではないことは理解されるべきである。

本発明の出願に添付した、配列番号１〜配列番号９０８の配列を含む配列リストは、本発明の開示の一部である。

Claims

多因子疾患またはそのサブタイプをインビトロで診断する方法であって、
当該多因子疾患またはそのサブタイプが、癌、特に、急性骨髄性白血病（ＡＭＬ）、結腸癌、腎臓癌、前立腺癌；一過性脳虚血発作（ＴＩＡ）、虚血、特に脳卒中、低酸素、低酸素性虚血性脳症、周産期脳損傷、仮死新生児低酸素性虚血性脳症；脱髄性疾患、特に、白質疾患、脳室周囲白質脳症、多発性硬化症、アルツハイマーおよびパーキンソン病からなる群より選択され；
哺乳類患者の少なくとも１つの組織の少なくとも１つの生体試料において、
ａ）少なくとも２つの異なる生体分子の種を選択するステップであって、前記生体分子の種が、ＲＮＡおよび／またはそのＤＮＡカウンターパート、マイクロＲＮＡおよび／またはそのＤＮＡカウンターパート、ペプチド、タンパク質、および代謝物からなる群より選択されるステップ；
ｂ）生体分子の異なる種の少なくとも２つのセットを使用して、前記試料中のそれぞれの種の複数の生体分子の、存在または非存在、定性的および／または定量的分子パターンおよび／または分子サイン、レベル、量、濃度および発現レベルからなる群より選択された少なくとも１つのパラメーターを測定し、得られた一連の数値を生データとしてデータベースに保存するステップ；
ｃ）前記生データを数学的に前処理してステップｂ）で使われる測定手続きに固有の技術的誤差を減らすステップ；
ｄ）ロジスティック回帰分析、（対角）線形または二次判別分析（ＬＤＡ、ＱＤＡ、ＤＬＤＡ、ＤＱＤＡ）、パーセプトロン、収縮重心法正規化判別分析（ＲＤＡ）、ランダムフォレスト（ＲＦ）、ニューラルネットワーク（ＮＮ）、ベイジアンネットワーク、隠れマルコフモデル、サポートベクターマシン（ＳＶＭ）、一般部分最小二乗法（ＧＰＬＳ）、パーティショニングアラウンドメドイド法（ｐａｒｔｉｔｉｏｎｉｎｇａｒｏｕｎｄｍｅｄｏｉｄ）（ＰＡＭ）、自己組織化マップ（ＳＯＭ）、再帰分割および回帰ツリー、Ｋ近傍分類器（Ｋ−ＮＮ）、ファジー分類器、バッギング、ブースティング、および単純ベイズからなる群から少なくとも１つの適切な分類アルゴリズムを選択し、前記分類アルゴリズムをステップｃ）の前記前処理データに適用するステップ；
ｅ）分類器機能を選択して前記前処理データを前記条件にマッピングするために、ステップｄ）の前記分類アルゴリズムを病態生理学的、生理的、予後的、または応答者条件に従ってクラスに分類された患者からの前処理データを含む少なくとも１つの訓練データセットで訓練するステップ；
ｆ）ステップｅ）の前記訓練した分類アルゴリズムを、未知の病態生理学的、生理的、予後的、または応答者の条件を有する患者の前処理データセットに適用し、訓練した分類アルゴリズムを使って前記データセットのクラスラベルを予測して、患者の病状を診断するステップ；
を含む方法。
組織が、血液および他の体液、脳脊髄液、骨組織、骨髄組織、筋組織、腺組織、脳組織、神経組織、粘膜組織、結合組織、および皮膚組織からなる群から選択され、および／または前記試料が生検組織であり、および／または前記哺乳類患者がヒトを含む、ことを特徴とし；および／または、さらに、低分子量生化学的化合物の血清および／または血漿レベル、酵素、酵素活性、細胞表面受容体および／または細胞数、特に、赤血球数および／または白血球数、血小板数、等の臨床化学で通常使われる標準の実験室的パラメーターが追加で選択されることを特徴とする請求項１に記載の方法。
ステップｂ）で得られた前記生データの数学的前処理の前記ステップが、
光学分光学（ＵＶ、可視、ＩＲ、蛍光）から得られた生データの場合：バックグラウンド補正および／または正規化；
メタボロミクスから得られた、および／または質量分析を液体またはガスクロマトグラフィーまたはキャピラリー電気泳動法と組み合わせて、または２Ｄゲル電気泳動法、ＥＬＩＳＡまたはＲＩＡを使った定量測定または免疫ブロットの定量またはアプタマーに結合した生体分子の量の定量による濃度／量の測定によって得られた生データの場合：スムージング、基準線補正、ピークピッキング、任意選択で、対数を取って分散安定化を実行、等のさらなるデータ媒体変換追加；
トランスクリプトミクスから得られた生データの場合：単一のピクセルを単一強度信号への集約；バックグラウンド補正；多重プローブ信号、特にパーフェクトマッチ／ミスマッチプローブ、の単一発現値への集約；正規化；
からなる群より選択された統計的方法により実行されることを特徴とする請求項１または２に記載の方法。
前処理ステップｃ）後に、クラス間の最高の判別能力を有する低次元サブセットを見つけるために、追加の特徴選択ステップが挿入され；および前記特徴選択がフィルターおよび／またはラッパー法により実行され；ここで、前記フィルター法がランカーおよび／または特徴サブセット評価法を含むことを特徴とする請求項１〜３のいずれかに記載の方法。
前記病態生理学的条件がラベル「病気（ｄｉｓｅａｓｅｄ）」に対応し、および前記生理的条件がラベル「健康（ｈｅａｌｔｈｙ）」に対応し、または前記病態生理学的条件が「疾患のグレード」、「疾患のサブタイプ」の異なるラベル、「定義された疾患のスコア」の異なる値に対応し；前記予後的条件がラベル「良（ｇｏｏｄ）」、「中間（ｍｅｄｉｕｍ）」、「不良（ｐｏｏｒ）」、または「治療応答あり（ｔｈｅｒａｐｅｕｔｉｃａｌｌｙｒｅｓｐｏｎｄｉｎｇ）」または「治療応答無し（ｔｈｅｒａｐｅｕｔｉｃａｌｌｙｎｏｎ−ｒｅｓｐｏｎｄｉｎｇ）」または「治療不良応答（ｔｈｅｒａｐｅｕｔｉｃａｌｌｙｐｏｏｒｒｅｓｐｏｎｄｉｎｇ）」に対応することを特徴とする請求項１〜４のいずれかに記載の方法。
代謝データが高スループット質量分析データであることを特徴とする請求項１〜５のいずれかに記載の方法。
前記多因子疾患がＡＭＬ、前記哺乳類患者がヒト、前記生体試料が血液および／または血液細胞および／または骨髄であり；前記異なる種の生体分子がマイクロＲＮＡおよびタンパク質、特に非成熟造血幹細胞、好ましくはＣＤ３４からの表面タンパク質であり；マイクロＲＮＡ発現レベルおよびＣＤ３４の存在がステップｂ）の前記パラメーターとして使われ；マイクロＲＮＡ発現の生データが分散安定化正規化を使って前処理され、正規化多重プローブ信号（技術的複写物）を中央値を使って単一発現値に集約し；ランカー、特にマイクロＲＮＡ発現データのためのフィルターとして最大中央値のペアワイズ差と組み合わされたＭａｎｎ−Ｗｈｉｔｎｅｙ有意性検定が前記特徴選択に使用され；ロジスティック回帰分析が適切な分類アルゴリズムとして選択され、前処理とフィルター処理を行ったマイクロＲＮＡ発現データおよびＣＤ３４情報を含む分類アルゴリズムの訓練がｎ分割交差検定、特に５〜１０分割、好ましくは５分割交差検定、により実行され；前記訓練したロジスティック回帰分析分類器を前記前処理したＡＭＬの疑いのある患者のマイクロＲＮＡ発現データセットおよびＣＤ３４情報に適用し、訓練した分類器を使って具体的ＡＭＬタイプを診断することを特徴とする請求項１〜６のいずれかに記載の方法。
前記マイクロＲＮＡを標的とする配列番号１〜配列番号１４のＤＮＡプローブが使われる；および／または配列番号１５〜２６のマイクロＲＮＡ標的配列が使われることを特徴とする請求項７に記載の方法。
前記多因子疾患が結腸癌、前記哺乳類患者がヒト、前記生体試料が結腸組織であり；前記異なる種の生体分子のがｍＲＮＡおよび／またはそのＤＮＡカウンターパートおよびマイクロＲＮＡおよび／またはそのＤＮＡカウンターパートであり；ｍＲＮＡ発現レベルおよびマイクロＲＮＡ発現レベルがステップｂ）の前記パラメーターとして使用され；マイクロＲＮＡ発現の生データが分散安定化正規化を使って前処理され；ｍＲＮＡ発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ（ＰＭ）およびミスマッチ（ＭＭ）プローブをロバストマルチアレイ平均（ＲＭＡ）を使って発現測定値に集約し；ランカー、特にマイクロＲＮＡ発現データのためのフィルターとして最大中央値のペアワイズ差と組み合わされたＭａｎｎ−Ｗｈｉｔｎｅｙ有意性検定が前記特徴選択に使用され；ランダムフォレストが適切な分類アルゴリズムとして選択され、前処理とフィルター処理されたｍＲＮＡおよびマイクロＲＮＡ発現データを含む分類アルゴリズムの訓練がｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定により実行され；前記訓練したランダムフォレスト分類器を前記前処理した結腸癌の疑いのある患者のｍＲＮＡおよびマイクロＲＮＡ発現データセットに適用し、訓練した分類器を使って結腸癌および／またはそのサブタイプを診断することを特徴とする請求項１〜８のいずれかに記載の方法。
前記マイクロＲＮＡを標的とする配列番号２７〜配列番号３４のＤＮＡプローブが使われ；および／または配列番号３５〜配列番号４２のマイクロＲＮＡ標的配列が使われ；および／または前記ｍＲＮＡを標的とする配列番号４３〜配列番号２６４のＤＮＡプローブが使われ；および／または配列番号２６５〜２７６の標的ＤＮＡ配列が使われることを特徴とする請求項９に記載の方法。
前記多因子疾患が腎臓癌、前記哺乳類患者がヒト、前記生体試料が腎臓組織であり；前記異なる種の生体分子がｍＲＮＡおよび／またはそのＤＮＡカウンターパートおよびマイクロＲＮＡおよび／またはそのＤＮＡカウンターパートであり；ｍＲＮＡ発現レベルおよびマイクロＲＮＡ発現レベルがステップｂ）の前記パラメーターとして使用され；マイクロＲＮＡ発現の生データが分散安定化正規化を使って前処理され；ｍＲＮＡ発現の生データが分散安定化正規化を使って前処理され、パーフェクトマッチ（ＰＭ）およびミスマッチ（ＭＭ）プローブをロバストマルチアレイ平均（ＲＭＡ）を使って発現測定値に集約して；ランカー、特にｍＲＮＡ発現データのためのフィルターとして最大中央値のペアワイズ差と組み合わされたＷｅｌｃｈｔ検定（有意性検定）およびマイクロＲＮＡ発現データが前記特徴選択のために使われ；単一隠れ層ニューラルネットワークが適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたｍＲＮＡおよびマイクロＲＮＡ発現データを含む分類アルゴリズムの訓練がｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定を使って行なわれ；前記訓練された単一隠れ層ニューラルネットワーク分類器を前記前処理された腎臓癌の疑いのある患者のｍＲＮＡおよびマイクロＲＮＡ発現データセットに適用し、訓練された分類器を使って腎臓癌および／またはそのサブタイプを診断することを特徴とする請求項１〜６のいずれかに記載の方法。
前記マイクロＲＮＡを標的とする配列番号３３、および２７７〜２８８のＤＮＡプローブが使用され；および／または配列番号２１、４１、２８９〜２９７のマイクロＲＮＡ標的配列が使用され；および／または前記ｍＲＮＡを標的とする配列番号２９８〜７１６のＤＮＡプローブが使用され；および／または配列番号２６５、２６８、７１７〜７３２のＤＮＡ標的配列が使用されることを特徴とする請求項１１に記載の方法。
前記多因子疾患が前立腺癌、前記哺乳類患者がヒト、前記生体試料が尿および／または前立腺組織であり；前記異なる種の生体分子がｍＲＮＡおよび／またはそのＤＮＡカウンターパートおよびマイクロＲＮＡおよび／またはそのＤＮＡカウンターパートであり；ｍＲＮＡ発現レベルおよびマイクロＲＮＡ発現レベルがステップｂ）の前記パラメーターとして使用され；マイクロＲＮＡ発現生データが分散安定化正規化を使って前処理され；ｍＲＮＡ発現生データが分散安定化正規化を使って前処理され、ロバストマルチアレイ平均（ＲＭＡ）法を使ってパーフェクトマッチ（ＰＭ）およびミスマッチ（ＭＭ）プローブを発現測定値に集約し；ランカー、特にｍＲＮＡおよびマイクロＲＮＡ発現データのためのフィルターとして最大中央値のペアワイズ差と組み合わされたＭａｎｎ−Ｗｈｉｔｎｅｙ有意性検定が前記特徴選択に使用され；線形判別分析が適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたｍＲＮＡおよびマイクロＲＮＡ発現データを含むその分類アルゴリズムの訓練がｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定を使って実行され；前記訓練した線形判別分析分類器を前記前処理された前立腺癌の疑いのある患者のｍＲＮＡおよびマイクロＲＮＡ発現データセットに適用し、訓練された分類器を使って前立腺癌および／またはそのサブタイプを診断することを特徴とする請求項１〜６のいずれかに記載の方法。
前記マイクロＲＮＡを標的とする配列番号７３３〜７３５のＤＮＡプローブが使用され；および／または配列番号７３６〜７３８のマイクロＲＮＡ標的配列が使用され；および／または前記ｍＲＮＡを標的とする配列番号７３９〜配列番号８９２のＤＮＡプローブが使用され；および／または配列番号８９３〜９００のＤＮＡ標的配列が使用されることを特徴とする請求項１３に記載の方法。
前記多因子疾患が一過性脳虚血発作（ＴＩＡ）および／または虚血および／または低酸素で、前記哺乳類患者がヒト、前記生体試料が血液および／または血液細胞および／または脳脊髄液および／または脳組織であり；前記異なる生体分子の種がｍＲＮＡおよび／またはそのＤＮＡカウンターパートおよび脳代謝物、特に遊離プロスタグランジン、リポキシゲナーゼ由来脂肪酸代謝物、グルタミン、グルタミン酸、ロイシン、アラニン、セリン、デコサヘキサエン酸（ＤＨＡ）、１２（Ｓ）−ヒドロキシエイコサテトラエン酸（１２Ｓ−ＨＥＴＥ）であり；ｍＲＮＡ発現レベルおよび定量および／または定性分子代謝物パターン（メタボロミクスデータ）がステップｂ）の前記パラメーターとして使用され；ｍＲＮＡ発現生データがβアクチンを参照遺伝子として使って前処理され、前記脳代謝物のメタボロミクスデータがバイナリー対数（すなわち、２を底とする対数）を使って分散安定化変換により前処理され；ランカー、特にメタボロミクスデータのためのフィルターとして最大平均値のペアワイズ差と組み合わされたＷｅｌｃｈｔ検定（有意性検定）が前記特徴選択に使用され；サポートベクターマシンが適切な分類アルゴリズムとして選択され、前処理およびフィルター処理されたｍＲＮＡおよびマイクロＲＮＡ発現データを含む分類アルゴリズムの訓練がｌｅａｖｅ−ｏｎｅ−ｏｕｔ（ＬＯＯ）交差検定を使って実行され；前記訓練されたサポートベクターマシン分類器を虚血および／または低酸素の疑いのある患者の前記前処理されたｍＲＮＡ発現データおよび前記メタボロミクスデータセットに適用し、訓練された分類器を使って虚血および／または低酸素および／またはそのグレードを診断することを特徴とする請求項１〜６のいずれかに記載の方法。
試料が固相抽出液体クロマトグラフィータンデム型質量分析（オンラインＳＰＥ−ＬＣ−ＭＳ／ＭＳ）で分析され、好ましくは、Ｃ１８カラムが固相抽出カラムとして使われ；また、前記生物学的組織試料中の測定された代謝物濃度が、好ましくは、内部標準への参照により検量され、エレクトロスプレーイオン化多段反応モニタリングタンデム型質量分析検出モードにより定量化されることを特徴とする請求項１５に記載の方法。
ｍＲＮＡ発現データが定量リアルタイムＰＣＲ（ｑ−ＲＴ−ＰＣＲ）により得られ；および／または配列番号９０１〜９０６のプライマー対が使用され；および／または配列番号２６５、９０７および９０８のＤＮＡ標的配列が使用されることを特徴とする請求項１５〜１６のいずれかに記載の方法。
生体試料を使って請求項１〜１７のいずれかに記載の方法を実行するためのキットであって、
ａ）少なくとも２つの異なる生体分子種を検出するための検出試薬であって、前記生体分子種が、ＲＮＡおよび／またはそのＤＮＡカウンターパート、マイクロＲＮＡおよび／またはそのＤＮＡカウンターパート、ペプチド、タンパク質、および代謝物からなる群より選択された試薬；
ｂ）陽性対照および／または陰性対照；および
ｃ）前記検出試薬で得られた結果の分類に使用する分類ソフトウェア、
を含むキット。