JP2008536094A

JP2008536094A - 乳癌患者における化学療法反応性を予測する方法

Info

Publication number: JP2008536094A
Application number: JP2007554325A
Authority: JP
Inventors: ダイ，ホンユ; フレンド，ステファン，エイチ; ドイチュ，ポール
Original assignee: ロゼッタインファーマティクスエルエルシー; メルク・アンド・カンパニー・インコーポレーテッド
Priority date: 2005-02-04
Filing date: 2006-02-06
Publication date: 2008-09-04
Also published as: WO2006084272A9; EP1848825A2; CA2596640A1; WO2006084272A3; WO2006084272A2

Abstract

本発明は、患者に由来する試料における複数の細胞成分の測定値、患者のエストロゲン受容体レベル、および患者の年齢に関連する患者のエストロゲン受容体レベルを含む患者の細胞成分プロフィールに基づいて、化学療法に対する乳癌患者の反応性を予測するための方法を提供する。また、本発明は、これらの因子に基づいて、乳癌を治療するための薬物の臨床試験の登録のための患者を選択するための方法を提供する。
【選択図】図1

Description

本出願は、2005年2月4日に出願した米国仮特許出願第60/650,365号の利益を主張し、その全体が引用により本明細書に組み込まれている。
（1. 発明の分野）
本発明は、乳癌患者における化学療法反応性を予測する方法に関する。また、本発明は、乳癌薬の臨床試験の登録のための患者を選択する方法に関する。

（2. 発明の背景）
米国において、及び実際に、世界中で報告されている癌症例数の増加は、重大な懸念である。現在、特定のタイプの癌に利用できる治療はひと握りだけしか存在せず、これらは、成功する保証がない。最も有効とするためには、これらの治療には、悪性腫瘍の早期発見だけでなく、悪性腫瘍の重症度の信頼できる評価も必要である。
女性における主要な死因である乳癌発生率は、過去30年にわたって米国において徐々に増大してきている。その累積リスクは、比較的高く；米国における8人中1人の女性が、85歳までに何らかのタイプの乳癌を発病すると予想される。実際、乳癌は、女性において最も一般的な癌であり、米国における癌による死亡の2番目の原因である。1997年には、181,000人の新たな症例が米国において報告されて、44,000人が乳癌で死亡するであろうと推定された（Parkerらの論文, CA Cancer J. Clin. 47：5-27（1997）； Cimらの論文, J. Nat. Cancer Inst. 88：1571-1579（1996））。大部分の乳癌についての腫瘍形成機序はほとんど未知であるが、一部の女性に乳癌を発病させる素因になり得る遺伝要因がある（Mikiらの論文, Science, 266：66-71（1994））。

散発性腫瘍で現在既知の生殖系列突然変異と関連していないものが、乳癌の大多数を構成する。また、その他の非遺伝要因も、該疾患の病因に有意な効果を有する可能性が高い。癌の起源にかかわらず、乳癌の罹患率及び死亡率は、その進行の早期に検出されない場合には、有意に増大する。したがって、胸部組織における細胞形質転換及び腫瘍形成の早期発見に相当な努力が集中されてきた。

腫瘍同定及び特性付けのためのマーカーに基づいたアプローチは、診断及び予後の信頼性の改善に有望である。典型的には、乳癌診断には、腫瘍の存在の組織病理学的証明が必要である。診断に加えて、組織病理学的検査も、治療計画の予後及び選択に関する情報を提供する。また、予後は、腫瘍サイズ、腫瘍等級、患者の年齢及びリンパ節転移などの臨床パラメーターに基づいて確立してもよい。

診断及び／又は予後は、乳房の外側の直接検査によって、又はマンモグラフィー若しくはその他のX線イメージング法により、有効性の程度を変えることによって決定し得る（Jatoi, Am. J. Surg. 177:518-524（1999））。しかし、後者のアプローチは、かなりの犠牲を伴う。マンモグラムが行われるたびに、患者は、試験の間に使用する放射線のイオン化特性によって誘発される乳房腫瘍を生じるリスクを少し負う。加えて、この方法は高価であり、かつ技術者の主観的な解釈により、不正確な結果をまねき得る。たとえば、ある研究では、調査した放射線科医のグループが個々に解釈した一組のマンモグラムの約3分の1について、大きな臨床的不一致が示された。さらに、多くの女性は、マンモグラムを受けることが痛みを伴う体験であることに気付いている。したがって、50歳未満の女性は乳癌を発病する可能性が年配の女性ほど高くないため、国立癌研究所は、この群に対するマンモグラムを推奨してこなかった。しかし、乳癌のうちの約22%だけが50歳未満の女性で生じるが、データは、乳癌が閉経前女性においてより攻撃的であることを示唆する点に注目せざるを得ない。

治療選択肢、予後及び治療反応の可能性は、もっぱら診断に応じて広範に変化するので、臨床診療においては、乳癌の種々のサブタイプの正確な診断が重要である。正確な予後、又は遠隔転移のない生存の決定により、腫瘍専門医は、補助化学療法剤の投与を必要に合わせることができ、より予後不良を有する女性には、最も積極的な治療が施されるであろう。さらにまた、潜在的被験患者を予後に応じて層別化することができるため、予後不良の正確な予測は、新たな乳癌療法のための臨床治験に対しても、多大な影響を与えるであろう。そして、治験を、予後不良を有する患者に限定することができ、その結果、実験治療が効果的であるかどうかを識別するのがより容易になる。

現在までに、臨床情報のみに基づいた予後についての満足な予測因子のセットは同定されていない。ER状態は、乳房腫瘍遺伝子発現プロファイリングにおいて優位な特徴を示すことを、多くの者が観察している。Westらの論文, Proc. Natl. Acad. Sci. U.S.A. 98:11462（2001）； van't Veerらの論文, Nature 415:530（2002）； Sorlieらの論文, Proc. Natl. Acad. Sci. U.S.A. 100:8418（2003）； Perouらの論文, Nature 406:747（2000）； Gruvbergerらの論文, Cancer Res. 61: 5979（2001）； Sotiriouらの論文, Proc. Natl. Acad. Sci. U.S.A. 100:10393（2003）を参照されたい。患者の生存とER状態との間には、いくらか関係があることが一般に受け入れられている。van de Vijverらの論文, N. Engl. J. Med. 347: 1999（2002）； Surowiakらの論文, Folia Histochem. Cytobiol 39:143（2001）； Pichonらの論文, Br. J. Cancer 73:1545（1996）； Collettらの論文, J. Clin. Pathol. 49:920（1996）。BRCA1突然変異は、家族性癌のかかりやすさに関連している。Bieseckerらの論文, JAMA 269:1970（1993）； Eastonらの論文, Cancer Surv. 18:95（1993）。若年癌患者は、未熟な腫瘍を有する傾向があったので、年齢も予後因子であると考えられる。リンパ節状態は、治療を決定する際の要因である。Eifelらの論文, J. Natl. Cancer Inst. 93:979（2001）。

BRCA1及びBRCA2の発見及び特性付けにより、最近、家族性乳癌に寄与し得る遺伝要因についての我々の知識が広がった。これらの2つの遺伝子座内の生殖系列突然変異は、乳癌及び／又は卵巣癌の50〜85%の生涯リスクと関連している（Caseyの論文, Curr. Opin. Oncol. 9:88-93（1997）； Marcusらの論文, Cancer 11:691- 709（1996））。しかし、約5%〜10%の乳癌だけが、乳癌感受性遺伝子であるBRCA1及びBRCA2と関連している。突然変異体BRCA1を有する女性についての乳癌の累積的生涯リスクは、およそ92%であると予測されるが、一方、非保因者の大多数についての累積的生涯リスクは、およそ10%であると見積もられる。BRCA1は、DNA修復及び細胞周期対照に関与する腫瘍抑制遺伝子であり、これらは、両方ともゲノムの安定性の維持に重要である。現在までに報告された全ての突然変異の90%以上は、タンパク質産物の未熟な切断を生じ、該タンパク質は機能が異常か、又は機能が無くなっている。BRCA1突然変異保因者における乳癌の組織診断は、散発性の場合のものとは異なるが、突然変異分析が保因者を見つけるための唯一の方法である。BRCA1と同様に、BRCA2は乳癌の発症に関与し、BRCA1と同様に、DNA修復に役割を果たす。しかし、BRCA1とは異なり、それは卵巣癌には関与しない。

その他の遺伝子、たとえばc-erb-2（HER2）及びp53（Beenkenらの論文, Ann. Surg. 233（5）: 630-638（2001）も乳癌に関連していた。c-erb-2（HER2）及びp53の過剰発現は、予後不良と相関しており（Rudolphらの論文, Hum. Pathol 32（3）: 311-319（2001））、mdm2（Lukasらの論文, Cancer Res. 61（7）: 3212-3219（2001）並びにサイクリン1及びp27（Porter及びRobertsの文献, 1998年8月6日に公表された国際公開WO98/33450）の異常な発現産物も相関した。

BRCA1又はBRCA2の突然変異の検出は、これらの腫瘍の出現のより優れた制御及び予防のための療法の設計に向けた一手順を表す。最近では、多くの研究が、種々の癌を分析するために遺伝子発現プロファイリングを使用しており、これらの研究は、分子レベルでの新たな診断及び予後情報を提供してきた。Zajchowskiらの論文, 『乳癌細胞の活動的な挙動を予測する、プロファイルされた遺伝子発現の同定（Identification of Gene Expression Profiled that Predict the Aggressive Behavior of Breast Cancer Cells）』Cancer Res. 61: 5168（2001）； Westらの論文, 『遺伝子発現プロファイルを使用することによる、ヒト乳癌の臨床状態の予測（Predicting the Clinical Status of Human Breast Cancer by Using Gene Expression Profiles）』Proc. Natl. Acad. Set U.S.A. 98: 11462（2001）； van't Veerらの論文, 『遺伝子発現プロファイリングは乳癌の結果を予測する（Gene Expression Profiling Predicts the Outcome of Breast Cancer）』Nature 415:530（2002）； Robertsらの文献, 『乳癌患者の診断及び予後（Diagnosis and Prognosis of Breast Cancer Patients）』WO 02/103320； Sorlieらの論文, Proc. Natl Acad. Sci. U.S.A. 100:8418（2003）； Perouらの論文, Nature 406:747（2000）； Khanらの論文, Cancer Res 58, 5009（1998）； Golubらの論文, Science 286, 531（1999）； DeRisiらの論文, Nat. Genet. 14:457（1996）； Alizadehらの論文, Nature 403, 503（2000）を参照されたい。また、種々の癌についての情報価値のある遺伝子セットの同定方法も記述されている。Robertsらの文献, 『乳癌患者の診断及び予後（Diagnosis and Prognosis of Breast Cancer Patients） WO 02/103320； Golubらの文献, 米国特許第6,647,341号を参照されたい。

エストロゲン受容体（ER）状態、又はBRCA1突然変異対散発性（すなわち、BRCA1型以外の）突然変異状態に基づいて、乳癌を有するか、又は有する疑いがある個体を区別するための情報価値のある遺伝子セットが同定されている。Robertsらの文献, WO 02/103320； van't Veerらの論文, Nature 415:530（2001）を参照されたい。また、散発性腫瘍型の個体を、初診5年以内に転移がない可能性が高いであろう者（すなわち、予後良好な個体）、又は初診5年以内に転移がある可能性が高い者（すなわち、予後不良である者）として分類することができる遺伝子セットも同定されている。Roberts、上記；van’t Veer、上記。

Robertsらの文献, WO 02/103320及びvan de Vijverらの論文, N. Engl. J. Med. 341: 1999（2002）は、乳癌の予後のために有用な70遺伝子のセットを記述しており、これは、予後の臨床測定性能が優れており、かつ結果良好の患者を選択することにより過剰治療を回避するのに優れた可能性を示した。しかし、最も予測的な値をもつ遺伝子の発現は、不良患者間で均一でなく、改善の必要が示唆されていた。

Robertsらの文献に記載されているような遺伝子発現パターンは、エストロゲン受容体などの既存の臨床指標及びBRCA1状態と相関されていたが、臨床測定には、組み込まれていなかった。さらに、結果不良の群では、特に発現パターンの不均一性を示し、これらの研究の間に見いだされた最大分類子決定規則は、結果良好の訓練群の平均プロフィールに対する患者のプロフィールの類似性に基づいたかなり単純なものであった。

乳癌が複数のタイプの分子事象の結果であることは、明らかである。同様に、その他の癌；糖尿病、自己免疫性又は神経変性障害などの非癌疾患；肥満症などの種々のその他の状態も、複数の分子事象の結果である。さらに、特定の環境状態に対する曝露、たとえば毒素、汚染物質、薬物、食品添加物などの天然作用物質又は人工的作用物質に対する曝露に対する個体の反応は、複数の分子事象による結果である可能性が高い。したがって、予防及び／又は治療の適切な経過を提供し得るように改善された予後判定法に対する需要が存在する。改善された予後判定力を有する遺伝子セットは、最初に疾患又は状態に関連する遺伝子型又は表現型の特徴に基づいて個体の別々のサブセットを同定し、次いでこれらの患者サブセット内の予後について情報価値のある遺伝子セットを同定することによって同定することができる。次いで、乳癌などの状態を有する個体、又は状態を有する疑いがある者には、状態の根底にある分子機構に適した療法が提供されるであろう。本発明は、乳癌のための、及びその他の癌、疾患又は状態のための、このような方法を提供する。

発明は、乳癌患者における化学療法反応性を予測する方法を提供することを目的とする。

（3. 発明の要旨）
本発明は、以下の1つ以上に基づいて化学療法に対する乳癌患者の反応性を予測するための方法であって：（i）前記患者に由来する試料における複数の細胞成分の測定値を含む細胞成分プロフィール；（ii）ERレベルであって、前記ERレベルは、前記患者に由来する試料におけるエストロゲン受容体転写物又はエストロゲン受容体タンパク質のレベルであり、ER+は高ERレベルを示し、かつER^-は低ERレベルを示す、前記ERレベル；及び（iii）ER／AGEであって、前記患者の年齢と関連する前記ERレベルの測定規準である、前記ER／AGE；前記方法は、前記患者が、（a）前記細胞成分プロフィールが予後不良プロフィールであり、かつ前記ERレベルがER⁺であり、かつ前記ER／AGEが低い場合に、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の増強か；又は（b）（i）前記ERレベルがER^-であるか、若しくは（ii）前記細胞成分プロフィールが予後不良プロフィールであり、かつ前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の減少を示すことを予測することを含み、ここで前記細胞成分プロフィールが予後良好テンプレートに対して低い類似性を有するか、又は予後不良テンプレートに対して高い類似性を有する場合に、前記細胞成分プロフィールは、予後不良プロフィールとして分類され、前記予後良好テンプレートには、複数の結果良好の患者における前記細胞成分レベルを表す前記複数の細胞成分の測定値を含み、かつ前記予後不良テンプレートには、複数の結果不良の患者における前記細胞成分レベルの前記複数の細胞成分を表す測定値を含み、ここで結果良好の患者は、初診後の第一期間内に転移の発生がない乳癌患者であり、かつ結果不良の患者は、初診後の第二期間内に転移の発生がある患者である、前記方法を提供する。

一つの実施態様において、前記細胞成分プロフィールは予後不良プロフィールとして決定され、前記ERレベルはER⁺として決定され、前記ER／AGEは、低いとして決定され、前記患者は、乳癌患者の一般的集団の患者と比較して、化学療法に対する反応の増強を御有することが予測される。別の実施態様において、前記細胞成分プロフィールは、予後不良プロフィールとして決定され、前記ERレベルは、ER⁺として決定され、及び前記ER／AGEは、高いとして決定され、及び前記患者は、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の減少を有することが予測される。さらに別の実施態様において、前記ERレベルはER^-として決定され、前記患者は、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の減少を有することが予測される。

また、本発明は、以下の1つ以上に基づいて乳癌を治療するための薬物の臨床試験の登録のための患者を選択するための方法であって：（i）前記患者に由来する試料における複数の細胞成分の測定値を含む細胞成分プロフィール；（ii）ERレベルであって、前記ERレベルは、前記患者に由来する試料におけるエストロゲン受容体転写物又はエストロゲン受容体タンパク質のレベルであり、ER⁺は高ERレベルを示し、かつER^-は低ERレベルを示す、前記ERレベル；及び（iii）ER／AGEであって、前記患者の年齢と関連する前記ERレベルの測定規準である、前記ER／AGE；前記方法は、（a）前記ERレベルがER^-であるか；又は（b）前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、前記臨床試験に含めるための患者を選択することを含み、ここで前記細胞成分プロフィールが予後良好テンプレートに対して低い類似性を有するか、又は予後不良テンプレートに対して高い類似性を有する場合に、前記細胞成分プロフィールは、予後不良プロフィールとして分類され、かつ前記予後良好テンプレートには、複数の結果良好の患者における前記細胞成分レベルを表す前記複数の細胞成分の測定値を含み、かつ前記予後不良テンプレートには、複数の結果不良の患者における前記細胞成分レベルの前記複数の細胞成分を表す測定値を含み、ここで結果良好の患者は、初診後の第一期間内に転移の発生がない乳癌患者であり、かつ結果不良の患者は、初診後の第二期間内に転移の発生がある乳癌患者である、前記方法を提供する。

一つの実施態様において、前記ERレベルはER^-として決定され、前記患者が選択される。別の実施態様において、前記細胞成分プロフィールは、予後不良プロフィールとして決定され、前記ERレベルはER⁺として決定され、及び前記ER／AGEは高いとして決定され、前記患者が選択される。

また、本発明は、以下の1つ以上に基づいて化学療法に対して良好又は不良な候補として乳癌患者を同定するための方法であって：（i）前記患者に由来する試料における複数の細胞成分の測定値を含む細胞成分プロフィール；（ii）ERレベルであって、前記ERレベルは、前記患者に由来する試料におけるエストロゲン受容体転写物又はエストロゲン受容体タンパク質のレベルであり、ER⁺は高ERレベルを示し、かつER^-は低ERレベルを示す、前記ERレベル；及び（iii）ER／AGEであって、前記患者の年齢と関連する前記ERレベルの測定規準である、前記ER／AGE；前記方法は、（a）前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが低いかどうかを決定する工程であって、前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが低い場合に、前記乳癌患者は、化学療法に対して良好な候補として同定される、前記工程か；又は、
（b）前記ERレベルがER^-であるかどうかを決定する工程であって、前記ERレベルがER^-である場合に、前記乳癌患者は、化学療法に対して不良な候補として同定される、前記工程か；又は、
（c）前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高いかどうかを決定する工程であって、前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、前記乳癌患者は、化学療法に対して不良な候補として同定される、前記工程；
を含む、前記方法を提供する。

一つの実施態様において、前記細胞成分プロフィールは予後不良プロフィールとして決定され、前記ERレベルはER⁺として決定され、かつ前記ER／AGEは低いとして決定されて、前記乳癌患者は、化学療法に対する良好な候補として同定される。別の実施態様において、前記ERレベルはER^-として決定され、前記乳癌患者は、化学療法に関する不良な候補として同定される。さらに別の実施態様において、前記細胞成分プロフィールは予後不良プロフィールとして決定され、前記ERレベルはER⁺として決定され、かつ前記ER／AGEは高いとして決定されて、前記乳癌患者は、化学療法に関する不良な候補として同定される。

本発明の方法の実施態様において、前記第一期間は10年であり、かつ前記第二期間は10年である。別の実施態様において、前記患者は55歳未満であり、それぞれの前記結果良好の患者及びそれぞれの結果不良の患者は、乳癌診断時に55歳未満である。一つの実施態様において、本発明の方法のいずれか一つは、前記細胞成分プロフィール、前記ERレベル及び／又は前記ER／AGEを決定することをさらに含む。

別の実施態様において、本発明の方法のいずれか一つにおいて、前記細胞成分プロフィールは、前記患者に由来する試料における複数の転写物の測定値を含み、ここで前記予後良好テンプレートは、前記複数の結果良好の患者における前記転写物の発現レベルを表す前記複数の転写物の測定値を含み、かつ前記予後不良テンプレートは、前記複数の結果不良の患者における前記転写物の発現レベルを表す前記複数の転写物の測定値を含む。

一つの実施態様において、前記細胞成分プロフィールは、対照試料における前記複数の転写物の測定値に対する前記患者に由来する前記試料における前記複数の転写物の示差的測定値を含む示差的発現プロフィールである。一つの実施態様において、前記示差的測定値は、xdev、log（比）、エラー加重log（比）、及び平均除去log（強度）からなる群より選択される。

別の実施態様において、前記細胞成分プロフィールは、前記患者に由来する試料における複数のタンパク質種の測定値を含み、ここで前記予後良好テンプレートは、前記複数の結果良好の患者における前記タンパク質種のレベルを表す前記複数のタンパク質種の測定値を含み、かつ前記予後不良テンプレートは、前記複数の結果不良の患者における前記タンパク質種のレベルを表す前記複数のタンパク質種の測定値を含む。

一つの実施態様において、前記予後良好テンプレートにおけるそれぞれの前記転写物の測定値は、前記複数の結果良好の患者における前記転写物の発現レベルの平均である。一つの実施態様において、前記予後良好テンプレートに対する前記細胞成分プロフィールの類似性は、前記細胞成分プロフィールと前記予後良好テンプレートとの間の相関係数によって表され、ここで相関閾値、たとえば0.5よりも大きい前記相関係数は高い類似性を示し、前記相関閾値以下の前記相関係数は低い類似性を示す。

別の実施態様において、前記予後良好テンプレートに対する前記細胞成分プロフィールの類似性は、前記細胞成分プロフィールと前記予後良好テンプレートとの間の距離によって表され、所与の値未満の前記距離は高い類似性を示し、前記所与の値以上の前記距離は低い類似性を示す。一つの実施態様において、前記ERレベルは、前記患者の前記エストロゲン受容体をコードする遺伝子の発現レベルを、前記対照試料における前記遺伝子の発現レベルと比較して測定することで決定され、ここで前記ERレベルは、前記発現レベルのlog10（比）が-0.65を上回る場合にER+として分類され、かつ前記ERレベルは、前記発現レベルのlog10（比）が-0.65以下である場合にER^-として分類される。一つの実施態様において、前記エストロゲン受容体をコードする前記遺伝子は、エストロゲン受容体α遺伝子である。

一つの実施態様において、前記ER／AGEは、log10（比）によって測定される前記ERレベルがc・（AGE-d）を上回る場合に高いとして分類され、かつ前記ER／AGEは、前記ERレベルがc・（AGE-d）以下である場合に低いとして分類され、式中cは係数であり、AGEは前記患者の年齢であり、かつdは年齢閾値である。一つの実施態様において、前記エストロゲン受容体レベルは、アクセッション番号NM_000125を有する遺伝子に対応する転写物を検出するオリゴヌクレオチドプローブによって測定され、ここで前記対照試料は種々の患者の乳癌細胞のプールであり、式中c = 0.1及びd= 42.5である。

一つの実施態様において、前記対照試料は、複数の乳癌患者由来の前記複数の転写物のcDNAと共にプールすることによって作製される。別の実施態様において、前記対照試料は、前記複数の転写物の合成cDNA及び前記エストロゲン受容体をコードする前記遺伝子の前記転写物の合成cDNAを共にプールすることによって作製される。一つの実施態様において、前記複数の転写物は、表8における遺伝子に収載されたのセットの少なくとも一部に対応する転写物からなる。別の実施態様において、前記複数の転写物は、表8に収載された遺伝子に対応する全ての転写物からなる。

一つの実施態様において、前記化学療法は、シクロホスファミド、メトトレキセート及び5-フルオロウラシルからなるCMFの組み合わせ使用することによって実施される。また、本発明は：プロセッサ；及び前記プロセッサに接続され、かつ該プロセッサに本発明の方法のいずれか一つを実行させる、1つ以上のプログラムをコードするメモリ；とを含む、コンピュータシステムを提供する。

また、本発明は：プロセッサ；及び該プロセッサに接続されたメモリ；とを有するコンピュータと組み合わせて使用するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、その上にコンピュータプログラム機構がコードされたコンピュータ読み取り可能な記憶媒体を含み、前記コンピュータプログラム機構は、前記コンピュータのメモリにロードされて、前記コンピュータに本発明の方法のいずれか一つを実施させ得る、前記コンピュータプログラム製品を提供する。

また、本発明は、以下の1つ以上に基づいて化学療法に対する乳癌患者の反応性を予測するための方法も提供する：（i）前記患者に由来する試料における複数の細胞成分の測定値を含む細胞成分プロフィール；（ii）ERレベルであって、前記ERレベルは、前記患者に由来する試料におけるエストロゲン受容体転写物又はエストロゲン受容体タンパク質のレベルであり、ここでER+は高ERレベルを示し、かつER^-は低ERレベルを示す、前記ERレベル；及び（iii）ER／AGEであって、前記患者の年齢と関連する前記ERレベルの測定規準である、前記ER／AGE；
であって、
（a）前記細胞成分プロフィールが予後不良プロフィールであり、かつ前記ERレベルがER+であり、かつ前記ER／AGEが低い場合に、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の増強か；又は
（b）（i）前記ERレベルがER^-であるか、若しくは（ii）前記細胞成分プロフィールが予後不良プロフィールであり、かつ前記ERレベルがER+であり、かつ前記ER／AGEが高い場合に、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の減少；
を示すことを予測することを含み、
ここで前記細胞成分プロフィールは、前記細胞成分プロフィールが初診後の所定の期間内に前記乳癌患者において転移が発生しないことを予測する場合に、予後良好プロフィールとして分類され、かつここで前記細胞成分プロフィールは、前記細胞成分プロフィールが前記所定の期間内に転移の発生を予測する場合に、予後不良プロフィールとして分類される、前記方法を提供する。一つの実施態様において、所定の期間は、5年又は10年である。

一つの実施態様において、前記細胞成分プロフィールは、前記患者に由来する試料における複数の転写物の測定値を含む。別の実施態様において、前記細胞成分プロフィールは、対照試料における前記複数の転写物の測定値に対する、前記患者に由来する前記試料における前記複数の転写物の示差的測定値を含む、示差的発現プロフィールである。一つの実施態様において、前記対照試料は、前記複数の転写物の合成cDNAと共にプールすることによって作製される。好ましい実施態様において、前記複数の転写物は、表8に収載された遺伝子の少なくとも一部、たとえば少なくとも5、10、40、50又は全てに対応する転写物からなる。

一つの実施態様において、前記細胞成分プロフィールは、入力として前記細胞成分プロフィールを受け、前記細胞成分プロフィールが予後良好プロフィール又は予後不良プロフィールであるかどうかを示すデータを含む出力を生じる人工ニューラルネットワークを使用して、予後良好プロフィール又は予後不良プロフィールとして分類される。別の実施態様において、前記細胞成分プロフィールは、入力として前記細胞成分プロフィールを受け、前記細胞成分プロフィールが予後良好プロフィールであるか、又は予後不良プロフィールであるかどうかを示すデータを含む出力を生じるサポートベクターマシンを使用して、予後良好プロフィール又は予後不良プロフィールとして分類される。

（5. 発明の詳細な記載）
本発明は、患者に由来する試料における複数の細胞成分の測定値、患者のエストロゲン受容体レベル（以下に、「ERレベル」と示してある）及び患者の年齢に関連した患者のエストロゲン受容体レベル（以下に、「ER／AGE」と示してある）を含む、患者の細胞成分プロフィールに基づいて、化学療法に対する乳癌患者の反応性を予測する方法を提供する。本発明の方法において、患者は、乳癌患者の一般的集団の患者と比較して、適切な化学療法反応性群に分類される。本発明者らは、細胞成分プロフィールが予後不良を示す患者においては、患者の化学療法に対する反応性が、患者のERレベルだけだなく、年齢に伴うERレベルの変化にも依存することを発見した。本発明者らは、より若い年齢で高ERレベル（したがって、高ER／AGE）を示す患者は、化学療法対してほとんど反応を示さないが、より高齢で高ERレベル（したがって、低ER／AGE）を示す患者は、化学療法に対する反応の増大を示すことを見いだした。特に、本発明者らは、患者の細胞成分プロフィールが予後不良を示し、かつ患者のERレベルがER⁺であり、かつ患者の年齢ER／AGEと関連した患者のエストロゲン受容体レベルが低い場合に、患者は、乳癌患者の一般的集団の患者と比較して、化学療法に対する反応の増強を示すが、患者は、（i）患者のERレベルがER^-であるか、又は（ii）患者の細胞成分プロフィールが予後不良を示し、かつ患者のERレベルがER⁺であり、かつ患者の年齢ER／AGEと関連した患者のエストロゲン受容体レベルが高い場合に、一般的集団の患者と比較して、化学療法に対する反応の減少を示すことを見いだした。本明細書において、ER⁺は高ERレベルを示し、ER^-は低ERレベルを示す。加えて、本発明者らは、患者の細胞成分プロフィールが予後良好を示す場合、患者が化学療法を必要としないことも見いだした。本発明の方法は、特に55歳未満である乳癌患者の反応性を予測するのに有用である。

また、本発明は、それぞれの患者の細胞成分プロフィール、患者のエストロゲン受容体レベル及び患者の年齢と関連した患者のエストロゲン受容体レベルに基づいて、乳癌を治療するための薬物の臨床試験の登録のための患者を選択するための方法を提供する。本発明の方法において、乳癌患者の一般的集団の患者と比較して、化学療法に対する反応性が減少した患者が、好ましくは臨床試験に含めるために選択される。一つの実施態様において、ER^-、又は（a）予後不良（b）ER⁺及び（c）高ER／AGEの組み合わせのいずれかである患者が、試験に含めるために選択される。このような患者は、化学療法に対して有意な反応を示さないと予測され、したがって、新たな乳癌薬の有効性を決定する際の優れた候補である。

患者群は、別の年齢、リンパ節（LN）状態、エストロゲン受容体（ER）レベル及びBRCA1の突然変異状態の少なくとも一つに従って別々の患者サブセットに分類することができる。これらの臨床因子は、腫瘍病因、並びに疾患結果の相違と関係していた。これらの特徴は、限定されず；個体を分類するために、乳癌のその他の遺伝子型又は表現型の特徴、たとえば腫瘍等級、腫瘍サイズ、腫瘍細胞型などを単独で、又は本明細書に収載されたものと組み合わせて使用してもよい。遺伝子発現の、又はこれらのパラメーターに関連した腫瘍運命の相違は、腫瘍起源及び腫瘍発生に相違を示す可能性が高く、したがって腫瘍層別化のための優れた候補である。次いで、それぞれのサブセット内の予後について情報価値のある遺伝子セットを同定する。次いで、新規乳癌患者を、同じ基準を使用して分類し、患者が入る患者サブセットに特異的な遺伝子セットに基づいて予後判定を行う。それぞれの患者サブセット内の予後分類子を構築する過程で、腫瘍結果に関連した均一なパターンに特に注意が払われる。このような均一な予後パターンの出現は、サブセット内での転移に最も共通した機構を示し得る。同時に、このようなパターンの同定の成功により、腫瘍層別化のために使用したパラメーターも正当化される。このアプローチをmRNA単独のアプローチと区別するために、本発明者らは、遺伝子発現データを組み込んだ臨床データの現在のアプローチを「包括的予後」という。

細胞成分プロフィールの測定値は、細胞成分の任意の適切な計測値、たとえば遺伝子の発現レベルの測定値であり得る。たとえば遺伝子の発現レベルの測定値は、たとえばRNA若しくはタンパク質の存在量レベルを直接的に、或いはcDNA、増幅されたRNA若しくはDNA、タンパク質の存在量レベル、又はRNA若しくはタンパク質の活性レベル、又は前述のものを直接指し示すその他の分子（たとえば、代謝産物）を測定することによって間接的に、直接的又は間接的であり得る。一つの実施態様において、プロフィールは、マーカー遺伝子の転写物の存在量の測定値を含む。転写物の測定値は、直接的である（転写物自体のもの）か、又は間接的（たとえば、これらのcDNAのもの）であり得る。存在量の測定値は、遺伝子産物の絶対存在量の測定値であり得る。また、存在量の測定値は、絶対存在量を代表する値、たとえば標準化された存在量値（たとえば、参照遺伝子産物の存在量に対して標準化された存在量）若しくは平均された存在量値（たとえば、異なる時点にて、若しくは患者由来の異なる腫瘍細胞試料から得られた存在量の平均、又は異なるプローブなどを使用して得られた存在量の平均）又は両方の組み合わせであり得る。一例として、遺伝子転写物の存在量の測定値は、転写物に対するハイブリダイゼーションを測定するためのAffymetrix（登録商標）GeneChip（登録商標）を使用して得られた値であり得る。

別の実施態様において、発現プロフィールは、参照試料、たとえば正常細胞の細胞試料における複数の転写物の測定値に対する、患者に由来する試料における複数の転写物の示差的測定値を含む示差的発現プロフィールである。プロフィールのそれぞれの示差的測定値は、算術的相違、比又はlog（比）であり得るが、これらに限定されない。一例として、遺伝子転写物の存在量の測定値は、二色測定において、cDNA又はインクジェットポリヌクレオチドアレイを使用して得られる転写物の値であり得る。

本明細書で使用する「BRCA1腫瘍」又は「BRCA1タイプ」は、BRCA1遺伝子座の突然変異を含む細胞を有する腫瘍を意味する。「患者サブセット」は、その全員が特定の状態を有するか、又は特定の状態を受けやすく、状態の、若しくは状態に対する反応の一つ以上の表現型、遺伝子型又は臨床的特徴によって、該状態を有するその他の個体から区別される一群の個体である。たとえば、状態が乳癌である場合、個体は、「ER+」又は「ER^-」患者サブセットに属してもよく、又は特定の年齢層の患者サブセットに属してもよい。

遺伝子及び／又はマーカーは、遺伝子又はマーカーの発現が偶然により予想されるよりも大きな程度に、状態、表現型、遺伝子型又は臨床的特徴と相関するか、又は逆相関する場合に、状態、表現型、遺伝子型又は臨床的特徴に関して「情報価値がある」。
患者の年齢と関連した患者のエストロゲン受容体レベルは、ER／AGEとして命名した適切な測定規準を使用して測定することができる。個体のERレベルが、所与の年齢についての閾値よりも高い場合、所与の年齢の個体は、「ER／AGE高」として分類することができる。閾値は、年齢依存的であり得る、すなわちそれぞれの異なる年齢について異なる閾値であり得る。一つの実施態様において、年齢依存的閾値はc・（AGE-d）として算出され、式中cは係数であり、AGEは患者の年齢であり、かつdは年齢閾値である。パラメーターc及びdは、特定の計測、及び／又はERレベル及びAGEの単位に依存する。これらは、それぞれ異なるERレベル-年齢依存性を有する2つの部分群の二峰性分布に対し、患者のERレベル-年齢分布をフィッティングさせることによって決定することができる。具体的実施態様において、ER発現レベルのlog（比）によって表されるERレベルに関して、c = 0.1及びd =42.5が使用される。したがって、たとえば、本実施態様における45歳の個体に関する閾値は、0.1（45〜42.5）又は0.25であり、個体のER発現レベルのlog（比）が0.25以上である場合、個体は「ER／AGE高」として分類され；さもなければ、個体は、「ER／AGE」低として分類される。

（5.1 診断及び予後マーカーセットの同定）
乳癌の診断及び／又は予後のために本発明と組み合わせて使用することができる遺伝子及び／又はマーカーのセットは、この節に記述した方法を使用して同定することができる。好ましい実施態様において、本方法は、最初に、乳癌患者を表現型、遺伝子型及び／又は臨床パラメーターに従ってサブセットに層別化すること、次いでそれぞれのサブセットにおける診断及び／又は予後を識別するマーカーを同定することを含む。

（5.1.1 状態サブセットの同定）
一つの実施態様において、サブセットは、乳癌の表現型、遺伝子型及び／又は臨床的特徴によって区別される。本実施態様において、個体群は、乳癌の1つ以上の表現型、遺伝子型又は臨床的特徴に従って異なる患者サブセットに分類される。患者集団を患者サブセットに細分する過程の任意の工程にて、特定の患者サブセットについて予後情報価値のある遺伝子のセットが同定されるであろうかどうかを同定するために、1つ以上の遺伝子の発現レベルを決定してもよい。患者サブセットについて遺伝子セットが同定されているが、所望の情報価値があるものではない場合、患者サブセットをさらに分けて、新たな遺伝子セットを同定してもよい。これらのサブセットをさらに細分してもよい。たとえば、乳癌に冒された一群の個体を最初に表現型、遺伝子型又は臨床的特徴Aに基づいてサブセットS1及びS2に分類していてもよい。次いで、これらのサブセット内で予後についての情報価値のある遺伝子のセットを同定するために、サブセットS1又はS2内に入る個体から採取した腫瘍試料において、複数の遺伝子の発現レベルを決定する。次いで、サブセットS1及びS2を、その他の表現型、遺伝子型又は臨床的特徴に基づいて、それぞれ2つ以上のサブセットに細分してもよい。細分のための基準は、実施される場合に、S1及びS2に同じである必要はない。たとえば、種々の実施態様において、S1は細分されないが、一方S2は、特徴Bに基づいて細分されるか；又はS1は、特徴Bに基づいて細分されるが、一方S2は細分されないか；又はS1及びS2は、両方とも特徴Bに基づいて細分されるか；又はS1は、特徴Bに基づいて細分されるが、一方S2は、特徴Cに従って細分されるか；などである。複数の患者サブセットを導く特定の決定行列については、予後情報価値のあるそれぞれの患者サブセットについての遺伝子セットが好ましい結果である。異なる決定行列では、異なる患者サブセットを導くであろうし、これが順に、予後情報価値のある遺伝子の異なるセットを生じるであろう。

具体例において、複数の表現型、遺伝子型又は臨床指標を使用して、乳癌患者を複数の患者サブセットのうちの1つのメンバーであるとして分類し、ここで該サブセットは、医学的に、生化学的に、又は遺伝的に、乳癌に関連する。たとえば、患者群は、エストロゲン受容体（ER）状態、腫瘍の型（すなわち、BRCA1型又は散発性）、リンパ節状態、癌の等級、腫瘍の侵襲性、又は年齢を含むが、これらに限定されるわけではない基準に基づいて患者サブセットに分類されていてもよい。「BRCA1型」は、BRCA1突然変異が存在することを示す。それぞれの分類工程において、癌患者群は、サブセットを決定するために使用した特徴に応じて、2つのクラス、たとえばER+若しくはER^-のみに分類してもよく、又は3つ以上のサブセットに（たとえば、腫瘍等級によって）分類してもよい。本明細書で使用する「ER+」とは、いくらかのレベルでエストロゲン受容体が発現されることを示し；これは、たとえばエストロゲン受容体が検出可能的に発現されることを示してもよく、又は10%より多い細胞の受容体が組織学的に染色され得ること、などを示してもよい。反対に、「ER^-」は、エストロゲン受容体が減少したレベルで発現されるか、又は全く発現されないことを示し；たとえば、これは、受容体が検出可能に発現されていないか、又は10%以下の細胞の受容体が組織学的に染色され得ること、などを示してもよい。それぞれの表現型のクラスに対して最適化されたマーカー遺伝子セットは、好ましくはサブセットが確立された後に決定される。関心対象の状態の特定の特徴によって、別のサブセットから区別される特定の患者サブセットについての情報価値のあるマーカーを決定することができない場合、状態の別の特徴によってサブセットをさらに分けて、複数の第2の患者サブセットを作製してもよく、これにより、これらの第2の患者サブセットについて情報価値のある遺伝子を同定してもよい。

図1は、予後についての情報価値のある遺伝子の同定のための準備の際に、乳癌に関連した表現型及び遺伝子型特徴に従った一まとまりの乳癌患者の、実施例に記述した細分過程を示す。最初に一まとまりの乳癌腫瘍試料をエストロゲン受容体状態によって細分した。エストロゲン受容体の有無は、その他の遺伝子の発現に対して多大な影響を及ぼすため、ER状態を選択した。ER+患者サブセットでは、患者がERレベル対年齢によって二峰性分配されるようである；すなわち、年齢に対するERレベルの依存性は、図2Aにおいて実線で分けられた2つのクラス内に入る傾向があった点に留意されたい。この二峰性を使用して、ER+個体を「ER+、ER／AGE高」個体及び「ER+、ER／AGE低」個体にさらに細分化した。ER+、ER／AGE高の患者サブセットに関する情報価値のある遺伝子のセットを同定した。しかし、ER+、ER／AGE低サブセットについては情報価値のあるセットが同定されなかったので、患者サブセットをLN+及びLN-個体にさらに分けた。

（5.1.2 患者サブセットのための情報価値のあるマーカーセットの同定）
一旦、患者サブセットを同定したなら、予後などの特定の結果のために情報価値のある、遺伝子などのマーカーを同定してもよい。本方法は、予後結果が知られている患者サブセットにおける複数の患者由来の腫瘍試料の、測定された細胞成分プロフィール、たとえば複数の遺伝子の発現プロフィール（たとえば、対応する遺伝子産物の存在量レベルの測定値）を利用する。予後結果は、初診後の所定時間における予後であり得る。該所定時間は、任意の都合のよい時間、たとえば2年、3年、4年又は5年であり得る。予後マーカーは、その発現レベルが予後結果と相関する遺伝子、たとえば予後良好患者群においてその発現レベルが予後不良患者におけるものとは著しく異なる遺伝子を同定することによって得ることができる。好ましい実施態様において、複数の患者からの腫瘍試料を、所定の時間に関して、予後良好群及び予後不良群に分ける。予後良好群と予後不良群との間で少なくとも所定レベルで発現レベルに差を示す遺伝子を、発現レベルが患者の予後と相関する遺伝子として選択する。この節では、マーカーとして遺伝子及び遺伝子由来核酸を使用する実施態様を記述する。しかし、タンパク質又はその他の細胞成分をマーカーとして使用してもよいことも、当業者に理解されるであろう。

好ましい実施態様において、発現プロフィールは、示差的発現プロフィールである。それぞれのプロフィールの測定値は、参照試料（また、標準試料又は対照試料とも称される）のものに対する乳房腫瘍試料のマーカーの示差的発現レベルである。一つの実施態様において、参照試料は、複数の正常個体からの1つ以上の試料に由来するポリヌクレオチド分子を含む。たとえば、正常個体は、乳癌に冒されていない人であってもよい。或いは、標準又は対照は、種々の乳癌の形態又は段階を有する個体；関心対象の試料を得た個体とは異なる疾患若しくは異なる状態、又は異なる状態に曝露されるか、又は対象となった個体に由来する1つ以上の試料に由来するポリヌクレオチド分子を含んでいてもよい。参照又は対照は、たとえば状態の進行又は療法の経過に対する反応を評価するために、より早期に個体から採取した試料又は試料のセットであってもよい。

好ましい実施態様において、標準又は対照は、複数の異なる個体に由来する標的ポリヌクレオチド分子のプールである。しかし、タンパク質レベル又は任意のその他の関連した生体分子のレベルを比較する場合、該プールは、タンパク質又は関連した生体分子のプールであってもよい。乳癌の状況における好ましい実施態様において、プールは、散発型腫瘍を有する多数の個体から採取された試料を含む。

別の好ましい実施態様において、プールは、腫瘍試料に由来するマーカー由来核酸のプールで見いだされたそれぞれのマーカーに由来した核酸のレベルに近くなるようにデザインされた人工的に作製された核酸の集団を含む。別の実施態様において、プールは、また「数学的試料プール」とも言われ、物理的ポリヌクレオチドのセットではなく、発現値のセットによって表され；疾患などの状態をもつ個体由来の試料における関連したマーカーの発現レベルを数学的試料プールの同じマーカーについての発現の対照レベルを表する値と比較する。このような対照は、コンピュータに記憶された値のセットであってもよい。このような人工的対照又は数学的対照は、関心対象のいずれの状態について構築してもよい。

別の実施態様において、参照試料は、正常乳房株化細胞又は乳癌株化細胞に由来する。好ましい実施態様において、参照試料は、特定の患者サブセット内の個体、たとえば「ER+、ER／AGE高」個体から採取された試料を含み、前記個体のそれぞれは予後良好であるか、又は前記個体のそれぞれは予後不良である。もちろん、たとえば発現タンパク質がマーカーとして使用する場合、タンパク質を個体の試料から得、かつ標準又は対照は、多数の正常な個体から、又は特定の乳癌の予後を有する個体由来の試料プールなどの特定の様相の状態を有する多数の個体からのタンパク質のプールであり得る。

比較は、当該技術分野において既知のいずれの手段によって達成してもよい。たとえば、種々のマーカーの発現レベルを、アガロース又はポリアクリルアミドゲルでのマーカーに由来する標的ポリヌクレオチド分子（たとえば、RNA又はcDNA）の分離、続いてマーカー-特異的オリゴヌクレオチドプローブでのハイブリダイゼーションによって評価してもよい。或いは、比較は、標的ポリヌクレオチド分子の標識化、続いてシーケンシングゲルでの分離によって達成してもよい。患者ポリヌクレオチドと対照又は標準ポリヌクレオチドとが隣接するレーンにあるように、ポリヌクレオチド試料をゲル上に配置する。発現レベルの比較は、視覚的に、又はデンシトメーターによって達成する。好ましい実施態様において、全てのマーカーの発現をマイクロアレイへのハイブリダイゼーションによって同時に評価する。それぞれのアプローチにおいて、一定の基準を満たすマーカーを、乳癌の予後のための情報価値のあるものとして同定する。

一つの実施態様において、最初に、標準試料又は対照試料と比較して、乳癌腫瘍試料のセットにおける発現の有意な変動に基づいて遺伝子をスクリーニングする。遺伝子は、たとえばこれらが試料のセット内の少なくともいくつかの試料において有意な変動を示すかどうかを決定することによってスクリーニングしてもよい。試料のセット内の少なくともいくつかの試料で有意な変動を示さない遺伝子は、情報価値がないと推定し、さらなる検討からはずす。試料における少なくともいくつかの試料に有意な変動を示す遺伝子セットは、候補情報価値のある遺伝子として保持する。遺伝子発現の変動の程度は、試料及び対照における遺伝子発現の差又は比を決定することによって見積もってもよい。発現の差又は比は、たとえば線形変換又はlog変換によって、さらに変換してもよい。候補マーカーの選択は、セット内の少なくいくつかの試料における遺伝子の有意なアップレギュレーション又はダウンレギュレーションに基づく選択、又は遺伝子発現の変動の統計的有意性（たとえば、p値）に基づく選択、のいずれで行ってもよい。好ましくは、両方の選択基準が使用される。したがって、本発明の一つの実施態様において、少なくとも3つの試料の標準と比較して発現が2倍以上の変化を示し、かつ標準試料と比較した腫瘍試料のセットの遺伝子発現におけるp値の変動が0.01以下である（すなわち、統計学的に有意である）遺伝子が、患者サブセットにおいて乳癌の予後と関連する候補遺伝子として選択される。

本発明において、「予後良好」は、初診後の所定の期間、たとえば1年、2年、3年、4年、5年又はそれ以上の年内に転移の発生が予測されないが、「予後不良」は、その期間内に転移の発生が予測される。具体的実施態様において、「予後良好」は、初診後の５年以内に転移の発生が予測されず、「予後不良」は、その期間内に転移の発生が予測される。

複数のN乳癌腫瘍試料における複数の異なる遺伝子を含む発現プロフィールを使用して、種々の臨床カテゴリーと相関し、したがって識別するために有用であるマーカーを同定することができる。具体的実施態様において、N腫瘍試料における臨床カテゴリー又は臨床パラメーター、たとえば予後良好又は予後不良を表すベクトル

とN腫瘍試料における測定された遺伝子の発現レベルを表すベクトル

との間の相関係数ρは、遺伝子の発現レベルと臨床カテゴリーとの間の相関の測定値として使用される。発現レベルは、遺伝子の転写物の測定された存在量レベルか、又は測定された存在量の任意の変換、たとえば対数比又はlog比であり得る。具体的には、相関係数は：

として算出可能である。

相関係数がカットオフを上回るマーカーは、所与の患者サブセット内において、特定の臨床カテゴリー、たとえば予後良好に特異的な予後情報価値のあるマーカーとして同定される。このようなカットオフ又は閾値は、得られた識別遺伝子のセットの一定の有意差に対応し得る。また、閾値は、使用する試料数に基づいて選択してもよい。たとえば、閾値は、

として算出することができ、式中

は、分布幅であり、n =試料数である。具体的実施態様において、マーカーは、相関係数が約0.3を上回るか、又は約-0.3未満の場合に選択される。

次に、マーカー遺伝子のセットの有意性を評価することができる。有意性は、任意の適切な統計的方法で算出してよい。具体例として、モンテカルロ法を使用して複数の患者の発現プロフィールと臨床カテゴリーとの間の関連性をランダム化して、ランダム化されたデータのセットを作製する。対照マーカーセットを得るためには、マーカーセットを選択するために使用したのと同じマーカー選択をランダム化されたデータに適用する。複数のこのような行程を行って対照マーカーセットの遺伝子の数の確率分布を作製することができる。好ましい実施態様において、このような行程を10,000回行う。確率分布から、発現レベルと表現型との間に相関がないと予想される（すなわち、ランダム化されたデータに基づいた）ときの所与の数のマーカーからなるマーカーセットを見いだす確率を決定することができる。現実のデータから得られるマーカーセットの有意性は、ランダム化されたデータを使用して同数のマーカーからなる対照マーカーセットを得る確率と比較することによって、マーカーセットのマーカー数に基づいて評価することができる。一つの実施態様において、ランダム化されたデータを使用して同数のマーカーからなる対照マーカーセットを得る確率が、所与の確率閾値を下回る場合、マーカーセットは、有意であるといわれる。

一旦マーカーセットが同定したならば、該マーカーを、相関又は識別の有意性の順に順位付けてもよい。順位付けの一つの手段は、マーカーの遺伝子発現の変化と識別される具体的状態との間の相関振による。別の好ましい手段は、統計的測定規準を使用することである。具体的実施態様において、測定規準は、t検定様統計値：

である。

この方程式において、＜x₁＞は第1の臨床群（たとえば、予後良好）内の転写発現測定のlog比のエラー加重平均であり、＜x₂＞は第2の関連した臨床群（たとえば、予後不良）内のlog比のエラー加重の平均である、σ₁は第1の臨床群（たとえば、予後良好）内のlog比の差であり、n₁はlog比の有効な測定が利用できる試料数であり、σ₂は第2の臨床群（たとえば、予後不良）内のlog比の分散であり、及びn₂はlog比の有効な測定値を利用できる試料数である。t値は、2つの平均間の分散補償差を表す。順位付けされたマーカーセットを使用して、識別のために使用したセット内のマーカーの数を最適化してもよい。

また、乳癌の予後のための遺伝子のセットも、反復アプローチを使用して同定することができる。これは、一般に以下のような「Leave-one-out」法で達成される。第一行程では、ランク付けした一覧の上から、たとえば5つのマーカーのサブセットを使用してテンプレートを作製し、ここでN個の試料のうちN-1個を使用してテンプレートを作製して、残りの試料の状態を予測する。N個の試料の全てのものが一回予測されるまで、この過程をあらゆる試料について繰り返す。第二行程では、1つ以上のさらなるマーカー、たとえば5つのさらなるマーカーを付加し、その結果、テンプレートがここで10個のマーカーから作製され、残りの試料の結果が予測される。全マーカーのセットが使用されるまでこの過程を繰り返し、テンプレートを作製する。前記行程のそれぞれについて、第一種のエラー（偽陰性）及び第二種のエラー（偽陽性）を計数する。最低の第一種のエラー発生率若しくは第二種のエラー発生率、又は好ましくは第一種のエラー発生率と第二種のエラー発生率の合計に対応する、上位にランクされたマーカーのセットを選択する。

予後マーカーについて、マーカーセットの検証を、さらなる統計である生存時間モデルによって達成してもよい。この統計は、腫瘍遠隔転移の確率を初診からの時間の関数として生成する。ワイブル（Weibull）, 標準（normal）,log-標準（log-normal）, logロジスティック（log logistic）, log-指数関数（log-exponential）,又はlog-レイリー（log-Rayleigh）（『寿命試験（Life Testing）』第１２章, S-PLUS 2000統計学へのガイド（S-PLUS 2000 GUIDE TO STATISTICS）, 第２巻, 368頁（2000））を含む多数のモデルを使用してもよい。「正規」モデルについては、時間tでの遠隔転移の確率Pは、

として算出され、式中、αは固定され、かつ1に等しく、τは、当てはめられるべきパラメーターであり、「予想寿命」の尺度である。

上記のマーカー同定過程は、1つ以上の試料をマーカー選択又はランク付けから（すなわち、相関の算出から）除外することによって1回以上繰り返されることが好ましい。それらの除外される試料は、以前の繰り返しからの正しく予測することができないものである。好ましくは、成績を誇張するのを避けるために、この反復過程においてマーカー選択から除外されたそれらの試料を分類子成績評価に含められる。

（5.1.3 患者サブセットのための分類子遺伝子セット）
この節は、乳癌の予後のために有用なマーカーの例示的セットを提供する。乳癌をもつ個体の特定サブセットにおいて、上記方法に従ってマーカーを同定した。一般に、マーカーセットは、乳癌患者の予後のために使用することができ、これは、エストロゲン受容体、（ER）状態、リンパ節状態、突然変異の型（すなわち、BRCA1型又は散発性）、及び診断時の年齢を含む、乳癌予後に関連する基準に基づいて、5つの表現型のカテゴリーに分類される。より具体的には、試料を採取した患者及び腫瘍は：ER^-、散発性（すなわちエストロゲン受容体陰性であること、及びBRCA1型瘍腫を有さないことの両方）；ER-、BRCA1（すなわち、エストロゲン受容体陰性であること、及びBRCA1型瘍腫を有することの両方）；ER+、ER／AGE高（すなわち、年齢に対するエストロゲン受容体遺伝子発現のlog（比）が高い比でエストロゲン受容体陽性）；ER+、ER／AGE低、LN+（すなわち、年齢に対するエストロゲン受容体遺伝子発現のlog（比）が低い比でエストロゲン受容体陽性、リンパ節陽性）；及びER+、ER／AGE低、L^-（すなわち、年齢に対するエストロゲン受容体遺伝子発現のlog（比）が低い比でエストロゲン受容体陽性、リンパ節陰性）として分類される。本来の患者セットのこれらの5つのサブセットへの細分についての正当性を実施例（節6）に詳述してある。それぞれ、上記のサブセットのそれぞれについて有用なマーカーセットを表1〜5に提供する。

（5.2.診断の及び予後の方法）
（5.2.1試料収集）
本発明において、標的ポリヌクレオチド分子又はタンパク質などのマーカーは、乳癌などの状態に冒された個体から採取した試料から抽出される。該試料は、いずれの臨床的に許容される様式で収集してもよいが、マーカー由来ポリヌクレオチド（すなわち、RNA）が保存される（遺伝子発現が測定される場合）、又はタンパク質が保存される（コードされたタンパク質が測定される場合）ように収集しなければならない。たとえば、mRNA又はそれに由来する核酸（すなわち、増幅されたcDNA又はDNA）は、好ましくは標準又は対照ポリヌクレオチド分子から区別可能に標識されており、両方をマーカー若しくはマーカーセット又は上記のサブセットのいくつかの又は全てを含むマイクロアレイに対して同時に、又は独立してハイブリダイズさせる。或いは、mRNA又はそれに由来する核酸は、標準的又は対照ポリヌクレオチド分子と同じ標識で標識されていてもよく、その場合、それぞれの特定のプローブにおけるハイブリダイゼーションの強度が比較される。試料には、任意の臨床的に関連する、瘍生検若しくは細針吸引液などの組織試料、又は血液、血漿、血清、リンパ、腹水、嚢胞液、尿若しくは乳頭浸出物などの体液の試料を含んでいてもよい。試料は、ヒトから、又は獣医学的状況において、反芻動物、ウマ、ブタ若しくはヒツジなどのヒト以外の動物から、又はネコ及びイヌなどの家庭内コンパニオンアニマルから採取してもよい。

総RNA及びポリ（A）+ RNAを調製するための方法は、周知であり、一般にSambrookらの文献,『分子クローニング−実験室マニュアル（MOLECULAR CLONING - A LABORATORY MANUAL）（第２版）』, １〜３巻, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York（1989）、及びAusubelらの文献, 『分子生物学の最新プロトコル（CURRENT PROTOCOLS IN MOLECULAR BIOLOGY）』, ２巻, Current Protocols Publishing, New York（1994）に記述されている。 RNAは、細胞の溶解及びその中に含まれるタンパク質の変性を含む手順によって真核細胞から単離していてもよい。関心対象の細胞は、野生型細胞（すなわち、非癌性）、薬物に曝露した野生型細胞、腫瘍細胞又は腫瘍由来細胞、修飾された細胞、正常株化細胞又は腫瘍株化細胞及び薬物に曝露された修飾された細胞を含む。好ましくは、細胞は、乳癌腫瘍細胞である。

DNAを除去するために、さらなる工程を使用してもよい。細胞溶解は、非イオン性界面活性剤で処理し、続いて核及びそれ故大量の細胞DNAを除去するための微小遠心分離で達成してもよい。一つの実施態様において、RNAは、グアニジウムチオシアナート溶解、続くRNAをDNAから分離するためのCsCl遠心分離を使用して、種々のタイプの関心対象の細胞から抽出される（Chirgwinらの論文, Biochemistry 18:5294-5299（1979））。PoIy（A）+ RNAは、オリゴdTセルロースでの選択によって選択される（Sambrookらの文献,『分子クローニング−実験室マニュアル（MOLECULAR CLONING - A LABORATORY MANUAL）（第２版）』, １〜３巻, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York（1989）を参照されたい）。或いは、DNAからのRNAの分離は、たとえば熱いフェノール又はフェノール／クロロホルム／イソアミルアルコールを用いる有機抽出によって達成することができる。

必要に応じて、RNase阻害剤を溶解緩衝液に添加してもよい。同様に、一定の細胞型については、プロトコルにタンパク質変性／消化工程を追加することが望ましい。多くの適用については、転移RNA（tRNA）及びリボソームRNA（rRNA）などのその他の細胞RNAに対して、選択的にmRNAを濃縮することが望ましい。大部分のmRNAは、それらの3'末端にポリ（A）尾部を含む。これにより、これらを、たとえばセルロース又はSephadex（登録商標）などの固体支持体に結合したオリゴ（dT）又はポリ（U）を使用してアフィニティークロマトグラフィによって濃縮することができる（Ausubelらの文献, 『分子生物学の最新プロトコル（CURRENT PROTOCOLS IN MOLECULAR BIOLOGY）』, ２巻, Current Protocols Publishing, New York（1994）を参照されたい）。一旦結合されたら、ポリ（A）+mRNAを、2mM EDTA／0.1%のSDSを使用してアフィニティーカラムから溶出させる。

RNAの試料には、それぞれの異なるmRNA分子が異なるヌクレオチド配列を有する、複数の異なるmRNA分子を含み得る。具体的実施態様において、RNA試料におけるmRNA分子は、少なくとも5、10、15、20、25、30、40又は50個の異なるヌクレオチド配列を含む。より好ましくは、RNA試料のmRNA分子は、各々のマーカー遺伝子に対応するmRNA分子を含む。別の具体的実施態様において、RNA試料は、哺乳動物RNA試料である。

具体的実施態様において、細胞由来の総RNA又はmRNAが本発明の方法に使用される。RNAの供与源は、植物又は動物、ヒト、哺乳類、霊長類、ヒト以外の動物、イヌ、ネコ、マウス、ラット、鳥類、酵母、真核生物、原核生物などの細胞であり得る。具体的実施態様において、本発明の方法は、1×10⁶個以下の細胞からの総mRNA又は総RNAを含む試料で使用される。別の実施態様において、タンパク質は、タンパク質レベルでの発現分析に使用するために、当該技術分野において既知の方法によって前述の供与源から単離することができる。

非ヒト核酸をアッセイするときは、好ましくは本明細書に開示したマーカー配列の相同体に対するプローブを使用することができる。予後は、いずれのタイプの分子マーカーの細胞成分プロフィールを使用することによって行ってもよい。たとえば、乳癌予後のための情報価値のあるタンパク質のセットを使用してもよい。このようなタンパク質マーカーは、たとえば一次元ポリアクリルアミドゲル電気泳動、二次元ポリアクリルアミドゲル電気泳動、非変性ポリアクリルアミドゲル電気泳動などのゲル電気泳動；等電点焦束ゲル；などを使用することによって測定してよく、抗体アレイなどを使用することによって測定してもよい。もちろん、個体を分類するために使用される特定のテンプレートは、マーカーとして使用する細胞成分のタイプに依存する。たとえば、核酸（たとえば、発現遺伝子に由来する遺伝子又は核酸）をマーカーとして使用する場合、テンプレートには、核酸（又は、これらの発現レベル若しくは存在量）を含み；タンパク質がマーカーとして使用される場合、テンプレートには、タンパク質、たとえばこれらのタンパク質のレベル又は存在量を含む；などである。

（5.2.2.乳癌のための予後遺伝子セットの使用）
本発明に従って、一旦、複数の状態のサブセットについての情報価値のある遺伝子セットが同定されれば、個体はこれらのサブセットの一つに分類され、個体から採取した乳癌腫瘍試料におけるそのサブセットのための遺伝子セットにおいて、遺伝子又はこれらのコードされたタンパク質の発現に基づいて予後がなされる。次いで、患者サブセット分類及び予後に基づいて、化学療法に対する患者の反応性が決定される。発現プロフィールを分類するために使用することができる種々の方法が、当該技術分野において既知である。例示的方法を下の第5.2.4節に記述してある。

たとえば、特定の仮定的状態では、3種の関連した表現型の特徴であるA、B及びCを有する。この例では、これらの特徴に基づいて、4種の患者サブセットA⁺B⁺；A⁺B^-C⁺；A⁺B^-C^-；及びA^-の予後についての情報価値のある遺伝子セットが上記方法によって同定される。したがって、状態を有する個体は、最初に表現型A〜Cに従って4種の患者サブセットのうちの１つに分類されるであろう。したがって、一つの実施態様において、本発明は、サブセットに関する予後についての情報価値のある遺伝子セットが同定された複数の患者サブセットのうちの一つの状態を有する個体の分類を提供する。次いで、試料を個体から採取して、試料における予後に情報価値のある遺伝子の発現レベルを分析する。一つの実施態様において、それぞれの遺伝子の発現レベルは、対照又は参照試料における対応する遺伝子の発現レベルと比較して、示差的発現レベルを決定することができる。次いで、複数の遺伝子の発現レベル、たとえば示差的発現レベルを含む発現プロフィールをテンプレートプロフィールと比較する。種々の実施態様において、テンプレートプロフィールは、その患者サブセットに分類可能な予後良好個体から採取した試料における情報価値のある遺伝子の平均発現を含む予後良好テンプレート；又はその患者サブセットに分類可能な予後不良個体から採取した試料における情報価値のある遺伝子の平均発現を含む予後不良テンプレート；又はその患者サブセットに分類可能な予後良好個体の遺伝子発現レベルを表す数学的値のセットを含む予後良好プロフィール；などである。

具体的実施態様において、乳癌についての表現型、遺伝子型及び／又は臨床分類は：ER^-、BRCA1個体；ER^-、散発性個体；ER+、ER／AGE高個体；ER+、ER／AGE低、LN+個体；及びER+、ER／AGE低、LN^-個体である。本実施態様において、個体は、ER+又はER^-として分類され得る。個体がER^-である場合、個体は、さらにBRCA1型又は散発性の腫瘍を有するとして分類される。したがって、ER^-個体は、ER^-、BRCA1又はER^-、散発性として分類される。或いは、個体が、ER+として分類されている場合、個体は、個体の年齢に対するエストロゲン受容体をコードする遺伝子の発現レベルのlog（比）において高い又は低い比を有するとしてさらに分類される。低い比を有する個体は、LN+又はLN-としてさらに分類される。したがって、ER⁺個体は、ER+、ER／AGE高；ER+、ER／AGE低、LN+；又はER+、ER／AGE低、LN^-；として分類される。もちろん、個体がこれらの5つのサブセットの１つに分類されている限り、個体のER状態、腫瘍型、年齢及びLN状態は、いずれの順序で同定されてもよい。

一つの実施態様において、乳癌患者は、最初に以下の患者サブセットのうちの１つに分類される：ER^-、BRCA1個体；ER^-、散発性個体；ER+、ER／AGE高個体；ER+、ER／AGE低、LN+個体；及びER+、ER／AGE低、LN^-個体。次いで、患者は、適切なサブセットについて、複数の遺伝子又はこれらのコードされたタンパク質の患者の発現プロフィールを、前記複数の遺伝子又はこれらのコードされたタンパク質の発現レベルの予後良好及び／又は予後不良テンプレートプロフィールと比較すること、及び前記患者の発現プロフィールがそれぞれ予後良好テンプレートの又は予後不良テンプレートに対して高い類似性を有する場合、前記患者を予後良好又は予後不良を有するとして分類すること、によって予後良好又は予後不良を有するとして分類される。好ましい実施態様において、患者サブセットについての予後良好テンプレートは、予後良好又は結果良好である前記サブセットに分類された個体由来の腫瘍試料における予後のために情報価値のある前記複数の遺伝子のそれぞれの平均発現レベルを含み、一方、予後不良テンプレートは、予後不良又は結果不良である前記サブセットに分類された個体由来の腫瘍試料における予後のために情報価値のある前記複数の遺伝子のそれぞれの平均発現レベルを含む。別の具体的実施態様において、前記予後良好又は予後不良テンプレートは、それぞれ予後良好を有するか、又は予後不良を有する前記サブセットに、分類可能な個体の腫瘍試料における予後のための情報価値のある遺伝子の平均発現レベルを表す数学的値のセットである。

本明細書に記述した種々の患者サブセットが、腫瘍形成及び転移の開始の種々の分子機構を反映することは明らかである。したがって、表1〜5に収載された遺伝子セットは、最初に、人が特定のタイプの乳癌を有することを診断するためにも有用である。したがって、本発明は、また、個体が特定のサブタイプの乳癌を有すると診断する方法であって：前記個体由来の試料において、表1〜5に収載されたマーカーの複数の遺伝子の発現プロフィールを決定すること；及び前記発現プロフィールを、前記癌のサブタイプの乳癌試料における前記複数の遺伝子の発現を表すテンプレートプロフィールと比較すること；及び前記比較に基づいて個体が前記乳癌のサブタイプを有すると診断すること；を含む前記方法を提供する。具体的実施態様において、癌の前記サブタイプは、ER^-、BRCA1型；ER^-散発性型；ER+、ER／AGE高型；ER+、ER／AGE低、LN+型；及びER／AGE低、LN^-型；からなる群より選択される。別の具体的実施態様において、前記テンプレートは、表1、表2、表3、表4又は表5に収載されたマーカーの複数の遺伝子の発現の平均レベルを含む。別の具体例において、前記比較は、前記個体から採取した前記試料において、表1〜5のそれぞれに収載されたマーカーの遺伝子の発現プロフィールの、表1〜5のそれぞれについて同じ遺伝子の発現レベルを含むテンプレートプロフィールに対する類似性を決定すること、及び前記試料における前記遺伝子の発現のパターンが、表1、表2、表3、表4又は表5に収載されたマーカーの遺伝子の発現のパターンに最も類似しているかどうか決定することを含む。

別の実施態様において、乳癌患者は：（a）前記患者をER^-、BRCA1；ER^-散発性；ER+、ER／AGE高；ER+、ER／AGE低、LN+；又はER+、ER／AGE低、LN^-として分類すること；（b）患者から採取した細胞試料において第1の複数の遺伝子の発現プロフィールを決定すること；を含む方法によって予後良好又は予後不良を有するとして分類され、前記第1の複数の遺伝子は、前記患者がER^-、BRCA1として分類されている場合は表1；前記患者がER^-、散発性として分類されている場合は表2；前記患者がER+、ER／AGE高として分類されている場合は表3；前記患者がER+、ER／AGE低、LN+として分類されている場合は表4；又は前記患者がER+、ER／AGE低、LN^-として分類されている場合は表5；のマーカーに対応する遺伝子のうちの少なくとも2つを含み、前記患者は、患者のERレベルが予め定められた値を上回る場合に「ER／AGE高」であり、患者のERレベルが前記予め定められた値を上回らない場合に「ER／AGE低」である。本方法の具体的実施態様において、前記予め定められたERの値は、ER=0.1（AGE 42.5）として算出され、ここでAGEは前記患者の年齢である。別の具体的実施態様において、前記患者は、ER^-、BRCA1であり、前記複数の遺伝子は、表1に収載されたマーカーの遺伝子の少なくとも、1、2、3、4、5、10個又は全てを含む。別の具体的実施態様において、前記患者は、ER^-、散発性であり、前記複数の遺伝子は、表2に収載されたマーカーの遺伝子の少なくとも、1、2、3、4、5、10個又は全てを含む。別の具体的実施態様において、前記患者は、ER+、ER／AGE高であり、前記複数の遺伝子は、表3に収載されたマーカーの遺伝子の少なくとも1、2、3、4、5、10個又は全てを含む。別の具体的実施態様において、前記患者は、ER+、ER／AGE低、LN+であり、前記複数の遺伝子は、表4に収載されたマーカーの遺伝子の少なくとも1、2、3、4、5、10個又は全てを含む。別の具体的実施態様において、前記患者は、ER+、ER／AGE低、LN^-であり、前記複数の遺伝子は、表5に収載されたマーカーの遺伝子の少なくとも、1、2、3、4、5、10個又は全てを含む。別の具体的実施態様において、本方法は、前記細胞試料において、対照と比較して、表1〜5に見いだされないマーカーの第2の複数の遺伝子の発現レベルを決定することを含み、前記第2の複数の遺伝子は、予後のための情報価値がある。

乳癌患者のLN状態に関して情報を利用できる場合、患者を、「非常に予後良好」「中間の予後」又は予後不良を有するとして同定してよく、これにより、治療を洗練することができる。一つの実施態様において、本発明は、乳癌患者に治療計画を割り当てる方法であって：（a）表1、表2、表3、表4又は表5に収載されたマーカーの少なくとも5つの遺伝子の発現レベルに基づいて、「予後不良」「中間の予後」又は「非常に予後良好」を有するとして前記患者を分類すること；及び（b）前記治療計画には、（i）前記患者が、リンパ節ネガティブであり、かつ予後良好又は中間の予後を有するとして分類されている場合に、補助化学療法を含めない、又は（ii）前記患者がリンパ節状態と発現プロフィールとのその他のいずれかの組み合わせを有する場合に、化学療法を含める、治療計画を前記患者に割り当てること；を含む方法を提供する。

別の実施態様において、乳癌患者には：（a）乳癌患者の年齢、ER状態、LN状態及び腫瘍型を決定する工程；（b）前記患者をER^-、散発性；ER^-、BRCA1；ER+、ER／AGE高；ER+、ER／AGE低、LN+；又はER+、ER／AGE低、LN^-と分類する工程；（c）少なくとも5つの遺伝子のマーカーが、前記患者がER、散発性として分類されている場合は表1；前記患者がER^-、BRCA1として分類されている場合は表2；前記患者がER+、ER／AGE高として分類されている場合は表3；前記患者がER+、ER／AGE低、LN+として分類されている場合は表4；又は前記患者がER+、ER／AGE高、LN^-として分類されている場合は表5；に収載されている、前記乳癌患者から採取した細胞試料における前記少なくとも5つの遺伝子を含む発現プロフィールを決定する工程；（d）前記少なくとも5つの遺伝子の発現レベルの発現プロフィールの、前記少なくとも5つの遺伝子の発現レベルを含むテンプレートプロフィールに対する類似性を決定して、患者の類似値を得る工程；（e）前記患者の類似値を選択された第1及び第2の類似性の閾値とそれぞれ比較する工程であって、前記第2の類似性閾値は、前記テンプレート発現プロフィールに対して、前記第1の類似性閾値よりも大きな類似性を示す、前記工程；及び（f）乳癌患者を、前記患者の類似値が前記第2の閾値の類似値を上回る場合に前記第1の予後を、前記患者の類似値が前記第1の閾値の類似値を上回るが、前記第2の閾値の類似値を上回らない場合に第2の予後を、及び前記患者の類似値が前記第1の閾値の類似値を上回らない場合に第3の予後を有するとして分類する、前記工程；を含む方法によって予後が割り当てられる。本方法の具体的実施態様において、前記第1の予後は、「非常に予後良好」であり、前記第2の予後は「中間の予後」であり、かつ前記第3の予後は「予後不良」であり、ここで患者がリンパ節ネガティブであり、かつ予後良好又は中間の予後を有するとして分類されている場合は補助化学療法を含まない治療計画が前記乳癌患者に割り当てられる、又は前記患者がその他のリンパ節状態と発現プロフィールとの組み合わせを有する場合は化学療法を含む治療計画が前記乳癌患者に割り当てられる。

また、本発明は、治療計画を乳癌患者に割り当てる方法であって：（a）前記患者についてのリンパ節状態を決定するこ工程；（b）前記患者からの細胞試料において、表5に収載された少なくとも5つのマーカーの遺伝子の発現を決定し、これにより発現プロフィールを作成する工程；（c）前記発現プロフィールに基づいて「予後不良」、「中間の予後」又は「非常に予後良好」を有するとして前記患者を分類する工程；及び（d）治療計画を前記患者に割り当てる工程；を含み、前記治療計画には、該患者がリンパ節ネガティブであり、かつ予後良好又は中間の予後を有するとして分類されている場合に補助化学療法を含まず、又は前記患者がリンパ節状態と分類との任意の組み合わせを有する場合に化学療法を含む、前記方法を提供する。本方法の具体的実施態様において、「中間の予後」を有するとして分類されたリンパ節ネガティブ患者に割り当てられた前記治療計画には、アジュバントホルモン療法をさらに含む。本方法の別の具体的実施態様において、前記分類工程（c）は：（a）乳癌腫瘍試料のプールを構成する複数の乳癌腫瘍試料を、前記腫瘍試料のそれぞれにおける前記少なくとも5つの遺伝子の発現プロフィールと、前記プールを構成する全ての残りの腫瘍試料全体にわたる前記少なくとも5つの遺伝子の発現プロフィールとの間の類似性の程度によって下降順に順位付けする工程であって、前記類似性の程度が類似値として表されている、前記工程；（b）前記分類工程における偽陰性の許容される数を決定する工程であって、ここで偽陰性は、前記細胞試料における前記少なくとも5つの遺伝子の発現レベルにより、前記乳癌患者が初診後の最初の5年以内に有すると予測する遠隔転移を有さないであろうと予測されるが、初診後の5年以内に遠隔転移を有していた乳癌患者である、前記工程；（c）前記順位付けした一覧において、前記許容される数以下の腫瘍試料が偽陰性である値を上回る類似値を決定する工程；（d）工程（c）において決定した前記類似値を第1の閾値の類似値として選択する工程；（e）前記第1の類似値よりも大きい第2の類似値を第2の閾値の類似値として選択する工程；及び（f）乳癌患者由来の乳癌腫瘍試料における前記少なくとも5つの遺伝子の発現プロフィールと前記プールにおける前記それぞれの少なくとも5つの遺伝子の発現プロフィールとの間の類似性を決定して、患者の類似値を得る工程；を含む方法であって、ここで前記患者の類似値が前記第2の閾値の類似値に等しいか、又は上回る場合、前記患者は「非常に予後良好」であるとして分類され；前記患者の類似値が前記第1の閾値の類似値に等しいか、又は上回るが、前記第2の閾値の類似値未満である場合、前記患者は、「中間の予後」であるとして分類され；及び前記患者の類似値が前記第1の閾値の類似値未満である場合、前記患者は、「予後不良」であるとして分類される。本方法の別の具体的実施態様は、前記患者のエストロゲン受容体（ER）状態を決定する工程を含み、ここで前記患者がER陽性でかつリンパ節陰性である場合、前記患者に割り当てられる前記治療計画は、アジュバントホルモン療法をさらに含む。

本発明は、患者に由来する試料における複数の細胞成分の測定値、患者のエストロゲン受容体レベル（「ERレベル」）、及び患者の年齢と比較した患者のエストロゲン受容体レベル（「ER／AGE」）を含む患者の細胞成分プロフィールに基づいて、化学療法に対する乳癌患者の反応性を予測する方法を提供する。本発明の方法において、患者は、乳癌患者の一般的集団の患者と比較して、適切な化学療法反応性群に分類されている。本発明者らは、患者の細胞成分プロフィールが予後不良を示し、かつ患者のERレベルがER⁺であり、患者の年齢と比較した患者のエストロゲン受容体レベルER／AGEが低い場合に、乳癌患者の一般的集団の患者と比較すると、患者が化学療法に対して、たとえばシクロホスファミド、メトトレキセート及び5-フルオロウラシル（「CMF組み合わせ」）の組み合わせによる治療に対して増強された反応を示すが、（i）患者のERレベルがER^-であるか、又は（ii）患者の細胞成分プロフィールが予後不良を示し、かつ患者のERレベルがER⁺であり、かつ患者の年齢に相関した患者のエストロゲン受容体レベルER／AGEが高い場合に、一般的集団の患者と比較して、患者が化学療法に対する反応の減少を示すことを発見した。本明細書において、ER⁺は高ERレベルを示し、かつER^-は低ERレベルを示す。一つの実施態様において、ERレベルは、組織試料での免疫組織化学的染色によって測定され、染色された核が10％よりも多いことを示す組織試料を有する患者はER⁺とみなされ、染色された核が10％未満を示す組織試料を有する患者はER^-とみなされる。別の実施態様において、ER+及びER-患者は、マイクロアレイを使用して測定されるエストロゲン受容体をコードする遺伝子の転写物又はmRNAレベルによって分けられ、ER+患者はlog10（比）＞-0.65を有し、かつER-患者はlog10（比）=又は＜-0.65を有し、ここで比は、患者試料と対照試料、たとえば複数の異なる乳房腫瘍試料由来の細胞成分のプールとのエストロゲン受容体mRNAレベルの比である。好ましくは、複数の試料は、少なくとも50、100、200、又は300個の異なる試料を含む。加えて、本発明者らは、患者の細胞成分プロフィールが予後良好を示す場合、患者が化学療法を必要としないことも見いだした。本発明の方法は、55歳未満である乳癌患者の化学療法、たとえばCMF組み合わせによる治療に対する反応性を予測するのに特に有用である。

一つの実施態様において、患者の細胞成分プロフィールを評価して、プロフィールが予後良好又は予後不良を示すかどうかを決定する。好ましい実施態様において、患者の予後は、細胞成分プロフィールを一定の予後レベルに対応する予め定められた細胞成分テンプレートプロフィール、たとえば複数の結果良好の患者における細胞成分のレベルを表す複数の細胞成分の測定値を含む予後良好テンプレート又は複数の結果不良の患者における細胞成分のレベルを表す複数の細胞成分の測定値を含む予後不良テンプレートと比較することによって評価される。好ましい実施態様において、予後良好テンプレートは、複数の結果良好の患者におけるそれぞれの細胞成分の平均レベルを含む。好ましい実施態様において、予後不良テンプレートは、複数の結果不良の患者におけるそれぞれの細胞成分の平均レベルを含む。一つの実施態様において、予後良好又は予後不良テンプレートにおけるそれぞれの細胞成分の平均レベルは、単純な平均である。別の実施態様において、予後良好又は予後不良テンプレートにおけるそれぞれの細胞成分の平均レベルは、エラー加重平均である。本明細書において、結果良好の患者は、初診後の期間、たとえば1、2、3、4、5又は10年の期間内に転移の発生がない患者であり、結果不良の患者は、初診後の期間、たとえば1、2、3、4、5又は10年の期間内に転移の発生がある患者である。好ましい実施態様において、両期間は、10年である。表8は、70遺伝子マーカーセットについて、例示的な良好（列C₁）及び不良（列C₂）テンプレートプロフィールを示す。

患者の細胞成分プロフィールの、予後良好又は予後不良を表すテンプレートに対する類似性の程度は、患者が予後良好又は予後不良を有するかどうかを示すために使用することができる。好ましい実施態様において、患者の細胞成分プロフィールが予後良好テンプレートに対して高い類似性を有し、及び／又は予後不良テンプレートに対して低い類似性を有する場合、患者は、予後良好プロフィールを有するとして分類されている。別の実施態様において、患者の細胞成分プロフィールが予後良好テンプレートに対して低い類似性を有し、及び／又は予後不良テンプレートに対して高い類似性を有する場合、患者は、予後不良プロフィールを有するとして分類される。55歳未満である乳癌患者の反応性を予測するための実施態様において、テンプレートを生成するために使用される結果良好及び結果不良の患者集団の患者もまた、好ましくは乳癌診断時に55歳未満である。

患者の細胞成分プロフィールとテンプレートプロフィールとの間の類似性の程度は、当該技術分野において既知のいずれの方法を使用して決定することができる。一つの実施態様において、類似性は、患者のプロフィールとテンプレートとの間の相関係数によって表される。一つの実施態様において、相関閾値を上回る相関係数は高類似性を示すが、閾値を下回る相関係数は低類似性を示す。好ましい実施形態では、相関閾値は、0.3、0.4、0.5又は0.6を示す。別の実施態様において、患者のプロフィールとテンプレートとの間の類似性は、患者のプロフィールとテンプレートとの間の距離によって表される。一つの実施態様において、所与の値を下回る距離は高類似性を示すが、所与の値以上の距離は低類似性を示す。

例証として、一つの実施態様において、予後良好のためのテンプレートは、

（たとえば、表8の予後良好C₁列に収載された値からなるプロフィール）として定義され、及び／又は予後不良のためのテンプレートは、

（たとえば、表8の予後良好C₂列に収載された値からなるプロフィール）として定義される。次いで、2つの分類子パラメーター（P_１及びP₂）のいずれか一方又は両方を使用して、患者のプロフィールとテンプレートとの間に類似性の程度を測定することができ：P₁は、患者のプロフィール

と予後良好テンプレート

との間の類似性を測定し、P₂は、

と予後不良テンプレート

との間に類似性を測定する。相関係数を使用する実施態様において、相関係数P₁は、

（式中、i=1及び2）
として算出することができる。

したがって、一つの実施態様において、P₁が選択された相関閾値よりも大きい場合、又はP₂が選択された相関閾値以下である場合、

は、予後良好プロフィールとして分類される。別の実施態様において、P₁が選択された相関閾値よりも小さい場合、又はP₂が選択された相関閾値を上回る場合、

は、予後不良プロフィールとして分類される。さらに別の実施態様において、P₁が第1の選択された相関閾値よりも大きい場合、

は、予後不良プロフィールとして分類され、P₂が第2の選択された相関閾値よりも大きい場合、

は、予後良好プロフィールとして分類される。また、予後に従って発現プロフィールを分類するために、当該技術分野において既知のその他の方法、たとえば下の第5.2.4節に記述した方法を使用することができる。

好ましい実施態様において、細胞成分プロフィールは、患者に由来する試料における複数の転写物の測定値（たとえば、mRNA又はcDNAを測定することによって測定される）を含む発現プロフィールである。本実施態様において、予後良好テンプレートは、複数の結果良好の患者における転写物の発現レベルを表す複数の転写物の測定値を含む予後良好発現テンプレートであり得、予後不良テンプレートは、複数の結果不良の患者における転写物の発現レベルを表す複数の転写物の測定値を含む予後不良発現テンプレートであり得る。好ましい実施態様において、予後良好又は予後不良発現テンプレートにおけるそれぞれの転写物の測定値は、それぞれ複数の結果良好又は結果不良の患者における転写物の発現レベルの平均である。一つの実施態様において、それぞれの測定値は、平均減算log（強度）である（2004年8月5日に公開されたPCT公報WO2004/065545を参照されたく、これは、その全体が引用により本明細書に組み込まれる）。一つの実施態様において、複数の転写物は、表8に収載された遺伝子のセットの少なくとも一部に対応する転写物からなる。好ましくは、複数の転写物は、表8に収載された遺伝子のセットの少なくとも50%、60%、70%、80%、85%、90%、95%若しくは98%、又は表8に収載された遺伝子の少なくとも5、10、15、20、25、30、35、40、45、50、55、60若しくは65個に対応する転写物からなる。好ましい実施態様において、複数の転写物は、表8に収載された全ての遺伝子に対応する転写物からなる。

別の実施態様において、発現プロフィールは、対照試料における前記複数の転写物の測定値に対する、前記患者に由来する試料における前記複数の転写物の示差的測定値を含む示差的発現プロフィールである。示差的測定値は、xdev、log（比）、エラー加重log（比）、又は平均減算log（強度）であり得る（たとえば、2000年7月6日に公表されたPCT公報WO00/39339；2004年8月5日に公表されたPCT公報WO2004/065545を参照されたく、これらのそれぞれは、その全体が引用により本明細書に組み込まれる）。

別の実施態様において、細胞成分プロフィールは、患者に由来する試料における複数のタンパク質種の測定値を含む。この実施態様において、予後良好テンプレートは、複数の結果良好の患者におけるタンパク質種のレベルを表す複数のタンパク質種の測定値を含み、予後不良テンプレートは、複数の結果不良の患者におけるタンパク質種のレベルを表す複数のタンパク質種の測定値を含む。
患者の細胞成分プロフィールは、たとえば第5.3節に記載されているように、当該技術分野において既知のいずれの方法によって決定することもできる。

本発明の方法は、好ましくは、対照使用又は参照試料を使用し、これらは決定することができる細胞成分の変化に対して、任意の適切な試料であり得る。一つの実施態様において、対照試料又は参照試料は、複数の乳癌患者から複数の細胞成分、たとえば複数の転写物又はcDNA、若しくは複数のタンパク質種を一緒にプールすることによって作製される。或いは、対照試料又は参照試料は、精製された、若しくは合成された細胞成分、たとえば複数の精製されたか、若しくは合成された転写物又はcDNA、複数の精製されたか、若しくは合成されたタンパク質種と共にプールすることによって作製することができる。一つの実施態様において、それぞれの転写物又はcDNAのための合成RNAをプールして、対照試料又は参照試料を形成する。好ましくは、合成RNAの存在量は、ほぼ、現実の腫瘍プールにおける対応する転写物の存在量である。それぞれの個々の患者試料についてのマーカー遺伝子の示差的発現をこの対照試料に対して測定する。一つの実施態様において、診断／予後転写物の発現レベルをアッセイするために使用されるマイクロアレイ上のプローブ配列に対応する60merオリゴヌクレオチドを合成し、pBluescript SK-ベクター（Statagene社, La Jolla, C）内にT7プロモーター配列に隣接してクローン化する。個々のクローンを単離して、これら挿入配列をDNAシーケンシングによって検証する。合成RNAを作製するためには、クローンをEcoRIで直線化して、T7インビトロでの転写（IVT）反応をMegaScriptキット（Ambion社、Austin、TX）によって行い、産物のDNase処理を行う。合成RNAをRNeasyカラム（Qiagen社、Valencia CA）で精製する。これらの合成RNAを転写し、増幅し、標識し、及び共に混合して参照プールを作製する。これらの合成RNAの存在量は、現実の腫瘍プールにおいて対応するマーカー遺伝子の転写物の存在量に近くなるように選択する。

一つの実施態様において、ERレベルは、患者におけるエストロゲン受容体をコードする遺伝子の発現レベルを対照試料におけるものと比較して測定することによって決定される。好ましい実施態様において、エストロゲン受容体をコードする遺伝子は、エストロゲン受容体α遺伝子である。別の実施態様において、ERレベルは、アクセッション番号NM_000125を有する遺伝子（配列番号：425）の転写物を検出するオリゴヌクレオチドプローブによって測定される。対照試料は、種々の患者由来の乳癌細胞のプールである。本実施態様において、ERレベルは、log（比）＞-0.65である場合、ER⁺として分類され、そうでなければER^-として分類される（たとえば、van't Veerらの論文, 2002, Nature 415:530を参照されたい）。別の実施態様において、ERレベルは、患者の組織試料におけるエストロゲン受容体のレベルの免疫組織化学的染色測定によって決定される。一つの実施態様において、ERレベルは、免疫組織化学的染色を示す核が10％よりも多いことを示す場合にER⁺として分類され、かつ免疫組織化学的染色を示す核が10％未満を示す場合に、ERレベルはER^-として分類される。

ER／AGEとして命名された適切な測定規準を使用して、患者の年齢と比較した患者のエストロゲン受容体レベルを測定することができる。個体のエストロゲン受容体遺伝子の発現レベルが、年齢依存的な閾値よりも高い場合、たとえば個体のERレベルが、個体の年齢と比較して高い場合、個体はER／AGE高として分類される。一つの実施態様において、特定の年齢の個体のER発現のlog（比）を個体の年齢についての閾値と比較し、閾値以上のER発現レベルを高いとみなす。一つの実施態様において、log10（比）によって測定される患者のエストロゲン受容体レベルを、c・（AGE-d）（式中、cは係数であり、AGEは前記患者の年齢であり、dは年齢閾値である）として定義されるパラメーターと比較する。患者のERレベルがc・（AGE-d）よりも大きい場合、患者は高ER／AGEを有するとして分類され、かつ患者のERレベルがc・（AGE-d）以下である場合、患者は低ER／AGEを有するとして分類される。パラメーターc及びdは、ERレベル及び使用するAGEに依存する。これらは、それぞれが異なるERレベル-年齢依存性を有する2つの部分群の二峰性分布に対して患者のERレベル-年齢分布をフィッティングすることによって決定することができる。好ましい実施態様において、c = 0.1及びd = 42.5である。

化学療法は、任意のトポイソメラーゼ阻害剤、DNA結合剤、代謝拮抗剤、電離放射線、又はこのような既知のDNA傷害物質の2つ以上の組み合わせを含むが、これに限定されるわけではない当該技術分野において既知の抗癌剤の任意の一つ又は組み合わせを使用して行うことができる。
本発明と組み合わせて使用することができるトポイソメラーゼ阻害剤は、トポイソメラーゼI（Topo I）阻害剤、トポイソメラーゼII（Topo II）阻害剤、又は二重トポイソメラーゼI及びII阻害剤であり得る。topo I阻害剤は、以下のいずれの化合物の種類であることもできる：カンプトセシン類似体（たとえば、カレニテシン、アミノカンプトセシン、ロイトテカン、トポテカン、イリノテカン、BAY 56-3722、ルビテカン、GI14721、エクサテカンメシレート）、レベッカマイシン類似体、PNU 166148、レベッカマイシン、TAS-103、カンプトセシン（たとえば、ポリグルタミン酸カンプトセシン、カンプトセシンナトリウム）、イントプリシン、エクテイナシジン743、J-107088、ピベンジモール。好ましいtopo I阻害剤の例は、カンプトセシン、トポテカン（ハイカプタミン）、イリノテカン（塩酸イリノテカン）、ベロテカン、又はこれらの類似体若しくは誘導体を含むが、これらに限定されるわけではない。

発明と組み合わせて使用することができるtopo II阻害剤は、以下のいずれの化合物の種類であることもできる：アントラサイクリン系抗生物質（たとえば、カルビシン、ピラルビシン、リポソームのクエン酸ダウノルビシン、ダウノマイシン、4-ヨード-4-ドキソドキソルビシン、ドキソルビシン、n, n-ジベンジルダウノマイシン、モルホリノドキソルビシン、アクラシノマイシン抗生物質、デュボリマイシン（duborimycin）、メノガリル、ノガラマイシン、ゾルビシン、エピルビシン、マルセロマイシン、デトルビシン、アンナマイシン、7-シアノキノカルシノール、デオキシドキソルビシン、イダルビシン、GPX-100、MEN-10755、バルルビシン、KRN5500）、エピポドフィロトキシン化合物（たとえば、ポドフィリン、テニポシド、エトポシド、GL331、2-エチルヒドラジド）、アントラキノン化合物（たとえば、アメタントロン、ビサントレン、ミトキサントロン、アントラキノン）、シプロフロキサシン、アクリジンカルボキサミド、アモナフィド、アントラピラゾール抗生物質（たとえば、テロキサントロン、セドキサントロン三塩酸塩、ピロキサントロン、アントラピラゾール、ロソキサントロン）、TAS-103、フォストリエシン、ラゾキサン、XK469R、XK469、クロロキノキサリンスルホンアミド、メルバロン、イントプリシン、エルサミトルシン、CI-921、ピラゾロ・アクリジン、エリプチニウム、アムサクリン。好ましいtopo II阻害剤の例は、限定されないが、ドキソルビシン（アドリアマイシン）、リン酸エトポシド（エトポフォス）、テニポシド、ソブゾキサン、又はこれらの類似体若しくは誘導体を包含する。

本発明と組み合わせて使用することができるDNA結合剤としては、DNA溝結合剤、たとえばDNA副溝結合剤；DNA架橋薬；挿入剤；及びDNA付加体形成薬を含むが、これらに限定されるわけではない。DNA副溝結合剤は、アントラサイクリン抗生物質、マイトマイシン抗生物質（たとえば、ポルフィロマイシン、KW-2149、マイトマイシンB、マイトマイシンA、マイトマイシンC）、クロモマイシンA3、カルゼレシン、アクチノマイシン抗生物質（たとえば、カクチノマイシン、ダクチノマイシン、アクチノマイシンF1）、ブロスタリシン、エキノマイシン、ビゼレシン、デュオカルマイシン抗生物質（たとえば、KW 2189）、アドゼレシン、オリボマイシン抗生物質、プリカマイシン、ジノスタチン、ジスタマイシン、MS-247、エクテイナシジン743、アムサクリン、アントラマイシン及びピベンジモール、又はこれらの類似体若しくは誘導体であり得る。

DNA架橋薬には、抗腫瘍アルキル化剤、メトキサレン、マイトマイシン抗生物質、ソラレンを含むが、これらに限定されるわけではない。抗腫瘍アルキル化剤は、ニトロソ尿素化合物（たとえば、システムスチン、タウロムスチン、セムスチン、PCNU、ストレプトゾシン、SarCNU、CGP-6809、カルムスチン、フォテムスチン、メチルニトロソウレア、ニムスチン、ラニムスチン、エチルニトロソ尿素、ロムスチン、クロロゾトシン）、マスタード薬（たとえば、スピロマスチン、トロフォスファミド、クロランブシル、エストラムスチン、2,2,2-トリクロロ・トリエチルアミン、プレドニマスチン、ノベムビチン、フェナメット、グルフォスファミド、ペプチケミオ、イホスファミド、デフォスファミド、ナイトロジェンマスタード、フェネステリン、マンノムスチン、シクロホスファミド、メルファラン、ペルフォスファミド、塩酸メクロレタミンオキシド、ウラシルマスタード、ベストラブシル、DHEAマスタード、タリムスチン、マフォスファミド、アニリンマスタード、クロルナファジンなどのナイトロジェンマスタード化合物；ビスクロロエチルスルフィドなどのサルファーマスタード化合物；TLK286及びZD2767などのマスタードプロドラッグ）、エチレンイミン化合物（たとえば、マイトマイシン抗生物質、エチレンイミン、ウレデパ、チオテパ、ジアジコン、ヘキサメチレンビスアセトアミド、ペンタメチルメラミン、アルトレタミン、カルチノフィリン、トリアジクオン、メツレデパ、ベンゾデパ、カルボコン）、アルキルスルホナート化合物（たとえば、ジメチルブスルファン、Yoshi-864、インプロスルファン、ピポスルファン、トレオスルファン、ブスルファン、ヘプスルファン）、エポキシド化合物（たとえば、アナキシロン、ミトラクトール、ジアンヒドロガラクチトール、テオキロン）、種々のアルキル化剤（たとえば、イポメアノール、カルゼレシン、メチレンジメタンスルホナート、ミトブロニトール、ビゼレシン、アドゼレシン、ピペラジンジオン、VNP40101M、アサレイ 6-ヒドロキシメチルアシルフルヴェン、EO9、エトグルシド、エクテイナシジン743、ピポブロマン）、白金化合物（たとえば、ZD0473、リポソームのシスプラチン類似体、サトラプラチン、BBR 3464、スピロプラチン、オルマプラチン、シスプラチン、オキサリプラチン、カルボプラチン、ロバプラチン、ゼニプラチン、イプロプラチン）、トリアゼン化合物（たとえば、イミダゾールマスタード、CB10-277、ミトゾロミド、テモゾロマイド、プロカルバジン、ダカルバジン）、ピコリン化合物（たとえば、ペンクロメジン）、又はこれらの類似体若しくは誘導体であり得る。好ましいアルキル化剤の例は、シスプラチン、ジブロモズルシトール、フォテムスチン、イホスファミド、ラニムスチン、ネダプラチン（ラトプラチン）、ベンダムスチン（塩酸ベンダムスチン）、エプタプラチン、テモゾロマイド（メタゾラストン）、カルボプラチン、アルトレタミン（ヘキサメチルメラミン）、プレドニマスチン、オキサリプラチン、カルムスチン、チオテパ、ロイスルファン（ブスルファン）、ロバプラチン、シクロホスファミド、ビスルファン、メルファラン、及びクロランブシル、又はこれらの類似体若しくは誘導体を含むが、これらに限定されるわけではない。

挿入剤には、アントラキノン化合物、ブレオマイシン抗生物質、レベッカマイシン類似体、アクリジン、アクリジンカルボキサミド、アモナフィド、レベッカマイシン、アントラピラゾール抗生物質、エキノマイシン、ソラレン、LU 79553、BW A773U、クリスナトールメシレート、ベンゾ（a）ピレン-7,8-ジオール9,10-エポキシド、アコダゾール、エリプチニウム、ピキサントロン、又はこれらの類似体若しくは誘導体であり得る。

DNA付加体形成薬には、エンジイン抗腫瘍抗生物質（たとえば、ダイネマイシン A、エスペラマイシンA1、ジノスタチン、ダイネマイシン、カリケアマイシンγ1I）、白金化合物、カルムスチン、タモキシフェン（たとえば、4-ヒドロキシ-タモキシフェン）、ソラレン、ピラジンジアゾヒドロキシド、ベンゾ（a）ピレン-7,8-ジオール-9,10-エポキシド、又はこれらの類似体若しくは誘導体を含むが、これらに限定されるわけではない。代謝拮抗剤には、シトシン、アラビノシド、フロクスウリジン、フルオロウラシル、メルカプトプリン、ゲムシタビン、及びメトトレキセート（MTX）を含むが、これらに限定されるわけではない。

具体的実施態様において、KSP阻害剤（1S）-1-｛［（2S）-4-（2,5-ジフルオロフェニル）-2-フェニル-2,5-ジヒドロ-1H-ピロール-1-イル］カルボニル｝-2-メチルプロピルアミン（2003年6月12日に出願されたPCT出願PCT/US03/18482号を参照されたい。これは、その全体が引用により本明細書に組み込まれる）は、化学療法のために、単独で、又は他の抗癌剤と組み合わせて使用される。別の具体的実施態様において、化学療法は、シクロホスファミド、メトトレキセート及び5-フルオロウラシルからなるCMF組み合わせ使用することによって行われる。

（5.2.3. 発現レベルの差に対する感度の改善）
本明細書に開示したマーカーを使用して、及び実際に、マーカーの任意のセットを使用して、たとえばプロフィールを比較するため、又はある表現型を有する個体を第2の表現型を有する別の個体から区別するために、試料におけるマーカーの絶対発現レベルを含むプロフィールを、テンプレート、たとえば複数の個体におけるマーカーの平均発現レベルを含むテンプレートと比較することができる。しかし、比較の感度を増大させるために、発現レベル値を、好ましくは多くの方法で変換させる。また、マーカーの任意のセットを使用して、ある表現型を有する個体を第2の表現型を有する別の個体から分化するために、試料におけるマーカーのそれぞれの絶対発現を対照と比較することができ；たとえば、該対照は、それぞれ、個体のプールにおけるそれぞれのマーカーの平均発現レベルであり得る。

たとえば、マーカーのそれぞれの発現レベルを、その発現レベルが決定された全てのマーカーの平均発現レベルによって、又は対照遺伝子のセットの平均発現レベルによって標準化することができる。したがって、一つの実施態様において、マーカーは、マイクロアレイ上のプローブによって表され、かつマーカーのそれぞれの発現レベルは、任意の非マーカー遺伝子を含むマイクロアレイ上に示された遺伝子の全てにわたる平均値又は中央値発現レベルによって標準化される。具体的実施態様において、標準化は、マイクロアレイ上の遺伝子の全ての中央値又は平均発現レベルを分けることによって行われる。別の実施態様において、マーカーの発現レベルは、対照マーカーのセットの平均値又は中央値発現レベルによって標準化される。具体的実施態様において、対照マーカーは、ハウスキーピング遺伝子のセットを含む。別の具体的実施態様において、標準化は、対照遺伝子の中央値又は平均の発現レベルによって分けることによって達成される。

また、マーカーに基づいたアッセイ法の感度は、個々のマーカーの発現レベルが試料のプールの同じマーカーの発現と比較する場合に、増大されるであろう。好ましくは、比較は、試料のプールのそれぞれのマーカー遺伝子の平均値又は中央値発現レベルに対してのものである。このような比較は、たとえば試料におけるマーカーのそれぞれの発現レベルからマーカーのそれぞれについてのプールの平均値又は中央値発現レベルによって割ることによって達成してもよい。これは、全体として試料におけるマーカーとプールにおけるマーカーとの間の発現の相対差を強調する効果を有し、絶対発現レベル単独の使用よりも、より感度が高く、より意味がある結果を生じる可能性が高い比較がなされる。発現レベルデータは、任意の便利な方法で変換してもよく；好ましくは、平均又は中央値がとられる前に、全てのための発現レベルデータがlog変換される。

プールに対する比較を行う際に、2つのアプローチを使用してもよい。第1に、試料におけるマーカーの発現レベルをプールにおけるこれらのマーカーの発現レベルに比較してもよく、この場合、試料に由来する核酸とプールに由来する核酸とを単一の実験の間にハイブリダイズさせる。このようなアプローチには、それぞれの比較又は限られた数の比較のために新たなプール核酸を作製することが必要であり、したがって、利用可能な核酸の量による制限がある。或いは、及び好ましくは、プールにおける発現レベルは、標準化されている、及び／又は変換されているかどうかにかかわらず、コンピュータに、又はコンピュータ可読媒体に記録して、試料からの個々の発現レベルデータ（すなわち、１チャンネルのデータ）に対する比較の際に使用する。

また、本発明は、第1の細胞又は生物体を、少なくとも2つの異なる表現型のうちの一方を有するとして分類する以下の方法を提供し、ここで異なる表現型には、第1の表現型及び第2の表現型を含む。第1の細胞又は生物体からの第1の試料における複数のマーカーのそれぞれの発現レベルを、それぞれ複数の細胞又は生物体からのプールされた試料における、前記マーカーのそれぞれの発現レベルに比較する。該複数の細胞又は生物体は、第1の比較値を生成するために、それぞれ前記少なくとも2つの異なる表現型を示す異なる細胞又は生物体を含む。次いで、第1の比較値を第2の比較値と比較し、前記第2の比較値は、前記第1の表現型を有するとして特徴づけられた細胞又は生物体からの試料におけるそれぞれの前記マーカーの発現レベルを、プールされた試料においてそれぞれ前記マーカーの発それぞれの現レベルに対して比較することを含む方法の結果である。次いで、第1の比較値を第3の比較値と比較する。ここで前記第3の比較値は、第2の表現型を有するとして特徴づけられた細胞又は生物体からの試料におけるマーカーのそれぞれの発現レベルを、プールされた試料においてそれぞれのマーカーのそれぞれの発現レベルに対して比較することを含む方法の結果である。具体的実施態様において、マーカーは、遺伝子、該遺伝子によってコードされるタンパク質などであり得る。任意に、第1の比較値を、それぞれさらなる比較値と比較することができ、この場合、それぞれのさらなる比較値は、前記第1及び第2の表現型とは異なる表現型を有するとして特徴づけられるが、少なくとも2つの異なる表現型に含まれる細胞又は生物体から試料におけるそれぞれの前記マーカーの発現レベルを、前記プールされた試料においてそれぞれ前記遺伝子のそれぞれの発現レベルに対して比較することを含む方法の結果である。最後に、前記第2の、第3の、及び存在するならば、1つ以上のさらなる比較値のいずれかに対して決定が行われ、第1の細胞又は生物体が、前記第1の比較値と最も類似する前記比較値を生成するために使用した細胞又は生物体の表現型を有する場合、前記第1の比較値が最も類似していることが決定される。

また、マーカーに基づいたアッセイ法の感度は、個々のマーカーの発現レベルを、対象サンプル、たとえば試料のプールを含む対照試料における同じマーカーの発現と比較して、示差的発現プロフィールを作成する場合に増大する。このような比較は、たとえば試料におけるそれぞれのマーカーの発現レベルと対照試料における対応するマーカーの発現レベルとの間の比を決定することによって達成してもよい。これは、全体として試料におけるマーカーと、対照におけるマーカーとの間の発現の相対差を強調する効果を有し、その後のテンプレートに対する比較は、絶対発現レベル単独の使用よりも、より感度が高く、かつより意味がある結果を生じる可能性が高い。比較は、任意の便利な方法で、たとえば差、比、又はlog（比）をとる方法によって行ってもよい。

対照試料に対する比較を行う際に、2つのアプローチを使用してもよい。第1に、試料におけるマーカーの発現レベルを対照におけるこれらのマーカーの発現レベルと比較してもよく、この場合、試料に由来する核酸と対照に由来する核酸とを単一の実験の間にハイブリダイズさせる。このようなアプローチには、それぞれの比較又は限られた数の比較のために新たな核酸の対照試料を作製することが必要であり、したがって、利用可能な核酸の量による制限がある。或いは、及び好ましくは、対照における発現レベルは、標準化されている、及び／又は変換されているかどうかにかかわらずコンピュータに、又はコンピュータ可読媒体に記録して、試料からの個々の発現レベルデータ（すなわち、１チャンネルのデータ）に対する比較の際に使用する。

本発明の方法は、好ましくは測定可能な細胞成分の変化に対して任意の適切な試料であり得る、対照試料又は参照試料を使用する。一つの実施態様において、対照試料又は参照試料は、複数の乳癌患者から複数の細胞成分、たとえば複数の転写物又はcDNA又は複数のタンパク質種を一緒にプールすることによって作製される。或いは、対照試料又は参照試料は、精製され、若しくは合成された細胞成分、たとえば複数の精製されたか、若しくは合成された転写物又はcDNA、複数の精製されたか、若しくは合成されたタンパク質種と共にプールすることによって作製することができる。一つの実施態様において、それぞれの転写物又はcDNAの合成RNAをプールして、対照試料又は参照試料を形成する。好ましくは、合成RNAの存在量は、ほぼ現実の腫瘍プールに対応する転写物の存在量である。それぞれの個々の患者試料についてのマーカー遺伝子の示差的発現をこの対照試料に対して測定する。一つの実施態様において、診断／予後転写物の発現レベルをアッセイするために使用されるマイクロアレイ上のプローブ配列に対応する60merオリゴヌクレオチドを合成し、pBluescript SK-ベクター（Statagene社, La Jolla, C）内にT7プロモーター配列に隣接してクローン化する。個々のクローンを単離して、これら挿入配列をDNAシーケンシングによって検証する。合成RNAを作製するためには、クローンをEcoRIで直線化して、T7インビトロでの転写（IVT）反応をMegaScriptキット（Ambion社、Austin、TX）によって行い、産物のDNase処理を行う。合成RNAをRNeasyカラム（Qiagen社、Valencia CA）で精製する。これらの合成RNAを転写し、増幅し、標識し、そして共に混合して参照プールを作製する。これらの合成RNAの存在量は、現実の腫瘍プールにおける対応マーカー遺伝子の転写物の存在量に近くなるように選択する。

本発明は、第1の細胞又は生物体を、少なくとも2つの異なる表現型のうちの一方を有するとして分類する以下の方法を提供し、ここで異なる表現型には、第1の表現型と第2の表現型とを含む。第1の細胞又は生物体からの第1の試料における複数のマーカーのそれぞれの発現レベルを、それぞれ前記少なくとも2つの異なる表現型を示す異なる細胞又は生物体を含む、複数の細胞又は生物体からのプールされた試料において、それぞれ、前記マーカーのそれぞれの発現レベルと比較して、第1の比較値を生成し、その結果前記複数のマーカーについての複数の第1の比較値を含む第1の示差的プロフィールが生成される。次いで、第1の示差的プロフィールを第2の比較値を含む示差的プロフィールと比較し、ここでそれぞれの前記第2の比較値は、プールした試料において、前記第1の表現型を有するとして特徴づけられた細胞又は生物体からの試料におけるそれぞれの前記マーカーの発現レベルを、それぞれ前記マーカーの発現レベルに対して比較することを含む方法の産物である。次いで、第1の示差的プロフィールを、複数の第3の比較値を含む第3の示差的プロフィールと比較し、ここでそれぞれの前記第3の比較値は、プールした試料において、第2の表現型を有するとして特徴づけられた細胞又は生物体からの試料におけるマーカーのそれぞれの発現レベルを、それぞれ、マーカーの各々の発現レベルに対して比較することを含む方法の産物である。具体的実施態様において、それぞれのマーカーは、遺伝子、該遺伝子によってコードされるタンパク質などであり得る。任意に、第1の示差的プロフィールを、そのそれぞれがさらなる比較値を含むさらなる発現プロフィールと比較することができ、この場合、それぞれのさらなる比較値は、前記プールされた試料において、前記第1及び第2の表現型とは異なる表現型を有するとして特徴づけられるが、少なくとも2つの異なる表現型の中に含まれる細胞又は生物体からの試料における前記マーカーのそれぞれの発現レベルを、それぞれ、前記遺伝子のそれぞれの発現レベルに対して比較することを含む方法の産物である。最後に、前記第2の、第3の、及び存在するならば、1つ以上のさらなる示差的プロフィールに対しても決定を行い、前記第1の示差的プロフィールが最も類似している場合、第1の細胞又は生物体が、前記第1の示差的プロフィールと最も類似する前記示差的プロフィールを生成するために使用した細胞又は生物体の表現型を有することが決定される。

本方法の具体的実施態様において、比較値は、それぞれの前記遺伝子の発現レベルのそれぞれの比である。別の具体的実施態様において、プールされた試料における遺伝子のそれぞれの発現レベルのそれぞれは、任意の比較工程の前に標準化される。より具体的な実施態様において、発現レベルの標準化は、遺伝子のそれぞれの発現レベルを中央値又は平均値で割ることによって、又は前記細胞若しくは生物体からプールされた試料におけるハウスキーピング遺伝子を1つ以上のの平均値又は中央値発現レベルで割ることによって行われる。別の具体的実施態様において、標準化された発現レベルをlog変換に供して、比較工程では、該log変換を試料における遺伝子のそれぞれの発現レベルのlogから減算することを含む。別の具体的実施態様において、2つ以上の異なる表現型は、疾患又は障害の異なる段階である。さらにもう一つ具体的実施態様において、2つ以上の異なる表現型は、疾患又は障害の異なる予後である。さらに別の具体的実施態様において、プールされた試料における遺伝子のそれぞれの発現レベルを、又は第1の表現型、第2の表現型、若しくは前記第1及び第2の表現型とは異なる前記表現型を有するとして特徴づけられた細胞又は生物体からの試料における前記遺伝子のそれぞれの前記発現レベルを、それぞれコンピュータに、又はコンピュータ可読媒体に記録させる。

別の具体的実施態様において、2つの表現型は、予後良好及び予後不良である。より具体的実施態様において、2つの表現型は、ER^-、BRCA1状態、ER^-、散発性の状態、ER+、ER／AGE高状態、ER+、ER／AGE低、LN+状態、又はER+ 、ER／AGE低、LN+状態を有するとして同定される個体、についての予後良好及び予後不良である。別の具体的実施態様において、比較は、試料における遺伝子の発現プロフィールと2つ以上の表現型のうちの1つのみを表すプールにおける同じ遺伝子の発現プロフィールとの間でなされる。予後相関された遺伝子の状況において、たとえば試料における予後関連遺伝子の発現レベルを、複数の「予後良好」試料における同じ遺伝子の発現の平均レベルと比較することができる（予後不良及び予後良好を有する患者からの試料を含む複数の試料とは対照的）。したがって、本方法において、試料は、予後相関された遺伝子の発現プロフィールが、平均「予後良好」発現プロフィール（たとえば、「予後良好」を有する複数の患者からの試料において予後相関された遺伝子の発現の平均レベルを含むプロフィール）に選んだ相関係数を上回る場合、予後良好を有するとして分類される。発現プロフィールが「予後良好」発現プロフィールとあまり十分に相関しない（たとえば、相関係数が、選ばれた係数を上回ることができない）患者は、予後不良を有するとして分類される。

個体を、表現型、遺伝子型又は臨床的特徴に基づいて、患者サブセットに分類する場合、試料のプールは、患者サブセットのそれぞれを表す試料を含む表現型についての試料のプールであってもよい。或いは、試料のプールは、特異的患者サブセットのみを表す表現型についての試料のプールでもよい。たとえば、個体がER+、散発性として分類される場合、個体の試料が比較される試料のプールは、予後良好のみを有するER+、散発性の個体からの試料のプールであってもよく、又はER状態又は突然変異型に関係なく、予後良好を有する個体の試料のプールであってもよい。

本方法は、複数の患者サブセットに適用することができる。たとえば、具体的実施態様において、表現型は、予後良好であり、個体は、以下の患者サブセットのうちの１つに分類される：ER^-、BRCA1状態、ER^-、散発性状態、ER+、ER／AGE高状態、ER+、ER／AGE低、LN+状態、又はER+、ER／AGE低、LN+状態。次いで、個体が分類される患者サブセットについての予後のための情報価値のあるマーカーのセットを、個体にとって可能性が高い予後を決定するために使用する。試料は、個体が分類される特定のサブセットについて予後相関された遺伝子の発現プロフィールが、平均「予後良好」発現プロフィール（たとえば、「予後良好」を有するサブクラス内の患者からの複数の試料における予後相関された遺伝子の発現のレベル）に選んだ相関係数を上回る場合に、予後良好を有する個体に由来するとして分類される。発現レベルが「予後良好」発現プロフィールとあまり十分に相関しない（たとえば、相関係数が、選ばれた係数を上回ることができない）患者は、予後不良を有するとして分類される。

もちろん、１チャンネルのデータを数学的試料プールと具体的に比較することなく使用してもよい。たとえば、試料における第1又は第2の表現型に関連する少なくとも5つのマーカーの発現プロフィール間の類似性を、同じマーカーの発現レベルをそれぞれ含む第1の表現型テンプレート及び第2の表現型テンプレートに対して算出することによって、関連する第1又は第2の表現型を有するとして該試料を分類してもよく：（a）試料に由来する核酸をフルオロフォアで標識化してフルオロフォア標識された核酸のプールを得ること；（b）前記フルオロフォア標識された核酸をハイブリダイゼーションが起こり得るような条件下でマイクロアレイと接触させて、マイクロアレイ上の複数の別々の位置のそれぞれにて、前記条件下で前記マイクロアレイに結合する前記フルオロフォア標識された核酸からの蛍光発光シグナルを検出すること；及び（c）第1及び第2のテンプレートに対する個体試料におけるマーカー遺伝子発現の類似性を決定すること；により関連する第1又は第2の表現型を有するとして該試料を分類してもよく、ここで前記発現が第1のテンプレートにより類似する場合、該試料は第1の表現型を有するとして分類し、かつ前記発現が第2のテンプレートにより類似する場合、該試料は第2の表現型を有するとして分類する。

上記の方法の具体的実施態様において、第1の表現型は、乳癌の予後良好であり、試料は、患者サブセットに分類された個体からの試料であり、第1及び第2のテンプレートは、特定の患者サブセットについての表現型のためのテンプレートである。より具体的実施態様において、たとえば第1の表現型は予後良好であり、第2の表現型は予後不良であり、患者は、ER^-、散発性患者サブセット、ER^-、BRCA1サブセット、ER+、ER／AGE高サブセット、ER+、ER／AGE低、LN+サブセット、又はER+、ER／AGE低、LN+サブセットに分類され、前記第1及び第2のテンプレートは、それぞれ予後良好及び予後不良である個体におけるマーカー遺伝子の発現に由来するテンプレートであり、前記個体は、前記患者が分類される患者サブセットの全てである。

（5.2.4. 発現プロフィールの分類方法）
好ましい実施態様において、本発明の方法は、患者の予後を予測するための分類子を使用する。分類子は、マーカープロフィールを含む入力を受け、患者が属する患者サブセットを示す出力を含むデータを提供するいずれの適切なパターン認識法に基づくこともできる。分類子は、乳癌患者の訓練集団からの訓練データで訓練することができる。典型的には、訓練データは、訓練集団の患者のそれぞれについて、患者から採取した適切な試料における複数の遺伝子のそれぞれの遺伝子産物の測定値及び予後情報を含む訓練マーカープロフィールを含む。

好ましい実施態様において、分類子は、下記の分類（パターン認識）法、たとえばプロフィール類似性（下記第5.2.4.1.節）；人工ニューラルネットワーク（下記第5.2.4.2.節）；サポートベクターマシン（SVM、下記第5.2.4.3.節）；ロジスティック回帰（下記第5.2.4.4.節）、線形又は二次識別分析（下記第5.2.4.5.節）、決定樹（下記第5.2.4.6.節）、クラスター形成（下記第5.2.4.7.節）、主成分分析法（下記第5.2.4.8.節）、最近隣分類子分析（下記第5.2.4.9.節）に基づくことができる。このような分類子は、下記の関連した節に記した方法を使用する訓練集団で訓練することができる。

マーカープロフィールは、当該技術分野において既知の方法、たとえば下記第5.3節に記述した方法を使用して、患者由来の細胞試料において複数の遺伝子産物を測定することによって得ることができる。種々の公知の統計的パターン認識法を本発明と組み合わせて使用することができる。訓練患者のマーカープロフィール及び予後データを使用して、このような方法のいずれに基づいた分類子を構築することもできる。次いで、このような分類子を使用して、患者のマーカープロフィールに基づいて患者の予後状態を評価することができる。また、本方法は、訓練患者のマーカープロフィール及び予後データを使用して、異なる予後状態間を区別するマーカーを同定するためにも使用することができる。

（5.2.4.1. プロフィールマッチング）
患者の予後は、患者由来の適切な試料で得られたマーカープロフィールを、特定の予後を表すマーカープロフィールと比較することによって評価することができる。また、このようなマーカープロフィールは、「テンプレートプロフィール」又は「テンプレート」とも称される。このようなテンプレートプロフィールに対する類似性の程度が、患者の予後の評価を提供する。患者のマーカープロフィール及びテンプレートプロフィールの類似性の程度が、予め定められた閾値より上にある場合、患者には、テンプレートによって表される予後が割り当てられる。たとえば、患者の予後は、たとえば患者のマーカープロフィールを所与の予後に対応する予め定められたテンプレートプロフィール、たとえば予後良好を有する複数の患者におけるマーカーのレベルを表す複数のマーカーの測定値を含む予後良好テンプレートと比較することによって評価することができる。一つの実施態様において、類似性は、患者のプロフィールとテンプレートとの間の相関係数によって表される。一つの実施態様において、相関閾値を上回る相関係数は、高い類似性を示すが、閾値を下回る相関係数は、低い類似性を示す。

具体的実施態様において、P_iは、患者のプロフィール

と特定の予後を有する患者におけるマーカー遺伝子産物の測定値を表すマーカー遺伝子産物の測定値を含むテンプレートプロフィール、たとえば予後良好テンプレート

又は予後不良テンプレート

との間の類似性を測定する。このような係数P_iは、以下の方程式を使用して算出することができる：

式中、iは、i番目のテンプレートを示す。したがって、一つの実施態様において、

は、P₁が選択された相関閾値よりも大きい場合に、予後良好プロフィールとして分類される。別の実施態様において、

は、P₂が選択された相関閾値よりも大きい場合に、予後不良プロフィールとして分類される。好ましい実施態様において、相関閾値は、0.3、0.4、0.5又は0.6を示す。別の実施態様において、

は、P₁がP₂よりも大きい場合に、予後良好プロフィールとして分類されるが、P₁がP₂未満である場合、

は、予後不良プロフィールとして分類される。

別の実施態様において、相関係数は、それぞれの異なるマーカーの測定値に加重を割り当てた、患者のプロフィール

及びテンプレートプロフィールの加重内積である。
別の実施態様において、患者のプロフィールとテンプレートとの間の類似性は、患者のプロフィールとテンプレートとの間の距離によって表される。一つの実施態様において、所与の値のを下回る距離は、高い類似性を示すが、所与の値以上の距離は、低い類似性を示す。

一つの実施態様において、以下の式に従ったユークリッド幾何学距離が使用され、

式中、Dは、患者のプロフィール

又は予後不良テンプレート

との間の距離を測定する。その他の実施態様において、ユークリッド幾何学距離は、さらに離れた細胞成分に対して次第により大きな加重を配置するように平方される。代替的実施態様において、距離程度D_iは、

によって提供されるマンハッタン距離であり、
式中、y（n）及びz_i（n）は、それぞれ患者のプロフィール

及びテンプレートプロフィールにおける第n番目のマーカー遺伝子産物の測定値である。

別の実施態様において、距離は、D_i= 1−P_iとして定義され、式中P_iは、相関係数又は標準化した上記の通りの内積である。さらにその他の実施態様において、距離測定値は、チェビシェフ距離、羃距離（power distance）及びパーセント不一致であってもよく、これらの全てが当該技術分野において周知である。

（5.2.4.2. 人工ニューラルネットワーク）
一部の実施態様において、ニューラルネットワークが使用される。ニューラルネットワークは、本発明の分子マーカーの選択されたセットのために構築することができる。ニューラルネットワークは、二段階回帰又は分類モデルである。ニューラルネットワークは、出力ユニットの層に対して加重の層によって接続された入力ユニット（及びバイアス）の層を含む階層構造を有する。回帰のためには、出力ユニットの層は、典型的には出力ユニットを一つだけ含む。しかし、ニューラルネットワークは、継ぎ目のない様式で複数の定量的反応を扱うことができる。

多層ニューラルネットワークには、入力ユニット（入力層）、隠れユニット（隠れ層）及び出力ユニット（出力層）がある。さらに、単一バイアスユニットがあり、これは、入力ユニット以外のそれぞれのユニットに接続されている。ニューラルネットワークは、Dudaらの論文, 2001, Pattern Classification, Second Edition, John Wiley & Sons, Inc., New York；及びHastieらの論文, 2001, The Elements of Statistical Learning, Springer- Verlag, New Yorkに記述されている。

ニューラルネットワークの使用のための基本的アプローチでは、訓練されていないネットワークで開始して、訓練パターン、たとえば訓練患者からのマーカープロフィールを入力層に提示し、ネットを通してシグナルを通過させ、出力層にて出力、たとえば訓練患者の予後を決定する。次いで、これらの出力を目標値；エラーに対応する任意の差と比較する。このエラー又は基準関数は、いくらかの加重のスカラー関数であり、ネットワーク出力が所望の出力にマッチするときに最小化される。したがって、加重は、このエラーの程度を減少させるように調整される。回帰のためには、このエラーは、誤差2乗和であり得る。分類のためには、このエラーは、誤差２乗又はクロスエントロピー（偏差）であり得る。たとえば、Hastieらの論文,, 2001, The Elements of Statistical Learning, Springer- Verlag, New Yorkを参照されたい。

3つの一般に使用される訓練プロトコルは、確率的、バッチ及びオンラインである。確率的訓練では、パターンをランダムに訓練セットから選択し、それぞれのパターン提示のためにネットワーク加重を更新する。確率的逆伝播などの勾配下降法によって訓練された多層非線形ネットワークは、ネットワーク形態によって定義されるモデルにおける加重値の最尤推定を行う。バッチ訓練では、学習が行われる前に、全てのパターンをネットワークに提示する。典型的には、バッチ訓練では、いくつかのパスを、訓練データを介して作製する。オンライン訓練では、それぞれのパターンを一回及び一度だけネットに提示する。

一部の実施態様において、加重のための出発値についての考慮がなされる。加重がゼロに近い場合、ニューラルネットワークの隠れ層に一般に使用されるS字形の有効部分（たとえば、Hastieらの論文, 2001, The Elements of Statistical Learning, Springer- Verlag, New Yorkを参照されたい）は、おおまかに線形であり、それ故、ニューラルネットワークは、ほぼ線形のモデルにくずされる。一部の実施態様において、加重のための出発値は、ゼロの近くのランダムな値であるように選ばれる。それ故、本モデルは、ほとんど線形のものから始まり、加重が増大するにつれて非線形になる。必要な場合、個々のユニットに方向を配置して、非線形性を導入する。正確なゼロ加重の使用により、ゼロ導関数及び完全対称性を導き、アルゴリズムは決して移動しない。或いは、大きな加重で始めると、解が不十分となることが多い。

入力のスケーリングは、最下層の加重の有効なスケーリングを決定するので、これは、最終解の品質に対して多大な影響を有し得る。したがって、一部の実施態様において、初めに、全ての発現値は、平均ゼロ及び標準偏差1を有するように標準化される。これにより、全ての入力が正則化過程において同程度に確実に処理されて、ランダムに開始する加重にとって意味範囲を選択することができる。標準化入力では、範囲［-0.7、+0.7］にわたってランダムな一様な加重をすることが典型的である。

隠れ層を有するネットワークの使用における回帰問題は、ネットワークに使用する隠れユニットの最適な数である。ネットワークの入力及び出力の数は、解決される問題によって決定される。本発明において、所与のニューラルネットワークのための入力数は、選択された本発明の分子マーカーのセットの分子マーカーの数であり得る。ニューラルネットワークのための出力数は、典型的には、たったの1つであろう。しかし、一部の実施態様において、2つ以上の状態をネットワークによって定義することができるように複数の出力が使用される。あまりに多くの隠れユニットがニューラルネットワークに使用される場合、ネットワークは、また、自由度が大きすぎ、訓練が長くなりすぎるであろうし、ネットワークが、データに過剰に適合するおそれがある。あまりに少ない隠れユニットである場合、訓練セットは、学習することができない。しかし、一般的に言って、少なすぎるよりも、多すぎる隠れユニットを有する方が優れている。あまり少ない隠れユニットでは、モデルは、データの非線形性を獲得するほど十分な柔軟性を有しないかもしれないし；多すぎる隠れユニットでは、後述するように、適切な正則化又は枝刈りが使用される場合に、余分の加重がゼロの方へ縮小し得る。典型的な実施態様において、隠れユニットの数は、5〜100の範囲でどれかであり、数は、入力数及び訓練事例の数とともに増大する。

使用する隠れユニットの数を決定するための一般的アプローチは、正則化アプローチを適用することである。正則化アプローチでは、新たな基準関数が、古典的訓練エラーだけでなく、分類子の複雑さにも依存して構築される。具体的には、新たな基準関数には、きわめて複雑なモデルを適用し；この基準における最小を検索するには、訓練セットに対するエラーを、訓練セットにプラスして解の制約又は望ましい特性を表す正則化期間に対するエラーと釣り合わせる：

。
パラメーターλは、いくらか強めに正則化を課すように調整される。言い換えると、λがより大きな値だと、ゼロの方へ加重を縮小する傾向があり：典型的には、λを見積もるためにバリデーションセットによるクロス確認を使用した。このバリデーションセットは、訓練集団のランダムなサブセットを蓄積することによって得ることができる。また、その他の形態のペナルティー、たとえば加重除去ペナルティーも使用することができる（たとえば、Hastieらの論文, 2001, The Elements of Statistical Learning, Springer- Verlag, New Yorkを参照されたい）。

使用する隠れユニットの数を決定するための別のアプローチは、最小限必要な除去-枝切り-加重をすることである。あるアプローチにおいて、最も小量でのｍ加重が除去される（ゼロにセット）。このような量に基づいた枝切りは、機能することができるものの、最適ではなく；時には、小量での加重も、学習及び訓練データにとって重要である。一部の実施態様において、量に基づいた枝切りアプローチを使用する以外に、Wald統計量が計算される。WaId統計量の基本的なアイデアは、モデルにおける隠れユニット（加重）の重要性を見積もるためにこれらを使用することができることである。次いで、重要性が最少である隠れユニットを（これらの入出力加重をゼロにセットすることにより）除去する。これに関連した2つのアルゴリズムは、訓練エラーがどれほど加重に依存するかについて予測するために二次近似値を使用し、及び訓練エラーの増大を最も小さくさせる加重を除去する最適ブレインダメージ（Optimal Brain Damage）（OBD）及び最適ブレインサージェオン（Optimal Brain Surgeon）（OBS）アルゴリズムである。

最適ブレインダメージ及び最適ブレインサージェオンは、加重wにて極小エラーに対してネットワークを訓練し、次いで訓練エラーの増大が最も小さくなる加重を枝切りするという同じ基本的アプローチを共有する。完全加重ベクトルδwの変化についての予測される関数のエラーの増大は、以下の通りである：

式中、

は、ヘッセン行列である。本発明者らは、エラーの局所極小にあるので、第1項を消去する；第3項及びより高次の項は、無視してある。１つの加重を除去する制約を与えたこの関数を最小化するための一般解は、以下の通りである：

ここで、u_qは、加重空間においてq番目の方向に沿った単位ベクトルであり、L_qは、加重q（−加重qが枝切りされ、その他の加重がδwを更新する場合の訓練エラーの増大）の凸部に対する近似である。これらの方程式は、Hの逆を必要とする。この逆行列を算出するための1つの方法は、小さな値である

で開始することであり、式中、αは、小さなパラメーター効率的に加重定数である。次に、行列を、

に従ってそれぞれのパターンで更新し、式中、添字は、提示されるパターンに対応し、

はmと共に減少する。完全な訓練セットが提示された後、ヘッセン行列の逆行列が

によって与えられる。アルゴリズムの形態では、最適ブレインサージェオン法は、以下の通りである：

第3行目のヘッセン行列の逆行列の算出は、特に対角行列にとって単純であるので、最適ブレインダメージ法は、計算的により単純である。上記のアルゴリズムは、エラーがθであるように初期化された基準よりも大きい時は、終了する。別のアプローチは、加重の除去のためにJ（w）の変化がいくつかの基準値よりも大きいときに、第6行目を終了するように変更される。

いくつかの実施態様において、EasyNN-Plusバージョン4.Ogソフトウェアパッケージ（Neural Planner Software社）に見られる、10個のニューロン（10個の隠れユニット）の単一の隠れ層を含む逆伝播ニューラルネットワーク（たとえば、Abdi, 1994, "A neural network primer", J. Biol System. 2, 247-283を参照されたい）が使用される。具体例において、EasyNN-Plusプログラム内のパラメーター値は、以下のセットである：0.05の学習率及び0.2の運動量。EasyNN-Plusバージョン4.Ogソフトウェアパッケージが使用されるいくつかの実施態様において、「異常値」試料は、それぞれ20,000回の学習サイクルを含む、20回の独立して十分に行われる試行を行うことによって同定される。

（5.2.4.3. サポートベクターマシン）
本発明のいくつかの実施態様において、本発明に記述したマーカー遺伝子の発現プロフィールを使用して被験体を分類するために、サポートベクターマシン（SVM）が使用される。たとえば、SVMの一般的な記述は、Cristianini及びShawe- Taylorの文献, 2000, 『サポートベクターマシンへの手引き（An Introduction to Support Vector Machines）』, Cambridge University Press, Cambridge, Boserらの文献, 1992, 『最適マージン分類に関する訓練アルゴリズム（A training algorithm for optimal margin classifiers）』, 計算学習理論の第５回年次ＡＣＭワークショップの議事録, ACM Press, Pittsburgh, PA, 142-152頁； Vapnikの文献, 1998, 『統計学習理論（Statistical Learning Theory）』, Wiley, New York； Dudaの文献, 『パターン分類（Pattern Classification）』, 第２版, 2001, John Wiley & Sons社； Hastieの文献, 2001, 『統計学習の要素（The Elements of Statistical Learning）』, Springer, New York；及びFureyらの論文, 2000, Bioinformatics 16, 906-914；に見出すことができる。生物学的適用におけるSVMの適用は、第７回分子生物学に関する知能システムに関する国際会議, AAAI Press, Menlo Park, CA （1999）； Brownらの論文, Proc. Natl. Acad. ScI 97（l）:262-67 （2000）； Zienらの論文, Bioinformatics, 16（9）:799-807 （2000）； Fureyらの論文, Bioinformatics, 16（10）:906-914 （2000）；に記述されている。

一つのアプローチにおいて、SVMが使用されるときに、遺伝子発現データを、平均値0を有するように標準化し、単位分散及び訓練集団のメンバーをランダムに訓練セットと試験セットとに分ける。たとえば、一つの実施態様において、訓練集団のメンバーの2/3は訓練セットに配置され、訓練集団のメンバーの1/3は試験セットに配置される。本発明の遺伝子の選択されたセットについての発現値を、SVMを訓練するために使用する。次いで、訓練したSVMが試験セットのメンバーを正しく分類する能力を決定する。一部の実施態様において、この計算は、分子マーカーの所与の選択されたセットに対して数回行われる。計算のそれぞれの繰り返しの際に、訓練集団のメンバーを訓練セット及び試験セットに無作為割付けする。次いで、分子マーカーの組み合わせの品質を、それぞれのこのようなSVM計算の繰り返しの平均として得る。

サポートベクターマシンは、二成分の標識された訓練データの所与のセットを高次元特徴空間にマップし、及び最大マージン超平面で2つのデータのクラスに分ける。一般に、この超平面は、入力空間における非線形識別境界に対応する。

が入力ベクトルとすれば、y∈｛-1,+1｝は標識であり、φ：R₀→Fは、入力空間から特徴空間へのマッピングである。次いで、SVM学習アルゴリズムが、量

を最大にするように、超平面（w, b）を見いだし、式中ベクトルwはFと同じ次元を有し、bは実数値であり、γはマージンと呼ばれる。次いで、対応する識別関数は、

である。

この最小は、

（式中、｛α_i｝が

を最大化させる正の実数値である）
のときに、

の制約を受ける。
識別関数は、

と等価に表すことができる。

この方程式から、訓練位置X_iに随伴したα_iは、その位置が最終的な識別関数に包埋された位置と共に強度を表すことを認識することができる。この変形表現の注目すべき特性は、該位置のサブセットだけがゼロでないα_iと随伴することである。これらの位置はサポートベクターとよばれ、分離超平面に最も近い状態にある位置である。αベクターが疎であることにより、いくつかの計算及び学習理論の結果を有する。学習アルゴリズムも識別関数もこのようなイメージ間の内積＜φ（X_i）,φ（X_j）＞のみを使用するため、両者とも、特徴空間φ（X_i）における位置のイメージを明確に表す必要がない点に留意することが重要である。それ故、関数K（X,Y）=＜φ（X_i）,φ（X_j）＞が与えられた場合、常に明確にマッピングを行うことなく特徴空間において最大マージン超平面を学習し、使用することができるであろう。それぞれの連続的な正の定符号関数K（X,Y）について、全てのX,Y∈R₀についてK（X,Y）=＜φ（X_i）,φ（X_j）＞であるようなマッピングφが存在する（Marcerの定理）。関数K（X、Y）は、カーネル関数と呼ばれている。カーネル関数の使用により、サポートベクターマシンは、非線形高次元特徴空間において、その空間の次元による悪影響を受けずに効率的に作動することができる。実際に、無限の次元の特徴空間で作動することができる。さらに、Mercerの定理により、φ及びFを知らない場合でさえも、特徴空間において学習することができる。行列K_ij=＜φ（X_i）,φ（X_j）＞は、カーネル行列と呼ばれている。最後に、学習アルゴリズムは、全体的な最適条件のみを有する二次最適化問題である点に留意されたい。局部最小の非存在は、ニューラルネットワークなどの標準的なパターン認識技術との有意な差である。適度な試料サイズについては、最適化問題は、単純な勾配下降法で解決することができる。ノイズの存在下では、上記の標準的な最大マージンアルゴリズムは、過剰なフィッティングを受けやすく、より精巧な技術が使用されるべきである。この問題は、最大マージンアルゴリズムでは、常に完全に一致した仮説を見いだして、訓練エラーを許容しないために生じる。しかし、時には、より優れた予測力のためには、いくらかの訓練精度を犠牲にすることも必要である。訓練エラーを許容する必要から、ソフトマージン及びマージン分布分類子の開発につながった。これらの技術の1つは、訓練段階においてカーネル行列を以下の通りに置き換えるが：

決定段階では、なおも標準的なカーネル関数を使用する。λを調整することによって、訓練エラーを制御することができ、かつ適切なλの選択により、目に見えない位置を誤分類するリスクを減少させることができるということを証明することができる。

全体の訓練エラーを制御する代わりに、偽陽性と偽陰性との間のトレードオフを必要とする場合、以下の通りにKを修飾することができる：

式中、Dは、正及び負の例に対応する位置において、項目がそれぞれd⁺又はd^-である対角行列である。この技術は、クラスのサイズに依存する方法でα_iのサイズを制御し、より小さなdをもつクラスにおいてより大きなα_iに対してバイアスを導入することと等価であるということを証明することができる。これは、次に非対称マージンに対応する；すなわち、より小さなdをもつクラスが、さらに識別境界から離れて保持される。場合によっては、ノイズの存在を伴って、2つのクラスの極度な平衡異常により、少数クラスからの位置が、誤って標識された位置と容易に間違えられ得る状況が生じる。少数クラスにおける訓練エラーに対して強力なバイアスをかけることにより、このようなエラーに対する保護をもたらして、強制的にSVMを正例サポートベクターにさせる。したがって、

を選択をすることにより、これらのそれぞれの基数に基づいて、2つのクラスの相対寄与を自動的に調整する帰納的方法を提供する。この技術は、感度と特異性との間のトレードオフを効率的に制御する。

本発明において、線形カーネルを使用することができる。2つのマーカープロフィールXとYとの間の類似性は、内積X・Yであり得る。一つの実施態様において、カーネルは、

である。別の実施態様において、次数dのカーネルは、

（式中dは、2、3....のいずれのであることもできる）
である。
さらに別の実施態様において、ガウスのカーネルが使用され

式中、σは、ガウス幅である。

（5.2.4.4. ロジスティック回帰）
いくつかの実施態様において、分類子は、回帰モデル、好ましくはロジスティック回帰モデルに基づく。このような回帰モデルには、本発明の分子マーカーの選択されたセットにおける分子マーカーのそれぞれに対する係数を含む。このような実施態様において、たとえば、回帰モデルのための係数は、最尤法を使用して計算される。詳細な実施態様において、2つの異なる臨床群、例えば予後良好又は予後不良からの分子マーカーデータが使用され、従属変数は、分子マーカー特徴データが由来する患者の臨床状態である。

本発明のいくつかの実施態様は、多カテゴリー（多くの部分に分かれた）反応を扱うロジスティック回帰モデルの一般化を提供する。このような実施態様は、生物体を1つ又は3つ以上の臨床群、たとえば予後良好、中間の予後及び予後不良に区別するために使用することができる。このような回帰モデルでは、同時にカテゴリーの全ての対を参照して一方のカテゴリーにおける反応の確率を別のものの代わりに記述する多カテゴリーロジットモデルを使用する。一旦モデルがカテゴリーの一定の（J-I）対ついてのロジットを特定すると、残りは冗長である。たとえば、引用によって本明細書に組み込まれるAgrestiの文献, 『カテゴリーデータ分析への手引き（An Introduction to Categorical Data Analysis）』, John Wiley & Sons社, 1996, New York, ８章を参照されたい。

（5.2.4.5. 識別分析）
線形識別分析（LDA）では、一定の目的特性に基づいて被験体を2つのカテゴリー1つに分類することを試みる。言い換えると、LDAでは、実験に測定された目的性状が、目的の分類を予測するかどうかを検査する。LDAでは、典型的には連続独立変数及び二分カテゴリーの従属変数を必要とする。本発明において、訓練集団のサブセット全体にわたって本発明の分子マーカーの選択されたセットのための発現値は、必要な連続独立変数として役立つ。訓練集団のメンバーのそれぞれの臨床群分類は、二分カテゴリーの従属変数として役立つ。

LDAでは、グループ化情報を使用することにより、群間差及び群内差の比を最大にする変数の一次結合を求める。暗に、LDAにより用いられる線形加重は、訓練セット全体の分子マーカーの発現が、どの程度2群（たとえば、予後良好を有する群及び予後不良を有する群）に分けられるか、及びこの遺伝子発現が、どの程度その他の遺伝子の発現と相関するかに依存する。一部の実施態様において、LDAは、本発明に記述した遺伝子の組み合わせでK遺伝子による訓練試料におけるNメンバーのデータ行列に適用される。次いで、訓練集団のそれぞれのメンバーの線形識別式をプロットする。理想的には、第1の部分群を表す訓練集団のメンバー（たとえば、予後良好被験体）は、線形識別値の範囲（たとえば、負）の1つにクラスター形成し、第2の部分群を表す訓練集団のメンバー（たとえば、予後不良を有する被験体）は、線形識別値の第2の範囲（たとえば、正）の1つにクラスター形成する。識別値のクラスター間の分離がより大きなときに、LDAは、より良好であるとみなされる。線形識別分析のより詳細については、Dudaの文献, 『パターン分類（Pattern Classification）』, 第２版, 2001, John Wiley & Sons社；及び Hastieの文献, 2001, 『統計学習の要素（The Elements of Statistical Learning）』, Springer, New York； Venables 及び Ripleyの文献, 1997, 『s-plusを用いた現代応用統計学（Modern Applied Statistics with s-plus）』, Springer, New Yorkを参照されたい。

二次の識別分析（QDA）では、同じ入力パラメーターを採用し、LDAと同じ結果が戻る。QDAは、結果を生成するために、一次方程式ではなく二次方程式を使用する。LDA及びQDAは、交換可能であり、いずれを使用するかは、分析をサポートするソフトウェアの好み及び／又は入手の問題である。ロジスティック回帰では、同じ入力パラメーターを採用し、LDA及びQDAと同じ結果が戻る。

（5.2.4.6. 決定樹）
本発明のいくつかの実施態様において、決定樹を使用して、本発明の分子マーカーの選択されたセットについての発現データを使用して患者を分類した。決定樹アルゴリズムは、管理された学習アルゴリズムのクラスに属する。決定樹の目的は、現実世界の実施例データから分類子（系統樹）を誘導することである。この系統樹を使用して、使用されなかった目に見えない例を分類し、決定樹を導出することができる。

決定樹は、訓練データに由来する。例には、異なる性状についての値、及び例がどのクラスに属するかを含む。一つの実施態様において、訓練データは、訓練集団全体の本発明に記述した遺伝子の組み合わせについての発現データである。
以下のアルゴリズムにより、決定樹導出を記述する：

情報ゲインの算出のより詳細な説明を以下に示す。該例のうちの可能なクラスv_iが確率P（v_i）を有する場合、実際の答えの情報内容Iは、以下によって与えられる：

I-値は、使用した特異的データセットについての分類結果を記述することができるために、本発明者らがどれくらいの情報を必要とするかを示す。データセットがpポジティブ（たとえば、予後不良を有する）及びnネガティブ（たとえば、予後良好を有する）例（たとえば、個体）を含むと仮定すると、正解に含まれる情報は、以下の通りである：

式中、log₂は、底2を使用する対数である。単一の性状を試験することにより、正確な分類を作製するために必要な情報の量を減少させることができる。特定の性状A（たとえば、遺伝子）についての剰余は、必要である情報をいかに減少させることができるかを示す。

「v」は、一定のデータセットにおける性状Aについての独特の性状値の数であり、「i」は一定の性状値であり、「p_i」は分類がポジティブ（たとえば、癌）である性状Aについての例の数であり、「n_i」は分類がネガティブ（たとえば、健康）である性状Aについての例の数である。

特定の性状Aの情報ゲインは、クラスについての情報内容と性状Aの剰余との間の差として算出される：

情報ゲインは、異なる性状が分類にとってどれほど重要か（これらが、例をどれほど十分に分割するか）及び最も高い情報をもつ性状を評価するために使用される。

一般に、多数の異なる決定樹アルゴリズムがあり、これらの多くが、Dudaの文献, 『パターン分類（Pattern Classification）』, 第２版, 2001, John Wiley & Sons社に記述されている。決定樹アルゴリズムには、特徴プロセシング、不純物測定及び枝切りの基準が必要であることが多い。特定の決定樹アルゴリズムには、切断は分類及び回帰系統樹（CART）に限定されるわけではないが、多変量の決定樹ID3及びC4.5を含む。

一つのアプローチにおいて、決定樹の例示的実施態様が使用されるときに、訓練集団全体の本発明の分子マーカーの選択されたセットについての遺伝子発現データを、平均値0及び単位分散を有するように標準化する。訓練集団のメンバーは、訓練セット及び試験セットにランダムに分けられる。たとえば、一つの実施態様において、訓練集団のメンバーの2/3は訓練セットに配置され、訓練集団のメンバーの1/3は試験セットに配置される。決定樹を構築するために、本発明において記述した遺伝子の選択した組み合わせについての発現値を使用する。次いで、決定樹が試験セットにおけるメンバーを正しく分類する能力を決定する。一部の実施態様において、この計算は、分子マーカーの所与の組み合わせに対して数回行われる。計算のそれぞれの繰り返しの際に、訓練集団のメンバーを訓練セット及び試験セットに無作為に割付けする。次いで、分子マーカーの組み合わせの品質は、それぞれのこのような決定樹計算の繰り返しの平均として得る。

（5.2.4.7. クラスター形成）
一部の実施態様において、本発明の分子マーカーの選択されたセットについての発現値は、訓練セットをクラスター形成するために使用される。たとえば、本発明に記述した10個の遺伝子が使用される場合を考える。訓練集団のそれぞれのメンバーmは、10個の遺伝子の発現値を有する。訓練集団のメンバーmからのこのような値がベクターを定義し：

式中、X_imは、生物体mにおけるi番目の遺伝子の発現レベルである。訓練セットにｍ生物体が存在する場合、i個の遺伝子の選択が、mベクターを定義する。本発明の方法は、全ての単一ベクターmにおいて表されるベクターに使用される全ての遺伝子のそれぞれの発現値は必要としないことに留意されたい。言い換えると、i番目の遺伝子の1つが見いだされない被験体からのデータは、なおもクラスター形成のために使用することができる。このような場合には、失われた発現値には、「ゼロ」又はいくつかのその他の標準化された値が割り当てられる。一部の実施態様において、クラスター形成の前に、遺伝子発現値がゼロ及び単位エラーの平均値を有するように標準化される。

訓練群全体で同様の発現パターンを示すこれらの訓練集団のメンバーは、共にクラスター形成する傾向がある。本発明の遺伝子の特定の組み合わせは、ベクターが訓練集団で見いだされる形質群にクラスター形成されるときに、本発明の本態様の優れた分類子であるとみなされる。たとえば、訓練集団に予後良好又は予後不良である患者を含む場合、クラスター形成分類子は、集団を2群にクラスター形成し、それぞれの群は、一義的に予後良好又は予後不良を表す。

クラスター形成は、Dudaの文献, 『パターン分類（Pattern Classification）』, 第２版, 2001, John Wiley & Sons社に記述されている。Dudaの文献の第6.7節に記載されているように、クラスター形成問題は、データセットにおいて天然のグループ化の治験の1つとして記述される。天然のグループ化を同定するためには、2つの問題に対処する。第1に、2つの試料間の類似性（又は非類似性）を測定するための方法が決定される。この測定規準（類似性の程度）を使用して、一方のクラスターの試料が、これらがその他のクラスターの試料に対するよりも、互いに類似することを確認する。第2に、類似性の程度を使用してデータをクラスターに分配するための機構が決定される。

類似性計測は、Dudaの文献の第6.7節において論議されており、そこには、クラスター形成研究を開始するための１つの方法は、距離関数を定義し、データセットにおける試料の全ての対の間の距離の行列を計算することであると述べられている。距離が優れた類似性の測定値である場合、同じクラスターの試料間の距離は、異なるクラスターの試料間の距離よりも著しく少なくなる。しかし、Dudaの文献の215ページに述べられているように、クラスター形成には、距離の計量を使用する必要はない。たとえば、2つのベクターx及びx'を比較するために、非計測用類似性関数s（x,x'）を使用することができる。従来法では、s（x,x'）は対称式であり、x及びx'が何とか「類似する」ときに、その値が大きい。非計測類似性関数s（x,x'）の例は、Dudaの文献の216ページに提供されている。

一旦データセットの位置間の「類似性」又は「非類似性」を測定するための方法が選択されると、クラスター形成には、データの任意の分割のクラスター形成品質を測定する基準関数が必要である。データをクラスター形成するために、基準関数を四分割するデータセットの分割を使用する。Dudaの217ページを参照されたい。基準関数は、Dudaの文献の第6.8節において論議されている。

より最近では、Dudaらの文献, 『パターン分類（Pattern Classification）』（第２版, John Wiley & Sons社 New York）が発行された。537〜563ページには、クラスター形成が詳細に記述されている。クラスター形成技術についての詳細な情報は、Kaufman及びRousseeuwの文献, 1990,『データ内のグループの発見：クラスター解析への手引き（Finding Groups in Data: An Introduction to Cluster Analysis）』, Wiley, New York, NY； Everittの文献, 1993, 『クラスター解析（Cluster analysis）』（第３版）, Wiley, New York, NY；及び Backerの文献, 1995, 『クラスター解析における、コンピュータ支援型推論（Computer-Assisted Reasoning in Cluster Analysis）』, Prentice Hall, Upper Saddle River, New Jersey；に見いだすことができる。本発明に使用することができる特定の例示的クラスター形成技術としては、階層的クラスター形成（最近隣アルゴリズムを使用する集塊性クラスター形成、最遠隣アルゴリズム、平均連結アルゴリズム、重心アルゴリズム又は2乗和アルゴリズム）、k平均クラスター形成、ファジーk平均クラスター形成アルゴリズム及びJarvis-Patrickクラスター形成を含むが、これらに限定されるわけではない。

（5.2.4.8. 主成分分析法）
主成分分析法（PCA）は、遺伝子発現データを分析するために提唱された。主成分分析法は、データをデータの特徴を要約する新たな変数（主成分）のセットに変換することによって、データセットの次元を減少させる古典的技術である。たとえば、Jolliffe, 1986, Principal Component Analysis, Springer, New Yorkを参照されたい。主成分（PC）は、相関がなく、k番目のPCが、PCの中でk番目に大きな分散を有するように順序づけられる。k番目のPCは、それが最初のk-1番目のPCに直交するように、データポイントの射影の分散を最大にする方向として解釈することができる。最初のいくつかのPCは、データセットの大部分の分散を捕獲する。対照的に、最後のいくつかのPCは、たいていデータに残留する「ノイズ」のみを捕獲すると想定されることが多い。

また、PCAは、本発明の分類子を作製するために使用することもできる。このようなアプローチにおいて、本発明の分子マーカーの選択されたセットのためのベクトルは、上記のクラスター形成のために記述したのと同様に構築することができる。実際に、ベクトルのセットは、それぞれのベクトルが訓練集団の特定のメンバーから選択された遺伝子についての発現値を表す場合に、行列とみなすることができる。一部の実施態様において、この行列は、単量体の定性的な二進法記述のFree-Wilson法で表され（Kubinyi, 1990, 3D QSAR in drug design theory methods and applications, Pergamon Press, Oxford, pp 589-638）、PCAを使用して最大圧縮空間に分散され、その結果第1の主成分（PC）が、可能性がある分散情報の最大量を捕獲し、第2の主成分（PC）が、全ての分散情報の2番目に大きな量を捕獲し、行列の全ての分散情報を占めてしまうまで捕獲する。

次いで、各々のベクトル（それぞれのベクトルが、訓練集団のメンバーを表す場合）をプロットする。多くの異なるプロットのタイプが可能である。一部の実施態様において、一次元プロットが作製される。この一次元プロットにおいて、訓練集団の各のメンバーのそれぞれからの第1の主成分についての値をプロットする。このプロットの形態では、期待値は、第1の群のメンバー（たとえば、予後良好患者）が、第1の主成分値の1つの範囲にクラスター形成し、第2の群のメンバー（たとえば、予後不良患者）が、第1の主成分値の範囲の第2の範囲にクラスター形成する。

一つの例において、訓練集団は、2群：予後良好基及び予後不良群を含む。第1の主成分は、全訓練集団データセット全体にわたる本発明の選択された遺伝子についての分子マーカー発現値を使用して計算される。次いで、訓練セットのそれぞれのメンバーを第1の主成分についての値の関数としてプロットする。この例では、第1の主成分がポジティブである訓練集団のメンバーは予後良好患者であり、第1の主成分がネガティブである訓練集団のメンバーは予後不良患者である。

一部の実施態様において、訓練集団のメンバーが、複数の主成分に対してプロットされる。たとえば、いくつかの実施態様において、訓練集団のメンバーは、第一次元が第1の主成分であり、第二次元が第2の主成分である二次元プロットにプロットされる。このような二次元プロットにおいて、期待値は、訓練集団に表されたそれぞれの部分群のメンバーが、別々の群にクラスター形成されるものである。たとえば、二次元プロットのメンバーの第1のクラスターは予後良好である被験体を表し、二次元プロットのメンバーの第2のクラスターは予後不良である被験体を表す、などである。

一部の実施態様において、訓練集団のメンバーは、2つ以上の主成分に対してプロットされ、訓練集団のメンバーが訓練集団において見いだされる部分群をそれぞれ一義的に表す群にクラスター形成されているかどうかに関しての決定がなされる。一部の実施態様において、主成分分析は、R mvaパッケージ（Andersonの文献, 1973, 『応用のためのクラスター分析（Cluster Analysis for applications）』, Academic Press, New York 1973； Gordonの文献, 『分類（Classification）』, 第２版, Chapman and Hall, CRC, 1999）を使用することにより行われる。主成分分析法は、Dudaの文献, 『パターン分類（Pattern Classification）』, 第２版, 2001, John Wiley & Sons社にさらに記述されている。

（5.2.4.9. 最近隣分類子分析）
最近隣分類子はメモリに基づいており、フィットさせるモデルを必要としない。問い合わせ位置X₀を想定すると、X₀での距離が最も近いk訓練位置X_（r）,r,…,kを同定し、次いで位置X₀を、k最近隣法を使用して分類する。結合は、ランダムに破壊することができる。一部の実施態様において、特徴空間におけるユークリッド距離を使用して、

として距離を決定する。

典型的には、最近隣アルゴリズムを使用するときに、発現データを計算するために使用した線形識別式を平均ゼロ及び相違1を有するように標準化する。本発明において、訓練集団のメンバーを、訓練セットと試験セットとにランダムに分けられる。たとえば、一つの実施態様において、訓練集団のメンバーの2/3を訓練セットに配置し、訓練集団のメンバーの1/3を試験セットに配置する。本発明の分子マーカーの選択されたセットのプロフィールは、試験セットのメンバーがプロットされている特徴空間を表す。次に、訓練セットが試験セットのメンバーを正しく特徴づけの能力を計算する。一部の実施態様において、最近隣計算は、本発明の遺伝子の所与の組み合わせに対して数回行われる。計算のそれぞれの繰り返しにおいて、訓練集団のメンバーお訓練セット及び試験セットに無作為割付けする。次いで、遺伝子の組み合わせの品質を、それぞれのこのような最近隣計算の繰り返しの平均として得る。

最近隣規則は、等しくない事前分類（unequal class priors）、示差的誤分類コスト及び特徴選択の問題を扱うように洗練させることができる。これらの洗練の多くは、いくつかの形態の近隣に対する加重投票を含む。最近隣分析の詳細については、Dudaの文献, 『パターン分類（Pattern Classification）』, 第２版, 2001, John Wiley & Sons社；及びHastieの文献, 2001, 『統計学習の要素（The Elements of Statistical Learning）』, Springer, New Yorkを参照されたい。

（5.2.4.10. 進化的方法）
生物進化過程による影響を受けて、分類子設計の進化的方法では、最適分類子の確率論的検索を使用する。広義の見地において、このような方法では、本発明の遺伝子産物の測定値からいくつかの分類子集団を作製する。それぞれの分類子は、その他のものからいくぶん変化している。次に、分類子を訓練集団全体の発現データに記録する。生物進化との類似性に合わせて、生じる（スカラー）スコアは、時に適応度と呼ばれている。分類子をこれらのスコア順に並べて、最高の分類子を保持する（総分類子集団のいくつかの部分）。また、生物学的用語法に合わせて、これは、適者生存とも呼ばれる。分類子は、次世代の子供又は子孫において確率的に変化する。いくつかの子孫分類子は、以前の世代におけるこれらの親よりも高いスコアを有するであろうし、いくつかは、より低いスコアを有するであろう。次いで、全体の過程をその後の世代に対して繰り返す：分類子を記録し、最高のものを保持してランダムに変化させ、さらにもう一世代を得る、などである。部分的には、ランキングのため、それぞれの世代は、平均して以前のものよりわずかに高いスコアを有する。世代における単一の最高の分類子が、所望の基準値を上回るスコアを有するときは、本過程は停止する。進化の方法についての詳細な情報は、たとえばDudaの文献, 『パターン分類（Pattern Classification）』, 第２版, 2001, John Wiley & Sons社に見いだされる。

（5.2.4.11. バギング法、ブースティング法、及びランダム部分空間法）
バギング法、ブースティング法、及びランダム部分空間法は、弱い分類子を改善するために使用することができる、組み合わせ技術である。これらの技術は決定樹のためにデザインされ、かつ通常決定樹に適用される。加えて、Skurichina及びDuinは、このような技術が線形識別分析においても有用でありえることを示唆するための証拠を提供する。

バギング法では、ランダムな独立したブートストラップ複製を生成する訓練セットを標本抽出して、これらのそれぞれに対して分類子を構築して、最終決定規則において単純多数投票票によってこれらを統合する。たとえば、Breimanの論文, 1996, Machine Learning 24, 123-140；及び、 Efron及びTibshiraniの文献, 『ブートストラップへの手引き（An Introduction to Bootstrap）』, Chapman & Hall, New York, 1993を参照されたい。

ブースティング法では、分類子を、以前の分類結果に依存的な訓練セットの加重バージョンに対して構築する。最初に、全対象が同じ加重を有し、第1の分類子を、このデータセットに対して構築する。次いで、分類子の性能に従って、加重を変更する。誤って分類された対象（データセットにおける分子マーカー）は、より大きな加重を得て、次の分類子は、再度加重された訓練セットにブーストされる。このようにして、訓練セット及び分類子の列を得て、次いでこれを最終決定において単純多数投票によって、又は加重多数投票によって組み合わせる。たとえば、Freund及びSchapireの文献, 『新たなブースティングアルゴリズムを用いた実験（Experiments with a new boosting algorithm）』第１３回機械学習の国際会議の議事録, 1996, 148-156を参照されたい。

ブースティングを例証するために、研究中の集団によって示される2つの表現型群の表現型1（たとえば、予後良好患者）及び表現型2（たとえば、予後不良患者）がある場合を考える。分子マーカーのベクトルXを想定すると、分類子G（X）は、2つの値セット：｛表現型1、表現型2｝の一方のタイプの値をとる予測を生じる。訓練試料でのエラー率は、

であり、式中Nは、訓練セットにおける被験体の数（表現型1又は表現型2を有する被験体の総計）である。

弱い分類子は、そのエラー率がランダム推測よりもわずかだけに優れているものである。ブースティングアルゴリズムにおいて、弱い分類アルゴリズムは、データの修正バージョンに繰り返し適用されることにより、弱い分類子G_m（x）、m= 1、2,...、Mの列を生じる。次いで、この列の分類子の全てからの予測を、加重多数投票によって組み合わせて、最終的予測を生成する：

ここで、α₁、α₂...,α_Mは、ブースティングアルゴリズムによって計算され、これらの目的は、それぞれのG_m（x）のそれぞれの貢献を加重することである。これらの効果は、列においてより正確な分類子に対してより多大な影響を与えることである。

それぞれのブースティング工程でのデータ修飾は、加重W₁、W₂..., W_nを訓練観察（x_i、y_i）、i = 1、2、..., Nのそれぞれに対して適用することからなる。最初に、全ての加重をw_i=1/Nにセットし、その結果、第1の工程では、単に通常の様式でデータに対して分類子を訓練するだけである。それぞれの連続した繰り返しm = 2、3、…、Mについて、観察加重を個々に修飾して、分類アルゴリズムを加重観察に対して再度適用する。幹mでは、以前の工程にて誘導された分類子G_m-1（x）によって誤分類されたこれらの観察は、これらの加重が増大されるが、正しく分類されていたものについては、加重が減少される。したがって、繰り返しが進むにつれて、正しく分類するのが困難な観察ほど、絶えず増大の影響を受ける。これにより、それぞれの連続した分類子が、列における以前のものによって誤ってしまったこれらの訓練観察へと集中させられる。

例示的なブースティングアルゴリズムは、以下の通りに要約される：

本アルゴリズムでは、現在の分類子G_m（x）は、第2a行にて加重観察に対して誘導される。生じる加重エラー率は、第2b行にて計算される。第2c行では、最終分類子G（x）（第3行）を生成する際にG_m（x）に与えられる加重α_mを算出する。各々の観察の個々の加重を、第2d行にて次の繰り返しのために更新する。G_m（x）によって誤分類された観察は、因子exp（α_m）によってそれらの加重を定めて、列における次の分類子G_m+1（x）を誘導するためのこれらの相対的影響を増大させる。一部の実施態様において、Freund及びSchapireの論文, 1997, Journal of Computer and System Sciences 55, 119-139頁の修飾、ブースティング法が使用される。たとえば、Hastiらの文献, 『統計学習の要素（The Elements of Statistical Learning）』, 2001, Springer, New York, １０章を参照されたい。いくつかの実施態様において、ブースティング法又は適応性ブースティング法が使用される。

一部の実施態様において、Freund及びSchapireの論文, 1997, Journal of Computer and System Sciences 55, 119-139頁の修飾が使用される。たとえば、一部の実施態様において、特徴予選択は、Parkらの論文, 2002, Pac. Symp. Biocomput. 6, 52-63のノンパラメトリックな評価法などの技術を使用して行われる。特徴予選択は、分類間を最も識別する遺伝子を分類子に使用するために選択する際の次元減少の形態である。次いで、Freund及びSchapireのブースティング法以外に、Friedmanらの論文 , 2000, Ann Stat 28, 337-407によって導入されたLogitBoost法を使用する。いくつかの実施態様において、Ben-Dorらの論文, 2000, Journal of Computational Biology 7, 559-583のブースティング法及びその他の分類法が本発明に使用される。いくつかの実施態様において、Freund及びSchapireの論文, 1997, Journal of Computer and System Sciences 55, 119-139頁のブースティング法、及び他の分類方法が使用される。

ランダム部分空間法では、分類子は、データ特徴空間のランダムな部分空間に構築される。これらの分類子は、通常最終決定規則において絶対多数投票によって組み合わせられる。たとえば、Hoの論文, 『決定樹構築用のランダム部分空間法（The Random subspace method for constructing decision forests）』IEEE Trans Pattern Analysis and Machine Intelligence, 1998； 20（8）: 832-844を参照されたい。

（5.2.4.12.その他のアルゴリズム）
上記のパターン分類及び統計的技術は、分類のためのモデルを構築するために使用することができるモデルのタイプの単なる例だけである。さらに、上記の技術の組み合わせを使用することもできる。決定樹及びブースティング法の組み合わせなどの使用いくつかの組み合わせが記述されている。しかし、多くのその他の組み合わせも可能である。加えて、保護探求（Profection Pursuit）及び加重投票（Weighted Voting）などの当該技術分野のその他の技術において、分類子を構築するために使用することができる。

（5.3. マーカー遺伝子発現レベルの決定）
（5.3.1.方法）
試料におけるマーカー遺伝子の発現レベルは、当該技術分野において既知のいずれの手段によって決定してもよい。発現レベルは、単離して、それぞれのマーカー遺伝子から転写される核酸のレベル（すなわち、量）を決定することによって決定してもよい。或いは、又はさらに、マーカー遺伝子によってコードされる特異的タンパク質のレベルを決定してもよい。

特異的マーカー遺伝子の発現レベルは、試料中に存在するmRNA又はそれに由来するポリヌクレオチドの量を決定することによって達成することができる。RNAレベルを決定するためのいずれの方法を使用することもできる。たとえば、RNAを試料から単離し、アガロースゲル上で分離する。次いで、分離されたRNAをフィルターなどの固体支持体へ移す。次いで、1つ以上のマーカーを表す核酸プローブをノーザンハイブリダイゼーションによってフィルターにハイブリダイズさせ、マーカーに由来するRNAの量を決定する。このような決定は、視覚で、又は機械利用、たとえばデンシトメーターの使用によることができる。RNAレベルを決定するための別の方法は、ドットブロット又はスロットブロットを使用することによる。この方法では、試料からのRNA又はそれに由来する核酸を標識する。次いで、RNA又はそれに由来する核酸を1つ以上のマーカー遺伝子に由来するオリゴヌクレオチドを含む、オリゴヌクレオチドが別々の容易に定義可能な位置にてフィルターに置かれているフィルターにハイブリダイズさせる。フィルターに結合したオリゴヌクレオチドに対する標識されたRNAのハイブリダイゼーション、又はこれらの欠如を、視覚的に、又はデンシトメーターによって決定する。ポリヌクレオチドは、放射標識又は蛍光性（すなわち、目に見える）標識を使用して標識することができる。これらの例は、限定することは意図されておらず；RNA存在量を決定するその他の方法は、当該技術分野において既知である。

また、特定のマーカー遺伝子の発現レベルは、マーカー遺伝子から発現される特異的なタンパク質のレベルを決定することによって評価してもよい。これは、たとえばポリアクリルアミドゲル上での試料からタンパク質の分離、続いてウエスタンブロットにおいて抗体を使用しての特異的マーカー由来タンパク質の同定によって達成することができる。或いは、タンパク質は、二次元ゲル電気泳動系によって分離することができる。二次元のゲル電気泳動は、当該技術分野において周知であり、典型的には一次元に沿う等電点電気泳動と、続く二次元に沿うSDS-PAGE電気泳動法を含む。たとえば、Hamesらの文献, 1990, 『タンパク質のゲル電気泳動：実践的アプローチ（GEL ELECTROPHORESIS OF PROTEINS: A PRACTICAL APPROACH）』, IRL Press, New York； Shevchenkoらの論文, Proc. Nat 'I Acad. Sci. USA 93:1440-1445（1996）； Saglioccoらの論文, Yeast 12:1519-1533（1996）； Landerの論文, Science 274:536-539（1996）；を参照されたい。生じるエレクトロフェログラムは、質量分析、ポリクローナル及びモノクローナル抗体を使用する技術、ウエスタン・ブロッティング及び免疫ブロット分析を含む、多くの技術によって分析することができる。

或いは、マーカー由来タンパク質レベルは、抗体マイクロアレイを構築することによって決定することができ、該結合部位には、細胞ゲノムによってコードされる複数のタンパク質種に特異的な抗体、好ましくは固定されたモノクローナル抗体を含む。好ましくは、抗体は、関心対象のマーカー由来タンパク質の実質的画分に存在する。モノクローナル抗体を作製するための方法は、周知である（たとえば、Harlow及びLaneの文献, 1988, 『抗体：実験室マニュアル（ANTIBODIES: A LABORATORY MANUAL）』, Cold Spring Harbor, New Yorkを参照されたく、これは、全ての目的のためにその全体が組み込まれる）。一つの実施態様において、モノクローナル抗体は、細胞のゲノム配列に基づいてデザインされた合成ペプチド断片に対して生じさせる。このような抗体アレイでは、細胞からのタンパク質をアレイに接触させ、これらの結合を当該技術分野において既知のアッセイ法でアッセイする。一般に、診断又は予後の関心対象のタンパク質の発現及び発現レベルは、組織片又は切片の免疫組織化学的染色によって検出することができる。

最後に、多くの組織検体におけるマーカー遺伝子の発現は、「組織アレイ」を使用して特徴づけてもよい（Kononenらの論文, Nat. Med 4（7）：844-7（1998））。組織アレイでは、複数の組織試料を同じマイクロアレイで評価する。アレイにより、RNA及びタンパク質レベルのインサイチュー（in situ）検出が可能であり；連続切片により、同時に複数の試料の分析することができる。

（5.3.2. マイクロアレイ）
好ましい実施態様において、上記のマーカーのそれぞれの発現状態が同時に評価されるように発現を測定するために、ポリヌクレオチドマイクロアレイが使用される。一般に、本発明によるマイクロアレイには、予後又は結果決定についての、特定の疾患又は状態についての、及び特に、疾患若しくは状態の遺伝子型又は表現型の特徴の特定の組み合わせを有する個体についての情報価値のある（すなわち、特定の患者サブセットについて非常に予後情報価がある）複数のマーカーを含む。本発明のマイクロアレイは、好ましくは、患者サブセット内において予後情報価値のあるものとして同定された少なくとも2、3、4、5、7、10、15、20、25、30、35、40、45、50、75、100、150、200個又はより多くのマーカー若しくは全てのマーカー、又はマーカーの任意の組み合わせを含む。マイクロアレイが含む情報価値のあるマーカーの実数値は、関心対象の特定の状態、同定されるマーカーの数及び任意に、予後の決定における最少の第1種エラー、第2種エラー、又は第1種エラー及び第2種エラーを生じることが見いだされた情報価値のあるマーカーの数に応じて変化する。本明細書に使用される、「第1種エラー」は偽陽性を意味し、「第2種エラー」は偽陰性を意味し；動物癌の予後の例では、第1種エラーは、予後良好である個体を予後不良であるとした誤った特性付けであり、第2種エラーは、予後不良である個体を予後良好であるとした誤った特性付けである。

具体的実施態様において、本発明は、特定の患者サブセットについて同定される予後マーカーが、前記アレイ上のプローブの少なくとも50%、60%、70%、80%、85%、90%、95%又は98%を含むポリヌクレオチドアレイを提供する。別の具体的実施態様において、マイクロアレイは、複数のプローブを含み、前記複数のプローブは、特定の患者サブセットについて同定される予後情報価値のあるマーカーの少なくとも75%に対して相補的及びハイブリダイズ可能なプローブを含む。本発明のマイクロアレイは、もちろん複数の患者サブセットについて、又はそれぞれの患者サブセットについての、特定の状態について同定された予後情報価値のあるマーカーに対して相補的及びハイブリダイズ可能なプローブを含んでいてもよい。別の実施態様において、したがって、本発明のマイクロアレイは、関心対象の状態について同定されたそれぞれの患者サブセットについて同定される予後情報価値のあるマーカーの少なくとも75%に対して相補的及びハイブリダイズ可能な複数のプローブを含み、前記プローブは、全体で、前記マイクロアレイ上のプローブの少なくとも50%である。

さらに別の具体的実施態様において、本明細書に開示される方法に使用されるマイクロアレイは、任意に、本明細書に他に開示された方法によって同定される少なくともいくつかのマーカーに加えてさらなるマーカーを含む。たとえば、具体的実施態様において、マイクロアレイは、2002年3月7日に公開されたAltschulerらの文献, 国際公開WO02/18646、及び2002年2月28日に公開されたSchererらの文献, 国際公開WO02/16650に記載されたようなスクリーニングアレイ又は走査アレイである。走査アレイ及びスクリーニングアレイは、発現されたゲノム及び発現されていないゲノムの両方の核酸配列に由来する規則正しく間隔をあけた位置的にアドレス指定可能なプローブを含む。このようなアレイには、関心対象の状態について患者サブセットについて同定されたマーカーのサブセット又は全てに対応するプローブを含んでいてもよく、他に同定された予後情報価値のあるマーカーだけを含むマイクロアレイと同様の方法でマーカー発現をモニターするために使用することができる。

さらに別の具体的実施態様において、マイクロアレイは、本明細書に記述した方法によって同定される少なくとも5つのマーカーを含む購入可能なcDNAマイクロアレイである。好ましくは、購入可能なcDNAマイクロアレイは、本明細書に記述した方法によって、特定の状態について患者サブセットに対して情報価値があるとして同定されるマーカーの全てを含む。しかし、このようなマイクロアレイは、同定されるマーカーの最大数までの、このようなマーカーの少なくとも5、10、15又は25個を含んでいてもよい。

乳癌に特異的な実施態様において、本発明は、上記のマーカーセット（すなわち、表1〜5に示したような、マーカー情報価値のあるER^-、散発性の個体、マーカー情報価値のあるER^-、BRCA1個体、マーカー情報価値のあるER+、ER／AGE高個体、マーカー情報価値のあるER+、ER／AGE低、LN+個体及びマーカー情報価値のあるER+、ER／AGE低、LN^-個体）のそれぞれに対応する遺伝子にハイブリダイズ可能なプローブを含むオリゴヌクレオチド又はcDNAアレイを提供する。本明細書に記述したいずれのマイクロアレイも、キット内の密封容器に提供してもよい。

本発明は、任意の乳癌患者の予後のために、又は複数の患者サブセットのうちの１つに分類された乳癌患者のために有用なプローブを含むマイクロアレイを提供する。特に、本発明は、表1〜5のいずれかの遺伝マーカーの少なくとも5、10、15、20、25個若しくはそれより多く、又はマーカーのフルセットまでのサブセットに対するプローブを含む、予後良好及び予後不良である患者間を区別するポリヌクレオチドアレイを提供する。したがって、ある実施態様において、本発明は、マーカーが表1、2、3、4又は5に収載された複数の遺伝子に対するプローブを含むマイクロアレイを提供する。具体的実施態様において、本発明のマイクロアレイは：表1のマーカーの1、2、3、4、5又は10個；表2のマーカーのうちの少なくとも5つ；表3のマーカーの1、2、3、4、5又は10個；表4のマーカーの1、2、3、4、5又は10個；又は表1のマーカーの1、2、3、4、5又は10個；を含む。その他の実施態様において、マイクロアレイは、表1〜5のうちの任意の2つ、3つ若しくは4つ、又は表1〜5の全てに示されたマーカーの1、2、3、4、5又は10個に対するプローブを含む。その他の実施態様において、本発明のマイクロアレイは、表1、表2、表3、表4又は表5のマーカーのそれぞれを含む。別の実施態様において、マイクロアレイは、表1〜5に示されたマーカーの全てを含む。具体的実施態様において、アレイは、表1、表2、表3、表4又は表5に収載されたマーカーのみに由来するプローブ；表1〜5の任意の2つ；表1〜5の任意の3つ；表1〜5の任意の4つ；又は表1〜5の全てに由来するプローブを含む。その他の実施態様において、アレイは、表1〜5のいずれかに収載されたマーカーに由来する複数のプローブを、乳癌の予後のための情報価値のあるものとして同定された表1〜5のいずれにも収載されていないマーカーに由来する複数のその他のプローブとの組み合わせで含む。

具体的実施態様において、本発明は、表1、2、3、4及び／又は5において本明細書に記述された乳癌予後マーカーが、前記アレイ上のプローブの少なくとも50%、60%、70%、80%、85%、90%、95%又は98%を含むポリヌクレオチドアレイを提供する。別の具体的実施態様において、マイクロアレイは、複数のプローブを含み、前記複数のプローブは、マーカーが表1に収載された遺伝子の少なくとも75%に対して相補的及びハイブリダイズ可能なプローブ；マーカーが表2に収載された遺伝子の少なくとも75%に対して相補的及びハイブリダイズ可能なプローブ；マーカーが表3に収載された遺伝子の少なくとも75%に対して相補的及びハイブリダイズ可能なプローブ；マーカーが表4に収載された遺伝子の少なくとも75%に対して相補的及びハイブリダイズ可能なプローブ；及びマーカーが表5に収載された遺伝子の少なくとも75%に対して相補的及びハイブリダイズ可能なプローブを含み、ここで前記プローブは、全体で、前記マイクロアレイ上のプローブの少なくとも50%である。

さらに別の具体的実施態様において、本明細書に開示された方法に使用されるマイクロアレイは、任意に表1〜5に収載されたマーカーの少なくともいくつかに加えて、さらなるマーカーを含む。たとえば、具体的実施態様において、マイクロアレイは、2002年3月7日に公開されたAltschulerらの文献, 国際公開WO02/18646、及び2002年2月28日に公開されたSchererらの文献, 国際公開WO02/16650に記載されたようなスクリーニングアレイ又は走査アレイである。走査アレイ及びスクリーニングアレイは、発現されたゲノム及び発現されていないゲノムの両方の核酸配列に由来する規則正しく間隔をあけた位置的にアドレス指定可能なプローブを含む。このようなアレイには、表1〜5に収載されたマーカーのサブセット又は全てに対応するプローブを含んでいてもよく、表1〜5に収載されたマーカーだけを含むマイクロアレイと同様の方法でマーカー発現をモニターするために使用することができる。

さらに別の具体的実施態様において、マイクロアレイは、表1〜5に収載されたマーカーのうちの少なくとも5つを含む購入可能なcDNAマイクロアレイである。好ましくは、購入可能なcDNAマイクロアレイは、表1〜5に収載されたマーカーの全てを含む。しかし、このようなマイクロアレイは、表のマーカーの最大数までのこのようなマーカーの少なくとも5、10、15又は25個を含んでいてもよく、表1〜5のいずれか一つのマーカーの全て、及び表1〜5の別のサブセット又は上記の通りのそれぞれのサブセットを含んでいてもよい。本明細書に開示した方法に使用されるマイクロアレイの具体的実施態様において、表1〜5の全て又は一部であるマーカーは、マイクロアレイ上のプローブの少なくとも50%、60%、70%、80%、90%、95%又は98%を構成する。マーカーセット及び／又は上記のサブセットを含むマイクロアレイの構築に関連する一般的方法は、以下の節に記述してある。

（5.3.2.1. マイクロアレイの構築）
マイクロアレイは、ポリヌクレオチド配列を含むプローブを選択すること：次いで固体支持体又は表面にこのようなプローブを固定することによって調製される。たとえば、プローブは、DNA配列、RNA配列、又はDNA及びRNAの共重合体配列を含んでいてもよい。また、プローブのポリヌクレオチド配列は、DNA及び／又はRNA類似体、又はこれらの組み合わせを含んでいてもよい。たとえば、プローブのポリヌクレオチド配列は、ゲノムDNAの完全な、又は部分的な断片であってもよい。また、プローブのポリヌクレオチド配列は、合成オリゴヌクレオチド配列などの合成されたヌクレオチド配列であってもよい。プローブ配列は、インビボ（in vivo）で酵素的に、インビトロ（in vitro）で酵素的に（たとえば、PCRによって）、又はインビトロで非酵素的に合成することができる。

本発明の方法に使用されるプローブは、好ましくは多孔性又は非多孔性のいずれであってもよい固体支持体に固定される。たとえば、本発明のプローブは、ポリヌクレオチドの3'又は5'末端のいずれかにて共有結合でニトロセルロース若しくはナイロン膜又はフィルターに付着されたポリヌクレオチド配列でもよい。このようなハイブリダイゼーションプローブは、当該技術分野において周知である（たとえば、Sambrookらの文献,『分子クローニング−実験室マニュアル（MOLECULAR CLONING - A LABORATORY MANUAL）（第２版）』, １〜３巻, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York（1989）を参照されたい）。或いは、固体支持体又は表面は、ガラス又はプラスチック表面でもよい。特に好ましい実施態様において、ハイブリダイゼーションレベルは、DNA若しくはDNA擬態の集団、又代わりに、RNA若しくはRNA擬態の集団などのポリヌクレオチドの集団が固定されている表面上の固相からなるプローブのマイクロアレイに対して測定される。固相は、非多孔湿又は任意にゲルなどの多孔質材料であってもよい。

好ましい実施態様において、マイクロアレイは、それぞれが本明細書に記述したマーカーの各々を表す結合（たとえば、ハイブリダイゼーション）部位又は「プローブ」の、規律正しいアレイをもつ支持体又は表面を含む。好ましくは、マイクロアレイは、アドレス指定可能なアレイであり、より好ましくは、位置的にアドレス指定可能なアレイである。より具体的には、それぞれのプローブの同一性（すなわち、配列）を、アレイのその位置から（すなわち、支持体又は表面上で）決定することができるように、アレイのそれぞれのプローブは、好ましくは固体支持体上の公知の所定の位置にて位置する。好ましい実施態様において、それぞれのプローブは、単一の部位にて固体支持体に共有結合で付着されている。

マイクロアレイは、多数の方法で作製することができ、そのうちのいくつかを以下に記載する。しかし、作製されたマイクロアレイは、一定の特徴を共有する。アレイは、再現性があり、かつ所与のアレイの複数のコピー作製することができ、互いに容易に比較される。好ましくは、マイクロアレイは、結合（たとえば、核酸ハイブリダイゼーション）条件下で安定である材料から作製される。マイクロアレイは、好ましくは小さく、たとえば1cm²〜25cm²の間、及び12cm²〜13cm²の間、又は3cm²である。しかし、より大きなアレイも想定され、たとえばスクリーニングアレイに使用するためには、好ましいであろう。好ましくは、所与の結合部位又はマイクロアレイにおける結合部位の独特のセットは、細胞の単一遺伝子の産物と（たとえば、特異的mRNAと、又はそれに由来する特異的cDNAと）特異的に結合する（たとえば、ハイブリダイズする）。しかし、一般に、その他の関連配列又は同様の配列も、所与の結合部位にクロスハイブリダイズする。

本発明のマイクロアレイは、1つ以上の試験プローブを含み、そのそれぞれは、検出されるRNA又はDNAの部分列に対して相補的なポリヌクレオチド配列を有する。好ましくは、固体の表面上のそれぞれのプローブの位置は、既知である。実際に、マイクロアレイは、好ましくは位置的にアドレス指定可能なアレイである。具体的には、アレイのそれぞれのプローブは、それぞれのプローブの同一性（すなわち、配列）をアレイ上のその位置から（すなわち、支持体又は表面上で）決定することができるように、好ましくは固体支持体上の既知の所定の位置に位置する。

本発明によれば、マイクロアレイは、それぞれの位置が本明細書に記述されたマーカーのうちの1つ表すアレイ（すなわち、マトリックス）である。たとえば、それぞれの位置は、その遺伝マーカーから転写される特定のRNA又はcDNAが特異的にハイブリダイズすることができるゲノムDNAに基づいたDNA又はDNA類似体を含むことができる。DNA又はDNA類似体は、たとえば合成オリゴマー又は遺伝子断片であり得る。一つの実施態様において、マーカーのそれぞれを表すプローブがアレイ上に存在する。好ましい実施態様において、アレイは、表1〜5に収載されたマーカーのそれぞれに対するプローブを含む。

（5.3.2.2. マイクロアレイのためのプローブの調製）
上記の如く、特定のポリヌクレオチド分子が本発明によって特異的にハイブリダイズする「プローブ」は、相補ゲノムのポリヌクレオチド配列を含む。マイクロアレイのプローブは、好ましくは1,000ヌクレオチドだけのヌクレオチド配列からなる。一部の実施態様において、アレイのプローブは、10〜1,000ヌクレオチドのヌクレオチド配列からなる。好ましい実施態様において、プローブのヌクレオチド配列は、10〜200ヌクレオチドの長さの範囲であり、複数の異なるプローブが配列相補性を伴って存在し、従ってこのような生物体の種のゲノムにハイブリダイズすることができるように、このようなゲノムの全て又は一部にわたって連続してタイルのように並べられた生物体の種のゲノム配列である。その他の具体的実施態様において、プローブは、10〜40ヌクレオチドの長さの範囲で、長さにおける40〜80ヌクレオチドの長さの範囲で、80〜120ヌクレオチドの長さの範囲で、50〜150ヌクレオチドの長さの範囲で、20〜50ヌクレオチドの長さの範囲で、10〜30ヌクレオチドの長さの範囲で、及び最も好ましくは60ヌクレオチドの長さである。

プローブは、生物体のゲノムの一部に対応するDNA又はDNA「擬態」（たとえば、誘導体及び類似体）を含んでいてもよい。別の実施態様において、マイクロアレイのプローブは、相補RNA又はRNA擬態である。DNA擬態は、特異的なDNAとのワトソン-クリック様のハイブリダイゼーション又は特異的なRNAとのハイブリダイゼーションができるサブユニットで構成される重合体である。核酸は、塩基部分にて、糖残基にて、又はリン酸骨格にて修飾することができる。例示的なDNA擬態には、たとえばホスホロチオアートを含む。

DNAは、たとえばゲノムDNA又はクローン配列のポリメラーゼ連鎖反応法（PCR）増幅によって得ることができる。PCRプライマーは、好ましくはゲノムDNAの特異的断片の増幅を生じさせるであろう既知のゲノムの配列に基づいて選択される。Oligoバージョン5.0（National Biosciences社）などの当該技術分野において周知であるコンピュータプログラムは、要求される特異性及び最適な増幅特性をもつプライマーのデザインに有用である。典型的には、マイクロアレイ上のそれぞれのプローブは、10塩基〜50,000塩基の間、通常300塩基〜1,000塩基の間の長さである。PCR法は、当該技術分野において周知であり、たとえばInnisら編, 『ＰＣＲプロトコル：方法及び活用の手引き（PCR PROTOCOLS: A GUIDE TO METHODS AND APPLICATIONS）』, Academic Press社, San Diego, CA（1990）に記述されている。核酸を単離し、及び増幅するために、制御されたロボットシステムが有用であることは、当業者に明らかであろう。

マイクロアレイのポリヌクレオチドプローブを作製するための代わりの好ましい手段は、たとえばN-ホスホナート又はホスホロアミダイト化学を使用する、合成ポリヌクレオチド又はオリゴヌクレオチドの合成による（Froehlerらの論文, Nucleic Acid Res. 14：5399-5407（1986）；McBrideらの論文, Tetrahedron Lett. 24：246-248（1983））。合成配列は、典型的には約10〜約500塩基の間の長さ、より典型的には約20〜約100塩基の間、及び最も好ましくは約40〜約70塩基の間の長さである。一部の実施態様において、合成核酸は、限定することは意味しないが、イノシンなどの非天然の塩基を含む。上記の如く、核酸類似体を、ハイブリダイゼーションのための結合部位として使用してもよい。適切な核酸類似体の例は、ペプチド核酸である（たとえば、Egholmらの論文, Nature 363:566-568（1993）；米国特許第5,539,083号を参照されたい）。

プローブは、好ましくは結合エネルギー、塩基組成、配列複雑度、交差反応結合エネルギー及び二次構造を考慮するアルゴリズムを使用して選択される。2001年1月25日に発表されたFriendらの文献,（国際特許公開WO01/05935）；Hughesらの論文, Nat. Biotech. 19：342-7（2001）を参照されたい。また、当業者であれば、正の対照プローブ、たとえば標的ポリヌクレオチド分子の配列に対して相補的かつハイブリダイズ可能なことが知られているプローブ、及び負の対照プローブ、たとえば標的ポリヌクレオチド分子の配列に対して相補的かつハイブリダイズ可能ではないことが知られているプローブをアレイ上に含めるべきであることを認識するであろう。一つの実施態様において、正の対照は、アレイの周囲に沿って合成される。別の実施態様において、正の対照は、アレイ全体の斜めの縞に合成される。さらに別の実施態様において、それぞれのプローブに対する逆相補体を、負の対照として役立つようにプローブの位置の次に合成する。さらに別の実施態様において、生物体のその他の種から配列を負の対照として、又は「スパイクイン」対照として使用する。

（5.3.2.3. 固体の表面へのプローブの付着）
プローブを、たとえばガラス、プラスチック（たとえば、ポリプロピレン、ナイロン）、ポリアクリルアミド、ニトロセルロース、ゲル又はその他の多孔性若しくは非多孔性の材料から作製し得る固体支持体又は表面に付着させる。表面に対して核酸を付着するための好ましい方法は、Schenaらの論文, Science 270：467-470（1995）によって一般に記述されたように、ガラス板上へのプリンティングによる。この方法は、特にcDNAのマイクロアレイを調製するために有用である（また、DeRisiらの論文, Nature Genetics 14:457-460（1996）； Shalonらの論文, Genome Res. 6 :639-645（1996）； and Schenaらの論文, Proc. Natl Acad. Set U.S.A. 93:10539-11286（1995）を参照されたい）。

マイクロアレイを作製するための第2の好ましい方法は、高密度オリゴヌクレオチドアレイを作製することによる。インサイチューでの合成のための写真平板技術（Fodorらの論文, 1991, Science 251:767- 773； Peaseらの論文, 1994, Proc. Natl. Acad. Sci. U.S.A. 91:5022-5026； Lockhartらの論文, 1996, Nature Biotechnology 14:1675；米国特許第5,578,832号；第5,556,752号；及び第5,510,270号を参照されたい）又は定義されたオリゴヌクレオチドの迅速合成及び沈着のためのその他の方法を使用して、表面上の定義された位置に、定義された配列に相補的な何千ものオリゴヌクレオチドを含むアレイを作製するための技術が知られている（Blanchardらの論文, Biosensors & Bioelectronics 11 :687-690）。これらの方法が使用されるときは、公知の配列のオリゴヌクレオチド（たとえば、60mer）が誘導体化されたガラススライドなどの表面上に直接合成される。通常、作製されるアレイは、RNAあたりいくつかのオリゴヌクレオチド分子で重複する。

また、マイクロアレイを作製するためのその他の方法、たとえばマスキングによる方法（Maskos及びSouthernの論文, 1992, Nuc. Acids. Res. 20:1679-1684）を使用してもよい。原則として、及び上記したとおり、いずれのタイプのアレイ、たとえばナイロンハイブリダイゼーション膜上のドットブロット（Sambrookらの文献,『分子クローニング−実験室マニュアル（MOLECULAR CLONING - A LABORATORY MANUAL）（第２版）』, １〜３巻, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York（1989）を参照されたい）を使用することもできよう。しかし、当業者に認識されるにように、非常に小さなアレイでは、ハイブリダイゼーション体積がより小さいので、好ましいことが多いであろう。

一つの実施態様において、本発明のアレイは、支持体上でポリヌクレオチドプローブを合成することによって調製される。このような実施態様において、ポリヌクレオチドプローブは、ポリヌクレオチドの3'又は5'末端のいずれかにて共有結合的に支持体に付着される。特に好ましい実施態様において、本発明のマイクロアレイはBlanchardによる、たとえば米国特許第6,028,189号； Blanchardらの論文, 1996, Biosensors and Bioelectronics 11:687-690； Blanchardの文献, 1998, 『遺伝子工学における合成ＤＮＡアレイ』, ２０巻, J.K. Setlow編, Plenum Press, New Yorkの111-123頁に記述された方法及び装置を使用して、オリゴヌクレオチド合成のためのインクジェット式印刷装置によって製造される。具体的には、このようなマイクロアレイにおけるオリゴヌクレオチドプローブは、好ましくは炭酸プロピレンなどの表面張力の高い溶媒の「微小滴」中の個々のヌクレオチド塩基を連続的に沈着させることによって、アレイにおいて、たとえばガラススライド上で合成される。微小滴は、小体積（たとえば、100pL以下、より好ましくは、50pL以下）であり、マイクロアレイ上で（たとえば、疎水性ドメインによって）互いに分離されて、配列要素（すなわち、異なるプローブ）の位置を定義する環状表面張力ウェルを形成する。このインクジェット法によって製造されるマイクロアレイは、典型的には高密度であり、好ましくは1 cm²あたり少なくとも約2,500個の異なるプローブ密度を有する。ポリヌクレオチドプローブは、ポリヌクレオチドの3'又は5'末端にて共有結合で支持体に付着される。

（5.3.2.4. 標的ポリヌクレオチド分子）
本発明によって分析されるであろうポリヌクレオチド分子（「標的ポリヌクレオチド分子」）は、いずれの臨床的に関連した供与源由来であってもよいが、天然に存在する核酸分子、並びに合成の核酸分子を含む、それに由来する発現されたRNA又は核酸（たとえば、RNAポリメラーゼプロモーターを組み込むcDNAに由来するcDNA又は増幅されたRNA）である。一つの実施態様において、標的ポリヌクレオチド分子は、限定されることは意味しないが、総細胞RNA、ポリ（A）⁺メッセンジャーRNA（mRNA）又はその画分、細胞質mRNA、又はcDNAから転写されるRNA（すなわち、cRNA；たとえば、1999年10月4日に出願のLinsley及びSchelterの文献, 米国特許出願公開第09/411,074号、又は米国特許第5,545,522号、第5,891,636号若しくは第5,716,785号を参照されたい）を含むRNAを含む。総及びポリ（A）+ RNAを調製するための方法は、当該技術分野において周知であり、一般に、たとえばSambrookらの文献,『分子クローニング−実験室マニュアル（MOLECULAR CLONING - A LABORATORY MANUAL）（第２版）』, １〜３巻, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York（1989）に記述されている。一つの実施態様において、RNAは、グアニジウムチオシアナート溶解、それに続くCsCl遠心分離を使用して、本発明の種々のタイプの関心対象の細胞から抽出される（Chirgwinらの論文,1979、Biochemistry 18：5294-5299）。別の実施態様において、総RNAは、シリカゲルベースのカラムを使用して抽出され、その市販の例には、RNeasy（Qiagen社、Valencia California）及びStrataPrep（Stratagene社、La Jolla、California）を含む。酵母（S. cerevisiae）のための好ましい代わりの実施態様において、RNAは、Ausubel編, 1989, 『分子生物学の最新プロトコル（CURRENT PROTOCOLS IN MOLECULAR BIOLOGY）』, ３巻, Green Publishing Associates社, John Wiley & Sons, 社., New York, 13.12.1〜13.12.5頁）に記載されているように、フェノール及びクロロホルムを使用して細胞から抽出される。PoIy（A）⁺RNAは、たとえば総細胞のオリゴdTセルロースでの選択によって、又代わりに、RNAのオリゴdTプライムした逆転写によって選択することができる。一つの実施態様において、RNAは、当該技術分野において既知の方法によって、たとえばZnCl₂とのインキュベーションによって断片化して、RNAの断片を作製することができる。別の実施態様において、本発明によって分析されるポリヌクレオチド分子は、cDNA、又は増幅されたRNA若しくはcDNAのPCR産物を含む。

一つの実施態様において、総RNA、mRNA、又はそれに由来する核酸は、乳癌に冒された人から採取した試料から単離される。特定の細胞に十分に発現されていない標的ポリヌクレオチド分子は、標準化技術を使用して濃縮してもよい（Bonaldoらの論文, 1996、Genome Res. 6：791-806）。上述の通り、標的ポリヌクレオチドは、1つ以上のヌクレオチドにて検出可能的に標識される。当該技術分野において既知のいずれの方法を、標的ポリヌクレオチドを検出可能的に標識するために使用してもよい。好ましくは、この標識化では、RNAに沿って一様に標識を取り込み、より好ましくは、標識化は、高度に効率的に行われる。この標識化のための一つの実施態様では、標識を取り込むためにオリゴdTプライム化逆転写を使用するが；この方法の従来法は、3'末端断片を産生する方に偏っている。したがって、好ましい実施態様において、標的ポリヌクレオチドの全長にわたって標識されたヌクレオチドを一様に取り込むために、ランダムプライマー（たとえば、9-mer）を逆転写に使用する。或いは、標的ポリヌクレオチドを増幅するために、ランダムプライマーをPCR法又はT7プロモーターに基づいたインビトロでの転写法と組み合わせて使用してもよい。

好ましい実施態様において、検出可能な標識は、発光標識である。たとえば、蛍光標識、生物発光標識、化学発光標識及び比色標識を本発明に使用してもよい。非常に好ましい実施態様において、標識は、フルオレッセイン、リン光体、ローダミン又はポリメチン色素誘導体などの蛍光標識である。市販の蛍光標識の例には、たとえばFluorePrime（Amersham Pharmacia社, Piscataway, NJ.）、Fluoredite（Millipore社, Bedford, Mass.）、FAM（ABI社, Foster City, Calif.）、及びCy3若しくはCy5（Amersham Pharmacia社, Piscataway, N.J.）などの蛍光ホスホラミダイトを含む。別の実施態様において、検出可能な標識は、放射標識されたヌクレオチドである。

さらなる好ましい実施態様において、患者試料からの標的ポリヌクレオチド分子は、標準の標的ポリヌクレオチド分子から示差的に標識される。標準は、正常個体（すなわち、乳癌に冒されていないもの）からの標的ポリヌクレオチド分子を含むことができる。非常に好ましい実施態様において、標準は、正常個体からの試料又は散発性型乳房腫瘍を有する個体からの腫瘍試料からプールされた標的ポリヌクレオチド分子を含む。別の実施態様において、標的ポリヌクレオチド分子は、同じ個体に由来するが、異なる時点にて採取され、したがって、治療経過（すなわち、化学療法、放射線療法又は寒冷療法）の間と後のマーカーの発現の変化、又はこれらの欠如によって、治療の有効性を示し、予後不良パターンから予後良好パターンへのマーカーの発現の変化は、治療が効果的であることを示す。本実施態様において、異なる時点にて示差的に標識される。

（5.3.2.5. マイクロアレイへのハイブリダイゼーション）
核酸ハイブリダイゼーション及び洗浄条件は、標的ポリヌクレオチド分子がアレイの相補ポリヌクレオチド配列に、好ましくはその相補DNAが位置する特異的アレイ部位に、特異的に結合する、又は特異的にハイブリダイズするように選択される。アレイ上に置かれた二本鎖プローブDNAを含むアレイは、好ましくは標的ポリヌクレオチド分子と接触させる前に、DNA一本鎖を与えるための変性条件に供される。一本鎖プローブDNA（たとえば、合成オリゴデオキシリボ核酸）を含むアレイは、たとえば自己相補的配列によって形成されるヘアピン又は二量体を除去するために、標的ポリヌクレオチド分子と接触する前に変性させることが必要であろう。

最適なハイブリダイゼーション条件は、プローブ及び標的核酸の長さ（たとえば、200塩基よりも大きいオリゴマー対ポリヌクレオチド）並びに型（たとえば、RNA又はDNA）に依存する。当業者であれば、オリゴヌクレオチドが短くなるほど、満足なハイブリダイゼーション結果のための比較的一様な融解温度を達成するためには、これらの長さを調整することが必要であろうことを認識するであろう。核酸のための特異的な（すなわち、ストリンジェントな）ハイブリダイゼーション条件のための一般的パラメーターは、Sambrookらの文献,『分子クローニング−実験室マニュアル（MOLECULAR CLONING - A LABORATORY MANUAL）（第２版）』, １〜３巻, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York（1989））、及びAusubelらの文献, 『分子生物学の最新プロトコル（CURRENT PROTOCOLS IN MOLECULAR BIOLOGY）』, ２巻, Current Protocols Publishing, New York（1994）に記述されている。Schenaらの文献のcDNAマイクロアレイのための典型的なハイブリダイゼーション条件は、0.2%のSDSを加えた5×SSC中、65℃にて4時間のハイブリダイゼーション、続く低ストリンジェンシー洗浄緩衝液（0.2%のSDSを加えた1×SSC）中、25℃での洗浄、続くより高いストリンジェンシーの洗浄緩衝液（0.2%のSDSを加えた0.1×SSC）中、25℃にて10分である（Schenaらの論文（Proc. Natl. Acad. Sci. U.S.A. 93：10614（1993））。また、有用なハイブリダイゼーション条件は、たとえばTijessenの文献, 1993, 『核酸プローブを用いるハイブリダイゼーション（HYBRIDIZATION WITH NUCLEIC ACID PROBES）』, Elsevier Science Publishers B.V.；及び Krickaの文献, 1992, 『非同位体性ＤＮＡプローブ技術（NONISOTOPIC DNA PROBE TECHNIQUES）』, Academic Press, San Diego, CA；に提供されている。特に好ましいハイブリダイゼーション条件は、プローブの平均融解温度（たとえば、51℃以内、より好ましくは21℃以内）にて、又はその近くで、1M NaCl、50mM MES緩衝液（pH 6.5）、0.5%サルコシンナトリウム及び30%ホルムアミド中でのハイブリダイゼーションを含む。

（5.3.2.6. シグナル検出及びデータ分析）
蛍光標識プローブを使用する場合、マイクロアレイのそれぞれの部位における蛍光発光は、好ましくは走査共焦点レーザー顕微鏡によって検出してもよい。一つの実施態様において、使用した2つのフルオロフォアのそれぞれに対して、適切な励起線を使用して別々のスキャンを行う。或いは、2つのフルオロフォアに特異的な波長にて同時検体照射可能で、かつ2つのフルオロフォアからの発光を同時に分析することができるレーザーを使用してもよい（Shalonらの論文, 1996, 『２色の蛍光プローブハイブリダイゼーションを使用する、複雑なＤＮＡサンプル用ＤＮＡマイクロアレイシステム』Genome Research 6:639-645を参照されたく、これは、引用によりその全体が全ての目的のために組み込まれる）。好ましい実施態様において、コンピュータ制御X-Yステージと共に顕微鏡対物レンズを備えたレーザー蛍光スキャナーによりアレイを走査する。2つのフルオロフォアの連続励起は、マルチラインの混合気体レーザーで達成され、放射された光が波長で分離されて、2つの光電増倍管で検出される。蛍光レーザー走査装置は、Schenaらの論文, Genome Res. 6:639-645（1996）に、及び本明細書に引用されるその他の引用文献に記述されている。或いは、同時に多数の部位にてFergusonらの論文, Nature Biotech. 14:1681-1684（1996）によって記述された光ファイバー束を使用し、mRNA存在量レベルをモニターしてもよい。

シグナルを記録し、及び好ましい実施態様において、たとえば12又は16ビットのアナログ-デジタルボードを使用するコンピュータで分析する。一つの実施態様において、走査画像は、グラフィックスプログラム（たとえば、Hijaak Graphics Suite）を使用してスペックル除去し、次いでイメージグリッドプログラムを使用して分析し、それぞれの部位におけるそれぞれの波長にて平均ハイブリダイゼーションのスプレッドシートを作製する。必要に応じて、2つの蛍光体についてのチャンネル間の「クロストーク」（又は重複）に関して、実験で決定された補正を行ってもよい。転写物アレイ上のいずれの特定のハイブリダイゼーション部位についても、2つのフルオロフォアの発光比を算出することができる。該比は、同族遺伝子の絶対発現レベルとは無関係であるが、発現が種々の乳癌関連状態に関連して有意に調節される遺伝子のために有用である。

（5.4. 患者サブセットに特異的な治療計画）
共通の状態を有する個体のサブセットを同定し、続いてこれらの特定の個体のサブセットについて情報価値のある遺伝子セットを同定する利点は、このような細分及び同定により、ある状態の特定の形態の原因となるか、又は最も密接に関連した遺伝子のサブセットを正確に同定する傾向があることである。たとえば、乳癌は、いくつかの異なる分子機構によってもたらされる複雑な状態である。ER+個体、特にER+、ER／AGE高個体は、細胞周期制御遺伝子の発現レベルの増大を示し、これらの遺伝子の発現は、この患者サブセットの予後について非常に情報価値がある（実施例を参照されたい）。しかし、ER^-個体では、これらの遺伝子の発現は、予後についての情報価値のはない。

したがって、情報価値のあるマーカーのセットは、個体が分類される状態サブセットに応じて、療法の特定の経過を個体、たとえば乳癌である個体に割り当てるために使用することができる。したがって、一つの実施態様において、本発明は、状態を有する個体に療法の経過を割り当てる方法を提供し、前記方法は、個体を状態の複数のサブセットのうちの１つに分類すること（複数の情報価値のある遺伝子は、少なくと別の前記サブセットについて同定されており）；及びこれらの遺伝子と関連する状態のサブセットを治療するために有効であることが既知か、又は有効と思われる療法の経過を割り当てること；を含む。具体的実施態様において、前記状態は、乳癌であり、前記患者サブセットは、ER+、ER／AGE高状態であり、前記療法の経過は、細胞周期を停止させるのに有効なことが既知か、又は有効と思われる1つ以上の化合物の投与を含む。より具体的実施態様において、前記1つ以上の化合物には、タキソール又はビンカアルカロイドを含む。

もちろん、上記の表現型及び遺伝子発現に基づいて選択される、又は割り当てられる療法の任意のコースを、状態の治療に関連し、又は有効なことが既知か、若しくは有効と思われる療法の他の治療又はコースによって補ってよい。たとえば、乳癌治療には、さらに組織保存的又は根治的のいずれかの外科手術、放射線療法、遺伝子発現分析によって示唆されたもの以外の化学療法、又は有効なことが既知か、若しくは有効と思われる任意のその他の療法を含んでいてもよい。

（5.5. 臨床試験及び疫学調査）
また、本発明の方法を、臨床試験、疫学調査又はその他の範囲内のカテゴリーに個体を割り当てるために使用してもよい。たとえば、個体は、特異的タンパク質（たとえば、エストロゲン受容体）又は組織構造（たとえば、リンパ節）の有無などの状態の特徴に従って区別してよく、予後で、及び予後と相関された治験の結果で区別してもよい。具体例において、状態は乳癌であり、特徴はエストロゲン受容体の存在であり、予後は初診後の特定の期間、たとえば5年以内に転移の発生又は非発生の予想である。別の具体例において、状態は肥満症であり、特徴は24時間のエネルギー消費であり、予後は心疾患又は糖尿病の発生の予想である。別の具体例において、状態は神経変性疾患であり、特徴は特定の範囲の濃度の環境毒素に対する曝露であり、予後は運動機能の喪失の発生又は程度の予想である。いずれの場合においても、予想される特徴及び結果は、臨床試験又は疫学調査の範囲内のカテゴリーに個体を割り当てるために使用される。

したがって、本発明は、個体を臨床試験における複数のカテゴリーの1つに割り当てるための方法であって：個体を、状態の少なくとも１つの遺伝子型又は表現型の特徴によって区別される複数の状態カテゴリーの1つに分類すること；前記状態カテゴリーについて情報価値のある複数の遺伝子の、前記個体由来の試料における発現レベルを決定すること；前記複数の遺伝子の前記発現レベルが、個体が予後良好又は予後不良を有するを示すかどうかを決定すること；及び予後に基づいて個体を臨床試験におけるカテゴリーに割り当てること；を含む方法を提供する。

具体的実施態様において、本発明は、乳癌臨床試験におけるカテゴリーに個体を割り当てる方法を提供し、前記方法は：（a）前記個体をER^-、BRCA1、ER^-、散発性；ER+、ER／AGE高；ER+、ER／AGE低、LN+；又はER+、ER／AGE低、LN^-として分類すること；（b）前記個体について、前記個体がER^-、BRCA1として分類される場合、表1；前記個体が^-、ER散発性として分類される場合、表2；前記個体がER+、ER／AGE高として分類される場合、表3；前記個体がER+、ER／AGE低、LN+として分類される場合、表4；又は前記個体がER+、ER／AGE低、LNとして分類される場合、表5；に収載されたマーカーの少なくとも2つの遺伝子の発現レベルを決定すること；（c）前記個体が、予後良好又は予後不良と相関する前記少なくとも2つの遺伝子の発現のパターンを有するかどうかを決定すること；及び（d）前記個体が予後良好である場合、前記個体を、前記個体を臨床試験における少なくとも１つのカテゴリーに割り当て、及び前記個体が予後不良である場合、前記臨床してにおける第2のカテゴリーに対して前記個体を割り当てること；を含む。より具体的実施態様において、前記個体は、工程（a）において決定された分類に基づいて前記臨床試験のカテゴリーにさらに割り当てられる。さらに別の具体的実施態様において、前記個体は、乳癌のその他の何らかの臨床的、表現型的、又は遺伝子型的特徴に基づいて、前記臨床試験におけるカテゴリーにさらに割り当てられる。さらに別の具体的実施態様において、本方法は、前記細胞試料において、マーカーが表1〜5において見いだされない第2の複数の遺伝子の、対照と比較した発現レベルをさらに決定することであって、ここで前記第2の複数の遺伝子は、乳癌の予後についての情報価値があり、及び前記第1の複数の遺伝子に加えて、前記第2の複数の遺伝子の発現から、前記個体が予後良好又は予後不良であるかどうかを決定することを含む。

（5.6. キット）
本発明は、さらに、上記のマーカーセットを含むキットを提供する。本発明のキットの構成要素は、好ましくは密封容器に包まれる。好ましい実施態様において、キットは、標的ポリヌクレオチド分子へのハイブリダイゼーションのための準備ができているマイクロアレイを含む。具体的実施態様において、キットは、第5.3.2節に詳述するマイクロアレイのいずれを含んでいてもよい。タンパク質が標的分子である場合、キットには、好ましくは特定の状態に関連したタンパク質に結合する複数の抗体及びこのような結合を同定するための手段（たとえば、サンドイッチアッセイ法、ELISA、RIAなどを行うための手段）を含む。たとえば、このような抗体は、個々に、又は抗体アレイの一部として提供してもよい。キットには、加えて、第5.7節に詳細に記載したように、上記のデータ分析のためのソフトウェアを含んでいてもよい。キットには、好ましくは1つ以上の対照を含む。このような対照は、マイクロアレイに対するハイブリダイゼーションのための適切なマーカー関連ポリヌクレオチド又はマーカー由来ポリヌクレオチドの人工的集団であってもよく、ここで該マーカーは、関心対象の状態（たとえば、乳癌）に関連されるか、又は関連性がある。また、代わりに、対照は、コンピュータディスク又はその他のメモリ媒体に記憶された発現値のセットであってもよい。

本発明のキットは、事実上一次診断であってもよい；すなわち、これらは、関心対象の状態の特徴、たとえば予後、治療計画に対する反応の可能性、毒素曝露などの環境状態に対する曝露の結果の可能性などを決定する際に、医師又は研究者を援助するであろう。また、本発明のキットは、たとえば個体を臨床試験における異なる群に入れるように個体を分類するために使用してもよい。それぞれのキットの用途は、含まれるマーカー、マイクロアレイ、対照などによって決定される。

（5.7. コンピュータ支援分析）
以前の節に記述した分析的方法は、以下のコンピュータシステムを使用することによって、及び以下のプログラム及び方法に従って、実行することができる。コンピュータシステムには、外部コンポーネントに連結された内部コンポーネントを含む。典型的なコンピュータシステムの内部コンポーネントは、メインメモリ装置と相互接続されたプロセッサ要素を含む。たとえば、コンピュータシステムは、好ましくは32MB以上のメインメモリ装置をもつIntel 8086-、80386-、80486-、Pentium（商標）又はPentium（商標）に基づいたプロセッサに基づくことができる。また、コンピュータシステムは、Macintosh又はMacintoshに基づいたシステムでもよいが、またミニコンピュータ又はメインフレームであってもよい。

外部コンポーネントには、好ましくは大容量メモリ装置を含む。この大容量メモリ装置は、1つ以上のハードディスク（これは、典型的にはプロセッサ及びメモリと共にパックされる）であり得る。このようなハードディスクは、好ましくは1GB以上の記憶容量である。その他の外部コンポーネントには、「マウス」であり得る入力装置と共に、モニターすることができるユーザインタフェースデバイス又はその他のグラフィック入力装置及び／又はキーボードを含む。また、印刷装置をコンピュータに接続することができる。典型的には、コンピュータシステムは、また、ネットワークリンクに連結され、これは、その他の構内コンピュータシステム、リモートコンピュータシステム又はインターネットなどの広域通信回路網に対するイーサネットリンクの部分であり得る。このネットワークリンクは、コンピュータシステムがその他のコンピュータシステムが有するデータ及び処理タスクを共有することを可能にする。

このシステムの操作の間に、当該技術分野において標準的で、かつ本発明に特有であるいくつかのソフトウェアコンポーネントがメモリにロードされる。これらのソフトウェアコンポーネントは、本発明の方法に従って、コンピュータシステムを一括して機能するようにさせる。これらのソフトウェアコンポーネントは、典型的には大容量メモリ装置に記憶される。ソフトウェアコンポーネントは、オペレーティングシステムを含み、これは、コンピュータシステム及びそのネットワーク相互接続を管理する役割を果たす。このオペレーティングシステムは、たとえばWindows 3.1、Windows 95、Windows 98、Windows 2000又はWindows NTなどのMicrosoft Windows（登録商標）ファミリーであることができ、又はMacintosh OSファミリーであってもよく、又はUNIX、LINUXなどのUNIX派生物、若しくはミニコンピュータあるいはメインフレームに特異的なオペレーティングシステムであってもよい。ソフトウェアコンポーネントは、本発明に特異的な方法を実行するプログラムを支援するようにこのシステムに都合よく存在する共通の言語及び機能を表す。高又は低レベルコンピュータ言語の多くは、本発明の分析的方法をプログラムするために使用することができる。命令は、実行時の間も読み取る、又は蓄積することができる。好ましい言語には、C／C++、フォートラン及びJAVAを含む。最も好ましくは、本発明の方法は、使用されるアルゴリズムのいくつか又は全部を含む、方程式及びプロセシングのび高水準な指定の記号による入力ができる数学的ソフトウェアパッケージでプログラムされ、これにより、使用者が個々の方程式又はアルゴリズムをプログラムする手順の必要はなくなる。このようなパッケージには、Mathworks（Natick, MA）からのMathlab、Wolfram Research（Champaign、IL）からのMathematica（登録商標）又はMath Soft（Cambridge、MA）からのS-Plus（登録商標）を含む。具体的には、ソフトウェアコンポーネントには、手続き型言語又は記号的パッケージにプログラムされた本発明の分析的方法を含む。

キットに含まれるソフトウェアには、本明細書に開示したような本発明のデータ分析法を含む。特に、ソフトウェアには、臨床カテゴリー（たとえば、予後）とマーカー発現との間の類似値の算出を含むマーカー発見に関する数学的ルーチンを含んでいてもよい。また、ソフトウェアには、試料の臨床的分類を決定するために、アレイで生成された蛍光データを使用して試料マーカー発現とテンプレートマーカー発現との間の類似性を算出するための数学的ルーチンを含んでいてもよい。

加えて、ソフトウェアは、また、関心対象の状態である個体について、予後の結果及び推奨される治療計画を決定するための数学的ルーチンを含んでいてもよい。乳癌の具体例では、数学的ルーチンが、乳癌である個体についての予後結果及び推奨される治療計画を決定するであろう。このような乳癌特異的ソフトウェアには、コンピュータシステムのプロセッサが：乳癌患者から得られた乳癌腫瘍試料における表1〜5のいずれかに収載されたマーカー遺伝子のうちの5つ以上の発現レベル；対照又はテンプレートにおける同じ遺伝子の平均発現レベル；並びに年齢、リンパ節状態及びER状態を含む乳癌患者の臨床情報；を含むデータ構造を受けるための命令を含むであろう。加えて、ソフトウェアには、ハイブリダイゼーションデータを変換するための、及び患者の乳癌腫瘍試料におけるマーカー遺伝子の発現プロフィールとテンプレートとの間の類似性を算出するための数学的ルーチンを含んでいてもよい。具体的実施態様において、ソフトウェアは、患者の乳癌腫瘍試料におけるマーカー遺伝子についての発現プロフィールとテンプレートとの間の類似性を表す相関係数などの類似性測定規準を算出すること、及び該類似性測定規準として類似性を表すことに関する、数学的ルーチンを含む。

ソフトウェアは、好ましくは患者の臨床的及びマーカー遺伝子発現データを統合して、治療方針を推奨する決定ルーチンを含むであろう。一つの実施態様において、たとえば、ソフトウェアは、プロセッサユニットに、患者の腫瘍試料における予後に関連した遺伝子についての発現データを受け、これらの発現値の、テンプレートにおける同じ遺伝子についての値に対する類似性の測定規準を算出し、予後の群を区別する予め選択された類似性測定規準閾値とこの類似性測定規準を比較し、患者を予後の群に割り当て、及び予後の群に基づいて推奨された治療計画を割り当てるようにさせる。具体例としては、ソフトウェアは、さらに、プロセッサユニットに、乳癌患者に関する臨床情報を含むデータ構造を受けるようにさせる。より具体的な例において、このような臨床情報には、患者の年齢、エストロゲン受容体状態及びリンパ節状態を含む。

ソフトウェアは、好ましくはプロセッサユニットに、関心対象の特定の状態の、及び／又はその状態を有する個体の、関連した表現型及び／又は遺伝子型特徴を含むデータ構造を受けて、これらの特徴に従って個体を状態サブセットに分類するようにさせる。次いで、ソフトウェアは、プロセッサに、サブセット特異的マーカーについての値を受けて、個体からのこれらのマーカー（たとえば、レベル、存在量、活性など）と関連する値の、テンプレートに対する類似性測定規準を算出し、予後の群を区別する予め選択された類似性測定規準閾値とこの類似性測定規準を比較し、患者を予後の群に割り当て、及び予後の群に基づいて推奨された治療計画を割り当てるようにさせる。乳癌及び乳癌患者における具体例では、ソフトウェアは、一つの実施態様において、プロセッサユニットに、患者の年齢、エストロゲン受容体状態及びリンパ節状態を含むデータ構造を受け、このデータに基づいて患者を以下の患者サブセットのうちの１つに分類するようにさせる：ER^-、散発性；ER^-、BRCA1；ER+、AR／AGE高；ER+、ER／AGE低、LN+；又はER+、ER／AGE低、LN^-。次いで、ソフトウェアは、プロセッサに、患者の腫瘍試料におけるサブセット特異的な予後情報価値のある遺伝子発現についての発現値を受け、これらの発現値の、患者サブセット特異的なテンプレートにおける同じ遺伝子についての値に対する類似性測定規準を算出し、予後の群を区別する予め選択された類似性測定規準閾値とこの類似性測定規準を比較し、患者を予後の群に割り当て、及び予後の群に基づいて推奨された治療計画を割り当てるようにさせる。

テンプレートが、患者、たとえば乳癌患者の群内のマーカー遺伝子についての発現値を含む発現テンプレートである場合、該テンプレートには、患者の個々のハイブリダイゼーションデータと同時に（すなわち、同じハイブリダイゼーション実験で）得たハイブリダイゼーションデータを含むことができるか、又はコンピュータに、若しくはコンピュータ可読媒体に記録されたハイブリダイゼーション若しくはマーカー発現値のセットであり得る。後者が使用される場合、初期若しくは追跡腫瘍試料又は疑わしい腫瘍試料から得られる選択されたマーカー遺伝子についての新たな患者のハイブリダイゼーションデータを同じ遺伝子についての記録された値と比較することができる。しかし、ソフトウェアには、さらに、テンプレートデータセットを更新するための、たとえばさらなる乳癌患者からの情報を追加するための、又はテンプレートデータセットの既存のメンバーを除くための、したがって、テンプレートを含む平均発現レベル値を再計算するためのルーチンを含んでいてもよい。別の具体的実施態様において、前記テンプレートは、コンピュータ可読媒体に記録された、前記遺伝子の前記少なくとも5つのそれぞれについての１チャンネル平均ハイブリダイゼーション強度値のセットを含む。

乳癌患者又は別のタイプの状態である患者に関し、かつ本発明のコンピュータプログラム製品によって使用される臨床データは、それぞれの患者に対する情報が別々の記録に維持されている臨床データのデータベースに含めることができ、この記録には、初診の一部として、若しくは治療の間の状態、たとえば乳癌の進行度を追跡するために作成された発現プロフィールデータを含む、患者、患者の病歴、治療、予後又は臨床試験若しくは研究への関与に関連するあらゆる情報を含んでいてもよい。

したがって、本発明の一つの実施態様は、予後に従って乳癌患者を分類するためのコンピュータプログラム製品、メモリ及びプロセッサを有するコンピュータと組み合わせて使用するためのコンピュータプログラム製品、及びそこにコードされたコンピュータプログラム機構を有するコンピュータ読み取り可能なメモリ媒体を含むコンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、コンピュータの1つ以上のメモリ装置にロードして、コンピュータの1つ以上のプロセッサユニットに：（a）前記乳癌患者の年齢、ER状態、LN状態及び腫瘍型を含む第1のデータ構造を受ける工程；（b）前記患者をER^-、散発性；ER^-、BRCA1；ER+、ER／AGE高；ER+、ER／AGE低、LN+；又はER+、ER／AGE低、LN^-として分類する工程；（c）前記乳癌患者から採取した細胞試料における少なくとも2つの遺伝子の発現のレベルを含む第2のデータ構造を受ける工程であって、前記少なくとも2つの遺伝子のためのマーカーは、前記患者がER^-、散発性として分類される場合、表1；前記患者がER^-、散発性として分類されている場合、表2；前記患者がER+、ER／AGE高として分類されるとして分類されている場合、表3；前記患者がER+、ER／AGE低、LN+として分類されるとして分類されている場合、表4；又は前記患者がER+、ER／AGE高、LN^-として分類されるとして分類されている場合、表5；に収載されている、前記工程；（d）前記少なくとも2つの遺伝子のテンプレート発現プロフィールに対する前記少なくとも2つの遺伝子の発現プロフィールの類似性を決定して患者の類似値を得る工程；（e）前記患者の類似値を、選択された第1及び第2の類似性の閾値とそれぞれ比較する工程であって、前記第2の類似性閾値は、前記テンプレート発現プロフィールに対して、前記第1の類似性閾値よりも大きな類似性を示す、前記工程；及び（f）前記患者の類似値が前記前記第2の閾値の類似値を上回る場合、第1の予後を有し、前記患者の類似値が前記第1の閾値の類似値を上回るが、前記第2の閾値の類似値を上回らない場合、第2の予後を有し、及び前記患者の類似値が前記第1の閾値の類似値を上回らない場合、第3の予後を有するとして前記乳癌患者を分類する工程；を実行させることができる。前記コンピュータプログラム製品の具体的実施態様において、前記第1の類似性の閾値及び前記第2の類似性の閾値は、前記コンピュータに記憶された値である。さらに別の具体的実施態様において、前記第1の予後は、「非常に予後良好」であり、前記第2の予後は、「中間の予後」であり、前記第3の予後は、「予後不良」であり、ここで前記コンピュータプログラム機構は、メモリにロードされて、前記コンピュータの前記1つ以上のプロセッサユニットに、患者がリンパ節ネガティブであり、かつ予後良好又は中間の予後であるとして分類される場合は、前記乳癌患者に補助化学療法を含まない治療計画を、又は前記患者がリンパ節状態及び発現プロフィールの任意のその他の組み合わせを有する場合は、化学療法を含む治療計画を割り当てる工程を実行させてもよい。別の具体的実施態様において、前記コンピュータプログラム機構は、メモリにロードされて、前記コンピュータの1つ以上のプロセッサユニットに、前記乳癌患者に特異的な臨床データを含むデータ構造を受ける工程をさらに実行させてもよい。より具体的実施態様において、前記１チャンネルのハイブリダイゼーション強度値は、log変換されている。しかし、本方法のコンピュータインプリメンテーションには、任意の所望の変換法を使用してもよい。別の具体的実施態様において、コンピュータプログラム製品は、前記処理ユニットに、前記乳癌患者から採取した前記細胞試料における前記遺伝子の発現プロフィールと同じ遺伝子のテンプレート発現プロフィールとの間の相関を算出することによって前記比較工程（e）を行うようにさせる。別の具体的実施態様において、コンピュータプログラム製品は、前記処理ユニットに、前記乳癌患者から採取した前記細胞試料における前記遺伝子の発現プロフィールと同じ遺伝子のテンプレート発現プロフィールとの間の距離を算出することによって前記比較工程（e）を行うようにさせる。

もちろん、上記の乳癌特異的な例には限定されず；類似のコンピュータシステム、ソフトウェア及びデータ分析方法を関心対象の任意の状態のために利用してもよい。たとえば、類似のソフトウェアには、その他のタイプの任意の癌の、その他のいかなる非癌疾患又は状態の予後を、その癌、非癌疾患又は状態に特異的なマーカー、発現レベルデータ及び対照を使用して決定するために使用してもよい。例示的な実施態様において、本発明の方法を実施するために、使用者は、最初に実験データをコンピュータシステムにロードする。これらのデータは、モニター、キーボードから、又はネットワーク接続によって接続され、若しくはCD-ROM、フロッピーディスク（図示していない）、テープドライブ（図示していない）、ZIP（登録商標）ドライブ（図示していない）などのリムーバブル記録媒体上の、若しくはネットワークを介してその他のコンピュータシステムから使用者が直接入力することができる。次に、使用者は、本発明の方法を行う発現プロファイル分析ソフトウェアを実行させる。

別の例示的実施態様において、使用者は、最初に実験データ及び／又はデータベースをコンピュータシステムにロードする。このデータは、記憶媒体から、又はネットワークを介してリモートコンピュータから、好ましくは動的遺伝子セットデータベース系からメモリにロードされる。次に、使用者は、本発明の工程を行うソフトウェアを実行させる。加えて、本発明のソフトウェア及びコンピュータシステム製品に得られ、及び分析されるデータは、秘密であってもよいので、ソフトウェア及び／又はコンピュータシステムは、好ましくは、パスワード保護及び好ましくは、特に情報が、たとえばインターネット上でコンピュータの間で伝達される場合、適切な暗号化アルゴリズム（たとえば、PGP）によるデータの暗号化などのアクセス制御又はアクセス制御ルーチンを含む。本発明の分析法を実行するための代わりのコンピュータシステム及びソフトウェアは、当業者には明らかであり、添付の特許請求の範囲内に包含されることが意図される。特に、添付の特許請求の範囲は、当業者に容易に明らかであろう本発明の方法を実行するための、代替的プログラム構造を含むことが意図される。

（6. 実施例）
（6.1. 実施例1）：それぞれについて表現型サブセット及び情報価値のある遺伝子セットの同定
（材料及び方法）
腫瘍試料：
311人のコホート試料を乳癌患者から収集した。散発性患者（すなわち、BRCA1型腫瘍を有するとして同定されないもの；n = 291）についての選択基準には：5cm未満の原発性浸潤性乳癌（T1又はT2）；腋窩転移なし（N0）；55歳未満の診断時年齢；1983〜1996の診断の暦年；及び以前に悪性腫瘍なしを含んだ。全ての患者は、修飾された根治的乳房切断術又は乳房保存治療によって治療した。van't Veerらの論文, Nature 415：530（2002）を参照されたい。遺伝性（すなわち、BRCA1型；n = 20）腫瘍についての選択基準は：BRCA1又はBRCA2の生殖系列突然変異の保因者及び原発性浸潤性乳癌を含んだ。van't Veer上記。加えて、BRCA1群のための分類子の開発については、以前に同定された（van't Veer、上記を参照されたい）14人のBRCA1試料を20人のBRCA1型試料に追加して、試料サイズを増やした。また、これらの14人の試料は、これらがERネガティブ及び55歳未満の年齢である条件を満たす。

データ分析：
試料部分群化：図1に示したように、腫瘍試料は、これが優性遺伝子発現パターンであったので、最初にER+及びER^-分枝に分けた。ER^-分枝では、発現テンプレート及びBRCA1状態を決定するために最適として以前に同定された100個の遺伝子を使用して、試料を「BRCA1突然変異様」及び「散発性様」カテゴリーにさらに分けた。van’t Veerらの論文, Nature 415：530（2002）を参照されたい。ER+カテゴリーでは、試料をER対年齢構成によって、「ER／AGE低」及び「ER／AGE高」の2群に分けた（下記を参照されたい）。「ER／AGE低」郡内では、リンパ節状態に従って試料を2つの部分群：リンパ節ネガティブ（0個のリンパ節；LN^-）及びポジティブ（1個以上のリンパ節；LN+）群にさらに分けた。

これらの分裂の結果は、5つの特有の部分群：「ER^-、散発性」（n = 52）「ER^-、BRCA1」（n = 34）「ER+、ER／AGE高」（n = 83）「ER+、ER／AGE低、LN^-」（n = 81）、及び「ER+、ER／AGE低、LN+」（n = 75）であった。「ER+、ER／AGE低、LN+」群の特定のER対年齢構成である少数の試料をさらに除外して分類子を開発した。詳細は下記を参照されたい。エストロゲン受容体レベル：エストロゲン受容体遺伝子発現レベルを、マイクロアレイ上の60merオリゴヌクレオチドで測定した。あらゆる個体試料を全ての試料のプールと比較したので、プールに対する比を、相対的レベルを測定するために使用した。ER+群をER^-群から分けるために、log₁₀（比）の-0.65の閾値を使用した。van't Veerらの論文, Nature 415：530（2002）を参照されたい。

ER対年齢構成によるグループ化：
試料は、ER+試料間ではER対年齢空間において一様に分布されなかった（図2）。最初に、高ER発現レベルである若年個体からの試料はほとんどなかったので、ERレベルは、年齢と共に増大するように見えた。たとえば、35〜40年の年齢層では、ER ＞0.2のlog（比）を有する試料は、40〜45人の年齢層と比較して、比較的わずかである。使用した試料のセットでは、40＜年齢＜45群は、-0.2〜0.2の間のlog（比）ER値を有する30試料及び0.2を超える値を有する28試料を含むが、35＜年齢＜40群は、-0.2〜0.2の間の値をもつ24試料、しかし0.2を超える値をもつ6試料のみを含む（Fisher正確試験P値を有する：1%）。年齢と共にERレベルが増大するのは、単にエストロゲンレベルが年齢と共に減少し、エストロゲン受容体レベルが代わりに上昇するということに起因するのであろう。

また、図2Aにおいて2つに分かれている実線によって示されるとおり、少なくとも2つの患者群があるように見える。二峰性分離試験は、P値＜10^-4が得られる実線によって示した。これらの2群のそれぞれは、ERレベルと年齢との間にそれ自体が傾向を有する。実線は、ER = 0.1（年齢 42.5）に近似することができる。実線より上の値を有する患者は、「ER／AGE高」群と、及び線より下の患者を「ER／AGE低」群と呼ぶ。

それぞれの群における予後：
属性選択及び性能評価：それぞれの群における予後について、情報価値のない遺伝子を患者のそれぞれの群で選別した。具体的には、3回以上の実験において|log₁₀（比）|＞Iog₁₀（2）及びP値（log（比）≠0について）＜0.01をもつ遺伝子のみを保持した。この工程では、全ての試料全体にわたって何ら有意な変化を有さなかった全ての遺伝子を除いた。第2の工程では、分類子におけるリポーター遺伝子（特徴）の数を最適化するため、及びそれぞれの群における分類子の性能を見積もるためにleave-one-outクロス確認（LOOCV）法を使用した。属性選択には、それぞれのLOOCV過程のループ内に含めた。それぞれの群について1つの分類子が必要であったので、最終的な「最適」リポーター遺伝子は、「「訓練試料」の全てを使用して再置換」の結果として選択した。

訓練試料の選択：初診の5年以内（「ER^-、散発性」試料；すなわち、「結果不良」群については3年）に転移があった患者、又は5年以上の経過観察期間に転移がなかった患者（すなわち、「結果良好」群）からの試料だけを訓練セットとして使用した。転移がなかったか、又は初期に転移があった患者間で情報価値のある遺伝子についての平均発現レベルを予測のための発現テンプレートとして使用したので、ER+試料のための訓練試料は、LOOCV過程の最初のラウンドによっても正しく分類することができた試料にさらに限定された。「ER^-、散発性」試料については、改善が観察されなかったので、このような繰り返しを行わなかった。「ER^-、BRCA1」試料については、繰り返しを行ったが、2回目の繰り返しの訓練試料は、LOOCVの最初のラウンドから正しく予測された結果良好の試料で、全てが5年未満の転移期間で結果不良の試料に限定した。結果不良の試料のさらなる限定は、不良試料が少数であり、このような限定によって改善がなかったため、行わなかった。LOOCVの最初のラウンドにおいて、「ER^-、散発性」群を除いて、特徴の数を50個の遺伝子に固定した。患者は、個体からの試料におけるリポーター遺伝子の発現が「平均不良プロフィール」よりも「平均良好プロフィール」と類似する場合に、好ましい結果である、すなわち初診の5年以内に転移がないと予測し、試料におけるリポーター遺伝子の発現が「平均良好プロフィール」よりも「平均不良プロフィール」と類似する場合に、結果不良、すなわち5年以内の転移と予測した。

このような繰り返し操作を正当化する理由は、3つある。第1に、生物学的に、（莫大な大多数とは異なる）特別の理由をもつ常に少数の個体は、転移のないままか、又は転移を発生する。第2に、統計学的に、大部分の患者群は、大部分の試料の分布に従っていない異常値を含む。第3に、方法論的に、繰り返し操作は、「ブースティング」のアイデアに非常に類似しているが、誤って予測される試料の加重を増加させる代わりに、特徴を選択し、分類子を訓練するためにうまく機能した試料に対して強調を配置する。この過程を「訓練試料」を選択するために使用し、訓練試料を固定した後にLOOCV（属性選択を含む）を使用して性能を評価したので、本発明者らの手順に関与するオーバーフィッティングの問題はなかった。したがって、この繰り返し方法は、それぞれの群内で転移のための主な様式を明らかにする可能性が高い。

エラー発生率及びオッズ比、最終LOOCVにおける閾値：特に明記しない限り、エラー発生率は、以下の2つの集団からの平均エラー発生率である：（1）結果不良の試料の総数によって割った結果良好の試料として誤分類された結果不良の試料の数；及び（2）良好試料の総数によって割った結果不良の試料として誤分類された結果良好の試料の総数。所与の閾値について、以下の2つのオッズ比を報告する：（1）全体のオッズ比及び（2）5年のオッズ比。5年のオッズ比は、5年以上の間転移がなかった個体及び5年以内に転移を経験した者からの試料から算出した。閾値は、corl−cor2に適用し、式中、「corl」は、訓練セットにおける「平均良好プロフィール」に対する相関を表し、「cor2」は、訓練セットにおける「平均不良プロフィール」に対する相関を表す。

最終ラウンドにおけるLOOCVの閾値は、以下の工程を使用して定義した：（1）N個の試料のそれぞれについて、i個を訓練のために除いて、訓練セットに基づく特徴を選択した。（2）特徴セットを考慮し、N-1個の試料での不完全なLOOCVを行った（「平均不良プロフィール」及び「平均良好プロフィール」のみが、除かれた試料が訓練セットにあるかどうかに応じて変化する）。（3）N-1個の試料からの最小エラー発生率に基づく閾値を決定し、その閾値を工程（1）における試料iに割り当てた。（4）全てのN個の試料からの中央閾値をとり、最終閾値を示した。図3〜7は、5群：「ER^-、散発性」「ER、BRCA1」「ER+、ER／AGE高」「ER+、ER／AGE低、LN「「ER+、ER／AGE低、LN+」についての分類子に関する詳細な情報を示す。表1〜5（第5.3節を参照されたい）は、5人の患者サブセットのそれぞれについて、5つの分類子のそれぞれについての最終的な最適リポーター遺伝子を列記する。下記の表6は、それぞれの分類子に使用される閾値と共に、5つの分類子のそれぞれの性能を要約する。

分類法：本明細書に記述した全ての分類子、属性選択及び最適化は、LOOCVループ内に含めた。分類子性能は、LOOCV結果に基づいた。それぞれの患者から選択した特徴に基づくプロフィールを「平均良好プロフィール」及び「平均不良プロフィール」（相関によって）と比較して、その予測結果を決定した。

相関算出：それぞれの遺伝子の発現log（比）と指標データ（最終結果）との間の相関は、ピアソン相関係数を使用して算出した。それぞれの患者のプロフィールと「平均良好プロフィール」及び「平均不良プロフィール」との間の相関は、コサイン積（平均減算なし）である。結果：本発明者らは、全て70遺伝子の予後プロフィールを確立し、及び確認する以前の研究の一部であった55歳前に診断した311人の患者のマイクロアレイ発現プロフィールに対する包括的な予後ストラテジーを使用した。van't Veerらの論文, Nature 415:530（2002）； van de Vijverらの論文, N. Engl. J. Med. 347:1999（2002）を参照されたい。加えて、Natureの研究からの14人の公知のBRCA1試料をBRCA1群のための予後分類子を定義する際に含めた。層別化の概要を図1に示してある。患者サブセットのそれぞれにおいて、予後分類子を開発し、性能をleave-one-outクロス確認によって評価した。また、分類子のそれぞれの生物学的構成を調べた。

特定の臨床パラメーターを次の層別化のために使用するべきかどうか決めるための過程の間に、本発明者らの目的には、以下の2つがあった：（1）均一な予後パターンの同定；及び／又は（2）改善されたサブセットの予後。より小さな群では、群内で一様なパターンとなる可能性が高いが、予測力が次第に制限されたためこれらの2つの目的の間には、微妙なバランスがある。BRCA1サブセットを除いては、本発明者らの層別化のそれぞれの群には、50以上の試料を含んだ。

層別化の第１層は、エストロゲン受容体レベルに基づいた。本発明者ら及びその他は、エストロゲン受容体発現が階層的クラスター形成を示したため、乳癌における全体の遺伝子発現に対して優性効果を有することを以前に観察した。van't Veerらの論文, Nature 415:530（2002）； Perouらの論文, Nature 406：747（2000）； Gruvbergerらの論文, Cancer Res. 61:5979（2001）。本発明者らの以前の分析において、2500個までの遺伝子が腫瘍におけるER発現レベルと有意に相関されているvan't Veerらの論文, Nature 415:530（2002）。以前に定義された閾値によれば（van de Vijverらの論文, N. Engl J. Med. 347：1999（2002））、試料は、アレイ上のオリゴプローブ（アクセッション番号：NM_000125）によって測定されるエストロゲン受容体レベルに従って、最初に2群に分けられ；log（比）＞-0.65である試料は、ER+群に属し、その他は、ER^-群に属する）。これにより、239個のER+群の試料及び72個のER^-群の試料が生じた。

ER+分枝において、本発明者らは、年齢の関数としてER発現レベルを示すときに、少なくとも2つの部分群が存在するように見えることを観察した。（一般に、臨床データにおけるいずれの二峰性も有用である。）したがって、本発明者らは、この二峰性に従って腫瘍を層別化することに決めた（図2を参照されたい）。高いER／AGE比を有するER+患者群は、「ER／AGE高」群（83試料）と命名し、残りの患者群を「ER／AGE低」群（156試料）と命名した。

「ER／AGE高」群内では、本発明者らは、結果と高度に相関される一群の予後リポーター遺伝子を同定した（表3を参照されたい）。さらに、これらの遺伝子の発現は、これらの遺伝子間の発現の高い類似性によって示されるように、非常に均一に見えた。図2Aを参照されたい。Leave-one-outクロス確認法には、14.6のオッズ比（95%CI：4.7-45.4）及び24.0の5年のオッズ比（95%CI：6.0- 95.5）を生じたリポーター選択を含む。これらのリポーター遺伝子の検査により、これらは、大部分が結果不良の腫瘍に高度に発現される細胞周期遺伝子であることが明らかになる。この群には、LN+及びLN-個体を含むが、治療を混合した場合であっても、遠隔転移の発病率は、遺伝子の生物学的に一様なセットによって予測され、おそらく増殖が疾患進行のための主要な推進力であることを示す点は注目に値する。また、これらの遺伝子の変異が、その他の腫瘍部分群において観察される場合であっても、これは、一般にこれらの設定における結果と相関されない（下記を参照されたい）。

「ER／AGE低」群では、全ての群において予測的パターンが見いだされず；したがって、試料をLN-（「ER／AGE低LN^-」と呼ばれる81試料）及びLN+（「ER／AGE低LN+」と呼ばれる75試料）群にさらに層別化した。「ER／AGE低LN^-」群内では、一様に同時制御された一群の遺伝子が同定され、これらは、結果と相関された。Leave-one-out クロス確認法（属性選択を含む）では、21.4のオッズ比（95%のCI：6.0-76.5）及び29.2の5年のオッズ比（95%のCI：6.7-126.3）を得た。また、この遺伝子群を個々の生物学的機能について濃縮する（下記を参照されたい）。

「ER／AGE低LN+」サブセットについては、低ERレベルである老齢個体由来のいくつかの試料を排除した後、遺伝子の情報価値のあるセットが得られた（表4を参照されたい）。これらの試料は、破線の下で虚偽のものとして、図2Aに示してある（ER＜0.1*（年齢-50）として近似される）。排除後に、56試料が残った。この試料セットにより、予後のために有用な高度に均一なパターンをもつ一群の遺伝子を同定することができた（全体のオッズ比：11.4（2.5-50.9）、5年のオッズ比：15.0（2.6-87.6））。これは、ER対年齢が乳癌患者を層別化するための重要な組み合わせであることを再び示唆する。また、この分類子に含まれるリポーター遺伝子は、リンパ性浸潤の程度の臨床測定値とも相関される（データ示さず）。この群における予測は、その他のポジティブ群ほど強力ではなく、これは、原発腫瘍がこの群の患者に関する転移についてより弱い情報を有し、転移は、すでにリンパ節における腫瘍から開始し、又は主要による影響を受けるであろうことを示し得る。

ER^-分枝では、一部の試料が「BRCA1様」であるので、試料を「BRCA1様」及び「散発性様」に分けるのが当然である。分類を行うために、ER^-コホート試料を分離するために、BRCA1／散発性腫瘍型分類子がRobertsらの論文, "Diagnosis and Prognosis of Breast Cancer Patients,"国際公開番号WO02/103320に記述されており、その全体が引用により本明細書に組み込まれる。72個のER^-試料のうちの52個が、「散発性様」であることが見いだされ、20個は、「BRCA1様」であることが見いだされた。面白いことに、「散発性様」群は、erbb2突然変異について濃縮されている（データ示さず）。

「ER^-、散発性」群内では、均一な予後パターンは同定されなかったが；しかし、腫瘍結果で高度に予測的である20個の遺伝子が同定された（表2を参照されたい）。属性選択を含むLeave-one-outクロス確認法では、7.4（95%のCI 2.2-25.0）のオッズ比及び5年のオッズ比9.6（2.5 -37.6）を得た。この結果は、ER^-患者サブセットについて群内で予後力を有さない以前に同定された70個の遺伝子予後分類子と比較して、予後における有意な改善を表す（Robertsらの論文, 国際公開番号WO02/103320；van t Veerらの論文, Nature 415：530（2002）を参照されたい）。20個の遺伝子が結果を予測し、及びこの群における均一な（及び明らかな生物学的）パターンがないという事実は、おそらくこの群に複数の転移機構があることを示す。遺伝子注釈は、含まれる遺伝子が浸潤、エネルギー代謝及びその他の機能に関与し得ることを示す。

「ER^-、BRCA1様」群については、本発明者らは、試料の組数を増加させるために、本発明者らの以前の研究から14個のBRCA1突然変異保因者試料を追加した。また、これらの14個の余分の試料は、本発明者らの選択基準：ERネガティブ及び55歳未満の年齢を満たす。leave-one-outクロス確認法により、最終結果を予測する10個の遺伝子を同定した。全体のオッズ比は、14.7（95%のCI：2.3-92.1）でり、5年のオッズ比は、24.0（95%のCI：2.0-282.7）である。 ER^-分枝では、均一な遺伝子発現パターンが見いだされなかったので、これらの遺伝子の予測力をさらに確認した。さらなる確認の1つの手段は、生物学的解釈ついて種々の分類子遺伝子セットを再調査し、腫瘍の起源と同じ指標を示したそれぞれの分類子内の遺伝子を同定することであった。

「ER+、ER／AGE高」群では、G1／S及びG2／M期の両方を代表する細胞周期遺伝子が高度に濃縮された分類子を得た。この群において、50個の遺伝子のうちの46個の過剰発現は、全ての公知の細胞周期遺伝子に関与する疾患進行と関連する。これは、転移可能性の決定因子である迅速な増殖と一致する。この分類子の4つの遺伝子は、結果及び細胞周期と反相関している。これらの遺伝子の１つは、アクチビン及びTGFβファミリーのその他のメンバーと結合して、阻害するフォリスタチンをコードし（Linらの論文, Reproduction 126：133（2003）、そのメンバーは、成長促進を含む多くの機能を有する。腫瘍等級も、この群における転移可能性を正確に予測し（全体のオッズ比：5.9、95% CI：2.0-18.0、5年のオッズ比：12.5、95% CI：2.6-59.3）、また、これらの遺伝子の発現レベルと相関し、疾患進行の主要決定因子である成長率と一致する。この遺伝子のセットは、同調的かつ同じような可変性の発現が見られる場合であっても、その他の患者サブセットの結果とかなり低い相関しか有さない。たとえば、「ER^-、散発性」群における多くの腫瘍は、高い細胞周期及び低FST発現を有するが、これらの群におけるこれらの遺伝子の発現は、最小限しか結果と相関されず、増殖がここでの結果の主要決定因子ではないことを示す（図8A及び8Bを参照されたい）。

ER+、ER／AGE低、LN^-群では、糖分解酵素（56のうちの12）のための遺伝子及び低酸素及び／又は血管形成（56のうちの14）によって誘導される遺伝子の両方がリッチな分類子を得て、5つの遺伝子が両方のカテゴリーに分類された。これらの遺伝子は、結果不良のとポジティブに相関され、エネルギー代謝（解糖）血管形成及び低酸素に対する適応は、この腫瘍の部分群における重要な経路であることを暗示している。これらの遺伝子のいずれも、その他の患者サブセットのために分類子ではないと思われ、同調的かつ同じような可変性の発現が見られる場合であっても、その他の腫瘍におけるこれらの遺伝子の予測値が非常に減少した（図8C及び8Dを参照されたい）。

上記分析の意味は、一定の周知の機能（増殖、血管形成、エネルギー代謝）が、一定の腫瘍型において重要であり、その他では重要ではなく、したがってこれらの機能をターゲットする療法は、いくつかの腫瘍部分群でも同じように有効である可能性が高く、その他では高くないであろう。たとえば、タキソール又はビンカアルカロイドなどの標的細胞周期進行をターゲットする療法は、ER+、ER／AGE高群において至適に有効であろうし、細胞周期遺伝子の過剰発現が分類子において優勢である。対照的に、細胞周期発現における変異が結果と相関されない腫瘍部分群は、タキソール又はビンカアルカロイドに対してあまり感受性ではないであろう。

「包括的予後」アプローチは、70個の遺伝子分類子と比較したときに、予測エラー発生率を大幅に改善させる（表7）。比較フェアを作製するために、本発明者らは、70個の遺伝子分類子からの結果の2つのセットを列記した。同じ閾値の使用からの第1の結果を全ての患者サブセットに適用し（偽陰性率について以前に最適化した閾値）；第2のものを、それぞれの患者サブセットのために最適化した閾値の使用により生じる（平均エラー発生率について最適化した）。包括的アプローチは、少なくとも6%にまでエラー発生率を低下させた。

。

（6.2. 実施例2）：乳癌患者における化学療法応答部分集団の同定
治療に対する応答を予測することは、正しい医薬を選択するために、日々の臨床療法において極めて重要である。また、有効性について正しい集団をターゲットするための新たな医薬に対する臨床試験を行う製薬会社とっても重要である。この実施例は、臨床パラメーターを遺伝子発現予測と組み合わせることによって、「ER／AGE低」及び「不良サイン」の特徴をもつ患者の亜集団では、化学療法治療に対する反応が増強されることを示す。一方、不良サインをもつが、化学療法に反応しない患者は、新たな抗癌医薬の臨床試験のための潜在的標的である。

（序論）
遺伝子発現を使用して乳癌結果を予測することができる。化学療法の過剰治療を回避するために、結果良好の患者を同定するために使用することができる「70個の遺伝子」分類子が示された（表8を参照されたい）（van't Veer LJ, Dai H, van de Vijver MJ,らの論文, 『遺伝子発現プロファイリングは乳癌の臨床結果を予測する』, Nature 2002； 415: 530- 536）。この分類子は、試料の大きなコホートによって検証された（van de Vijver MJ, He YD, van't Veer LJ,らの論文, 『乳癌における生存の予測因子としての遺伝子発現サイン』, N Engl J Med 2002； 347: 1999-2009）。また、結果は、「良好と予想された」群の患者は、すでに非常に良好であり、追加の治療によってさらに改善しなくてもよいので、「不良と予想された」群内で治療効果がより有意であることを示す。

最近では、ER+患者を亜集団にさらに分けることができることが証明された。細胞増殖サインは、彼らの年齢（「ER／AGE高」群と称される）と比較してエストロゲン受容体レベルが高いことによって特徴づけられる一団の患者において、非常に強力な予後力を有するが、「ER／AGE低」群では予測力が減少し、ER^-患者では、予測力がなかった（2004年3月5日に出願されたDaiらの論文, による米国仮特許出願第60/550,810号、弁護士事件記録番号9301-229-888号、これは参照によりその全体が援用される）。

（データセット）
311人の乳癌試料のコホートを使用した（van't Veer LJ, Dai H, van de Vijver MJ,らの論文, 『遺伝子発現プロファイリングは乳癌の臨床結果を予測する』, Nature 2002； 415: 530-536； van de Vijver MJ, He YD, van't Veer LJ,らの論文, 『乳癌における生存の予測因子としての遺伝子発現サイン』, N Engl J Med 2002； 347: 1999-2009）。これらの試料は、癌診断時に55歳よりも若い患者に由来した。彼らのうち、110人の患者が化学療法を受けた。
（結果）
以下の節は、臨床パラメーターに基づいた患者の層別化とマイクロアレイ予測を組み合わせることにより、化学療法治療反応が増強された乳癌患者の亜集団を同定することができることを示す。
治療反応は、治療された患者と未治療者との間で、診断後の10年に転移のない確率の改善によって測定した。

（化学療法では、55歳未満の乳癌患者における効果が限定された）
患者の全てのセットについて、診断後の時間の関数として（Kaplan-Meierプロット）、転移のない確率を図9に示してある。患者は、彼らが化学療法を受けたか否かに従って2群に分けた。55歳よりも若い311人の患者の全てのセット内で、110人が化学療法を受けた。治療効果は、非常に小さく、10年間転移のない確率の相違は、〜3%だけである。

（「70個の遺伝子」予後分類子は、治療効果を増強する）
「70個の遺伝子」予後分類子（表8）の目的は、患者が「良好サイン」を有する場合に、不必要な化学療法から救うことであった。言い換えると、彼らが潜在的に非常に結果良好である場合、予後良好患者群の患者にはさらなる利益はないであろう。それ故、「不良と予想された」群は、潜在的に利益を受けることができるであろうから、彼らに治療がなされるべきである。図10の結果は、本アイデアを確証させる。図10aは、「良好と予想された」群の治療効果を示す。本群は、相関＞0.5である、70個の遺伝子マーカーセット（表1の列C1）によって定まる「結果良好の患者の平均発現」に対して高い相関によって選択した。84人の患者がこの群内にあり、44人が化学療法を受けた。治療により、転移率を減少させるのに全くポジティブ効果を示さなかった。

しかし、「不良サイン」をもつ患者は、図9と比較して、改善された治療反応を示す（図10b）。226人の「不良サイン」（相関＜0.5）患者がおり、81人が化学療法を受けた。これらの化学療法を受けた患者についての10年転移のない確率は、そうしなかった患者よりも9%高い。この実施例では「不良サイン」患者を選択するために、相関における0.5の閾値を使用した。この閾値は、さらなる層別化のためにできる限り多くの「不良と予想された」群の患者を保持する目的で、以前に使用された0.4の閾値がよりも高い（van't Veer LJ, Dai H, van de Vijver MJ,らの論文, 『遺伝子発現プロファイリングは乳癌の臨床結果を予測する』, Nature 2002； 415: 530-536； van de Vijver MJ, He YD, van't Veer LJ,らの論文, 『乳癌における生存の予測因子としての遺伝子発現サイン』, N Engl J Med 2002； 347: 1999-2009）。結果は、0.4の本来の閾値を使用した場合も、非常に類似した。

（ER+患者に限定すると、追加の治療反応を増す）
ポジティブエストロゲン受容体状態（ER+）である乳癌患者は、ネガティブ状態（ER-）でのものとは特徴的に異なる遺伝子発現パターンを有する。「70個の遺伝子」分類子は、ER+患者において良好な予後力を有するが、ER-患者では、ほとんど予後力を有さない（ほとんど全てのER-患者は、結果不良であると予想された）。

また、治療効果は、ER+「不良サイン」患者よりも、ER-患者に関して非常に異なる。図11aに示したように、ER-群では、治療患者と未処置患者との間に転移率の差がない。ER+「不良サイン」をもつ患者についての治療効果（図11b）は、図10bと比較したときに、さらに増加する。この群には155人の患者がおり、60人が化学療法を受けた。治療により患者に対して10年転移のない確率は、治療のないものよりも14%高い。

（「ER／AGE高」群は、化学療法治療のために理想的である）
最近、ER+患者は、診断時の年齢と比較して、彼らのERレベルに従って2群にさらに分けることができることを発見した。図12に示したように、彼らの年齢に対して相対的に高いERレベル患者は、「ER／AGE高」群と称され、彼らの年齢に対して相対的に低いERレベル患者は「ER／AGE低」群と称される。「ER／AGE高」群は、「ER／AGE低」群と比較して、比較的結果不良であるが、「ER／AGE高」群における結果は、細胞増殖遺伝子によって正確に予想することができる。同じ遺伝子のセットでも、「ER／AGE低」群では予後力が減少する。図13に示したように、化学療法は、「不良サイン」をもつ「ER／AGE高」群の患者においてほとんど効果を有さない。この群を除外することにより、「ER／AGE低」群においてさらに改善された効果を生じた。「ER／AGE低」群には、101人の「不良サイン」患者がおり、39人が化学療法を受けた。治療により患者に対して10年転移のない確率の差は、20%である。

要約すると、予後サイン及び臨床パラメーター（ER及び年齢）によって定義される「非反応性の」患者群を順次除外することによって、3%〜20%（表9）まで治療効果（診断10年後にて転移のない確率が増大したことによって報告されるもの）を改善することができる。おおよそ、55歳よりも若い患者については、約1/3が治療を必要としない患者（「良好サイン」）であり、約1/3の患者が、化学療法（ER-及び「ER／AGE高」）に反応せず、約1/3の患者は、化学療法（「ER／AGE低」）で治療されるべきである「応答者」である。

。

（7.引用文献）
本明細書に引用した全ての参考文献は、引用によりその全体が、及びが全ての目的のために、あたかも個々の刊行物又は特許若しくは特許出願が具体的かつ個々にその全体が全ての目的のために引用により組み込まれることが示されたのと同じ範囲で、本明細書に組み込まれる。
当業者に明白であるように、本発明の多くの修正変更をその趣旨及び範囲から逸脱することなく、行うことができる。本明細書に記述した具体的実施態様は、例示のみの目的で提供され、及び本発明は、権利が与えられるこれらのような請求項の同等物の全範囲を伴う、添付の特許請求の範囲の用語のみにより限定されるべきである。

5人の患者サブセットにおいて、情報価値のある予後関連遺伝子を同定するために使用して得られた決定樹を示す。 ERレベルと年齢と間の関係を示す。（A）ER+患者についてのER対年齢の散布点。黒点は転移がない試料を示し、灰点は転移試料を示す。ER+群の患者は、「ER+、ER／AGE高」群（黒線の上）及び「ER+、ER／AGE低」群（黒線の下）に細分することができると思われる。黒線は、ER = 0.1 *（AGE-42.5）に近く、破線は、ER=0.1*（年齢-50）に近かった。それぞれの集団内おいても、ERレベルは、年齢と共に増加する。（B）ER+試料における全ての患者の年齢構成。二峰性分布が観察される。（C）ER+試料における全ての患者における、ER調節した年齢（年齢-10*）分布。二峰性分布が観察される。（D）転移のある試料の年齢構成。（E）転移のある試料のERで調整した年齢構成。この分布に現れる3つのピークは、多型を示唆する。

「ER-/散発性」群のための分類子の性能。（A）分類子に使用したリポーター遺伝子の数の関数としての、疾患結果を予測するためのleave-one-outクロス確認法（LOOCV）から得られるエラー発生率。（B）良好群（X軸）に対する相関と不良群（Y軸）に対する相関との間の散布点。円は、転移なし試料を示し、正方形は、転移のある試料を示す。破線：良好のものから不良のものを分けるための閾値。（C）結果良好群（結果不良と誤分類された結果良好を結果良好の総数で割ったもの）若しくは結果不良群（結果良好と誤分類された結果不良を結果不良の総数で割ったもの）又は2つの割合の平均に関して、エラー発生率を算出した。

「ER+、ER／AGE高」群のための分類子の性能。（A）分類子に使用したリポーター遺伝子の数の関数としての、疾患結果を予測するためのleave-one-outクロス確認法（LOOCV）から得られるエラー発生率。（B）良好群（X軸）に対する相関と不良群（Y軸）に対する相関との間の散布点。円は、転移なし試料を示し、正方形は、転移のある試料を示す。破線：良好のものから不良のものを分けるための閾値。（C）結果良好群（結果不良と誤分類された結果良好を結果良好の総数で割ったもの）若しくは結果不良群（結果良好と誤分類された結果不良を結果不良の総数で割ったもの）又は2つの割合の平均に関して、エラー発生率を算出した。

「ER+、ER／AGE低／LN^-」群のための分類子の性能。（A）分類子に使用したリポーター遺伝子の数の関数としての、疾患結果を予測するためのleave-one-outクロス確認法（LOOCV）から得られるエラー発生率。（B）良好群（X軸）に対する相関と不良群（Y軸）に対する相関との間の散布点。円は、転移なし試料を示し、正方形は、転移のある試料を示す。破線：良好のものから不良のものを分けるための閾値。（C）結果良好群（結果不良と誤分類された結果良好を結果良好の総数で割ったもの）若しくは結果不良群（結果良好と誤分類された結果不良を結果不良の総数で割ったもの）又は2つの割合の平均に関して、エラー発生率を算出した。

「ER+、ER／AGE低／LN+」群のための分類子の性能。（A）分類子に使用したリポーター遺伝子の数の関数としての、疾患結果を予測するためのleave-one-outクロス確認法（LOOCV）から得られるエラー発生率。（B）良好群（X軸）に対する相関と不良群（Y軸）に対する相関との間の散布点。円は、転移なし試料を示し、正方形は、転移のある試料を示す。破線：良好のものから不良のものを分けるための閾値。（C）結果良好群（結果不良と誤分類された結果良好を結果良好の総数で割ったもの）若しくは結果不良群（結果良好と誤分類された結果不良を結果不良の総数で割ったもの）又は2つの割合の平均に関して、エラー発生率を算出した。

「ER-、BRCA1」群のための分類子の性能。（A）分類子に使用したリポーター遺伝子の数の関数としての、疾患結果を予測するためのleave-one-outクロス確認法（LOOCV）から得られるエラー発生率。（B）良好群（X軸）に対する相関と不良群（Y軸）に対する相関との間の散布点。円は、転移なし試料を示し、正方形は、転移のある試料を示す。破線：良好のものから不良のものを分けるための閾値。（C）結果良好群（結果不良と誤分類された結果良好を結果良好の総数で割ったもの）若しくは結果不良群（結果良好と誤分類された結果不良を結果不良の総数で割ったもの）又は2つの割合の平均に関して、エラー発生率を算出した。

患者の部分群における重要な生物学的機能を表す遺伝子のヒートマップ：A：細胞周期遺伝子は、ER／AGEが高い患者の結果において予測的である。B：細胞周期遺伝子は、「ER-及び散発性」である患者の結果において予測的でない。C：解糖遺伝子は、ER／AGE低及びLN-の患者の結果において予測的である。D：解糖遺伝子は、「ER-及びBRCA1」患者の結果において予測的でない。化学療法の有無での、55歳より若い乳癌患者の全てのセットについて転移がない確率。（a）「70遺伝子」分類子によって「良好の特徴」をもつと予測された患者、及び（b）「不良特徴」をもつ患者における化学療法の効果を示す。

「不良特徴」をもつ（a）ER-患者及び（b）ER+患者における化学療法の効果を示す。 ER+患者は、診断時の患者の年齢に関連する、彼らのER発現レベルによって「ER／AGE高」（線より上）及び「ER／AGE低」（線より下の）群に分けられる。ER発現レベルは、遺伝子発現アレイによって測定される。制御チャンネルは、全ての乳癌試料のプールである。線は、y=0.1*（x-42.5）として表してある。（a）「ER／AGE高」群及び（b）「ER／AGE低」群の「不良特徴」患者における化学療法の効果を示す。

Claims

以下の1つ以上に基づいて化学療法に対する乳癌患者の反応性を予測するための方法であって：（i）前記患者に由来する試料における複数の細胞成分の測定値を含む細胞成分プロフィール；（ii）ERレベルであって、前記ERレベルは、前記患者に由来する試料におけるエストロゲン受容体転写物又はエストロゲン受容体タンパク質のレベルであり、ER⁺は高ERレベルを示し、かつER^-は低ERレベルを示す、前記ERレベル；及び（iii）ER／AGEであって、前記患者の年齢と関連する前記ERレベルの測定規準である、前記ER／AGE；
前記方法は、前記患者が、
（a）前記細胞成分プロフィールが予後不良プロフィールであり、かつ前記ERレベルがER⁺であり、かつ前記ER／AGEが低い場合に、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の増強か；又は、
（b）（i）前記ERレベルがER^-であるか、若しくは（ii）前記細胞成分プロフィールが予後不良プロフィールであり、かつ前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の減少；
を示すことを予測することを含み、
前記細胞成分プロフィールが予後良好テンプレートに対して低い類似性を有するか、又は予後不良テンプレートに対して高い類似性を有する場合に、前記細胞成分プロフィールは、予後不良プロフィールとして分類され、前記予後良好テンプレートには、複数の結果良好の患者における前記細胞成分レベルを表す前記複数の細胞成分の測定値を含み、かつ前記予後不良テンプレートには、複数の結果不良の患者における前記細胞成分レベルの前記複数の細胞成分を表す測定値を含み、結果良好の患者は、初診後の第一期間内に転移の発生がない乳癌患者であり、かつ結果不良の患者は、初診後の第二期間内に転移の発生がある患者である、前記方法。
前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが低い場合に、前記患者が、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の増強を示すことを予測することを含む、請求項1記載の方法。
前記ERレベルがER^-である場合に、前記患者が、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の減少を示すことを予測することを含む、請求項1記載の方法。
前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、前記患者が、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の減少を示すことを予測することを含む、請求項1記載の方法。
前記細胞成分プロフィール、前記ERレベル及び／又は前記ER／AGEを決定することをさらに含む、請求項1記載の方法。
前記細胞成分プロフィールには、前記患者に由来する試料における複数の転写物の測定値を含み、前記予後良好テンプレートには、前記複数の結果良好の患者における前記転写物の発現レベルを表す前記複数の転写物の測定値を含み、及び前記予後不良テンプレートには、前記複数の結果不良の患者における前記転写物の発現レベルを表す前記複数の転写物の測定値を含む、請求項5記載の方法。
前記細胞成分プロフィールが、対照試料における前記複数の転写物の測定値に対する、前記患者に由来する前記試料における前記複数の転写物の示差的測定値を含む示差的発現プロフィールである、請求項6記載の方法。
前記細胞成分プロフィールには、前記患者に由来する試料における複数のタンパク質種の測定値を含み、前記予後良好テンプレートには、前記複数の結果良好の患者における前記タンパク質種のレベルを表す前記複数のタンパク質種の測定値を含み、及び前記予後不良テンプレートには、前記複数の結果不良の患者における前記タンパク質種のレベルを表す前記複数のタンパク質種の測定値を含む、請求項1記載の方法。
前記予後良好テンプレートにおけるそれぞれの前記転写物の測定値は、前記複数の結果良好の患者における前記転写物の発現レベルの平均である、請求項7記載の方法。
前記予後良好テンプレートに対する前記細胞成分プロフィールの類似性は、前記細胞成分プロフィールと前記予後良好テンプレートとの間の相関係数によって表され、相関閾値よりも大きい前記相関係数は高い類似性を示し、前記相関閾値以下の前記相関係数は低い類似性を示す、請求項9記載の方法。
前記予後良好テンプレートに対する前記細胞成分プロフィールの類似性は、前記細胞成分プロフィールと前記予後良好テンプレートとの間の距離によって表され、所与の値未満の前記距離は高い類似性を示し、前記所与の値以上の前記距離は低い類似性を示す、請求項9記載の方法。
前記相関閾値が0.5である、請求項10記載の方法。
前記ERレベルは、前記患者の前記エストロゲン受容体をコードする遺伝子の発現レベルを、前記対照試料における前記遺伝子の発現レベルと比較して測定することで決定され、前記ERレベルは、前記発現レベルのlog10（比）が-0.65を上回る場合にER⁺として分類され、かつ前記ERレベルは、前記発現レベルのlog10（比）が-0.65以下である場合にER^-として分類される、請求項12記載の方法。
前記エストロゲン受容体をコードする前記遺伝子がエストロゲン受容体α遺伝子である、請求項13記載の方法。
前記ER／AGEは、log10（比）によって測定される前記ERレベルがc・（AGE-d）を上回る場合に、高いとして分類され、前記ER／AGEは、前記ERレベルがc・（AGE-d）以下である場合に、低いとして分類され、式中cは係数であり、AGEは前記患者の年齢であり、かつdは年齢閾値である、請求項14記載の方法。
前記エストロゲン受容体レベルは、アクセッション番号NM_000125を有する遺伝子に対応する転写物を検出するオリゴヌクレオチドプローブによって測定され、前記対照試料は、種々の患者の乳癌細胞のプールであり、式中c = 0.1及びd= 42.5である、請求項15記載の方法。
前記対照試料が、複数の乳癌患者由来の前記複数の転写物のcDNAと共にプールすることによって作製される、請求項16記載の方法。
前記対照試料が、前記複数の転写物の合成cDNA及び前記エストロゲン受容体をコードする前記遺伝子の前記転写物の合成cDNAを共にプールすることによって作製される、請求項16記載の方法。
前記複数の転写物が、少なくとも表8に収載された遺伝子のセットの少なくとも一部に対応する転写物からなる、請求項17記載の方法。
前記複数の転写物が、表8に収載された遺伝子に対応する全ての転写物からなる、請求項19記載の方法。
前記示差的測定が、xdev、log（比）、エラー加重log（比）、及び平均除去log（強度）からなる群より選択される、請求項20記載の方法。
前記第一期間は10年であり、前記第二期間は10年である、請求項21記載の方法。
前記患者は、55歳未満であり、それぞれの前記結果良好の患者及びそれぞれの前記結果不良の患者は、乳癌診断時に55歳未満である、請求項22記載の方法。
以下の1つ以上に基づいて乳癌を治療するための薬物の臨床試験の登録のための患者を選択するための方法であって：（i）前記患者に由来する試料における複数の細胞成分の測定値を含む細胞成分プロフィール；（ii）ERレベルであって、前記ERレベルは、前記患者に由来する試料におけるエストロゲン受容体転写物又はエストロゲン受容体タンパク質のレベルであり、ER⁺は高ERレベルを示し、かつER^-は低ERレベルを示す、前記ERレベル；及び（iii）ER／AGEであって、前記患者の年齢と関連する前記ERレベルの測定規準である、前記ER／AGE；
前記方法は、（a）前記ERレベルがER^-であるか；又は（b）前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、前記臨床試験に含めるための患者を選択することを含み；
前記細胞成分プロフィールが、予後良好テンプレートに対して低い類似性を有するか、又は予後不良テンプレートに対して高い類似性を有する場合に、前記細胞成分プロフィールは予後不良プロフィールとして分類され、前記予後良好テンプレートには、複数の結果良好の患者における前記細胞成分レベルを表す前記複数の細胞成分の測定値を含み、かつ前記予後不良テンプレートには、複数の結果不良の患者における前記細胞成分レベルの前記複数の細胞成分を表す測定値を含み、結果良好の患者は、初診後の第一期間内に転移の発生がない乳癌患者であり、かつ結果不良の患者は、初診後の第二期間内に転移の発生がある乳癌患者である、前記方法。
前記ERレベルがER^-である場合に、前記臨床試験に含めるための患者を選択することを含む、請求項24記載の方法。
前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、前記臨床試験に含めるための患者を選択することを含む、請求項24記載の方法。
前記細胞成分プロフィール、前記ERレベル及び／又は前記ER／AGEを決定することをさらに含む、請求項24記載の方法。
前記細胞成分プロフィールには、前記患者に由来する試料における複数の転写物の測定値を含み、前記予後良好テンプレートには、前記複数の結果良好の患者における前記転写物の発現レベルを表す前記複数の転写物の測定値を含み、及び前記予後不良テンプレートには、前記複数の結果不良の患者における前記転写物の発現レベルを表す前記複数の転写物の測定値を含む、請求項27記載の方法。
前記細胞成分プロフィールは、対照試料における前記複数の転写物の測定値に対する、前記患者に由来する前記試料における前記複数の転写物の示差的測定値を含む示差的発現プロフィールである、請求項28記載の方法。
前記細胞成分プロフィールには、前記患者に由来する試料における複数のタンパク質種の測定値を含み、前記予後良好テンプレートには、前記複数の結果良好の患者における前記タンパク質種のレベルを表す前記複数のタンパク質種の測定値を含み、及び前記予後不良テンプレートには、前記複数の結果不良の患者における前記タンパク質種のレベルを表す前記複数のタンパク質種の測定値を含む、請求項24記載の方法記載の方法。
前記予後良好テンプレートにおけるそれぞれの前記転写物の測定値は、前記複数の結果良好の患者における前記転写物の発現レベルの平均である、請求項29記載の方法。
前記予後良好テンプレートに対する前記細胞成分プロフィールの類似性は、前記細胞成分プロフィールと前記予後良好テンプレートとの間の相関係数によって表され、相関閾値よりも大きい前記相関係数は高い類似性を示し、前記相関閾値以下の前記相関係数は低い類似性を示す、請求項31記載の方法。
前記予後良好テンプレートに対する前記細胞成分プロフィールの類似性は、前記細胞成分プロフィールと前記予後良好テンプレートとの間の距離によって表され、所与の値未満の前記距離は高い類似性を示し、前記所与の値以上の前記距離は低い類似性を示す、請求項31記載の方法。
前記相関閾値が0.5である、請求項32記載の方法。
前記ERレベルは、前記患者の前記エストロゲン受容体をコードする遺伝子の発現レベルを、前記対照試料における前記遺伝子の発現レベルと比較して測定することで決定され、前記ERレベルは、前記発現レベルのlog10（比）が-0.65を上回る場合に、ER⁺として分類され、かつ前記ERレベルは、前記発現レベルのlog10（比）が-0.65以下である場合に、ER^-として分類される、請求項34記載の方法。
前記エストロゲン受容体をコードする前記遺伝子がエストロゲン受容体α遺伝子である、請求項35記載の方法。
前記ER／AGEは、前記ERレベルがc・（AGE-d）を上回る場合に高いとして分類され、前記ER／AGEは、前記ERレベルがc・（AGE-d）以下である場合に低いとして分類され、式中cは係数であり、AGEは前記患者の年齢であり、かつdは年齢閾値である、請求項36記載の方法。
前記エストロゲン受容体レベルは、アクセッション番号NM_000125を有する遺伝子に対応する転写物を検出するオリゴヌクレオチドプローブによって測定され、前記対照試料は乳癌細胞のプールであり、式中c = 0.1及びd= 42.5である、請求項37記載の方法。
前記対照試料が、複数の乳癌患者由来の前記複数の転写物のcDNAと共にプールすることによって作製される、請求項38記載の方法。
前記対照試料が、前記複数の転写物の合成cDNA及び前記エストロゲン受容体をコードする前記遺伝子に対応する前記転写物の合成cDNAを共にプールすることによって作製される、請求項38記載の方法。
前記複数の転写物が、少なくとも表8に収載された遺伝子のセットの少なくとも一部に対応する転写物からなる、請求項39記載の方法。
前記複数の遺伝子が、表8に収載された遺伝子に対応する全ての転写物からなる、請求項41記載の方法。
前記示差的測定が、xdev、log（比）、エラー加重log（比）、及び平均除去log（強度）からなる群より選択される、請求項42記載の方法。
前記第一期間は10年であり、前記第二期間は10年である、請求項43記載の方法。
前記患者は55歳未満であり、それぞれの前記結果良好の患者及びそれぞれの結果不良の患者は、乳癌診断時に55歳未満である、請求項44記載の方法。
以下の1つ以上に基づいて化学療法に対して良好又は不良な候補として乳癌患者を同定するための方法であって：（i）前記患者に由来する試料における複数の細胞成分の測定値を含む細胞成分プロフィール；（ii）ERレベルであって、前記ERレベルは、前記患者に由来する試料におけるエストロゲン受容体転写物又はエストロゲン受容体タンパク質のレベルであり、ER⁺は高ERレベルを示し、かつER^-は低ERレベルを示す、前記ERレベル；及び（iii）ER／AGEであって、前記患者の年齢と関連する前記ERレベルの測定規準である、前記ER／AGE；
前記方法が：
（a）前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが低いかどうかを決定する工程であって、前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが低い場合に、前記乳癌患者は、化学療法の良好な候補として同定される、前記工程；又は、
（b）前記ERレベルがER^-であるかどうかを決定する工程であって、前記ERレベルがER^-である場合に、前記乳癌患者は、化学療法に対して不良な候補として同定される、前記工程；又は、
（c）前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高いかどうかを決定する工程であって、前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、前記乳癌患者は、化学療法に関する不良な候補として同定される、前記工程；
を含む、前記方法。
前記方法は、前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが低いかどうか決定することを含み、ここで前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが低い場合に、前記乳癌患者は、化学療法の良好な候補として同定される、請求項46記載の方法。
前記方法は、前記ERレベルがER^-であるかどうかを決定することを含み、前記ERレベルがER^-である場合に、前記乳癌患者は、化学療法に関する不良な候補として同定される、請求項46記載の方法。
前記方法は、前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高いかどうか決定することを含み、ここで前記細胞成分プロフィールが予後不良プロフィールであり、前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合、前記乳癌患者は、化学療法に関する不良な候補として同定される、請求項46記載の方法。
前記細胞成分プロフィール、前記ERレベル及び／又は前記ER／AGEを決定することをさらに含む、請求項46記載の方法。
前記細胞成分プロフィールには、前記患者に由来する試料における複数の転写物の測定値を含み、前記予後良好テンプレートには、前記複数の結果良好の患者における前記転写物の発現レベルを表す前記複数の転写物の測定値を含み、及び前記予後不良テンプレートには、前記複数の結果不良の患者における前記転写物の発現レベルを表す前記複数の転写物の測定値を含む、請求項50記載の方法。
前記細胞成分プロフィールは、対照試料における前記複数の転写物の測定値に対する、前記患者に由来する前記試料における前記複数の転写物の示差的測定値を含む示差的発現プロフィールである、請求項51記載の方法。
前記細胞成分プロフィールには、前記患者に由来する試料における複数のタンパク質種の測定値を含み、ここで前記予後良好テンプレートには、前記複数の結果良好の患者における前記タンパク質種のレベルを表す前記複数のタンパク質種の測定値を含み、及び前記予後不良テンプレートには、前記複数の結果不良の患者における前記タンパク質種のレベルを表す前記複数のタンパク質種の測定値を含む、請求項50記載の方法。
前記予後良好テンプレートにおけるそれぞれの前記転写物の測定値は、前記複数の結果良好の患者における前記転写物の発現レベルの平均である、請求項52記載の方法。
前記予後良好テンプレートに対する前記細胞成分プロフィールの類似性は、前記細胞成分プロフィールと前記予後良好テンプレートとの間の相関係数によって表され、相関閾値よりも大きい前記相関係数は高い類似性を示し、前記相関閾値以下の前記相関係数は低い類似性を示す、請求項54記載の方法。
前記予後良好テンプレートに対する前記細胞成分プロフィールの類似性は、前記細胞成分プロフィールと前記予後良好テンプレートとの間の距離によって表され、所与の値未満の前記距離は高い類似性を示し、前記所与の値を上回る前記距離は低い類似性を示す、請求項55記載の方法。
前記相関閾値が0.5である、請求項56記載の方法。
前記ERレベルは、前記患者の前記エストロゲン受容体をコードする遺伝子の発現レベルを、前記対照試料における前記遺伝子の発現レベルと比較して測定することで決定され、前記ERレベルは、前記発現レベルのlog10（比）が-0.65を上回る場合にER⁺として分類され、かつ前記ERレベルは、前記発現レベルのlog10（比）が-0.65以下である場合にER^-として分類される、請求項57記載の方法。
前記エストロゲン受容体をコードする前記遺伝子がエストロゲン受容体α遺伝子である、請求項58記載の方法。
前記ER／AGEは、log10（比）によって測定される前記ERレベルがc・（AGE-d）を上回る場合に高いとして分類され、前記ER／AGEは、前記ERレベルがc・（AGE-d）以下である場合に低いとして分類され、式中cは係数であり、AGEは前記患者の年齢であり、かつdは年齢閾値である、請求項59記載の方法。
前記エストロゲン受容体レベルは、アクセッション番号NM_000125を有する遺伝子に対応する転写物を検出するオリゴヌクレオチドプローブによって測定され、前記対照試料は乳癌細胞のプールであり、式中c = 0.1及びd= 42.5である、請求項60記載の方法。
前記対照試料が、複数の乳癌患者由来の前記複数の転写物のcDNAと共にプールすることによって作製される、請求項61記載の方法。
前記対照試料が、前記複数の転写物の合成cDNA及び前記エストロゲン受容体をコードする前記遺伝子に対応する前記転写物の合成cDNAと共にプールすることによって作製される、請求項61記載の方法。
前記複数の転写物が、少なくとも表8に収載された遺伝子のセットの少なくとも一部に対応する転写物からなる、請求項61記載の方法。
前記複数の遺伝子が、表8に収載された遺伝子に対応する全ての転写物からなる、請求項64記載の方法。
前記示差的測定が、xdev、log（比）、エラー加重log（比）、及び平均除去log（強度）からなる群より選択される、請求項65記載の方法。
前記第一期間は10年であり、前記第二期間は10年である、請求項66記載の方法。
前記患者は55歳未満であり、それぞれの前記結果良好の患者及びそれぞれの前記結果不良の患者は、乳癌診断時に55歳未満である、請求項67記載の方法。
前記化学療法が、シクロホスファミド、メトトレキセート及び5-フルオロウラシルを含むCMF組み合わせ使用することにより実施される、請求項1〜68のいずれか１項に記載の方法。
プロセッサ、及び、
前記プロセッサに接続され、かつ1つ以上のプログラムをコードするメモリ、
を含むコンピュータシステムであって、
前記1つ以上のプログラムは、プロセッサに請求項1〜68のいずれか１項に記載の方法を実施させる、前記コンピュータシステム。
プロセッサと、該プロセッサに接続されたメモリとを有するコンピュータと組み合わせて使用するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、その上にコードされたコンピュータプログラム機構を有するコンピュータ読み取り可能なメモリ記憶媒体を含み、前記コンピュータプログラム機構は、前記コンピュータのメモリにロードされて、前記コンピュータに請求項1〜68のいずれか１項に記載の方法を実施させ得る、前記コンピュータプログラム製品。
以下の1つ以上に基づいて化学療法に対する乳癌患者の反応性を予測するための方法であって：（i）前記患者に由来する試料における複数の細胞成分の測定値を含む細胞成分プロフィール；（ii）ERレベルであって、前記ERレベルは、前記患者に由来する試料におけるエストロゲン受容体転写物又はエストロゲン受容体タンパク質のレベルであり、ER⁺は高ERレベルを示し、かつER^-は低ERレベルを示す、前記ERレベル；及び（iii）ER／AGEであって、前記患者の年齢と関連する前記ERレベルの測定規準である、前記ER／AGE；
前記患者が、
（a）前記細胞成分プロフィールが予後不良プロフィールであり、かつ前記ERレベルがER⁺であり、かつ前記ER／AGEが低い場合に、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の増強か；又は、
（b）（i）前記ERレベルがER^-であるか、若しくは（ii）前記細胞成分プロフィールが予後不良プロフィールであり、かつ前記ERレベルがER⁺であり、かつ前記ER／AGEが高い場合に、乳癌患者の一般的集団の患者と比較して化学療法に対する反応の減少；
を示すことを予測することを含み、
前記細胞成分プロフィールは、前記細胞成分プロフィールが初診後の所定の期間内に前記乳癌患者において転移が発生しないことを予測する場合に予後良好プロフィールとして分類され、かつ前記細胞成分プロフィールは、前記細胞成分プロフィールが前記所定の期間内に転移の発生を予測する場合に予後不良プロフィールとして分類される、前記方法。