CN101194166A

CN101194166A - 有关乳癌分类的材料和方法

Info

Publication number: CN101194166A
Application number: CNA2004800315487A
Authority: CN
Inventors: K·余; P·谭
Original assignee: NCC TECHNOLOGY VENTURES Pte LT
Current assignee: NCC TECHNOLOGY VENTURES Pte LT
Priority date: 2003-10-03
Filing date: 2004-10-01
Publication date: 2008-06-04
Also published as: US20070059706A1; EP1668357A2; WO2005033699A3; JP2007508812A; GB0323225D0; WO2005033699A2; TW200526958A

Abstract

发明人着手鉴定一组基因，它们可以用作与诺丁汉预后指数(Nottingham Prognostic Index，NPI)相关的乳瘤预后标志。最初，他们未能鉴定出其表达与NPI相关的单组基因。但是，在将数据集分割成分子亚类(雌激素受体阳性、雌激素受体阴性和ErbB2阳性)后，他们鉴定出在不同预后的肿瘤中差异表达的一组62种基因。提供了用于判定预后的方法和装置。还提供了用于确定肿瘤对化疗的响应的方法，包括比较预测基因组在治疗前后的表达水平。

Description

有关乳癌分类的材料和方法

发明领域

本发明涉及有关乳癌分类的材料和方法。具体而言，本发明涉及乳癌预后的确定。

发明背景

人们对基因表达数据在生物学分类中的用途存在浓厚兴趣，特别是肿瘤学和医学领域。这种方法的一个令人兴奋的方面是它确定癌的临床相关亚型的能力，而这些亚型先前逃过了更传统的光学显微镜术方法。尽管具有这种潜力，然而在基因表达数据用于临床诊断成为现实之前，还必需解决许多问题。例如，需要提供这样的算法，它既能进行正确的分类，又能精确的确定预测的置信度。如果分类影响后续治疗过程的话，那么这将是特别重要的--一旦获得了这些信息，主治医师就能够权衡预测的置信度与特定干预的潜在发病率，从而做出明智的临床选择。

诺丁汉预后指数(Nottingham Prognostic Index，NPI)是以肿瘤大小、组织学等级和淋巴结状态为基础的一种分类系统，在欧洲和英国广泛用于判定乳瘤的预后(1-5)。尽管具有这种效用，然而公认常规组织病理学参数诸如肿瘤等级和细胞形态的使用还与某些限制有关。这些变量中的许多(例如等级)受到观察员间显著变化性的影响，甚至在尝试标准化之后(6)。NPI等级由2至8。当在一段连续范围的数值上给测量的参数评分时(7)，诸如NPI，常常难以规定恰当的截止点(cut-off point)。

因此，该指数依赖一系列主观标准，可能导致在判定预后时观察员间的差异。

NPI是一个数值范围；具有比另一患者低的NPI值的患者通常具有比其它患者好的预后。预后通常使用诸如下面的因素来确定，即特定时间后的存活几率和/或特定时间内的远程转移几率(对于存活的时间不必相同)。因此，一般而言，患者的前景随NPI值的升高而降低。

确定患者的预后是为患者决定治疗的类型和程度时的一项重要因素。因为将来的治疗程序可能与预后有关，所以判定预后的精确度至关重要。例如，van′t Veer等(10)鉴定了包含70种基因的预后表达特征(prognosis expression signa ture，PES)，用于预测乳瘤的无病存活(Disease Free Survival，DFS)状态。

发明概述

本发明人研究了一组乳瘤的表达数据，但是最初未能鉴定出其表达与NPI相关的一组基因。发明人假设基因表达在各种亚型之间可能存在显著差异(“亚型间差异”)，从而可能掩盖了更加微妙的亚型内变异型式(“亚型内差异”)。有人提出乳癌中显著比例的内在基因表达变异可能导致了属于不同“分子亚型”的不同肿瘤，诸如ER+和ER-(其中ER指雌激素受体)(8-9，14)。

使用无监督聚类技术(unsupervised clustering techniques)将数据集分成各个分子亚类(ER+、ER-、ERBB2+)。将每个分子亚型视为独立的数据集。独立分析每个亚型内的肿瘤以鉴定其表达水平与NPI有关的一组基因。

临床医师一般将NPI等级分成三类：“好的”预后，“中等”预后，和“差的”预后。界定各个类型的数值随临床医师而变化。典型的一套分界点是：好的预后NPI＜3.4；中等预后3.4≤NPI≤5.4；而差的预后NPI＞5.4。本领域技术人员将认识到这些分界点可以变化。

本发明人鉴定出一组62种基因，它们在不同预后的肿瘤中差异表达，例如在高NPI(即差的预后)和低NPI(即好的预后)的肿瘤之间差异表达。

尽管这组基因是在将样品根据它们的NPI进行分类后鉴定的，然而还发现根据这些基因的表达水平将肿瘤样品分类与预后的其它度量(例如无病存活)有关。

因此，这些基因在肿瘤样品中的表达水平对于获取该样品的患者的预后和治疗具有重要的医学意义。具体而言，它们可用于将肿瘤样品分类，作为患者预后的一项指标。

将NPI等级的数值范围3.8-4.6用作“好的”和“差的”预后之间的截止点，并且使用每个截止值鉴定了同一组62种差异表达的基因。

这指示，虽然NPI覆盖连续的数值范围2-8，但是这组62种基因的表达水平能够将肿瘤样品归入独立的类别。由此，可以将根据组织病理学参数具有连续NPI值的样品在分子水平分成独立的类别。

此外，使用(i)本发明的方法和(ii)临床技术(通常是组织病理学技术)判定的乳瘤患者预后的比较指示，根据患者的资料，诸如DFS和Kaplan-Meier存活曲线，本发明的方法可提供比组织病理学技术更加精确的预后。

这62种基因示于表S6。下面的描述将使用术语“表达谱”，它指一组基因在样品中的表达水平。除非另有要求，该组基因将包含表S6中所示的一些或所有62种基因。

本文鉴定的62种基因与van′t Veer等(10)鉴定的基因只有一种基因重叠(DC13或Hs.6879)。PES是231种Rosetta基因(10)的扩充基因组(geneset)中的前70种基因(在显示不同无病存活率的组之间展示最显著差异表达的基因)。表S6的62种基因和231种Rosetta基因之间有8种基因是共有的，它们列于表S13。

表S6中有两种基因在低NPI肿瘤中高度表达(“阴性基因”)，而60种基因在高NPI肿瘤中高度表达(“阳性基因”)。

因此，最一般的说，本发明提供了用于获得一组差异表达基因的方法。本发明还提供了用于乳瘤样品分类和/或判定预后的方法和测定法。本发明鉴定了一组基因并提供了这些基因中的一些或全部在乳瘤样品中的表达水平用于对获取该乳瘤的患者确定预后的用途。

在第一个方面，本发明提供了用于确定乳癌患者预后的方法，其包括根据一组基因(下文称为“预后组”)在患者乳瘤中的表达水平来确定所述患者的预后，其中预后组包含表S6的多种基因。

本发明还提供了预后组在确定乳癌患者预后中的用途。优选的是，本发明提供了表达谱在确定乳瘤患者预后中的用途，所述表达谱体现了预后组基因在肿瘤中的表达水平。

“预后”意指其最一般的意义，而且可以是定量的或定性的。它可以概括的表述，诸如“好的”或“差的”预后，和/或表述为可能的临床后果，诸如无病存活(DFS)的持续时间、在确定时间内存活的可能性、和/或在确定时间内远程转移的概率。预后的定量度量通常是概率性的。另外/或者，尤其是在向医学从业人员表述预后时或在医学从业人员之间表述预后时，预后可以表述成预后的另一项指标，诸如NPI等级。

一般而言，具有“好的预后”肿瘤的患者很可能将用常规治疗方法进行治疗。具有“差的预后”肿瘤的患者可能用另外的或更具攻击性的方法进行治疗。“差的预后”患者通常不必等到常规治疗方法失败后再换成更具攻击性的方法。另外，对疾病可能的临床病程的了解容许患者为未来制定现实的计划，这在癌症治疗中是一个重要的社会性方面。

为了避免疑惑，术语“确定”无需意味着绝对确定的预后。而是说，预后组在肿瘤中的表达水平通常指示患者可能的预后。

表达水平通常以数值表述。因此，表达谱通常包括一组数值，每个数值代表预后组中一种基因的表达水平。

依照本发明第一个方面的方法可包括步骤：提供代表预后组基因在肿瘤中的表达水平的表达谱，并根据表达谱确定患者的预后。

提供表达谱的步骤可包括由预先存在的数据集提取关于预后组基因表达水平的信息，所述数据集还可以包含其它表达水平(例如代表其它基因在肿瘤中的表达水平的数据)。或者，它可以包括通过实验确定表达水平。

确定步骤可包括步骤：(a)由患者获得乳瘤样品；(b)测量预后组基因在样品中的表达水平。

基因表达水平的测量，特别是它在表达谱中的表示，可以是绝对的，或者是相对于某些其它因素，诸如但不限于另一种基因的表达，或是一组基因(优选预后组以外的基因，但是可能包括预后组的基因)在样品中或一组样品间的表达水平的平均值、中值或模式。例如，可以作为多种基因在样品中的平均表达的倍数或分数来测量或表述基因的表达。优选的是，将表达在表达谱中表述成正数或负数，指示表达相对于平均值的升高或降低。

在一个非优选实施方案中，将一组数值形式的表达谱信息转换成预后组基因的排序表，其中将基因按照表达水平的顺序排序，然后将各种基因的排序作为分析参数(代替基因的表达值)。

优选的是，步骤(b)包括使由样品获得的所述表达产物接触能够与表达产物相结合的多种结合成员，其指示预后组基因表达，其中这种结合可以被测量。

一般而言，该结合成员不仅能够检测表达产物的存在与否，而且能够检测其相对丰度(即可利用产物的量)。可以使用能够与预后组表达产物(例如mRNA、相应的cDNA或cRNA或表达的多肽)相结合的结合成员来确定表达谱。通过标记表达产物或结合成员，有可能确定表达产物的相对数量或比例，并确定预后组的表达谱。该结合成员可以是互补核酸序列或特异抗体。

确定预后的步骤可通过将所测试表达谱与其它先前获得的与已知预后有关的谱和/或先前确定的特定预后的特征性“标准”谱进行比较来进行。特定预后的标准谱可由该预后的多个肿瘤的表达谱生成。

比较将通常使用或借助计算机来进行。

优选的是，将表达谱与不同的已知预后的已知或标准谱(优选标准谱)进行比较。对患者确定的预后即所测试表达谱与之最相似的已知或标准谱的预后。

优选的是，与归入两种不同预后(例如“好的”和“差的”)或是高和低NPI(优选截止点为3.8-4.6)的已知或标准谱(优选标准谱)进行比较。已知或标准谱通常是由已知预后的样品生成的，这可以是通过任何方便的方法确定的-或是由患者移除样品后的实际临床结果，或是其它预后技术，例如组织病理学技术，例如使用NPI等级。

比较可能牵涉通过统计技术评估预后的置信度水平。标准谱常常是对于产生它的特定材料和方法(例如微阵列)特异的。如果采用新的材料和/或方法(例如新型微阵列)，那么优选使用预后组再次获得已知预后的标准谱。

依照本发明第一个方面的方法可能包括将乳瘤样品分类，例如分为高NPI或低NPI，或是分为好的或差的预后。

如上所述，确定预后的步骤可通过将所测试乳瘤样品的表达谱与先前获得的谱和/或先前确定的特定预后(例如“好的”和/或“差的”预后和/或至少一个NPI值和/或至少一个NPI值范围)的特征性“标准”谱进行比较来进行。先前获得的谱可以保存为谱的数据库。

优选的是，数据库包含特定预后的特征性基因表达谱。优选由与本发明第一个方面的预后组相同的预后组(表S6的基因子集)或是与第一个方面的预后组充分重叠的预后组(可能是来自上文的不同子集)的表达水平来生成基因表达谱，从而提供表达水平比较的统计学显著基础。可以将计算机编程，使之报告所测试谱与标准谱之间的统计学相似性，从而可确定预后。

有利的是，基因表达谱在确定预后中的使用可能降低或可能甚至消除用于对肿瘤样品确定预后的临床程序的主观性。由于该方法要求在分子水平评估表达产物，优选定量地，该方法提供了更加客观因而可能更加可靠的确定预后的方法。如上所述，预后组能够将乳瘤样品分成独立的类别，从而降低或甚至消除临床预后确定中的主观分析。此外，可以对预测确定置信度，从而可以根据预后的“强度”对患者的治疗做出明智的临床选择。

预后组的表达谱在相似预后的独立样品之间可能略有不同。然而，发明人认识到，构成预后组的特定基因的表达谱在联合使用时提供了肿瘤样品中的表达模式(表达谱)，它是对于肿瘤的预后而言是特征性的。

发明人发现，预后组能够将肿瘤样品辨别为高NPI和低NPI类别。高NPI意指优选至少3.4、优选至少3.5、更优选至少3.6、更优选至少3.7、更优选至少3.8、更优选至少3.9、最优选至少4.0。高NPI可能是至少4.1、至少4.2、至少4.3、至少4.4、至少4.5、或至少4.6。高和低NPI之间的优选截止值是3.8-4.6。

在历史上，“好的”、“中等”和“差的”NPI类别是使用大量临床研究确定的，其中属于这些不同组的患者的总体存活具有统计学显著差异。例如，具有好的预后的患者可能具有约83％的十年存活率，具有“中等”预后的患者可能具有约52％的十年存活率，而具有“差的”预后的患者可能具有约13％的十年存活率(4)。

具体而言，预后组似乎与雌激素受体阳性肿瘤(ER+)的肿瘤预后(由NPI反映)具有最强烈的关联。

将乳瘤分为雌激素受体阳性(ER+)和阴性(ER-)亚型是乳癌治疗中的一项重要鉴别项目。ER-肿瘤通常比它们的ER+对应物在临床上更具攻击性，而ER+肿瘤常规使用抗激素疗法进行治疗，诸如三苯氧胺(21)。可以使用组织学技术(例如使用对受体特异的抗体)或使用基因表达技术将乳瘤分为ER+或ER-。目前，常规使用ER抗体通过免疫组化(IHC)或免疫印迹来确定肿瘤的ER状态。

本发明的第一个方面优选包括测定肿瘤样品的ER状态的步骤。可以使用基因表达分析或组织病理学技术来确定ER状态。优选的是，本发明的第一个方面还包括确定肿瘤样品的ER状态的开始步骤，而且只在状态是ER+时继续进行。

优选的是，如我们共同悬而未决的申请PCT/GB03/000755中所述使用基因表达描绘(profiling)来确定乳瘤样品的ER状态。基因表达描绘能够以高置信度将乳瘤分为ER+或ER-。然而，还存在不能以显著统计学确定性分为ER+或ER-的第三类肿瘤(“低置信度”肿瘤)。ERBB2+的上调常常与低置信度肿瘤有关。优选的是，只对以高置信度鉴定为ER+的肿瘤(优选根据PCT/GB03/000755的方法的测定以量级大于0.4的预测强度分类为ER+)，使用依照本发明第一个方面的方法进行评估。

对乳瘤样品确定预后的步骤可包括使用统计学和/或概率技术，诸如加权表决(Weighted Voting，WV)(13)，即一种监督学习技术。在WV中，可以进行二元分类。即该技术可用于将样品确定为两种类型之一。将预后组中每种基因在乳瘤样品中的表达水平与该基因在不同类型间的平均表达水平平均值进行比较。例如，可由具有确定的预后的表达谱(例如“已知”预后的表达谱的数据库)计算该平均值。

将表达水平和类型间平均基因表达之间的差异加权，并对应该基因对该类型的“选票”和该基因对其它类型的相等但否定的投票。对于特定肿瘤，将所有基因对每一类的投票(肯定的和否定的)加到一起，产生每一类的总数。将肿瘤确定为具有最高(肯定的)总数的类型。然后可以将获胜类型的胜利幅度表述成预测强度。

表达水平的差异是使用包括两种类型中每一个的基因表达水平的平均值和标准偏差在内的公式加权的。一般而言，每一种类型的平均值和标准偏差是由具有或代表特定预后(例如高NPI和低NPI)的表达谱计算的。

另外/或者，确定预后的步骤可以包括使用分级聚类(hierarchical clustering)，特别是在与确定与样品表达谱进行比较的具有“已知”预后的表达谱或标准谱使用不同的材料和/或方法来确定肿瘤样品中的表达水平的时候。

可以使用已经建立的排除一项交叉验证(LOOCV)(leave-one-outcross validation)检验法(见实施例)来验证确定的预后。步骤(c)可使用计算机来进行。

在分级聚类中，每个表达谱可以表示由n个基因组成的矢量(vector)，其中(g1，g2...gn)代表基因的表达水平。然后，将每个矢量与分析中的每一个其它谱的矢量进行比较，并将两个彼此具有最高关联的矢量配成对，直至尽可能多的将分析中的谱配成对。

本领域知道许多方法可以计算关联度，诸如Pearson的相关系数(22)。在下一步中，由每一对衍生一个合成矢量(在平均连接聚类(average-linkage clustering)中，这通常是两个谱的平均值)，然后重复配对过程。继续，直至将所有矢量配成对，聚集成代表所有谱的“树”。这个过程就是“分级”，因为是由底部(各个谱)开始并向上升。在本发明中，优选由各个谱建成两个合成矢量，每个矢量代表一种类型(即好的和差的预后)。对于未知类型的一个新样品，将样品与标准谱/样品进行聚类(clustered)。根据样品在反复配对结束时所属的簇/矢量来确定“未知”样品的类型。

具有“已知”或确定预后的表达谱指已经确定或获得了预后的表达谱。预后可以是：由基因表达数据计算得到的；由对来源样品执行的临床技术(例如组织病理学技术)获得的；或者通过回顾获取该表达谱的患者的实际疾病进展/结果而确定的。第三个选项是最优选的，因为可以由患者的医学记录根据后续结果(为了在获得样品时及时)确定精确的预后。在这种回顾判定中，后见之明的使用提供了精确性。

本发明的方法可用于评估治疗乳癌患者的功效。可以在治疗前或治疗早期确定患者的预后，并与治疗后(或治疗晚期)对患者确定的预后进行比较。优选使用依照本发明的方法来确定治疗前后的预后。如果治疗包括几个阶段，那么可以在每个阶段后确定表达谱，从而将治疗的进展制图。在治疗后预后的改善指示治疗是成功的或至少部分成功的。治疗可以是化疗。

本发明的方法可包括比较预后组在治疗前后在乳瘤样品中的表达水平以检测表达谱的变化，它是预后改善或恶化的指示。

该方法可包括检测表S6中指出是“上调的”预后组基因的下调和/或表S6中指出是“下调的”预后组基因的上调。所述基因与标准值(例如一批不同预后样品间的平均表达水平)相比和/或与先前值(例如“差的”预后的指示性或特征性标准谱)相比可能是下调的/上调的。“上调的”基因的下调和/或“下调的”基因的上调指示好的或中等预后。调控的变化程度可能指示治疗的功效。

发明人发现，朝着预后好的肿瘤表达谱变化指示治疗是成功的。具有这种表达谱变化的肿瘤具有最好的预后(例如最好的存活率、最好的无病存活率)。可以将治疗前后阶段肿瘤的表达谱与已知预后的标准谱进行比较。

因此，该方法可包括将乳瘤的表达谱确定为好的或差的预后类型(或者高或低NPI类型)，将在治疗晚期由所述肿瘤确定的第二个表达谱确定为好的或差的预后类型(或者高的或低的NPI类型)，并检测类型的变化，其中由差的预后变成好的预后(或者由高NPI变成低NPI)指示治疗是有效的。另外/或者，确定好的或差的预后类型(或者高或低NPI类型)的统计学置信度水平变化可能指示治疗的功效。确定为差的预后类型的置信度降低可能说明治疗是成功的或至少部分成功的。

评估治疗功效的方法可以包括测定肿瘤ER状态的步骤。然而，评估功效的所述方法对于评估ER+、ER-和ERBB2+肿瘤的治疗功效是有效的，即不管肿瘤的ER状态。

表达谱代表了一组基因在肿瘤中的表达水平。每个表达谱的基因不必是相同的，但是每个表达谱的基因之间应当充分重叠，从而能够比较表达谱并将其分组。

出于检测目的，可以使用本领域已知的标准方法标记结合成员。或者，可以在由所测试样品分离表达产物后将其标记。优选的检测手段是使用可以由光度计检测的荧光标记物。另外的检测手段包括电信号。例如，Motorola(Pasadena，California)的e传感器系统具有两个探针，一个是自由漂浮的“捕获探针”，另一个是附着在固体表面上的“信号探针”，所述固体表面又为电极表面。两个探针都作为表达产物的结合成员。当发生结合时，两个探针彼此靠拢，产生可以检测的电信号。

然而，最近出现了利用“无标记物”技术来进行定量的许多新技术，例如由Xagros(Mountain View，California)开发的技术。引物和/或扩增的核酸可以不含任何标记物。可以通过测量由两种引物锚定到表达产物靶上并通过聚合酶延伸引起的电阻变化来评估数量。

如上所述，结合成员可以是用于在PCR(例如多重PCR)中特异扩增基因鉴别物的表达产物数目的寡核苷酸引物。然后可以在凝胶上分析产物。然而，优选的是，结合成员是固定在固体支持物上的单一核酸探针或抗体。然后可以让表达产物经过固体支持物，使得它们与结合成员相接触。固体支持物可以是玻璃表面，例如显微镜载玻片；珠(Lynx)；或光纤。在珠的情况中，可以将每种结合成员固定在各个珠上，然后让它们在溶液中接触表达产物。

本领域存在多种方法可用于确定特定的基因组(geneset)的表达谱，这些方法都可应用于本发明。例如，基于珠的方法(Lynx)或分子条形码(Surromed)就是已知的技术。在这些情况中，将每种结合成员附着在单个可读且自由漂浮的珠或“条形码”上，以易于与表达产物的接触。结合成员与表达产物(靶)的结合是在溶液中完成的，然后让打上标签的珠或条形码经过某种装置(例如流式细胞仪)并读数。

确定表达谱的另一种已知方法是由Illumina(San Diego，California)开发的仪器，即光纤。在这种情况中，将每种结合成员附着在光纤缆末端的特定“地址”上。表达产物与结合成员的结合可以诱导荧光变化，它可以通过光纤缆另一端的装置读出。

本发明人成功的使用了包含固定在固体支持物上的多种核酸序列的核酸微阵列。通过让代表所表达基因的核酸序列(例如cDNA)经过微阵列，它们能够产生来自具有特定预后的肿瘤样品(具体而言就是具有好的预后的肿瘤样品或具有差的预后的肿瘤样品或者是具有高NPI的肿瘤样品或具有低NPI的肿瘤样品)的表达产物的特征性结合谱。

在第二个方面，本发明提供了用于确定乳瘤样品预后的装置，优选微阵列，该装置包含附着了多种结合成员的固体支持物，每种结合成员能够与预后组基因的表达产物特异结合。优选的是，附着在固体支持物上的结合成员能够与表S6中所示的至少5种基因，更优选至少10种基因或至少15种基因，且最优选至少20种或30种基因的表达产物特异且独立结合。附着在固体支持物上的结合成员可能能够与表S6中所示的20-30种基因的表达产物特异结合。

在一个实施方案中，将能够与表S6中所示的所有基因的表达产物特异且独立结合的结合成员附着在固体支持物上。支持物上可以只附着了能够与表S6中所示的基因获其预后组的表达产物特异且独立结合的结合成员。

该装置优选包含能够与预后组的表达产物或其多种基因特异结合的结合成员，而且可以包含能够与U133A微阵列上体现的不完整基因子集的表达产物特异结合的结合成员(尽管它还可能包含U133A微阵列上未体现的其它基因的结合成员)。认为U133A微阵列体现了约14397种不同基因。因此，该装置优选包含不超过U133A微阵列上14396种基因的结合成员。该装置可包含能够与U133A微阵列上不超过90％基因的表达产物特异结合的结合成员。该装置可包含能够与U133A微阵列上不超过80％、或70％、或50％、或40％、或30％、或20％、或10％、或5％基因的表达产物特异结合的结合成员。

另外/或者，固体支持物可以容纳不超过14000种、或不超过10000种、或不超过5000种、或不超过3000种、或不超过1000种、或不超过500种、或不超过400种、或不超过300种、或不超过200种、或不超过100种、或不超过90种、或不超过80种、或不超过70种、或不超过60种、或不超过50种、或不超过40种、或不超过30种、或不超过20种、或不超过10种或不超过5种不同基因的结合成员。

优选的是，结合成员是核酸序列，且装置是核酸微阵列。

表S6的基因列出了它们对应于Unigene数据库Build 160的Unigene编号。因此，可以由National Institute of Health(NIH)：(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi？db＝unigene)的Unigene数据库检索每种基因的序列。

另外，对于所有基因，Affymetrix(Santa Clara，California)(www.affymetrix.com)提供了在用于固体支持物时能够检测基因表达的探针组的实例，包括探针的序列(即寡核苷酸序列形式的结合成员)。关于探针的详情可以由Affymetrix网站的U133A部分使用靶基因的Unigene ID获取。

将来如果在表中所列的一个Unigene ID以新ID出现、分裂成两个或多个ID(例如在数据库的新build中)、或完全删除，那么本发明人预期的基因序列可以通过访问Unigene的Build 160来检索。

通常，将高密度核酸序列(通常是cDNA或寡核苷酸)固定在固体支持物上很小的离散区域或点上。固体支持物常常是用某种基质包被的显微镜载玻片或滤膜(即芯片)。通常通过机械自动化系统将核酸序列投递(或印制)到经过包被的固体支持物上，然后固定在支持物上。

在一个优选的实施方案中，将由样品产生的表达产物进行标记，通常使用荧光标记物，然后与固定好的核酸序列接触。杂交后，使用检测仪检测荧光标记物，诸如高清晰度激光扫描仪。在另一种方法中，可以用非荧光标记物给表达产物打上标签，例如生物素。杂交后，用与第一种非荧光标记物结合/键合的荧光染料给微阵列“染色”，例如荧光标记的与生物素结合的链霉亲和素。然而，如上所述，表达产物可以不进行标记。

通过用数字成像软件分析每个离散点发出的信号得到指示基因表达模式的结合谱(表达模式或谱)。然后，可以将实验样品的基因表达模式与标准谱(即具有例如已知的好的或差的预后或者已知的NPI值或已知的NPI值范围的组织样品的表达谱)进行比较从而进行差异分析。

所述的标准可以是来自先前判定为特定预后(例如“差的”或“好的”预后)和/或特定NPI范围(诸如高和/或低NPI)特征性的和/或一个或多个NPI值或一个或多个数值范围特征性的一个或多个表达谱。该标准可以是来自先前判定为特定NPI值或数值范围(或是其它预后等级的限定值)特征性的一个或多个表达谱。该标准可以包括正常样品的特征性表达谱。这些/这个标准表达谱可以以可获取的方式保存在数据载体上作为数据库的一部分。

大多数微阵列利用一种或两种荧光团。对于双色阵列，最常用的荧光团是Cy3(绿色通道激发)和Cy5(红色通道激发)。微阵列图像分析的目的是提取每种表达产物的杂交信号。对于单色阵列，对指定的靶(基本上是与单一样品杂交的阵列)测量绝对强度作为信号。对于双色阵列，测量具有不同荧光标记物的两份表达产物(例如样品和对照，对照在其它方面也称为参照)的比率作为信号。

依照本发明的装置优选包含多个离散点，每个点含有一种或多种寡核苷酸且每个点代表选自表S6的基因的表达产物的不同结合成员。在一个实施方案中，微阵列将包含针对表S6中提供的每一种基因的点。每个点将包含多个相同寡核苷酸，每个都能够与它所代表的表S6基因的表达产物(例如mRNA或cDNA)结合。每一种基因优选由多种不同的寡核苷酸来体现，优选针对基因的Affymetrix U133A探针组。

在本发明的第三个方面，提供了用于对乳癌患者确定预后的试剂盒，其包含能够与预后组基因的表达产物特异结合的多种结合成员和检测剂。该试剂盒可以包含数据分析工具，优选计算机程序的形式。数据分析工具优选包含适于区别不同预后肿瘤的表达谱的算法。优选的是，该算法适于区别“好的”预后和“差的”预后，最优选适于区别高NPI和低NPI肿瘤。该算法优选是上文描述的加权表决算法。

在一个实施方案中，该试剂盒包含本发明第二个方面的装置。

该试剂盒可以包含具有已知预后的乳瘤样品的表达谱(如上所述)和/或特定预后的特征性基因表达谱(如上所述)，优选保存在数据载体或其它存储装置上。所述谱可以是已经进行了统计学分析或分组的，例如计算了平均表达水平平均值和/或基因权重。

优选的是，将试剂盒中的一种或多种结合成员(抗体结合结构域或核酸序列，例如寡核苷酸)固定在一种或多种固体支持物上，例如用于微阵列或光纤测定法的单一支持物，或诸如珠等多个支持物。检测手段优选用于标记所测试样品的表达产物的标记物(放射性或染料，例如荧光)。试剂盒还可以包含用于检测和分析所测试表达产物的结合谱的试剂。

或者，结合成员可以是能够与表S6中所示的基因的表达产物相结合并因此能在PCR中扩增它们的核苷酸引物。引物还可以包含检测手段，即可用于鉴定扩增序列及其相对于其它扩增序列的丰度的标记物。

乳瘤样品可以通过切除的乳房活组织检查物或细针吸取物来获得。

通过由许多肿瘤样品生成预后组的许多表达谱，其中每个样品都具有确定的预后，且优选根据预后等级，有可能为好的和差的预后生成谱库。表达谱的数目越多，生成可以在预后测定中用作标准的可靠特征性表达谱标准(即包括统计变差)越容易。由此，标准谱可以是由多种个体表达谱且在统计变差内设计出来的以代表例如“好的”或“差的”预后或者高NPI或低NPI的谱。

在第四个方面，提供了用于为乳瘤样品生成核酸表达谱的方法，包括步骤：(a)由所述乳瘤样品分离表达产物；(b)鉴定预后组基因的表达水平；并(c)为所述乳瘤样品由表达水平生成表达谱。

可以将该表达谱加入基因表达谱数据库。该方法还可以包括将该表达谱与另一个表达谱(或多个另一个表达谱)进行比较的步骤。该另一个(或多个)表达谱可以是使用实质相同的预后组由另一个(或多个)乳瘤样品生成的，其中已经确定了该另一个(或多个)样品的预后。该另一个(或多个)表达谱可以是特定预后的特征性标准谱，例如“好的”预后或“差的”预后，或者高NPI或低NPI，或者至少一个特定NPI值或至少一个NPI数值范围。

优选的是，预后采取预后度量(prognostic measure)的形式，优选临床可接受的预后分类系统，诸如NPI。同样，预后可以是由基因表达数据预测的，由临床技术(诸如组织病理学技术)产生的，或根据提供样品的患者的疾病结果对第二个表达谱回顾性确定的，由所述样品产生所述第二个表达谱。

凭借预后组的知识，有可能设计出用于测定基因在特定测试样品中的表达模式或谱的许多方法。例如，可以使用标准分子生物学技术由样品分离表达的核酸(RNA、mRNA)。然后，可以在PCR中使用对表达序列特异的核酸引物扩增相应于表S6中给出的基因鉴别物的基因成员的表达核酸序列。如果分离的表达核酸是mRNA，那么可以使用标准方法将它转变成cDNA从而用于PCR反应。

引物可以方便的将标记物导入扩增的核酸，从而可以对它进行鉴定。理想的是，标记物能够指示扩增事件后存在的核酸序列的相对数量或比例，它反映了原始测试样品中存在的相对数量或比例。例如，如果标记物是荧光或放射性的，那么信号强度将指示表达序列的相对数量/比例或甚至绝对数量。每一种基因鉴别物的表达产物的相对数量或比例将构成测试样品的独特表达谱。

依照本发明第四个方面的方法可以包括步骤：(a)由第一个乳瘤样品分离表达产物，使所述表达产物接触能够与预后组的表达产物特异且独立结合的多种结合成员，并由预后组在肿瘤样品中的表达水平生成第一个表达谱；(b)由预后已知的第二个乳瘤样品分离表达产物(正如上文定义的)，使所述表达产物接触能够与步骤(a)的预后组的表达产物特异且独立结合的多种结合成员，从而生成相当的第二个乳瘤样品表达谱；(c)将第一个和第二个表达谱进行比较，以确定第一个乳瘤样品的预后。

在本发明的第五个方面，提供了包含多个乳瘤样品基因表达谱的表达谱数据库，其中基因表达谱来自预后组基因的表达水平，该数据库以可获取的方式保存在数据载体上。该数据库优选是通过依照本发明第四个方面的方法生成的。

所述表达谱优选是核酸表达谱。核酸表达谱的确定可以计算机化，而且可以在先前设定的某些参数内进行，以避免假阳性和假阴性。

数据库可以包含特定预后的特征性表达谱，诸如好的或差的预后，或者特定预后值，优选NPI值(例如高NPI、低NPI、或特定定性数值或数值范围)的特征性表达谱。可以根据来源肿瘤的ER状态(即ER+或ER-)将表达谱分类。然后可以加工并分析数据库，使之最终包含(i)对应于数据库中每个表达谱的数值数据；(ii)作为特定预后确定(例如好的或差的预后，或者数值或数值范围，优选NPI)的规范谱的“标准”谱；和(iii)代表各个谱相对于“标准”谱的观测统计变差的数据。

然后，计算机可能能够提供具有特定预后的乳瘤样品的特征性表达谱标准，例如好的预后和/或差的预后和/或高NPI和/或低NPI。如上所述，确定的表达谱然后可用于确定乳房组织样品的预后，优选使用区别算法，最优选上文所述加权表决算法。

所测试基因表达水平的数目越多，表达谱的分类越可靠。已知的微阵列和基因芯片技术容许采用大量的结合成员。因此，更优选的方法将是使用代表表S6中所有基因的结合成员。然而，技术人员将领会，可以省略这些基因中的一定比例，而仍然以可靠且统计上精确的方式执行该方法。

本发明任何方面中的预后组可以包含表S6的所有或基本上所有基因、所有或基本上所有阳性基因和/或所有阴性基因或由其组成。预后组基因的内容和数目可以在本发明的各个方面之间独立变化。

预后组可以包含表S6的至少5、10、20、30、40、50、60种或所有基因。

优选的是，所述预后组包含表S6的约60种、或约50种、或约40种、或约30种、或约20种、或约10种、或约5种阳性基因或由其组成。表S6的阳性基因优选选自表S6中阳性基因表的上部，优选上半部，因为所述基因是按照显著性排序的。

预后组可以包含表S6中两种阴性基因中的一种或两种，或者可以由二者组成。

可以选择基因的数目和基因以提供预后组，其至少能够区别具有好的预后的肿瘤和具有差的预后的肿瘤(或者具有高NPI的肿瘤和具有低NPI的肿瘤)。

预后组可以包含不超过60种表S6的基因。预后组可以包含不超过50种表S6的基因。预后组可以包含不超过40种表S6的基因。预后组可以包含不超过30种表S6的基因。预后组可以包含不超过20种表S6的基因。预后组可以包含不超过10种表S6的基因。预后组可以包含不超过5种表S6的基因。

预后组可以包含表S6的5-60种基因或基本上由其组成。预后组可以包含表S6的10-40种基因或基本上由其组成。预后组可以包含表S6的10-30种基因或基本上由其组成。预后组可以包含表S6的10-20种、或20-30种或优选30-40种基因或基本上由其组成。

预后组(优选约10种或约20种或约30种基因)可以选自表S6的前约40种、或前约30种、或前约20种基因。约10种基因可以选自表S6的前约15种基因。该约10种基因可以是表S6的前10种基因。

预后组可以包含选自表S6的前约40种、或前约30种、或前约20种、或前约10种阳性基因的约40种、或约30种、或约20种或约10种基因以及任选的表S6的两种阴性基因中的一种或两种或基本上由其组成。预后组可以包含选自表S6的前约30种或前约40种阳性基因的约30种基因以及任选的表S6的两种阴性基因中的一种或两种或由其组成。

优选如上所述限制预后组中与U133A微阵列之间共有的基因数目。

术语“约”优选意味着所述基因数目加上或减去如下二者中的较大者：所述基因数目的10％或一种基因。

提供预后组容许定制诊断工具(例如核酸微阵列)并用于肿瘤的预测、诊断和分型。另外，这些诊断工具可以与计算机联合使用，所述计算机被编程来确定使用诊断工具(例如微阵列)得到的表达谱并如上所述将它与预后“已知”的“标准”表达谱或表达谱数据库进行比较。从而计算机不仅为用户提供了可用于诊断患者肿瘤的存在或类型的信息，同时计算机还获得了另一个表达谱，由此确定“标准”表达谱，从而能够更新其自身数据库。

由此，本发明首次容许制作包含与预后组对应的探针的专用芯片(微阵列)。阵列的实际物理结构可以变化，从附着在二维固体基质上的寡核苷酸探针至自由漂浮的用独特标记物(例如“条形码”)个自“打上标签”的探针。

查询预后已知的表达谱的数据库可以以直接或间接的方式进行。“直接”方式指将患者的表达谱与数据库中的其它各个表达谱直接进行比较，以确定哪个谱(及由此哪种预后)给出最佳匹配。或者，可以更“间接”的进行查询，例如，可以将患者的表达谱仅仅与数据库中特定预后确定(例如“差的”)或预后值或数值范围(优选NPI，例如高NPI)的“标准”谱进行比较。间接法的优势在于“标准”谱(因为它们代表了许多个别谱的集合)的数据强度低得多，而且可以保存在较为便宜的数据载体或其它存储装置(例如计算机系统)上，而它可能构成依照本发明的试剂盒的一部分(即与微阵列相关)。

在直接法中，有可能的是数据载体的规模将大得多(例如计算机服务器)，因为将要保存很多个别谱。

通过将患者的表达谱与标准谱(间接法)和预先测定的群体统计变异进行比较，还将可能给出有关患者的表达谱与上文所述“标准”规范谱是多么紧密匹配的“置信度数值(confidence value)”。该数值将为临床医师提供关于预后可信度和例如是否应当重复分析的有价值信息。

如上所述还可能将患者的表达谱保存在数据库中，而且它们可以在任何时间用于更新数据库。

在第六个方面，本发明提供了用于鉴定在一组肿瘤中差异表达的一组基因的方法，其包括由这组多个肿瘤提供表达谱，将该谱根据肿瘤的分子亚型分类，并在亚型内分析表达谱以鉴定出在该亚型内差异表达的该组基因。

该方法与van′t Veer等(10)的方法不同在于van′t Veer等方法中散发淋巴结阴性乳瘤的初步选择涉及通过临床评估的分型，而非分子水平的分型。

当然，本发明的这个方面和下述方面与上述方面密切相关。因此，针对上述方面描述的优选特征也可应用于这个方面和下述方面，除非文中另有明确要求。

在本发明第六个、第七个、和第八个方面的内容中，术语“表达谱”不限于预后组的基因。而它一般指基因在所述组的肿瘤中的表达水平，包括(但不必只是)在分子亚型内差异表达的基因的表达水平。

由本发明第六个方面产生的差异表达组基因(下文称为“区别组”)可能对于所述组的肿瘤的特定表型或基因型是指示性的或特征性的。该方法优选包括将区别组的差异表达与特定表型和/或基因型关联起来的步骤。可以确定区别组在许多不同的但表型和/或基因型已知的样品中的表达谱，以建立区别组的特定基因表达谱与特定表型和/或基因型之间的关联。

差异表达对于作为肿瘤患者的治疗或诊断的一部分的肿瘤的临床参数或确定的医学类型(例如预后的度量，诸如NPI值或NPI类型)可能是特征性的。区别组的差异表达可能容许将肿瘤样品确定为至少两种不同基因型或表型类别中的一种。

本发明第六个方面的方法还可以包括确定来自患者的肿瘤样品的类型的步骤，其中区别组基因的差异表达对于该类型是特征性的，所述步骤包括提供区别组在样品中的表达水平，并根据该表达水平确定肿瘤类型。

确定类型的步骤可以包括使用统计技术，诸如但不限于加权表决(Weighted Voting)、支持矢量系统(Support Vector Machines)、或分级聚类(Hierarchical Clustering)，正如上文所述。优选的是，该方法包括使用亚型特异的区别组来鉴定肿瘤样品的分子亚型的步骤。

另外/或者，本发明第六个方面的方法可以包括确定区别组在肿瘤样品中的表达水平，由该表达水平确定表达谱，并将谱加入数据库的步骤。优选的是，还鉴定了肿瘤样品的分子亚型，并优选加入数据库。

特定类型特征性的标准谱可以是来自已知类型的至少两个表达谱，其中所述表达谱来自区别组的基因。该标准谱优选是对类型和分子亚型特异的。另外/或者，将已知类型(以及任选亚型)的表达谱加入数据库。

另外/或者，第六个方面的方法还可以包括在治疗过程中检查肿瘤类型变化的步骤。在一个实施方案中，提供了治疗不同阶段(例如治疗开始时和治疗结束时)的表达谱，并进行比较以测定类型的变化，其中表达谱来自区别组基因的表达水平。优选将该表达谱与标准和/或已知谱进行比较以确定类型。

根据分子亚型的分类优选是使用诸如组织病理学(例如免疫学)技术或直接测量肿瘤样品中的基因表达产物水平的基因表达技术等技术进行的。最优选基因表达技术。然而，也可以采用能够精确区别分子亚型的临床技术。

肿瘤优选是乳瘤，且分子亚型优选对应于肿瘤的ER(雌激素受体)状态(例如ER+)。然而，该方法可以应用于其它肿瘤组(例如肺部肿瘤、卵巢肿瘤和淋巴瘤)和/或其它分子亚型(例如弥漫性大型B细胞淋巴瘤中的生发中枢样和活化B细胞样)。优选的是，为了确定差异表达基因而对表达谱类型的分析包括微阵列显著性分析(significantanalysis of microarrays，SAM)(12)，它鉴定其表达水平在所比较样品之间显著变化的基因。优选的是，该分析涉及统计分析，例如使用加权表决、支持矢量系统和/或分级聚类(见下文关于这些技术的解释)。

在本发明的第七个方面，提供了通过本发明的第六个方面产生的一组基因。

在本发明的第八个方面，提供了区别组在确定肿瘤样品为特定类型中的用途。

下面将参照附图例示本发明的各个方面和实施方案。其它方面和实施方案对于本领域技术人员将是显而易见的。将本文中提到的所有文件收入本文作为参考。

图1显示了散发性乳瘤根据总体表达谱的聚类。

a)使用展示最高基因表达差异的前376种基因对98个乳瘤的无监督分级聚类；

b)使用376种基因组(gene set)的主成分分析(Principalcomponent analysis，PCA)。观察到与a)相似的分子分组；

c)使用SAM-409基因组(gene set)的样品分级聚类，SAM-409基因组由在肿瘤亚型之间受到显著调控的基因组成。在SAM-409基因组中大约三分之二的基因在ER+肿瘤中显示表达升高。

图2显示了与NPI相关的表达特征(NPI-ES)的鉴定：

a)使用移动NPI阈值确定差异表达基因。在每个阈值(x轴)鉴定了显示显著差异表达的基因(y轴)。使用阈值4，给出了最高数目的差异调控基因；

b)使用NPI-ES的ER+样品的分级聚类。红条指示低NPI的样品(＜4)，蓝条指示高NPI的样品；

c)使用NPI-ES的ER+肿瘤样品的分类和预测置信度。将样品根据它们的NPI值(X轴)分类。使用加权表决将样品分类，并根据Golub等(13)计算每个样品的预测强度(Y轴)。认为预测强度＜0.3的样品分类是“不确定的”或“低置信度的”(灰色区域)。

图3显示了比较不同分类方案对ER+肿瘤的预后强度的KM存活分析。绿线代表(a)低NPI、(b)低NPIES表达水平、或(c)低“预后”特征(PES)表达水平，而粉红线代表高水平。(a)49个Rosetta ER+肿瘤，通过经典NPI分成“好的”预后(NPI＜3.4)(35个肿瘤)和“中等”预后(NPI＞3.4)(14个肿瘤)组的；(b)相同的49个Rosetta ER+肿瘤，通过NPI-ES分成表达高(24个肿瘤)和低(25个肿瘤)水平NPI-ES的组；(c)相同的49个Rosetta ER+肿瘤，通过70种基因“预后”特征分成“好的预后”组(27个肿瘤)和“差的预后”组(22个肿瘤)；(d)46个Stanford ER+肿瘤，通过NPI-ES分成表达高(13个肿瘤)和低(33个肿瘤)水平NPI-ES的组。

图S3显示了基于所有肿瘤且不管亚型使用44种基因组对肿瘤样品的分类和预测置信度。

图S8显示了Rosetta数据集的基因表达数据的分级聚类。顶部)展示肿瘤间相似性的树形图。彩色编码条指示相应基因特征的亚型。左边)276种基因的完整簇，含3个不同的基因簇。注意，有些ERBB2肿瘤表现与ER+肿瘤分离(红条)，但是在严格检查ERBB2+相关基因(密集图的放大)的表达后鉴定为ERBB2+。这是因为Rosetta微阵列具有的ER+亚型相关基因的数目比ERBB2亚型多得多。

图S9显示了Rosetta ER+样品(49)根据NPI-ES表达水平的的分级聚类(在Rosetta的62种基因的数据中找到46个匹配)。彩色条的定义见图2b。

图S10显示了Stanford乳瘤的分级聚类。顶部)展示肿瘤间相似性的树形图。彩色编码条指示相应基因特征的亚型。左边)136种基因的完整簇，含3个不同的基因簇。

图S11显示了使用NPI-ES的Stanford 46个ER+样品的分级聚类(62种基因中有31个匹配)。彩色条的定义见图2b。

图S12显示了ER-和ERBB2+分子亚型中NPI-ES表达与NPI状态的关系。ER-和ERBB2肿瘤的NPI状态通常高于ER+肿瘤。与ER+肿瘤的情况不同，我们未能对ER-和ERBB2+亚型鉴定出在高和低NPI肿瘤中受到差异调控的SAM基因。还有，NPI-ES似乎与NPI值也没有关联，而NPI值与其它分子亚型是相关的。

图S13显示了阿霉素治疗(Perou等，2000)“之前”和“之后”14周获得的20对样品。在20个“治疗前”样品中，10个样品展示高水平的NPI-ES表达(H)，10个展示低水平的表达(L)。在前10个样品中，6个在化疗后维持高水平的表达(H-＞H，以红色描绘)，4个在治疗后展示低水平的表达(H-＞L，以黄色描绘)。

图S14显示了使用贡献图S13中20个样品的患者制作的Kaplan-Meier无复发存活分析曲线。

材料和方法

乳房组织和临床信息

人乳房组织是在由NCC Repository和道德委员会得到相应的批准后由NCC组织库获得的。肿瘤状态的组织学信息和雌激素受体(ER)和ERBB2免疫组化状态是由新加坡综合医院病理科提供的(见临床信息的补充信息)。样品含有至少50％的肿瘤含量。如下计算NPI状态：肿瘤大小(cm)*0.2+级别+淋巴结点数(阴性淋巴结＝1点；1-3个阳性淋巴结＝2点；4个或更多阳性淋巴结＝3点)。因为Stanford数据集中的肿瘤大小是使用CAT系统定义的，所以我们给每个CAT级别指派了一个近似值(即T1＝2cm，T2＝3.5，T3＝5，T4＝3.5)。

样品制备和微阵列杂交

使用Trizol试剂由组织提取RNA，并且为了使用U133A基因芯片进行Affymetrix基因芯片杂交依照制造商的指示进行加工。

数据加工和分析

使用Genedata Refiner对原始的芯片扫描结果进行质量控制，并通过清除其表达在所有样品中不存在的基因(即“A”call)进行过滤。将表达值进行log2转化，并通过将每个样品的所有剩余基因进行中值集中(median centering)而进行标准化。数据分析是使用GenedataExpressionist或常规电子数据表应用软件进行的。无监督数据集(图1，a-b)包含在所有精确测量的样品间显示＞1.5的标准偏差(SD)的基因。用于基因选择的变异滤器(variation filter)的微弱变异也产生非常相似的结果(P.Tan，未发表的数据)。清除分析中用于相同基因的探针副本，保留每种基因一种探针。使用CLUSTER进行平均连锁分级聚类(average-linkage hierarchical clustering)，并使用TREEVIEW显示。执行微阵列显著性分析(SAM)(12)以鉴定受到差异调控的基因。图1c的“假发现率”是0.1％，图2的是15％。如Golub等(13)所述计算加权表决(WV)、排除一项检查验证(LOOCV)测定法和预测强度(PS)(补充信息)。使用SPSS生成Kaplan-Meier存活曲线，并使用对数-排序(log-rank)测试计算存活曲线差异的统计学显著性。通过卡方分析(chi-square analysis)测定基因表达与临床变量之间的统计学相关性。

加权表决(WV)和排除一项交叉验证(LOOCV)测定法的描述

加权表决(WV)：加权表决算法采用信噪比(S2N)度量来进行二元分类。给属于预测物组的每种基因分派“选票”，表述为待分类样品中的基因表达水平与平均类型平均表达水平之间的加权差异。权重是使用如下相关度量确定的：

P (g, c) = \frac{μ_{1} - μ_{2}}{σ_{1} + σ_{2}}

(μ和σ表示基因在两种类型的每一种中的表达水平的平均值和标准偏差)。确定特定类型的最终表决是通过将类型区别中所使用的每种基因的所有加权选票求和而计算出来的。“预测强度”(PS)定义为：

其中V_胜和V_败分别指获胜或失败类型的总票数。PS反映了获胜的相对幅度，从而定量反映了预测的确定性。

排除一项交叉验证(LOOCV)：我们使用标准的排除一项交叉验证(LOOCV)方法来评估练习组(training set)的分类精确度。在LOOCV中，首先将练习组的一个样品“排除在外”，并对剩余样品进行分类操作(例如基因选择和分类练习)。然后使用经过训练的(trained)算法将“排除”的样品分类，并对练习组的所有样品重复这个过程。

结果和讨论

使用无监督聚类定义乳癌的分子亚型

有人提出乳癌中显著比例的内在基因表达变异可能促成了属于不同“分子亚型”的不同肿瘤(例如ER+和ER-肿瘤)(8-9，14)。在不管亚型处理肿瘤的最初分析中，我们未能信服的鉴定出与NPI有关的表达特征。我们假设这可能是因为亚型间基因表达的显著差异(亚型间差异)可能掩盖了更加微妙的亚型内变异(亚型内差异)。为了绕开这个问题，我们执行了这样一种方法学，其中作为独立的数据集对待每种分子亚型。简而言之，首先使用多个无监督聚类技术广泛的将一组乳瘤表达谱根据它们各自的“分子亚型”类别分开。然后，独立分析每个亚型内的肿瘤以确定可能与NPI或其组成元素有关的表达特征。

我们使用Affymetrix U133A基因芯片对来自我们当地主要中国患者群的98个散发乳瘤生成了表达谱。将数据标准化和预加工后，我们使用标准偏差滤器(filter)鉴定出在肿瘤系列间显示高度基因表达变异的367种基因组，并使用该基因组通过无监督分级聚类将肿瘤表达谱根据它们的总体相似性分组。乳瘤自我分成三个主要的亚组，分别称为ER+、ER-和ERBB2+(图1a)。这种分开型式通过主成分分析(PCA)得到了确认，PCA是一种独立的分析技术(图1b)，它给出了高度相似的结果。为了有力的鉴定这些分组，我们使用SAM(12)来鉴定在亚型间差异表达的基因。在FDR(“假发现率”)为0.1％时，我们鉴定出以亚型特异方式受到显著调控的409种基因(图1c)。

表S5列出了通过SAM鉴定为在每种分子亚型(ER+、ER-、ERBB2+)中显著调控的前50种基因。基因按照它们的S2N相关比排序，这反映了在不同组间观察到的表达扰动的程度。这些基因与其它研究(8-11)报告的相似列表之间具有很好的重叠。

409种基因组中的大约69％在ER+亚组中显示表达升高，包括雌激素受体基因ESR1和受雌激素调控的基因，诸如LIV1、TFF1和MYB(补充信息)。与其它研究一致的是，在这种亚型中也观察到GATA3、HNF3a、膜联蛋白A9和XBP1的高表达水平(8-9，11)。ER-亚组与基底乳房上皮标志物(角蛋白5和17)、基底膜蛋白ladinin1、丝氨酸蛋白酶KLK5(已经将其与差的疾病预后联系起来(15))、和丝氨酸蛋白酶抑制物maspin(先前报告以ER相反方式表达的三苯氧胺可诱导的一种基因(16))的高表达有关。最后，ERBB2+亚型与ERBB2受体和与17q基因座物理连锁的其它基因诸如GRB7和PMNT(14)的高表达水平有关，说明存在DNA扩增。然而，大多数在ERBB2+亚型中特异显示表达升高的基团未能限制于17q基因座，而是发现遍布基因组，诸如S100钙结合家族的成员(S100A8、A9)。总之，我们的结果验证和确认了先前关于大多数乳瘤确实可以根据它们的总体基因表达谱细分成不同分子亚型的报告。

ER+肿瘤中与NPI有关的预后组的鉴定

我们把焦点集中在属于ER+分子亚型的34个肿瘤，并试图在该亚型内鉴定出其表达可能与NPI状态有关的基因。经典的是，通常将乳癌患者根据NPI分成3个主要的组：“好的”预后(NPI＜3.4)，“中等”预后(NPI 3.4-5.4)，和“差的”预后(NPI＞5.4)(2)。可能反映了不同评分病理学家间可变性的影响，其它研究提出了定义这些组的截止值的略微不同数值(17)。为了在确定适当的NPI截止值时避免任何潜在偏差，我们进行了移动阈值分析，其中将ER+肿瘤根据NPI阈值分成一系列二元组，而NPI阈值由2.3稳步升高至7.8。在每个阈值，鉴定在两个组之间显示显著表达变异的基因。我们发现，使用NPI截止值3.8-4.6得到了62种差异表达基因的基因组(图2a)，其中大多数在高NPI的ER+样品中显示升高的表达(图2b)。我们将这62个成员的基因组称为“NPI表达特征”或NPI-ES，并显示于表S6。属于NPI表达特征的基因与牵涉瘤发生的广泛细胞功能有关，包括DNA复制和细胞分裂(APRT、MCM4、KNSL1、CDC2)、细胞信号(趋化因子配体1、Met、ShC)、凋亡(生存蛋白(survivin)、CD27结合蛋白)、和细胞粘附(复盘，大同系物7、tetraspanl)。在个别NPI成分(肿瘤大小、肿瘤等级、淋巴结状态)中，肿瘤等级似乎代表了NPI-ES的分子组成的主要贡献者(补充信息)。

肿瘤通过NPI-ES的分类限定了两个独立(discrete)的分子组

有人提出分子谱用于肿瘤分类的一项优势是将分类的置信度水平在数学上量化的能力(11)，这在分类影响后续治疗过程的情况中特别重要。在这种情况中，主治医师就能够针对特定干预的潜在发病率权衡预测的置信度。注意，虽然在我们的数据集中ER+样品与连续的经典NPI数值范围(2-8)有关，但是使用NPI-ES进行的聚类分析似乎将ER+肿瘤分成两个独立的组(图2b)，这提出了根据组织病理学参数显示连续数值的样品可能在分子水平分成独立类别的可能性。

为了更好的确定NPI-ES信服的区别显两种类型的能力，我们使用加权表决(13)，即一种监督学习算法来鉴别展示高和低表达的NPI-ES的肿瘤，并使用已经建立的排除一项交叉验证(LOOCV)测定法测试练习后的算法的分类精确度。除了分类精确度以外，还如Golub等(13)所述计算了定量度量(预测强度，PS)以提供预测置信度的评估(图2c)。WV分析揭示了NPI-ES给出的LOOCV分类精确度是91％，有3个错误分类。在错误分类的这3个样品中，2个与低预测强度(PS＜0.3)有关，从而代表“低置信度”或“不确定”分类。事实上，在与“高置信度”(PS＞0.3)分类有关的29个(总数34个)ER+肿瘤中，只有一个样品是错误分类的。这些结果说明NPI-ES可用于将我们数据集中大多数ER+肿瘤以高置信度分成独立的组。

使用所有肿瘤不管亚型产生NPI表达特征

我们使用两步法限定了NPI-ES。首先，使用无监督聚类将肿瘤依照它们各自的“分子亚型”(即ER+、ER-、ERBB2+)聚簇。对每个亚型内的肿瘤分析可能与NPI有关的表达特征。在这里，我们显示了进行第一步(定义截然不同的分子亚型)在鉴定NPI-ES中是重要的。

不管分子亚型我们收集了由所有79个肿瘤组成的数据集，并如上所述进行移动NPI阈值分析以定义“恰当”的NPI阈值(见图2a)。我们发现使用NPI阈值4得到了总共44种差异表达的基因。在这44种基因组中，16种(35％)也属于NPI-ES(它们衍生自ER+样品)。

我们使用加权表决(WV)和排除一项交叉验证(LOOCV)测定法评估了这44种基因组信服的将肿瘤样品分为独立组的能力。由图S3可以看出，低置信度(PS＜0.3，红色区域)样品的数目以及错误分类率(对于44种基因组是9％)与图2c相比都显著升高。这一结果指示基于所有79个肿瘤，该44种基因组在预测肿瘤NPI状态时不如NPI-ES对ER+肿瘤有效。

在图S3，将样品根据它们的NPI值(X轴)分类。使用加权表决进行样品分类，并根据Golub等(13)计算每个样品的预测强度(Y轴)。认为预测强度＜0.3的样品分类是“不确定的”或“低置信度的”(灰色区域)。与图2c相比观察到了更大数目的“不确定”(低PS)样品和错误分类。

不管亚型由所有肿瘤衍生的44种基因组不如NPI-ES在对独立数据集预测NPI状态时有效。使用Rosetta数据集作为盲测集，我们对在Rosetta数据集中的49个ER+肿瘤运用44基因组，并使用Student′s t检验来确定表达高水平的44种基因组和具有高NPI的ER+肿瘤之间的关联显著性。我们对44种基因组得到的p值是0.29，其显著性比NPI-ES的p值0.0004低得多。

有趣的是，尽管衍生自对ER+肿瘤的分析，NPI-ES要优于44种基因组，甚至在应用于Rosetta数据集中的所有78个肿瘤时。为了证明这一点，将78个Rosetta肿瘤分成NPI＜3.4(好的预后)和NPI＞3.4(中等预后)的两组。然后使用加权表决将Rosetta肿瘤根据NPI-ES或44种基因组分类。由表S3可以看出，NPI-ES给出的分类精确度是80％，与之相比44种基因组给出的分类精确度是70％。

与组织学等级(1和2对3)有关的基因

因为经典的NPI是由肿瘤等级、肿瘤大小、和淋巴结状态衍生的复合度量，所以我们定义了这些元素中每一个对NPI-ES分子组成的贡献。在使用SAM鉴定与三个组织病理学变量有关的基因时，我们未能信服的鉴定出其表达与肿瘤大小或淋巴结状态显著相关的基因。相反，在组织学等级的情况中，发现大量的基因在1或2级与3级肿瘤之间差异表达，而且这个等级相关基因组中的基因与NPI-ES充分重叠(66％)(表S6)。这些结果说明显示不同组织学等级的肿瘤可能在生物学上是不同的，而且肿瘤等级是NPI表达特征的关键贡献者，而其余两个参数(肿瘤大小和淋巴结状态)给出相对较低的贡献。

NPI-ES在多个独立乳癌表达数据集间的应用

为了测试NPI-ES在一系列盲“测试组”中预测NPI状态和疾病预后二者的能力，我们使用公众可获得的两个独立乳癌数据集。第一个数据集(称为Stanford数据集)由使用基于寡核苷酸的微阵列描绘(profiled)的78个淋巴结阴性乳瘤组成，而且还包含每位患者的“无病存活”(DFS)持续时间(由最初诊断出肿瘤至出现新的远程转移的时间)(10)。重要的是，先前的几项研究显示NPI甚至在淋巴结阴性乳癌中也是预后值(18，19)。第二个数据集由使用cDNA微阵列描绘(profiled)的78个乳癌组成，还包含总体患者存活信息(称为Stanford数据集)(14)。获得了这些数据集容许我们独立测试NPI-ES的预测能力，因为Roset ta和Stanford数据集在多个方面与我们的数据集有所不同，包括：I)患者群；II)样品操作方案；III)评分的病理学家；和IV)阵列技术和探针组的选择(Rosetta和Stanford数据集中是双色，而我们的数据集中是单色)。

Rosetta乳癌数据集：在通过SAM分析鉴定出的限定ER+、ER-、和ERBB2+亚型的409种基因中，276种基因(67％)也存在于Rosetta微阵列中。我们将此基因组应用于78个Rosetta肿瘤谱，并鉴定出属于ER+分子亚型的49个肿瘤，确定了在属于NPIES的62种基因中有46种也存在于Rosetta微阵列中。因为Rosetta数据集是以与我们不同的阵列技术为基础的，所以不可能直接将训练后的以我们的数据集开发的加权表决模型直接用于将Rosetta肿瘤分类。

然而，依照Rama swamy等(20)中描述的用于比较不同阵列技术间基因组的策略，我们使用重叠NPI-ES集的46种基因通过分级聚类将49个ER+Rosetta肿瘤分组。聚类分析将49个ER+Rosetta肿瘤分成2组，分别由24个和25个显示“高”和“低”表达水平的NPI-ES的肿瘤组成(见图S9)。

我们比较了这两个亚组中的肿瘤以确定它们是否与它们的NPI值差异有关。使用两种不同的统计方法，或是将肿瘤NPI值看作一个连续梯度(Student′s t检验)或是将其看作两个独立的组(卡方分析，使用经典的NPI截止值3.4)，与表达低水平NPI-ES的肿瘤相比，显示高表达NPI-ES的肿瘤一致展示显著更高的NPI值(连续分析的p＝0.0004，二元分析的p＝0.0087)(表1a)。这项分析指示甚至在通过不同阵列技术产生的独立数据集中，NPI-ES的表达在ER+肿瘤中与经典NPI状态显著相关。

为了比较NPI-ES和经典NPI分段系统的预后能力，进行了优势比(odds-ratio)计算(表1b)。与表达低水平NPI-ES的ER+肿瘤相比，具有表达高水平NPI-ES的ER+肿瘤的患者在五年内远程转移的优势比是10.3(95％CI2.4-44.0，p＜0.001)。比较而言，与NPI指数＜3.4(“好的”预后)的ER+肿瘤相比，具有经典NPI指数＞3.4(“中等”预后)的ER+肿瘤的患者具有较低的远程转移优势比6.1(95％CI1.6-23.4，p＝0.06)。我们还使用Kaplan-Meier存活分析比较了NPI-ES和NPI的预后性能(图3)。与其它研究一致，与具有较高NPI(＞3.4)的患者相比，具有低NPI(＜3.4)肿瘤的患者展示更好的DFS(p＝0.007，图3a)。在通过NPI-ES将相同群体分组时，与具有低水平表达NPI-ES的肿瘤的患者相比，具有显示高表达NPI-ES的肿瘤的患者显示更好的无复发存活(p＝0.0007)。总之，这些数据说明对于ER+肿瘤而言，NPI表达特征的预后能力可能优于经典NPI分段系统。

Stanford数据集：使用相似方法以Stanford数据集测试NPI-ES(见图S10)。在用于限定ER+、ER-、和ERBB2+亚型的SAM-409基因组中，136种基因存在于Stanford微阵列上(http://genome-www5.stanford.edu/MicroArray/SMD/)，而且使用这些基因将Stanford肿瘤聚类，鉴定出属于ER+分子亚型的46个肿瘤(由弃掉正常样肿瘤亚组的6个肿瘤后的72个肿瘤，所述亚组可能是由于存在污染性非恶性组织)。

然后使用NPI-ES(在Stanford微阵列上31个匹配)将这46个肿瘤聚类(见图S11)成“高NPI-ES”(13个肿瘤)和“低NPI-ES”组(33个肿瘤)。Student′s t检验再次揭示了高和低表达NPI-ES亚组与经典NPI状态之间的显著关联(P＝0.001)(表1a)。另外，KM存活分析也证明了具有低NPI-ES表达肿瘤的患者相对于具有高NPI-ES表达肿瘤的患者的显著(p＝0.0493)总体存活优势(图3d)。

有趣的是，表达高水平NPI-ES的ER+肿瘤与Sorlie等(14)中鉴定的“Luminal C”分子亚型之间似乎存在强大相关性，尽管属于NPI-ES的62种基因都没有报告在后者中表达。有趣的是，Sorlie等(14)先前报告了根据500种基因的“内在”集鉴定“Luminal C”亚型。“LuminalC”肿瘤与表达高水平NPI-ES的肿瘤之间似乎存在强大重叠(96％)，尽管如上所述没有在此“内在”集中发现属于NPI-ES的所有62种基因。这列于S11。

NPI-ES的预后能力与先前描述的关于乳癌“预后特征”相当

在Van Veer等(10)的相同研究中，作者还鉴定了预测乳瘤DFS状态的70种基因的“预后”表达特征(PES)。有趣的是，属于NPI-ES和PES的基因存在极小重叠，在两组基因间只发现一种共有基因。为了比较NPI-ES和PES对Rosetta ER+肿瘤的预后性能，我们使用KM存活分析来比较通过NPI-ES(图3b)或PES(图3c)分类的患者的DFS。在PES(p＝0.0001)中观察到比NPI-ES(p＝0.0007)略好的性能。然而，与PES有关的稍微的改善并未出乎意料，因为PES的鉴定是直接以这些相同肿瘤的表达谱和临床信息为基础的。因此，Rosetta肿瘤对PES而言不是“盲”的，而在NPI-ES的情况中，Rosetta肿瘤代表了完全独立的测试组。事实上，在将PES和NPI-ES应用于Stanford ER+肿瘤时，两种分子特征对5年内复发给出了高度相似的优势比(PES的3.9对NPI-ES的4.17)(表1c)。由此，这些结果说明NPI-ES和PES的预后能力比较相当。

NPI-ES分子特征的表达预测化疗响应

在这些分析中，我们检验了化疗前后成对乳瘤样品的NPI-ES分子特征的表达，并将这种特征的表达与最终的临床响应联系起来。

采用的是公众可获得的乳癌数据集(“Stanford”)，由阿霉素治疗“之前”和“之后”14周获得的20对样品组成(8)。在NPI-ES的62种基因中，31种基因也存在于Stanford微阵列上，并且检验了这31种基因组在成对样品中的表达。

在20个“治疗前”样品中，10个样品显示高水平的NPI-ES表达(H)，10个显示低水平的表达(L)。如图S13所示，在前10个样品中，6个在化疗后维持高水平的表达(H-＞H，以红色描绘)，4个在治疗后展示低水平的表达(H-＞L，以黄色描绘)。然后将每个组的死亡数目(5年后)列表，正如表S12所示。

然后进行了Kaplan-Meier无复发存活分析，并显示于图S14。我们发现，与其它组相比，“H-＞L”肿瘤具有最好的存活结果(p＝0.022)，而“H-＞H”肿瘤具有较差的预后。这个结果说明NPI-ES在高表达NPI-ES肿瘤中的下调可以看作是化疗响应的标志。

总之，我们鉴定出62种基因的表达特征，可以潜在发挥NPI分子替代品的功能。通过显示NPI-ES能够对由不同中心生成的两个独立肿瘤组预测NPI状态和疾病预后，得到了它的可靠性的置信度。由这项研究显现的一个有趣的概念是，在组织病理学水平显示表观连续变量的样品却可能可以在分子水平分成独立类别。这可能解决了癌症组织病理学中的一个主要挑战，即当评估的参数具有连续特性时难以限定临床上恰当的截止值。我们承认在充分评估NPI-ES的临床效用前还有较多工作需要做。首先，NPI-ES的预测能力显然需要对更大的肿瘤组进行检验。

其次，尽管我们已经证明了NPI-ES在ER+分子亚型中的适用性，然而NPI-ES的表达与其它分子亚型(ER-、ERBB2+)有关的NPI值似乎没有同样的相关性(补充信息)。

样品数据

表S14显示了不同NPI值样品间预后组(或NPI-ES)基因的表达数据。该数据对于Affymetrix U133A基因芯片是特异的，而且已经进行了数据预加工。预后组的基因表达谱可以作为练习数据用于构建预测模型(例如WV和SVM)，然后可以确定未知肿瘤的NPI类型。

数据以制表符为界，而且具有如下格式：

列：

第1列：预后组基因的探针ID

第2列：基因名称

第3列和其它列：基因表达数据

行：

第1行：样品Id(35份样品)

第2行：NPI指数

第3行和其它行：基因表达数据

基因表达数据是如“样品制备和微阵列杂交”和“数据预加工”(见材料和方法部分)中所述产生的。具体而言，使用用于测量微阵列的仪器(通常是微阵列扫描仪，例如Affymetrix)计算原始基因表达数据数值。

表S15显示了每种类型的每种预后组基因在进行加权表决算法时所使用的平均值(μ)和标准偏差(σ)参数。给予一组预后组中基因的表达水平，这些数据可用于确定未知乳瘤样品的预后。该数据对于加权表决技术特异，这种技术应用于来自Affymetrix U133A基因芯片的表达数据。

参考文献

1.Elston，C.W.and I.O.Ellis.Pathological prognosticfactors in breast cancer：I.The value of histological gradein breast cancer-Experience from a large study with long-term follow-up.Histopathology 19，403-410，1991.

2.Galea，M.H.，R.W.Blamey，C.W.Elston，and I.O.Ellis.The Nottingham Prognostic Index in primary breastcancer.Breast Cancer Res Treat.22，207-219，1992.

3.Ellis，I.O.，M.Galea，N.Broughton，A.Locker，R.W.Blamey，and C.W.Elston.

Pathological prognostic factors in breast cancer.II.Histological type.Relationship with survival in a largestudy with long-term follow-up.Histopathology 479-489，1992.

4.Balslev，I.，C.K.Axelsson，K.Zedeler，B.B.Ramussen，B.Carstensen，and H.T.Mouridsen.The NottinghamPrognostic Index applied to 9，419 patients fromthe studiesof the Danish Breast Cancer Cooperative Group (DBCG).BreastCancer Res.Treat.32，281-290，1994.

5.Sauerbrei，W.，K.Hubner，C.Schmoor，and M.Schumacher.Validation of existing and development of new prognosticclassification schemes in node negative breast cancer.Breast Cancer Res.Treat.42，149-163，1997.

6.Gilchrist，K.W.，L.Kalish，V.E.Gould，S.Hirschl，J.E.Imbriglia，W.M.Levy，A.S.Patchefsky，D.W.Penner，J.Pickren，J.A.Roth，and e.al.Interobserverreproducibility of histopathological features in stage IIbreast cancer.An ECOG study.Breast Cancer Res.Treat.5，3-10，1985.

7.Buettner，P.，C.Garbe，and Guggenmoos-Holzmann.Problemsin defining cutoff points of continuous prognostic factors：Example of tumour thickness in primary cutaneous melanoma.JClin.Epidemiology 50，1201-1210，1997.

8.Perou，C.M.，T.Sorlie，M.B.Eisen，v.d.R.M.，S.S.Jeffrey，C.A .Rees，J.R.Pollack，D.T.Ross，H.Johnsen，L.A.Akslen，O.Fluge，A.Pergamenschikov，C.Williams，S.X.Zhu，P.E.Lonning，A.L.Borresen-Dale，P.O.Brown，and D.Botstein.Molecular Portrai ts of HumanBreast Tumours.Nature 406，747-752，2000.

9.Gruvberger，S.，M.Ringner，Y.Chen，S.Panavally，L.H.Saal，A.Borg，M.Ferno，C.Peterson，and P.Meltzer.Estrogen Receptor Status in Breast Cancer is Associatedwith Remarkably Distinct Gene Expression Patterns.CancerResearch 61，5979-5984，2001.

10.van′tVeer，L.J.，H.Dai，M.J.van de Vijver，Y.D.He，A.A.M.Hart，M.Mao，H.L.Peterse，K.van der Kooy，M.J.Marton，A.T.Witteveen，G.J.Schreiber，R.M.Kerkhoven，C.Roberts，P.S.Linsley，R.Bernards，and S.H.Friend.Gene expression profiling predicts clinical outcomeof breast cancer.Nature 415，530-536，2002.

11.West，M.，C.Blanchette，H.Dressman，E.Huang，S.Ishida，R.Spang，H.Zuzan，J.A.J.Olson，J.R.Marks，andJ.R.Nevins.Predicting the clinical status of human breastcancer by using gene expression profiles.Proc Natl Acad Sci98，11462-11467，2001.

12.Tusher，V.G.，R.Tibshirani，and G.Chu.Significanceanalysis of microarrays applied to the ionizing radiationresponse.Proc Natl Acad Sci 98，5116-5121，2001.

13.Golub，T.R.，D.K.Slonim，P.Tamayo，C.Huard，J.P.Gaasenbeek，H.Coller，M.L.Loh，J.R.Downling，M.A.Caligiuri，C.D.Bloomfield，and E.S.MolecularClassification of Cancer：Class Discovery and ClassPrediction by Gene Expression Monitoring.Science 286，531-537，1999.

14.Sorlie，T.，C.M.Perou，R.Tibshirani，T.Aas，S.Geisler，H.Johnsen，T.Hastie，M.B.Eisen，M.van de Rijn，S.S.Jeffrey，T.Thorsen，H.Quist，J.C.Matese，P.O.Brown，D.Botstein，P.E.Lonning，and A.L.Borresen-Dale.Gene Expression Patterns of Breast Carcinomas DistinguishTumour Subclasses with Clinical Implications.Proc.Natl.Acad.Sci.98，10879-10874，2001.

15.Yousef，G.M.，A.Scorilas，L.G.Kyriakopoulou，L.Rendl，M.Diamandis，R.Ponzone，N.Biglia，M.Giai，R.Roagna，P.Sismondi，and E.P.Diamandis.Human kallikreingene 5(KLK5)expression by quantitative PCR：anindependent indicator of poor prognosis in breast cancer.Clin Chem 48，1241-1250，2002.

16.Martin，K.J.，B.M.Kritzman，L.M.Price，B.Koh，C.P.Kwan，X.Zhang，A.Mackay，M.J.O′Hare，C.M.Kaelin，G.L.Mutter，A.B.Pardee，and R.Sager.Linking geneexpression patterns to therapeutic groups in breast cancer.Cancer Res.，60，2232-2238，2000.

17.Sundquist，M.，S.Thorstenson，L.Brudin，and B.Nordenskjold.Applying the Nottingham Prognostic Index to aSwedish breast cancer population.Breast Cancer Res Treat53，1-8，1999.

18.Barbareschi，M.，O.Caffo，S.Veronese，R.D.Leek，P.Fina，S.Fox，M.Bonzanini，S.Girlando，L.Morelli，C.Eccher，F.Pezzella，C.Doglioni，P.Dalla Palma，and A.Harris.Bcl-2and p53 expression in node-negative breastcarcinoma：a study with long-term follow-up.Hum.Pathol.27，1149-1155，1996.

19.Frkovic-Grazio，S.and M.Bracko.Long term prognosticvalue of Nottingham histological grade and its components inearly(pT1NOM0)breast carcinoma.J Clin Pathol 55，88-92，2002.

20.Ramaswamy，S.，K.N.Ross，E.S.Lander，and T.R.Golub.A molecular signature of metastasis in primary solidtumours.Nat Genet33，49-54，2003.

21.Travassoli，F.A.and Schnitt S.J.(1992)Pathology ofthe Breast In(Elsevier)

22.Eisen MB，Spellman PT，Brown PO，Botstein D.(1998)Cluster analysis and display of genome-wide expressionpatterns.Proc Natl Acad Sci USA.95(25)，14863-14868.

表1a)Rosetta和Stanford ER+肿瘤中NPI-ES表达和NPI状态的关系。第一列代表表达高或低水平NPI-ES的肿瘤的数目。

*括号中的数值代表样品数目。

表1b)根据经典NPI分段和NPI-ES表达得出的Rosetta ER+肿瘤五年内远程转移作为首次事件的优势比(odds ratio)

*优势比是使用标准2x2表计算的。CI代表“置信区间”。

表1c)根据PES表达和NPI-ES表达得出的Stanford ER+肿瘤五年内复发作为首次事件的优势比。有一个样品没有复发信息，因而排除在分析之外(剩下45个ER+肿瘤)。

*这个表包含这项研究中所使用的98个肿瘤中79个的临床信息。

其余19个肿瘤的临床信息是不完整的，没有包含在这个表中。只将具有完整临床信息的79个肿瘤用于随后NPI-ES分析。

表S3，NPI-ES给出的分类精确度是80％，与之相比，44种基因组给出的分类精确度是70％。

表S3：NPI-ES或44种基因组对78个Rosetta肿瘤的分类精确度

	NPI分类(＜3.4或＞3.4)
	NPI分类(＜3.4或＞3.4)		错误分类的数目(精确度)
44种基因	23(70％)		错误分类的数目(精确度)
44种基因	23(70％)	NPI-ES	15(80％)

表S5：在ER+、ER-和ERBB2+分子亚型中受到显著调控的前50种基因的列表

此表代表了通过SAM鉴定的在各个分子亚型(ER+、ER-、ERBB2+)中受到显著调控的前50种基因。基因以它们的S2N相关比排序，这反映了在不同组中观察到的表达扰动的程度。这些基因与其它研究(8-11)报告的类似列表之间存在较好的重叠(正文)。

表S6：属于NPI-ES的基因(62种基因)

DC13蛋白是能够在Rosetta 70种基因“预后”特征(PES，见正文)中匹配的唯一一种NPI-ES基因，之外Affymetrix U133A芯片中存在42种。

表S7：进行SAM以鉴定与等级显著相关的68种基因(FDR为14％，变化≥2倍)。在这些基因中45种(66％)也属于NPI分类物，在NPI-ES列中标以“是”。

表S11：Luminal A和Luminal C肿瘤与高和低NPI-ES表达的相关性(Luminal肿瘤是根据Sorlie等(2001)的结果鉴定的)

	Luminal A	Luminal C
	Luminal A	Luminal C	低NPI-ES	30	0
高NPI-ES	2	10	低NPI-ES	30	0

表S12：然后将每个组的死亡数目(5年后)列表如下：

	H-＞H	H-＞L	L-＞L	L-＞H
	H-＞H	H-＞L	L-＞L	L-＞H	总数	6	4	10	N/A
死亡	4	0	3	N/A	总数	6	4	10	N/A
死亡	4	0	3	N/A	AWD*	1	0	2	N/A

*AWD：有病存活

表S13：预后组与Rosetta 231种基因之间重叠的基因

编号相关性基因名称描述

NM_020188 -0.40007 DC13 DC13蛋白

NM_001168 -0.33813 BIRC5 杆状病毒含IAP重复序列5(生存蛋白)

NM_006763 0.345013 BTG2 BTG家族，成员2

NM_012177 -0.32571 FBX05 只有F盒蛋白5

NM_013296 -0.30129 HSU54999 LGN蛋白

Contig41413_RC -0.30837 RRM2 核糖核苷酸还原酶M2多肽

NM_018455 -0.33103 BM039 未鉴定的骨髓蛋白BM039

MAD2(有丝分裂停滞缺陷，酵母同系

NM_002358 -0.30251 MAD2L1 物)样1

表L1：预后组基因ID的查阅表

NPI-ES

探针ID GenBank Unlgene

200853_at NM_002106.1 Hs.119192

201483_s_at BC002802.1 Hs.79058

201487_at NM_001814.1 Hs.10029

201890_at NM_001034.1 Hs.75319

202095_s_at NM_001168.1 Hs.1578

202188_at NM_014669.1 Hs.155314

202580_x_at NM_021953.1 Hs.239

202833_s_at NM_000295.1 Hs.297681

203362_s_at NM_002358.2 Hs.79078

203510_at BG170541 Hs.316752

203687_at NM_002996.1 Hs.80420

203764_at NM_014750.1 Hs.77695

204444_at NM_004523.2 Hs.8878

204603_at NM_003686.1 Hs.47504

204623_at NM_003226.1 Hs.82961

204766_s_at NM_002452.1 Hs.388

205240_at NM_013296.1 Hs.278338

206110_at NM_003536.1 Hs.70937

206461_x_at NM_005951.1 Hs.2667

208433_s_at NM_017522.1 Hs.54481

208546_x_at NM_003524.1 Hs.249216

208581_x_at NM_005952.1 Hs.374950

208767_s_at AW149681 Hs.296398

209040_s_at U17496.1 Hs.180062

209114_at AF133425.1 Hs.38972

209398_at BC002649.1 Hs.7644

209806_at BC000893.1 Hs.247817

209832_s_at AF321125.1 Hs.122908

209924_at AB000221.1 Hs.16530

210052_s_at AF098158.1 Hs.9329

210559_s_at D88357.1 Hs.334562

210792_x_at AF033111.1 Hs.112058

211456_x_at AF333388.1 Hs.367850

212094_at BE858180 Hs.137476

212141_at X74794.1 Hs.154443

212185_x_at NM_005953.1 Hs.118786

212484_at BF974389 Hs.18686

212613_at AI991252 Hs.87497

213245_at AL120173 Hs.301663

213892_s_at AA927724 Hs.28914

214472_at NM_003530.1 Hs.143042

214614_at AI738662 Hs.37035

214768_x_at BG540628 Hs.406565

215214_at H53689 Hs.405944

217165_x_at M10943 Hs.381097

217755_at NM_016185.1 Hs.109706

218350_s_at NM_015895.1 Hs.234896

218447_at NM_020188.1 Hs.6879

218542_at NM_018131.1 Hs.14559

218875_s_at NM_012177.1 Hs.272027

219061_s_at NM_006014.1 Hs.18212

219493_at NM_024745.1 Hs.123253

219555_s_at NM_018455.1 Hs.283532

219650_at NM_017669.1 Hs.89306

220085_at NM_018063.1 Hs.203963

220238_s_at NM_018846.1 Hs.26481

221436_s_at NM_031299.1 Hs.30114

221521_s_at BC003186.1 Hs.433180

221539_at AB044548.1 Hs.433317

222037_at AI859865 Hs.319215

201236_s_at NM_006763.1 Hs.75462

210576_at AF133298.1 Hs.268554

Claims

1.用于确定乳癌患者预后的方法，其包括根据预后组基因在所述患者乳瘤中的表达水平来确定患者的预后，其中所述预后组包含表S6的至少5种基因。

2.依照权利要求1的方法，其中该预后组包含表S6的至少10、20、30、40、50、60种或所有基因。

3.依照权利要求1或2的方法，还包括确定肿瘤样品的雌激素受体(ER)状态的步骤。

4.依照权利要求3的方法，还包括确定肿瘤样品的ErbB2状态。

5.依照权利要求1-4任一项的方法，包括步骤：

(a)由患者获得乳瘤样品；并

(b)测量预后组基因在样品中的表达水平。

6.依照权利要求5的方法，其中步骤(b)包括使由样品获得的所述表达产物接触能够与表达产物结合的多种结合成员，其指示预后组基因表达，其中可以测量这种结合。

7.依照权利要求6的方法，其中结合成员是互补核酸序列或特异抗体。

8.依照权利要求1-7任一项的方法，包括将乳瘤样品分类为高NPI或低NPI或者预后好或预后差。

9.依照权利要求1-8任一项的方法，其中确定预后的步骤是通过将所测试乳瘤样品的表达谱与先前获得的谱和/或先前确定的特定预后特征性标准谱进行比较而进行的。

10.依照权利要求9的方法，其中将先前获得的谱保存为谱的数据库。

11.依照权利要求1-10任一项的方法，还包括比较预后组在治疗前后在乳瘤样品中的表达水平以检测表达谱的变化，其是预后改善或恶化的指示。

12.用于确定乳瘤样品预后的装置，其包含附着了多种结合成员的固体支持物，每种结合成员能够与预后组基因之一的表达产物特异且独立结合，其中预后组包含表S6的至少5种基因。

13.依照权利要求12的装置，其中预后组包含表S6的至少5、10、20、30、40、50、60种或所有基因。

14.依照权利要求12或13的装置，其中固体支持物上只附着了能够与表S6中所示的基因的表达产物特异且独立结合的结合成员。

15.依照权利要求12-14任一项的装置，包括核酸微阵列，其中结合成员是核酸序列。

16.用于确定乳癌患者预后的试剂盒，其包含能够与预后组基因的表达产物特异结合的结合成员和检测试剂，其中预后组包含表S6的至少5种基因。

17.依照权利要求16的试剂盒，其中预后组包含表S6的至少10、20、30、40、50、60种或所有基因。

18.依照权利要求16或17的试剂盒，还包含数据分析工具，其中数据分析工具是计算机程序。

19.依照权利要求18的试剂盒，其中数据分析工具包括适于区别不同预后的肿瘤的表达谱的算法。

20.依照权利要求16-19任一项的试剂盒，包含来自具有已知预后的乳瘤样品的表达谱和/或特定预后特征性的表达谱。

21.依照权利要求16-20任一项的试剂盒，包含依照权利要求12-15任一项的装置。

22.依照权利要求16-20任一项的试剂盒，包含能够与预后组基因的表达产物结合从而能够在PCR中扩增它们的核苷酸引物。

23.为乳瘤样品生成核酸表达谱的方法，包括步骤：

(a)由所述乳瘤样品分离表达产物；

(b)鉴定预后组基因的表达水平，其中预后组基因包含表S6的至少5种基因；并

(c)由表达水平生成所述乳瘤样品的表达谱。

24.依照权利要求23的方法，其中预后组包含表S6的至少10、20、30、40、50、60种或所有基因。

25.依照权利要求23或24的方法，包括将表达谱加入基因表达谱数据库。

26.依照权利要求23-25任一项的方法，还包括将表达谱与特定预后特征性的第二表达谱或多个第二表达谱进行比较。

27.依照权利要求26的方法，包括步骤：

(a)由第一乳瘤样品分离表达产物，使所述表达产物接触能够与预后组的表达产物特异且独立结合的多种结合成员，并由预后组在肿瘤样品中的表达水平生成第一表达谱；

(b)由已知预后的第二乳瘤样品分离表达产物，使所述表达产物接触能够与步骤(a)的预后组的表达产物特异且独立结合的多种结合成员，以生成相当的第二乳瘤样品表达谱；

(c)将第一和第二表达谱进行比较以确定第一乳瘤样品的预后。

28.包含多个乳瘤样品基因表达谱的表达谱数据库，其中基因表达谱衍生自预后组基因的表达水平，其中预后组基因包含表S6的至少5种基因，所述数据库以可获取的方式保存在数据载体上。

29.依照权利要求28的表达谱数据库，其中预后组包含表S6的至少10、20、30、40、50、60种或所有基因。

30.依照权利要求28或29的表达谱数据库，其中表达谱是核酸表达谱。

31.依照权利要求28-30任一项的表达谱数据库，其中表达谱按照来源肿瘤的ER状态分类。

32.用于鉴定在一组肿瘤中差异表达的一组基因的方法，其包括提供该组的多个肿瘤的每一个的表达谱，将谱根据肿瘤的分子亚型分类，并在亚型内分析表达谱以鉴定区别组基因，其中区别组的基因在该亚型内差异表达。

33.依照权利要求32的方法，还包括步骤：确定患者的肿瘤样品的类型，其中区别组基因的差异表达是该类型特征性的，该步骤包括提供区别组在样品中的表达水平，并根据该表达水平确定肿瘤类型。

34.依照权利要求32或33的方法，包括步骤：测定区别组基因在肿瘤样品中的表达水平，由表达水平确定表达谱，并将谱加入数据库。

35.依照权利要求32-34任一项的方法，其中还鉴定了肿瘤样品的分子亚型并将其加入数据库。

36.依照权利要求32-35任一项的方法，包括提供肿瘤在不同治疗阶段的表达谱，并比较所述表达谱以确定预后类型的变化，其中表达谱产生自区别组基因的表达水平。

37.依照权利要求32-36任一项的方法，其中肿瘤是乳瘤且分子亚型对应于肿瘤的ER状态。