CN101743327A

CN101743327A - 黑色素瘤的预后预测

Info

Publication number: CN101743327A
Application number: CN200880024863A
Authority: CN
Inventors: M·A·布莱克; J·塞本; P·J·吉尔福德; T·约翰
Original assignee: Pacific Edge Biotechnology Ltd; Ludwig Institute for Cancer Research New York
Current assignee: Pacific Edge Biotechnology Ltd; Ludwig Institute for Cancer Research New York
Priority date: 2007-05-24
Filing date: 2008-05-23
Publication date: 2010-06-16
Anticipated expiration: 2028-05-23
Also published as: DK3176270T3; NZ555363A; ES2821300T3; EP2158332B1; US10266902B2; EP2158332A4; JP2015061528A; SG10201509568QA; JP2017079765A; US20100136553A1; CN101743327B; AU2008253836B2; EP2158332A1; US8822149B2; HK1145342A1; TW200914623A; JP6404304B2; EP3176270B1; TW201500553A; TWI609967B

Abstract

本发明涉及预后标志物和预后标签，以及确定患者癌症(特别是黑色素瘤)预后的组合物和方法。具体地，本发明涉及基于标志物和标志物标签将遗传和蛋白质标志物用于预测癌症(如黑色素瘤)进展风险的用途。在多个方面，本发明提供了基于预后癌症标志物(尤其是黑色素瘤预后标志物)的方法、组合物、试剂盒和装置，以辅助预后和治疗癌症。

Description

黑色素瘤的预后预测

相关申请

本申请要求于2007年5月24日递交的新西兰临时专利申请No.555363的权益，其全文并入本文作为参考。

发明领域

本发明涉及用于在患者中确定癌症(特别是黑色素瘤)预后的方法和组合物。具体地，本发明涉及基于预后标签(prognostic signatures)，使用遗传和蛋白质组标志物(marker)确定癌症(如黑色素瘤)的预后。

发明背景

在工业国家，黑色素瘤的发生率在过去25年间稳步上升，其中澳洲的发生率居世界最高¹。虽然察觉到的“黑色素瘤流行”最有可能代表了对薄的黑色素瘤的检测增加²，但是黑色素瘤主要影响年轻人群，导致生产寿命的损失，且仅次于儿童恶性肿瘤和睾丸癌^3，4。黑色素瘤在很大程度上对细胞毒性化疗⁵、生物剂^6，7及多种疫苗接种策略⁸无反应。小亚群的患者似乎可以受益于生物和/或细胞毒性化疗，但是先验性地鉴别这些患者在目前是不可能的，这就造成许多患者被迫接触相当大的毒性而受益概率低。

黑色素瘤一旦转移到局部淋巴结，70％的患者将在5年内死亡⁹。长期存活的患者亚群是独特的群体。目前无辅助疗法可提供总体的存活益处，虽然一些临床医师提供干扰素-α改善无疾存活¹⁰，但许多国际中心不提供临床试验之外的主动辅助治疗。预测哪些患者不管是否应用辅助疗法皆可表现良好，将可以防止不必要的毒性，并使得能够研发出靶向更可能获益人群的更佳治疗策略。在辅佐临床试验中对患者更好的分层将会减少I型和II型两类错误。ECOG 1684研究的后续12年更新及其他随机化研究已经表明干扰素-α改善III期黑色素瘤的TTP但不改善总体存活^5，10，11。患者群内固有的异质性现已被充分认识到但尚且不能控制，该异质性可能会粉碎在最初ECOG 1684研究¹⁰及其他较小II期研究中所见到的有希望的存活效果。对更可能复发的那些患者进行分层可以平衡这种异质性，并允许更精确地对治疗进行比较。

需要进一步的工具来预测黑色素瘤的预后。本发明提供基于预后癌症标志物(尤其是黑色素瘤预后标志物)以辅助预后和治疗癌症的方法、组合物、试剂盒和装置。

发明概述

在某些实施方案中，提供经鉴定在具有良好预后的黑色素瘤和具有不良预后的黑色素瘤中差异表达的标志物基因集。该基因集可用来产生包含两个或更多个标志物、能够预测患者黑色素瘤的进展速度的预后标签。

单个的标志物个体可能随肿瘤进展快速与否而差异表达。通过将标志物组合在一起成为预后标签，可以增强预测的准确度，提供比单基因分析法有效得多的单独检验。此外，本发明还提供，诸如统计学、机器学习、人工智能和数据挖掘等技术在预后标签上的应用，从而生成预测模型。在另一实施方案中，随后可以将预测模型应用于患者肿瘤中特定预后标签的标志物的表达水平上，以确定预后。

在某些实施方案中，标志物的表达水平可利用微阵列方法、定量聚合酶链式反应(qPCR)或免疫测定法来确立。

特别地，本发明提供了确定患者黑色素瘤预后的方法，包括步骤：

(i)在来自患者的黑色素瘤肿瘤样品中确定黑色素瘤预后标志物(MPM)的表达水平、或者包含两个或更多个MPM的预后标签的表达水平，

(ii)应用预测模型，所述模型通过对预后良好和不良的肿瘤样品中该MPM或预后标签的表达水平应用预测方法而确立，

(iii)确立预后。

可选地，本发明也提供了确定黑色素瘤患者进行药物试验的适宜性的方法，包括步骤：

(i)在来自患者的黑色素瘤肿瘤样品中确定MPM的表达水平、或者包含两个或更多个MPM的预后标签的表达水平，

(iii)确立患者对试验的适宜性。

根据这些方法的MPM可选自表1。预测方法选自线性模型(linearmodel)、支持向量机(support vector machine)、神经网络(neural network)、分类回归树(classification and regression tree)、集成学习方法(ensemblelearning methods)、判别分析(discriminant analysis)、近邻方法(nearestneighbor method)、贝叶斯网络(Bayesian network)、独立成分分析(independent components analysis)。

确定MPM或预后标签的表达水平可通过检测各基因的mRNA表达水平进行，例如利用正向引物和反向引物实施qPCR方法。确定MPM或预后标签表达水平也可通过检测各基因的cDNA表达水平进行，例如利用与所述cDNA的至少一部分互补的核苷酸。此外，MPM或预后标签表达水平可通过检测各标志物的蛋白质表达水平、或通过检测各标志物的肽表达水平来确定，例如利用针对各标志物的抗体(如单克隆抗体或多克隆抗血清)。可利用夹心免疫测定法或ELISA试验。

本发明还提供用于确定黑色素瘤进展风险的预后标签，包括两个或更多个黑色素瘤预后标志物(MPM)。该预后标签的MPM可选自表1。

另一方面，本发明提供用于确定黑色素瘤预后的装置，包括：

其上具有一个或多个位置的基质，所述位置上具有两个或更多个寡核苷酸，每个寡核苷酸选自一个或多个MPM。

所述两个或更多个寡核苷酸可以是选自表1的MPM。

本发明还提供用于检测MPM的表达、或包含两个或更多个MPM的预后标签的表达的试剂在制备用于预测患者黑色素瘤预后的试剂盒中的用途。MPM可选自表1。

所述试剂可通过检测MPM mRNA或MPM cDNA的表达而检测该一个或多个MPM的表达水平。所述试剂可以是与MPM mRNA或cDNA的至少一部分互补的寡核苷酸。可选地，所述试剂可通过检测MPM蛋白质或肽的表达而检测该一个或多个MPM的表达水平。所述试剂可以是抗体，如单克隆抗体或多克隆抗血清。

所述试剂盒可适合于进行夹心免疫测定或ELISA试验。

附图的简短说明

本发明参照其具体实施方案并参照附图进行说明，其中：

图1图示了用来建立预测分值的22个基因(“黑色素瘤标志物”)。基因利用Mann-Whitney检验选择。

图2图示了差异表达基因的基因本体(Gene Ontology)分类及相关显著性。最显著本体(the most significant ontologies)由各类间重叠的基因数目来确定，即这许多基因既在该基因列表中又处于该类中为巧合的似然性。

图3为实验图解，包括训练集和两个独立应用的验证集A(运用qPS)和验证集B(运用aPS)。训练集用来开发预测基因，随后这些预测基因运用qPS应用于验证集A，和运用aPS应用于验证集B。

图4图示了用来创建参照cDNA的RNA，所述参照cDNA既用在阵列实验中，又在qPCR测定中用作比较器。

图5图示了使用通用探针文库的探针、用于qPCR的测定法。

图6图示了用于测试集和验证集A的患者特征。

图7图示了利用所有基因(A)和差异表达基因(B)进行的主成分分析，展示了15个基因分离良好(实心盒)与不良(空心盒)预后群的能力。这些基因用来开发基于阵列和qPCR的预测器。

图8图示了aPS(a-b)和qPS(c-d)在训练集上的应用，展示了其与TTP和总体存活的相关性。aPS仅利用了在阵列数据和qPCR数据之间具有最强相关性的15个基因，而qPS利用了具有最大的分离两群的能力的5个基因。

图9图示了对训练集和验证集A应用的qPS逻辑回归算法。在平均值处绘制水平线。

图10图示了第三独立集的良好和不良预后群的qPS分值的分布。

发明详述

定义

在详细说明本发明的实施方案之前，提供本文使用的一些术语的定义是有用的。

术语“标志物”指与生物学现象的存在定量或定性相关的分子。“标志物”的实例包括多核苷酸，如基因或基因片段、RNA或RNA片段；或基因产物，包括多肽，如肽、寡肽、蛋白质或蛋白质片段；或任何相关代谢物、副产物、或任何其他与现象潜在的机制直接或间接相关的鉴定分子，如抗体或抗体片段。本发明的标志物包括如本文公开的核苷酸序列(如GenBank序列)，特别是全长序列、任何编码序列、任何片段、或其任何互补物，及如上文定义的其任何可测量的标志物。

术语“MPM”或“黑色素瘤预后标志物”或“MPM家族成员”指具有与特定预后(例如如本文所述的，癌症向更晚期进展的较高或较低可能性)相关的改变的表达的标志物，但是可排除现有技术中已知的与黑色素瘤预后相关的分子。应当理解术语MPM并不要求该标志物仅特异于黑色素瘤。相反，在其他类型肿瘤(包括恶性肿瘤)中可以发生MPM表达的改变。

术语“预后标签”、“标签”等指两个或更多个标志物(例如MPM)的集，当这些标志物作为一个集合一起分析时允许确定或预测事件，例如黑色素瘤的预后结果。应用包含两个或更多个标志物的标签可以减小个体差异(individual variation)的影响，允许更稳靠的预测。MPM的非限制性实例示于XX。在本发明的上下文中，述及任何特定集(例如任何标签)中所列的“至少一个”、“至少两个”、“至少五个”标志物等等时，表示所列标志物中的任何一个或任何及所有组合。

术语“预测方法”定义为覆盖来自统计学、机器学习、人工智能和数据挖掘领域的较宽方法种类，其可用来确定预测模型。该术语也包括任何适于对结果进行预测的方法，并且不仅包括对多重标志物实施复杂分析的方法，而且包括为预测结果而将单个标志物或标签的表达与对照组织或与预定阈值进行直接比较的方法。这些在发明详述部分进一步讨论。

术语“预测模型”指通过对数据集合应用预测方法而获得的特定数学模型。在本文详述的实施例中，这样的数据集由采自具有良好或不良预后的黑色素瘤患者的组织样品中的基因活性测量结果组成，其中各样品的分类(良好或不良)是已知的。这样的模型可用来(1)将预后状态未知的样品归类为良好或不良预后，或(2)基于未知样品中指定基因集的mRNA表达水平或表达产物的测量结果，进行代表未知样品具有良好预后的可能性的概率预测(即，产生欲解释为概率的比例或百分比)。有关这些基因特异性测量结果如何组合起来产生分类和概率预测的确切细节，取决于用来构建模型的预测方法的具体机制。该术语也包括适于预测结果的任何模型，并且不仅包括利用对多重标志物进行复杂分析的模型，而且包括为预测结果而涉及将单个标志物或标签的表达与对照组织或与预定阈值进行直接比较的模型。

“灵敏性”、“特异性”(或“选择性”)和“分类率”(classification rate)在用于描述预测模型的效力时表示如下含义：

“灵敏性”指真阳性样品(通过模型)也被预测为阳性的比例。在用于黑色素瘤预后的检验中，这将是具有良好预后的肿瘤通过模型预测为良好的比例。“特异性”或“选择性”表示真阴性样品(通过模型)也被预测为阴性的比例。在用于黑色素瘤预后的检验中，这等于具有不良预后的样品通过模型被预测为不良的比例。“分类率”是所有样品通过预测模型正确分类(不管是阳性还是阴性)的比例。

如本文所用，“抗体”及类似术语指免疫球蛋白分子和免疫球蛋白(Ig)分子的免疫活性部分，即含有与抗原特异性结合(与之发生免疫反应)的抗原结合位点的分子。这些分子包括但不限于：多克隆、单克隆、嵌合、单链抗体、Fc、Fab、Fab’和Fab₂片段，以及Fab表达文库。抗体分子涉及IgG、IgM、IgA、IgE和IgD类的任何分子，这些类型的分子由于其中存在的重链的性质而彼此不同。这些分子也包括亚类，如IgG1、IgG2等等。轻链可以是κ链或λ链。本文述及抗体时包括对所有类、亚类和型的述及。同样包括在内的有嵌合抗体，例如特异于不止一种来源如小鼠或人序列的单克隆抗体或其片段。还包括驼类(camelid)抗体、鲨鱼抗体或纳米抗体。

术语“癌症”和“癌”是指或者描述哺乳动物中通常以异常或失控的细胞生长为特征的生理状态。癌症和癌症病理可以伴随着例如转移、干扰邻近细胞的正常机能、以异常水平释放细胞因子或其他分泌产物、抑制或加重炎性或免疫应答、瘤形成、癌前病变、恶性肿瘤、周围或远距离组织或器官如淋巴结的浸润等。尤其包括的是黑色素瘤。

术语“黑色素瘤”指起源于黑素细胞的肿瘤，所述黑素细胞见于皮肤，但也见于其他位置，如口腔和肛门生殖器粘膜表面、食道、脑膜和眼。这些肿瘤能够转移至任何器官。

术语“差异表达的”、“差异表达”及类似短语指基因标志物的表达在有病(尤其是癌症，如黑色素瘤)受试者(例如检验样品)中相对于其在对照受试者(例如参照样品)中被激活至更高或更低的水平。该术语也包括标志物的表达在如下情况被激活至更高或更低的水平：在同一病症的不同阶段；在具有良好或不良预后的疾病中；或在具有更高或更低水平增生的细胞中。差异表达的标志物可以在多核苷酸水平或多肽水平被激活或抑制，或者可以发生可变剪接以产生不同的多肽产物。此类差异可通过例如mRNA水平、多肽的表面表达、分泌或其他分配上的变化来证明。

差异表达可包括比较两个或更多个标志物(例如基因或其基因产物)的表达；或比较两个或更多个标志物(例如基因或其基因产物)之间的表达比值；或比较同一标志物的两个差异加工产物(例如转录物或多肽)，它们在正常受试者和患病受试者之间不同；或在同一疾病的不同阶段不同；或在具有良好或不良预后的疾病之间不同；或在具有更高或更低增生水平的细胞中不同；或在正常组织和患病(尤其是癌症，或黑色素瘤)组织之间不同。差异表达包括基因或其表达产物在例如正常和患病细胞中、或在经历不同疾病事件或疾病阶段的细胞中、或在具有不同增生水平的细胞中在时间或细胞表达模式上的定量以及定性差异。

术语“表达”包括多核苷酸和多肽的产生，特别是由基因或基因的一部分产生RNA(如mRNA)，并且包括由RNA或基因或基因的一部分编码的多肽的产生，以及与表达相关的可检测物质的出现。例如，由于例如多肽-多肽相互作用、多肽-核苷酸相互作用等所致的复合物形成包括在术语“表达”的范围内。另一实例是结合性配体(如杂交探针或者抗体)与基因或其他多核苷酸或寡核苷酸、多肽或蛋白质片段的结合，以及结合性配体的可视化。因此，微阵列、杂交印迹(如Northern印迹)、或免疫印迹(如Western印迹)或珠阵列上的斑点强度，或通过PCR分析的强度，包括在作为根据的该生物分子的术语“表达”的范围内。

术语“表达阈值”和“规定的表达阈值”可互换使用，是指所讨论标志物的水平，该多核苷酸或多肽在此界外作为患者存活的预测标志物。阈值将取决于确立的预测模型，通过实验由临床研究(例如下文实施例中所述的那些)获得。根据所用的预测模型，可设置表达阈值以实现最高灵敏性，或最大特异性，或最小误差(最高分类率)。例如，可设置较高的阈值以实现最小误差，但是这可能导致较低的灵敏性。所以，对于任何给定的预测模型，可以利用临床研究设置表达阈值，其通常实现最高灵敏性而同时具有最小误差率。在任何情形下表达阈值的确定完全落在本领域技术人员的知识范围之内。

术语“长期存活”在本文用来指继手术或其他治疗之后存活至少5年，更优选至少8年，最优选至少10年。

术语“微阵列”指捕获剂[优选多核苷酸(如探针)或多肽]在基质上的有序或无序排列。参见例如Microarray Analysis，M.Schena，John Wiley &Sons，2002；Microarray Biochip Technology，M.Schena编辑，EatonPublishing，2000；Guide to Analysis of DNA Microarray Data，S.Knudsen，John Wiley & Sons，2004；和Protein Microarray Technology，D.Kambhampati编辑，John Wiley & Sons，2004。

术语“寡核苷酸”是指多核苷酸，通常为探针或引物，包括而不限于：单链脱氧核糖核苷酸、单链或双链核糖核苷酸、RNA：DNA杂合体、和双链DNA。寡核苷酸(如单链DNA探针寡核苷酸)往往通过化学法合成，例如利用可商购的自动化寡核苷酸合成仪，或通过多种其他方法，包括体外表达系统、重组技术以及细胞和生物体中的表达。

以单数或复数形式使用的术语“多核苷酸”通常是指任何多聚核糖核苷酸或多聚脱氧核糖核苷酸，其可以是未修饰的RNA或DNA，或者修饰的RNA或DNA。这包括而不限于：单链和双链DNA，包括单链和双链区的DNA，单链和双链RNA，以及包括单链和双链区的RNA，包含DNA和RNA的杂合分子——其可以为单链、或更通常为双链、或者包括单链和双链区。同样包括在内的有包含RNA或DNA或者RNA和DNA兼有的三链区。尤其包括的有：mRNA、cDNA、和基因组DNA，及其任何片段。该术语包括含有一个或多个修饰碱基(如氚化碱基)或者稀有碱基(如肌苷)的DNA和RNA。本发明的多核苷酸可包括编码或非编码序列、或有义或反义序列。应当理解，本文各处述及的“多核苷酸”或类似术语将包括全长序列及其任何片段、衍生物或变体。

如本文所用，“多肽”指寡肽、肽或蛋白质序列，或其片段，并且指天然存在的、重组的、合成的或半合成的分子。在本文引述的“多肽”指天然存在的蛋白质分子的氨基酸序列的情况下，“多肽”或类似术语并不意在将氨基酸序列局限为全长分子的全部、天然氨基酸序列。应当理解，本文各处述及的“多肽”或类似术语将包括全长序列及其任何片段、衍生物或变体。

术语“预后”指对医学结果(medical outcome)，例如不良或良好结果的预测(例如长期存活的可能性)；消极的预后或不良结果包括复发、疾病进展(例如肿瘤生长或转移或耐药性)或死亡的预测。积极的预后或良好结果包括疾病好转(例如无疾状态)、改善(例如肿瘤消退)或稳定的预测。

术语“增生”指导致细胞大小或细胞数量增加的过程，并且可包括如下一种或多种：肿瘤或细胞生长、血管生成、神经支配和转移。

术语“qPCR”或“QPCR”指例如PCR Technique：Quantitative PCR，J.W.Larrick编辑，Eaton Publishing，1997和A-Z of Quantitative PCR，S.Bustin编辑，IUL Press，2004中所述的定量聚合酶链式反应。

术语“肿瘤”指所有恶性或良性的瘤形成性细胞生长和增生，以及所有癌前及癌细胞和组织。

杂交反应的“严紧性”可由本领域普通技术人员容易地确定，并且通常是取决于探针长度、洗涤温度和盐浓度的经验式计算。一般而言，较长的探针需要较高的温度进行正确退火，而较短的探针需要较低的温度。杂交通常有赖于当互补链存在时变性DNA于低于其解链温度的环境中重新退火的能力。探针和可杂交序列之间期望的同源性程度越高，可以使用的相对温度就越高。由此，较高的相对温度将倾向于使反应条件更加严紧，而较低的温度则将倾向于使反应条件不太严紧。杂交反应严紧性的其他细节和说明可以见于例如Ausubel等人，Current Protocols in Molecular Biology，Wiley Interscience Publishers，(1995)。

如本文所定义，“严紧条件”或“高严紧条件”通常：(1)采用低离子强度和高温进行洗涤，例如0.015M氯化钠/0.0015M柠檬酸钠/0.1％十二烷基硫酸钠，50℃；(2)杂交期间采用变性剂(如甲酰胺)，例如50％(v/v)甲酰胺，与0.1％牛血清白蛋白/0.1％Ficoll/0.1％聚乙烯吡咯烷酮/50mM磷酸钠缓冲液pH 6.5，与750mM氯化钠，75mM柠檬酸钠，42℃；或(3)采用50％甲酰胺，5×SSC(0.75M NaCl，0.075M柠檬酸钠)，50mM磷酸钠(pH 6.8)，0.1％焦磷酸钠，5×Denhardt溶液，超声化鲑精DNA(50μg/ml)，0.1％SDS，和10％硫酸葡聚糖，42℃，并在0.2×SSC(氯化钠/柠檬酸钠)中于42℃和50％甲酰胺中于55℃洗涤，接着是包括于55℃在含EDTA的0.1×SSC中的高严紧洗涤。

“中等严紧条件”可如Sambrook等人，《分子克隆实验指南》(MolecularCloning：A Laboratory Manual)，纽约：冷泉港出版社(Cold SpringHarbor Press)，1989所述予以确认，并且包括使用不如上文所述严紧的洗涤溶液和杂交条件(如温度、离子强度和SDS％)。中等严紧条件的一个实例是于37℃在包含20％甲酰胺，5×SSC(150mM NaCl，15mM柠檬酸三钠)，50mM磷酸钠(pH 7.6)，5×Denhardt溶液，10％硫酸葡聚糖和20mg/ml变性剪切鲑精DNA的溶液中过夜孵育，接着在1×SSC中于大约37-50℃洗涤滤膜。熟练技术人员将会明了如何对温度、离子强度等进行必要的调整，以适应诸如探针长度等因素。

除非另有说明，本发明的实施将采用分子生物学(包括重组技术)、微生物学、细胞生物学和生物化学的常规技术，这落入本领域技术范围内。这样的技术在文献中有充分的说明，例如：《分子克隆实验指南》，第2版，Sambrook等人，1989；Oligonucleotide Synthesis，MJ Gait编辑，1984；Animal Cell Culture，R.I.Freshney编辑，1987；Methods in Enzymology，Academic Press，Inc.；Handbook of Experimental Immunology，第4版，D.M.Weir & CC.Blackwell编辑，Blackwell Science Inc.，1987；GeneTransfer Vectors for Mammalian Cells，J.M.Miller & M.P.Calos编辑，1987；Current Protocols in Molecular Biology，F.M.Ausubel等人编辑，1987；以及PCR：The Polymerase Chain Reaction，Mullis等人编辑，1994。

本发明实施方案的描述

本发明公开了使用微阵列来鉴定和确定特定预后标志物和标签在黑色素瘤中的特定预后作用。本文所示的基于微阵列的研究可以确立能够用来预测黑色素瘤患者的良好或不良预后的标志物。特别地，本文所示的基于微阵列的研究和qPCR分析表明，特定差异表达的基因可用作为与特定预后相关的预后标签。本发明因此可用来鉴定可能具有侵袭性疾病的患者。

本发明提供确定疾病预后的标志物。利用本发明的方法，已经发现标志物与黑色素瘤预后相关，且可用来预测结果。采自不同阶段黑色素瘤患者的样品的微阵列分析引起了令人惊讶的发现，即特定模式的标志物表达与癌症预后相关。本发明因此提供了表1所列的基因集，其在具有良好或不良结果的黑色素瘤中差异表达。表1所列的基因提供了一个黑色素瘤预后标志物(MPM)集合。

例如，某些黑色素瘤预后标志物(MPM)的减少可指示特定的预后。相反地，其他MPM的增加指示特定的预后。特定的预后可包括疾病进展速度。表达的减少或增加可例如，通过将测试样品(例如患者的肿瘤样品)与参照样品(例如与已知预后相关的样品)进行比较来确定。特别是来自具有良好预后的患者的一个或多个样品可用作为参照样品。

例如，为获得预后，可将患者样品(例如肿瘤样品)的表达水平与来自具有已知结果的患者的样品进行比较。如果患者样品显示出与具有不良结果(快速疾病进展)的样品相当的一个或多个MPM的增加或减少表达，则意味着不良预后。如果患者样品显示出与具有良好结果(慢疾病进展)的样品相当的一个或多个MPM的表达，则意味着积极的预后或良好预后。

作为另一实例，可就包含两个或更多个MPM的预后标签的表达水平，对患者样品(例如肿瘤样品)与已知具有良好或不良预后的癌症样品进行比较。如果患者样品显示出与良好预后样品相比增加或减少的MPM表达，和/或与不良预后样品相当的表达，则意味着消极的预后。如果患者样品显示出与良好预后样品相当的MPM表达，和/或比不良预后样品低或高的表达，则意味着积极的或良好的预后。

作为一种方法，可对一组标志物(例如表1所列的MPM集)应用预测方法，以生成预测模型。这包括生成包含两个或更多个MPM的预后标签。

表1公开的MPM因此提供了一组有用的标志物，其可以用于生成预测标签，确定癌症预后，和确立特异于该肿瘤的治疗方案或治疗形式。特别是患者可利用积极的预后来决定继续特定的治疗选择。患者可利用消极的预后来决定终止治疗或进行高攻击性或试验性治疗。另外，患者可基于自预后标志物(如MPM)的表达所预测的其预后来选择治疗。

可在肿瘤组织、肿瘤邻近组织、淋巴结样品、血样、血清样品、尿样或便样中利用任何适宜的技术来检测MPM的水平，并且可包括但不限于寡核苷酸探针、定量PCR或抗标志物抗体。可以理解，通过以预测标签的形式分析多种MPM的存在和表达量，并构建预后标签，将增加预后的灵敏性和准确性。因此，根据本发明的多重标志物可用来确定癌症预后。

本发明包括利用存档的石蜡包埋活检材料来分析集中的标志物，因此与最广泛可用的活检材料类型兼容。本发明也与若干不同的肿瘤组织收获方法兼容，例如，核芯针活检或细针抽吸。在某些方面，从固定的石蜡包埋患者癌组织样本中分离RNA。分离可以，例如自核芯针活检组织或细针抽吸细胞，通过本领域已知的任何技术进行。

一方面，本发明涉及预测预后(例如癌症患者在治疗后长期存活的可能性)的方法，包括测定获自患者的样品中一个或多个预后标志物或其表达产物的表达水平，相对于样品中其他RNA转录物或其产物的表达水平、或参照的一组RNA转录物或其表达产物的表达水平进行标准化。在特定的方面，预后标志物是表1所列的一个或多个标志物，或被包括为来自表1所列标志物的一个或多个预后标签。

在其它方面，确定预后标志物或其表达产物的表达水平，例如对于表1所列的标志物以及来自表1所列标志物的预后标签。另一方面，该方法包括确定整个预后标志物集或其表达产物的表达水平，例如对于表1所列的标志物或来自表1所列标志物的预后标签。

另一方面，本发明涉及阵列(例如微阵列)，其包括与两个或多个标志物杂交的多核苷酸，例如对于表1所列标志物或来自表1所列标志物的预后标签。在特别的方面，该阵列包括与来自表1所列标志物的预后标签杂交的多核苷酸。在另一具体的方面，该阵列包括与整个标志物集(例如对于表1所列标志物)杂交的多核苷酸。

对于这些阵列，多核苷酸可为cDNA或寡核苷酸，且展示之的固体表面可为例如玻璃。多核苷酸可与如本文公开的一个或多个标志物(例如全长序列、任何编码序列、任何片段、或其任何互补物)杂交。在特别的方面，一个或多个MPM的表达水平增加或减少指示长期存活的可能性减少(例如由于癌症复发)，而一个或多个MPM的表达水平没有增加或减少则指示无癌症复发的长期存活的可能性增加。

表1：黑色素瘤预测标志物

描述	P值	通用名	Genbank
描述	P值	通用名	Genbank	含硫氧还蛋白域5	0.049	TXNDC5	NM 030810
成对免疫球蛋白样受体2α	0.049	PILRA	NM_013439	含硫氧还蛋白域5	0.049	TXNDC5	NM 030810
成对免疫球蛋白样受体2α	0.049	PILRA	NM_013439	I类主要组织相容性复合体E	0.049	HLA-E	NM_005516
kiaa1067；kiaa1067	0.049		XM_036173	I类主要组织相容性复合体E	0.049	HLA-E	NM_005516
kiaa1067；kiaa1067	0.049		XM_036173	肌苷三磷酸酶(核苷三磷酸焦磷酸酶)	0.049	ITPA	NM_033453
Desmuslin^＊	0.0482	DMN	NM_145728	肌苷三磷酸酶(核苷三磷酸焦磷酸酶)	0.049	ITPA	NM_033453
Desmuslin^＊	0.0482	DMN	NM_145728	GTP结合蛋白2	0.0429	GTPBP2	NM_019096
乳脂肪球EGF因子8蛋白	0.0429	MFGE8	NM_005928	GTP结合蛋白2	0.0429	GTPBP2	NM_019096
乳脂肪球EGF因子8蛋白	0.0429	MFGE8	NM_005928	可溶性异柠檬酸脱氢酶1(NADP⁺)	0.0365	IDH1	NM_005896
线粒体核糖体蛋白S5	0.0365	MRPS5	NM_031902	可溶性异柠檬酸脱氢酶1(NADP⁺)	0.0365	IDH1	NM_005896
线粒体核糖体蛋白S5	0.0365	MRPS5	NM_031902	可溶性凝集素半乳糖苷结合蛋白7(半乳糖凝集素7)	0.0307	LGALS7	NM_002307
Kv通道相互作用蛋白2	0.0295	KCNIP2	AF347114	可溶性凝集素半乳糖苷结合蛋白7(半乳糖凝集素7)	0.0307	LGALS7	NM_002307
Kv通道相互作用蛋白2	0.0295	KCNIP2	AF347114	糖(N-乙酰葡糖胺6-O)磺基转移酶4	0.0295	CHST4	NM_005769
Esembl Genscan预测	0.0295		AL451139.11.67295.95669.1	糖(N-乙酰葡糖胺6-O)磺基转移酶4	0.0295	CHST4	NM_005769
Esembl Genscan预测	0.0295		AL451139.11.67295.95669.1	人磷酸酪氨酸非依赖性配体	0.023	OSIL；A170；p62B	U46752
B细胞κ轻链多肽基因增强子核因子抑制剂β	0.023	NFKBIB	NM_002503	人磷酸酪氨酸非依赖性配体	0.023	OSIL；A170；p62B	U46752
B细胞κ轻链多肽基因增强子核因子抑制剂β	0.023	NFKBIB	NM_002503	线粒体载体蛋白同源物2(秀丽隐杆线虫((C.elegans))	0.023	MTCH2	NM_014342
ADP-核糖基化因子相关蛋白1	0.0136	ARFRP1	NM_003224	线粒体载体蛋白同源物2(秀丽隐杆线虫((C.elegans))	0.023	MTCH2	NM_014342

描述	P值	通用名	Genbank
描述	P值	通用名	Genbank	桦树花粉变应原特异性免疫球蛋白γ链^＊＊	0.0136	BABI-L	AJ131063
微管蛋白α1b^＊＊＊	0.0136	TUBA1B	NM_006082	桦树花粉变应原特异性免疫球蛋白γ链^＊＊	0.0136	BABI-L	AJ131063
微管蛋白α1b^＊＊＊	0.0136	TUBA1B	NM_006082	部分N-myc外显子3	0.00371		AJ242956_2
Plexin B2	0.000756	PLXNB2	AB002313	部分N-myc外显子3	0.00371		AJ242956_2

^＊此标志物以前称为kiaa0353；dmn(XM_031031)。

^＊＊此标志物以前称为免疫球蛋白κ可变1-5(IGKC；AJ131063)。

^＊＊＊此标志物以前称作似微管蛋白α6；loc143712(XM_084610)。

检测预后标志物的一般方法

如下方法为可用来检测增生标志物(包括MPM家族成员)的非限制性方法：利用对MPM具有选择性的寡核苷酸探针的微阵列方法；利用MPM特异性引物和探针对肿瘤样品进行的实时qPCR；利用MPM特异性引物和探针对淋巴结、血液、血清、粪便或尿液样品进行的实时qPCR；酶联免疫试验(ELISA)；利用抗标志物抗体的免疫组织化学；以及利用计算机分析阵列或qPCR数据。

其他有用的方法包括northern印迹和原位杂交(Parker和Barnes，Methods in Molecular Biology 106：247-283(1999))；RNA酶保护试验(Hod，BioTechniques 13：852-854(1992))；反转录聚合链式反应(RT-PCR；Weis等人，Trends in Genetics 8：263-264(1992))；基因表达的系列分析(SAGE；Velculescu等人，Science 270：484-487(1995)和Velculescu等人，Cell 88：243-51(1997))，MassARRAY技术(Sequenom，San Diego，CA)，以及通过大量平行标签测序进行的基因表达分析(MPSS；Brenner等人，NatureBiotechnology 18：630-634(2000))。可选的，可采用识别特定复合物(包括DNA双链体、RNA双链体、以及DNA-RNA杂合双链体或DNA-多肽双链体)的抗体。

可收集原始数据，并例如如下进行倍数变化分析：通过比较肿瘤组织和非肿瘤组织中的标志物表达水平；通过将标志物表达水平与在复发肿瘤和非复发肿瘤中测定的水平进行比较；通过将标志物表达水平与在有或没有转移的肿瘤中测定的水平进行比较；通过将标志物表达水平与在不同阶段肿瘤中测定的水平进行比较；或通过将标志物表达水平与在具有不同增生水平的细胞中测定的水平进行比较。基于此分析确定消极的或积极的预后。肿瘤标志物表达的其它分析包括将呈现出增加或减少表达的那些标志物与已知黑色素瘤肿瘤的表达谱进行匹配，以提供预后。

用于得出表达增加的结论的阈值将取决于具体的标志物以及待应用的具体预测模型。通常设置阈值以实现最高灵敏性和选择性及最小误差率，不过对于具体临床情况而言可能期望变动。期望的阈值可以通过在考虑任何预测模型的统计学可变性的情况下分析足够大小的群体来确定，并可以从用来产生预测模型的样品的大小来计算。这同样适用于确定用于得出表达减少的结论的阈值。能够明了，为得出发生了表达增加或减少的结论，可选择其他的阈值或确立阈值的方法而不偏离本发明的范围。

还可以的是，预测模型可以产生数值作为其输出结果，例如分值、似然值或概率。在这些情况下，可对预测模型所产生的结果应用阈值，并且在这些情况下适用与设置表达值的阈值时相似的原则。

一旦已经获得了肿瘤样品中预测标签的表达水平或预测模型输出结果，则可确定癌症复发的可能性。

从鉴定的标志物出发，可以通过将一个或多个标志物的表达水平与所公开的预后标签进行比较，利用包含一个或多个MPM的预后标签，确定癌症的预后。通过将肿瘤样品中一个或多个标志物的表达与所公开的预后标签进行比较，可确定癌症复发的可能性。可通过应用如前面所述的预测模型，比较预后标签的表达水平，以确立预后。

确定癌症复发的可能性对于从业医师具有重大价值。肿瘤对治疗无反应的可能性高意味着应当考虑更长或更高剂量的治疗，或者可以根本不予治疗。准确预后对于患者同样有益。其允许患者、连同其伴侣、家人和朋友，也可以就治疗做出决断，以及就其未来和生活方式变化做出决策。因此，本发明也提供了基于预后确立具体癌症的治疗方案的方法，所述预后通过将肿瘤样品中标志物的表达与差异表达标签进行匹配而确立。

能够明了，标志物的选择或预后标签的构建并不必局限于本文表1所公开的MPM，而是可包括应用来自所公开标签的一个或多个MPM，或者可以利用选自所公开标志物列表的MPM确立新的标签。对于任何标签的要求是：其以足够的准确性预测快速疾病进展的可能性，以辅助从业医师确立治疗方案。

反转录PCR(RT-PCR)

在上文所列的技术中，最灵敏和最灵活的定量方法是RT-PCR，其可用于比较不同样品群中、正常及肿瘤组织(经或未经药物处理的)中的RNA水平，以表征表达模式，分辨密切相关的RNA，并分析RNA结构。

对于RT-PCR，第一步是从靶样品中分离RNA。起始材料通常是分别从人肿瘤或肿瘤细胞系以及对应的正常组织或细胞系中分离的总RNA。0RNA可以分离自多种样品，如来自乳腺、肺、结肠(如大肠或小肠)、皮肤、结肠直肠、胃、食道、肛门、直肠、前列腺、脑、肝、肾、胰腺、脾、胸腺、睾丸、卵巢、子宫等组织的肿瘤样品、原代肿瘤或肿瘤细胞系，以及来自多名健康供体的混合样品。如果RNA的来源是肿瘤，则可以例如从冷冻或存档的石蜡包埋固定的(如福尔马林固定的)组织样品中提取RNA。

通过RT-PCR制作基因表达谱的第一步是将RNA模板反转录为cDNA，接着在PCR反应中进行指数扩增。两种最常用的反转录酶是禽成髓细胞瘤病毒反转录酶(AMV-RT)和莫洛尼鼠白血病病毒反转录酶(MMLV-RT)。反转录步骤通常利用特异性引物、随机六聚体或寡聚dT引物引发，这视情况和制作表达谱的目的而定。例如，可利用GeneAmp RNA PCR试剂盒(珀金埃尔默公司，Perkin Elmer，CA，USA)，遵循生产商的说明，对提取的RNA进行反转录。得到的cDNA随之可在后续的PCR反应中用作模板。

虽然PCR步骤能够利用多种热稳定的DNA依赖性DNA聚合酶，但通常采用Taq DNA聚合酶，其具有5’-3’核酸酶活性但缺乏3’-5’校正核酸内切酶活性。因此，TaqMan(q)PCR通常利用Taq或Tth聚合酶的5’核酸酶活性来水解结合在靶扩增子上的杂交探针，但任何具有等同5’核酸酶活性的酶均可使用。

可以利用两个寡核苷酸引物产生PCR反应典型的扩增子。设计第三寡核苷酸或探针以检测位于所述两个PCR引物之间的核苷酸序列。探针是不能被Taq DNA聚合酶延伸的，并用报告荧光染料和淬灭荧光染料标记。当两种染料如其在探针上一样位置紧靠在一起时，任何激光诱导的报告染料的发射将被淬灭染料淬灭。在扩增反应期间，Taq DNA聚合酶以模板依赖性的方式切割探针。所产生的探针片段在溶液中分离，来自所释放的报告染料的信号不受该第二荧光团的淬灭作用的影响。每合成一个新分子，就释放一分子报告染料，从而对未淬灭的报告染料的检测可以提供数据定量阐释的基础。

TaqMan RT-PCR可利用可商购的设备进行，例如ABI PRISM 7700序列检测系统(珀金埃尔默应用生物系统公司，Perkin-Elmer-AppliedBiosystems，福斯特城，加利福尼亚州，美国)或Lightcycler(罗氏分子生物药剂公司，Roche Molecular Biochemicals，曼海姆，德国)。在优选的实施方案中，在实时定量PCR装置如ABI PRISM 7700tam序列检测系统中运行该5’核酸酶方法。该系统包括热循环仪、激光、电荷耦合器件(CCD)、照相机和计算机。该系统在热循环仪上以96孔的形式扩增样品。在扩增期间，通过光纤光缆实时采集所有96个孔的激光诱导的荧光信号，并在CCD处进行检测。该系统包括用于运行仪器以及用于分析数据的软件。

5’核酸酶测定试验的数据最初表达为Ct或循环阈值。如上文所讨论的那样，在每一循环过程中记录荧光值，其代表达到扩增反应中该点所扩增的产物量。第一次记录到具有统计学显著性的荧光信号的时间点为循环阈值。

为最小化误差及样品间差异的影响，通常利用内部标准进行RT-PCR。理想的内部标准以恒定的水平在不同的组织中表达，并且不受实验处理的影响。最频繁用来标准化基因表达模式的RNA是持家基因甘油醛-3-磷酸-脱氢酶(GAPDH)和肌动蛋白的mRNA。

实时定量PCR(qPCR)

RT-PCR技术较为新近的一种变形是实时定量PCR，其通过双重标记的荧光生成探针(即TaqMan探针)测量PCR产物的积累。实时PCR既与定量竞争PCR又与定量比较PCR兼容。前者利用各靶序列的内部竞争物进行标准化，而后者利用样品内所含的标准化基因或持家基因进行RT-PCR。更多细节由例如Held等人，Genome Research 6：986-994(1996)提供。

表达水平可利用固定的、石蜡包埋的组织作为RNA来源来测定。根据本发明的一个方面，基于欲扩增基因中存在的内含子序列，设计PCR引物和探针。在此实施方案中，引物/探针设计的第一步是描述出基因内部的内含子序列。这可通过公众可获得的软件，如由Kent，W.J.，Genome Res.12(4)：656-64(2002)开发的DNA BLAT软件，或通过BLAST软件(包括其变形)来进行。后续步骤遵循成熟建立的PCR引物和探针设计方法。

为了避免非特异性信号，在设计引物和探针时遮蔽内含子内部的重复序列是有益的。这可通过应用可自Baylor College of Medicine在线获得的Repeat Masker程序容易地实现，该程序相对于重复元件文库筛选DNA序列，并返回遮蔽了重复元件的查询序列。经遮蔽的序列随之可用来设计引物和探针序列，利用任何可商购的或其他公众可获得的引物/探针设计包，例如Primer Express(Applied Biosystems)；MGB设计测定(AppliedBiosystems)；Primer3(Steve Rozen和Helen J.Skaletsky(2000)Primer3 onthe WWW for general users and for biologist programmers in：Krawetz S，Misener S(编辑)Bioinformatics Methods and Protocols：Methods inMolecular Biology.Humana Press，Totowa，NJ，365-386页)。

PCR引物设计中考虑的最重要的因素包括引物长度、解链温度(T_m)和G/C含量、特异性、互补引物序列和3′端序列。通常，最佳PCR引物长度一般17-30个碱基，并含有约20-80％、例如约50-60％的G+C碱基。一般优选50-80℃的解链温度，例如约50-70℃。有关PCR引物和探针设计的更多指南，参见例如Dieffenbach，C.W.等人，General Concepts for PCR PrimerDesign in：PCR Primer，A Laboratory Manual，Cold Spring HarborLaboratory Press，New York，1995，133-155页；Innis和Gelfand，Optimization of PCRs in：PCR Protocols，A Guide to Methods andApplications，CRC Press，London，1994，5-11页；和Plasterer，T.N.Primerselect：Primer and probe design.Methods Mol.Biol.70：520-527(1997)，其全部公开内容明确并入本文作为参考。

微阵列分析

差异表达也可利用微阵列技术鉴定或验证。因此，可利用微阵列技术在新鲜或者石蜡包埋的肿瘤组织中测量MPM的表达谱。在这种方法中，在微芯片基质上印刷或阵列安排目的多核苷酸序列(包括cDNA和寡核苷酸)。阵列序列(即捕获探针)随之与来自目的细胞或组织(即靶标)的特异性多核苷酸杂交。与RT-PCR方法一样，RNA的来源通常为从人肿瘤或肿瘤细胞系以及对应的正常组织或细胞系中分离的总RNA。因此，RNA可以分离自各种原代肿瘤或肿瘤细胞系。如果RNA的来源是原代肿瘤，则可以例如从冷冻或存档的福尔马林固定石蜡包埋(FFPE)组织样品以及固定(如福尔马林固定)组织样品中提取RNA，这些样品在日常的临床实践中都是常规制备和保存的。

在微阵列技术的一个具体实施方案中，向基质上施加PCR扩增的cDNA克隆插入物。基质可以包括多达1、2、5、10、15、20、25、30、35、40、45、50或75种核苷酸序列。在其他方面，基质可以包括至少10,000种核苷酸序列。固定在微芯片上的微阵列序列适合于在严紧条件下杂交。作为其他实施方案，用于微阵列的靶可以长至少50、100、200、400、500、1000或2000个碱基；或者50-100、100-200、100-500、100-1000、100-2000或500-5000个碱基。作为另外的实施方案，用于微阵列的捕获探针长度可为至少10、15、20、25、50、75、80或100个碱基；或者10-15、10-20、10-25、10-50、10-75、10-80或20-80个碱基。

通过反转录从目的组织提取的RNA，掺入荧光核苷酸，可以生成荧光标记的cDNA探针。施加到芯片上的标记cDNA探针与阵列上的各DNA斑点特异性地杂交。严紧洗涤以除去非特异性结合的探针之后，通过激光共聚焦显微镜或通过其他检测方法如CCD照相机扫描芯片。对各阵列元素的杂交的定量允许评估对应mRNA的丰度。利用双色荧光，由两个RNA源生成分开标记的cDNA探针，其成对地与阵列杂交。由此，对应于各指定基因的来自两个来源的转录物的相对丰度可以得以同时确定。

此小型化规模的杂交提供了对大量基因表达模式的便利快速评价。此类方法已经证明具有检测稀有转录物以及可再现地检测至少大约两倍的表达水平差异所需的灵敏性，其中所述稀有转录物仅以每细胞少数几个拷贝的水平表达(Schena等人，Proc.Natl.Acad.Sci.USA 93(2)：106-149(1996))。微阵列分析可以通过可商购的设备遵循生产商的方案进行，例如利用Affymetrix GenChip技术、Illumina微阵列技术或Incyte微阵列技术。对大规模分析基因表达的微阵列法的研发，使得可以在各种肿瘤类型中系统地寻找癌症分类和结果预测的分子标志物。

RNA分离、纯化和扩增

用于mRNA提取的一般方法在本领域众所周知，并公开在分子生物学的标准教科书中，包括Ausubel等人，Current Protocols of MolecularBiology，John Wiley and Sons(1997)。例如，用于石蜡包埋组织RNA提取的方法公开在Rupp和Locker，Lab Invest.56：A67(1987)，以及De Sandres等人，BioTechniques 18：42044(1995)中。特别是，可以利用来自商业生产商如Qiagen的纯化试剂盒、成套缓冲液和蛋白酶按照生产商的说明进行RNA分离。例如，可以利用Qiagen RNeasy微型柱自培养细胞分离总RNA。其他可商购的RNA分离试剂盒包括MasterPure完整DNA和RNA纯化试剂盒(EPICENTRE公司(D，Madison，WI)和Paraffin Block RNA分离试剂盒(Ambion有限公司)。可以利用RNA Stat-60(Tel-Test公司)自组织样品分离总RNA。例如，可以通过氯化铯密度梯度离心分离由肿瘤制备的RNA。

利用固定的石蜡包埋组织作为RNA来源进行基因表达谱制作的代表性方案的步骤包括mRNA分离、纯化、引物延伸和扩增，这在多篇发表的期刊文章中提供(例如：T.E.Godfrey等人J.Molec.Diagnostics 2：84-91(2000)；K.Specht等你，Am.J.Pathol.158：419-29(2001))。简言之，一个代表性方法始于切割大约10μm厚的石蜡包埋肿瘤组织样品切片。然后提取RNA，除去蛋白质和DNA。分析RNA浓度之后，如果必要的话，可以包括RNA修复和/或扩增步骤，之后利用基因特异性启动子反转录RNA，接着进行RT-PCR。最后，分析数据，以基于在所研究的肿瘤样品中鉴定到的特征性基因表达模式，确定患者可用的最佳治疗选择。

免疫组织化学和蛋白质组学

免疫组织化学法也适用于检测本发明增生标志物的表达水平。因此，可以利用特异于各标志物的抗体或抗血清、优选多克隆抗血清、最优选单克隆抗体来检测表达。可以通过用例如放射性标记、荧光标记、半抗原标记如生物素、或酶如马辣根过氧化物酶或碱性磷酸酶直接标记抗体本身，来检测抗体。可选地，可以将未标记的一抗与标记的二抗联合使用，所述二抗包括特异于一抗的抗血清、多克隆抗血清或单克隆抗体。免疫组织化学方案和试剂盒在本领域众所周知并且可以商购。

蛋白质组学可用来分析某个时间点样品(如组织、器官或细胞培养物)中存在的多肽。特别是，蛋白质组学技术可用来评估样品中多肽表达的全局变化(也称为表达蛋白质组学)。蛋白质组学分析通常包括：(1)通过双向凝胶电泳(2-D PAGE)分离样品中的多肽个体；(2)鉴定从凝胶中回收的多肽个体，例如通过质谱法或N-末端测序法，和(3)利用生物信息学分析数据。蛋白质组学方法对于其他基因表达谱研究方法是有价值的补充，并且可以单独或与其他方法组合使用，以检测本发明增生标志物的产物。

一旦已经评估了肿瘤样品中一个或多个预后标志物的表达水平，则可确定癌症对治疗有反应的可能性。发明人已经在患者数据集中鉴定到了许多与对治疗无反应(不良预后)的黑色素瘤相比，在对治疗有反应(良好预后)的黑色素瘤中差异表达的标志物。所述标志物示于表1及下文的实施例中。选择差异表达的基因

选择可以被视为显著的基因的一种早期方法包括简单地查看给定基因在两个目的群之间的“倍数变化”。虽然这种方法锁定似乎变化最为惊人的基因，但是考虑到基础统计学，令人们意识到如果差异(或噪声水平)相当高的话(正如在微阵列实验中所常见的那样)，那么看似巨大的倍数变化可能仅仅因为偶然而频繁发生。

微阵列实验，例如本文所述的那些，一般包括同时测量数以千计的基因。如果人们比较两组(例如良好预后和不良预后肿瘤)之间特定基因的表达水平，那么典型的显著性检验(例如t-检验)并不足够。这是因为，在具有数以千计实验的系综(ensemble)中(在此上下文中，每个基因构成一个“实验”)，至少一个实验仅因偶然而通过显著性惯用标准的概率基本为1。在显著性检验中，人们一般计算“无效假设”正确的概率。在两组比较的情况下，无效假设是两组之间没有差异。如果统计学检验得出该无效假设的概率低于某一阈值(通常是0.05或0.01)，则表述为我们可以拒绝该无效假设，而接受两组显著不同的假设。显然，在这样的检验中，可以预期20次中有1次(或者100次中有1次)无效假设会仅因偶然而被拒绝。应用t-检验或其他类似的显著性统计学检验在微阵列的情况下是不成功的，产生太多太多的假阳性(或I型错误)。

在同一时间检验多个假设的这类情形下，人们应用典型的多重比较方法，例如Bonferroni法¹²。然而，此类检验对于大多数微阵列实验而言太过保守，产生太多的假阴性(II型)错误。

较为近来的一种方法是不尝试应用给定检验显著性概率，而是建立选择实验子集的手段，从而控制预期的I型错误比例(或误诊率(false discoveryrate)¹³)。正是这种方法已在本研究中应用，借助于多种执行工具，即BRB阵列工具¹⁴和Bioconductor的limm a^15，16包(其应用R统计环境^17，18)所提供的方法。

数据挖掘的一般方法学：生成预后标签

数据挖掘是用来描述从(通常是)大量数据(数据集)中提取“消息”，换言之“技术诀窍”，或者预测能力的术语。这是本研究中用来生成预后标签的方法。在本研究的情况下，“技术诀窍”是从给定的一组(一个集合)基因表达测量结果或者“标签”中准确预测预后的能力(在本节将作一般描述，在实施例一节中作更详细描述)。

本研究所用方法的具体应用细节在实施例17-20中描述。不过，任何数据挖掘方法(既包括实施例中所述的那些，也包括此处所述的那些)的应用均可遵循此通用方案。

数据挖掘¹⁹以及相关话题机器学习²⁰是一个复杂的重复性数学任务，其涉及应用一种或多种适宜的计算机软件包(见下文)。软件的应用在一方面是有利的，原因是人们无需为了成功应用数据挖掘技术而彻底通晓每种技术背后错综复杂的理论，而只要坚持正确的方法学即可。缺点是数据挖掘的应用往往可被视为“黑匣子”：人们代入数据而接收答案。这是如何实现的往往不为终端用户所知(对于所述技术中的许多而言确是如此，并且往往可影响选择用于数据挖掘的统计学方法)。例如，神经网络和支持向量机具有特别复杂的执行工具，使得终端用户极难提取出用来产生决策的“规则”。而另一方面，k-近邻方法和线性判别分析具有不隐瞒用户的非常透明的决策过程。

有两类方法用于数据挖掘：有监督的和无监督的方法。在有监督的方法中，与数据关联的信息是已知的，例如分类数据(例如，良好对不良预后)。所需的是将观察到的反应(例如，良好与不良预后)与输入变量关联起来的能力。在无监督的方法中，事先并不知晓数据集内的分类，数据挖掘方法学被用于尝试寻找数据集内的分类或结构。

在本实施例中使用的是有监督的方法，并在本文详细讨论，不过应当明了可使用任何其他技术。

整体方案包括如下步骤：

·数据呈现。这包括将数据转化为用所选的数据挖掘技术最可能成功工作的形式。在数据为数值，如在本研究中所研究的数据为相对基因表达水平的情况下，这还算简单。如果数据覆盖大的动态范围(即，许多个数量级)，通常取数据的对数(log)。如果数据覆盖许多由不同研究人员在不同日子对不同样品的测量结果，必须特别小心以确保系统误差最小化。最小化系统误差(即，因方案差异、机器差异、操作人员差异以及其他可量化因素所致的误差)是此处称为“标准化”的过程。

·特征选择。一般，数据集含有比对于日常测量而言实用的数据元素多得多的数据元素，此外还含有许多不提供产生预测模型所需的信息的元素。预测模型描述数据集的实际能力源于全维度的该数据集的某子集。这些维度是数据集最为重要的成分(或特征)。注意在微阵列数据的情况下，数据集的维度是基因个体。特征选择在此处的上下文中包括寻找最为“差异表达”的那些基因。在更一般的意义上，这涉及通过某个显著性统计学检验的那些群组，即，在所研究的一个或其他群组中一贯地较高或较低的特定变量的水平。有时特征是呈现出最大变异的那些变量(或维度)。

特征选择的应用完全独立于用来创建预测模型的方法，并且为了实现期望的结果涉及大量的实验。在本发明中，显著性基因的选择需要特征选择。另外，可对数据集应用数据约简方法(例如主成分分析)。

·训练。一旦数据集的分类(例如，良好/不良预后)和特征已经确立，且数据呈现为数据挖掘输入可接受的形式，则对所选的预测模型应用简约后的数据集(如通过特征描述的)。此模型的输入通常是多维度数值输入的形式(称为向量)，伴有相关的输出信息(分类标记或反应)。在训练过程中，将选择的数据相继地(在诸如神经网络的技术中)或整体地(在应用某些形式的回归的技术中，例如线性模型、线性判别分析、支持向量机)输入预测模型。在一些情况(例如，k-近邻方法)下，数据集(或在特征选择之后获得的数据集的子集)本身即为模型。正如所讨论的那样，通过应用模型参数已由内行分析专家预设为最有可能得出成功结果的多种软件包，可以在对数学细节有最小限度理解的情况下确立有效的模型。

·验证。这是数据挖掘方案的关键部分，对其的不正确应用常常导致错误。除了特征选择和训练之外，应当留出部分的数据集来检验预测模型的成功。此外，如果验证的结果用来实现特征选择和模型训练，那么在模型应用于现实情形之前，获取再一验证集来检验模型。如果不严格遵循此过程，那么模型很可能失于现实情形。验证的方法在下文更详细地说明。

·应用。一旦模型已经构建并验证，其必须以终端用户可及的某种方式进行包装。这往往包括对电子表格应用程序(其中已嵌入模型)的某种形式执行，提供统计学软件包的脚本，或由信息技术工作人员将模型重构(refactoring)成硬编码应用程序。

常使用的软件包的实例有：

-电子表格插件，由多家卖主获得。

-R统计环境。

-商业包MatLab、S-plus、SAS、SPSS、STATA。

-自由开源软件，如Octave(MatLab clone)。

-许多各种各样的C++库，其可用来在商业闭源设置中执行预测模型。

数据挖掘方法的实例

可通过首先采取数据挖掘步骤(上文)，然后应用适当的已知软件包，来实施本发明的方法。有关数据挖掘方法的更多说明在许多极其充分著述的教科书¹⁹中有描述。

·线性模型^19，21：数据作为线性回归模型的输入进行处理，其中分类标记或反应变量为输出。分类标记或其他分类数据必须转化为数值(通常为整数)。在广义线性模型中，分类标记或反应变量本身并不与输入数据线性相关，而是通过应用“关联函数”被转化。逻辑回归是最常见形式的广义线性模型。

·线性判别分析^19，22，23。如果数据是线性可分的(即，数据的群组或类可由超平面，即，阈值的n维延伸，分开)，就可应用此技术。利用变量组合来分开类别，使组间方差最大化和组内方差最小化。其副产品是分类规则的形成。对未知类别的样品应用此规则允许对该样品进行有关类别成员的预测或分类。存在线性判别分析的变形，例如nearest shrunkencentroids，其常用于微阵列分析。

·支持向量机²⁴：变量集合与权重集合联合使用，以确定使类间的分离就其加权变量而言最大化的模型。然后对样品应用此模型，产生对该样品的分类或类别成员预测。

·神经网络²³：数据输入节点网络进行处理，这些节点表面上类似于生物神经元，运用来自与其相连的所有节点的输入，并将输入转化为输出。通常，神经网络利用“乘积和加和”算法，将来自多个连接的输入节点的输入转化为单一输出。节点可以不必产生输出，除非该节点的输入超过了一定的阈值。每个节点具有来自若干其他节点的输出作为其输入，其中最终输出节点通常与分类变量相连。节点的数量以及节点的拓扑学能够以几乎无穷的方式变化，从而能够对以其他方式可能不可能予以分类的极端噪声数据进行分类。神经网络最常见的执行工具是多层感知器。

·分类回归树²⁵：在这些方法中，利用变量定义一个能够被逐步遵循以确定样品分类的规则层次。典型的方法创建一个规则集合，其导致特定的分类输出，或者是有关不能分辨的特定陈述。分类树的一个实例是执行诸如下面的算法：

若基因A＞x且基因Y＞x且基因Z＝z

则

A类

否则，若基因A＝q

则

B类

·近邻方法^22，23。通过将(未知分类的)样品与其附近的那些(已知分类的)样品比较来进行预测或分类，其中紧密度由距离函数定义。可以定义许多不同的距离函数。常用的距离函数有欧氏距离(将在三角测量中那样的毕达哥拉斯距离延伸至n维)、多种形式的相关性(包括皮尔逊相关系数)。此外，还有如下转化函数，该转化函数可以将正常不通过有意义的距离量度互连的数据点转换为欧氏空间，以致随后可以应用欧氏距离(例如，马氏距离)。虽然距离量度可相当复杂，但是k-近邻法的基本前提相当简单，基本上是“寻找与未知输入最类似的k-数据向量，找出它们所对应的类别，并表决该未知输入是哪个类别”的重述。

·其他方法：

-贝叶斯网络。利用有向无环图表示一组变量以及它们的联合概率分布，其随之可以用来确定样品的类别成员的概率。

-独立成分分析，其中自变量集合中将独立信号(例如，类别成员)分离出来(为成分)。这些成分可随之用来进行样品的分类或类别成员预测。

-集成学习方法，其中组合一系列预测方法以对样品进行联合分类或类别成员预测。

存在可以探索的这些方法学的许多变形方式¹⁹，且许多新的方法正不断地被定义和研发出来。应当明了为获得可接受的结果，可应用这些方法中的任一方法。必须特别小心，确保所有结果经全面的验证方案检验，以避免过拟合。

验证

所述任何预测方法的应用都涉及训练和交叉验证^12，26，之后该方法才可应用于新的数据集(例如来自临床试验的数据)。训练包括取目的数据集(在本案中为来自黑色素瘤的基因表达测量结果)的子集，以便将其按照正在检验的类别(在本案中为具有快速发展的良好或不良可能性的肿瘤)分层。利用此训练集生成(上文定义的)预测模型，在剩余的数据(测试集)上检验之。

可以改变预测模型的参数以便在测试集中获得更佳的表现，然而，这可能导致称为过拟合的情形，在这种情形下预测模型对训练数据集有效，但是对任何外部数据集无效。为避免之，接着实施验证过程。有两大典型应用的验证类型，第一类(保留(hold-out)验证法)涉及将数据集分为三组：测试集、训练集和验证集。无论如何验证集对训练过程没有输入，因此任何参数调整或其他精化必须在应用于测试集(而非验证集)时进行。第二大类是交叉验证法，其可以以数种不同的方式应用，如下文所述。

有两种主要的交叉验证亚类型：K-折交叉验证和留一法交叉验证。

K-折交叉验证：将数据集分成K个子样本，每个子样本含有与最初大致相同比例的类别群组。

在每一轮验证中，留出K个子样本中的一个，并利用剩余的数据集实施训练。该轮训练的有效性通过留出组的分类正确程度来测量。此过程重复K次，并通过比较预测分类与已知分类来确定总体有效性。

留一法交叉验证：K-折交叉验证的一种常用变形，其中K＝n，其中n为样本数。

MPM(例如上文表1所述的那些)的组合可用来构建预后的预测模型。预后标签

可以通过应用源自预后标签(包含这些标志物中的一个或多个)的一个或多个预测模型，使用该预后标签确定患者的结果。特别地，临床医师或研究人员可以确定标签中一个或多个标志物的差异表达(例如，增加或减少的表达)，应用预测模型，由此预测患者的消极预后(例如疾病复发的可能性)，或者积极预后的可能性(继续好转)。

已经开发了预后标签。如下文实施例所述，已由一组黑色素瘤患者确立了包含22个基因的预后标签(表1)。通过获得患者样品(例如肿瘤样品)，并将样品中一个或多个标志物的表达水平与差异表达谱进行匹配，能够确定癌症快速进展的可能性。

药物试验

本发明也可用于选择个体进行特定的药物试验。通过确立黑色素瘤个体的预后，能够更好地决策：是否患者应当进行他们很可能对之产生反应的常规治疗、或者他们是否应当参与瞄准特定肿瘤类型或阶段的特定药物试验。

选择对于疾病进展具有短的预测时间的患者，还将能够缩短药物试验的持续时间，并允许招募更少的患者以获得具有统计学意义的药物反应数据。

实施例

本文所述的实施例为举例说明本发明实施方案的目的。其他实施方案、方法和分析类型在分子诊断领域普通技术人员的能力范围内，故无需在此详细说明。落在本领域范围内的其他实施方案视为本发明的一部分。

为研究肿瘤中可能影响III期黑色素瘤临床结果的生物学机制，在初始测试的一组29份黑色素瘤样本上进行了基因表达谱分析，所述样本来自在IIIB和IIIC期黑色素瘤的淋巴结清扫术之后具有不同临床结果的患者。然后利用此信息在包括10名和14名患者的两个独立验证集中基于分子谱前瞻性地预测临床结果。利用此分子信息，还鉴定了在这两个患者群中可被差异调控并是治疗性干预的可能靶标的细胞通路和网络。

材料和方法

用于微阵列分析的样本收集和选择

所进行的实验的总体方案示于图3。选择来自29名在1997-2004年间在奥斯汀医院(Austin Health)经历了针对临床可触摸淋巴结的手术淋巴结清扫术的患者的离体黑色素瘤组织进行微阵列分析。所有样本依据奥斯汀医院人类研究伦理委员会(Austin Health Human Research Ethics Committee)许可的组织获取方案收集，并附有每名患者的知情同意书。将快速冷冻样本包埋在最佳切片温度化合物(OCT)中，并作为组织块于-80℃贮存在路德维格/奥斯汀组织库贮藏中心(Ludwig/Austin tissue bank repository)。对于所有病例，由病理学家确认诊断。

基于从III期到IV期疾病所需的肿瘤进展时间(TTP)，选择患者样品用于微阵列分析，包括16名“不良”(平均TTP 4个月)和13名“良好”(平均TTP42个月)预后患者。在淋巴结清扫术后的最初12个月内每月在专门黑色素瘤单位中进行术后复查，之后根据临床需要进行每3个月和每6个月的复查持续4年，之后是每年复查。根据临床怀疑或常规地每3-6个月进行分期研究。

如果组织存在最小程度的坏死，且肿瘤细胞占总细胞群的至少60％，则认为该组织是此研究可接受的。在提取RNA时，切两个5μm的切片，并以苏木精和曙红染色，以确保所提取组织的完整性。

RNA提取和cDNA合成

针对29名选择的患者一式两份地进行具有通常标准设计的cDNA合成和杂交。通过将切片浸没在Tri-reagent(Molecular Research Center，Cincinnati，OH)中并匀浆化，从OCT包埋组织中提取总RNA。向匀浆物中加入1.5mL氯仿，离心样品，取上相并与100％的乙醇混合。利用RNeasy柱根据制造商的说明(Qiagen，Valencia，CA)进行纯化。RNA的质量基于260：280吸光值之比予以确认，而完整性在甲醛琼脂糖凝胶上相对于rRNA标准Marker予以检查。在寡聚(dT)和氨基烯丙基脱氧核苷酸的存在下由20μg RNA合成cDNA。Cy染料(Amersham Biosciences，Buckinghamshire，UK)与肿瘤cDNA偶联，并平行产生参照cDNA。参照cDNA由来自多种肿瘤和细胞系(包括黑色素瘤)以及来自正常组织的合并RNA合成(参见图4)。寡核苷酸阵列和数据分析

由MWG Biotech(Erbesberg，德国)获得代表基因个体和内部对照的30,888个寡核苷酸探针，并利用Omnigrid机器人(Gene Machines，SanCarlos，CA)点制为高密度阵列。标记的肿瘤/参照cDNA共杂交，并利用Genepix 4000A微阵列扫描仪(Axon Instruments，Union City，CA)扫描。将矩阵重叠图(matrix overlay)与扫描图像进行对准(align)，利用Gene Pixv6.0软件(Axon Instruments，Foster City，CA)进行特征提取。原始数据利用GeneSpring v7.2(Silicon Genetics，Redwood City，CA)分析。针对点样组进行数据标准化，然后进行中位数标准化。简言之，使lowess曲线与log-强度对log-比值图进行拟合。利用20％的数据计算各点的lowess拟合。利用此曲线调整用于各测量结果的对照值。然后各基因除以所有样品中其测量结果的中位数。

来自EORTC黑色素瘤研究²⁷的用于独立验证集B的数据可通过ArrayExpress公其数据库http://www.ebi.ac.uk/arrayexpress/获得。将数据上传至Genespring v7.2，并进行每点、每芯片和每基因标准化。简言之，各基因的测量强度除以各样品中的其对照通道值，然后除以该样品中所有测量结果的50％。最后各基因除以所有样品中其测量结果的中位数。如下文所述利用差异表达基因的表达值计算预测分值。

统计学方法

基因表达数据首先进行过滤器处理，排除不在所有样品中存在的探针。在所考虑的初始30,888个探针中，18,807个通过了此过滤器，并用于方差分析、层次聚类(hierarchical clustering)分析和主成分分析。通过进行Wilcoxon-Man n-Whitney检验发现了差异表达的基因，其中对于多重检验校正，基于0.05的p值截断值，利用Benjamini和Hochberg²⁸的误诊率控制方法进行修正。利用斯皮尔曼相关(Spearman correlation)作为距离函数和平均联接(average linkage)，进行样品的层次聚类分析。

定量实时PCR(qPCR)

对差异表达的基因进行qPCR以确认阵列结果，然后使用验证集A验证预测器。利用随机hexamer引物(Promega，Madison，WI)由提取用于阵列试验的总RNA的2μg合成第一链cDNA。通过省略反转录酶获得阴性对照。利用通用探针文库测定试验设计中心https://www.roche-applied-science.com/(Roche，Mannheim，Germany)，设计跨内含子的多重测定试验用于qPCR(有关测定试验的设计参见图5)。所有反应利用ABI 7700序列检测仪(Applied Biosystems，Foster City，CA)一式两份进行。热循环仪条件如下：50℃2分钟，95℃10分钟，接着是94℃20秒和60℃45秒进行40个循环。所有结果相对于18S扩增(Applied Biosystems，Foster City，CA)进行标准化。我们利用参照物的靶阈值(C_T)作为我们的比较器²⁹，计算了相对表达。

然后将基因个体的相对表达值沿标准化的log₂比值阵列值作图，并计算了相关系数。

结果

列出了纳入该测试集(test set)和验证集A的患者的临床和病理特征(见图6)。所有患者均具有有关初诊年龄、性别、以及阳性淋巴结转移的数量和位置的信息。并非所有患者的初诊都是在我们的医院做出的，因此在一些病例中，我们不能确定在原发性黑色素瘤中是否存在溃疡。原发部位的溃疡为一个独立的预后因素，其如果存在的话，则疾病的分期由IIIB升至IIIC³⁰。

“良好”预后群的平均TTP为40个月，相比之下，“不良”群为4个月。虽然“良好”群看起来更年轻且含有更多的女性，但两群之间在中位数年龄和性别方面没有统计学显著差异。虽然样本大小有限，但其他已知的预后特征(包括AJCC分期、辅助干扰素的应用以及肿瘤浸润淋巴细胞的存在)方面没有统计学显著差异。

一名患者曾患有局限于切除的脾脏的孤立性IV期疾病，但是考虑到他保持了无病状态，还是纳入了此样品。排除此样品并不改变基因表达谱。差异表达的基因将两个预后群分离开

无监督的层次聚类没有揭示出与预后相关的黑色素瘤亚群，也没有揭示出与其他临床信息相关的黑色素瘤亚群，考虑到样品间的相似性，这是在预料之中的。为搜索能够有效分离预后群的基因，研究了差异基因表达。两群之间有2,140个基因差异表达，然而严格应用多重检验校正将其减少至22个具有高度显著差异表达的基因(图1)。这22个基因进一步在训练集中利用qPCR进行验证，并选择在这两个平台之间具有最高相关系数的基因(r＞0.5，p＜0.05)进行进一步分析(数据未显示)。在初始的22个基因中，有15个基因呈现出高交叉平台相关性，故这些基因用来开发预测分值。主成分分析证明了这15个基因分离预后群的能力(图7)。

预测分值的开发

利用该初始的测试集开发预测器，在两个独立的验证集上检验之。基于阵列数据、然后是qPCR数据，开发了两种预测算法：

1.为计算阵列数据的预测分值(aPS)，使用在阵列和qPCR之间具有最显著相关性的15个基因。标准化的log₂表达比值通过其2次幂进行换算。对在“良好”预后群中下调的基因赋予负值。然后通过对所有15个基因的值求和来计算最终分值。正分值与改善的结果相关。

2.对于qPCR数据(qPS)，对15个最相关基因的ΔΔC_T值应用逻辑回归算法，该算法利用赤池信息量准则(Akaike Information Criterion)仅选择对于类别区分有贡献的那些基因。这选择了5个显著基因，随之用于如下方程式：

qPS＝[1328.15-187.42(IDH)+137.10(MFG8)+73.61(PILRA)+211.22(HLA-E)+143.94(TXNDC5)]×-1

同aPS一样，使用此方法正分值与改善的结果相关。

预测分值与TTP和存活相关

正如所预期的那样，对该测试集应用aPS和qPS均能够区分两个预后群。个体分值与TTP和总体存活两者之间的强相关性均明显，这样对于qPS和aPS，个体分值的幅度(aPS的高分值和qPS的负分值)与改进的结果关联起来(图8，斯皮尔曼秩相关系数r＝0.7908，p＜0.0001)。这表明这些差异表达基因的表达水平与直接影响临床结果的潜在生物机制相关，强调了它们的预后中肯性。

对三个独立集应用预测分值

然后对独立生成的数据应用该结果。鉴定了一个公开数据集，其与我们自己的具有相似患者亚群。在83名于此研究中27进行了特征分析的患者中，14名患有III期疾病并长期随访。在此亚群中，利用在我们测试集中应用的相似标准，10名患者将会被归为“不良”(平均TTP 10个月)，而4名为“良好”(平均TTP 62个月)。当对这些样品应用aPS算法时，所有10名“不良”患者和4名“良好”患者中的2名均被正确地预测出来，得到85％的总体正确分类率。

接下来我们对来自路德维格/奥斯汀组织库的10个肿瘤的独立集应用qPS算法，其中利用所述的5个最强预测基因进行了该qPCR测定。该预测器对全部5个“良好”预后肿瘤进行了正确的分类，但是对5个“不良”样品中的1个进行了误分类(图9)。误分类的“不良”样品所代表的患者TTP短暂，但是具有6年的长期总体存活，伴有转移性疾病。

还对第三个3期黑色素瘤样品独立集应用了此五基因qPS。这些样品由继诊断为3期疾病后存活不足18个月的19名患者、以及自3期诊断起存活大于4年的另外18名患者组成。这些良好和不良预后群的qPS分值分布有显著差异(p＝0.02)，并示于图10。

讨论

此实施例表明利用源于微阵列基因表达数据和qPCR的表达谱能够在以其他方式不可区分的III期黑色素瘤患者群中成功地预测临床结果。在两个独立集中已经确立：开发的这两种基于15个差异表达基因的预测分值算法，能够应用于微阵列和qPCR数据，以在IIIB/C期黑色素瘤患者中前瞻性地预测临床结果。

这些患者因为相似的疾病阶段而被选择，而若干研究已证明不同阶段采集的自体样品之间的基因表达相似性甚于相似疾病阶段的不同患者之间的基因表达相似性^27，31，32。本观察结果，即，存在能够以高达92％的准确性用来前瞻性地预测结果的组间差异表达基因，强调了其重要性。此外，该预测器与TTP和总体存活两者间的相关性也凸显了该预测器的实用性，从而分值的差异幅度直接与临床结果相关。

在说明书中已经提及了具有已知等同物的整数或成分，这样的等同物在此并入本文，就如同单独进行过陈述一样。虽然通过举例并参照其可能的实施方案对本发明进行了描述，但是应当理解，可以进行改进和/或改变而不偏离本发明的范围。

参考文献

1.Australian Institute of Health and Welfare(AIHW)：Cancer inAustralia 2001.Canberra，Australian Institute of Health and WelfareAustralasian Association of Cancer Registries(AACR)，2004

2.Florez A，Cruces M：Melanoma epidemic：true or false？Int JDermatol 43：405-7，2004

3.Thursfield V，Farrugia H，Giles G：Cancer in Victoria 2004，Canstat.Victoria，Cancer Epidemiology Centre，2006，32页

4.Thompson JF，Scolyer RA，Kefford RF：Cutaneous melanoma.Lancet365：687-701，2005

5.Verma S，Quirt I，McCready D等人：Systematic review of systemicadjuvant therapy for patients at high risk for recurrent melanoma.Cancer106：1431-42，2006

6.Hersey P：Adjuvant therapy for high-risk primary and resectedmetastatic melanoma.Intern Med J 33：33-43，2003

7.Kirkwood JM，Manola J，Ibrahim J等人：A pooled analysis of easterncooperative oncology group and intergroup trials of adj uvant high-doseinterferon for melanoma.Clin Cancer Res 10：1670-7，2004

8.Sondak VK，Sabel MS，Mule JJ：Allogeneic and autologous melanomavaccines：where have we been and where are we going？Clin Cancer Res12：2337s-2341s，2006

9.Balch CM，Sober AJ，Soong SJ等人：The new melanoma stagingsystem.Semin Cutan Med Surg 22：42-54，2003

10.Kirkwood JM，Strawderman MH，Ernstoff MS等人：Interferonalfa-2b adjuvant therapy of high-risk resected cutaneous melanoma：theEastern Cooperative Oncology Group Trial EST 1684.J Clin Oncol14：7-17，1996

11.Kirkwood JM，Ibrahim JG，Sondak VK等人：High-and low-doseinterferon alfa-2b in high-risk melanoma：first analysis of intergroup trialE1690/S9111/C9190.J Clin Oncol 18：2444-58，2000

12.Efron，B.and Tibshirani，R.An Introduction to the Bootstrap.Chapman & Hall.2005

13.McLaughlan GJ，Do K，Ambroise C Analyzing Microarray GeneExpression Data(Wiley Series in Probability and Statistics)2004

14.Wright GW，Simon RM A random variance model for detection ofdifferential gene expression in small microarray experiments.Bioinformatics 2003；19：2448-2455.

15.Smyth GK.Linear models and empirical Bayes methods for assessingdifferential expression in microarray experiments.Statistical Applicationsin Genetics and Molecular Biology 2004；3：Article 3.

16.

I.and Speed TP.Replicated microarray data.StatisticaSinica 2002；12：31-46.

17.Ihaka R，Gentleman R.R：A language for data analysis and graphics.Journal of Computational and Graphical Statistics 1996；5：299-314.

18.Becker RA，Chambers，JM and Wilks AR The New S Language.Wadsworth & Brooks/Cole 1988.

19.Hastie T，Tibshirani R，Friedman J The Elements of StatisticalLearning Data Mining，Inference and Prediction Springer 2003

20.Gentleman R.，Carey VJ，Huber W.，Irizarry RA，Dudoit S.Bioinformatics and Computational Biology Solutions Using R andBioconductor.Springer 2005.

21.Neter J，Kutner MH，Wasserman W，Nachtsheim CJ，Applied LinearStatistical Models McGraw-Hill/Irwin 1996

22.Venables，WN，Ripley，BD Modern Applied Statistics with S.4^th ed..Springer 2002.

23.Ripley，B.D.Pattern Recognition and Neural Networks CambridgeUniversity Press 1996

24.Cristianini N，Shawe-Taylor J An Introduction to Support VectorMachines(and other kernel-based learning methods)CambridgeUniversity Press 2000

25.Breiman L，Friedman J，Stone CJ，Olshen RA Classification andRegression Trees Chapman & Hall/CRC 1984

26.Good，PI Resampling Methods：A Practical Guide to Data AnalysisBirkhauser 1999

27.Winnepenninckx V，Lazar V，Michiels S等人：Gene expressionprofiling of primary cutaneous melanoma and clinical outcome.J NatlCancer Inst 98：472-82，2006

28.Benjamini Y，Hochberg Y：Controlling the false discovery rate：apractical and powerful approach to multiple testing.Journal of the RoyalStatistical Society57：289-300，1995

29.Livak KJ，Schmittgen TD：Analysis of relative gene expression datausing real-time quantitative PCR and the 2(-Delta Delta C(T))Method.Methods 25：402-8，2001

30.Balch CM，Sober AJ，Soong SJ等人：The new melanoma stagingsystem.Semin Cutan Med Surg 22：42-54，2003

31.Wang E，Miller LD，Ohnmacht GA等人：Prospective molecularprofiling of melanoma metastases suggests classifiers of immuneresponsiveness.Cancer Res 62：3581-6，2002

32.Ramaswamy S，Ross KN，Lander ES等人：A molecular signature ofmetastasis in primary solid tumors.Nat Genet 33：49-54，2003

工业实用性

本发明的方法、组合物、试剂盒和装置基于预后癌症标志物，尤其是黑色素瘤预后标志物，可用于预后和治疗癌症，特别是黑色素瘤。

Claims

1.确定黑色素瘤进展风险的预后标签，包括两个或更多个黑色素瘤预后标志物(MPM)。

2.权利要求1的标签，其中MPM选自表1。

3.确定黑色素瘤预后的装置，包括：

其上具有一个或多个位置的基质，各位置上具有两个或更多个寡核苷酸，各寡核苷酸选自一个或多个MPM。

4.权利要求3的装置，其中所述两个或更多个寡核苷酸是选自表1的MPM。

5.确定患者黑色素瘤预后的方法，包括步骤：

(i)确定来自患者的黑色素瘤肿瘤样品中MPM的表达水平、或者包含两个或更多个MPM的预后标签的表达水平，

(ii)应用预测模型，所述模型通过对预后良好和不良肿瘤样品中该MPM的表达水平或预后标签的表达水平应用预测方法而确立，

(iii)确立预后。

6.确定黑色素瘤患者进行药物试验的适宜性的方法，包括步骤：

(iii)确立患者对试验的适宜性。

7.权利要求5或权利要求6的方法，其中MPM选自表1。

8.权利要求5的方法，其中所述预测方法选自线性模型、支持向量机、神经网络、分类回归树、集成学习方法、判别分析、近邻方法、贝叶斯网络、独立成分分析。

9.权利要求5至8中任一项的方法，其中确定MPM或预后标签表达水平的步骤通过检测各基因的mRNA表达水平进行。

10.权利要求5至8中任一项的方法，其中确定MPM或预后标签表达水平的步骤通过检测各基因的cDNA表达水平进行。

11.权利要求10的方法，其中确定MPM或预后标签表达水平的步骤利用与所述cDNA的至少一部分互补的核苷酸进行。

12.权利要求9的方法，其中确定MPM或预后标签表达水平的步骤利用正向引物和反向引物通过qPCR方法进行。

13.权利要求8的方法，其中确定MPM或预后标签表达水平的步骤利用根据权利要求3或权利要求4的装置进行。

14.权利要求5至8中任一项的方法，其中确定MPM或预后标签表达水平的步骤通过检测各标志物的蛋白质表达水平进行。

15.权利要求5至8中任一项的方法，其中确定MPM或预后标签表达水平的步骤通过检测各标志物的肽表达水平进行。

16.权利要求13或权利要求14的方法，其中所述检测步骤利用针对各标志物的抗体进行。

17.权利要求13至15中任一项的方法，其中所述检测步骤利用夹心免疫测定法进行。

18.权利要求13至16中任一项的方法，其中所述抗体是单克隆抗体。

19.权利要求13至16中任一项的方法，其中所述抗体是多克隆抗血清。