CN105917008A

CN105917008A - 用于前列腺癌复发的预后的基因表达面板

Info

Publication number: CN105917008A
Application number: CN201580004797.5A
Authority: CN
Inventors: 玛丽安娜·卡拉·斯特恩; 亚采克·平斯基; 范建兵
Original assignee: Inspiration Co; University of Southern California USC
Current assignee: Inspiration Co; University of Southern California USC
Priority date: 2014-01-16
Filing date: 2015-01-16
Publication date: 2016-08-31
Anticipated expiration: 2035-01-16
Also published as: US20200071770A1; CN112322735A; US20220033915A1; AU2015206336B2; JP2017503527A; CN105917008B; EP3094747A1; HK1231515A1; AU2015206336A1; CA2935720A1; AU2020202145A1; US10364469B2; WO2015109234A1; JP6666852B2; EP3094747B1; US11098372B2; US20160333420A1; AU2022203428A1

Abstract

公开了一种可以用来预测前列腺癌(PCa)进展的基因表达面板。一些实施例提供用于预测PCa的临床复发的方法。一些实施例提供一种用于预测个体中前列腺癌的进展的方法，该方法包含：(a)接收来自从所述个体采取的生物样品的标记基因的集合的表达水平，其中所述标记基因的集合包含从以下组成的组中选择的至少两个基因：NKX2‑1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、ABLIM1、EDARADD、GPR81、MYBPC1、F10、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、PCA3和NPR3；(b)将表达水平应用到使所述标记基因的集合的表达水平与前列腺癌进展关联的预测模型；以及(c)评估所述预测模型的输出以预测所述个体中前列腺癌的进展。还提供了用于预测PCa的进展和/或复发的系统。

Description

用于前列腺癌复发的预后的基因表达面板

相关申请的交叉引用

本申请要求美国临时申请号为61/928,361、申请日为2014年1月16日的美国专利申请的益处和优先权，该优先权的内容通过引用以其整体在此并入并且用于所用目的。

背景技术

前列腺癌(PCa)是美国男性中最常见的癌症并且是癌症死亡的第二主要原因。治疗人类前列腺癌的进展已由于发现组织学上相同的癌症可以表现出广泛不同的临床行为而受到阻碍。例如，在诊断有前列腺癌的一些男性中，疾病随延长的自然发展过程缓慢地进展，而在其它患者中，疾病进展可以是迅速的并且确定的局部治疗可能是无效的。

改进的早期检测已导致更多的男性被诊断患有局部的前列腺癌(PCa)；然而，在诊断后的临床病程是多样化的，观察到的复发多达患者的三分之一，甚至在根治性前列腺切除术之后。因此，大约60％被诊断为低风险的男性选择进行RP作为他们的主要治疗。然而，如果神经保留外科手术不可能，则RP可能携带影响生活质量的潜在副作用，比如尿失禁和阳痿。近距离放射治疗法和外部射线束放射治疗法也是治疗的选项，是约15％的低风险患者的主要治疗的选择。"主动监测"或"观察等待"是被大多数患者最少喜爱的选择，在美国仅仅约10％的患者选择主动监测。延迟治疗对于可能具有不会进一步进展的肿瘤的低风险疾病的男性是期望的，以便降低与生活质量相关的健康的副作用的负面影响。据报道，选择根治性前列腺切除术的约30％的患者真实地具有疾病复发的低风险并且如果他们选择"主动监测"(AS)则可以受益更多。相反地，归类为PCa相关的死亡的高风险的男性将因在诊断时对他们的疾病积极地治疗而受益，而不是等待疾病复发征兆发生。所有其他患者应该经历并且保持AS，除非癌症进展的标志迫使进行确定的局部治疗。PIVOT(前列腺癌干预与观察)试验，第一次随机试验将处在等待观察的男性与经受根治性前列腺切除术至少12年随访的男性比较，表明尽管只有一小群男性可以从RP中受益，但是转移和PCa相关的死亡的风险在后续7-9年随访的人群之间看出没有差异。尽管临床变量，比如活检的格里森评分(Gleason score)、患者年龄、PSA(前列腺特异性抗原)水平、PSA动力学(PSA随时间上升速度)、肿瘤分级和体积已作为可能预测因素被研究，但是在这点上，还没有确定PCa进展的决定性预测因素。

甚至在根治性前列腺切除术之后，多达三分之一的患者可以在血清PSA水平再次可检测时体验到生化复发(BCR)(也称为PSA复发)。报告显示BCR的18％至29％的个体可进展为转移性疾病，表明BCR是暗示的且不是确定的可能恶性疾病。因此，识别RP之后处在复发危险中的患者是期望的，以便在手术后更积极地治疗他们。

总的来说，可以用来确定局部的PCa患者的预后的当前工具限制了预测准确性。这些工具包括目的在于临床中容易应用的模型和列线图，其使用比如格里森评分、临床分期、手术前的PSA水平、和在手术时收集的一些模型数据这样的临床变量的组合。

发明内容

一些实施例提供可以用来预测PCa进展的基因表达面板。一些实施例提供用于预测PCa的临床复发的方法。一些实施例包括从一组PCa的局部囊内肿瘤中获得全基因表达谱。在一些实施例中，肿瘤从诊断患有PCa的一大群临床和生理学上良好表征的患者中识别。

一些实施例提供用于预测个体前列腺癌的进展的方法，该方法包括：(a)接收来自从所述个体采取的生物样品的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组中选择的至少两个基因，该组包括：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、ABLIM1、EDARADD、GPR81、MYBPC1、F10、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、PCA3和NPR3；(b)将表达水平应用到使所述标记基因的集合的表达水平与前列腺癌进展相关的预测模型；和(c)评估所述预测模型的输出以预测所述个体中前列腺癌的进展。在一些实施例中，所述标记基因的集合包括从以下组中选择的至少一个基因，该组包括：NKX2-1、UPK1A、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、EDARADD、GPR81、MYBPC1、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1和NPR3。在一些实施例中，所述标记基因的集合包括从以下组中选择的至少两个基因，该组包括：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、和PGC。在一些实施例中，所述标记基因的集合包括从以下组中选择的至少两个基因，该组包括：ZYG11A、MMP11、MYBPC1、DUOX1、EDARADD、PGC、GPR81、NKX2-1、ABLIM1和ABCC11。

在一些实施例中，预测模型的输出预测在个体已经受前列腺癌的治疗之后个体中前列腺癌的临床复发的可能性。在一些实施例中，预测模型的输出预测在个体已经受前列腺癌的治疗之后个体中前列腺癌的生化复发的可能性。

在一些实施例中，上面所描述的方法进一步包括提供具有个体的前列腺癌的临床复发的预测的报告。

在一些实施例中，上面所描述的方法进一步包括将格里森评分、前列腺癌的手术的年份、手术前PSA水平、和年龄中的至少一个应用到预测模型，其中预测模型使格里森评分、前列腺癌的手术的年份、手术前PSA水平、和年龄中的至少一个与前列腺癌的进展关联。

在一些实施例中，上面所描述的方法进一步包括将标记基因的基因表达水平与一个或者多个其它生物标记物结合以预测个体中前列腺癌的进展。在一些实施例中，一个或多个其它生物标记物从以下组成的组中选择：胚系突变、体细胞突变、DNA甲基化标记、蛋白标记、和它们的任何组合。

在上面所描述的方法的一些实施方式中，标记基因的集合的表达水平包括在多个时间测量的基因表达水平。在一些实施方式中，该方法进一步包括使用在多个时间测量的基因表达水平的动力学以预测个体中前列腺癌的进展。

在一些实施例中，上面所描述的方法进一步包括评估预测模型的输出以确定个体是否处于在高风险组中。在一些实施例中，上面所描述的方法进一步包括通过从多于约1000个基因中选择标记基因的集合来开发预测模型。在一些实施例中，上面所描述的方法进一步包括使用稳定性选择(stability selection)来开发预测模型。在一些实施例中，上面所描述的方法进一步包括使用逻辑回归来开发预测模型。

在一些实施方式中，上面所描述的方法进一步包括通过使用具有弹性网络正则化逻辑回归(elastic-net regularized logistic regression)的稳定性选择而选择基因来开发预测模型。

在一些实施方式中，将标记基因的集合的表达水平应用到预测模型包括根据标记基因的集合的稳定性排名或预测能力排名来加权表达水平。

在一些实施方式中，预测模型具有曲线下面积，该曲线下面积比仅具有格里森评分的预测模型的曲线下面积更大。

在一些实施方式中，预测模型具有曲线下面积，该曲线下面积比仅具有格里森评分、手术前PSA水平、和年龄的预测模型的曲线下面积更大。

在一些实施方式中，上面所描述的方法进一步包括在(a)之前确定表达水平。在一些实施方式中，确定表达水平包括：从生物样品中获得蛋白质或表达的核酸、和确定用于标记基因的序列的表达的核酸的量。表达的核酸的量可以通过在具有来自生物样品的表达的核酸的序列的核酸上执行定量聚合酶链式反应(PCR)、将具有来自生物样品的表达的核酸的序列的核酸应用到核酸阵列、和/或使用下一代测序技术对核酸测序来确定。一些实施方式进一步包括用来产生cDNA的mRNA的随机引物法、将产生的cDNA杂交到对应于标记基因的寡核苷酸、延伸寡核苷酸、和/或连接寡核苷酸。在一些实施方式中，该方法进一步包括荧光标记定量聚合酶链式反应(qPCR)中的寡核苷酸和基于标记的寡核苷酸的荧光水平来确定标记基因的表达水平。

在一些实施方式中，生物样品包括来自个体的前列腺组织样品。在一些实施方式中，生物样品包括从个体的至少一种体液分离的循环肿瘤细胞(CTC)。在一些实施方式中，至少一种体液从以下组成的组中选择：血液、唾液、尿液、以及它们的任意组合。在一些实施方式中，生物样品包括个体的外来体(exosome)。在一些实施方式中，生物样品包含个体的循环肿瘤核酸。

在一些实施方式中，上面的方法进一步包括使用激光俘获显微切割(LCR)来显微切割前列腺组织样品。

一些实施方式提供用于预测个体中前列腺癌的进展的系统，该系统包括：被配置为确定从个体采取的生物样品的核酸的表达水平的装置、和被设计或被配置为执行上面所描述的任何方法操作的硬件逻辑。

通过引用并入

本文提及的所有专利、专利申请和其它出版物，包括这些引用文献内公开的所有序列，通过引用在此明确并入本发明，如同各个出版物、专利或专利申请被具体地且单独地指明通过引用并入。引用的所有文献的相关部分通过引用以其整体在此并入，以用于在此引用其的语境所表示的目的。然而，任何文献的引用不应当解释为承认其相对于本发明是现有技术。

附图说明

图1是示出用于差异表达分析和预测模型开发的方法的概要的流程图，其中示出了处理试验样品不同的操作如何被分组以通过系统的不同元件进行处理的方法。

图2示出了来源于重复5倍交叉验证的受试者工作特征(ROC)曲线：28个基因模型对临床变量唯一模型。基因标记(实线)具有几乎完美的预测能力(曲线下面积(AUC)＝0.99)，并示出了超出只具有临床变量的模型的主要改进。只具有临床变量(格里森评分、手术前PSA水平、和年龄)的模型的ROC曲线(虚线)具有AUC＝0.66。

具体实施方式

定义

除非另外表明，本文所公开的方法和系统的实践包括通常使用在分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序、和重组DNA领域的常规技术和装置，其在本领域的技术范围内。这样的技术和装置对于本领域的技术人员是已知的，并且在许多文本和参考书中进行了描述(参见例如，Sambrook等人，“分子克隆：实验手册”第三版(冷泉港)，[2001])；和Ausubel等人，“现代分子生物学实验指南”[1987])。

数字范围包括定义范围的数字。它的目的是，贯穿本说明书给出的每个最大数值极限包括每个较低数值极限，好像这样的较低数值极限在此明确地写出。贯穿本说明书给出的每个最小数值极限包括每个较高数值极限，好像这样的较高数值极限在此明确地写出。贯穿本说明书给出的每个数值范围将包括落入这样的较宽阔的数值范围内每个较窄的数值范围，好像这样的较窄的数值范围在此明确地写出。

除非本文另有定义，本文使用的所有技术和科学术语具有如通过本领域的普通技术人员通常理解的相同含义。包括本文包括的术语的各种科学词典是公知的并且本领域技术人员可得。尽管类似或等同于本文所描述的那些的任何方法和材料可用于本文所公开的实践或试验中，但描述了一些方法和材料。

下面所定义的术语通过整体引用到说明书来更充分地描述。但应当理解的是，本发明不限于所描述的特定方法、方案和试剂，因为这些可以变化，取决于它们被本领域的技术人员所使用的环境。

本文提供的标题并不旨在限制本发明。

如本文所使用的，单数术语“一”、“一个”和“该”包括复数引用，除非语境另有明确指示。

“核酸序列”、“表达的核酸”或使用在相应的标记基因的情况下的它的语法等同物意思是核酸序列，核酸序列的量被测定为基因的表达水平的指示。核酸序列可以是基因的一部分、调控序列、基因组DNA、cDNA、包括mRNA和rRNA的RNA、或其它。一个优选实施例利用mRNA作为主目标序列。如本文所概述的，核酸序列可以是来自样品的序列、或次级目标，例如，反应的产物，比如来自侵略性裂解反应(invasivecleavage reaction)的检测序列、来自OLA或DASL(cDNA介导退火、选择、和连接)反应的连接探针、来自PCR反应的延伸探针或PCR扩增产物(例如，“扩增子”)。对应于标记基因的核酸序列可以是任意长度，应当理解的是更长的序列更加特异性。探针杂交到核酸序列，以确定样品中标记基因的表达的存在或缺少。

本文所用的“前列腺癌”包括癌，包括，原位癌、浸润性癌、转移性癌和癌前病变状况。

如本文所用的术语“包含”意思是命名的元素被包括，但其他元素(例如，未命名的标记基因)可以增加并且仍然表示权利要求的范围内的组成或方法。过渡词组“实质上包含”意思是相关组成或方法包含不影响本发明的基本和新颖特征的附加元素，包括，例如，附加标记基因。

如本文所使用的，术语“标记基因”指的是表达与疾病程度或结果或与疾病程度或结果的另一个预测正相关或负相关的基因。在一些实施例中，基因表达评分(GEX)可以在统计上由一组标记基因的表达水平得出并且用来诊断病症或预测临床过程。在一些实施例中，标记基因的表达水平可以用来预测PCa的进展而不依赖GEX。“标记核酸”是包含或在cDNA的情况下对应于通过标记基因编码的RNA转录物的全部或部分序列的核酸。标记蛋白通过本发明的标记基因编码或对应于本发明的标记基因。

术语“复发预测”在本文中用来指代治疗后没有明显残留肿瘤组织的患者中癌症复发的可能性的预测。本发明的预测方法可以在临床上用来通过选择用于任何特定患者的最合适的治疗方式来做出治疗决定。本发明的预测方法也可以提供预测患者是否可能对治疗方案——比如手术治疗、用给定药物或合并用药的化学疗法、和/或放射疗法——有利地响应的有价值的工具。

格里森分级系统基于肿瘤的腺体模式。格里森分级考虑肿瘤形成腺体的能力。病理学家使用相对低的放大率执行对分配格里森分级必要的组织学检查。分级的范围为1-5：1、2和3被认为是分级由低到中；4和5都被认为是高分级。给定患者的预后通常落在通过主分级预测和给定第二最突出腺体模式的次分级预测之间的某处。当两个分级相加，所得数被称为“格里森评分”。格里森评分是比任意一个单独的分级更精确的结果的预测器。因此，传统上报导的格里森评分将是1-5之间的两个数的和，总评分为2-10。对于主和次格里森分级相差大于一是不寻常的，以使格里森评分7的肿瘤的唯一方式是主格里森分级或次格里森分级为4。由于具有格里森评分7的组织中的分级4的腺体模式的存在，这些肿瘤可以以比具有格里森评分6的那些更具侵略性的方式表现。在对超过300个患者的最近研究中，格里森评分7的患者的疾病相关存活率是10年。相比之下，格里森评分6的患者存活16年且格里森4-5为20年。因此，清楚的是，具有格里森评分7的肿瘤的男性的预后比具有格里森评分5和6的肿瘤的男性的更坏。在某些情况下，建议的是，具有格里森评分7的肿瘤的男性可以被考虑用于临床试验。

术语“多个”指的是多于一个元素。例如，该术语在本文中被使用参照足以使用本文所公开的方法识别试验样品和合格样品中拷贝数变化的显著差异的多个核酸分子或序列标签。在一些实施例中，对于每个试验样品，获得至少约3×10⁶个约20和40bp之间的序列标签。在一些实施例中，每个试验样品提供至少约5×10⁶、8×10⁶、10×10⁶、15×10⁶、20×10⁶、30×10⁶、40×10⁶、或50×10⁶个序列标签的数据，每个序列标签包含在约20和40bp之间。

术语“多核苷酸”、“核酸”和“核酸分子”可交换地使用并且指代共价连接的核苷酸的序列(即，RNA的核糖核苷酸和DNA的脱氧核糖核苷酸)，其中一个核苷酸的戊糖的3'位置通过磷酸二酯基连接到下一个的戊糖的5'位置。核苷酸包括任何形式的核酸的序列，包括，但不限于RNA和DNA分子。术语“多核苷酸”包括，但不限于，单链和双链多核苷酸。

术语“下一代测序(NGS)”在本文中指代允许克隆扩增分子和单核酸分子的大规模并行测序的测序方法。NGS的非限制性示例包括使用可逆染料终止法的合成法测序和连接法测序。

术语“读序(read)”指的是从部分核酸样品中读取的序列。通常，尽管不一定，读序表示样品中连续碱基对的短序列。读序可以通过样品部分的碱基对序列(以ATCG表示)来象征性地表示。它可以存储在存储装置中并且适当处理以确定其是否与参考序列相匹配或满足其它准则。读序可以从测序装置直接获得或从关于样品的存储的序列信息间接获得。在某些情况下，读序是可以用来识别更大的序列或区域的足够长度(例如，至少约25bp)的DNA序列，例如可以比对且特异性分配给染色体或基因组区或基因的序列。

如本文所使用的，术语“比对(过去式)”、“比对(名词)”或“比对(现在进行时)”指的是将读序或标记与参考序列进行比较，并且由此确定参考序列是否包含读取序列的过程。如果参考序列包含读序，读序可以被映射到参考序列，或者，在某些实施例中，被映射到参考序列的特定位置。在某些情况下，比对简单地告知读序是特定参考序列的部分(即，读序在参照序列中是存在还是缺少)。例如，对于人类13号染色体的读序与参考序列的比对将告知读序是否存在于染色体13的参考序列中。提供这种信息的工具可以被称为集员测试仪(set membershiptester)。在某些情况下，比对额外地表示读序或标签映射到的参考序列中的位置。例如，如果参考序列是整个人类基因组序列，则比对可以表示读序存在于13号染色体上，并且可以进一步表示读序在特定链和/或13号染色体的位点上。

比对的读序或标签是被识别为在它们的核酸分子的顺序方面匹配到来自参考基因组的已知序列的一个或多个序列。比对可以手动地完成，尽管其通常通过计算机算法实现，因为实施本文所公开的方法在合理的时间段比对读序将是不可能的。来自比对序列的算法的一个示例是分布为Illumina基因组分析流水线的一部分的核苷酸数据计算机程序的有效的局部比对(ELAND)。供选择地，布隆过滤器或类似集员测试仪可以用来将读序与参考基因组进行比对。参见美国专利申请号为61/552,374、申请日为2011年10月27日的美国专利申请，该美国专利申请通过引用以其整体在此并入。比对中的序列读序的匹配可以是100％序列匹配对或小于100％(非完美匹配)。

本文所使用的术语“映射”指的是通过比对将序列读序专门分配给较大序列，例如，参考基因组。

如本文所使用的，术语“参考基因组”或“参考序列”指的是可以用来参考来自受试者的识别序列的任何生物体或病毒的任何特定的已知的基因组序列，无论是部分的还是完整的。例如，用于人类受试者以及许多其他生物体的参考基因组存在于ncbi.nlm.nih.gov的国家生物技术信息中心。“基因组”指的是生物体或病毒的完整遗传信息，其在核酸序列中表达。

在各种实施例中，参考序列显著大于与它比对的读序。例如，它可以大至少约100倍、或大至少约1000倍、或大至少约10,000倍、或大至少约10⁵倍、或大至少约10⁶倍、或大至少约10⁷倍。

在获得具体定量值的情况下使用时的术语“基于”在此指的是使用另一个量作为输入以计算具体定量值作为输出。

如本文所用的，术语“染色体”指的是活细胞遗传承载基因载体，其由包含DNA和蛋白质组分(特别是组蛋白)的染色质链得到。传统的国际公认的个体人类基因组染色体编号系统在本文中被采用。

本文中的术语“受试者”指的是人类受试者以及非人类受试者比如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌、和病毒。尽管本文的示例关注人类且语言主要针对人类考量，但是本文所公开的构思可适用于来自任何植物或动物的基因组，并且在兽医学、动物科学，研究工作实验室的领域中是有用的。

本文中的术语“状况”指的是作为广义的术语的“医疗状况”，该广义的术语包括所有疾病和失调，但可以包括[受伤]和正常健康的情况，比如怀孕，其可能会影响人的健康、因医疗救助而受益，或对医疗有启示。

如本文所用的术语“敏感性”等于真阳性除以真阳性和假阴性的总和的数值。

如本文所用的术语“特异性”等于真阴性除以真阴性和假阳性的总和的数值。

本文中的术语“富集”指的是扩增包含在样品的一部分中的核酸的过程。富集包括以特异性序列(例如多态序列)为目标的特异性富集，和扩增样品的DNA片段的整个基因组的非特异性富集。

如本文所使用的术语“引物”指的是当放置在能诱导延伸产物的合成的条件(例如，条件包括核苷酸、诱导剂(比如DNA聚合酶)、和合适的温度和pH)下时能够充当合成的起始点的分离的寡核苷酸。引物最好是单链的，用于扩增的最大效率，但也可以供选择地是双链的。如果是双链的，则引物首先被处理以在用来制备延伸产物之前使其链分离。优选地，引物是寡脱氧核糖核苷酸。引物必须足够长以起动在诱导剂的存在下的延伸产物的合成。引物的确切长度将取决于许多因素，包括温度、引物的来源、方法的使用、和用于引物设计的参数。

引言

目前存在疾病的mRNA标记的大规模的发现、验证和临床应用和具有确定的临床前列腺癌疾病的患者中的基因组分析的方法以预测疾病的结果的需要。本发明满足这种需要并且提供相关的优点。一些实施例提供可以用来预测PCa进展的基因表达面板。一些实施例提供用于预测PCa的临床复发的方法。一些实施例包括从一组PCa的局部内囊内肿瘤中获得全基因表达谱。

考虑到许多可用治疗对患者的与生活质量有关的健康的负面影响、和更多男性在年轻时被诊断的趋势，主动监测和延迟治疗对具有低风险疾病的大部分男性是期望的。相反地，采用雄性激素切除的辅助治疗和/或化学疗法将提高处在发展复发的较高风险下的具有局部性疾病的那些患者的临床结果。具有改进的风险预测模型将提供更强的再保证给低风险的患者，这将减少无痛疾病的过度治疗、降低患者的经济负担、且提高这些PCa癌症幸存者的生活质量。本发明提供结合肿瘤生物标记物且在无痛病例和转移性疾病之间更好地区分的改进的预测模型。这种模型的发展由于缺乏包括用于生物标记物识别的合适组织和长期的临床数据的足够的数据文库而受到挑战。此外，直到最近，可用的技术排除了用于生物标记物识别的存档的福尔马林固定石蜡包埋(FFPE)肿瘤组织的使用。

本发明的一些实施例解决了先前方法的缺陷，并且使识别基因表达谱的临床结果的预测的机会最大化，同时使PCa肿瘤异质性的影响最小化。在一些实施例中，用于确定PCa进展的预测模型被开发。在开发预测模型中，一些实施例包括从使用来自PCa肿瘤的连续切片的激光捕获的显微切割的恶性上皮腺体分离RNA，以便使感兴趣的目标细胞的样品富集，最小化非肿瘤细胞的污染。在一些实施例中，模型开发使用表示每个患者的整体格里森评分的腺体的样品。在一些实施例中，使用DASL(cDNA介导退火、选择、延伸和连接试验)整体基因组谱平台(Illumina公司)来执行表达分析。在一些实施例中，来自有PCa临床复发和没有PCa临床复发的患者的肿瘤的表达谱用来开发预测模型。在一些实施例中，两个患者组已被适当地匹配，考虑了后续随访时间。

一些实施例提供一种用于预测个体中前列腺癌的进展的方法，该方法包含：(a)接收来自从所述个体采取的生物样品的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组中选择的至少两个基因，所述组包含：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、ABLIM1、EDARADD、GPR81、MYBPC1、F10、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、PCA3和NPR3；(b)将表达水平应用到使所述标记基因的集合的表达水平与前列腺癌进展关联的预测模型；和(c)评估所述预测模型的输出以预测所述个体中前列腺癌的进展。在一些实施例中，预测模型的输出预测在个体已经受前列腺癌的治疗之后个体中前列腺癌的临床复发的可能性。

在一些实施例中，面板的28个标记在有复发和没有复发的Pca病例之间差异表达/调节，并且预测侵略性疾病。在一些实施例中，预测模型包括这些28个标记连同手术前PSA水平、格里森评分、和诊断时的年龄，其模型显示比单独具有临床变量的模型更大的预测。本领域技术人员应当理解的是，使用附加数据集的模型的进一步验证将允许模型的预测能力的改进，其可以包括不同的模型系数。在一些实施例中，一个或多个基因可以从面板中选择以形成用于评估PCa进展的预测模型。

从上述28个标记基因或其子集得到的分子标记的敏感性和特异性基于对诊断本文所讨论的方法的适用性以及通过活检样品的预后对经受癌诊断的前列腺穿刺得患者具有实用性。此外，本发明能够发展技术上简单且可适用于日常临床应用的诊断试验，并且并入到现有前列腺癌的列线图中(Group TTABPW，基因株自然评论5：229-37(2004)；Ramaswamy，新英格兰医学杂志350：1814-6(2004)；Sullivan Pepe等人，国立癌症研究所杂志93：1054-61(2001))。

识别基因表达面板和开发预测

一些本发明实施例提供开发用于确定PCa进展的预测模型的方法。在一些实施例中，模型使用从已知具有前列腺癌的患者收集的数据来开发。在一些实施例中，提供数据的患者经受了耻骨后前列腺根治性切除术和淋巴结清除术。在一些实施例中，用于开发预测模型的数据可以从福尔马林固定石蜡包埋(FFPE)前列腺肿瘤组织中获得。在一些实施例中，预测模型描述在前列腺肿瘤组织中测量的标记基因的表达水平和提供肿瘤组织的患者的PCa的临床复发的关联性。在各种实施例中，本发明提供与患者中PCa复发关联的28个标记基因的面板，如表2中所示：NKX2-1、UPK1A、ADRA2C，ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2，PGC、UPK3B、PCBP3、ABLIM1、EDARADD、GPR81，MYBPC1、F10、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、PCA3和NPR3。在表2和表3所示的28个标记基因之间，ABLIMl、ADRA2C、PCA3、F10已报道与PCa进展和/或转移相关联。在一些实施例中，本发明进一步提供使用个体的一个或多个标记基因的表达水平来预测PCa发展、复发、和/或个体存活的方法。在一些实施例中，预测模型包括从以下组中选择的至少一个基因的表达水平，该组包括：NKX2-1、UPK1A、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、EDARADD、GPR81、MYBPC1、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1和NPR3。

在一些实施例中，原始基因表达水平微阵列数据可以从整个基因组DASL HT平台(Illumina公司，圣地牙哥，加利福尼亚州)中获得。在一些实施例中，基因表达数据可以通过归一化、背景校正、和/或批量效应校正进行预处理。预处理的数据可以然后被分析用于无疾病征兆(NED)组对临床复发(CR)组的基因的差异表达。

在一些实施例中，为了开发用于侵略性PCa的预测模型，人们可以只使用临床复发病例对NED(既没有临床的也没有PSA)对照。在一些实施例中，人们也可以比较PSA(即，BCR)复发对无复发，以开发例如用于确定发展PCa的可能性或对PCa治疗的反应的预测模型。在一些实施例中，包括在最终模型中的探针使用具有弹性网络正则化逻辑回归的稳定性选择从整组29K探针中选择。弹力网络回归是将LASSO(套索回归)(L₁)和岭回归(L₂)正则化惩罚项的高维回归方法。惩罚项的完全组合(LASSO对岭)通过参数0<α<1(α＝0是纯岭回归且α＝1时是纯LASSO)控制。正则化的程度通过单个惩罚项参数控制。LASSO和岭回归相对于未惩罚的回归朝向零收缩模型系数，但LASSO可以收缩系数恰好为零，从而有效地执行变量选择。然而LASSO独自趋向于在相关预测项之间随意选择，增加的岭惩罚项有助于防止该情况。在一些实施例中，人们可使用在R包'glmnet'中的弹性网络逻辑回归的实施。

稳定性选择后面的想法是要找到“稳定”探针，该探针始终显示预测由“扰动”原始数据而获得的所有多个数据集的复发。具体地，扰动的数据版本通过二次抽样m<n受试者(n是受试者的总数)而无需替换获得。正则化回归(或在一些实施例中的弹性网络)然后在每个子样品的数据版本上执行，以获得完整的正则化路径(即，随正则化惩罚项的变化的模型系数)。LASSO惩罚项的效果是使绝大部分的探头系数收缩恰好为零；具有相当大比例的子样品的数据版本的非零系数(预测)的探针被视为稳定的预测器。

在一些实施例中，为了实施具有弹性网络回归的稳定选择，人们可以使用重复交叉验证(例如，使用10倍交叉验证的R包插入符号)校准调谐参数α。在一些实施例中，调谐参数α＝0.3可以基于所得的AUC度量来提供良好预测。在一些实施例中，由于意图是包括为许多可能的特征同时保持良好预测，所以α＝0.2可以用于使用α可以产生类似或略微更小的AUC的稳定选择(较小的α产生较大的模型)的最终模型选择。在一些实施例中，稳定选择使用使用500、1000、2000、或其它数量的数据的子样品来实施，每个数据的子样品具有总样品大小的一半(每个具有与原始大约相同比例的病例和对照)，以便识别最终模型的强健的预测器。在一些实施例中，不进行通过其标准偏差(将所有基因特征置于相同尺度上的glmnet中的默认值)的基因表达水平的标准化，因为基因表达水平的差异的变异性可能是生物学上重要的。在一些实施例中，这样的标准化可以被执行。在一些实施例中，临床变量(比如格里森评分和PSA水平)被迫使包括(即不受制于弹性网络正则化惩罚项)。在一些实施例中，临床变量可以被排除在预测模型之外。在一些实施例中，稳定探针可以提供给20％至80％范围的稳定阈值(其中探针具有非零系数的500或更大数量的子样品的比例)。稳定阈值的更大或更小范围可以应用在其他实施例中。

在一些实施例中，标记基因的面板识别用于前列腺癌临床复发的预测模型。如下面示例中所示，标记基因的面板包括表2中所示的28个基因。图1中示出了用于差异表达分析和预测模型开发的方法的概要。

在一些实施例中，表2中所示的一个或多个基因可以使用在预测模型中。在一些实施例中，一个或多个基因可以通过他们与训练数据集中复发的相关来选择以开发预测模型。在一些实施例中，一个或多个基因可以通过它们的可靠性排名来选择。在一些实施例中，标记基因的面板包括至少NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、和PGC的1、2、3、4、5、6、7、8、9、或10。在一些实施例中，一个或多个基因可以通过它们的预测能力的排名来选择。在一些实施例中，标记基因的面板包括至少ZYG11A、MMP11、MYBPC1、DUOX1、EDARADD、PGC、GPR81、NKX2-1、ABLIM1、和ABCC11的1、2、3、4、5，6、7、8、9、或10。

在一些实施例中，基于通过稳定选择和临床变量确定的一组探针的表达水平，预测模型通过使用弹性网络正则化逻辑回归拟合逻辑模型来获得。如果p是给定协变量(表达水平和临床变量)的临床复发的概率，则模型具有以下形式：

\begin{matrix} \log (\frac{p}{1 - p}) = Σ_{i = 1}^{28} {coeff}_{i} \times \exp r {level}_{i} + \\ {coeff}_{a g e} \times a g e + {coeff}_{P S A} \times P S A l e v e l + \\ {coeff}_{G l e a s o n} \times G l e a s o n S c o r e + {coeff}_{y e a r} \times O p e r a t i o n Y e a r \end{matrix}

其中expr level_i表示探针i的表达水平，且coeff_i表示相应的系数；PSA水平表示PSA水平，且coeff_PSA是其系数；Age表示诊断的患者的年龄且coeff_age是其系数。Gleason Score和Operation Year(手术年份)是分别具有3和9水平的离散多水平变量。因此，在上述等式中，Gleason Score通过3-1指示器(虚拟)变量表示，且Coeff_Gleason表示相应的3-1系数。同样地，Operation Year通过9-1虚拟变量表示。因此，实际上有用于格里森评分的3期和引用手术年份的9期。每个那样的期具有0/1虚拟变量和相关的系数。表5示出了用于初始模型开发的所有系数。

在一些实施例中，代替从面板中选择一组基因的子集，模型可以在逻辑回归中不同地加权基因。在一些实施例中，预测个体的PCa的进展包括将标记基因的集合的表达水平应用到预测模型，其包括根据标记基因的集合的稳定性排名来加权所述表达水平。在一些实施例中，方法包括根据标记基因的集合的预测能力排名来加权表达水平。

上面的逻辑回归模型表达特定方式的表达水平并且临床变量被结合以获得每个体的评分。在一些实施例中，表达水平以弹性网络正则化逻辑回归加权。这里的加权不是指模型系数(其可以被认为是表达水平与临床变量的权重)，而是用于在逻辑回归程序中差异解释变量重要性的其他机制。在这方面，替代的实施例考虑未加权的逻辑回归，即，同样地对待所有基因，并且加权的逻辑回归，通过稳定选择频率来加权。

在一些实施例中，不同的临床变量(例如，PSA水平、格里森评分、手术年份和年龄)将被包含在与标记基因一起的同样的逻辑模型中。将为每个变量(基因表达和临床值)定义系数。这个逻辑回归模型将提供具有给定所提供的基因表达评分和临床变量的临床复发的概率。这个概率将是0-1之间的数值，并且它将表明每个给定患者具有临床复发的概率。

在一些实施例中，除了标识预测模型的系数之外，本发明识别用户希望作为特定风险概率的最有用的特异性和敏感性。基于所需的特异性和敏感性水平，该方法将报告每个患者的危险状态。例如，我们可以发现我们的模型的给定的特异性和敏感性，45％可能性的临床复发的患者可能会更好地归类为复发的高风险而不是低风险，反之亦然。换句话说，用户更友好的准则可以基于在另外的数据集中的更详细的分析来选择，以根据临床医生希望冒多少具有假阳性或假阴性的风险来确定风险概率的最实际的解释。

本领域技术人员可以容易地确定足以用来实施本文要求保护的发明的标记基因的其它组合。例如，根据表2的稳定性选择排名或NED和CR组之间的单变量比较的p值，本领域的技术人员可以容易地确定用于本发明的方法的前列腺癌标记基因的子组合。具有最低稳定性选择排名的那些示例性的基因可以被排除，剩下的基因提供适合于前列腺癌的复发预测的分开前列腺癌标记基因的充分的集合。同样地，具有最大p值的基因可以被排除。例如，NPR3基因在稳定性选择百分比中排名最低，并且因此去除NPR3基因有望对模型的总体预测能力具有最小的影响。同样地，F10具有最大的p值，表示NED和CR组之间最小差异。从模型中去除F10有望对模型的总体准确度具有最小的影响。本领域技术人员可以容易地识别可以从28个识别的前列腺癌标记基因中省略并且仍足够用于本发明的方法的这些或其它合适的基因。

供选择地，本领域技术人员可以去除28个识别的前列腺癌标记基因中的任何一个或几个，只要那些剩余的提供在本发明的方法中使用的充分的统计相关性。前列腺癌标记基因的示例性集合包括，例如，本文在其他地方陈述的那些。本领域技术人员很容易认识到的是，这些列出的组合仅是示例性的并且任何数量的这样的组合可以通过本领域技术人员容易地确定。应当理解的是，给定的一组28个标记基因，去除单个标记基因，将可能不对具有许多其它基因的模型的整体性能有很大的影响。

因此，本发明基于表2中陈述的28个基因的任意子集——例如，28个基因中的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26或27——的表达模式来提供一种预测前列腺癌的复发的方法。本发明也基于用于由NKX2-1、UPK1A、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、EDARADD、GPR81、MYBPC1、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、和NPR3组成的一组基因的任何子集的表达模式来提供一种预测前列腺癌的复发的方法。在一些实施例中，本发明也基于用于由NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、和PGC组成的一组基因的任意子集的表达模式来提供一种预测前列腺癌进展的方法。在一些实施例中，本发明也基于用于由ZYG11A、MMP11、MYBPC1、DUOX1、EDARADD、PGC、GPR81、NKX2-1、ABLIM1、和ABCC11组成的一组基因的任意子集的表达模式来提供一种预测前列腺癌进展的方法。

尽管本发明公开且示例示出了上面所述的且表2中所示的28个标记基因，但是方法普遍适用于广泛范围的癌症的诊断和预后和其它状况。知悉本文所公开的发明的本领域技术人员应当理解的是，任何状况的疾病程度的任何已知的预测器可以被选择，以建立比仅基于已知的单独预测器的复发预测更准确或敏感的复发的预后的风险评分。

怀疑具有任何各种疾病或状况(比如癌症)的个体可以使用本发明的方法进行评估。可以使用本发明的方法进行评估的示例性癌症包括，但不限于造血干细胞肿瘤、成人T细胞白血病/淋巴瘤、淋巴组织肿瘤、间变性大细胞淋巴瘤、髓系肿瘤、组织细胞增生症、霍奇金病(HD)、前体B淋巴细胞性白血病/淋巴瘤(ALL)、急性骨髓性白血病(AML)、前体T淋巴细胞性白血病/淋巴瘤(ALL)、骨髓增生异常综合征、慢性骨髓增殖性疾病、慢性淋巴细胞白血病/小淋巴细胞性淋巴瘤(SLL)、慢性髓细胞性白血病(CML)、淋巴浆细胞淋巴瘤、真性红细胞增多症、套细胞淋巴瘤、原发性血小板增多症、滤泡性淋巴瘤、化生性骨髓纤维化、边缘区淋巴瘤、毛细胞白血病、血管瘤、浆细胞瘤/浆细胞骨髓瘤、淋巴管瘤、血管球瘤、弥漫性大B细胞淋巴瘤、卡波西肉瘤、血管内皮瘤、伯基特淋巴瘤、血管肉瘤、T细胞慢性淋巴细胞白血病、血管外皮细胞瘤、大颗粒淋巴细胞性白血病、头颈部癌，基底细胞癌、真菌病真菌和塞扎里综合征、鳞状细胞癌、耵聍腺瘤、周边T细胞淋巴瘤、骨瘤、非嗜铬性副神经节瘤、血管免疫母细胞T细胞淋巴瘤、听神经瘤、腺样囊性癌、血管中心性淋巴瘤、粘液表皮样癌、NK/T细胞淋巴瘤、恶性混合肿瘤、肠道T细胞淋巴瘤、腺癌、恶性间皮细胞瘤、纤维肉瘤、肉瘤样型肺癌、骨肉瘤、上皮型肺癌、软骨肉瘤、黑色素瘤、胃肠道癌、嗅觉神经母细胞瘤、鳞状细胞癌、孤立浆细胞癌、腺癌、内翻性乳头状瘤、类癌、未分化性癌、恶性黑色素瘤、黏液表皮样癌、腺癌、腺泡细胞癌、胃癌、恶性混合瘤、胃淋巴瘤、胃基质细胞瘤、造釉细胞瘤、淋巴瘤、牙瘤、肠基质细胞瘤、胸腺癌、恶性胸腺瘤、良性肿瘤、I型(侵略性胸腺瘤)、恶性间皮癌、II型(胸腺癌)、非粘蛋白生产腺癌、鳞状细胞癌、淋巴上皮瘤、肝癌和胆道癌、鳞状细胞癌、肝细胞癌、腺癌、胆管癌、肝母细胞瘤、乳头状癌、血管肉瘤，固体细支气管肺泡癌、羽层状组织癌、小细胞癌、胆囊癌、中间细胞癌、大细胞癌、鳞状细胞癌、未分化癌、胰腺癌、女性生殖道癌，鳞状细胞癌、囊腺癌、基底细胞癌、胰岛素瘤、黑色素瘤、胃泌素瘤、纤维肉瘤、胰高血糖素瘤、上皮肉癌、腺癌胚胎、肾癌、横纹肌肉瘤、肾细胞癌、大细胞癌、肾胚细胞瘤(成肾细胞瘤)，神经内分泌或燕麦细胞癌、下尿路癌、腺鳞癌、尿路上皮肿瘤、未分化性癌、鳞状细胞癌、女性生殖道癌、混合型癌、腺棘皮癌、肉瘤、小细胞癌、癌肉瘤、平滑肌肉瘤、子宫内膜间质肉瘤、男性生殖道肿瘤、浆液性囊腺癌、粘液性囊腺癌、恶性上皮肿瘤、子宫内膜肿瘤、恶性上皮肿瘤、胚芽癌，恶性胶质瘤、绒毛膜癌、畸胎瘤、透明细胞癌、睾丸间质细胞瘤、未分类癌、支持细胞瘤、卵巢颗粒-卵泡膜细胞瘤、男胚瘤、无性细胞瘤、未分化前列腺癌、畸胎瘤、导管转移细胞癌、乳腺癌、叶状肿瘤、骨关节和软组织癌、佩吉特氏病、多发性骨髓瘤、原位癌、恶性淋巴瘤、浸润癌、软骨质瘤、间充质软骨肉瘤、内分泌系统癌、骨肉瘤、腺瘤、尤因肿瘤、内分泌癌、恶性巨细胞瘤、脑膜瘤、釉质瘤、颅咽管瘤、恶性纤维组织细胞瘤、乳头状癌、组织细胞瘤、滤泡癌、韧带样纤维瘤、髓样癌、纤维肉瘤、还原成形术癌，脊索瘤、腺瘤、血管内皮瘤、血管外皮细胞瘤、嗜铬细胞瘤、脂肪肉瘤、神经母细胞瘤、副神经节瘤、组织细胞瘤、松果体肿瘤、横纹肌肉瘤、成松果体细胞癌、平滑肌肉瘤、成松果体细胞瘤、血管肉瘤、皮肤癌、神经系统、黑色素瘤、神经鞘瘤、鳞状细胞癌、神经纤维瘤、基底细胞癌的癌、恶性周边神经鞘瘤、默尔克细胞癌、鞘瘤，乳房外帕哲氏病、星形细胞瘤、乳头帕哲氏病、纤维样星形细胞瘤、胶质母细胞瘤、脑干胶质瘤、皮肤T细胞淋巴瘤、毛细胞型星形细胞瘤、黄原胶星形细胞瘤、组织细胞增多症、少枝胶质细胞、室管膜瘤、神经节、脑神经母细胞瘤、中枢神经细胞瘤、胚胎发育不良性神经上皮瘤、髓母细胞瘤、恶性脑膜瘤、原发性脑淋巴瘤、原发性脑生殖细胞肿瘤、眼癌、鳞状细胞癌、粘液表皮样癌、黑色素瘤、视网膜母细胞瘤、胶质瘤、脑膜瘤、心脏粘液瘤、纤维瘤、脂肪瘤、乳头状弹性纤维瘤、横纹肌瘤或血管肉瘤等等。

除了癌症以外的疾病或状况——其中满足的分级已与临床结果相关——也可在本发明的方法中使用以确定预后模型或确定怀疑患有疾病或状况的个体的预后。可以从本发明的模型中确定的示例性临床结果包括，例如复发概率、存活率、或复发的时间。可以从本发明的模型中确定的另一个临床结果响应于特定治疗过程，比如手术去除肿瘤、辐射或化学疗法。

通常，优选的是使用标记基因，其中前列腺癌细胞或与前列腺相关的体液中的标记基因的表达水平和正常前列腺细胞或与前列腺相关的体液中的相同标记基因的表达水平之间的差值尽可能大。尽管差值与评估标记基因的表达的方法的检测的极限一样小，但是优选的是差值至少大于评估方法的标准误差，并且优选至少1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、3、4、5、6、7、8、9、10、15、20、25、100、500、1000倍或更大的差值。

本领域技术人员应当理解的是，包含前列腺细胞或前列腺癌细胞的患者组织样品可以在本发明的方法中使用，包括，但不限于针对预测复发概率的那些。在这些实施例中，标记基因的表达水平可以通过评估例如来自患者获得的粪便和/或血液的样品中的标记基因产物——例如，通过标记基因编码的蛋白质和RNA转录物和蛋白质和RNA转录物的片段——的量(例如，绝对量或浓度)来评估。当然，在评估样品中的标记基因产物的量之前，样品可以经受各种已知的后采集制备和存储技术(例如固定、存储、冷冻、溶解、均化、DNA或RNA提取、超滤、浓缩、蒸发、离心等)。

在针对制备用于前列腺癌复发预测的模型的本发明的方法中，应当理解的是，有助于模型的与每个样品相关的特定临床结果必须是已知的。因此，模型可以使用存档组织来建立。在针对制备用于前列腺癌复发预测的模型的本发明的方法中，总RNA通常从感兴趣的源材料提取，通常存档组织比如福尔马林固定、石蜡包埋组织，并且随后纯化。用于从存档组织——包括福尔马林固定、石蜡包埋(FFPE)组织——获得强健且可再现的基因表达模式的方法在美国专利公开号为2004/0259105的美国专利申请中教导，其通过引用以其整体在此并入。用于从FFPE组织提取RNA的商业试剂盒和实验方案是可用的，包括例如，罗氏高纯度RNA石蜡试剂盒(Roche)、MasterPure^TM完整DNA和RNA纯化试剂盒(Madison，威斯康星州)；石蜡块RNA分离试剂盒(Ambion有限公司)和RNeasy^TM迷你型试剂盒(凯杰公司，查特斯沃思，加利福尼亚州)。

作为用于RT-PCR的RNA的来源的FFPE组织的使用先前已进行了描述(Stanta等人，生物技术11：304-308(1991)；Stanta等人，方法分子生物学杂志86：23-26(1998)；Jackson等人，柳叶刀1：1391(1989)；Jackson等人，临床病理学43：499-504(1999)；Finke等人，生物技术14：448-453(1993)；Goldsworthy等人，分子致癌物质25：86-91(1999)；Stanta和Bonin，生物技术：24：271-276(1998)；Godfrey等人，分子诊断2:84(2000)；Specht等人，分子医学杂志78：B27(2000)；Specht等人，美国病理学杂志158：419-429(2001))(Stanta et al,Biotechniques11:304-308(1991)；Stanta et al,Methods Mol.Biol.86:23-26(1998)；Jackson et al,Lancet 1:1391(1989)；Jackson et al,J.Clin.Pathol.43:499-504(1999)；Finke et al,Biotechniques 14:448-453(1993)；Goldsworthy et al,Mol.Carcinog.25:86-91(1999)；Stanta and Bonin,Biotechniques 24:271-276(1998)；Godfrey et al,J.Mol.Diagnostics 2:84(2000)；Specht et al,J.Mol.Med.78:B27(2000)；Specht et al,Am.J.Pathol.158:419-429(2001))。为了快速分析RNA量，RT-PCR可以使用一对引物来执行，该引物以高度表达基因——例如，肌动蛋白、泛素、磷酸甘油醛脱氢酶或其它描述的通常使用的管家基因——中的短片段为目标。如果从RNA样品中合成的cDNA可以使用此对引物对进行扩增，则样品适合于通过任何优选的方法——例如，DASL试验——的RNA目标序列的定量测量，其仅需要用于查询寡核苷酸的退火的短cDNA片段。

有许多组织文库和集合，包括来自各种各样疾病状态(最值得注意的是癌症)的所有阶段的穷尽的样品。执行基因分型和/或基因表达分析，(包括对这些样品的定性和定量分析)的能力使这种方法应用到本发明的方法。

对制备用于前列腺癌复发预测的模型有用的组织样品包括，例如，石蜡和聚合物包埋样品、乙醇包埋样品和/或福尔马林和甲醛包埋组织，尽管任何合适的样品可以被使用。通常，从存档样品分离的核酸会高度地降解并且核酸制备的质量可以取决于几个因素，包括样品的保质期、固定技术和分离方法。然而，使用美国专利公开号为2004/0259105的美国专利申请所教导的方法——其对短或降解目标具有显著优势——可以用于分析，只要该序列足够长能够与寡核苷酸探针杂交，高重复性结果可以获得，其近似模拟新鲜样品中发现的结果。

存档组织样品——其可以被用于本发明的所有方法——通常从源获得且保存。保存的优选方法包括但不限于石蜡包埋、乙醇固定和本领域已知福尔马林(包括甲醛和其它衍生物)固定。组织样品可可以时间上是“旧的”，例如几个月或几年，或近期固定的。例如，手术后的程序通常包括在用于组织学分析的切除的组织上的固定步骤。在优选的实施例中，组织样品是患病组织样品，特别是前列腺癌组织，包括原发性和继发性肿瘤组织以及淋巴结组织和转移性组织。

因此，存档样品可以是多样的并且包含多个细胞或组织类型，例如，肿瘤和非肿瘤组织。优选的组织样品包括固体肿瘤样品，包括但不限于，前列腺的肿瘤。应当理解的是，在本发明的应用中，对于除了前列腺癌之外的状况，肿瘤来源可以是脑、骨、心脏，乳腺、卵巢、前列腺、子宫、脾脏、胰腺、肝、肾、膀胱、胃和肌肉。同样地，根据状况，合适的组织样品包括，但不限于体液(包括但不限于，实质上任何生物体的血液、尿液、血清、淋巴液、唾液、肛门和阴道分泌物、汗液和精液，其中优选哺乳动物的样品的且特别优选人类的样品)。在针对建立用于复发预测的方法的实施例中，组织样品是病历和结果是已知的样品。通常，本发明的方法可以用包含在归档样品中的标记基因序列来实施，或者可以用在执行本发明的方法之前已与样品物理上分离的标记基因序列来实施。

如果需要的话，具有标记基因序列的核酸样品使用已知技术进行制备。例如，样品可以进行处理以使用已知的裂解缓冲液、超声处理、电穿孔等溶解细胞，其中根据需要进行如下概述的纯化和扩增，如本领域技术人员所能理解的。此外，反应可以以各种方式来实现，如本领域技术人员所能理解的。反应组分可以同时地、或循序地、以任何顺序加入，其中优选的实施例概述如下。此外，反应可以包括可以在试验中有用的各种其它试剂。这些包括如盐、缓冲剂、中性蛋白(例如白蛋白)、洗涤剂等的试剂，其可以用来促进最佳杂交和检测，和/或减少非特异性或背景交互作用。此外，以其他方式提高试验的效率的试剂，比如蛋白酶抑制剂、核酸酶抑制剂、抗微生物剂等可以使用，取决于样品制备方法和纯度。

在优选实施例中，mRNA是从本领域已知的石蜡包埋样品分离。优选的方法包括通过Ambion公司的石蜡块RNA分离试剂盒(目录编号1902，其说明书通过引用在此并入)或通过Roche的高纯度RNA石蜡试剂盒(cat#3270289)的使用。mRNA的样品可以使用本领域已知的方法从其他样品中获得，包括例如Sambrook等人，分子克隆：实验室手册，第3版，冷泉港实验室，纽约(2001)中所描述的那些，或Ausubel等人，分子生物学技术，约翰·威利父子出版公司(1998)中所描述的那些，或者市售的那些，比如英杰公司的纯链miRNA分离试剂盒(目录#K1570)或来自Ambion公司的mRNA分离试剂盒(奥斯汀，德克萨斯州)。一旦制备，mRNA或其他核酸通过本领域技术人员已知的方法进行分析。对应于标记基因的核酸序列可以是任意长度，其中应当理解的是，较长的序列是更加特异性的。用于从存档组织获得强健且可再现的基因表达模式的方法——包括如对短或降解目标具有显著优势的在美国专利公开号为2004/0259105的美国专利所教导的福尔马林固定、石蜡包埋(FFPE)组织——可以用于分析，只要序列足够长能够与寡核苷酸探针杂交。因此，甚至降解目标的核酸可以进行分析。优选对应于标记基因的核酸为至少20个核苷酸长度。优选范围是20至100个核苷酸长度，其中更优选30至60个核苷酸并且最优选40至50个核苷酸。

此外，当将要检测核酸时，优选的方法利用切割或剪切技术来将包含目标序列的核酸样品切割成将便于处理和杂交到目标的尺寸。这可以由通过机械力(例如声波降解法)剪切核酸或通过使用限制性内切酶裂解核酸、或本领域已知的任何其它方法来实现。然而，在大多数情况下，在归档期间发生的自然降解导致“短”的寡核苷酸。通常，本发明的方法可以在与20-100个碱基对一样短的寡核苷酸上完成，其中优选20至50个碱基对，并且最优选40和50个之间，包括44、45、46、47、48和49个。

本发明还提供了特别用于前列腺癌标记基因的分离探针的集合，前列腺癌标记基因包含从以下组中选择的至少两个基因，该组包含：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、ABLIM1、EDARADD、GPR81、MYBPC1、F10、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、PCA3和NPR3。本发明还提供特异性用于从以下组成的组中选择的至少一个基因的分离探针的集合，该组包含：NKX2-1、UPK1A、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、EDARADD、GPR81、MYBPC1、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1和NPR3。本发明还提供特异性用于前列腺癌标记基因的分离探针的集合，该前列腺癌标记基因包含从以下组成的组中选择的至少2、3、4、5、6、7、8、或9个基因：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2和PGC。本发明还提供特异性用于前列腺癌标记基因的分离探针的集合，前列腺癌标记基因包含从以下组成的组中选择的至少2、3、4、5、6、7、8、或9个基因：ZYG11A、MMP11、MYBPC1、DUOX1、EDARADD、PGC、GPR81、NKX2-1、ABLIM1、和ABCC11。

本发明包括组成、试剂盒、和用于评估从其中获得样品的个体的癌症复发的概率的方法。样品可以使例如是存档组织样品或从患者中获得的样品。在必要时，组成、试剂盒和方法适于与除了患者样品之外的样品使用。例如，当将使用的样品是涂石蜡的、存档的人类组织样品时，调整本发明的组成中、本发明的试剂盒中的化合物的比例，或用来评估样品中的基因表达的水平的方法是必要的。这样的方法在本领域中是众所周知的并且在普通技术人员的技术范围内。试剂盒是任何产品(例如，包装或容器)，其包括用于特异性检测本发明的标记基因的表达的至少一种试剂，例如探针。试剂盒可以被促销、分发、或销售作为用于执行本发明的方法的单元。应当认识到的是，本发明的组成、试剂盒和方法将对具有前列腺癌病史的患者和他们的医疗顾问特别实用。

本发明的实践采用——除非另有说明——分子生物学(包括重组技术)、微生物学、细胞生物学和生物化学的常规技术，其在本领域的技术范围内。这些技术在文献中进行了解释，比如，“分子克隆：实验室手册”，第二版(Sambrook等人，1989)；“寡核苷酸合成”(M.J.Gait编1984)；“动物细胞培养”(R.I.Freshney编，1987年)；“酶学方法”(学术出版社公司)；“实验免疫学手册”，第四版(D.M.Weir&C.C.Blackwell编，布莱克维尔科学公司，1987年)；“用于哺乳动物细胞的基因转移载体”(J.M.Miller&M.P.Calos编，1987年)；“现代分子生物学实验指南”(F.M.Ausubel等人编，1987年)；和“PCR：聚合酶链式反应”(Mullis等人编，1994)。

尽管28个基因和其子集的使用已经相对于利用由这些基因产生的mRNA种类的表达水平的预后和诊断方法进行了例证，但是应当理解的是，类似的诊断和预后方法可以利用其他方法，比如可以与表达水平或基因的蛋白质产物的水平或活性的测量相关的基因的甲基化水平。甲基化可以使用本领域中已知的方法来确定，比如在US 6,200,756或US2003/0170684所述的那些，其中每个通过引用在此并入。蛋白的水平和活性可以使用本领域中已知的方法来确定，比如抗体检测技术或酶试验特别是活性被评估。此外，预后或诊断可以基于在影响基因的表达或蛋白质产物的活性的基因中识别的突变或多态性的存在。

有关患者的诊断的信息包括，但不限于年龄、种族、手术时的血清PSA、肿瘤位置、与共病相关的患者既往病史、其它肿瘤病史、癌症的家族史、体检发现、放射学发现、活检日期、活检结果、执行操作的类型(根治性耻骨后或根治性会阴前列腺切除术)、TNM分期(原发肿瘤局部淋巴结远处转移分期)、新辅助治疗(即化疗、激素)、辅助或挽救性放射疗法，用于升高PSA的激素疗法(生化疾病复发)、局部对遥远的疾病复发和生存结果。这些临床变量可以被包括在各种实施例中的预测模型中。

在一些实施例中，除了前列腺组织或代替前列腺组织的生物样品可以用来于确定标记基因的表达水平。在一些实施例中，合适的生物样品包括但不限于，从血液分离的循环肿瘤细胞(CTC)、患者的尿液或其他体液、外来体、和循环肿瘤核酸。

在一些实施例中，标记基因的基因表达水平可以与其它生物标记物相结合来预测PCa的进展。为了此目的的合适的生物标记物包括，但不限于，生殖系和体细胞突变、DNA甲基化标记物、和蛋白质标志物。在一些实施例中，标记基因和其他生物标志物的结合可以通过包括在相同的预测模型中的标记基因和生物标记物来实现。在一些实施例中，其他生物标记物的效果可以在除了预测模型之外的计算机制中解释，比如将第一预测模型的输出与其他生物标志物的效果相结合的第二模型。本领域技术人员理解各种方法可以用来将标记基因的效果与生物标志物相结合以预测PCa的进展。

在一些实施例中，标记基因的基因表达水平可以测量多次。在一些实施例中，表达水平的动力学可以在标记基因的表达水平的组合中使用，以更好地预测临床结果。本领域技术人员能理解，各种方法可以用来将标记基因的表达的水平与动力学的效果相结合以预测PCa的进展。

确定基因表达水平

本发明的方法取决于用于整个异质组织的表达谱的差异表达基因的检测。因此，方法取决于表达谱基因，相对于其在非癌组织或对照受试者中的表达，该表达谱基因的表达在受遭受某些例如癌症的状况(比如前列腺癌)的个体内某些组织中被激活为较高或较低的水平。基因表达可以被激活为在相同状况的不同的阶段的较高或较低的水平并且差异表达基因可以在核酸水平或蛋白质水平上被激活或被抑制，或可以受到选择性剪接以导致不同的多肽产品。这种差异可以通过例如mRNA水平的变化、表面表达、分泌或多肽的其他分区来证实。为了本发明的目的，差异基因表达被认为是当有至少约1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、到两倍时存在。

差异标记基因表达可以使用本领域中已知的方法比如qRT-PCR(定量逆转录聚合酶链式反应)和微阵列分析识别或确认。在具体的实施例中，差异标记基因表达可以使用微阵列技术识别或确认。因此，标记基因可以使用微阵列技术以新鲜或石蜡包埋的肿瘤组织测定。在该方法中，感兴趣的多核苷酸序列在微芯基质上沉积或排列。排列的序列然后与来自感兴趣的细胞或组织的特定DNA探针杂交。在优选实施例中，技术结合自组装到阵列中的光纤束和微珠。根据束的直径，每个光纤束包含数千至数百万单根纤维。传感器被粘附到给定的批量中的每个微珠。微珠上的特定分子定义微珠作为传感器的功能。为了形成阵列，光纤束被浸入到涂覆的微珠的池中。涂覆的微珠被吸引入孔中，每个孔一个微珠，在束的每根纤维的端部。本发明不限于上面所描述的固相支持体。实际上，各种其它固相支持体被预期，包括，但不限于，玻璃显微镜载片、玻璃晶片、金、硅、微芯片、和其它塑料、金属、陶瓷或生物表面。微阵列分析可以通过市售装备，按照制造商的实验方案，比如通过使用Illumina公司的技术来执行。

有用的示例性阵列包括，但不限于，可向公司(圣地牙哥，加利福利亚州)购买的阵列或微珠芯片阵列或包括孔中微珠的其他阵列，比如美国专利号为6,266,459、6,355,431、6,770,441、和6,859,570的美国专利和PCT公开号WO 00/63437的专利中所描述的那些，其每个通过引用在此并入。具有表面上的微粒的其他阵列包括在US 2005/0227252、US 2006/0023310、US 2006/006327、US 2006/0071075、US 2006/0119913、US 6,489,606、US 7,106,513、US 7,126,755、US7,164,533、WO 05/033681、和WO 04/024328中所述的那些，其每个通过引用在此并入。

本发明中有用的微珠的阵列也可以处在流体的形式，比如流式细胞分析仪或类似装置的液流。可以在本发明中使用以使用微流体装置区分流体样品中的微珠的示例性形式例如在美国专利号为6,524,793的美国专利中进行了描述。用于区分微珠的市售流体形式包括，例如，在来自路明克斯公司的XMAPTM技术中或来自美国林克斯公司的MPSSTM方法中使用的那些。

可以在本发明中使用的市售微阵列的进一步的示例包括，例如，微阵列或根据有时称为VLSIPS^TM(超大规模固定化聚合物合成)技术合成的其它微阵列，该VLSIPS^TM技术如例如在美国专利号为5,324,633、5,744,305、5,451,683、5,482,867、5,491,074、5,624,711、5,795,716、5,831,070、5,856,101、5,858,659、5,874,219、5,968,740、5,974,164、5,981,185、5,981,956、6,025,601、6,033,860、6,090,555、6,136,269、6,022,963、6,083,697、6,291,183、6,309,831、6,416,949、6,428,752和6,482,591的美国专利中所描述的，其每个通过引用在此并入。

微点阵也可以在本发明的方法中使用。示例性微点阵式可向安玛西亚生物技术公司购买的CodeLink^TM阵列。在本发明中有用的另一种微阵列是使用喷墨印刷方法比如可向安捷伦科技公司购买的技术如SurePrint^TM技术来制造的一个。可以在本发明中使用的其他微阵列包括，但不限于，在比特，自然评论药物发现，1：951-60(2002)(Butte,Nature Reviews DrugDiscov.1:951-60(2002))或美国专利号为5,429,807、5,436,327、5,561,071、5,583,211、5,658,734、5,837,858、5,919,523、6,287,768、6,287,776、6,288,220、6,297,006、6,291,193、和6,514,751、以及WO 93/17126、WO 95/35505中所描述的那些，其每个通过引用在此并入。

DASL可以用于RNA目标序列以及用于DNA目标序列的定量测量。DASL例如在Fan等人，基因组研究，14：878-85(2004)(Fan et al,GenomeRes.14:878-85(2004))、US 2003/0108900和US 2004/0259105中进行了描述，其每个通过引用在此并入。值得注意的是，相比于使用从新鲜冷冻样品制备的RNA的阵列，使用来自石蜡样品的DASL的敏感性是约80％，其结果高达90％>观测的敏感性。基因表达可以在存档5年以上的福尔马林固定、石蜡包埋的临床样品中监测且比较。

用于标记基因的表达模式基于对应于标记基因的核酸或寡核苷酸的定量检测来确定，其意味着至少两个核苷酸共价连接在一起。因此，本发明还提供对应于标记基因或标记基因的集合的核酸和寡核苷酸的集合。在本发明中有用的核酸通常包含磷酸二酯键，尽管在某些情况下，包括可以具有选择性的主链的核酸类似物，包括例如，磷酰胺(Beaucage等人，四面体49(10)：1925(1993)和其中的参考文献；Letsinger，有机化学杂志35：3800(1970)；Sprinzl等人，欧洲生物化学杂志81：579(1977)；Letsinger等人，核酸研究14：3487(1986)；Sawai等人，化学快报805(1984)，Letsinger等人，美国化学会志110：4470(1988)；和Pauwels等人，化学技术26：141 91986))(Beaucage et al,Tetrahedron49(10):1925(1993)and references therein；Letsinger,J.Org.Chem.35:3800(1970)；Sprinzl et al,Eur.J.Biochem.81:579(1977)；Letsinger et al,Nucl.Acids Res.14:3487(1986)；Sawai et al,Chem.Lett.805(1984),Letsinger etal,J.Am.Chem.Soc.110:4470(1988)；and Pauwels et al,Chemica Scripta26:141 91986))、硫代磷酸酯(Mag等人，核酸研究19：1437(1991)(Maget al,Nucleic Acids Res.19:1437(1991))；和美国专利号为5,644,048的美国专利)、二硫代磷酸酯(Briu等人，化学社会杂志111：2321(1989))(Briu et al,J.Am.Chem.Soc.111:2321(1989))、O-甲基磷酸酯键(参见Eckstein，寡核苷酸及类似物：实用技术，牛津大学出版社(Eckstein,Oligonucleotides and Analogues:A Practical Approach,Oxford UniversityPress))、和肽核酸主链和键(参见Egholm，美国化学会志114：1895年(1992年)；Meier等人，英格兰化学国际编辑，31：1008(1992)；Nielsen，自然，365：566(1993)；Carlsson等人，自然380：207(1996)，(Egholm,J.Am.Chem.Soc.114:1895(1992)；Meier et al,Chem.Int.Ed.Engl.31:1008(1992)；Nielsen,Nature,365:566(1993)；Carlsson et al,Nature380:207(1996))所有这些文献通过引用并入)。其他类似物核酸包括具有阳性主链(positive backbone)(Denpcy等人，美国科学院院刊92：6097(1995))(Denpcy et al,Proc.Natl.Acad.Sci.USA 92:6097(1995))、非离子主链(美国专利号为5,386,023、5,637,684、5,602,240、5,216,141和4,469,863的美国专利；Kiedrowshi等人，德国应用化学：英文30：423(1991)；Letsinger等人，美国化学会志110：4470(1988)；Letsinger等人，核苷&核苷酸13：1597(1994)；第2和3章，ASC论文集系列580，“反义研究中的糖类修饰”，Y.S.Sanghui和P.Dan CookS.Sanghui编；Mesmaeker等人，生物有机&药物化学，快报4：395(1994)；Jeffs等人，生物分子NMR 34：17(1994)；四面体快报，37：743(1996))(U.S.Pat.Nos.5,386,023,5,637,684,5,602,240,5,216,141and 4,469,863；Kiedrowshi et al,Angew.Chem.Intl.Ed.English 30:423(1991)；Letsinger etal,J.Am.Chem.Soc.110:4470(1988)；Letsinger et al,Nucleoside&Nucleotide 13:1597(1994)；Chapters 2and 3,ASC Symposium Series 580,"Carbohydrate Modifications in Antisense Research",Ed.Y.S.Sanghui and P.Dan Cook；Mesmaeker et al.,Bioorganic&Medicinal Chem.Lett.4:395(1994)；Jeffs et al,J.Biomolecular NMR 34:17(1994))和非核糖主链的那些，非核糖主链包括在美国专利号为5,235,033和5,034,506的美国专利，和第6和7章，论文集系列580，“反义研究中的糖类修饰”，Ed.Y.S.Sanghui和P.Dan CookS.Sanghui中所描述的那些(Chapters 6and 7,ASCSymposium Series 580,"Carbohydrate Modifications in Antisense Research",Ed.Y.S.Sanghui and P.Dan Cook)。包含一个或多个碳环糖的核酸也包括在核酸的定义内(参见Jenkins等人，化学会志综述(1995)，第169-176页)(Jenkins et al,Chem.Soc.Rev.(1995)pp 169-176)。若干核酸类似物在Rawls，1997年06月02的C&E新闻第35页(Rawls,C&E News Jun.2,1997page 35)中进行了描述。核糖-磷酸主链的修饰可以进行以促进标签的增加，或以增加生理环境中这样分子的稳定性和半衰期。核酸类似物可以在本发明的方法的使用，以及天然存在的核酸和类似物的混合物中找到。

按照规定，对应于标记基因的核酸可以是单链或双链的，或包含双链或单链序列的部分。核酸可以是DNA、基因组和cDNA、RNA或混合体，其中核酸包含脱氧核糖和核糖核苷酸的任何组合，以及碱基的任意组合，包括，例如，尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤。对应于标记基因的核酸序列可以是基因的一部分、调节序列、基因组DNA、cDNA、包括mRNA和rRNA的RNA、或其它。

对应于标记基因的核酸序列可以从组织样品、或从二次级来源比如反应的产物中得到，反应的产物，例如，来自侵略性裂解反应的检测序列、来自OLA或DASL反应的连接探针、来自PCR反应的延伸探针、或PCR扩增产物(“扩增子”)。用于制备来自目标序列的次级探针的示例性的方法在US 2003/0108900、US 2003/0170684、US 2003/0215821、US 2004/0121364、和US 2005/0181394中进行了描述。因此，对应于标记基因的核酸序列可以从核酸的主或次级来源中得到。

如本领域技术人员应当理解的是，在本发明的方法中有用的互补核酸序列可以采取多种形式并且探针被做出杂交到核酸序列，以确定样品中标记基因的存在或缺少。在优选实施例中，检测到多个核酸序列。如本文所使用的，“多个”或语法等同物在此指的是至少2、10、20、25、50、100或200个不同的核酸序列，同时优选至少500个不同的核酸序列。更优选是至少1000个，特别优选是多于5000或10,000个，并且最优选是多于50,000或100,000个。检测可以在各种平台，例如上面或示例中所描述的那些上来执行。

组织样品中标记基因的表达水平可以通过如下方式确定：在使完全互补的探针与对应于标记基因的核酸序列形成杂交复合物的条件下使来自组织样品的核酸分子接触到一组探针，其中每个探针包括至少两个通用引发位点和标记基因的特异性目标序列；扩增形成杂交复合物的探针以产生扩增子、和检测扩增子，其中扩增子的检测表明对应于组织样品中的标记基因的核酸序列的存在；并且确定标记基因的表达水平。

在本发明的情况下，复合扩增指的是对应于标记基因的多个核酸序列的检测、分析或扩增。在一个实施例中，复合扩增指的是对应于在单个反应、容器或步骤中被分析的标记基因的核酸序列的数量。复合扩增方法对对应于标记基因的单个核酸序列的检测以及对应于一组标记基因的多个核酸序列的检测有用。此外，如下面所描述的，本发明的方法可以在大量的组织样品中同时且并行地执行。

对应于组织样品中的一组标记基因的核酸序列的表达水平可以通过如下方式确定：在使互补的探针与标记基因特异性核酸序列形成杂交复合物的条件下使从组织样品中得到核酸分子与一组探针接触，其中每个探针包括至少两个通用引发位点和标记基因特异性核酸序列；扩增形成杂交复合物的探针以产生扩增子；检测扩增子，其中扩增子的检测表明对应于组织样品中的一组标记基因的核酸序列的存在；并且确定目标基因的表达水平，其中检测到至少两个、至少三个、至少五个标记基因特异性序列的表达。

对应于一组标记基因的一、二或多个核酸序列的存在可以使用的单个、双个或多个探头配置在组织样品中确定。本发明的方法可以用具有大体上降解的核酸的组织样品来实践。尽管上面描述了相对于核酸降解的预先筛出的样品的方法，但是本领域技术人员应当认识到的是，本文描述的或本领域中已知的其它检测方法可以用来检测怀疑具有降解的核酸的样品中的RNA水平，从而根据本发明确定核酸降解的水平。

本发明特别地吸取了在US 2003/0215821、US 2004/0018491、US2003/0036064、US 2003/0211489中所概述的方法，其每个通过引用以其整体明确地并入。此外，通过引发方法在US 2002/0006617、US2002/0132241中详细地进行了描述，其每个通过引用明确地并入。此外，复合扩增方法在US 2003/0211489、US 2003/0108900中详细地进行了描述，其每个通过引用明确地并入。通常，本发明的方法可以以各种方式——如下面和在通过引用并入的申请中进一步所描述的——来执行。例如，mRNA标记样品可以最初经受“复杂性降低”步骤，从而特定目标的存在通过添加探针来确认，该探针在标记基因特异性的核酸序列的存在下酶法修饰。修饰的探针然后以多种多样的方式进行扩增且检测。优选的实施例吸取了复合扩增方法，其允许例如通过使用通用引发序列做多重PCR反应来同时检测例如对应于一组标记基因以及多重扩增反应的许多核酸序列。如果需要的话，初始步骤也可以是复杂性降低和扩增步骤。

随机排序BeadArray^TM技术(Michael等人，分析化学70，1242-8(1998)；Walt，科学287，451-2(2000))(Michael et al.,Anal Chem 70,1242-8(1998)；Walt,Science 287,451-2(2000))已在Illumina公司开发为用于SNP基因分型的平台(Fan等人，冷泉港症状定量生物学68：69-78(2003)；Gunderson等人，自然遗传学37：549-54(2005))(Fan et al.,Cold SpringHarb Symp Quant Biol 68:69-78(2003)；Gunderson et al.,Nat Genet37:549-54(2005))、基因表达谱(Bibikova等人，美国人体病理学杂志165：1799-807(2004)；Fan等人，基因组研究14：878-85(2004)；Kuhn等人，基因组研究14：2347-56(2004)；Yeakley等人，自然生物工程20：353-8(2002))(Bibikova et al.Am J Pathol 165:1799-807(2004)；Fan et al,Genome Res 14:878-85(2004)；Kuhn et al,Genome Res 14:2347-56(2004)；Yeakley et al,Nat Biotechnol 20:353-8(2002))和DNA甲基化检测(Bibikova等人，基因组研究16：383-93(2006))(Bibikova et al.,GenomeRes 16:383-93(2006))。每个阵列被装备在光纤束上，该光纤束包含融为一体成为六方矩阵的约50,000个单根纤维。束的端部进行抛光，并且一端被化学地腐蚀以形成每个束中的微观孔。这些孔每个填充有3微米直径的二氧化硅微珠。每个衍生微珠具有成百上千份共价连接并且可用于杂交的特定寡核苷酸。微珠文库通过将寡核苷酸结合到硅珠来制备，然后将单个微珠类型定量集中在一起。因为微珠在阵列上随机定位，所以解码过程被实施以确定每个阵列位置中每个微珠的位置和同一性(Gunderson等人，基因组研究14：870-7(2004))(Gunderson et al.,Genome Res 14:870-7(2004))。在所得通用阵列中的1,624个微珠类型中的每个存在约30的平均冗余。因此，每个试验测量是从多个微珠平均的数据的结果，其增加精确性并且大大降低误差的概率。

为了进一步增加样品处理量，阵列以匹配标准96孔微量滴定板的孔的模式格式化成矩阵。矩阵格式允许流线型样品处理。通过将阵列用于样品(将其准确地浸入到微量滴定孔中)，样品和阵列处理被简化并且整合，用于同时处理96个单独的样品。

柔性、敏感、精确和成本效益好的基因表达图谱试验、DASL(用于DNA介导退火、选择、延伸和连接)试验可以用于成千上万的目标序列的平行分析。在该试验中，在一个实施例中，两个寡核苷酸设计为以特定基因序列为目标。整个RNA首先通过随机引物法转换为cDNA。相应的查询寡核苷酸杂交到cDNA，并且延伸且酶法连接。连接产物然后在PCR期间扩增并且荧光标记，并最终通过结合检测以处理通用阵列上的序列。杂交强度被用作为样品中原始mRNA丰度的测量。

不像使用体外转录(IVT)介导的样品标记程序的大多数其他阵列技术(Phillips和Eberwine，方法10，283-8(1996))(Phillips and Eberwine,Methods 10,283-8(1996))，DASL在cDNA合成中使用随机引物法，并且因此不会依赖用于T7-寡-d(T)(T7-oligo-d(T))引物法的完整的多聚腺苷酸尾。此外，试验利用用于查询寡核苷酸退火的约50个核苷酸的相对短的目标序列，因此允许降解RNA的微阵列分析(Bibikova等人，美国人体病理学杂志165：1799-807(2004)；Bibikova等人，临床化学50：2384-6(2004))(Bibikova et al,Am J Pathol 165:1799-807(2004)；Bibikovaet al,Clin Chem 50:2384-6(2004))。

在Illumina公司开发的软件可以用于自动图像配准(Galinsky，生物信息学19：1832-6(2003))(Galinsky,Bioinformatics 19:1832-6(2003))和特征强度的提取。简要地说，特征提取算法表示像素强度的加权的6x6平均值。异常值算法是在特征级实施(每个探针序列通过平均30个特征表示)以去除超出中值响应的强健的置信区间的特征。阵列数据可以使用Illumina公司的BeadStudio软件中的“秩不变”的方法进行标准化。

用于预测PCa的进展的装置和系统

测序数据的分析和从中得到的诊断通常使用执行算法和程序的各种计算机来执行。因此，某些实施例采用包括存储在或者通过一个或多个计算机系统或其它处理系统传送的数据的过程。本文所公开的实施例还涉及用于执行这些操作的装置。该装置可以为了所需的目的具体地构造，或者它可以是通过存储在计算机中的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施例中，一组处理器协作地和/或并行地执行所述分析操作的一些或全部(例如，通过网络或云计算)。用于执行本文所描述的方法的处理器或一组处理器可以是各种类型，包括微控制器和微处理器，比如可编程装置(例如，复杂可编程逻辑器件(CPLD)和现场可编程门阵列(FPGA))和非可编程装置比如门阵列专用集成电路(ASIC)或通用微处理器。

此外，某些实施例涉及易失的和/或非易失的计算机可读介质或包括用于执行各种计算机实施的操作的程序指令和/或数据(包括数据结构)的计算机程序产品。计算机可读介质的示例包括，但不限于，半导体存储器装置、磁性介质(比如磁盘驱动器、磁带)、光学介质(比如光碟(CD))、磁光介质、和被具体配置为存储且执行程序指令的硬件装置，比如只读存储器装置(ROM)和随机存取存储器(RAM)。计算机可读介质可以通过终端用户直接控制或介质可以通过终端用户间接控制。直接控制介质的示例包括位于用户设备的介质和/或不与其他实体共享的介质。间接控制介质的示例包括通过外部网络和/或通过服务提供共享资源比如“云”来间接访问用户的介质。程序指令的示例包括机器代码——比如由编译器产生——和包含可以使用解释器通过计算机执行的更高级代码的文件。

在各种实施例中，在所公开的方法和装置中采用的数据或信息以电子格式提供。这样的数据或信息可以包括从核酸样品得到的读序和标签、与参考序列的特定区域比对(例如，比对到染色体或染色体片段)的这样的标签的计数或密度、参考序列(包括单独提供或主要多态性的参考序列)、咨询建议、诊断等等。如本文所使用的，以电子格式提供的数据或其他信息可用于计算机上的存储和机器之间的传送。照惯例，电子格式的数据被数字地提供并且可以被存储为各种数据结构、列表、数据库等中的位点和/或字节。数据可以电子地、光学地等体现。

在一些实施例中，本发明提供一种用于预测个体中前列腺癌的进展的系统，该系统包含：被配置为确定来自从个体采取的生物样品的核酸的表达水平的装置，和被设计为或被配置为执行操作的硬件逻辑，该操作包含：(a)接收来自从所述个体采取的生物样品的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组成的组中选择的至少两个基因：NKX2-1、UPK1A、ADRA2C、ABCC11，MMP11、CPVL、ZYG11A、CLEC4F，OAS2，PGC，UPK3B，PCBP3，ABLIM1，EDARADD，GPR81，MYBPC1、F10、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、PCA3和NPR3；(b)将表达水平应用到使所述标记基因的集合的表达水平与前列腺癌进展相关的预测模型；和(c)评估所述预测模型的输出以预测所述个体中前列腺癌的进展。在一些实施例中，所述标记基因的集合包含从以下组成的组中选择的至少一个基因：NKX2-1、UPK1A、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、EDARADD、GPR81、MYBPC1、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1和NPR3。在一些实施例中，所述标记基因的集合包含从以下实质上组成的组中选择的至少两个基因：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、和PGC。在一些实施例中，所述标记基因的集合包含从以下实质上组成的组中选择的至少两个基因：ZYG11A、MMP11、MYBPC1、DUOX1、EDARADD、PGC、GPR81、NKX2-1、ABLIM1和ABCC11。

在一些实施例中，系统的装置包括微阵列。在一些实施例中，装置包括下一代定序器。在一些实施例中，装置包括定量聚合酶链反应(qPCR)装置。

测序方法

在各种实施例中，基因表达水平的确定可以包括对对应于感兴趣的基因的核酸进行测序。任何数量的测序技术可以利用。

一些测序技术是市售的，比如来自美国昂飞公司(桑尼维尔，加利福尼亚州)的杂交测序平台和来自454生命科学公司(布拉德福德，康涅狄格州)、Illumina/Solexa公司(海沃德，加利福尼亚州)和螺旋生物科学公司(坎布里奇，马萨诸塞州)的合成测序平台，以及来自美国应用生物系统公司(福斯特城，加利福尼亚州)的连接测序平台，如下面所描述的。除了使用螺旋生物科学公司的合成测序执行的单分子测序之外，其他单分子测序技术包括，但不限于，开发太平洋生物科学公司的SMRT^TM技术、离子激流公司的技术和例如通过牛津大学纳米孔技术开发的纳米孔测序技术。

尽管自动化桑格法被认为是“第一代”技术，但是包括自动化桑格测序的桑格测序也可以在本文描述的方法中采用。附加合适的测序方法包括，但不限于核酸成像技术，例如，原子力显微镜(AFM)或透射电子显微镜(TEM)。说明性测序技术在下面更详细地描述。

在一种说明性的但非限制性的实施例中，本文描述的方法包含使用螺旋生物科学公司的纯单分子测序(tSMS)技术(例如，在Harris T.D.等人，科学320：106-109[2008](Harris T.D.et al,Science 320:106-109[2008])中所描述的)从被筛选为癌症的受试者等等中获得用于试验样品中核酸的序列信息。在tSMS技术中，DNA样品被切割成约100至200个核苷酸的链，并且多聚腺苷酸序列被添加到每个DNA链的3'端。每条链是通过添加的荧光标记的腺苷核苷酸的标记。DNA链然后杂交到流动池，其包含固定到流动池表面的成千上万的寡-T捕获位点。在某些实施例中，模板可以在约1亿模板/cm²的密度。流动池然后被装入到仪器，例如，HeliScope^TM定序器中，并且激光照射流动池的表面，显露每个模板的位置。电荷耦合器件(CCD)摄像机可以在流动池的表面上映射模板的位置。模板荧光标记然后被裂解并且冲走。测序反应通过引入DNA聚合酶和荧光标记的核苷酸开始。寡-T核酸充当引物。聚合酶以模板定向的方式将标记的核苷酸结合到引物。聚合酶和未结合的核苷酸被去除。已执导荧光标记核苷酸的结合的模板通过成像流动池表面看清楚。在成像之后，裂解步骤去除荧光标记，并且过程用其它荧光标记的核苷酸重复直到实现所需读取长度。序列信息采用每个核苷酸添加步骤收集。通过单分子测序技术的整个基因组测序排除或通常消除在测序文库的制备中基于PCR的扩增，并且方法允许样品的直接测量，而不是样品的拷贝的测量。

在另一个说明性的但非限制性的实施例中，本文描述的方法包含使用454测序(Roche)(例如，在Margulies,M.等人，自然437：376-380[2005](Margulies,M.et al.Nature 437:376-380[2005])中所描述的)从试验样品中的核酸中获得序列信息。454测序通常包括两个步骤。在第一步骤中，DNA被剪切成约300-800个碱基对的片段，并且片段是钝端的。寡核苷酸适配器然后连接到片段的端部。适配器充当用于扩增和片段的测序的引物。该片段可以使用例如适配器B——其包含5'生物素标签——附接到DNA捕获微珠，例如涂覆链霉亲和素的微珠。附接到微珠的片段在水乳胶的液滴内进行PCR扩增。结果是每个微珠上的多份无性系扩增的DNA片段。在第二步骤中，微珠在孔(例如，微微升大小的孔)中捕获。焦磷酸测序在每个DNA片段上并行地执行。一个或多个核苷酸的添加产生通过测序仪器中CCD摄像机记录的光信号。信号强度与合并的核苷酸的数量成比例。焦磷酸测序利用一经添加核苷酸就释放的焦磷酸盐(PPI)。PPi在腺苷5'磷酰硫酸的存在下通过三磷酸腺苷(ATP)硫酸化酶转换为ATP。荧光素酶使用ATP将荧光素转换为氧化萤光素，并且这种反应生成测量且分析的光。

在另一个说明性的但非限制性的实施例中，本文描述的方法包括使用SOLiD^TM技术(应用生物系统公司)获得用于试验样品中核酸的序列信息。在SOLiD^TM连接测序中，基因组DNA被剪切成片段，并且适配器附接到片段的5'和3'端以生成片段文库。供选择性地，内部适配器可以通过将适配器连接到片段的5'和3'未端、环化片段、吸收环化片段以生成内部适配器，以及将适配器附接到所得的片段的5'和3'端以生成配对文库来引入。接下来，无性系微珠数量在包含微珠、引物、模板和PCR部件的微反应器中制备。在PCR之后，模板变性并且微珠富集以将微珠与延伸模板分开。在选择的微珠上的受到允许粘合到载玻片的3'修饰。序列可以通过连续的杂交和具有通过特定荧光团识别的中心确定的碱基(或一对碱基)的部分随机的寡核苷酸的连接来确定。在记录颜色之后，连接的寡核苷酸被切割并去除，并且过程然后被重复。

在另一个说明性的但非限制性的实施例中，本文描述的方法包括使用太平洋生物科学公司的单分子、实时(SMRT^TM)测序技术获得用于试验样品中核酸的序列信息。在SMRT测序中，染料标记的核苷酸的连续合并在DNA合成期间成像。单个DNA聚合酶分子附接到获得序列信息的单个零模式波长检测器(ZMW探测器)的底部表面，同时磷脂核苷酸被并入到生长的引物链中。ZMW检测器包含限制结构，针对在缺乏ZMW中迅速扩散(例如，以微秒)的荧光核苷酸的背景，该限制结构能够通过DNA聚合酶观测单个核苷酸的并入。它通常花费几毫秒来将核苷酸并入到生长链中。在这个时间期间，荧光标记是兴奋的并且产生荧光信号，并且荧光标签被切割掉。相应的染料的荧光的测量表明哪个碱基被并入。过程被重复以提供序列。

在另一个说明性的但非限制性的实施例中，本文描述的方法包括使用纳米孔测序(例如，如在Soni GV and Meller A，临床化学53：1996-2001[2007](Soni GV and Meller A.Clin Chem 53:1996-2001[2007])中所描述的)获得用于试验样品中核酸，例如，在被筛选为癌症的受试者中的DNA等等的序列信息。纳米孔测序DNA分析技术通过许多公司，包括例如，牛津纳米孔技术公司(牛津，英国)、西格诺公司、NABsys公司等等发展。纳米孔测序是单分子测序技术，从而DNA的单分子随其穿过纳米孔而直接测序。纳米孔是小孔，通常大约为1纳米直径。导电流体中纳米孔的浸入和其两端的电势(电压)的应用导致轻微的电流，由于通过纳米孔的离子的传导。流过的电流量对纳米孔的尺寸和形状敏感。当DNA分子通过纳米孔时，DNA分子上的每个核苷酸妨碍纳米孔到不同的程度，以不同的程度改变通过纳米孔的电流的大小。因此，当DNA分子通过纳米孔时这种电流的变化提供的DNA序列的读取。

在另一个说明性的但非限制性的实施例中，本文描述的方法包括使用化学敏感场效应晶体管(chemFET)阵列(例如，如在美国专利申请公开号为2009/0026082的美国专利中所描述的)获得用于试验样品中核酸，例如，在被筛选为癌症的受试者中的DNA等等的序列信息。在这种技术的一个示例中，DNA分子可以置于反应室中，并且模板分子可以杂交到粘合到聚合酶的测序引物。在测序引物的3'端将一个或多个三磷酸盐并入到新核酸链中可以识别为通过chemFET的电流的变化。阵列可以具有多个chemFET传感器。在另一个示例中，单个核酸可以附接到微珠，并且核酸可以在微珠上扩增，并且各个微珠可以转移到chemFET阵列上的各个反应室，其中每个腔室具有chemFET传感器，并且核酸可以进行测序。

在另一个实施例中，本方法包含使用哈尔西恩分子公司的技术——使用透射电子显微镜(TEM)——获得用于试验样品中核酸的序列信息。方法——被称为单分子布置快速纳米转移(IMPRNT)——包含利用选择性地标记有重原子标记物的高分子量(150kb或更大)DNA的单原子分辨透射电子显微镜成像且以具有一致的碱基-对-碱基间隔的超高密度(3nm链-对-链)的并行阵列将这些分子设置在超薄薄膜上。电子显微镜用来将薄膜上的分子成像，以确定重原子标记物的位置并且提取来自DNA的碱基序列信息。方法在PCT专利公开号为WO2009/046445的专利中进行了进一步描述。方法允许在不到十分钟内对完整人类基因组测序。

在另一个实施例中，DNA测序技术是离子激流公司的单分子测序，这使半导体技术与简单测序化学方法成对，以将化学上的编码信息(A、C、G、T)转换成半导体芯片上的数字信息(0、1)。事实上，当核苷酸通过聚合酶并入到DNA的链中时，氢离子被释放作为副产物。离子激流公司使用微电机孔的高密度阵列来以大规模并行的方式执行这个生物化学过程。每个孔保持不同的DNA分子。孔的下方是离子敏感层并且下方是离子传感器。当核苷酸，例如C，被添加到DNA模板且然后并入到DNA链中时，氢离子将被释放。离子的电荷将改变溶液的pH，该pH可以通过离子激流公司的离子传感器来检测。定序器——实质上是世界上最小的固态pH计——调用碱基，直接从化学信息到数字信息。离子个人基因组机器(PGM^TM)定序器然后继续充斥一个接一个的核苷酸芯片。如果充斥芯片的下一个核苷酸不是匹配，则没有电压变化将被记录并且没有碱基将被调用。如果DNA链上有两个相同的碱基，则电压将是双倍的，并且芯片将记录调用的两个相同碱基。直接检测允许以秒记录核苷酸并入。

在另一个实施例中，本方法包含使用通过杂交的测序获得用于试验样品中核酸的序列信息。通过杂交测序包含将多个多核苷酸序列与多个多核苷酸探针接触，其中多个多核苷酸探针中的每个可以可选地拴系到基质上。基质可以是包含已知核苷酸序列的阵列的平面。杂交到阵列的模式可以用来确定存在于样品中的多核苷酸序列。在其他实施例中，每个探针拴系微珠，例如，磁性微珠等等。杂交到微珠可以确定并且用来识别样品内的多个多核苷酸序列。

在另一个实施例中，本方法包含使用Illumina公司的合成测序和可逆的基于终止子的测序化学方法(例如，如在Bentley等人，自然6：53-59[2009](Bentley et al,Nature 6:53-59[2009])中所述描述的)通过成千上万的DNA片段的大规模并行测序获得用于试验样品中核酸的序列信息。Illumina公司的测序技术依赖于片段化的基因组DNA到其中结合寡核苷酸锚的平面的、光学透明表面的附接。模板DNA被端部修复以生成5'磷酸化钝端，并且克列诺片段的聚合酶活性用来将单个A碱基添加到钝化的磷酸化DNA片段的3'端。这种添加为连接到寡核苷酸适配器准备了DNA片段，适配器具有用来增加连接效率在其3'端的单个T碱基的突出端。适配器寡核苷酸对流动池锚互补。在限制稀释的条件下，适配器修饰的、单链的模板DNA被添加到流动池，并且通过杂交到锚来固定。附接的DNA片段被延伸且桥接扩增以生成具有亿万群集的超高密度测序流动池，每个包含～1000份相同的模板。在一个实施例中，随机片段化的基因组DNA在它经受群集扩增之前使用PCR扩增。供选择性地，使用无扩增的基因组文库的制备，并且随机片段化的基因组DNA使用单独群集扩增来富集(Kozarewa等人，自然方法6：291-295[2009])。模板使用采用具有可去除的荧光染料的可逆终止子的稳健四色DNA合成测序技术来测序。高敏感性荧光检测使用激光激发和全内反射光学装置来实现。约20-40bp，例如36bp的短序列读序针对重复遮掩的参考基因组比对并且对参考基因组的短序列读序的唯一映射使用特定开发的数据分析流水线软件来识别。非重复遮掩的参照基因组也可以使用。无论是重复遮掩的还是非重复遮掩的参考基因组均可使用，只有唯一映射到参照基因组的读序进行计数。第一读序完成之后，模板可以原位再生，以启用来自片段的相对端的第二读序。因此，可以使用DNA片段的单端或配对端测序。存在于样品中的DNA片段的部分测序被执行，并且序列标签——包含预定长度的读序，例如36bp，被映已知的参考基因组——进行计数。在一个实施例中，参考基因组序列是NCBI36/hgl8序列，其在genome.ucsc.edu/cgi-bin/hgGateway？org＝Human&db＝hg18&hgsid＝166260105的万维网上可用。供选择性地，参考基因组序列是GRCh37/hgl9，其可在genome.ucsc.edu/cgi-bin/hgGateway的万维网上可用。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子学生物实验室)、和DDBJ(日本的DNA数据库)。许多计算机算法可用于比对序列，包括但不限于BLAST(Altschul等人，1990)、BLITZ(MPSRCH)(Sturrock&Collins，1993)、FASTA(Person&Lipman，1988)、BOWTIE(Langmead等人，基因组生物学10：R25.1-R25.10[2009])、或ELAND(Illumina公司，圣地牙哥，加利福利亚州，美国)。

应当理解的是，大体上不影响本发明的各种实施例的活性的修改也被包括在本文所提供的发明的定义内。因此，下面的示例旨在说明但不限制本发明。

示例

方法

患者选择

在示例中记录的所有患者在手术结束时均无临床疾病。患者在1年中每4-6个月、在2-3年中每6个月且在此后每年被随访。每个访问患者接收身体检查、PSA测定、胸部X-射线。临床结果通过到PSA和/或临床复发和总体存活的时间来测量。PSA复发定义为在无法检测到的超灵敏检测水平以上的PSA升高，如通过两个连续确定值检测(1988-1994：PSA>0.3毫微克/毫升；1995-2005：PSA>0.05毫微克/毫升；；2006-至今：PSA>0.03毫微克/毫升)。下面的基线变量已被针对每个患者记录：手术前PSA(<4、4-10、11-20、>20)，基于手术标本的格里森分数(2-4、5-6、7、8-10)，pT-阶段、pN-阶段、和激素疗法是手术前给予还是手术后给予。此外，关于其他临床特征的数据是可用的，比如CT扫描和骨骼扫描评估的结果、活检阳性核芯的数量、精囊介入、肿瘤介入的百分比、Ki67染色、和AR状态。

来自根治性前列腺切除术的所有标本使用一致的病理性报告进行评估，并且在机构的随访被标准化(临床检查和PSA测量)。患者的随访通过患者病历和医生笔记的常规细读已完成。在必要时，如果有医生变化，则对患者或患者的医生打电话。从1972年到2009年经受了根治性前列腺切除术的患者进入通过南加州大学泌尿外科研究所保持的机构审查委员会认可数据库。患者的最后随访在2010年5月完成。

这个示例包括在南加州大学经受了根治性前列腺切除术的具有器官限制的PCa(阶段pT2)的293名患者。在这些患者中，154名患者经历了在根治性前列腺切除术之后没有复发，或“无疾病征兆(NED)”，106名患者只有生化复发(BCR)，且33名患者有临床复发，或疾病的转移(CR)。

实验设计

为了开发预测模型，使用巢式病例对照。病例是在他们的病历中记录在手术之后有生化(PSA)复发的患者。对照使用发病密度抽样方法来选择。对照是从“风险组”中随机选择的个体，或无复发的患者在病例的生化复发的时候仍然在随访并且仍然处在经历复发的危险中。对照匹配到按照手术年份、病理学格里森和阶段的病例。格里森分数被放宽以便通过使用<6、7、的类别来获得每个病例的合格对照。尽管病例和对照均匹配到BCR状态，但是本示例的主要临床终结点是临床复发，其被定义为活检上证明的可触及局部疾病或通过影像学研究，包括MRCI、CT、骨骼扫描或胸部X-射线确认的远处复发。对于使用CR作为结果的分析，预测模型通过将CR患者与NED患者进行比较来开发。

用于显微切割的恶性腺体的识别

在本示例中选择的参与者的前列腺组织由于每个组织块的苏木精和伊红(H&E)染色载玻片而进行检查，并确定用于显微切割的最佳组织块，人们有足够可用的肿瘤组织，其也是最能代表指标肿瘤的最高格里森分级。病理学技术人员使用切片机进行切割10个5微米选择的块的部分，连同用于在显微镜下使肿瘤的位置的形象清晰的盖玻片的H&E载玻片。实验者清晰地标记了相应块的每个H&E载玻片上的肿瘤的位置，以便在其他非盖玻片的载玻片上的肿瘤的显微切割期间用作引导。

FFPE肿瘤的激光捕获的显微切割

为了富集恶性腺体且避免与基质组织或者非恶性腺体污染，激光捕获显微切割(LCM)显微镜污染(激光捕获显微切割，型号Veritas；生命科技应用生物学系统公司，福斯特城，加利福利亚州)用来微型切割恶性前列腺。为了这个目的，从病理学核芯获得的载玻片脱蜡并且在显微切割之前轻轻用H&E染色。采取适当的措施以确保减少的组织的污染和组织中最小的RNA的损失(如正确使用实验室外套和手套，使用无核糖核酸酶试剂，和设备的日常清洗)。

来自显微切割的前列腺细胞的RNA的分离

在从激光捕获显微切割获得盖上的组织(每个病例约4个LCM盖的组织和取决于肿瘤区域大小的4-8，5微米载玻片；每个病例3-4小时)之后，具有感兴趣组织的盖悬浮在150的组织裂解缓冲液(缓冲液PKD，由凯杰公司提供)和0.5毫升管中10的蛋白酶K中并且暂时储存在4℃直到进一步RNA提取(如在图3.3B所见)。RNA提取使用凯杰公司的DNA/RNA FFPE试剂盒来完成以具有从显微切割组织再生RNA和DNA的部分(部分提取的DNA样品储存在-20℃用于在稍后的时间充分提取)。样品涡旋混合然后在56℃培养15分钟、置于冰上3分钟、和以全速离心15分钟以分离DNA和RNA。样品处理的后续步骤根据试剂盒手册来执行。样品使用分光光度计机器来定量。分离的RNA样品以20毫微克/微升储存在-80℃的无核糖核酸酶水中。

基因表达生物标记物

全基因组DASL HT试验(Illumina公司)用来分析超过29,000个序列目标。每个目标基因序列杂交到人类HT-12v4微珠芯(Illumina公司；用于FFPE样品中表达谱的全基因组试验；数据表；RNA分析，2010)。人类HT-12v4微珠芯——每个微珠芯阵列有效处理12个样品——使用来自肿瘤样品的RNA来检测接下来的转录子：27,253个编码转录子(完善的注解)、426个编码转录子(临时注解)、1580个非编码转录子(完善的注解)，和26个非编码转录子(临时注释)。研究者使用来自每个肿瘤的50-200毫微克之间以获得DASL平台的分布。病例和对照在相同的芯片上成对地运行。为了质量控制的目的，样品的20％被包括为重复。

微阵列数据的预处理

在本示例中，基因表达数据在基因的差异表达的分析和预测模型的开发之前通过归一化、背景校正、和批量效应校正来预处理。原始微阵列数据文件在他们在全基因组DASL HT平台上运行之后从所有样品中生成。研究者使用GenomeStudio以输出具有以下数据的文本样品探针文件和对照探针文件：概述的表达水平(AVG信号)、微珠重复的标准误差(BEAD STDERR)、微珠的平均数(Avg_NBEADS)和检测上述背景用于目标基因的检测p-值(Detection Pval)。所有后续分析使用R和生物传导器来执行。对照探针和样品探针用来预处理(归一化和背景校正)，并且使用生物传导器的胶原蛋白和limma包装来评估质量控制。特定预处理包装(neqc)允许非参数背景校正，然后使用对照和样品探针分位数归一化。研究者使用用于去除批量效应的孔巴、经验的贝叶斯方法在微阵列处理期间通过芯片阵列确定批量效应。表达水平进一步调整用于芯片和装运(每个装运由几个芯片阵列组成)。

外部数据库中识别基因的验证

为了识别基因的验证，外部数据集使用来自使用PCa肿瘤的全基因组基因表达的3个不同的研究。用于这些基因的基因组和临床数据从基因表达综合数据库(GEO)(GSE46691、GSE21032、GSE41410)获得。所有这三个研究使用美国昂飞公司的人类外显子1.0S阵列以获得基因表达数据。(版权所有，百特科公司；版权所有，百特科公司，百特科和所有其他百特科公司，产品或服务名称是美国密苏里州圣路易斯的百特科公司的注册商标或商标)用来从GEO提取原始数据(美国昂飞公司CEL文件)，并且通过标准强健多阵列平均(RMA)方法和用于美国昂飞公司阵列的背景校正来标准化。外显子阵列具有可用的三种类型的注解，在降低可靠性的顺序：核芯(使用参考序列，全长mRNA)，延伸的(添加表达序列标签(EST)，同线鼠和老鼠mRNA)，和完整的(添加从头计算的预测)。为了确保具有良好可靠性的所有可能的探针被包括在验证中，来自延伸和完整的注释的探针提供给在选择的模型中的所有基因。由于美国昂飞公司的阵列显示延伸和完整的探针之间的探针强度分布几乎是不能区别的，所以来自完整的探针集注释的探针用于验证目的。研究者识别对应于每个基因的所用探针，每个基因对应于包括在研究者的最后一组模型中的探针并且包括研究者的验证步骤中的那些美国昂飞公司的阵列探针。

使用用于探针的子集的相应的表达数据识别用于包括在研究者的识别模型中所有基因，并且来自每个研究的患者人群，使用弹性网络重复的5倍交叉验证(CV)(α设置在＝0.2，并且没有探头变量的标准化)被执行用于验证。为了确定简约模型的最佳预测，λ(LASSO惩罚项参数)，检测到的最小λ以上的一个标准误差(具有最低的CV误差)，用来获得所有CV运行的平均AUC。用于所有可能的预测模型的基因(频率阈值从稳定性选择20％-80％)使用可用于每个数据集的所有数据通过交叉验证进行评估。

结果

包括在发现/训练集中的患者的特征

在南加州大学经受了根治性前列腺切除术的总数为293个的器官限制PCa患者的基因表达谱被生成。这些患者中154个在手术后无疾病征兆(NED)，表明无疾病复发，106个仅经历生化复发(BCR)且没有进一步的进展，以及33个患者经历疾病的临床复发，其中检测到局部的或远处的转移(CR)(表1)。

表1：具有可用的基因表达谱的患者的特征

缩略语：无疾病征兆(NED)，生物复发病例(BCR)，临床转移性复发(CR)

*费希尔精确p-值

将NED和CR患者之间的特征进行比较，CR患者年龄较大(年龄70+岁，39％CR对23％NED)，具有较高的格里森分数(格里森8-10，36％CR对16％NED，p＝0.01)，并且更多具有手术之前的新辅助激素疗法(24％CR对4％NED)。CR患者也更可能使用手术之前的可用的诊断数据(表1)根据达米科风险分类被归类为高风险。当将BCR患者与CR患者进行比较时，只有BCR患者较年轻(<60岁，32％BCR对12％CR)，具有较低的病理学格里森分数(格里森6或更少，35％NED对15％CR)，被诊断具有较低临床阶段(cT1，74％BCR对52％CR)，更可能根据达米科风险分类被归类为低风险(30％BCR对8％CR)，并且不太可能接收新辅助激素疗法(8％BCR对24％CR)。中位随访时间对NED(对照组)是9.55年，对仅BCR患者是3.12年和对经历疾病的转移性复发的患者是5.83年。

预测标记的开发

在基因表达数据的预处理之后，转移性疾病的预测标记使用具有弹性网络回归的稳定性选择来开发。只有NED和CR患者用来开发这个预测标记以便找到可以在无痛和侵略性疾病之间真实区分的基因标记。弹性网络回归应用于通过对原始数据二次抽样获得的500个数据集中的每个。在二次抽样完成之后，使用从20％至80％的稳定频率阈值获得的探针集被确定且相应地使用具有重复交叉验证的弹性网络回归进行评估。20％的频率阈值是最宽大的且包括在至少20％的子样品数据集中可见的所有基因，其中具有高潜力的假阳性标志物，而80％的频率阈值是在至少80％的子样品数据集中可见的最严格的标准采摘基因。所有稳定性选择运行包括力的临床变量(格里森分数、手术年份、手术前PSA水平和手术的年龄)。因此模型中的基因的数量范围从163个(20％频率阈值)到3个基因(80％阈值)。

下一步骤是将模型应用到试验组以便根据AUC确定预测能力。然而，因为154个NED和33个CR的研究者的训练集不足够大到可分成训练和验证集，研究者最小化过于乐观偏置，由于通过使用具有整个训练数据上的5倍交叉验证的弹性网络拟合且估算相同的数据中的模型AUC。每个阈值的每个基因模型被评估以通过整个10个交叉验证的平均AUC来确定预测能力。具有包括临床变量(格里森分数、操作手术，手术前PSA水平、和年龄)的28个基因的在50％频率阈值的模型显示交叉验证中的最佳预测。将28个基因模型的ROC曲线和临床变量(格里森分数、PSA水平、年龄)比较的ROC图单独显示了在使用基因标记时的预测的改进(图2)。包括在28个基因模型中标记基因(目标)的列表被包括在表2中。相同的标记基因存在于通过将NED患者和CR患者比较的FDR调整的p-值存储的表3中。在表3中，已先前报告为与PCa进展和/或转移相关的基因通过星号进行标记。与对应于这些目标基因的每个基因相关联的生物过程在表4中列出。

具有28个基因在50％频率阈的模型使用具有弹性网络回归的稳定性选择通过拟合逻辑回归来获得。基因表达变量被正则化，且临床变量被迫无正则化。用于包括28个基因的模型的一组初始的回归系数和临床变量在表5中示出。逻辑模型的形式反映如上所描述的模型。本领域技术人员应当认识到的是，系数可以调整以改进模型的预测能力，其可以通过更多的培训和/或验证数据来实现。对模型的改进也可以通过调整上面所讨论的基因变量选择参数来实现。

表2.包括在CR风险预测模型中的目标的列表

数据来自Oncomine^TM并且包括对具有特定基因、他们差异表达基因列表的前10％、和如在我们数据中发现的同样方向的至少2倍变化的癌症的研究。

表3.通过依据比较NED和CR组的p-值排序的标记基因的列表

*基因已被报告与PCa进展和/或转移相关联。

表4：南加州大学(USC)预测的标记中的28个基因的生物过程

表5：逻辑回归模型的初始系数

Pgleason＝病理学格里森评分

Opyr＝手术年份

Age＝诊断的年龄

PSA＝手术前PSA水平

使用外部数据集的预测模型的验证

三个独立的数据集被用于复发的基因标记预测的验证：来自梅奥诊所(MC)的数据集、来自纪念斯隆凯特琳癌症中心(MSKCC)的数据集、和来自伊拉斯谟医学中心(EMC)的数据集。为了使用这些数据来验证研究者的发现，对应于研究者的预测模型中的每个基因的美国昂飞公司的探针被识别且被包括在模型中。

因为梅奥诊所数据集包括具有如本示例中的类似研究设计的大量的患者，所以它被用作主要的验证数据集以评估研究者的潜在的预测模型。这个数据集的缺点是在GEO数据库中报告的唯一临床变量是格里森分数。因此，研究者无法用包括在最终的预测模型中的所有临床变量来验证模型。从稳定性选择中得到的模型使用他们的整个数据集(n＝545)来首先验证。重复5倍交叉验证在所有10个可能的预测模型上执行，10个可能的预测模型具有包括格里森分数的不同百分比的阈值，并且AUC与仅包括格里森分数的模型的AUC比较。仅具有格里森分数的模型具有AUC＝0.72。在所有模型使用重复交叉验证进行评估之后，获得的最高AUC是0.75。在稳定性5个选择中在50％频率阈值的28个基因模型最好地执行，而不包括未添加更多到模型的预测能力的基因。AUC在该模型中稳定，因为降低频率阈值没有在这点之后继续改进预测能力。因此，研究者锁定具有28个基因的标记的模型。

南加州大学的28个基因模型的验证在3个不同的数据集中完成。如表6所示，当使用梅奥诊所的数据集时，具有格里森分数的28个基因模型产生AUC＝0.75，在仅具有格里森分数的模型中的AUC＝0.72上增加3％。使用MSKCC表达数据，具有临床变量的28个基因模型产生AUC＝0.90，超过具有AUC＝0.86的单独的临床变量4％的改进。采用EMC数据集，28个基因模型+临床变量产生AUC＝0.82，超过仅具有AUC＝0.76的临床变量6％的改进。

表6：使用3个独立数据集的28个基因模型的验证

本示例示出了一种新的基于基因表达的分类器，其使用来自全基因组表达谱的不可知论的方法来识别。该分类器可以根据临床指标的准确性来改进，以识别在根治性前列腺切除术之后处在临床复发的早期(T2)局部的患者。相比于仅临床指标，在现有外部数据集中的验证显示了在临床转移性前列腺癌的预测的有希望的改进。在其他数据集中的另外的验证可以改进这28个基因面板的预测能力。

Claims

1.一种用于预测个体中前列腺癌的进展的方法，所述方法包括：

(a)接收来自从所述个体采取的生物样品的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组成的组中选择的至少两个基因：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、ABLIM1、EDARADD、GPR81、MYBPC1、F10、KCNA3、GLDC、KCNQ2、RAPGEF1、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、PCA3和NPR3；

(b)将所述表达水平应用到使所述标记基因的集合的表达水平与前列腺癌进展关联的预测模型；以及

(c)评估所述预测模型的输出以预测所述个体中前列腺癌的进展。

2.一种用于预测个体中前列腺癌的进展的方法，所述方法包括：

(a)接收来自从所述个体采取的生物样品的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组成的组中选择的至少一个基因：NKX2-1、UPK1A、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、EDARADD、GPR81、MYBPC1、KCNA3、GLDC、KCNQ2、RAPGEFl、TUBB2B、MB、DUOXA1、C2orf43、DUOXl、和NPR3；

3.一种用于预测个体中前列腺癌的进展的方法，所述方法包括：

(a)接收来自从所述个体采取的生物样品的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组成的组中选择的至少两个基因：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、和PGC；

4.一种用于预测个体中前列腺癌的进展的方法，所述方法包括：

(a)接收来自从所述个体采取的生物样品的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组成的组中选择的至少两个基因：ZYG11A、MMP11、MYBPC1、DUOX1、EDARADD、PGC、GPR81、NKX2-1、ABLIM1、和ABCC11；

5.根据前述权利要求中的任一项所述的方法，其中所述预测模型的所述输出预测在所述个体已经受前列腺癌的治疗之后所述个体中前列腺癌的临床复发的可能性。

6.根据前述权利要求中的任一项所述的方法，其中所述预测模型的所述输出预测在所述个体已经受前列腺癌的治疗之后所述个体中前列腺癌的生化复发的可能性。

7.根据前述权利要求中的任一项所述的方法，进一步包含提供具有所述个体的前列腺癌的临床复发的预测的报告。

8.根据前述权利要求中的任一项所述的方法，进一步包含将格里森评分、前列腺癌外科手术的年份、手术前PSA水平、和年龄中的至少一个应用到所述预测模型，其中所述预测模型使格里森评分、前列腺癌外科手术的年份、手术前PSA水平、和年龄中的至少一个与前列腺癌的进展关联。

9.根据前述权利要求中的任一项所述的方法，进一步包含将所述标记基因的所述基因表达水平与一个或多个其它生物标记物结合以预测所述个体中前列腺癌的进展。

10.根据权利要求9所述的方法，其中所述一个或多个其它生物标记物从以下组成的组中选择：生殖系突变、体细胞突变、DNA甲基化标记、蛋白标记、和它们的任何组合。

11.根据前述权利要求中的任一项所述的方法，其中标记基因的集合的所述表达水平包含在多个时间测量的基因表达水平。

12.根据权利要求11所述的方法，进一步包括使用在多个时间测量的所述基因表达水平的动力学以预测所述个体中前列腺癌的进展。

13.根据前述权利要求中的任一项所述的方法，进一步包含评估所述预测模型的输出以确定所述个体是否处于在高风险组中。

14.根据前述权利要求中的任一项所述的方法，进一步包含通过从多于约1000个基因中选择所述标记基因的集合来开发所述预测模型。

15.根据前述权利要求中的任一项所述的方法，进一步包含使用稳定性选择来开发所述预测模型。

16.根据前述权利要求中的任一项所述的方法，进一步包含使用逻辑回归来开发所述预测模型。

17.根据前述权利要求中的任一项所述的方法，进一步包含通过使用具有弹性网络正则化逻辑回归的稳定性选择而选择基因来开发所述预测模型。

18.根据前述权利要求中的任一项所述的方法，其中将所述标记基因的集合的所述表达水平应用到所述预测模型包含根据所述标记基因的集合的稳定性排名来加权所述表达水平。

19.根据前述权利要求中的任一项所述的方法，其中将所述标记基因的集合的所述表达水平应用到所述预测模型包含根据所述标记基因的集合的预测能力排名来加权所述表达水平。

20.根据前述权利要求中的任一项所述的方法，其中所述预测模型具有曲线下面积，所述曲线下面积比仅具有格里森评分的预测模型的曲线下面积更大。

21.根据前述权利要求中的任一项所述的方法，其中所述预测模型具有曲线下面积，所述曲线下面积比仅具有格里森评分、手术前PSA水平、和年龄的预测模型的曲线下面积更大。

22.根据前述权利要求中的任一项所述的方法，进一步包含在(a)之前确定所述表达水平。

23.根据权利要求22所述的方法，其中确定所述表达水平包含：

从所述生物样品中获得蛋白质或表达的核酸；以及

确定用于所述标记基因的序列的所述表达的核酸的量。

24.根据权利要求23所述的方法，其中确定所述表达的核酸的量包含在具有来自所述生物样品的所述表达的核酸的序列的核酸上执行定量聚合酶链式反应(PCR)。

25.根据权利要求23所述的方法，其中确定所述表达的核酸的量包含将具有来自所述生物样品的所述表达的核酸的序列的核酸应用到核酸阵列。

26.根据权利要求23所述的方法，其中确定所述表达的核酸的量包含使用下一代测序技术对核酸测序。

27.根据权利要求23所述的方法，进一步包含以mRNA的随机引物法产生cDNA。

28.根据权利要求27所述的方法，进一步包含将所述产生的cDNA杂交到对应于所述标记基因的寡核苷酸。

29.根据权利要求28所述的方法，进一步包含延伸所述寡核苷酸。

30.根据权利要求29所述的方法，进一步包含连接所述寡核苷酸。

31.根据权利要求30所述的方法，进一步包含荧光标记定量聚合酶链式反应(qPCR)中的所述寡核苷酸且基于所述标记的寡核苷酸的荧光水平来确定所述标记基因的所述表达水平。

32.根据前述权利要求中的任一项所述的方法，其中所述生物样品包含来自所述个体的前列腺组织样品。

33.根据前述权利要求中的任一项所述的方法，其中所述生物样品包含从所述个体的至少一种体液分离的循环肿瘤细胞(CTC)。

34.根据权利要求33所述的方法，其中所述至少一种体液从以下组成的组中选择：血液、唾液、尿液、以及它们的任意组合。

35.根据前述权利要求中的任一项所述的方法，其中所述生物样品包含所述个体的外来体。

36.根据前述权利要求中的任一项所述的方法，其中所述生物样品包含所述个体的循环肿瘤核酸。

37.根据前述权利要求中的任一项所述的方法，进一步包含使用激光捕获显微切割(LCR)来显微切割前列腺组织样品。

38.一种用于预测个体中前列腺癌的进展的系统，所述系统包含：

装置，所述装置被配置为确定来自从所述个体采取的生物样品的核酸的表达水平；以及

硬件逻辑，所述硬件逻辑被设计或被配置为执行操作，所述操作包含：

39.一种用于预测个体中前列腺癌的进展的系统，所述系统包含：

(a)接收来自所述个体的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组成的组中选择的至少一个基因：NKX2-1、UPK1A、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、PGC、UPK3B、PCBP3、EDARADD、GPR81、MYBPC1、KCNA3、GLDC、KCNQ2、RAPGEFl、TUBB2B、MB、DUOXA1、C2orf43、DUOX1、和NPR3；

40.一种用于预测个体中前列腺癌的进展的系统，所述系统包含：

(a)接收来自所述个体的标记基因的集合的表达水平，其中所述标记基因的集合包括从以下组成的组中选择的至少两个基因：NKX2-1、UPK1A、ADRA2C、ABCC11、MMP11、CPVL、ZYG11A、CLEC4F、OAS2、和PGC；

41.一种用于预测个体中前列腺癌的进展的系统，所述系统包含：

(a)接收来自所述个体的标记基因的集合的表达水平，其中所述标记基因的集合包括从实质由以下组成的组中选择的至少两个基因：ZYG11A、MMP11、MYBPC1、DUOX1、EDARADD、PGC、GPR81、NKX2-1、ABLIM1、和ABCC11；

42.根据权利要求38-41中任一项所述的系统，其中所述装置包含微阵列。

43.根据权利要求38-41中任一项所述的系统，其中所述装置包含下一代测序仪。

44.根据权利要求38-41中任一项所述的系统，其中所述装置包含定量聚合酶链式反应(qPCR)装置。

45.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为使所述预测模型的所述输出预测在所述个体已经受前列腺癌的治疗之后所述个体中前列腺癌的临床复发的可能性。

46.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为使所述预测模型的所述输出预测在所述个体已经受前列腺癌的治疗之后所述个体中前列腺癌的生化复发的可能性。

47.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为提供具有所述个体的前列腺癌的临床复发的预测的报告。

48.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为将格里森评分、前列腺癌外科手术的年份、手术前PSA水平、和年龄中的至少一个应用到所述预测模型，其中所述预测模型使格里森评分、前列腺癌外科手术的年份、手术前PSA水平、和年龄中的至少一个与前列腺癌的进展关联。

49.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为评估所述预测模型的输出以确定所述个体是否落入高风险组中。

50.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为通过从多于约1000个基因中选择所述标记基因的集合来开发所述预测模型。

51.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为使用稳定性选择来开发所述预测模型。

52.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为使用逻辑回归来开发所述预测模型。

53.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为通过使用具有弹性网络正则化逻辑回归的稳定性选择而选择基因来开发所述预测模型。

54.根据权利要求38-41中任一项所述的系统，其中将所述标记基因的集合的所述表达水平应用到所述预测模型的所述逻辑包含根据所述标记基因的集合的稳定性排名来加权所述表达水平的逻辑。

55.根据权利要求38-41中任一项所述的系统，其中将所述标记基因的集合的所述表达水平应用到所述预测模型的所述逻辑包含根据所述标记基因的集合的预测能力排名来加权所述表达水平的逻辑。

56.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为使所述预测模型具有曲线下面积，所述曲线下面积比仅具有格里森评分的预测模型的曲线下面积更大。

57.根据权利要求38-41中任一项所述的系统，其中所述逻辑被进一步设计或被配置为使所述预测模型具有曲线下面积，所述曲线下面积比仅具有格里森评分、手术前PSA水平、和年龄的预测模型的曲线下面积更大。