CN102308212A

CN102308212A - 用于确定前列腺癌诊断和预后的材料和方法

Info

Publication number: CN102308212A
Application number: CN200980156188.6A
Authority: CN
Inventors: 迈克尔·麦克莱兰; 王轶鹏; 丹尼尔·莫克拉
Original assignee: University of California
Current assignee: University of California
Priority date: 2008-12-04
Filing date: 2009-12-04
Publication date: 2012-01-04
Also published as: WO2010065940A1; CA2745961A1; US20110236903A1; EP2370813A1; EP2370813A4; US20140011861A1

Abstract

本发明公开了与前列腺癌诊断和/或预后确定相关的材料和方法。

Description

用于确定前列腺癌诊断和预后的材料和方法

与相关申请的交叉参考

本申请要求2008年12月4日提交的序号为No.61/119,996的美国临时申请的优先权。

关于联邦资助的研究的陈述

本研究在国立卫生研究院(National Institutes of Health)的资助号CA114810的政府支持下做出。政府在本发明中具有一定权利。

技术领域

本文件涉及用于在细胞中确定基因表达以及用于诊断前列腺癌和评估前列腺癌患者的预后的材料和方法。

背景技术

前列腺癌是男性中最常见的恶性肿瘤，并且是相当多的发病和死亡的原因(Howe等，(2001)J.Natl.Cancer Inst.93：824-842)。鉴定可以作为前列腺癌以及其他疾病和病症的可靠的早期诊断和预后标志物以及治疗靶的基因，可能是有用的。

发明内容

本文件部分是基于下述发现，即可以鉴定到能够在不存在肿瘤细胞的情况下辨别正常前列腺基质与邻肿瘤基质的RNA表达变化，并且这样的表达变化可用于传递“存在肿瘤”的信号。以前已经开发和验证了从富含前列腺肿瘤的样品的阵列数据中鉴定RNA的细胞类型特异性表达的线性回归方法(参见美国专利公布20060292572和Stuart等，(2004)Proc.Natl.Acad.Sci.USA 101：615-620，二者在此以其全文引为参考)。正如本文中所述，该方法被扩展到用于评估从正常志愿者的前列腺活检样品和邻肿瘤基质获得的差异表达数据。观察到超过一千个基因表达变化。使用一部分基质特异性基因产生了131个探针组的分类物，其准确鉴定了大量独立测试病例的肿瘤或无肿瘤状态。这些观察表明邻肿瘤基质表现出较大量的基因表达变化，并可以选择一部分用于在不存在肿瘤细胞的情况下可靠地鉴定肿瘤。在病理判读不确定的富含基质的临床病例活检样品的诊断中，该分类物可能是有用的。

本公开内容尤其包括下列：(1)RNA生物标志物针对前列腺癌复发的跨多个数据集的广范交叉验证；(2)用于产生分类物和将它们在具有混合组织的样品上测试的“双模态”方法；以及(3)用于在即使样品不含肿瘤但具有靠近肿瘤的“反应性基质”区域的情况下，在反应性基质中鉴定能够用作癌症存在的标志物的基因的两种方法。

一方面，本文件的特征在于鉴定对象患有或未患前列腺癌的体外方法，所述方法包含：(a)提供来自对象的前列腺组织样品；(b)测量样品中前列腺癌特征基因的表达水平；(c)将测量的表达水平与前列腺癌特征基因的参比表达水平进行比较；以及(d)如果测量的表达水平显著高于或低于参比表达水平，将对象鉴定为患有前列腺癌，而如果测量的表达水平不显著高于或低于参比表达水平，将对象鉴定为未患前列腺癌。前列腺组织样品可以不包含肿瘤细胞，或者前列腺组织样品可以包含肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文表3或表4中列出的基因。方法可以包括确定10个以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述10个以上前列腺癌特征基因的参比表达水平，以及如果测量的表达水平显著高于或低于参比表达水平，将对象分类为患有可能复发的前列腺癌，或者如果测量的表达水平不显著高于或低于参比表达水平，则将对象分类为患有可能不会复发的前列腺癌。所述10个以上前列腺癌特征基因可选自本文表3或表4中列出的基因。方法可以包括确定20个以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述20个以上前列腺癌特征基因的参比表达水平，以及如果测量的表达水平显著高于或低于参比表达水平，将对象分类为患有可能复发的前列腺癌，或者如果测量的表达水平不显著高于或低于参比表达水平，则将对象分类为患有可能不会复发的前列腺癌。所述20个以上前列腺癌特征基因选自本文表3或表4中列出的基因。

另一方面，本文件特征在于确定被诊断患有前列腺癌的对象的预后的方法，所述方法包含：(a)提供来自对象的前列腺组织样品；(b)测量样品中前列腺癌特征基因的表达水平；(c)将前列腺癌特征基因的测量的表达水平与参比表达水平进行比较；以及(d)如果测量的表达水平不显著高于或低于参比表达水平，将对象鉴定为与测量的表达水平显著高于或低于参比表达水平的情况相比具有相对较好的预后，或者如果测量的表达水平显著高于或低于参比表达水平，则将对象鉴定为与测量的表达水平不显著高于或低于参比表达水平的情况相比具有相对较差的预后。前列腺组织样品可以不包含肿瘤细胞，或者前列腺组织样品可以包含肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文表8A或8B中列出的基因。

另一方面，本文件特征在于鉴定对象患有或未患前列腺癌的方法，所述方法包含：(a)提供来自对象的前列腺组织样品，其中样品包含前列腺基质细胞；(b)测量基质细胞中一个或多个基因的表达水平，其中所述一个或多个基因是前列腺癌特征基因；(c)将所述一个或多个基因的测量的表达水平与参比表达水平进行比较，其中参比表达水平在来自非癌性前列腺组织的基质细胞中测定；以及(d)如果测量的表达水平显著高于或低于参比表达水平，将对象鉴定为患有前列腺癌，而如果测量的表达水平不显著高于或低于参比表达水平，则将对象鉴定为未患前列腺癌。前列腺组织样品可以不包含肿瘤细胞，或者前列腺组织样品可以包含肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文表3或表4中列出的基因。

另一方面，本文件特征在于确定被诊断患有前列腺癌的对象的预后的方法，所述方法包含：(a)提供来自对象的前列腺组织样品，其中样品包含前列腺基质细胞；(b)测量基质细胞中一个或多个基因的表达水平，其中所述一个或多个基因是前列腺癌特征基因；(c)将所述一个或多个基因的测量的表达水平与参比表达水平进行比较，其中参比表达水平在来自非癌性前列腺组织的基质细胞中测定；以及(d)如果测量的表达水平不显著高于或低于参比表达水平，将对象鉴定为与测量的表达水平显著高于或低于参比表达水平的情况相比具有相对较好的预后，或者如果测量的表达水平显著高于或低于参比表达水平，则将对象鉴定为与测量的表达水平不显著高于或低于参比表达水平的情况相比具有相对较差的预后。前列腺组织样品可以不包含肿瘤细胞，或者前列腺组织样品可以包含肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文表3或表4中列出的基因。

另一方面，本文件特征在于鉴定对象患有或未患前列腺癌的方法，所述方法包含：(a)提供来自对象的前列腺组织样品；(b)测量样品中一个或多个前列腺细胞类型预测基因的表达水平；(c)根据测量的表达水平确定所述样品中的组织类型百分率；(d)测量样品中一个或多个前列腺癌特征基因的表达水平；(e)根据组织类型百分率和测量的表达水平确定分类物；以及(f)如果分类物落入前列腺癌分类物的预定范围内，将对象鉴定为患有前列腺癌，或者如果分类物未落入所述预定范围内，则将对象鉴定为未患前列腺癌。步骤(b)和(d)可以同时进行。

本文件特征还在于确定被诊断患有前列腺癌并进行过前列腺癌治疗的对象的预后的方法，所述方法包含：(a)提供来自对象的前列腺组织样品；(b)测量样品中一个或多个前列腺组织预测基因的表达水平；(c)根据测量的表达水平确定样品中的组织类型百分率；(d)测量样品中一个或多个前列腺癌特征基因的表达水平；(e)根据组织类型百分率和测量的表达水平确定分类物；以及(f)如果分类物落入前列腺癌复发分类物的预定范围内，将对象鉴定为可能复发，或者如果分类物未落入所述预定范围内，则将对象鉴定为可能不复发。步骤(b)和(d)同时进行。

另一方面，本文件特征在于鉴定组织样品中两种或更多种组织类型的比例的方法，所述方法包含：(a)使用来自动物或植物中与组织样品具有相似解剖位置的、组织比例已知的一组其他样品，其中至少两个其他样品所包含的所述两种或更多种细胞类型每一种的相对含量都不相同；(b)测量每个其他样品中一种或多种基因表达或蛋白质分析物的总体水平；(c)确定其他样品中每种组织类型的相对比例与每种基因表达或蛋白质分析物的测量的总体水平之间的回归关系；(d)选择与其他样品中的组织比例相关的一种或多种分析物；(e)测量组织样品中步骤(d)的一种或多种分析物的总体水平；(f)将组织样品中每种分析物的水平与步骤(d)中分析物的水平进行匹配，以确定组织样品中每种组织类型的预测比例；以及(g)使用所有估算值的中位或平均比例，在步骤(f)中获得的组织样品的预测组织比例中进行选择。组织样品可以包含癌细胞(例如前列腺癌细胞)。

另一方面，本文件特征在于在各含一个以上被测样品的两组数据中，比较通过一种或多种与生物现象的变化相关的方法所预测的两种或更多种分析物水平的方法，所述方法包含：(a)只选择在两组数据中都被分析的分析物；(b)使用比较法例如与生物现象的变化相关的最高概率或最低假发现率，对每组数据中的分析物进行排序；(c)将步骤(b)中每个排序列表中的一组分析物进行相互比较，选择两个列表中都出现的分析物，并确定在两个列表中都出现并显示出与生物现象相关的水平以相同方向变化的分析物的数量；以及(d)根据比较的数量将随机显示出观察到的同方向变化的数量的概率，计算一致性分值。在步骤(a)中，可以改变每个列表的长度，以确定两个排序表的最大一致性分值。

除非另有定义，否则在本文中使用的所有技术和科学术语具有与本发明所属技术领域中的普通专业人员所通常理解的相同的意义。尽管与本文中描述的相似或等价的方法和材料可用于实践本发明，但下面描述了适合的方法和材料。本文中提到的所有出版物、专利申请、专利和其他参考文献，以其全文引为参考。在有冲突的情况下，以本说明书、包括定义为准。此外，材料、方法和实例仅仅是说明性的而不打算是限制性的。

在下面的附图和描述中提出了本发明的一个或多个实施方案的详细情况。根据说明书和附图以及权利要求书，本发明的其他特点、目的和优点将变得显而易见。

附图简述

图1A是如实施例1中所述，对通过用于基因选择的105倍排列过程获得的339个探针组的关联数所作的图。水平虚线标出关联数＝50。使用所有15个正常活检样品和13个带有最小原发肿瘤的基质病例，选择所有关联数＞50的数据集利用PAM进行训练。图1B-1E分别是对数据集1-4的肿瘤百分率作出的一系列柱状图。图1B和1C的肿瘤百分率数据由SPECS的病理学家提供，而图1D和1E的肿瘤百分率数据是使用CellPred估算的。图1B中的星号表示数据集1中分类错误的带肿瘤病例。

图2A是通过差异表达分析鉴定的基因的Venn图解。图中的“b”、“t”和“a”分别表示正常活检样品、邻肿瘤基质和快速尸检样品。图2B是散点图，显示了基质细胞和肿瘤细胞中160个探针组的差异表达。图2C是基于131个所选诊断探针组，训练组的PCA图。

图3A-3D是如本文实施例2中所述，预测的组织百分率和病理学家估算的组织百分率的一系列散点图。X-轴：预测的组织百分率；y-轴：病理学家估算的组织百分率。图3A-使用从数据集1产生的模型预测的数据集2的肿瘤百分率。图3B-使用从数据集1产生的模型预测的数据集2的基质百分率。图3C-使用从数据集2产生的模型预测的数据集1的肿瘤百分率。图3D-使用从数据集2产生的模型预测的数据集1的基质百分率。

图4是如本文实施例2中所述，对数据集3的预测组织百分率所作的一系列图。图4A和4B是预测肿瘤百分率的柱状图，图4C是每个单独样品的肿瘤+基质的百分率图。

图5是如本文实施例2中所述，被鉴定为发现在数据集1、2和3中在复发与未复发病例之间差异表达的特定基因的差异强度的一系列散点图。X-轴：数据集1中复发对比未复发的强度变化。Y-轴：数据集3(图5A和5B)或数据集2(图5C)中复发对比未复发的变化。图5A-数据集1和3共有的与复发相关的肿瘤特异性基因。图5B-数据集1和3共有的与复发相关的基质特异性基因。图5C-数据集1和2共有的与复发相关的肿瘤特异性基因。

图6是使用十折交叉验证，对计算机组织组分预测与病理学家估算相比的差异的平均预测误差率所作的一对图。实心圆形：数据集1；空心圆形：数据集2；空心正方形：数据集3；空心菱形：数据集4。X-轴：在预测模型中使用的基因数量。Y-轴：平均预测误差率(％)。图6A显示了对肿瘤组分的预测误差率，图6B显示了对基质组分的预测误差率。

图7是显示了在公用数据集上组织组分预测的一对图。图7A是从作为富集肿瘤的前列腺癌样品制备的样品产生的219个阵列的计算机预测肿瘤组分(％)的柱状图。X-轴：计算机预测的肿瘤细胞百分率(％)。Y-轴：样品频率。图7B是框图，显示了数据集5的未复发和复发的前列腺癌样品组中肿瘤组织组分的差异。X-轴：样品组，NR：未复发组；REC：复发组。Y-轴：肿瘤细胞百分率(％)。

图8是显示了预测的组织百分率和病理学家估算的组织百分率的一系列散点图。X-轴：预测的组织百分率；y-轴：病理学家估算的组织百分率。图8A-使用从数据集1产生的模型预测的数据集2的肿瘤百分率。泊松(Pearson)相关系数是0.74。图8B-使用从数据集1产生的模型预测的数据集2的基质百分率。泊松相关系数是0.70。图8C-使用从数据集1产生的模型预测的数据集2的BPH百分率。泊松相关系数是0.45。图8D-使用从数据集2产生的模型预测的数据集1的肿瘤百分率。泊松相关系数是0.87。图8E-使用从数据集2产生的模型预测的数据集1的基质百分率。泊松相关系数是0.78。图8F-使用从数据集2产生的模型预测的数据集1的BPH百分率。泊松相关系数是0.57。

图9是在U133A基因芯片上测量的91个患者病例组与在U133Aplus2平台上测量的独立的86个患者病例组相比，对疾病复发和无病病例之间被称为γ的差异基因表达量的相关性所作的一对图。基因被鉴定为对肿瘤上皮细胞——左图的“γT”、或基质细胞——右图的“γS”的差异表达具有特异性。

图10是对受过训练的人类专家与提出的非监督方法之间染色浓度定量之间的相关性所作的图。圆形表示给定组织样品(总共97个样品)的个体分值。线是用于浓度估算的非监督光谱解混的结果。非监督方法在人工标记数据的线性回归的3％之内。

图11是在结肠癌组织微阵列上演示的自动获取和可视化的流程图。所需的仅有输入值是扫描面积(x，y，dx，dy)和核心数量。在这些步骤完成之后，图像即准备好用于诊断/计分。“b”中的图像是来自20×物镜的单一视野，“c”是以20×获取的图像的剪辑图。

图12是对使用不同样品尺寸(圆形)时鉴定到的基因所作的图。正方形表示最长的基因名单(666个基因，样品尺寸＝120)与其他基因名单之间的重叠。其他点(s和t)表示每个基因名单与使用MLR鉴定到的肿瘤/基质基因之间的重叠。

图13A和13B是表示对肿瘤细胞鉴定到的复发相关基因的图，而图13C-13F显示了对基质细胞鉴定到的复发相关基因。圆形表示当使用不同样品尺寸时鉴定到的基因数量。正方形表示参比基因名单与其他基因名单之间的重叠。其他点表示每个基因名单与使用MLR鉴定到的肿瘤/基质基因之间的重叠。

图14是使用不同样品尺寸进行差异表达分析时，对100个随机选择的样品进行平均而获得的结果所作的图。正方形、圆形和菱形分别表示特异性、灵敏度和假发现率。

详细描述

除非另有定义，否则本文中使用的所有技术和科学术语具有与本发明所属技术领域中的专业人员所通常理解的相同的意义。贯穿本文全部公开内容提到的所有专利、专利申请、已发表的申请和出版物、GENBANK

序列、网址和其他发表的材料，除非另有指明，均以其全文引为参考。在本文中的术语存在多个定义的情况下，以本部分中的定义为准。当对URL或其他这种标识符或地址进行引用时，应该理解互联网上这种标识符的具体信息可能改变，通过搜索互联网能够发现等价的信息。对其进行的引用证明了这些信息的可用性和公共传播性。

差异表达包括基因表达程度取决于分化发育和/或肿瘤生长的定量和定性差异两者。差异表达的基因可以代表标志基因和/或靶基因。本文公开的差异表达基因的表达图式可以用作对象的预后或诊断评估的一部分。差异表达的基因的表达图式可用于鉴定样品中特定细胞类型的存在。本文公开的差异表达的基因可用于鉴定试剂和化合物的方法、这些试剂和化合物在对象治疗中以及治疗方法中的应用。

术语“生物学活性”、“生物活性”、“活性”和“生物学功能”可以互换使用，并可以指由多肽(无论处于其天然还是变性构象中)或由其任何片段在体内或体外直接或间接执行的效应子或抗原功能。生物学活性包括但不限于与多肽结合、与其他蛋白质或分子结合、酶活性、信号转导、作为DNA结合蛋白、作为转录调控物的活性和结合受损DNA的能力。可以通过直接影响对象多肽来调节生物活性。或者，也可以通过调节多肽的水平、例如通过调节相应基因的表达来改变生物活性。

术语“基因表达分析物”是指其存在或浓度能够被检测并与基因表达相关联的生物分子。例如，基因表达分析物可以是特定基因的mRNA或其片段(包括例如mRNA剪接副产物和核溶解性切割片段)、特定基因的蛋白质或其片段(包括例如翻译后修饰的蛋白质或从中的副产物，和蛋白水解片段)，以及其存在或不存在对应于特定基因的表达的其他生物分子例如糖类、脂类或小分子。

基因表达水平是从基因产生的生物大分子的量。例如，特定基因的表达水平可以是指从该特定基因产生的蛋白质的量，或者可以是指从该特定基因产生的mRNA的量。基因表达水平可以是指绝对水平(例如摩尔或克数量)或相对水平(例如相对于标准品、参比物、校准物或另一个基因表达水平的量)。典型地，本文中使用的基因表达水平是相对表达水平。当在本文中用于确定细胞含量与表达水平之间的关系时，基因表达水平可以根据本技术领域中已知的描述基因表达的任何方式来考察。例如，考察基因表达水平的回归方法可以考察基因表达分析物水平的测量值或根据基因表达分析物水平的测量值计算或估算的水平。

标志基因是差异表达的基因，其表达图式可用作表型指示方法例如预测方法、预后或诊断方法或其他细胞类型鉴别评估的一部分，或者，其还可用于鉴定对疾病或病症的治疗或预防有用的化合物的方法、或鉴定调节一种或多种基因产物的活性的化合物的方法中。

由本文提供的方法所指示的表型可以是诊断指示、预后指示或对象中存在特定细胞类型的指示。诊断指示包括对象中疾病或病症的指示，例如肿瘤或瘤性疾病、炎性疾病、自体免疫疾病以及本技术领域中已知可以根据特定细胞的存在或不存在或通过细胞的基因表达鉴定的任何其他疾病。在另一个实施方案中，预后指示是指疾病或病症的可能或预期的结果，包括但不限于对象存活的可能性、疾病或病症复发、侵袭性的可能性、疾病或病症惰性的可能性以及特定治疗方案成功的可能性。

词组“对应于基因表达分析物水平的基因表达水平”是指指示基因表达的分析物与基因的实际表达水平之间的关系。典型地，在用于测定基因表达水平的实验方法中测量基因表达分析物的水平。正如本技术领域的专业人员所理解的，测量到的基因表达水平可以在多种具体水平上表示基因表达(例如基因表达的绝对量、基因表达的相对量、或指示表达水平增加或降低)。基因表达分析物的水平能够指示基因表达水平的具体水平，可以取决于各种因素，其包括使用的对照的数量、校准实验的数量或测定到的参比水平，以及本技术领域已知的其他因素。在本文提供的一些方法中，基因表达分析物水平的增加可以指示基因表达水平的增加，并且基因表达分析物水平的降低可以指示基因表达水平的降低。

细胞类型的相对含量与测量到的基因表达分析物总体水平之间的回归关系，是按照本文提供的方法，根据两种或更多种样品中存在的细胞类型的量和实验测量的基因表达分析物水平而确定的细胞类型与基因表达分析物水平之间的定量关系。在一个实施方案中，通过确定每种基因表达分析物的总体水平对测得的细胞比例的回归来确定回归关系。在一个实施方案中，回归关系通过线性回归来确定，其中将总体表达水平或表达分析物水平对于每种细胞类型轮流或一次全部地作为与细胞百分数成正比(例如呈线性)来处理，并且可以将这些线性关系的斜率表示成β值。

当在本文中使用时，异质样品是指含有一种以上细胞类型的样品。例如，异质样品可以含有基质细胞和肿瘤细胞。典型地，当在本文中使用时，样品中存在的不同细胞类型，以超过约0.1％、0.2％、0.3％、0.5％、0.7％、1％、2％、3％、4％或5％、或超过0.1％、0.2％、0.3％、0.5％、0.7％、1％、2％、3％、4％或5％的量存在。正如在本技术领域中所理解的，细胞样品，例如来自对象的组织样品，可以含有少量的各种细胞类型(例如神经、血液、血管细胞)。然而，当在本文中使用时，在样品中存在的量不超过约0.1％、0.2％、0.3％、0.5％、0.7％、1％、2％、3％、4％或5％、或不超过0.1％、0.2％、0.3％、0.5％、0.7％、1％、2％、3％、4％或5％的细胞类型，典型地不被当作异质细胞样品的组分。

相关细胞样品可以是含有一种或多种共同细胞类型的样品。相关细胞样品可以是来自相同组织类型或来自相同器官的样品。相关细胞样品可以来自于相同或不同来源(例如相同或不同个体或细胞培养物或其组合)。正如在本文中提供的，在三种以上不同细胞样品的情况下，不需要所有样品都含有共同的细胞类型，但是如果第一种样品不含其他样品中存在的任何细胞类型，则第一种样品与其他样品不相关。

肿瘤细胞是具有本技术领域的专业病理学家已知的、足以用来诊断各种类型癌症的细胞学和黏附性质的细胞，所述细胞学和黏附性质由细胞-细胞缔合的核和细胞质特点和模式组成。在某些实施方案中，肿瘤细胞具有异常的生长性质，例如瘤性生长性质。

“与肿瘤相关的细胞”是指尽管不一定是恶性的，但存在于肿瘤性组织或器官或组织或器官的特定位置中，并且在正常组织或器官或组织或器官的特定位置中不存在或存在水平不显著的细胞。

良性前列腺增生(BPH)细胞是增生前列腺的上皮衬里细胞。扩张性囊状腺体细胞是扩张性(萎缩性)囊状前列腺的上皮衬里细胞。

基质细胞包括形成器官基质的结缔组织细胞和平滑肌细胞。示例性的基质细胞是前列腺基质的细胞。

参比值是指用于一个或多个变量的值或一组相关值。在一个实例中，参比基因表达水平是指特定细胞类型中的基因表达水平。参比表达水平可以按照本文提供的方法或通过测定均质样品中细胞类型的基因表达水平来确定。正如本技术领域中所知的，参比水平可以是绝对或相对量。在某些实施方案中，参比表达水平可以指示特定细胞类型的存在。例如，在某些实施方案中，只有一种特定细胞类型可能具有特定基因的高表达水平，因此观察到具有高测量的表达水平的细胞类型可以与该特定细胞类型的表达水平相匹配，并因此表明样品中存在该特定细胞类型。在另一个实施方案中，参比表达水平可以指示特定细胞类型的不存在。正如本文中所提供的，可以考察两个或多个参比值以确定样品中是否存在特定细胞类型，或者也可以考察它们以确定样品中存在的特定细胞类型的相对量。

改良t统计数值是特定基因产物或其指示物表明样品中存在或不存在特定细胞类型的能力的数值表示。整合了拟合优度和效应值的改良t统计数值可以按照已知方法用下列公式表示(参见例如Tusher(2001)Proc.Natl.Acad.Sci.USA 98：5116-5121)，其中σ_B是系数的标准误差，k是小常数：

t＝β/(k+σ_β)

细胞类型的相对含量或细胞比例是特定细胞类型所占细胞混合物的量。典型地，异质细胞混合物包含两种或更多种细胞类型，因此没有一种细胞类型占混合物的100％。相对含量可以表示成本技术领域中已知的各种形式；例如，相对含量可以表示成混合物中细胞总量的百分率，或可以表示成相对于特定细胞类型的量。当在本文中使用时，细胞百分率或细胞组成百分率是在异质细胞混合物例如对组织取样的显微切片中特定细胞类型占所有细胞的百分率。

阵列或矩阵是装置上可寻址位置或地址的排列。位置可以排列成二维阵列、三维阵列或其他矩阵格式。位置的数量可以在几个到至少数十万个的范围内。最重要的是，每个位置代表完全独立的反应位点。阵列包括但不限于核酸阵列、蛋白质阵列和抗体阵列。核酸阵列是指含有核酸探针例如寡核苷酸、多核苷酸或基因的较大部分的阵列。阵列上的核酸可以是单链的。其中探针是寡核苷酸的阵列被称为寡核苷酸阵列或寡核苷酸芯片。微阵列，在本文中也称为生物芯片，其阵列区域所具有的离散区域密度为至少约100/cm²，并可以为至少约1000/cm²。微阵列中的区域的典型尺寸例如直径在约10-250μm之间的范围内，并且与阵列中的其他区域相隔大约同样的距离。蛋白质阵列是指含有可以采取天然形式或变性形式的多肽探针或蛋白质探针的阵列。抗体阵列是指含有抗体的阵列，所述抗体包括但不限于单克隆抗体(例如来自小鼠)、嵌合抗体、人源化抗体或噬菌体抗体和单链抗体以及来自抗体的片段。

激动剂是模拟或上调(例如增强或补充)蛋白的生物活性的剂。激动剂可以是野生型蛋白或其具有野生型蛋白的至少一种生物活性的衍生物。激动剂也可以是上调基因表达或增加蛋白的至少一种生物活性的化合物。激动剂也可以是增加多肽与另一种分子例如靶肽或核酸的相互作用的化合物。

术语“多核苷酸”和“核酸分子”是指任何长度的核苷酸，可以是核糖核苷酸或脱氧核糖核苷酸。该术语仅仅指分子的一级结构。因此，该术语包括双链和单链DNA和RNA。它还包括已知类型的修饰，例如本技术领域已知的标记物、甲基化、帽、将一个或多个天然存在的核苷酸用类似物取代、核苷间修饰例如具有不带电荷连键(例如硫代磷酸酯和二硫代磷酸酯)的修饰、含有悬垂部分例如蛋白质(包括例如核酸酶、毒素、抗体、信号肽和聚L-赖氨酸)的修饰、具有嵌入剂(例如吖啶和补骨脂素)的修饰、含有螯合剂(例如金属和放射活性金属)的修饰、含有烷化剂的修饰、带有修饰连键(例如α异头核酸)的修饰和含有核苷酸类似物的修饰(例如肽核酸)，以及未修饰形式的多核苷酸。

源自于指定序列的多核苷酸典型为包含对应于指定核苷酸序列区域的至少约6个核苷酸、至少约8个核苷酸、至少约10-12个核苷酸或至少约15-20个核苷酸的序列的多核苷酸序列。相应的多核苷酸与指定序列同源或互补。典型地，多核苷酸所源自的区域的序列与本文提供的基因所独有的序列同源或互补。

重组多肽是使用重组技术、即通过重组核酸的表达所制造的多肽。重组多肽与天然存在的多肽可以通过至少一种或多种特征来区分。例如，可以将多肽从正常在其野生型宿主中与其相伴的一些或所有蛋白质和化合物中分离或纯化出来，因此多肽可以是基本上纯的。例如，分离的多肽不伴有在其天然状态下正常与其相伴的至少一些材料，其占给定样品中总蛋白的至少约0.5重量％或至少约5重量％。基本上纯的多肽占总蛋白的至少约50-75重量％、至少约80重量％或至少约90重量％。该定义包括在不同生物体或宿主细胞中生产来自一种生物体的多肽。或者，通过使用诱导型启动子或高表达启动子使制造的蛋白浓度水平增高，可以制造比正常所观察到的浓度明显更高的多肽。或者，多肽可以是正常不见于自然界中的形式，例如添加表位标签或具有氨基酸取代、插入或缺失，正如下面所讨论的。

术语“疾病”或“病症”是指由例如感染或遗传缺陷而在生物体中引起的病理状况，其特征为可鉴定的症状。

特定核酸或氨基酸序列与特定序列标识号所指称的序列之间的“百分序列同一性”定义如下。首先，使用来自BLASTZ单机版的包含BLASTN 2.0.14版和BLASTP 2.0.14版的BLAST 2Sequence(Bl2seq)程序，将核酸或氨基酸序列与特定序列标识号中显示的序列进行比较。该单机版BLASTZ可以从Fish & Richardson的网站(万维网上的fr.com/blast网站)或美国政府的国家生物技术信息中心(National Centerfor Biotechnology Information)网站(万维网上的ncbi.nlm.nih.gov)获得。解释如何使用Bl2seq程序的说明书，可见于伴随BLASTZ的自述文件。Bl2seq使用BLASTN或BLASTP算法执行两个序列之间的比较。BLASTN用于比较核酸序列，而BLASTP用于比较氨基酸序列。为了比较两个核酸序列，如下设置选项：-i被设定为含有第一个待比较核酸序列的文件(例如C:\seq1.txt)；-j被设定为含有第二个待比较核酸序列的文件(例如C:\seq2.txt)；-p被设定为blastn；-o被设定为任何所需的文件名(例如C:\output.txt)；-q被设定为-1；-r被设定为2；并且所有其他选项保留为其缺省设置。例如，可以使用下列命令产生含有两个序列之间的比较的输出文件：C:\Bl2seq-i c:\seq1.txt-j c:\seq2.txt-pblastn-o c:\output.txt-q-1-r 2。为了比较两个氨基酸序列，可以如下设置Bl2seq的选项：-i被设定为含有第一个待比较氨基酸序列的文件(例如C:\seq1.txt)；-j被设定为含有第二个待比较氨基酸序列的文献(例如C:\seq2.txt)；-p被设定为blastp；-o被设定为任何所需的文件名(例如C:\output.txt)；并且所有其他选项保留为其缺省设置。例如，可以使用下列命令产生含有两个氨基酸序列之间的比较的输出文件：C:\Bl2seq-i c:\seq1.txt-j c:\seq2.txt-p blastp-o c:\output.txt。如果两个比较序列享有同源性，那么指定的输出文件将哪些同源的区域提呈为比对序列。如果两个比较序列不享有同源性，那么指定输出文件将不提呈比对序列。

一旦比对后，通过对在两个序列中提呈的同一的核苷酸或氨基酸残基的位置数进行计数，确定匹配的数量。百分序列同一性通过用匹配数除以被鉴定序列中显示的序列长度或除以分节长度(例如来自被鉴定序列中显示的序列的100个连续的核苷酸或氨基酸残基)，然后将得到的值乘以100来确定。例如，当与1200bp序列比对时具有1166个匹配的核酸序列，与1200bp序列的百分同一性为97.1(即1166÷1200*100＝97.1)。应该指出，百分序列同一性值被四舍五入到最接近的十分位数。例如，75.11、75.12、75.13和75.14被舍至75.1，而75.15、75.16、75.17、75.18和75.19被入至75.2。还应该指出，长度值总是整数。在另一个实例中，含有20个核苷酸的区域的靶序列与来自如下的被鉴定序列的20个连续核苷酸比对，含有与所述被鉴定序列共有75百分序列同一性的区域(即15÷20*100＝75)。

具有至少90％同一性的多肽相对于参比多肽具有从90至100的百分同一性。水平为90％以上的同一性可以表明下述事实，即对于长度为100个氨基酸的多核苷酸来说，测试多肽中不超过10％(即100个中的10个)的氨基酸与参比多肽的不同。类似的比较可以在测试和参比多核苷酸之间做出。这样的差别可以代表在氨基酸序列的整个长度上随机分布的点突变，或者它们可以在一个或多个不同长度的位置中成簇直到最大容许值，例如10/100个氨基酸差异(约90％同一性)。差异被定义为核酸或氨基酸取代或缺失。在高于约85-90％的同源性或同一性水平下，结果将不依赖于程序和间隙参数设置；这样的高同一性水平经常可以不依赖软件容易地评估。

引物是指含有两个或多个脱氧核糖核苷酸或核糖核苷酸、典型三个以上的寡核苷酸，从其可以启动引物延伸产物的合成。引发合成的实验条件包括存在核苷三磷酸以及用于聚合和延伸的试剂，例如DNA聚合酶和适合的缓冲液、温度和pH。

动物可以包括任何动物，例如但不限于山羊、奶牛、鹿、绵羊、啮齿动物、猪和人类。非人类动物将人类排除在所考虑的动物之外。本文中提供的SP来自于任何来源，动物、植物、原核生物和真菌。

遗传治疗可以包括将异源核酸例如DNA转移到患有这些疗法所针对的病症或病情的哺乳动物、特别是人类的某些细胞、靶细胞中。核酸例如DNA被导入到所选靶细胞中的方式要使得异源核酸例如DNA得到表达并产生由其编码的治疗性产物。或者，异源核酸例如DNA可以通过某种方式介导编码治疗性产物的DNA的表达，或者它能编码以某种方式直接或间接介导治疗性产物表达的产物，例如肽或RNA。遗传治疗也可用于递送编码基因产物的核酸，其代替所导入的哺乳动物或细胞中的缺陷基因或补充由所述哺乳动物或细胞产生的基因产物。被导入的核酸可以编码治疗性化合物，例如其生长因子抑制剂，或肿瘤坏死因子或其抑制剂，例如针对其受体，这些在哺乳动物宿主中正常不生产或不能以治疗有效量或在治疗有用时间生产。编码治疗性产物的异源核酸例如DNA，在导入到患病宿主的细胞中之前可以被修饰，以便增加或以其它方式改变产物或其表达。遗传治疗也可以包括递送基因表达的抑制剂或阻遏剂或其他调节剂。

异源核酸是这样的核酸，其编码的DNA或RNA和蛋白正常不由表达所述核酸的细胞在体内生产，或者其介导或编码介导物，通过影响转录、翻译或其他可调控的生物化学过程改变内源核酸例如DNA的表达。异源核酸例如DNA也可以被称为外来核酸例如DNA。在本文中，异源核酸涵盖了本技术领域的专业人员认识或认为对于表达它的细胞来说是异源的或外来的任何核酸例如DNA；异源核酸包括外源添加但也内源表达的核酸。异源核酸的实例包括但不限于编码可示踪标志蛋白例如赋予药物抗性的蛋白的核酸，编码治疗有效物质例如抗癌药剂、酶和激素的核酸，以及编码其他类型蛋白例如抗体的核酸例如DNA。由异源核酸编码的抗体可以分泌或表达在已导入异源核酸的细胞的表面上。异源核酸对于其所导入的细胞来说通常不是内源的，而是从另一种细胞获得的或合成制备的。一般来说，尽管不是必然，这样的核酸所编码的RNA和蛋白在正常情况下不由现在表达它的细胞生产。

用于基因治疗的治疗有效产物可以是由异源核酸、典型为DNA所编码的产物，在将核酸导入宿主后，表达的产物能够改善或消除先天性或获得性疾病的症状、表象或治愈疾病。还包括生物活性核酸分子，例如RNAi和反义分子。

疾病或病症治疗或化合物可以包括任何治疗方式和/或药剂，当其单独或与其他治疗或化合物组合使用时，能够减轻、降低、改善、阻止与疾病或病症相关的临床症状或诊断标志物或将其置于或维持在缓解的状态中。

核酸包括DNA、RNA及其类似物包括肽核酸(PNA)和它们的混合物。核酸可以是单链或双链的。当提到任选用可检测标记物例如荧光或放射性标记物标记的探针或引物时，所考虑的是单链分子。这样的分子的长度典型使它们的靶在统计上对于文库的探测或引发而言是独一无二的或低拷贝数的(典型少于5个，一般少于3个)。一般来说，探针或引物含有至少14、16或30个与目标基因互补或同一的连续序列。探针和引物的长度可以是10、20、30、50、100个以上的核酸。

异源核酸与调控或效应核苷酸序列例如启动子、增强子、转录和翻译终止位点以及其他信号序列的可操作连接，是指这样的核酸例如DNA与这样的核苷酸序列之间的关系。因此，可操作连接或操作性关联是指核酸例如DNA与调控和效应核苷酸序列例如启动子、增强子、转录和翻译终止位点以及其他信号序列的功能关系。例如，DNA与启动子可操作连接是指DNA与启动子之间的物理和功能关系使得这种DNA的转录被特异性识别、结合并转录所述DNA的RNA聚合酶从该启动子开始引发。为了优化表达和/或体外转录，可能需要移除、添加或改变克隆的5’非翻译部分，以消除多余的、可能不适合的其它翻译启动(即起始)密码子或能够在转录或翻译水平上干扰或降低表达的其他序列。或者，可以将共有核糖体结合位点(参见例如Kozak(1991)J.Biol.Chem.266：19867-19870)紧挨起始密码子的5’端插入，其能够增强表达。这种修饰的需要性(或需求)，可以凭经验确定。

与RNA的至少一部分互补的序列被称为反义寡核苷酸，是指具有足够的互补性、一般在中度或高度严紧条件下能够与RNA杂交形成稳定双链体的序列；因此在双链反义核酸的情况下，可以测试双链体DNA(或dsRNA)的单链，或者可以分析三链体形成。杂交的能力取决于互补性程度和反义核酸的长度。一般来说，杂交的核酸越长，它可以在包含越多的与编码RNA的基因的碱基错配下仍能形成稳定双链体(或三链体，视情况而定)。通过使用确定杂交复合物的解链点的标准程序，本技术领域的专业人员可以确定错配的可容忍程度。

反义多核苷酸是与mRNA或双链DNA的有义链互补的合成的核苷酸碱基序列。有义与反义多核苷酸的混合物在适合条件下导致这两种分子的结合或杂交。当这些多核苷酸与mRNA结合(杂交)时，发生蛋白质合成(翻译)的抑制。当这些多核苷酸与双链DNA结合时，发生RNA合成(转录)的抑制。所产生的翻译和/或转录的抑制导致由有义链编码的蛋白质合成的抑制。反义核酸分子典型地含有足够数量的与靶核酸特异性结合的核苷酸，通常为与编码目标基因的核酸分子的编码部分互补的至少5个连续的核苷酸，经常为至少14或16或30个连续的核苷酸或修饰的核苷酸。

抗体是免疫球蛋白，不论是天然的还是部分或完全合成生产的，包括其保留了抗体的特异性结合能力的任何衍生物。因此，抗体包括具有与免疫球蛋白结合结构域同源或基本上同源的结合结构域的任何蛋白。抗体包括任何免疫球蛋白组的成员，所述组包括但不限于IgG、IgM、IgA、IgD、IgY和IgE。

抗体片段是抗体小于全长的、保留了全长抗体的至少一部分特异性结合能力的任何衍生物。抗体片段的实例包括但不限于Fab、Fab’、F(ab)2、单链Fvs(scFV)、FV、dsFV双抗体和Fd片段。片段可以包括通过例如二硫桥连接在一起的多个链。抗体片段一般含有至少约50个氨基酸，典型含有至少200个氨基酸。

Fv抗体片段由通过非共价相互作用相连的一个可变重链结构域(VH)和一个可变轻链结构域构成。dsFV是带有使VH-VL对稳定的工程化分子间二硫键的Fv。F(ab)2片段是用胃蛋白酶在pH 4.0-4.5下消化免疫球蛋白而得到的抗体片段；它可以被重组表达以产生等价片段。

Fab片段是用木瓜蛋白酶消化免疫球蛋白而得到的抗体片段；它们可以被重组表达以产生等价片段。

scFV是指含有由多肽接头以任何次序共价相连的可变轻链结构域(VL)和可变重链结构域(VH)的抗体片段。接头的长度要使得两个可变结构域被桥接而基本上没有干扰。所包括的接头是(Gly-Ser)n残基，其中散布一些Glu或Lys残基以增加溶解性。

人源化抗体是修饰以包含人类氨基酸序列的抗体，使得给药于人类时不唤起免疫应答。这种抗体的制备方法是已知的。例如，为了产生这样的抗体，将表达单克隆抗体的杂交瘤或其他原核或真核细胞例如大肠杆菌(E.coli)或CHO细胞中的编码核酸通过重组核酸技术进行改变，以表达非可变区的氨基酸组成是基于人类抗体的抗体。已经设计了计算机程序用于鉴定这种非可变区。

双抗体是二聚的scFV；双抗体典型具有比scFv更短的肽接头，并且它们一般二聚化。

词组“使用重组DNA方法通过重组手段生产”是指使用公知的分子生物学方法来表达由克隆DNA编码的蛋白。

用于治疗特定疾病的化合物的“有效量”，是足以改善或以某种方式减轻与疾病相关的症状的量。这样的量可以作为单剂给药，或者可以按照使其有效的给药方案给药。该量可治愈疾病，但是给药典型是为了改善疾病症状。为了获得所需的症状改善，可能需要重复给药。

调节基因产物活性的化合物降低或增加或以其它方式改变蛋白的活性，或以某种方式上调或下调或以其它方式改变核酸在细胞中的表达。

可药用盐、酯或其他缀合衍生物，包括可以由本技术领域的专业人员使用这类衍生的已知方法容易地制备的任何盐、酯或衍生物，并且产生的化合物可以被给药于动物或人类而没有显著毒性效应，并且具有药物活性或是药物前体。

通过本文提供的筛选方法鉴定的药物或化合物，是指用作治疗剂或用作设计治疗剂的先导化合物的候选物的任何化合物。这样的化合物可以是小分子包括小有机分子、肽类、肽模拟物、反义分子或dsRNA例如RNAi、抗体、抗体片段、重组抗体和能够用作药物候选物或先导化合物的其他这类化合物。

与对象中的恶性细胞相邻的非恶性细胞是具有正常形态的细胞(例如其不被病理学家、细胞分拣器或其他细胞分类方法分类为瘤性或恶性)，但是当细胞原样存在于对象中时，该细胞与单个或多个恶性细胞相邻。正如本文中所提供的，与单个或多个恶性细胞相邻的特定类型(例如基质)的细胞，能够表现出与相同类型的不与单个或多个恶性细胞相邻的细胞不同的表达图式。按照本文提供的方法，与恶性细胞相邻的细胞，可以根据差异基因表达与相同类型的与非恶性细胞相邻的细胞区分开。当在本文中用于细胞的位置时，相邻是指第一个细胞与第二个细胞足够接近，使得第一个细胞影响第二个细胞的基因表达。例如，相邻细胞可以包括彼此直接接触的细胞，相邻细胞可以包括彼此在500微米、300微米、200微米、100微米或50微米以内的细胞。

肿瘤是恶性细胞的集合体。恶性在用于细胞时是指细胞以不受控制的方式生长。在某些实施方案中，恶性细胞可以是未分化的。在某些实施方案中，恶性细胞可以是能够转移的。

可用于确定错配百分率的杂交严紧性如下：

1)高严紧性：0.1x SSPE，0.1％SDS，65℃。

2)中严紧性：0.2x SSPE，0.1％SDS，50℃。

3)低严紧性：1.0x SSPE，0.1％SDS，50℃。

载体(或质粒)是指可用于将异源核酸导入细胞以对其进行表达或复制的分立元件。载体典型保持游离体，但是可以被设计成执行基因或其部分在基因组染色体中的整合。此外，还设想了载体是人工染色体，例如酵母人工染色体和哺乳动物人工染色体。这些载体的选择和使用对于本技术领域的专业人员来说是公知的。表达载体包括能够表达DNA的载体，所述DNA与能够影响这种DNA片段表达的调控序列例如启动子区可操作连接。因此，表达载体是指在导入适合的宿主细胞后引起克隆DNA表达的重组DNA或RNA构建物，例如质粒、噬菌体、重组病毒和其他载体。适合的表达载体对于本技术领域的专业人员来说是公知的，并包括可以在真核细胞和/或原核细胞中复制的载体，以及保持为游离体或整合到宿主细胞基因组中的载体。

疾病预后是指预报疾病的可能后果或由疾病产生的可能后果。疾病预后的非限制性实例包括疾病复发的可能性、疾病侵袭的可能性、疾病惰性的可能性、对象存活的可能性、成功治疗疾病的可能性、特定治疗方案可能比另一种治疗方案更加有效的状况，以及它们的组合。

肿瘤或恶性细胞的侵袭性，是一个或多个细胞到达身体中远离起源组织或器官的位置、附着于身体的另一部分并增殖的能力。在实验上，侵袭性可以通过一种或多种方式进行描述，包括但不限于对象的诊断后存活、肿瘤的复发和肿瘤的转移。因此，在本文提供的公开内容中，指示了存活、复发、无复发的时间长度、转移或无转移的时间长度的数据，表明了肿瘤或恶性细胞的侵袭性。当考虑存活时，本技术领域的专业人员将会认识到，侵袭性与对象的存活时间长度反相关。当考虑转移的时间长度时，本技术领域的专业人员将会认识到，侵袭性与对象的存活时间长度正相关。当在本文中使用时，惰性是指肿瘤或恶性细胞无侵袭性；因此，肿瘤或细胞的侵袭性越强，惰性越低，反之亦然。作为细胞到达身体中远离起源组织或器官的位置的实例，恶性前列腺细胞能够到达前列腺外的位置，因此具有侵袭性恶性细胞的一个特征。细胞可以附着到例如对象的淋巴结或骨髓、或本技术领域已知的其他部位上。

组合物是指任何混合物。它可以是溶液、悬液、液体、粉末、糊剂、水性、非水性或其任何组合。

流体是能够流动的组合物。因此流体包含半固体、糊剂、溶液、水性混合物、凝胶、洗剂、霜剂形式的组合物和其他这类组合物。

细胞类型相关的基因表达图式

原代组织由许多(两种或更多种)类型的细胞构成。在其他方法中，鉴定组织内存在的特定细胞类型中表达的基因，可能需要对该细胞类型进行物理分离，并对细胞类型进行后续分析。尽管通过诸如激光捕获显微切割、离心、FACS等方法能够按照类型来物理分离细胞，但这是耗时和高成本的，并且在某些实施方案中执行起来不现实。原代组织或含有多种细胞类型的其他样本的已知表达谱分析法(RNA或蛋白质)或是(1)没有将存在多种细胞类型考虑在内，或是(2)在进行分析之前对组分细胞类型进行物理分离。其他执行的分析没有考虑多种细胞类型的存在，由此鉴定了表明样品中存在的各种细胞类型的相对比例变化的标志物，但是不能代表特定细胞类型。以前的分析方法不能分辨不同细胞类型之间的相互作用。

本文提供的方法、组合物和试剂盒是基于模型的产生，其中可以将被分析的每种基因产物的水平与特定细胞类型相关联。这种用于确定细胞类型特异性基因表达的方法免除了需要从组织或具有异质细胞含量的其他样本物理分离细胞。此外，这种方法允许确定在这样的异质混合物中包含的不同细胞类型之间的相互作用，原本如果不首先将细胞物理分离然后进行分析，这将是困难的或不可能的。使用本文提供的方法，能够鉴定到与各种疾病和病症相关的许多生物标志物。在本文中示例了前列腺癌和良性前列腺增生的生物标志物的鉴定。这些生物标志物可用于诊断、预后和治疗决定中。

本文提供的方法、组合物、组合和试剂盒使用基于回归的方法来鉴定含有一种以上细胞类型的样品中细胞类型特异性的基因表达图式。在一个实例中，本文提供的方法、组合物、组合和试剂盒使用基于回归的方法来鉴定癌症中细胞类型特异性的基因表达图式。本文提供的这些方法、组合物、组合和试剂盒可用于鉴定在恶性与非恶性细胞中相比差异表达的基因，并进一步鉴定与恶性细胞相伴的非恶性细胞的基因表达相对于不与恶性细胞相伴的非恶性细胞的肿瘤依赖性变化。本文提供的方法、组合物、组合和试剂盒还可用于将表型与一种或多种细胞类型中的基因表达相关联。例如，这样的方法可以包括确定两种或更多种相关的异质细胞样品中每种细胞类型的相对含量，其中至少两种样品包含的每种细胞的相对含量不相同，测量每种样品中一种或多种基因表达分析物的总体水平，确定每种细胞类型的相对含量与测量到的总体水平之间的回归关系，以及根据回归关系计算每种细胞类型中所述一种或多种分析物每一种的水平，其中基因表达水平对应于计算的分析物水平。在另一个实例中，这样的方法可以包括确定两种或更多种相关的异质细胞样品中每种细胞类型的相对含量，其中至少两种样品包含的每种细胞的相对含量不相同，测量每种样品中两种或更多种基因表达分析物的总体水平，确定每种细胞类型的相对含量与测量到的总体水平之间的回归关系，以及根据回归关系计算每种细胞类型中所述两种或更多种分析物每一种的水平，其中基因表达水平对应于计算的分析物水平。这样的方法还可以包括鉴定在至少一种细胞类型中相对于至少一种其他细胞类型中差异表达的基因。在这样的方法中，分析物可以是核酸分子和蛋白。

本文提供的方法可用于测定任何异质细胞群体中的细胞类型特异性基因表达。本文提供的方法可以应用于已知含有各种各样细胞类型的样品，例如脑组织样品和肌肉组织样品。本文提供的方法还可应用于这样的样品，其中细胞类型的分离可能代表了繁琐耗时的操作，而所述操作在本文提供的方法下不再需要。本方法中使用的样品可以是各种各样的样品中的任一种，包括但不限于血液、来自血液的细胞(包括但不限于非血细胞例如血液中的上皮细胞)、血浆、血清、脊髓液、淋巴液、皮肤、痰液、消化和生殖泌尿样品(包括但不限于尿液、精子、精液、前列腺吸出物、前列腺液和来自精囊的流体)、唾液、乳汁、组织样本(包括但不限于前列腺组织样本)、肿瘤、器官以及体外细胞培养成分的样品。

在某些实施方案中，本文提供的方法可用于区分癌症的肿瘤细胞、增生性细胞和基质细胞的真正标志物。正如在本文中示例的，利用各细胞类型比例的最小平方回归，可用于为众多基因的细胞特异性表达产生明确的预测。在本文提供的应用于前列腺癌的实例中，在前列腺基因表达和生物学的现有知识的基础上，接受了许多这些预测，这为方法提供了置信度。这些的例证是据预测被基质细胞优先表达的许多基因是结缔组织特征的，并且在上皮组织中表达低或不存在。

在某些实施方案中，本文提供的方法允许将分子肿瘤和非肿瘤标志物分成更离散和信息更丰富的组。因此，被鉴定为肿瘤相关性的基因可以进一步分类成肿瘤对基质(上皮对间质)和肿瘤对增生(可能反映出恶性细胞与其增生对应物之间的真正差别)。本文提供的方法可用于辨别各种各样癌症中的肿瘤和非肿瘤标志物，所述癌症包括但不限于根据部位分类的癌症，例如例如口腔和咽(唇，舌，唾液腺，口底，牙床和口腔其他部分，鼻咽，扁桃体，口咽，下咽部，口腔/咽的其他部位)的癌症；消化系统(食道，胃，小肠，结肠和直肠，肛门、肛管和肛门直肠部，肝，肝内胆管，胆囊，胆的其他部位，胰腺，腹膜后腔，腹膜，网膜和肠系膜，消化系统其他部位)的癌症；呼吸系统(鼻腔、中耳和鼻窦，喉，肺和支气管，胸膜，气管、纵隔和呼吸系统其他部位)的癌症；间皮细胞瘤、骨骼和关节以及软组织包括心脏的癌症；皮肤癌包括黑素瘤和其他非上皮皮肤癌；卡波斯(Kaposi’s)肉瘤和乳腺癌；女性生殖系统(子宫颈，子宫体，子宫、nos，卵巢，阴道，外阴和女性生殖系统的其他部位)的癌症；男性生殖系统(前列腺，睾丸，阴茎和男性生殖系统的其他部位)的癌症；泌尿系统(膀胱，肾脏和肾盂，输尿管和泌尿系统的其他部位)的癌症；眼和眼眶的癌症；脑和神经系统(脑和神经系统其他部位)的癌症；内分泌系统(甲状腺和内分泌系统其他部位，包括胸腺)的癌症；淋巴瘤(霍奇金氏(hodgkin’s)病和非霍奇金氏淋巴瘤)、多发性骨髓瘤和白血病(淋巴细胞白血病，髓性白血病，单核细胞白血病以及其他白血病)；以及按照组织学类型分类的癌症，例如恶性瘤；癌，NOS；未分化癌，NOS；巨细胞和纺锤形细胞癌；小细胞癌，NOS；乳头状癌，NOS；鳞状细胞癌，NOS；淋巴上皮癌；基底细胞癌，NOS；毛母质癌；移行细胞癌，NOS；乳头状移行细胞癌；腺癌，NOS；恶性胃泌素瘤；胆管腺瘤；肝细胞癌，NOS；复合肝细胞癌胆管腺瘤；小梁状腺癌；腺样囊性癌；腺瘤性息肉中的腺癌；家族多发性结肠息肉腺癌；实体癌，NOS；恶性类癌肿瘤；细支气管肺泡腺癌；乳头状腺癌，NOS；癌；嗜酸细胞癌；嗜酸性细胞腺癌；嗜碱性细胞癌；透明细胞腺癌，NOS；颗粒细胞癌；滤泡状腺癌，NOS；乳头状和滤泡状腺癌；无包膜形成的硬化性癌；肾上腺皮质癌；子宫内膜样癌；皮肤附件癌；大汗腺腺癌；皮脂腺腺癌；盯聍腺腺癌；黏液表皮样癌；囊腺癌，NOS；乳头状囊腺癌，NOS；乳头状浆液性囊腺癌；黏液囊腺癌，NOS；黏液腺癌；印戒细胞癌；浸润性导管癌；髓样癌，NOS；小叶癌；炎性癌；乳房佩吉氏(Paget’s)病；腺泡细胞癌；腺鳞癌；腺癌伴鳞状上皮化生；恶性胸腺瘤；恶性卵巢基质肿瘤；恶性泡膜细胞瘤；恶性颗粒细胞肿瘤；恶性睾丸足细胞瘤；塞尔托利(Sertoli)细胞癌；恶性莱狄氏(Leydig)细胞肿瘤；恶性脂质细胞瘤；恶性副神经节瘤；恶性额外乳房副神经节瘤；嗜铬细胞瘤；血管球肉瘤；恶性黑素瘤，NOS；无色素性黑色素瘤；浅表扩散性黑素瘤；巨大色素痣内恶性黑素瘤；上皮样细胞黑素瘤；恶性蓝痣；肉瘤，NOS；纤维肉瘤，NOS；恶性纤维组织细胞瘤；粘液肉瘤；脂肉瘤，NOS；平滑肌肉瘤，NOS；横纹肌肉瘤，NOS；胚胎性横纹肌肉瘤；腺泡状横纹肌肉瘤；基质肉瘤，NOS；恶性混合肿瘤，NOS；苗勒管(Mullerian)混合肿瘤；肾母细胞瘤；肝母细胞瘤；癌肉瘤，NOS；恶性间质瘤；恶性布伦纳氏(Brenner)肿瘤；恶性叶状瘤；滑膜肉瘤，NOS；恶性间皮瘤；无性细胞瘤；胚胎癌，NOS；恶性畸胎瘤，NOS；恶性甲状腺肿样卵巢瘤；绒毛膜癌；恶性中肾瘤；血管肉瘤；恶性血管内皮瘤；卡波斯肉瘤；恶性血管外皮细胞瘤；淋巴管肉瘤；骨肉瘤，NOS；皮质旁骨肉瘤；软骨肉瘤，NOS；恶性成软骨细胞瘤；间质软骨肉瘤；骨的巨细胞肿瘤；尤文氏(Ewing’s)肉瘤；恶性牙原性肿瘤；成釉细胞性牙肉瘤；恶性成釉细胞瘤；成釉细胞性纤维肉瘤；恶性松果体瘤；脊索瘤；恶性神经胶质瘤；室管膜瘤，NOS；星形细胞瘤，NOS；原浆性星形细胞瘤；纤维型星形细胞瘤；星形母细胞瘤；成胶质细胞瘤，NOS；少突神经胶质细胞瘤，NOS；成少突神经胶质细胞瘤；原始神经外胚层肿瘤；小脑肉瘤，NOS；肾上腺成神经节细胞瘤；神经母细胞瘤，NOS；成视网膜细胞瘤，NOS；嗅神经源性肿瘤；恶性脑脊膜瘤；神经纤维肉瘤；恶性神经鞘瘤；恶性颗粒细胞肿瘤；恶性淋巴瘤，NOS；霍奇金氏病，NOS；霍奇金氏病；副肉芽肿，NOS；小淋巴细胞性恶性淋巴瘤；大细胞扩散性恶性淋巴瘤；滤泡性恶性淋巴瘤，NOS；蕈样肉芽肿；其他特定的非霍奇金氏淋巴瘤；恶性组织细胞增多症；多发性骨髓瘤；肥大细胞肉瘤；免疫增生性小肠疾病；白血病，NOS；淋巴细胞性白血病，NOS；浆细胞性白血病；红白血病；淋巴肉瘤细胞性白血病；骨髓性白血病，NOS；嗜碱细胞性白血病；嗜酸细胞性白血病；单核细胞性白血病，NOS；肥大细胞性白血病；成巨核细胞性白血病；髓样肉瘤；以及毛细胞白血病。

在将使用本文提供的方法获得的前列腺组织分析的结果与以前方法的结果进行比较的实例中，在以前基于微阵列的研究中与正常前列腺组织相关的绝大多数标志物，与基质的细胞相关。由于正常细胞可由相对高比例的基质细胞构成，该结果并不令人吃惊。

在前列腺分析的实例中，良性前列腺增生(BPH)细胞与肿瘤细胞之间的最强单一鉴别物是CK15，该结果得到免疫组织化学的证实。CK15以前在这方面受到的关注很少，但是BPH标志物在不明确临床病例的诊断中发挥重要作用。

其表达水平与组织比例的叉积具有高协方差的转录本，提示了在一种细胞类型中的表达取决于另一种组织的比例，正如在旁分泌机制中所预计的。对肿瘤百分率具有最高依赖性的基质转录本是TGF-β2。另一种可实行免疫组织化学的这样的基质细胞基因是结蛋白，其在肿瘤相关基质中显示出染色改变。事实上，许许多多典型的基质细胞基因表现出对肿瘤比例的依赖性，为肿瘤相关基质与非相关基质存在差别这一推测添加了证据。肿瘤-基质旁分泌信号传导可以反映在基因表达改变的肿瘤周晕(peritumor halos)中，其能够提呈比单独的肿瘤细胞大得多的检测靶。

本文提供的方法提供了直接的途径，使用简单和多个线性回归来鉴定在组织中的表达与特定细胞类型(例如在带有肿瘤细胞、BPH上皮细胞或基质细胞的前列腺组织中)特异性相关的基因。也认识到了不易归因于单个细胞类型的环境依赖性(Context-dependent)表达。本文描述的研究方法还可应用于在各种组织和器官中的多种多样的肿瘤标志物的发现研究。本文中提出的示例性前列腺分析结果演示了将众多基因候选物鉴定为参与前列腺癌病理发生的各种细胞的特定产物的能力。

通过(1)确定给定类型的组织或样本(例如前列腺、乳腺、结肠、骨髓等)内每种组成细胞类型(例如上皮、基质、肿瘤或其他可辨别的实体)的比例，以及(2)分析同一个组织或样本的表达谱(例如RNA或蛋白质)这两方面，建立了用于细胞特异性基因表达的模型。在某些实施方案中，基因的细胞类型特异性表达可以通过将该模型拟合于来自许多组织样品的数据来确定。

本文提供的方法可以包括确定异质样品中每种细胞类型的相对含量的步骤。样品中细胞类型的鉴定，可包括鉴定样品中存在量高于约1％、2％、3％、4％或5％、或者高于1％、2％、3％、4％或5％的细胞类型。

在本文中可以使用任何的各种各样用于细胞类型鉴定的已知方法。例如，细胞类型可以由有能力鉴定细胞类型的专业人员例如病理学家或组织学家来确定。在另一个实例中，细胞类型可以通过本技术领域中已知的细胞分拣和/或流式细胞术方法来确定。

本文提供的方法可用于确定在至少一种细胞类型中相对于至少一种其他细胞类型差异表达的核苷酸或蛋白质。这样的基因包括被上调的(即以更高水平表达的)基因以及被下调的(即以更低水平表达的)基因。这样的基因还包括已被改变(即截短的序列，或带有取代、缺失或插入、包括点突变的序列)并显示出相同的表达谱或改变的表达谱的序列。在某些实施方案中，基因可以来自于人类；然而，正如本技术领域的专业人员将会认识到的，来自于其他生物的基因可能也可用于疾病和药物评估的动物模型中；因此，提供了来自脊椎动物、包括哺乳动物包括啮齿动物(例如大鼠、小鼠、仓鼠和豚鼠)、灵长动物和家畜(例如绵羊、山羊、猪、奶牛和马)的其他基因。在某些情况下，原核基因可能是有用的。在任何的各种各样生物体中的基因表达可以通过本文提供或本技术领域中已知的其它方法来测定。

按照本文提供的方法测量的基因产物可以是核酸分子，包括但不限于mRNA或其扩增物或互补物、多肽或其片段。用于检测核酸分子和蛋白质的方法和组合物在本技术领域中是已知的。例如，寡核苷酸探针和引物可用于核酸分子检测，而抗体可用于多肽检测。

在本文提供的方法中，可以检测一个或多个基因产物。在某些实施方案中，检测两个或更多个基因产物。在其他实施方案中，可以在本文提供的方法中检测3个或以上、4个或以上、5个或以上、7个或以上、10个或以上、15个或以上、20个或以上、25个或以上、35个或以上、50个或以上、75个或以上、或100个或以上基因产物。

样品中标志基因的表达水平可以通过本技术领域已知的任何方法或组合物来确定。可以通过分离并测定从每个标志基因转录的核酸的水平(即量)来确定表达水平。替代或附加地，可以测定从标志基因转录的mRNA所翻译的特定蛋白的水平。

确定特定标志基因的表达水平，可以通过测定样品中存在的mRNA、或从其衍生的多核苷酸、或蛋白的量来完成。可以使用用于测定蛋白质或RNA水平的任何方法。例如，将蛋白或RNA从样品中离析，并通过凝胶电泳进行分离。然后将分离的蛋白或RNA转移到固相支持物例如滤膜上。然后通过杂交方法将代表一个或多个标志物的核酸或蛋白质(例如抗体)探针与滤膜杂交，并测定标志物产生的蛋白或RNA的量。这种测定可以是目测或机器辅助的，例如通过使用光密度计。测定蛋白质或RNA水平的另一种方法是使用斑点印迹或狭缝印迹。在这种方法中，对来自样品的蛋白质、RNA或从其衍生的核酸进行标记。然后将蛋白质、RNA或从其衍生的核酸与含有源自于一个或多个标志基因的寡核苷酸或抗体的滤膜杂交，其中寡核苷酸或抗体置于滤膜上离散的、易于鉴别的位置处。通过目测或通过光密度计测定标记的蛋白质或RNA与滤膜的结合或不结合。蛋白质或多核苷酸可以使用放射性标记物或荧光(即可见)标记物标记。

本文提供的方法可用于检测mRNA或其扩增物、及其任何片段。在一个实例中，可以检测mRNA的内含子或其扩增物或片段。mRNA的加工可包括剪接，其中从转录本中移除内含子。内含子的检测可用于检测完整mRNA的存在，并且也可用于检测mRNA的加工，例如当单检测内含子区时(例如不与任何外显子相连的内含子)。

在另一个实施方案中，本文提供的方法可用于检测多肽及其修饰，其中多肽的修饰可以是翻译后修饰例如脂基化、糖基化、活化蛋白水解以及本技术领域中已知的其他修饰，或者可以包括降解性修饰例如蛋白水解片段或泛素化多肽。

这些实例不打算是限制性的；确定蛋白质或RNA丰度的其他方法在本技术领域中是已知的。

或者，可以通过二维凝胶电泳系统分离蛋白质。二维凝胶电泳在本技术领域中是公知的，并可以包括沿着第一维度进行等电聚焦，然后沿着第二维度进行SDS-PAGE电泳。参见例如Hames等(1990)Gel Electrophoresis of Proteins：A Practical Approach(《蛋白质凝胶电泳：实用方法》)，IRL Press，New York；Shevchenko等(1996)Proc.Natl.Acad.Sci.USA 93：1440-1445；Sagliocco等(1996)Yeast 12：1519-1533；以及Lander(1996)Science 274：536-539。得到的电泳图可以通过大量技术进行分析，包括质谱技术、western印迹以及使用多克隆和单克隆抗体的免疫印迹分析。

或者，可以通过构建抗体微阵列来确定标志物衍生的蛋白质的水平，在所述抗体微阵列中，结合位点包含特异性针对细胞基因组编码的多种蛋白物类的固定化抗体、例如单克隆抗体。可以存在针对显著部分的标志物衍生的目标蛋白的抗体。用于制造单克隆抗体的方法是公知的(参见例如Harlow和Lane(1988)Antibodies：A Laboratory Manual (《抗体实验指南》)，Cold Spring Harbor，N.Y.，在此为所有目的以其全文引为参考)。在一个实施方案中，针对根据细胞的基因组序列设计的合成的肽片段产生单克隆抗体。使用这样的抗体阵列，将来自细胞的蛋白与阵列相接触，并使用本技术领域已知的分析法分析它们的结合。有诊断或预后意义的蛋白的表达与表达水平，可以通过组织薄片或切片的免疫组织化学染色来检测。

在另一个实施方案中，许多组织样品中标志基因的表达可以使用组织阵列来表征(Kononen等(1998)Nat.Med.4：844-847)。在组织阵列中，在同一个微阵列上评估多个组织样品。阵列允许原位检测RNA和蛋白质水平；连续切片允许同时分析多个样品。

在某些实施方案中，使用多核苷酸微阵列测量表达，以便同时评估每个上述标志物的表达状况。在一个实施方案中，本文提供的微阵列是寡核苷酸或cDNA阵列，其包含可与本文描述的标志基因相对应的基因杂交的探针。本文提供的微阵列可以包含可与标志物相对应的基因杂交的探针，所述标志物能够辨别细胞、鉴定表型、鉴定疾病或病症、或提供疾病或病症的预后(例如本文描述的分类物)。例如，本文提供的多核苷酸阵列，包含了针对下面实施例中所描述的分类物中存在的至少2、5、10、15、20、30、40、50、75、100或100个以上遗传标志物的亚组直到全套标志的探针。本文还提供了针对修正t统计量大于或等于2.5、3、3.5、4、4.5或5的标志物的探针。本文还提供了针对修正t统计量小于或等于-2.5、-3、-3.5、-4、-4.5或-5的标志物的探针。在特定实施方案中，本发明提供了组合例如阵列，其中本文描述的标志物占组合或阵列上探针的至少50％、60％、70％、80％、85％、90％、95％或98％。

涉及构建包含上面的标志物组和/或亚组的微阵列的通用技术，如本文中所述，在本技术领域中是已知的。正。

可以通过选择包含多肽或多核苷酸序列的探针，然后将这些探针固定化到固相支持物或表面上，来制备微阵列。例如，探针可以包含DNA序列、RNA序列或抗体。探针还可以包含氨基酸、DNA和/或RNA类似物、或其组合。探针可以通过本技术领域已知的任何方法来制备。

用于本发明方法的探针可以固定化到有孔或无孔的固相支持物上。例如，探针可以附着于硝酸纤维素或尼龙膜或滤膜上。或者，固相支持物或表面可以是玻璃或塑料表面。在另一个实施方案中，测量与表面上固定化有大量探针的固相支持物构成的探针微阵列的杂交水平。固相可以是无孔的，或任选是有孔材料例如凝胶。

在另一个实施方案中，微阵列是可寻址阵列，例如位置可寻址阵列。更具体来说，阵列的每个探针可以位于固相支持物上已知的、预定的位置，以便每个探针的身份(即序列)可以从它在阵列中(即支持物或表面上的)位置来确定。

专业技术人员将会认识到，在阵列上可以包括阳性对照探针，例如已知与靶多核苷酸分子中的序列互补和杂交的探针，以及阴性对照探针，例如已知不与靶多核苷酸分子中的序列互补和杂交的探针。在一个实施方案中，阳性对照可以沿着阵列的周边合成。在另一个实施方案中，阳性对照可以合成在穿过阵列的对角条纹中。其它变体是本领域已知的。探针可以通过本技术领域已知的任何各种方法固定化到固体表面上。

在某些实施方案中，该模型可以进一步扩展以包含样品特征例如细胞或生物体表型，允许将细胞类型特异性表达与可观察的征候例如临床指标和预后(例如临床疾病发展，对治疗的相应等)相联系。在一个实施方案中，提供了用于前列腺组织的模型，从而鉴定了癌症、上皮肥大和疾病发展的细胞类型特异性标志物。在另一个实施方案中，公开了用于研究患有复发癌症与患有未复发癌症的对象之间基因的差异表达的方法。还提供了用于研究混合细胞类型样品的框架，以及允许在样品中的基因间进行交流的更灵活的模型。还提供了进一步扩展，以确定具有不同特征的样品例如来自随后复发的对象与未复发对象的样品之间的表达差异。

统计处理

本文提供的方法包括确定相对细胞含量与测量的表达水平之间的回归关系。例如，可以通过测定测量的表达水平对细胞比例的回归，来确定回归关系。用于确定变量之间的回归关系的统计方法在本技术领域中是已知的。这样的通用统计方法可以按照本文中提供的关于测量的表达水平对细胞比例的回归的教导来使用。

本文提供的方法还包括根据相对细胞含量与表达水平之间的回归关系来计算每种细胞类型中分析物的水平。回归关系可以按照本文提供的方法来确定，并且根据回归关系，可以计算特定细胞类型的特定分析物水平。本文提供的方法能够对特定细胞类型的任何各种分析物进行计算。例如，本文提供的方法能够对单一细胞类型的单一分析物进行计算，或能够对单一细胞类型的多个分析物进行计算，或能够多个细胞类型的单一分析物进行计算，或能够对多个细胞类型的多个分析物进行计算。因此，对于特定细胞类型来说能够计算水平的分析物的数量，可以在从单一分析物到所测量的分析物总数(即使用微阵列测量的分析物的总数)的范围内。在另一个实施方案中，能够进行分析物水平计算的细胞类型的数量，可以在从单一细胞类型到样品中存在的水平足够的所有细胞类型的范围内。如本文别处所提供，特定细胞类型的分析物水平可用于估算相应基因的表达水平。

本文提供的方法还可以包括鉴定在第一种细胞类型中相对于第二种细胞类型来说差异表达的基因。可以将特定细胞类型中一个或多个基因的表达水平与一种或多种其他细胞类型进行比较。表达水平的差异可以用本技术领域已知的各种方式来表示，包括本文中提供的数学或统计表示法。例如，如在本文别处描述，表达水平的差异可以表示成修正t统计量。

本文提供的方法还可用作基础，用于指示对象中特定细胞类型的存在的方法。本文提供的方法可用于鉴定特定细胞类型中的表达水平。使用本技术领域已知的任何各种分类方法，例如朴素贝叶斯分类(

Bayes classifier)，可以将来自对象的样品的细胞中的基因表达水平与参比表达水平进行比较，以确定样品中特定细胞类型的存在或不存在以及任选的相对量。例如，可以根据与本文的表中提供的每个标志物相关的修正t统计量，在前列腺肿瘤分类中选择本文中提供的与前列腺肿瘤、基质或BPH相关的标志物。本文提供了在分类方法中使用修正t统计量的方法，其在本技术领域中也是已知的。在另一个实施方案中，本文提供的方法可用于表型指示方法，例如诊断或预后方法，其中可以将来自对象的样品中的基因表达水平与指示一种或多种特定表型的参比进行比较。

出于示例而不是限制的目的，下面提供了在异质细胞样品中确定一种或多种细胞类型中基因表达水平的示例性方法。假设存在四种细胞类型：BPH、肿瘤、基质和囊性萎缩。假设每种细胞类型对于基因j的表达水平y来说，所具有的(可能)不同的分布表示为：

f_ij(y)，i∈{BPH，肿瘤，基质，囊性萎缩)

并且样品k具有所研究的每种细胞类型的比例为

X_k＝(x_k，BPH，x_k，肿瘤，x_k，基质，x_{k，囊性萎缩})

如果在细胞比例中表达水平是累加的话，正如如果每个细胞的表达水平只依赖于细胞类型(也就是说不依赖于样品中可能存在的其他细胞类型)时的情形，那么基因j的表达水平的分布为

g_{j} (y | X_{k}) = \underset{i}{Σ} x_{ki} f_{ij} (y)

在后面的部分中，该公式被扩展到其中给定细胞类型的表达依赖于存在的其他细胞类型的情形。

那么样品中的平均表达水平是用对应于细胞比例的权重进行加权的预期平均值：

E_{g_{j}} (y | X_{k}) = \underset{i}{Σ} x_{ki} E_{f_{ij}} (y)

或

y_{jk} = \underset{i}{Σ} x_{ki} β_{ij} + ϵ_{jk}

其中

E_{f_{ij}} (y) = β_{ij}

和

ϵ_{jk} = y_{jk} - E_{g_{j}} (y | X_{k})

这是多元线性回归方程的已知形式(没有指定截距)，并且当多个样品可用时，人们可以估算β_ij。一旦获得这些估算值，估算两种细胞类型的基因表达差异采取下列形式：

{\hat{β}}_{i_{1} j} - {\hat{β}}_{i_{2} j}

并且可以使用用于检验关于系数β_ij的线性假设的标准方法，来检验细胞类型i₁与i₂的平均表达水平是否不同。当用于本示例方法中时，术语“表达水平”以通用意义使用：“表达水平”可以是来自阵列上的特征(feature)的mRNA水平、cRNA水平、蛋白质水平、荧光强度的读数、该读数的算法、一些高度后加工的读数等。因此，系数的差异可以对应于背后转录本丰度的差值、对数比或一些其他函数。

为了计算方便，在某些实施方案中，人们可以使用Z＝XT和γ＝T^-1β来设置T，使得T的一列除了在位置i₁处为1并且在位置i₂处为-1之外，都为0，例如

T = (\begin{matrix} 1 & 1 & - 1 & 0 \\ 1 & 1 & 1 & 0 \\ 1 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 \end{matrix})

产生的Z列是单位矢量(全是1)、χ_k，BPH+χ_k，肿瘤、χ_k，BPH-χ_k，肿瘤和χ_k， _基质。使用这种设置，χ_k，BPH-χ_k，肿瘤系数的两倍估算了肿瘤细胞与BPH细胞相比表达水平的平均差异。利用这种参数化法，可以使用标准软件对于肿瘤和BPH细胞的平均差异提供了估算和检验修正的(tesmodified)t统计量。此外，这能够简化其中两种或更多种组织成分具有相同平均表达水平的受限模型的规定。

用于研究的数据可以包含来自较少数量的不同男性的许多样品。来自一个男性的样品可能倾向于共有给定基因的共同表达水平，这一点似乎是合理的，尽管他的细胞之间根据其类型存在差异。这将倾向于引起男性中表达水平测量值之间的正协方差。普通最小二乘法(OLS)估算值在这种情况下不是完全有效。OLS的一种替代方案是使用加权最小二乘法，其将来自单个对象的样品集合处理为具有共同(非负)协方差和一致协方差。

用于这种设置的估算方程可以通过迭代法使用软件例如来自R的gee库来解(Ihaka和Gentleman(1996)J.Comp.Graph.Stat.5：299-314)。当估算的协方差为负时，这是有时当数据集中存在极端异常值时发生的，可以将其固定为0。此外，还可以使用协方差结构的夹心估算法(Liang和Zeger(1986)Biometrika 73：13-22)。

估算方程方法将为单一转录本提供检验修正的t统计量。一组12625个转录本之间的差异表达的评估通过认可了适合的零模型的置换法来处理。通过使用刚刚提到的可互换的、非负相关结构，将表达水平对除了“BPH-肿瘤”项之外的所有设计项进行回归，获得了零模型。为了执行置换检验，可以得出残差中的相关结构。令κ₁为对象1的样品的n₁指数集。首先，我们发现

k∈κ₁作为来自对象1的拟合零模型的残差。使用这些余数的相关矩阵的平方根的倒数来转换它们，即

其中

是通过从gee中减去r的估算值而获得的(分块对角)相关矩阵，因为对应于每个对象和e_j.与

的测量值的区块的非对角元素是对于所有对象的基因j的残差和转换后残差的矢量。渐近地，具有等于0的平均值和协方差。获得了这些

i＝1，…，M的随机置换，并将其用于形成伪观测值：

这种置换方案保存了零模型，并渐近地执行其相关结构。

在某些实施方案中，每个细胞类型的贡献不依赖于样品中存在的其他细胞类型。然而可能存在这样的情况，即每种细胞类型的贡献依赖于样品中存在的其他细胞类型。可能发生推测“正常的”细胞表现出影响它们的表达谱及其变成恶性的潜力的基因组特点的情况。这样的细胞当位于正常组织中时将表现出相同的表达图式，但是更可能在也具有肿瘤细胞的样品中发现。另一种可能的效应是由肿瘤细胞产生的信号触发了附近细胞中的表达变化，如果同样的细胞位于完全正常的组织中，则不能看到这种变化。在任一种情况下，细胞的贡献可以比另一种组织环境中更高或更低，产生了如下的设置，即其中各个细胞类型对总体表达谱的贡献依赖于存在的所有类型的比例，即

g_{j} (y | X_{k}) = \underset{i}{Σ} x_{ki} f_{ij} (y | X_{k})

所预期的比例也同样

E_{g_{j}} (y | X_{k}) = \underset{i}{Σ} x_{ki} E_{f_{ij}} (y | X_{k})

或

y_{jk} = \underset{i}{Σ} x_{ki} β_{ij} (X_{k}) + ϵ_{jk}

上述的本文中使用的方法还可以应用于只要给出了β_ij(X_k)的一定可计算形式的情形。下式给出了一种选择

β_ij(X_k)＝(φ_jR(X_k))_i

其中Φ_j是未知系数的4xm矩阵，R(X_k)是m元素的列矢量。当Φ_j是4x1矩阵并且R(X_k)刚好为“1”时，这简化成其中每个细胞的表达水平只依赖于细胞类型的情况。

考虑下述情况：

φ_{j} (X_{k}) R (X_{k}) = (\begin{matrix} v_{Bj} & v_{Bj} & v_{Bj} & v_{Bj} \\ v_{Tj} & v_{Tj} & v_{Tj} & v_{Tj} \\ v_{Sj} & v_{Sj} + δ_{j} & v_{Sj} & v_{Sj} \\ v_{Cj} & v_{Cj} & v_{Cj} & v_{Cj} \end{matrix}) (\begin{matrix} x_{k, B} \\ x_{k, T} \\ x_{k, S} \\ x_{k, C} \end{matrix}) = (\begin{matrix} v_{Bj} \\ v_{Tj} \\ v_{Sj} + δ_{j} x_{k, T} \\ v_{Cj} \end{matrix})

φ_{j} (X_{k}) R (X_{k}) = (\begin{matrix} v_{Bj} & v_{Bj} & v_{Bj} & v_{Bj} \\ v_{Tj} & v_{Tj} & v_{Tj} & v_{Tj} \\ v_{Sj} & v_{Sj} + δ_{j} & v_{Sj} & v_{Sj} \\ v_{Cj} & v_{Cj} & v_{Cj} & v_{Cj} \end{matrix}) (\begin{matrix} x_{k, B} \\ x_{k, T} \\ x_{k, S} \\ x_{k, C} \end{matrix}) = (\begin{matrix} v_{Bj} \\ v_{Tj} \\ v_{Sj} + δ_{j} x_{k, T} \\ v_{Cj} \end{matrix})

(并且回想∑_jX_k，j＝1)。这里为了简明起见，用于肿瘤的下标已被缩写为T等。这种设置提供了BPH(B)、肿瘤和囊性萎缩(C)细胞具有不依赖于样品中的其他细胞类型的表达谱。然而，基质细胞(S)的表达水平依赖于肿瘤细胞的比例，正如由系数δ_j所反映的。注意X_kφ_jR(X_k)＝x_k，Bv_Bj+x_k，Tv_Tj+x_k，Sv_Sj+x_k，Sx_k，Tδ_j+x_k，Cv_Cj在X_k，B、X_k，T、X_k，S、X_k，C和X_k，SX_k，T中是线性的，具有未知系数，其是那些项的乘数。因此，在这种情况下，未知数是基因表达水平的线性函数，并可以如较早时所做的使用标准线性模型来确定。这里的唯一变化是增加了X_k，S和X_k，T的乘积。这种乘积在显著时，被称为“相互作用”，并且是指由于X_k，S与X_k，T的相关性而获得显著性水平的乘积。因此，有可能适应于当一种细胞类型中转录本的水平受到样品中另一种细胞类型的量的影响时发生的基因表达的变化。在一种情况下，设置涉及肿瘤对基质的量的依赖性

φ_{j} (X_{k}) R (X_{k}) = (\begin{matrix} v_{Bj} & v_{Bj} & v_{Bj} & v_{Bj} \\ v_{Tj} & v_{Tj} & v_{Tj} + δ_{j} & v_{Tj} \\ v_{Sj} & v_{Sj} & v_{Sj} & v_{Sj} \\ v_{Cj} & v_{Cj} & v_{Cj} & v_{Cj} \end{matrix}) (\begin{matrix} x_{k, B} \\ x_{k, T} \\ x_{k, S} \\ x_{k, C} \end{matrix}) = (\begin{matrix} v_{Bj} \\ v_{Tj} + δ_{j} x_{k, T} \\ v_{Sj} \\ v_{Cj} \end{matrix})

X_kΦ_jR(X_k)的表述式与上面刚刚提出的完全相同。

因此，通过包含细胞类型比例的乘积作为回归量，人们能够筛选依赖性。在某些实施方案中，如果两种不同细胞类型经历相等并且相反的变化——一种类型随着另一种类型中的增加而表达增加，另一种类型随着第一种类型中的增加而表达降低，则可能不能检测到相互作用。在一个实施方案中，基因表达的依赖性是指一种细胞类型中的基因表达对另一种细胞类型中的基因表达水平的依赖性。在另一个实施方案中，基因表达的依赖性是指一种细胞类型中的基因表达对另一种细胞类型的量的依赖性。

每种细胞类型的贡献可能依赖于样品中存在的其他细胞类型，但是也可能依赖于样品的其他特征，例如贡献它的对象的临床特征。例如，临床特征例如疾病症状、疾病预后例如疾病的复发和/或侵袭性、治疗疾病成功的可能性、存活的可能性、特定治疗方案可能比另一种治疗方案更加有效的情况，都可以与细胞表达相关联。例如，在患有治疗后未复发癌症的对象与患有治疗后复发癌症的对象之间，细胞类型特异性基因表达可能不同。在这种情况下，细胞类型的贡献与另一个对象相比可能或高或低，导致其中各个细胞类型对总体表达谱的贡献依赖于对象或样品的特征的情况。这里，将较早时使用的模型扩展到允许依赖于样品特异性协变量的矢量，Z_k：

g_{j} (y | X_{k}, Z_{k}) = \underset{i}{Σ} x_{ki} f_{ij} (y | X_{k}, Z_{k})

所预期的比例也同样：

E_{g_{j}} (y | X_{k}, Z_{k}) = \underset{i}{Σ} x_{ki} E_{f_{ij}} (y | X_{k}, Z_{k})

或

y_{jk} = \underset{i}{Σ} x_{ki} β_{ij} (X_{k}, Z_{k}) + ϵ_{jk}

其中

E_{f_{ij}} (y | X_{k}, Z_{k}) = β_{ij} (X_{k}, Z_{k})

并且ε_jk＝y_jk-E_gj(y|X_k，Z_k).

本文中使用的上述方法还可应用于只要给出了β_ij(X_k，Z_k)的一定合理形式的情形。下式给出了一种有用的选择：

β_ij(X_k，Z_k)＝(φ_jR(Z_k))_i

其中Φ_j是未知系数的4xm矩阵，R(Z_k)是m元素的列矢量。

考虑如何将其用于研究复发对象与未复发对象之间的基因表达差异。在这种情况下，Z_k是指示变量，其对于未复发对象的样品取值为0，对于复发对象的样品取值为1。那么

R (Z_{k}) = (\begin{matrix} 1 \\ Z_{k} \end{matrix})

并且Φ_j是4乘2的系数矩阵：

φ_{j} = (\begin{matrix} v_{Bj} & δ_{Bj} \\ v_{Tj} & δ_{Tj} \\ v_{Sj} & δ_{Sj} \\ v_{Cj} & δ_{Cj} \end{matrix})

注意，这导致了

X_kφ_jR(Z_k)＝x_k，Bv_Bj+x_k，Tv_Tj+x_k，Sv_Sj+x_k，Cv_Cj+

x_k，BZ_kδ_Bj+x_k，TZ_kδ_Tj+x_k，SZ_kδ_Sj+x_k，CZ_kδ_Cj

系数v给出了未复发对象中不同细胞类型的平均表达，而系数δ给出了在复发对象中与未复发对象中不同细胞类型的平均表达之间的差异。因此，δ_T的非零值将表明在肿瘤细胞中，复发对象与未复发对象的平均表达水平不同。上述方程在其系数上是线性的，因此可以使用标准统计方法对系数进行估算和推断。允许β依赖于细胞比例和样品协变量两者的扩展，可以按照本文中提供的讲述或本技术领域中已知的其他方法来确定。

核酸

本文提供了表格，并显示了列表的探针组和与探针组相关的基因，某些表格包括了GENBANK登记号和/或基因座ID。表格可包括Affymetrix微阵列的修正t统计量，包括例如对于BPH、肿瘤、基质和囊性萎缩的相关t统计量。也可以提供用于将探针ID作图于不同微阵列的微阵列探针ID，以及作图本身，其中作图能够指示可以与相同基因杂交的微阵列的探针ID。利用这种作图，可以将探针ID与核苷酸序列相关联。表格还可以列出通过包含具有前列腺癌的所有样品的线性回归所计算的、被鉴定为在复发患者的前列腺肿瘤细胞中上调或下调的排名前列的基因。可以鉴定在复发与未复发组织之间的预计表达比率高于例如1.5倍的基因，也可以鉴定表达的绝对差异超过通过阵列质询的大多数基因所报告的表达水平的基因。

本文提供的表格还可以列出通过包含具有前列腺癌的所有样品的线性回归所计算的、被鉴定为在复发患者的肿瘤和/或前列腺基质中上调或下调的排名前列的基因。可以提供其表达能够在用于鉴定或表征样品的方法中检测的示例性基因，以及可用于这种基因表达鉴定的探针ID。

基因的剪接变体也可用于确定前列腺癌的诊断和预后。正如在本技术领域中所了解的，对于某些基因提供了多种剪接组合。在本文中对一个或多个基因的指称(包括对基因产物的指称)，也考虑到了对剪接的基因序列的指称。同样地，在本文中对一个或多个蛋白基因产物的指称，也考虑到了从剪接变体翻译的蛋白。

其产物可以在本文提供的方法中检测的基因的示例性而非限制性实例，包括IGF-1、microsimino蛋白和MTA-1。在一个实施方案中，一个或多个这些基因的表达检测可以与本文表中列出的一个或多个其他基因的表达检测相组合进行。

探针的使用和在表中鉴定的基因的检测，可以如本文中所描述和示例的进行。在本文中考虑到了与示例的使用和方法相类似的使用和方法可以按照本文中提供的教导应用于探针和基因核苷酸序列。

分离的核酸可以含有本文列出的基因的连续核苷酸的至少10个核苷酸、25个核苷酸、50个核苷酸、100个核苷酸、150个核苷酸或200个或以上。在另一个实施方案中，核酸的长度小于35、200或500个核苷酸。

还提供了上述核酸的片段，其可用作探针或引物，并含有至少约10个核苷酸、至少约14个核苷酸、至少约16个核苷酸或至少约30个核苷酸。探针或引物的长度随着所探测基因组的尺寸而变；基因组越大，与单一位点特异性杂交所需的探针或引物越长。本技术领域的专业人员可以选择适合尺寸的探针和引物。所描述的探针和引物可以是单链的。双链探针和引物如果在使用时被变性，也可以使用。提供了源自于核酸分子的探针和引物。这样的探针和引物含有至少8、14、16、30、100个或以上连续的核苷酸。探针和引物任选地用可检测标记物例如放射性标记物或荧光标签进行标记，或者在质量上有差别以通过质谱术或其他手段检测。还提供了包含与核苷酸互补的分子序列的分离的核酸分子。还提供了双链RNA(dsRNA)，例如RNAi。

还提供了含有核酸分子的质粒和载体。提供了含有载体的细胞，包括表达所编码蛋白的细胞。细胞可以是细菌细胞、酵母细胞、真菌细胞、植物细胞、昆虫细胞或动物细胞。

为了重组表达一个或多个基因，可以将含有编码基因的所有或一部分核苷酸序列的核酸插入到适合的表达载体中，即含有用于所插入的蛋白编码序列的转录和翻译的元件的载体。转录和翻译信号也可以由基因的天然启动子和/或其侧翼区域来提供。

还提供了含有编码本文列出的基因的核酸的载体。还提供了含有载体的细胞。细胞包括真核和原核细胞，并且载体是适合用于其中的任何载体。

提供了含有载体的原核和真核细胞。这样的细胞包括细菌细胞、酵母细胞、真菌细胞、植物细胞、昆虫细胞和动物细胞。通过下述步骤，细胞可用于生产寡核苷酸或多肽基因产物：(a)将上述细胞生长在细胞表达编码基因的条件下，以及然后(b)回收表达的化合物。

可以使用各种各样的宿主-载体系统表达蛋白编码序列。这些系统包括但不限于用病毒(例如痘苗病毒和腺病毒)感染的哺乳动物细胞系统；用病毒(例如杆状病毒)感染的昆虫细胞系统；微生物例如含有酵母载体的酵母；或用细菌噬菌体、DNA、质粒DNA或黏粒DNA转化的细菌。载体的表达元件在其强度和特异性上不同。取决于所使用的宿主-载体系统，可以使用许多适合的转录和翻译元件中的任一种。

可以使用本技术领域的专业人员已知用于将核酸片段插入到载体中的任何方法来构建含有包含适合的转录/翻译控制信号和蛋白编码序列的嵌合基因的表达载体。这些方法可以包括体外重组DNA和合成技术，以及体内重组(遗传重组)。编码多肽的核酸序列的表达可以由第二个核酸序列调控，使得基因或其片段在用重组DNA分子转化的宿主中表达。例如，蛋白的表达可以由本技术领域中已知的任何启动子/增强子控制。

蛋白

本文列出的基因的蛋白产物、衍生物和类似物可以通过本技术领域已知的各种方法来生产。例如，一旦鉴定到表达这样的多肽或其结构域、片段或衍生物的重组细胞后，就可以分离各基因产物并对其进行分析。这通过基于蛋白的物理和/或功能性质的分析法来实现，所述分析法包括但不限于产物的放射活性标记随后通过凝胶电泳进行分析、免疫分析法、与标志物标记的产物交联以及蛋白活性或抗体结合的分析法。

多肽可以通过本技术领域已知的标准方法来分离和纯化(从天然来源或者表达复合物或蛋白的重组宿主细胞)，所述方法包括但不限于柱层析(例如离子交换、亲和、凝胶排阻、反相高压和快速蛋白液相)、差速离心、差异溶解度，或通过用于蛋白纯化的任何其他标准技术。功能性质可以使用本技术领域已知的任何适合的分析法来评估。

多肽序列的操作可以在蛋白水平上进行。本文中还考虑到了多肽蛋白、其结构域、其衍生物或类似物或片段，它们在翻译期间或之后进行了不同修饰，例如糖基化、乙酰化、磷酸化、酰胺化、由已知保护/阻断基团的衍生化、蛋白水解切割、与抗体分子或其他细胞配体连接。可以通过已知技术进行众多化学修饰中的任一种，包括但不限于由溴化氰、胰蛋白酶、胰凝乳蛋白酶、木瓜蛋白酶、V8蛋白酶、NaBH4进行的特异性化学切割、乙酰化、甲酰化、氧化、还原、在衣霉素和其他这类试剂存在下的代谢合成。

此外，本文提供的多肽的结构域、类似物和衍生物可以化学合成。例如，对应于本文中提供的多肽的包含所需结构域或介导所需体外活性的部分的肽，可以使用肽合成仪来合成。此外，如果需要，可以导入非经典氨基酸或化学氨基酸类似物来取代或添加到多肽序列中。非经典氨基酸包括但不限于常见氨基酸的D-异构体、α-氨基异丁酸、4-氨基丁酸Abu、2-氨基丁酸ε-Abu、e-Ahx、6-氨基己酸、Aib、2-氨基异丁酸、3-氨基丙酸、鸟氨酸、正亮氨酸、正缬氨酸、羟脯氨酸、肌氨酸、瓜氨酸、半胱氨酸、叔丁基甘氨酸、叔丁基丙氨酸、苯甘氨酸、环己基丙氨酸、β-丙氨酸、氟代氨基酸、设计的氨基酸例如β-甲基氨基酸、Ca-甲基氨基酸、Na-甲基氨基酸和一般的氨基酸类似物。此外，氨基酸可以是D(右旋的)或L(左旋的)。

筛选方法

寡核苷酸或多肽基因产物可用在鉴定调节其活性的化合物的各种方法中。可以在不同细胞类型和对象具有不同表型的相同细胞类型中鉴定核苷酸序列和基因。本文中提供的用于筛选化合物的方法可以包括将细胞与化合物相接触并测量基因表达水平，其中表达水平相对于参比值的变化将化合物鉴定为调节基因表达的化合物。

本文中还提供了用于鉴定和分离药剂、例如与本文列出的基因的产物结合的化合物的方法。设计分析法用于鉴定与RNA或多肽基因产物结合的药剂。鉴定到的化合物是用于鉴定治疗肿瘤和其他病症和疾病的化合物的候选物或先导物。

可以使用本技术领域已知的各种方法。这些方法可以在溶液或固相反应中执行。

还提供了用于鉴定与本文列出的基因所编码的寡核苷酸或多肽特异性结合的药剂、例如化合物的方法。方法可以如下实施：(a)将基因产物与一种或多种测试药剂在引起基因产物与药剂之间结合的条件下相接触；以及(b)在所述一种或多种测试药剂中鉴定与基因产物特异性结合的一种或多种药剂。待鉴定的化合物或药剂可以源自于生物样品或源自于文库，包括但不限于组合文库。示例性文库可以是融合蛋白展示性肽文库，其中随机的肽或蛋白被呈递在噬菌体颗粒表面或从质粒表达的蛋白上；支持物结合性合成化学文库，其中各个化合物或化合物的混合物被呈递在不溶性基质例如树脂珠上，或本技术领域已知的其他文库。

基因产物活性的调节物

本文提供了调节基因产物活性的化合物。这些化合物可以通过与多肽直接相互作用或通过改变其转录或翻译来发挥作用。这样的分子包括但不限于与多肽特异性结合的抗体、改变多肽、抗体表达的反义核酸或双链RNA(dsRNA)例如RNAi、肽模拟物和其他这样的化合物。

提供了与本文提供的多肽基因产物特异性结合的抗体，包括多克隆和单克隆抗体。抗体可以是单克隆抗体，并且抗体可以与多肽特异性结合。多肽及其结构域、片段、类似物和衍生物可以用作免疫原，以产生与这种免疫原特异性结合的抗体。这样的抗体包括但不限于多克隆、单克隆、嵌合、单链、Fab片段和Fab表达文库。在特定实施方案中，产生了针对人类多肽的抗体。用于单克隆和多克隆抗体生产的方法在本技术领域中是已知的。与多肽或其表位特异性结合的抗体片段可以通过本技术领域中已知的技术来产生。例如，这样的片段包括但不限于：F(ab’)2片段，其可以通过用胃蛋白酶消化抗体分子来产生；Fab’片段，其可以通过还原F(ab’)2片段的二硫桥来产生；Fab片段，其可以通过用木瓜蛋白酶和还原试剂处理抗体分子来产生；以及Fv片段。

肽类似物通常用在制药工业中作为与模板肽具有类似性质的非肽药物。这些类型的非肽化合物被称为肽拟似物或肽模拟物(Luthman等，A Textbook of Drug Design and Development《药物设计和开发教科书》，14：386-406，第二版，Harwood Academic Publishers(1996)；JoachimGrante(1994)Angew.Chem.Int.Ed.Engl.，33：1699-1720；Fauchere(1986)J.Adv.Drug Res.，15：29；Veber和Freidinger(1985)TINS，p.392；以及Evans等(1987)J.Med.Chem.30：1229)。与治疗有用的肽在结构上类似的肽模拟物可用于产生等价的或增加的治疗或预防效果。肽模拟物的制备及其结构对于本技术领域的专业人员来说是已知的。

预后和诊断

本文列出的编码序列(例如基因)的多肽产物可以在诊断方法、例如肿瘤和其他疾病或病症的诊断中检测。这样的方法可用于检测、预后、诊断或监测各种病情、疾病和病症。可用于这种检测方法的示例性化合物包括多肽，例如与本文中列出的多肽特异性结合的抗体或其片段，以及寡核苷酸，例如与本文提供的核酸编码的寡核苷酸例如RNA特异性结合的DNA探针或引物。

对于本文提供的各种分析方法的任一种，可以选择一种或或以上或者两种或更多种的化合物组，用于检测含有特定核苷酸序列、其互补序列、其片段或由其编码的多肽的标志物。例如，可以选择一种或以上或者两种或更多种这样的化合物作为诊断或预后指示物。用于选择这样的化合物和在分析方法例如诊断和预后指示物应用中使用这些化合物的方法，在本技术领域中是已知的。例如，本文提供的表格列出了与每种标志物相关的修正t统计量，其中修正t统计量指示了相关标志物表明(根据修正t统计量，通过标志物的存在或不存在)前列腺样品中存在或不存在特定细胞类型的能力。

在另一个实施方案中，标志物的选择可以通过考虑修正t统计量和特定标志物信号的预期强度两者来进行。例如，可以选择在存在或不存在待确定的细胞类型中具有强信号、并且对于在该细胞类型中的基因表达来说修正t统计量足够大的标志物。此外，可以选择在存在或不存在待确定的细胞类型中具有很小或没有信号、并且对于在该细胞类型中的基因表达来说负修正t统计量足够大的标志物。

示例性的分析法包括免疫分析法例如竞争和非竞争分析系统，其使用的技术诸如western印迹、放射免疫分析法、ELISA(酶联免疫吸附分析法)、夹心免疫分析法、免疫沉淀分析法、沉淀素反应、凝胶扩散沉淀素反应、免疫扩散分析法、凝集分析法、补体固着分析法、免疫放射分析法、荧光免疫分析法和蛋白A免疫分析法等。其他示例性分析方法包括杂交分析法，其可以通过将含有核酸的样品与核酸探针在使得特异性杂交能够发生的条件下相接触、并检测或测量得到的任何杂交的方法来执行。

还提供了用于诊断应用的试剂盒，其在一个或多个容器中包含了抗多肽抗体和任选的针对抗体的标记结合配偶体。还提供了在一个或多个容器中包含能够与编码基因的核酸杂交的核酸探针的试剂盒。在具体实施方案中，试剂盒可以在一个或多个容器中包含能够引发扩增的一对引物(例如每个的大小范围为6-30个核苷酸)。试剂盒还可以任选在容器中包含预定量的纯化的对照多肽或核酸。

试剂盒可以含有包装材料，其是用于容纳试剂盒的内含物例如本发明的核酸探针或引物等的一种或多种物理结构。包装材料通过公知的方法构造，并且能够提供无菌、无污染的环境。包装材料具有标签，指示了化合物可用于检测特定寡核苷酸或多肽。本文中使用的涉及诊断系统的包装材料是惯常用于基于核酸或蛋白诊断系统的包装材料。包装是固体基质或材料例如玻璃、塑料、纸、箔片等，能够容纳固定限额内的本发明的分离的核酸、寡核苷酸或引物。因此，例如包装可以是用于容纳毫克量的所考虑的核酸、寡核苷酸或引物的玻璃小管，或者它可以是已可操作地固着了毫克量所考虑的核酸探针的微量滴定板孔。试剂盒也可以包括使用说明书，其可以包括描述了试剂浓度或至少一种分析方法参数、例如待混合的试剂和样品的相对量、试剂/样品混合物的维持时间长度、温度、缓冲条件等的明确表达。

药物组合物和给药方式

本文提供了含有调节基因表达或与基因产物结合的鉴定到的化合物的药物组合物。还提供了这种化合物与用于治疗疾病或病症的另一种疗法或化合物例如化疗化合物的组合。

表达调节物或结合化合物和其他化合物可以作为分开的组合物包装，用于一起或相继或间歇给药。或者，它们可以提供成供给药的单一组合物，或提供成两种组合物，用于作为单一组合物给药。组合可以如试剂盒那样包装。

本文提供的化合物和组合物可以配制成药物组合物，用于例如单剂给药。制剂中化合物的浓度在给药后有效递送对目标治疗来说有效的量。在某些实施方案中，组合物被配制成用于单剂给药。为了配制组合物，将化合物或其混合物的重量分数，以使得所治疗的病症被缓解或改善的有效浓度溶解、悬浮、分散或以其它方式混合在所选介质中。适合本文提供的化合物给药的药物载体或介质，包括本技术领域的专业人员已知的适合用于特定给药方式的任何这样的载体。

此外，化合物可以作为组合物中的唯一药物活性成分进行配制，或者可以与其他活性成分组合。可药用载体中包含的活性化合物的量足以执行治疗有用效应，并且对于被治疗对象不存在不想要的副作用。治疗有效浓度可以通过在已知的体外和体内系统中测试化合物，凭经验来确定。药物组合物中活性化合物的浓度取决于活性化合物的吸收、失活和排泄速率、化合物的物理特性、剂量安排、给药量以及本技术领域的专业人员已知的其他因素。可药用衍生物包括酸、盐、酯、水合物、溶剂化物和前体药物形式。可以选择衍生物使得其药物动力学性质优于相应的中性化合物。所包含的化合物的量能够有效改善或治疗疗法所考虑的病症。

适合于各种给药例如肠胃外、肌肉内、皮下、消化道、透皮、吸入和其他已知给药方法的制剂，在本技术领域中是已知的。药物组合物也可以通过本技术领域已知的受控释放手段和/或递送装置给药。提供了含有组合物和/或与用于其给药的说明书的组合的试剂盒。试剂盒可以进一步包含可以无菌形式包装的用于注射复合物的针头或注射器，和/或包装好的酒精垫。任选地包含由临床医师或由患者给药活性药剂的说明书。

化合物可以包装成制成品，其包含包装材料、包装材料内的本发明提供的有效治疗本文所考虑的疾病或病症的化合物或其适合的衍生物、以及表明化合物或其适合的衍生物是用于治疗本文所考虑的疾病或病症的标签。标签可以任选包括疗法所许可的病症。

治疗方法

本文提供的化合物可用于在动物例如哺乳动物、包括人类中治疗或预防疾病或病症。在一个实施方案中，方法包括向哺乳动物给药有效量的调节特定基因(例如本文列出的基因)表达的化合物或与基因产物结合的化合物，由此治疗或预防疾病或病症。本文提供的示例性抑制剂是通过筛选分析方法鉴定到的抑制剂。此外，还考虑到了抗体和反义核酸或双链RNA(dsRNA)，例如RNAi。

在具体实施方案中，正如上文中所描述的，基因表达可以通过反义核酸来抑制。提供了至少6个核苷酸、最多约150个核苷酸并且与基因或cDNA反义的核酸的治疗或预防应用。反义分子可以与基因的全部或一部分互补。例如，寡核苷酸是至少10个核苷酸、至少15个核苷酸、至少100个核苷酸或至少125个核苷酸。寡核苷酸可以是DNA或RNA或其嵌合混合物或衍生物或修饰的版本，可以是单链或双链的。寡核苷酸可以在碱基部分、糖部分或磷酸酯骨架处进行修饰。寡核苷酸可以包括其他附加基团例如肽、或便于穿过细胞膜运输的药剂、触发杂交的切割剂或嵌入剂。

RNA干扰(RNAi)(参见例如Chuang等(2000)Proc.Natl.Acad.Sci.U.S.A.97：4985)可用于抑制核酸的表达。干扰RNA(RNAi)片段，例如双链(ds)RNAi，可用于产生基因功能丢失。涉及在生物体包括哺乳动物、线虫(C.elegans)、果蝇和植物以及人类中使用RNAi来沉默基因的方法是已知的。使用保持为游离体或整合到基因组中的可复制载体，将表达双链RNA(dsRNA)的构建物导入宿主例如动物或植物中。通过选择适合的序列，dsRNA的表达能够干扰内源mRNA的积累。RNAi也可用于抑制体外表达。包括对选定基因具有选择性(即独特性)的至少约21个(或21个)核苷酸的区域，被用于制备RNAi。约21个核苷酸的较小片段可以直接转化(即体外或体内)到细胞中；较大的RNAi dsRNA分子可以使用编码它们的载体导入。dsRNA分子至少约21bp长或更长，例如50、100、150、200bp或更长。用于在体外和体内将核酸分子导入细胞的方法、试剂和方案对于本技术领域的专业人员来说是已知的。

在示例性实施方案中，可以利用基因疗法给药包括本文中列出的基因的多肽的编码核苷酸序列的核酸以促进多肽功能。基因疗法是指通过向对象给药核酸而执行的疗法。在本实施方案中，核酸产生了其编码蛋白，所述蛋白通过促进多肽功能介导治疗效应。可以使用本技术领域中可以获得的用于基因疗法的任何方法(参见Goldspiel等，Clinical Pharmacy 12：488-505(1993)；Wu和Wu，Biotherapy 3：87-95(1991)；Tolstoshev，An.Rev.Pharmacol.Toxicol.32：573-596(1993)；Mulligan，Science 260：926-932(1993)；以及Morgan和Anderson，An.Rev.Biochem.62：191-217(1993)；TIBTECH 11(5)：155-215(1993))。

在某些实施方案中，可以开发基于本文提供的基因和多肽的疫苗。例如，基因可以作为DNA疫苗给药，不论是单个基因还是基因组合。裸DNA疫苗是本技术领域中公知的。使用基因作为DNA疫苗的方法对于本技术领域的普通专业人员来说是熟知的，包括将基因或基因的一部分置于用于在患有癌症的患者中表达的启动子的控制之下。用于DNA疫苗的基因可以编码全长蛋白，但是也可以编码蛋白的部分，包括源自于蛋白的肽。例如，可以用包含源自于特定基因的多个核苷酸序列的DNA疫苗来免疫患者。在另一个实施方案中，用多个基因或其部分免疫患者是可能的。不受理论的束缚，诱导了由DNA疫苗编码的多肽的表达、细胞毒性T-细胞、辅助性T-细胞和抗体，它们识别并破坏或消除表达本文提供的蛋白的细胞。

DNA疫苗可以包括编码伴随DNA疫苗的佐剂分子的基因。这样的佐剂分子包括增加对DNA疫苗编码的多肽的免疫原性应答的细胞因子。附加或供选的佐剂对于本技术领域的普通专业人员来说是已知的，并可在本发明中找到用途。

动物模型和转基因学

本文还提供了本文所公开的核苷酸、基因、核苷酸分子和多肽在产生癌症例如淋巴瘤和癌的动物模型中的应用。正如本技术领域的普通专业人员所认识到的，当本文提供的基因之一被抑制或降低时，将反义RNA导向基因的基因治疗技术也将降低或抑制基因的表达。这样产生的动物用作动物模型，可用于筛选生物活性药物候选物。在另一个实施方案中，基因敲除技术，例如作为与适合的基因定向载体同源重组的结果，将引起蛋白的缺乏。当需要时，可以使用已知方法实现蛋白的组织特异性表达或敲除。

将蛋白在癌症中过表达也是可能的。照此，可以产生过表达蛋白的转基因动物。取决于所需的表达水平，可以使用各种不同强度的启动子来表达转基因。此外，可以确定和比较整合的转基因的拷贝数，以确定转基因的表达水平。通过这样的方法产生的动物可用作动物模型，此外还可用于筛选治疗癌症的生物活性分子。

计算机程序和方法

本文提供的各种技术、方法和方法的方面，可以部分或完全使用基于计算机的系统和方法来执行。在另一个实施方案中，基于计算机的系统和方法可用于增强或增加上面描述的功能、加快执行功能的速度、以及提供其他特点和方面作为本文件别处描述的本发明的特点和方面的一部分或补充。上述技术的各种基于计算机的系统、方法和实施，在下文中介绍。

基于处理器的系统可以包括主存储器例如随机存取存储器(RAM)，也可以包括二级存储器。二级存储器可以包括例如硬盘驱动器和/或移动式存储驱动器，代表性的是软盘驱动器、磁带驱动器或光盘驱动器。移动式存储驱动器从移动存储介质读出和/或向其写入。移动存储介质是指软盘、磁带、光盘等，其由移动式存储驱动器读取和写入。正如将认识到的，移动存储介质可以包含计算机软件和/或数据。

在其它实施方案中，二级存储器可以包括允许计算机程序或其他指令装载在计算机系统中的其他类似手段。这样的手段包括例如移动存储器件和接口。其实例可以包括程序盒和盒接口(例如见于视频游戏装置中)、可移动存储芯片(例如EPROM或PROM)和相关插槽，以及其他移动存储器件和允许将软件和数据从移动存储器件转移到计算机系统的接口。

计算机系统还可以包括通信接口。通信接口允许将软件和数据在计算机系统与外部装置之间转移。通信接口的实例可以包括调制解调器、网络接口(例如以太网卡)、通信端口、PCMCIA槽和卡等。通过通信接口转移的软件和数据采取信号的形式，其可以是能够被通信接口接收的电子、电磁、光学或其他信号。这些信号经能够携带信号的信道提供给通信接口，并可以使用无线介质、电线或电缆、光纤或其他通信介质来实施。信道的一些实例可以包括电话线、手机连接、RF连接、网络接口和其他通信信道。

在本文件中，术语计算机程序介质和计算机可用介质，一般用于指称介质例如移动式存储装置、能够安装在磁盘驱动器中的磁盘和信道上的信号。这些计算机程序产品是向计算机系统提供软件或程序指令的手段。

计算机程序(也称为计算机控制逻辑)储存在主存储器和/或二级存储器中。也可以通过通信接口接收计算机程序。这样的计算机程序在执行时，允许计算机系统执行本文讨论的本发明的特点。具体来说，计算机系统在执行时，允许处理器执行本发明的特点。因此，这些计算机程序代表了计算机系统的控制者。

在使用软件来执行要素的实施方案中，软件可以储存在计算机程序产品中或通过其传送，并使用可移动存储装置、硬盘驱动器或通信接口装载在计算机系统中。控制逻辑(软件)当被处理器执行时，引起处理器执行本文描述的本发明的功能。

在另一个实施方案中，在硬件中执行要素，使用例如硬件部件如PAL、应用特异性集成电路(ASIC)或其他硬件部件。对于相关技术领域的专业人员来说，实施硬件状态机以便执行本文描述的功能是显而易见的。在另一个实施方案中，使用硬件和软件的组合将要素植入。

在另一个实施方案中，基于计算机的方法可以在万维网上，通过经网页提供对本发明方法的访问来进行访问或执行。因此，网页由统一资源定位器(URL)来识别。URL是指服务器机器以及该机器上的具体文件或页面。在本实施方案中，设想了消费者或客户端计算机系统与浏览器相互作用以选择特定URL，这进而引起浏览器向在URL中鉴定到的服务器发送对该URL或页面的请求。服务器可以检索所请求的页面并将该页面的信息传回发出请求的客户端计算机系统，对请求作出响应(客户端/服务器相互作用可以按照超级文本传送协议(HTTP)来执行)。然后将所选页面在客户端显示屏上显示给用户。客户端然后可以使含有本发明的计算机程序的服务器启动应用，以例如按照本文提供的方法执行分析。

前列腺相关基因

本文提供了可以指示对象中前列腺癌的存在和/或不存在的探针和基因序列。本文还提供了可以指示对象中良性前列腺增生(BPH)的存在和/或不存在的探针和基因序列。本文还提供了可以指示前列腺癌预后的探针和基因序列，其中这样的预后可以包括前列腺癌的可能复发、前列腺癌的可能侵袭性、前列腺癌的可能惰性、对象存活的可能性、成功治疗前列腺癌的可能性、其中特定治疗方案可能比其他治疗方案更有效的情况，以及它们的组合。在一个实施方案中，探针和基因序列可以指示前列腺癌的可能侵袭性或惰性。

正如本文的方法和表格中所提供的，已经鉴定到在根据样品中前列腺肿瘤、BPH和基质的存在或不存在、与前列腺样品的一种或多种核酸以不同水平杂交的探针。本文提供的探针与修正t统计量一并列出，所述修正t统计量表示该特定探针指示前列腺样品中特定细胞类型的存在或不存在的能力。本文的别处描述了对这种测定使用修正t统计量，并且修正t统计量的一般性应用在本技术领域中是已知的。因此，本文提供的探针的核苷酸序列能够指示对象中前列腺肿瘤和/或BPH细胞的存在或不存在，并且也能指示前列腺肿瘤复发的可能性。

在本文的方法和表格中还提供了与本文提供的探针相关的基因和基因产物的核苷酸和预测的氨基酸序列。因此，正如在本文中所提供的，检测基因产物(例如mRNA或蛋白)或基因表达的其他指示物，可以指示对象中前列腺肿瘤和/或BPH细胞的存在或不存在，并且也能指示前列腺肿瘤复发的可能性。与探针序列的情况相同，这些基因产物的核苷酸和氨基酸序列与修正t统计量一并列出，所述修正t统计量表示该特定基因产物或其指示物指示前列腺样品中特定细胞类型的存在或不存在的能力。

用于确定前列腺肿瘤和/或BPH细胞的存在、对象中前列腺肿瘤复发的可能性、前列腺癌存活的可能性、前列腺肿瘤的侵袭性、前列腺肿瘤的惰性和前列腺肿瘤的其他预后的方法，可以按照本文提供的教导和实例进行。本文还提供了一组探针或基因产物，其可以按照它们的修正t统计量进行选择，供组合用于(例如供用于微阵列)确定对象中前列腺肿瘤和/或BPH细胞的存在和/或前列腺肿瘤复发的可能性的方法中。

本文还提供了被鉴定为在前列腺癌或具有癌症复发可能性的对象中存在水平升高的基因产物，其可用作治疗性化合物和方法的靶。例如，靶向在前列腺癌中存在水平升高的基因产物的抗体或siRNA可以给药于对象，以降低该基因产物的水平并由此降低肿瘤细胞的恶性、肿瘤的侵袭性、肿瘤的惰性、存活或肿瘤复发的可能性。用于向对象提供分子例如抗体或siRNA以降低对象中基因产物的水平的方法，提供在本文中或在本技术领域中原本是已知的。

在某些实施方案中，被鉴定为在前列腺癌或具有癌症复发可能性的对象中以存在水平降低的基因产物，可用作治疗性化合物和方法的主体。例如，可以向特定基因产物水平降低的个体给药核酸分子、例如编码特定基因的基因表达载体，以增加基因产物的水平并由此降低肿瘤细胞的恶性、肿瘤的侵袭性、肿瘤的惰性、存活的可能性或肿瘤复发的可能性。用于向对象提供基因表达载体以增加对象中基因产物水平的方法，提供在本文中或在本技术领域中原本是已知的。

当在本文中使用时，术语“前列腺癌特征”是指与对照表达水平(例如在正常前列腺组织中)相比在前列腺癌中表现出表达改变(例如表达增加或降低)的基因。前列腺癌特征中包含的基因可以包括在本文提出的表格(例如表3和4)中列出的任何基因。例如，表3中列出的一个或多个(例如2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65个或以上)基因在前列腺组织样品中(例如含有正常基质、前列腺癌细胞或两者的前列腺组织样品)的存在水平可以比在正常的非癌性前列腺组织中观察到的水平更高或更低。在某些情况下，前列腺癌特征可以是基因表达谱，其中本文的表(例如表3或表4)中列出的基因的至少10、20、30、40、50、60、70、80、90或100％，其表达水平高于或低于它们在非癌性组织中的相应对照水平。

当在本文中使用时，术语“前列腺细胞类型预测”基因和“前列腺组织预测”基因是指基于其表达水平，可以用作特定前列腺组织样品是否包含特定细胞类型(例如前列腺癌细胞、正常基质细胞、良性前列腺增生的上皮细胞、或扩张囊性腺的上皮细胞)的指示物的基因。这样的基因也能指示前列腺组织样品内这些细胞类型的相对量。

在某些实施方案中，本文件的特征在于鉴定对象患有或未患前列腺癌的方法，所述方法包含：(a)提供来自对象的前列腺组织样品；(b)测量样品中前列腺癌特征基因的表达水平；(c)将前列腺癌特征基因的测量的表达水平与参比表达水平进行比较；以及(d)如果测量的表达水平显著高于或低于参比表达水平，将对象鉴定为患有前列腺癌，而如果测量的表达水平不显著高于或低于参比表达水平，则将对象鉴定为未患前列腺癌。前列腺组织样品可以不包括肿瘤细胞，或前列腺组织样品可以包括肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文的表(例如表3或表4)中列出的基因。方法可以包含确定10个或以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述10个或以上前列腺癌特征基因的参比表达水平，以及如果测量的表达水平显著高于或低于参比表达水平，将对象分类为患有可能复发的前列腺癌，或者如果测量的表达水平不显著高于或低于参比表达水平，则将对象分类为患有可能不会复发的前列腺癌。该10个或以上前列腺癌特征基因选自例如本文表3或表4中列出的基因。方法可以包含确定20个或以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述20个或以上前列腺癌特征基因的参比表达水平，以及如果测量的表达水平显著高于或低于参比表达水平，将对象分类为患有可能复发的前列腺癌，或者如果测量的表达水平不显著高于或低于参比表达水平，则将对象分类为患有可能不会复发的前列腺癌。该20个或以上前列腺癌特征基因选自本文表3或表4中列出的基因。

本文件的特征还在于确定被诊断患有前列腺癌的对象的预后的方法，所述方法包含：(a)提供来自对象的前列腺组织样品；(b)测量样品中前列腺癌特征基因的表达水平；(c)将前列腺癌特征基因的测量的表达水平与参比表达水平进行比较；以及(d)如果测量的表达水平不显著高于或低于参比表达水平，将对象鉴定为与测量的表达水平显著高于或低于参比表达水平的情况相比具有相对较好的预后，或者如果测量的表达水平显著高于或低于参比表达水平，则将对象鉴定为与测量的表达水平不显著高于或低于参比表达水平的情况相比具有相对较差的预后。前列腺组织样品可以不包括肿瘤细胞，或者前列腺组织样品可以包括肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文的表(例如表8A或8B)中列出的基因。

此外，本文件提供了用于鉴定对象患有或未患前列腺癌的方法，所述方法包含：(a)提供来自对象的前列腺组织样品，其中样品包含前列腺基质细胞；(b)测量基质细胞中一个或多个基因的表达水平，其中所述一个或多个基因是前列腺癌特征基因；(c)将一个或多个基因的测量的表达水平与参比表达水平进行比较，其中参比表达水平在来自非癌性前列腺组织的基质细胞中测定；以及(d)如果测量的表达水平显著高于或低于参比表达水平，将对象鉴定为患有前列腺癌，而如果测量的表达水平不显著高于或低于参比表达水平，则将对象鉴定为未患前列腺癌。前列腺组织样品可以不包括肿瘤细胞，或者前列腺组织样品可以包括肿瘤细胞和基质细胞。前列腺癌特征基因可以选自例如本文的表3或表4中列出的基因。

本文件还提供了用于确定被诊断患有前列腺癌的对象的预后的方法，所述方法包含：(a)提供来自对象的前列腺组织样品，其中样品包含前列腺基质细胞；(b)测量基质细胞中一个或多个基因的表达水平，其中所述一个或多个基因是前列腺癌特征基因；(c)将所述一个或多个基因的测量的表达水平与参比表达水平进行比较，其中参比表达水平在来自非癌性前列腺组织的基质细胞中测定；以及(d)如果测量的表达水平不显著高于或低于参比表达水平，将对象鉴定为与测量的表达水平显著高于或低于参比表达水平的情况相比具有相对较好的预后，或者如果测量的表达水平显著高于或低于参比表达水平，则将对象鉴定为与测量的表达水平不显著高于或低于参比表达水平的情况相比具有相对较差的预后。前列腺组织样品可以不包括肿瘤细胞，或者前列腺组织样品可以包括肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文的表(例如表3或表4)中列出的基因。

此外，本文件的特征在于鉴定对象患有或未患前列腺癌的方法，所述方法包含：(a)提供来自对象的前列腺组织样品；(b)测量样品中一个或多个前列腺细胞类型预测基因的表达水平；(c)根据测量的表达水平确定样品中的组织类型百分率；(d)测量样品中一个或多个前列腺癌特征基因的表达水平；(e)根据组织类型百分率和测量的表达水平确定分类物；以及(f)如果分类物落入前列腺癌分类物的预定范围内，将对象鉴定为患有前列腺癌，而如果分类物未落入预定范围内，则将对象鉴定为未患前列腺癌。步骤(b)和(d)可以同时进行。

本文件的特征还在于确定被诊断患有前列腺癌并进行过前列腺癌治疗的对象的预后的方法，所述方法包含：(a)提供来自对象的前列腺组织样品；(b)测量样品中一个或多个前列腺组织预测基因的表达水平；(c)根据测量的表达水平确定样品中的组织类型百分率；(d)测量样品中一个或多个前列腺癌特征基因的表达水平；(e)根据组织类型百分率和测量的表达水平确定分类物；以及(f)如果分类物落入前列腺癌复发分类物的预定范围内，将对象鉴定为可能复发，而如果分类物未落入定范围内，则将对象鉴定为可能不复发。步骤(b)和(d)同时进行。

在某些实施方案中，本文描述的方法可用于鉴定组织样品中两种或更多种组织类型的比例。这样的方法可以包括例如：(a)使用来自动物或植物中与组织样品具有相似解剖位置的、组织比例已知的一组其他样品，其中至少两个其他样品包含的所述两种或更多种细胞类型每一种的相对含量不相同；(b)测量每个其他样品中一种或多种基因表达或蛋白质分析物的总体水平；(c)确定其他样品中每种组织类型的相对比例与每种基因表达或蛋白质分析物的测量的总体水平之间的回归关系；(d)选择与其他样品中的组织比例相关的一种或多种分析物；(e)测量组织样品中步骤(d)的一种或多种分析物的总体水平；(f)将组织样品中每种分析物的水平与步骤(d)中分析物的水平进行匹配，以确定组织样品中每种组织类型的预测比例；以及(g)使用所有估算值的中位数或平均比例，在步骤(f)中获得的组织样品的预测组织比例中进行选择。组织样品可以包含癌细胞(例如前列腺癌细胞)。

本文描述的方法可用于在各含一个以上测量样品的两组数据中，比较通过一种或多种与生物现象的变化相关的方法所预测的两种或更多种分析物的水平。这样的方法可以包含：(a)只选择在这两组数据中都被分析的分析物；(b)使用比较法例如与生物现象的变化相关的最高概率或最低假发现率，对每组数据中的分析物进行排序；(c)将步骤(b)中每个排序列表中的一组分析物进行相互比较，选择两个列表中都出现的分析物，并确定在两个列表中都出现并显示出在与生物现象相关的水平变化上方向相同的分析物数量；以及(d)根据比较的数量将随机显示出观察到的变化方向相同的数量的概率，计算一致性分值。在步骤(a)中，可以改变每个列表的长度，以确定两个排序表的最大一致性分值。

在下面的实施例中将对本发明进行进一步描述，所述实施例不限制在权利要求书中描述的本发明的范围。

实施例

实施例1-使用在邻肿瘤基质中差异表达的基因，不使用肿瘤细胞诊断前列腺癌

在美国，每年进行超过一百万次的前列腺活组织检查。然而，由于存在不明确的结构或持续的临床怀疑，病理学检查在相当大比例的病例中不是决定性的。为了调查肿瘤微环境与正常基质中相比基因表达的变化，将来自15位志愿者的活检样本的基因表达谱与来自13个主要包含邻肿瘤基质的样本的表达谱进行了比较。如下所述，鉴定到了一千个以上明显的表达变化，并对其进行过滤以消除可能的衰老相关基因以及在肿瘤细胞中也以可检测水平表达的基因。基于114个剩余的独特候选物基因构建了基质特异性分类物(131个Affymetrix探针组)。在380个独立病例，包括255个带肿瘤病例和125个无肿瘤病例(正常活检样品、正常尸检样品、远处基质以及单纯邻肿瘤基质)上对分类物进行了测试。分类物预测患者肿瘤状态的平均准确率为97.4％(灵敏度＝98.0％，特异性＝89.7％)，而随机产生并训练的分类物没有诊断价值。这些结果表明，前列腺癌微环境表现出可重复的改变，可用于将基质分类为“存在肿瘤”和“不存在肿瘤”。

前列腺癌患者的样品和表达分析：数据集1和2(表1)使用前列腺切除术后冷冻组织样品获得。除了注明的之外，所有组织都在手术时收集并护送到病理部门进行快速检查、剖分并在液氮中速冻。从在低温恒温器协助下剖开OCT(最适切割温度化合物)块后的冷冻组织直接制备用于表达分析的RNA。为了进行表达分析，对50微克(活检组织为10微克)总RNA样品进行处理，用于与Affymetrix基因芯片杂交。

数据集1由来自87位患者的109个前列腺切除术后冷冻组织样品构成。22例被分析两次，使用了一个来自富肿瘤样本的样品和一个来自非肿瘤样本(与肿瘤的距离在1.5cm以上)、通常为对侧叶的样品。此外，数据集1含有作为新鲜速冻活检核心获得的27个前列腺活检样本，所述核心来自评估二氟甲基鸟氨酸(DFMO)在减小正常男性前列腺尺寸中的作用的临床试验中的18位正常参加者(Simoneau等(2008)Cancer Epidemiol.Biomarkers Prev.17：292-299)。最后，数据集1含有从太阳卫生研究所(Sun Health Research Institute)的快速尸检项目获得的13例正常前列腺，来自平均年龄为82岁的对象。

数据集2含有来自82位患者的136个样品，其中54例分析成对的富肿瘤样品和多数例分析无肿瘤的组织，所述无肿瘤组织从与邻肿瘤组织相同的OCT块获得。该系列包括了表达系数经验证的样本(Stuart等(2004)Proc.Natl.Acad.Sci.U.S.A.101：615-620)。

数据集1和2的表达分析分别使用Affymetrix U133Plus2和U133A基因芯片进行；表达数据可以在万维网网站ncbi.nlm.nih.gov/geo上的GEO数据库公开获得，登记号为GSE17951(数据集1)和GSE8218(数据集2)。对于这两个数据集来说，从冷冻切片确定了四种主要细胞类型(肿瘤上皮细胞、基质细胞、BPH的上皮细胞和扩张囊性腺的上皮细胞)的细胞类型分布，所述冷冻切片在切片被三位(数据集1)或四位(数据集2)病理学家合并以用于RNA制备之前或之后立即按照描述制备(Stuart等，同上)，所述病理学家的估算值被平均。数据集1和2的肿瘤百分率分布显示在图1B和1C中。

数据集3由已发表的79个病例的系列构成(Stephenson等(2005)Cancer 104：290-298)，所述病例的表达数据使用Affymetrix U133A芯片测量。在数据收集时没有记录细胞组成。使用不随Gleason肿瘤外科病理参数和分期而变的多基因特征，通过CellPred程序(万维网网站webarraydb.org)估计了细胞组成，其证实了所有79个样品包含肿瘤细胞，肿瘤含量在24％至87％的范围内(图1D)。

数据集4包括来自44位患者的57个样品，包括13个邻肿瘤基质样品和44个带肿瘤样品。这57个样品中的基因表达使用AffymetrixU133A基因芯片来测量。肿瘤百分率(范围从0％至80％，图1E)使用CellPred程序估计。

数据集5由使用冷冻组织样品通过激光捕获显微切割(LCM)收集的4个合并的正常基质样品和12个肿瘤样品构成。每个合并的正常基质样品从可用于本文描述的研究方案的手术样品中没有回收到肿瘤的样本的两份LCM捕获的基质样品合并而成，而肿瘤样品是LCM捕获的前列腺癌细胞。这16个样品中的基因表达(使用10微克总RNA)使用Affymetrix U133Plus2芯片测量。

与用于数据集2、3和4的U133A(具有～22,000个探针组)相比，用于数据集1和5的U133Plus2平台具有约30,000个以上探针组。为了获得跨多个数据集的分析，只使用了这两个平台共有的探针，即在每个数据集中只考虑约22,000个共同探针组。首先，使用LIMMA程序的“normalizeQuantiles()”功能将数据集1进行分位数归一化(Dalgaard(2002)Statistics and Computing：Introductory Statistics with R(《统计学与计算：介绍使用R的统计学》)，p.260，Springer-VerlagInc.，New York。然后参考归一化的数据集1，使用可以从ZJ获得的改良功能“REFnormalizeQuantiles()”对数据集2-5进行分位数归一化。

在R.中执行的统计工具：用于微阵列数据的线性模型(来自Bioconductor的LIMMA软件包，在万维网网站bioconductor.org上)被用来检测差异表达的基因。使用微阵列的预测分析(PAM，由来自Bioconductor的PAMR软件包执行)从训练组开发基于表达的分类物，然后不经任何改变应用于测试组(Guo等(2007)Biostatistics8：86-100)。使用Fisher精确检验来证实分类物在远处基质相对邻肿瘤基质上进行测试时的有效性。使用Fisher检验代替卡方检验是因为卡方检验不适合于表的任何细胞中的预测值低于10时的情形。所有统计分析使用R语言进行(万维网网站r-project.org)。

多重线性回归模型：使用多重线性回归(MLR)模型，在提供了病理细胞组成数据的情况下，将观察到的基因的Affymetrix强度描述为来自不同细胞类型的贡献的总和：

g = β_{0} + Σ_{j = 1}^{C} β_{j} p_{j} + e, - - - (1)

其中g是基因的表达值，p是由病理学家确定的百分率数据，β是与不同细胞类型相关的表达系数。在模型(1)中，C是所考虑的组织类型的数量。在本情况下，包括了三种主要组织类型，即肿瘤、基质和BPH。β_j是在细胞类型j中的相对表达水平与总体平均表达水平β₀相比的估算值(即表达系数)。将回归模型应用于数据集1中的患者病例，以获得模型参数(β)及其相应的p-值，其可用于辅助其后的基因筛选。在前列腺癌表达数据上的应用以及通过免疫组织化学和通过将衍生的β_j值与通过qPCR分析的LCM衍生样品相关联进行的验证，已被描述(Stuart等，同上)。

源自于基质的基因的鉴定和诊断分类物的开发：假设在浸润性肿瘤的前列腺癌上皮细胞结构内并与其直接相邻的基质与正常前列腺基质相比表现出显著的RNA表达变化。为了获得邻肿瘤基质与正常基质的初始比较，使用正常新鲜冷冻活检组织作为正常基质的来源。在27个正常活检样品中，15个样品选自15个不同参加者。剩余的12个活检样品被留作测试。获得了基因表达微阵列数据，并与数据集1中选择的肿瘤(T)大于0％但是小于10％肿瘤细胞含量(平均基质含量～80％)的13个带肿瘤患者病例进行比较。这些标准确保了包含的大部分基质组织接近肿瘤，同时T＜10％确保了来自肿瘤细胞的影响被最小化，因为目的是从基质细胞而不是肿瘤细胞捕获改变的表达信号。

因为可用的活检样品数量有限，因此采用了置换策略以最大化它们的使用。首先选择15个正常活检样品中的13个，并使用在R的LIMMA软件包中执行的适中t-检验(Dalgaard，同上)，将它们的基因表达与13个邻肿瘤基质样品进行比较。该比较在这两个组中产生了3888个表达变化，p值＜0.05。

在正常基质组(平均年龄＝51.9岁)与邻肿瘤基质组(平均年龄＝60.6岁)之间存在年龄的显著差异。将用于训练的13个正常基质样品的总体基因表达与从平均年龄为82岁的快速尸检项目(参见上文)获得的13个正常前列腺样本的总体基因表达进行比较。比较揭示了8898个明显的表达变化(p＜0.05)，其中2210个也在正常基质样品与邻肿瘤基质之间的比较(图2A)中检测到。为了消除来自衰老相关基因的潜在影响，仅仅3888-2210＝1678个基因被用于进一步调查。

与使用10％＞T＞0％的患者病例相关的潜在问题，是检测到的表达变化可能包括了对肿瘤细胞或上皮细胞特异而不是仅对基质细胞特异的表达变化。为了减少上皮细胞导致的表达变化占主要地位的可能性，使用了通过MLR分析的二次基因筛选。MLR被用于根据由四位病理学家小组确定的数据集1样品的细胞组成百分率的“知识”，来确定细胞特异性基因表达(Stuart等，同上；对于来自数据集1的87位患者的109个样品来说，分布显示在图1B中)。因此，将109个患者样品的表达数据使用MLR模型进行拟合，由此按照Stuart等(同上)所述，计算了来自各个细胞类型的比较信号(即表达系数β)和相应的p-值。模型诊断显示出显著基因(具有任何显著β)的拟合模型占总偏差的＞70％(或方程1中e的偏差＜30％的总偏差)，表明了看来合理的模拟方案。然后使用细胞特异性表达系数，通过消除在上皮细胞中的表达超过在基质细胞中表达的10％、即

的基因，来鉴定主要在基质中表达的基因。因此，从初始分析的1678个基因中，使用三个标准选择了160个候选探针组：(1)β_s＞0，

以及(3)p(β_s)＜0.1。当将β_s的值与β_T的值进行比较时，显然这160个探针组在基质细胞中的表达水平明显高于在肿瘤细胞中的表达水平(图2B)。此外，这160个探针组的平均β_s是0.011，与任何β_s＞0的平均值相比增加了两倍以上。因此，这160个所选探针组属于观察到的表达最高的基质基因。

然后进行置换分析的第二步。选择15个活检样品中不同的13个样品重复上面的程序，直到完成从15个正常活检样品中取出13个的所有可能组合(其中

是从总数为n个要素中选择m个要素的组合数量)。通过105倍基因选择程序，以图1A中概述的选择频率产生了总共339个探针组(表3)。置换使基本集增加了339/160，或扩增了2倍。

选择在105倍置换中出现至少50次(约50％)的探针组用于分类物构建。使用用于微阵列的预测分析(PAM；Tibshirani等(2002)Proc.Natl.Acad.Sci.U.S.A.99：6567-6572)建立诊断分类物。训练组(表2，第1行)包括了用于产生显著差异的所有15个正常活检样品和13个邻肿瘤基质样品。在146个PAM输入探针组中，在PAM的十折交叉验证程序后保留了131个，产生了96.4％的预测准确率。通过指示的分类物将训练组的正常和邻肿瘤基质病例分离成两个不同群体，显示在图2C中。146个探针组、包括通过PAM选择的131个探针组的完整名单，在表4中给出。许多这些基因的功能及其在间质衍生物例如肌肉、神经和结缔组织中的表达是已知的。

使用独立数据集进行测试：然后将131个要素的分类物在大量不用于训练的前列腺样品上进行测试，所述样品包括来自数据集1的55个带肿瘤病例和来自数据集2的65个带肿瘤病例。还包括了79个带肿瘤病例(数据集3)和44个带肿瘤病例(数据集4)的两个附加数据集，其中样品和表达分析两者都来自于独立机构(表1)。这四个测试集完全由带肿瘤样品构成(表2，第2至5行)。在所有四个测试中，几乎所有样品(n＝243)都以～99％的高平均准确率被识别为“肿瘤”。图1B给出了数据集1的109个患者病例的肿瘤百分率分布。两个分类错误的测试样品出现在T＝20％和25％处(在图1B中用“*”标出)，因此不限于高肿瘤含量的存在。利用PAM的分类方法不涉及任何细胞类型含量的“知识”，因此在具有广范围肿瘤上皮细胞的样品、包括仅具有低上皮细胞百分率的样品上是成功的。这样的样品由超过90％的基质细胞构成。对于数据集2的测试病例来说，肿瘤细胞组成在2％至80％的范围内(图1C)。对于数据集3和4来说，肿瘤上皮组分没有被评估，但是使用CellPred程序进行了估计。这为数据集3产生了24％至超过80％基质细胞含量的估算值，以及对数据集4来说低至0％到超过80％的基质细胞含量估算值(图1D和1E)。这些观察表明，分类物在将独立的带肿瘤样品分类为“存在肿瘤”中是精确的，并且不依赖于肿瘤上皮组分的基因表达的“识别”。

还使用主要由正常前列腺基质和上皮构成的样本对分类物进行了测试。首先，在分成两组的来自DMFO研究的12个剩余活检样品上对分类物进行了测试。组1(表2，第6行)包括了其第一个活检样品包含在训练组中的相同参加者的第二个活检样品，因此不是完全独立的病例。组2(表2，第7行)包括了没有用于训练的病例的5个活检样品。这些样品不含肿瘤，但是含有正常上皮组分，典型在～35％至～45％的范围内。获得了这12个病例的微阵列数据并用于测试。组1中的活检样品被准确地(100％)鉴定为无肿瘤。对于组2来说，5个活检样品中的两个被分类为“存在肿瘤”。然而，当查阅这些病例的历史时，发现两个都一致地表现出PSA水平升高，分别为6.1、9.6和8ng/ml(正常值＜3ng/ml)，尽管在从这些病例获得的两组各六份活检样品的任一个中没有观察到肿瘤。正常活检样品的所有其他供体显示出正常的PSA值。然后在对死于不相关病因的个体的快速尸检获得的13个样本上对分类物进行测试(表2，第8行)。这13个病例中的12个(即92.3％)被分类为无肿瘤。两个“分类错误”病例的所有包埋组织的组织学检查揭示了多个小的“潜伏”肿瘤的病灶。从正常组织抽出的25个样品被正确分类为没有肿瘤存在，或按照随后揭露的异常特点进行分类。这些结果为分类物在被研究的样品中不存在组织学可识别的肿瘤细胞的情况下辨别正常和异常前列腺组织的能力，提供了进一步支持。

通过手动显微切割和LCM验证邻肿瘤和远处基质：基于对混合组织测试样品的强有力性能，通过开发组织学验证的纯的邻肿瘤基质样品进行实验，以验证分类物。将固定在低温恒温器中OCT块中的带肿瘤组织通过冷冻切片进行检查，以观察肿瘤的位置。使用解剖刀将OCT包埋块刻出单一直线切口，以将包埋组织分成肿瘤区和邻肿瘤基质。将随后的冷冻切片分成两半，并用于H和E染色以验证它们的组成。对于具有大面积(即～10mm²)邻肿瘤基质的切片来说，将多个冷冻切片合并和用于RNA制备和微阵列杂交。最后对冷冻切片进行染色和检查，以证实它不含肿瘤细胞。对于较小的邻肿瘤区面积来说，将邻近组织作为碎片移除并以相反方向重新固定，并制作最后的冷冻切片以验证碎片不含肿瘤细胞。然后将该组织用于RNA制备和表达分析。

使用手动显微切割方法，从数据集2的样品获得了71个邻肿瘤基质样品，从数据集4的样品获得13个，并从数据集1的样品获得12个。然后将这些邻肿瘤基质样品用于表达分析。使用PAM程序测试131个分类物探针组的表达值。对于分类为“存在肿瘤”，观察到了97.1％、100％和75％的准确率(表2，第9-11行)。这些结果表明，对于96个独立样品来说，总准确率为94.7％。

最后，从数据集5的样品制备用于检查的激光捕获显微切割样品。制备了12个肿瘤细胞样品作为100％前列腺癌细胞，同时从在可用于研究方案的手术样品中没有回收到肿瘤的病例制备了4个合并的基质对照样品。这些样品被分类物分别分类为100％“存在肿瘤”和100％“不存在肿瘤”。

因为几个病例(特别是来自数据集1的)似乎“分类错误”，因此了解肿瘤基质的表达变化特性可以延伸到离已知肿瘤位点多远，将是有意义的。用于各种已知距离处的系统分析样品的组织不够，但是可以获得来自数据集1的28个病例，它们距离相同腺体的肿瘤位点超过1.5cm，并且一般来自于供体腺体的对侧叶。从所有碎片收集阵列数据并通过分类物进行分类。28个样品中仅有10个(35.7％)被分类为肿瘤相关基质。使用Fisher精确检验，将该分类的分布与从数据集1的样品手动制备的12个原始邻肿瘤基质样品的分布进行比较(表2，第11行)。通过Fisher精确检验判断，28个“远处”样品的分布与相同病例的12个真实的邻肿瘤基质样品的类别分布显著不同，p＝0.038。该结果强烈提示，在从相同的带肿瘤腺体的任意位点获取的基质中邻肿瘤基质的表达变化不是不可避免的，并可能反映出与肿瘤的邻近性影响本文开发的分类物基因的表达变化。

与随机基因分类物的比较：为了进一步验证131个要素的诊断分类物，执行了100个随机实验。在每个实验中，从总共22277个探针组中减除9376个衰老相关的探针组而获得的12,901个探针组的基础中，随机选择1,700个探针组，其中9376个衰老相关的表达变化完全按照前面的定义。最后，使用与用于开发131个要素的分类物相同的MLR标准，对取样的探针组进行筛选，所述标准即：(1)β_s＞0，(2)β_s＞10xβ_T，和(3)p(β_s＜0.1)。在每个随机实验中，在MLR过滤后留下的基因，使用PAM，以与用于131个探针组的分类物完全相同的方法，用来开发分类物。PAM选择平均6.2个探针组(＜＜131个)，并且这些随机基因分类物建立在其他数据集测试基础上的平均性能，归纳在表5中。这些随机基因分类物不能检测大多数测试组中肿瘤的存在。然而，随机分类物在定义数据集1的正态分布中特别差，产生了8.7％(表5，第2行)的灵敏度，表明朝向“不存在肿瘤”的偏倚。这与由于朝向“不存在肿瘤”的类似偏倚引起的第二次缺乏正态分布相关，但是这次影响正常组织，从而产生了准确率表现为平均82.3％(表5，平均值第6-9和13行)。然而，总的来说，随机模型倾向于正态分布，并具有12.9％至19.2％范围内的不良准确率，表明使用所开发的131个探针组的分类物获得的结果不能归因于偶然性。

表3.按照本文描述产生的基本基因集

表4.对于105倍基因选择程序来说关联数大于50的146个诊断探针组。当146个探针组被用作训练的输入时，通过PAM取消了对底部15个加阴影探针组的选择。

¹logFC是肿瘤基质与正常基质相比的数变化的对数。+/-表示在肿瘤性基质中上调/下调的表达水平。

实施例2-开发前列腺癌的预测性生物标志物

在本实施例中描述了在开发前列腺癌的预测性基因特征中使用的三种方法。首先，描述了基于线性组合模型的分析方法，用于从混合细胞类型前列腺组织的阵列数据中确定肿瘤上皮细胞和基质细胞的细胞组成百分数。方法利用了对于肿瘤上皮和基质细胞来说表达特性不同的少数(＜100个)基因的固定表达系数。

其次，描述并验证了一种使用扩展的线性组合模型来确定用于预测前列腺癌复发的肿瘤细胞特异性生物标志物的新方法。产生了基于前列腺癌上皮细胞的RNA表达的基因表达谱，其能够预测复发(侵袭性)与未复发(惰性)前列腺癌的差异基因表达。描述了在独立的前列腺癌患者组中通过身份识别对这些基因进行的验证(技术性回顾验证)。这种方法可用于从诊断时获得的数据鉴定侵袭性前列腺癌。方法和情况分析是新颖的。

第三，描述了确定用于预测前列腺癌复发的基质细胞特异性生物标志物的类似的新方法。因此，预测是基于非肿瘤细胞类型。产生了基于带肿瘤的前列腺组织的基质细胞RNA表达的基因表达谱，其能够预测复发(侵袭性)与未复发(惰性)前列腺癌的差异基因表达，这种预测通过对独立的前列腺癌患者组的差异进行预测来验证(技术性回顾验证)。这些方法和表达谱可用于从诊断时获得的数据鉴定侵袭性前列腺癌。结果还表明，前列腺癌肿瘤病灶的微环境在诊断时表现出改变的基因表达，其在未复发和复发前列腺癌中是不同的。

数据集：本研究的目的是继续开发前列腺癌的预测性生物标志物。具体来说，本研究的目的是使用独立的数据集来验证根据数据集1的研究被推论是预测性的基因(参见下文)。这里，“数据集”是指给定组的所有病例的基于阵列的RNA表达数据，以及定义了给定病例是复发(复发癌症)还是保持无病的临床数据，是经过审查的量。在这里描述的分析中只使用了复发或未复发的分类值。

用于本研究的三个数据集包括1)从91位患者获取的148个Affymetrix U133A阵列数据(可以在GEO数据库中公开获得，登记号为GSE8218)，其是在前面的研究中使用的主要数据集；2)来自103位患者的Illumina(来自Illumina Inc.，San Diego)珠子阵列数据，与在115阵列上分析的已发表的数据集相同(Bibilova等(2007)Genomics89：666-672)；以及3)来自79位患者的Affymetrix U133A阵列数据，也是已发表的数据集(Stephenson等，同上)。它们在本实施例中分别被称为数据集1、2和3。

出于本文的目的，复发前列腺癌被当作侵袭性疾病的代表，而未复发被当作不同惰性程度与无疾病存活时间成正比的惰性疾病。数据集1包含40位未复发患者和47位复发患者；数据集2包含75位未复发患者和22位复发患者，数据集3包含42位未复发患者和37位复发患者。前两个数据集样品具有各种不同量的不同组织和细胞类型，包括肿瘤细胞、基质细胞(成纤维细胞、肌成纤维细胞、平滑肌和少量神经和血管成分的合称)、BPH(良性前列腺肥大的上皮细胞)和扩张囊性腺(又称“萎缩”囊性腺)，数据集1由四位病理学家评估(Stuart等，同上)，数据集2由一位病理学家评估。数据集3的样品是富含肿瘤的样品。在本研究中，已发表的数据集2和3仅用于验证目的。本研究的主要目的是使用“外部”已发表的数据集验证在数据集1分析的基础上推断的基因性质。

确定前列腺癌中的细胞特异性基因表达：将线性模型应用于来自由四位病理学家组评估的具有各种不同量的不同细胞类型的前列腺组织的微阵列数据，按照已发表的方法(Stuart等，同上)，将鉴定到的基因鉴定为在前列腺组织的不同细胞类型(肿瘤、基质、BPH和扩张囊性腺)中特异性表达。因此，应用了下列线性模型以产生组织特异性基因。

模型1-对于任何基因i，来自Affymetrix基因芯片的杂交强度G_i是由于细胞对总mRNA贡献的总和：

G_i＝(β_肿瘤·P_肿瘤+β_基质·P_基质+β_BPH·P_BPH+β_{扩张囊性腺}·P_{扩张囊性腺})_i

其中“细胞贡献”是细胞组分的量P_细胞类型乘以该细胞类型的基因i的特征性表达水平β。只有β值是未知的，并通过简单或多重线性回归来确定。注意，一般来说，为了估算四个未知β，一般需要最少4个G_i估算值(即4个病例)，然而在实践中有几十个病例可用，使得未知系数被“过度确定”。

模型2-因为扩张囊性腺的上皮不是前列腺组织的主要组分，因此可以将其从线性模型中移除以简化模型。

G_i＝(β_肿瘤·P_肿瘤+β_基质·P_基质+β_BPH·P_BPH)_i

模型3～6-为了进一步简化模型，也可以将细胞组成考虑成两种不同细胞类型，通常为一种特异性细胞类型和分组在一起的所有其他细胞类型。

G_i＝(β_肿瘤·P_肿瘤+β_非肿瘤·P_非肿瘤)_i

G_i＝(β_基质·P_基质+β_非基质·P_非基质)_i

G_i＝(β_BPH·P_BPH+β_非BPH·P_非BPH)_i

G_i＝(β_{扩张囊性腺}·P_{扩张囊性腺}+β_{非扩张囊性腺}·P_{非扩张囊性腺})_i

使用数据集1从模型3和4开发的基因名单(具有p＜0.001)列在表6中。

使用基因表达谱确定细胞类型组成预测的新方法：使用基于少数列出的细胞特异性基因、即来自表6的基因的线性模型，可以仅使用微阵列数据，利用模型3估算在与阵列杂交的样品中细胞类型的近似百分率。潜在地，表6中的所有基因都可用于细胞组成百分率预测。对于每个单个基因来说，可以将新样品来自微阵列数据的基因表达值拟合于模型3～6，用于预测相应的细胞类型百分率。在模型3中使用的每个基因提供了肿瘤细胞组成百分率的估算值。基于多个基因的预测的中位数被用于产生肿瘤细胞含量的更可靠的估算结果。这些预测基因可以根据它们的相关系数(基因表达水平与细胞类型百分率之间的相关性)或根据具有最佳预测力的基因组合来选择/排序。在本发明的情形中，只有非常有限数量的基因(8-52个基因)被用于这种预测。甚至更少的基因也可能是足够的。

为了验证肿瘤或基质组成百分率确定方法，将数据集1的已知组成百分率数字用于预测具有已知细胞组成的数据集2的肿瘤细胞和基质细胞组成。例如，用于数据集1和数据集2之间细胞类型(肿瘤上皮细胞或基质细胞)预测的的基因数量在8至52个基因的范围内，所述基因列于表7A。预测的细胞类型百分率(肿瘤上皮细胞或基质细胞)与病理学家估计的百分率之间的泊松相关系数在0.7至0.87的范围内。从数据集2鉴定到并用于预测的组织(肿瘤或基质)特异性基因列于表7B中。

因为数据集1和数据集2的数据是基于不同阵列平台，因此使用中位数排序分值(MRS)方法(Warnat等(2005)BMC Bioinformatics6：265)，应用了跨平台归一化。图3A和3B显示了使用数据集1的参数来预测数据集2的细胞组成。观察到的和计算的细胞类型组成的相关性的泊松相关系数分别为0.74和0.70。使用数据集2的参数计算数据集1的肿瘤和基质细胞组成百分率的逆向计算，分别显示在图3C和3D中。泊松相关系数分别是0.87和0.78。四位病理学家之间独立确定的数据集1中相同样品的组成估算值的泊松系数范围是0.85-0.95(Stuart等，同上)。因此，计算机估算值具有的相关性几乎完全包含在病理学家之间的变差内，表明计算机估算在性能上至少与病理学家类似，并保留了计算机估算比病理学家更精确的可能性。

用于确定前列腺癌的细胞特异性复发相关基因的新方法：使用数据集1，使用下列线性模型估算了与患者复发状态相关的基因。

模型7

G_i＝β′_肿瘤i P_肿瘤+β′_基质，i P_基质+β′_BPH，i P_BPH+β′_{扩张囊性腺，i} P_{扩张囊性腺}+rs(γ_肿瘤，i P_肿瘤+γ_基质，i P_基质+γ_BPH，i P_BPH+γ_{扩张囊性腺，i} P_{扩张囊性腺})

对于任何基因i来说，G_i(阵列报告的基因强度)＝4种细胞类型对未复发病例贡献的总和(β_{细胞类型，i}×百分数_细胞类型)+4种细胞类型对复发病例贡献的总和(γ_{细胞类型，i}×百分率_细胞类型)+误差项。RS可以是0或1，其中0用于所有未复发病例，并且RS＝0被用于复发病例。因此，当RS＝0时，确定未复发病例的表达系数β’，而当RS＝1时，确定系数(β’+γ)。系数的数值通过多重线性回归，使用最小二乘法测定的最佳拟合系数±误差来确定。未复发(β’)和复发(β’+γ)之间的表达差异仅仅为γ，并且显著性γ可以通过T-检验和其他标准统计方法来估算。

模型8～11-也提供了下列模型以简化模型：

G_i＝β′_肿瘤，i P_肿瘤+β′_{复发状态，i} RS+β′_{相互作用，i} P_肿瘤：RS

G_i＝β′_基质，i P_基质+β′_{复发状态，i} RS+β′_{相互作用，i} P_基质：RS

G_i＝β’_肿瘤，iP_肿瘤+β’_{复发状态，i}RS+β’_{相互作用，i}P_肿瘤：RS

G_i＝β′_{扩张囊性腺，i} P_肿瘤+β′_{复发状态，i} RS+β′_{相互作用，i} P_{扩张囊性腺}：RS

只将肿瘤上皮细胞＞0％的样品用于上述分析，以排除那些远基质样品(即带有非肿瘤细胞的样品)。这种“远基质”的排除适应于下述可能性，即基质可能含有具有癌症的前列腺特征性的表达变化，但是这些变化可能局限于靠近肿瘤细胞的基质区域中。因为使用了来自某些对象的多个样品，因此使用了在R(即开源R生物信息学分析软件包)的“gee”文库中实施的估算方程方法(Zeger和Liang(1986)Biometrics 42：121-130)。使用模型8-9，细胞类型(肿瘤上皮细胞或基质细胞)特异性基因在复发和未复发样品之间显示出明显的(p＜0.005)表达水平变化，并列于表8A和8B中。

然后使用独立的数据集3对基因名单进行验证，以测试是否独立鉴定到任何相同基因。因为数据集3具有未知肿瘤/基质含量，因此在测试表8A和8B的基因的预测潜力之前首先使用该方法来预测肿瘤/基质百分率(图4A-4C)。使用p＜0.01作为截止值，产生了细胞类型(肿瘤上皮细胞或基质细胞)特异性复发相关基因。在这两个数据集中有15个基因与肿瘤细胞中的复发显著相关。12个基因的身份和征象(复发中的方向)相符。检验了12个基因相符并且身份和征象与随机没有差别的零假设，产生了p＜0.007。因此通过符合标准验证了这些基因。过程概述在表9中。将这些在数据集1和3中都存在的显著基因与在两个数据集之间征象不一致的其他三个基因一起，作图于图5A中，该图比较了这些基因在这两个数据集中的表达系数。这些基因在两个数据集中几乎都显示出相符，泊松相关系数为0.83。进而，相符的基因在幅度上也一致。这些基因列于表10中。

为了确定基质细胞特异性基因，执行了类似的分析(图5B，表9)。16个基因在这两个数据集中显示出相关性，并且所有这些基因在这两个数据集中都具有相同方向(p＜0.001)。这16个基因表现出0.93的泊松相关系数。该结果表明，基于基质细胞的分类物可能具有关于复发的预测信息。从数据集1和3的分析中确定的这些基因列于表11中。

使用数据集1和2执行了类似分析，其中用于数据集2的显著性截止值为0.2(表9)。尽管数据集3的阵列相对小(～500个基因)，在该阈值下仍鉴定到13个相符的基因。这13个基因中的10个在这两个数据集中具有相同的复发方向(p＜0.011)，如图5C中所示。因此，通过在独立数据集中的符合标准，在独立数据集中对这10个基因进行了验证。具有相同方向的10个共同基因列于表12中。一个基因PPAP2B(Affymetrix ID：212230_at)在复发病例中下调，并在数据集1和2中是共同的。

对基质特异性表达基因的类似分析表明，BTG2是基质特异性复发基因(Affymetrix ID：201235_s_at)，其是数据集1和2中的共同基因，在这两个数据集中显示出上调。

这些结果表明，在考虑肿瘤百分率后，可以提取出三组验证过的具有显著差异表达的基因，通过分析在诊断时获得的表达数据，这些基因可用于复发的预测。

表6.使用数据集1检测到的组织特异性基因(p＜0.005)。正常字体：被上调的基因；斜体：被下调的基因。

表7A.用于预测的组织(肿瘤或基质)特异性基因。正常字体：被上调的基因。斜体：被下调的基因。肿瘤特异性基因名单1-基于通过数据集1产生的模型用于肿瘤百分率预测的基因。肿瘤特异性基因名单2-基于通过数据集2产生的模型用于肿瘤百分率预测的基因。基质特异性基因名单1-基于通过数据集1产生的模型用于基质百分率预测的基因。基质特异性基因名单2-基于通过数据集2产生的模型用于基质百分率预测的基因。

表7B.从数据集2鉴定的用于预测的组织(肿瘤或基质)特异性基因。

肿瘤特异性，上调的	肿瘤特异性，下调的	基特异性，上调的	基质特异性，下调的
				SIM2	EXT1	TBXA2R	STRA13
AMACR	ANXA2	XLKD1	ZABC1
				MKI67	TIMP2	DCC	SIAT1
CRISP3	KIAA0172	SLIT3	ARFIP2
				HOXC6	VCL	FGF18	SLC39A6
RET_var1	MET	STAC	TUSC3
				DNAH5	ILK	GNAZ	STEAP2
MELK	TGFB2	NTRK3	CAMKK2
				HPN_var1	STOM	SYNE1	BNIP3
PCGEM1	MLCK	DAT1	BDH
				GI_2094528	TGFBR3	MAL	REPS2
TMSNB	MEIS2	NGFB	GDF15
				MYBL2	KIP2	DF	TMEPAI
UBE2C	PDLIM7	SIAT7D	ATP2C1
				FOLH1	PPAP2B	NTN1	GI_22761402
DKFZp434C0931	IGF2	CES1	GI_4884218
				F5	UB1	ZAKI-4	memD
HPN_var2	CRYAB	FGF2	tom1样
				RAB3B	CNN1	G6PD	TNFSF10
HNF-3-α	FZD7	EDNRB	PRSS8
				EZH2	KAI1	IFI27	MCCC2
ECT2	NBL1	GSTP1	TFAP2C
				CDC6	MMP2	GSTM4	ACPP
NY-REN-41	SERPINF1	GAS1	DHCR24
				GPR43	UNC5C	ITGA5	MLP
NETO2	CAV2	RRAS	ERBB3
				D-PCa-2_mRNA	HNMP-1	BC008967	LIPH
BIK	GJA1	MMP2	PYCR1
				GALNT3	TGFB3	ITGB3	NSP
PTTG1	ITPR1	AKAP2	LOC129642
				FBP1	GSTM3	LAMA4	CLUL1
rap1GAP	CLU	BCL2_β	TSPAN-1
				GI_3360414	TU3A	SOLH	NKX3-1
KIAA0869	CAV1	UNC5C	hAG-2/R
				MLP	GSTM4	CAV1	hRVP1
TACSTD1	ZAKI-4	KIAK0002	CDH1
				GI_10437016	TGFB2_cds	CLU	MOAT-B
MCCC2	LTBP4	PLS3	SYT7
				STEAP	ITGB3	ITPR1	KLK4
LOC129642	BC008967	HNMP-1	STEAP
				GI_4884218	KIAK0002	COL4A2	NY-REN-41
ERBB3	GSTM5	FZD7	GI_3360414
				KIAA0389	EDNRB	GSTM5	GI_10437016
PYCR1	KIAA0003	LOC119587	FBP1
				memD	PTGS2	LTBP4	NETO2
GI_22761402	RRAS	HGF	BMPR1B
				LIM	GAS1	CAV2	GPR43
GALNT1	G6PD	TRAF5	TACSTD1
				BMPR1B	ALDH1A2	COL5A2	MYBL2
SLC43A1	FGF2	GJA1	GALNT3
				MCM2	LSAMP	TGFB2_cds	KIAA0869
COBLL1	BCL2_β	KIAA0003	ESM1
				REPS2	MAL	KIP2	UBE2C
NKX3-1	ITGA5	UB1	F5
				NME1	FGFR2	GSTM3	D-PCa-2_var2
DKFZP564B167	FGF18	CRYAB	GI_2094528
				HSD17B4	SLIT3	ANTXR1	MELK
TMEPAI	TRIM29	CNN1	HOXC6
				CAMKK2	SIAT7D	TU3A	SPDEF
GDF15	GSTP1	IGF2	RET_var1
				P1	GNAZ	SERPINF1	rap1GAP
PAICS	XLKD1	PDLIM7	HPN_var2
					NTRK3	PPAP2B	BIK
	DF	TGFBR3	MKI67
					CES1	GI_2056367	HNF-3-α
	SYNE1	ANGPTL2	D-PCa-2_var1
					NTN1	ILK	D-PCa-2_mRNA
	SRD5A2	ITSN	TRPM8
					DCC	COL1A1	DNAH5
	STAC	STOM	CRISP3
					TBXA2R	VCL	RAB3B
	CCK	KAI1	AMACR
						CAPL	HPN_var1
		MLCK	TMSNB
						KIAA0172	FOLH1
		SPARCL1	PCGEM1
						MMP14	DD3
		TIMP2	SIM2
						CALM1
		MEIS2
						EXT1

表8A.组织(肿瘤或基质)特异性复发相关基因。

表8B.组织(肿瘤或基质)特异性复发相关基因。正常字体：被上调的基因。斜体：被下调的基因。

表9.使用独立前列腺病例组进行基因验证的概述

验证
				显著的肿瘤特异性复发相关基因(数据集1&3)
	p阈值	上调的	下调的
				数据集1	p＜0.005	332	258
数据集3	p＜0.01	310	147

两个数据集中都存在的基因数量	22283
				重叠显著基因的数量	15
征象一致的重叠显著基因的数量	12
				p值	0.007

				显著的基质特异性复发相关基因(数据集1&3)
	p阈值	上调的	下调的
				数据集1	p＜0.005	197	219
数据集3	p＜0.01	200	474

两个数据集中都存在的基因数量	22283
				重叠显著基因的数量	16
征象一致的重叠显著基因的数量	16
				p值	＜0.001

				显著的肿瘤特异性复发相关基因(数据集1&2)
	p阈值	上调的	下调的
				数据集1	p＜0.005	10	20
数据集2	p＜0.2	108	142

两个数据集中都存在的基因数量	730
				重叠显著基因的数量	13
征象一致的重叠显著基因的数量	10
				p值	0.011

表10.使用线性模型通过数据集1和数据集3两者鉴定到的肿瘤特异性复发相关基因。

表11.使用线性模型通过数据集1和数据集3两者鉴定到的基质特异性复发相关基因。

表12.使用线性模型通过数据集1和数据集2两者鉴定到的肿瘤特异性复发相关基因。

实施例3-基于表达谱分析数据对癌组织中组织组分的计算机估算

本实施例涉及基于微阵列数据使用线性模型预测前列腺样品的组织组分。该策略可用于估算每个病例中组织组分的比例，从而减少作为样品间变异性主要来源的组织比例的影响。通过在每个数据集中使用十折交叉验证，也通过跨独立数据集的相互预测，对预测模型进行了检验。

前列腺癌微阵列数据集：在本研究中包含了具有病理学家评估的组织组分信息的四个可公开获得的前列腺癌数据集(数据集1至4)(表13)。对于所有数据集来说，从病理学家将切片合并以用于RNA制备之前或之后立即制备的切片上，确定了四种主要组织组分(肿瘤细胞、基质细胞、BPH的上皮细胞和扩张囊性腺的上皮细胞)。四个数据集的组织组分分布显示在表13中。

还收集了4个可公开获得的微阵列数据集(数据集5至8)。它们包括从前列腺组织的219个富含肿瘤的部分和19个无肿瘤部分产生的总共238个阵列，如表14中所示。数据集5由两组(37例复发和42例未复发)总共79例病例构成。在这四个数据集中使用的样品没有与组织组分信息相关的详细情况。

用于模型训练的基因的选择：使用两种策略选择用于训练预测模型的基因亚组。在第一种策略中，将每个基因通过其强度值与给定组织组分在所有样品中的百分率之间的相关系数进行排序。在第二种策略中，基因按照其F-统计量进行排序，所述F-统计量是它们在如下所述的多重线性回归模型中拟合的度量。两种策略产生非常相似的结果。

多重线性回归模型：使用多变量线性回归模型预测组织组分。这是基于下述假设，即基因观察到的基因表达强度是来自不同细胞类型的贡献的总和：

g = β_{0} + Σ_{j = 1}^{C} β_{j} p_{j} + e, - - - (1)

其中g是基因的表达值，p_j是由病理学家确定的给定组织组分的百分率，β_j是与给定细胞类型相关的表达系数。在该模型中，C是所考虑的组织类型的数量。在当前研究中，只估算了两种主要组织类型肿瘤和基质的β，以最小化由其他次要细胞类型引起的噪音。其他细胞类型对总强度g的贡献被包含在β₀和e中。注意，β_j表明了细胞类型j与总的平均表达水平β₀相比的相对表达水平。在训练数据组上确定参数后，使用回归模型来预测组织组分的百分率。

数据集内的交叉验证：

使用十折交叉验证来估算每个数据集的预测误差率。简单来说，使用自扩展(boot strapping)策略随机选择十分之一的样品用作测试组，并将剩余的十分之九样品用作训练组。使用带有通过上面提到的策略选择的预定基因数量的训练组构建预测模型。然后在测试组上对预测进行检验。将样品选择和预测步骤重复10次，每次使用不同的测试样品，直到所有样品仅仅一次被用作测试样品。该整个程序被重复5次，在每次重复中使用不同的10％数据集，以产生可靠的结果。

数据集之间的验证：在数据集1、2、3和4之间进行了相互预测，以评估预测模型跨不同数据集的适用性。因为四个数据集之间的微阵列平台不同，因此使用具有一项修改的分位数归一化方法对微阵列数据进行预处理(Bolstad等(2003)Bioinformatics 19：185-193)。将分位数归一化方法应用于测试数据集，使用整个训练组作为参比。这种改变意味着用于构建预测模型的训练组将不被重新计算，并且预测模型可能将保持相同。

根据从Affymetrix网站(万维网网站affymetrix.com)下载的阵列比较文件，对来自不同Affymetrix平台的探针组进行作图。AffymetrixU133A阵列探针的探针组是Affymetrix U133Plus2.0阵列探针组的子名单，并且两个平台的共有探针的DNA序列是一致的，表明这两个平台非常相似。在数据集4中使用的Illumina DASL平台只提供了基因符号作为探针注释，其被用于对Affymetrix平台进行作图。在不同平台之间作图的基因数量显示在表15中。

在不具有病理学家的组织比例估算值的数据集上的预测：数据集5、6、7和8不具有以前的组织组成估算值(表14)。数据集1、5和6从Affymetrix U133A阵列产生。因此，使用数据集1构建的预测模型预测在数据集5和6中使用的样品的组织组分。同样地，数据集2、7和8使用Affymetrix U133Plus2.0阵列产生，因此用数据集2构建的预测模型预测在数据集7和8中使用的样品的组织组分。上面描述的修改的分位数归一化方法被用于测试数据集的预处理。

在相同数据集内计算机预测与病理学家估算的比较：使用其组织百分率已由病理学家确定的4个微阵列表达数据集(表13)，来产生能够在具有阵列数据但不具有组织百分率的病理学家数据的其他样品中预测组织百分率的计算机模型。通过计算机预测值与病理学家估算的观察值之间的平均绝对差值，来度量计算机预测与病理学家估算之间的差异。使用十折交叉验证估算数据集1、2、3和4的预测差异。为了确定用于构建预测模型的最佳基因数量，对最显著的5、10、20、50、100或250个基因进行了比较。预测结果显示在图6A和6B以及表16和17中。

在四个数据集中，数据集1的计算机预测与病理学家的估算最相似，使用250个基因的模型时，肿瘤的平均差异率为8％，基质的平均差异率为16％。这可能是因为：1)该数据集具有四位病理学家的组织组分估算值，肯定比由一位病理学家做出的更加准确；2)使用了新鲜的冷冻组织，其产生了完整RNA用于表达谱分析；和/或3)相对较大的样品容量。数据集4具有最不准确的预测，这可能是因为1)数据集从来自FFPE块的降解的总RNA样品产生；和/或2)Illumina DASL阵列平台上基因的总数远少于其他阵列平台(511个探针对其他数据集的12626个或以上探针组)。

肿瘤组分的预测比基质的预测略好，其部分可以由前列腺基质是成纤维细胞、平滑肌细胞、血管等的混合物这一事实解释。

如图6中所示，预测模型不需要许多基因。预测模型使用少至10个基因就能够可靠地预测肿瘤组分，并使用50个基因预测基质组分。

数据集2含有12个激光捕获显微切割的肿瘤样品，这些样品的平均计算机预测的肿瘤组分是平均91％。假设这些样品真的都是几乎纯的肿瘤，那么这些样品的误差率为9％或以下，其接近于数据集2中所有样品的平均误差率。

也探索了通过扩展目前的多变量模型，来预测两种其他前列腺细胞类型——BPH和扩张囊性腺的上皮细胞的可能性。发现在这两种组织组分上进行的计算机预测的准确率比肿瘤和基质组分低得多，主要是因为它们的百分率值通常小，并且病理学家对这些组织的估算值有差异。包括这些组织的这些扩展预测模型也略微降低了肿瘤和基质组分的预测准确率。

在数据集3的初始研究中，评估了四位病理学家估算过的组织组分的一致性分析，作为观察者间的泊松相关系数。肿瘤和基质的平均系数是0.92和0.77。这比同样数据集的计算机预测与病理学家估算之间的相关系数好，后者对于肿瘤组分来说是0.72，对于基质组分来说是0.57。然而，病理学家检查了相同切片，被加工用于阵列分析的相邻但不一致的样品的组织组分可不同。

预测模型可以针对可用数据的限制进行优化的一个指标是下述事实，即对于在测试组上进行的预测来说，计算机预测的组织组分与病理学家估算值之间的差异与在训练组上进行的预测的差异，通常只有1％的差别。参见下面的250个基因的模型的实例。其他模型上的数据非常相似。

数据集1(训练/测试)：肿瘤7.6％/8.1％；基质11.7％/12.8％。

数据集2(训练/测试)：肿瘤8.4％/9.5％；基质11.5％/12.5％。

数据集3(训练/测试)：肿瘤10.3％/11.4％；基质15.2％/17.3％。

数据集4(训练/测试)：肿瘤11.9％/12.5％；基质14.7％/15.4％。

为了从每个数据集构建最佳预测模型，采用了十倍置换策略来选择用于最终预测模型的最适合基因。为了构建为每个数据集的n(即5、10、20、50、100、250)个基因的模型，在用于选择n个最显著基因的多变量线性回归分析中只使用十分之九的随机选择的样品。将该步骤再重复九次，直到所有样品被使用九次，同时也意味着所有样品都跳过一次。将所有选择的基因(nx10)合并，并按照它们的发生率排序。在表18中列出的命中次数最高的n个基因，如下所述被用于构建整合在CellPred程序中的预测模型。

跨数据集计算机预测与病理学家估算之间的比较：跨不同数据集进行的预测的差异显示在表19中。使用250个基因的模型进行相互预测。也执行了在较少基因上构建的预测模型，并且预测精确性比250个基因的模型低。总的来说，跨不同数据集的计算机预测与病理学家估算值的相似性低于在同一数据集内进行的计算机预测。然而，当阵列平台非常相似(Affymetrix U133A和U133Plus2.0)并且样品类型相同(即新鲜的冷冻样品)时，跨数据集预测中的差异与数据集内预测的差异相似。以数据集1和2为例，当数据集1用作训练组时，预测差异对于肿瘤来说是11.0％，对于基质来说是16.7％，而反过来时，该数字对于肿瘤来说是11.6％，对于基质来说是11.8％。在微阵列平台和样品类型变化(例如在新鲜冷冻和FFPE之间)的情况下，交叉数据集预测误差率增加，并且取决于比较有很大变化，对于肿瘤来说为12.1％～28.6％，对于基质来说为14.7％至38.2％。该相互预测结果强烈表明了当阵列平台和样品类型相同时，跨数据集进行组织组分预测的可行性。对于其他情况来说，组织百分率的预测也是可能的，但是误差大。

可公开获得的前列腺数据集中样品的组织组分的计算机预测：在数据集5、6、7和8中使用的238个样品的计算机预测的肿瘤和基质组分记录在表17中。238个样品中的219个被制备成富含肿瘤的前列腺组织时，这219个样品的计算机预测的肿瘤比例显示出从0至87％的宽肿瘤细胞范围。如图7A中所示，有44个(20.1％)样品被预测具有低于30％的肿瘤细胞。这44个预测肿瘤量低的样品出现在数据集5(79个肿瘤样品中的5个，6.3％)、数据集6(44个肿瘤样品中的7个，15.9％)、数据集7(13个肿瘤样品中的2个，15.4％)和数据集8(83个肿瘤样品中的30个，36.1％)中，表明在所有不同数据集中存在肿瘤富集的变异大。

数据集5包括了与患者前列腺切除术后癌症的复发相关的信息，其被用于将样品分成两个用于比较的组(Stephenson，同上)。如图7B中所示，注意到对复发组预测的平均肿瘤组织组分(58.5％)比对未复发组预测的(48.0％)高出约10％。除非意识到并考虑在内，否则这种偏斜具有提供与复发相关的假数据的可能性。因此，在复发病例的单变量分析中肿瘤特异性基因被富集，仅仅是因为这些基因在具有更多肿瘤细胞的样品中被自然富集。

为了进一步说明这种效应，将使用数据集1计算机模型在数据集5上预测的肿瘤的百分率作为x轴，在分别使用未复发和复发组作图的热图上作图。Y轴由在数据集6中鉴定到的前100个(50个上调和50个下调的)在肿瘤和正常组织之间明显差异表达的基因在数据集5中的表达水平构成。在来自数据集5的两个样品组(未复发和复发组)上从左至右的梯度效应，显示出从数据集6选择的组织特异性基因的表达水平与使用从数据集1产生的预测模型进行计算机预测的肿瘤含量高度相关。此外，复发组中的样品显示出上调基因的略微更高的表达水平和下调基因的更低的表达水平(也显示在图7B中)，表明在两个组之间肿瘤组分不同，如果两个组不进行校正直接比较，可能会引起偏倚。

用于前列腺癌组织预测的软件：CellPred，一种可以在万维网网站webarraydb.org上免费获得的网络服务，被设计用于预测在高通量表达研究例如微阵列中使用的前列腺样品的组织组分。CellPred在LAMP系统(带有Apache、MySQL和Python的GNU Linux服务器)上开发。模块用python书写(万维网网站python.org)，而分析功能用R语言书写(万维网网站r-project.org)。用于建模/训练/预测的R脚本可以从万维网网站webarraydb.org/softwares/CellPred/下载。用户有选择用于构建模型的基因数量的选项。用于产生模型的基因作为输出文件提供。关于程序的其他详细情况可以在在线帮助文件中找到。

用户可以上传他们自己的数据集用来构建预测模型。然而，作为实例，数据已被上传，以允许在数据集1、2和3上构建用于对用户提供的数据集进行预测的预测模型。用户需要上传Affymetrix Cel文件或任何其他类型的经过适当处理以使其与做出预测相容的微阵列强度文件。对于Affymetrix U133A、U133Plus2.0和U95Av2阵列数据来说，分别使用在数据集1、2、或3上产生的预测模型做出最准确的预测。对于所有其他类型的微阵列平台来说，预测噪音可能相当大。在这种情况下，将测试组平台上的探针/探针组针对根据基因符号、基因ID(即GenBank ID，refSeq ID)或作图文件所选的训练组上的探针进行作图(Xia等(2009)Bioinformatics 25：2425-2429)。将修改的分位数归一化方法整合在内，用于对测试阵列的强度值进行预处理。然后使用用训练组构建的预测模型在测试组上做出预测。如果数据以及可以作图于训练数据集的基因名或ID被压缩到与强度文件等同的文件中，则高通量表达序列标签可以被程序接受。

表17.数据集5、6、7和8的计算机预测的组织组分(％)。

实施例4-鉴定前列腺癌中的组织特异性基因

鉴定了在前列腺组织的不同细胞类型(肿瘤、基质、BPH和萎缩腺体)中特异性表达基因。

使用基因表达谱预测组织含量

使用基于组织特异性基因的少数名单上的线性模型，可以预测与阵列杂交的样品的组织组分。这些基因列于表20中。

组织特异性复发相关的基因

一些组织特异性基因在复发和未复发样品之间显示出显著的表达水平变化。基因名单显示在上面的表8中。

表20、用于组织预测的组织特异性基因。

实施例5-前列腺癌预测性生物标志物的开发

癌基因表达谱分析研究通常测量含有广范围的多种细胞类型的混合物的大量肿瘤样品。组织组分的差异为肿瘤细胞中任何表达的测量增加了噪音。通过将组织百分率考虑在内，将能减少这样的噪音。然而，大多数可用的数据集不存在这样的信息。

使用其组织组分已由病理学家进行估算的两个大型公开前列腺癌表达微阵列数据集(数据集1和2)，产生了用于预测组织组分(肿瘤、基质和良性前列腺增生)的线性模型。数据集1和2之间的组织百分率的相互计算机预测与肿瘤、基质和BPH的病理学家估算值有关联(每种组织的两两比较p＜0.0001)。来自数据集2的模型被用于预测第三个组织百分率未知的大型公共数据集的组织百分率。然后将数据集1和3用于鉴定候选的复发相关基因。当使用了预测的组织组分时，一致的复发相关标志物的数量显著增加。最显著的候选物列于本文中。这是在两个或多个独立的前列腺癌数据集中寻找对结果具有预测性的基因的第一次已知尝试。尽管肿瘤是高度异质的并且包括许多无关的变化，但邻近基质或上皮组织中的一些标志物可能是复发相对未复发癌症的可靠备选传感物。与前列腺切除术后复发相关的候选生物标志物包含在本文中。

前面，对Stuart等2004的线性组合模型的修改进行了演示和验证。然后将该方法用于校正基于细胞组成预计的独立数据。校正过的数据被用于验证通过数据分析发现的在未复发和复发(侵袭性)前列腺癌之间表现出显著差异表达的基因。将该方法和以前方法的生物标志物进行比较。

在本文中，数据的进一步操作的结果显示在表格中。提供了用于跨U01/SPECS数据集(数据集1，其具有估算过的组织百分率)和Stephenson等(同上)的数据集、即其组织百分率通过应用基于Bibilova等(同上)中的组织百分率模型进行估算的数据集3进行交叉验证的基因的名单。

前面的报告概述了对开发改进的方法的尝试和用于预测前列腺癌结果的基因的详细说明。现在的报告概述前列腺癌的预测性生物标志物的继续开发。

本研究的目的是继续开发前列腺癌的预测性生物标志物。具体来说，这里概述的工作目的是使用独立的数据集来验证基于数据集1的研究被推断为预测性的基因(见下)。这里，“数据集”是指给定组的所有病例的基于阵列的RNA表达数据，以及定义了给定病例是复发还是保持无病的临床数据的经审查量。在这里描述的分析中只使用了复发或未复发的分类值。

出于本工作的目的，复发前列腺癌被当作侵袭性疾病的代表，而未复发患者被当作不同惰性程度与无疾病存活时间成正比的惰性疾病。数据集1包含26位未复发患者和29位复发患者，数据集2包含63位未复发患者和18位复发患者，数据集3包含29位未复发患者和42位复发患者。用于本分析的数据是以前数据集的子集。对于本具体分析来说，只包括了含有超过0％肿瘤并且随访时间对于未复发病例来说长于两年、对于复发病例来说长于四年的样品。前两个数据集的样品具有各种不同量的不同组织和细胞类型，包括肿瘤细胞、基质细胞(成纤维细胞、肌成纤维细胞、平滑肌和少量神经和血管成分的合称)、BPH(良性前列腺肥大的上皮细胞)和扩张囊性腺(又称“萎缩”囊性腺)，数据集1由四位病理学家估算(Stuart等，同上)，数据集2由一位病理学家估算。数据集3的样品如作者(该研究的共同作者StevenGoodison，也是Stuart等PNAS 2004的共同作者)所宣称的，是富含肿瘤的样品。在本研究中，已发表的数据集2和3仅用于验证目的。本研究的主要目的是使用“外部”已发表的数据集验证在数据集1分析的基础上推断的基因性质。

在SPECS(数据集1)和Goodison(数据集3)阵列上分别执行了线性回归分析。与复发关联的显著性的估算，按照前面的更新中所述来确定。随附的表对该数据进行了如下过滤。首先，保留在任一个数据集中在任何组织中p＜0.1的复发相关基因。保留在数据集之间显示出一致的表达变化的那些基因。然而，组织赋值的置信度不高，这是因为基质和肿瘤的组织百分率是天然反相关的。因此，还过滤了跨数据集在这两种组织中显示出相反方向移动的p＜0.1的基因的数据，因为它们几乎同样可能是真实变化，并且是跨数据集在一个组织中的一致变化。此外，在一个数据集中在一种组织中p＜0.01的基因，如果跨数据集在基质或肿瘤中的倍率变化一致，并且在两个数据集中存在至少两倍的变化，那么即使其他数据集没有显示出显著变化，这些基因也被保留。按照这些程序和标准，我们观察到了列于表21中的结果。

这是在两个或多个独立的前列腺癌数据集中寻找对结果具有预测性的基因的第一个已知的尝试。此外，一些鉴定到的预后指示物可能出现于基质或BPH中而不是肿瘤中。在基质或BPH中这样的标志物可能更容易观察，因为这些组织更普遍并且在遗传上比肿瘤细胞更均质。

表21：用于前列腺切除术后前列腺癌复发的预后指示物。

(A)在前列腺切除术后前列腺癌将会复发的患者中预测将在前列腺肿瘤细胞中被下调或在前列腺基质细胞中被上调的基因。

(A1)在当前数据集中预测将具有超过两倍的表达变化的基因

(A2)在当前数据集中预测将具有低于两倍的表达变化的基因。

(B)在前列腺切除术后前列腺癌将会复发的患者中预测将在前列腺肿瘤细胞中被上调或在前列腺基质细胞中被下调的基因。

(B1)在当前数据集中预测将具有超过两倍的表达变化的基因。

(B2)在当前数据集中预测将具有低于两倍的表达变化的基因。

(C)在前列腺切除术后前列腺癌将会复发的患者中预测将在良性前列腺增生中被下调的基因。

(C1)在当前数据集中预测将具有超过两倍的表达变化的基因。

(C2)在当前数据集中预测将具有低于两倍的表达变化的基因。

(D)在前列腺切除术后前列腺癌将会复发的患者中预测将在良性前列腺增生中被上调的基因。

(D1)在当前数据集中预测将具有超过两倍的表达变化的基因。

(D2)在当前数据集中预测将具有低于两倍的表达变化的基因。

201133_s_at

201447_at

201448_at

201865_x_at

202056_at

202265_at

202442_at

202666_s_at

202918_s_at

202919_at

203225_s_at

203544_s_at

203562_at

204496_at

205140_at

205659_at

207483_s_at

208290_s_at

208767_s_at

208925_at

209821_at

209882_at

210371_s_at

211727_s_at

211760_s_at

212112_s_at

212397_at

212408_at

212530_at

212607_at

212652_s_at

213102_at

213168_at

213374_x_at

213988_s_at

214686_at

215171_s_at

216115_at

217900_at

218209_s_at

218583_s_at

218729_at

218989_x_at

219230_at

219292_at

221553_at

实施例6-前列腺癌的预测性生物标志物的开发

本研究中使用的数据集

用于本研究的两个个数据集包括1)我们从91位患者获取的148个Affymetrix U133A阵列(可以在GEO数据库中公开获得，登记号为GSE8218，没有以其它方式公开，也称为“我们的数据”)，其是在前面的研究中使用的主要数据集；2)来自103位患者的Illumina(IlluminaInc.，San Diego)珠子阵列数据，是在115阵列上分析的已发表的数据集(Bibilova等，同上)。

两个数据集样品具有各种不同量的不同组织和细胞类型，包括肿瘤细胞、基质细胞(成纤维细胞、肌成纤维细胞、平滑肌和少量神经和血管成分的合称)、BPH(良性前列腺肥大的上皮细胞)和扩张囊性腺(又称“萎缩”囊性腺)，数据集1由四位病理学家估算(Stuart等，同上)，数据集2由一位病理学家估算。

确定前列腺癌中的细胞特异性基因表达：

将线性模型(下面的模型1～3)应用于来自具有四位病理学家团队估算的各种不同量的不同细胞类型的前列腺组织的微阵列数据。按照我们已发表的方法(Stuart等2003)，我们鉴定了在前列腺组织的不同细胞类型(肿瘤、基质、BPH和扩张囊性腺)中特异性表达的基因。

模型1～3：

细胞组成也可以考虑成两种不同细胞类型；一种特异性细胞类型对分组在一起的所有其他细胞类型。

G_i＝(β_肿瘤·P_肿瘤+β_非肿瘤·P_非肿瘤)_i

G_i＝(β_基质·P_基质+β_非基质·P_非基质)_i

G_i＝(β_BPH·P_BPH+β_非BPH·P_非BPH)_i

使用数据集1和数据集2，从模型1、2和3对于阵列上的所有基因产生了(探针杂交强度与组织百分率之间的)相关性参数，例如截距、斜率、概率、标准误差。

使用基因表达谱确定细胞类型组成预测的新方法：

使用线性模型1-3，可以仅使用基于阵列上基因的子名单的微阵列数据，来估算在与阵列杂交的样品中细胞类型的近似百分率。例如，在模型1中使用的每个基因提供了肿瘤细胞组成百分率的估算值。对于每种组织类型，我们使用了基于多个基因的预测的中位数。在我们的情形中，只有非常有限数量的最佳组织特异性基因(5～41个基因)被用于预测。甚至更少的基因也可能是足够的。

为了验证肿瘤或基质组成百分率确定的方法，我们利用了数据集1的已知组成百分率数字来预测具有已知细胞组成的数据集2的肿瘤细胞和基质细胞组成。例如，用于数据集1和数据集2之间细胞类型(肿瘤上皮细胞、基质细胞或BPH上皮细胞)预测的的基因数量在5至41个非冗余基因的范围内，所述基因列于本文表20中。预测的细胞类型百分率(肿瘤上皮细胞、基质细胞或BPH上皮细胞)与病理学家估计的百分率之间的泊松相关系数在0.45～0.87的范围内。

因为数据集1和数据集2的数据是基于不同阵列平台，因此使用中位数排序分值(MRS)方法(Warnat等，同上)，应用了跨平台归一化。

这里显示的从全部前列腺组织的阵列数据推断细胞类型百分率的方法，被宣称为新颖的。图8A、4B和4C显示了使用数据集1的参数来预测数据集2的细胞组成。观察到的和计算的细胞类型组成的相关性的泊松相关系数分别为0.74、0.70和0.45。使用数据集2的参数计算数据集1的肿瘤和基质细胞组成百分率的反计算，分别显示在图8D、4E和4F中。泊松相关系数分别是0.87、0.78和0.57。四位病理学家之间对数据集1中的相同样品的组成估算值的泊松系数范围，对于肿瘤、基质和BPH细胞来说分别为0.92、0.77和0.73(Stuart等，同上)。因此，计算机估算值具有几乎完全包含在病理学家之间的变差内的相关性，表明计算机估算在性能上至少与病理学家类似，并保留了计算机估算比病理学家更精确的可能性。

实施例7-前列腺癌预测性特征的评估

长期以来，饮食因素被认为是影响前列腺癌发生和发展的主要因素，并且UCSD的Dr.Gordon Saxe已经发表了小规模临床试验，显示出饮食和生活方式改变对复发的前列腺癌的发展具有显著影响(Nguyen，Major等2006)；(Saxe，Major等2006))。UCI SPECS研究已经接受了由来自UCSD(G.Saxe，PI)的子合同资助的“平行(piggy back)”项目，用于对UCI和UCSD的SPECS试验中召集的所有患者的饮食习惯进行计算机化调查。通过向术后患者提供膝上型计算机，由自己管理调查问卷，并将其直接传送到调查问卷的建立者Viocare(万维网网站viocare.com)，在那里对结果进行评估并提供对比统计量供研究使用。获取血样并评估类胡萝卜素、维生素D和其他饮食标志物(作为所报告的习惯的验证)以及性甾类激素、IG-1、IGFBP-3和细胞因子。通过标准人体测量术测量体重和BMI，并很快引入dexa扫描以更精确评估身体组成。信息将被用于独立地建立饮食/营养-疾病结果关联模型并也与我们的基因表达结果相关联，以检查饮食-基因相互作用。

使用独立的前列腺癌病例测试组进行生物标志物表达的生物信息学鉴定和技术验证。这致力于对已经在复发(侵袭性)和未复发(惰性，预后良好)前列腺癌中被鉴定为差异表达的候选基因的技术和实验验证。工作利用了标准方法例如递归分区(Koziol 2008)PAM和VSM来鉴定潜在生物标志物。这些工作显示出能够确定出优先鉴别在前列腺切除术的两年内早期复发的病例、但是不通用的基因。这可能是由于前列腺癌中表达的异质性，以及需要为不同前列腺癌亚型鉴定不同的特征，即开发从适合的特征中抽取出来的真正分类物。这些工作在朝向这一目标方面产生了显著进展。特别重要的是两个因素。首先，我们扩展了由我们首先开发的在前期“指引物挑战(Director’sChallenge)”计划(Stuart 2004)过程中用于分析前列腺癌表达的多重线性回归(MLR)分析的用途。其次，我们利用了我们的147U133阵列数据集以及表达数据的5个其他独立数据集(表22)。表22的数据集是用于验证的独一无二的资源。扩展的MLR方法提供了在未复发的前列腺癌病例中确定四种细胞类型的细胞类型特异性基因表达，并确定复发病例中四种细胞类型的显著表达变化，即在高危病例中由细胞类型引起的显著差异表达的基因。该模型归纳在方程1中：

G_i＝β′_肿瘤，i P_肿瘤+β′_基质，i P_基质+β′_BPH，i P_BPH+β′_{扩张囊性腺，i} P_{扩张囊性腺}+rs(γ_肿瘤，iP_肿瘤+γ_基质，iP_基质+γ_BPH，iP_BPH+γ_{扩张囊性腺，i}P_{扩张囊性腺}) (方程1)

其中G_i是观察到的Affymetrix总基因表达，β是细胞类型特异性表达系数，P是应用于阵列的样品的每种细胞类型的百分数，γ是复发病例差异表达的基因表达组分。当rs＝0时，不包含复发病例，并且方程只用于未复发病例的基因表达。百分率P可以由四位有经验的病理学家团队通过检查用于RNA制备的组织的H和E染色载片来确定。在6个数据集中只有两个(我们的病例以及Illumina数据集，表22)具有已由病理学家确定的P。因此，首先必需估算其他四个数据集的所有病例中的细胞类型分布百分率。这通过对每种细胞类型使用40-80个基因的表达谱来进行，所述基因按照所述(Stuart 2004)被鉴定为无论病例是复发还是未复发都不发生变化的基因，并且不依赖于Gleason等。该方法通过预测Illumina数据集的病例的肿瘤和基质细胞含量百分数来验证，这证实了方法是精确的(Wang 2007；Wang 2008)。

然后我们将方程1应用于我们的数据，以鉴定在复发病例中具有显著(p＜0.01)差异表达的基因。为了验证这些基因，使用5个数据集的每一个对过程进行重复。对于每个数据集，我们考虑到如果基因(1)γ仍表现出p＜0.01，(2)由一致的Affymetrix探针组或作图探针组所代表，以及(3)在差异表达中表现出相同方向的变化，则基因得到验证。对于肿瘤细胞和基质细胞探针组来说，这两个数据集的差异表达幅度(γ)高度相关(r_泊松＞0.7)。鉴定到约1000个探针组，它们在我们的数据集和一个其他数据集中得到验证。通过这种方式验证的基因数量非常显著地大于根据概率预计的可能满足两个数据集的验证标准的数量。这些探针组代表了约693个独特基因，这是由于许多基因在两队或多对数据集中得到验证。许多基因对应于其他人以前报道的与前列腺癌的后果相关的基因，并且这些以及许多其他基因在功能上与前列腺癌发展中据认为重要的过程相关。例如，使用TMA，Wnt信号传导途径的几个成员是显而易见的并且被检查出来。

讨论。这些基因中许多的统计学和生物化学性质支持了已获得前列腺癌后果的重要特征这一结论。我们相信，这是第一次使用多个独立的数据集验证前列腺癌后果的特征。不是所有验证的基因都在所有数据集上表现出显著的差异表达。这提供了基因在独立数据集中所表现出的基因表达多样性的写照。因此，有可能构建出代表了所有6个数据集的多样性的真正分类物，并且这种工作正在进行中。通过一组一致的标准在已发表的数据集中识别到的多样性，为在一个或两个数据集分析的基础上来寻找特征的困难性，提供了解释。

实验验证。正如最初所提出的，使用U133 plus 2平台，对还没有通过表达分析进行检查的前期“指引物挑战(Director’s Challenge)”项目的存档的前列腺癌病例进行了测量。这些病例在2000-2004年间召集。这些病例中的约25％表现出复发迹象。因此，这些病例为验证最近开发的分类物的预测性质提供了附加的有价值的材料。通过对这些新病例的归类与观察到的存活结果进行比较，将对候选生物标志物基因及其作为上面鉴定的分类物的能力进行测试。对于约300个临床随访的新鲜冷冻的前列腺癌病例，在肿瘤含量方面进行了鉴定，并且约80个具有足以用于分析的肿瘤含量。细胞类型分布百分数由一位病理学家确定，并使用四位病理学家的分析对其进行精炼。几乎所有被分析的病例都产生了极好的RNA，到目前为止已将63个病例应用于U133 plus 2阵列，并且这些病例中的27个也已应用于EXON阵列。来自所有这些病例的纯化的RNA和DNA已被储存，并可用于例如PCR验证。对所分析的病例进行选择，以(1)最大化肿瘤含量，并且(2)使其在复发和未复发病例中近似平分，以便最大化检测差异表达的统计能力。由于这些标准，在300个病例组中只多了15-20病例将是有用的。

这组研究的目的是鉴定SNP变异，并确定特定SNP是否与基因表达变化相关。本研究的潜在重要性是对于任何患者来说，可以从体细胞例如血细胞或颊膜涂片确定SNP序列。因此，被发现与预测性表达变化相关的SNP变化可以提供通用性大为增加的预测性分析方法。此外，根据相关SNP的位置性质，这种信息可以提供对差异表达变化的基础的理解。

D.Duggan正在使用的平台是Illumina一百万SNP阵列和技术。这是可获得的覆盖度最大的阵列，并提供了＞1百万SNP序列的取样检测。阵列集中于已知基因附近的SNP位点。所有取样的SNP中超过一半位于基因的10Kb之内。

已经提供了21个来自带肿瘤前列腺的无肿瘤样品，并且现在将其在Illumina平台上检查。这些样品从正用U133 plus 2和Exon阵列进行分析的相同300个病例验证组获取。提供了近似相等数量的已知复发和未复发病例。所有病例都被用于制备RNA和DNA。将RNA存档，同时将DNA应用于Illumina平台。所有被分析的病例都产生了超过90％的呈递召唤(present calls)，表明了出色的DNA质量控制。来自这些首批42个样品的数据将被用于期中分析。由于将所有差异表达的基因与多个SNP相关联的开放式性质，分析能力随着样品数而增加，并且目前的计划是将提供给U133 plus 2阵列的所有样品用于SNP分析，包括复发和未复发病例。

组织微阵列的开发。目的是制造前列腺癌TMA，以(1)验证新鉴定到的生物标志物，(2)在蛋白质水平上验证细胞类型特异性表达，以及(3)鉴定用于预后分析开发的抗体试剂。到目前为止，已经提供了494个前列腺癌病例，并且已将254个应用于TMA制造(表23)。病例选择的主要标准是＞5年的存活数据可用(除了正常前列腺对照之外)，并且来自于UCI和LBVA(长滩退伍军人管理局医学中心(Long BeachVeterans Administration Medical Center)，UCI SOM的附属医院)的大多数病例具有10-19年的存活数据。所有病例的原始临床载片由两位病理学家(P.Carpenter和J.Wang-Rodriquez)检查，他们对Gleason分值进行重新分级，并用颜色圈出用于核心钻取的区域。取出代表肿瘤、BPH、邻肿瘤基质、远处基质、扩张囊性腺以及适用情况下的PIN的核心。TMA制造在Burnham医学研究所(Burnham Institute for MedicalResearch)进行(S.Krajewski和J.Reed)。所有选择的区域由两个核心代表。因此，典型每个病例由5x2＝10个核心代表。到目前为止，254个病例的阵列含有～1000个核心。将四种细胞类型放置在分开的载片阵列上，以便对一种细胞类型的专门研究不会不必要地消耗材料。已经收集的用于TMA的494个病例完全不依赖于本研究的所有其他病例。对于已用于U133 plus 2表达分析的近两打“指引物挑战(Director’sChallenge)”病例来说，存在FFPE组织，其可用于TMA作为直接比较RNA表达和IHC结果的手段。

除了多种细胞类型之外，正在开发几种独特的特点。将正常前列腺对照组织包含在内，以代表与癌症病例相同的细胞类型。这些由Sun卫生研究所(Sun Health Research Institute)(T.Beach和J.Rodgers)基于他们的快速尸检项目来提供。这些病例由两位病理学家(P.Carpenter和J.Wang-Rodriquez)仔细检查。此外，记录了所有病例从死亡到冷冻的时间，对于到目前为止获得的所有65个病例来说，平均为4.25h，但是对于前一年的病例来说为3.9h。作为对质量的进一步评估，使用Agilent Bioanalyzer对38个病例的RNA进行了评估(Y.Wang和H.Yao)，其表明在80％的病例中RNA完整，在10％的病例中RNA降解。因此，这些正常前列腺有希望提供广泛的并且年龄大致适合的对照组。少数病例含有前列腺癌，并且可以为确定临床和潜伏疾病之间的蛋白表达差异提供机会。

TMA的另一个独特特点是由BIMR和Aperio Biotechnologies(SanMarcos，CA)之间执行的量化系统的合作开发。该系统提供了非常高分辨率的行扫描，其储存在BIMR的专用服务器上。专用软件允许检索任何视野的高倍率图像，供参加的病理学家通过安全的基于网络的门户网站(Scancope)远程观察。因此，完成的TMA正由两位病理学家进行检查，以确定所选的核心确实代表了所计划的Gleason样式和细胞类型。此外，软件提供了与每个病例相关的存活数据的数据库。由Aperio的Allen Olson及其同事开发了用于分离用不同发色团显色的两种抗体所标记的TMA的两种颜色的算法。在这种方法中，将鉴定肿瘤的标准抗体例如AMACR与测试抗体(第二种颜色)并行地用于IHC。然后，只选择测试抗体标记与AMACR共定位的像素，用于与存活数据相关联。使用我们的TMA的双色分离的一个实例最近已发表(Krajewska，Olson等2007)。定量正处于开发的后期阶段。

已经筛选了大量在FFPE切片上使用的抗体，并对36个抗体进行了优化，应用于一个或多个TMA载片上并进行了数字化，如表24中归纳的。已经选择了几种在前列腺癌中具有已知行为的抗体(抗PSMA、AMACR、E-钙粘着蛋白、β-联蛋白抗体等)来表征阵列，同时其他抗体(抗Frzd7.SFRP1、PAP、ANX2抗体等)对应于本研究的预测性生物标志物。已经鉴定到多个凋亡相关生物标志物，并且最近已经发表在前列腺和其他上皮肿瘤中使用BCL-B作为生物标志物(Krajewska2008；Krajewska 2008b)。

计划(1)强调IHC标记的TMA的目测和电子打分，(2)验证电子打分，以及(3)使用Kaplan-Meier图的Cox比例风险分析评估抗体标记与结果参数的关系。第二个优先考虑的是将TMA继续扩展到全部594个病例的阵列。

预测性基因谱的预后测试。目的是征集新的前列腺癌病例并使用新鲜手术样本和活检样品，使用当前的预测性基因谱来评估后果，并前瞻性比较预测的后果与第五年期间观察到的后果，并作为随后的长期计划。用于本研究的病例正在四个中心征集：NWU、UCI、UCSD(SDVA和Thornton医院)以及SKCC(Kaiser Permanent Hospital，SanDiego)。此外，正计划添加位于长滩的UCI附属医院LBVA。在前一年以及从研究开始所征集的病例的总数归纳在表25中，相关的人口统计、分级和分期数据归纳在表26和27中。到目前为止，通过知情同意书征集到接近1500个病例，获得了超过1300个冷冻组织，其中约520个含有肿瘤。最初的目的是通过PCR验证所选的生物标志物。如果阵列价格继续降低，有可能执行完整的全基因组表达分析。根据目前的RNA要求，保守来说260个样品将能支持这一工作。这些病例中许多已经提供了血液和DRE后的尿液样本(表25)，作为在更易获得的流体中测定生物标志物表达的进一步基础。对于所有病例来说，正在开发带有基线数据和随访数据的阴影图。

饮食SPECS研究。为前列腺癌前瞻性研究所征集的患者同意参加“平行(piggy back)”SPECS饮食调查研究。到目前为止，27个病例已经同意，其中21个已经抽血并提供给NIH资助的USCD和UCI的普通临床研究中心(General Clinical Research Centers)(表28)。此外，8位患者已完成计算机化调查问卷(表28)。计划将UCI研究扩展到除了目前的A.Ahlering诊所之外还包括位于UCI的Dr.D.Ornstein的第二个诊所，并继续招募在未来一年中将被UCI和UCSD的前瞻性研究征集的所有未来患者。本研究的更长期的目标是利用目前的观察性研究作为原理证明，表明样品获取和数据库资源可用于开发可能的II期试验，其中可以提供复发患者参加随机化的干预试验，以测试饮食和生活方式变化对于改变随后的病程的效能。这种初步行动需要产生继续资助SPECS研究的新提案。

参考文献

Bibikova，M.，E.Chudin等，(2007).″Expression signatures thatcorrelated with Gleason score and relapse in prostate cancer.″(与前列腺癌中的Gleason分值和复发相关的表达特征)Genomics 89(6)：666-72.

Koziol，J.，Jia，Zhenyu和Mercola，Dan(2008).″The Wisdom of theCommons：Ensemble Tree Classifiers for Prostate Cancer Prognosis.″(众人的智慧：用于前列腺癌预后的综合树状分类物)Biofinformatics(修改中).

Krajewska，M.，Jane N.Winter，Daina Variakojis，Alan Lichtenstein，Dayong Zhai，Michael Cuddy，Xianshu Huang，Frederic Luciano，Cheryl H.B aker，Hoguen Kim，Eunah Shin，Susan Kennedy，Allen H.Olson，Andrzej Badzio，Jacek Jassem，Ivo Meinhold-Heerlein，Michael J.Duffy，Aaron D.Schimmer，Ming Tsao，Ewan Brown，Dan Mercola，StanKrajewski，John C.Reed.(2008).″Bcl-B expression in human epithelialand non-epithelial malignancies.″(Bcl-B在人类上皮和非上皮恶性肿瘤中的表达)Proceedings of the 99th Annual Meeting of the American Association for Cancer Research；2008 Apr 12-16；San Diego，CA.(abstract no.2180.).

Krajewska，M.，A.H.Olson等，(2007).″Claudin-1immunohistochemistry for distinguishing malignant from benign epitheliallesions of prostate.″(封闭蛋白-1免疫组织化学用于辨别前列腺的恶性肿瘤和良性上皮病变)Prostate 67(9)：907-10.

Krajewska，M.，Shinichi Kitada，Jane N.Winter，Daina Variakojis，Alan Lichtenstein，Dayong Zhai，Michael Cuddy，Xianshu Huang，FredericLuciano，Cheryl H.Baker，Hoguen Kim6，Eunah Shin，Susan Kennedy，Allen H.Olson，Andrzej Badzio，Jacek Jassem，Ivo Meinhold-Heerlein，Michael J.Duffy，Aaron D.Schimmer，Ming Tsao3，Ewan Brown，AnneSawyers，Michael Andreeff，Dan Mercola，Stan Krajewski and John C.(2008b).Reed.Bcl-B Expression in Human Epithelial and NonepithelialMalignancies(Bcl-B在人类上皮和非上皮恶性肿瘤中的表达)Clinical Cancer Research 14，14：3011-3021.

LaTulippe，E.，J.Satagopan等，(2002).″Comprehensive geneexpression analysis of prostate cancer reveals distinct transcriptionalprograms associated with metastatic disease.″(前列腺癌的全面基因表达分析揭示了与转移性疾病相关的独特转录程序)Cancer Res 62(15)：4499-506.

Nguyen，J.Y.，J.M.Major等，(2006).″Adoption of a plant-baseddiet by patients with recurrent prostate cancer.″(患有复发前列腺癌的患者采用基于植物的饮食)Integr Cancer Ther 5(3)：214-23.

Saxe，G.A.，J.M.Major等，(2006).″Potential attenuation of diseaseprogression in recurrent prostate cancer with plant-based diet and stressreduction.″(使用基于植物的饮食和减轻压力潜在减弱了复发前列腺癌的疾病进展)Integr Cancer Ther 5(3)：206-13.

Singh，D.，P.G.Febbo等，(2002).″Gene expression correlates ofclinical prostate cancer behavior.″(临床前列腺癌行为的基因表达关联)Cancer Cell 1(2)：203-9.

Stephenson，A.J.，A.Smith等，(2005).″Integration of geneexpression profiling and clinical variables to predict prostate carcinomarecurrence after radical prostatectomy.″(整合基因表达谱分析和临床变量来预测根治性前列腺切除术后前列腺癌的复发)Cancer 104(2)：290-8.

Stuart，R.O.，W.Wachsman等，(2004).″In silico dissection ofcell-type-associated patterns of gene expression in prostate cancer.″(前列腺癌中基因表达的细胞类型相关性样式的计算机剖析)Proc Natl Acad Sci U S A 101(2)：615-20.

Wang，Y.，Zhenyu Jia，Michael McClelland和Dan Mercola.(2008).″In silico estimates of tissue percentage improve cross-validation ofpotential relapse biomarkers in prostate cancer and adjacent stroma.″(组织百分率的计算机估算改进了前列腺癌和邻近基质中可能的复发生物标志物的交叉验证)Proceedings of the 99th Annual Meeting of the American Association for Cancer Research；2008 Apr 12-16；San Diego， CA.(abstract no.999.).

Wang，Y.K.，James；Goodison，Steve；JainJua，Yu，Mercola，Dan，McClelland，Michael.(2007).″Toward the development of a predicativesignature of prostate cancer.″(迈向开发前列腺癌的预测性特征)Proceedings of the American Association of Cancer Research，Annual Meeting 2007.

Yu，Y.P.，D.Landsittel等，(2004).″Gene expression alterations inprostate cancer predicting tumor aggression and preceding development ofmalignancy.″(前列腺癌中预测肿瘤侵袭性和恶性肿瘤前期发生的基因表达改变)J Clin Oncol 22(14)：2790-9.

这些研究的目的仍然是开发在诊断时鉴定具有不良预后和良好预后的前列腺癌患者的多基因谱。鉴定了在6个可用数据集的至少一个独立数据集中验证的生物标志物。此外，生物标志物表现出在独立数据集间表达的多样性。因此，可以为前列腺癌的预后形成真正的分类物。

利用当前的生物标志物信息，开发了基于使用FFPE患者组织——一种可广泛获得的资源的测试，其可以为前列腺癌患者提供改进的指导。

254个病例的TMA被用于在蛋白表达水平上验证所选的生物标志物。TMA由独立于用于确定生物标志物的病例的病例构成。性能良好的抗体可以作为有用的试剂，用于开发基于IHC的分析，以使用FFPE前列腺切除术组织或使用手术前活检组织来确定后果。

已经在来自“指引物挑战”项目在归档的60个病例上收集了全基因组表达数据，这些病例中的25个也已经在Illumina百万SNP芯片上进行了谱分析。该分析将继续进行，并且当适合的数量可用时，将确定与表达变化相关的SNP变化，以便血细胞可以提供手段来确定对行为相关的基因表达的易感性，以确定具有预测性质的SNP。SNP可以从任何组织、颊膜涂片或前列腺癌评估。对可靠地识别为属于任一这些组的患者，将提供他们疾病可能后果的更多知识，因此可以选择更宽并且更适合的治疗谱。

正在为前瞻性测试征集患者。此外，某些饮食特点正通过调查问卷和血液分析进行确定。可以向该复发但是未立即寻求激素或放射治疗的患者组群提供饮食-生活方式干预试验。具体来说，可以减少根治性前列腺切除术的过度使用，以显著降低发病率、痛苦和费用。

已经起动了各种工作以便将结果转变成实用的检验。高通量基因表达分析将允许我们在接下来的几年中，使用我们已确定具有预测价值的所有1000个探针组来评估风险，并对风险的临床指示物例如术前PSA、Gleason和阶段以及后果的评估进行比较。预测价值强的指示物将要求活检样品应该可以常规获得用于RNA分析的新鲜状态，并提供关于可能不能通过手术治愈的疾病高风险患者的术前信息，并可以提供将从辅助治疗获益的患者的指导。最后，手术后复发的患者通常具有缓慢升高的PSA值(低的PSA倍增时间)，并且许多专家不立即推荐进行激素或放射治疗。可以向这样的病例提供饮食疗法。我们目前的“平行”观察性饮食研究可以为评估饮食的作用设立框架。此外，将了解这些患者的基因特征并可以进行关联，以评估是否存在对响应具有预测性的特征。同样地，通过将对疗法的响应与已知基因表达结果相关联，可以确定对疗法-响应具有预测性的其他特征。这些可能性需要通过表达分析检测我们的前瞻性组群，这需要在最初提案中没有提供的大量阵列。因此，使用前瞻性组群的工作将需要进一步资助以继续SPECS研究的转变，并且需要将计划集中于该问题。

表23：UCI SPECS组织微阵列(TMA)开发状态

表24.应用于SPECS TMA的抗体。

表25.在当前资助期间和自从研究开始以来为前瞻性研究所收集的样品的概述。

表26.同意术后分析的病例的种族划分

表27.同意前瞻性分析的病例的Gleason分值分布和阶段分布

GLEASON	UCSD	NWU	UCI	SKCC

2+3＝5	1	0	1	0
					3+2＝5	2	0	1	0
2+4＝6	1	0	0	0
					3+3＝6	47	145	80	19
3+4＝7	37	108	123	23
					4+3＝7	13	21	49	3
3+5＝8	2	0	2	1
					5+3＝8	1	1	0	0
4+4＝8	12	6	7	0
					4+5＝9	10	7	13	0
5+4＝9	5	3	0	0
					5+5＝10	1	0	0	1
	132	291	276	59

病理中无PCA	4	未得	2	13
					病理待决	7	未得	0	未得
	143	291	278	59
					阶段
pT0	2	未得	2	0
					pT2a	14	未得	27	3
pT2b	6	未得	0	0
					pT2c	88	未得	170	35
pT3a	10	未得	54	5
					pT3b	9	未得	5	3
pt3(a+b)	未得	未得	10	0
					pT2	未得	未得	2
pT3	未得	未得	4
					pT4	未得	未得	4
	129		278	43

通道TURP	4		未得	0
					病理阶段遗失	4		未得	13
病理待决	7		未得	0
						144	291	278	59

表28.同意参加观察性饮食SPECS研究的病例的概述

地点	开始	同意	血液送往GCRC	完成调查问卷	计划在家完成
						UCSD	12/07	23	18	7	2
UCI	4/08	18	17	11	7

合计		41	35	18	9

基于肿瘤和非肿瘤细胞的表达分析和遗传改变开发新诊断的前列腺癌后果的预测性特征的挑战

在一组88个前列腺切除术样品(1)中，使用线性回归分析确定四种细胞类型、包括肿瘤和基质细胞的平均基因表达谱。通过将这些病例与具有Affymetrix U133A基因表达数据的55个其他病例合并，我们能够选择63个在前列腺切除术后经三年以上的时期疾病复发的病例。未复发和复发组的线性回归分析揭示出数百个基因表达值的变化，包括主要在基质细胞中表达的与复发状态相关的基因。使用从富集的前列腺肿瘤产生的两个其他独立Affymetrix表达数据集，将这些基因用于产生分类物。将一个79个样品的数据集(37例复发，AffymetrixU133A阵列；训练组)用作训练组(2)，并将一个48个样品的数据集(23例复发，Affymetrix U95Av2/U95B/U95C阵列)用作测试组(3)。使用Affymetrix阵列比较电子数据表进行跨平台探针组的作图，并使用分位数离散化进行归一化(4)。通过使用将少数基因相继用于分类的递归分区法(RP)(5)，以及通过最近缩小重心法从基因表达数据预测病例后果(1)的微阵列预测分析法(PAM)(6)，确定了分类物基因。使用最多5个基因并且有时包括术前PSA的RP分类树，按惯例将每个独立的数据集分类成三个存活组——未复发、早期复发和晚期复发，其p＜0.005。使用通过线性回归预测的肿瘤特异性基因作为输入，通过PAM所产生的分类物，与使用所有表达数据产生的最佳分类物同样好(准确率、灵敏度、特异性)，表明通过线性回归方法富集到相关基因(SVM在此下降，因为它不比PAM性能更好)。然而，分类物性能随着病例的无疾病存活的增加而降低。使用复发时间＜2年的训练组的所有病例，通过PAM确定的59个基因的分类物，当使用相同时期病例的第二个独立数据集进行测试时，产生了75.9％的特异性和88.0％的灵敏度，其总准确率为73.4％。在包含了直到＜4年的更长时期后，所有三种性能值持续降低。对于晚期复发病例来说，不能产生可靠的PAM分类物。RP一贯产生一大组未复发病例和两类复发病例，其中一类由无疾病存活＜2年的非常早期复发的病例构成。使用PAM区分晚期复发病例与未复发病例仍然是一个挑战，并且可以反映出未复发病例与注定在诊断后相对晚复发的病例的基因表达谱的相似性。在诊断时预测早期复发可能是现实的目标。

1.Stuart，R.，等PNAS 2004；201：615-20.

2.Stephenson等Cancer.2005；104：290-8.

3.Yu Y.，等J.Clin.Oncol.2004；22：1790.

4.Warnat，P.，等BMC Bioinformatics.2005；6：265.

5.Koziol，J.，等Cancer Res.2003；9：5120-6.

6.Tibshirani，R.等PNAS 2002；99：6567-72.

用于开发预测前列腺癌患者后果的分类物的新的双模型方法

前列腺癌是最常见的男性恶性肿瘤。然而，大多数病例是“惰性的”并且可能不威胁生命。为了改进疾病管理，需要可靠的分子指示物来区分惰性癌症与将会发展的癌症。统计学方法例如分层聚类、PAM和SVM，已被广泛用于各种癌症的分类物开发。然而，那些方法不能直接用于前列腺癌研究，因为从患者收集的组织样品在细胞组成上是非常不均一的。给定样品的任何基因的观察到的表达水平不仅仅是肿瘤细胞的；相反，它是该样品内所有细胞类型的贡献的总和。在当前的研究中，我们提出了新的方法，其中任何基因的表达水平用考虑到来自不同细胞类型的贡献和它们与侵袭阶段的相互作用(复发或未复发)的线性模型来说明。使用ANOVA来鉴定具有鉴别能力的细胞特异性复发相关基因。那些所选基因的表达图式可以在疾病期的基础上使用两种高斯型模型来描述；因此，它们可用于预测新诊断的后果。基于模拟数据，将新方法与其他常规方法进行比较。通过训练为前列腺癌研究产生的真正数据集，产生了预测分类物。将新的分类物的性能与列线图和具有预测价值的其他临床参数进行比较。

组织百分率的计算机估算改进了前列腺癌和邻近基质中潜在的复发生物标志物的交叉验证。

使用两个模型，对两个公共表达微阵列数据集计算了与复发对未复发相关联的RNA水平的差异。一个模型不考虑每个样品中的肿瘤和基质组织百分率，而另一个模型在线性模型中使用了这些百分率。后一种模型导致两个数据集之间交叉验证的复发相关候选生物标志物数量的非常显著的增加。在邻近基质中发生了许多转录本水平上的这些复发相关变化。数据集之间基于所使用表达数据的组织百分率估算值的相关性，与数据集内多个病理学家彼此之间的相关性几乎一样好。将这种预测组织百分率的计算机模型应用于不存在组织百分率的第三个公共数据集。使用线性模型，再次非常显著地改进了数据集之间复发相关基因的交叉验证，并包括基质中的变化。第三个数据集严重偏向以前未认识到的在复发病例与未复发病例中相比较高的肿瘤百分率，这种偏倚被考虑在线性模型中。概括来说，使用病理学家确定的或从计算机数据推断的组织百分率，增加了在不同的数据集中检测与临床参数相关的一致变化的能力，并将这些变化指派给不同的组织区室。该策略将适用于RNA之外的生物标志物，并适用于来自任何疾病类型的含有可测量的混合组织的样品。

使用计算机组织百分率估算值改进前列腺癌RNA预后生物标志物的鉴定

尽管已经进行了许多检测前列腺癌基于RNA的预后指示物的研究，但它们彼此之间的一致性有限。一种造成因素可能是前列腺组织样品中组织组分比例的变化，其产生了相当大的噪音，并甚至误导微阵列数据挖掘的结果。

我们汇集了具有相关复发信息的前列腺癌样品中RNA表达的6个微阵列数据集，包括我们自己的两个大型数据集。我们的两个数据集以及另外一个数据集包括了由病理学家做出的组织百分率估算。这些数据集被用于鉴定随后用来构建组织百分率预测的简单线性模型的基因。数据集之间基于所使用表达数据的组织百分率估算值的相关性，与数据集内多个病理学家彼此之间的相关性几乎一样好。

使用整合了组织组分百分率的多重线性回归(MLR)模型，我们在所有6个数据集中鉴定了肿瘤和反应性基质相关的预后RNA生物标志物。每个RNA的水平被表示成来自不同细胞类型的贡献及其与复发状态相互作用的线性模型其中g是表达强度，C是细胞类型数量，RS是复发状态指示物，e是随机误差，b′和γ′是回归系数。使用ANOVA来鉴定在复发和未复发病例之间差异表达的细胞特异性基因，即具有显著γ′的基因。然后将标志物在6个不同的微阵列数据集之间进行交叉验证。有185个基因出现在一个以上数据集中，并且185个中的152个(82.2％)在复发与未复发患者样品之间显示出同方向的差异表达变化(p＜10^-18)。大多数这些预后标志物以前没有被其他研究鉴定过，并且某些可能在基质中差异表达。

概括来说，使用病理学家确定的或从计算机数据推断的组织百分率，增加了检测与临床参数相关的差异表达的基因的能力，并将这些变化指派给不同的组织区室。该策略将适用于RNA之外的生物标志物，并适用于来自任何疾病类型的含有可测量的混合组织的样品。

允许将混合组织中的RNA表达使用在前列腺癌预后中的双模型分类物

引言：需要可靠的分子指示物来辨别惰性前列腺癌与将会发展的癌症。统计学方法例如分层聚类、PAM和SVM，已被广泛用于开发估算风险的预后分子标志物的分类物。但是，在前列腺癌中有效使用分类物的一个障碍在于大多数临床样品是不同细胞类型的可变混合物。对于给定样品来说，任何标志物的观察水平是由于来自肿瘤内所有细胞类型的贡献的总和。在别处[1]，我们提出了新的分类方法，其中任何基因的表达水平被表示成来自不同细胞类型的贡献及其与复发状态的相互作用的线性模型。尽管该方法通过将每个样品中组织百分率的影响去卷积而提供了具有更高置信度的生物标志物，但仍然存在着如何构建用于混合群体的分类物的问题。

方法：我们提出预后性RNA的表达图式可以使用两种高斯(Gaussian)模型中的任一种来描述，其中一种用于复发病例，另一种用于未复发病例，两种模型都包括使用细胞构成信息进行计算。在将所选生物标志物的表达值和每种样品的细胞组成数据拟合于这两个不同模型的基础上，通过将无风险的概率与经历复发的概率进行比较，可以产生似然比统计量(LR)。如果LR≥k₁，患者被诊断为具有复发的高风险，或者如果LR≤k₂，被诊断为具有低风险，其中k₁和k₂是预先选定的截止值，并且k₁＞1＞k₂。

结果：在模拟研究中，新方法的性能优于常规的分类方法PAM和SVM。然后通过训练从具有已知组织组成的前列腺切除术样品在Affymetrix U133P2阵列上产生的表达数据集来产生预后性分类物，这产生了50个基因分类物，其在交叉验证后具有94％的准确率。当将预测分类物应用于基于Affymetrix U133A阵列的独立的“测试”数据集时，获得了80％的准确率。

结论：在具有可变的癌组织量的临床样品中，该新的分类物可用于在诊断时评估复发风险。

参考文献：[1]Wang，Y.，等，Proc.100^th Annual meeting of theAACR(《AACR第100届年会会议录》)。[摘要]。

前列腺肿瘤微环境显示出众多可用于诊断的差异表达的基因

引言：每年在美国进行超过一百万例前列腺组织活检。在百分之几的病例中，病理检查完全遗漏了肿瘤。在其他10-20％的病例中，由于病灶不典型、PIN或其他警示事项，组织活检不具有决定性，往往导致在6-12个月内进行“重复活检”。我们观察到前列腺肿瘤细胞的微环境与相同病例的远处基质组织相比，表现出许多基因差异表达变化。这样的变化可用于形成分类物，用于在肿瘤存在的量非常低或正好被活检遗漏时诊断前列腺癌。

方法：产生了105个前列腺癌病例的训练组，其对于肿瘤组织的三种主要细胞类型(肿瘤上皮细胞、BPH上皮细胞和基质细胞)来说具有由四位病理学家评估的已知细胞类型组成。在U133plus2基因芯片上测量RNA表达。线性模型将给定病例的总信号定义为三种细胞类型的表达值各自用其组成百分数加权后的总和：

G_i＝β_肿瘤P_肿瘤+β_基质P_基质+β_BPHP_BPH

其中G_i是病例基因的荧光强度，P_i是指定细胞类型的百分率，β_i是细胞特异性表达系数(信号/细胞类型百分数)。将模型分别应用于带肿瘤的组织和无肿瘤的远处基质组织。通过将两个系列的值相减得出差异基因表达。

结果：将～200个最显著的差异用作PAM的输入。十折交叉验证将训练组对分成带肿瘤的和远处基质组织两个部分，产生了36个基因的分类物，其具有94％的准确率。然后使用独立的82个病例组以及13个对照正常前列腺基质组织，对该分类物进行测试。分类物在测试组上具有83％的准确率。对于来自正常男性的6个活检样品中的5个以及来自快速尸检的所有7个病例，也获得了正确分类。已知在间质衍生物中高表达的几个基因例如肌球蛋白VI、胶原蛋白IX和肌动蛋白解聚蛋白，在邻肿瘤基质中优先表达。

结论：这里观察到的差异基因表达变化最可能代表了邻肿瘤基质与远处基质之间的表达差异。这些差异可能是由于旁分泌或涉及肿瘤与邻近的受影响基质之间的相互作用的“场效应”机制。基质与附近前列腺癌的反应是众所周知的，但是正如在这里观察到的，涉及比以前所认识到的多得多的基因变化。这些变化可用于开发准确分类带肿瘤组织、相同病例的远处组织和正常组织的分类物。这样的分类物能够在假阴性和活检结果不明情况下加强诊断。

表29.通过用于鉴定反应性基质基因的两种方法之一所产生的125个基因

表30.通过用于鉴定反应性基质基因的两种方法之一产生的36个基因

实施例8-用于前列腺癌临床诊断和预后的定量组织成像

具体目标

使用抗体进行临床诊断或预后的计划，必须考虑到患者之间以及临床样品之间存在的巨大生物学差异。将临床变异性降到最低的一种方式是使用一组诊断或预后抗体，其每个已知能捕获一部分患者或一部分临床样品中的相关信息。此外，还存在引起样品内和样品之间染色差异的技术挑战。将技术变异性的影响降到最低的一种方式是使用多重诊断和预后标志物以及在组织中鉴定特定细胞类型而不是后果的“参比”抗体。然后，在相同技术影响下和相同组织切片中的这些参比抗体，可用于鉴定对于相关细胞类型的诊断和预后抗体所观察到的信号，所述信号然后可以定量，定量精确度比使用独立杂交所能获得的精确度高得多。在前列腺癌的情况下中，诊断和预后抗体在患者或临床样品中可能在癌细胞或邻近基质细胞中高度可变并通常稀少的部分中相关，并且与正常组织相比的变化可能常常是轻微的而不是“全或无”，因此，可能只有在同一显像中包含参比抗体，才能以任何置信度鉴定到相异的临床相关区域。

幸运的是，存在着使用荧光染料能够执行单个样品的多重抗体染色的技术。该两阶段计划的总体目标是开发前列腺癌中一组5-10个诊断的和5-10个预后的抗体生物标志物表达水平的自动化、定量的、基于图像的分析法。利用组中的每个测试抗体生物标志物与已知特异性鉴定总上皮或肿瘤上皮细胞或邻肿瘤基质细胞的参比抗体的共定位，对特定细胞类型执行每个抗体生物标志物的定量。

在该计划的第一阶段中，我们致力于鉴定和表征在福尔马林固定和石蜡包埋的(FFPE)并且冷冻的组织切片两者中可靠地鉴定总上皮或肿瘤上皮或邻肿瘤基质的参比抗体。有可能的是，辨别不同类型的上皮/肿瘤和成纤维细胞/平滑肌基质的一组参比标志物，可用于自动筛选诊断样品。然后第二阶段将建立在该参比组以及诊断和预后用途的其他标志物之上。

在第一阶段中，将使用完全冷冻和FFPE切片以及前列腺癌组织微阵列(TMA)来调查候选参比抗体，并且也通过与标准细胞系和正常前列腺组织样本进行比较，为TMA的所有病例确定标记的可重复性、变异性和准确性。该目标不是无足轻重的，因为抗体对于彼此之间显著不同的免疫组织化学可能具有最适度。多重应用的优化可能需要检查每种标志物的不同类型抗体以及各种条件，以便发现标准条件和标准抗体组。强度数据的可重复性、变异性和准确性，将使用阳性和阴性对照、TMA统计量以及在不同天对组织的相邻切片包括TMA的重复杂交来进行仔细评估。通过将我们的数据输到免费软件数据库和显像系统(ConQuest)，进行与DICOM标准相一致的数据储存。

多重抗体系统的定量性质将使用由Vala Sciences Inc.开发的专利扫描微量细胞计数器，通过使用多种荧光团自动产生，并通过与代表性候选抗体生物标志物的结合位置和强度的直接视觉评估相比较进行验证。然后将用于定量免疫荧光(IF)的每个切片用于制备DAB(重偶氮联苯胺)发色团标记的用苏木精复染的版本，并提供给四位病理学家小组，用于估算阳性标记的上皮细胞或肿瘤上皮细胞或邻肿瘤基质细胞的标记强度和百分率。使用自动化强度和目测强度之间关系的线性模型，将DAB和荧光标记切片的目测分值与Vala系统的自动输出结果进行定量比较。在病理学家进行评估时，并不严格要求抗体针对组织类型精确作图，但是任何具体样品的分值应该一贯不同，以便确信抗体正在测量总是略有不同的某些物质。真实的肿瘤和基质区域将被确定，并且将定量评估共定位的像素或细胞的符合性。

工艺流程将被流水线化，然后产生SOP以允许在4-5天内完成自动图像分析。

B.背景和意义

概述

尽管我们对癌症的了解不断进展并开发了新的疗法，但癌症仍是美国的第二号杀手，许多癌症的死亡率几十年来仍保持相对不变。在西方国家，前列腺癌是男性中最常见的癌症和与癌症相关的死亡的第二位主因[1-3]。尽管PSA筛查已成为增加前列腺癌早期检测的有价值的标志物，但目前PSA化验受到几个限制的困扰，包括缺乏特异性和不能准确预测疾病进展[1，2，4-8]。关键尚未满足的需求是鉴定可靠的新的生物标志物来辅助前列腺癌的早期诊断，更关键的是确定最初治疗例如前列腺切除术后前列腺癌复发的风险。目前，对于新诊断的前列腺癌的主要治疗方式仍然是根治性前列腺切除术。根治性前列腺切除术为器官局限性疾病提供了出色的后果。然而，所有手术患者中的15％-20％或以上最终经历复发，表明在手术时存在残留疾病、局部浸润和/或转移性沉着物[7-11]。传统的基于术前值的临床参数包括肿瘤分级、Gleason分值和PSA水平、阶段或其组合，尚不足以预测患者复发的风险[11，12]。现在认识到前列腺癌表现出数百个改变的基因表达变化，其中的许多可能代表直接影响后果的基因[13-19]。然而，最近由前列腺SPORE领导小组(SPORE间前列腺生物标志物研究和NBN先导组(the Inter-SPORE Prostate Biomarker Study and NBN Pilot group))发出的共识声明，简明总结了已证明充分可靠地发展到临床应用的基因很少或没有(http://prostatenbnpilot.nci.nih.gov/aboutpilot_ipbs.asp)。

我们正在开发一种新的测试，其使用了鉴定可以在诊断时应用的细胞特异性生物标志物的新方法，以确定在手术后肿瘤是否具有复发潜力。开发能够在诊断时区别疾病的惰性和侵袭性形式的临床测试，将提供决定性的指导。首先，该信息将提供何人需要治疗性疗法指导，从而为具有高复发风险的患者提供了避免手术和相关死亡的选项。其次，该信息还为何人可能从手术后或立即的辅助治疗获益提供指导，从而利用了原本复发可能未受抗击地发生的多月或多年的时间。此外，最近显示，将基因表达特征与临床数据整合在一起，提高了预测发展和转移的准确率[13，14，20]。该方案的一个目的是使用(a)通常可获得的临床材料例如活检样本，或(b)使用前列腺切除术后的手术病理块作为辅助治疗和患者咨询的指导，将前列腺癌基因表达分类物转变成能够快速可靠地预测疾病复发的抗体组。蛋白标志物与RNA标志物相比的关键优点在于，蛋白标志物提供了细胞类型的空间分辨力，并能检测标志物的细胞类型局限性共表达，该信息在大量RNA样品中丢失。

此外，对于通过组织活检进行诊断还存在重要挑战。每年在美国进行超过一百万例的前列腺组织活检。大多数是阴性的。这些阴性活检中约20％由于病灶小或被读为仅能看到“不典型腺体”或其他不明情况，被判断为不足以用于决定性诊断，即每年～100,000例这样的病例。这些部位的微环境含有用于诊断的潜在信息。我们已经观察到前列腺癌的邻肿瘤基质表现出数百个改变的mRNA表达变化，并且已推导出准确鉴定邻肿瘤基质组织的基因名单。因此，所选基因产物的抗体可能有潜力用于协助传统上非诊断性活检样品的诊断。

鉴定诊断和预后前列腺生物标志物的重要性

到目前为止，只有有限数量的在前列腺癌中受到差异调控的诊断性生物标志物已被鉴定，例如前列腺特异性抗原[2，5，6，23-25]、前列腺特异性膜抗原[26，27]和人类腺体激肽释放酶2[10，28-32]以及PCA3。尽管这些抗原已被用于开发早期诊断方法并用于在临床前模型中将治疗药物定向递送到前列腺癌[33，34]，但这些标志物不能解决鉴定能够对早期或晚期前列腺的癌发生和转移进行表征的生物标志物的需求。最近的研究鉴定到循环中的尿激酶样纤溶酶原活化受体形式，其可以单独或与其他前列腺癌生物标志物(hK2、PSA)组合，用于预测前列腺癌的存在[35]。其他潜在的预后标志物包括早期前列腺癌抗原(EPCA)、AMACR、人类激肽释放酶11、巨噬细胞抑制细胞因子1(MIC-1)、PCA3和前列腺癌特异性自身抗体[5，36-42]。

对新的前列腺癌生物标志物的搜寻，已转向使用全基因组和蛋白质组谱分析来促成具有诊断和预后双重重要性的多种标志物的发现[5，18，36-42]。比较来自正常前列腺组织、BPH组织和前列腺癌组织的基因表达谱分析，已鉴定到在前列腺癌中差异调控的许多潜在基因[14，15]。它们包括丝氨酸蛋白酶hepsin、α-甲基酰基-CoA消旋酶(AMACR)、巨噬细胞抑制细胞因子(MIC-1)和胰岛素样生长因子结合蛋白3(IGFBP3)[40]、TGFβ1、IL-6和许多其他基因。需要在蛋白质水平上对来自患者组织或血清样品的这些标志物进行验证，并对这些标志物作为真正诊断和预后工具进行临床验证。尽管正如所指出的，这些候选物中的一些已出现在荟萃分析中(例如Rhodes，2002)，但最近InterSPORE研究的共识声明已经注意到，还没有一种已被证明足以可靠地用于临床应用，并且还没有一种已被用于形成预测多个独立病例组后果的小组。

目前的临床参数包括Gleason分值、PSA和肿瘤分级，它们还不足以预测患者后果。已经将临床判据的组合装配成预测性列线图，以试图改进惰性相对进展性疾病的诊断[11，12]。尽管这些研究表明了改进的诊断和预后能力，但是仅基于术前临床值的那些表现不太好，它们有待广泛的临床验证。一个主要挑战是大多数前列腺癌共有类似的组织学特征(Gleason分值)或临床标志物(PSA)，但是表现出广泛不同的临床后果。最近，已经开发了在诊断时预测前列腺癌后果的生物标志物的多基因谱[14，20，44-46]。Singh鉴定到5个基因的分类物，其能够比术前PSA或肿瘤等级的临床参数更好地预测前列腺癌复发[46]。Stephenson鉴定到与前列腺癌复发高度相关的一组10个基因。将临床变量与10个基因的分类物相组合的分析，极大改进了临床后果的预测[20]。Henshall鉴定到＞200个基因比术前PSA更好地与前列腺癌复发相关[14]。从这些研究可以看出，显然分子关联物与目前的临床参数相比，具有提供明显增加的与后果相关的信息的潜力。除了后果预测之外，这些独特生物标志物中的几个可能是有功能的，并因此提供了干预的机会。正确鉴定预测前列腺癌复发的分子决定物、它们在蛋白质水平上的验证以及将数据转变成稳固的临床测试，是在我们当前的方案中所应对的挑战。我们已在候选基因的鉴定和验证两方面取得进展，将能够快速、稳妥地过渡到临床测试。

改进的基因名单

我们已经开发了新的方法，其帮助开发了在差不多原始诊断时获得的组织的表达值的基础上用于诊断和预后的基因特征。首先，如本文中所述，我们使用了线性组合模型，与由四位病理学家的小组所确定的细胞组成的知识一起，通过细胞类型确定基因表达[18]。这些研究揭示了与PBH或扩张囊性腺或基质的上皮相比，由肿瘤上皮差异表达的基因组群[18]。该观察具有重要的实用考虑。尽管大多数全基因组研究着眼于正常和癌性前列腺上皮细胞之间的差异，将基质细胞的贡献视为“污染”，但我们发现，基质表现出几十种在邻肿瘤基质与远离肿瘤位点的基质之间显著差异的基因表达变化[18]，以及复发PCa病例与未复发病例相比在邻肿瘤基质之间几十种差异的表达变化[43]；[44]。我们鉴定到两个独立的基因亚组。第一个亚组由在复发PCa(“侵袭性”癌症，复发PCa)与未复发PCa(“惰性”癌症，未复发PCa)之间差异表达的肿瘤上皮特异性和基质细胞特异性基因构成。因为几乎所有PCa组织样本在肿瘤的直接微环境中含有基质或反应性基质，因此适当包含对基质变化敏感的抗体提供了用于预后用途的“分类物”的重要成分。这些表达变化可用于预测后果([43][44])。

其次，我们鉴定到邻肿瘤基质特异性基因的独立亚组。这些基因在邻肿瘤基质和远处基质之间差异表达。这些表达变化可用于在不明病例的活检样品的“无法诊断”或“不典型”肿瘤灶处检测邻肿瘤基质，由此可能将“无法诊断的”病例转变成决定性测定。我们提出使用这些基因名单作为出发点开发5-10个抗体专用组，应用于对于具有证实或怀疑的前列腺癌诊断的所有患者来说可常规获得的活检或术后FFPE组织样本。尽管可以从这些样品回收RNA，但在所有病例中保存具有决定性信息并与新鲜组织中的量成比例的特定转录本组是个问题。相反，从FFPE进行基于抗体的诊断是明确成立的。在第二阶段中，我们计划利用高通量扫描显微镜鉴定包含在该专用组中的最佳抗体。调查将使用由254个前列腺癌病例、正常前列腺组织和确定的细胞系构成的TMA。这里使用的TMA已被构建成含有特别富于邻肿瘤基质和远处基质的核心。这些核心将允许我们评估在复发与未复发病例之间观察到的差异表达是否可以在邻近非肿瘤组织或甚至在远处非肿瘤组织中观察到，并证实基于邻肿瘤基质的诊断是可靠的。其他的潜在应用包括在可能恰好“错过”了明显肿瘤的“阴性”活检样品中检测邻肿瘤基质。由于每年进行的一百万例活检中的大部分是“阴性”的，这种可能性是相当重要的。

使用组织微阵列(TMA)进行生物标志物验证

前列腺癌中DNA变化的非均一性质，使得单一生物标志物不可能足以用于正确确定前列腺癌严重性和复发风险。所需要的是鉴定能够显示出与癌症患者群体中疾病进展的不同方面和复发风险相关的生物标志物专用组。使用微阵列(TMA)筛查组织，对于与疾病进展和后果统计上相关的标志物的鉴定来说是理想的[45-48]。TMA筛查是用于验证微阵列结果、用于将RNA表达结果扩展到蛋白质表达、以及用于鉴定广泛表达并可容易地从诊断时常规获取的样品获得的生物标志物的抗体的有力工具。TMA使用数百个不同患者样品来构建，所述样品跨过临床病理学和后果的整个范围。此外，它只需要可以在诊断时收集的少量组织例如活检样品，并可适合于使用多个抗体探针的高通量分析。TMA可以从所选的存档病例制造，这些病例具有跨越许多年的存活和其他参数例如治疗史的详细情况的临床注释。

许多研究使用TMA来鉴定或验证与疾病进展、疗法响应、复发和转移相关的前列腺癌生物标志物[45-48，49，50]。TMA分析被用于验证源自于48基因表达特征的7抗体专用组，其能够更精确地分类Gleason 3级和4级肿瘤[47]。多项TMA研究鉴定到了几种指示前列腺癌进展的标志物，包括Amacr(α-甲基酰基消旋酶)AMACR、AR、Bcl-2、CD10、ECAD、Ki67和p53[45]。TMA分析已鉴定到13个与前列腺癌复发相关的基因。它们包括AKT、□-联蛋白、NFκB、Stat-3、hMSH2、Hepsin、PIM1、多配体聚糖-1、Bcl-2、Ki67和ECAD[45]。它们中很少已被编入相干预测专用组，并被评估为专用组。因此，专用组与单个抗体相比的性能以及进行组合来克服前列腺癌多样性的潜力，是未知的。几乎所有的研究都忽略了基质，尽管Rowley及合作者已经检查了平滑肌α肌动蛋白[51]。其他基因经历interSPORE小组所指出的警告。几个基因，例如AMACR，在外科病理学中被用作诊断的辅助手段，但是不常规用于风险评估中。我们提出了从在RNA水平上性能已知的预测专用组获得的超过50个预测的预后生物标志物进行系统性评估(第I阶段和第II阶段)。

高通量分析和定量

当前研究将致力于解决阻碍开发快速和可靠的生物标志物专用组以备临床测试使用的几个障碍。尽管TMA含有丰富的潜在数据，但正确鉴定和定量抗体的细胞特异性染色图样的能力，目前依赖于手动鉴定或图样识别程序，它们既耗时又易于受到偏倚和误差。因此，我们将利用由Vala Sciences Inc.(http://www.valasciences.com/)开发的自动数字扫描系统。该系统能够以亚细胞分辨力、包括用于TMA的像素水平快速记录用多达10种不同荧光团标记的组织学切片，并且分别显示每种颜色。该系统已由Beckman Coulter Instruments Inc.(Fullerton，CA)获得(http://www.beckmancoulter.com/hr/pressroom/oc_pressReleases_detail. asp？Key＝4764&Date1＝12/11/2003)，并开发成Beckman-Coulter IC 100系统。我们的应用只需要两种颜色。参比抗体将用于定位所有上皮细胞或者上皮肿瘤细胞或基质细胞的亚组，测试抗体将与第二种荧光团一起使用，并且将测定与真正的上皮或肿瘤或基质共定位的测试抗体的像素以及不与靶细胞共定位的像素。然后将在靶位点处标记的抗体的强度积分、归一化，并与非局域性结合或与已知的临床后果相比较。因此，通过现有技术和软件可以确定特异性、灵敏度和准确率。作为金标准，第I阶段将建立参比抗体与病理学家组的目测后果相比较的功用。

第II阶段研究

●临床研究的开发。第II阶段将包括形成和验证抗体作为临床试验中的预后专用组和诊断专用组的多重应用。候选抗体的诊断和临床性能将被测确定。将形成两个专用组，其由具有(1)按照强度、特异性和灵敏度标准来说性能最高以及(2)对一部分病例的准确率的优越性不能由其它抗体同等达到的抗体构成。

●专用组成员的单克隆版本的获取和测试。通过来自现有供应商或代理商的商业授权，使用能够提供GMP产品的来源，将所有多克隆抗体转变成单克隆对应物。启动预测性抗体的GMP制造，并为在CLIA设置下征集和测试前列腺癌患者的开发临床方案。

●生物标志物发现/验证平台的扩展：在第II阶段中，我们将继续在扩展的TMA组上验证新的前列腺癌基因分类物。我们也将检查循环中的蛋白生物标志物是否具有预测价值。

C.初步数据

C.1.诊断和预测基因特征的产生

尽管肿瘤微环境对肿瘤进展和转移的重要性已被详尽记录[19，40，49，51-54]，但只有非常少的研究、例如Tuxhorn等(2002)[51]和[55]鉴定了反应性基质的遗传标志物。我们利用了线性回归来确定前列腺组织样品内包含的四种主要细胞类型，包括肿瘤细胞、基质细胞和两种其他正常上皮组分的表达谱[18]。在线性模型中，用于RNA制备和Affymetrix分析的前列腺组织切割的复杂切片中观察到的任何基因表达(该基因的表达阵列结果)，被认为是由于样品中主要细胞类型的贡献的总和。每种贡献进而是由于样品中每种细胞类型的比例或百分率以及特定细胞类型中特定基因的特征性表达系数：

方程1 G_i＝β′_肿瘤，i P_肿瘤+β′_基质，i P_基质+β′_BPH，i P_BPH+β′_{扩张囊性腺，i} P_{扩张囊性腺}+rs(γ_肿瘤，i P_肿瘤+γ_基质，i P_基质+γ_BPH，i P_BPH+γ_{扩张囊性腺，i} P_{扩张囊性腺})

其中G_i是观察到的Affymetrix总基因表达，β’是细胞类型特异性表达系数，P是用于阵列的样品的每种细胞类型的百分率。百分率P可以由四位有经验的病理学家团队通过检查用于RNA制备的组织的H和E染色载片来确定。表达系数由多重线性回归(MLR)分析来确定。对于肿瘤中富含的显微切割的大体组织来说，如方程1中所表述的，存在四种主要细胞类型。我们显示，在四位病理学家确定的细胞类型百分率之间和之中，存在非常高和统计上显著的一致性[18]。在该初始研究中，我们力图确定主要由一种或另一种细胞类型与后果无关地一贯性表达的基因，即前列腺癌样本中细胞类型的特征性基因。我们观察到3384个主要由一种细胞类型以统计学显著性表达的基因。例如，1096个基因一贯地由肿瘤上皮细胞表达，而496个基因与BPH上皮细胞显著相关。通过LCM样品的定量PCR并通过免疫组织化学，与文献进行比较，验证了细胞类型特异性表达[18]。

C.1.A.诊断性多基因特征。这些初始研究表明，众多、可能数以百计的基因可能在肿瘤细胞微环境中差异表达，其可以在补充来自肿瘤细胞组分的数据的情况下或甚至在不存在所述数据的情况下用于诊断[18]。使用了三种方法鉴定这样的基因。我们采用了下述模型，其主要是在肿瘤细胞周围的微环境与正常或远处基质之间表现出最多和最大差异表达变化的邻肿瘤基质。我们还假设，远离带有PCa的前列腺腺体的肿瘤位点的基质可用于估计正常基质的表达。我们利用了来自应用于148U133A Affymetrix基因芯片的91个病例的可公开获得的表达数据(GEO登记号GSE8218)。这些病例与以前在U95av平台上研究的病例[18]相同，并加入了其他病例。细胞组成百分数完全按照描述来确定[18]。目的是发现在正常基质细胞与接近肿瘤细胞的基质细胞之间具有改变的表达水平的基因。我们将U133A样品分成两个亚组：91个带肿瘤的病例和57个来自相同病例的不带肿瘤的组织部分。这些部分主要是远处基质。然后我们对每个组使用方程1，由此为基质确定了两个β值：邻肿瘤基质和肿瘤远处基质。注意，没有考虑复发状态或表明带肿瘤部分之间差异的任何其他临床参数，例如Gleason分值。因此，只确定了基质特征性的β以及每个β值的误差的最小二乘法估算值。还应该指出，相对于误差来说大的β必定是邻肿瘤基质或远处基质统一的或特征性的，即不依赖于可能指示侵袭性差异的临床值例如Gleason分值。这样的β有利于显著性检验中的高T值。确定了邻肿瘤基质和远处基质的β值之间的显著差异。这种方法产生了208个基因。这些显著基因是在邻肿瘤微环境中特异性差异表达的候选基因。

在第二个方法中，将方程1扩展到包括叉积：

Gi＝β′_肿瘤，i P_肿瘤+β′_基质，i P_基质+β′_BPH，i P_BPH+β′_{扩张囊性腺，i} P_{扩张囊性腺}+β_基质，i(P_基质*P_肿瘤)

方程2

叉积项被用于模拟肿瘤与基质细胞之间的相互作用。显著的相互作用可以被当作由邻近的肿瘤细胞引起的基质改变的表达特性。将方程2应用于U133A plus数据集，由此产生了1820个显著的叉积项(探针组的～8％)。最后，通过将方程2应用于在全基因组Affymetrix U133Aplus2基因芯片上测量的独立的91个病例组，确定了第三个基因名单(未发表的数据，D.Mercola)。该第三个数据集可用作使用U133A阵列确定的基因的测试组，但是平台的不同意味着不使用交叉平台归一化就不能进行测试，而所述归一化过程引入了额外的误差。因此，我们将方程2从头开始应用于第三个数据集并寻找满足相同显著性标准的基因，产生了4533个显著的叉积项(探针组的～8％)。

最后，我们询问这些基因中哪些对于所有三次测定来说是共同的(最大交集是208个基因)。该三方交集产生了90个基因，即90个在使用两个不同病例组的所有三次计算中都出现的基因。这些基因可用于完全从不存在肿瘤细胞的基质组织诊断邻肿瘤基因变化的存在。

为了测试这些基因的一贯性，使用了将所有90个基因用作分类物的PAM(微阵列预测分析)，来区分U133A和U133 plus2数据集的肿瘤和非肿瘤组织。该方法不利用细胞类型组成百分数的信息。

首先，我们从U133plus2数据提取了这90个基因的相关表达值作为训练组。然后我们使用PAM分析这些提取出的表达数据，以肿瘤/非肿瘤作为相关分类变量。经过交叉验证，PAM从90个基因中鉴定出21个基因作为最佳的分类变量预测物。将分类物在U133A数据上测试，产生了100％的特异性和94.4％的灵敏度(准确率＞94.4％)。

结论。观察表明，在大部分病例中，仅从邻肿瘤组织、即不存在肿瘤细胞的组织的表达分析来诊断前列腺癌的存在，是可能的。这对于了解患者的活检材料来说具有非常重要的潜在应用。此外，通过仅仅将方程1和2应用于U133A来重复上述分析，(两个输入名单形成交集)，最终的分析将不含任何来自测试组的输入并且是严格客观的。我们以这种方式设计了21个基因的组，并使用得到的名单作为出发点，用于鉴定适合形成第II阶段的诊断专用组的抗体。

C.1.B.预后性多基因特征。可以将MLR扩展到鉴定给定细胞类型在惰性与侵袭性肿瘤病例之间的基因差异表达，其中“侵袭性”由化学复发定义。在该方法的最简单的应用中，将方程1分别应用于每种病例类型——惰性或侵袭性病例，并确定这两类病例每种细胞类型的β的显著差异。使用这些方法，对于在131U133A基因芯片上检查的91位患者系列，我们观察到1212个基因被肿瘤细胞显著和差异表达(p＜0.05)。

为了验证这些差异表达变化，然后使用在U133A plus2平台上评估的独立的86个病例来重复这一过程。同样不需要交叉平台归一化。鉴定到1373个显著差异表达(p＜0.05)的基因。然后通过四个标准定义“验证过的”基因：(i)每个平台的两个或以上探针组作图于相同基因；(ii)当对于相同基因存在多个探针组时，相同基因的所有探针组都满足标准(iii)和(iv)；(iii)每个病例组的差异表达变化是显著的，其p＜0.05，(iv)对于每个病例组来说，鉴定到的基因的差异表达是同方向的。我们观察到18个肿瘤细胞特异性基因和19个基质细胞特异性基因满足这些标准。该37个基因表现出满足这两个病例组的显著性标准并且由于偶然而具有相同征象的几率小得近于零p＜zx，表明支持了验证的基因名单是特异性的。此外，对于两个病例组来说，这些基因差异表达的幅度是显著正相关的(图9)，进一步证实了所验证基因的相关性。没有基因与为诊断性多基因特征所确定的基因相同。

结论。这些初步计算指出，能够容易地鉴定到表现出可区分惰性与侵袭性疾病的复现性差异表达变化的多基因特征。这些计算说明，细胞类型异质性是前列腺癌结构的必然部分，并导致了通过其他方法评估的样品收集物的异质性。因此，我们的方法可以克服困扰开发可靠的预后分类物的主要问题。此外，我们利用了两个独立的数据集。由于说明了细胞类型组成百分数，我们观察到了肿瘤上皮细胞和邻肿瘤基质的独立的基因特征。因此，可能可以利用具有稀少肿瘤含量的组织来增强样本的预后价值。我们计划使用38个鉴定到的基因作为出发点，为第二阶段中我们的抗体专用组鉴定和筛选抗体。使用TMA的这个研究将进一步验证我们的特征的预后性质。大量的其他研究正在进行之中。我们需要通过计算操作特性，在已发表的独立数据集上测试我们的分类物。我们计划通过像诊断谱那样，使用PAM进一步精炼我们的基因名单并评估准确率。这些以及其他的精炼工作正在进行之中。

C.2.全自动荧光和吸附显微术分析。在这里使用的多颜色标记载片的扫描显微术和独立的图像表示法，由San Diego的Vala Sciences Inc.的总裁和CEO J.Price及合作者开发，并且已用于各种出版物中(61-84)。该系统被称为Q3DM Eidaq^TM 100全自动显微术仪器，在Beckman Coulter’s CytoShop^TM 2.0版上运行。该仪器包括带有自动载物台的Nikon(Melville，NY)Eclipse显微镜，连有荧光光源和带有最多10个范围为413nm-663nm的窄带基础滤光片的滤光片转轮。已经开发了许多支持软件包。该系统得到Vala制备的各种基于抗体的试剂盒的支持。每种产品含有靶向特定目标蛋白的染色试剂，以及事实上可用于任何计算机系统的软件程序(Thora^TM)。原始仪器由前公司Q3DM Inc.的J.Price开发，该公司致力于开发主要定向于自动荧光图像细胞计量术的高通量显微术仪器(61-84)。该仪器被设计为具有精确的图像分割(81，83，84)、荧光激发弧灯稳定化(68，82)和用于产生荧光成像的自动聚焦(69)。该系统卖给Beckman Coulter，并开发成Beckman-Coulter IC 100。目前的仪器是下一代扫描微型细胞计数器，并包括载片架仓用于100个制备的载片的自动扫描。

在目前的研究中运用两种方式，使用荧光团标记抗体的免疫荧光(IF)和使用吸附发色团的免疫组织化学。对于这两种方法来说，通过使用多个固定带通滤光片捕获多个图像，获得了多个标记切片的光谱分离。最多10个固定带通滤光片自动旋转到光源前方或相机前方光的光径中。因此在单色CCD相机上记录到每个切片最多10张图像，产生了“光谱栈”。光谱栈数据的光谱解混对光谱栈图像与色象差配准中的误差敏感。在软件中已包含了多个预防措施以校正这些效应。

对于IF来说，通过适当过滤光谱栈，直接分辨不同颜色的荧光团的狭窄发射，并且相应的图像可用于像素水平的分析(例如参见Progozhina等，2007)。

对于IHC来说，典型的发色团例如DAB(重偶氮联苯胺)、苏木精等的宽吸收带需要按照以前所开发的，分析光谱栈的多个图像(3)。简单来说，观察到的强度的光谱解混是基于在矩阵符号中表示成发色团的线性组合的模型，其中每个发色团的贡献是给定波长范围内结合的量与荧光强度或吸收的乘积。这里使用的所有发色团的发射和吸收光谱是已知的，所需的未知数是每个发色团对给定像素强度的贡献的相对量。它们通过非负矩阵因子分解法(NMF)来确定(Rabinovitch等，未发表)。组织图像的有效多色分离通常需要各个发色团与组织相互作用的知识。基于NMF，Vala系统是能够不参考各个发色团-组织吸收或荧光光谱、以全自动方式执行这种颜色分解的第一个系统。执行这些方法的仪器和软件已被开发、鉴定，并使用客观标准品和专家目测打分在TMA上进行验证，结果后果描述在参考文献中(Rabinovitch等，未发表；Rabinovich等2006)。

成像技术和软件的其他支持性特点包括：(i)重新组合在TMA制造中常见的破损核心图像的能力。据我们所知，除了Vala之外，目前可用的软件都不能解决这个问题。该问题通过使用K-平均值聚类算法(53，54)来解决，所述算法提供了根据距离对目标(例如像素)进行分组的自动方法。详细情况可见Vala TM软件的“构架”文章(Rabinovich等2006)。(ii)执行在线观察、TMA打分与储存的计算机化输入。组织微阵列核心图像通过软件进行组织，用于观察、表达分值的交互输入和将数据以有组织的格式储存。用户可以点击任何这些缩略图以浏览整个核心的放大图像和/或核心图像的全放大倍率分区。然后可以通过选择数据输入弹出式窗口来输入数据。图像的储存格式是标准的TIF或BMP。进一步的详细情况可见参考文献(Rabinovich等，2006)。(iii)已经开发并实现了使用非监督多光谱解混的全自动光密度测定法IF-或IHC-标记的TMA(Rabinovich等，2006)。图11归纳了数据获取和分析中的主要步骤。

我们提出了使用一种颜色的参比抗体鉴定特定细胞类型，并用第二种颜色双重标记同一切片以定位候选或测试抗体的结合。测试抗体与靶细胞例如肿瘤细胞结合的量将通过共定位来确定：测定在参比抗体标记位点(像素)处的测试抗体结合的像素。未共定位的测试抗体的积分像素值也被确定，作为缺少特异性的度量。

计划了共定位的两种独立用途。对于候选抗体的常规高通量筛选(第II阶段)来说，IF将被用作更灵敏、享有更大动态范围和更适合于将多种被证明的抗体应用于患者材料的IF。对于通过与病理学家专家组目测打分的金标准进行比较来鉴定参比抗体(第I阶段)来说，将使用IHC以便提供可以被病理学家直接评估并与通过光谱去卷积的共定位结果进行比较的载片。

C.3.IHC标记的TMA的光谱解混的准确率：与单标记和目测打分的比较。这里提出的以自动方式对候选生物标志物进行的细胞类型特异性标记，依赖于候选抗体与使用第二种颜色的参比抗体所鉴定到的目标细胞的共定位。从多重标记的组织切片分辨各荧光团标记图样，可以从多个窄带基础滤光片的图像直接获得。然而，基于吸收/透射的HIC图像更具挑战性，并需要使用非矩阵因子分解(NMF)的光谱分离。通过使用双标记TMA，按照下面的程序，我们评估了这种方法。使用一组97个核心，我们首先施加DAB染色剂，并捕获了437个多光谱图像栈(9)，每个核心平均4.5个视野。然后我们添加苏木精染色剂，并获取了第二个图像栈。第二个栈用于输入到我们的算法中，并将得到的估算了DAB染色的分解与用作背景实况的第一个栈进行比较。然后我们对使用NMF解决颜色分解问题进行了实验评估。尽管重建误差表现为定量测量值，但它不提供判断估算的组分代表染料浓度的精确性的标准。按照Rabinovich等提出的方法(Rabinovitch等，未发表)，我们通过将背景真实的单染色图像与双重染色组织样品的相应自动提取组分进行比较，对性能进行了定量。

使用该程序，所有样品上的平均分解误差是6.73％，标准偏差为1.81％。因此，这与单发色团标记的切片相比，提供了光谱分解的准确率的一种客观评估。

在建立了经过多光谱解混的光密度测定法的准确性后，我们想知道该定量测量值与人类专家的客观打分相比如何。四位受过训练的病理学家组(M.Krajewska，S.Krajewski，D.Mercola，A.Shabaik)评估了97个组织活检样品的抗体蛋白(DAB)表达。打分按照病理学惯例进行，每个组织切片在0.0到3.0、步增值为0.5的量表上进行分级。对于目测与分析结果的关联性，我们分析了线性模型y＝mx+c的表现，其中x是由NMF分解报告的分值，y是病理学家的打分，m是斜率，c是y轴截距。使用线性回归来拟合模型。回归的拟合误差可以指示模型的预测误差。然而，取决于模型的复杂度和可用数据的量，回归误差可能与模型的真实预测误差有显著差异。因此，尝试了估算预测误差并将其代替拟合误差进行报告。当数据稀少时最简单和最广泛使用的报告预测误差的方法是交叉验证(86)。十折交叉验证产生了0.02的均方误差，标准偏差为0.01。这与0.163的均方根(RMS)误差相当，RMS也转变成病理学家量表上的5.4％的平均误差。验证研究的主要结果是，5.4％的误差与相机检测器的相应信噪比相比大得多。因此，验证允许基于相机的显微镜的电子信号检测的动态范围大大高于目测系统，目测系统的“噪音”值为～3x5.4％＝16.2％，与其相比相机为＜1％。定量抗体结合的动态范围增加克服了使用目测或IHC方法进行抗体标记的主要局限，并大幅增加了鉴定与存活数据和其他重要临床协变量相关的抗体的能力。对于基于荧光的抗体标记来说，该优点被扩大了许多倍。

广泛使用的形式A＝BC的另一种分解是独立组分分析(ICA)(Hyvarinen，J.，Karhunen和E.Oja，Independent Component Analysis(《独立组分分析》)，John Wiley & Sons，2001)。ICA是基于下述假设，即矩阵A是多个随机独立过程的叠加的结果。这是对染色过程的更加合理的描述，其中每种染色剂可以被假定独立于其他染色剂。然而，经典的ICA算法不强制要求非负性，这使得它们也不适合于染色恢复。我们在实验上评估了将NMF和ICA用于颜色分解问题。尽管重建误差表现为单纯的定量测量值，但它不提供对估算的组分代表染料浓度的精确性如何的判断。我们通过将背景真实的单染色DAB图像与双重染色DAB/苏木精组织样品相应的自动提取组分进行比较，对性能进行了定量。从定量来看，ICA与NMF相比，四个图像组总体大50％(图像可以在hppt://vision.ucsd.edu/获得)。NMF和ICA两者都提供了良好的结果，但是对于NMF分析来说，对背景实况观察到保真度增加。我们提出使用NMF进行这里提出的研究。

结论1.这些研究为将多种颜色标记的TMA成功分解成组分图提供了支持。这里提出的应用更加简单，因为不需要独立的2D图像。我们计划提取与发色团B的像素共定位的发色团A的像素强度的子集，其中发色团A主要与目标细胞例如肿瘤或上皮细胞或基质细胞结合。我们还未完成这项任务，但是只需要对现有的软件、像素积分进行少量修改，并且将其作为阶段I的里程碑提出。然后通过Cox回归和ANOVA分析，使用当前可用于PCa TMA病例的疾病进展的协变量，对共定位的发色团B、即测试发色团的数据进行分析。

2，扫描TMA和提取定量数据的自动化能力将极大促进抗体筛选。

C.4.亚细胞水平上的多色IF分离。Vala扫描全自动显微镜的设计目标是使用像素水平分辨率进行亚细胞分割。因此，重要的是注意到，这种能力超过了这里所需的细胞分辨率的要求，所述要求完全处于仪器开发的当前水平范围内。这一点通过成功开发Thora软件包的自动膜算法而得到保证(Prigozhina 2007)。例如，将小鼠皮肤肿瘤用三种荧光团标记，两种用于鉴定目标蛋白、即膜结合的E-钙粘着蛋白和上皮定位抗体抗K-14抗体，以及一种用于核的细胞定位标记物DAPI。在这种情形中，K14是侵入较深皮肤层的致瘤表皮细胞的推断的标志物。表现出K14信号(高的红色通道荧光)的细胞在肿瘤灶内成簇。对K14染色明亮的切片区域对钙粘着蛋白的染色相对暗淡，然而周围组织对K14染色不良，而对钙粘着蛋白染色明亮。为了定量K14和钙粘着蛋白，Thora从全钙粘着蛋白和核荧光的双色图像分离出三个主要细胞区室(膜、核和胞质溶胶)。Thora在肿瘤周围钙粘着蛋白信号强的正常细胞和该信号相对弱的肿瘤中评估细胞边界。为了测量K14阳性细胞中钙粘着蛋白的降低，对于ACI(平均细胞质强度)为30(对于8比特图像来说，ACI范围是0 ACI 255)的K14细胞来说，将钙粘着蛋白通道中的TMI(通过边界识别，经像素积分得到的总膜强度)进行整理。通过不同细胞区域的强度测量值的目测检测和比较，低于30的ACI值来自于非细胞特异性的背景染色。对于K14阳性细胞来说，平均全钙粘着蛋白TMI仅为K14阴性细胞的34％，并且这种差异是非常显著的(P＜0.01)。因此，代表浸润性肿瘤的K14阳性细胞与周围细胞相比，表现出可定量的、减少的钙粘着蛋白表达。开发的其他实例和详细情况已经被详细描述(Prigozina 2007)。

对于在本SBIR计划中提出的应用来说，膜边界识别不是特别决定性的，因为只需要识别肿瘤上皮细胞区和非上皮基质区，以及与肿瘤或对于非特异性标记来说与非肿瘤标记共定位的测试抗体标记的子区域。当然，重要的是认识到共定位的肿瘤标记与非肿瘤标记相比可能仅仅是平均增加，并且像钙粘着蛋白一样，这可以被容易地定量。

C.5.TMA构建

这里使用的前列腺癌TMA是作为NIH支持的UCI SPECS(癌症特征评估的战略伙伴(Strategic Partners for the Evaluation of CancerSignatures))联盟的一部分、在UCI SPECS项目的联盟成员Burnham医学研究所(Burnham Institute of Medical Research)制造的，并且在这里可以作为NJH资助计划的NIH资源获得。TMA具体被制造用于验证前列腺癌候选生物标志物的细胞特异性。到目前为止，已经包含了272个具有已知临床后果的病例。按照IRB批准的并符合HIPPA的方案，从SPECS联盟的两个参加单位回收FFPE组织块和临床随访，其包含由SKCC提供的病例(60个癌症病例，12个正常病例)，其余病例从UCI的具有10-19年临床随访、临床特征如以前T.Ahlering及其合作者所述[75]的病例中抽取。所有病例已由两位临床病理学家重新检查，他们证实了Gleason分值并确定了肿瘤、BPH、邻肿瘤基质、远离肿瘤的基质以及扩张囊性腺上皮和PIN核心的区域。为了验证候选生物标志物抗体的细胞特异性结合性质，每个病例在TMA上由来自两位病理学家确定的纯细胞类型的4-5个区域的4-5个核心代表。将来自所选区域的两份平行核心用于阵列制造，以便所有区域由两份平行样品代表。因此，这些TMA的不寻常之处在于它们在阵列上每个病例具有4-5x2个核心。TMA正在继续构造之中，下一阶段是包含100个其他UCI病例，以便可用于所提出的研究的阵列将超过目前的272个病例组。66个病例台的雏形阵列已被用于通过包括封闭蛋白I和Bcl-B的标志物来评估几种潜在抗体(Krajewska等2007；Krajewska等2008)。

C.6.共定位。Krajewska等的研究(Krajewska 2007；Krajewska2008)利用了相同TMA切片的双抗体标记，以双发色团方式使用抗封闭蛋白I抗体和抗细胞角蛋白抗体。为了共定位，使用AperioTechnologies开发的分割程序将两种颜色分离并单独显示，提供了抗封闭蛋白I抗体的上皮结合图样的清晰显示。在本实例中，尽管忽略了抗封闭蛋白I抗体的非特异性结合，但仍容易进行共定位以及非局域性结合的像素计数和定量。到目前为止，该方法不太容易推广到三种或以上颜色或IF，因此与优选用于本应用的Vala的Thora系统相比通用性较低，然而它为我们在这里提出的方法中的早期经验提供了进一步说明。

结论。产生了用于诊断和预后的候选基因表达水平。获得了对相应抗体的标记进行高通量和定量评估的方法。结合这种方法允许为新的符合ICON的临床分析法开发参比和评估抗体提供了手段，解决了明显尚未满足的需求。

第I阶段。这里我们致力于获得支持下述目标的里程碑，所述目标是证明参比抗体和方法可用于可靠和定量地鉴定在第II阶段中使用的目标细胞，系统评估候选生物标志物抗体以开发用于诊断和预后的多重确定的专用组。

里程碑1.使用用于免疫组织化学和免疫荧光的三种或以上抗体，开发用于前列腺基质和上皮/肿瘤细胞的自动优化成像分析法和SOP。

利用福尔马林固定的石蜡包埋的前列腺肿瘤的未染色切片、我们的前列腺癌TMA的未染色切片和带有前列腺癌的冷冻组织的冷冻切片。FFPE组织块将从用于构建TMA的广泛收集物获取。冷冻组织可以从UCI SPECS项目获得。对于所有三种组织制备物，将对用于标记所有上皮结构、仅仅肿瘤上皮和基质的成纤维细胞/肌成纤维细胞组分的抗体进行优化。筛选研究将使用发色团标记、通过易于目测监测的使用DAB的间接IHC来进行，并且优化将扩展到间接IF。

全上皮标记。全上皮标记将用作参比，以确定与前列腺癌切片中的真实上皮共定位的候选抗体生物标志物标记，并因此得到作为特异性的度量的上皮：非上皮标记的比率。将对两种抗体的全上皮标记进行优化，其中最好的一种用于所有后面的研究。抗高分子量细胞角蛋白抗体(抗HMW角蛋白抗体；Dako克隆34βE12小鼠抗细胞角蛋白单克隆抗体)将用于我们以前用于前列腺癌TMA的起始条件下(Krajewski2007)。抗体对含有细胞角蛋白1、5、10和14(68、58、56.5’和50kDa蛋白)的鳞状、管状和复合上皮进行标记。

第二种抗全上皮抗体是AE3/AE4(Dako AE3/AE4 MNF116小鼠抗人单克隆抗体)，其在UCI的病理部门(Pathology Department at UCI)进行标准临床应用，用于上皮组分的鉴定，特别是在癌在远处组织中的转移扩散的研究中。抗体在FFPE或冷冻组织中标记多种细胞角蛋白(65-67、64、59、58、56.5、56、54、52、50、48和40kDa细胞角蛋白)。

肿瘤上皮细胞标记。肿瘤上皮细胞标记将用作参比，以确定候选抗体生物标志物标记与真实肿瘤细胞的共定位，并因此得到作为特异性的度量的肿瘤细胞标记：非肿瘤细胞标记的比率。前列腺癌肿瘤上皮细胞标记为在第II阶段中执行的共定位研究提供了更特异的参比位点，但却是有挑战性的参比靶，这是由于被接受作为不依赖于分化程度或其他组织学性质例如Gleason分值而在前列腺癌上皮细胞中表达的抗原的数量有限。我们以前对一系列其表达可以分解为主要细胞类型(肿瘤上皮细胞、BPH上皮细胞、扩张囊性腺内衬上皮和基质)的55个肿瘤在RNA水平上的表达图式进行了检查，发现了几种经典表达的抗原例如PSMA(前列腺特异性膜抗原)、PAP(前列腺酸性磷酸酶)和AMACR(α-甲基酰基CoA消旋酶)，其不依赖于等级和阶段，在几乎所有肿瘤细胞中在RNA水平上显著表达(Stuart等，2004)。在本研究中，我们使用IHC验证了在7个代表性病例中蛋白表达是特异性的(Stuart等，2004)。

抗AMACR抗体目前正广泛临床应用于鉴定转移前列腺癌，并已经被全面综述(例如Rubin 2004)。在70个病例、包括具有AMACR低表达的“泡沫状”细胞癌的前列腺癌TMA的抗AMACR抗体标记分析中，在91％的病例中检测到标记(Rubin 2004)。特异性和灵敏度通过定量受试者工作特征进行检查，其得到的AUC是0.9(p＜0.00001)。这些值对于这里提出的方法来说非常令人鼓舞。不需要鉴定所有前列腺癌细胞，而是只标记统计学有效的取样，以便在该样品上评估候选抗体生物标志物的共定位性质。因此，91％的标记效率是非常可以接受的。我们将使用与Rubin等(Rubin 2004)相同的商业化抗体和程序：小鼠抗AMACR单克隆抗体p504s(Z Corp.，Sierra Madre，CA)，用于优化(参见下文)的起始稀释度为1∶25。这里使用的优化方案包括Rubin等的条件(Rubin 2004)。抗AMACR抗体的主要潜在优点是对正常上皮组分的标记弱或没有，这将便于通过在第II阶段中开发的候选生物标志物抗体进行的非特异性标记(“非共定位标记”)的定量。

其他潜在的肿瘤上皮细胞抗体包括抗PSMA抗体、抗PSA抗体和抗PAP抗体。针对这些产物的抗体与正常和恶性细胞的上皮反应。抗PSMA抗体被广泛研究，其被FDA批准(克隆7E11)用于PCa转移肿瘤的放射学检测，标记组织切片中几乎100％的肿瘤，并且标记肿瘤的强度一贯高于良性前列腺上皮(Chang 2004)。我们将优化FFPE、TMA的标记，并且使用我们的定量IF方法的冷冻切片检验，与抗AMACR抗体和目测打分相比，能够利用这种性质区别肿瘤与良性标记。我们将利用小鼠抗人类PSMA单克隆抗体(Dako克隆3E6)。

基质细胞标记。这里使用的“基质”是一个集合术语，主要由成纤维细胞、肌成纤维细胞和少部分血管、神经和其他要素构成。成纤维细胞和肌成纤维细胞标记将被用作参比，以鉴定基质结合性候选生物标志物抗体的共定位，并得出候选抗体的基质：非基质标记的比率。可以制造适合的参比抗体的广泛接受的标志物，包括抗结蛋白抗体、抗波形蛋白和平滑肌型α-肌动蛋白等(Castellucci 1996；Tuxhorn 2002；Ayala 2003；Tomas 2004；Ao 2006；Jiang 2007)。我们以前已经将抗结蛋白抗体用于前列腺癌的IHC分析(Stuart 2004)。已经积累的相当多的文献表明，波形蛋白和平滑肌型α-肌动蛋白在PCa中的表达随着与侵袭性相关联的两个过程——上皮-间质转化和反应性基质形成的程度而变(Tuxhorn 2002；Ayala 2003；Hyanagisawa 2007；Yang 2008)。这些现象似乎靠近PCa的位点。因此，这些标志物具有将与邻肿瘤基质的差异基因表达相关的“场”效应划界的潜力。这些观察与我们观察到邻肿瘤基质含有许多可用于诊断和预后的差异表达基因的关联性很好。事实上，正如提到的，在我们的PCa样品的基质中，与上皮组分相比，结蛋白和波形蛋白的mRNA水平显著增加(Stuart等，2004)。因此，我们计划优化所有三种抗体，并确定它们用作广义上说是基质以及具体来说是邻肿瘤基质的参比抗体的适合性。以前鉴定的基质参比抗体包括：抗结蛋白小鼠单克隆抗体Dako克隆D33(Stuart 2004)；抗波形蛋白山羊多克隆抗血清，其来自Chemicon(Temecula，CA)，目录号为AB1620(Tuxhorn 2002)；以及抗平滑肌α-肌动蛋白抗体Dako克隆IA4(Tuxhorn 2002)。为了开发稳定的可续订的试剂源，非常希望使用可以组织来源许可的单克隆抗体来工作。因此，对于抗波形蛋白抗体来说，我们也将检查来自Dako的小鼠单克隆抗体克隆V9。

优化和SOP制定。第一抗体将使用自动免疫染色器(DAKOUniversal Staining System)来施加，并使用Envision-Plus辣根过氧化物酶系统(DakoCytomation，Inc.)作为DAB的第二标记系统。通过二甲苯处理过夜，然后以0.4的功率在pH 6.0的柠檬酸缓冲液中微波处理30分钟，对FFPE切片进行脱石蜡化。这里不使用酶或其他“抗原恢复”过程或本文考虑的任何标记条件，以便最小化开发多种抗体专用组以及相容方案(第II阶段)中所需的变量。将切片用正常小鼠血清预处理40分钟，并使用自动搅拌在PBS中洗涤三次。为了进行优化，第一抗体将在室温下施用40分钟，其从1∶30开始进行两倍连续稀释，直到1∶960或者如果可行的话更高的稀释度。通过特异性标记强度与背景标记强度相比的目测表象(D.Mercola，F.C.A.P.)所判断的最适滴度(以及之前和之后的滴定值)将在切片上进行重新试验，其中增加了脱石蜡化步骤(参见IF程序)，包括烘烤过夜步骤和还原以及延长的微波处理，以检查与背景标记强度相比信号的提高。最后，通过对在室温下暴露于第一抗体2小时和24小时以及在4℃下暴露24小时进行比较，来优化施用第一抗体的时间和温度。

这些步骤将应用于FFPE和新鲜组织的冷冻切片两者。在新鲜组织的情况下，我们将利用从初始冷冻时就在液氮中低温保存的样品。所有用于UCI SPECS计划的样品都直接从O.R.获得，并通过加急外科病理学大体处理程序进行处理。用于研究的样品从在大体上鉴定的肿瘤位点附近的组织获取，或者对于“远处”组织对照样品来说，从对侧前列腺获取。对于所有样品维持跟踪表单，以给出从O.R.到冷冻而过去的时间。代表性样品通过使用Agilent Bioanalyzer分析总RNA作为保存指标用于RNA质量控制，其表明了超过95％的样品以高水平保存。冷冻切片将从这些组织、从冷冻状态不需融化直接制备。切片全部在-22℃下在95％甲醇或100％丙酮或70％乙醇中固定60秒，空气干燥，并直接用于抗体优化。

TMA验证。通过应用于我们的具有272个病例、包括邻肿瘤和远处基质的核心的TMA，对在FFPE切片上制定的优化标记方案进行测试。TMA的标记将提供跨病例标记的概况以及对肿瘤和基质特异性标记的可重复性的信息。为了确保已达到对TMA的优化，将使用TMA切片重复优化程序的最后一步，即使用三个最佳滴度值和后面的步骤施用第一抗体。通过目测检查DAB标记的载片来监测进展(D.Mercola，F.C.A.P)。根据反映出靶细胞类型与“背景”强度之间最大差异表达的所需标准的TMA病例最多，来判断最适条件。所有包含信息的载片储存在温控实验室中，用于扫描以及里程碑3和4的变异率、准确率的定量评估和可重复性评估。

免疫荧光。由于抗原检测的动态范围和灵敏度要高得多，免疫荧光是预定的选择方法。事实上，我们预期第一抗体可以扩展到高10倍或以上的滴度。主要的挑战是最小化“背景”或“自身荧光”的条件的选择。可以通过使用具有长波长发射(＞500nm)的荧光团、使用进行了严格脱石蜡程序的切片(即上述的二甲苯脱石蜡处理过夜和对未染色FFPE切片使用延长的烘焙)、使用预先检验过的酸洗载片和封片试剂、以及使用带有定位于单色CCD相机前的滤光片转轮的全自动显微镜配置，将背景荧光降到最低。这些方法以前已进行过优化(Rabinovich 2006)。以前用过的表征过的荧光团接合第二抗体将在这里使用的是：德克萨斯红标记的山羊抗小鼠抗体(目录号115-075-146，Jackson Laboratories，Bar Harbor，ME)和Alexa Fluor 488标记的山羊抗小鼠抗体(目录号A21121，Molecular Probe，Eugene，OR)。这些试剂可以在1∶1,000至1∶10,000的稀释度范围内使用。将为我们的TMA的切片确定最适浓度。

最适条件的目测评估需要复染。将切片用75ng/ml DAPI(Molecular Probe，Eugene，OR)(在10mM TRIS，10mM EDTA，100mM NaCl中)染色45分钟，然后用盖玻片密封。目测评估由J.Price和D.Mercola执行。

里程碑2。储存和可视化将利用Vala Sciences Inc.系统的现有技术。所有数据也将置于遵从DICOM的免费数据库中。

在本计划中，大量的数据收集、储存和分析将通过Vala Science全自动扫描显微镜及其相关软件和储存能力来进行。正如在本文综述的(初步研究)，Throra以及用于数据获取、分析和储存的软件是先进的。它们在Rabinovich等(Rabinovich 2006)和Prignoshima等(Prigoshina 2007)的专门出版物中进行了最完整的描述。此外，ProveriInc.和Vala Sciences Inc.受委托开发完全遵从DICOM的储存和数据共享(http://www.sph.sc.edu/comd/rorden/dicom.html)。本文提出的分析法、即利用间接IF的多重抗体分析法的原始数据，将由活检样品组织切片或前列腺切除术后组织切片以及用于IF标记的同样切片的标准苏木精和曙红染色切片的多颜色图像光谱栈组成。这样的图像代表了在DICOM标准中没有直接先例的新的用于诊断和预后的数据集。因为第II阶段致力于在CLIA参比实验室条件下用于诊断和预后的产品开发，因此Vala Science Inc.对于开发用于原始组织图像的存储和传输的DICOM相容格式的开发非常感兴趣。计划开发一种使用DICOM档头和与其他成像系统类似的其他特点的示范格式。

里程碑3。将开发用于成像分析法中样本收集、处理和细胞类型稳定性的SOP。

用于获取组织和组织块的SOP已经由UCI SPECS项目开发，并作为日期pdf文件在SOP工作手册中维护。这些SOP描述了用于在所有参加方进行基于知情同意书的患者征集的规程，以及在手术室进行组织收集、加急处理和储存的方法，连同切割规程的图解说明和用于每个样本的附加追踪表格。所有规程都得到UCI IRB批准，并遵从HIPPA。此外，UCI SPECS项目为所有征集的患者维护“棒影图表”，其包括签名证实的知情同意书、追踪表单和基线临床数据的CRF，以及在SPECS数据库中记录的所有值的源文件。数据库在参加机构，San Diego的Sidney Kimmel Cancer Center主持的专用服务器上维持，该服务器置于上锁的服务器机房中，在SKCC IT部门的控制之下。服务器由得到批准的临床协调员和数据库管理员通过口令保护的基于网络的入口远程访问。所有工作人员都是UCI雇员。该SOP将被整合到为本计划的第I阶段产生的SOP中。

将对描述里程碑1的优化规程和试剂的SOP随着最终条件的确定进行发展。制造TMA的方法将包括在内。它们将包括用于定期测试的方法，以确保标记结果的稳定性。目前的TMA包含固定的培养前列腺细胞、包括标准肿瘤细胞(LnCAP、PC3、DU145、M12)的核心，并且正常的永生化细胞(RWPE1，p69)将被用于记录定量标记强度。在完成里程碑1后，将制备含有细胞核心的TMA块的多个切片，作为用于定期质量控制和用于对可续订试剂的新批次进行标准化的标准批次(master lot)。这些规程将包含在SOP中。

第II阶段的主要目标是使用新征集的临床患者和UCI启动前瞻性验证项目，并在UCI病理和实验室医学部(UCI Department of Pathologyand Laboratory Medicine)分子病理学中心的CLIA实验室中，将多重专用组应用于研究活检样本和术后组织样本。预期在本研究中，将使所有的SOP、标准批次制备物和DICOM兼容图像存储与该实验室的CLIA要求相协调。

具体目标1：预测性抗体的产生和初始表征。

1.针对抗原的25个候选抗体的获取，所述抗原根据初步研究(部分C)被鉴定为对前列腺癌进展或复发具有预测性。

2.对25个候选抗体进行Western分析和IHC分析，以便证实细胞特异性表达和特异性。

3.根据细胞特异性组织标记的强度、通过在Western分析中预测分子量的蛋白优势结合的观察所判断的特异性、以及通过在IHC标记的组织切片中预期类型细胞的百分率所判断的灵敏度，对抗体排出优先次序，用于在TMA上进行测试(目标2)。

具体目标2：在组织微阵列(TMA)上验证前列腺癌预测性抗体。

1.将6-10个排序优先的候选抗体在从254个带有注释的临床前列腺癌病例所构建的TMA上进行IHC分析。分析将由通过三位病理学家确定的人工“免疫分值”组成。

2.将5-8个候选抗体的免疫分值与临床后果进行Kaplan-Meier分析比较。

3.根据从目标2-2的Kaplan-Meier分析确定的灵敏度、特异性和准确性以及在未复发和复发病例之间的差异表达幅度，对用于临床开发的抗体排出优先次序。也按照抗体对抗体“分类物”专用组、即涵盖了254个病例的“多样性”的最小数量的抗体的贡献能力，对抗体排出优先次序。“涵盖多样性”的度量将是其存活类别被该抗体独特识别的病例的数量。这些标准确保了开发必要的最少抗体专用组。因为TMA从完全独立于MLR所用病例的病例制成，因此这里对差异表达的验证扩展了生物标志物抗体的通用性，并因此将生物标志物扩展到蛋白质水平。在该水平上成功的抗体专用组将既代表复发与未复发病例之间肿瘤细胞表达的显著变化，又将包含复发与未复发病例之间肿瘤微环境的变化，这是建立稳健分类物的关键成分。

具体目标3：TMA读数的自动和改进的定量。

1.通过下述步骤对双色分离方法进行定量和验证：(i)对仅仅在特定细胞类型、例如由细胞特异性标志物例如抗细胞角蛋白抗体或抗Amacr抗体所定义的所有上皮或所有前列腺癌的像素位置处的测试抗体的像素强度进行定量(目标2-1)，以及(ii)通过与目测免疫分值相关联，对定量方法进行验证。将确定泊松和Spearman相关系数，以及相关系数的概率和目测与定量分值的关联程度(斜率)。

D.方法

具体目标1：针对上皮和基质肿瘤抗原的预测性抗体的产生和初始表征。针对已知前列腺癌抗原和针对由基因表达分析所鉴定的推断的前列腺癌生物标志物的抗体，将从商业来源获得，并使用Western印迹和免疫组织化学进行表征。鉴定显示出在从新鲜前列腺组织样品(基质或肿瘤)制备的Western印迹上检测分离蛋白的能力和在石蜡包埋的前列腺癌组织切片中差异标记细胞类型的能力的候选抗体。它们预测临床后果的能力将在具体目标2中测试。

D.1.a.抗体的描述

如果现有的话，将购买商业化抗体。其他抗体将被产生(LampireBiologicals，San Diego，CA)。在我们的不同计划中使用的众多抗体已与Lampire Biologicals合作开发[50，68-74]。

将测试三类抗体：

1.用作内标的标记前列腺肿瘤细胞、正常上皮或基质细胞的抗体将被用于鉴定前列腺组织样品内的特定细胞类型。现有的对于上皮组分的鉴定来说特别重要的抗体包括抗高分子量细胞角蛋白(HMW细胞角蛋白)抗体、抗PSA抗体、抗PAP抗体、抗PSMA抗体和抗Amacr抗体。打算用于基质鉴定的抗体包括抗结蛋白抗体和抗平滑肌α肌动蛋白抗体(抗ACTA抗体)。我们已经优化了所有这些抗体供用于FFPE组织切片，并在以前的研究中描述了结果[18，67]。

2.针对由基因表达分析所鉴定的潜在预后标志物的抗体。已经获得了12种可商购的针对预测抗原的抗体，并使用FFPE前列腺癌组织块的标准切片进行筛选。针对按本文提出的详细表征，这些抗体中的5种非常有希望。在筛选中不可用或表现出不良的标记或背景性质的抗体，将按照下面的描述重新启用。

3.其他抗体的选择和筛选将从针对在未复发与复发前列腺癌病例之间表现出最大差异标记(免疫分值或归一化的像素强度的最大差异)的基因产物的抗体开始，排出优先次序。正如上面所提到的，到目前为止筛选的抗体的将近一半，在FFPE前列腺癌测试切片上显示出出色的信号比背景性质。

D.1.b.用于TMA分析的抗体的入选标准将包括：单克隆抗体生产的途径。

1.抗体由MLR的结果建议(初步数据，C1部分)。候选抗体首先将通过Western分析进行调查，以测试对前列腺肿瘤组织提取物中正确分子量或以前作为前列腺癌变体报告的可变分子量的抗原的检测。以前的经验[18]显示，满足这些标准的重要因素是抗原来源的知识。线性回归结果鉴定到Affymetrix基因芯片对应于准确基因和基因内含子的探针组。针对重组蛋白或蛋白的大片段的商业化抗体可能对应于所鉴定的基因产物，因此可用于测试探针组的基因是否在蛋白水平上表达。同样，针对仔细表征的分子量与在Affymetrix预测的基因产物的基础上的预期值相符的高纯度天然蛋白的商业化抗体，预计也可以通过Western分析得到验证。然而，针对从天然来源纯化的蛋白所产生的抗体可能含有在纯化过程中难以分离的可变剪接产物和/或其他基因家族成员蛋白以及密切相关的蛋白或片段，可能导致抗体针对与Affymetrix探针组对应的基因产物关系不明的一定范围分子量的反应性。针对重组或合成肽的单克隆抗体更经常满足单基因产物特异性的需要，并且将是优选的。此外，单克隆抗体(小鼠、大鼠)确定了潜在可续订源，其可以订合同作为测试试剂盒试剂的稳定供应商。因此，作为第II阶段的一部分，在最终抗体分类物中包含的本文表征的所有多克隆抗体，将通过委托制备相应的单克隆抗体进行重复试验。

2.来自福尔马林固定和石蜡包埋(FFPE)组织的一致和强烈的抗原IHC信号。TMA提供的主要优点在于表现出增加或降低的ICH信号的病例比例可以被容易地定量。为了开发具有最大可重复性的分析法，将采用对“抗原恢复”策略依赖性最小的方法。这将选择出能够在归档的样品中识别抗原的强健的抗体。

3.来自归档的(＞10年)FFPE组织的一致和强烈的抗原IHC信号。将每种抗体的IHC标记强度与TMA上样品的年代相关联。我们的TMA的优点是存在2至19年的病例。

4.细胞特异性标记。将通过人工检查或用细胞特异性抗体染色来确定细胞的身份(正常上皮、基质、BPH)。如下所述，将对每种抗体的IHC强度进行免疫打分，以获得染色强度和细胞特异性(部分D.2.c.或D.3.b.)。

D.1.b.用于Western印迹的组织来源。组织将从UCI SPECS前列腺计划组织库获得。这是NIH支持的UCI SPECS前列腺计划的资源。前列腺样品从术前分级为具有器官局限性前列腺癌的患者(UCI)获得。从所有患者获得了机构审查委员会批准的参加该计划的知情同意书。组织样品在手术室中收集，并将样本立即运输到机构的病理学家处，他们提供新鲜的可经大体鉴定的或疑似肿瘤组织的部分，和对于患者护理需要(外科病理学分级和验证诊断)来说过剩的各部分未用组织。所有过剩组织在接收后速冻并维持在液氮中，直到在-22℃下用于冷冻切片制备。在该系列中收集的所有病例的55％包含组织学证实过的肿瘤组织。冷冻样品富集了肿瘤、BPH和扩张囊性腺的部分，通过冷冻切片的检查来鉴定。当鉴定到适合的组织时，将20微米的厚冷冻切片收集在分开的Eppendorf管中，用于裂解和Western分析。

此外，将确定抗体对来自从一组人类前列腺细胞系建立的组织提取物的Western印迹上正确MW的抗原进行可视化的能力。该组将包括雄激素抗性前列腺癌细胞(PC3、DU145)、雄激素敏感性前列腺癌细胞(LnCAP)、初级永生化RWPE-1上皮细胞、可变衍生化的癌细胞(肺、乳腺、结肠)和几种正常细胞系(成纤维细胞、成肌细胞)(ATCC)(这些细胞也已作为甲醛固定的细胞沉淀的切片应用于TMA)。

D.1.c.Western印迹

组织或培养的细胞将在不含溴酚蓝的1×Laemmli溶液或含有蛋白酶抑制剂包括胱天蛋白酶抑制剂100μM Z-Asp-2.6-二氯苯甲酰基氧基甲基-酮(Bachem)和Z-Val-Ala-Asp-fmk(Calbiochem)的RIPA缓冲液(0.15mM NaCl/0.05mM Tris·HCl，pH 7.2/1％Triton X-100/1％脱氧胆酸钠/0.1％十二烷基硫酸钠)中裂解。总蛋白含量将通过Bradford或二辛可宁酸方法(Pierce)来定量。将进行SDS/PAGE并使用具有增强的基于化学发光的检测的免疫印迹(Amersham Pharmacia)[50，69-71]。

通过将组织和细胞提取物与已知总蛋白质量的前列腺癌细胞(PC3、LNCaP)和阴性对照细胞(细菌培养物和女性正常乳腺上皮细胞，MCF10A)的提取物的反应强度进行比较，对抗体反应性进行半定量。

D.1.d免疫组织化学。

我们用于优化和检测抗体标记的方法已经被广泛描述[50，68-74]。简单来说，鉴定到的抗体针对正常和恶性前列腺组织的细胞特异性，将通过比较一系列正常和恶性前列腺组织样本上的结合样式来测试。将FFPE组织切片(5μm)脱石蜡化、微波加热，并通过间接染色进行免疫标记，所述间接染色使用了针对亲和素-生物素复合物形成的、使用Vecta标记试剂(Vector Laboratories)与辣根过氧化物酶(HRP)联合的第二抗体，然后添加二氨基联苯胺(DAB)进行比色检测，或使用Envision-Plus-HRP系统(Dako)和Dako通用染色系统。将测试一定范围的抗体浓度以优化信号检测和特异性。对于所有检查的组织来说，免疫染色程序将通过使用预免疫血清(多克隆)以验证特异性、或在可得到的情况下使用重新吸附有5-10μg/ml合成肽或重组蛋白免疫原的抗血清来平行进行。用于细胞类型特异性的阳性对照，将通过用针对全细胞角蛋白(Sigma)的抗体“鸡尾酒”染色切片以鉴定上皮细胞，和针对结蛋白、α-平滑肌肌动蛋白或脯氨酰基-4-羟化酶的抗体以鉴定基质细胞，来确定。

具体目标2：在组织微阵列(TMA)上验证前列腺癌预测性抗体。我们的TMA从来自SKCC和UCI的具有已知临床后果的归档前列腺组织样品构建。IHC染色将使用在具体目标1中开发的抗体来进行。IHC染色水平将进行免疫打分(参见下文)并通过Kaplan-Meier分析与临床后果进行比较。区分存活组的显著性将通过Cox比例风险模型来确定。

目测测定由三位病理学家(SK、MK和DAM)执行并进行平均。通过Kaplan-Meier标准证实对于临床后果的预测具有最大灵敏度、特异性和准确率的候选抗体，将被选为抗体专用组，用于在第II阶段中对临床样品进行预后验证。

D2.b.TMA上的免疫组织化学。TMA上的免疫组织化学将按照以前[50，69-71]和上面(部分D.1.d.)的描述进行。

D.2.c.TMA读数的免疫打分

免疫分值由目测确定，并形成为给定细胞类型的阳性百分率(1-100％)乘以三点标度上的强度的积，产生了1-300的值范围[68-70，72，73]。对于三点标度来说，强度j被判断为0，阴性；1+，弱；2+，中等；以及3+，强[70]。此外，将对样品的免疫阳性恶性细胞百分率进行附加打分，从最少5个代表性的中等倍率视野中以10％的增量估计百分率(0％、10％、20％、30％等)。然后根据免疫阳性细胞的百分率(0至100)乘以染色强度分值(0/1/2/3)进行打分，产生0至300的分值。打分在三位病理学家的联席会议中，使用原始玻璃载片和多头显微镜进行，以确保一致的观察倍数和视野暴露。评估了按照这种格式在病理学家之间的重复性和一致性[18]，并且使用上述标度的免疫打分已被用于几项研究中[50，69-71]。

D.1.d.统计分析

数据将使用JMP统计软件包(SAS Institute，Cary，NC)、STATISTICA软件(StatSoft，Tulsa，OK)进行分析。抗体免疫染色数据与患者存活率的比较将使用Cox比例风险模型以及Kaplan-Meier存活曲线的比较来做出。未配对t检验方法被用于将免疫分值与可用患者数据相关联。所有统计方法由我们的生物统计学家、本计划的第I和第II阶段的顾问Zhenyu Jia监查(参见Biosketch，Z.Jia和信件)。

抗体的性能将通过常规的操作特征(准确率、灵敏度和特异性)来判断，但是也通过产生采用存活和其他标准来准确辨别为侵袭性或非侵袭性的TMA病例的百分数最高的最小专用组这一标准来判断。这是重要的考虑因素，因为真正的分类物专用组应该包含对其他生物标志物可能不敏感的病例有效的、即覆盖了前列腺癌多样性的生物标志物。因此，各个抗体将通过以其他抗体不能分辨的极大或极小机会比率被独特分类的病例的数量(即被准确分类的独特病例的数量)来打分。这些标准进一步确保将形成能够辨别TMA的所有可适用病例的最小抗体数量。

具体目标3：TMA读数的自动和改进的定量。在具体目标2中鉴定到的预后性抗体的辨别力和表征率可以使用为抗体标记强度提供定量测定的图像分析来改进。主要作为申请者之一(SK)的开发工作，在BIMR确立了快速扫描、数字化、和新开发的用于双色分离的算法的使用。数字化IHC标记的前列腺TMA维持在位于BIMR的服务器上，并可被所有参加者通过安全入口访问(https://scanscope.burnham.org/Login.php)。这极大便利了IHC结果的监测和下一步的计划以及免疫打分会商。UCI SPECS的病理学家利用该网站的高分别率线扫描的H和E以及IHC图像用于其他计划的免疫打分，并证实TMA的组织学特点例如Gleason分值、PIN的存在等。该技术允许自动定量TMA样品的细胞特异性抗体染色，而不依赖“形状识别”或人工检查来确定细胞类型。该技术将使用在前两个具体目标中开发的预后性抗体专用组进行测试。

具体目标3：TMA读数的自动和改进的定量。

D.3.a.双标记

由于需要使用第二抗体产生两种不同的发色团，双标记为联用标准抗体(抗PSMA抗体、抗AMACR抗体和抗细胞角蛋白抗体)和候选抗体组合设定了限制。严格按照我们以前用于双标记的方法(Krajewski 2007；Krajewska 2008)。候选抗体一般源自于兔血清。将使用生物素标记的抗兔IgG抗体的间接IHC应用于产生DAB(3，3’-二氨基联苯胺发色团，DAKOCytomation；棕色)。通过加入生物素标记的抗小鼠抗体以产生黑色SG沉淀物(Serotec；SG发色团，Vector Lab.，Inc；黑色)，来鉴定针对AMACR、PSMA或细胞角蛋白的小鼠单克隆抗体。将不使用或使用非常轻的核红(DAKOCytomation)复染。

D.3.b.在组织微阵列(TMA)上验证前列腺癌预测性抗体。已经验证了用苏木精和DAB标记切片的颜色解混(初步数据)。正如提到的，与上皮或肿瘤细胞共定位的像素亚组的实际分离是第I阶段的里程碑。验证将扩展到DAB和SG双标记的切片并扩展到共定位的积分和归一化像素值。为此目的，重要的是注意到目测分值传统上作为标记强度(在0-3+的标度上)乘以表现出阳性标记的肿瘤或上皮细胞的百分率的积而获得。这里将使用这两种因素来验证共定位。单独和组合使用多克隆抗AMACR抗体(DAB)和单克隆抗细胞角蛋白抗体(SG)的测试系统，将应用于肿瘤TMA和BPH TMA两者。首先，与苏木精-DAB系统类似，对组合标记的去卷积结果(重建的DAB图像和重建的SG图像)将与个体标记(背景实况)相比较。这些测试将为每种发色团确定作为百分率误差+/-标准偏差的准确率。其次，将确定AMACR标记的共定位像素总和作为与高百分率肿瘤细胞结合的“标准”。这是在对SG阳性的像素处对DAB的像素强度总和。对于所有病例来说，所有病例中对DAB的像素总和将针对SG进行归一化，以校正每个核心上总上皮的可变量。预计归一化的总和对于在大多数肿瘤的大多数细胞中AMACR表达通常为阳性的肿瘤切片来说最大，但是在BPH的情况下显示出最小重叠。事实上，简单的取阈值可以成功确定将平均肿瘤与平均BPH最好地分离的单一值。这是可以预期的，因为AMACR标记将根据肿瘤切片的优化来使用。第三，对于所有单一抗体(DAB或SG)标记的TMA，将获取由两位病理学家(S.Krajewski和D.Mercola)给出的目测分值。与以前的研究相同，DAB和SG的光谱解混结果将与这些发色团的目测打分进行比较。最后，预计归一化的DAB像素总和预计与病理学确定的肿瘤细胞组分百分率准确关联，特别是与DAB阳性肿瘤细胞百分率超过SG细胞角蛋白阳性细胞的量相关联。因此，总体来说，我们预测：

病例平均的AMACR(DAB)共定位像素总和～病例平均的AMACR 阳性目测％

病例平均的细胞角蛋白(SG)的像素总和病例平均的细胞角蛋白阳性目测％

在逐一病例的基础上，将DAB/SG对DAB阳性百分率/SG百分率进行归一化的图，预计具有斜率～1和类似于初步结果的＜10％的误差的高泊松相关性。验证这种发色团系统的光谱解混将提供第I阶段的主要里程碑和第II阶段的自动抗体生物标志物筛选的手段。

候选的基质生物标志物抗体将以相反的方式处理。互相排斥的像素总和(细胞角蛋白阳性像素之外的所有像素)将被积分。这确保了上皮组分。对于TMA的三色染色来说，这些值将针对非上皮像素总和强度归一化，使用第二个光谱解混计算来鉴定结缔组织组分(蓝色)。

抗体

我们意识到这里开发的定量方法具有许多的其他标准化问题。它完全依赖于参比抗体的性质来确定“细胞类型”。抗Amacr抗体广泛临床应用于在存在其他组分包括腺体的情况下鉴定非前列腺组织中的前列腺肿瘤细胞。然而，这不是未引起争论的，并且已经注意到在多达30％的前列腺癌细胞中出现“阴性”结果[76-81]。因此，通过这些标准鉴定到的像素可能仅仅是对大比例的肿瘤细胞的取样。这可能是可以接受的，除非特定类型的肿瘤细胞、例如表达与比方说复发相关的基因的肿瘤细胞优先是阴性的。重要的是使用其他标准，例如由经过训练的病理学家进行的目测检查，并且使用其他可靠的肿瘤细胞标志物揭示了显著偏倚。我们已经鉴定了一大组优先被前列腺肿瘤细胞表达的基因[18]。此外，可以与标准的替代方案例如抗PSA抗体和抗PSMA抗体进行比较，以确定抗Amacr抗体的标记缺陷。

我们选择了致力于对这些研究使用单克隆抗体，因为它们与多克隆抗体相比一般显示出较高的特异性和一致性，因此更好地适合于在临床开发中进行商业化。多克隆抗体是可商购的，并且可以证明在FFPE组织中更灵敏，因此可以进行探查。投入使用的单克隆抗体能够明确确定所有权和销售途径。

许多针对前列腺癌组织的抗体是可商购的。然而，针对重要生物标志物的目前未商业化或不能满足具体目标1中规定的质量控制的抗体，将与以前研究相同使用肽抗原(Lampire Biologicals，San Diego，CA)制造[50，68-74]。

最后，第II阶段中的重要挑战是将多种抗体与用于单一组织切片的可能的各个优化方案相组合。如果这不便实现，即不能系列应用，专用组将被应用于多个载片，每个载片使用专用组的2-3种不同抗体。尽管方便性较低，但使用患者活检组织的两个或可能三个连续切片，就能基本实现从我们的预测性抗体专用组产生预后的能力。

E.文献目录

1.Flaig，T.W.，等，Conference report and review：current status ofbiomarkers potentially associated with prostate cancer outcomes.(大会报告和综述：潜在与前列腺癌后果相关的生物标志物的当前状态)JUrol，2007.177(4)：p.1229-37.

2.Steuber，T.，P.Helo，and H.Lilja，Circulating biomarkers forprostate cancer.(循环中的前列腺癌生物标志物)World J Urol，2007.25(2)：p.111-9.

3.Reynolds，M.A.，等，Molecular markers for prostate cancer.(前列腺癌的分子标志物)Cancer Lett，2007.249(1)：p.5-13.

4.Lilja，H.，D.Ulmert和A.J.Vickers，Prostate-specific antigen andprostate cancer：prediction，detection and monitoring.(前列腺特异性抗原和前列腺癌：预测、检测和监测)Nat Rev Cancer，2008.8(4)：p.268-78.

5.Stephan，C.，等，PSA and new biomarkers within multivariatemodels to improve early detection of prostate cancer.(多变量模型中的PSA和新的生物标志物改进了前列腺癌的早期检测)Cancer Lett，2007.249(1)：p.18-29.

6.Loeb，S.和W.J.Catalona，Prostate-specific antigen in clinicalpractice.(临床实践中的前列腺特异性抗原)Cancer Lett，2007.249(1)：p.30-9.

7.Loeb，S.和W.J.Catalona，Early versus delayed intervention forprostate cancer：the case for early intervention.(前列腺癌的早期干预与延迟干预的比较：早期干预的病例)Nat Clin Pract Urol，2007.4(7)：p.348-9.

8.Graif，T.，等，Under diagnosis and over diagnosis of prostatecancer.(前列腺癌的诊断不足和过度诊断)J Urol，2007.178(1)：p.88-92.

9.Loeb，S.，等，Risk of prostate cancer for young men with aprostate specific antigen less than their age specific median.(前列腺癌特异性抗原低于其年龄特异性中位数的年轻男性的前列腺癌风险)JUrol，2007.177(5)：p.1745-8.

10.Steuber，T.，等，Risk assessment for biochemical rercurrenceprior to radical prostatectomy：significant enhancement contributed byhuman glandular kallikrein 2(hK2)and free prostate specific antigen(PSA)in men with moderate PSA-elevation in serum.(根治性前列腺切除术前生物化学复发的风险评估：由血清PSA中度升高的男性中的人类腺体激肽释放酶2(hK2)和游离前列腺特异性抗原(PSA)所贡献的显著增加)Int J Cancer，2006.118(5)：p.1234-40.

11.Nam，R.K.，等，Assessing individual risk for prostate cancer.(评估前列腺癌个体风险)J Clin Oncol，2007.25(24)：p.3582-8.

12.May，M.，等，Validity of the CAPRA score to predict biochemicalrercurrence-free survival after radical prostatectomy.Results from aeuropean multicenter survey of 1,296 patients.(CAPRA分值预测根治性前列腺切除术后无生物化学复发存活的有效性。来自1296位患者的欧洲多中心调查的结果)J Urol，2007.178(5)：p.1957-62；讨论1962.

13.Bibikova，M.，等，Expression signatures that correlated withGleason score and relapse in prostate cancer.(与Gleason分值和前列腺癌复发相关的表达特征)Genomics，2007.89(6)：p.666-72.

14.Henshall，S.M.，等，Survival analysis of genome-wide geneexpression profiles of prostate cancers identifies new prognostic targets ofdisease relapse.(前列腺癌的全基因组基因表达谱的存活分析鉴定到疾病复发的新的预后靶)Cancer Res，2003.63(14)：p.4196-203.

15.Quinn，D.I.，S.M.Henshall和R.L.Sutherland，Molecularmarkers of prostate cancer outcome.(前列腺癌后果的分子标志物)EurJ Cancer，2005.41(6)：p.858-87.

16.Henshall，S.M.，等，Zinc-alpha2-glycoprotein expression as apredictor of metastatic prostate cancer following radical prostatectomy.(锌-α2-糖蛋白表达作为根治性前列腺切除术后转移前列腺癌的预测物)J Natl Cancer Inst，2006.98(19)：p.1420-4.

17.Stephenson，R.A.，等，Metastatic model for human prostatecancer using orthotopic implantation in nude mice.(在裸鼠中使用正位移植的人类前列腺癌转移模型)Journal of the National Cancer Inst，1992.84：p.951-957.

18.Stuart，R.O.，等，In silico dissection of cell-type-associatedpatterns of gene expression in prostate cancer.(前列腺癌中基因表达的细胞类型相关图式的计算机剖析)Proc Natl Acad Sci U S A，2004.101(2)：p.615-20.

19.Richardson，A.M.，等，Global expression analysis of prostatecancer-associated stroma and epithelia.(前列腺癌相关基质和上皮的全面表达分析)Diagn Mol Pathol，2007.16(4)：p.189-97.

20.Stephenson，A.J.，等，Intergration of gene expression profilingand clinical variables to predict prostate carcinoma rercurrence afterradical prostatectomy.(将基因表达谱分析与临床变量整合在一起预测根治性前列腺切除术后前列腺癌的复发)Cancer，2005.104(2)：p.290-8.

21.Denmeade，S.R.，等，Dissociation between androgenresponsiveness for malignant growth vs.expression of prostate specificdifferentiation markers PSA，hK2，and PSMA in human prostate cancermodels.(人类前列腺癌模型中恶性生长的雄激素响应性与前列腺特异性区分标志物PSA、hK2和PSMA的表达之间无关)Prostate，2003.54(4)：p.249-57.

22.de la Taille，A.，等，Hormone-refractory prostate cancer：amultistep and multi-eventprocess.(激素抗拒性前列腺癌：多步骤和多事件的过程)Prostate Cancer and Prostatic Diseases，2001.4：p.204-212.

23.Yu，X.，等，The association between total prostate specificantigen concentration and prostate specific antigen velocity.(总前列腺特异性抗原浓度与前列腺特异性抗原速度之间的关联性)J Urol，2007e.177(4)：p.1298-302；discussion 1301-2.

24.Loeb，S.，等，Use of prostate-specific antigen velocity to followup patients with isolated high-grade prostatic intraepithelial neoplasia onprostate biopsy.(使用前列腺特异性抗原速度追踪在前列腺活检样品上具有分离到的高等级前列腺上皮内肿瘤的患者)Urology，2007.69(1)：p.108-12.

25.Loeb，S.，等，Prostate specific antigen velocity threshold forpredicting prostate cancer in young men.(用于预测年轻男性中前列腺癌的前列腺特异性抗原速度阈值)J Urol，2007.177(3)：p.899-902.

26.Gong，M.C.，等，Prostate-specific membrane antigen(PSMA)-specific monoclonal antibodies in the treatment of prostate andother cancers.(前列腺和其他癌症治疗中的前列腺特异性膜抗原(PSMA)特异性单克隆抗体)Cancer Metastasis Rev，1999.18(4)：p.483-90.

27.Elgamal，A.A.，等，Prostate-specific membrane antigen(PSMA)：current benefits and future value.(前列腺特异性膜抗原(PSMA)：当前的益处和未来的价值)Semin Surg Oncol，2000.18(1)：p.10-6.

28.Recker，F.，等，Human glandular kallikrein as a tool to improvediscrimination of poorly differentiated and non-organ-confined prostatecancer compared with prostate-specific antigen.(人类腺体激肽释放酶作为工具与前列腺特异性抗原相比改进了分化不良的与非器官局限性前列腺癌的辨别)Urology，2000.55(4)：p.481-5.

29.Raaijmakers，R.，等，hK2 and Free PSA，a PrognosticCombination in Predicting Minimal Prostate Cancer in Screen-DetectedMen within the PSA Range 4-10ng/ml.(hK2和游离PSA的预后组合在PSA范围在4-10ng/ml内的筛查检测到的男性中预测极小前列腺癌)Eur Urol，2007.

30.Paliouras，M.，C.Borgono和E.P.Diamandis，Human tissuekallikreins：the cancer biomarker family.(人类组织激肽释放酶：癌症生物标志物家族)Cancer Lett，2007.249(1)：p.61-79.

31.Nam，R.K.，等，Variants of the hK2 protein gene(KLK2)areassociated with serum hK2 levels and predict the presence of prostatecancer at biopsy.(hK2蛋白基因变体(KLK2)与血清hK2水平相关，并在活检样品中预测前列腺癌的存在)Clin Cancer Res，2006.12(21)：p.6452-8.

32.Diamandis，E.P.和G.M.Yousef，Human tissue kallikreins：afamily of new cancer biomarkers.(人类组织激肽释放酶：新的癌症生物标志物家族)Clin Chem，2002.48(8)：p.1198-205.

33.Perambakam，S.，等，Induction of Tc2 cells with specificity forprostate-specific antigen from patients with hormone-refractory prostatecancer.(从患有激素抗拒性前列腺癌的患者诱导对前列腺特异性抗原具有特异性的Tc2细胞)Cancer Immunol Immunother，2002.51(5)：p.263-70.

34.McDevitt，M.R.，等，An alpha-particle emitting antibody([213Bi]J591)for radioimmunotherapy of prostate cancer.(用于前列腺癌放射免疫治疗的发射α-粒子的抗体([213Bi]J591))Cancer Res，2000.60(21)：p.6095-100.

35.Steuber，T.，等，Free PSA isoforms and intact and cleaved formsof urokinase plasminogen activator receptor in serum improve selection ofpatients for prostate cancer biopsy.(血清中尿激酶维溶酶原活化剂受体的无PSA同工型与完整和切割形式改进了进行前列腺癌活检样品的患者选择)Int J Cancer，2007.120(7)：p.1499-504.

36.Wang，X.，等，Autoantibody signatures in prostate cancer.(前列腺癌中的自身抗体特征)N Engl J Med，2005.353(12)：p.1224-35.

37.Stephan，C.，等，Three new serum markers for prostate cancerdetection within a percent free PSA-based artificial neural network.(基于无PSA百分率的人工神经网络中的用于前列腺癌检测的三种新的血清标志物)Prostate，2006.66(6)：p.651-9.

38.Miyake，H.，I.Hara和H.Eto，Prediction of the extent of prostatecancer by the combined use of systematic biopsy and serum level ofcathepsin D.(通过组合使用系统性活检样品和血清组织蛋白酶D水平预测前列腺癌的程度)Int J Urol，2003.10(4)：p.196-200.

39.Leman，E.S.，等，EPCA-2：a highly specific serum marker forprostate cancer.(EPCA-2：用于前列腺癌的高特异性血清标志物)Urology，2007.69(4)：p.714-20.

40.Jiang，Z.，等，Discovery and clinical application of a novelprostate cancer marker：alyha-methylacyl CoA racemase(P504S).(新的前列腺癌标志物α-甲基酰基CoA消旋酶(P504S)的发现和临床应用)Am J Clin Pathol，2004.122(2)：p.275-89.

41.Hara，I.，等，Serum cathepsin D and its density in men withprostate cancer as new predictors of disease progression.(血清组织蛋白酶D及其在患有前列腺癌的男性中的密度作为疾病进展的新的预测物)Oncol Rep，2002.9(6)：p.1379-83.

42.Bradford，T.J.，X.Wang和A.M.Chinnaiyan，Cancerimmunomics：using autoantibody signatures in the early detection ofprostate cancer.(癌症免疫组学：在前列腺癌的早期检测中使用自身抗体特征)Urol Oncol，2006.24(3)：p.237-42.

43.Wang，Y.，等，The challenge of developing predictive signaturesfor the outcome of newly diagnosed prostate cancer based on expressionanalysis and genetic changes of tumro and non-tumor cells，in 2007American Association for Cancer Research Annual Meeting.(基于肿瘤和非肿瘤细胞的表达分析和遗传改变开发用于新诊断前列腺癌是后果的预测性特征的挑战。在2007年美国癌症研究协会年度会议中)2007：Los Angeles，CA.

44.Koziol，J.A.，等，The Wisdom of the Commons：Ensemble TreeClassifiers for Prostate Cancer Prognosis.(众人的智慧：用于前列腺癌预后的综合树状分类物)Bioinformatics，2008.

45.Datta，M.W.，等，The role of tissue microarrays in prostatecancer biomarker discovery.(组织微阵列在前列腺癌生物标志物发现中的作用)Adv Anat Pathol，2007.14(6)：p.408-18.

46.Diallo，J.S.，等，NOXA and PUMA expression add to clinicalmarkers in predicting biochemical rercurrence of prostate cancer patientsin a survival tree model.(NOXA和PUMA表达在存活树模型中增加了预测前列腺癌患者生物化学复发的临床标志物)Clin Cancer Res，2007.13(23)：p.7044-52.

47.McDonnell，T.J.，等，Biomarker expression patterns thatcorrelate with high grade features in treatment naive，organ-confinedprostate cancer.(在未接受治疗的、器官局限性前列腺癌中与高等级特点相关联的生物标志物表达图式)BMC Med Genomics，2008.1：p.1.

48.Prowatke，I.，等，Expression analysis of imbalanced genes inprostate carcinoma using tissue microarrays.(使用组织微阵列对前列腺癌中不平衡的基因进行表达分析)Br J Cancer，2007.96(1)：p.82-8.

49.Ayala，G.E.，等，Stromal antiapoptotic paracrine loop inperineural invasion of prostatic carcinoma.(前列腺癌神经周侵入的基质抗凋亡旁分泌回路)Cancer Res，2006.66(10)：p.5159-64.

50.Krajewska，M.，等，Claudin-1 immunohistochemistry fordistinguishing malignant from benign epithelial lesions of prostate.(用于辨别前列腺的恶性肿瘤与良性上皮病变的封闭蛋白-1免疫组织化学)Prostate，2007.67(9)：p.907-10.

51.Tuxhorn，J.A.，等，Reactive stroma in human prostate cancer：induction of myofibroblast phenotype and extracellular matrix remodeling.(人类前列腺癌中的反应性基质：诱导肌成纤维细胞表型和细胞外基质重塑)Clin Cancer Res，2002.8(9)：p.2912-23.

52.Rowley，D.R.，What might a stromal response mean to prostatecancer progression？(基质响应性对前列腺癌发展意味着什么？)Cancer Metastasis Rev，1998.17(4)：p.411-9.

53.Wang，Y.，等，Sex hormone-induced carcinogenesis inRb-deficient prostate tissue.(Rb缺陷的前列腺组织中性激素诱导的致癌作用)Cancer Res，2000.60(21)：p.6008-17.

54.Tuxhorn，J.A.，G.E.Ayala和D.R.Rowley，Reactive stroma inprostate cancer progression.(前列腺癌发展中的反应性基质)J Urol，2001.166(6)：p.2472-83.

55.van der Heul-Nieuwenhuijsen，L.，等，Gene expression profilingof the human prostate zones.(人类前列腺区域的基因表达谱分析)BJUInt，2006.98(4)：p.886-97.

56.Pflug，B.R.，R.E.Reiter和J.B.Nelson，Caveolin expression isdecreased following androgen deprivation in human prostate cancer celllines.(在人类前列腺癌细胞系中，在雄激素剥夺后胞膜窖蛋白表达降低)Prostate，1999.40(4)：p.269-73.

57.Xin，W.，等，Dysregulation of the annexin family protein familyis associated with prostate cancer progression.(膜联蛋白家族蛋白家族的调节异常与前列腺癌发展相关)Am J Pathol，2003.162(1)：p.255-61.

58.Haywood-Reid，P.L.，D.R.Zipf和W.R.Springer，Quantificationof integrin subunits on human prostatic cell lines--comparison ofnontumorigenic and tumorigenic lines.(人类前列腺细胞系上整合蛋白亚基的定量——非致瘤与致瘤细胞系的比较)Prostate，1997.31(1)：p.1-8.

59.Bae，I.，等，BRCA1 regulates gene expression for orderly mitoticprogression.(BRCA1调控用于有序有丝分裂发展的基因表达)CellCycle，2005.4(11)：p.1641-66.

60.Sahadevan，K.，等，Selective over-expression of fibroblastgrowth factor receptors 1 and 4 in clinical prostate cancer.(临床前列腺癌中成纤维细胞生长因子受体1和4的选择性过表达)J Pathol，2007.213(1)：p.82-90.

61.Rhodes，D.R.，等，Meta-analysis of microarrays：interstudyvalidation of gene expression profiles reveals pathway dysregulation inprostate cancer.(微阵列的荟萃分析：基因表达谱的研究间验证揭示了前列腺癌中的途径调节异常)Cancer Res，2002.62(15)：p.4427-33.

62.Warnat，P.，R.Eils和B.Brors，Cross-platform analysis of cancermicroarray data improves gene expression based classification ofphenotypes.(癌症微阵列数据的交叉平台分析改进了基于基因表达的表型分类)BMC Bioinformatics，2005.6：p.265.

63.Yang，H.P.，等，Genetic variation in interleukin 8 and itsreceptor genes and its influence on the risk and prognosis of prostatecancer among Finnish men in a large cancer prevention trial.(在大型癌症预防试验中，白介素8及其受体基因的遗传变异及其对芬兰男性中前列腺癌的风险和预后的影响)Eur J Cancer Prev，2006.15(3)：p.249-53.

64.DeConde，R.P.，等，Combining results of microarray experiments：a rank aggregation approach.(微阵列试验的组合结果：排序聚集方法)Stat Appl Genet Mol Biol，2006.5：p.Article15.

65.Rodriguez-Canales，J.，等，Identification of a unique epigeneticsub-microenvironment in prostate cancer.(鉴定前列腺癌中独特的表观遗传学亚微环境)J Pathol，2007.211(4)：p.410-9.

66.Ruifrok，A.C.and D.A.Johnston，Quantification of histochemicalstaining by color deconvolution.(通过颜色去卷积对组织化学染色进行定量)Anal Quant Cytol Histol，2001.23(4)：p.291-9.

67.Krajewska，M.，Shinichi Kitada，Jane N.Winter，DainaVariakojis，Alan Lichtenstein，Dayong Zhai，Michael Cuddy，XianshuHuang，Frederic Luciano，Cheryl H.Baker，Hoguen Kim6，Eunah Shin7，Susan Kennedy，Allen H.Olson，Andrzej Badzio，Jacek Jassem，IvoMeinhold-Heerlein，Michael J.Duffy，Aaron D.Schimmer，Ming Tsao3，Ewan Brown，Anne Sawyers，Michael Andreeff1，Dan Mercola，StanKrajewski和John C.Reed.，Bcl-B Expression in Human Epithelial andNonepithelial Malignancies(人类上皮和非上皮恶性肿瘤中的Bcl-B表达)Clinical Cancer Research，2008.14：p.3011-3021.

68.Krajewska，M.，等，Analysis of apoptosis protein expression inearly-stage colorectal cancer suggests opportunities for new prognosticbiomarkers.(早期结肠直肠癌中凋亡蛋白表达的分析显示了新的预后生物标志物的机遇)Clin Cancer Res，2005b 11(15)：p.5451-61.

69.Krajewska，M.，等，Tumor-associated alterations in caspase-14expression in epithelial malignancies.(上皮恶性肿瘤中胱天蛋白酶-14表达的肿瘤相关性变化)Clin Cancer Res，2005a.11(15)：p.5462-71.

70.Turner，B.C.，等，BAG-1：a novel biomarker predictinglong-term survival in early-stage breast cancer.(在早期乳腺癌中预测长期存活性的新的生物标志物)J Clin Oncol，2001.19(4)：p.992-1000.

71.Krajewski，S.，等，Release of caspase-9 from mitochondriaduring neuronal apoptosis and cerebral ischemia.(在神经元凋亡和脑缺血过程中从线粒体释放胱天蛋白酶-9)Proc Natl Acad Sci U S A，1999.96(10)：p.5752-7.

72.Rabinovich，A.，等，Framework for parsing，visualizing andscoring tissue microarray images.(用于对组织微阵列图像进行剖析、可视化和打分的架构)IEEE Trans Inf Technol Biomed，2006.10(2)：p.209-19.

73.Krajewska，M.，等，Expression of BAG-1 protein correlates withaggressive behavior of prostate cancers.(BAG-1蛋白的表达与前列腺癌的侵袭性行为相关)Prostate，2006.66(8)：p.801-10.

74.Meinhold-Heerlein，I.，等，Expression and potential role ofFas-associated phosphatase-1 in ovarian cancer.(Fas结合性磷酸酶-1在卵巢癌中的表达和可能作用)Am J Pathol，2001.158(4)：p.1335-44.

75.Ahlering，T.E.和D.W.Skarecky，Long-term outcome ofdetectable PSA levels after radical prostatectomy.(根治性前列腺切除术后可检测的PSA水平的长期后果)Prostate Cancer Prostatic Dis，2005.8(2)：p.163-6.

76.Adley，B.P.和X.J.Yang，Application of alpha-methylacylcoenzyme A racemase immunohistochemistry in the diagnosis of prostatecancer：a review.(α-甲基酰基辅酶A消旋酶免疫组织化学在前列腺癌诊断中的应用：综述)Anal Quant Cytol Histol，2006.28(1)：p.1-13.

77.Hameed，O.，J.Sublett和P.A.Humphrey，Immunohistochemicalstains for p63 and alpha-methylacyl-CoA racemase，versus a cocktailcomprising both，in the diagnosis of prostatic carcinoma：a comparison ofthe immunohistochemical staining of 430 foci in radical prostatectomy andneedle biopsy tissues.(p63和α-甲基酰基-CoA消旋酶的免疫组织化学染色与包含两者的混合染色在前列腺癌诊断中的比较：根治性前列腺切除术和针刺活检组织中430个灶的免疫组织化学染色的比较)Am JSurg Pathol，2005.29(5)：p.579-87.

78.Herawi，M.和J.I.Epstein，Specialized stromal tumors of theprostate：a clinicopathologic study of 50cases.(前列腺的特化基质肿瘤：50个病例的临床病理学研究)Am J Surg Pathol，2006.30(6)：p.694-704.

79.Epstein，J.I.和M.Herawi，Prostate needle biopsies containingprostatic intraepithelial neoplasia or atypical foci suspicious forcarcinoma：implications for patient care.(含有前列腺上皮内瘤或怀疑为癌的非典型灶的前列腺针刺活检样品：对患者关注的提示)J Urol，2006.175(3 Pt 1)：p.820-34.

80.Gonzalgo，M.L.，等，Relationship between primary Gleasonpattern on needle biopsy and clinicopathologic outcomes among men withGleason score 7 adenocarcinoma of the prostate.(在患有Gleason分值为7的前列腺腺癌的男性中针刺活检样品上的原始Gleason样式与临床病理学后果之间的关系)Urology，2006.67(1)：p.115-9.

81.Varma，M.和B.Jasani，Diagnostic utility ofimmunohistochemistry in morphologically difficult prostate cancer：reviewof current literature.(免疫组织化学在形态学困难的前列腺癌中的诊断用途：当前文献综述)Histopathology，2005.47(1)：p.1-16.

82.Rimm，D.L.，等，Tissue microarray：a new technology foramplification of tissue resources.(组织微阵列：用于扩增组织资源的新技术)Cancer J，2001.7(1)：p.24-31.

83.Camp，R.L.，G.G.Chung和D.L.Rimm，Automated subcellularlocalization and quantification of protein expression in tissue microarrays.(在组织微阵列中蛋白表达的自动亚细胞定位和定量)Nat Med，2002.8(11)：p.1323-7.

84.Rubin，M.A.，等，Quantitative determination of expression of theprostate cancer protein alpha-methylacyl-CoA racemase using automatedquantitative analysis(AQUA)：a novel paradigm for automated andcontinuous biomarker measurements.(使用自动化定量分析(AQUA)定量测定前列腺癌蛋白α-甲基酰基-CoA消旋酶的表达：自动和连续生物标志物测量的新范例)Am J Pathol，2004.164(3)：p.831-40.

85.Prigozhina，N.L.，等，Plasma membrane assays andthree-compartment image cytometry for high content screening.(用于高含量筛查的质膜分析法和三区室图像细胞计数法)Assay Drug DevTechnol，2007.5(1)：p.29-48.

86.Mikic，I.，等，A live cell，image-based approach to understandingthe enzymology and pharmacology of 2-bromopalmitate andpalmitoylation.(理解2-溴棕榈酸酯和棕榈酰化的酶学和药理学的基于图像的活细胞方法)Methods Enzymol，2006.414：p.150-87.

实施例9-将用于前列腺癌的新的基于RNA的预后测试转变成临床分析法

A.具体目标。列线图是用于估计前列腺癌复发风险的临床参数组[1，2]。我们提出了在当前列线图上通过包含基于基因表达的预测进行改进。

我们已经使用了新的策略来鉴定和验证跨多个独立微阵列数据集，在肿瘤组织或邻肿瘤基质中的表达与前列腺癌进展相关的基因。我们将该组表达差异转变成临床分析法。我们提出的策略包括监测一组RNA，包括一些预测疾病复发风险的RNA、一些用于持家基因的RNA(内部对照)和一些被用于确定前列腺样品的组织组成(肿瘤、基质、BPH)的RNA。包含监测组织百分率的RNA，允许在每个样品中只监测适合的预后标志物，所述预后标志物针对该特定样品中的初级组织。

我们将使用在新鲜冷冻和FFPE样品上都能工作、并且能够同时准确监测多达36个不同RNA的RNA检测策略(QuantiGene Plex 2.0)。分析法在已经用于临床实验室的FDA批准的Luminex平台上运行。我们将首先使用来自具有已知微阵列表达图式的新鲜冷冻样品的RNA，在我们的候选RNA中筛选在该平台上性能良好的RNA。然后将专用组应用于来自最长20年临床史的前列腺癌患者的150个富含肿瘤的FFPE样品和150个富含基质的(邻近肿瘤的)样品。性能最好的基因亚组将被组装成两个用于临床使用的专用组，一个用于富含基质的样品，另一个用于富含肿瘤的样品。

长期目标是将前瞻性研究中的分类物在新征集的前列腺切除术样品上进行验证。

B.背景和重要性

癌症和对预后标志物的需求。在美国，前列腺癌是男性最常见的恶性肿瘤[3]。对于新诊断的患有晚期前列腺癌但是还没有转移迹象的患者，一般建议接受侵入性治疗例如根治性前列腺切除术或放射治疗。然而，大部分前列腺癌是具有低死亡风险的缓慢生长的惰性形式。患有早期阶段疾病并具有表明癌症惰性的极其有利的列线图分值的患者，可以选择加强警惕来代替。我们提出了开发基于基因表达的临床测试，其在惰性和侵袭性前列腺癌形式之间作出差异性预后预测。该测试将为前列腺癌患者和医生在做出其治疗决定时提供附加的关键帮助，并对不处于当前列线图打分系统末端的患者来说是特别有用的[1，2]。

尽管已经进行了其他研究来检测用于前列腺癌的基于RNA的预后指示物，但它们彼此之间的一致性有限，并且与通过其他方法发现的预后指示物具有非常有限的交叠[4-7]。我们开发了鉴定预后标志物的不同方法，并且我们已跨不同数据集对它们进行了交叉验证(详见下文)。我们现在提出将一组这些预后指示物转变成有用的临床分析法。我们将使用QuantiGene Plex 2.0分析法(Panomics，Inc.，Fremont，CA)，其与实时PCR同样灵敏，但是多重性的广度要大得多[8，9]。分析法能够在每个孔检测多达36个靶。分析法是基于分支DNA(bDNA)技术，其不需纯化和反转录就从捕获的靶RNA直接扩增信号。RNA定量从新鲜冷冻组织或从福尔马林固定并石蜡包埋的(FFPE)组织匀浆直接进行，并且对RNA降解和通过福尔马林固定导入的化学修饰相对不敏感[10，11]。这种方法已经在FDA批准的用于HIV、HCV和HBV病毒载量的临床诊断VERSANT 3.0分析法中[12]，并且已用于生物标志物发现、二次筛选、微阵列验证、RNAi击倒的定量和预测毒理学[11，13-15]。

C.初步研究。该计划的关键是我们将投入预后分析法的一组基因。我们在这里比较详细地描述了我们如何获得这些基因。

我们以前开发了确定由带肿瘤的前列腺组织的三种主要细胞类型：肿瘤上皮细胞、良性上皮细胞(BPH)和基质细胞优先表达的基因的方法[16]。我们现在已经扩展了该方法，以便我们现在能够鉴定与这三种细胞类型中的一种或多种的早期癌症复发相关的转录变化。除了肿瘤细胞中与复发相关的转录变化之外，我们发现预后性变化也发生在邻近肿瘤的基质中，但是不发生在BPH中。我们已经使用独立的公共可用的微阵列数据集对这些新的复发相关基因的亚组进行验证。表31归纳了我们分析过的来自各种来源的数据集，包括我们自己的前列腺切除术样品。

表31：前列腺癌表达微阵列数据集

Iden

细胞特异性基因的鉴定。大多数以前的使用微阵列确定实体肿瘤表达谱的实验包括“富集的”肿瘤级份。这个策略存在三个限制。首先，样品纯度不同，由于相伴组织类型的不同量而引入误差。其次，其他细胞类型的基因表达变化埋没在单一数字中，掩盖了这些相伴细胞类型的独特情况。第三，几乎所有前列腺肿瘤的结构固有地具有显著量的基质。我们设计了用于从一组含有不同细胞类型混合物的样品中对平均细胞特异性基因表达进行分解分析的方法[16]。对三种主要细胞类型的量进行估算：肿瘤上皮细胞(肿瘤，T)、良性前列腺增生的上皮(BPH、B)和基质细胞(S，包括合并的平滑肌、结缔组织、浸润免疫细胞和血管元件)。来自给定基因的mRNA的量(Affymetrix信号强度，G_ij)是每种细胞类型的量乘以给定细胞类型中该基因的固有表达β_ij的总和：

G_ij＝β_BPH，jx_BPH，i+β_T，jx_T，i+β_S，jx_S，i+ε_ij (1)

其中X_i是每种细胞类型的比例，ε是误差。模型鉴定到数百个仅在一种组织中明显表达更多的基因，并通过激光捕获显微切割和免疫组织化学对实例进行了验证[16]。

组织百分率的计算机估算。由病理学家对数据集1、2和3中所有样品进行的组织百分率估算，允许鉴定与组织百分率最为相关的各个转录本水平。对于每种组织类型来说，将每个这些交叠基因的表达水平拟合于每个组织类型的简单线性模型，并根据它们的相关系数进行排序。然后将来自一个数据集的排名靠前的基因亚组用于预测另一个数据集中的组织百分率。对于三个数据集的所有两两预测来说，预测的细胞类型百分率(肿瘤、基质和BPH细胞)与病理学家的估算值之间的泊松相关系数在0.45～0.87的范围内(在所有比较中p＜0.001)。

细胞类型百分率的估算被证明是非常相关的。在数据集4中，复发病例与未复发病例相比具有总体更高的肿瘤组织百分率。除非意识到并考虑在内，否则这种偏斜将产生关于复发的源自于假表达的估算值。

侵袭性前列腺癌的细胞特异性生物标志物的鉴定。我们现在将方程1扩展到对随访史已知的病例鉴定细胞类型和侵袭性特异性基因。为了获得复发和未复发病例的细胞特异性基因表达，将方程1的总和简单地分解，为未复发病例保留具有系数β_j的项，并为在最后复发的病例(rs)指定独立系数γ

G_ij＝(β_BPH，jx_BPH，i+β_T，jx_T，i+β_S，jx_S，i)+rs(γ_BPH，jx_BPH，i+γ_T，jx_T，i+γ_S，jx_S，i)+ε_ij (2)

进行多重线性回归(MLR)分析，对所有β_j、所有γ_j和它们的相关t-统计量值进行计算。因此，产生了未复发和复发前列腺癌的三种细胞类型(T、S和BPH)的固有表达估算值。

例如，在数据集1中(U133Plus2.0阵列)，在早期复发癌症类型中以小于0.05的调整后p值鉴定到928个差异调控的基因，包括405个肿瘤相关的和561个基质相关的预后基因。在数据集1和2两者中，在样本的来自于肿瘤附近的基质组织部分(反应性基质)中观察到最显著的变化。寻找复发过程中在基质中的表达变化的能力，是我们的方法的一个主要优点。

使用独立数据集验证

预后基因(交叉验证)。具有前列腺癌复发信息的6个可用的表达微阵列数据集(表31)允许鉴定可以被验证的候选预后指示物的亚组。我们过滤了所有数据集在p＜0.05的γ；然后对一致的Affymetrix探针(数据集1、2、4、5和6)或基因符号(数据集2)进行作图。最后，我们鉴定了在两个被比较的数据集中都出现、并在复发和未复发样品之间表现出相同方向的差异表达变化的基因。总的来说，185个基因中的152个(82.2％)在成对的数据集之间一致(p＜10^-18)。152个一致基因中的约三分之一对应于以前由别人报道的与前列腺癌后果相关的基因。约四分之一可能是误差(185个中的31个不一致，给出了假发现率)。一些组的基因与被认为在前列腺癌发展中重要的生物学过程在功能上相关，以Wnt信号传导途径的几个成员为例。

已发表的数据集之间巨大的组织百分率多样性(根据我们的计算机分析，所有“富含肿瘤”的集都有一些样品具有低于30％的肿瘤)以及复发与未复发病例之间的肿瘤百分率的频繁偏倚(导致任何肿瘤特异性基因被错误地与复发相关联)，为以前团体在任一个数据集中发现有效的复发特异性特征的艰难性提供了两个解释。

使用QuantiGene Plex 2.0分析法对基因表达进行定量。我们已经测试了使用一组10-Plex基因的分析法的灵敏度与技术和生物学准确率。该10个基因专用组包括两个持家基因和8个对前列腺肿瘤、基质和BPH具有细胞类型百分数预测能力的基因。测定在具有不同量的肿瘤、基质和BPH的12个新鲜冷冻前列腺癌样品和9个FPEE样品上进行。

持家基因核糖体蛋白S20的标准曲线证明，Plex 2.0分析法是高度可重复和灵敏的，具有宽的动态范围(未显示)。

当模板量超过33ng时，所有10个基因的转录本能被准确测量动态范围很宽。使用相同RNA样品，通过Plex 2.0分析法或AffymetrixU133P2阵列检测到的所有8个组织特异性基因的基因表达水平，具有0.64至0.89范围内的相关系数。此外，在FFPE样品中，所有8个组织富集的基因显示出与其相应的细胞类型百分率的良好相关性。这些初步实验证明了Plex 2.0分析法是与微阵列数据一致的非常灵敏和可重复的方法。

D.研究设计和方法。我们鉴定到的数千个组织特异性基因和超过150个候选预后基因的实际可用性将有不同。此外，由于诸如剪接变体可能行为不一致这样的情况，不是所有这些基因都将转变成具体的分析平台。本计划将为我们选择的分析策略寻找高性能基因的亚组，其从我们已鉴定到的许多高置信度候选基因中收集。

在FFPE样品上使用Plex 2.0分析(不需要RNA提取或反转录)，我们将把基因标志物转变成可以容易地适合于临床实验室的分析法。为了进行探针验证，分析将在已经具有以前报道的微阵列数据的24个总RNA样品上进行。与微阵列数据关联性最好的探针将被用于分析150个注明了复发状态的FFPE样品(大多数病例的术后随访超过10年)。将开发能够辨别惰性和/或侵袭性病例的分类物，并且将通过交叉验证评估后果预测准确率。

步骤1.选择用于进一步验证的候选基因。我们选择了用于进一步分析的基因生物标志物名单，包括75个来自我们的研究的预后标志物基因和25个在我们的至少一个数据集中和文献中发现的标志物基因、30个组织组分预测基因和4个代表相对低、中和高表达水平的持家基因。

步骤2.QuantiGene Plex分析法的探针设计和验证。

冷冻组织样品。已经具有Affymetrix基因表达数据的24个总RNA样品将被用于Plex 2.0分析法中。所选的RNA样品将涵盖大范围的组织百分率和相等数量的未复发和复发病例。Plex 2.0分析法的探针将由Panomics设计。Plex 2.0分析法的每个专用组将含有最多36个基因。我们将测试四个专用组，总共130个或以上的候选基因。该分析法将使用我们的Bio-Plex系统来进行，所述系统依赖于荧光编码珠子的FACS分选。

用于未来使用的基因的选择。在Plex分析法与Affymetrix分析法之间显示出显著相关性的基因将被保留用于进一步分析。在这些分析中具有非常低的信号或低变化的基因，将从进一步分析中排除。我们将性能靠前的基因合并成三个专用组(每组36个基因)，用于进一步研究。如果需要，将筛选更多可能有用的预后或组织富集的转录本。

步骤3.产生用于复发预测的分类物。FFPE样品。我们将从SPECS研究获取一组150个存档的前列腺癌样品用于验证。将从每个组织块选择两个样品。一个是富含肿瘤的(＞70％的肿瘤细胞)，另一个是富含基质的(＞70％的邻肿瘤基质细胞：“反应性基质”)，其由病理学家评估。这些组织块具有8～20年的相关临床数据，并代表了一定范围的总体存活和复发时间。Gleason分值在5-8范围内。样品将被编号以用于盲法分析。将在上述所选基因的三个专用组上进行Plex 2.0分析。

后果预测。我们将首先使用具有病理学家估算的细胞类型百分率的样品亚组来产生细胞类型组分预测的线性模型。剩余样品的细胞类型百分率将使用这些线性模型来估算，并且将鉴定最具预测性的标志物，将其保留在最终的临床分析中。

样品将被分成富含肿瘤的样品和富含基质的样品。被证明没有适当富集的样品将被取消。我们将使用适合的组织富集的样品来产生使用微阵列预测分析(PAM)[17]和支持矢量机(SVM)[18，19]方法辨别侵袭性和惰性癌症的分类物。误分类误差将使用十折交叉验证或留一法策略来估计。这些工具将在R中执行(http://www.r-project.org/)。将产生两套分类物。一套用于富含肿瘤的样品，一套用于富含基质的样品。

我们还将尝试基于每个多重中存在的组织百分率标志物对转录水平进行计算机校正。我们将尝试调整信号以通过简单的线性回归反映组织百分率，并确定该变量是否改进了疾病后果预测。

对于所有病例，可以获得术前和术后PSA、病理T阶段和Gleason分值。因此，使用这些参数加上我们的基于RNA的分类物，可以计算列线图预测的无疾病存活。

最终预测组。最初的每个多达36个基因的四个专用组，在初始筛选后将缩减到三个专用组。然后将用在FFPE研究中的这三个专用组进一步缩减成仅仅两个专用组，其只含有对于组织百分率估算和预后有用的基因：一个专用组用于富含基质的样品，一个用于富含肿瘤的样品。这两个专用组将具备最多10个用于估算组织百分率的RNA、25个用于预后的RNA以及3个或以上的看家对照。

进一步的研究。

应用于活检样品。我们已经发现活检样品是出色的RNA来源。如果任何基质生物标志物与复发相关，我们将在我们的数百个速冻活检样品中的10个上测试Plex 2.0分析法，以确定技术可行性。癌症阴性的活检样品仍可能具有与错过的肿瘤足够接近的区域，使得它们显示出“反应性”基因变化，这是有可能的。这将革新在活检后癌症阴性患者的评估。

更精细的类型预测算法。在本计划中，我们提出使用计算机细胞类型组成预测来估算肿瘤百分率，仅用于样品质量控制。然而，组织组成的知识为数据分析中的许多思维进展打开了机会。我们正在开发一种新的分类方法，其利用细胞组成信息而不拒绝任何高质量数据，并且产生比基于PAM和SVM的预测更好的性能[20]。

用于理解前列腺癌发展的信号传导途径分析。我们关于途径分析的初步研究显示，我们新鉴定到的复发预测标志物明显富集了参与癌症相关途径、例如Wnt信号传导途径的元件。我们的长期目标之一是探索癌症相关途径的机制，其在多个数据集中使用工具例如DAVID(用于注释、可视化和积分发现的数据库)进行交叉验证[21，22]。这些途径是新的治疗疗法的潜在靶。

1.基于基因表达谱分析的独特的计算机组织组成预测策略。前列腺组织样品中组织组分比例的大变动引起相当大的噪音，并甚至在用于预后指示物的微阵列数据的挖掘中产生误导性结果。我们产生并验证了基于基因表达水平对组织组分进行估算的线性模型。确定肿瘤、基质和BPH组织的10～20个基因的名单，允许只从基因表达谱确定这些组织每种的比例。这种新的计算机组织组分预测方法将通过测定每个临床RNA样品中的主要细胞组分来用于质量控制。

2.独特的预后基因生物标志物。使用整合有组织组分百分率的多重线性回归模型，我们已经鉴定到肿瘤和反应性基质相关的预后生物标志物名单，其能够辨别惰性和侵袭性前列腺癌。然后将标志物在由不同研究组产生的不同微阵列数据集之间进行交叉验证。这些预后标志物中的大多数以前没有被其他研究鉴定过。这是用于发现疾病进展的更好、更精确的预后指示物的简单但仍然新颖的方法。

3.准确和灵敏的多基因表达定量。单一前列腺癌预后标志物不可能能够对患者进行分类。相反，需要一组标志物来解释患者的遗传可变性和癌症发展的变异性。QuantiGene Plex 2.0分析法(Panomics，Inc)允许直接对来自组织匀浆物的多个RNA靶进行同时定量。分析法不需要RNA纯化、反转录或靶扩增，因为它组合了分支DNA(bDNA)信号扩增技术和xMAP

(多分析物谱分析)珠子。分析法使用了已经在临床实验室中发现的FDA批准的Luminex系统。

我们的数据证明了分析法的准确性和灵敏性，以及在FFPE样品中预测组织比例的能力。我们将把大量以前鉴定到的并成功交叉验证的预后基因转变成QuantiGene分析系统，其随后可以容易地被临床实验室采用。将在我们的具有手术后长达数十年患者数据的FFPE样品的大型结合上测试QuantiGene分析法的基因专用组。

参考文献

1.Han，W.D.，等，Up-regulation of LRP16 mRNA by17beta-estradiol through activation of estrogen receptor alpha(ERalpha)，but not ERbeta，and promotion of human breast cancer MCF-7 cellproliferation：a preliminary report.(LRP16 mRNA通过雌激素受体α(ERα)而不是ERβ的活化被17β-雌二醇上调以及促进人类乳腺癌MCF-7细胞增殖：初步报告)Endocr Relat Cancer，2003.10(2)：p.217-24.

2.Kattan，M.W.，T.M.Wheeler和P.T.Scardino，Postoperativenomogram for disease recurrence after radical prostatectomy for prostatecancer.(前列腺癌的根治性前列腺切除术后疾病复发的术后列线图)J Clin Oncol，1999.17(5)：p.1499-507.

3.Reis，L.，Eisner，M.，Kosary，C.，Hankey，B.，Miller，B.，Clegg，L.，Edwards，B.，SEER Cancer Statistics Review，1973-1999.(《SEEB癌症统计学综述》)书籍，National Institutes of Health，Betheda，MD.，2002(2002).

4.Bibikova，M.，等，Expression signatures that correlated withGleason score and relapse in prostate cancer.(与前列腺癌中的Gleason分值和复发相关的表达特征)Genomics，2007.89(6)：p.666-72.

5.LaTulippe，E.，等，Comprehensive gene expression analysis ofprostate cancer reveals distinct transcriptional programs associated withmetastatic disease.(前列腺癌的全面基因表达分析揭示出与转移性疾病相关的不同转录程序)Cancer Res，2002.62(15)：p.4499-506.

6.Singh，D.，等，Gene expression correlates of clinical prostatecancer behavior.(临床前列腺癌行为的基因表达关联性)Cancer Cell，2002.1(2)：p.203-9.

7.Stephenson，A.J.，等，Integration of gene expression profilingand clinical variables to predict prostate carcinoma recurrence afterradical prostatectomy.(整合基因表达谱分析和临床变量来预测根治性前列腺切除术后前列腺癌的复发)Cancer，2005.104(2)：p.290-8.

8.Arikawa，E.，等，Cross-platform comparison of SYBR Greenreal-time PCR with TaqMan PCR，microarrays and other gene expressionmeasurement technologies evaluated in the MicroArray Quality Control(MAQC)study.(在微阵列质量控制(MAQC)研究中评估SYBR Green实时PCR与TaqMan PCR、微阵列和其他基因表达测量技术的交叉平台比较)BMC Genomics，2008.9：p.328.

9.Canales，R.D.，等，Evaluation of DNA microarray results withquantitative gene expression platforms.(使用定量基因表达平台评估DNA微阵列结果)Nat Biotechnol，2006.24(9)：p.1115-22.

10.Beer，D.G.，等，Gene-expression profiles predict survival ofpatients with lung adenocarcinoma.(基因表达谱预测患有肺部腺癌患者的存活)Nat Med，2002.8(8)：p.816-24.

11.Knudsen，B.S.，等，Evaluation of the branched-chain DNAassay for measurement of RNA in formalin-fixed tissues.(用于在福尔马林固定的组织中测量RNA的支链DNA分析法的评估)J Mol Diagn，2008.10(2)：p.169-76.

12.Elbeik，T.，等，Multicenter evaluation of the performancecharacteristics of the bayer VERSANT HCV RNA 3.0assay(bDNA).(bayer VERSANT HCV RNA 3.0分析法(bDNA)的性能特征的多中心评估)J Clin Microbiol，2004.42(2)：p.563-9.

13.Calcagno，A.M.，等，Single-step doxorubicin-selected cancercells overexpress the ABCG2 drug transporter through epigenetic changes.(一步阿霉素筛选的癌细胞通过表观遗传改变过表达ABCG2药物转运蛋白)BrJ Cancer，2008.98(9)：p.1515-24.

14.John，M.，等，Effective RNAi-mediated gene silencing withoutinterruption of the endogenous microRNA pathway.(不打断内源microRNA途径的有效的RNAi介导的基因沉默)Nature，2007.449(7163)：p.745-7.

15.Yang，W.，等，Direct quantification of gene expression inhomogenates of formalin-fixed，paraffin-embedded tissues.(在福尔马林固定的石蜡包埋组织的匀浆中基因表达的直接定量)Biotechniques，2006.40(4)：p.481-6.

16.Stuart，R.O.，Wachsman William，Berry Charles C.，Arden Karen，Goodison Steven，Klacansky Igor，McClelland Michael，Wang-RodriquezJessica，Wasserman Linda，Sawyers，Ann，Yipeng，Wang，Kalcheva，Iveata，Tarin David，Mercola Dan.，In silico dissection of cell-typeassociated patterns of gene expression in prostate cancer.(前列腺癌中基因表达的细胞类型相关图式的计算机剖析)Proceeding of the NationalAcademy of Sciences U.S.A.，2004.101：p.615-620.

17.Tibshirani，R.，等，Diagnosis of multiple cancer types byshrunken centroids of gene expression.(通过基因表达的缩小重心分类法诊断多种癌症类型)Proc Natl Acad Sci U S A，2002.99(10)：p.6567-72.

18.Ramaswamy，S.，等，Multiclass cancer diagnosis using tumorgene expression signatures.(使用肿瘤基因表达特征的多类型癌症诊断)Proc Natl Acad Sci U S A，2001.98(26)：p.15149-54.

19.Su，A.I.，等，Molecular classification of human carcinomas byuse of gene expression signatures.(使用基因表达特征对人类癌症进行分子分类)Cancer Res，2001.61(20)：p.7388-93.

20.Wang，Y.，等，A New Bi-Model Classifier for PredictingOutcomes of Prostate Cancer Patients.(用于预测前列腺癌患者后果的新的双模型分类物)JSM Proceedings，2008.

21.Dennis，G.，Jr.，等，DAVID：Database.for Annotation，Visualization，and Integrated Discovery.(DAVID：用于注释、可视化和积分发现的数据库)Genome Biol，2003.4(5)：p.P3.

22.Huang da，W.，等，DAVID Bioinformatics Resources：expandedannotation database and novel algorithms to better extract biology fromlarge gene lists.(DAVID生物信息学资源：扩展的注释数据库和从大量基因名单中更好地提取生物学的新算法)Nucleic Acids Res，2007.35(网络服务器发布)：p.W169-75.

实施例10-如果不控制混杂的因素，增加样品容量不提升能力——使用微阵列的前列腺癌研究

前列腺癌数据的分析

最近，我们发表了用于前列腺癌研究的数据集(可以在GEO数据库公开获得，登记号为GSE8218)[3]。该数据集由来自82位经历过前列腺切除术的患者的136个样品构成。在这82位患者中，45位经历了疾病复发，33位没有复发，剩余4位未知。这里，我们使用了具有确定复发状态的130个样品用于本研究。在某些情况下，从同一患者的前列腺的不同区域，例如从富含肿瘤的显微切割组织和距离肿瘤≥1.5cm的非肿瘤组织(通常为对侧叶)收集了一个以上样品。对于用于微阵列分析的每个样品，四位病理学家独立地检查了苏木精和曙红(H&E)染色切片，并估计了三种主要细胞组分即肿瘤、基质和BPH的百分率。本研究的目的是鉴定与肿瘤细胞中或可能指示了肿瘤微环境中基因表达变化的其他细胞类型中的疾病进展相关的基因[16]。

首先，我们使用R中的LIMMA软件包(http://www.bioconductor.org)对所有130个样品进行差异分析[5]。我们通过B＞0的标准鉴定到602个在复发与未复发组之间改变的基因，其中B代表被差异表达与被等量表达的似然比的对数。因此，B＞0表示所考虑的基因在复发与未复发组之间具有改变的表达。同样的标准应用于随后分析中的基因选择。然后我们从数据中随机选择40、45、…、120、125个样品的亚组，并分别进行差异表达分析。如果样品容量的增加使能力提升，我们预计将观察到当样品容量变得更大时检测到更多基因，并且在不同样品容量下检测到的特征的交叠大、即图12中的圆圈和正方形推测将彼此靠近，并稳定地上升。然而，正如图12中所示，检测到的基因的数量随着样品容量增加而波动，当使用120个随机选择样品(圆圈)时检测数量最大(666个基因)。我们将鉴定到的不同基因名单与图12中666个基因的最长基因名单(正方形)进行比较，仅显示出中度交叠。

接下来，我们通过逐步富集前列腺组织中的两种主要细胞类型——肿瘤或基质组分来选择样品。具体来说，我们使用T，k％(k＝0，5，…，70，75)作为样品选择的截止值，其中T表示肿瘤组分的百分率。在每种情况下鉴定到的基因数量归纳在图13A中。当所有130个样品被包含在分析中时出现最大检测(602个基因)。然而，这602个基因与在其他点处检测到的基因名单之间的交叠非常低(正方形与圆圈相隔很远)。特别是，这602个基因与图的右半部分中对富含肿瘤样品检测到的基因名单之间的交叠非常低，表明602个基因中的许多是由于样品的细胞组成方面的多样性导致的假发现。这表明使用所有130个可用样品不是最适策略。然而，当使用40个样品时(其中肿瘤组分大于35％)，存在由圆圈标出的曲线的另一个峰。在该点检测到的基因(作为新的参比基因名单)与该点附近(样品容量22至49)的其他基因名单之间的交叠作图于图13B中。交叠高(≥80％，由圆圈和正方形标出的曲线在该区域内粘在一起)，表明这些分析之间的发现一致(图13B)。我们观察到在图的右端，检测到的基因数量在样品容量＝17以下时上升，但是与247个基因的名单(在样品容量＝40时鉴定到的；表33)的交叠保持降低。这种奇怪的行为被归因于小的样品容量，例如仅包含了4至17个样品，其降低了能力但是增加了引起假阳性的机会。

当我们研究复发相关的基质基因时观察到了类似现象。在图的右半侧(富含基质的样品)中，在样品容量70和92时存在两个预计与复发相关的基因的峰(圆圈)。在这两个点处鉴定到的基因与这两个点附近的基因名单(24至106)之间的交叠相当高(≥76％，参见图13C和13D)。在图的左半侧，当包含大多数样品时(在图13E中样品容量＝128；在图13F中样品容量＝130)，检测率也高。然而，在那些点处检测到的基因与在图的右端鉴定到的基因名单之间的交叠非常低，表明如果包含大多数样品，许多检测到的基因是假阳性。注意，与从肿瘤推断的基因的图相比，在这些图右端的样品容量仍然比较大(34至60)因此，在图13A-13B中，我们没有观察到由圆圈标出的曲线发生表明假阳性增加的向上弯曲。然而，由于样品较少所引起的能力降低，许多重要的基因丢失了(图的右端的检测率与样品容量＝70至92时的检测率相比低)。

原始论文通过使用多重线性回归(MLR)模型处理异质样品，该模型将观察到的Affymetrix基因表达值描述为来自不同细胞类型的贡献的线性组合[3][17]。具体来说，将下列模型应用于每个基因的表达数据，

g = b_{0} + Σ_{j = 1}^{C} b_{j} p_{j} + I (RS = 1) \times Σ_{j = 1}^{C} γ_{j} p_{j} + ϵ, - - - (1)

其中g是观察到的基因表达，b₀是总平均值，C＝3表示3种类型的细胞组分。p_j是细胞类型j的百分率，b_j表示当病例是未复发时该基因在细胞类型j中的表达，γ_j是当病例复发时在细胞类型j中的额外表达(被上调或下调)，最后I(RS＝1)是指标变量，如果病例复发时I＝1(由RS＝1表示)，如果病例未复发时I＝0(由RS＝0表示)。我们使用完全相同的方法重新分析了数据，并且在肿瘤中检测到119个复发相关基因，在基质中检测到247个复发相关基因。这两个基因名单与通过t-检验对于肿瘤鉴定到的247个基因(图13B中样品容量＝40)和基质中鉴定到的666个基因(图13C中样品容量＝70)分别具有36和169个共同基因。我们认为MLR分析比t-检验(例如LIMMA)更理想，因为(1)使用百分率数据作为回归分析的协变量比根据百分率截止值选择样品更准确，并且(2)所有样品都被有效用于计算，引起能力增加。然而，对于许多研究来说精确的百分率估算数据不常有；在大多数情况下，样品仅仅被粗略分类成富含肿瘤的或富含基质的类别。因此，t-检验仍然广泛使用。为了比较来自这两种分析(基于富集样品的t-检验和MLR)的结果，我们为图12和图13的每张图添加了绿色/金色曲线，表示每个通过t-检验鉴定到的基因名单与使用MLR鉴定到的肿瘤/基质基因之间的交叠。这里，基于上述原因，我们假设使用MLR鉴定到的细胞类型特异性基因更加可靠；因此，我们试图通过MLR结果验证t-检验结果。对于随机实验(图12)来说，交叠有限，并且随着样品容量的增加不显示出任何可见的图案。然而，对于逐步富集实验(图13)来说，交叠得到很大增加，并且显示出所预期的钟型图案(最大值在图13B-13D的蓝色曲线的峰处)。因为通过平衡样品容量和样品之间的均匀性使用了样品的最适亚组，我们假设这些通过t-检验鉴定到的247个肿瘤基因和666个基质基因最接近于真实情况。我们还如下所述计算了使用这两种方法鉴定到的肿瘤/基质基因名单之间的交叠的经验p-值。

假设我们计算两个肿瘤基因名单、即通过MLR得到的119个基因和通过t-检验得到的247个基因的交叠的显著性水平。令计数＝0。从～22,000个基因中，我们随机选择长度分别为119和247的两个基因名单。注意119和247是通过t-检验和MLR独立鉴定到的基因的长度。如果两个随机选择的基因名单的交叠等于或大于36(这两个肿瘤基因名单之间观察到的交叠)，我们令计数增加1。我们将该过程重复10,000次，肿瘤基因的观察到的交叠的p-值被计算为

p＝计数/10000

通过同样的方式，我们也计算了两个基质基因名单的交叠的显著性水平。肿瘤交叠基因和基质交叠基因两者的p-值都≤0.0001。这再一次用逐步富集样品验证了t-检验的发现。

模拟研究

在该部分中，我们产生了由200个样品构成的数据集，每个样品由三种类型的细胞构成。这是为了模拟我们在前列腺癌研究中所面对的情况。我们将200个样品随机指派到病例组(用1表示)或对照组(用0表示)中。这里病例是指即使在手术移除前列腺腺体后仍将发展的侵袭性前列腺癌；而对照是指在前列腺切除术后不复发的惰性前列腺癌。对于每个样品，按照下述模拟三种细胞类型的百分率。我们令细胞类型3(BPH)是在组织中占最高10％体积的少数细胞；因此，我们首先从均匀分布U(0，0.1)产生了细胞类型3的百分率(x3)。然后我们从U(0，1-x3)产生了细胞类型1的百分率(x1，肿瘤)，因此细胞类型2的百分率(x2，基质)是1-x1-x3。对于每个样品，我们如下所述模拟了1000个基因的表达数据。我们令基因1至60在病例和对照之间在细胞类型1中具有改变的表达。基因1至20、基因21至40和基因41至60的表达差异被分别设定为0.5、1.0和2.0。同样的设置被用于产生细胞类型2的差异表达基因(基因61至120)。由于细胞类型3的载量小，我们假设病例和对照之间在细胞类型3中的差异是不可检测的，所以我们没有为细胞类型3模拟差异表达基因。

首先，我们从数据随机选择40、50、…、190、200个样品的子集，并使用LIMMA进行差异表达分析。灵敏度、特异性和假发现率已经被登记在每种情况中。将这样的分析重复100次，平均操作特征归纳在图14中。灵敏度或能力随着样品容量增加而上升，然而，检测率受到限制(最高46.7％)。注意，特异性和假发现率一直令人满意(非常接近于0)。

考虑到细胞组成的异质性，我们然后通过逐步富集一种类型的细胞来选择样品。具体来说，我们将具有x1，k％(k＝0，5，…，85，90)的样品包含在表达比较程序中，然后鉴定在病例与对照之间在细胞类型1中差异表达的基因。使用变化的截止值，包含在分析中的样品数量和通过这些样品获得的灵敏度或能力归纳在表32中。显然，最高灵敏度或能力是73.3％，其远高于图14中通过随机选择样品所获得的任何数字。此外，当x1，65％时获得最高灵敏度或能力，其在细胞类型1的含量(或计算中包含的样品数量)方面既不太小也不太大。如果所选的截止值太小，将包含大多数样品。这类似于我们在前面的测定中当样品容量接近上限时所观察到的(参见图14)。在这种情况下，由混合组织所引起的变异可能损害检测能力。然而，如果所选的截止值太大，分析中将包含太少的样品，导致能力降低。例如，如果我们使用x1，90％用于样品选择，将只能选择到9个样品(5个对照和4个病例)。在这种情形下，灵敏度或能力仅为43％。这非常类似于在前列腺癌数据分析中的观察结果，所述观察结果当样品容量接近0时显示出向下弯曲的检测曲线(图13A-13B)。在样品容量与均质性水平之间存在折中。两种因素对能力有正面贡献，但是从不从彼此获益，如同统计假设检验中的I型和II型误差。该经验告诉我们，从资源中仔细选择样品优于不加区别地利用所有可用样品。

最后，我们将MLR应用于模拟的数据，结果与使用富集样品的常规t-检验相比大大改进(表32)。这正是我们所预期的，并证明了使用MLR分析的结果来验证t-检验结果的合理性。

表32.MLR分析的操作特征。

参考文献

1.Blalock，E.M.，Geddes，J.W.，Chen，K.C.，Porter，N.M.，Markesbery，W.R.，Landfield，P.W.：Incipient alzheimer′s disease：Microarray correlation analyses reveal major transcriptional and tumorsuppressor responses.(早期阿茨海默氏病：微阵列关联性分析揭示了重要的转录和肿瘤抑制物响应)Proceedings of the National Academy ofSciences of the United States of America 101(2004)2173-2178

2.Schena，M.，Shalon，D.，Davis，R.W.，Brown，P.O.：Quantitativemonitoring of gene-expression patterns with a complementary-dnamicroarray.(使用互补DNA阵列定量监测基因表达图式)Science270(5235)(1995)467-470

3.Stuart，R.O.，Wachsman，W.，Berry，C.C.，Wang-Rodriguez，J.，Wasserman，L.，Klacansky，I.，Masys，D.，Arden，K.，Goodison，S.，McClelland，M.，Wang，Y.P.，Sawyers，A.，Kalcheva，I.，Tarin，D.，Mercola，D.：In silico dissection of cell-type-associated patterns of geneexpression in prostate cancer.(前列腺癌中基因表达的细胞类型相关图式的计算机剖析)Proceedings of the National Academy of Sciences of theUnited States of America 101(2)(2004)615-620

4.Koziol，J.A.，Feng，A.C.，Jia，Z.Y.，Wang，Y.P.，Goodison，S.，McClelland，M.，Mercola，D.：The wisdom of the commons：ensemble treeclassifiers for prostate cancer prognosis.(众人的智慧：用于前列腺癌预后的综合树状分类物)Bioinformatics 25(1)(2009)54-60

5.Smyth，G.K.：Linear models and empirical bayes methods forassessing differential expression in microarray experiments.(用于在微阵列实验中评估差异表达的线性模型和经验贝叶斯方法)StatisticalApplications in Genetics and Molecular Biology 3(2004)Article 3

6.Tusher，V.G.，Tibshirani，R.，Chu，G.：Significance analysis ofmicroarrays applied to the ionizing radiation response.(应用于电离辐射响应的微阵列的显著性分析)Proceedings of the National Academy ofSciences of the United States of America 98(2001)5116-5121

7.Jia，Z.，Xu，S.：Bayesian mixture model analysis for detectingdifferentially expressed genes.(用于检测差异表达基因的贝耶斯混合模型分析)International Journal of Plant Genomics 2008(2008)Article ID892927，12pages

8.Fan，C.，Oh，D.S.，Wessels，L.，Weigelt，B.，Nuyten，D.S.A.，Nobel，A.B.，van′t Veer，L.J.，Perou，C.M.：Concordance amonggene-expression-based predictors for breast cancer.(用于乳腺癌的基于基因表达的预测物之间的一致性)New England Journal of Medicine355(6)(2006)560-569

9.Chang，H.Y.，Sneddon，J.B.，Alizadeh，A.A.，Sood，R.，West，R.B.，Montgomery，K.，Chi，J.T.，van de Rijn，M.，Botstein，D.，Brown，P.O.：Gene expression signature of fibroblast serum response predicts humancancer progression：Similarities between tumors and wounds.成纤维细胞血清响应的基因表达特征预测了人类癌症进展：肿瘤与创伤之间的相似性)Plos Biology 2(2)(2004)206-214

10.Paik，S.，Shak，S.，Tang，G.，Kim，C.，Baker，J.，Cronin，M.，Baehner，F.L.，Walker，M.G.，Watson，D.，Park，T.，Hiller，W.，Fisher，E.R.，Wickerham，D.L.，Bryant，J.，Wolmark，N.：A multigene assay to predictrecurrence of tamoxifen-treated，node-negative breast cancer.(预测三苯氧胺治疗的淋巴结阴性乳腺癌的复发的多基因分析法)New EnglandJournal of Medicine 351(27)(2004)2817-2826

11.Sorlie，T.，Perou，C.M.，Tibshirani，R.，Aas，T.，Geisler，S.，Johnsen，H.，Hastie，T.，Eisen，M.B.，van de Rijn，M.，Jeffrey，S.S.，Thorsen，T.，Quist，H.，Matese，J.C.，Brown，P.O.，Botstein，D.，Lonning，P.E.，Borresen-Dale，A.L.：Gene expression patterns of breast carcinomasdistinguish tumor subclasses with clinicalimplications.(乳腺癌的基因表达图式辨别具有临床意义的肿瘤亚类)Proceedings of the NationalAcademy of Sciences of the United States of America 98(19)(2001)10869-10874

12.Sorlie，T.，Tibshirani，R.，Parker，J.，Hastie，T.，Marron，J.S.，Nobel，A.，Deng，S.，Johnsen，H.，Pesich，R.，Geisler，S.，Demeter，J.，Perou，C.M.，Lonning，P.E.，Brown，P.O.，Borresen-Dale，A.L.，Botstein，D.：Repeated observation of breast tumor subtypes in independent geneexpression data sets.(在独立的基因表达数据集中乳腺肿瘤亚型的重复观察)Proceedings of the National Academy of Sciences of the UnitedStates of America 100(14)(2003)8418-8423

13.Sotiriou，C.，Neo，S.Y.，McShane，L.M.，Korn，E.L.，Long，P.M.，Jazaeri，A.，Martiat，P.，Fox，S.B.，Harris，A.L.，Liu，E.T.：Breast cancerclassification and prognosis based on gene expression profiles from apopulation-based study.(基于来自基于群体研究的基因表达谱的乳腺癌分类和预后)Proceedings of the National Academy of Sciences of theUnited States of America 100(18)(2003)10393-10398

14.van de Vijver，M.J.，He，Y.D.，van′t Veer，L.J.，Dai，H.，Hart，A.A.M.，Voskuil，D.W.，Schreiber，G.J.，Peterse，J.L.，Roberts，C.，Marton，M.J.，Parrish，M.，Atsma，D.，Witteveen，A.，Glas，A.，Delahaye，L.，vander Velde，T.，Bartelink，H.，Rodenhuis，S.，Rutgers，E.T.，Friend，S.H.，Bernards，R.：A gene-expression signature as a predictor of survival inbreast cancer.(基因表达特征作为乳腺癌中存活率的预测物)NewEngland Journal of Medicine 347(25)(2002)1999-2009

15.van′t Veer，L.J.，Dai，H.Y.，van de Vijver，M.J.，He，Y.D.D.，Hart，A.A.M.，Mao，M.，Peterse，H.L.，van der Kooy，K.，Marton，M.J.，Witteveen，A.T.，Schreiber，G.J.，Kerkhoven，R.M.，Roberts，C.，Linsley，P.S.，Bernards，R.，Friend，S.H.：Gene expression profiling predicts clinicaloutcome of breast cancer.(基因表达谱分析预测乳腺癌的临床后果)Nature 415(6871)(2002)530-536

16.Cunha，G.R.，Hayward，S.W.，Wang，Y.Z.，Ricke，W.A.：Role ofthe stromal microenvironment in carcinogenesis of the prostate.(基质微环境在前列腺癌发生中的作用)International Journal of Cancer 107(1)(2003)1-10

17.Jia，Z.，Wang，Y.，Koziol，J.，McClelland，M.，Mercola，D.：Anew bi-model classifier for predicting outcomes of prostate cancer patients.in JSM Proceedings，Biometrics Section.(用于预测前列腺癌患者后果的新的双模型分类物)Denver，CO：American Statistical Association.(2008)

表33.通过t-检验然后根据计算的低肿瘤细胞百分率将训练病例检别分类所鉴定到的基质细胞中的预后前列腺癌基因(生物标志物)

表34.通过t-检验然后根据计算到的低基质细胞百分率分选训练病例所鉴定到的基质细胞中的预后前列腺癌基因(生物标志物)

其他实施方案

应该理解，尽管已结合详细说明书对本发明进行了描述，但上面的描述旨在对本发明的范围进行说明而不是限制，本发明的范围由随附的权利要求书的范围所定义。其他特点、优点和修改，在所附的权利要求书的范围之内。

Claims

1.一种用于鉴定对象患有或未患前列腺癌的体外方法，所述方法包含：

(a)提供来自所述对象的前列腺组织样品；

(b)测量所述样品中前列腺癌特征基因的表达水平；

(c)将所述前列腺癌特征基因的所述测量的表达水平与参比表达水平进行比较；以及

(d)如果所述测量的表达水平显著高于或低于所述参比表达水平，将所述对象鉴定为患有前列腺癌，而如果所述测量的表达水平不显著高于或低于所述参比表达水平，则将所述对象鉴定为未患前列腺癌。

2.权利要求1的方法，其中所述前列腺组织样品不包含肿瘤细胞。

3.权利要求1的方法，其中所述前列腺组织样品包含肿瘤细胞和基质细胞。

4.权利要求1的方法，其中所述前列腺癌特征基因选自本文表3或表4中列出的基因。

5.权利要求1的方法，其包含确定10个以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述10个以上前列腺癌特征基因的参比表达水平，以及如果所述测量的表达水平显著高于或低于所述参比表达水平，将所述对象分类为患有可能复发的前列腺癌，或者如果所述测量的表达水平不显著高于或低于所述参比表达水平，则将所述对象分类为患有可能不会复发的前列腺癌。

6.权利要求5的方法，其中所述10个以上前列腺癌特征基因选自本文表3或表4中列出的基因。

7.权利要求1的方法，其包含确定20个以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述20个以上前列腺癌特征基因的参比表达水平，以及如果所述测量的表达水平显著高于或低于所述参比表达水平，将所述对象分类为患有可能复发的前列腺癌，或者如果所述测量的表达水平不显著高于或低于所述参比表达水平，则将所述对象分类为患有可能不会复发的前列腺癌。

8.权利要求7的方法，其中所述20个以上前列腺癌特征基因选自本文表3或表4中列出的基因。

9.一种用于确定被诊断患有前列腺癌的对象的预后的方法，所述方法包含：

(a)提供来自所述对象的前列腺组织样品；

(b)测量所述样品中前列腺癌特征基因的表达水平；

(d)如果所述测量的表达水平不显著高于或低于所述参比表达水平，将所述对象鉴定为与所述测量的表达水平显著高于或低于所述参比表达水平的情况相比具有相对较好的预后，或者如果所述测量的表达水平显著高于或低于所述参比表达水平，则将所述对象鉴定为与所述测量的表达水平不显著高于或低于所述参比表达水平的情况相比具有相对较差的预后。

10.权利要求9的方法，其中所述前列腺组织样品不包含肿瘤细胞。

11.权利要求9的方法，其中所述前列腺组织样品包含肿瘤细胞和基质细胞。

12.权利要求9的方法，其中所述前列腺癌特征基因选自本文表8A或8B中列出的基因。

13.一种用于鉴定对象患有或未患前列腺癌的方法，所述方法包含：

(a)提供来自所述对象的前列腺组织样品，其中所述样品包含前列腺基质细胞；

(b)测量所述基质细胞中一个或多个基因的表达水平，其中所述一个或多个基因是前列腺癌特征基因；

(c)将所述一个或多个基因的所述测量的表达水平与参比表达水平进行比较，其中所述参比表达水平在来自非癌性前列腺组织的基质细胞中测定；以及

14.权利要求13的方法，其中所述前列腺组织样品不包含肿瘤细胞。

15.权利要求13的方法，其中所述前列腺组织样品包含肿瘤细胞和基质细胞。

16.权利要求13的方法，其中所述前列腺癌特征基因选自本文表3或表4中列出的基因。

17.一种用于确定被诊断患有前列腺癌的对象的预后的方法，所述方法包含：

18.权利要求17的方法，其中所述前列腺组织样品不包含肿瘤细胞。

19.权利要求17的方法，其中所述前列腺组织样品包含肿瘤细胞和基质细胞。

20.权利要求17的方法，其中所述前列腺癌特征基因选自本文表3或表4中列出的基因。

21.一种用于鉴定对象患有或未患前列腺癌的方法，所述方法包含：

(a)提供来自所述对象的前列腺组织样品；

(b)测量所述样品中一个或多个前列腺细胞类型预测基因的表达水平；

(c)根据所述测量的表达水平确定所述样品中的组织类型百分率；

(d)测量所述样品中一个或多个前列腺癌特征基因的表达水平；

(e)根据所述组织类型百分率和所述测量的表达水平确定分类物；以及

(f)如果所述分类物落入前列腺癌分类物的预定范围内，将所述对象鉴定为患有前列腺癌，而如果所述分类物未落入所述预定范围内，则将所述对象鉴定为未患前列腺癌。

22.权利要求18的方法，其中步骤(b)和(d)同时进行。

23.一种用于确定被诊断患有前列腺癌并治疗过前列腺癌的对象的预后的方法，所述方法包含：

(a)提供来自所述对象的前列腺组织样品；

(b)测量所述样品中一个或多个前列腺组织预测基因的表达水平；

(f)如果所述分类物落入前列腺癌复发分类物的预定范围内，将所述对象鉴定为可能复发，而如果所述分类物未落入所述预定范围内，则将所述对象鉴定为可能不复发。

24.权利要求23的方法，其中步骤(b)和(d)同时进行。

25.一种用于鉴定组织样品中两种或更多种组织类型的比例的方法，所述方法包含：

(a)使用来自动物或植物中与所述组织样品的解剖位置相似的、组织比例已知的一组其他样品，其中至少两个所述其他样品所包含的所述两种或更多种细胞类型中每一种的相对含量都不相同；

(b)测量每个所述其他样品中一种或多种基因表达或蛋白质分析物的总体水平；

(c)确定所述其他样品中每种组织类型的相对比例与每种基因表达或蛋白质分析物的测量的总体水平之间的回归关系；

(d)选择与所述其他样品中的组织比例相关的一种或多种分析物；

(e)测量所述组织样品中步骤(d)的一种或多种所述分析物的总体水平；

(f)将所述组织样品中每种分析物的水平与步骤(d)中所述分析物的水平进行匹配，以确定所述组织样品中每种组织类型的预测比例；以及

(g)使用所有估算值的中位数或平均比例在步骤(f)中获得的所述组织样品的预测组织比例中进行选择。

26.权利要求25的方法，其中所述组织样品包含癌细胞。

27.权利要求26的方法，其中所述癌症是前列腺癌。

28.一种方法，其用于在各含一个以上被测样品的两组数据中比较通过与生物现象的变化相关的一种或多种方法所预测的两种或更多种分析物的水平，所述方法包含：

(a)只选择在两组数据中都被分析的分析物；

(b)使用比较性方法例如与生物现象的变化相关的最高概率或最低假发现率，对每组数据中的所述分析物进行排序；

(c)将步骤(b)中每个排序列表中的一组分析物进行相互比较，选择两个列表中都出现的分析物，并确定在这两个列表中都出现并显示出与生物现象相关的水平以相同方向变化的分析物的数量；以及

(d)根据所述比较的数量将随机显示出观察到的同方向变化的数量的概率，计算一致性分值。

29.权利要求28的方法，其中在步骤(a)中改变每个列表的长度，以确定两个排序列表的最大一致性分值。