CN1714157A

CN1714157A - 来自ffpe样品的基因表达分布图

Info

Publication number: CN1714157A
Application number: CN 200380103222
Authority: CN
Inventors: M·G·厄兰德; R·萨伦卡
Original assignee: Arcturus Engineering Inc
Current assignee: Molecular instrument Limited by Share Ltd.; Life Technologies Corp
Priority date: 2002-10-11
Filing date: 2003-10-10
Publication date: 2005-12-28
Anticipated expiration: 2023-10-10
Also published as: CN100374576C

Abstract

本发明提供涉及从固定和包埋的组织样品产生基因表达数据及其用途的方法和组合物。此种数据可用电子方法保存和执行以及用于促进疾病的诊断和治疗。

Description

来自FFPE样品的基因表达分布图

相关专利申请的交互参照

本专利申请要求2003年12月23日提交的美国专利申请10/329,282和2002年10月11日提交的美国临时专利申请60/418,103的优先权益，它们二者的内容纳入本文如其完全列出那样。

技术领域

本发明涉及扩增用福尔马林、甲醛或多聚甲醛固定的样品中表达的核酸分子。这种样品可以包埋在石蜡中和/或长时间保存。

本发明也涉及利用扩增的核酸分子来测定所述样品中基因表达的水平及其与不同疾病和病况的相关性。基因表达水平的信息可电子保存并用于协助疾病的诊断和治疗。

技术背景

不同类型肿瘤(乳房、肺、前列腺和结肠)的基因表达分析揭示各种解剖学定义的癌内存在着许多肿瘤亚类。此外，在一些这种研究中，不同亚类与具体预后相关连。例如，Wigle等(1)和Beer等(2)证明在非小细胞肺癌中存在的一些特定基因簇与不同的无疾病存活相关联。这些报导确定了肿瘤的分子“构成”，如基因表达分布图所定义，这种构成与临床结局直接相关，例如无疾病存活。这些回顾性研究强烈提醒随着前瞻性试验的发展，有很大应用前景的是某给定肿瘤的分子构成与病人是否对某给定治疗有反应或无反应直接相关联。

一种进行回顾性研究的方法是利用两种主要类型的临床样品，：冷冻样品和福尔马林固定及石蜡包埋的样品。然而，当完成临床样品的基因表达分析时，要考虑至少3个主要因素。首先，利用冷冻样品作微阵列实验需要大量组织且大多数研究者目前使用的实验设计和方法中，一次微阵列实验将“耗尽”全部活检组织材料，因此显著地限制了该材料用于微阵列后的验证实验、其它不同内容的微阵列或其它类型的研究(如蛋白质组分析)。

第二，迄今为止的微阵列研究一般开始于匀浆化的活检组织，因此必须仅用高度富集肿瘤的样品以最大程度减少样品异质性细胞的数量。不幸的是，这不是临床试验中的“真实”情况，临床试验中不能选择随后将检测哪些亚组的活检组织。使用激光捕获显微解剖(Emmert-Buck等，3)可避免这个问题，因其能选择和捕获所需类型的细胞而不论肿瘤量。“真实”样品包括肿瘤量可能极少(即10％)的样品，因该样品就活检组织中存在的不同类型细胞总数而言，可能是异质性的，或样品中可含有大量浸润性炎症细胞。

最后，临床检验中的常规样品加工方法与研究实验室中进行的显著不同。具体说，对于常规分析临床送硷的活检组织，是通过福尔马林固定随后石蜡包埋来加工组织。此方法高效，是目前是病理学研究的标准方法。不幸的是，目前只有冷冻样品可用于微阵列分析，因为一般技术不能从福尔马林固定样品中获得mRNA用于总mRNA表达分析(即用于杂交cDNA或寡核苷酸微阵列)。例如，Lewis等(5)清楚地说明mRNA失去聚腺苷酸尾是“逆转录步骤失败的主要原因”。

其它使用福尔马林固定组织来产生cDNA用于随后实验的尝试产生了混乱的结果。例如，Karsten等(4)用酪胺信号扩增(TSA)系统比较了冷冻与福尔马林固定组织在cDNA微阵列中的应用，结论是“福尔马林产生的RNA不是cDNA合成的良好底物在我们的微阵列实验中明显不能产生可靠的杂交”。另一方面，Cohen等(9)描述了逆转录的使用，用随机六聚体和实时定量RT-PCR扩增来检测2种趋化因子的表达。类似使用逆转录PCR以扩增和检测各个基因序列的表达见Lewis等(5)、Lehmann等(6)、Specht等(8)、Masuda等(10)和Danenberg等(11)的描述。尚没有报导通过整体扩增提取的核酸随后通过多重分析如用微阵列来分析细胞水平基因表达的方法。

本文引用的文献并非承认任何文献都是相关的现有技术。迄今的所有说明或提供的文献内容是以可获得的专利申请信息为基础，不意味承认文献的日期或内容是正确的。

发明的说明

本发明提供分析被固定和任选被包埋的细胞中不同核酸序列表达的方法，。固定作用可视作将表达水平“冻结”于固定时细胞中存在的水平。可将细胞中不同序列具体如mRNA的表达水平认为是其冻结时的水平。因而，可捕捉细胞基因表达的动态情况作为代表不同基因序列那时表达水平的静态分子。本发明提供定量检测这些表达水平的方法，或通过从细胞mRNA群中同时产生多个cDNA分子来观察此种情况的方法。mRNA表达的这种“整体”分析之后可进行所述cDNA的转录以产生RNA分子用于试验。

通过大致类似于传统的照相方法，固定法捕捉的表达水平“情况”可用于产生“负”链cDNA，从其可产生扩增的RNA分子用于检验，例如以阵列(或能用阵列)模式为基础例如微阵列的试验。含有能与扩增RNA分子杂交的多个序列的此阵列是“照相”描述细胞中基因表达的阵列。

因而，本发明提供了“解开”固定和包埋组织样品中的基因表达数据(或观察这种样品的细胞表达水平)的方法，所用的技术可制备和分析所述细胞中信使RNA分子的水平。在较佳实施方案中，可利用本发明定量测定以确定1种或多种核酸序列的表达水平。或者可利用本发明作定性测定。

一般，含组织样品的固定细胞可用作含实施本发明物质的细胞来源。优选切样品用于提取和制备RNA，任选先进行显微解剖和/或去除包埋物质。提取的RNA任选的加热至理论上能去除修饰并使RNA恢复到更天然、预固定状态。然后扩增聚腺苷酸化的RNA，先用寡dT引物非选择性地将它们转变成cDNA，引物宜可操作性连接于能指导cDNA转录的启动子序列。该启动子可以是单链序列(在合成第二条cDNA链时转变成双链序列)或双链。然后转录该cDNA，产生扩增RNA与提取的RNA物质序列相同或互补。该扩增的RNA是“整体”的，因为它以聚腺苷酸化为基础而不是选择任何特定基因序列。然而，扩增的RNA可用于测定或分析对应于细胞中核酸表达的序列，如通过与某阵列(或可分栋阵列)模式例如微阵列上的序列杂交。另外，可用其它方法分析此cDNA，包括直接扩增(例如但不限于下面进一步讨论的PCR)。

第一方面，本发明提供初提和制备固定细胞中RNA的方法，采用蛋白酶处理联合随后的RNA提取并使其接触硅胶基质。提取优选采用含胍盐的化合物进行，或采用其它能产生这种化合物的离液效果使蛋白变性的方法。这改进了随后分析RNA的条件。

第二方面，本发明提供通过加热制备用于逆转录的RNA的改进方法。不受理论约束，认为此法可导致脱去RNA碱基在细胞固定期间所经历的修饰。这改进了随后使用的RNA的条件。

第三方面，本发明提供一种扩增含3’末端聚腺苷酸序列的RNA分子为基础的扩增方法。以前认为这种分子已降解而不能用作逆转录的模板(5)。进行此种扩增可能开始要用一种寡dT引物来逆转录模板聚腺苷酸化的RNA，此种引物任选地含有操作性连接有启动子序列的单链或双链序列。通常逆转录聚腺苷酸化的RNA使得能同时产生多个cDNA分子，这些分子反映了细胞的模板聚腺苷酸化RNA分子的水平。本发明也可用于扩增固定组织样品中存在的病使体表达的聚腺苷酸化RNA分子。

在本发明的具体较佳实施方案中，本发明的所有这三个方面一起联合使用来产生固定组织样品中基因表达的信息。

可用cDNA分子来转录含模板聚腺苷酸化RNA的序列的RNA分子或转录与这些序列互补的RNA分子。这些转录的分子可任选地作标记并用来与互补序列杂交如微阵列中的序列杂交，以检测和任选地定量分离得到该，模板聚腺苷酸化RNA的细胞中不同序列的表达。或者，该转录的分子可用于产生标记的cDNA分子以与阵列杂交。所任选在微阵上杂交的从模板聚腺苷酸化RNA扩增的mRNA制备的cDNA和任选随后的cDNA都是本发明的产品。

从模板聚腺苷酸化RNA制备的cDNA分子也可用于其它核酸分析方法中。非限制性例子包括通过使用特异性引物的PCR和定量或实时PCR扩增以测定或分析特定序列的表达水平。尽管扩增可结合微阵列杂交一起进行，但此方法不是“整体”的，因为PCR方法需要利用1种或多种引物中的特定序列，选择性扩增一些序列用于分析。这些方法可用于测定鉴定为与下述结果相关的特定基因序列的表达水平。

另一方面，本发明结合使用了患有或怀疑患有关疾病或其它有害病况的受试者优选人的固定组织样品。优选联合采用患相同疾病或有害病况的受试者的样品以鉴定基因序列的表达水平，与该疾病或其治疗或其结果的一个或多个方面的相关性。随时收集这种样品且经常与取样后受试者的疾病、病况、治疗和/或结果的详细信息相关联。这类信息的非限制性例子包括涉及收集样品固定后受试者随着时间推移所经历的诊断、预后、治疗、对治疗的反应和/或实际结局。另外一方面，基因序列的表达水平可能与组织取样前的受试者病况相关。非限制性例子包括预先存在的疾病或有害病况、疾病发作年龄、感染因子的感染、接触突变源或毒性剂、或遗传障碍。这种相关性性质上是回顾性的，与要发生的结局相关性相反，后者性质是前瞻性的。此外，基因序列的表达水平可能与获得样品(用于测定基因表达水平)后受试者的疾病、病况、治疗和/或结局的信息相关。因此，本发明可用于将基因表达与获取样品的受试者的回顾性以及前瞻性信息相关连。可通过应用基因表达水平与结局之间的相关性，利用这种相关性来产生一种模式以协助临床诊断。

再一方面，本发明提供了将关于固定样品的细胞中多个核酸序列的表达水平的信息编成数据结构的方法。该数据结构的任选地包埋在固体介质或其它制备物中，例如但不限于计算机介质或其它电子可读介质中可读介质中。该数据结构的排列优选能方便地使用表达水平的信息，用于解释和利用表达水平信息的方法中和某疾病或其治疗或结局的各方面中。可将基因表达水平与某疾病或其治疗或结局各方面的相关性，作为相同数据结构部分或作为不同的数据结构保存。

本发明也提供了将这些相关性应用于另一受试者样品的基因表达信息，以鉴定所述样品是否有相同表达水平和所述受试者是否可能患有相同疾病或易经受相同治疗或有其结局。另外受试者的这种样品包括不固定的样品，例如但不限于新鲜或冷冻样品。这些其它样品的表达水平信息不需通过实施本发明来获得，而可使用其它方法，包括但不限于RT-PCR扩增各基因序列和检测表达序列所编码蛋白质的表达。这种解释和应用的方法任选采用计算机执行。

这种数据结构中的核酸表达信息优选包括6个月到超过100年的1种或多种固定组织样品的信息，优选包括取样受试者的固定后治疗和/或结果的信息。可将多名受试者的多个样品的信息相关联，以鉴定与受试者的疾病或固定后治疗和/或结避各方面相关的1种或多种基因序列的特异性表达水平。可全部或部分应用此信息以构成受试者的疾病或有害病况的所有或部分临床含义或鉴定。也可用于预后估计，如组织样品中具有相同表达分布图的其他受试者可能经历的结局。也可应用此信息以利用1种或多种序列的表达水平，根据与该表达水平相关的诊断、预后、治疗、对治疗的反应和/或实际结局来确定更大组的人群或亚群。也可根据与1种或多种序列的关联用于鉴定某疾病或其治疗的新方面，。

在本发明的另外一方面中，提供应用或查询此信息的方法，来鉴定含有另一受试者细胞的样品，该受试者的表达水平相同，因而属于一个人群或亚群。另一受试者的样品不需固定，但可以是新鲜或冷冻样品，作为非限制性例子。这些方法可任选地用计算机执行以最大程度提高该信息的应用效益，使表达水平与诊断、预后、治疗、对治疗的反应和/或实际结局相关联。这些方法在本发的临床应用中的优点是能帮助医生和其他治疗和/或辅导病人的医学人士。

附图的简要说明

图1显示从福尔马林固定1到8天的组织中提取的RNA，。

图2A显示从福尔马林固定1、4或8天的组织样品以及新鲜冷冻组织中扩增的RNA，。图2B显示固定4天的组织样品的另外结果。

图3A显示有约1-2年历史的档案FFPE样品的RNA扩增。图3B显示4个有6年历史的档案FFPE乳房核心活检组织的RNA扩增结果，。

图4显示有约1到4年历史的膀胱癌FFPE样品的RNA扩增。

图5显示扩增自FFPE样品的2个独立的RNA杂交信号强度散布图。

图6显示FFPE和冷冻样品的信号强度散布图。

图7显示福尔马林固定不同时间加热去修饰后FFPE样品的3’序列RNA扩增的相对产量。

图8显示福尔马林固定不同时间加热去修饰后FFPE样品的更长3’序列RNA扩增的相对产量，样品在加热去。

图9显示微阵列数据的比较，该阵列采用随机引物或在缺乏随机引物时制备cDNA制备的扩增RNA，所产生。

完成本发明的模式

本发明提供用福尔马林固定(FF)和任选石蜡包埋(FFPE)的(常规)临床活检组织的细胞的整体mRNA分布图。换句话说，本发明提供对FF样品细胞中整体mRNA表达的分析。本发明可用于测定活检组织的细胞内不同基因的表达以及用作细胞内蛋白表达的指示物。

在一个实施方案中，本发明任选使用显微解剖技术从福尔马林固定组织样品中分离细胞，接着采用RNA提取操作随后扩增mRNA以得到整体mRNA的表达分布图。分离的细胞优选是外观不正常的细胞。也可分离正常细胞用作对照细胞。鉴定到的表达分布图随后可任选地用于鉴定基因序列，其表达可确定这些细胞的分子表达特征和它们所处的状态。这种状态包括但不限于疾病状况、类型、状态、阶段和/或亚阶段或亚类。在较佳实施方案中，可利用该特征(或表达水平)与取得该组织样品受试者的病史浆料来鉴定细胞和含这种细胞的受试者对不同治疗方案是敏感或者耐受。此信息可随后用于指导(或使用更有效的治疗方法)对另一受试者或病人(鉴定为具有相同特征的细胞)的治疗。在其它实施方案中，此表达水平可与取得样品的受试者的前瞻性浆料一起使用。

在本发明的一个具体示范例中，提供了获得FFPE样品的基因表达数据的方法，该方法包括：

(1)分离FFPE样品中含细胞的部分，例如通过显微解剖(例如但不限于激光显微解剖)分离，

(2)提提该样品以收集含mRNA的组分，

(3)任选地纯化该mRNA，

(4)扩增该mRNA，任选采用以下方法，包括：

a.通过逆转录合成第一条DNA链，所用引物含聚(或寡)dT区和启动子部分，

b.采用外源提供的随机引物合成第二条链，

c.从所述引物中存在的启动子(任选地通过所述第二条链的合成变成双链)开始到产生所含序列与FFPE样品的mRNA相互补的多拷贝RNA分子进行体外转录，

(5)通过IVT转录的RNA与含不同基因序列的微阵列杂交，分析样品中的基因表达(用mRNA水平表示)。

实施本发明可采用各种本领域已知的方法固定和包埋的样品。简言之，这些方法通常开始于获自患有或怀疑患有疾病或其它有害病况病人的含细胞组织。组织样品的非限制性例子包括核心活检组织、取出的肿瘤组织和细胞学样品。其它非限制性例子包括细针抽吸物(FNA)、针穿刺活检组织和导管灌洗样品。组织类型的非限制性例子包括胰腺、大肠、大肠癌、肌肉、膀胱、肾、肺、脑、淋巴瘤和多细胞生物体的任何其它组织。

将样品迅速浸没，在固定液，如具有蛋白交联活性的溶液中，例如但不限于甲醛溶液、戊二醛溶液、甲醛-醇混合溶液、醇溶液、布安氏液、岑克尔氏液、Hely溶液、锇酸溶液、卡诺氏液和其相等液。固定醇的非限制性例子包括乙醇和异丙醇。这优选尽可能迅速地进行以最大程度减少收集后和固定前可能发生的细胞变化。也应保持组织和其中细胞的精细结构。

固定剂优选包含甲醛或多聚甲醛或固定组织样品的其它制剂。优选的固定剂包括缓冲甲醛液，如磷酸缓冲甲醛溶液，或其它的缓冲甲醛或多聚甲醛液。可将固定的样品维持为“湿样品”，认为“湿样品”是“湿档案”的一部分，或任选地用包埋方法处理如石蜡或其它蜡像碳氢化合物包埋。虽然可使用其它固定剂如丙酮、克拉克氏液、卡诺氏、戊二醛、含氯化汞的甲醛制剂、布安氏固定剂，但实施本发明优选采用大量的档案组织样品，这些样品用福尔马林固定和石蜡包埋(FFPE)。固定剂可任选地含有镁阳离子。

固定时间优选16到48或72小时，温度约4℃到室温。可采用约16、约20、约24、约28、约32、约36、约40、约44、约48、约52、约56、约60、约64、约68和约72小时的时间来实施本发明。或者，也可采用约3、约4、约5、约7、约8、约9、约10、约12、约14和约15小时的更短时间。这种更短时间段可能对较小样品更适合，如在FNA或针穿刺活检组织样品时。可采用约4、约8、约12、约16、约20、约24和约26℃的温度。本发明也可采用上述之外的其它样品固定时间和温度进行，如4、5、6、7或8天。固定后用标准技术和包埋方法将样品可包埋于石蜡中，然后贮存在本领域所用的条件下，如约4℃到室温。

为实施本发明，固定和包埋样品的时间优选6个月到约100年，以使表达水平与取得样品病人实际结局相关联。显然，时间少于6个月的样品也可用于本发明的实施，但这种样品中的表达水平也许不能与取得样品的病人实际结局相关联，因为时间间隔短。然而，没有相关结局信息的样品的表达水平可用来与用本发明更老样品产生的表达水平和相关结局作比较。

用于表达水平与实际结局相关连的优选较老样品是约6个月、约1年、约2年、约3年、约4年、约5年、约6年、约7年、约8年、约9年、约10年、约11年、约12年、约13年、约14年、约15年、约16年、约17年、约18年、约19年、约20年、约25年、约30年、约40年、约50年、约60年、约70年、约75年、约80年、约90年或约100年的样品。

优选在本发明中采用固定样品的切片以保存固定样品中的物质作后续使用。切片也可如下所述与任选的显微解剖联合应用。制备切片可采用任何切片技术和方法。在一个实施方案中，石蜡块用切片机切成切片。优选仔细清洁切片机以去除或减少外来核酸分子或核酸降解物质污染的可能性。一个非限制性例子包括采用无危险的赛璐璐(zylol)替代物与3％次氯酸盐溶液来处理切片过程中联用的塑料器皿。

任选但优选用本领域已知方法使切片脱蜡，去除样品中的石蜡块。已知有各种脱蜡技术可采用任何适当技术来实施本发明。这种方法包括但不限于：用有机溶剂或试剂洗涤以溶解石蜡。合适溶剂的非限制性例子包括苯、甲苯、乙苯、二甲苯、D-柠檬油精、辛烷和它们的混合物。这些溶剂油优选高纯度，通常99％以上的纯度。

用有机溶剂或试剂洗涤去除石蜡，接着去除溶剂或试剂。所用有机溶剂体积和必须的洗涤次数取决于样品大小和待去除的石蜡量。可洗涤样品1次到大约10次，或约2-4次。对于10μm组织样品，有机溶剂典型体积是约500μL。也可采用其它脱蜡方法。

脱蜡后，样品优选再水合，如用递减浓度的低级醇水溶液逐步洗涤。乙醇是再水合的优选低级醇，虽然也可使用其它醇。非限制性例子包括甲醇、异丙醇和其它C1-C5醇。或者使样品与醇溶液剧烈混合，再去除醇溶液。在一个实施方案中，醇浓度逐步降低，在约3-5步骤中从约100％降到约70％，每步减少约10％或更少，如经过100％、95％、90％、80％、70％步骤。脱蜡和再水合也可用本领域已知的其它试剂进行。

经过或不经过脱蜡，任选染色切片以显现切片中的细胞，优选采用不引起RNA损失的方法。苏木精和曙红(H&E)染色可用于本发明的一些实施方案中，特别是随后采用任选的显微解剖步骤来分离1种或多种单一细胞时。染色也能用于评价切片以确定是否需要根据污染细胞的存在与否进行随后的显微解剖，优选不用污染细胞来提取RNA。当癌细胞中的基因表达时癌细胞样品中存在的过量浸润性免疫细胞是最感兴趣的需要使用显微解剖分离癌细胞情况的一个非限制性例子。。

组织切片的显微解剖可用任何适当方法进行。非限制性例子包括激光捕获显微解剖(LCM)或激光显微解剖(LMD)。分离细胞的好处是能够排除不相关的细胞类型，例如但不限于浸润性免疫细胞，以及排除其它来源和/或表型的细胞。显微解剖可有利地用于实施本发明实践，因为可从固定和包埋组织样品或切片中去污染的非疾病相关细胞(如浸润性淋巴细胞或其它免疫系统细胞)除以避免影响感兴趣细胞中基因表达的测定。这种污染的非限制性例子存在于活检组织被固定和随后用于制备切片时。实施本发明优选捕获约100-1000个或更多细胞，然而也可用较少的细胞。

未脱蜡的显微解剖样品可任选用上述方法去除石蜡。

如本文所示，切片和显微解剖都是抽提本发明所用细胞的RNA之前的任选步骤。本发明可采用各多种提取方法来实施，包括酸性硫氰酸胍/酚-氯仿抽提、蛋白酶K在不同温度下消化不同时间、基于寡dT的层析、硫氰酸胍裂解然后结合于玻璃珠或其它硅胶基质进行抽提(参见参考文献13-15)。然而，本发明也提供新的下述RNA提取方法。意外地发现此方法可提高从固定样品中提取RNA的量和数量。

本发明还提供任选的加热步骤，据信此步骤可去除核酸碱基通常由于甲醛固定而产生的修饰。然而，本发明不受此理论约束，提供的理论有助于理解本发明而不是限制本发明。理论上的修饰是以不同速度加入一个羟甲基(-CH₂OH)基团。此修饰的碱基改变了碱基配对能力，因此可能对本发明的任何一方面产生有害作用，例如在引发和核酸聚合反应，例如逆转录中，样品中的RNA分子可能与其它核酸发生杂交。

具体说本发明采用了较长的加热时间，但不会使RNA分子有害降解。加热优选在70或约70℃进行至少1小时，优选60分钟以上，例如120或180分钟，虽然也可采用多至8小时的时间。因此，加热时间可从60分钟以上到约75分钟、约90分钟、约105分钟、约120分钟、约135分钟、约150分钟、约165分钟、约180分钟、约4小时、约5小时、约6小时、约7小时或约8小时。最优选采用加热约3小时，例如150-210或165-195分钟。可在各种缓冲溶液中进行，例如但不限于10mM Tris-HCl，pH8.0或左右。也可采用相当的乙酸缓冲液。鉴于70℃加热60分钟时RNA发生降解和产量减少这种情况，意外地发现了可利用这种条件(参见Masuda等(6))。

本发明提供用聚或寡dT引物整体扩增固定样品中的细胞聚腺苷酸化RNA的方法。所用引物与mRNA分子的聚腺苷酸尾杂交而合成第一条cDNA链。这些链可较短约100-400个碱基，或可以较长，例如多至1-6千碱基。这反映了基于本领域所了解的令人惊讶的结果，即从固定样品提了的mRNA的聚腺苷酸尾大都降解而不能通过聚或寡dT引物逆转录(参见Lewis等(5))。各种以dT为基础的引发方法可用于本发明，其非限制性例子包括美国专利5,545,522、5,716,785和5,891,636所述的，其中进行第二条cDNA链合成不用外源性引物。优选的方法描述见出版的国际专利申请WO 02/052031(对应于2001年12月21日提交的PCT/US01/50340)采用随机引物来合成第二条cDNA链。

可利用cDNA直接分析基因表达，例如但不限于与标记的多核苷酸探针杂交或为了检测进行标记然后与与探针杂交。或用PCR技术扩增后，然后检测间接分析该cDNA。或者cDNA可用于体外转录，所用方式的描述见国际专利申请WO02/052031。简言之，第一条cDNA链包含启动子序列的单链或双链形式，通过与用于合成第一条cDNA链的聚dT或寡dT引物操作连接而引入。可用所述启动子起动转录所得的双链cDNA来产生mRNA转录物。这些转录物包含与聚腺苷酸化RNA互补的序列，用于产生cDNA。本发明的引物连接的启动子优选T7启动子，但其它非限制性例子包括T3和SP6启动子。

在另一个IVT实施方案中，启动子序列可通过操作连接于随机引物而引入，用于合成第二条cDNA链。可用所述启动子起动转录所得的双链cDNA来产生含聚腺苷酸化RNA序列的mRNA转录，用于产生cDNA。在上述二IVT实施方案之一中，通过与标记的多核苷酸探针杂交或为了检测进行标记，然后与探针杂交可直接分析转录(或扩增)的RNA。也可通过PCR技术扩增后间接分析转录的RNA，或转变成cDNA进行上述分析。后面的二种技术当然有赖于采用与cDNA末端序列互补的引物。

在一个具体的较佳实施方案中，采用一部分扩增的RNA来产生成偶联有荧光染料的标记cDNA，例如使用标记的核苷酸。用第二种相容的荧光染料标记参考品扩增的RNA。使等量的2种标记cDNA与一微阵列杂交，不同的核酸序列分别位于该微阵列的不同位置。杂交和洗涤后，扫描该微阵列并定量测定微阵列上各序列的杂交信号强度。标准化荧光强度后，表示为各扩增的RNA与参考品扩增的RNA的比值，代表各扩增的RNA序列的基因表达水平。或者，扩增的RNA在其产生时标记它们。任选将标记的扩增RNA片段化与探针杂交，例如但不限于与微阵列上固定的探针杂交。可直接标记RNA用于检测，如用荧光或放射性标记的核苷酸标记，或者间接标记，如用生物素酰化的核苷酸标记，它可通过荧光或放射性标记的链霉亲和物素检测。因此，对应于本发明扩增的RNA的DNA和RNA分子可用作探针。间接标记的另一种形式是使用丙烯胺使标记物如荧光染料偶联于核酸分子(示范例参见下面的实施例1)。

微阵列上的序列优选FFPE样品细胞中表达的不同基因序列的3’部分序列，用本发明方法分析。如技术人员所知，该3’部分最靠近聚腺苷酸化位点，因而最可能被逆转录，从而可在实施本发明所得了cDNA中找到。

有关不同序列表达水平的信息，例如但不限于上述荧光强度的比值，可通过技术人员偏爱的合适介质保存。在本发明的较佳实施方案中，可用磁或电子保存该信息，更优选以计算机可读形式保存。表达水平数据可作为原始数据或加工数据(例如但不限于标准化、修正，或以比值形式)或其组合保存。加工数据优选用原始表达水平形式，将其转变为样品各基因序列的表达值或表达指数。在较佳实施方案中，将该信息作为数据组和/或数据结构保存。一个非限制性例子是保存为含存储记录的表格。表格式保存方法可视作数据域，其保存的信息如受试者标识符(含有或没有受试者的FF或FFPE样品的不同序列表达水平的信息)和/或基因序列标识符。这些标识符也可用作各自领域的描述性名字。受试者标识符和基因序列标识符域都优选命名为主要“键”，用于专一性地鉴别一记录。本发明的表格式信息保存方法优选对某疾病或有害病况具有特异性可保存在计算机可读介质中。它们也可以是一种数据结构以支持本发明提供的专一性操作、“查寻”或应用功能。

在本发明的一具体较佳实施方案中，将基因表达水平信息与获得FF或FFPE样品的供体的其它信息组合。受试者优选病人，因而其它信息包括但不限于通常获得的与医学或临床治疗相关的信息。非限制性例子包括年龄、体重、身高、病史以及健康状况和/或症状或疾病种类或获得样品时的状态。又一个例子是获自病理学家对样品回顾的信息。后面的测试项目是与患有或怀疑患有疾病或其它有害病况的病人的相关性。此种额外的信息也可用上述表格式保存方法或用分开的保存方法保存。

当可得到时，其它信息也包括样品分离后病人诊断和护理的信息。一般，这种信息通常保持在患者的时间病史中记录了治疗和结果(包括疾病进一步发展、根除或减轻)以及医生的注释和/或观察。后者的非限制性例子包括病人的异常遗传组成病例、确定明确诊断或治疗进程的难处和/或异常疾病进展，尽管进行了治疗。这种额外信息的其它非限制性例子包括病人的诊断和/或预后、所用的治疗方法、病人和疾病对所述治疗的反应、所述治疗是否有副作用、受试者死亡的原因和年龄、所述病人和疾病的其它结局。在本发明的具体较佳实施方案中，将所用治疗方法和结果的信息与基因表达水平的信息相组合。

涉及结果的优选信息是随着时间推移收集的信息，包括但不限于关于疾病进一步发展、根除或减轻、治疗的成功或失败、患者治疗后的寿命的信息。此种额外信息也可用上述表格式保存方法或用分开的保存方法保存。或者，可与上述表格式保存方法相结合，通过引入接受对象(receiver object)中，接受对象与表格式保存方法组合使用。此种组合优选保存在同一介质中。

其它可能与基因表达水平相关的信息包括组织取样时受试者的信息。非限制性例子包括先前存在的疾病如自身免疫疾病、有害的病况如过度炎症和细菌、病毒或真菌感染。另外，可将收集样品分离后受试者的相同类型信息相关连。这种数据性质是前瞻性的，包括临床试验的信息作为非限制性例子。因此，实施本发明可采用与FF或FFPE样品分离时间相关的回顾性和前瞻性数据。或者，实施本发明可采用与RNA提取和cDNA制备时间相关的回顾性和前瞻性数据。

测定FF或FFPE样品中不同基因序列表达水平的这种能力，提供了使表达水平与疾病或病人结果的时间信息相关联的方法，因为FF或FFPE样品可用作与结局相关联的时间参考点。FF或FFPE样品保存时间长到足以与疾病或病人结间的时间信息相组合，因此可打入档案中，将基因表达与疾病进展和结局相关联。

本发明通过提供进入所保存的整体基因表达数据的通道“解开了”该挡案，这与以各基因序列分析为基础的其它各表达数据位(bits)相反。同时评估一个样品中多种基因序列表达水平的这种能力使得可将这些水平的数据汇编成数据结构用于随后的应用、分析和操作。

通常，汇编数据的方法是本领域已知的，但本发明提供了解FF或FFPE样品的基因表达数据与本文所述受试者或病人的其它信息相组合的方法。本发明提供的方法和所得组合部分提供了产生疾病的分子模型以及预测模型的能力，有助于诊断和治疗疾病。此种组合数据的产生和用途在下面作进一步描述。

应用或查询与结局相关的基因表达水平的“分布图”方法，包括对怀疑患有疾病受试者的诊断，全部或部分将获自受试者的样品的基因表达与本发明产生的1种或多种分布图图作比较。相同或类似的基因表达分布图图表明存在相同疾病。因此，该分布图可视作确诊疾病的一部分或作为区别性诊断排除其它疾病或有害病况的一种工具。该分布图也可用作确定具有相同或类似细胞基因表达分布图受试者1种或多种特征。这些特征包括本文所述不同结局以及尚待认识的特征。

该分布图也可用于确定受试者的治疗方法，利用上述所得诊断来确定治疗方法。另外，该分布图可包括有效治疗的指征，此指征以其样品用于产生该分布图的患者的治疗结果为基础。寻求或需要治疗的患者样品的相同或类似的基因表达分布图图表明，所用的治疗方法将对其样品用于产生该分布图的患者有效。

本发明的分布图也用于提供患病者的预后或咨询信息。疾病结局的信息与本发明的基因表达水平相关联后，可提供给组织样品具有相同或类似基因表达水平的患者。

RNA提取

可提取FFPE样品的细胞RNA，方法采用酸性硫氰酸胍/酚-氯仿、蛋白酶K消化、基于寡dT的层析、硫氰酸胍裂解硅胶为基础的介质结合来提取(参见参考文献13-15)。用蛋白酶K消化一般要有EDTA存在，常接着采用酚-氯仿提取步骤去除降解的蛋白质类物质和蛋白酶K，以分离RNA。本领域技术人员懂得，蛋白质类物质可通过无水酚相的存在与核酸，包括RNA分开，RNA则留在水相中。

本发明提供改进的RNA提取方法，包括使用蛋白酶K，接着的变性采用含胍盐的化合物，作为离液剂使污染的蛋白质类物质变性。然后与硅胶为基础的不结合污染蛋白质类物质的基质结合来分离RNA。这部分基于一个意外的发现，即含胍盐的使蛋的化合物白酶K变性从而将其去除来纯化RNA。然后，可用常规方法从硅胶基质中洗脱结合的RNA，用于后续操作。

含胍盐的化合物非限制性例子包括异硫氰酸胍(GITC或硫氰酸胍，GSCN)和盐酸胍。它们可与多种阴离子抗衡离子一起使用，合适的抗衡离子由技术人员选择。本发明所用胍盐溶液通常的浓度在约1-5M的范围内，优选约为4M；优选缓冲液的pH值为3-6，更优选pH4；合适的生化缓冲液如Tris-HCl。含胍盐的溶液可任选含有1种或多种RNA酶抑制剂。

也可采用其它具有含胍盐的化合物活性的离液剂，只要能从FFPE样品中纯化得到有效浓度的RNA，其量与用含胍盐的化合物相同。这种试剂的非限制性例子包括尿素、甲酰胺、碘化钾、硫氰酸钾和其等价物。

蛋白酶K处理优选在EDTA存在时进行，优选在约42℃或到60℃的温度进行至少8小时，优选至少16小时，更优选至少24小时。其它条件可以是适合RNA提取的任何条件。一个非限制性例子是10mM Tris-HCl，pH8.0或左右、2％SDS和100-500μg/ml蛋白酶K。

上述本发明的实施方案，其中用蛋白酶K处理样品的固定细胞以制备细胞裂解液，在对核酸物质进行进一步制备之前去除裂解物中的蛋白质类物质。除了使用上述酚或GITC去除蛋白质来物质的步骤外一个非限制性例子是使用能结合蛋白质类物质的阴离子、聚电解质物质和/或二价阳离子的水溶液。这种物质可以是颗粒性质和/或作为浆液应用，如购自Ambion的浆液。去除蛋白质类物质后，样品任选用DNA酶处理随后用于RNA扩增。如果采用任选的DNA酶，可在RNA扩增步骤前使用蛋白质类物质的去除和/或变性步骤。

基因表达水平数据的产生和用途

本发明方法获得约FF或FFPE样品的基因表达水平数据，优选将其组织在含有多个数据域的计算机可读介质的一个或多个数据域中。该数据优选以表达值或指数的形式与样品供者的其它数据相关联。可任选的数据域地将组织成一个或多个数据组和/或一个或多个数据结构。将数据域保存在所述计算机可读介质的可寻地址范围中，可处理成为代表FFPE样品的基因表达水平数据。

产生基因表达的数据优选利用与其阵列，如本文所述微阵列的杂交。含核酸探针的不同基因序列各自位于微阵列的明确位置上。优选将探针固定在微阵列上，代表不同基因或基因片段任选具有共同性。共同性的非限制性例子包括预期它们可在某给定细胞类型、组织或器官中表达；在某种疾病状态或有害病况中表达；具有类似的生物功能；或都是其特定生物体的表达基因。或者，实施本发明可采用能被某阵列，如获自Illumina的阵列分类栋选的物质。

已知有各种技术可用于制作微阵列，微阵列由各种密度安置的探针组成。非限制性例子包括每平方厘米中约10-500,000个探针(和基因序列)。这种微阵列的探针能与本文所述FF或FFPE样品产生的标记核酸分子杂交，。观察到的与各探针杂交的强度，反映了FF或FFPE样品中各序列的表达水平或数据。

通常对照样品获自已知来源和/或已知量的mRNA，测试样品获自本文所述FF或FFPE样品的mRNA。对照样品的一个非限制性例子是正常细胞，优选获自与测试样品所用的同一FF或FFPE样品，其含有非正常细胞。可用本文所述和本领域一般所用的显微解剖方法能分离正常和非正常细胞。

对照和/或测试样品与参比mRNA结合使用，例如用作微阵列实验之间对照的参比mRNA具有各种序列表达的1种或多种非零信号。非限制性例子包括购自Stratagene的人、大鼠和小鼠通用参比RNA。测试样品可获自患病病人或者曾用药物或其它制剂治疗者的FF或FFPE样品。样品也可以是对其特定治疗或给药方案有反应和无反应的肿瘤样品。这种差异样品中的基因表达水平也可彼此比较和与对照比较来评估，以鉴定与一个样品相关的而与其它样品不相关的基因表达水平。

优选在相同条件下进行各种样品的杂交，在具体的较佳实施方案中将对照和测试样品作不同标记与同一微阵列杂交。优选的标记是荧光，例如但不限于购自Amersham的红和绿(如Cy5和Cy3)单反应染料，用于直接或间接标记核酸分子。各杂交产生的数据，无论作为原始杂交信号强度或是操作后的数据，例如但不限于斑点渗滤、背景修正和/或标准化，可如上所述保存在计算机可读介质中。数据优选保存为测试样品强度与对照样品(参比RNA)强度的标准化比值，虽然其它形式的加工数据也可使用，包括调整样品中统计学变量的数据和原始表达水平数据，以产生表达值或指数。优选将数据载入数据域以促进结果分析，与获得FFPE样品的与其它受试者的信息相比较。其它数据如各样品上的数据、杂交条件和微阵列信息任选与上述数据一起保存。

杂交信号的强度优选通过微阵列读数器/分析仪测量。这通常用各种已知的硬件和软件组分进行，与杂交实验一起使用，微阵列读数器/分析仪可输出微阵列各位点或元件的原始或加工表达数据。数据可包括微阵列上各元件的荧光强度值。经加工的数据能确定各基因序列的表达或不表达，任选作为与对照相比的比值。任选地，任何表达水平可以多个位点的杂交数据为基础，这些位点具有对给定基因序列的相同或不同探针，如对某给定基因序列的多个探针。加工水平可在使用前取平均值。

可将基因表达数据与其它数据保存在相同或不同的文件中，其它数据例如但不限于微阵列上提供的基因序列的位置和身份、FF或FFPE供者信息、微阵列设计信息、生物信息、数据来源、FF或FFPE样品信息、实验样品的说明和其它实验数据及杂交信息。

表示为杂交信号强度(原始数据)或表达指数(如原始强度的比值)，的基因表达信息是“表达数据”，反映了FF或FFPE样品内各种基因序列的表达。表达数据可任选包括信息和一系列提醒以促进其它信息的进入，其它信息涉及实验数据、获得该数据的FF或FFPE样品、或获得该样品的受试者的信息。非限制性例子包括获得样品的受试者的结局数据，如受试者随着时间推移所经历的诊断、预后、治疗、对治疗的反应和/或实际结局。表达数据和提醒可以中贮存在计算机可读介质可寻址范围内的数据域形式。

含有表达数据的计算机可读介质可任选进一步包括“结果数据”对象(objet)，它起着信息中心单元的作用，不仅包含表达数据，也接受获得FF或FFPE样品因而获得表达数据的自受试者的结果数据。此结果数据也可认为是样品供者的表型数据，包括供者的年龄、人口统计和历史；病史；诊断史；所用的治疗和对治疗的反应；死亡率；疾病复发，包括复发时疾病形式的变化；及上述其它信息。可将该结果数据对象保存在可寻址范围内，与表达数据分开，或保存在也保存了提供表达数据的数据域的可寻地址范围内。当产生了结果数据对象时，留出位置保存受试者所经历结果的表型信息。这是一种不同于仅保存结果信息的数据库的方法，，因为该结果对象也包含了表达数据。它提供了以前没有的优点，因为该结果对象可用于使表达数据与表型数据/结果相关联，以鉴定与1种或多种表型结果相关的特定基因序列的表达。它也允许该对象从一个位置或来源送到另一个位置或来源同时含有相关的1种或多种结果的所有信息。这些优点使其应用更容易、速度更快而同时最大程度减少了失信息的可能性。

产生该结果数据对象后，不难接受用户或其它来源的各种表型和结果信息或数据。在一个较佳实施方案中，结果数据可经电子引入。可在任何时候更新一个结果数据对象的表达数据。这种更新必然产生更新的结果数据，任选能接受与该更新表达数据的来源相对应来源的结果数据。这种更新的表达数据可接替和取代先前的表达数据。

用户可将结果数据输入到结果数据对象中，以响应表达数据所显示的结果信息的提醒。可将结果信息以文本或数字形式保存在结果数据对象的适合接受和保存结果数据的数据域中。该结果数据对象也任选地允许用户输入另外信息，不限于结果信息。

收到结果数据后，可利用表达数据和结果数据使1种或多种基因序列与1种或多种结果相关联。换句话说，使表达数据(如各种基因序列的表达指数)与表型数据相关联，鉴定各个指数和基因序列与结果的相关性。可将表达指数排列在数据矩阵中，如显示各FF或FFPE样品的各基因序列的各个指数的表格中。然后用各样品的标识符使样品供者的表型数据与表达指数相关联。此关联方法也可描述为构建模型或表达分布图来解释各样品的表达指数与表型数据之间的相关性。本发明此方面可使用的两种综合模式方法是统计学模式和人工智能为基础的模式。前者的非限制性例子包括逻辑回归和分类树。可利用这些预测其特定表达指数是否能预示表型结局。后者的一个非限制性例子是神经网络。

模式的型建立可视作以表达指数和表型数据为基础的有监督的学习，，它们可用作构建模式或分布图的一种培训组。优选建立所得模式或分布图用于最大程度减少误差率，如通过增加置信/概率/可能性水平，在这些水平上的表达指数可定为预测性。这也可称为模式或分布图的最优化，它也能导致表达指数包括结果预测指数的实际数字减少。本发明提供从相同的表达数据和表型数据构建多种模式或分布图的能力，所有的数据可最优化，然后比较和进行选择用于可能的用途。

进行模式的构建和选择优选根据数据与待寻找的模式或分布图的相关性或重要性的认识通过应用域知识来包括或排除数据。作为一个非限制性例子，认识到基因序列“A”表达蛋白产物“a引物”，进而控制基因序列“B”的表达，将此认识与模式构建相关联以便有可能调整该模型，用于说明“B”表达的增加或减少对应于“A”表达相类似的增加或减少，而不是作为能与表达数据相关联的独立指数。域知识也称为对数据分析技术优选用于模式构建重要性的认识。作为一个非限制性例子，采用Person相关性(Person Product Moment Correlation)使基因表达指数与表型数据相关联，在许多情况中为线性关系。

可利用FF或FFPE样品的其它表达数据和表型数据验证选择后的模式或分布图。作为一个非限制性例子，如果在模式构建和选择中，基因序列“X”的表达减少与24个月内病人死亡相关，可根据其预测样品供者在24个月内死亡表型结局的能力，如果样品的基因序列“X”表达有相同减少而证实此模式。一旦得到证实，可认为与模式或分布图依据特定基因表达指数可预测不同的表型结局。当然，可利用引入现有培训组中的不同培训组或其它数据或者不同的选择标准或应用不同的域知识更新或改变该模式然后再予以验证。本发明产生的模式优选是单基因序列或2-5或5-10个基因序列的表达水平能预测表型结局的模式，虽然一个模式中也可采用10-20、20-30、30-40、40-50或大于50个基因序列。

在本发明的较佳实施方案中，表达数据包括患有相同疾病、有害病况或生物状态的。受试者的多个FF或FFPE样品的基因表达信息。表型或结局数据优选用于产生该表达数据的FF或FFPE样品的供者的1种或多种结局。

通过提供能促进对本发明理解而不是限制本发明范围的例子，待与表达数据相关联的结局可以是癌症对特定治疗方案的反应性，如乳癌对三苯氧胺的反应。该结局可以是三苯氧胺治疗开始后不同时间的疾病状态(患病或无病)。此结乙数据可用于使1种或多种基因序列的表达水平(增加或减少)与治疗开始后不同时间的三苯氧胺治疗成功或失败相关联。可利用此种相关性来鉴定1种或多种基因序列的表达水平(增加或减少)，确定具有这种表达水平的和受益或不受益于三苯氧胺治疗的患者人群。该人群也可视作患有对三苯氧胺敏感或耐药性的乳癌人群。

可利用这种相关性来鉴定亚群，如其基因序列表达水平与三苯氧胺长期或短期治疗成功相关的患者。这些亚群也可视作有不同预期(或计划)存活时间的患者人群。

另一个非限制性例子是使用50岁以上妇女的FFPE样品(切除的活检组织)的训练数据，这些妇女是ER(+)、淋巴节(-)、肿瘤小于2cm(最大尺寸处)。优选采用各组妇女的至少10个样品；更优选采用各组的至少15、至少20、至少25或至少50个样品。这些妇将经历手术并给予三苯氧胺5年。这些妇女的一个亚群将会疾病复发，另一个亚群不会。对疾病复发扫女性亚群构建模式(基因表达分布图)与不复发的妇女作比较，能够鉴定到其表达能预示这群病人中乳癌复发或不复发的基因序列。本发明可提供发生或不发生复发的病人亚群。

如有经验的医师所知，上面的例子性质上是示范性的，对其它药物或治疗方案的反应可能是本发明应用所关注的，治疗方案包括但不限于放射治疗或放射和化疗的组合。另外，本发明此方面不限于分析治疗结果。例如，与生存期望或转移发生的相关性也可通过应用本发明方法来实施。

因此，结果数据对象提供了一个包含的信息单元，用于分析和比较表达数据与结果数据。与该对象相类似的是其中可放置所有结果与表达相关性信息的文件夹或文件。该文件随后可从一处或位置运送到另一处，以分析其中的数据或引入另外的表达和/或结果数据。由于表达水平数据产生自本发明提供的FF或FFPE样品中非选择性聚腺苷酸化mRNA水平，该表达数据更完整并因此能更全面鉴定与结果相关联的基因序列的表达水平。

采用结果数据对象也打开了多种选择。如上所示，可利用该对象使基因表达水平与1种或多种结果相关联以确定某基因的“表达分布图”，包括与所述结果相关联的基因表达水平。该“表达分布图数据”代表了表达水平的范围，任选以杂交信号强度形式或其比值形式或其它与结果相关的表达指数形式。。表达分布图数据可任选包括信息和一系列的提醒以促进其它信息的进入，例如用于与表达分布图作比较的样品的表达水平，表达分布图可用作预测模式。表达分布图数据和提醒可以数据域形式保存于计算机可读介质的可寻址范围中。此种介质可与包含表达数据和结果数据对象的介质相同或不同。

本发明也提供含有表达分布图数据的计算机可读介质。它任选进一步包括“分布图数据”对象。该分布图数据对象作用是信息的中心单元，不仅含有表达分布图数据，也接受测试样品的表达数据。测试样品可以是结果已知的FFPE样品，用于测试验证该表达分布图数据鉴定结果的能力。另外，测试样品可以是患者或寻求治疗者的新鲜、冷冻、或最近的FF或FFPE组织样品，来预测受试者的结果，或通过与该表达分布图数据的比较提供不同治疗方法效果的信息。

作为一个非限制性例子，本发明提供鉴定图与乳癌不同阶段，如非典型导管增生(ADH)、原位导管癌(DCIS)和浸润性导管癌(IDC)相关联的基因表达分布图的方法。与肿瘤各阶段相关的表达分布图数据可以是乳癌分布图数据对象的一部分，该数据对象能接受患有或怀疑患有乳癌的病人测试样品的表达数据。比较测试样品的基因表达水平和该分布图能确定病人有没有上述乳癌阶段之一或其组合。可用本文所述的(整体)聚腺苷酸化mRNA扩增或用PCR基因序列扩增其表达与乳癌表达分布图相关的基因序列产生测试样品的表达数据。采用整体mRNA扩增能使所得测试样品的表达数据与其它表达分布图作比较和分析。

分布图数据对象可保存在可寻址范围内，与表达分布图数据分开，或保存在也保存了代表表达分布图数据的数据域中的可寻址范围内。。当产生了该分布图数据对象时，留出位置保存一个或多个测试样品的表达水平数据。表达水平数据优选接受到对象的适合这种接收并易与该表达分布图数据作比较的一个或多个数据域中。这提供了根据基因表达水平和与FF和/或FFPE样品挡案的相关性及与其相关的病史结局预测结局的能力。

产生分布图数据对象后，不难接受用户或其它来源的不同表达水平的信息或数据。在一个较佳实施方案中，测试样品的表达水平数据用电子引入直接来自微阵列读数器。分布图数据对象的表达分布图数据可在任何时候更新。这种更新必然产生更新的分布图数据对象，它可接替和取代先前的对象。由于表达分布图数据产生自反映本发明提供的非选择性聚腺苷酸化mRNA水平的表达水平数据，故该表达分布图数据是更完整更全面的。因此，发明能提供其表达水平与其结果相关的多种基因序列。本发明也使得一些亚组的表达分布图得到鉴定并与其它的结果相关联。

在本发明的另一个实施方案中，该表达分布图数据可采纳到空白表格软件程序中以回顾该分布图数据并任选地与测试样品的表达数据作比较和分析。优选采纳能分析表达数据，与分布图数据作比较的程序来确定与该表达数据相关的结果。可利用或开发其它分析模块(软件)来利用所采纳的分布图数据，使结果与测试样品相关联。

因此，本发明提供了一种在介质中，贮存了多个数据域、代表一种数据结构，如表达数据或表达分布图数据计算机可读介质，该介质含有提供(表达或表达分布图)数据的第一数据域，可将这些数据与输入(结果数据或测试样品表达数据)信息相关联或进行分析，所述第一数据域贮存在所述计算机可读介质的可寻址范围中；一个或多个接受项将接收所述输入信息，各接受项保存在所述计算机可读介质的不同寻址范围中，其中各接受项包含适合保存输入与所述第一数据域相关的或用于分析的信息的数据域。

在另一实施方案中，第一数据域保存在接受对象之一所用的可寻址范围中。此外，计算机可读介质可任选包括适于保存一个或多个提醒的提醒域，以引起输入信息进入，输入信息可以是获得FFPE样品用于产生所述表达数据的患者的结局信息。

本发明的一个较佳实施方案是含基因表达分布图的计算机可读介质，包括保存在该介质上的提供数据结构多个数据域，包括至少一个提供保存在可寻址范围中的表达分布图数据的数据域，和分布图数据接受对象，该接受对象可接收基因表达数据以与所述表达分布图数据相关联。该接受对象保存在不同的寻址范围中或保存在也保存了所述至少一个数据域的地址中。该介质可任选地包括适于保存一个或多个提醒提醒域中引起输入信息进入，输入信息可以是病人组织样品细胞的表达数据。

本发明还提供产生表达数据的系统和方法，用于包含在计算机可读介质中，该介质任选地包含接受对象，该接受对象接收与所述数据相关联的结果信息。本发明还提供使所述表达数据与所述结果信息相关联的系统和方法，从而1种或多种基因序列的表达水平可与所述结果相关联或相连系。此外，本发明提供产生与结果相关的基因表达分布图的系统和方法，包含在计算机可读介质中。介质任选地包含接受对象，以接收测试样品的表达数据，与所述基因表达分布图作比较和分析。也提供用于所述比较和分析的系统和方法。本发明的系统和方法优选用计算机执行、任选地保存为计算机可读介质上的计算机可执行指令。

如以下进一步所解释，本发明提供的数据结构或数据组，包括与接受对象所接收信息一起使用的数据。本发明的实施方案包括产生所述数据结构或数据组以及所述对象的方法。该数据结构或数据组优选直接或间接通过分析FF和/或FFPE样品的聚腺苷酸化mRNA中反映的基因表达而产生。产生基因表达数据是发明的初始作用段。该作用可包括产生输入信息的提醒以及产生接受对象来接收这种信息。本发明的一个关键特征是采用代表聚腺苷酸化mRNA水平的表达数据，结合接受对象作为中央贮藏室。

收到输入信息后，下一个作用段是使所述信息与表达数据中发现的1种或多种基因序列的表达水平相关联。关联结果可用作下一个作用段中其它数据结构或数据组的数据。数据结构或数据组包括基因表达分布图数据，与一个或多个其它接受对象所接收的信息一起使用。产生所述数据结构或数据组的方法也包括在本发明的实施方案中作为本发明另一作用来实施。该作用可包括产生输入信息的提醒以及产生接受对象来接收这种信息。本发明的一个关键特征是能够利用该表达分布图数据和测试样品的输入表达数据来预测获得样品受试者的结局。这种预测是根据FF和/或FFPE样品与取样后受试者的结局相关的表达数据(聚腺苷酸化mRNA水平)为基础。

向用户显示的提醒或提醒序列可以是适合指导所请求信息进入的任何提醒。涉及结果信息的非限制性例子所包括疾病或病况以及状况的提醒，状况可以是其亚类或阶段；所用的治疗方法；治疗结果；随着时间的疾病进程；取样后的存活时间(根据相关的死亡原因)；后发疾病(例如原发性癌之后的转移性癌)。涉及测试样品表达数据信息的非限制性例子所包括表达数据(原始、加工或标准化)；的提醒所用的微阵列和探针序列；怀疑的疾病或状况；样品类型和/或年龄。在一个实施方案中，这种提醒是向用户显示的文本域。一般，该提醒所请求的信息实际上仅受到与本文所述表达分布图任务的相关性限制。因此，这种提醒可能请求多种信息。

如本文所述，接受对象允许接受的信息作相对于保存为该对象一部分的表达数据或表达分布图数据的相关性分析。因此，接受对象包含了保存接受任何适当信息所需的数据域。该接受对象或者可以是适于进行本文所述相关性分析和/或其它比较功能的分析对象的一部分。另外，如果要使用分析模块，该接受对象可包含允许这种分析模块提取相关信息和分析或展示这种信息供用户分析的信息。进行分析优选采用适于分析所接受信息或者与表达数据或表达分析数据作比较的任何类型的分析模块。

在一个实施方案中，分析模块是一种适合的空白表格软件程序，它允许将所接受信息与所述数据相关联、分析和/或作其它比较。作为一个非限制性例子，所述数据可包括多个能鉴定请求用于该数据的特异性信息项目的提醒。各提醒可代表空白表格软件程序中的一行，可将接受自用户的各条信息项目置于该空白表格软件程序的一列中。一行可代表一特定结果，如疾病对其特定药物治疗的敏感性，而列代表用于产生待使用表达数据的各FFPE样品的结果信息，。此时的分析模块适合使结果信息与1种或多种基因序列表达水平相关联以构建本文所述的模式。

由于接受对象所接收的信息必须与该对象沟通，本发明的一些实施方案包括通过电子方式沟通信息的方法。这可通过任选地直接连接了电子装置(例如但不限于含结果信息的数据库或微阵列读数器/分析仪/图象处理器)的通信处理器进行，，电子装置包含待沟通的信息。

在本发明的另一个实施方案中，提供FF或FFPE表达信息处理系统。该系统优选用计算机执行包含数据域和数据结构及任选的本文所述对象。该系统也优选包含用于方法或过程的指令，加工获自微阵列杂交的表达数据并将它保存在本文所述计算机可读介质中。

本发明的又一个实施方案是一种计算机可读介质，它包含计算机保存表达数据，如微阵列杂交表达数据的指令。这些指令优选包括至少一个微阵列的表达信号强度所产生的表达数据，和保存至少一个含该数据的数据组或结构的指令。这些指令还任选地包括保存指令；保存原始或加工或标准化数据的指令；或用概括方法总结表达数据的指令。

本发明也提供一种系统来保存表达数据或表达分布图数据，包括一个或多个微阵列的杂交信号强度所产生的上述数据和/或保存所述产生的数据的方法。

用于实施本发明的优选表达数据获自患病或有害病况的受试者的FFPE样品，，这些受试者的细胞有异常或改变的基因表达(包括对感染的反应，如细菌、分枝杆菌和真菌的反应)。非限制性例子包括癌症、病毒感染、自身免疫疾病、关节炎、糖尿病和其它代谢疾病。

本文所用术语的定义

如本文所用，“序列”或“基因序列”是由各别序号的核苷酸碱基组成的核酸分子或多核苷酸，该术语包括编码分离产物的有序碱基(即“编码区”)，无论性质是RNA或是蛋白质，以及包括“编码区”之前或之后的有序碱基。后者的非限制性例子包括基因的5’和3’非翻译区。认为1种以上的多核苷酸能可编码一种分离的产物。也认为所示序列可能存在等位基因和多态性，可用于实施本发明来鉴定所示序列的表达水平或其等位基因或多态性。等位基因或多态性的鉴定部分取决于染色体位置和在有丝分裂期间重组的能力。

术语“使……相关”或“相关性”或其等价物指1种或多种序列的表达与细胞生理状态间的关联性，可用本文所述方法排除1种或多种其它状态。本发明提供基因序列表达水平变化和结果与获得FFPE样品的受试者所经历治疗之间的相关性。增加和减少易用非正常细胞与正常细胞中表达的比值形式表示，比值1(1)表明非正常细胞中的表达与正常细胞没有差异，而比值2(2)和二分之一分别表明多两倍和一半。正常和非正常细胞优选来自同一FFPE样品。表达水平不难通过下述定量方法测定。

“多核苷酸”是任何长度核苷酸的聚合形式，是通过磷酸二酯键相连的核糖核苷酸或脱氧核糖核苷酸，包括本文所述给定序列的正链和该给定序列的互补链。此术语仅指分子的一级结构。因此，此术语包括双和单链DNA和RNA以及其含非磷酸二酯主链的类似物。它也包括已知类型的修饰，包含本领域已知的标记、甲基化、“加帽”、用类似物取代一个或多个天然产生的核苷酸、核苷酸间修饰如不带电的连接键(例如硫代磷酸酯、二硫代磷酸酯等)以及该多核苷酸的非修饰形式。

术语“扩增”广义用于指用DNA或RNA聚合酶酶产生一扩增产物。如本文所用，“扩增”一般指产生多个拷贝的所需序列特别是样品的序列的过程。“扩增”也可用于DNA扩增，其中细胞基因组内的编码序列拷贝增加。“多拷贝”指至少2个拷贝。“拷贝”不一定指与模板序列互补或相同的完全序列。扩增mRNA的方法通常是本领域已知的，包括逆转录PCR(RT-PCR)和本文所述的那些方法。

对应的指一个核酸分子与另一个核酸分子共享有数量显著的序列相同性。数量显著指至少95％，通常至少98％更常至少99％相同，序列相同性可用BLAST算法测定，如Altschul等(1990)，J.Mol.Biol.215：403-410所述(用发表的默认设置，即参数w＝4，t＝17)。另外，RNA可通过本领域已知方法直接标记为对应的cDNA，。

“微阵列”是优选不连续区域的线性或二维阵列，各自具有在固相支持物表面形成的明确的区域，固相支持物例如但不限于玻璃、塑料或合成膜。一固相支持物表面待检测的固定多核苷酸的总数，确定了微阵列上不连续区域的密度，优选至少约50/cm²，更优选至少约100/cm²，甚至更加优选至少约500/cm²或至少约1，000/cm²。在一些实施方案中，这种阵列至少含有总共不到500个、约1000个、约1500个、约2000个、约2500上或约3000个固定的多核苷酸。如本文所用，DNA微阵列是安置在芯片或其它表面上的寡核苷酸或多核苷酸的阵列，用于杂交样品中扩增的或克隆的多核苷酸。由于各特定探针组在阵列中的位置是已知的，故样品多核苷酸的身份可根据它们与微阵列中特定位置的结合而确定。

由于本发明依赖序列的表达过量或不足的鉴定，本发明的一个实施方案包括通过样品中的mRNA或其扩增或克隆形式与已知序列的多核苷酸的杂交来测定表达。此类型的优选多核苷酸包含其它人类序列中没发现的某序列的至少约20个、至少约22、至少约24、至少约26、至少约28、至少约30、至少约32、至少约34、至少约36、至少约38、至少约40、至少约42、至少约44或至少约46个连续碱基。如前面句子子所用的术语“约”指比所述数值多一个或少一个。更长的多核苷酸当然可包含不影响与样品中核酸杂交的小量错配(例如通过存在的突变)。可标记这种多核苷酸以协助其检测；或者，可标记能与这种多核苷酸杂交的核酸。这种多核苷酸也可固定，如通过附着于固相支持物。

甚至更加优选的多核苷酸含有人类基因组其它序列中没有发现的某序列的。至少约50、至少约100、至少约150、至少约200、至少约250、至少约300、至少约350、至少约400、至少约450或至少约500个序列连续碱基。如前面句子中所用，术语“约”指比所述数值多或少10％。优选的这种序列见于所表达mRNA的聚腺苷酸尾上游紧靠3’端的部分。这种多核苷酸当然可包含不影响与样品中核酸杂交的小量错配。

在本发明的另一个实施方案中，可扩增和检测所有或部分的所示序列，方法如聚合酶链式反应(PCR)和其变体，例如但不限于定量PCR(QPCR)、逆转录PCR(RT-PCR)、实时PCR、任选的实时RT-PCR。这些方法采用与所示序列一些部分互补的1种或2种引物，其中引物用于引发核酸合成。任选地标记新合成的核酸，可直接检测或通过与本发明的多核苷酸杂交来检测。可使新合成的核酸在允许它们杂交的条件下接触本发明的多核苷酸。

术语“标记物”指能产生可检测信号表明标记分子存在的一种成分。适当的标记物包括放射性同位素、核苷酸生色团、酶、底物、荧光分子、化学发光分子、磁性粒子、生物发光分子等。因此，标记物是可通过光谱、光化学、生化、免疫化学、电学、光学或化学方法检测的可检测成分，。

“表达”和“基因表达”指核酸物质如本发明序列的转录，以及转录序列被翻译的可能性。基因表达的“水平”指表达量，表达量与对照或正常表达水平相比可增加或减少。虽然这种增加或减少不难通过mRNA产生的相对水平来测定，但减少也可通过显示表达降低的序列的启动子状态测定(如甲基化或其它失活类型)。

如本文所用，术语“包括”和其同源词以它们所含意义使用，即等同于术语“包含”和其对应的同源词。

“允许”某事件发生的条件，或“适合”某事件如杂交、链延伸等发生的条件，或“适当”的条件是不阻止这类事件发生的条件。因此，这些条件可允许、提高、促进和/或有助于该事件的发生。本领域已知的和本文所述的这种条件取决于，例如核苷酸序列的性质、温度和缓冲液条件。这些条件也取决于需要何种事件，如杂交、切割、链延伸或转录。

如本文所用，序列“突变”指本文所述感兴趣基因的序列与参比序列相比较的任何序列变化。序列突变包括由于例如取代、缺失或插入等机。所致的单个核苷酸的变化或序列中一个以上核苷酸的改变。单个核苷酸多态性(SNP)也是本文所用的一种序列突变。由于本发明根据的是序列表达的增加和减少，因此也可在实施本发明中测定基因编码和非编码区的突变。

“检测”或“探测”包括任何检测方法，直接和间接检测基因表达和其变化。例如，可以直接或间接观察到“可检测到较少”的表达。该术语表示任何减少(包括缺乏可检测信号)。类似的，“可检测到更多”产物指任何增加，无论是直接或是间接观察到的。

寡dT和聚dT序列或引物指存在于多核苷酸中的至少约8个连续dT碱基。优选约8-20、约21或约30个连续dT碱基。也可采用约30个以上的连续dT碱基。

随机引物指采用随机序列的至少约6个连续碱基作为合成核酸链的引物。引物优选具有6、7、8、9或10个连续碱基。技术人员知道太短的引物不能与模板链稳定杂交而引发多核苷酸聚合。太长的引物可能不能充分迅速扩散以引发足够数量的互补序列合成。

“疾病”指活生物体或其组织或器官正常状态发生的损害该生物体生理功能行为的变化。疾病可能因接触环境因素(例如但不限于化学制剂或放射线)和感染因子(例如但不限于细菌、病毒或寄生虫)，生物体先天性缺陷(例如但不限于遗传突变，可与环境因素联合或在生物体生命的不同时间出现)所致。疾病也可能是由于上述因素的联合作用以及描述为一组相关疾病。后者的一个非限制性例子是所用的术语“乳癌”，指乳房组织中的一组癌症疾病以及一组乳癌亚类疫病。

除非另有定义，本文所用全部技术和科学术语与本发明所属领域普通技术人员通常理解的意义相同。除非另有说明，实施本发明将采用本领域技术范围内的分子生物学(包括重组技术)、微生物学、细胞生物学、生化和免疫学的常规技术。这类技术在文献中有充分说明，如《分子克隆：实验室手册》(Molecular Cloning：A Laboratory Manual)，第2版(Sambrook等，1989)；《寡核苷酸合成》(Oligonucleotide Synthesisi)(M.J.Gait编，1984)；《动物细胞培养》(AnimalCell Culture)(R.I.Freshney编，1987)；《酶学方法》(Methods in Enzymology)(Academic Press，Inc.)；《分子生物学当前操作》(Current Protocols inMolecular Biology)(F.M.Ausubel等编，1987，定期更新)；《PCR：聚合酶链式反应》(PCR：The Polymerase Chain Reaction)(Mullis等编，1994)。本发明所用的引物、寡核苷酸合和多核苷酸可用本领域已知的标准技术产生。

现已总体上描述了本发明，通过参考以下实施例不难理解本发明的内容，阐述这些实施例不意味着限制本发明，除非有说明。

实施例1

所选的材料和方法

提取RNA前的蛋白酶K消化

将5-10μm厚的福尔马林固定石蜡包埋(FFPE)的组织切片置于磨砂载玻片上，经历脱蜡、H&E染色和脱水。制备完整切片的或用PixCell II系统(Arcturus，Mountain View，CA)获得的约3000到5000个激光捕获细胞的，组织裂解，用含有10mM Tris-HCl，pH8.0、RNA-级的蛋白酶K(100或500μg/ml，Invitrogen，Carlsbad，CA)、2％SDS(Invitrogen，Carlsbad，CA)的溶液42℃处理至少16小时。

逆转录：

为产生用于单独定量RT-PCR分析或RNA扩增的cDNA，将获自样品的去修饰RNA用寡dT或随机引物逆转录，反应液含50mM Tris-HCl、37.5mM KCl、1.5mM MgCl₂、10mM DTT、0.5mM dNTP(Pharmacia，Piscataway，NJ)、40单位的RNA酶抑制剂(Promega，Madison，WI)、200单位的Superscript RT II(Invitrogen，Carlsbad，CA)。

RNA扩增的简要示范例：

线性扩增各RNA制品的mRNA组分，采用改良版本的RiboAmp^TMRNA扩增试剂盒(Arcturus，Mountain View，CA)。简言，各样品的RNA用20纳克含T7启动子序列的寡dT引物引发，逆转录，然后用随机引物转变成双链cDNA。然后该cDNA用途模板在体外转录反应，中用T7RNA聚合酶产生反义方向的扩增RNA(aRNA)(其序列与用作cDNA合成模板的mRNA序列互补)。进行第二轮扩增产生更多的aRNA，随后用此aRNA作为模板制备荧光标记的cDNA探针用于杂交。

探针标记和微阵列杂交：

各样品的一部分扩增RNA用于cDNA标记反应，采用5-(3-氨基烯丙基)-2’-脱氧尿苷-5’-三磷酸(氨基烯丙基-dUTP)，和Fair Play试剂盒(Stratagene，LaJolla，CA)。将Cy3或Cy5单反应染料(Amersham，Piscataway，NJ)偶联于纯化的cDNA上，用QiaQuick PCR纯化柱(Qiagen，Valencia，CA)进一步纯化。为制备荧光标记的cDNA，Cy5染料用于标记各测试样品的aRNA，Cy3染料用于标记参比aRNA(通用的人参比RNA，Stratagene，La Jolla，CA)。将等量的纯化Cy5-标记的测试样品cDNA与Cy3-标记的参比cDNA与微阵列共杂交，40μl杂交溶液(5XSSC、0.1μg/μl COT-1DNA、0.2％SDS、50％甲酰胺)中包含多至22,000个特征，以25ng/μl的探针浓度在42℃进行17小时，湿度大于60％。

获得表达数据：

杂交后，洗涤微阵列载玻片，扫描并定量测定杂交信号强度。斑点过滤/背景修正和标准化后，将Cy5和Cy3荧光强度表示为Cy5/Cy3的标准化比值，代表测试样品相对于通用参比RNA的基因表达水平。

实施例2

FFPE样品中的RNA稳定性和其扩增

5μm组织切片用福尔马林固定1、4或8天，随后石蜡包埋。给切片脱蜡，用分级乙醇再水合，然后用500μg/ml蛋白酶K在10mM Tris-HCl pH8.0；2％SDS中42℃处理4小时。

冷冻组织样品用蛋白酶K类似消化作比较。

图1显示RNA凝胶电泳的结果，表明福尔马林固定组织的RNA在福尔马林固定1到8天的组织中保持完整。样品一式二份跑电泳。“M”表示RNA标记物泳道。

图2A显示固定1、4或8天的组织样品以及新鲜冷冻组织样品的RNA扩增结果。样品用蛋白酶K消化，接着用含GITC的溶液提取并在硅胶柱上纯化。如上所述扩增RNA。泳道1-7分别含有RNA标记物、第一天的FFPE、第一天的FFPE、第4天的FFPE、第8天的FFPE、第8天的FFPE和0小时/新鲜冷冻样品。

图2B显示固定4天的组织样品的RNA扩增结果在6个泳道中的分析。第一泳道含RNA标记物。

实施例3

档案乳腺癌FFPE样品的RNA扩增

保存约1到2年的档案FFPE乳腺核心活检组织如上面实施例2所述进行处理。下表1小结了样品和其扩增的RNA产量。结果示于图3A，其中M表示RNA标记物。

表1

泳道	年份	aRNA产量(μg)
泳道	年份	aRNA产量(μg)	1	2002	70.4(不起作用)
2	2002	90.2	1	2002	70.4(不起作用)
2	2002	90.2	3	2002	98.4
4	2002	110.0	3	2002	98.4
4	2002	110.0	5	2002	93.7
6	2001	100.0	5	2002	93.7
6	2001	100.0	7	2001	90.2
8	2002	85.5	7	2001	90.2
8	2002	85.5	9	2002	87.9
10	2002	117.0	9	2002	87.9

图3B显示保存6年的4个档案FFPE乳腺核心活检组织的RNA扩增结果。样品作一式二份分析。下表2小结了样品和其扩增的RNA产量。“DCIS”指原位导管癌；“IDC”指浸润性导管癌。

表2

样品	细胞性质	ARNA产量(μg)
样品	细胞性质	ARNA产量(μg)	1	30％DCIS	106
2	同上	88	1	30％DCIS	106
2	同上	88	3	20％DCIS	90
4	同上	131	3	20％DCIS	90
4	同上	131	5	40％IDC	105
6	同上	121	5	40％IDC	105
6	同上	121	7	50％IDC	117
8	同上	127	7	50％IDC	117

实施例4

档案膀胱癌FFPE样品的RNA扩增

保存约1到4年的档案FFPE人膀胱样品如上面实施例2所述进行处理。下表3小结了样品和其扩增的RNA产量。T1、Ta、HG、LG和CIS分别指表面浸润、原位乳突、高等级、低等级和原位平癌瘤(flat carcinoma in situ)。

结果示于图4，其中M表示RNA标记物。泳道1、4和15显示亚适条件扩增的结果。

表3

泳道	最晚期病灶	分析时的切块年龄(Block age)(天数)	aRNA产量(μg)
泳道	最晚期病灶	分析时的切块年龄(Block age)(天数)	aRNA产量(μg)	1	T1	1650	74.64
2	Ta(LG)	1639	102.62	1	T1	1650	74.64
2	Ta(LG)	1639	102.62	3	Ta(HG)	1602	93.79
4	T1	1582	68.88	3	Ta(HG)	1602	93.79
4	T1	1582	68.88	5	Ta(HG)	1181	112.13
6	T1	1126	85.73	5	Ta(HG)	1181	112.13
6	T1	1126	85.73	7	Ta(HG)	921	110.3
8	CIS	921	99.98	7	Ta(HG)	921	110.3
8	CIS	921	99.98	9	T1	892	89.42
10	Ta(HG)	738	91.25	9	T1	892	89.42
10	Ta(HG)	738	91.25	11	CIS	541	82.42
12	CIS	402	87.41	11	CIS	541	82.42
12	CIS	402	87.41	13	T1	345	94.56
14	CIS	147	84.19	13	T1	345	94.56
14	CIS	147	84.19	15	T1	133	80.3
16	T1	112	78.91	15	T1	133	80.3

实施例5

FFPE样品中基因表达的一致性

将病人的FFPE样品用于2次独立的激光捕获显微解剖(LCM)，然后如实施例2所述分别进行mRNA扩增。用扩增的RNA产生用于微阵列杂交的标记cDNA，该微阵列含17296个寡核苷酸基因序列探针.2次独立实验的各探针杂交信号强度(log)散点图(scatter-plot)见图5。仅148个基因(总数的0.8％)显示在一式二份杂之交间的变化超过2倍变差。总相关系数是0.96。

实施例6

比较FFPE和冷冻样品中的基因表达

将同一病人活检组织的FFPE和冷冻样品切片，用于实施例2所述的mRNA扩增，不用激光捕获显微解剖。用扩增的RNA产生用于微阵列杂交的标记cDNA。FFPE和冷冻样品的微阵列各探针序列的杂交信号强度(log)散点图见图6。总相关系数是0.912。

用扩增自福尔马林中固定1、4或8天石蜡包埋切片的RNA进行类似实验，显示了基因表达模式相似的重复性。这种样品之间强度的相关性见表4。

表4

	福尔马林固定1天	福尔马林固定4天
	福尔马林固定1天	福尔马林固定4天	福尔马林固定4天	r＝0.9212
福尔马林固定8天	r＝0.9328	r＝0.9384	福尔马林固定4天	r＝0.9212

实施例7

FFPE样品中的RNA去修饰

采用福尔马林固定4或8天，然后石蜡包埋的FFPE样品，作RNA提取，接着70℃去修饰不同时间。然后用RT-PCR扩增这些样品，所用引物可扩增β肌动蛋白mRNA聚腺苷酸位点上游的约110个碱基。扩增的相对产量见图7，其中3-8小时的去修饰时间得到良好产量。

这些样品也通过RT-PCR扩增，所用引物可扩增β肌动蛋白mRNA聚腺苷酸位点上游的约1000个碱基。扩增的相对产量见图8，其中3-8小时的去修饰时间得到良好产量。

采用包埋前福尔马林固定1天的FFPE样品观察到类似结果。

实施例8

RNA扩增技术的比较

采用福尔马林固定24小时然后石蜡包埋组织的RNA制备总RNA用于实施例2所述扩增。将总RNA转变成双链cDNA(在第一轮中)，使用寡dT-T7引物，通过外源提供的随机引物产生第二条cDNA链，或用“内源性引发”产生第二条cDNA链，不用随机引物。产物cDNA用于(“第一轮”)体外转录(IVT)以产生扩增的RNA，用于在第二轮中产生cDNA，所用方法与第一轮相同。所得cDNA用于第二轮IVT，其中将生物素掺入到扩增的RNA产物中以产生aRNA探针，用作微阵列上的探针靶。

杂交前，使10-20生物素酰化的aRNA片段化片段化，所用缓冲液含20mM Tris-乙酸，pH8.1、50mM KOAc、15mM MgOAc，将缓冲液加热至95℃30分钟，然后冷却。随后纯化片段化的aRNA并以0.05μg/μl的浓度与微阵列45℃杂交16小时，所用缓冲液含100mM MES、1M[Na+]、20mM EDTA、0.01％土温-20、0.1mg/ml鲱精DNA、0.5mg/ml乙酰化BSA。所得散点图见图9，显示了微阵列探针位置上的信号强度。X轴没用随机引物，Y轴用了随机引物。相关系数r是0.9173787，表明2种方法都能扩增FFPE样品的RNA用于本发明。

参考文献

1.Beer等，Gene Expression profiles predict survival of patients with lungadenocarcinoma.，Nat.Med.，8，816-824，2002.

2.Wigle等，Molecular Profiling of Non-Small Lung Cancer and Correlation withDisease-free Survival.Cancer Res.，62，3005-3008，2002.

3.Emmert-Buck等，Laser Capture Microdissection.Science，274，998-1001，1996.

4.Karsten等，An evaluation of tyramide signal amplification and archived fixed andfrozen tissue in microarray gene expression analysis.Nucleic Acid Research，30，E4，2002

5.Lewis等，Unlocking the archive-gene expression in paraffin-embedded tissue.J.Pathology，195，66-71，2001

6.Lehmann等，Real-time PCR analysis of DNA and RNA extracted from formalin-fixed and paraffin-embedded biopsies.Methods，25，409-418，2001

7.Feldman，Reaction of formaldehyde with nucleotides and ribonucleic acid，Biochimica Et Biophysica Acta，149，20-34，1967

8.Specht等，Quantitative gene expression analysis in microdissected archivalformalin-fixed and paraffin-embedded tumor tissue.American J.Pathology，158，419-429，2001

9.Cohen等，Laser microdissection and gene expression analysis on formaldehyde-fixed archival tissue.Kidney International，61，125-132，2002.

10.Masuda等，Analysis of chemical modification of RNA from formalin-fixedsamples and optimization of molecular biology applications for such samples.NucleicAcid Research，27，4436-4443，1999.

11.Danenverg等，USP 6,428,963.

12.Wang等，USP 5,672,696.

13.Chomczynshi等，Single-step method of RNA isolatin by acid guanidiniumthiocyanate-phenol-chloroform extraction.Anal.biochem.162，156-159，1987.

14.Houze等，Sonification as a means of enhancing the detection of gene expressionlevels from formalin-fixed，paraffin-embedded biopsies.Biotechniques 21，1074-1082，1996.

15.Su等，High-throughput RT-PCR analysis of multiple transcripts using amicroplate RNA isolation procedure.Biotechniques 6，1107-1113，1997.

16.Crino等，Embryonic neuronal markers in tuberous sclerosis：single-cellmolecular pathology.Proc.Natl.Acad.Sci.，USA 93，14152-14157，1996.

本文引用的所有文献的内容纳入本文供参考，无论以前是否已特定纳入过。如本文所用，术语“一个”、“一种”和“任何”各自都包括单数和复数形式。

现已充分描述了本发明，本领域技术人员懂得可在广泛范围的同等参数、浓度和条件内进行本发明，而不背离本发明的精神和范围无需过多实验。虽然已结合具体实施方案描述了本发明，将会理解可对本发明进一步修改。此专利申请涵盖遵循于发明原理，包括那些脱离本说明书的对本发明作的任何变化、应用或改编，如在本发明所属领域内已知的或常规实践的范围中和可应用于上文所列的基本特征。

Claims

1.一种合成FFPE样品细胞的聚腺苷酸化RNA的cDNA的方法，其特征在于，该方法包括

a)提取所述细胞中的所述RNA；

b)在能导致合成与所述提取的RNA互补的第一条cDNA链的条件下使所述提取的RNA接触含寡dT序列的引物。

2.如权利要求1所述的方法，其特征在于，该方法还包括约70℃加热提取自所述细胞的所述RNA，然后使所述RNA接触所述引物。

3.如权利要求1所述的方法，其特征在于，从所述细胞提取RNA包括从所述样品获得所述细胞；

用蛋白酶K消化所述细胞产生成消化物质；

使该消化物质接触含胍盐的化合物产生混合物；

使该混合物接触硅胶基质使RNA结合该基质；去除未结合物质后洗脱得到结合的RNA。

4.如权利要求2或3所述的方法，其特征在于，所述加热约3-8小时。

5.如权利要求4所述的方法，其特征在于，所述加热约3小时。

6.如权利要求1所述的方法，其特征在于，该方法还包括用随机引物合成第二条cDNA链。

7.如权利要求1所述的方法，其特征在于，该方法还包括不用随机引物合成第二条cDNA链。

8.如上述任一项权利要求所述的方法，其特征在于，所述引物可操作性连接于启动子序列。

9.如权利要求6所述的方法，其特征在于，所述随机引物是六聚体、七聚体、八聚体或九聚体。

10.如权利要求2所述的方法，其特征在于，提取所述细胞的RNA包括

从所述样品获得所述细胞；

用蛋白酶K消化所述细胞主生消化物质；

使该消化物质接触含胍盐的化合物产生混合物；

使该混合物接触硅胶基质使RNA结合该基质；

去除未结合物质后洗脱得到结合的RNA。

11.如权利要求10所述的方法，其特征在于，所述加热约3到约-8小时。

12.如权利要求11所述的方法，其特征在于，所述加热约3小时。

13.一种诊断病人的方法，其特征在于，该方法包括：

获得所述病人的一个或多个细胞的基因表达数据，

将所述数据与一个或多个FFPE样品的基因表达数据所产生的基因表达分布图作比较，

诊断所述病人患有所述基因表达分布图图所确定的疾病。

14.如权利要求13所述的方法，其特征在于，所述基因表达分布图通过扩增所述FFPE样品的聚腺苷酸化mRNA而产生。

15.一种含有表现为数据结构的基因表达分布图的计算机可读介质，其特征在于，所述介质具有贮存在该介质中的多数数据域，并包括：

表现为待分析基因表达分布图数据的第一数据域，所述第一数据域贮存在所述计算机可读介质的可寻址范围中；

一个或多个接受对象，这种接受对象会接收测试样品的表达数据以用所述基因表达分布图数据分析，各接受对象保存在所述计算机可读介质的不同可寻址范围中，

其中各接受对象包含适合于保存输入信息的数据域，用于与所述第一数据域相关联或分析。

16.如权利要求15所述的介质，其中所述第一数据域保存在所述一个或多个接受对象之一所使用的可寻址范围中。

17.如权利要求15所述的介质，其中所述介质还包括提醒域，该提醒域适合于保存一个或多个数据提醒以引起测试样品表达数据进入。

18.如权利要求15所述的介质，其中所述测试样品的表达数据获自病人样品所含的组织细胞。

19.如权利要求15所述的介质，其中所述基因表达分布图数据得自扩增，一个或多个FFPE样品中的聚腺苷酸化mRNA。

20.一种使FFPE样品的基因表达数据与获得所述样品的受试者所经历疾病或治疗结局相关联的系统，其特征在于，该系统包括

通过扩增所述FFPE样品的聚腺苷酸化mRNA产生所述基因表达数据的方法，；

鉴定与所述受试者所经历的至少1种疾病或治疗结局相关联的1种或多种基因表达水平的方法。