CN107709636A

CN107709636A - 用于诊断或检测肺癌的方法和组合物

Info

Publication number: CN107709636A
Application number: CN201680035039.4A
Authority: CN
Inventors: L·C·肖维; M·K·肖维; A·V·科森科夫
Original assignee: Study On Anatomy And Biology Of Wistar
Current assignee: Study On Anatomy And Biology Of Wistar; Wistar Institute of Anatomy and Biology
Priority date: 2015-05-19
Filing date: 2016-05-19
Publication date: 2018-02-16
Also published as: EP3298182A4; IL255659A; BR112017024688A2; US20180142303A1; CA2985683A1; KR20180009762A; JP2018524972A; EP3298182A1; AU2016263590A1; MX2017014859A; US20200131586A1; WO2016187404A1; RU2017143008A; SG10201910412QA; RU2017143008A3

Abstract

一种用于诊断肺癌或肺病的多分析物组合物包含：配体，所述配体选自能够与来自哺乳动物血液样本的mRNA基因转录物特异性复合、与所述转录物杂交或鉴别所述转录物的核酸序列、多核苷酸或寡核苷酸；和另外的配体，所述另外的配体选自能够与来自哺乳动物血液样本的基因的miRNA特异性复合、与所述miRNA杂交或鉴别所述miRNA的核酸序列、多核苷酸或寡核苷酸。每种配体和另外的配体与不同的基因转录物或miRNA结合且所鉴别的所述基因转录物和miRNA形成肺癌或肺病的分期的特征谱。描述了使用该组合物进行诊断和评估的方法以及开发此类组合物的方法。

Description

用于诊断或检测肺癌的方法和组合物

以电子形式提交的材料通过引用并入

申请人在此将通过引用并入以电子形式随本文一起提交的序列表材料。该文件标记为“WST155PCT_ST25.txt”，2016年5月19日创建，且为43KB。

政府权益声明

本发明是在美国国家卫生研究院(National Institutes of Health)授予的资助号P30CA010815号下由政府支持完成的。政府对本发明享有某些权利。

发明背景

肺癌是世界范围内最常见的癌症死亡原因，每年约有22万新诊断出的病例，或者占所有癌症诊断的约13％。所有癌症死亡中超过27％是由于肺癌，每年有约15万人死亡。目前的诊断率是晚期，即大于70％的诊断是III期及以上，且仅15％的这种肺癌是在较早的可治疗期(即，I期或IIA期)被诊断出来。肺癌生存率的五年生存率总体上为约18％，相比之下，在疾病早期诊断的5年生存率大于50％。

非小细胞肺癌(NSCLC)是一种高度致命的疾病，只能通过早期检测接着手术才可能治愈。不幸的是，在诊断时，只有15％的肺癌患者具有局部疾病。肺上皮在暴露于香烟烟雾后被诱变的区域致癌化(field cancerization)使得难以鉴别区分吸烟者与具有早期肺癌的吸烟者的基因变化。在改善肺癌生存率方面最重要的长期目标之一是实现患者、主要吸烟者和曾吸烟者的恶性肿瘤的早期检测，这些患者代表所有肺癌病例的大部分，同时他们仍然是可以手术切除的。目前，区分良性结节和恶性结节的唯一方法是侵入式活检、手术或利用反复扫描的长时间观察。早期诊断的方法包括以下过程，诸如CT扫描、支气管刷检以及用于疾病生物标志物的痰液、血浆和血液的分析。

实现基因诊断目标的一种已经确立并验证过的方法已经使用来自肿瘤组织的微阵列标签。可使用外周血单核细胞(PBMC)谱来诊断并分类包括癌症的全身性疾病，并监测治疗反应。在患有癌症的患者中使用PBMC基因表达谱的有效性先前已经在使用微阵列以比较与正常对照相比来自晚期肾细胞癌患者的PBMC中报道过。已经开发了一种37基因分类器(gene classifier)，用于以82％的准确度从外周血样本中检测早期乳腺癌。另一项研究鉴别在结直肠癌患者的PBMC中的基因表达谱，这些基因表达谱可能与对治疗的反应相关。本发明人还确定了用于患者PBMC中疾病的29基因分类器(参见，例如美国专利号8,476,420，通过引用并入到本文中)。

微小RNA(miRNA)是从昆虫、微生物、人、动物和植物中分离并鉴别的一大组非编码核糖核酸序列，其报道在包括The Wellcome Trust Sanger Institute(http://miRNA.sanger.ac.uk/sequences/)的数据库的数据库中。这些miRNA长约22个核苷酸且由较长的前体产生，这些前体自非蛋白质编码基因转录。前体形成在自我互补区自身折叠的结构。对miRNA的功能作用且甚至其靶标都相对知之甚少。据信，miRNA分子通过与其靶标精确或不精确地碱基配对来中断或抑制基因翻译(美国公开专利申请号2004/0175732)。生物信息学分析提出，任何给定的miRNA都可以结合并改变多达数百个不同基因的表达；并且单一基因可受数种miRNA调控。已经注意到在miRNA和靶标基因之间的复杂相互作用调控网络使得难以准确地预测哪些基因将实际上响应于给定的miRNA而被不适当地调控。某些miRNA的表达水平与各种癌症相关联(Esquela-Kerscher和Slack,2006Nat.Rev.Cancer,6(4):259-269；McManus 2003Seminars in Cancer Biology,13:253-258；Karube Y等2005Cancer Sci,96(2):111-5；Yanaihara N.等2006Cancer Cell,9(3):189-98)。

本发明人先前在2009年11月6日提交的国际专利申请公布号WO2010/054233中公开了一种诊断试剂或试剂盒，该诊断试剂或试剂盒包含能够与miRNA且特别是miRNA谱特异性复合、与其杂交或鉴别miRNA且特别是miRNA谱的配体，该miRNA谱包含hsa-miR-148a、hsa-miR-142-5p、hsa-miR-221、hsa-miR-let-7d、hsa-miR-let-7a、hsa-miR-328、hsa-miR-let-7c、hsa-miR-34a、hsa-miR-202、hsa-miR-769-5p、hsa-miR-642的各种组合。这些试剂和试剂盒可用于诊断或检测哺乳动物受试者中的肺癌的方法，这些方法通过鉴别受试者的全血或外周血单核细胞中的这些miRNA的miRNA表达水平或谱来进行。

本领域仍然需要新型且有效的工具来促进各种肺癌和其它肺病的早期诊断。

发明概述

一方面，提供了用于诊断或评估疑似具有肺癌或肺病的哺乳动物受试者的多分析物组合物。该组合物是试剂或试剂盒，并且包含允许鉴别哺乳动物生物样本中的某些mRNA(基因转录物)和非编码miRNA的表达的变化的配体。这些选定的编码序列和非编码序列的组合变化允许鉴别响应于肺癌或肺病的存在、分期或进展而改变的序列的谱或分类。

在一个实施方案中，配体是与下表1中提供的某些mRNA和miRNA结合的探针。

另一方面，提供了使用多分析物组合物来诊断肺癌或肺病的存在、分期或进展的方法。

在又一方面，提供了用于开发能够诊断肺癌、肺病或其分期或亚型的特征性肺癌分类或组合mRNA和miRNA谱的方法。

另一方面，提供了用于增加用于区分肺癌受试者和良性结节受试者的测定的灵敏度和特异性的方法。

另一方面，提供了用于诊断或评估疑似具有肺癌或肺病的哺乳动物受试者的多分析物组合物，该多分析物组合物是试剂或试剂盒，并且包含允许鉴别哺乳动物生物样本中的某些mRNA靶标(基因转录物)的表达的变化的配体。mRNA靶标是选自本文表1、表2和表3的多个靶标。

这些组合物和方法的其它方面和优点在下面对其优选实施方案的详细描述中进一步描述。

附图简述

图1是示出大小渐增的训练集的误差率的评估的曲线图。幂函数曲线通过从整体数据中选择不同的训练集大小进行拟合。MAD：50次重复采样的中位数绝对偏差。幂曲线是在我们对方法中描述的样本的初步研究中产生的。幂函数通过从总体数据中选择不同的训练集大小并将其相对于该数据的分类的相应误差率绘图来拟合。用于训练的样本的数量与误差率之间的关系显示，通过增加训练集大小，我们可以在分类NSCLC对比有和没有结节的对照方面实现更高的准确度。通过使用包含大约550个样本的训练集可以实现90％的分类准确度。实施例中用于训练的242个样本的结果在曲线上用绿色指示；该分析的误差率为0.17，且与我们之前的预测完全一致。MAD：50次重复采样的中位数绝对偏差。

图2是示出实施例3的组合分类器的ROC AUC的图。该数据使用242个训练样本和103个测试样本获得，例如癌症对比对照。准确度比较显示mRNA只有79％，miRNA只有71％，而mRNA和miRNA的组合为83％。测定的灵敏度为76％。测定的特异性为88％，且ROC AUC为0.88。癌症受试者(n＝54)；对照(n＝49)。

图3是显示来自分类器分配的独立测试集的每个样本的单个分数的支持向量机(SVM)图。每个样本都收到由SVM分类器分配的分数。正分数指示分类为癌症，而负分数指示分类为对照。每列代表一名患者，且列的高度可以解释为分类的强度或可靠性的量度。所显示的分类使用经典的0截断点进行分类。灵敏度最高为92.6％，特异性为73.5％。SVM分析为每个样本分配一个分数，该分数是每个样本如何分类的量度。

图4是证实生物样本的数量和评估的流程图，所述生物样本用于开发用于诊断肺病的由mRNA和miRNA靶标构成的分类器。

详述

本发明人开发了用于分类的算法，该算法为具有前向特征选择的SVM。单独地分析mRNA和miRNA以开发独立的分类器并证实超过仅使用mRNA或仅使用miRNA进行诊断的准确度的准确度协同水平。组合分类器通过组合编码特征和非编码特征来开发，其允许以改善的准确度进行诊断。

当与仅使用miRNA结果的初始PBMC相比较时，组合mRNA和/或miRNA表达(组合分类器)更准确。多分析物分类器更稳健。分类需要更多的特征；并且这些特征的数量可以随着训练集变大而减少，但是该数量与诸如Nanostring(Nanostring Technologies,Inc.,Seattle,WA)和PCR阵列的潜在开发平台相容。

本文所述的方法和组合物将选定的基因转录物(mRNA)的组合检测和选定的miRNA(非编码)表达技术的检测应用于筛选生物流体，以响应于诸如肺病的病状的治疗进行检测、诊断和监测。在某些实施方案中，该肺病是NSCLC或COPD。在其它实施方案中，该疾病是存在良性结节。其它肺病使用本文所述的组合物诊断。本文所述的组合物和方法允许通过确定来源于生物样本的组合的特征性基因转录物(mRNA)和特征性miRNA或miRNA表达谱(非编码)的变化来诊断或检测病状或疾病或其一般分期且特别是肺癌和COPD。样本在各种实施方案中包括哺乳动物(优选人)受试者的全血、血清或血浆。通过比较同一类别的多个受试者(例如，具有某一类型和分期的肺癌或COPD或多种类型和分期的混合的患者)与一个类别的多个受试者(必须对来自该类别的这些个体加以区分以提供有用的诊断)的概况，确立mRNA靶标和miRNA靶标两者的表达的组合变化。

这些肺病筛选方法使用适合使用组合mRNA和miRNA表达谱分析来进行简单且成本有效且非侵入性的血液测试的组合物，该组合mRNA和miRNA表达谱分析可以提醒患者和医师获得进一步的研究，例如胸片或CT扫描，以差不多的方式使用前列腺特异性抗原以帮助诊断和跟踪前列腺癌的进展。本文描述的mRNA和miRNA表达水平和谱提供了与该诊断问题有关的各种分类的基础。这些比较水平和谱的应用提供了肺病类型的重叠和验证性诊断，从对于恶性疾病对比非恶性疾病的初始测试开始。

组合物的组分和方法

如本文所用，“患者”或“受试者”意指哺乳动物，包括人、兽医或农场动物、家畜或宠物以及通常用于临床研究的动物。更具体地说，这些方法和组合物的受试者是人。

如本文所用，“配体”是指标记或未标记的任何核苷酸序列、氨基酸序列、抗体、探针、引物、其片段或任何实体(小分子或化学或重组分子)，其能够与靶标mRNA或miRNA杂交、与其结合或以其它方式与其缔合，从而允许检测和定量靶标mRNA或miRNA。

如本文所用，“参考”水平、标准或谱是指参考mRNA和miRNA的来源。在一个实施方案中，参考mRNA和miRNA标准从选自具有非小细胞肺癌(NSCLC)的参考人受试者或群体的生物样本获得。例如，在一个实施方案中，所使用的参考标准是来源于具有鳞状细胞癌的参考人受试者或人受试者群体的生物样本的标准或谱，或者是具有鳞状细胞癌的多个受试者的平均值。在某些实施方案中，所使用的参考标准是来源于具有早期鳞状细胞癌的参考人受试者的标准或谱，或者是具有早期鳞状细胞癌的多个受试者的平均值。在另一个实施方案中，参考标准是来源于具有腺癌的参考人受试者的标准或谱，或者是具有腺癌的多个受试者的平均值。在另一个实施方案中，参考标准是来源于具有早期腺癌的参考人受试者的生物样本的标准或谱，或者是具有早期腺癌的多个受试者的平均值。

在另一个实施方案中，参考mRNA和miRNA标准是从选自具有COPD或一些其它肺部疾病的参考人受试者或群体的生物样本获得。例如，参考标准是来源于具有COPD的参考人受试者的生物样本的标准或谱，或者是具有COPD的多个受试者的平均值。在一个实施方案中，参考mRNA和miRNA标准从选自健康且从未吸烟的参考人受试者或群体的生物样本获得。例如，参考标准是来源于健康且从未吸烟的参考人受试者的生物样本的标准或谱，或者是健康且从未吸烟的多个受试者的平均值。在一个实施方案中，参考mRNA和miRNA标准从选自参考人受试者或群体的生物样本获得，所述参考人受试者或群体是没有疾病的曾吸烟者或目前吸烟者。例如，参考标准是来源于参考人受试者的标准或谱，或者是多个受试者的平均值，这些受试者是没有疾病的曾吸烟者或目前吸烟者。

在一个实施方案中，参考mRNA和miRNA标准从选自具有良性肺结节的参考人受试者或群体的生物样本获得。例如，参考标准是来源于具有良性肺结节的参考人受试者的生物样本的标准或谱，或者是具有良性肺结节的多个受试者的平均值。在一个实施方案中，参考mRNA和miRNA标准从选自手术去除NSCLC肿瘤之后的参考人受试者或群体的生物样本获得。在一个实施方案中，参考mRNA和miRNA标准从选自手术去除NSCLC肿瘤之前的参考人受试者或群体的生物样本获得。在一个实施方案中，参考mRNA和miRNA标准从选自提供时间上较早的生物样本的同一受试者的生物样本获得。在另一个实施方案中，参考标准是两种或更多种上述参考标准的组合。

在各种实施方案中，参考标准是来源于参考受试者或参考群体的平均数、平均值、数值平均数或数值平均数的范围、数值模式、图形模式或miRNA或mRNA或基因表达谱。参考标准、参考群体、mRNA水平或谱或者miRNA水平或谱的特定类别的选择取决于医师将使用的诊断/监测方法和组合物。

如本文所用，“样本”或“生物样本”意指含有免疫细胞和/或癌症细胞的任何生物流体或组织。在一个实施方案中，合适的样本是全血。在另一个实施方案中，样本可以是静脉血。在另一个实施方案中，样本可以是动脉血。在另一个实施方案中，用于本文所述的方法的合适样本包括外周血，更具体地讲，外周血单核细胞。其它有用的生物样本包括但不限于全血、血浆或血清。在另一个实施方案中，样本是来自疑似具有肺病的受试者的唾液、尿液、滑液、骨髓、脑脊髓液、阴道粘液、宫颈粘液、鼻分泌物、痰、精液、羊水、支气管肺泡灌洗液和其它细胞渗出物。这些样本可以用盐水、缓冲液或生理学上可接受的稀释剂进一步稀释。或者，这些样本通过常规手段浓缩。应该理解，在整个说明书中对任一种生物样本的使用或提及都仅仅是示例性的。例如，在本说明书中将样本称为全血的情况下，可以理解，例如血清、血浆等的其它样本也可以以相同的方式使用。

在一个实施方案中，生物样本是全血，并且该方法使用PaxGeneBlood RNAWorkflow系统(Qiagen)。该系统涉及血液收集(例如，单次抽血)和RNA稳定化，随后运输和储存，然后纯化总RNA和分子RNA测试。该系统提供立即RNA稳定化和一致的抽血容量。血液可以在医师的办公室或诊所抽取，且样品在同一根管中运输并储存。短期RNA稳定性在18℃至25℃下为3天或在2℃至8℃下为5天。长期RNA稳定性在-20℃至-70℃下为4年。该样本收集系统使用户能够可靠地获得全血中的基因表达和miRNA表达的数据。在一个实施方案中，生物样本是全血。虽然PAXgene系统具有比使用PBMC作为生物样本来源更多的噪音，但PAXgene样本收集的益处比这些问题更重要。噪音可以以生物信息方式减去。

如本文所用，“免疫细胞”意指B-淋巴细胞、T-淋巴细胞、NK细胞、巨噬细胞、肥大细胞、单核细胞和树突细胞。

如本文所用，术语“病状”是指不存在(健康状况)或存在疾病，该疾病包括肺病、肺癌、在肺中存在良性结节或良性肿瘤生长、慢性阻塞性肺部疾病(有或没有相关癌症)、手术前存在癌性肺肿瘤、去除癌性肺肿瘤后的手术后状况。在规定的情况下，任何此类病状都可能与吸烟或不吸烟相关联。

如本文所用，术语“肺病”是指肺癌或慢性阻塞性肺部疾病，或存在由于吸烟引起的肺结节或肺部病变或在肺部组织中的一些其它不良事件。

如本文所用，术语“癌症”是指或描述哺乳动物的生理状况，其典型特征在于不受调控的细胞生长。更具体地讲，如本文所用，术语“癌症”意指任何肺癌。在一个实施方案中，肺癌是非小细胞肺癌(NSCLC)。在一个更具体的实施方案中，肺癌类型是肺腺癌(AC)。在另一个实施方案中，肺癌类型是肺鳞状细胞癌(SCC)。在另一个实施方案中，肺癌是“早期”(I或II)NSCLC。在又一个实施方案中，肺癌是“晚期”(III或IV)NSCLC。在又一个实施方案中，肺癌是早和晚分期及类型的NSCLC的混合。

如本文所用，术语“肿瘤”是指所有瘤性细胞生长和增殖，无论是恶性的还是良性的，以及所有癌前和癌细胞和组织。

“诊断”或“评估”是指肺癌的诊断、肺癌分期的诊断、肺癌的类型或分类的诊断、肺癌复发的诊断或检测、肺癌消退的诊断或检测、肺癌的预后、肺癌对手术或非手术疗法的反应的评估、或良性肺结节的诊断。

“表达的变化”意指与参考或对照相比较一种或多种选定的基因转录物(RNA)或miRNA的上调；与参考或对照相比较一种或多种选定的基因或miRNA的下调；或某些上调的基因或miRNA与下调的基因或miRNA的组合。

“治疗试剂”或“方案”意指用于治疗有或没有实体瘤的癌症的任何类型的治疗，包括但不限于化疗药物、生物反应调节剂、辐射、饮食、维生素疗法、激素疗法、基因疗法、手术切除等。

如本文所用，“选定的或指定的”mRNA或“选定的或指定的”miRNA意指其组合表达在诸如肺病或肺癌的病状存在下(以上调方式或下调方式)特征性地变化的那些mRNA和miRNA序列。在一个实施方案中，选定的mRNA和miRNA是表1至表3中报道的那些。统计学上显著数量的此类信息性mRNA和miRNA形成用于这些方法和组合物的合适的组合mRNA和miRNA表达谱。统计学上显著数量基于区分所测试的参考群体中的两个或更多个的能力来确定。

在本发明的上下文中，术语“统计学上显著数量的mRNA和miRNA”根据所观察的组合mRNA和miRNA表达的变化程度而不同。mRNA和miRNA表达的变化程度随着诸如肺病或肺癌的类型的状况和癌症或实体肿瘤的尺寸或扩散而改变。变化的程度也随着个体的免疫反应而改变，且随每个个体而改变。指定的mRNA和miRNA的表达的变化程度随诊断的疾病类型如COPD或NSCLC以及癌症或实体肿瘤的大小或扩散而改变。变化的程度也随着个体的免疫反应而改变，且随每个个体而改变。例如，在本发明的一个实施方案中，组合mRNA miRNA或多于两种这样的mRNA和miRNA或者甚至3种至约119种或145种或200种或更多种特征性组合mRNA和miRNA的表达增加或减小1.2倍或大于1.2倍的变化在统计学上是显著的。在另一个实施方案中，组合mRNA和miRNA或多于两种这样的mRNA或miRNA或者甚至3种至约119种或更多种特征性组合mRNA和miRNA的表达增加或减小1.5倍或大于1.5倍、大于1.7倍或大于2.0倍的较大变化在统计学上是显著的。对于没有实体肿瘤的癌症尤其如此。另选地，如果mRNA和miRNA的单一组合在通常不表达mRNA或miRNA的细胞中被剖析为上调或显著表达，则单一mRNA和/或miRNA的这种上调可以单独地在统计学上是显著的。相反地，如果mRNA和miRNA的单一组合在通常表达mRNA和miRNA的组合的细胞中被剖析为下调或不显著表达，则单一组合集的这种下调可以单独地在统计学上是显著的。

因此，本文所述的方法和组合物考虑检查在单一谱中的1至约200种组合mRNA和miRNA的表达水平或谱(参见，表1和表2)。在另一个实施方案中，本文所述的方法和组合物考虑检查在单一谱中的1至约119种(根据表1中的排序)组合mRNA和miRNA的表达水平或谱。在另一个实施方案中，本文所述的方法和组合物考虑检查在单一谱中的1至约145种(根据表1中的排序)组合mRNA和miRNA的表达水平或谱。在另一个实施方案中，本文所述的方法和组合物考虑检查在单一谱中的1至约147种(根据表2中的排序)组合mRNA和miRNA的表达水平或谱。在另一个实施方案中，本文所述的方法和组合物考虑检查在单一谱中具有在表3中鉴别的mRNA和miRNA的1至约200种组合mRNA和miRNA的表达水平或谱。在另一个实施方案中，来自表1-3的仅一些mRNA或来自表1-3的一些miRNA的组合可用作用于诊断具有肺癌或肺的患者的谱。

在一个实施方案中，mRNA和/或miRNA的鉴别组合之一的表达水平的显著变化可以诊断例如肺病的病状。在另一个实施方案中，鉴别的mRNA和/或miRNA中的两种的表达水平的显著变化可以指示例如肺病的病状。在另一个实施方案中，鉴别的mRNA和/或miRNA中的三种的组合的表达水平的显著变化可以诊断肺病或指示另一种病状。mRNA和/或miRNA的组合在表达谱中的数量不必相等。例如，如在表1的排序中的前119种组分的集中，在组合中mRNA的数量可以超过miRNA。在另一个实施方案中，鉴别的mRNA和/或miRNA中的四种或更多种的表达水平的显著变化可以诊断肺病或者指示另一种病状。在另一个实施方案中，表1的mRNA和miRNA的鉴别组合中的至少10种、至少50种、至少100种、至少约119种或至少约145种(或在这些终点中的任一个之间的任何整数)的表达水平的显著变化诊断肺病或指示另一种病状。

在另一个实施方案中，鉴别的mRNA和/或miRNA中的四种或更多种的表达水平的显著变化可以诊断肺病或者指示另一种病状。在另一个实施方案中，表2的mRNA和miRNA的鉴别组合中的至少10种、至少50种、至少100种、至少120种或至少约147种(或在这些终点中的任一个之间的任何整数)的表达水平的显著变化诊断肺病或指示另一种病状。

在另一个实施方案中，表3的mRNA和miRNA的鉴别组合中的至少10种、至少15种、至少20种(或在这些终点中的任一个之间的任何整数)的表达水平的显著变化诊断肺病或指示另一种病状。

在另一个实施方案中，约15种选定的mRNA和miRNA组合的表达水平的显著变化可以诊断肺病或指示另一种病状。在另一个实施方案中，约20至40种鉴别的mRNA和miRNA组合的表达水平的显著变化可以诊断肺病或指示另一种病状。如本文所教导，与miRNA变化相组合的其它数量的mRNA可以用于诊断肺病或指示另一种肺部病状。在另一个实施方案中，诊断肺病或另一病状的mRNA的谱包含在下表1中排序为2、5、7、10、12、15、17、24、26、27、31、36、40、41、46、51、57、58、63、69、78、80、85、94、101、105、107、117、118、125 127、128、134和139的mRNA中的5种或更多种。mRNA和/或miRNA的其它组可以在表1、表2或表3内选择。

术语“微阵列”是指可杂交阵列要素的有序排列。在一个实施方案中，微阵列包含在基板上与mRNA和miRNA的特异性组合杂交的多核苷酸探针。在另一个实施方案中，微阵列包含任选地固定在基板上的多个引物或抗体。

通过本文所述的方法诊断或检测所需要的mRNA和/或miRNA的组合的表达变化是指相对于mRNA或miRNA在参考受试者中的表达或参考标准而言，mRNA或miRNA在具有病状或患有具体是肺癌或NSCLC的疾病的受试者中的表达被激活到更高或更低水平。在相同疾病或病状的不同分期，mRNA和miRNA也可以以更高或更低的水平表达。在从未吸烟的正常受试者或现在吸烟者或曾吸烟者与患有具体是COPD、良性肺结节或癌症的疾病的受试者之间或者在同一疾病的不同分期之间，mRNA和miRNA的特异性组合的表达是不同的。特异性mRNA和miRNA的表达在具有肺癌的术前患者和具有肺癌的术后患者之间是不同的。miRNA表达的这种差异包括在例如正常细胞和患病细胞之间或在经历不同疾病事件或疾病分期的细胞之间的时间或细胞表达模式方面的定量差异以及定性差异。对于本发明的目的，当与参考标准比较时，当在受试者和参考标准或谱之间存在组合mRNA和miRNA表达的统计学显著(p<0.05)差异时，则认为存在组合mRNA和miRNA表达的显著变化。

因此，在一个实施方案中，提供了用于增加用于区分肺癌受试者和良性结节受试者的测定的灵敏度和特异性的方法。该方法包括：从受试者中获得生物流体或组织样本；通过使样本与选自能够与来自哺乳动物生物样本的表1、表2或表3的一种或多种mRNA基因转录物靶标特异性复合、与所述靶标杂交或鉴别所述靶标的核酸序列、多核苷酸或寡核苷酸的至少一种配体接触，检测样本中是否存在一种或多种mRNA靶标(例如，下表1、表2或表3的mRNA靶标)。该方法的另一个步骤包括通过使样本与选自能够与来自同一哺乳动物生物样本的表1、表2或表3的一种或多种miRNA靶标特异性复合、与所述靶标杂交或鉴别所述靶标的核酸序列、多核苷酸或寡核苷酸的至少一种配体接触，检测样本中是否存在一种或多种miRNA靶标(例如，表1、表2或表3的miRNA靶标)。在该方法中使用的每种配体与不同的mRNA靶标或miRNA靶标结合。在某些实施方案中，mRNA靶标和miRNA靶标两者的检测的组合允许以更高的灵敏度或特异性或两者诊断。在一个实施方案中，该方法允许鉴别受试者是否具有肺癌或良性结节的准确度增加。在另一个实施方案中，该方法增加了区分具有肺癌的受试者和没有结节的吸烟受试者的准确度。吸烟者可能具有非癌病症特有的其它症状。参见以下实施例。

表1鉴别可用于形成在从参考标准、特别是健康受试者或包括具有肺部疾病的受试者的非健康受试者中诊断出具有肺癌或肺病的患者中使用的组合mRNA和/或miRNA谱的145种mRNA和miRNA的列表。这个145种混合序列的集合在以下实施例中在表5中提到的肺癌对比结节患者(NOD)和无结节的吸烟者(SC)的比较中提到。表1是在癌症对比对照SVM分类器训练中通过FFS程序选择的排序特征(mRNA和miRNA)的列表。miRNA用星号指示。mRNA通过NCBI登录号鉴别；miRNA通过ABI OpenArray鉴别号(OA#)来鉴别。这些序列是公开可用的。靶标序列的SEQ ID No对应于排序号并且分别是SEQ NO.1至145。如表1的第1列(排序和SEQID NO)中所示，排序和SEQ ID NO:为同一数字。应该理解的是来自mRNA的其它靶标序列可以类似地使用。

表2鉴别可用于形成在从参考标准、特别是健康受试者或包括具有肺部疾病的受试者的非健康受试者中诊断出具有肺癌或肺病的患者中使用的组合mRNA和/或miRNA谱的约147种mRNA和miRNA的列表。这个147种混合序列的集在以下实施例中在表5中提到的肺癌对比结节患者(NOD)的比较中提到。表2是在癌症对比对照SVM分类器训练中通过FFS程序选择的排序特征(mRNA和miRNA)的列表。mRNA通过NCBI登录号鉴别；miRNA通过ABI OpenArray鉴别号(OA#)来鉴别。以下实施例中使用的靶标序列提供在下表中。然而，由登录号鉴别的序列的其它部分也可以以类似的方式使用。这些序列是公开可用的。在表2中靶标序列1-147的SEQ ID No分别为SEQ NO.146至292，并且在排序/SEQ ID No列中鉴别。这些序列是公开可用的。

表3鉴别在表1和表2的mRNA和miRNA集中重叠的18个基因和5个miRNA。

在表1至表3中鉴别的基因和miRNA都是公开可用的。本领域的技术人员可以通过使用mRNA和miRNA的序列容易地再生成这些组合物或与其杂交的探针和引物序列。所有这些序列都可以从诸如Illumina、ABI OpenArray、GenBank或NCBI数据库的常规来源公开得到。鉴别为www.mirbase.org的网站也是这些序列的另一个公开来源。

在本文所述的组合物和方法的上下文中，提到在任何特定组合集中列出的组合mRNA和miRNA中的“至少两个”、“至少五个”等意指所鉴别的mRNA和miRNA的任何和所有组合。用于疾病谱的特异性mRNA和miRNA未必在如表1和表2中的排序中，并且可以是本文和/或表3中鉴别的任何mRNA和miRNA组合。

术语“多核苷酸”在以单数或复数形式使用时通常是指任何多核糖核苷酸或多脱氧核糖核苷酸，其可以是未修饰的RNA或DNA或修饰的RNA或DNA。因此，例如，如本文定义的多核苷酸包括但不限于单链和双链DNA、包括单链和双链区的DNA、单链和双链RNA以及包括单链和双链区的RNA、包含DNA和RNA的杂合分子(这类杂合分子可以是单链的，或者更典型地是双链的，或者包括单链区和双链区)。另外，如本文所用，术语“多核苷酸”是指包含RNA或DNA或者RNA和DNA两者的三链区。在这些区中的链可以来自相同的分子或来自不同的分子。这些区可以包括一个或多个分子的全部，但更典型地仅包括一些分子的一个区。三螺旋区的分子之一常常是寡核苷酸。术语“多核苷酸”具体地包括cDNA。该术语包括含有一个或多个修饰的碱基的DNA(包括cDNA)和RNA。因此，具有因稳定性或其它原因而修饰的主链的DNA或RNA是本文预期的术语“多核苷酸”。此外，包含诸如肌苷的不寻常碱基或诸如氚化碱基的修饰的碱基的DNA或RNA包括在本文定义的术语“多核苷酸”内。通常，术语“多核苷酸”涵盖未经修饰的多核苷酸的所有化学、酶促和/或代谢修饰形式以及病毒和包括简单和复杂细胞的细胞特有的DNA和RNA的化学形式。

术语“寡核苷酸”是指相对较短的多核苷酸，包括但不限于单链脱氧核糖核苷酸、单链或双链核糖核苷酸、RNA:DNA杂合体和双链DNA。诸如单链DNA探针寡核苷酸的寡核苷酸常常通过例如使用市售的自动寡核苷酸合成仪的化学方法合成。然而，寡核苷酸可以通过包括体外重组DNA介导的技术的多种其它方法和通过在细胞和生物体中表达DNA来制备。

如本文所用，术语“抗体”是指具有两条轻链和两条重链或其任何片段的完整免疫球蛋白。因此，单一分离的抗体或片段可以是多克隆抗体、高亲和力多克隆抗体、单克隆抗体、合成抗体、重组抗体、嵌合抗体、人源化抗体或人抗体。术语“抗体片段”是指小于完整抗体结构，包括但不限于分离的单一抗体链、单链Fv构建体、Fab构建体、轻链可变或互补决定区(CDR)序列等。

可互换使用的术语“差异表达的基因转录物或mRNA”或“差异表达的miRNA”、“差异表达”及其同义词是指相对于基因或miRNA序列在对照受试者中的表达而言，基因或miRNA序列在患有具体是例如肺癌的癌症的疾病的受试者中的表达被激活到更高或更低的水平。这些术语还包括在相同疾病的不同分期基因或miRNA的表达被激活到更高或更低的水平。还应理解，差异表达的基因或miRNA可以在核酸水平或蛋白质水平上被激活或抑制，或者可以经受替代性剪接以产生不同的多肽产物。例如，这种差异可以通过mRNA水平、表面表达、多肽的分泌或其它分配的变化来证明。差异基因表达可以包括比较两种或更多种基因或它们的基因产物之间的表达、或比较两种或更多种基因或它们的基因产物之间的表达的比率、或者甚至比较相同基因的两种差异处理的产物，其在正常受试者、非健康对照和患有具体是癌症的疾病的受试者之间或在相同疾病的各种分期之间不同。差异表达包括在例如正常细胞和患病细胞之间或在经历不同疾病事件或疾病分期的细胞之间在基因或其表达产物中的时间或细胞表达模式方面的定量差异以及定性差异。对于本发明的目的，当受试者样本与对照样本之间的基因表达存在统计学显著(p<0.05)差异时，认为存在“差异基因表达”。

关于RNA转录物的术语“过度表达”用以指通过归一化至参考mRNA水平确定的转录物的水平，其可以是样品中的所有测量的转录物或者mRNA的特定参考集合。

短语“扩增”是指在特定细胞或细胞系中形成基因或基因片段或miRNA的多个拷贝的过程。复制区(一段扩增的DNA)常常被称为“扩增子”。通常，所产生的信使RNA(mRNA)的量(即，基因表达的水平)也增加了由所表达的特定基因构成的拷贝的数量的比例。

术语“预后”在本文中用以指对诸如肺癌的肿瘤疾病的可归因于癌症的死亡或进展(包括复发、转移扩散和耐药性)的可能性的预测。术语“预测”在本文中用以指患者将有利地或不利地对药物或药物集合作出反应的可能性以及这些反应的程度，或者患者将在手术去除原发肿瘤和/或化学疗法一段时间而没有癌症复发的情况下存活的可能性。本发明的预测方法可以临床使用以通过为任何特定的患者选择最适当的治疗方式来作出治疗决定。本文所述的预测方法在以下方面是有价值的工具：预测患者是否可能对例如手术干预、用给定药物或药物组合的化学疗法和/或放射疗法的治疗方案有利地反应，或者患者在手术和/或终止化学疗法或其它治疗方式之后是否可能长期存活。

术语“长期”存活在本文中用以指在手术或其它治疗后存活至少1年，更优选至少3年，最优选至少7年。

杂交反应的严格性”可由本领域的普通技术人员容易地确定，并且通常是取决于探针长度、洗涤温度和盐浓度的经验计算。通常，较长的探针需要较高的温度以适当退火，而较短的探针需要较低的温度。当互补链在低于其解链温度的环境中存在时，杂交通常取决于变性DNA重新退火的能力。探针和可杂交序列之间的期望同源性程度越高，可以使用的相对温度越高。结果，随之而来的是较高的相对温度将倾向于使反应条件更严格，而较低的温度则不然。各种公开的文本提供了杂交反应的严格性的另外细节和解释。

在本文所述的组合物和方法的上下文下，提到在任何特定基因集合(例如，表1、表2或表3)中列出的mRNA和miRNA中的“三个或更多个”、“至少五个”等意指列出的mRNA和miRNA中的任一个或者任何和全部组合。例如，合适的组合mRNA和miRNA表达谱包括含有来自表1、2和/或3的至少3至145个mRNA和miRNA之间的任何数量的谱。在一个实施方案中，由选自该表的mRNA和miRNA形成的表达谱优选以排序次序使用，例如，排在列表的前部的基因在测试中证实更显著的区别性结果，并且因此在谱中可能比排序低的基因更显著。然而，在其它实施方案中，形成有用基因谱的基因不必按排序排列，并且可以是来自相应表的任何基因。

应该理解的是，尽管在本说明书中的各种实施方案是使用“包括”语言来呈现的，但是在各种情况下，相关实施方案也使用“由......组成”或“基本上由......组成”来描述。应注意，术语“一个”或“一种”是指一个(种)或多个(种)，例如“一个miRNA”被理解为表示一个或多个miRNA。因此，术语“一个”(或“一种”)、“一个(种)或多个(种)”和“至少一个(种)”在本文中可互换使用。

除非在本说明书中另外定义，否则本文中使用的技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义，并且通过参考公开的文本，给本领域技术人员提供本申请中使用的许多术语的一般指导。

可以进一步优化本文和通过使用表1、2和/或3的基因集合鉴别的mRNA和miRNA肺癌和肺病标签或基因和miRNA表达谱以降低或增加基因和miRNA的数量，从而增加诊断的准确度。

基因(mRNA)表达谱分析方法

用于产生可用于本文所述的组合物和方法的谱或用于使用本文所述的组合物进行诊断步骤的基因(mRNA)表达谱分析的方法是已知的并且在以引用方式并入本文的美国专利号7,081,340和国际专利申请公告号WO2010/054233中充分汇总。这样的基因表达谱分析方法包括基于多核苷酸的杂交分析的方法、基于多核苷酸的测序的方法和基于蛋白质组学的方法。本领域已知的用于定量样本中的mRNA表达的最常用的方法包括RNA印迹和原位杂交；RNA酶保护测定；和基于PCR的方法，诸如RT-PCR。另选地，可以使用可识别特异性双链体的抗体，这类特异性双链体包括DNA双链体、RNA双链体和DNA-RNA杂交双链体或DNA-蛋白质双链体。用于基于测序的基因表达分析的代表性方法包括基因表达的系列分析(SAGE)和通过大规模平行标签测序(MPSS)的基因表达分析。

简要地描述，最灵敏且最灵活的定量方法是RT-PCR，其可以用于比较有或没有药物治疗的不同样本群体、正常和肿瘤组织中的mRNA水平，以表征基因表达的模式，在密切相关的mRNA之间加以区分，并分析RNA结构。第一步骤是从目标样本中分离mRNA(例如，在这种情况下，通常是从人PBMC中分离的总RNA)。可以例如从冷冻或封存的石蜡包埋并固定的(例如，福尔马林固定的)组织样本中提取mRNA。根据制造商的说明书，可以使用来自商业制造商的纯化试剂盒、缓冲液组和蛋白酶进行RNA分离。示例性商业产品包括TRI-REAGENT、Qiagen RNeasy微型柱、MASTERPURE Complete DNA和RNA纯化试剂盒Madison,Wis.)、石蜡块RNA分离试剂盒(Ambion,Inc.)和RNA Stat-60(Tel-Test)。还可以使用诸如氯化铯密度梯度离心法的常规技术。

通过RT-PCR进行基因表达谱分析的第一步骤是将RNA模板逆转录成cDNA，然后在PCR反应中进行指数扩增。逆转录步骤通常使用特异性引物、随机六聚体或低聚-dT引物来引发，这取决于情况和表达谱分析的目标。参见，例如伴随产品GENEAMP RNA PCR试剂盒(Perkin Elmer,Calif.,USA)的制造商说明书。然后可以将衍生的cDNA用作随后的RT-PCR反应中的模板。

PCR步骤通常使用具有5'-3’核酸酶活性但缺乏3'-5’校对内切酶活性的热稳定的DNA依赖性DNA聚合酶如Taq DNA聚合酶，例如PCR。选定的聚合酶水解与其靶标扩增子结合的杂交探针，且两个寡核苷酸引物产生扩增子。设计优选标记的第三寡核苷酸或探针以检测位于两个PCR引物之间的核苷酸序列。RT-PCR可以使用市售的设备进行。

实时PCR与定量竞争性PCR(其中每个靶标序列的内部竞争物用于归一化)以及与使用样本内包含的归一化基因或用于RT-PCR的管家基因的定量比较性PCR两者相当。另一PCR方法是基于MassARRAY的基因表达谱分析方法(Sequenom,Inc.,San Diego,CA)。本领域已知且可用于基因表达谱分析的基于PCR的技术的其它实施方案包括例如差异显示、扩增片段长度多态性(iAFLP)和BeadArray^TM技术(Illumina,San Diego,CA)，在基因表达的快速测定中使用市售Luminex100LabMAP系统和多种颜色编码的微球(Luminex Corp.,Austin,Tex.)；和高覆盖率表达谱(HiCEP)分析。

通过使用CPT管离心、Ficoll梯度或等效密度分离以除去红细胞和粒细胞，然后使用TRIZOL三试剂、RNALATER试剂或类似试剂提取RNA以获得高完整性的RNA，从受试者的血液中获得RNA表达谱。使用微阵列和/或定量聚合酶链式反应测定单个信使RNA种类的量。

在用于获得谱的RNA表达水平的其它程序之中有RT-PCR，其中分析使用机器学习算法，诸如具有递归特征消除的SVM(SVM-RFE)，或者其它分类算法，诸如罚则判别分析(PDA)(参见，2004年12月9日公开的国际专利申请公告号WO 2004/105573)以获得其系数作用于输入RNA基因表达值的数学函数，并输出其值确定个体的类别和预测的置信度的“SCORE”。通过分析已知是其成员随后被区分的类别的许多受试者来确定这个函数，该函数被用来对于受试者的疾病状态来分类受试者。

差异基因表达还可以使用微阵列技术鉴别或确认，其还在国际专利申请公布号WO2010/054233中详细描述。因此，使用微阵列技术可以在新鲜或石蜡包埋的组织中测量肺癌/肺病相关基因的表达谱。在该方法中，所关注的多核苷酸序列(包括cDNA和寡核苷酸)被铺板或排列在微芯片或玻璃基板上。然后将阵列序列与来自所关注的细胞或组织的特异性DNA探针杂交。固定在微芯片上的微阵列基因适合在严格条件下进行杂交。施用于芯片上的标记的cDNA探针与阵列上的每个DNA点特异性杂交。在严格洗涤以除去非特异性结合的探针之后，通过共焦激光显微镜或另一种检测方法如CCD相机扫描芯片。每个阵列元件的杂交的定量允许评估相应的mRNA丰度。微阵列分析可以按照制造商的方案通过市售的设备进行。

美国专利号7,081,340概述并且通过引用并入本文的其它有用的方法包括基因表达的系列分析(SAGE)和大规模平行标签测序(MPSS)。

免疫组织化学方法和蛋白质组学方法也适用于检测描述用于本文的方法和组合物中的基因的基因表达产物的表达水平，并且是对其它基因表达谱分析方法的有价值的补充，并且可以单独或与其它方法组合使用，以检测本文所述的组合基因和miRNA谱的基因表达产物。使用抗体或抗血清，优选多克隆抗血清，且最优选单克隆抗体，或对每种标志物具有特异性的其它蛋白质结合配体来检测表达。抗体可以通过例如用放射性标记、荧光标记、半抗原标记如生物素或者酶如辣根过氧化物酶或碱性磷酸酶直接标记抗体本身来检测。另选地，未标记的一抗结合包括抗血清、多克隆抗血清或对一抗具有特异性的单克隆抗体的标记的二抗使用。用于免疫组织化学分析的方案和试剂盒在本领域中是众所周知的并且可以商购获得。

在进行本发明的测定和方法时，可以使用这些所述技术来获得用于组合mRNA和miRNA谱的mRNA表达水平组分，并且将患者的概况与适当的参考概况进行比较，并基于该信息选择诊断或治疗推荐。

检测/量化MIRNA的方法

可以用于获得、检测和定量miRNA表达的方法是已知的并且可以用于实现本发明的诊断目标。参见，例如在下面实施例以及例如国际专利申请公告号WO2008/073923、美国公开专利申请号2006/0134639、美国专利号6,040,138和8,476,420等等中描述的技术。

例如，生物样本可以使用专有的PaxGene血液RNA系统(PreAnalytiX,a Qiagen,BD公司)收集。PAXgene血液RNA系统包含两个集成组件：PAXgene血液RNA管和PAXgene血液RNA试剂盒。血液样本经由标准采血技术直接吸入PAXgene血液RNA管中。这些管包含立即稳定细胞内RNA的专有试剂，从而使RNA转录物的体外降解或上调最小化。消除冷冻、批量样本和使收集后处理样本的紧迫性最小化的能力大大提高了实验室效率并且降低了成本。

然后，使用多种测定来检测和/或测量miRNA。最灵敏且最灵活的定量方法是实时聚合酶链式反应(RT-PCR)，其可以用于比较在有或没有药物治疗的不同样本群体、正常和肿瘤组织中的miRNA水平，以表征miRNA表达的模式，在密切相关的miRNA之间加以区分，并分析RNA结构。该方法可以通过根据制造商的说明使用常规RT-PCR测定试剂盒如RT-PCR(Applied Biosystems)来使用。

第一步骤是从靶标样本中分离RNA(例如，在这种情况下，通常是从人全血中分离总RNA)。用于mRNA提取的一般方法在本领域中如在分子生物学的标准教科书中是众所周知的。根据制造商的说明书，可以使用纯化试剂盒、缓冲液组和来自商业制造商的蛋白酶进行RNA分离。示例性的商业产品包括TRI-REAGENT、Siegen RNeasy微型柱、MASTERPUREComplete DNA和RNA纯化试剂盒(Madison,Wis.)等。还可以使用诸如氯化铯密度梯度离心法的常规技术。

在逆转录步骤中，使用对待检测的miRNA具有特异性的引物从mRNA样本逆转录cDNA。用于逆转录的方法在本领域中如在分子生物学的标准教科书中是众所周知的。简而言之，RNA首先在70℃下与引物一起温育以使RNA二级结构变性，然后在冰上快速冷却以使引物退火至RNA。向反应中加入其它组分，包括dNTP、RNA酶抑制剂、逆转录酶和逆转录缓冲液。逆转录反应在42℃下持续1小时。然后在70℃下加热反应以使酶失活。

在RT-PCR步骤中，PCR产物从cDNA样本扩增。PCR产物的积累通过双重标记的荧光探针(即，探针)测量。实时PCR与定量竞争性PCR(其中每个靶标序列的内部竞争物用于归一化)以及使用样本内包含的归一化miRNA或用于RT-PCR的管家miRNA的定量比较性PCR两者相容。关于更多细节，参见，例如Held等，Genome Research 6:986 994(1996)。RT-PCR可以使用市售的设备进行。为了使误差和样本间变化的影响最小化，通常使用内部标准进行RT-PCR。理想的内部标准在不同组织间表达为恒定的水平，并且不受实验处理影响。最常用于归一化miRNA表达的模式的RNA是用于管家miRNA甘油醛-3-磷酸-脱氢酶(GAPDH)和β-肌动蛋白的mRNA。

本领域技术人员已知使用固定的石蜡包埋的组织作为RNA来源进行谱分析miRNA表达的代表性方案的步骤，包括mRNA分离、纯化、引物延伸和扩增。简而言之，代表性过程是从石蜡包埋的肿瘤组织样本切割约10μm厚的切片开始。然后提取RNA，并除去蛋白质和DNA。在分析RNA浓度之后，如果需要，则可以包括RNA修复和/或扩增步骤，并且使用miRNA特异性启动子逆转录RNA，然后进行RT-PCR。

在下面的实施例中鉴别的具体技术证实了现有技术。然而，在这些方法中可以使用miRNA分离、检测和定量的其它常规方法。可以采用用抗体或其片段检测和/或测量miRNA的其它方法。载有与miRNA结合的序列的重组分子也可以用于这些方法中。应该理解的是，结合如本文定义的特异性miRNA的任何抗体、抗体片段或其混合物可以用于获得组合mRNA和miRNA谱的miRNA表达水平的方法中，而不管抗体或抗体混合物如何产生。

类似地，使用基因组或其它杂交探针鉴别miRNA序列的方法可用于本文中。在另一个实施方案中，合适的测定检测测定法是免疫组织化学测定、杂交测定、对流免疫电泳、放射免疫测定、放射免疫沉淀测定、斑点印迹测定、竞争测定的抑制或夹心测定。

上文描述或在本文中另外描述的方法中的任一种都可以由计算机处理器或计算机编程的仪器来进行，该计算机处理器或计算机编程的仪器产生可用于诊断或检测病状或区分两种病状的数字或图形数据。

组合物

利用所定义的组合基因(mRNA)和miRNA表达谱诊断肺癌和肺病的方法允许开发简化的诊断工具，该诊断工具用于诊断肺癌，例如NSCLC，或诊断肺癌的具体分期(早期、I期、II期或晚期)，诊断具体类型的肺癌(例如，AC对比LSCC)，诊断一种类型的肺病，例如COPD或良性肺结节，或监测治疗或手术干预的效果以便确定进一步的治疗或评估癌症或疾病复发的可能性。

因此，如本文所述的用于在哺乳动物受试者中的这种诊断或评估的组合物可以是试剂盒或试剂。例如，组合物的一个实施方案包含在其上固定用于检测和定量mRNA和miRNA的配体的基板。在一个实施方案中，试剂为扩增并检测mRNA或miRNA的核酸序列的扩增核酸引物(诸如，RNA引物)或引物对。在另一个实施方案中，试剂为与靶标序列杂交的多核苷酸探针。在另一个实施方案中，试剂为抗体或抗体的片段。该试剂可以包括多种所述引物、探针或抗体，其各自对表1、表2或表3中的至少一种mRNA和miRNA具有特异性。任选地，试剂可以与常规的可检测标记相关联。如本文所用，“标记”或“报道分子”是可用于标记核酸(包括单一核苷酸)、多核苷酸、寡核苷酸或蛋白质配体的化学或生物化学部分，例如氨基酸或抗体。“标记”和“报道分子”包括荧光剂、化学发光剂、显色剂、淬灭剂、放射性核苷酸、酶、底物、辅因子、抑制剂、磁性颗粒和本领域已知的其它部分。“标记”或“报道分子”能够产生可测量的信号，并且可以共价或非共价接合到寡核苷酸或核苷酸(例如，非天然核苷酸)或配体。

在另一个实施方案中，组合物为包含相关的多种多核苷酸或寡核苷酸探针或配体、用于其的任选的可检测标记、固定基板、用于酶标记的任选基板以及其它实验室物品的试剂盒。在又一个实施方案中，至少一种多核苷酸或寡核苷酸或配体与可检测标记相关联。在某些实施方案中，试剂固定在基板上。示例性基板包括微阵列、芯片、微流体卡或腔室。

这样的组合物在一个实施方案中包含多于一种多核苷酸或寡核苷酸，其中每种多核苷酸或寡核苷酸与来自例如血液、血清或血浆的哺乳动物生物样本的不同基因或不同miRNA杂交。在一个实施方案中，mRNA和miRNA选自表1、2和/或3中列出的那些。表1包含由发明人鉴别为指示存在肺癌的谱或标签的代表的大致顶部145个基因和miRNA的一个实施方案。基因和miRNA的该集合是mRNA和miRNA表达对比参考对照的生物样本中的相同mRNA和miRNA表达改变(即，增加或减少)的那些。表2包含由发明人鉴别为指示存在肺癌的另一个谱或标签的代表的大致顶部147个基因和miRNA的一个实施方案。基因和miRNA的该集合是mRNA和miRNA表达对比参考对照的生物样本中的相同mRNA和miRNA表达改变(即，增加或减少)的那些。表3包含在表1和表2之间重叠的那些mRNA和miRNA。

在一个实施方案中，靶向的mRNA和miRNA选自表1中排序为1至119的那些。在另一个实施方案中，针对除了表1中排序的那些靶标之外的mRNA和miRNA的配体包含在本发明的组合物中。在一个实施方案中，组合物包含靶向表1的单一mRNA的配体和靶向表1的单一miRNA的配体。在另一个实施方案中，组合物包含靶向相同mRNA或相同miRNA的多于一种配体。

在一个实施方案中，靶向的mRNA和miRNA选自表1中鉴别的所有靶标。在另一个实施方案中，靶向的mRNA和miRNA选自表2中鉴别的一些或所有靶标。在另一个实施方案中，针对除了表1和表2中排序的那些靶标之外的mRNA和miRNA的配体包含在本发明的组合物中。在一个实施方案中，组合物包含靶向表1或2的单一mRNA的配体和靶向表1或2的单一miRNA的配体。在另一个实施方案中，组合物包含靶向相同mRNA或相同miRNA的多于一种配体，即，这些表的至少5、10、20、50、75、100、130、140或更多种组合。

在另一个实施方案中，用于诊断哺乳动物受试者中的肺癌的组合物包含三个或更多个PCR引物-探针组。每个引物-探针组扩增来自在受试者的生物样本中发现的两个或更多个mRNA的不同多核苷酸序列，其与扩增来自在受试者的生物样本中发现的一个或多个miRNA的不同多核苷酸序列的引物或探针或组相结合。在另一个实施方案中，用于诊断哺乳动物受试者中的肺癌的组合物包含三个或更多个PCR引物-探针组。每个引物-探针组扩增来自在受试者的生物样本中发现的一个或多个mRNA的不同多核苷酸序列，其与扩增来自在受试者的生物样本中发现的两个或更多个miRNA的不同多核苷酸序列的引物或探针或组相结合。

其它实施方案包括足以扩增表1的所有排序为1-119的mRNA和miRNA或所有mRNA和miRNA靶标、表2的119个或所有mRNA和miRNA靶标、和/或表3的所有mRNA和miRNA靶标的PCR引物、探针或组。因此，在另一个实施方案中，配体针对来自表1、表2或表3的至少mRNA和miRNA产生以便用于组合物中。在又一个实施方案中，PCR引物和探针针对来自表1、2和/或3的至少25个mRNA和miRNA产生以便用于组合物中。在又一个实施方案中，PCR引物和探针针对来自表1、2和/或3的至少50个mRNA和miRNA产生以便用于组合物中。在又一个实施方案中，PCR引物和探针针对来自表1、2和/或3的至少75个mRNA和miRNA产生以便用于组合物中。在又一个实施方案中，PCR引物和探针针对来自表1或表2的至少100个mRNA和miRNA产生以便用于组合物中。在又一个实施方案中，PCR引物和探针针对来自表1或2的至少125个mRNA和miRNA产生以便用于组合物中。本领域技术人员将认识到，即使在本文中没有具体列举，但在上文指定的数字之间出现的所有整数都包括在本公开中。从表1、表2或表3中选定的基因和miRNA不必按顺序排序；而是清楚地显示在参考对照和患病患者之间的表达差异的任何组合都可用于这样的组合物中。

其它实施方案包括足以扩增表1的排序的mRNA和miRNA靶标的较小子集的PCR引物、探针或组。其它实施方案包括足以扩增表1的排序的mRNA和miRNA靶标的较小子集的PCR引物、探针或组，以及足以扩增据发现在肺病或癌症中特征性变化的其它mRNA和miRNA靶标的PCR引物、探针或组。

这些选定的基因和miRNA形成组合的基因/miRNA表达谱或标签，其可以在具有肺癌或另一种肺病的受试者与选定的参考对照之间加以区分。在一个实施方案中，患者的生物样本如血液中的组合mRNA和miRNA表达相比于参考的相应表达的显著变化与肺癌如非小细胞肺癌(NSCLC)的诊断相关。在一个实施方案中，患者的生物样本如血液中的组合mRNA和miRNA表达相比于参考的相应表达的显著变化与肺癌分期的诊断相关。在一个实施方案中，患者的生物样本如血液中的组合mRNA和miRNA表达相比于参考的相应表达的显著变化与肺癌类型的诊断相关。在一个实施方案中，患者的生物样本如血液中的组合mRNA和miRNA表达相比于参考的相应表达的显著变化与非癌性病状如COPD、良性肺部病变或结节的诊断相关。在一个实施方案中，患者的生物样本如血液中的组合mRNA和miRNA表达相比于参考的相应表达的显著变化与另一种疾病的诊断相关。另外，这些组合物可用于为具有未知病因的肺结节的受试者提供补充或原始诊断。

在上述组合物的一个实施方案中，参考对照是非健康对照(NHC)。在其它实施方案中，参考对照可以是任何类别的如上所述的对照。包含与选定的组合基因和miRNA表达谱的成员杂交的多核苷酸或寡核苷酸的组合物不仅期望用于诊断，而且还用于监测手术或非手术疗法治疗的效果以确定切除/化学疗法的积极效果是否在初步治疗后维持很长一段时间。如果结果证实恢复到术前/化疗前的概况，则这些概况还允许确定肺癌如NSCLC的复发或复发的可能性。进一步可能的是，这些组合物也可以用于监测非手术疗法对肺癌的功效。

基于选自表1、2和/或3的基因和miRNA(任选地与可检测标记相关联)的组合物可以以微流体卡、芯片或腔室或者适合与上述PCR、RT-PCR或Q PCR技术一起使用的试剂盒的格式呈现。一方面，这种格式是使用Quantitative PCR低密度阵列的诊断测定。初步结果提出，所需的基因和miRNA的数量与这些平台相容。当来自选定受试者的生物样本与组合物中的引物和探针接触时，来自受试者的表达谱中的靶向信息基因和miRNA的PCR扩增允许检测基因和miRNA中的表达相比于参考基因表达谱的相应表达的变化。患者样本中的选定mRNA和miRNA的组合表达相比于参考谱的相应组合表达的显著变化可以与肺癌的诊断相关。类似地，当来自术后患者受试者的生物样本与组合物中的引物和探针接触时，可以比较在谱中选自表1、2和/或3中的那些基因和miRNA的靶向信息基因和miRNA的PCR扩增与手术前患者(或类似的患者)的相应PCR扩增。患者样本中的选定mRNA和miRNA的表达相比于参考表达谱的相应表达的显著变化与手术的积极效果和/或该积极效果的维持相关。

一旦选定了特定的mRNA和miRNA靶标，引物和探针序列的设计就在本领域的技术范围内。选择用于引物和探针设计的特定方法以及特定的引物和探针序列不是这些组合物的限制性特征。对于本领域技术人员可用的引物和探针设计技术的现成解释汇总在美国专利号7,081,340中，参考公开可用的工具，诸如DNA BLAST软件、Repeat Masker程序(BaylorCollege of Medicine)、Primer Express(Applied Biosystems)、MGB assay-by-design(Applied Biosystems)、Primer3(Steve Rozen和Helen J.Skaletsky(2000)，普通用户和生物学程序员在WWW上和其它出版物上的Primer3。通常，在本文所述的组合物中使用的最佳PCR引物和探针长度通常在12至30个碱基之间，例如在17至22个碱基之间，并且含有约20-80％，诸如例如约50-60％的G+C碱基。通常优选50℃至80℃，例如约50℃至70℃的解链温度。

可以以微流体卡、微阵列、芯片或腔室的格式呈现的组合物使用本文所述的多核苷酸杂交技术。当来自选定患者受试者的生物样本与组合物中的杂交探针接触时，来自患者的表达谱中的靶向信息基因和miRNA的PCR扩增允许检测和定量在表达谱中基因和miRNA中的表达相比于参考组合表达谱(例如，健康对照或具有肺部疾病但没有癌症的对照等)的相应表达的变化。

这些组合物可以用于诊断肺癌，例如I期或II期NSCLC。另外，这些组合物可用于为具有未知病因的肺结节的受试者提供补充或原始诊断。由选自表1、2和/或3的靶标或其子集形成的组合mRNA和miRNA表达谱可与炎性基因表达谱相区分。

参考受试者的类别可以包括具有恶性疾病的吸烟者、具有非恶性疾病的吸烟者、具有非恶性疾病的曾吸烟者、没有疾病的健康非吸烟者、具有慢性阻塞性肺部疾病(COPD)的非吸烟者、具有COPD的曾吸烟者、手术去除实体肺肿瘤之前的具有实体肺肿瘤的受试者、手术去除实体肺肿瘤之后的具有实体肺肿瘤的受试者；治疗实体肺肿瘤之前的具有实体肺肿瘤的受试者；以及在治疗实体肺肿瘤期间或之后的具有实体肺肿瘤的受试者。适当类别的选择取决于组合物的用途，即用于初始诊断，用于治疗或手术后的预后或者用于疾病类型如AC对比LSCC的具体诊断。

诊断方法

所有上述组合物提供了多种诊断工具，其允许对受试者的疾病状态进行基于血液的非侵入性评估。这些组合物在诊断测试中的使用可以与诸如胸部X射线或CT扫描的其它筛选测试相结合增加诊断准确度和/或引导另外的测试。在其它方面，本文所述的诊断组合物和工具允许疾病的预后、监测对具体疗法的反应以及定期评估复发的风险。本文所述的组合物的方法和用途还允许评估治疗前、手术前和/或治疗期间的各个时期和治疗后样本的诊断组合mRNA和miRNA水平或谱的变化，并鉴别可用于评估复发概率的组合表达谱或标签。

在一个实施方案中，诊断或检测或评估哺乳动物受试者的病状的方法包括检测在受试者的生物样本中，或自该样本产生的组合mRNA和miRNA表达谱，在表1、2和/或3中鉴别的靶标mRNA和miRNA核酸序列的表达水平；以及比较在受试者样本中的组合mRNA和miRNA表达水平或谱与参考标准。根据参考标准的选择，受试者样本谱的表达相比于参考标准的相应表达的变化指示上述病状的诊断或预后。在某些实施方案中，该病状是肺癌、慢性阻塞性肺部疾病(COPD)或良性肺结节。这些方法可以使用上面讨论的生物样本来使用。在某些实施方案中，生物样本是全血、外周血单核细胞、血浆和血清。

如上讨论，该方法在某些实施方案中包括测量受试者样本中的一个或多个指定mRNA与一个或多个指定miRNA的组合的表达水平。在其它实施方案中，该方法的检测、测量或比较步骤被重复多次。例如，在某些实施方案中，mRNA和miRNA水平在不同时间采集的所述受试者的一系列样本中检测或测量。这允许鉴别所述组合mRNA和miRNA的表达相比于选定参考标准改变的模式。

在其它实施方案中，检测或测量步骤包括使来自受试者的生物样本与诸如上述的那些的诊断试剂接触，这些诊断试剂鉴别或测量样本中的靶标mRNA和miRNA表达水平。在某些实施方案中，接触步骤包括或包含在所述生物样本中形成对于所述mRNA或miRNA的诊断试剂与该样本中的mRNA或miRNA之间的直接或间接复合物。此后，该方法在诸如本文所述的测定的合适测定中测量复合物的水平。

在这些方法的某些实施方案中，形成组合谱的mRNA和miRNA靶标在两种或更多种选自以下的病状中差异表达：没有吸烟史没有肺病、有吸烟史没有肺病、肺癌、慢性阻塞性肺部疾病(COPD)、良性肺结节、肿瘤切除前的肺癌和肿瘤切除后的肺癌。根据通过这些方法评估的病状，参考标准从例如以下的参考受试者或参考群体获得：(a)具有非小细胞肺癌(NSCLC)的参考人受试者或群体；(b)具有COPD的参考人受试者或群体；(c)健康且从未吸烟的参考人受试者或群体；(d)曾吸烟者或没有疾病的当前吸烟者的参考人受试者或群体；(e)具有良性肺结节的参考人受试者或群体；(f)手术去除NSCLC肿瘤后的参考人受试者或群体；(g)手术去除NSCLC肿瘤前的参考人受试者或群体；以及(h)提供时间上较早的生物样本的相同受试者。

本文所述的诊断组合物和方法提供了超过当前诊断方法的各种优点。这些优点如下。如本文所例示，具有肺腺癌或肺鳞状细胞癌(两种最常见类型的肺癌)的受试者与具有包括慢性阻塞性肺病(COPD)或肉芽肿或其它良性肿瘤的非恶性肺病的受试者相区分。这些方法和组合物为在肺部门诊呈现小结节的患者是否具有恶性疾病的实际诊断问题提供了解决方案。具有中等风险结节的患者将显然受益于非侵入性测试，从而将患者移到极低可能性或极高可能性疾病风险类别。基于基因组谱的准确恶性肿瘤估计(即，估计给定患者具有癌症的概率为90％对比估计患者具有癌症的机会仅为5％)将使得对于良性疾病的手术更少，在可治愈阶段去除更多早期肿瘤，随访CT扫描更少，以及降低担心结节的重大心理成本。经济影响也可能是显著的，诸如降低与肺癌CT筛查相关联的另外保健的当前估计成本，即每增加一个质量调整的生命年，则为116,000美元。具有足够灵敏度和特异性的非侵入性测试将显著改变恶性疾病的测试后概率，并由此改变随后的临床护理。

这些方法优于现有方法的期望优点在于它们能够从微创手术，即通过采集血液样本来表征疾病状态。相比之下，根据基因表达谱分类癌症肿瘤的当前实践取决于组织样本，通常是来自肿瘤的样本。在非常小的肿瘤的情况下，活检是有问题的，而且如果肿瘤未知或者不可见，则活检显然是不可能的。不需要肿瘤的纯化，分析肿瘤样本时通常就是这样。最近公布的方法取决于在支气管镜检查期间刷检来自肺的上皮细胞，这种方法也比采集血液样本更具有侵入性，并且仅适用于肺癌，而本文所述的方法可推广到任何癌症。血液样本具有另外的优点，其为易于制备且对于日后分析稳定的材料，这在将要分析mRNA或miRNA时很重要。

实施方案

在一个实施方案中，用于诊断肺癌的多分析物组合物包含(a)配体，所述配体选自能够与来自哺乳动物生物样本的mRNA基因转录物特异性复合、与所述转录物杂交或鉴别所述转录物的核酸序列、多核苷酸或寡核苷酸；和(b)另外的配体，所述另外的配体选自能够与来自哺乳动物生物样本的miRNA特异性复合、与所述miRNA杂交或鉴别所述miRNA的核酸序列、多核苷酸或寡核苷酸。每种配体和另外的配体与不同的基因转录物或miRNA结合且鉴别的基因转录物和miRNA的组合表达水平形成肺癌或肺癌分期的特征谱。

在另一个实施方案中，上述组合物的基因转录物和miRNA选自表1。在另一个实施方案中，组合物的基因转录物和miRNA选自表1的排序1至119。在另一个实施方案中，上述组合物的基因转录物和miRNA选自表1的所有靶标。在另一个实施方案中，上述组合物的基因转录物和miRNA选自表2的一些或所有靶标。在另一个实施方案中，组合物的基因转录物和miRNA选自表3的一些或所有靶标。

在又一个实施方案中，组合物的每种所述配体是扩增并检测所述基因转录物或miRNA的核酸序列的扩增核酸引物或引物对。在另一个实施方案中，配体为与基因的mRNA或miRNA核酸序列杂交的多核苷酸探针。在另一个实施方案中，组合物含有抗体或抗体片段，每种配体对表1、表2或表3的至少一个mRNA或一个miRNA具有特异性。

在另一个实施方案中，组合物还包含所述配体固定在其上的基板。在另一个实施方案中，组合物包含微阵列、微流体卡、芯片、腔室或多个探针的复合物。在另一个实施方案中，组合物包含含有多个探针序列的试剂盒，每个所述探针序列能够与表1的排序为1至119的mRNA和miRNA、或表1的所有靶标、或表2的一些或所有靶标和/或表3的一些或所有靶标中的一个mRNA和一个miRNA杂交。在另一个实施方案中，试剂盒包含能够与相同的mRNA或miRNA杂交的另外的配体。在又一个实施方案中，试剂盒包含多种所述配体，其各自包含多核苷酸或寡核苷酸引物-探针组。在另一个实施方案中，试剂盒包含引物和探针两者，其中每个所述引物-探针组扩增不同的基因转录物或miRNA。

在另一个实施方案中，组合物包含与可检测标记相关联的一种或多种多核苷酸或寡核苷酸或配体。

在另一个实施方案中，组合物能够检测受试者的全血中相同的选定基因和miRNA的表达、表达水平或活性相比于参考或对照的变化，其中所述变化与肺癌的初始诊断、肺癌的分期、肺癌的类型或分类、肺癌的复发、肺癌的消退、肺癌的预后、或肺癌对手术或非手术疗法的反应相关。在另一个实施方案中，肺癌是非小细胞肺癌。

在另一个实施方案中，组合物能够检测受试者的血液中相同的选定基因中的表达相比于参考或对照的表达的变化，其中所述变化与肺癌的诊断或评估相关。

在另一个实施方案中，诊断或评估包括以下一种或多种：肺癌的诊断、肺癌分期的诊断、肺癌的类型或分类的诊断、肺癌复发的诊断或检测、肺癌消退的诊断或检测、肺癌的预后、或肺癌对手术或非手术疗法的反应的评估。在组合物的一个实施方案中，配体为RNA引物。

在另一个实施方案中，组合物是包含至少两种配体的试剂盒或微阵列，至少一种配体鉴别当受试者具有肺癌时在表达上具有改变的选定基因的mRNA转录物，且至少第二配体鉴别当受试者具有肺癌时在表达水平上具有变化的miRNA。

本发明的另一个实施方案是用于诊断哺乳动物受试者中肺癌的存在或评估该肺癌的方法，包括鉴别在哺乳动物受试者的生物流体中选自表1的排序1至119、表1的所有靶标、表2的一些或所有靶标和/或表3的一些或所有靶标的基因转录物和miRNA的表达的变化，以及比较所述受试者的mRNA和miRNA表达水平与来自参考或对照的相同生物样本中的相同mRNA和miRNA的水平，其中受试者的mRNA和miRNA基因的表达相比于参考的相应表达的变化与肺病或肺癌的诊断或评估相关。

在一个实施方案中，该方法使用本文所述的多分析物组合物。在另一个实施方案中，该方法允许诊断或评估以包括以下一种或多种：肺癌、良性肺结节的诊断、肺癌分期的诊断、肺癌的类型或分类的诊断、肺癌复发的诊断或检测、肺癌消退的诊断或检测、肺癌的预后、或肺癌对手术或非手术疗法的反应的评估。

在另一个实施方案中，该方法的诊断或评估包括早期肺癌的诊断。

在另一个实施方案中，该方法允许检测变化，该变化包括与所述参考或对照相比较一种或多种选定基因转录物的上调或下调和与所述参考或对照相比较一种或多种选定miRNA的上调或下调的组合。在另一个实施方案中，在该方法中使用的基因转录物和miRNA选自表1、2和/或3中列出的那些。在另一个实施方案中，肺癌是I期或II期非小细胞肺癌。

在更进一步的实施方案中，受试者已经经历了实体瘤切除的手术或化疗；并且其中所述参考或对照包含来自手术前或治疗前的相同受试者的相同选定基因转录物和miRNA；并且其中所述选定基因转录物和miRNA的表达的变化与癌症复发或消退相关。在其它实施方案中，参考或对照包括至少一个参考受试者，所述参考受试者选自由以下组成的组：(a)具有恶性疾病的吸烟者、(b)具有非恶性疾病的吸烟者、(c)具有非恶性疾病的曾吸烟者、(d)没有疾病的健康非吸烟者、(e)具有慢性阻塞性肺部疾病(COPD)的非吸烟者、(f)具有COPD的曾吸烟者、(g)手术去除实体肺肿瘤之前的具有实体肺肿瘤的受试者、(h)手术去除实体肺肿瘤之后的具有实体肺肿瘤的受试者、(i)治疗实体肺肿瘤之前的具有实体肺肿瘤的受试者、以及(j)在治疗实体肺肿瘤期间或之后的具有实体肺肿瘤的受试者，其中所述参考或对照受试者(a)-(j)为在时间上更早的时间点的相同测试受试者。在其它实施方案中，参考mRNA或miRNA标准是来源于参考受试者或参考群体的平均数、平均值、数值平均数或数值平均数的范围、数值模式、图形模式或组合mRNA和miRNA表达谱。

在其它实施方案中，该方法中使用的生物样本是全血、血清或血浆。

在又一个实施方案中，该方法包括使来自受试者的生物样本与诊断试剂接触，该诊断试剂与样本中的选定mRNA复合并测量选定mRNA表达水平，并使来自受试者的生物样本与诊断试剂接触，该诊断试剂与样本中的miRNA复合并测量miRNA表达水平，其中表达水平的组合变化是对癌症或其分期的诊断。

在另一个实施方案中，选定的miRNA和mRNA在选自以下的病状中的两种或更多种中差异表达：没有吸烟史没有肺病、有吸烟史没有肺病、肺癌、慢性阻塞性肺部疾病(COPD)、良性肺结节、肿瘤切除前的肺癌和肿瘤切除后的肺癌。

在另一个实施方案中，产生诊断试剂的方法包括形成疾病分类谱，形成疾病分类谱包括检测哺乳动物受试者的生物流体的样本中疾病特有的选定mRNA和miRNA序列的表达的组合变化。

提供以下实施例仅用于说明的目的，并且本发明决不应被解释为限于这些实施例，而是应被解释为涵盖由于本文提供的教导而变得显而易见的任何和所有变化。

实施例1：样本大小计算

该计算基于图1中所述的PAXgene数据。我们使用来自23个癌症患者和25个对照的当前PAXgene数据集的数据来设计在测试集上达到期望的90％准确度所需的样本大小。我们随机选择了24至44个样本的不同大小的训练集，这相当于所有样本的50％至90％。样本大小以增量2逐渐增加，以允许在每一步骤增加一个癌症样本和一个对照样本。对于每个给定的样本大小，进行50次重新采样。

然后对每个训练集进行t检验以鉴别按p值排序的前100个基因。基因列表通过去除任何低表达子(表达不超过癌症和非癌症组中所有样本的平均背景水平的两倍)进一步减小。

然后使用剩余58个基因以聚集所有的样本，包括最初出于测试目的而留存的那些样本。我们使用标准的Euclidean距离和完全连锁作为分层聚类的尺度。通过在树中创建单一水平切割以鉴别两个簇而将树分配成两个簇(36)，一个簇具有大多数癌症，另一个簇具有大多数非癌症。留存样本被分配到两个簇中的一个，其中癌症簇定义为包含大多数癌症样本的簇。

使用被错误分类的留存测试样本的数量来计算误差率(e＝错误分类的数量/总数)。然后计算每个具体训练集大小的50次迭代的中值误差率和中值绝对偏差。类似于先前描述的过程，幂函数曲线被拟合到来自中值误差率的数据，并且获得该线的公式以估计训练所需要的样本的需要数量以对于留存测试样本实现期望的90％的准确度，如图1中所示。计算指示，通过使用包含在患者和对照之间分流的大约500个样本的训练集，可以对新测试集实现90％的分类准确度。

实施例2-RNA纯化和质量评估

用于基因和miRNA阵列处理的RNA纯化使用标准程序如Genomics Core的常规服务进行。使用允许同时纯化mRNA和miRNA的得自Qiagen^TM的标准商购获得的试剂盒制备PAXgene RNA。所得RNA用于mRNA或miRNA谱分析。

RNA质量使用生物分析仪测定。仅使用RNA完整性数值>7.5的样本。恒定量(100ng)的总RNA使用Illumina批准的RNA扩增试剂盒(Epicenter)扩增(aRNA)。该程序提供对于多次重复基因和miRNA表达足够的扩增材料。如果将在晚些时候用替代的收集系统采集较小的样本，则可以使用低至10ng的RNA量。

实施例3-数据预处理、阵列质量控制、探测过滤

阵列数据通过Illumina’s Bead Studio处理，且导出信号和对照探针的表达水平以便分析。为了降低实验噪音，通过去除非信息探针(在所有样本的大于95％中未检测到的探针)和在任何两个样本之间变化不到至少1.2倍的探针来过滤数据。然后将表达水平分位数归一化。这些程序产生分位数归一化的数据，而非信息性探针数据被去除。

在每个杂交批次之后，我们使用所有信号探针(>40,000)的表达水平计算gene-wise全局相关性作为在所有微阵列上的中值Spearman相关性，并计算全局相关性的中值绝对偏差。对于每个微阵列，中值Spearman相关性相对于所有其它阵列计算，且中值相关性与全局相关性相差超过八个绝对偏差的阵列被标记为异常值，并且不用于进一步分析，通常小于PAXgene样本的1％。异常值的进一步鉴别通过多元统计如普通或稳健主成分(PCA)绘图和多维标度来完成。

对于miRNA表达，选择了来自ABI(Life Sciences)的OpenArray平台进行该研究。OpenArray纳流PCR平台允许科学家同时进行多达3072项独立的PCR分析，并且已经被用于临床应用，并使用消除变异性的机器人站。考虑用于该过程的另外平台是来自NanostringTechnologies,Inc.(Seattle,WA)的nCounter System。简而言之，该系统使用数字彩色编码条形码技术。彩色编码的分子“条形码”被附接到靶标基因的单一靶标特异性探针上。条形码与靶标分子直接杂交，并且可以单个地计数，而不需要扩增。使用这类条形码探针和对照的集的单分子成像允许检测和计数在单一反应中的许多独特的转录物。参见，例如在网站www.nanostringtechnology.com上获得的NanoString Technology的描述。对于miRNA数据预处理和OpenArray质量控制，使用购自ABI的OpenArray试剂根据ABI方案处理总RNA。使用MATLAB如下预处理来自OpenArray的数据：使用小核RNA、RNU44和RNU48(RNU_avg)的平均循环阈值(Ct)作为内源对照(管家基因)以归一化样本的表达水平并计算每个miRNA的相对量(ΔCt)。如制造商(和我们的设施)的建议，Ct值限制为24，且最大ΔCt值将等于ΔCt₂₄(其中ΔCt₂₄＝24-RNU_avg)。超过ΔCt₂₄的ΔCt值被认为是不可靠的，并将被置于用于比较分析的ΔCt₂₄值底部。然后通过计算2^ΔCt24-ΔCt将ΔCt值转化成绝对表达水平。所有反应都一式三份地进行。所有测定都使用高度标准化条件进行。出于统计学考虑，从具有或没有肺结节的非癌症患者和具有肺癌的患者收集样本。基于先前PBMC研究的结果，假设将从600个PAXgene样本(组合具有或没有肺结节的患者)鉴别出更好的基因组以区分癌症与所有非癌症。样本大小和幂估计都基于该假设。

在临床实践中，区分癌症与具有真正非恶性结节的患者将更为直接重要。基于先前的经验，用于分类癌症和非恶性结节的潜在基因组在某种程度上将与鉴别用于分类癌症和所有非癌症的基因组不同。有几种方法来确定用于分类的基因组。一种传统的方法是我们用于初步PAXgene研究的程序，通过如对于初步PAXgene研究使用Benjamini和Hochberg,J.Royal Statis Soc.,Series B,第57卷(1):289-300(1995)所述的t检验，调节p值，其中p<.05，且具有最低p值的50-100个基因被选择进行分层聚类，但是这对于大数据集来说并不有效，而对此已经成功地替代使用SVM-RFE。

实施例4-对基因选择的监督分类

已经发现具有递归特征消除的支持向量机(SVM-RFE)(参见，WO2010/054233)被最成功地应用于开发区分临床定义的类别(例如，癌症/非癌症/良性结节)的基因表达分类器，这些临床定义的类别共有许多混杂的相似之处(吸烟史、肺部疾病、年龄、种族等)。与许多其它监督方法不同，SVM具有选择生物标志物的优点，因为基因按照它们对类别分离的贡献排序，所以可以鉴别出对于分离最有用的基因。通过RFE的迭代过程来减少有贡献的基因，以找到提供最准确的类别差别的最少数量的基因。另外，每个样本都被给予了一个正或负的分数，该分数将其分配到一个类别或另一个类别，并且是衡量该样本如何被特定类别在多大程度上鉴别出来的量度，如图1中所示。在我们的研究中，阳性被定义为癌症，而阴性是非癌症。正分数越高或负分数越低定义每个样本被在多大程度上分配到特定类别。该过程在下文更详细地描述。

样本分类使用SVM-RFE进行，其中进行随机十倍重采样且交叉验证重复10次(产生100个基因的排序)。每个交叉验证迭代开始于根据t检验最显著的1,000个基因，并且在每个特征消除步骤中使基因的数量减少10％。使用Borda计数程序进行基因的最终排序。在每个交叉验证和基因减少步骤中记录每个测试样本的分类分数，直至单一基因。确定产生最佳准确度的基因的数量，并且与最高准确度的点相关联的所有基因构成初始鉴别器。然后尽可能地减小该鉴别器而不损失准确度以到达最终鉴别器。使用SVM-RFE，交叉验证步骤对于避免过度拟合至关重要。

对于验证程序，为了进一步确保分类器的通用性，从分析中扣留所有患者的25-30％，从而形成独立的验证集。独立验证样本使用从训练集中的70-75％样本的分析得出的候选基因进行分类。在每个步骤中，鉴别器幂计算的灵敏度和特异性被重新评估以定义所需的端点。

分类策略的主要强度和创新之处在于结合包括mRNA和miRNA的多种数据类型，以优化鉴别力，并实现在基因调控的这些不同水平之间的协同作用。这种多模式分析为癌症诊断提供了巨大的潜力。因此，mRNA和miRNA既可以独立使用，也可以作为合并数据集使用，以鉴别仅使用一种类型的数据或产生来自合并所有可用信息的益处的最佳鉴别器。来自每个平台的数据被单独地定量、归一化并通过先前应用于mRNA的无监督分类技术进行分析。

来自这些技术中的每一种的数据都是定量的差异表达的特征，通过t检验进行分析，并且每种类型的数据的重要特征单独地和作为组合数据集两者通过SVM-RFE进一步分析。预料到最紧凑的特征集包含两种类型数据中的一些。特别地讲，单一信息miRNA可能是详尽的信息，并因此置换其调控的许多mRNA种类。可以进一步分析由SVM-RFE确定的包含在鉴别器中的基因或miRNA的集，以鉴别区分被比较的任何给定两组样本并具有鉴别新型治疗靶标的潜力的常见功能或途径。

诊断算法的开发和实施：

基于先前公布的基因标签，鉴别出大于30种基因探针和/或少于20种miRNA探针的标签。单独地评估mRNA和miRNA的分类准确度，其中每种数据类型被归一化且单独地处理。OPENARRAY系统使我们能够开发可以在高通量平台上测试候选基因的定制阵列。此外，NANOSTING平台为进一步测试和实施商业测试提供了简单稳健的系统。mRNA和miRNA平台两者最终产生一个数字，其是衡量样本中存在多少该实体的量度。这意味着用于分类的最终数据可以组合成一个矩阵并作为单一分类器使用。样本类别、分析策略和样本数量及其亚型汇总在表4中。

表4：用于各种分析的样本的数量的汇总

*(A集)345个样本被明确地分配为用于训练和测试的癌症(LC)或对照(NOD或SC)。

**(B集)70个样本，具有不明显的表型。这70个样本包括肺切除后的样本和来自后来发展为LC的结节患者的样本，因此癌症标签的状态基本上是未知的。LC对比NOD的比较还包括65个SC样本，这些样本没有用于训练测试，而可用于分类。

在分析的总共415个样本中，345个样本被明确地分配到癌症(LC)或对照(NOD或SC)标记(A集)并用于训练和测试目的。剩余的70个样本包括具有不明显表型的样本(B集)：肺切除后的样本和来自后来发展为LC的结节患者的样本，并且通过对345个明确分配的样本(临床上确认为病例或对照，但不包括切除后的样本)开发的分类器用于进一步分类。来自两集的样本被随机分成70％作为训练集(242个样本，A集)和留出的30％作为测试集(103个样本，A集)。

使用训练集以通过SVM用10倍交叉验证惯例使用径向基函数(RBF)内核和前向特征选择(FFS)发现最佳分类器，在每一步骤中挑选改善总体训练准确度的一项最佳特征(基因或miRNA)。另选地，尝试使用过去8年成功使用的线性核和递归特征消除(RFE)，但是使用RBF核的前向特征选择对初步训练集给出了更好的准确度。然后选择对于提供最佳训练准确度的特征的数量构建的分类器作为最终分类器，并将其应用于独立的预留测试集以估计其无偏准确度。

使用描述的分类器开发过程，我们使用三个数据集来生成用于比较的三个不同的分类器：(1)仅使用mRNA数据；(2)仅使用miRNA表达数据；和(3)分析组合mRNA和miRNA数据。每个数据集/分类分析产生基于测试集性能并且包括准确度、灵敏度、特异性和在ROC曲线下的面积(AUC)的报告。结果列于表5中。

表5：区分肺癌患者(LC)与良性结节患者(NOD)和没有结节的吸烟对照(SC)的初步准确度、灵敏度和特异性。*

*用于分析的数据仅使用基因表达(mRNA)，仅使用miRNA表达和使用mRNA+miRNA表达(两者)来呈现。NOD＝结节，SC＝没有结节的吸烟对照。**靶标(全部)来自表2。***靶标(全部)来自表1。

根据该表，最佳准确度通过同时使用mRNA数据和miRNA数据两者(总共145个特征)的一般癌症对比所有对照的分类器(83％准确度)实现，这证实了在相同分类中使用两个平台的优点。用于组合分类器的ROC AUC示于图2中。

来自由分类器分配的独立测试集中的每个样本的单个分数显示在图3的SVM曲线图中，其中每个样本都收到由SVM分类器分配的分数。正分数指示分类为癌症，而负分数指示分类为对照。每列代表一名患者，且列的高度可以解释为分类的强度或可靠性的量度。所显示的分类使用经典的0截断点进行分类。该曲线图示出最大化敏感度为92.6％、特异性为73.5％的截断值。

图4示出该方法的初步结果：在ABI OpenArray PCR平台上使用IlluminaHT12v4mRNA阵列和miRNA处理和分析345个样本。为了确保完全独立的测试集，242个样本(70％)为训练集，而103个样本(30％)为测试样本。

包括2015年5月19日提交的美国临时专利申请号62/163,766的每个和每一个专利、专利申请以及包括整个公开内容中引用的网站出版物都通过引用整体明确地并入本文。虽然已经参考具体实施方案公开了本发明，但显而易见的是，本领域技术人员在不脱离本发明的真实精神和范围的情况下设计本发明的其它实施方案和变型。所附权利要求包括这样的实施方案和等同变型。

序列表

<110> The Wistar Institute of Anatomy and Biology

<120> 用于诊断或检测肺癌的方法和组合物

<130> WST155PCT

<150> US 62163766

<151> 2015-05-19

<160> 292

<170> SIPOSequenceListing 1.0

<210> 1

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 1

caaagaauuc uccuuuuggg cu 22

<210> 2

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 2

gattgcaggg tccgccttct caaaccccac ttcctggacc acatcatcca 50

<210> 3

<211> 21

<212> RNA

<213> 智人(Homo sapiens)

<400> 3

uaaagugcug acagugcaga u 21

<210> 4

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 4

cagugcaaug uuaaaagggc au 22

<210> 5

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 5

gtcccaaaga gtttgatgag gccctccaca cctgcggccc aatccaaggt 50

<210> 6

<211> 21

<212> RNA

<213> 智人(Homo sapiens)

<400> 6

uaccacaggg uagaaccacg g 21

<210> 7

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 7

tcaacgccag gaatcatgaa gagacttctg cttttcaacc cccaccctcc 50

<210> 8

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 8

tctggaggct gggaagtcca agatcaaggc gtcagaagat tcattgtctg 50

<210> 9

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 9

uagcuuauca gacugauguu ga 22

<210> 10

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 10

gcctgaggtg acagacaggg caggtggtaa caaaaccgtt gaacctccca 50

<210> 11

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 11

aagctgttga aggtgagggt ggtgtacgaa gtgccactgt tcctgtaagc 50

<210> 12

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 12

agaaggaggg tttctggctg tggttctaaa tggagcccca ggaagctgcc 50

<210> 13

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 13

cactgtcgtc cttcctcaga gggcctcacg ccaaacaaac ggccttttcg 50

<210> 14

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 14

gctaacatcc attccctttc ataccaccat tttcaccctg tttcttcccc 50

<210> 15

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 15

ggtccaggtg aatctcgtca taagtgatct caggctctca caggatccgg 50

<210> 16

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 16

aaactcaagg actgcgtgac cgacacaatg acccccgagg agacagaggc 50

<210> 17

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 17

ccttgctgcc tacccttttc tctcctctgg ttctcaacct caacgagttc 50

<210> 18

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 18

ccaaacactc tccctaccca ttcctgccag ctctgcctcc ttttcaactc 50

<210> 19

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 19

caggttgcaa tatgaggact tctctgtctc ctctgaagcc tgggacactg 50

<210> 20

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 20

gaaagaaatg agcagctttg gataatgacg acagcaaccc gaagacaggg 50

<210> 21

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 21

gctcgtgtgc tacaatggca gagttgagca gtggtgacaa accatgcgac 50

<210> 22

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 22

gccaagtgcc atttggggtc agcatcctcg tttcaacaca gtgtgctctc 50

<210> 23

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 23

gtcagtccaa ggaggtatgt tcttccacaa cagccttctc agcctctgct 50

<210> 24

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 24

cagaagaggg agacctggag accgttacga cggcatggtt ggtttcagtg 50

<210> 25

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 25

gcttgctgct ttctggctaa tgaaagccaa ggactatcca gcacacacag 50

<210> 26

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 26

gcaggtcatg cacacagttt tgataaaggg cagtaacaag tattggggcc 50

<210> 27

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 27

gactggcaag gtttcctaga gctctactta cagaacagcc ctgaggcctg 50

<210> 28

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 28

gcctgccgga tgatgaatgg catgaagctg agtggccgag agattgacgt 50

<210> 29

<211> 23

<212> RNA

<213> 智人(Homo sapiens)

<400> 29

agcuacauug ucugcugggu uuc 23

<210> 30

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 30

tgtctgtcat tgtggcccgt ttcacactgt ctctatatct gtttcccctg 50

<210> 31

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 31

agtcttcatc tgtccgacaa gttcactcgc ctcggttgcg gacctaggac 50

<210> 32

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 32

gccgcctcgc aagctcttgt tttctaaccc caccttctgg gagccgtgtt 50

<210> 33

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 33

gtcatgatct gctcggaatc ctcctgctaa agaaggctct gggcgtgagc 50

<210> 34

<211> 21

<212> RNA

<213> 智人(Homo sapiens)

<400> 34

aauggcgcca cuaggguugu g 21

<210> 35

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 35

ggagtatggg agagagggac tgccacacag aagctgaaga caacacctgc 50

<210> 36

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 36

ccaccccatt cggttcttct gcctgacctt caaatgccca tgttggcctt 50

<210> 37

<211> 21

<212> RNA

<213> 智人(Homo sapiens)

<400> 37

uccgguucuc agggcuccac c 21

<210> 38

<211> 23

<212> RNA

<213> 智人(Homo sapiens)

<400> 38

aaaagugcuu acagugcagg uag 23

<210> 39

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 39

agactcctcc agaccaggaa ccccagaagg agacagagcc tgccacatcc 50

<210> 40

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 40

ccggaaagtc taccaagctg tgcggcacaa taaagccacg gaaaacaagg 50

<210> 41

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 41

cacctgtggg cagtgggcag tgtcttggtg aaagggagcg gatactactt 50

<210> 42

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 42

gaggccaggc tgaaatgtca tatctgaagg aagaaagcag cagctggaca 50

<210> 43

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 43

cagcgttaat cctgtatggc caggaaactg agtagactcc tgtgtaaccc 50

<210> 44

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 44

ctgatctcag tgtctggttt gctgggtacc cttctgctca tcatcctgac 50

<210> 45

<211> 17

<212> RNA

<213> 智人(Homo sapiens)

<400> 45

ucucgcuggg gccucca 17

<210> 46

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 46

atcgggagga cctgtatgcc tgaccgtttc cctgcctcct gcttcagcct 50

<210> 47

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 47

ggtgaccagc agagtggtta tgggaaggta tccaggcgag gtggtcatca 50

<210> 48

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 48

taagattgct agggaaaagg gccctatgtg tcaggcctct gagcccaagc 50

<210> 49

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 49

agctgccctc attccgactt cagaaaatcg aagcagctgg cgcctcccct 50

<210> 50

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 50

ggauaucauc auauacugua ag 22

<210> 51

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 51

cctctcgcct ggaggatctg tgccatcttg gattgagaat tgcagatgtg 50

<210> 52

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 52

ttcaccatcg tcttcaatgc ccatgagcct ttccgccggg gtacaggtgt 50

<210> 53

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 53

gaatccgatg gtcctcgaaa catggaaagt ctgctgtcac gctgcacgcc 50

<210> 54

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 54

tgccggaagt cactaccaag gatcgataca catttaggaa agccagcact 50

<210> 55

<211> 23

<212> RNA

<213> 智人(Homo sapiens)

<400> 55

caaagugcuc auagugcagg uag 23

<210> 56

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 56

ggagagggtg acctggctgc tggtttacca ctgtaccaac atctctggag 50

<210> 57

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 57

gggcttttac tttggagcac tctgtgtgaa gctgtttggt ggaacccatg 50

<210> 58

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 58

gggcttttac tttggagcac tctgtgtgaa gctgtttggt ggaacccatg 50

<210> 59

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 59

cctgaactga tgggtttctc cagagggaat tgcagagtac tggctgatgg 50

<210> 60

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 60

gcugacuccu aguccagggc uc 22

<210> 61

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 61

gcttcttacc tgtgcgggag cgaaaaagct gggcttcaac atggcaggtc 50

<210> 62

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 62

ugagguagga gguuguauag uu 22

<210> 63

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 63

cactctatgg gaaactcttc agcacctacc tgcgcccccc acacacctct 50

<210> 64

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 64

cccagcccta gatgtatcca agccctccta ccctcaccag ttatttctgg 50

<210> 65

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 65

ctccaaatgt caaaggcaag ctgggcatca tgatctggca taaagaaccc 50

<210> 66

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 66

gcccagggcc gccctagcaa cttcctgtac atatgactgt aaaatggtaa 50

<210> 67

<211> 23

<212> RNA

<213> 智人(Homo sapiens)

<400> 67

uaaagugcuu auagugcagg uag 23

<210> 68

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 68

ccccgagttt tgcccatatc aggacagtgg ctccttctca ctcccctttc 50

<210> 69

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 69

gcggcacagt cccacttccc catctcccca agtaggtggt gttagaaaac 50

<210> 70

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 70

gaaagcggcc tcatgaaggg gaagccaagg gtgccgagac cacaaagcgc 50

<210> 71

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 71

agtcgtcctt ccctggtgcg cagcccaggc ctgtgggtcc agcctcaccc 50

<210> 72

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 72

atggccatga cccagaagta tgaggagcat gtgcgggagc agcaggctca 50

<210> 73

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 73

gcctgaggga ccgcagactc gtcgggctgc tttctgatga gaggattaac 50

<210> 74

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 74

ggaaagtgaa gatgcagagt tactgtggcg tttggcacgg gcatcacgtg 50

<210> 75

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 75

accgatcttt ctctgtctca ccaacctgac aaaaaaggtg tgccaaggga 50

<210> 76

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 76

acgatgccag actcatgttt ggagatggaa ctcagctggt ggtgaagccc 50

<210> 77

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 77

cctcaaggag atgcctctgg tccaggcttt gtaaacttgg gccttccagc 50

<210> 78

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 78

gtagcactgt tctggttctg tttgcacgcc agtggggaga gaataaagag 50

<210> 79

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 79

gggcagtaca gggccagatc cacggcaggc acagggcaaa gccaggccca 50

<210> 80

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 80

ccaaggaatg cactaagcct tcagtctttt tagactgaca gtactggcag 50

<210> 81

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 81

ctatacccat tcccaggcct aagccagcct ctccctcctg acagtgccca 50

<210> 82

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 82

gaggcatggg ccaggtaaaa attgggccta gagtgaagac tgtgctgtcg 50

<210> 83

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 83

ggctggggtg agggctggtg gttggtgaaa gccattctta gttgtgtctc 50

<210> 84

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 84

aauugcacgg uauccaucug ua 22

<210> 85

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 85

gtcagatctc ccctccacca gccaggatcc tccttctagc tcatctgtag 50

<210> 86

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 86

gtgagccaaa atggcgctac tgcactccag accggggaca gagtgagact 50

<210> 87

<211> 18

<212> RNA

<213> 智人(Homo sapiens)

<400> 87

gucccuguuc aggcgcca 18

<210> 88

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 88

aggagagagg tttgagttct gggtatcctc cctttctgta acagcctcaa 50

<210> 89

<211> 21

<212> RNA

<213> 智人(Homo sapiens)

<400> 89

cauuauuacu uuugguacgc g 21

<210> 90

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 90

ctttggtccg gcaacttcaa caacagctct ctaataccca gccacagccc 50

<210> 91

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 91

ccagccatcc cattactggg taggtaccca aatcatgctg ctataaagac 50

<210> 92

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 92

cccagggcat tcagggctgg ttcagacacc attattgtga gcagcaaagc 50

<210> 93

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 93

ccgccggtgc catatgattt agaggaagat gcaggctggt cactgctccc 50

<210> 94

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 94

tcaagtcaac cctgagcagt atggggatga gtgatgcctt cagccaaagc 50

<210> 95

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 95

cataccaccc tttggtggga ggaaactaaa aatatagcaa atgcagaacc 50

<210> 96

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 96

ccuguucucc auuacuuggc uc 22

<210> 97

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 97

ctagacgctg gcactatggt catggcggag gggacggcag tgctgaggcg 50

<210> 98

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 98

cttttcgcag atgctgggaa cgcagctctg ctgccggcgg ggtggacaga 50

<210> 99

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 99

tcgtccgcat ggtgctgaat ggctgaggac cttcccagtc tccccagagt 50

<210> 100

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 100

ggatccacat ggtcttgagg gttggcatga ggagggggaa gcttttttga 50

<210> 101

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 101

aatgctgcag ttcctgatga gatcccccct ctcgagggcg atgaggatgc 50

<210> 102

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 102

gtggtagatc acttgaggtc aagagttgtg acaccagcct ggccaacctg 50

<210> 103

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 103

caaatatcat ggaggtccct ggattgaaaa aagagcctct cccactcctc 50

<210> 104

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 104

ccctgccccc aaactggcta agacagcttt cagttcctga ctccccaact 50

<210> 105

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 105

ctgagacggg caagtggttg ctccaggatt actccctcct ccaaaaaagg 50

<210> 106

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 106

ctctggcctc tgggtcccac cacccagccc cccgtgtcag aacaatcttt 50

<210> 107

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 107

tcctcgctaa ctgacattag cccattcagg tcttcacagc gctcatactg 50

<210> 108

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 108

ccccaacttc gccctgccca cttgacttca ccaaatccct tcctggagac 50

<210> 109

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 109

tgggggattt ttcagtggaa cccttgcccc caaatgtcga ccagccccca 50

<210> 110

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 110

gtaaccggtc tgcttttgcg taagccaaac acctacccaa aaatgattcc 50

<210> 111

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 111

ggccagtttt atgaagcttt ggaaggcact atggacagaa gctggtggac 50

<210> 112

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 112

ctatggagag cagccgacac cccctcttac agccgtggat gtttcctgga 50

<210> 113

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 113

ggccacggtg ctggtgtcgc tggtggagaa cggccaggcc ccaaagacgt 50

<210> 114

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 114

agtgtaccta tttacagaaa gattaaactg ccacctgcgg gcacattccc 50

<210> 115

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 115

tactgaagtc cctttgtgcc agtggatcct ggagggcctg gggctgggca 50

<210> 116

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 116

cgccgatatc tctgccgggt gactagctgc ttcctttctc tctcgcgcgc 50

<210> 117

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 117

cgactgccag ggccttagac tccacatgtc catttttgtt caggtatagc 50

<210> 118

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 118

ctcgggcatc cttcccaggg ttgggtctta cacaaataga aggctcttgc 50

<210> 119

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 119

uuauaaagca augagacuga uu 22

<210> 120

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 120

ccacagcctg tttctccctt ggattccaag ttccccatag accattccct 50

<210> 121

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 121

ccctcaactg cctttccacc acctatgatg ttggggtttc agaaaaggtg 50

<210> 122

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 122

ccacagacac cctaccgata gaacagtggc tcagatctta cttgctcctg 50

<210> 123

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 123

tacgagaccc tccctgctga gatgcgcaaa ttcactcccc agtacaaagg 50

<210> 124

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 124

gtgctgttcc actcttggct ccagcagacc cactgtccca gaaaagcctg 50

<210> 125

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 125

cccagctgaa cccgaggcta aagaagatga ggcaagagaa aatgtacccc 50

<210> 126

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 126

cagcagatca gtgggatgag ggagactgtt cacctgctgt gtactcctgt 50

<210> 127

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 127

cgtgggatct gcacacgtct ttgtcagttg tggtcatgat cttagtcacc 50

<210> 128

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 128

ggagtgtggc agacgttgtg cggttcatca gatccactga ctgtgctcca 50

<210> 129

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 129

tctgctggac tgatgtcttc tgcaggttgc agatcctgac catgggctgc 50

<210> 130

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 130

cgtcagtgcc ttcggactgt ctatttgacc tgcagtccag cctatggcct 50

<210> 131

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 131

acttgtccac ggtcctctcg gtgaccctgt tgggcagggc caagggacaa 50

<210> 132

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 132

cgcctaccga catgatcaga aaggctcatg ctttatccag accctggtgg 50

<210> 133

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 133

acatcgcccc ttctgcttca gtgtgaaagg ccacgtgaag atgctgcggc 50

<210> 134

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 134

cctgagccag aagtggggtg cttatactcc caaaccttga gtgtccagcc 50

<210> 135

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 135

aaattgaaca caaatgtggt ggagacggga cagggcaggt ggaaattcac 50

<210> 136

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 136

ggcagagaag gaggccaaga agccaaccat caagaagccc ctcaatgcct 50

<210> 137

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 137

cccaggctgg tcttacagcc tcaggcaatc ctctggtctt gacgtcccaa 50

<210> 138

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 138

aggccgagtg gtttgaggac gatgtcatac agcgcaagag ggagctgtgg 50

<210> 139

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 139

taacttccag gagttcctca ttctggtgat aaagatgggc gtggcagccc 50

<210> 140

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 140

cttcctgatt gacaacagtg ttagacaagg tgcaaagcga aactggttgc 50

<210> 141

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 141

agtgctcctg ttgcaggact gctgggaaaa caggtggtgt gggacttaag 50

<210> 142

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 142

cagccagtgc caacttcgct gccaactttg gtgccattgg tttcttctgg 50

<210> 143

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 143

gaagttgtca cctccctaca gctccccaca ggagtttgcc caggatgtgg 50

<210> 144

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 144

acagctttgc tactgcgaaa tcttggcttc actgccatcc ccctccatgg 50

<210> 145

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 145

ccccaccccc gcgttccgac cgctgaagct ccaaattcag gccttaaata 50

<210> 146

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 146

agagguagua gguugcauag uu 22

<210> 147

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 147

caaagaauuc uccuuuuggg cu 22

<210> 148

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 148

catttctgta aggcaatctt ggcacacgtg gggcttacca gtggcccagg 50

<210> 149

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 149

cctgtgcctt gccagtggga ttccttgtgt gtctcatgtc tgggtccatg 50

<210> 150

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 150

gaagcatacc cagggaagaa gctgttgccg gatgacccct atgagaaagc 50

<210> 151

<211> 21

<212> RNA

<213> 智人(Homo sapiens)

<400> 151

uaaagugcug acagugcaga u 21

<210> 152

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 152

cgacactgac tactgaccgt gcgggtgctc tcaccctccc ttctctccct 50

<210> 153

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 153

tctgtgccct ttatccgcac ttcccagctc acagcactga caaccggtga 50

<210> 154

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 154

gcacccagcg gaatgtgctt agtatttggt caccagccgt catcctgggc 50

<210> 155

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 155

cagaagaggg agacctggag accgttacga cggcatggtt ggtttcagtg 50

<210> 156

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 156

gcatctccag tgcctggaca gattccaatt cacagagcac aggtgccacc 50

<210> 157

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 157

gactggcaag gtttcctaga gctctactta cagaacagcc ctgaggcctg 50

<210> 158

<211> 23

<212> RNA

<213> 智人(Homo sapiens)

<400> 158

uaaggugcau cuagugcaga uag 23

<210> 159

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 159

tcaacgccag gaatcatgaa gagacttctg cttttcaacc cccaccctcc 50

<210> 160

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 160

gctcaaggct ggcaaaatcc caaaaccagg gccaaggagt ggacgcttct 50

<210> 161

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 161

ggctggagct gggagaggtg ctgagctaac agtgccaaca agtgctcctt 50

<210> 162

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 162

ccttgctgcc tacccttttc tctcctctgg ttctcaacct caacgagttc 50

<210> 163

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 163

ggcagtacag ggcaccatca ctgaccttcc cgaccactta ctctcctatg 50

<210> 164

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 164

ggatggcctg gaacccatgt cagtctctca ccacctccag cttcgatgat 50

<210> 165

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 165

ttgcttgtgt gcatgtgttg ggtgcatgct tccgggtctc agctgcccca 50

<210> 166

<211> 23

<212> RNA

<213> 智人(Homo sapiens)

<400> 166

ugagcgccuc gacgacagag ccg 23

<210> 167

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 167

gggccttatt tccactttgt aattccagcg agtcgacttc ccatcctgag 50

<210> 168

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 168

acttaaaaaa tacttcgttt atcacatctc aggaactaaa ctgggttaag 50

<210> 169

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 169

tgcaagggac agggggcctg actacccagt ctttgacttg tatcctctcc 50

<210> 170

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 170

tcacttggga gggacgcata gaaggagctc taggaacaca gtgccagtgc 50

<210> 171

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 171

gtgcctcagg ttaatggtga aaatacagag agacatgctc agccaccacc 50

<210> 172

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 172

gacctgactc cactcttaaa cctgggtctt ctccttggcg gtgctgtcag 50

<210> 173

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 173

tctgatcttc ctgcggctga accgcccggc tgagccgaca ttgccggcgt 50

<210> 174

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 174

tgaggctctg gtgctcaggg ggatggcttg ggccttttct ctcaaccttg 50

<210> 175

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 175

atccagagca tggagcccga ccccagccag cgccttccac tccatcattt 50

<210> 176

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 176

gagggactgt cgctgtgatc agagtgggtt aagctgacca ggaacaccca 50

<210> 177

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 177

ccgagggacg gggtcgtttt tctctgcgtt cagtggattt ccgtcttttg 50

<210> 178

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 178

aggatggcct ggaacccatg tcagtctctc accacctcca gcttcgatga 50

<210> 179

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 179

ugagguagua gguuguauag uu 22

<210> 180

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 180

gctaaggctg gtgtcccttt accaccaaac ctaaagcctg cacctccacc 50

<210> 181

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 181

ctctcctgct gggacaccgc ttgggctttg gtattgactg agtggctgac 50

<210> 182

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 182

gtgctctgta ccagtgctca tcatcccttc ttcataccaa cggtccctag 50

<210> 183

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 183

cttggcccga gcccctccgt gaggaacaca atctcaatcg ttgctgaatc 50

<210> 184

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 184

cctgctccac tggcccaaat cagtacccca atgttcttgc cttctgccca 50

<210> 185

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 185

taaggccctg cactgaaaat gcaagctcag gcgccggtgg tcgttgtgac 50

<210> 186

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 186

ccagtgtcac tatgatgtca gtgaggtctg gggatgagga cagtgtgtcc 50

<210> 187

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 187

cactgatttg acatagtctg gctgtaccca ggaatggagc ctgcacggtg 50

<210> 188

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 188

gtcagatctc ccctccacca gccaggatcc tccttctagc tcatctgtag 50

<210> 189

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 189

atcgagtcct acaatgctac cctctccgtc catcagttgg tagagaacac 50

<210> 190

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 190

gctggaacct gaagtctaaa caccattcct gctctccagc ttcctttccc 50

<210> 191

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 191

ctgcagctgg gagcctgctt tctgccagtc ttgaggttct gaagatcagc 50

<210> 192

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 192

ctgtacagtc atgtgccacg taacagcgtc tgggtcagtg acggacactt 50

<210> 193

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 193

tccctggaac tcaataactc atttcactgg ctctttatcg agagtactag 50

<210> 194

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 194

gtctggaggg aaatctggcg aaaccttcgt ttgagggact gatgtgagtg 50

<210> 195

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 195

cacctgtggg cagtgggcag tgtcttggtg aaagggagcg gatactactt 50

<210> 196

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 196

cggacgctgt tctaaaaaag gtctcctgca gatctgtctg ggctgtgatg 50

<210> 197

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 197

attgcctctg acgtctggtc ttttggagtc actctgcatg agctgctgac 50

<210> 198

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 198

gctgaggggt aagaggttgt tgtagttgtc ctggtgcctc catcagactc 50

<210> 199

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 199

ggaagccagg tgcctttaat ccactgtaac ctcacaactc caagtccaca 50

<210> 200

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 200

ctaggactgg gcccgagggt ggtttacctg caccgttgac tcagtatagt 50

<210> 201

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 201

ttccgtccaa caactctgta gagctctctg cacccttacc cctttccacc 50

<210> 202

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 202

cataccggct ggccacggga agcgatgata actgcgcggc attctttgag 50

<210> 203

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 203

gctcctgctg caaccgctgt gaatgctgct gagaacctcc ctctatgggg 50

<210> 204

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 204

cccctggagt ccgagaagga aaatggaatt ctggttcata ctgtggtccc 50

<210> 205

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 205

ccgccggtgc catatgattt agaggaagat gcaggctggt cactgctccc 50

<210> 206

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 206

ccaccccatt cggttcttct gcctgacctt caaatgccca tgttggcctt 50

<210> 207

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 207

ccggggcttc cacctgactt cctggactct gaggtcaact tattcctggt 50

<210> 208

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 208

agaaagggtt tttatggacc aatgccccag ttgtcagtca gagccgttgg 50

<210> 209

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 209

tcctcacagg acagaagcag agtgggtggt ggttatgttt gacagaaggc 50

<210> 210

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 210

uagcuuauca gacugauguu ga 22

<210> 211

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 211

ctttggtccg gcaacttcaa caacagctct ctaataccca gccacagccc 50

<210> 212

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 212

catatacgtg tgccgggtcc aggagggcaa cgagtcatac cagcagtcct 50

<210> 213

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 213

gctctgattt ccggggcagc ctttcagatg cggcagacat acaacacctg 50

<210> 214

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 214

ccctgccccc aaactggcta agacagcttt cagttcctga ctccccaact 50

<210> 215

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 215

cactgccgtc ccccaaggtc cagaatgtca gctcgcctca caagtcagaa 50

<210> 216

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 216

cacuagauug ugagcuccug ga 22

<210> 217

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 217

gcatcctcct gtgtatggaa gagacaggtg accgctccag gttgggtgct 50

<210> 218

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 218

gagccggggc accttgctgt tcgctgctgt gtcgtcttct aatgtgagct 50

<210> 219

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 219

agataggcca gagcgtggac gaggtggaga agctcatcaa gcgccacgag 50

<210> 220

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 220

tcacactggc gctaagccct acaagtgtca ggactgtgga aaagccttcc 50

<210> 221

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 221

cccctgtggg ggccaaagtt tttatgtggg cagatgctgt ggtcaggaac 50

<210> 222

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 222

caatggcgtg tacccatgta ttgcacaagg agtgtatcaa attctgggcc 50

<210> 223

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 223

gcaagtacag aaggaatcta ttctcagcag ggcatagggc acgcactggc 50

<210> 224

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 224

tcgggttcct gcgctgacac ctggtctgtg cacctgtgtt gctcacagtt 50

<210> 225

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 225

atgctgtctg tgtggaacaa gcgtcgcaat gaggactctc tacaggaccc 50

<210> 226

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 226

gagctctgaa gctttgaatc attcagtggt ggagatggcc ttctggtaac 50

<210> 227

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 227

tggctcccaa ctcctcccta tcctaaaggc ccactggcat taaagtgctg 50

<210> 228

<211> 51

<212> DNA

<213> 智人(Homo sapiens)

<400> 228

ctgctccgac agcagcccca ggaaatacgg gaatggttca gggaccaagt v 51

<210> 229

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 229

ctcctggaaa taaacaagct aattcctcta tgccaccagc tccagacagt 50

<210> 230

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 230

ggtgaccagc agagtggtta tgggaaggta tccaggcgag gtggtcatca 50

<210> 231

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 231

tgggcggggc aggcctcctt tgttctccac aatctactgt ctccgagtgt 50

<210> 232

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 232

gagctctaac ctctccccga cccctgcagt atctcccttt gttcagtctt 50

<210> 233

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 233

aggctttagc cctggaccca gcaggtgagg ctcggcttgg attattctgc 50

<210> 234

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 234

gatgacacct ttgaggccct gtgcatcgag ccgttttcca gcccgccaga 50

<210> 235

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 235

tgtactgtaa cctcacaact ccaagtccac agaatatttc aaactgcagg 50

<210> 236

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 236

gggagggcaa gctggattta caggtcacgg ctggactgaa tgggcctttt 50

<210> 237

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 237

tgaggtcagc agtttgtatg agacatagct tcctccattg cccccactcc 50

<210> 238

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 238

aacatcctcc tggcctctgt tgggtcagtg ttgggggcct gcttggggaa 50

<210> 239

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 239

ggcaccctgc ttcctttgct tgcatcccac agactatttc cctcatccta 50

<210> 240

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 240

gtcccaaaga gtttgatgag gccctccaca cctgcggccc aatccaaggt 50

<210> 241

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 241

cccctggatt gccccagtcc tgtgaccatg ttgccctgaa gaagaccatc 50

<210> 242

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 242

gctcctgcct ctctcccaac atgtttccag caagtagatg cccctgtgtg 50

<210> 243

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 243

tggcccagga gactgaccca aagtgaagga cattgccggg agaggcctgc 50

<210> 244

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 244

cttttgcttc aggctaagag ctgcctcgct ctttgtcccc ccattaggat 50

<210> 245

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 245

aggaggcgaa gcccgcagag caaaggtgga aacacgtgcc tacgctgtaa 50

<210> 246

<211> 23

<212> RNA

<213> 智人(Homo sapiens)

<400> 246

agcagcauug uacagggcua uga 23

<210> 247

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 247

agaaggaggg tttctggctg tggttctaaa tggagcccca ggaagctgcc 50

<210> 248

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 248

gcagtggtgt cgttcaccgt gagagtctgc atagaactca gcagtgtgcc 50

<210> 249

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 249

ccccattcgg tgtggtgcag tgtgaaaagt ccttgattgt tcgggtgtgc 50

<210> 250

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 250

tgcctctgcc cagctcccca ttcacacaca ccggcacttt cataccctga 50

<210> 251

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 251

cggctacagc ttcaccacca cggccgagcg ggaaatcgtg cgtgacatta 50

<210> 252

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 252

gccaagcctt tccctcccta cctgatcact gcttaacggc atgtataatg 50

<210> 253

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 253

aauugcacgg uauccaucug ua 22

<210> 254

<211> 21

<212> RNA

<213> 智人(Homo sapiens)

<400> 254

uaccacaggg uagaaccacg g 21

<210> 255

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 255

gtgctgggcc ggggagtccc tgtctctcac agcatctagc agtattatta 50

<210> 256

<211> 22

<212> RNA

<213> 智人(Homo sapiens)

<400> 256

gggagccagg aaguauugau gu 22

<210> 257

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 257

catgatggga tatccctgcc tagatctttc agtgagtctc tacctcagct 50

<210> 258

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 258

gagagaggac agttaggagg gacagacagc tcttcctttc ggagcctggc 50

<210> 259

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 259

cagtgtctca gtcttttttg ccgagaaagc acagtagtct gggactgggc 50

<210> 260

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 260

cagctcggag gaaggtctcc tatacacaca aagcctggca tgcaccttcg 50

<210> 261

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 261

gtaaccggtc tgcttttgcg taagccaaac acctacccaa aaatgattcc 50

<210> 262

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 262

tgactggtct cctaaccaag gtgcactgag aagcaatcaa cgggtcggtc 50

<210> 263

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 263

gctggttgaa aagtaccact cccactctga acatctggcc gtccctgcaa 50

<210> 264

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 264

gccctgacct tcatggtgtc tttgaagccc aaccactcgg tttccttcgg 50

<210> 265

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 265

aggagagagg tttgagttct gggtatcctc cctttctgta acagcctcaa 50

<210> 266

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 266

cccagctgaa cccgaggcta aagaagatga ggcaagagaa aatgtacccc 50

<210> 267

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 267

caccttggtg cccaccctag ctgttgctgt ctcctatgcc ttcatcctct 50

<210> 268

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 268

ctatactcct ttggcccata gctaaggtca tccttcccca caggggtggc 50

<210> 269

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 269

gagaacagaa atagtggcat tgcatgccca gcaagatcgg gcccttaccc 50

<210> 270

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 270

gctaacatcc attccctttc ataccaccat tttcaccctg tttcttcccc 50

<210> 271

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 271

catctggacc cctccccctc tatccctaac cctgtctaaa ctaatggcgc 50

<210> 272

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 272

tccgcccatg atgctgccca acggctacgt ctacggctac aattctctgc 50

<210> 273

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 273

ctcttatccc agctgcaagg acagtcgaag gatatgccac ctcggttttc 50

<210> 274

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 274

tggaagggac tgcagagaga acagtcgagc agtgaggaca ctgatgctgc 50

<210> 275

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 275

gcctgttctc tgccattccc tagtcatcct gtgcctcacc acagcttgct 50

<210> 276

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 276

ctgccctgct ggctggaaac ctggtagtga aacaataatc ccagatccag 50

<210> 277

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 277

gaccacgtcc agtgaagaca tttgaggcag cacatctcag gacccaggca 50

<210> 278

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 278

gcatctccac gctctgaagc tgtctttcaa aatgtgtgca ctgaccccct 50

<210> 279

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 279

agtcttcatc tgtccgacaa gttcactcgc ctcggttgcg gacctaggac 50

<210> 280

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 280

gatccatcac aaagcgaagt catgggagag ccacacttga tggtggaata 50

<210> 281

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 281

acaaagttgt tgagccttgc ttcttccgtt ttgccctttg tctcgctcct 50

<210> 282

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 282

ctgccccagc tacagagacg gccgaaatgc tttcactcct tagctttgcc 50

<210> 283

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 283

ggagaaagag ctctctatac actttgttcc cgggagctgt cggctggtgg 50

<210> 284

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 284

agctctgttc tgattcacca ggggtccgtc agtagtcatt gccacccgcg 50

<210> 285

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 285

gccagaggag accagaggct tgggttttga tgaaatccgg caacagcagc 50

<210> 286

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 286

tggcctttcc tacagggagc tcagtaacct ggacggctct aaggctggaa 50

<210> 287

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 287

gatgctgggc ccctcctcat ctccctcaag gatggctacg tacccccaaa 50

<210> 288

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 288

cctgggcatg gaatcctgtg gcatccacaa aactaccttc aactccatag 50

<210> 289

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 289

aagaagccga aggagccaca gccggaacag ccacagccaa gtacaagtgc 50

<210> 290

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 290

ccaccatcac cttgaccttc atcgacaaga acggagagac tgagctgtgc 50

<210> 291

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 291

ccataactgg agaaagaagc tccattgacc gaagccacag ggcagcatgg 50

<210> 292

<211> 50

<212> DNA

<213> 智人(Homo sapiens)

<400> 292

acctgaggcc cttaaccttt ctctcagtgc tcgccttccc ccagaatccc 50

Claims

1.一种用于诊断肺癌的多分析物组合物，其包含：

(a)配体，所述配体选自能够与来自哺乳动物生物样本的mRNA基因转录物特异性复合、与所述转录物杂交或鉴别所述转录物的核酸序列、多核苷酸或寡核苷酸；和

(b)另外的配体，所述另外的配体选自能够与来自哺乳动物生物样本的miRNA特异性复合、与所述miRNA杂交或鉴别所述miRNA的核酸序列、多核苷酸或寡核苷酸；

其中每种配体和另外的配体与不同的基因转录物或miRNA结合，且所鉴别的所述基因转录物和miRNA的组合表达水平形成肺癌或肺癌分期的特征谱。

2.根据权利要求1所述的组合物，其中所述基因转录物和miRNA选自表1或表2或表3。

3.根据权利要求2所述的组合物，其中所述基因转录物和miRNA选自表1的排序1至119。

4.根据权利要求1所述的组合物，其中每种所述配体是扩增和检测所述基因转录物或miRNA的核酸序列的扩增核酸引物或引物对、与所述基因的mRNA或miRNA核酸序列杂交的多核苷酸探针、或抗体或抗体片段，每种配体对表1或表2或表3中的至少一个mRNA或一个miRNA具有特异性。

5.根据权利要求1所述的组合物，其还包含所述配体固定在其上的基板、微阵列、微流体卡、芯片、腔室或多个探针的复合物，或包含多个探针序列的试剂盒，至少一个所述探针序列能够与表1、表2或表3的所述mRNA和miRNA靶标中的一个mRNA杂交且至少一个探针能够与一个miRNA杂交；或还包含能够与相同的mRNA或miRNA杂交的另外的配体的试剂盒；或包含多个所述配体的试剂盒，所述多个配体各自包含多核苷酸或寡核苷酸引物-探针组，并且其中所述试剂盒包含引物和探针两者，其中每个所述引物-探针组扩增不同的基因转录物或miRNA。

6.根据权利要求1所述的组合物，其中一种或多种多核苷酸或寡核苷酸或配体与可检测的标记相关联。

7.根据权利要求1所述的组合物，其中所述组合物能够检测受试者全血中相同的选定基因和miRNA的表达、表达水平或活性相比于参考或对照的变化，其中所述变化与肺癌的初始诊断、肺癌的分期、肺癌的类型或分类、肺癌的复发、肺癌的消退、肺癌的预后、或肺癌对手术或非手术疗法的反应相关。

8.根据权利要求1所述的组合物，其中所述组合物能够检测受试者血液中相同的选定基因中的表达相比于参考或对照的变化，其中所述变化与肺癌的诊断或评估相关。

9.根据权利要求1所述的组合物，其中所述配体为RNA引物。

10.根据权利要求1所述的组合物，其为包含至少两种配体的试剂盒或微阵列，至少一种配体鉴别当所述受试者具有肺癌时在表达上具有改变的选定基因的mRNA转录物，且至少第二配体鉴别当所述受试者具有肺癌时在表达水平上具有变化的miRNA。

11.一种用于增加在哺乳动物受试者中的测定的灵敏度和特异性的方法，其包括鉴别在哺乳动物受试者的生物流体中至少一种mRNA靶标和至少一种miRNA靶标的组合的表达相比于来自参考或对照的相同生物样本中mRNA和miRNA靶标的相同组合的表达水平的变化。

12.根据权利要求11所述的方法，其包括使用根据权利要求1所述的多分析物组合物。

13.根据权利要求11所述的方法，其中所述诊断或评估包括以下一种或多种：肺癌、良性肺结节的诊断、肺癌分期的诊断、肺癌的类型或分类的诊断、肺癌复发的诊断或检测、肺癌消退的诊断或检测、肺癌的预后、或肺癌对手术或非手术疗法的反应的评估、或早期肺癌的诊断或作为I期或II期非小细胞肺癌的肺癌的诊断；或者其中所述选定的miRNA和mRNA在选自以下的两种或更多种病状中差异表达：无吸烟史无肺病、有吸烟史无肺病、肺癌、慢性阻塞性肺部疾病(COPD)、良性肺结节、肿瘤切除前的肺癌和肿瘤切除后的肺癌。

14.根据权利要求11所述的方法，其中所述变化包括与所述参考或对照相比较一种或多种选定基因转录物的上调或下调和与所述参考或对照相比较一种或多种选定miRNA的上调或下调的组合。

15.根据权利要求11所述的方法，其中所述基因转录物和miRNA选自表1或表2或表3中所列的那些。

16.根据权利要求11所述的方法，其中所述受试者已经经历了实体瘤切除的手术或化疗；并且其中所述参考或对照包含来自手术前或治疗前的所述相同受试者的相同的选定基因转录物和miRNA；并且其中所述选定基因转录物和miRNA的表达的变化与癌症复发或消退相关。

17.根据权利要求11所述的方法，其中所述参考或对照包括至少一个参考受试者，所述参考受试者选自由以下组成的组：(a)具有恶性疾病的吸烟者、(b)具有非恶性疾病的吸烟者、(c)具有非恶性疾病的曾吸烟者、(d)没有疾病的健康非吸烟者、(e)具有慢性阻塞性肺部疾病(COPD)的非吸烟者、(f)具有COPD的曾吸烟者、(g)手术去除实体肺肿瘤之前的具有实体肺肿瘤的受试者、(h)手术去除实体肺肿瘤之后的具有所述肿瘤的受试者、(i)治疗实体肺肿瘤之前的具有实体肺肿瘤的受试者、以及(j)在治疗实体肺肿瘤期间或之后的具有实体肺肿瘤的受试者，其中所述参考或对照受试者(a)-(j)为在时间上更早的时间点的相同测试受试者，或者其中所述参考mRNA或miRNA标准是来源于参考受试者或参考群体的平均数、平均值、数值平均数或数值平均数的范围、数值模式、图形模式或组合mRNA和miRNA表达谱。

18.根据权利要求11所述的方法，其还包括使来自所述受试者的所述生物样本与诊断试剂接触，所述诊断试剂与所述样本中的选定mRNA复合并测量所述选定mRNA表达水平；并使来自所述受试者的所述生物样本与诊断试剂接触，所述诊断试剂与所述样本中的所述miRNA复合并测量所述miRNA表达水平，其中所述表达水平的组合变化是对癌症或其分期的诊断。

19.一种产生诊断试剂的方法，其包括形成疾病分类谱，形成所述疾病分类谱包括检测哺乳动物受试者的生物流体的样本中疾病特有的选定mRNA和miRNA序列的表达的组合变化。

20.一种增加用于区分肺癌受试者与良性结节受试者的测定的灵敏度和特异性的方法，其包括：

从受试者获得生物流体或组织样本；

通过以下方式检测表1、表2或表3的一种或多种mRNA靶标是否存在于所述样本中：使所述样本与至少一种配体接触，所述配体选自能够与来自哺乳动物生物样本的表1、表2或表3的一种或多种mRNA基因转录物靶标特异性复合、与所述靶标杂交或鉴别所述靶标的核酸序列、多核苷酸或寡核苷酸；以及

通过以下方式检测表1、表2或表3的一种或多种miRNA靶标是否存在于所述样本中：使所述样本与至少一种配体接触，所述配体选自能够与来自哺乳动物生物样本的表1、表2或表3的一种或多种miRNA靶标特异性复合、与所述靶标杂交或鉴别所述靶标的核酸序列、多核苷酸或寡核苷酸；

其中每种配体与不同的mRNA靶标或miRNA靶标结合。