CN101374962A

CN101374962A - 肺癌的诊断分析法

Info

Publication number: CN101374962A
Application number: CNA200680050765XA
Authority: CN
Inventors: 爱德华·A·希尔施科维奇; 钟丽; 纳达·H·卡塔; 阿诺德·J·斯托姆博格
Original assignee: University of Kentucky
Current assignee: University of Kentucky Research Foundation
Priority date: 2005-11-10
Filing date: 2006-11-10
Publication date: 2009-02-25

Abstract

一种用于测定患者体内存在肺癌的诊断分析法，其部分取决于确定与肺癌相关的抗体的存在。此分析法在放射照相可检测到的癌组织的证据之前预测肺癌。

Description

肺癌的诊断分析法

背景技术

对于美国和许多其它国家的男人和妇女，肺癌是癌症死亡的主要原因。仅在美国，此病致死数量已经在过去五年中每年递增至接近164,000，其中大多死于非小细胞性肺癌(NSCLC)。这超过了乳腺癌、前列腺癌和结肠直肠癌的死亡量总和。

许多专家相信，肺癌的早期检出是提高存活率的关键。研究表明，当在早期、非转移期检出此病，可用外科手术去除癌，五年存活率可达85％。但在癌已经转移到其它器官尤其是远端部位后，存活率急剧下降，只有2％的患者存活五年。不幸地是，肺癌是异质性疾病并且通常是无症状的，直至达到晚期。因此，仅有15％的肺癌患者在早期、非转移期被发现。于是，对于能帮助对无症状人员进行筛选，进而在最早期最能治疗期检测出肺癌的工具有强烈的需求。

已经研究，胸部X射线和计算机断层扫描(CT)是检测早期肺癌的潜在的筛选工具。不幸的是，高昂费用和高比例的假阳性使得这些放射成像工具的广泛应用是不切实际的。例如，美国国家癌症研究所(U.S.NationalCancer Institute)的一份近期研究作出结论，用胸部X射线筛选肺癌能检测出早期肺癌，但是产生许多假阳性检验结果，导致不必要的继续检验，Oken等人Journal of the National Cancer Institute，97(24)1832-1839，2005。在参加该试验接受X射线的67,000名患者中，将近6,000名(9％)的结果不正常，需要随访。在这些人中，仅有126人(X射线结果不正常的6,000名患者的2％)在首次胸部X射线检验后12个月内被诊断为肺癌。

正在进行的采用CT扫描的试验遇到了类似的假阳性问题。基于不确定的射线成像结果的数量，计算出的CT筛选的特异性大约是65％。

当对每次进行的CT筛选扫描所检测出的癌症患者的数量进行评估时，专家非常关注单个人保健费用的节省，因为发生的保健费用中的一大部分可归因于在普遍扫描中发现的需要进一步研究的不确定的肺部结节的数量，其中许多最后发现是良性的。

PET扫描是另一种可选择的诊断方法，但是PET扫描价格昂贵，通常不适合用于筛选方案。

目前，年龄和吸烟史是在大型筛选研究中已被用作选择标准的仅有的两个风险因素。

能检测出射线照相学上明显的癌症患者(>0.5cm)以及隐匿性的和癌变前的癌症患者(射线照相检测的极限值以下)的血液检验将鉴别个体，对于这些个体辐射学筛选是最可靠的并且事实上将减少需要进一步研究的良性肺部发现的数量。

因此很明显，急需克服上述射线照相技术的局限性的改进的肺癌筛选和检测工具。

发明内容

本发明涉及通过使用体液样品来早期检测出肺癌的分析、方法和试剂盒。尤其是，本发明涉及通过评估例如自身抗体生物标记的一个或一组标记的存在而检测肺癌。

本发明可用于全面肺癌筛选策略，尤其是当与射线照相成像和其它筛选形式一起使用时。本发明可用来富集群体，用于进一步射线照相分析以排除可能存在的肺癌。

简言之，本发明涉及一种检测出患者可能存在肺癌的方法，其中一个实施方案是通过提供患者的血液样品，并分析该患者血液样品存在一个或一组与肺癌相关的自身抗体。该小组是可鉴别的，例如通过评估与小组成员相关的癌症的最大可能性。各种各样的统计工具中的任何一个可用来估计多种变量对于结果的同时贡献。

本发明用来分析主要CT筛选试验所获得的样品，把早期和晚期肺癌以及隐匿性疾病同风险匹配(risk-matched)对照区别开。对肺癌存在的预测，本分析的准确度为接近90％，并在射线照相检出肺癌之前五年。本分析可作为筛选检验应用于无症状患者或者高风险组的患者，他们使用公认的检验和方案尚未诊断出肺癌，也就是，例如他们没有在射线照相上可检测出的肺癌。

相对于高昂费用和低特异性的现有的肺癌筛选方法，如胸部X射线或低剂量CT，本发明提供另一种可选择的方法。本分析使癌症检出率最大化，同时限制检测需要进一步确诊的良性肺部结节，因此本分析是有效的、价格可取的工具，可轻易地并入全面的早期检测策略。

有了下述说明和所附的权利要求，将更好理解这些及其它本发明的特点、方面和优点。

详细描述

病理状态的早期诊断是有益的。然而不是所有的病理状态都具有轻易可检出的、单一标志。其它病理状态在病原学和表型上是异质性的，或者贯穿其发育阶段。在这样的情形下，一种单一的、敏感的和特异性的诊断标志或标记不太可能存在。

然而，现在有可能开发一种采用了多元(plurality)标记的合适的诊断分析法，单独的标记可能不具有足够的预测能力，但是在某种组合下，实际应用中一组标记具有足够的特异性和敏感性。而且，多重技术和数据处理能力赋予了开发具有使用方便和对界定群体或普通群体更好的预测能力的、特殊化和个性化的诊断分析法的灵活性。

本发明提供了一种新的检测疾病如肺癌的分析法和方法，其比传统方式更早更准确。简言之，获取患者或研究对象的样品如血液样品，并分析是否存在一组抗体生物标记。对于肺癌，采用一个或一组标记，每个标记在某种程度上与肺癌相关，当使用一组标记时，其中大多数产生在异质性的群体中对肺癌可能性的可预测的测量。

正如下面更详细的阐述的，根据本发明的分析法和方法正确地鉴别了早期和晚期肺癌患者。鉴别早期肺癌患者是特别有价值的，因为目前的分析法和筛选模式在此方面以强有力和节省成本的方式是能力有限的。与目前使用的分析法相比，本筛选分析法提供了更好的可预测性，产生更少的假阳性，目前使用的分析法通常也是昂贵的。本分析法也是多用途的，通过使用一种能同时测试大量样品的分析格式，例如采用微阵列，与任一群体相关的对照样品可并行地进行以获得高度可信的区别数据，其中多元对照与尽可能多的参数匹配来检验群体。这能校正可能产生的并会混淆结果的个体差异，例如种族、性别、年龄、多样性等。

定义

此处使用的下述术语应该具有下述意义。

“肺癌”是指肺内的恶性过程、状态和组织。

“蛋白质”是肽、寡肽或多肽，该术语此处可互换使用，是一种氨基酸聚合物。在文库方面，多肽不必编码具有生物活性的分子。所关心的抗体结合表位或抗原决定簇。表位是完整功能分子的部分，在蛋白质的方面，可包括少到大约三个至大约五个连续的氨基酸。

“标准化”涉及计量或测量的统计学处理，对观察结果的背景和随机干扰进行校正或调整以确定该计量、统计或测量是否是真实的反映、响应或反应结果，还是不显著的和随机的。

“非小细胞性肺癌”(NSCLC)是肺癌的一种亚型，其占全部肺癌的大约80％，与小细胞性癌症相比，后者特点是小的、卵形细胞，也被称作燕麦形细胞癌。包括在NSCLC亚型中的是鳞状细胞癌、腺癌以及大细胞癌。

“体液”是从人体获得或源自人体的任何液体样品，例如血液、唾液、精液、泪液、组织提取物、分泌物、体腔冲洗物、血清、血浆、组织液及类似物，可作检验的患者样品。然而，优选的可使用的液体是可在测试前经过处理如净化，例如通过离心分离。体液样品是一种液体样品。

“血液样品”一般指从个体获得的静脉血的小量的等分部分。血液可经过处理，例如采用肝素或EDTA使凝血因子失活，去除血红细胞产生血浆样品。可允许血液凝块，固态和液相分离，产生血清。所有的这些“处理过的”血液样品落入此处定义的“血液样品”的范围内。

“表位”是指与抗体结合的特殊的分子结构。别称是抗原决定簇。多肽表位可以是3至5个氨基酸那么小。

“生物标记”是指因素、指示物、得分、计量、数学处理等类似被评价的，以及发现在结果的预测中有用，例如生物实体的当前状态或将来健康状态。生物标记也称作标记。

“小组”是指一系列被编排的标记，在分析中它们一起被测量。小组能由2个标记、3个标记、4个标记、5个标记、6个标记、7个标记、8个标记、9个标记、10个标记、11个标记、12个标记或者更多标记组成。在本申请中教导的统计学处理和分析方法以及其中能应用在本发明的实践中的提供了在所关心的分析中对一些有益标记的任何标记的使用。

“结果”是那些被预测的或检测出的。

“自身抗体”是指针对包括于病理细胞如被感染的细胞和肿瘤细胞中的“自体”(自身)蛋白质的免疫球蛋白或抗体(该术语此处可互换使用)。这种情况下对抗肿瘤的抗体来源于个体自身肿瘤，是他/她自身细胞的基因畸变。

“加权和”是指来自单个标记的得分的编辑，每个标记具有预测值。具有更高预测值的标记对和的贡献越大。用于已知的统计范例例如对数回归，单个标记的相对值是统计衍生的以最大化多变量表式的值。能使用一些市场上可获得的统计学软件包。在更多的因子的公式中例如回归方程，每个因子的系数提示那个因子(标记)的“加权”。

“统计学显著性”是指区别不可能只是与机会相关。

“标记”是在诊断中评价和使用的因素、指示物、计量、得分、数学处理等类似的。标记能够是例如多肽或抗原，或者是能够结合抗原的抗体。标记也能是结合配对或结合配偶体的任何一个，作为实体的结合配对或结合配偶体对另一个具有特异性，例如抗体和抗原、激素和受体、配体和配体所结合的形成复合物的分子、酶和辅酶、酶和底物等等。

“预测标记”是指在使用已知技术检测到肺癌前已存在的标记。因此，在患者以放射照相学检测发现的癌症前本分析检测肺癌特异性自身抗体，例如注意到放射照相学检测的癌症之前5年。这样的自身抗体是预测标记。

“目标群体”指任何以特殊的标记、状态、环境、疾病等为代表的亚系列群体。因此，目标群体能是特殊的患者，例如具有特殊形式或阶段的肺癌，或吸烟群体。目标群体可包括具有一种或多种风险因素的人。目标群体可包括有可疑检验结果的人，例如肺中存在异常需要进一步和更经常地监测。

“放射照相的”指任何成像方法，例如CAT、PET、X射线等。

“放射照相学可检测到的癌症”指通过放射照相手段诊断或检测的癌症。癌症的存在一般通过组织学确认。

“组织样品”指来自特别组织的样品。对于液体形式的组织样品，样品能是体液或来自液体组织例如血液，或处理过的血液等份。相也与获得液体的实体组织相关，例如渗出液、用过的组织培养液、切碎的实体组织的冲洗液等。

生物标记的选择

肺癌相关标记能通过任何可以获得的技术人员使用的手段来选择和鉴别，肺癌相关标记例如自身抗体、对其有特异性亲和力的蛋白或和其结合的蛋白。在抗体生物标记的情况中，能使用多种基于免疫学的方法中的任何方法。如本领域已知的，具有结合特异性的适体(aptamer)、镜像异构适体(spiegelmer)以及类似物也可以代替抗体使用。许多已知的依赖抗体-抗原反应的高通量方法能够在本发明中使用。

来自目标群体中个体的分子能与那些来自对照群体的相比以鉴别任何肺癌特异性的分子，例如使用减法挑选等。可选择地，目标群体和正常(对照)群体样品能用于鉴别来自分子文库的对目标群体特异性的分子。

能够用文库实行亲和筛选形式，用抗体作为探针筛选文库的候选分子。使用抗体来筛选候选分子也称为“生物淘洗(biopanning)”。然后验证目标群体-特异性的分子及其使用，确定单个标记作为目标群体成员的预测指标的能力。

一种合适的手段是获得对肺癌是或不是特异性的分子文库以及筛选那些文库寻找结合目标群体成员抗体的分子。因为蛋白或多肽表位能够是3个氨基酸，也能长度少于10个氨基酸、长度少于20个氨基酸等，文库的单个成员的平均长度是设计的选择。因此，文库的较小成员能大约3-5个氨基酸以模拟单独的抗原决定簇，而20个或更多氨基酸的成员可能模拟或包含2个或更多的抗原决定簇。文库也不需要限制于多肽，因为其它分子例如糖类、脂类、核酸及其组合能是表位，并且因此用作或鉴别肺癌的标记。

因为生物标记鉴别过程寻求鉴别表位而不是完整的蛋白或其它分子，被扫描的或被筛选的文库不需要是肺癌特异性的，而且能从正常个体分子获得，或能够从随机分子的群体获得，虽然使用从肺癌患者得到的样品能增加鉴别合适的肺癌生物标记的可能性。尽管如此，不考虑包含表位的分子的功能，表位或交叉反应分子在肺癌患者中存在并且是免疫原性的。

那些方法的实例说明在使用T7的肺癌特异性cDNA噬菌体文库和M13随机肽文库的实施例中描述。如本领域已知的，二者在噬菌体展示文库中携带。一个T7噬菌体NSCLC的cDNA文库是购买的(Novagen，Madison，WI，USA)，第二个是通过腺癌细胞系NCI-1650构建的(受赠于H.Oie，NCI，National Institutes of Health，Bethesda，MD，USA)。

因此，如本领域已知的建立噬菌体文库。提取并挑选来自目标组织或细胞的总RNA。进行第一条链的cDNA的合成，确保对N-末端和C-末端的氨基酸序列都表现。该cDNA产物连接到相容的噬菌体载体以产生文库。该文库在合适的细菌宿主中扩增，对于裂解性噬菌体如T7，裂解细胞得到制备的噬菌体。在标准条件下滴定裂解液并提纯后存贮。对于其它噬菌体，病毒可排出到培养液中如M13的情况，在该情形下收集上清液病毒并滴定。

噬菌体文库用组织样品进行生物淘洗(biopan)或筛选，组织样品优选地是液体样品如来自肺癌患者的血浆或血清，以及类似的组织样品，例如来自正常健康供体的血浆或血清，来鉴别被配体识别的潜在的展示分子例如肺癌患者体内的循环抗体。

在一种实施方案中，组织样品是血液样品如血浆或血清，目的是鉴别标记，这些标记是被目标群体如非小细胞性肺癌患者的血浆或血清中的抗体所识别的。为了去除被来自该文库的非目标群体的抗体识别的噬菌体，例如将噬菌体显示文库暴露于正常血清或血清池。未反应的噬菌体从那些与非目标群体样品进行反应的噬菌体中分离出。然后未反应的噬菌体暴露于NSCLC血清来分离被NSCLC患者血清中的抗体识别的噬菌体。收集反应的噬菌体，在合适的细菌宿主中扩增，裂解液经收集、存贮、确定为“样品1”或是“生物淘洗1”。生物淘洗和扩增过程可重复多次，通常采用相同的对照和目标样品来提高纯化过程。

来自生物淘洗的噬菌体代表一种富集群体，它们更可能含有被来自NSCLC患者样品中的抗体特定识别的表达分子。由于许多噬菌体文库表达多肽，所以选择的噬菌体可被说成表达和表现NSCLC相关抗体的“捕获肽”。

为了进一步选择表达与NSCLC-特异性抗体结合的分子的噬菌体集落，生物淘洗中选出的单个噬菌体裂解液可被自动地点放到例如载玻片(Schleicher and Schuell，Keene，NH)上，采用Arrayer(Affymetrix，Santa Clara，CA)来制备带有多个被NSCLC患者血清中的抗体结合的候选的噬菌体-表达分子的微阵列。

为了鉴别哪种噬菌体展示分子可能是NSCLC-特异性捕获分子(能结合NSCLC-特异性抗体)，例如将筛选载玻片与单个NSCLC患者血清样品一起孵育，理想的不是那些在生物淘洗中所使用的，并使用标准免疫分析方法进一步筛选。与噬菌体结合的抗体可被鉴定，如本领域已知，例如通过采用合适的免疫试剂的双色标记，其中噬菌体载体表达产物用第一种有色或可检测的报告分子标记，来对每个位点的表达产物计量，与噬菌体表达多肽结合的抗体用第二种颜色或区别于第一种报告分子的可检测的报告分子标记。

一种解释鉴别NSCLC样品中的抗体结合的与NSCLC相关的或NSCLC特异性的捕获分子的数据的实用方法，是通过多变量的计算机辅助回归分析，这些多变量显示载玻片上所有多肽的平均信号和标准偏差。对单个噬菌体进行统计处理，来确定特异性，并且对多个噬菌体也进行统计处理，来确定是否噬菌体子集对于确定样品是否来自患有还是可能患有NSCLC的患者，能提供更好的预测能力。监测多个样品的统计处理能确定分析的差异性。随着群体取样增加，这种差异性可用于评价分析间的差异性并提供可靠的群体参数。

因此，与载玻片、芯片等上的其它噬菌体相比，例如，当信号是>1、>2、>3或更高的标准差偏离正常值(芯片上的平均信号)时，那些与患者样品中的抗体结合更好的噬菌体被考虑作候选噬菌体。在此处所述的一些试验中，候选噬菌体代表用生物淘洗过四次的T7文库构建的筛选芯片上的噬菌体展示多肽的大约1/100。

候选的噬菌体集落编排在“诊断芯片”上并进一步评价在分辨NSCLC患者的样品与非NSCLC群体的样品中独立预测值。

根据诊断标记对受试者中存在或将来存在放射学上可检测的肺癌的预兆/检测/鉴别的能力来选择。由于一些病情有多种病因、多种细胞源等，以及呈现异质背景的任何疾病，一组或多个标记更可能预测或诊断那种特殊病情。肺癌即是一种这样的病情。

如在生物统计领域已知的，能应用一些不同的统计方案来确定相关多重变量的共同预测能力，例如一组标记或与一组标记的反应性。因此，例如能使用动态统计模型来解释来自多个因素的数据，来开发依赖使用两个或以上这样因子的预后检测。其它方法包括Bayesian模型，使用条件概率、最小二乘法分析、部分最小二乘法分析、对数多重回归、神经网络(neuralnetworks)、辨别式分析、基于自由分配等级的分析、其组合、其变量等来选择一组合适的标记用于包括在诊断分析中。目的是处理多元变量，然后处理数据来最大化期望的计量，参见例子，例如Pepe & Thompson，Biostatistics 1，123-140，2000；McIntosh & Pepe，Biometrics 58，657-664，2002；Baker，Biometrics 56，1082-1087，2000；DeLong等人，Biometrics 44，837-845，1988；以及Kendziorski等人，Biometrics 62，19-27，2006。

因此，在某些情况中，统计处理寻求最大化预测计量，例如接收器工作特性(ROC)曲线的曲线下面积(AUC)。处理得出公式途径或算法来最大化依赖于选择的系列变量的结果，揭示任何一个或所有变量对最大化的结果的相对影响。标记的相对影响能在描述系数与变量关系的衍生公式中看到。因此，从这样的分析中选出例如在此后描述的实施研究中鉴定的五个标记的两组，通过包含五个标记的公式来描述最大AUC、得分，用公式中的任何一个标记的相对加权获得用那个任何一个变量的系数来代表的最大预测能力。系数代表加权，衍生公式能看作得出加权和的被加权的变量的总和。

目标是在被选择的和优选地最小的多个变量(标记)中找到最大化中的平衡点，例如特异性和敏感性、或阳性预测值，使得在那些参数的启发下能进行机械化诊断分析。为了最大化结果，变量的加权或影响是从目前确定和分析过的数据衍生的，并且随被分析患者的增加重新计算。随患者数量增加，代表关于平均值的可信界限值的群体平均值的计量的可信度也增加。

如在此后的实施例中提到的，用实例说明的一组五个标记包括具有单个特异性超过观察到的CT扫描的特异性的标记。任何特异性超过65％的任何一个标记能有利地作为肺癌的诊断分析，因为本分析法和在肺癌诊断中目前的标准一样有效，并且产生费用更低，且以一种非侵入的方式。

也要注意，无论怎样的计量，与任何一个标记相比，五个标记一起使用提供更高的预测能力。标记可能在不同的亚群体中有预测性，或者两个或更多标记的表达可能是协同的，例如它们可能有共同的生物存在或功能。总合预测值不是必须可加的，并且标记的不同组合为预测提供不同的准确程度。使用最大化预测力和五个标记的组合的统计处理是基于参照群体研究的结果。因此，原则上，因为两个或更多标记的协同存在以及基于多元标记的诊断的计量，例如此后教导的一组五个标记中的一个，患者样品用五个标记进行检验和诊断，基于五个标记进行计算。如在此讨论的，因为统计处理例如对数回归，任何一个变量对多重计量的贡献可能是对于最大化总和较大或较小的贡献。如果患者得分、总分等是五个标记的总合计量的至少30％、至少40％、至少50％、至少60％或更多，甚至在患者可能是一个或更多标记阴性的情况中，因为一些或更多重要的加权标记是阳性的，则更可能认为患者是肺癌阳性的。临界得分、总分等这些可能是参考或标准值，其可以是群体平均值，患者/实验样品的相似度的可接受的水平到分数、总分等得出阳性检验结果，提示肺癌存在的可能性，是设计的选择，并且通过提供检测阳性样品的可信范围或水平的统计分析来确定或冒假阳性的危险通过经验开发。如此前教导的，所述水平能是五个标记的总合计量的或群体总和的、参考值等的至少30％、至少40％、至少50％、至少60％或更多。临界或“耐受值”即来自群体得分、总分等的患者得分、总分等的可接受的相似度程度是能够被增加的，即患者的得分必须十分接近群体得分来增加敏感性。

虽然如本领域已知的知道ROC曲线的形状是预测值等的相关考虑因素，但是标记或一组标记的预测能力能使用任何统计种类来测量例如特异性、敏感性、阳性预测值、阴性预测值、诊断准确性、例如ROC曲线的AUC，其中ROC曲线是特异性和敏感性间的相互关系。

与单独使用任何一个标记相比，因为一起考虑的多个标记的更大的总合预测能力，多重标记的应用使更强并且在更大的群体中更可能进行诊断的诊断检验成为可能。

如此后更详细讨论的，本发明仔细考虑了不同分析形式的使用。微阵列使同时检验多重样品成为可能。因此，微阵列能包括一些对照样品，阳性和阴性的。然后分析法能够对多个样品进行同时处理，例如样品是来自一个或多个已知感染患者的样品、以及来自正常人的一个或多个样品、和一个或多个待一起检验和比较的样品、实验、病人的样品、待检验的样品等。考虑到分析中信号强度的归一化、校准和标准化，在分析中包括内部对照。例如，能够多份运行每个阳性对照、阴性对照和实验，能系列稀释多个样品。对照和实验点也能随机安排在微阵列设备上以尽量减少由于样品在检验设备上的位点引起的变化。

因此，具有内部对照的微阵列或芯片可以同时在微阵列和芯片上诊断实验(患者)检验。以受控方式获得的这些多元检验方法和数据使在分析设备内进行患者诊断成为可能，因为准备了合适的对照，并且如果该组标记是单个具有高可能预测能力的，例如ROC曲线的AUC>.85，并且五个标记的AUC总和>.95，那么能够获得诊断结果。

当发现一组标记的每个标记都具有相对可比特征例如后面实施例的，则分析能以定性的形式操作。因此，肺癌病人样品可能对五个标记都是阳性，这样的样品是十分可能是肺癌阳性的。能通过确定几率来验证，基于5个标记作为整体，如在此讨论的，获得患者五个标记的计量和或得分，然后比较该数字和标记的预测能力，使用以上讨论的统计工具衍生。对四个标记是阳性的患者，因为四个标记的能力可能是事实的，也应该考虑处于危险，能够用肺癌来诊断和/或应该进行更细致的检查。只对三个标记是阳性的样品可能需要再次检验，一个使用其它标记的检验，放射照相的或其它检验，或在其它给定的时间范围用本分析进行另一次检验。

因此，对于一组n标记，衍生了预测能力公式，例如回归公式，规定了解释五个标记对结果的关系的最大可能图。患者可能少于n个标记是阳性，当多数例如50％或一半以上的标记在患者中存在，为进一步考虑，在该情况中可认为是阳性的或可能是阳性的。病人也应该表现肺部疾病潜在症状的明显迹象，因为某些组标记可能对特殊的疾病例如NSCLC是特异性的，可能患者需要进一步的分析以排除其它肺部疾病。

因此，在使用n个标记的任何一个分析中，能获得基于被检验的标记的阳性信号总数的整个数目的首要的、定性的结果。合理的临界可能是50％或更多的标记阳性。因此，如果检验四个标记，那么2、3或4个标记阳性的样品假定考虑是可能有肺癌的。如果检验五个标记，那么3、4或5个标记阳性的样品假定考虑是阳性的。临界值能根据设计选择而变化。

基于数据的采集和统计处理，从群体的观点，优选的标记组可能是动态的并且可能随时间变化，可能随新的标记的开发而变化，可能随群体的变化、增长等而变化。

同样，当被检验的群体大小增加时，标记子集的可信度、加权的系数以及诊断准确可能性可以变得更确切，如果标记是生物或机制相联系的、因而衍生的，可信区间或误差区间会减小。因而，本发明也仔细考虑能在一般群体中使用的标记子集的应用。可选择地，关注的分析设备可包括仅仅一个标记子集，例如在此后实施例中使用的5个标记的组，其对某种群体是优选的。

能够通过分析噬菌体集落插入片断编码的多肽来确定表达多肽的氨基酸顺序。例如噬菌体插入片断能用市场上可得到的噬菌体载体引物来PCR扩增。基于大小和PCR产物酶消化形式的不同来鉴别独特的集落，并且独特的PCR产物然后被纯化和测序。通过与已知序列相比鉴别编码的多肽，已知序列例如使用BLAST搜索程序的GenBank数据库。

因此，例如以下的表1和2总结了在肺癌患者中结合自身抗体的肺癌cDNA的T7噬菌体集落。

表1

噬菌体集落 #	ID-基因符号	肽序列
噬菌体集落 #	ID-基因符号	肽序列	PC84^＊	ZNF440	TLERNHVNVNSVVNPLVILLPIEYIKELTLEKSLMNIRNVGKHFIVPDPIVDMKGFTWEKRLINVRNVEKHSRVPVMFVYMKGPTLGKISMNVSSVGKHY

		PLLQVFKHT(SEQ ID NO：1)
		PLLQVFKHT(SEQ ID NO：1)	PC87	STK2	GKVDVTSTQKEAENQRRVVTGSVSSSRSSEMSSSKDRPLSARERRRQACGRTRVTS(SEQ ID NO：2)
PC125	SOCS5	SRRNQNCATEIPQIVEISIEKDNDSCVTPGTRLARRDSYSRHAPWGGKKKHSCSTKTQSSLDADKKF(SEQID NO：3)	PC87	STK2
PC125	SOCS5		PC123	RPL4	RNTILRQARNHKLRVDKAAAAAAALQAKSDEKAAVAGKKPVVGKKGKACGRTRVTS(SEQ ID NO：4)
PC88 PC114PC126^＊＊	RPL15	YWVGEDSTYKFFEVILIDPFHKAIRRNPDTQWITKPVHKHREMRGLTSAGRKSRGLGKGHKFHHTIGGSRRAAWRRRNTLQLHRYR(SEQ IDNO：5)	PC123	RPL4
PC88 PC114PC126^＊＊	RPL15		PC40	NPM1	KLLSISGKRSAPGGGSKVPQKKVKLAADEDDDDDDEEDDDEDDDDDDFDDEEAEEKAPVKKSIRDTPAKN(SEQ ID NO：6)
PC20 PC22G1802	p130	NKPAVTTKSPAVKPAAAPKQPVGGGQKLLTRKADSSSSEEESSSSEEEKTKKMVATTKPKATAKAALSLPAKQAPQGSRDSSSDSDSSSSEEEEEKTSKSAVKKKPQKVAGGAAPXKPASAKKGKAESSNSSSSDDSSEEE(SEQ ID NO：7)	PC40	NPM1
PC20 PC22G1802	p130		PC57	NFI-B	ASFPQHHHPGIPGVAHSVISTRTPPPPSPLPFPTQAILPPAPSSYFSHPTIRYPPHLNPQDTLKNYVPSYDPSSPQTSQSWYLG(SEQ ID NO：8)
PC94	HMG14	PKRRSARLSAKPPAKVEAKPKKAAAKDKSSDKKVQTKGKRGAKGKQAEVANQETKEDLPAENGETKTEESPASDEAGEKEAKSD(SEQ ID NO：9)	PC57	NFI-B
PC94	HMG14		PC16	COX4	AMFFIGFTALVIMWQKHYVYGPLPQSFDKEWVAKQTKRMLDMKVNPIQGLASKWDYEKNEWKK(SEQ IDNO：10)
PC112	SFRS11	ATKKKSKDKEKDRERKSESDKDVKVTRDYDEEEQGYDSEKEKKEEKKPIETGSPKTKECSVEKGTGDS(SEQ ID NO：11)	PC16	COX4

PC91	AKAP12	ESFKRLVTPRKKSKSKLEEKSEDSIACSGVEHSTPDTEPGKEESWVSIKKFIPGRRKKRPDGKQEQAPVEDAGPTGANEDDSDVPAVVPLSEYDAVEREKLAAALE(SEQ ID NO：12)
PC91	AKAP12		L1864 L1873L1862 L1804	GAGE7	5＇3＇框架 1MLGDPNSSRPSSSVMKWNQQHLKKGNQQLNVRILQLLRRERMREHLQVKGRSLKLIVRNRVTHRLGVSVKMVLMGRRWTRQIQRR(SEQ IDNO：13)5＇3＇框架 3ARGSEFKSPEQFSDEVEPATPEEGEPATQRQDPAAAQEGEDEGASAGQGPKPEAHSQEQGHPQTGCECEDGPDGQEMDPPNPEEVKTPEEGEKQSQC(SEQ ID NO：14)
G922	Plakophillin	框架 3ARGSEFKHGTVELQGSQTALYRTGSVGIGNLQRTSSQRSTLTYQRNNYALNTTATYAEPYRPIQYRVQECNYNRLQHAVPADDGTTRSPSIDSIQDHARQTPWGPSEACGRTRVTS(SEQ ID NO：15)	L1864 L1873L1862 L1804	GAGE7
G922	Plakophillin		L1747	EEFIA	5＇3＇框架 3LAFVPISGWNGDNMLEPSANMPWFKGWKVTRKDGNASGTTLLEALDCILPPTRPTDKPLRLPLQDVYKIGGIGTVPVGRVETGVLKPGMVVTFAPVNVTTEVKSVEMHHEA(SEQ IDNO：16)
L1761	PMS2L15	5＇3＇框架 1MLGDPNSSISLKFQAMDVG(SEQID NO：17)5＇3＇框架3ARGSEFKHLIEVSGNGCGVEEENFEGLISFSSETSHI(SEQ ID NO：18)	L1747	EEFIA
L1761	PMS2L15		G2004 G313G1896 G1750L1857 L1839G1792 G1923	桩蛋白(PXN)	LGDRTLGPKVHTLHSLVKTRRPGNKKGSPNTAVYKTVLVSYEVKEGESQSCSQFTCLC(SEQ ID NO：19)
PC6 PC8	RAB7	5＇3＇框架 3ARGSEFKLLLKVIILGDSGVGKTSLMNQWNKKFSNQYKATIGADFLTKEXMVDDRLVTMQIWDTAGQERFQSLGVAFYRGADCCVLVFDVTAPNTFKTLDSWRDEFLIQASPRDPENFPLVCFRGOSCFPTQQACGRTRVTS	G2004 G313G1896 G1750L1857 L1839G1792 G1923	桩蛋白(PXN)

		(SEQ ID NO：20)
		(SEQ ID NO：20)	L1318 L1847L968	UROD	CSGTXTISDIAGQPGPLMPCMHLRPFXGQLVKQMLDDFXXHRYIANLGHGLYPDMDPEHVGAFVDAVHKHSRLLRQN(SEQ ID NO：21)
L1864 L1873L1862 L1804	GAGE7	5＇3＇框架 1MLGDPNSSRPSSSVMKWNQQHLKKGNQQLNVRILQLLRRERMREHLQVKGRSLKLIVRNRVTHRLGVSVKMVLMGRRWTRQIQRR(SEQ IDNO：22)5＇3＇框架 3ARGSEFKSPEQFSDEVEPATPEEGEPATQRQDPAAAQEGEDEGASAGQGPKPEAHSQEQGHPQTGCECEDGPDGQEMDPPNPEEVKTPEEGEKQSQC(SEQ ID NO：23)	L1318 L1847L968	UROD

^*这其中噬菌体集落名称的字母部分以及后续的表格是作为实验室命名固定的。如在此使用的，噬菌体集落名称的数字部分是集落明确的鉴别。

^**冗余集落

表2提供其它鉴别为与NSCLC相关但不显示编码已知多肽的集落。

表2

噬菌体集落 #	ID-基因符号	核苷酸序列
噬菌体集落 #	ID-基因符号	核苷酸序列	L1896	BAC集落RP11-499F19	TCCGGGGACGAATTCCTGGTAGCCTCATTCAGGCGATGGAAGGTAGAAGGGACTCAGAACTTCAGGCCTNATTCTGCGTTTTTGTATGCCCCAAGAATGAAAGGGCTCTTTGTGAATTTGCATGTAGATTTATTTAACATTCAACCGGCAGAAAACGGAAGGTAGTGCATGACACTGGGGGGAAC

		CAGGCCCCCGCCCACCTCACATCGTCATGGCATTAGCTGTTTACTGGCTCCCGTGGAAACATTGGAAGGGGATTTGTTTTGTGGTTGGGTTTCCTTTTTTTTTTTTTTTTAACCAG(SEQ ID NO：24)
			L1919	SEC15L2	GATTCTTCCTACCTTTGTCAGCTACTGAGTTGCTTCTGGGGAGGGAAGTACTTCCTTGCCCCTCCCCAACCCCCCTACCTCACCATATCCTATCATATCTTGATAGTCATGGGGAAGAGGATGTGCACACAGACATACAAATTTCCTCAAAGCTGGAGAGACCAGGCTACATGTGAGCTCATAGATGCTGCTGAGGCTCATCCTGAGGGCTGGATGGTTGGCCAGGGTTTCAGAATGAGGGTAAGGGATGAGCACTGCCACCCAAGCTTGCGGCCGCACTCGAGTAACTAGTTAACCCCTTGGGGCCTCTAAACGGGTCTTGAGGGGTTAANTAGTGACTCGAGTGCGGCCGCA(SEQ ID NO：25)
L1761	PMS2L15	ATGCTCGGGGATCCGAATTCAAGCATCTCATTGAAGTTTTCAGGCAATGGATGTGGGGTAGAAGAAGAAAACTTCGAAGGCTTAATCTCTTTCAGCTCTGAAACATCACACATCTAAGATTCGAGAGTTTGCCGACCTAACTCGGGTTGAAACTTTTGGCTTTCAGGGGAAAGCTCTGAGCTCACTTTGTGCACTGAGTGATGTCACCATTTCTACCTGCCACGTATCGGCGAAGGTTGGGACTCGACTGGTGTTTGATCACGATGGCAAAATCATCCAGAAAACCCCCTACCCCCACCCCAGAGGGACCACAGTCAGCGTGAAGCAGTTATTTTCTACGCTACCTGTGCGCCATAAGGAATTTCAAAGGAATATTAAGAAGTACAGAACCTGCTAAGGCCATCAAACCTATTGATCGGAAGTCAGTCCATCANATTTGCTCTGGGCCGGTGGTACTGAGTCTAAGCACTGCGGTGAAGAAGATAGTAGGAAACAGTCTGGATGCTGGTGCCACTAATATTGATCTAAAGCTTG(SEQ ID NO：26)	L1919	SEC15L2

L1747	EEFIA	GGGACGATTAGCTAGCATTTGTGCCAATTTCTGGTTGGAATGGTGACAACATGCTGGAGCCAAGTGCTAACATGCCTTGGTTCAAGGGATGGAAAGTCACCCGTAAGGATGGCAATGCCAGTGGAACCACGCTGCTTGAGGCTCTGGACTGCATCCTACCACCAACTCGTCCAACTGACAAGCCCTTGCGCCTGCCTCTCCAGGATGTCTACAAAATTGGTGGTATTGGTACTGTTCCTGTTGGCCGAGTGGAGACTGGTGTTCTCAAACCCGGTATGGTGGTCACCTTTGCTCCAGTCAACGTTACAACGGAAGTAAAATCTGTCGAAATGCACCATGAAGCTTGCGGCCGCACTCGAGTAACTAGTTAACCCCTTGGGGCCTCTAAACGGGTCTTGGAGGGGTTAACNAGTTGCTCGAGTGGGGCGGCNGGCTNCTTGGTGGTTTATTTCAGA(SEQ IDNO：27)
L1747	EEFIA		G1954	MALAT1	CTCGGGGATCCGAATTTCAAGCGGCAAGAAGTTTCAGAATAAGAAAATGAAAAACAAGCTAAGACAAGTATTGGAGAAGTATAGAAGATAGAAAAATATAAAGCCAAAAATTGGATAAAATAGCACTGAAAAAATGAGGAAATTATTGGTAACCAATTTATTTTAAAAGCCCATCAATTTAATTTCTGGTGGTGCAGAAGTTAGAAGGTAAAGCTTGAGAAGATGAGGGTGTTTACGTAGACCAGAACCAATTTAGAAGAATACTTGAAGCTAGAAGGGGAAGCTTGCGGCCGCACTCGAGTAACTAGTTAACCCCTTGGGGCCTCTAAACGGGTCTTGAGGGGTTAACTCGAGTTACTCGTGGGCGCAGCTCTTTGCTTAGTATTTTTAATGGTTGGTTGTAACCTTTCGTTTCTCATCGCCGAATTATGATGGTTTTAAATAATGATCATAATTCTTTCTTTTTACTTGGTTTTTTTTTTTCACTTTTACTTTCTGTTTATGAAGCACGCCCGCCCCACAA(SEQ ID NO：28)
G1689	XRCC5	ATGCTCGGGGATCCGAATTCAGCTTGGGAACGCGGCCATTTCAAAGGGGAAGCCAAAATCTCAAGAAATTCCCAGCAGGTTACCTGGAGGC	G1954	MALAT1

		GGATCATCTAATTCTCTGTGGAATGAATACACACATATATATTACAAGGGATAAGCTTGCGGCCGCACTCGAGTAACTAGTTAACCCCTTGGGGCCTCTAAACGGGACTTGAGGGGTAAGCTAGTTACTCGAGGGCGAGCTTATGGGAAATATATATTGCGGTATTTAAGGAATTAGTTACCCGCTCGCTGGCCTTTGAACTGTTGTTTGAGGCCTTAAATTGATGATCGTGGTGGGAAACAAGAGGTGGGGTGGGAGATTTGTTTTTTGTTCTGAAGCGGGGAGGGGACTAGACCCTAAAAGCATTTAAATATAAGACAACCCAAT(SEQ ID NO：29)
			G740	CD44转录子变体5	GGGACGATCAGCATTGAATGAATGTTGGCTACAAAATCAATTCTTGGTGTTGTATCAGAGGAGTAGGAGAGAGGAAACATTTGACTTATCTGGAAAAGCAAAATGTACTTAAGAATAAGAATAACATGGTCCATTCACCTTTATGTTATAGATATGTCTTTGTGTAAATCATTTGTTTTGAGTTTTCAAAGAATAGCCCATTG丁TCATTCTTGTGCTGTACAATGACCACTGNTTATTGTTACTTTGACTTTTCAGAGCACACCCTTCCTCTGGTTTTTGTATATTTATTGATGGATCAATAATAATGAGGAAAGCATGATATGTATATTGCTGAGTTGTTAGCCTTTTAAGCTTGCGGCCGCACTCGAGTAACTAGTTAACCCCTTGGGGCCTCTAAACGGGTCTTGAGGGGTTA(SEQ IDNO：30)
L1829 L1841L1676 L1916	BMI-1	GGTACGAATTAGCCAGANATCGGGGCGAGTACAATGGGGATGTGGGCGCGGGAGCCCCGCTCCCCTTTTTTAGCAGCACCTCCCAGCCCCGCAGAATAAAACCGATCGCNNCCCCTCCGCGCGCGCCCTCCCCCGAGATGCGGAGCGGGAGGAGGCGGCGGCGGCCGAGGAGGAGGAGGAGGAGGCCCCGGAGGAGGAGGCGTTGGAGGTCGAGGCGGAGGCGGAGGAGGAGGAGGCCGAGGCGCCGGANGAGGCCNAGGCGCCGGAGCAGGAGGAGGCCGGCCGGAGGCGGCATGAGACGAGCGTGGC	G740	CD44转录子变体5

GGCCGCGGCTGCTCGGGGCCGCGCTGGTTGCCCATTGACAGCGGCGTCTGCAGCTCGCTTCAAGATGGCCGCTTGGCTCGCATTCATTTTCTGCTGAACGACTTTTAACTTTCNTTGTCTTTTCCGCCCGCTTCNATCGCCTCNCGCCGGCTGCTCTTTCCGGGATTTTTTATCAAGCAGAAATGCATCG(SEQ ID NO：31)

也能使用随机肽文库鉴别候选多肽，其在NSCLC患者而不在正常人中结合循环抗体。因此，例如包括10⁹随机多肽的噬菌体展示肽文库和病毒次要(minor)衣壳蛋白融合，能筛选结合肺癌患者抗体的捕获蛋白，使用与上面描述的类似技术例如使用微阵列并且如本领域已知的。一种被使用的M13文库(New England Biolabs)表达7个氨基酸多肽插入序列，其作为噬菌体表面的环状结构。

如在此描述的，生物淘洗文库来富集特异性被NSCLC患者血清中的循环抗体识别的噬菌体表达蛋白。被选择集落的噬菌体裂解液被机械地(Affymetrix，Santa Clara，CA)双份地点在载玻片上(Schleicher and Schuell，Keene，NH)。点阵噬菌体与来自NSCLC患者的血清样品一起孵育来鉴别被循环的肺肿瘤相关抗体结合的噬菌体表达蛋白。

运用已知的免疫分析法，以合适的报告分子，表示载玻片上所有多肽的提示平均信号和标准差的计算机产生的回归曲线被用来鉴别被NSCLC患者血浆中抗体结合的肽。结合显著量来自NSCLC血浆样品(例如离正常的标准差>3)抗体的噬菌体被考虑为进一步评价的候选分子。

表3 M13集落

噬菌体ID	核苷酸序列	氨基酸序列(3字母)
噬菌体ID	核苷酸序列	氨基酸序列(3字母)	MC0457	ATTGTGAATAAGCATAAGGTT(SEQ ID NO：32)	Ile Val Asn Lys His Lys Val
MC0908	GAGCGGTCTCTGAGTCCGATT(SEQ ID NO：33)	Glu Arg Ser Leu Ser Pro Ile	MC0457	ATTGTGAATAAGCATAAGGTT(SEQ ID NO：32)	Ile Val Asn Lys His Lys Val

MC0919	TTGAGTCAGAATCCGCATAAG(SEQ ID NO：34)	Leu Ser Gln Asn Pro HisLys
MC0919	TTGAGTCAGAATCCGCATAAG(SEQ ID NO：34)	Leu Ser Gln Asn Pro HisLys	MC1484	AATGCGAGTCATAAGTGTTCT(SEQ ID NO：35)	Asn Ala Ser His Lys CysSer
MC1509	AATGCGCTGGCTAATCCTTCG(SEQ ID NO：36)	Asn Ala Leu Ala Asn ProSer	MC1484	AATGCGAGTCATAAGTGTTCT(SEQ ID NO：35)	Asn Ala Ser His Lys CysSer
MC1509	AATGCGCTGGCTAATCCTTCG(SEQ ID NO：36)	Asn Ala Leu Ala Asn ProSer	MC1521	GCGAAGCCGCCGAAGCTGTCT(SEQ ID NO：37)	Ala Lys Pro Fro Lys Leu Ser
MC1524	AGGGCTCTGGATCCGGATTCG(SEQ ID NO：38)	Arg Ala Leu Asp Pro AspSer	MC1521	GCGAAGCCGCCGAAGCTGTCT(SEQ ID NO：37)	Ala Lys Pro Fro Lys Leu Ser
MC1524	AGGGCTCTGGATCCGGATTCG(SEQ ID NO：38)	Arg Ala Leu Asp Pro AspSer	MC1760	ATACTACTGGGTCGCCTCTGT(SEQ ID NO：39)	Ile Leu Leu Gly Arg Leu Cys
MC1786	AAGGTTAATACTCATCATACT(SEQ ID NO：40)	Lys Val Asn Thr His His Thr	MC1760	ATACTACTGGGTCGCCTCTGT(SEQ ID NO：39)	Ile Leu Leu Gly Arg Leu Cys
MC1786	AAGGTTAATACTCATCATACT(SEQ ID NO：40)	Lys Val Asn Thr His His Thr	MC2541	CTGTTTCTGACGGCGCAGGCG(SEQ ID NO：41)	Leu Phe Leu Thr Ala GlnAla
MC2720	TTTAATTGGTATAATTCGTCG(SEQ ID NO：42)	Phe Asn Trp Tyr Asn SerSer	MC2541	CTGTTTCTGACGGCGCAGGCG(SEQ ID NO：41)	Leu Phe Leu Thr Ala GlnAla
MC2720	TTTAATTGGTATAATTCGTCG(SEQ ID NO：42)	Phe Asn Trp Tyr Asn SerSer	MC2729	CTTCCGCATCAGCTGCGGTGG(SEQ ID NO：43)	Leu Pro His Gln Leu Ala Trp
MC2853	CTTGCGTGGTATCCGAAGAGT(SEQ ID NO：44)	Leu Ala Trp Tyr Ala Lys Ser	MC2729	CTTCCGCATCAGCTGCGGTGG(SEQ ID NO：43)	Leu Pro His Gln Leu Ala Trp
MC2853	CTTGCGTGGTATCCGAAGAGT(SEQ ID NO：44)	Leu Ala Trp Tyr Ala Lys Ser	MC2900	AAGATTGGGACGGCGTGGCTT(SEQ ID NO：45)	Lys Ile Gly Thr Ala Trp Leu
MC2986	ACGCCTACTCATGGTGGGAAG(SEQ ID NO：46)	Thr Pro Thr His Gly Gly Lys	MC2900	AAGATTGGGACGGCGTGGCTT(SEQ ID NO：45)	Lys Ile Gly Thr Ala Trp Leu
MC2986	ACGCCTACTCATGGTGGGAAG(SEQ ID NO：46)	Thr Pro Thr His Gly Gly Lys	MC2996	ACTCCTACTTATGCGGGGTAT(SEQ ID NO：47)	Thr Pro Thr Tyr Ala Gly Tyr
MC2998	ATGCCGGCTACTACGCCTCAG(SEQ ID NO：48)	Met Pro Ala Thr Thr Pro Gln	MC2996	ACTCCTACTTATGCGGGGTAT(SEQ ID NO：47)	Thr Pro Thr Tyr Ala Gly Tyr
MC2998	ATGCCGGCTACTACGCCTCAG(SEQ ID NO：48)	Met Pro Ala Thr Thr Pro Gln	MC3000	AAGGCGTGGTTTGGGCAGATT(SEQ ID NO：49)	Lys Ala Trp Phe Gly Gln Ile
MC3018	AAGAATTGGTTTGGTCATAGG(SEQ ID NO：50)	Lys Asn Trp Phe Gly HisThr	MC3000	AAGGCGTGGTTTGGGCAGATT(SEQ ID NO：49)	Lys Ala Trp Phe Gly Gln Ile
MC3018	AAGAATTGGTTTGGTCATAGG(SEQ ID NO：50)	Lys Asn Trp Phe Gly HisThr	MC3023	CATACTCATCATGATAAGCAT(SEQ ID NO：51)	His Thr His His Asp Lys His
MC3046	ATTACGAATAAGTGGGGGTAT(SEQ ID NO：52)	Ile Thr Asn Lys Trp Gly Tyr	MC3023	CATACTCATCATGATAAGCAT(SEQ ID NO：51)	His Thr His His Asp Lys His
MC3046	ATTACGAATAAGTGGGGGTAT(SEQ ID NO：52)	Ile Thr Asn Lys Trp Gly Tyr	MC3050	CTGAATACGCATTCGTCTCAG(SEQ ID NO：53)	Leu Asn Thr His Ser SerGln
MC3143	GGGCCTGCGTGGGAGGATCCG(SEQ ID NO：54)	Gly Pro Ala Trp Glu Asp Pro	MC3050	CTGAATACGCATTCGTCTCAG(SEQ ID NO：53)	Leu Asn Thr His Ser SerGln
MC3143	GGGCCTGCGTGGGAGGATCCG(SEQ ID NO：54)	Gly Pro Ala Trp Glu Asp Pro	MC3146	AGTCAGTCTTATCATAAGCGTACTAGC(SEQ ID NO：55)	Ser Gln Ser Tyr His Lys ArgThr Ser
			MC3146	AGTCAGTCTTATCATAAGCGTACTAGC(SEQ ID NO：55)	Ser Gln Ser Tyr His Lys ArgThr Ser

还没有测序的其它肺癌特异性集落提供在以下表4。

表4 M13集落

噬菌体 ID
噬菌体 ID	MC1011	MC1805	MC2987
	MC1011	MC1805	MC2987
	MC2106	MC2238	MC3019
	MC2106	MC2238	MC3019
	MC2628	MC2645	MC3045
	MC2628	MC2645	MC3045
	MC2829	MC3047	MC3048
	MC2829	MC3047	MC3048
	MC3052	MC3156	MC3135
	MC3052	MC3156	MC3135
	MC3096	MC3090
	MC3096	MC3090

文库高通量筛选的目的不是鉴别所有癌症特异性蛋白，而是鉴别一群作为一组的预测标记，其能用来预测是否包括受试者进入肺癌群，具有最大程度的特异性和敏感性。如此，该方法的目标不是产生复杂的蛋白组学(proteomic)图谱，或实际鉴别疾病蛋白例如肺癌蛋白，而是鉴别一些当聚集成一组预测疾病的标记，使强预测分析异质性群体中的异质性疾病成为可能。任何一个标记可能或不可能在肺癌发生中有直接作用，或作为肽，肽起源的分子的实际作用可能目前不知道。

测量抗体对单个捕获蛋白的结合

在诊断芯片上编译的捕获蛋白能用来测量血液样品中肺癌-特异性抗体的相对量。可以通过使用多种平台、不同多肽组成(例如噬菌体表达、cDNA衍生的、肽文库或纯化的蛋白质)、允许样品之间和样品中进行比较的不同的统计排列(permutation)来实现。比较将需要通过外部校准或内部归一化的测量标准化。因此，在所述实施例的玻璃载玻片阵列包括多个噬菌体表达捕获蛋白(例如M13和M7噬菌体)和多个阴性外部对照蛋白(不能结合患者血浆中的抗体的噬菌体，没有插入序列的M13或T7-称为“空”噬菌体)，用免疫分析作为筛选手段，使用两个非限制性统计方法通过噬菌体衣壳和血浆样品抗体结合的两色荧光标记对数据进行归一化：

1)抗体/噬菌体衣壳信号比率在筛选中鉴定的捕获蛋白、单个诊断芯片上的多个非反应性噬菌体、加上“空”噬菌体用标准的免疫化学技术和双色染色与样品一起孵育。用抗体结合捕获蛋白的中位值(或平均值)信号除以商业抗体针对噬菌体衣壳蛋白的中位值(或平均值)信号来计算点中的总蛋白量。因此，血浆/噬菌体衣壳信号比率(例如Cy5/Cy3信号比率)为针对独特的噬菌体表达蛋白的人类抗体提供了归一化测量。然后测量能够被进一步归一化，通过减去针对空噬菌体的背景反应性并除以噬菌体信号的中位值(或平均值)，[(噬菌体的Cy5/Cy3)-(空噬菌体的Cy5/Cy3)/(空噬菌体的Cy5/Cy3)]。该方法是定量的、可重复的、并且弥补芯片之间的可变性，允许样品的比较。

2)标准化残基在筛选中鉴定的捕获蛋白、单个诊断芯片上的多个非反应性噬菌体、加上“空”噬菌体用标准的免疫化学技术和双色染色与样品一起孵育。测量与统计确定的回归线的距离，然后通过除以通过残基标准差的测量(值)标准化。该手段为每个点中的蛋白量中结合每个独特噬菌体表达蛋白的抗体的量也提供可靠的测量，该手段是定量的、可重复的、并且补偿芯片之间的差异性，允许样品的比较。

这样的信号归一化可用于在诊断分析中检验未知的信号，以确定患者对于一个标记是否是阳性。该分析可依赖抗体存在的定性确定，例如认为任何背景之上的归一化值是那个抗体的证据。可选择地，该分析可以通过确定标记的信号强度而定量，作为对抗体回应活力的反映。因此，如在此所述的，对于一个标记的反应的确切数字归一化值可用在诊断癌症的公式确定。

鉴别预测标记

所有候选噬菌体表达蛋白的归一化测量能用于患者组和正常人组之间统计显著性差异的独立分析，例如通过使用JMP统计软件的t-检验(SAS，Inc.，Cary，NC)。不同的具有对被测样品不同的独立辨别水平的标记组合能以不同方式令人满意的组合。统计处理是以多变量分析形式比较不同组合中的所有标记来获得一组与疾病的存在的相关有最大可能的标记。如在任何群体统计中，标记的选择是由使用的样品的数量和类型决定的。由此，“标记的优选组合”可能不同，例如群体到群体或基于异常的阶段。当检验基于变量的大样品系列(>1000)时，标记的优选组合可能变化，而在小样品大小(<100)中可能不明显、或因为标记的群体发病率的验证显示减小的偏差。加权对数回归是组合具有更多或更少的独立预测值的标记的对数手段。辨别被测样品的标记的优选组合可通过例如组织和分析使用ROC曲线获得的数据界定。

类型预测

为统计患者组和正常人组之间显著性差异，通过例如t-检验独立分析对于所有候选噬菌体表达蛋白的标准化回应。统计处理是以多变量分析形式比较不同组合中的所有标记来获得一组与疾病的存在的相关有最大可能的标记。

在此示范的对于肺癌的小组(两个或更多标记的组合测量)具有高组合预测值并且显示优秀的辨别(是癌症或不是癌症)。虽然本发明包括具有辨别存在癌症和正常样品的能力的选择的详细的肽小组，更优选的是，本发明被进一步开发，使用一些而不是所有鉴定标记，以及不是所有具有潜在鉴定能力的标记，或它们的组合。所以，小组可包括至少两个标记；至少三个标记；至少四个标记；至少五个标记；至少六个标记；至少七个标记；至少八个标记；至少九个标记；至少十个标记以及依此类推，标记的数量由统计分析控制以获得结果的最大预测性。因此，例如在此描述的实施例和小组只是示范。

从统计学的立场，包括另外的标记最终会引起鉴别样品中所有受影响的个体的检验。然而，由于价格的考虑商业实施的方案可能不要求或需要或想要大量的标记，因为考虑大量变量可能要求统计处理，也许对大量对照的需要因而减少可以一次检测的试验的数量，等等。商业能力具有与科学确定不同的最终目的。

然而，观察到大量标记或不同小组标记能增强敏感性和/或特异性，引导实施方案追踪用小量标记的阳性分析的后续研究，这样会使患者的样品用少量或大量的标记检验，或不同小组的标记检验以排除假阳性的可能性。这样的随访研究使用具有重新设定的生物标记组进行感兴趣的分析，这是对于例如CT或活组织检查这样价格更高并且具有潜在侵入性的技术的吸引人的其它选择，CT使患者暴露于高水平的辐射。因此，例如有三个或少于五个标记小组是阳性的患者可用更大量小组的标记检验作为确认检验。

本分析也可作为其它分析形式的确认，例如X-射线或CT扫描，特别是如果X-射线或CT扫描不能提供确切的诊断，使再检验成为需要，为了加快随访、在下次检验前或长或短的期间以及类似的情况。因此，本分析可用于这样患者的随访。阳性检验能证实肺癌的可能性，阴性检验能预示良性癌症或根本无癌症，并且非诊断X-射线或CT扫描揭示正常组织差异。

因为“商业上现成的”分析中精确的类别预测会基于测量来自大量来自广大人口统计学的样品，所有在开发中回顾的样品检验能最终并入，作为分类标记、例如预测值的分析能力，会继续改进。除了分析开发的动态方面，多重(多标记)分析的特点允许预测标记在开发或实施中的任何点加入。

在本文，在诊断中使用的验证标记是作为产生通过界定“正常范围”增强预测准确性的高稳定系列的分类标记的第二目的。虽然对于临床诊断最合适的截断值(cutoff)必须通过在给定的目标群体中的差异性来确定，但是与正常范围的偏差提供了疾病的统计可能性(例如来自正常>2的标准差)。

多标记分析和应用

如在此详细讨论的，本发明考虑不同分析平台的使用。微阵列使同时检验多个样品成为可能。因此，微阵列能包括一些阳性和阴性的对照样品。因此，所述分析能对多个样品进行同时处理，例如来自已知受感染的患者的样品和正常人的样品、以及待检验的样品。进行内部对照允许在分析中信号强度的归一化、核准和标准化。

因此，具有内部对照的这些微阵列、MEMS设备、NEMS设备或芯片使得在设备上可以同时进行试验(患者)检验的诊断。MEMS和NEMS设备能用于微阵列分析，或者能成为“芯片上的实验室”形式，例如结合微流体以及类似的，使其它分析平台和指示器成为可能。

为了增强预测能力和值、以及在一般群体中的应用能力，以及降低成本，本分析形式能从标准的免疫分析变化，例如测验片(dipstick)和侧向流动免疫分析(lateral flow immunoassay)(其一般以低生产成本同时检测一个或小数量的目标)，到ELISA型形式(其配置通常是在多孔培养皿中操作的，例如能够同时处理96、384或更多样品并且对于临床实验室设置来说是普通的并且和自动装置一起使用)，到芯片和微阵列形式(其可以以高通量方式同时检验更多样品)。所述分析也能配置产生简单的、定性辨别(是癌症或不是癌症)。

但是在疾病的处理中多种不同的应用是可能的，并且如在此传授的能够制备任何一种应用的独特标记。获得不同系列的标记用以从其它类型的癌症区别肺癌，从晚期癌症区分早期，区分特别亚型的癌症以及在治疗介入后跟踪疾病的发展。因此，能够评价疗法并且为了监控治疗的进展或减轻用本分析通过重复系列检验按照需要操作。所述分析例如通过包括捕获分子的一系列稀释的定量版本能辨别癌症尺寸随着治疗的缩小。

当鉴定出检测循环的自身抗体的例如肽的特别的表位，所述的表位能以本领域已知的形式用于诊断分析。因为反应是免疫反应，能以多种已知免疫分析形式的任何形式提供合适的诊断。表位可附着于固相，如使用已知的化学反应。表位也能共轭到其它分子，其通常比表位大以形成合成的轭合分子或运用本领域已知的重组方法能够被制成复合分子。许多多肽自然地结合例如聚乙烯表面的塑料表面，见于例如多孔皿的组织培养设备中。通常，这样的塑料表面被处理以增强生物相容分子结合其上的能力。因此，多肽形成捕获单位，怀疑携带特异性结合所述表位的自身抗体的液体被暴露给捕获单位，抗体渐渐附着和固定在捕获单位，然后冲洗后，用合适的可检测到的标记的报告分子来检测结合的抗体，例如抗人抗体，所述抗人抗体是用例如胶体金的胶体金属、例如荧光素钠的荧光素以及类似物标记的。其机制以例如ELISA、RIA、蛋白印记(western blot)以及类似反应为代表。检测自身抗体的免疫分析的具体形式由设计选择。

可选择地，如果特别的噬菌体表达特异地被在肺癌患者中发现的自身抗体结合的表位(这些集落特异地命名并且以母液储存，当自即时申请获得专利时可以根据需要获得)，分析的捕获单位能是单个噬菌体，例如从细胞裂解物获得，每个在固相上的一个捕获点。也能使用惰性反应载体，例如蛋白、例如铝和钉形虫血蓝蛋白(keyhole limpet hemocyanin)，或例如合成的多聚物的合成的载体，表达的表位结合其上，类似于载体上的半抗原，或通过任何其它手段将感兴趣的表位提供在固相上用于免疫分析。

可选择地，配置可采取这样的形式，其中结合例如抗体的Fc部分的免疫球蛋白的非抗原结合部分的捕获单元附着在固相。相应地，合适的捕获单元可以是蛋白A、蛋白G或是α-Fc抗体。患者的血浆被暴露给捕获剂，然后肺癌特异性抗体的存在通过如本领域所知的直接或竞争形式被标识的标记检测。

类似地，如上面讨论的，捕获单元能够是结合噬菌体的抗体，展示表位以提供产生特异性捕获剂的另外的手段。

如在免疫分析领域所知的，捕获单元是抗体结合的抗原决定簇。如在此讲授的，抗原决定簇可以是任何分子，例如生物分子，或其部分，例如多肽、多核苷酸，脂质、多糖以及类似物，及其组合，例如糖蛋白或脂蛋白，所述抗原决定簇的存在是与肺癌患者中抗体的存在相联系的。例如抗原决定簇能够是天然发生的并且纯化的。可选择地，抗原决定簇能够是通过重组手段制备的或是通过合成制备的，这样可以尽量减少交叉反应。抗原决定簇可以没有明显的生物学功能或者不必要与特殊的状态相联系，然而并不降低其在感兴趣的诊断分析中的使用。

免疫分析的固相能够是本领域已知的任何物质并且以本领域已知的形式存在。因此，所述固相能是塑料的、例如聚苯乙烯或聚丙烯、玻璃、基于硅的结构、例如硅芯片、膜、例如尼龙、纸以及类似物。所述固相可以不同和已知的形式提供，例如以纸的形式、珠、作为测验片或侧向流动设备的一部分，其一般使用膜、微孔滴定板、载玻片、芯片以及类似物。所述固相能以硬的平面存在，如见于玻璃片或芯片的。一些自动检测设备具有专用的一次性物品与读取可检测信号的装置相连，例如分光光度计、液体闪烁计数器、比色计、荧光计以及类似物，以检测和读取基于光子的信号。

其它用于检测结合抗体的免疫剂是本领域已知的。举例说，抗人Ig的抗体对于形成由捕获抗原决定簇、自身抗体和抗人Ig的抗体组成的三明治是合适的。抗人Ig的抗体、检测单元能够直接用报告分子标记，例如酶、胶体金属、放射性核素、染料以及类似物，或者能够自己结合行使报告功能的第二分子。重要地，能使用任何检测结合抗体的手段，并且这样的任何手段能包括用于报告功能的任何手段以产生可被操作者辨别的信号。形成报告的分子的标记是本领域已知的。

在能够同时分析多样品的设备方面，分析设备上能包括许多的对照单元，包括阳性和阴性对照，以能够控制分析性能、试剂性能、特异性和敏感性。经常地，如提到的，操作感兴趣的设备中如果不是全部也是许多步骤以及许多分析步骤能通过例如机器人的机械手段进行，以尽量减少技术人员错误。而且，来自这样设备的数据能通过扫描手段数字化，数字信息被传输到数据存储装置并且数据也传输到数据处理装置，在那在此讨论过的或本领域已知的一些类型的统计分析能作用在数据上产生对结果的测量，然后结果能与参考标准比较或内部与具有分析结果的目前结果比较，通过例如筛选或读出信息的数据呈现装置来提供诊断信息。

对于分析小数量样品或能获得足够群体数据的设备，能提供生成阳性结果和阴性结果的具有合适的误差测量的衍生的计量设备。在那些情况，如本领域已知的，所有需要的可能就是用于内部验证的单个阳性对照和单个阴性对照。分析设备能被构造以产生更定性的结果，例如包括或不包括在肺癌群中。

其它高通量和/或自动免疫分析形式能如本领域已知和可得到的形式使用。因此，例如基于珠的分析，例如研磨的，在比色计上能使用荧光的或发光的信号，例如Luminex(Austin，TX)技术依赖充满染料的微球和BD(Franklin Lakes，NJ)Cytometric Bead Array(细胞计算微珠阵列)系统。无论在哪种情况，感兴趣的表位被附着在珠上。

其它多重分析是Gannot等人的多层阵列方法，J.Mol.Diagnostics 7，427-436，2005。该方法依赖多膜的使用，每个膜携带结合配对的不同一个，例如目标分子，例如抗原或标记，膜配置在寄存器(register)中来接收样品，样品被怀疑携带结合配对的另一个，用于在寄存器中的色谱转移。允许样品通过毛细作用传送(wick)或运输通过一些对齐膜以提供三维基质。因此，例如可以在分离胶上叠加一些膜，并且允许胶的成分离开分离胶并通过重叠的膜。附着在任何一个膜的分子与运输通过膜叠加的分子之间的任何联系例如抗体与抗原的结合能通过使用已知的报告物以及检测材料和方法来可视化，例如参见美国专利号6,602,661和6,969,615，以及美国公开号20050255473和20040081987。

在其它实施方案中，能使用感兴趣的组合物或设备检测与肺癌相联系或相关的不同类型的分子。因此，分析可检测与肺癌相联系或相关的循环的自身抗体和非抗体分子，例如肺癌抗原，例如参见Weynants等人的Eur.Respir.J.，10：1703-1719，1997以及Hirsch等人的Eur.Respir.J.，19：1151-1158，2002。相应的，设备能包括捕获单元、自身抗体的表位以及结合肺癌分子的分子，例如特异性抗体、适体、配体以及类似物。

取样和检验的范例

可以检验的样品，特别在筛选分析中，通常是容易从患者获得的，也许以非插入或以最小侵入的方式。样品是已知携带自身抗体的。血液样品是合适的这样的样品，并且适于多数免疫分析形式。

在血液样品方面，有许多已知的血液采集管，许多采集5或10ml液体。与多数通常有序的诊断血液检验相似，采集5ml血液，但是如微阵列样操作，本分析可能需要不到1ml的血液。血液采集容器能包含抗凝血剂，例如肝素，柠檬酸盐或EDTA。细胞单元一般通过例如在4℃ 1000xg(RCF)10分钟(产生～40％血浆用于分析)的离心被分离，并且一般能在冷藏室温度或在4℃储存直到使用。血浆样品优选地在采集后3天内分析或冷冻保存，例如在-20℃。如果需要用于重复分析，过多的样品可储存在-20℃(在无霜冰箱中以避免冻融)到2周。储存期大于2周的应在-80℃。如本领域已知的，标准的操作和储存方法对保持抗体结构和功能是实用的。

然后液体样品应用到例如微阵列的检验组合物，其包含加载了例如在此讨论的五个标记小组中的一个的纯化多肽样品以及合适的阳性和阴性样品的位点。样品能以例如一系列稀释形式的梯度量提供便于定量。样品能随机地位于微阵列来寻址任何位置影响。孵育后，微阵列被冲洗，然后暴露于例如标记了特殊标记的抗人抗体的检测物。为了使信号归一化，例如能向微阵列加入第二个检测物以提供对每个位点的样品测量。它能是直接结合分离的多肽样品上另一位点的抗体，多肽能够被修饰以包含其它序列或对特异性的反应为惰性的分子，或在加入微阵列前多肽能被修饰以携带报告物。微阵列被再次冲洗，然后如果需要，暴露于能检测报告物的药剂。因此，如果报告物由有色颗粒组成，例如金属液胶，则不需要特殊的检测手段。如果使用了荧光分子，则使用合适的入射光。如果使用了酶，微阵列则暴露于合适的底物。然后评价微阵列结合位点上的反应产物。虽然那个能视觉评价，但是如果需要，有检测和定量信号强度的设备。然后，解释数据以提供验证反应的信息，例如通过观察阳性和阴性对照样品，并且如果有效则评价实验样品。然后解释信息癌症是否存在。例如，如果患者有三个或更多抗体是阳性的，则诊断患者为肺癌阳性。可选择地，标记上的信息能应用于描述五个标记与肺癌存在结果的最大可能关系的公式，并且如果患者分数线索高于同样的小组的分数50％，则该患者被诊断为癌症阳性。计算的AUC值能是合适的分数。

试剂盒的使用及分析

因其对疾病结果的潜在影响，虽然对后面随访的早期诊断或早期警告是高度强制的，但是根据本发明的血液检验有多种使用及应用。本发明可作为肺癌放射照相筛选的互补工具。系列CT筛选对肺癌一般是敏感的，但是有十分贵和非特异性(据报告64％的特异性)的趋势。因此，CT结果有高数量的假阳性，接近十分之四。在放射照相成像中不确定的肺部结节的常规识别经常引起昂贵的诊断检查(workup)以及潜在有害的介入，包括大手术。目前，年龄和吸烟史是仅有的肺癌的大量筛选研究中用作选择标准的两个因素。

根据本发明，用来检测放射照相学明显的癌症(>0.5cm)和/或隐匿或恶化前(pre-malignant)癌症(小于传统放射照相检测限值)的血液检验的使用会指出哪个个体最需要进行另外的筛选。因此，本分析能作为首先的筛选检验，其中阳性结果预示进一步检查，如传统上和本领域已知的，例如放射照相分析，例如CT、PET、X射线以及类似检查。另外，周期性复查可能鉴别新出现的NSCLC。

如何将受试者检验整合进入医学实践的例子是将受试者血液检验作为每年体检的一部分给予高危险吸烟者(例如，相当于每天吸烟一包，持续20或更多年的人)。没有任何进一步明显症状的阴性结果能提示至少每年进一步检验。如果检验结果是阳性的，患者会接受进一步检验，例如重复进行本分析和/或CT扫描或X射线以鉴别可能的肿瘤。如果在CT扫描或X射线上没有明显肿瘤，也许本分析应该在本年中重复一次或两次，以及今后几年中多次，直到肿瘤直径至少0.5mm并能检测到以及用手术去除。

如在后面的实施例中提到的，自身抗体方面对于NSCLC使用例举的五标记小组的敏感性～90％，与单独CT筛选相比相当好，并且通过比较，对于小肿瘤表现十分好，在检测隐匿疾病方面显示特有的优势。而且，本分析高于80％的特异性大大超过CT扫描，这变得越来越重要，因为良性肺部结节的百分比在高危(at-risk)人群中增加，例如在梅奥诊所筛选试验(Mayo Clinic Screening Trial)的参加人中升到大约70％的水平。

除了用于筛选，本发明的分析和方法可能对区分CT筛选上鉴定的恶性结节和良性结节这个密切相关的临床问题是有用的。单生的肺部结节(SPN)的界定是完全被正常肺组织包围的直径小于3mm的单个球形损伤。虽然在SPN中恶性发病率的报道从大约10％到大约70％，但是最近使用SPN的现代定义的研究揭示恶性发病率从大约40％到大约60％。多数良性损伤是肉芽肿的结果，而多数恶性损伤是原发性肺癌。SPN最初的诊断评价是基于恶性疾病风险因子的判定，所述恶性疾病风险因子例如年龄、吸烟史、过去恶性疾病的历史以及结节的胸部放射照相特点例如大小、钙化、边界(具细刺的或光滑的)以及基于过去胸部X射线的生长式样。然后，这些因子被用于决定恶性疾病的可能性以及指导进一步的患者处理。

初步评价后，许多结节会归类为具有中等恶性可能性(25-75％)。这个组的患者在进行活组织检查或手术前可能从本分析的另外的检验中获益。判定生长和代谢的图像的系列扫描(例如PET扫描)是目前可获得的仅有的非侵入的选择并且远非理想。系列放射照相分析依赖生长的测量，需要显示损伤在两年的时间范围没有生长；还没有确定理想的扫描间的间隔，虽然2年期间每3个月的CT扫描是传统的纵向评价。PET扫描对肺癌有90-95％的特异性和80-85％的敏感性。这些预测值可能基于良性肉芽肿疾病(例如组织胞浆菌病)的地区发病率而变化。

每个PET扫描检验目前花费在$2000和$4000之间。例如支气管镜检查法或经皮肺穿刺活检(transthoracic needle biopsy)(TTNB)的非手术过程产生的诊断的范围从40％到95％。非诊断操作调整的后续处理可能有问题。无论有或没有其它诊断建立，手术介入通常是作为最可行的选择。所述选择依赖于恶性疾病检验前(pretest)风险是高或是低、在特定的环境中检验的可获得性、结节的特征(例如大小和位置)、患者的手术风险、以及患者的偏爱。其它胸腔外的恶性疾病的过去历史直接提示肺部转移癌症的可能性，并且非侵入性检验的相关性变得可忽略。在具有对肺癌不确定临床怀疑的SPN的混乱临床方案中，循环肿瘤标记能帮助避免潜在有害的侵入诊断建立以及反驳(conversely support)过多手术介入的理论。

因此，所描述的发明增加了临床舒适度，选择系列拍照结节代替侵入诊断。本发明也影响系列X射线或CT筛选的间隔，因而降低临床健康护理费用。所描述的发明会补充或代替PET扫描，作为成本有效的方法，进一步增加诊断肺癌是存在或不存在的可能性。

本发明对治疗介入后判定疾病复发是有用的。这种能力通常用于结肠和前列腺癌的血液检验，其中跟踪标记水平作为治疗成功或失败的指示物，并且升高的标记水平提示对复发的进一步诊断评价的需要，引起治疗介入。

本发明提供关于肿瘤特征的重要信息；因为该分析依赖多重标记，其中的任何一个可能是特定癌症的特征或其独特的参数，确定有不良预后的肿瘤亚型能显著影响临床决定，以致建议具有潜在毒性的其它治疗。传统手术或化疗的用于长期联合的更新的疗法的开发可能需要小心地费用/益处分析以及患者的选择。

因此，本分析对于疗法的筛选、选择以及在治疗中继续使用是有价值的工具，以监测疗法的过程、疗法的成功、再发、治愈以及类似情况。调整本分析的药剂及特定的标记小组以满足特定的目的。例如，对于更大数量的个体，在筛选分析中使用更大组的标记或非常优势标记的小组以最大化预测的能力。然而，进行治疗的个体方面，例如可能或不可能需要在筛选中使用全部标记就能获得患者肿瘤的特定抗体的指纹，能够使用标记中列举的亚组来监测那个患者中肿瘤的存在以及后面的治疗介入。

感兴趣的分析的组成能以多种不同形式配置用于分配等等。因此，等分一个或更多表位并储存在一个或多个容器中例如玻璃小瓶、离心管以及类似的容器中。表位溶液能包含合适的缓冲液以及类似的包括防腐剂、抗生素试剂、稳定剂以及如本领域已知的类似的。表位能够是防腐的形式例如干燥的、冻干的等等。表位能放置在合适的固相上，在特定分析中使用。因此，表位能够干燥地放置在培养皿的孔中，点在位于重叠的阵列或侧向流动免疫分析装置中的膜上，点在载玻片上或其它微阵列的支持物等等。如本领域已知的，能包装所述物品以确保最长的储存期限，例如用塑料膜袋、或透明袋，并且装入盒子。分析容器也能包括其中，阳性和阴性对照样品各在一个容器中，当样品是液体时包括带滴管的管子或带帽的管子用来分配滴液、样品收集设备、其它液体转运设备、检测试剂、显影剂例如银染试剂以及酶的底物、酸性/碱性溶液、水等等。可以包括合适的使用说明。

在其它形式中例如使用基于珠的分析，多个表位能附着在不同的珠的群体，然后合并到单个药剂中，就可以暴露于患者样品了。

本发明现在要在以下非限制性实施例中举例说明，其数据报道在Zhong等人Am.J.Respir.Crit.Care Med.，172：1308-1314，2005上和Zhong等人J.Thoracic Oncol.，1：513-519，2006上，其所述内容完整地在此加入作为参考。

实施例

实施例1-NSCLC诊断分析

在这个实施例中，鉴别用于诊断后期(II、III和IV)NSCLC的标记。用NSCLC患者和正常人血浆生物淘洗(biopanned)两个T7噬菌体NSCLC文库，以富集免疫原性的克隆群体，其表达能够被NSCLC患者的循环抗体识别的多肽。

一个T7噬菌体NSCLC的cDNA文库是购买的(Novagen，Madison，WI，USA)，第二个是通过腺癌细胞系NCI-1650使用Novagen OrientExpresscDNA Synthesis and Cloning系统构建的。所述文库通过来自5位NSCLC患者(2-4期，通过组织学诊断确定的)和来自正常健康供体的混合血浆进行生物淘洗，以富集表达被肿瘤相关抗体识别的蛋白的噬菌体的群体。简言之，噬菌体展示文库通过与包被了来自混合的正常的血清(250μl混合正常血清，1：20稀释，4℃过夜)的抗体的蛋白G琼脂糖珠一起孵育来亲和选择，以去除非肿瘤特异性蛋白。通过离心将未结合的噬菌体从结合到正常血清的抗体的噬菌体分离。所述上清液通过结合包被了混合患者血浆的(4℃过夜)蛋白G琼脂糖珠来生物淘洗并且通过离心与未结合的噬菌体分离。所述结合的/反应的噬菌体用1％SDS洗脱，然后通过离心收集。所述噬菌体在存在1mM IPTG和50μg/ml羧苄青霉素的大肠杆菌NLY5615(GibcoBRL Grand Island，NY)中扩增直到裂解。收集扩增的包含噬菌体的裂解液，并进行另外三个连续循环的生物淘洗富集。扩增来自四次生物淘洗的包含噬菌体的裂解液，分离单个的噬菌体克隆然后并入以下描述的蛋白阵列。

阵列构建以及高通量筛选

扩增从所述生物淘洗的第四次循环得到的噬菌体裂解液并在6％琼脂糖覆盖的LB-琼脂上培养用以分离单个噬菌体。使用集落选择自动机(colony-picking robot)(Genetic QPix 2，Hampshire，UK)分离4000个单个集落(2000/文库)。被选的噬菌体在96孔板中扩增，然后通过使用Affymetrix417 Arrayer(Affymetrix，Santa Clara，CA)，每个孔的5nl透明的裂解液被自动地双份地点在FAST载玻片(Schleicher and Schuell，Keene，NH)。

然后用没有在生物淘洗中使用的5位单个NSCLC患者的血浆筛选所述4000个噬菌体以鉴别免疫原性的噬菌体。使用兔抗-T7初次抗体(JacksonImmuno-Research，West Grove，PA)来检测T7衣壳蛋白作为噬菌体量的对照。预吸附的血浆(血浆:细菌裂解液，1:30)样品和抗-T7的抗体两者都用添加0.1％ Tween 20的1X TBS(TBST)以1:3000稀释并且在室温下与筛选载玻片一起孵育1小时。冲洗载玻片，然后与Cy5-标记的抗人的和Cy3-标记的抗兔的二次抗体(Jackson ImmunoResearch；每个抗体在1X TB ST中1:4000稀释)在一起在室温下1小时进行探针标记。再次冲洗载玻片，并且然后用Affymetrix 428扫描仪进行扫描。用GenePix 5.0软件(AxonInstruments，Union City，CA)分析图像。具有高于线性回归2个标准差的Cy5/Cy3信号比的噬菌体被选为用在“诊断芯片”上的候选者。

诊断芯片设计和抗体测量

在上述高通量筛选中鉴定的212个免疫反应性噬菌体，加上120个“空”T7噬菌体，被再次扩增并双份地点在FAST载玻片上，作为单个的诊断芯片。用以上描述的用于筛选的实验设计方法，用复制的芯片分析40例晚期的NSCLC样品。根据Cy3信号的中位值归一化Cy5信号的中位值(Cy5/Cy3信号比)，作为针对独特噬菌体表达蛋白的人抗体的测量值。为了补偿芯片和芯片的差异性，测量要进一步归一化，通过减去血浆针对空T7噬菌体蛋白的背景反应性并除以T7信号的中位值[(噬菌体的Cy5/Cy3)-(T7的Cy5/Cy3)/(T7的Cy5/Cy3)]。

来自40位患者(II-IV期)和41位正常人的归一化的信号的student t-检验提供了令人满意的截断值(cutoff)(p<0.01)，其提示每个候选标记的相对预期值。在212个候选物中，17个达到所述截断值的标准(p＝0.00003至p＝0.01)。

组中的冗余度通过PCR和序列分析来评价，发现多个二倍和三倍的克隆。当多余的克隆被去除后，一系列的T7噬菌体表达蛋白就鉴定出了。

统计分析

用对数回归分析来预测样品是否来自NSCLC患者的可能性。患者和正常人的样品总共81份，被分成2组。患者是诊断为II-IV期的NSCLC患者。第一组由随机选择的21位正常人的和20位患者的血浆样品组成，用第一组作为演练组(training set)，来鉴别使用单一或组合的标记区分患者样品和正常人样品的标记。第二组由20位正常人的和20位患者的血浆样品组成，用以验证用演练组鉴定的所述标记的预测比率。产生接收器工作特点(ROC)曲线用来比较不同标记的预测敏感性和特异性，以及确定曲线下的面积(AUC)。用留一法(leave-one-out)的交叉证实法来进一步验证所述分类。吸烟史和疾病的阶段也被分析和比较。

然后将两个组进行置换，40样品的组变为演练组，用以鉴别指示NSCLC的存在的标记。然后，如此鉴定的提供最大预测能力的标记用于另外41样品组的NSCLC诊断。

表5 ROC曲线下的面积和预测准确性

^*演练组由21位正常和20位NSCLC患者的样品组成。

验证组由20位正常和20位NSCLC患者的样品组成。

§AUC：ROC曲线下的面积。

表6 留一法验证^＊

^*留一法验证：从总共包含81个样品的检验组移去一个样品，用其余的样品来产生一个分类标记用来预测被移去的样品的状态(正常或患者)。对于所有的样品操作过程是一样的。

诊断准确性＝(真阳性的数量+真阴性的数量)/样品的总数

噬菌体表达蛋白的序列分析

选择17个噬菌体用t-检验来假设预期值，p值<0.01的进行测序来鉴别冗余度，其显示7个独特的序列。虽然噬菌体表达蛋白的鉴定对在感兴趣的诊断分析中的使用不是关键的，但是序列还是与用不同的(独立的)筛选方法学获得的序列相比较，并且也和GenBank数据库对比来获得可能的鉴定。从7个集落获得的核苷酸序列显示与GAGE 7、NOPP 140、EEFIA、PMS2L15、SEC15L2、桩蛋白和BAC集落RP11-499F19是同源性的。

在所述的7个蛋白中，EEF1A(真核翻译延伸因子1)是蛋白合成机制的一个核心成分，GAGE7是睾丸癌抗原，它们在一些肺癌中过表达。桩蛋白是黏着斑蛋白，其调节细胞黏附和迁移。桩蛋白的异常表达和反常活性在一些恶性疾病包括肺癌中与恶性转移表型相联系。PMS2L是与DNA错配相关的蛋白，但是在癌症中还没有鉴定出突变。类似地，SEC15L2是细胞内运输蛋白，NOPP 140是参与转录活性调节的核仁蛋白，它们没有已知的与恶性相联系的信息。然而，所述的三种蛋白的生理功能提示每种蛋白在恶性表型中都可能有作用。

统计模型法和分析预测准确性

为了通过使用独特的7个噬菌体表达蛋白开发分类标记以获得更高的预测比率，81个样品被随机地分成两组，一组用作演练目的而另一组用作验证。使用对数回归来计算使用单个噬菌体表达蛋白以及多个噬菌体表达标记的组合的预测敏感性和特异性。结果发现5个噬菌体标记具有在演练组中从正常对照区分患者样品的显著能力。每个的ROC AUC的范围从0.79到0.86。5个标记的组合取得有希望的预测比率(AUC＝0.98)，具有95％的敏感性和85％的特异性(表5)。

使用所述的统计模型法去检验由20个正常对照和20个NSCLC样品组成的验证组，所述分析提供90％的敏感性和95％的特异性(表5)。

为了进一步检查分类标记和诊断敏感性和特异性之间的联系，在所有81个芯片上使用留一法交叉验证来进行组的预测。

当使用所述的81个样品时，敏感性和特异性分别是90％和87％，整个的诊断准确性是89％(表6)。还是用所有的81个样品，相应的集落ID、基因名称和p值如下：1864、GAGE7、p＝9.1 x 10^-9；1896、BAC集落RP11-499F19、p＝3.5 x 10^-8；1919、SEC15L2、p＝1.2 x 10^-6；1761、PMS2L15、p＝5.2 x 10^-7；以及1747、EEFIA、p＝5.9 x 10^-7。5个标记都具有0.001/262＝3.8 x 10^-6的Bonferroni校正，这使它们中一个或多个为假阳性的可能性小于0.001。

由此，整个使用一组五个标记来分隔来自40个NSCLC患者和41个正常的样品，当样品包含所有5个标记时成功鉴定的比率是89％。

实施例2-检测早期肺癌

在这个实施例中，研究了根据本发明的分析和方法鉴别能从与风险匹配对照样品区分I期肺癌和隐匿性疾病样品的标记的能力。

人类受试者

获得试服志愿书后，从单个受试者获得血浆样品，所述受试者已被肯塔基州和列克星顿退伍军人管理医学中心(University of Kentucky andLexington Veterans Administration Medical Center)组织学确认为NSCLC。非癌对照样品从1520位参加梅奥诊所肺筛选试验(Mayo Clinic LungScreening Trial)受试者中随机选择。简言之，具有至少整整20年的吸烟史、年龄在50-75之间、并且在参加此研究之前5年无其它恶性疾病的单个受试者适合进行CT筛选试验。除了来自梅奥诊所肺筛选试验的非癌样品，分析还可使用6个I期的NSCLC样品和40个诊断前的样品。在研究开始时提取的诊断前的样品是在样品捐赠后一至五年中用CT筛选诊断为有NSCLC发病的癌症样品。

噬菌体文库

所述的噬菌体文库、淘洗和筛选如上面所述。

诊断芯片的设计以及抗体测量

在上述高通量筛选中鉴定的212个免疫反应性噬菌体，加上120个“空”T7噬菌体，被组合再次扩增并两份地点在FAST载玻片上，作为单个的诊断芯片。用以上描述的用于筛选的实验设计，用复制的芯片分析23个I期NSCLC和23个风险匹配血浆样品。

统计分析

23个患者和23个对照样品之间对于212个噬菌体表达蛋白的每一个的归一化Cy5/Cy3比率的统计显著性差异通过使用JMP统计软件(SAS，Inc.，Cary，NC)的t-检验进行独立分析，如在前面的实施例中描述的。46个样品全部用以建立通过使用单个或组合标记能够从正常样品区分患者样品的分类标记。产生的ROC曲线用来比较预测敏感性、特异性、以及确定AUC。然后对于所有的46个样品用留一法交叉验证来检查分类标记。

然后，在来自梅奥诊所肺筛选试验的独立的102个病例和风险匹配对照的组合中，用分类标记的组合预测疾病的可能性。也分析了吸烟以及其它非恶性肺疾病的相对影响。

通过分析所有的46个样品评价预测能力获得的每个单个标记的ROCAUC的范围从.74到.95；并且五个标记的组合显示对于从风险匹配对照(AUC＝0.99)区分早期患者样品的显著能力。使用留一法交叉验证计算得到的敏感性和特异性分别是91.3％和91.3％(表7)。

然后分析一群组样品作为独立的数据系列，所述样品来自梅奥诊所肺筛选试验，包括在诊断(6个发病癌症和40个癌前样品)前0-5年提取的46个样品和来自筛选人群的56个风险匹配样品。结果显示对49/56非癌症样品、在筛选CT上放射照相检测时提取的6/6癌症样品、在诊断前一年提取的9/12样品、在诊断前两年提取的8/11、在诊断前三年提取的10/11、在诊断前四年提取的4/4、以及在诊断前五年提取的1/2样品的准确分类，相应特异性为87.5％敏感性为82.6％。未被本分析正确分类的8个癌前样品中的3个样品具有支气管肺泡的细胞组织学。

在测试系列中，6/6的非癌症对照被正确地鉴别，临床诊断为慢性阻塞性肺病(COPD)，1个个体有肉状瘤病，1个个体有乳腺癌的间隔诊断。在后面的独立的测试系列中，2个有局部的前列腺癌的个体也被正确地分类为正常。1个过去(>5年前)被诊断为乳腺癌的个体被分类为非癌症，但是另一个被分类为癌症。79例非癌症受试者中的34例在筛选CT扫描上检测出有良性结节。活性历史相比先前吸烟未显示对测试的预测准确性有影响。诊断的时间和分析的敏感性也不相关。

噬菌体表达蛋白序列分析

五个预测噬菌体表达蛋白的核苷酸序列与GenBank数据库进行比较。从最后的预测模型中5个集落获得的核苷酸序列显示与桩蛋白、SEC15L2、BAC集落RP11-499F19、XRCC5以及MALAT1有高度同源性。所述的首先三个序列被鉴定出与来自在前面的实施例中描述的晚期肺癌患者的血浆有免疫反应性。XRCC5是在一些肺癌中过表达的DNA修复基因。黏着斑蛋白桩蛋白反常的活性和异常的表达在肺癌和其它恶性疾病中与恶性转移表型相联系。MALAT1是一种调节性RNA，在肺癌中反常表达。

在后面的验证中可以看到，本分析的潜力是与肺癌放射照相筛选互补，这五个抗体标记的组合测量正确地从梅奥诊所肺筛选试验中预测了49/56非癌样品，还有6/6发病癌症以及32/40放射照相检测前1-5年提取血的发生癌症，相应特异性为87.5％敏感性为82.6％。

梅奥诊所肺筛选试验的最初报道描述了只通过CT就诊断的35个NSCLC，1个只通过痰细胞学检验就检查出，以及1个IV期NSCLC在每年筛选扫描间被临床检测出，对于仅CT筛选相应的敏感性为94.5％。而且，紧接着第一次每年发生扫描的回顾性调查揭示在发病扫描中26％的小肺部结节没有发现，与在其它CT筛选试验中报道的显著假阴性率一致。所述回顾性鉴定的结节的直径在231名参加者(375名参加者中的62％)中小于4mm，137个(37％)4-7mm，以及6个(2％)8-20mm。如此，与仅CT筛选相比，NSCLC自身抗体方面82.6％敏感性是相当好的，通过对比，可能对小肿瘤进行得尤其好，代表在隐匿性疾病的检测中非并行的优势。而且，本分析的87.5％的特异性大大超过CT筛选的，这变得更重要，因为良性肺部结节的比例在危险人群中增加，在梅奥诊所筛选试验中上升到69％的水平。

表7 演练组对数回归和留一法验证

^*演练组由23位高风险正常人和23位一期NSCLC患者的样品组成。

留一法验证：根据45个病例和对照，对单个样品的预测。

§AUC：ROC曲线下的面积。

所述五个标记准确地诊断隐匿的和I期肺癌。在一名受试者中存在5个标记能在使用标准方法学诊断前预测癌症。在患者中存在的结合NSCLC细胞的循环抗体，目前用可获得的方法学进行诊断为阴性。

在此引用的所有参考资料在此通过参考被完整地加入。

显然地，对在此所述的教导可以进行多种修饰而并不偏离本发明的精神和范围。

序列表