CN114015778A

CN114015778A - 预测肺癌的生物标志物组

Info

Publication number: CN114015778A
Application number: CN202111448186.3A
Authority: CN
Inventors: 张帆; 杨承刚
Original assignee: Cancer Hospital and Institute of CAMS and PUMC; Qingdao Yangshen Biomedical Co Ltd
Current assignee: Cancer Hospital and Institute of CAMS and PUMC; Qingdao Yangshen Biomedical Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-02-08

Abstract

本发明公开了预测肺癌的生物标志物组，所述生物标志物组用于预测肺癌具有较高的准确性、敏感性和特异性。同时所述生物标志物组可用于预测肺癌的预后。

Description

预测肺癌的生物标志物组

技术领域

本发明属于生物医药领域，涉及预测肺癌的生物标志物组。

背景技术

据统计，在世界范围内肺癌的发病率和死亡率一直高居不下。IV期肺癌的五年生存率只有1-9％，且造成的死亡人数比乳腺癌、胰腺癌、结肠癌和前列腺癌总的死亡人数还要多(Testa U,Castelli G,Pelosi E.Lung Cancers:Molecular Characterization,Clonal Heterogeneity and Evolution,and Cancer Stem Ce11s[J].Cancers(Basel),2018,10(8).)。据世界卫生组织2020年的数据估计，在我国，肺癌的发病率居恶性肿瘤首位，新发肺癌病例约为80万例，无论发病率和病死率也居恶性肿瘤之首(中国肺癌防治联盟，中华医学会呼吸病学分会肺癌学组，中国医师协会呼吸医师分会肺癌工作委员会.肺癌筛查与管理中国专家共识[J].国际呼吸杂志，2019,39(21):1604-1615.)。

肺癌最常见的类型是非小细胞肺癌，占所有肺癌种类的85-90％，包括腺癌、鳞状细胞癌、腺鳞癌等。90％的有吸烟史的NSCLC患者确诊时已经到了晚期阶段，导致许多治疗措施不能实施。在早期，约58％的NSCLC患者可以接受手术治疗，而到了III期，骤降到了约18％，此外约62％的患者接受了化疗或(和)放疗(Miller KD,Nogueira L,Mariotto AB,etal.Cancer Treatment and Survivorship Statistics,2019[J].CA Cancer J C1in,2019,69(5):363-385.)。但是由于放化疗副作用较大，而且最终都会导致耐药，患者的平均生存期小于10个月。找到合适的早期诊断及治疗、预后评估靶点对改善肺癌患者的生存是十分重要的。

近20年来，随着分子病理和精准医学的发展，从分子基础和肿瘤学的角度，尤其是在细胞水平上对肿瘤发生发展机制的深度理解是当前也是未来进一步提升临床缓解甚至治愈率不可缺少的环节。驱动基因是编码细胞增殖和生存的关键蛋白的基因，它们可以促使肿瘤形成并维持其生长(Wu JY,Yu CJ,Chang YC,et al.Effectiveness of tyrosinekinase inhibitors on"uncommon"epidermal growth factor receptor mutations ofunknown clinical significance in non-small cell lung cancer[J].Clin CancerRe,2011,17(11):3812-3821.)。

EGFR作为第一个被发现和研究的NSCLC靶向基因，迄今已经成为最主要的、亚洲人检出率最高的分子靶点，国内一些研究显示EGFR阳性率可高达43％～60％(Pan Y,ZhangY,Li Y,et al.ALK,ROS 1and RET fusions in 1139lung adenocarcinomas:acomprehensive study of common and fusion pattern-specific clinicopathologic,histologic and cytologic features[J].Lung Cancer,2014,84(2):121-126.)，其重要性不容忽视。2018年，美国病理学学院、国际肺癌研究协会再一次强调EGFR是肺癌必须检测的靶向基因之一。围绕EGFR研究与肺癌相关的标志物，为实现早期肺癌的诊断，进而实现早干预早治疗提供了新的手段和方向。

发明内容

为了弥补现有技术的不足，本发明提供了1)用作指示肺癌的生物标志物其可用于对受试者中的肺癌进行准确诊断或预测；2)用作指示肺癌预后的生物标志物，其可用于对受试者中的肺癌进行准确诊断或预测。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一方面提供了一种用于预测肺癌的生物标志物，所述生物标志物至少包括以下基因的任意两种的组合：PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2、ARL2BP、ALDH2、VPS28、RNF222、OTOP2。

进一步，所述标志物至少包括以下一组特征性基因组：Sig0.25、Sig0.5、Sig0.7和Sig；

所述Sig0.25组包括以下基因：PYGB、CCDC51、LCE3C、PLEKHA8P1；

所述Sig0.5组包括以下基因：PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P；

所述Sig0.75组包括以下基因：PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2；

所述Sig组包括以下基因：PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2、ARL2BP、ALDH2、VPS28、RNF222、OTOP2。

本发明第二方面提供了检测样本中的本发明第一方面所述的生物标志物的试剂在制备诊断或预测肺癌的产品中的应用。

进一步，所述试剂包括通过数字成像技术、蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂。

进一步，采用蛋白免疫技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括抗体，所述抗体对生物标志物或其功能片段的表位具有特异性。

进一步，所述抗体为标记抗体。

进一步，采用染料技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括染料，所述染料对生物标志物或其功能片段具有特异性。

进一步，采用核酸测序技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括引物，所述引物与生物标志物或其功能片段的序列结合。

进一步，采用核酸杂交技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括探针，所述探针与生物标志物或其功能片段的序列互补。

进一步，所述探针为标记探针。

进一步，所述样本包括组织、体液。

本发明的第三方面提供了检测样本中的本发明第一方面所述的生物标志物的试剂在制备预测肺癌预后的产品中的应用。

进一步，所述抗体为标记抗体。

进一步，所述探针为标记探针。

进一步，所述样本包括组织、体液。

进一步，所述试剂盒还包括用于诊断或预测肺癌的说明书。

本发明第四方面提供了一种诊断或预测肺癌/肺癌预后的产品，所述产品包括检测本发明第一方面所述的生物标志物的试剂。

进一步，所述产品包括芯片、试剂盒。

进一步，所述试剂盒包括qPCR试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、ELISA试剂盒和电化学发光检测试剂盒。

进一步，所述试剂盒还包括用于诊断或预测肺癌/肺癌预后的说明书。

本发明的第五方面提供了一种体系，包含：

样品；

一种或多种探针和/或染色剂，所述探针和/或染色剂与本发明第一方面所述的生物标志物和/或其同源序列结合；以及

一种或多种设备，所述设备能够定量至少一种探针或染色剂的存在、不存在和/或量，所述探针或染色剂与本发明第一方面所述生物标志物和/或其同源序列结合。

本发明的第六方面提供了一种诊断对象是否患有肺癌或存在患肺癌风险以及预测肺癌预后的系统/装置，包括：

分析单元，所述单元适于测量对象样本中本发明第一方面所述的生物标志物的量；和

评估单元，其包含存储的参考和数据处理器，所述数据处理器已经实现了用于比较分析单元测量的生物标志物的量与存储的参考的算法，由此诊断肺癌或存在患肺癌的风险。

本发明的第七方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明第六方面所述的系统/装置。

本发明的第八方面提供了一种筛选预测肺癌标志物的方法，所述方法包括：

1)构建肺癌驱动基因的互作蛋白网络；

2)筛选与肺癌密切相关的网络蛋白；

3)根据筛选的网络蛋白进行分组；

4)根据3)中所述的分组筛选差异表达基因。

所述方法进一步包括对步骤4)中的基因进行单因素分析，筛选与生存相关的基因；

所述方法进一步对生存相关的基因进行多因素回归分析，筛选用于预后的标志物。

进一步，所述肺癌驱动基因包括EGFR、ALK、GRP、KRT19、SERPINB3、ROS1、BRAF、MET、RET、ERBB2、KRAS。

进一步，所述肺癌驱动基因为EGFR。

进一步，步骤3)中利用网络蛋白表达水平的中位数进行分组。

本发明的优点和有益效果：

本发明基于肺癌的驱动基因EGFR筛选了可用于准确预测肺癌的生物标志物，所述标志物具有较高的诊断敏感性和特异性。

本发明提供了一种基于驱动基因筛选用于预测肺癌的生物标志物的方法，所述方法筛选的标志物具有较高的诊断效能。

附图说明

图1是EGFR的PPI图；

图2是差异基因的ROC曲线图，其中图2A是HBEGF；图2B是TGFA；图2C是CDH1；

图3是利用p的有效值的差异基因分组图；

图4是不同分组的诊断效能图，其中，图4A是Sig0.25的DT ROC曲线图；图4B是Sig0.25的RF ROC曲线图；图4C是Sig0.25的SVM ROC曲线图；图4D是Sig0.5的DT ROC曲线图；图4E是Sig0.5的RF ROC曲线图；图4F是Sig0.5的SVM ROC曲线图；图4G是Sig0.75的DTROC曲线图；图4H是Sig0.75的RF ROC曲线图；图4I是Sig0.75的SVM ROC曲线图；图4J是Sig的DT ROC曲线图；图4K是Sig的RF ROC曲线图；图4L是Sig的SVM ROC曲线图；

图5是不同分组预测肺癌预后的效能图，其中，图5A是Sig0.25预测肺癌预后的生存曲线图，图5B是Sig0.25预测肺癌预后的ROC曲线图；图5C是Sig0.5预测肺癌预后的生存曲线图，图5D是Sig0.5预测肺癌预后的ROC曲线图；图5E是Sig0.75预测肺癌预后的生存曲线图，图5F是Sig0.75预测肺癌预后的ROC曲线图；图5G是Sig预测肺癌预后的生存曲线图，图5H是Sig预测肺癌预后的ROC曲线图。

具体实施方式

本发明通过广泛而深入的研究，基于11基因的EGFR基因网络，研究与肺癌强相关的基因，发现了3-基因的特征性基因组。本发明旨在充分利用EGFR作为肺癌的标志物的潜在价值，以开发出有效的特征性基因组合来预测肺癌以及肺癌的预后。发明人临床数据库中发现了与3-基因的特征性基因组相关的差异表达基因。并不进一步从这些差异性表达基因中，构建了25个特征性基因组和多个子组。这些特征性基因组十分有效地预测了肺癌以及肺癌的预后。

如本文中在诸如“A和/或B”的短语中使用的术语“和/或”旨在包括A和B两者；A或B；A(单独)；以及B(单独)。同样地，在诸如“A、B和/或C”的短语中使用的术语“和/或”旨在涵盖以下实施方案的每一个：A、B和C；A、B或C；A或C；A或B；B或C；A和C；A和B；B和C；A(单独)；B(单独)；以及C(单独)。

术语“生物标志物”是指以可用于预测个体的癌症状态的不同浓度存在于个体中的生物分子。生物标志物可包括，但不限于，核酸、蛋白质及其变体和片段。生物标志物可以是包含编码该生物标志物的全部或部分核酸序列或这类序列的互补体的DNA。可用于本发明的生物标志物核酸被认为包括包含任何目的核酸序列的全部或部分序列的DNA和RNA。

在本发明的具体实施方式中，所述生物标志物包括基因及其编码的蛋白及其同源物，突变，和同等型。该术语涵盖全长，未加工的生物标志物，以及源自细胞中加工的任何形式的生物标志物。该术语涵盖生物标志物的天然发生变体(例如剪接变体或等位变体)。

如本文所用，术语“样本”是指从如本文所述的目的来源获得或衍生的生物样本。在一些实施方案中，目的来源包含生物体，诸如动物或人。在一些实施方案中，生物样本包含生物组织或液体。在一些实施方案中，生物样本可以是或包含骨髓；血液；血细胞；腹水；组织或细针活检样本；含有细胞的体液；游离漂浮核酸；痰液；唾液；尿液；脑脊液腹膜液；胸膜液；粪便；淋巴；皮肤拭子；口服拭子；鼻拭子；洗涤物(washings)或灌洗物，诸如导管灌洗物或支气管肺泡灌洗物；吸出物；刮屑；骨髓标本；组织活检标本；手术标本；粪便，其他体液，分泌物和/或排泄物；和/或其中的细胞等。在一些实施方案中，生物样本是或包含从个体获得的细胞。在一些实施方案中，样本是通过任何合适的手段直接从目的来源获得的“初级样本”。例如，在一些实施方案中，通过选自以下的方法获得初级生物样本：活组织检查(例如，细针抽吸或组织活组织检查)、手术组织、体液(例如，血液、淋巴、粪便等)的收集等。在一些实施方案中，如从上下文将显而易见的，术语“样本”是指通过加工(例如，通过去除初级样本的一种或多种组分和/或通过向初级样本添加一种或多种试剂)获得的制剂。例如，使用半透膜过滤。这类“经处理的样本”可以包含例如从样本中提取的或通过对初级样本进行诸如mRNA的扩增或逆转录、某些组分的分离和/或纯化等技术而获得的核酸或蛋白质。

可以通过将来自测试受试者的样本中的生物标志物的水平与合适的对照进行对比来确定来源于测试受试者的生物样本中的生物标志物的水平是否与存在于正常受试者中的生物标志物的水平不同。技术人员可以为所讨论的测定选择适当的对照。例如，合适的对照可以是来源于已知受试者(例如，已知是没有癌症的正常受试者的受试者)的生物样本。如果从正常受试者获得合适的对照，则测试受试者中的生物标志物的水平相对于合适的对照的统计学显著差异指示受试者患有肺癌。在一个实施方案中，生物标志物的水平的差异是增加。合适的对照也可以是参比标准。参比标准用作对比的参比水平，使得可以将测试样本与参比标准进行对比，以推断受试者的肺癌状态。参比标准可以代表已知受试者(例如，已知为正常受试者的受试者或已知患有肺癌的受试者)中一种或多种生物标志物的水平。同样地，参比标准可以代表已知受试者群体(例如，已知为正常受试者的受试者群体或已知患有肺癌的受试者群体)中的一种或多种生物标志物的水平。例如，可以通过合并来自多个个体的样本并确定所合并的样本中的生物标志物的水平来获得参比标准，从而在平均群体中产生标准。这类参比标准代表个体群体中的生物标志物的平均水平。例如，也可以通过将确定存在于从多个个体获得的个体样本中的生物标志物的水平平均来获得参比标准。这类标准还代表个体群体中的生物标志物的平均水平。参比标准也可以是值的集合，每个值代表个体群体中已知受试者中的生物标志物的水平。在某些实施方案中，可以将测试样本与这类值的集合进行对比，以推断受试者的肺癌状态。在某些实施方案中，参比标准是绝对值。在这类实施方案中，可以将测试样本与绝对值进行对比，以推断受试者的肺癌状态。在一个实施方案中，通过执行软件分类算法进行样本中的一种或多种生物标志物相对于合适对照的水平之间的对比。在一些实施方案中，生物标志物的一种或组合的表达增加，其中该增加的表达比正常样本中相同生物标志物的表达高约10％，20％，30％，40％，50％，60％，70％，80％，90％，95％或约100％或更多。在一些实施方案中，生物标志物的一种或组合的表达增加，其中该增加的表达是与正常样本中相同的生物标志物的一种或组合的表达相比约2X，3X，4X，5X，6X，7X，8X，9X或约10X或更多的表达。

术语“参比”是指其水平可用于对比测试样本中生物标志物水平的生物标志物。在本发明的一个实施方案中，参比包括管家gene，诸如β-球蛋白、醇脱氢酶或任何其他管家gene，其水平或表达不根据含有标志物的细胞的疾病状态而变化。在另一个实施方案中，所有测定的生物标志物或其子集可用作参比。

术语“多核苷酸”和“核酸”和“核酸分子”在本文中可互换使用，并且是指任何长度的核苷酸的聚合物，并且包括DNA和RNA。多核苷酸可以是脱氧核糖核苷酸、核糖核苷酸、修饰的核苷酸或碱基，和/或其类似物，或可以通过DNA或RNA聚合酶掺入聚合物中的任何底物。

术语“多肽”和“肽”和“蛋白质”在本文中可互换使用，并且是指任何长度的氨基酸的聚合物。该聚合物可以是直链或支链的，它可以包含修饰的氨基酸，并且它可以被非氨基酸中断。该术语还涵盖已经天然修饰或通过干预修饰的氨基酸聚合物；例如，二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操作或修饰，诸如与标记组分缀合。该定义内还包括例如含有一个或多个氨基酸类似物(包括，例如，非天然氨基酸)以及本领域已知的其他修饰的多肽。应理解，因为本发明的多肽可基于抗体或融合蛋白，所以在某些实施方案中，多肽可作为单链或相关链(例如，二聚体)出现。

术语“受试者”是指任何动物(例如，哺乳动物)，包括，但不限于，人类、非人灵长类、犬、猫、啮齿动物等。进一步，受试者是人类受试者。术语“受试者”、“个体”和“患者”在本文中可互换使用。因此，术语“受试者”、“个体”和“患者”涵盖患有癌症(例如，肺癌)的个体，包括已经经历或进行切除(手术)以去除癌组织的候选者的那些个体。

确定生物标志物的水平

生物样本中一种或多种生物标志物的水平可以通过任何合适的方法确定。可以使用任何可靠的方法来测量样本中的水平或数量。通常，可通过各种已知用于mRNA的方法从样本(包括其级分)(诸如分离的RNA的样本)中检测以及定量，各种已知方法包括，例如，基于扩增的方法(例如，聚合酶链反应(PCR)、实时聚合酶链反应(RT-PCR)、定量聚合酶链反应(qPCR)、滚环扩增等)、基于杂交的方法(例如，杂交阵列(例如，微阵列)、NanoString分析、Northern Blot分析、分支DNA(bDNA)信号扩增、原位杂交等)，以及基于测序的方法(例如，下一代测序方法，例如，使用Illumina或IonTorrent平台)。其他示例性技术包括核糖核酸酶保护测定法(RPA)和质谱法。

基于扩增的方法

存在许多基于扩增的方法用于检测生物标志物核酸序列的水平，包括，但不限于，PCR、RT-PCR、qPCR和滚环扩增。其他基于扩增的技术包括，例如，连接酶链反应、多重可连接探针扩增、体外转录(IVT)、链置换扩增、转录介导的扩增、RNA(Eberwine)扩增，以及本领域技术人员已知的其他方法。

基于杂交的方法

可以使用基于杂交的方法检测生物标志物，该基于杂交的方法包括但不限于杂交阵列(例如，微阵列)、NanoString分析、Northern Blot分析、分支DNA(bDNA)信号扩增和原位杂交。

微阵列可用于同时测量大量生物标志物的表达水平。可以使用各种技术制造微阵列，包括用细尖针在载玻片上进行印刷、使用预制掩模进行光刻、使用动态微镜器件进行光刻、喷墨印刷或在微电极阵列上进行电化学。还可使用基于微流体qRT-PCR反应阵列的微流体TaqMan低密度阵列，以及相关的基于微流体qRT-PCR的方法。

可以使用Axon B-4000扫描仪和Gene-Pix Pro 4.0软件或其他合适的软件来扫描图像。除去在背景扣除后的非阳性斑点以及通过ESD程序检测的异常值。将得到的信号强度值归一化为每个芯片的中值，然后用于获得每个生物标志物的几何平均值和标准误差。可将每个信号转化为log基数2，并进行单样本t检验。每个样品的独立杂交可以在芯片上进行，每个生物标志物点样多次以增加数据的稳健性。

可以采用几种类型的微阵列，包括，但不限于，点状寡核苷酸微阵列，预制寡核苷酸微阵列或点状长寡核苷酸阵列。

在一些实施方案中，通过本领域技术人员已知的测定法确定生物标志物表达，该测定法包括，但不限于，多分析物谱测试、酶联免疫吸附测定法(ELISA)、放射免疫测定法、蛋白质印迹测定法、免疫荧光测定法、酶免疫测定法、免疫沉淀测定法、化学发光测定法、免疫组织化学测定法、斑点印迹测定法或狭线印迹测定法。在一些实施方案中，其中在测定中使用抗体，该抗体被可检测地标记。抗体标记可以包括，但不限于，免疫荧光标记、化学发光标记、磷光标记、酶标记、放射性标记、抗生物素蛋白/生物素、胶体金颗粒、有色颗粒和磁性颗粒。在一些实施方案中，通过IHC测定法确定生物标志物的表达。

在一些实施方案中，使用特异性结合生物标志物的试剂确定生物标志物的表达。显示与生物标志物特异性结合的任何分子实体均可用于确定样品中该生物标志物蛋白的水平。特异性结合剂包括，但不限于，抗体、抗体片段、抗体模拟物和多核苷酸(例如，适体等)。技术人员理解，所需特异性的程度由用于检测生物标志物蛋白的特定测定法确定，在一些实施方案中，本公开涉及包含固体支持物(诸如ELISA板、凝胶、珠或柱，其包含抗体、抗体片段、抗体模拟物和/或能够结合T3p或其盐的多核苷酸)的体系。

如本文所用，术语“抗体”是指免疫球蛋白分子，其通过至少一个抗原结合位点识别并特异性结合靶标，诸如蛋白质、多肽、肽、碳水化合物、多核苷酸、脂质或前述的组合。如本文所用，该术语涵盖完整的多克隆抗体、完整的单克隆抗体、单链抗体、抗体片段(诸如Fab、Fab′、F(ab')2和Fv片段)、单链Fv(scFv)抗体、多特异性抗体(诸如双特异性抗体)、单特异性抗体、单价抗体、嵌合抗体、人源化抗体、人抗体、包含抗体的抗原结合位点的融合蛋白，以及包含抗原结合位点的任何其他修饰的免疫球蛋白分子，只要该抗体表现出所需的生物结合活性。抗体可以是五种主要类别的免疫球蛋白中的任一种：IgA、IgD、IgE、IgG和IgM，或其亚类(同种型)(例如IgG1、IgG2、IgG3、IgG4、IgA1和IgA2)。不同类别的免疫球蛋白具有不同的和熟知的亚单位结构和三维构型。抗体可以是裸露的或与其他分子缀合，包括但不限于毒素和放射性同位素。

术语“抗体片段”是指完整抗体的一部分并且是指完整抗体的抗原决定可变区。抗体片段的示例包括，但不限于，Fab、Fab′、F(ab')2和Fv片段、线性抗体、单链抗体和由抗体片段形成的多特异性抗体。如本文所用，“抗体片段”包含至少一个抗原结合位点或表位结合位点。术语抗体的“可变区”是指单独或组合的抗体轻链的可变区或抗体重链的可变区。重链或轻链的可变区通常由四个框架区(FR)组成，其由三个互补决定区(CDR)连接，也称为“高变区”。每条链中的CDR通过框架区紧密邻近地结合在一起，并且有助于抗体的抗原结合位点的形成。

术语“单克隆抗体”是指参与单一抗原决定簇或表位的高特异性识别和结合的均质抗体群。这与通常包括针对多种不同抗原决定簇的不同抗体的混合物的多克隆抗体形成对比。术语“单克隆抗体”涵盖完整的和全长的单克隆抗体以及抗体片段(例如，Fab、Fab′、F(ab')2、Fv)、单链(scFv)抗体、包含抗体部分的融合蛋白和包含抗原结合位点的任何其他修饰的免疫球蛋白分子。此外，“单克隆抗体”是指通过许多技术制备的这类抗体，该技术包括但不限于杂交瘤生产、噬菌体选择、重组表达和转gene动物。

基于测序的方法

如果可用，也可以使用高级测序方法。例如，可以使用Illumina检测生物标志物。下一代测序(例如，Sequencing-By-Synthesis或TruSeq方法，其使用例如HiSeq、HiScan、GenomeAnalyzer或MiSeq系统(加利福尼亚州圣地亚哥Illumina,Inc.))。生物标志物也可以使用离子流测序(Ion Torrent Systems,Inc.，Gulliford，康涅狄格州)或其他合适的半导体测序方法来进行检测。

其他检测工具

可以使用质谱法使用RNase图谱(mapping)对生物标志物进行定量。在通过MS或串联MS(MS/MS)方法对分离的RNA进行分析之前，可以用具有高特异性的RNA内切核酸酶(RNase)(例如，RNase T1，其在所有未修饰的鸟苷残基的3'侧切割)对分离的RNA进行酶促消化。开发的第一种方法使用直接与ESI-MS偶联的反相HPLC对核酸内切酶消化物进行在线色谱分离。转录后修饰的存在可以通过与基于RNA序列预期的那些的质量偏移来揭示。然后可以分离质量/电荷值异常的离子用于串联MS测序，从而定位转录后修饰的核苷的序列位置。

基质辅助激光解吸/电离质谱法(MALDI-MS)也已被用作获得关于转录后修饰的核苷的信息的分析方法。基于MALDI的方法可以通过分离步骤与基于ESI的方法区分。在MALDI-MS中，质谱仪用于分离生物标志物。

用于生物标志物检测和测量的其他方法包括，例如，链侵入测定(Third WaveTechnologies,Inc.)、表面等离子共振(SPR)、cDNA、MTDNA(金属DNA；萨斯喀彻温省萨斯卡通市Advance Technologies)以及单分子方法，诸如由US Genomics开发的方法。可以使用结合了表面酶反应和纳米颗粒扩增SPR成像(SPRI)的新方法以微阵列形式检测多个生物标志物。poly(A)聚合酶的表面反应在杂交到锁核酸(LNA)微阵列上的生物标志物上产生poly(A)尾。然后将DNA修饰的纳米颗粒吸附到poly(A)尾并用SPRI检测。这种超灵敏的纳米颗粒扩增的SPRI方法可用于以阿摩尔(attamole)水平进行生物标志物分析。

检测扩增或非扩增的生物标志物

在某些实施方案中，标记、染料或标记的探针和/或引物用于检测扩增的或未扩增的生物标志物。基于检测方法的灵敏度和靶标的丰度，技术人员将认识到哪些检测方法是合适的。根据检测方法的灵敏度和靶标的丰度，在检测之前可能需要或可能不需要扩增。本领域技术人员将认识到优选生物标志物扩增的检测方法。

探针或引物可以包括标准(A，T或U，G和C)碱基，或修饰的碱基。修饰的碱基包括，但不限于，AEGIS碱基。在某些方面，碱基通过天然磷酸二酯键或不同的化学键连接。不同的化学键包括，但不限于，肽键或锁核酸(LNA)键。

在某些实施方案中，扩增反应中的一种或多种引物可以包括标记。在更进一步的实施方案中，不同的探针或引物包含可彼此区分的可检测标记。在一些实施方案中，核酸，诸如探针或引物，可以用两种或更多种可区分的标记来标记。

在一些方面，标记附着于一种或多种探针并具有以下性质中的一种或多种：(i)提供可检测信号；(ii)与第二标记相互作用以修饰由第二标记提供的可检测信号，例如，FRET(荧光共振能量转移)；(iii)稳定杂交，例如，形成双链体；以及(iv)提供结合复合物或亲和组的成员，例如亲和力、抗体-抗原、离子复合物、半抗原-配体(例如，生物素-亲和素)。在另外其他方面，标记的使用可以使用大量已知技术中的任何一种(该已知技术采用已知标记、键、连接基团、试剂、反应条件以及分析和纯化方法)来实现。

生物标志物可通过直接或间接方法检测。在直接检测方法中，通过与核酸分子连接的可检测标记来检测一种或多种生物标志物。在这类方法中，生物标志物可以在与探针结合之前被标记。因此，通过筛选与探针结合的标记的生物标志物来检测结合。该探针任选地与反应体积中的珠子(bead)连接。

在某些实施方案中，通过与标记的探针直接结合来检测核酸，并随后检测探针。在本发明的一个实施方案中，使用与探针缀合的FIexMAP微球(Luminex)检测核酸(诸如扩增的生物标志物)，以捕获期望的核酸。一些方法可涉及例如用荧光标记修饰的多核苷酸探针检测或分支DNA(bDNA)检测。

在一些实施方案中，使用基于PCR的测定法来确定生物标志物的表达，该测定法包含每种生物标志物的特异性引物和/或探针。如本文所用，术语“探针”是指能够选择性结合特定预期目标生物分子的任何分子。在一些实施方案中，本文中，术语“探针”是指可间接地或直接地、共价地或非共价地结合至本文公开的任何底物和/或反应产物和/或蛋白酶的任何分子或与其相关，并且其相关或结合可使用本文公开的方法检测。在一些实施方案中，探针是荧光探针、抗体或基于吸光度的探针。如果是基于吸光度的探针，发色团pNA(对硝基苯胺)可用作检测和/或定量本文公开的靶核酸序列的探针。在一些实施方案中，探针可以是包含荧光分子或底物的核酸序列，该荧光分子或底物在暴露于酶时变为发荧光的，并且该核酸序列与一种核酸序列的片段互补。

术语“引物”或“探针”涵盖具有特定序列的寡核苷酸或具有特定序列的寡核苷酸。在其他实施方案中，通过间接检测方法检测核酸。例如，生物素化的探针可以与链霉亲和素缀合的染料组合以检测结合的核酸。链霉亲和素分子结合扩增的生物标志物上的生物素标记，并且结合的生物标志物通过检测附着在链霉亲和素分子上的染料分子来检测。在一个实施方案中，缀合链霉亲和素的染料分子包含PHYCOLINK。链霉亲和素R-藻红蛋白(PROzyme)。其他缀合染料分子是本领域技术人员已知的。

标记包括，但不限于：发光、光散射和吸光化合物，其产生或淬灭可检测的荧光、化学发光或生物发光信号。在一些实施方案中使用包括报告荧光团和淬灭剂荧光团的双重标记的荧光探针。应当理解，选择具有不同发射光谱的成对荧光团，使得它们可以容易地区分。在某些实施方案中，标记是杂交稳定部分，其用于增强、稳定或影响双链体的杂交，例如，嵌入剂和嵌入染料。

诊断

本文所述的生物标志物可单独或组合用于诊断测试中以评估受试者的肺癌状态。肺癌状态包括肺癌存在或不存在。肺癌状态还可以包括监测肺癌的病程，例如，监测疾病进展。基于受试者的肺癌状态，可以指示另外的程序，包括例如另外的诊断测试或治疗程序。

通常根据测定的准确度、测定的灵敏度、测定的特异性或“曲线下面积”(AUC，例如，接受者操作特征(ROC)曲线下面积)来测量诊断测试正确预测疾病状态的能力。如本文所用，准确度是错误分类的样品的分数的量度。可以将准确度度计算为例如在测试群体中正确分类的样本的总数除以样本的总数。灵敏度是通过测试预测为阳性的“真阳性”的量度，并且可以计算为正确鉴定的肺癌样品的数目除以肺癌样品的总数。特异性是通过测试预测为阴性的“真阴性”的量度，并且可以计算为正确鉴定的正常样品的数目除以正常样品的总数。AUC是接受者操作特征曲线下面积的量度，其为灵敏度对假阳性率(1-特异性)的曲线。AUC越大，测试的预测值越强大。测试效用的其他有用量度包括“阳性预测值”和“阴性预测值”两者，“阳性预测值”是测试为阳性的实际阳性的百分比，“阴性预测值”是测试为阴性的实际阴性的百分比。在一个优选的实施方案中，相对于正常受试者，来源于具有不同肺癌状态的受试者的样品中一种或多种生物标志物的水平显示出至少p＝0.05，例如p＝0.05，p＝0.01，p＝0.005，p＝0.001等的统计学显著差异，如相对于合适的对照所确定的。在其他优选的实施方案中，单独或组合使用本文所述的生物标志物的诊断测试显示至少约75％的准确度，例如，至少约75％，约80％，约85％，约90％，约95％，约97％，约99％或约100％的准确度。在其他实施方案中，单独或组合使用本文所述的生物标志物的诊断测试显示出至少约75％的特异性，例如至少约75％，约80％，约85％，约90％，约95％，约97％，约99％或约100％的特异性。在其他实施方案中，单独或组合使用本文所述的生物标志物的诊断测试显示出至少约75％的灵敏度，例如至少约75％，约80％，约85％，约90％，约95％，约97％，约99％或约100％的灵敏度。在其他实施方案中，单独或组合地使用本文所述的生物标志物的诊断测试显示出各自至少约75％的特异性和灵敏度，例如，至少约75％，约80％，约85％，约90％，约95％，约97％，约99％或约100％的特异性和灵敏度(例如，至少约80％的特异性和至少约80％的灵敏度，或例如，至少约80％的特异性和至少约95％的灵敏度)。

每种生物标志物与正常受试者相比不同地存在于来源于患有肺癌的受试者的生物样品中，因此每种生物标志物可单独用于促进测试受试者中肺癌的确定。这类方法涉及确定来源于受试者的样品中的生物标志物的水平。确定样品中生物标志物的水平可以包括使用任何合适的方法(例如本文所述的方法)测量、检测或测定样品中生物标志物的水平。确定样品中生物标志物的水平还可以包括检查所测量、检测或测定样品中生物标志物的水平的测定的结果。该方法还可以涉及将样品中的生物标志物的水平与合适的对照进行对比。使用合适的对照评估的生物标志物相对于正常受试者中的生物标志物水平的变化指示受试者的肺癌状态。可以使用诊断量的生物标志物，其表示高于或低于该诊断量时，受试者被归类为具有特定肺癌状态。例如，如果与正常个体相比，生物标志物在来源于患有肺癌的个体的样品中上调，则高于诊断截止值的测量量提供了对肺癌的诊断。如本领域所熟知的，调节测定中使用的具体诊断截止值允许人们根据需要调节诊断测定的灵敏度和/或特异性。具体的诊断截止值可以例如通过测量来自具有不同肺癌状态的受试者的统计上显著数量的样品中的生物标志物的量，并以期望的准确度、灵敏度和/或特异性水平绘制截止值来确定。在某些实施方案中，诊断截止值可在分类算法的帮助下确定。

虽然单独的生物标志物可用于肺癌的诊断应用，如本文所示，但生物标志物的组合可比单独使用时的生物标志物提供更高的肺癌状态的预测值。具体地，检测多个生物标志物可以增加诊断测试的准确度、灵敏度和/或特异性。本发明包括这些表中列出的个体生物标志物和生物标志物组合，以及它们在本文所述的方法和试剂盒中的用途。

在一些实施方案中，使用诸如“已知样本”的样本生成的数据然后可用于“训练”分类模型。“已知样品”是已经被预先分类的样品，例如，被分类为来自正常受试者或来自患有肺癌的受试者的样品。由光谱导出并用于形成分类模型的数据可称为“训练数据集”。一旦被训练，分类模型可以识别从使用未知样品产生的光谱导出的数据中的模式。然后可以使用该分类模型来将这些未知样品分类成类。例如，这在预测特定生物样品是否与特定生物状况(例如，患病和未患病)相关中是有用的。

可以使用任何合适的统计分类(或“学习”)方法来形成分类模型，该方法试图基于数据中存在的客观参数将数据体分成类。在监督分类中，将包含已知类别的示例的训练数据呈现给学习机制，该学习机制学习定义每个已知类别的一组或多组关系。然后可以将新数据应用于学习机制，该学习机制然后使用所学习的关系对新数据进行分类。监督分类过程的示例包括线性回归过程(例如，多重线性回归(MLR)、偏最小二乘(PLS)回归和主成分回归(PCR))、二元决策树(例如，诸如CART分类和回归树的递归分区过程)、诸如反向传播网络的人工神经网络、判别分析(例如，贝叶斯分类器(Bayesian classifier)或费舍尔分析(Fischer analysis))、逻辑分类器，以及支持向量分类器(支持向量机)。

在其他实施方案中，可以使用无监督学习方法来形成所创建的分类模型。无监督分类尝试基于训练数据集中的相似性来学习分类，而不对从中得出训练数据集的光谱进行预分类。无监督学习方法包括聚类分析。聚类分析试图将数据分成“聚类”或组，在理想情况下，这些“聚类”或组应该具有彼此非常相似且与其他聚类的成员非常不相似的成员。然后使用某种距离度量来测量相似性，该距离度量测量数据项之间的距离，并将彼此接近的数据项聚类在一起。

分类模型可以在任何合适的数字计算机上形成和使用。合适的数字计算机包括使用任何标准或专用操作系统(诸如基于Unix、WINDOWS或LINUX的操作系统)的微型(micro)、迷你(mini)或大型计算机。

训练数据集和分类模型可以通过由数字计算机执行或使用的计算机代码来体现。计算机代码可以存储在任何合适的计算机可读介质上，包括光盘或磁盘、磁棒、磁带等，并且可以用任何合适的计算机编程语言编写，包括C、C++、visual basic等。

上述学习算法可用于开发针对肺癌的生物标志物的分类算法。分类算法又可通过为单独或组合使用的生物标志物提供诊断值(例如，截止点)而用于诊断测试中。

试剂盒

本发明提供了用于诊断受试者中的肺癌的试剂盒，该试剂盒用于确定生物标志物的水平(其中序列任选地包含尿嘧啶以代替所公开的胸腺嘧啶中的一种、多于一种或全部)及其组合。试剂盒可以包括适于选择性检测来源于受试者的样品中用于诊断肺癌的生物标志物或生物标志物组的存在的材料和试剂。例如，在一个实施方案中，该试剂盒可以包括与生物标志物特异性杂交的试剂。这类试剂可以是适于检测生物标志物的形式的核酸分子，例如，探针或引物。该试剂盒可以包括用于进行测定以检测一种或多种生物标志物的试剂，例如，可以用于在qPCR反应中检测一种或多种生物标志物的试剂。该试剂盒同样可以包括用于检测一种或多种生物标志物的微阵列。

在进一步的实施方案中，试剂盒可以含有标记或产品插页形式的合适操作参数的说明书。例如，说明书可以包括关于如何收集样品，如何确定样品中一种或多种生物标志物的水平，或如何将样品中一种或多种生物标志物的水平与受试者的肺癌状态相关联的信息或指导。

在另一个实施方案中，试剂盒可以含有一个或多个容器，其具有生物标志物样品，以用作参比标准，合适的对照，或用于测定的校准以检测测试样品中的生物标志物。

系统/装置

本发明涉及一种诊断对象是否患有肺癌或存在患肺癌风险以及预测肺癌预后的系统/装置，包括：

分析单元，所述单元适于测量对象样本中本发明所述的生物标志物的量；和

如本文应用的装置应至少包括上述单元。装置的单元可操作地彼此连接。如何以操作方式链接单元将取决于装置中包含的单元的类型。例如，在分析单元中应用用于自动定量测量生物标志物的工具的情况下，由所述自动操作单元获得的数据可以由评估单元处理，例如，由在作为数据处理器的计算机上运行的计算机程序处理，以便促进诊断。在一个实施方式中，数据处理器实行生物标志物的量与参考的比较。

进一步，在这种情况下，单元由单个装置构成。然而，分析单元和评估单元也可为物理上分离的。在这种情况下，可以经由允许数据传输的单元之间的有线和无线连接来实现操作连接(operative linkage)。无线连接可使用无线LAN(WLAN)或互联网。有线连接可通过单元之间的光学和非光学电缆连接实现。用于有线连接的电缆进一步适于高通量数据传输。

下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于说明本发明而不用于限制本发明的范围。实施例中未注明具体条件的实验方法，通常按照常规条件，或按照制造厂商所建议的条件。

1、构建EGFR的PPI网络

基于string数据库围绕EGFR构建PPI网络图，由此得到了一个基因集：CBL，CDH1，EGF，EGFR，EREG，HBEGF，HSP90AA1，PLCG1，STAT3，TGFA，RASA1，见图1。

2、筛选与肺癌密切相关的网络蛋白

从UCSC Xena(https：//gdc.xenahubs.net)下载肺鳞癌的基因表达的RNA测序数据(FPKM值)和临床信息，对数据进行处理，处理过程如下：删除没有临床随访信息的样本和生存时间未知，小于0天和没有生存状态的样本；对数据样本进行基因注释；去重取平均值和进行次方转换；最终纳入的样本为49个正常样本和493个癌症样本。

将样本分为正常组和癌症组，使用R中的"pROC"包绘制PPI网络基因的ROC曲线，选择与肺癌密切相关的基因，筛选标准：AUC>0.85。

基因的ROC曲线及AUC值分别如图2和表1所示，CDH1，TGFA，HBEGF与肺癌密切相关。

表1各基因的AUC值

3、分组及差异表达基因的筛选

根据CDH1，TGFA，HBEGF这3个基因的表达数据的中位数，将癌症样本分为高低两组，将根据这3个基因表达数据的中位数得到的3个高组交集，将全部高表达的定义为高表达组，其它的定义为低表达组，得到高表达组样本为85，低表达组408。

基于高低表达的分组，使用R语言中的“limma”包进行差异表达的分析，筛选差异表达基因，筛选标准为：FDR<0.01。

筛选结果显示，有1117个基因呈现显著性差异，其中，690个基因显著上调，427个基因显著下调。

4、单因素分析

对在高低表达分组中呈现显著性差异的基因使用R中的“survival”、“survminer”包进行单因素分析，筛选与生存相关的基因，筛选标准为：P<0.05。

筛选结果显示，与生存相关的基因有52个。

5、LASSO Cox回归分析

对与生存相关的基因使用R中的“survival”、“glmnet”进行LASSO Cox分析，构建回归模型，利用LASSO Cox回归模型系数与mRNA表达水平的线性组合构建预后genesignature(Sig)。

回归分析结果如表2所示，共得到25个基因的回归模型。

表2预后基因

6、标志物亚组的分类

根据p值所确定的有效性，进一步将25个基因又细分为不同的亚组，分别是25％(Sig0.25)，50％(Sig0.5)，75％(Sig0.5)，100％(Sig)。分组情况如图3所示。

7、标志物亚组对肺癌的预测

基于正常疾病的分组，对4个亚组在R中分别使用机器学习的方法构建模型来预测标志物对疾病的诊断效能，其中每个亚组都构建了RF，SVM，DT这3种模型。

结果如图4所示，Sig0.25组构建的DT，RF，SVM模型预测肺癌的AUC分别为0.822、0.934、0.928；Sig0.5组构建的DT，RF，SVM模型预测肺癌的AUC分别为0.903、0.995、0.995；Sig0.75组构建的DT，RF，SVM模型预测肺癌的AUC分别为0.903、0.998、0.998；Sig组构建的DT，RF，SVM模型预测肺癌的AUC分别为0.945、0.999、0.998，不同的亚组都能够有效的预测肺癌，其均具有较高的敏感性和特异性，其中Sig组的预测效能最高。

8、标志物亚组对肺癌预后的预测

采用R软件“survival”、“survminer”“ggplot2”、“timeROC”包对四个亚组进行生存分析和时间依赖ROC的绘制。

结果如图5所示，不同的亚组可以用于预测肺癌的预后(P<0.0001)。

实施例的说明只是用于理解本发明的方法及其核心思想。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也将落入本发明权利要求的保护范围内。

Claims

1.一种用于预测肺癌的生物标志物，其特征在于，至少包括以下基因的任意两种的组合：PYGB、CCDC51、LCE3C、PLEKHA8P1、NLRP10、ZBED2、CDKN1A、LRRC1、SERPINB13、CCDC177、DGKA、KRT42P、RP11.96C23.12、ICA1、PLEKHA1、KLK8、RP11.411K7.1、CRYGB、GCSHP5、FBN2、ARL2BP、ALDH2、VPS28、RNF222、OTOP2；

优选地，所述标志物至少包括以下一组特征性基因组：Sig0.25、Sig0.5、Sig0.7和Sig；

所述Sig0.25组包括以下基因：PYGB、CCDC51、LCE3C、PLEKHA8P1；

2.检测样本中权利要求1所述的生物标志物的试剂在制备诊断或预测肺癌的产品中的应用。

3.检测样本中权利要求1所述的生物标志物的试剂在制备预测肺癌预后的产品中的应用。

4.根据权利要求2或3所述的应用，其特征在于，所述试剂包括通过数字成像技术、蛋白免疫技术、染料技术、核酸测序技术、核酸杂交技术、色谱技术、质谱技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂；

优选地，采用蛋白免疫技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括抗体，所述抗体对生物标志物或其功能片段的表位具有特异性；

优选地，所述抗体为标记抗体；

优选地，采用染料技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括染料，所述染料对生物标志物或其功能片段具有特异性；

优选地，采用核酸测序技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括引物，所述引物与生物标志物或其功能片段的序列结合；

优选地，采用核酸杂交技术检测样本中生物标志物或其功能片段的存在、不存在和/或量的试剂包括探针，所述探针与生物标志物或其功能片段的序列互补；

优选地，所述探针为标记探针。

5.根据权利要求2或3所述的应用，其特征在于，所述样本包括组织、体液。

6.一种诊断或预测肺癌/肺癌预后的产品，其特征在于，所述产品包括检测权利要求1所述的生物标志物的试剂；

优选地，所述产品包括芯片、试剂盒；

优选地，所述试剂盒包括qPCR试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、ELISA试剂盒和电化学发光检测试剂盒；

优选地，所述试剂盒还包括用于诊断或预测肺癌/肺癌预后的说明书。

7.一种体系，其特征在于，包含：

样品；

一种或多种探针和/或染色剂，所述探针和/或染色剂与权利要求1中所述的生物标志物和/或其同源序列结合；以及

一种或多种设备，所述设备能够定量至少一种探针或染色剂的存在、不存在和/或量，所述探针或染色剂与权利要求1所述生物标志物和/或其同源序列结合。

8.一种诊断对象是否患有肺癌或存在患肺癌的风险以及预测肺癌预后的系统/装置，其特征在于，包括：

分析单元，所述单元适于测量对象样本中权利要求1所述的生物标志物的量；和

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求8所述的系统/装置。

10.一种筛选预测肺癌标志物的方法，其特征在于，包括：

1)构建肺癌驱动基因的互作蛋白网络；

2)筛选与肺癌密切相关的网络蛋白；

3)根据筛选的网络蛋白进行分组；

4)根据3)中所述的分组筛选差异表达基因；

优选地，所述方法进一步包括对步骤4)中的基因进行单因素分析，筛选与生存相关的基因；

优选地，所述方法进一步对生存相关的基因进行多因素回归分析，筛选用于预后的标志物；

优选地，所述肺癌驱动基因包括EGFR、ALK、GRP、KRT19、SERPINB3、ROS1、BRAF、MET、RET、ERBB2、KRAS；

优选地，所述肺癌驱动基因为EGFR；

优选地，步骤3)中利用网络蛋白表达水平的中位数进行分组。