CN115976209A

CN115976209A - 一种肺癌预测模型的训练方法以及预测装置和应用

Info

Publication number: CN115976209A
Application number: CN202211552486.0A
Authority: CN
Inventors: 陈克终; 杨浩; 杨帆; 杜凤霞; 李运; 张雪莹; 陈碧思; 白健; 郑璐; 王寅; 吴佳妍; 杨爱蓉; 周进兴; 吴�琳
Original assignee: Fujian Herui Gene Technology Co ltd; Peking University Peoples Hospital
Current assignee: Fujian Herui Gene Technology Co ltd; Peking University Peoples Hospital
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-04-18

Abstract

本发明公开了一种肺癌预测模型的训练方法以及预测装置和应用，涉及生物检测技术领域。本发明发现了新的肺癌标志物，具体可参照表1，与传统临床检测的手段以及现有标志物相比，具有更好的灵敏度和特异性，为肺癌的有效筛查提供了途径。

Description

一种肺癌预测模型的训练方法以及预测装置和应用

技术领域

本发明涉及生物检测技术领域，具体而言，涉及一种肺癌预测模型的训练方法以及预测装置和应用。

背景技术

肺癌为全球发病率和死亡率最高的恶性肿瘤，而诊断时的临床分期是影响肺癌患者5年生存率的关键，早期肺癌可达92％，而晚期仅5.8％，因此，早期诊断是改善肺癌患者预后的关键。然而，国外的肺癌筛查主要基于胸部影像以及分子标志物，但不太适合中国人群。

肺癌早诊早治的难点包括以下几个方面：一是早期肺癌无特征性影像学表现，缺乏新型影像分析技术鉴别诊断早期肺癌；二是早期肺癌患者常无特征性临床症状，缺乏高危人群的甄别标准及适宜筛查方案；三是缺乏高准确性的肺癌早诊早治标志物，传统的CEA等分子，诊断早期肺癌的敏感性低于50％，临床缺乏指导早诊早治的精准指标；四是肺部小结节容易漏诊，性质难以判别，人工标注存在耗时耗人的瓶颈，人工智能面临“小数据和数据组间”不平衡的问题。

当前肺癌的常用检测方案主要包括酶学检测：血浆肿瘤标志物检测是常用于肺癌筛查和术后监测的常用临床检测手段；癌胚抗原(CEA)是一种“广谱”的肿瘤标志物，有研究表明，CEA诊断肺癌的灵敏度和特异性分别为69％和68％。临床上肺癌比较常用的标志物还有细胞角质蛋白19片段抗原(CYFRA21-1)及神经元特异性烯醇化酶(NSE)抗原，此两种抗原分别在诊断鳞癌和小细胞癌中更有优势。但是由于肿瘤的异质性，尚未发现特异性和灵敏度足够高的用于诊断早期肺癌的肿瘤标志物。如碱性磷酸酶，在肝癌和骨肉瘤患者中可明显升高；糖蛋白，如肺癌血清ɑ酸性糖蛋白可有升高，消化系统肿瘤CA19-9等增高；肿瘤相关抗原，如癌胚抗原(CEA)在胃肠道肿瘤、肺癌和乳腺癌中可出现增高，甲胎蛋白(AFP)在肝癌和恶性畸胎瘤中可增高。目前，肿瘤标记物缺乏特异性，仅在辅助诊断和判断预后等方面仍有一定价值。

自20世纪90年代起，随着胸部低剂量CT(low-dose computed tomography，LDCT)技术的发展，肺癌筛查进入LDCT时代，临床研究结果显示，与X线胸片相比，采用LDCT对肺癌高危人群进行筛查可使肺癌病死率下降20％。肺癌筛查能够有效地发现I期肺癌及非小细胞肺癌，但是LDCT筛查在发现恶性结节的同时，也检出了大量良性和性质难以确定的结节，导致了很高的假阳性率。很多假阳性结节需要接受进一步的侵袭性检查，从而增加了受试者的焦虑心理，少部分患者还会因为接受侵袭性检查而产生相应的并发症。LDCT的过度诊断会导致假阳性结果的出现。在针对肺癌开展的CT筛查项目中是否存在过度诊断还不甚明了，但有研究显示约10％-12％由肺癌筛查确定的癌症病例属于过度诊断。

鉴于此，特提出本发明。

发明内容

本发明的目的在于提供一种肺癌预测模型的训练方法以及预测装置和应用。

本发明是这样实现的：

第一方面，本发明实施例提供了检测标志物甲基化水平的试剂在制备预测肺癌的产品中的应用，所述标志物包括标志物1～127中的至少50种；其中，以下表格中的每一项所对应的标志物包括对应的CpG位点和/或覆盖对应CpG位点的区域：

表1标志物

以hg19参考基因组序列为基准。

第二方面，本发明实施例还提供了一种用于诊断或辅助诊断肺癌的试剂盒，其包括前述实施例所述的检测标志物甲基化水平的试剂。

第三方面，本发明实施例提供了一种肺癌预测模型的训练方法，其包括：获取训练样本的标志物甲基化结果以及标注结果；其中，所述标志物如前述实施例所述，所述标志物结果为代表样本肺癌的患病风险、疾病进程和预后风险中的至少一种情况的标签；将所述训练样本的标志物的甲基化结果输入预先构建的预测模型中，获得预测结果；所述预先构建的预测模型为能给根据所述标志物的甲基化水平预测肺癌的患病风险、疾病进程和预后风险中的至少一种的机器学习模型；基于所述标注结果和所述预测结果对预先构建的预测模型进行参数更新。

第四方面，本发明实施例提供了一种肺癌预测装置，其包括获取模块和预测模块。获取模块，用于获取待测样本的标志物的甲基化水平，所述标志物如前述实施例所述；预测模块，用于将获得的标志物的甲基化水平输入如前述实施例所述的训练方法训练好的预测模型中，获得预测结果。

第五方面，本发明实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储程序，当所述程序被所述处理器执行时，使得所述处理器实现如前述实施例所述的训练方法或肺癌的预测方法，所述预测方法的步骤包括：获取待测样本的标志物的甲基化水平，所述标志物如前述实施例所述，将获得的标志物的甲基化水平输入如前述实施例所述的训练方法训练好的预测模型中，获得预测结果。

第六方面，本发明实施例提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理执行时实现如前述实施例所述的训练方法或如前述实施例所述的预测方法。

本发明具有以下有益效果：

(1)本发明发现了新的肺癌标志物，与传统临床检测的手段以及现有标志物相比，具有更好的灵敏度和特异性；

(2)与临床影像学检测手段相比，更安全，无创，不受检测人体质的影响；

(3)本发明仅需采集少量血液即可完成，而影像学检查受到某些脏器的生理活动的影响以及某些特殊体质病人无法进行检测，且某些放射性物质会对身体有一定的损伤。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明数据处理步骤的技术路线图；

图2为127个标志物的甲基化丰度在不同样本中的分布差异；

图3为127个标志物构建的预测模型在不同恶性程度样本中的预测结果；

图4为127个标志物构建的预测模型的ROC曲线图；

图5为50个标志物构建的预测模型的ROC曲线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

随着高通量测序技术的发展及其应用的不断拓展，液体活检，特别是对于循环肿瘤DNA(circulating tumor DNA，ctDNA)的检测，已经成为肿瘤精准医学中最具潜力的非侵入性诊断方法之一。最近研究表明表观修饰改变通常发生于肿瘤发展早期阶段，可通过游离DNA全基因组测序，提取到更多广泛存在的表观修饰变异特征，以提高诊断的灵敏度和特异性，其中最为常见的为DNA甲基化的检测。

现有的甲基化信号检测技术往往局限于单个位点或粗略的统计某个区域的甲基化程度在癌症组与非癌症组中的差异，并不能精确的定位表观遗传差异。哺乳动物的CpG甲基化是一种相对稳定的表观遗传学修饰，细胞分裂时可以通过一些酶的作用进行遗传。由于这些甲基化相关的酶在局部的活性具有一致性，就是说同一DNA分子的相邻CpG位点具有相似的甲基化状态，可以利用用于模拟人类染色体相邻遗传变异而建立的连锁不平衡理论模型，进行CpG共甲基化分析。

基于此，本发明通过使用特有检测及数据分析手段，量化肺癌特有的甲基化分布模式，使其成为新的肿瘤标志物，并将其应用于肺癌的检测。本申请的发明人发现通过量化某些特定CpG区域甲基化水平差异，使用机器学习方法筛选得到肿瘤细胞与正常细胞存在甲基化水平存在差异的CpG区域，精准定位肺癌特异性产生的甲基化连锁单倍型信号，可构建具有较高准确率的分类模型，进而提升对肺癌的检测的准确性。

本申请提供的具体方案如下。

本发明实施例提供了检测标志物甲基化水平的试剂在制备预测肺癌的产品中的应用，所述标志物包括：所述标志物包括标志物1～127中的至少50种；其中，表1中的每一项所对应的标志物包括对应的CpG位点和/或含有对应CpG位点的区域。

本文中的“含有对应CpG位点的区域”具体可以理解为：在每个标志物所对应的所有CpG位点中，基因组上相隔间距最长的两个CpG位点之间的区域。

在一些实施例中，所述标志物包括标志物1～50。

在一些实施例中，所述标志物包括标志物1～127。

在一些实施例中，所述肺癌包括早期肺癌、中期肺癌和晚期肺癌。

在一些实施例中，所述预测肺癌包括：预测肺癌的患病风险、疾病进程和预后风险中的至少一种。

在一些实施例中，所述检测标志物甲基化水平的试剂包括甲基化测序试剂、甲基化特异性PCR试剂、甲基化敏感性单核苷酸引物延伸试剂、甲基化敏感性单链构象分析试剂和甲基化敏感性变性梯度凝胶电泳试剂中的至少一种。可选地，所述甲基化测序试剂包括重亚硫酸盐试剂、测序建库试剂和PCR扩增试剂。检测标志物甲基化水平的试剂是可以通过结合常规技术知识，基于上述标志物设计获得的。本申请的发明点在于提出新的用于预测肺癌的标志物，而不在于检测方法本身，对于CpG位点甲基化的检测方法可基于本领域常规技术知识获取，不再赘述。

在一些实施例中，所述产品包括试剂、试剂盒和预测模型中的至少一种。

本发明实施例还提供了一种用于诊断或辅助诊断肺癌的试剂盒，其包括前述任意实施例所述的检测标志物甲基化水平的试剂。

本发明实施例还提供了一种肺癌预测模型的训练方法，其包括：

获取训练样本的标志物甲基化结果以及标注结果；其中，所述标志物如前述任意实施例所述，所述标注结果为代表样本肺癌的患病风险、疾病进程和预后风险中的至少一种情况的标签；

将所述训练样本的标志物的甲基化结果输入预先构建的预测模型中，获得预测结果；所述预先构建的预测模型为能给根据所述标志物的甲基化水平预测肺癌的患病风险、疾病进程和预后风险中的至少一种的机器学习模型；

基于所述标注结果和所述预测结果对预先构建的预测模型进行参数更新。

在一些实施例中，所述标签可以为字符或字符串。

在一些实施例中，所述预测模型包括随机森林模型、支持向量机模型、梯度提升模型和逻辑回归模型中的任意一种。可以理解的是，在构建模型的特征或指标公开的情况下，各预测模型包括多种参数(包括通用的和可调整的)均可根据本领域的常规技术知识的基础上进行常规调整和选择。

在一些实施例中，当预测模型为随机森林模型，随机森林模型的公式如下：

其中，B表示随机森林中树的数量，b表示树的索引，f_b表示索引为b的决策树，x’表示待测样本标志物的甲基化程度输入值(可以为1或0)，

表示随机森林模型对待测样本的最终预测值。

当预测模型为随机森林模型时，模型进行训练的参数设置包括如下：决策树的数量n_estimators为≥50，具体可以为50、100、200、300、400、500和600中的任意一种或任意两种之间的范围。生成单颗决策树时的特征数max_features为“log2(特征总数的对数)”或“sqrt”；树的深度max_depth为1～10。

在一些实施例中，当预测模型为随机森林模型时，训练好的模型的设置参数包括如下：决策树的数量n_estimators为500；生成单颗决策树时的特征数max_features为“log2”；树的深度max_depth为3。

需要说明的是，本申请标志物均对应3个以上的CpG位点，在标记或计算每个标志物的“甲基化结果”或“甲基化程度”时，按照该标志物对应的所有CpG位点的甲基化结果进行考虑，当该标志物对应的所有CpG位点均甲基化，则该标志物记为甲基化，否则，记为未甲基化。

本发明实施例还提供了一种肺癌预测装置，其包括：

获取模块，用于获取待测样本的标志物的甲基化水平，所述标志物如前述任意实施例所述；

预测模块，用于将获得的标志物的甲基化水平输入如前述任意实施例所述的训练方法训练好的预测模型中，获得预测结果。

可选地，上述模块可以软件或固件(Firmware)的形式存储于存储器中或固化于本申请提供的电子设备的操作系统(Operating System，OS)中，并可由电子设备中的处理器执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器中。

在一些实施例中，所述训练样本和待测样本可以独立地为血液样本或包含血液样本的环境样本。血液样本具体可以为全血样本或血浆样本。

本发明实施例还提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储程序，当所述程序被所述处理器执行时，使得所述处理器实现如前述任意实施例所述的训练方法或肺癌的预测方法，所述预测方法的步骤包括：获取待测样本的标志物的甲基化水平，所述标志物如前述任意实施例所述，将获得的标志物的甲基化水平输入如前述任意实施例所述的训练方法训练好的预测模型中，获得预测结果。

该电子设备可以包括存储器、处理器、总线和通信接口，该存储器、处理器和通信接口相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条总线或信号线实现电性连接。处理器可以处理与目标识别有关的信息和/或数据，以执行本申请中描述的一个或多个功能。

存储器可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在实际应用中，该电子设备可以是服务器、云平台、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant，PDA)、可穿戴电子设备、虚拟现实设备等设备，因此本申请实施例对电子设备的种类不做限制。

此外，本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理执行时实现如前述任意实施例所述的训练方法或如前述任意实施例所述的预测方法。

本文中的“计算机可读介质”包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

一种肺癌标志物的筛选方法和肺癌预测模型的构建，具体包括以下步骤。

(1)确定入组的肺癌患者、良性结节和健康人群，提取肿瘤患者及健康人群的血浆游离的DNA(cfDNA)并进行重亚硫酸盐转化测序法测序；

重亚硫酸盐转化测序法测序包括：对血浆游离的DNA(cfDNA)进行甲基化处理，使得未发生甲基化的胞嘧啶转化为胸腺嘧啶，获得经甲基化处理后的样本；基于所述经甲基化处理后的样本，构建测序文库，测序获得测序数据。

甲基化文库建库及文库上机测序的具体步骤包括：

1.甲基化文库的cfDNA使用量为5～30ng，掺入50pg内参DNA混合液(166bp)后使用Enzymatics公司(USA)的末端修复加A尾试剂盒(5X ER/A-Tailing Enzyme Mix)，以及测序接头连接试剂盒(WGS Ligase)，使文库具有可在Illumina NovaSeq 6000测序仪上测序的结构；

2.连接后使用Zymo Research公司的Lightning conversion reagent试剂盒对样本进行重亚硫酸盐处理以及纯化回收；

3.对回收DNA使用KAPAHiFi HS Uracil+ready Mix(KAPA)进行扩增；

4.使用AMPure XP beads(Beckman)进行纯化，使用EB缓冲液(Qiagen)洗脱收集文库；

5.取500ng预文库DNA与封闭试剂(IDT)以及探针(Twist)60℃蒸干处理后，连同杂交液(IDT)孵育16h；

6.在杂交结束后，加入链霉亲和素磁珠(IDT)进行捕获，然后使用洗杂液(IDT)进行洗涤；

7.对洗杂后的DNA使用KAPA HiFi Hotstart ready Mix进行扩增，扩增产物使用AMPure XP beads(Beckman)进行纯化，即为终文库；

终文库使用qPCR(KAPA SYBR Fast Kit，Roche)进行定量，然后在IlluminaNovaSeq 6000测序平台进行双端150bp的测序。

(2)将测序数据进行质控、比对到参考基因组、获取基因组上所有CpG位点的甲基化水平；

对测序数据进行质控和比对的具体步骤包括：

1.使用cutadapt软件对测序下机数据进行数据过滤，包括过滤测序接头序列，去除测序读长小于50bp的DNA片段，去除平均测序质量较低的DNA片段；

2.使用BSMAP将过滤后的数据与λ参考基因组进行比对，统计lambda内参甲基化序列与非甲基化序列占比，对测序文库进行甲基化转化率质控；

3.使用Bismark将过滤后的数据与hg19参考基因组(携带decoy诱饵序列)进行比对，得到每个DNA片段基因组上对应的具体位置信息，并且得到每个CpG位点的甲基化状态信息；

4.使用bamtools软件去除比对质量较低、未比对上、双端reads未能完美配对的DNA片段；

5.将过滤过后的DNA片段按比对位置进行排序，便于后续分析处理。

(3)使用处理过后的测序数据对全基因组CpG位点的甲基化信号的差异进行量化，并且筛选连锁程度较高的区域；使用机器学习方法筛选出区分肿瘤患者与健康人群时权重较高的位点；

全基因组CpG甲基化差异区域数据处理的具体步骤包括：

1.获取高质量CpG位点：统计捕获区域内所有上下文为CG、测序深度大于10×且在肺癌群体中覆盖度大于70％的位点的甲基化水平，其中，甲基化水平定义为：甲基化水平＝甲基化的C/(甲基化的C+未甲基化的C)；

2.获取差异性的CpG位点：对于步骤1中获得的CpG位点，仅保留肺癌与良性结节差异倍数≥1.4倍、肺癌与健康人的差异倍数≥1.5倍的CpG位点，其中差异倍数定义为：差异倍数＝阳性群体中该CpG位点的甲基化水平的均值/阴性群体中该CpG位点的甲基化水平的均值；

3.基于甲基化单倍型的过滤：对3中获得的每一个DMR区域，要求在肺癌血浆WGBS数据中能观察到至少5条满足以下任意条件的DNA片段；

(a)如果该DMR区域内CpG位点数目≤6个，要求DNA片段观测到至少3个甲基化的C；

(b)如果该DMR区域内CpG位点数目＞6个，要求DNA片段观测到至少4个甲基化的C；

4.基于甲基化单倍型丰度的过滤：为了保证筛选出的甲基化单倍型是肺癌特异性的生物标志物，要求在内部肺癌组织、肠癌组织、肝癌组织、健康组织的WGBS数据中甲基化单倍型丰度P-value存在显著性统计学差异(P≤0.05)，其中P-value为One-way Anova单因素方差分析检验结果，其中甲基化单倍型丰度定义为：甲基化单倍型丰度＝满足3中条件的片段数目/(满足3中条件的片段数目+不满足3中条件的片段数目)；

5.使用机器学习方法LASSO(least absolute shrinkage and selectionoperator)回归算法对4中获得的区域进一步降维处理，筛选权重绝对值大于等于0.001的区域作为模型构建的区域组合。经随机选取训练集样本，重复以上所述步骤100次，得到稳定基因区域；

6.使用机器学习方法内置随机森林(Random Forest Importance)对步骤4中获得的区域进一步降维处理，基于不纯度，对于每颗树，按照impurity(gini/entropy)给特征排序，然后整个森林取平均，筛选特征重要性从大到小排序的前1000位作为潜在的候选特征。经随机选取训练集样本，重复以上所述步骤100次，得到稳定的基因区域；

7.对于步骤5和6中获得的候选特征取交集，作为最终的面板(panel)组合，即表1标记的127个甲基化连锁单倍型区域标志物。

(4)利用随机森林(Random Forest)构建机器学习分类模型，通过绘制ROC曲线并且利用Youden’s index选取最优阈值，评估模型性能，进而反映本发明方法对肿瘤检测的灵敏度及特异性(技术路线图见图1)。

构建机器学习分类模型具体操作步骤包括：

训练集：80例肺癌患者与92例健康对照；

验证集：760名受试者，其中包含366名肺癌患者(I期肺癌250例、II期肺癌19例、III期肺癌29例、IV期肺癌19例、分期信息未知的肺癌49例)，53名携带肺部良性结节的受试者，341名健康受试者；

1.特征数据提取：提取各个样本测序数据中上述方法所筛选得到标志物的甲基化信号强度作为输入数据，具体为：对于每一个标志物(甲基化单倍型)，如果检测到在同一条测序读段(每个标志物或其对应的CpG区域)上所有CpG位点均显示甲基化的信号，则标记为1，否则标记为0，因此，针对每一个待测样本，均产生长度为127的向量(vector)；

2.模型最优参数确定：使用随机森林(Random Forest)进行模型构建及迭代训练，训练集样本通过10倍交叉验证的方法，给定参数空间，搜索最优参数组合，通过迭代训练，确定并记录模型性能达到最优的参数，在验证集样本找到灵敏度和特异性为最优的阈值；

3：模型性能验证：使用确定好的模型的最优参数和最优阈值在独立的测试集中进行验证，绘制ROC曲线，计算AUC值，最终测试集的表现即代表模型的整体性能。利用Youden’s index选取最优阈值，评估模型性能，进而反映本发明方法对肿瘤检测的灵敏度及特异性。

预测模型的公式如下：

其中，B表示随机森林中树的数量，b表示树的索引，f_b表示索引为b的决策树，x’表示待测样本标志物的甲基化程度输入值(甲基化记为1，否则记为0)，

表示随机森林模型对待测样本的最终预测值。

模型最优参数：clf__oob_score(袋外数据):True；clf__bootstrap:True；clf__criterion:gini；clf__max_features:log2；clf__n_estimators(森林中树的数量):500；clf__criterion:gini。max_depth为3。

实施例2

在47例I期肺癌血浆样本、52例良性结节血浆样本和33例健康人血浆样本中验证表1的127个甲基化丰度分布差异，可以看到肺癌携带强度更高的甲基化信号，见图2。

实施例3

预测模型(实施例1)预测的恶性程度在25例肺腺癌血浆样本、22例肺鳞癌血浆样本中分布差异，可以看到随着肿瘤恶性程度增加，甲基化模型预测的恶性概率也随之上升，符合肺癌的发病机理，见图3。

实施例4

使用80例肺癌患者与92例健康对照构建甲基化预测模型，使用全部127个甲基化特征(如表1所示)构建的肺癌预测模型(实施例1)，对760名受试者进行检测，其中包含366名肺癌患者(I期肺癌250例、II期肺癌19例、III期肺癌29例、IV期肺癌19例、分期信息未知的肺癌49例)，53名携带肺部良性结节的受试者，341名健康受试者。诊断性能如表2所示，在特异性为92.89％的情况下，对肺癌的检出率达到91.53％，相对于现有技术及血清学标志物而言，检测结果有显著提升，整体AUC为0.972(如图4所示)。

表2预测结果

实施例5

使用80例肺癌患者与92例健康对照构建甲基化预测模型(实施例1)，使用表1的任意50个甲基化单倍型区域标志物(见表3)构建肺癌预测模型(构建方法同实施例1，区别在于标志物的数量)，对760名受试者进行检测，其中包含366名肺癌患者(I期肺癌250例、II期肺癌19例、III期肺癌29例、IV期肺癌19例、分期信息未知的肺癌49例)，53名携带肺部良性结节的受试者，341名健康受试者。

诊断性能如表4所示，在特异性为88.58％的情况下，对肺癌的检出率达到84.15％，相对于现有技术及血清学标志物而言，检测结果有显著提升，整体AUC为0.924(如图5所示)。

表3.50个肺癌标志物

表4预测结果

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.检测标志物甲基化水平的试剂在制备预测肺癌的产品中的应用，其特征在于，所述标志物包括标志物1～127中的至少50种；其中，以下表格中的每一项所对应的标志物包括对应的CpG位点和/或含有对应CpG位点的区域：

以hg19参考基因组序列为基准。

2.根据权利要求1所述的应用，其特征在于，所述标志物包括标志物1～50；

优选地，所述标志物包括标志物1～127。

3.根据权利要求1或2所述的应用，其特征在于，所述肺癌包括早期肺癌、中期肺癌和晚期肺癌；

优选地，所述预测肺癌包括：预测肺癌的患病风险、疾病进程和预后风险中的至少一种。

4.根据权利要求1或2所述的应用，其特征在于，所述检测标志物甲基化水平的试剂包括甲基化测序试剂、甲基化特异性PCR试剂、甲基化敏感性单核苷酸引物延伸试剂、甲基化敏感性单链构象分析试剂和甲基化敏感性变性梯度凝胶电泳试剂中的至少一种；

优选地，所述甲基化测序试剂包括重亚硫酸盐试剂、测序建库试剂和PCR扩增试剂；

优选地，所述产品包括试剂、试剂盒和预测模型中的至少一种。

5.一种用于诊断或辅助诊断肺癌的试剂盒，其特征在于，其包括权利要求1～4任一项所述的检测标志物甲基化水平的试剂。

6.一种肺癌预测模型的训练方法，其特征在于，其包括：

获取训练样本的标志物甲基化结果以及标注结果；其中，所述标志物如权利要求1～5任一项所述，所述标志物结果为代表样本肺癌的患病风险、疾病进程和预后风险中的至少一种情况的标签；

7.根据权利要求6所述的训练方法，其特征在于，所述预测模型包括：随机森林模型、支持向量机模型、梯度提升模型和逻辑回归模型中的任意一种；

优选地，当预测模型为随机森林模型，模型进行训练的参数设置包括如下：决策树的数量n_estimators为≥50，优选为50～600；生成单颗决策树时的特征数max_features为“log2”或“sqrt”；树的深度max_depth为1～10；

优选地，当预测模型为随机森林模型时，训练好的模型的设置参数包括如下：决策树的数量n_estimators为500；生成单颗决策树时的特征数max_features为“log2”；树的深度max_depth为3。

8.一种肺癌预测装置，其特征在于，其包括：

获取模块，用于获取待测样本的标志物的甲基化水平，所述标志物如权利要求1～5任一项所述；

预测模块，用于将获得的标志物的甲基化水平输入如权利要求6或7所述的训练方法训练好的预测模型中，获得预测结果。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储程序，当所述程序被所述处理器执行时，使得所述处理器实现如权利要求6或7所述的训练方法或肺癌的预测方法，所述预测方法的步骤包括：获取待测样本的标志物的甲基化水平，所述标志物如权利要求1～5任一项所述，将获得的标志物的甲基化水平输入如权利要求6或7所述的训练方法训练好的预测模型中，获得预测结果。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理执行时实现如权利要求6或7所述的训练方法或如权利要求9所述的预测方法。