CN116987788A

CN116987788A - 一种利用冲洗液检测早期肺癌的方法与试剂盒

Info

Publication number: CN116987788A
Application number: CN202310728759.0A
Authority: CN
Inventors: 张道允; 巩子英; 黄雨青; 王效智; 李捷意; 孙永华; 方振轩; 温炜
Original assignee: Jiaxing Yunying Medical Inspection Co ltd
Current assignee: Jiaxing Yunying Medical Inspection Co ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-11-03
Anticipated expiration: 2043-06-19
Also published as: CN116987788B

Abstract

本说明书实施例提供一种用于肺癌检测或肺癌患病风险预测的作为生物标志物的DNA甲基化位点组合，用于肺癌检测或肺癌患病风险预测的装置，一种用于肺癌检测或肺癌患病风险预测的试剂盒以及该DNA甲基化位点组合在制备用于肺癌检测或肺癌患病风险预测的试剂盒中的用途。本说明书所述的DNA甲基化位点组合具有良好的敏感度和特异性，能够有效检测或筛查出肺癌患者，在已知的肺癌患者和非肺癌患者中表现出甲基化水平的显著差异，可作为肺癌早期筛查、患病风险预测等方面的标志物，也可用于设计诊断试剂或试剂盒。

Description

一种利用冲洗液检测早期肺癌的方法与试剂盒

技术领域

本说明书涉及生物技术领域，尤其涉及一种利用冲洗液检测早期肺癌的方法与试剂盒。

背景技术

肺癌患者的死亡率在全部癌症中高居榜首。根据TNM系统，可以将肿瘤分为四个等级I、II、III、IV期。从低到高代表肿瘤的严重程度，一般认为的晚期肺癌指III、IV期，早期肺癌一般I、II期。我国仍有约75％的患者在诊断时处于肺癌晚期，错过了最佳根治性手术治疗时机。早期诊断可显著提高肺癌患者预后生存，从肺癌患者术后5年生存率可以看出，I期患者术后5年生存率在77％～92％，而III～IV期患者仅为10％～36％，5年生存率存在显著差异。特别的晚期肺癌的死亡率高达95％，但如果能够早期发现并治疗，死亡率可低至35％。因此，如能有效检测出早期肺癌对于患者的早期干预及预防具有重大意义。

在实际临床工作中，肺癌的筛查和诊断主要有X线胸片、痰细胞学检查、血清肿瘤标志物检查等方式，但上述筛查方式所表现出的敏感性、特异性相对较差，对肺癌患者的临床死亡率不会产生任何的实质性影响。低剂量螺旋CT检查是目前用于肺部疾病的唯一较可靠的有效检查方法，也是检出早期肺癌最佳的影像学方法，特别是CT薄层重建成像对发现早期肺癌有较高的敏感度。但低剂量螺旋CT误诊率高，较高的假阳性率会导致不必要的焦虑、不必要的辐射暴露和进一步的侵入性检查。

因此，有必要提出一种准确、快速、无创临床早期肺癌的筛查方式。

发明内容

本说明书实施例之一提供一种用于肺癌检测或肺癌患病风险预测的作为生物标志物的DNA甲基化位点组合，所述DNA甲基化位点组合包括一个或多个如下10个位点：位于HOXA9基因上染色体坐标为chr7:27205107(hg19)或chr7:27165488(GRCh38)的位点HOXA9_64；位于PTGER4-1基因上染色体坐标为chr5:40681137(hg19)或chr5:40681035(GRCh38)的位点PTGER4-1_86；位于ZNF781基因上染色体坐标为chr19:38183104(hg19)或chr19:37692203(GRCh38)的位点ZNF781_97；位于PTGER4-2基因上染色体坐标为chr5:40681250(hg19)或chr5:40681148(GRCh38)的位点PTGER4-2_61；位于SHOX2基因上染色体坐标为chr3:157821387(hg19)或chr3:158103598(GRCh38)的位点SHOX2-1-2_50；

位于TAC1基因上染色体坐标为chr7:97361533(hg19)或chr7:97732221(GRCh38)的位点TAC1_71；位于MIR129基因上染色体坐标为chr11:43602855(hg19)或chr11:43581305(GRCh38)的位点MIR129-2_84；位于HOXA7基因上染色体坐标为chr7:27196447(hg19)或chr7:27156828(GRCh38)的位点HOXA7_55；位于RASSF1A基因上染色体坐标为chr3:50378258(hg19)或chr3:50340827(GRCh38)的位点RASSF1A-2_53；位于TBR1基因上染色体坐标为chr2:162283705(hg19)或chr2:161427194(GRCh38)的位点TBR1_136。

在一些实施例中，所述DNA甲基化位点组合包括如前文所述的全部10个位点。

本说明书一些实施例之一提供一种用于肺癌检测或肺癌患病风险预测的装置，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下方法：

获取受试者生物样本中如前文所述的DNA甲基化位点组合的甲基化水平；基于所述DNA甲基化位点组合的甲基化水平，使用筛查模型检测所述受试者是否患有肺癌或预测所述受试者患有肺癌的风险。

在一些实施例中，所述筛查模型为基于所述DNA甲基化位点组合的甲基化阈值的模型。

在一些实施例中，对于所述DNA甲基化位点组合中的每个DNA甲基化位点，对比所述DNA甲基化位点的甲基化率与对应所述DNA甲基化位点的甲基化阈值，确定所述DNA甲基化位点组合的阳性位点数量；基于所述阳性位点数量获得评估结果，其中，所述阳性位点数量≥1指示所述受试者患有肺癌或预测所述受试者患有肺癌的风险较高。

在一些实施例中，所述DNA甲基化位点的甲基化阈值通过如下方式确定：获取训练样本集，所述训练样本集包括已知的肺癌患者和非肺癌患者的所述DNA甲基化位点的甲基化率；使用ROC曲线对所述训练样本集进行分析，所述DNA甲基化位点的甲基化阈值选自特异度在95％-100％时的甲基化率。在一些实施例中，阈值选择的方式可以是根据操作人员经验获得。在一些实施例中，阈值选择的方式可以是从多个特异度在95％-100％时的甲基化率中选择效果最好的一个甲基化率或多个甲基化率的平均值。

在一些实施例中，HOXA9_64的甲基化阈值为0.17；PTGER4-1_86的甲基化阈值为0.10；PTGER4-2_61的甲基化阈值为0.10；SHOX2-1-2_50的甲基化阈值为0.13；TAC1_71的甲基化阈值为0.16；ZNF781_97的甲基化阈值为0.10；HOXA7_55的甲基化阈值为0.13；MIR129-2_84的甲基化阈值为0.14；RASSF1A-2_53的甲基化阈值为0.12；TBR1_136的甲基化阈值为0.15。

在一些实施例中，筛查模型为机器学习模型或深度学习模型。

本说明书实施例之一提供一种用于肺癌检测或肺癌患病风险预测的试剂盒，所述试剂盒包含用于检测如权利要求1所述的DNA甲基化位点组合的检测试剂，其中，所述检测试剂包括一个或多个如下引物：用于扩增所述HOXA9_64的引物对如SEQ ID NO:1(ACGACGCTCTTCCGATCTGTAGTAGTTGTTTAGGGTTTTAGTGG)和SEQ ID NO:2(CGTGTGCTCTTCCGATCTTATTAAATAACTATACTTCCCCCC)所示；用于扩增所述PTGER4-1_86的引物对如SEQ ID NO:3(ACGACGCTCTTCCGATCTGATTTAGTTTTGTATTTTAAGGTTG)和SEQ ID NO:4(CGTGTGCTCTTCCGATCTAACCACCAAATTACCCACCA)所示；用于扩增所述ZNF781_97的引物对如SEQ ID NO:5(ACGACGCTCTTCCGATCTAGTAGTCGTTGGTATAAGTTG)和SEQ ID NO:6(CGTGTGCTCTTCCGATCTTAACCTCCCCACTCTAAACC)；用于扩增所述PTGER4-2_61的引物对如SEQ ID NO:7(ACGACGCTCTTCCGATCTTGGTGGGTAATTTGGTGGTT)和SEQ ID NO:8(CGTGTGCTCTTCCGATCTCTCACCAACAAAATACCCAAC)；用于扩增所述SHOX2-1-2_50的引物对如SEQ ID NO:9(ACGACGCTCTTCCGATCTGGTTTTTTGGATAGTTAGGTAATT)和SEQ ID NO:10(CGTGTGCTCTTCCGATCTCCGCCTCCTACCTTCTAACC)；用于扩增所述TAC1_71的引物对如SEQ ID NO:11(ACGACGCTCTTCCGATCTGGAGGAATTAGAGAAATTTAGTA)和SEQ ID NO:12(CGTGTGCTCTTCCGATCTAAAAACCAATCTCCCCACTATCC)；用于扩增所述MIR129-2_84的引物对如SEQ ID NO:13(ACGACGCTCTTCCGATCTGGTTTGGAGAAATGGAGATA)和SEQ ID NO:14(CGTGTGCTCTTCCGATCTGAACAAACTAAATCTCCCCA)；用于扩增所述HOXA7_55的引物对如SEQ ID NO:15(ACGACGCTCTTCCGATCTTAGAATGGAAGGGTAAGAGG)和SEQ ID NO:16(CGTGTGCTCTTCCGATCTGAAACCTCCAAATCTTTTTC)；用于扩增所述RASSF1A-2_53的引物对如SEQ ID NO:17(ACGACGCTCTTCCGATCTTTAGTTTGGATTTTGGGGGAG)和SEQ ID NO:18(CGTGTGCTCTTCCGATCTCAACTCAATAAACTCAAACTCC)；用于扩增所述TBR1_136的引物对如SEQ ID NO:19(ACGACGCTCTTCCGATCTGGGGAGTTAGGGGGGTGT)和SEQ ID NO:20(CGTGTGCTCTTCCGATCTGCTCCAATAACCCAACCT)。

本说明书实施例之一提供前文所述的DNA甲基化位点组合作为生物标志物在制备用于肺癌检测或肺癌患病风险预测的试剂盒中的用途。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构。

图1是根据本说明书一些实施例所示的一种用于肺癌检测或肺癌患病风险预测的系统的应用场景图；

图2是根据本说明书一些实施例所示的计算设备的架构的示意图；

图3是根据本说明书一些实施例所示的用于肺癌检测或肺癌患病风险预测的系统的模块图；

图4是根据本说明书一些实施例所示的肺癌检测或肺癌患病风险预测的方法的流程示意图；

图5是根据本说明书一些实施例所示的确定DNA甲基化位点的甲基化阈值的流程示意图；

图6示出了全部10个甲基化位点在训练集中的ROC曲线图。

图7示出了甲基化位点HOXA9_64在训练集中的ROC曲线图。

图8示出了甲基化位点PTGER4-1_86在训练集中的ROC曲线图。

图9示出了甲基化位点PTGER4-2_61在训练集中的ROC曲线图。

图10示出了甲基化位点SHOX2-1-2_50在训练集中的ROC曲线图。

图11示出了甲基化位点TAC1_71在训练集中的ROC曲线图。

图12示出了甲基化位点ZNF781_97在训练集中的ROC曲线图。

图13示出了甲基化位点HOXA7_55在训练集中的ROC曲线图。

图14示出了甲基化位点MIR129-2_84在训练集中的ROC曲线图。

图15示出了甲基化位点RASSF1A-2_53在训练集中的ROC曲线图。

图16示出了甲基化位点TBR1_136在训练集中的ROC曲线图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

DNA甲基化是DNA化学修饰的形式之一，是指在DNA甲基化转移酶(DNMTs)作用下，甲基基团(CH3-)共价结合到CpG结构的胞嘧啶第5位碳原子上的过程，常发生在基因启动子CpG岛区域，是重要的表观遗传学标志。已有的研究表明，异常的DNA甲基化是导致各类癌症发生的重要影响因素。例如，部分肿瘤相关基因的启动子区域的高甲基化会抑制相应基因的表达，反之，低甲基化会促进相应基因的表达。本说明书通过对早期肺癌患者与正常健康人群的样本中123个特异甲基化位点进行高通量检测分析，并基于特定算法，高效寻找出能准确分辨早期肺癌患者与健康人群的甲基化位点组合(HOXA9_64、PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、ZNF781_97、HOXA7_55、MIR129-2_84、RASSF1A-2_53、TBR1_136中的一个或多个)，通过早期肺癌患者与健康人组成的87个训练样本建立肺癌早筛模型，通过123个验证样本的分析，能够实现早期肺癌的准确、快速、无创临床筛查。另一方面，可以以DNA甲基化位点(HOXA9_64、PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、ZNF781_97、HOXA7_55、MIR129-2_84、RASSF1A-2_53、TBR1_136)组合(例如，单独一个，其中5个组合，6个组合，或10个组合)作为早期肺癌标志物，进行早期肺癌筛查/诊断、早期肺癌风险预测、早期肺癌预后预测、早期肺癌相关药物评估。该DNA甲基化位点组合的检测样本可广泛来源于受试者的体液(例如，血液)、细胞(例如，肺部癌症细胞)、组织(例如，癌症组织)和器官，特别是受试者的冲洗液，能够用于实现准确、快速、无创的早期肺癌筛查、患病风险预测、预后预测及药物评估。

根据本说明书的一方面，提供一种用于肺癌早期筛查或肺癌患病风险预测的系统。图1是根据本说明书一些实施例所示的一种用于肺癌早期筛查或肺癌患病风险预测的系统的应用场景图。如图1所示，场景100可以包括处理设备110和存储设备120。

处理设备110可以处理数据和/或信息。在一些实施例中，处理设备110可以从存储设备120或场景100的其他组件(例如，用户终端140、检测设备160)处获得数据和/或信息，并基于这些信息和/或数据执行程序指令，以执行一个或多个本说明书中描述的功能。例如，处理设备110可以从存储设备120处获取训练样本集，并基于训练样本集构建筛查模型。又例如，处理设备110可以获取检测设备160测得的受试者生物样本150的DNA甲基化位点组合的甲基化水平相关信息，并调用存储在存储设备120处的筛查模型处理该甲基化水平相关信息，以评估受试者患有早期肺癌的可能性或发展肺癌的风险。在一些实施例中，处理设备110可以为服务器或中央处理器。

存储设备120可以用于存储数据和/或信息。在一些实施例中，存储设备120可以存储从处理设备110或场景100的其他组件(例如，用户终端140、检测设备160)处获得数据和/或信息。例如，存储设备120可以存储筛查模型，以备处理设备110调用。又例如，存储设备120可以从检测设备160处获取并存储受试者生物样本150的DNA甲基化位点组合的甲基化水平相关信息。再例如，存储设备120可以接收并存储用户终端140上传的信息，如受试者的身份信息等。

在一些实施例中，场景100还包括网络130。网络130可以用于提供信息交换的渠道。在一些实施例中，处理设备110和场景100的其他组件(例如，存储设备120、用户终端140、检测设备160)之间可以通过网络130交换信息。例如，处理设备110可以通过网络130接收存储设备120中的数据。又例如，检测设备160测得的受试者生物样本150的DNA甲基化位点组合的甲基化水平相关信息可以通过网络传输至处理设备110。在一些实施例中，网络130可以是有线网络或无线网络中的任意一种或多种。例如，网络130可以包括电缆网络、光纤网络等。在一些实施例中，网络130可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中，网络130可以包括一个或以上网络接入点。例如，通过基站和/或一个或多个网络交换点等进出点，场景100的一个或多个组件可连接到网络130上以交换数据和/或信息。

在一些实施例中，场景100还包括用户终端140。用户终端140可用于实现场景100向用户提供的服务。例如，用户可以通过用户终端140向处理设备110发送受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。又例如，用户可以通过用户终端140接收处理设备110发送的受试者的评估结果。再例如，用户可以通过用户终端140向处理设备210发送受试者的临床检测结果，以使处理设备110基于受试者的临床检测结果更新训练样本集，并进行筛查模型的迭代。在一些实施例中，用户终端140可以包括智能手机140-1、平板计算机140-2、膝上型计算机140-3等或其他具有输入和/或输出功能的设备中的一种或其任意组合。

在一些实施例中，场景100还包括检测设备160，用于检测生物样本150的DNA甲基化位点组合的甲基化水平。作为示例，检测设备可以包括实现以下一种或多种方法的装置：WGBS、RRBS、oxBS-seq、MethylCap-seq、MBD-seq、MeDIP-seq、HPLC、MSRF、MASP、甲基化芯片法、焦磷酸测序法、dPCR和MS-PCR。

根据本说明书的又一方面，提供一种计算设备。该计算设备为用于肺癌检测或肺癌患病风险预测的装置。图2是根据本说明书一些实施例所示的架构的示意图。如图2所示，计算设备200包括处理器210、存储器220、输入输出接口230和通信端口240。在一些实施例中，计算设备200可以实现处理设备110和/或存储设备120。例如，处理设备110可以在计算设备200上实现，并且计算设备200被配置为执行本说明书描述的处理设备110的功能。在一些实施例中，用于肺癌早期筛查或肺癌患病风险预测的装置可以在计算设备200中实现。

处理器210可以执行计算指令(程序代码)并执行本说明书描述的处理设备110的功能。计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(功能指本申请中描述的特定功能)。例如，处理器210可以处理用户输入的肺癌早期筛查或肺癌患病风险预测的可能性的指令。具体地，处理器210可以获取受试者生物样本中DNA甲基化位点组合(例如，HOXA9_64、PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、ZNF781_97、HOXA7_55、MIR129-2_84、RASSF1A-2_53、TBR1_136中的一种或多种)的甲基化水平，基于所述DNA甲基化位点组合的甲基化水平，使用筛查模型检测所述受试者是否患有肺癌或预测所述受试者患有肺癌的风险。在一些实施例中，计算设备300可以包括一个或多个处理器310；处理器310可以包括中央处理器(CPU)、专用集成电路(ASIC)以及能够执行一个或多个功能的任何电路和处理器等，或者任意组合。

存储器220可以存储从场景100的任何组件处获得的数据/信息。在一些实施例中，存储器220可以包括随机存取存储器(RAM)、只读存储器(ROM)等，或其任意组合。

输入输出接口230可以用于输入或输出信号、数据或信息。在一些实施例中，输入/输出接口330可以用于实现用户(例如，受试者、操作者等)与处理设备210的交互行为。在一些实施例中，用户可以通过输入/输出接口330输入受试者的相关信息(例如，DNA甲基化位点组合的甲基化水平相关信息，以及姓名、年龄等基础身份信息)。在一些实施例中，输入/输出接口330可以包括输入装置和输出装置。例如，键盘、鼠标、显示设备、麦克风和扬声器等。

通信端口240可以连接到网络130以便进行数据通信。连接可以是有线连接、无线连接或两者的组合，例如通过电缆、光缆、移动网络、WIFI、WLAN或蓝牙等连接。在一些实施例中，通信端口240可以是标准化端口，如RS232、RS485等。在一些实施例中，通信端口240可以是专门设计的端口。

图3是根据本说明书一些实施例所示的用于肺癌早期筛查或肺癌患病风险预测的系统的模块图。如图3所示，用于肺癌早期筛查或肺癌患病风险预测的系统300包括获取模块310和分析模块320。

获取模块310可以用于获取受试者生物样本中DNA甲基化位点组合的甲基化水平，例如，所述DNA甲基化位点组合可以包括HOXA9_64、PTGER4-1_86、ZNF781_97、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、MIR129-2_84、HOXA7_55、RASSF1A-2_53和TBR1_136中的一个或多个位点。

在一些实施例中，获取模块310可以包括检测单元和信息处理单元。检测单元可以用于对受试者的生物样本进行DNA甲基化检测。示例性的，检测单元可以包括实现以下一种或多种方法的装置：WGBS、RRBS、oxBS-seq、MethylCap-seq、MBD-seq、MeDIP-seq、HPLC、MSRF、MASP、甲基化芯片法、焦磷酸测序法、dPCR和MS-PCR。信息处理单元可以用于处理检测单元的检测数据，以获得受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。

分析模块320可以用于基于受试者生物样本的DNA甲基化位点组合的甲基化水平，使用筛查模型评估受试者是否可能患有早期肺癌或存在发展肺癌的风险。在一些实施例中，分析模块320可以用于使用基于DNA甲基化位点组合的甲基化阈值的模型进行评估。在一些实施例中，分析模块320可以用于使用基于机器学习算法或深度学习算法构建的模型进行评估。

在一些实施例中，系统300还包括确定模块330。确定模块330可以用于获取训练样本集，训练样本集包括已知的肺癌患者和非肺癌患者(健康人)的DNA甲基化位点的甲基化率；以及使用ROC曲线对训练样本集进行分析，所述DNA甲基化位点的甲基化阈值选自特异度在95％-100％时的甲基化率。

关于系统300各模块实现其功能的更多内容可以在本说明书其他地方找到(例如，图4、图5及其描述)。

应当理解，图3所示的肺癌早期筛查或肺癌患病风险预测的系统300及其模块可以利用各种方式来实现。例如，在一些实施例中，系统300及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于系统300及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。在一些实施例中，图3中披露的获取模块、分析模块和训练模块可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

根据本说明书的又一方面，提供一种肺癌早期筛查或肺癌患病风险预测的方法。图4是根据本说明书一些实施例所示的肺癌早期筛查或肺癌患病风险预测的方法的流程示意图。如图4所示，流程400包括步骤401和步骤403。在一些实施例中，流程400中的至少一部分步骤(例如步骤401、步骤403)可以由计算设备(如图2所示的计算设备200，图1所示的处理设备110)完成。例如，流程400中的至少一部分步骤可以被实现为存储在存储设备120、存储器220中的一个指令(例如，应用程序)。图1中的处理设备110，图2中的处理器210和/或模块可以执行该指令，并且在执行指令时，处理设备110、处理器210和/或模块可以被配置为执行流程400。以下所示过程的操作仅出于说明的目的。在一些实施例中，流程400可以利用未描述的一个或以上附加操作和/或未描述的一个或以上操作来完成。另外，图4所示和以下描述的过程的操作顺序并非旨在限制。

在步骤401，可以获取受试者生物样本中DNA甲基化位点组合的甲基化水平。在一些实施例中，步骤401可以由计算设备(例如，图1的处理设备110、图3的获取模块310)执行。

在一些实施例中，患有肺癌(例如，早期肺癌)的受试者的生物样本中DNA甲基化位点组合的甲基化水平可区别于非肺癌受试者(或称正常受试者)的生物样本中DNA甲基化位点组合的甲基化水平。

如本文所用，术语“受试者”(或称“个体”)是指接受观察、检测或实验的对象。在一些实施例中，受试者可以是哺乳动物。哺乳动物包括但不限于灵长类(包括人和非人灵长类)以及啮齿动物(例如，小鼠和大鼠)。在一些实施例中，哺乳动物可以是人。

术语“生物样本”(或称“样本”、“样品”)是指分离自受试者的器官、组织、细胞和/或体液的组合物，该组合物包含一种或多种目标分析物(例如，核酸、代谢物等)。在一些实施例中，生物样本可以来自于受试者的冲洗液、血液、痰液等。冲洗液包括但不限于肺部冲洗液、支气管冲洗液等，或其组合。

术语“甲基化水平”是评价DNA甲基化位点的甲基化状态的指标。在一些实施例中，甲基化水平可以通过DNA甲基化位点发生甲基化的频率、比例或百分数来定量描述。

在一些实施例中，所述DNA甲基化位点组合适于检测不同阶段的肺癌，例如早期(例如，Ⅰ期、Ⅱ期)和晚期(例如，Ⅲ期、Ⅳ期)。在一些较优的实施例中，所述DNA甲基化位点组合适于区分早期肺癌群体和正常群体，其中，早期肺癌包括Ⅰ期肺癌和Ⅱ期肺癌。

所述DNA甲基化位点组合包括一个或多个DNA甲基化位点。如本文所使用，术语“DNA甲基化位点”(或称“甲基化位点”)是指在基因组DNA的CpG二核苷酸的胞嘧啶第5'碳位共价结合一个甲基基团，成为5-甲基胞嘧啶(5mC)。在一些实施例中，所述DNA甲基化位点组合中的每个DNA甲基化位点的甲基化状态可以与肺癌的发生、发展相关，所述DNA甲基化位点组合的DNA甲基化位点可位于肺癌相关基因(例如，已知的或可能潜在的肺癌抑癌基因)上。肺癌相关基因的非限制性实例可以包括但不限于：HOXA9、PTGER4-1、ZNF781、PTGER4-2、SHOX2-1-2、TAC1、MIR129-2、HOXA7、RASSF1A-2和TBR1。

在一些实施例中，所述DNA甲基化位点组合可以包含位于HOXA9、PTGER4-1、ZNF781、PTGER4-2、SHOX2-1-2、TAC1、MIR129-2、HOXA7、RASSF1A-2和/或TBR1上的一个或多个DNA甲基化位点。

所述DNA甲基化位点组合中的每个DNA甲基化位点的甲基化水平均与肺癌(例如，早期肺癌)显著相关。可以理解的是，对于所述DNA甲基化位点组合中的每个DNA甲基化位点而言，其在已知的肺癌(例如，早期肺癌)群体中的甲基化水平与在正常群体中的甲基化水平之间存在显著性差异。

在一些实施例中，所述DNA甲基化位点组合可以包含以下组中的至少1个、2个、3个、4个、5个、6个、7个、8个、9个或10个位点：位于HOXA9基因上染色体坐标为chr7:27205107(hg19)或chr7:27165488(GRCh38)的位点HOXA9_64；位于PTGER4-1基因上染色体坐标为chr5:40681137(hg19)或chr5:40681035(GRCh38)的位点PTGER4-1_86；位于ZNF781基因上染色体坐标为chr19:38183104(hg19)或ch r19:37692203(GRCh38)的位点ZNF781_97；位于PTGER4-2基因上染色体坐标为chr5:40681250(hg19)或chr5:40681148(GRCh38)的位点PTGER4-2_61；位于SHOX2基因上染色体坐标为chr3:157821387(hg19)或chr3:158103598(GRCh38)的位点SHOX2-1-2_50；位于TAC1基因上染色体坐标为chr7:97361533(hg19)或chr7:97732221(GRCh38)的位点TAC1_71；位于MIR129基因上染色体坐标为chr11:43602855(hg19)或chr11:43581305(GRCh38)的位点MIR129-2_84；位于HOXA7基因上染色体坐标为chr7:27196447(hg19)或chr7:27156828(GRCh38)的位点HOXA7_55；位于RASSF1A基因上染色体坐标为chr3:50378258(hg19)或chr3:50340827(GRCh38)的位点RASSF1A-2_53；位于TBR1基因上染色体坐标为chr2:162283705(hg19)或chr2:161427194(GRCh38)的位点TBR1_136。

需要说明的是，本文所用染色体坐标信息来源于人类参考基因组hg19(GRCh37)或hg38(GRCh38)。

在一些较优的实施例中，所述DNA甲基化位点组合可以包括HOXA9_64、PTGER4-1_86、ZNF781_97、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、MIR129-2_84、HOXA7_55、RASSF1A-2_53和TBR1_136。可选的，所述DNA甲基化位点组合还可以包括一个或多个其他肺癌相关基因上的DNA甲基化位点。例如，还可以包括CCDC181基因的第135位点，即，CCDC181_38。在一些实施例中，所述DNA甲基化位点组合可以包括上述10个位点中的5个，例如，PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、ZNF781_97、TBR1_136。在一些实施例中，所述DNA甲基化位点组合可以包括上述10个位点中的6个，例如，PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、ZNF781_97和TBR1_136。

在一些更优的实施例中，所述DNA甲基化位点组合可以由HOXA9_64、PTGER4-1_86、ZNF781_97、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、MIR129-2_84、HOXA7_55、RASSF1A-2_53和TBR1_136组成。

本说明书一些实施例提供的DNA甲基化位点组合的甲基化水平与肺癌之间存在显著的相关性。该DNA甲基化位点组合的甲基化状态可以被量化，并用于衡量DNA甲基化位点组合的甲基化水平。包含该DNA甲基化位点组合的样本可广泛地采集自受试者的器官、组织、细胞和体液等，特别是可以采集自受试者的冲洗液。该DNA甲基化位点组合作为肺癌标志物在肺癌早期筛查/诊断、肺癌患病风险预测、肺癌预后预测、肺癌相关药物评估等方面的应用可实现筛查/诊断、预测、评估的敏感度和特异性的提高。

在一些实施例中，DNA甲基化位点组合的甲基化水平可以通过使用DNA甲基化位点组合的检测试剂检测受试者生物样本而获得。DNA甲基化位点组合的检测试剂用于实现DNA甲基化位点组合甲基化水平的检测。

关于DNA甲基化位点组合的检测试剂的更多内容可以在本说明书的其他地方找到。

计算设备(例如，图1的处理设备110、图3的获取模块310)可通过多种方式实现步骤401的执行。在一些实施例中，处理设备110可调用存储在存储设备120中的受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。例如，受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息由用户终端140经网络130上传至存储设备120，处理设备110可调用并获取该甲基化水平相关信息用于进一步的分析评估。在一些实施例中，处理设备110可以接收检测设备160检测获得的受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。例如，处理设备110向检测设备160(例如，PCR仪和/或NGS测序仪)发送检测指令，检测设备160基于该检测指令检测获得受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息，并将该甲基化水平相关信息发送至处理设备110。在一些实施例中，处理设备110可基于用户输入获得受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息。

在步骤403中，可以基于受试者生物样本中DNA甲基化位点组合的甲基化水平，使用筛查模型评估受试者是否可能患有早期肺癌或存在发展肺癌的风险。在一些实施例中，步骤403可以由计算设备(例如，图1的处理设备110、图3的分析模块320)执行。

在一些实施例中，筛查模型可以是基于DNA甲基化位点组合的甲基化阈值的模型(或称阈值模型)。阈值模型可以通过阈值判断划分受试者生物样本的类型，实现对患癌可能性或发展癌症风险的评估。在一些实施例中，使用阈值模型进行评估可包括阳性位点判断步骤和综合评估步骤。

在阳性位点判断步骤中，对于受试者生物样本的DNA甲基化位点组合中的每个DNA甲基化位点，对比该DNA甲基化位点的甲基化率与对应该DNA甲基化位点的甲基化阈值，确定DNA甲基化位点组合的所有DNA甲基化位点中阳性位点数量。

在一些实施例中，DNA甲基化位点组合的甲基化水平可通过甲基化率来定量描述。甲基化率的确定方式可以基于具体的甲基化检测方法来设置。在一些实施例中，受试者生物样本的DNA甲基化位点组合的甲基化水平通过甲基化转化(例如，使用甲基化转化试剂(例如，重亚硫酸盐)使DNA甲基化位点中的非甲基化胞嘧啶转化为胸腺嘧啶，甲基化胞嘧啶不发生转化)、特异性扩增和测序进行检测。对于DNA甲基化位点组合的每个DNA甲基化位点，其甲基化率可以通过以下公式(1)确定：

甲基化率＝NumC/(NumC+NumT)(1)

其中，NumC代表包含特定DNA甲基化位点的所有测序读段(reads)中，该特定DNA甲基化位点为胞嘧啶的读段数量；NumT代表包含特定DNA甲基化位点的所有测序读段中，该特定DNA甲基化位点为胸腺嘧啶的读段数量。

可以理解的是，在另一些实施例中，可使用其他甲基化率确定方式以匹配对应甲基化检测方法，只要能达到定量描述DNA甲基化位点组合的甲基化水平的目的即可。

甲基化阈值可用于作为评价DNA甲基化位点的甲基化水平的界限。在一些实施例中，DNA甲基化位点组合中单个DNA甲基化位点的甲基化率大于或等于对应该DNA甲基化位点的甲基化阈值，则可以判断该DNA甲基化位点为阳性位点。反之则为阴性位点。

关于确定DNA甲基化位点的甲基化阈值的更多内容可以在本说明书其他地方找到(例如，图5及其描述)。

在综合评估步骤中，基于受试者生物样本的DNA甲基化位点组合的阳性位点数量获得评估结果。其中，若阳性位点数量≥1，则可以判断该受试者可能患有早期肺癌，或者该受试者可能存在发展肺癌的风险。反之，则可以排除该受试者患有早期肺癌的可能性，或者排除该受试者发展肺癌的风险。

受试者发生、发展肺癌的可能性可以通过DNA甲基化位点组合的阳性位点数量来定性评价。作为示例，DNA甲基化位点组合可以包含全部10个DNA甲基化位点(例如，HOXA9_64、PTGER4-1_86、ZNF781_97、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、MIR129-2_84、HOXA7_55、RASSF1A-2_53和TBR1_136中的全部)。当这10个DNA甲基化位点中的任意一个为阳性位点，即指示受试者患有早期肺癌，或者该受试者存在肺癌的风险较高，这里的“风险较高”指的是受试者存在肺癌的可能性大于90％、95％、98％等；这10个DNA甲基化位点全部为阴性位点，即指示可排除受试者患有早期肺癌的可能性或发展肺癌的风险。

在一些实施例中，筛查模型可以是机器学习模型或深度学习模型。可用于构建筛查模型的机器学习算法和深度学习算法的非限制性实例包括但不限于支持向量机算法、逻辑回归算法模型、决策树算法、k-近邻算法、k-均值算法、卷积神经网络算法、线性回归算法、循环神经网络算法等，或其组合。

在一些实施例中，使用机器学习算法或深度学习算法构建的筛查模型的输入可以是受试者生物样本的DNA甲基化位点组合的甲基化率，筛查模型的输出可以是受试者患有肺癌(例如，早期肺癌)的概率或受试者发展肺癌的概率。筛查模型可以使用训练样本集训练初始模型而获得。其中，训练样本集可以包括一个或多个已知的肺癌患者(例如，早期肺癌)样本的DNA甲基化位点组合的甲基化率和非肺癌患者(例如，健康人)样本的DNA甲基化位点组合的甲基化率，以及用于指示样本对象是否患有肺癌的标签。术语“已知的肺癌患者”是指对象或个体具有肺癌临床症状且获得临床诊断验证(例如，已通过活体组织检查证实疾病类型及性质)。术语“非肺癌患者”是指对象或个体未罹患肺癌且日常生活无障碍。在一些实施例中，训练集可以是实施例中获得的冲洗液样本组的甲基化率。在一些实施例中，可以使用实施例中获得的冲洗液验证组的甲基化率来验证筛查模型。

示例性的，用于训练筛查模型的训练样本集中，肺癌患者样本的标签可以为1，非肺癌患者样本的标签可以为0。以受试者生物样本的DNA甲基化位点组合的甲基化率作为模型输入，相应的筛查模型输出的评估值可以在0到1之间，评估值越接近1，指示受试者患有肺癌的概率或者受试者发展肺癌的概率越高。

计算设备(例如，图1的处理设备110、图3的分析模块320)可通过多种方式实现步骤403的执行。在一些实施例中，处理设备110可以调用存储在存储设备120中的筛查模型，并使用该筛查模型处理受试者生物样本的DNA甲基化位点组合的甲基化水平相关信息，以获得评估结果。在另一些实施例中，处理设备110可以基于用户指令更新存储在存储设备120中的筛查模型，并使用更新的筛查模型获得评估结果。其中，处理设备110可以通过网络130从公开或非公开的数据库收集肺癌群体和正常群体的关联DNA甲基化位点组合的甲基化水平相关信息，用于更新训练样本集并进行筛查模型的优化。处理设备110还可以基于用户输入或基于用户终端140上传的数据/信息更新训练样本集，并进行筛查模型的优化。

应当注意的是，上述有关流程400的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程400进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

图5是根据本说明书一些实施例所示的确定DNA甲基化位点的甲基化阈值的流程示意图。如图5所示，流程500包括步骤501和步骤503。在一些实施例中，流程500可以由计算设备(例如，图1的处理设备110、图3的确定模块330)执行。

在步骤501中，处理设备110(例如，确定模块330)可以获取训练样本集，训练样本集包括已知的肺癌患者和非肺癌患者的DNA甲基化位点的甲基化率。

在一些实施例中，已知的肺癌患者可以包括早期肺癌患者和晚期肺癌患者。已知的肺癌患者可以是确诊后未接受治疗的个体，也可以是确诊后已接受治疗的个体。在一些较优的实施例中，已知的肺癌患者是早期肺癌患者。

在步骤503中，处理设备110(例如，确定模块330)可以使用ROC曲线对训练样本集进行分析，将特异度在95％-100％时的甲基化率作为DNA甲基化位点的甲基化阈值。

术语“ROC曲线”(或称受试者工作特征曲线)是以实验敏感度(真阳性率)为纵坐标，以1-特异性(假阳性率)为横坐标，绘制的曲线。ROC曲线可以用于选择最佳截止值(或称临界值)，以及评价模型性能。在一些实施例中，可以针对单个DNA甲基化位点，使用训练样本集的甲基化率数据制作ROC曲线，并基于ROC曲线确定适合的甲基化阈值。

所述甲基化阈值的确定方式除根据特异度在95％-100％时的甲基化率外，还可以是如下方式。在一些实施例中，可以是使用约登指数(敏感度+特异性-1)最大值对应的甲基化率数值作为甲基化阈值。在另一些实施例中，可以是使用敏感度设置值(例如敏感度设置值为95％～100％)对应的甲基化率数值作为甲基化阈值。

在一些较优的实施例中，为减少筛查模型引起的过度诊断问题，平衡筛查模型的特异性和敏感度，可以使用特异性设置值对应的甲基化率数值作为甲基化阈值。更优的，特异性设置值可以为95％～100％。通过该方法确定的甲基化阈值，肺癌预测的准确度更高，效果更好。

在一些实施例中，在特异性95％～100％范围内时，适合作为HOXA9_64甲基化阈值可以是0.17。

在一些实施例中，在特异性95％～100％范围内时，适合作为PTGER4-1_86甲基化阈值可以是0.10。

在一些实施例中，在特异性95％～100％范围内时，适合作为PTGER4-2_61甲基化阈值可以是0.10。

在一些实施例中，在特异性95％～100％范围内时，适合作为SHOX2-1-2_50甲基化阈值可以是0.13。

在一些实施例中，在特异性95％～100％范围内时，适合作为TAC1_71甲基化阈值可以是0.16。

在一些实施例中，在特异性95％～100％范围内时，适合作为ZNF781_97甲基化阈值可以是0.10。

在一些实施例中，在特异性95％～100％范围内时，适合作为HOXA7_55甲基化阈值可以是0.13。

在一些实施例中，在特异性95％～100％范围内时，适合作为MIR129-2_84甲基化阈值可以是0.14。

在一些实施例中，在特异性95％～100％范围内时，适合作为RASSF1A-2_53甲基化阈值可以是0.12。

在一些实施例中，在特异性95％～100％范围内时，适合作为TBR1_136甲基化阈值可以是0.15。

在一些实施例中，本说明书提供的筛选模型的AUC可以大于0.9、0.93、0.95。在一些实施例中，本说明书提供的筛选模型的敏感度可以大于90％、92％、94％、95％、96％、97％。在一些实施例中，本说明书提供的筛选模型的特异性可以大于90％、92％、94％或95％。

计算设备(例如，图1的处理设备110、图3的确定模块330)可通过多种方式实现流程500的执行。在一些实施例中，处理设备110可以调用存储在存储设备120中的训练样本集，并基于预设的甲基化阈值选取方式确定DNA甲基化位点的甲基化阈值。在另一些实施例中，处理设备110可以基于用户修改阈值策略的指令，调用存储在存储设备120中的训练样本集重新确定DNA甲基化位点的甲基化阈值。在又一些实施例中，处理设备110可以基于用户指令更新存储在存储设备120中的筛查模型，并使用更新的筛查模型获得评估结果。其中，处理设备110可以实时或定期地通过网络130从公开或非公开的数据库收集肺癌群体和正常群体的关联DNA甲基化位点组合的甲基化水平相关信息，用于存储设备120中的训练样本集，并使用更新的训练样本集优化DNA甲基化位点的甲基化阈值。

应当注意的是，上述有关流程500的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程500进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

根据本说明书的又一方面，提供一种用于肺癌检测或肺癌患病风险预测的装置。所述装置可以包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可实现本说明书一些实施例所示的肺癌早期筛查或肺癌患病风险预测的方法。

关于肺癌早期筛查或肺癌患病风险预测的方法的更多内容可以在本说明书其他地方找到(例如，图4、图5及其描述)。

根据本说明书的又一方面，提供一种DNA甲基化位点组合的检测试剂。所述DNA甲基化位点组合可作为生物标志物用于检测肺癌，包括HOXA9_64、PTGER4-1_86、ZNF781_97、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、MIR129-2_84、HOXA7_55、RASSF1A-2_53和TBR1_136中的一个或多个位点(例如，5个、6个或10个)。

在一些实施例中，DNA甲基化位点组合的检测试剂包括用于扩增DNA甲基化位点组合的引物组。用于扩增DNA甲基化位点组合的引物组用于获得包含DNA甲基化位点组合的特异性扩增片段，并放大检测信息。

在一些实施例中，用于扩增DNA甲基化位点组合的引物组包括扩增HOXA9_64、PTGER4-1_86、ZNF781_97、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、MIR129-2_84、HOXA7_55、RASSF1A-2_53和TBR1_136中的一个或多个位点的引物对。在一些实施例中，用于扩增DNA甲基化位点组合的引物组包括扩增HOXA9_64、PTGER4-1_86、ZNF781_97、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、MIR129-2_84、HOXA7_55、RASSF1A-2_53和TBR1_136中的全部位点的引物对。可选的，用于扩增HOXA9_64的引物对如SEQ ID NO:1和SEQ ID NO:2所示，或者该引物对的引物序列分别与SEQ ID NO:1和SEQ ID NO:2所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增PTGER4-1_86的引物对如SEQ ID NO:3和SEQ ID NO:4所示，或者该引物对的引物序列分别与SEQ ID NO:3和SEQ ID NO:4所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增ZNF781_97的引物对如SEQ ID NO:5和SEQ ID NO:6所示，或者该引物对的引物序列分别与SEQ ID NO:5和SEQ ID NO:6所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增PTGER4-2_61的引物对如SEQ ID NO:7和SEQ ID NO:8所示，或者该引物对的引物序列分别与SEQ ID NO:7和SEQID NO:8所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增SHOX2-1-2_50的引物对如SEQ ID NO:9和SEQ ID NO:10所示，或者该引物对的引物序列分别与SEQ ID NO:9和SEQ ID NO:10所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增TAC1_71的引物对如SEQ ID NO:11和SEQ ID NO:12所示，或者该引物对的引物序列分别与SEQ ID NO:11和SEQ ID NO:12所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增MIR129-2_84的引物对如SEQ ID NO:13和SEQ IDNO:14所示，或者该引物对的引物序列分别与SEQ ID NO:13和SEQ ID NO:14所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增HOXA7_55的引物对如SEQ IDNO:15和SEQ ID NO:16所示，或者该引物对的引物序列分别与SEQ ID NO:15和SEQ ID NO:16所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增RASSF1A-2_53的引物对如SEQ ID NO:17和SEQ ID NO:18所示，或者该引物对的引物序列分别与SEQ IDNO:17和SEQ ID NO:18所示序列具有至少95％、96％、97％、98％或99％的相似度。可选的，用于扩增TBR1_136的引物对如SEQ ID NO:19和SEQ ID NO:20所示，或者该引物对的引物序列分别与SEQ ID NO:19和SEQ ID NO:20所示序列具有至少95％、96％、97％、98％或99％的相似度。

在一些实施例中，DNA甲基化位点组合的检测试剂还可以包括用于检测甲基化水平的其他试剂，例如甲基化转化试剂和/或测序试剂。作为示例，甲基化水平的检测方法可以包括但不限于WGBS、RRBS、oxBS-seq、MethylCap-seq、MBD-seq、MeDIP-seq、HPLC、MSRF、MASP、甲基化芯片法、焦磷酸测序法、dPCR、MS-PCR等，或其组合。在一些较优的实施例中，其他试剂可以包括实现WGBS、RRBS、oxBS-seq、MethylCap-seq、MBD-seq、MeDIP-seq、HPLC、MSRF、MASP、甲基化芯片法、焦磷酸测序法、dPCR和MS-PCR中的一种或多种方法所用的试剂。在一些更优的实施例中，其他试剂可以包括实现WGBS或RRBS所用的试剂。

根据本说明书的又一方面，提供一种用于肺癌早期筛查或肺癌患病风险预测的试剂盒。所述试剂盒包含本说明书一些实施例所示的DNA甲基化位点组合的检测试剂。

根据本说明书的又一方面，提供一种DNA甲基化位点组合作为生物标志物在制备用于肺癌检测或肺癌患病风险预测的试剂盒中的用途。所述DNA甲基化位点组合为本说明书一些实施例所示的DNA甲基化位点组合。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂公司购买得到的。以下实施例中的定量试验，均设置三次重复实验，结果取平均值。

实施例

方法与步骤

收集DNA甲基化检测分析的冲洗液样本组

采集46个肺癌早期患者(I-II期患者，平均年龄65.6周岁)和41个健康人(平均年龄63.4周岁)的冲洗液样本共87个作为训练样本集，采集49个肺癌早期患者(I-II期患者)和74个健康人的冲洗液样本共123个作为验证样本集，样本采集在肺部活检后冲洗后均保存于50mL冲洗液DNA保存管中，保存管内含7.5mL添加剂。样品收集后，以4000rpm离心10min，弃上清，用1×PBS洗涤沉淀。

采集的冲洗液样本保存于50mL冲洗液DNA保存管中，保存管内含7.5mL添加剂。样品收集后，以4000rpm离心10min，弃上清，用1×PBS洗涤沉淀。

冲洗液样本组的DNA提取

对于冲洗液样本组的DNA提取，向上述冲洗液沉淀中加入180微升Buffer GTL，重悬沉淀；再加入20微升蛋白酶K，涡旋震荡混匀。于56℃孵育1小时，直到样品完全溶解，继续于90℃孵育1小时。短暂离心，使管壁上的溶液收集到管底。管中加入200微升Buffer GL，涡旋震荡彻底混匀。加入200微升无水乙醇，涡旋震荡彻底混匀。短暂离心，使管壁上的溶液收集到管底。

将管中溶液加入已放置硅基质材料膜的离心管中，向硅基质材料膜上加入500微升已加入无水乙醇的Buffer GW1，12000rpm离心1分钟，倒掉收集管中的废液，将硅基质材料膜重新放回收集管中。向硅基质材料膜上加入500微升已加入无水乙醇的Buffer GW2，12000rpm离心1分钟，倒掉收集管中的废液，将硅基质材料膜重新放回收集管中。12000rpm离心2分钟，倒掉收集管中的废液，将硅基质材料膜置于室温数分钟以彻底晾干。

将硅基质材料膜放置于新离心管中，加入50～200微升Buffer GE，室温放置2～5分钟，12000rpm离心1分钟，收集DNA溶液，-20℃保存已备进一步使用。使用微量分光光度计Nano-300和Qubit测定DNA浓度(浓度应不小于1ng/μL)。

冲洗液样本组的DNA甲基化转化

对冲洗液样本组进行亚硫酸盐转化处理：在PCR管中加入50μL冲洗液沉淀DNA样本，150μLBisulfite Mix，25μL MBuffer B-保护液；短暂离心后，将PCR管置于PCR仪上，85℃恒温孵育50min后冷却至室温，短暂离心。其中，冲洗液沉淀DNA样本取自前述DNA溶液，50μL冲洗液沉淀DNA样本中DNA含量为20～1000ng。Bisulfite Mix的配制包括向内含亚硫酸氢钠的干粉管中加入1.2mL MBuffer A-转化液，震荡混匀直至干粉完全溶解。

亚硫酸盐处理后的DNA纯化处理：PCR管中溶液全部导入1.5mL离心管中。离心管中加入285μLMBuffer C-结合液、115μL异丙醇、10μL磁珠悬液(使用前充分混匀)，震荡10min。短暂离心后放入磁力架上吸附2min，弃上清。离心管中加入1000μL MBuffer D-洗涤液，勿离开磁力架，孵育30s，弃上清。离心管中加入1000μL MBuffer E-孵育液，室温孵育15min，短暂离心后放入磁力架上吸附2min，弃上清。离心管中加入1000μL MBuffer D-洗涤液，勿离开磁力架，孵育30s，弃上清，本步骤重复操作一次。将离心管中多余的洗涤液吸干净后，置于超净工作台，吹干5min。

对于冲洗液样本组的DNA纯化与回收：向离心管中加入50μL MBuffer F-洗脱液，56℃温润，有助于提高洗脱效率，漩涡震荡使其充分混匀，静候5min。短暂离心，放于磁力架上吸附2min。吸取上清于干净的新离心管中，收集DNA溶液作为DNA转化样本，于-20℃保存以备进一步使用。

多重PCR-NGS检测

第一轮PCR，使用肺癌甲基化特异性引物对210个DNA转化样本进行PCR反应第一轮PCR的反应体系包括：10×ACE buffer，3μL；dNTP Mix(10mM)，1μL；Primer混合引物，5μL；TMAC 600mm，2.5μL；50％甘油，6μL；5×Enhancer，2μL；灭菌水，5μL；Ace Taq酶，0.5μL；DNA转化样本(即，亚硫酸盐处理后的DNA)，5μL。

第一轮PCR的反应条件为：1)循环数1：95℃10min；2)循环数35：95℃30s，48℃30s，72℃30s；3)循环数1：72℃5min。

第二轮PCR的反应体系包括：10×ACE buffer，3μL；dNTP Mix(10mM)，1μL；引物AP5(5μM)，2μL；引物Index(5μM)，2μL；50％甘油，6μL；灭菌水，10.5μL；AceTaq酶，0.5μL；第一轮PCR反应产物，5μL。其中：引物AP5的序列为AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGA CGCTCTTCCGATCT(SEQ ID NO:21)；引物index的序列为CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:22)。需要说明的是，N为A、T、C或G，“NNNNNNNN”代表用于区分不同样本的索引index。

第二轮PCR的反应条件为：1)循环数1：95℃10min；2)循环数20：95℃30s，55℃30s，72℃30s；3)循环数1：72℃5min。

扩增产物经核酸纯化试剂纯化后得到测序文库，然后使用测序试剂Miniseq^TM MidOutput Reagent Cartridge(Illumina，商品号REF:20001311，生产批号LOT:20660526)在MiniSeq测序仪(Illumina)上进行测序，每个甲基化位点的测序深度不小于500X。

各位点的甲基化率的计算

统计分析123个位点所在的NGS结果，每个位点测序深度不小于500X，某位点中碱基为C的reads数设为NumC，该位点中碱基为T的reads数设为NumT，则比值NumC/(NumC+NumT)为该位点的甲基化率。

实施例1、早期肺癌组和正常对照组的甲基化率的相关数据分析揭示差异甲基化位点的甲基化水平在早期肺癌患者中显著改变

对于87个训练样本的123个甲基化位点的甲基化率进行检验分析。采用F检验验证各甲基化位点的甲基化率在早期肺癌组与正常对照组之间的分布是否具备方差齐性，之后采用独立样本双尾学生t检验验证早期肺癌组与正常对照组间各位点的甲基化率平均值是否存在显著性差异。对于甲基化率在早期肺癌组与正常对照组之间属于方差齐性分布的甲基化位点，采用独立样本双尾学生t检验验证早期肺癌组与正常对照组间各位点的甲基化率平均值是否存在显著性差异。以P<0.001，组间差异倍数大于2倍作为评价显著性的标准，从123个差异甲基化位点中选取10点作为目标甲基化位点，分别为HOXA9_64，PTGER4-1_86，，TGER4-2_61，HOX2-1-2_50，AC1_71，NF781_97，OXA7_55，IR129-2_84，ASSF1A-2_53和TBR1_136。

实施例2、目标甲基化位点及其组合对训练样本集、验证样本集中早期肺癌预测

使用ROC曲线分析单个目标甲基化位点预测早期肺癌的能力。图2-图11示出了这10个甲基化位点的ROC曲线。针对单个目标甲基化位点，考虑选取合适的甲基化阈值，并基于该目标甲基化位点的甲基化阈值对训练样本集中的正常人和早期肺癌患者进行区分。

按照特异性95％-100％时的甲基化率设定10个甲基化位点的甲基化阈值。选取的阈值如下：位点HOXA9_64的阈值为0.17，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约67％；位点PTGER4-1_86的阈值为0.10，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约61％；位点PTGER4-2_61的阈值为0.10，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约61％；位点SHOX2-1-2_50的阈值为0.13，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约74.5％；位点TAC1_71的阈值为0.16，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约60％；位点ZNF781_97的阈值为0.10，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约63％；位点HOXA7_55的阈值为0.13，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约70％；位点MIR129-2_84的阈值为0.14，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约49％；位点RASSF1A-2_53的阈值为0.12，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约32％；位点TBR1_136的阈值为0.15，使用前述阈值对训练样本集进行早期肺癌预测的灵敏度为约72％。

在单一位点检测的基础上，考虑对位点进行组合来增强检测灵敏度。在训练过程中，将5个位点组合，即，PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、ZNF781_97、TBR1_136进行组合，ROC模型的预测结果的灵敏度和特异度分别可达到95.6％和97.5％，AUC为0.966。将6个位点组合，即PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、TAC1_71、ZNF781_97和TBR1_136进行组合，ROC模型的预测结果的灵敏度和特异度分别可达到95.6％和97.5％，AUC为0.966。将10个位点进行组合，ROC模型的AUC面积达到0.965，预测灵敏度达97.8％，特异度达到95.1％(如图1所示)。

利用10个目标甲基化位点的组合建立筛查模型，具体的：针对样本的每个目标甲基化位点的甲基化率，如果该甲基化率不低于该阈值，则该位点判定为阳性，如果该甲基化率低于阈值，则该位点判定为阴性；针对样本的10个目标甲基化位点，若其中一个或以上的目标甲基化位点被判定为阳性位点，则预测该样本对应受试者可能患有早期肺癌或发展肺癌风险，反之则可排除可能性或风险。

为了验证上述结果，选取了一批验证样本，包括49例早期肺癌患者与74例健康人，按照上述试验方法提取该123例冲洗液样本里的核酸并进一步进行了验证，按上述10个位点甲基化率的阈值设定及上述判定方法，结果显示上述筛查模型的灵敏度100％，特异度100％。利用6个位点(PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、TAC1_71,ZNF781_97、TBR1_136)或5个位点(PTGER4-1_86、PTGER4-2_61、SHOX2-1-2_50、ZNF781_97、TBR1_136)验证结果的灵敏度和特异度分别达到95.9％和100％。

作为对比，在10个位点(HOXA9_64，PTGER4-1_86，PTGER4-2_61，SHOX2-1-2_50，TAC1_71，ZNF781_97，HOXA7_55，MIR129-2_84，RASSF1A-2_53，TBR1_136)的基础上随机增加了CCDC181基因的第135位点，阈值设定同样按照特异性95％-100％时的甲基化率0.047为阈值，在87个样本的训练集中，这11个位点的灵敏度为97.5％(45/46＝97.8％)，特异度90.2％(37/41＝90.2％)；在123例的验证集中，这11个位点的灵敏度为100％(49/49＝100％)，特异度98.6％(73/74＝98.6％)。

综上，这10个甲基化位点(HOXA9_64，PTGER4-1_86，PTGER4-2_61，SHOX2-1-2_50，TAC1_71，ZNF781_97，HOXA7_55，MIR129-2_84，RASSF1A-2_53，TBR1_136)的组合作为最优的实施例，其预测肺癌的准确度和灵敏度最高。上述5个位点、6个位点或11个位点作为对比例或次优实施例，虽无法达到与10个甲基化位点相同的作用，即在这10个位点的基础上减少或增加甲基化位点均达不到该10个甲基化位点的效果，但也能够相对较准确地和灵敏地来预测早期肺癌。因此，本说明书的方法和甲基化位点的阈值设定和判定方案能够实现早期肺癌的准确、快速、无创临床筛查。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种用于肺癌检测或肺癌患病风险预测的作为生物标志物的DNA甲基化位点组合，其特征在于，所述DNA甲基化位点组合包括一个或多个如下10个位点：

位于HOXA9基因上染色体坐标为chr7:27205107(hg19)或chr7:27165488(GRCh38)的位点HOXA9_64；

位于PTGER4-1基因上染色体坐标为chr5:40681137(hg19)或chr5:40681035(GRCh38)的位点PTGER4-1_86；

位于ZNF781基因上染色体坐标为chr19:38183104(hg19)或chr19:37692203(GRCh38)的位点ZNF781_97；

位于PTGER4-2基因上染色体坐标为chr5:40681250(hg19)或chr5:40681148(GRCh38)的位点PTGER4-2_61；

位于SHOX2基因上染色体坐标为chr3:157821387(hg19)或chr3:158103598(GRCh38)的位点SHOX2-1-2_50；

位于TAC1基因上染色体坐标为chr7:97361533(hg19)或chr7:97732221(GRCh38)的位点TAC1_71；

位于MIR129基因上染色体坐标为chr11:43602855(hg19)或chr11:43581305(GRCh38)的位点MIR129-2_84；

位于HOXA7基因上染色体坐标为chr7:27196447(hg19)或chr7:27156828(GRCh38)的位点HOXA7_55；

位于RASSF1A基因上染色体坐标为chr3:50378258(hg19)或chr3:50340827(GRCh38)的位点RASSF1A-2_53；

位于TBR1基因上染色体坐标为chr2:162283705(hg19)或chr2:161427194(GRCh38)的位点TBR1_136。

2.如权利要求1所述的DNA甲基化位点组合，其特征在于，所述DNA甲基化位点组合包括权利要求1中所述全部10个位点。

3.一种用于肺癌检测或肺癌患病风险预测的装置，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下方法：获取受试者生物样本中如权利要求1或2所述的DNA甲基化位点组合的甲基化水平；

基于所述DNA甲基化位点组合的甲基化水平，使用筛查模型检测所述受试者是否患有肺癌或预测所述受试者患有肺癌的风险。

4.如权利要求3所述的装置，其特征在于，所述筛查模型为基于所述DNA甲基化位点组合的甲基化阈值的模型。

5.如权利要求3或4所述的装置，其特征在于，

对于所述DNA甲基化位点组合中的每个DNA甲基化位点，对比所述DNA甲基化位点的甲基化率与对应所述DNA甲基化位点的甲基化阈值，确定所述DNA甲基化位点组合的阳性位点数量；

基于所述阳性位点数量获得评估结果，其中，所述阳性位点数量≥1指示所述受试者患有肺癌或预测所述受试者患有肺癌的风险较高。

6.如权利要求5所述的装置，其特征在于，所述DNA甲基化位点的甲基化阈值通过如下方式确定：

获取训练样本集，所述训练样本集包括已知的肺癌患者和非肺癌患者的所述DNA甲基化位点的甲基化率；

使用ROC曲线对所述训练样本集进行分析，所述DNA甲基化位点的甲基化阈值选自特异度在95％-100％时的甲基化率。

7.如权利要求6所述的装置，其特征在于，

HOXA9_64的甲基化阈值为0.17；

PTGER4-1_86的甲基化阈值为0.10；

PTGER4-2_61的甲基化阈值为0.10；

SHOX2-1-2_50的甲基化阈值为0.13；

TAC1_71的甲基化阈值为0.16；

ZNF781_97的甲基化阈值为0.10；

HOXA7_55的甲基化阈值为0.13；

MIR129-2_84的甲基化阈值为0.14；

RASSF1A-2_53的甲基化阈值为0.12；

TBR1_136的甲基化阈值为0.15。

8.一种用于肺癌检测或肺癌患病风险预测的试剂盒，其特征在于，所述试剂盒包含用于检测如权利要求1所述的DNA甲基化位点组合的检测试剂，其中，所述检测试剂包括一个或多个如下引物：

用于扩增所述HOXA9_64的引物对如SEQ ID NO:1和SEQ ID NO:2所示；

用于扩增所述PTGER4-1_86的引物对如SEQ ID NO:3和SEQ ID NO:4所示；

用于扩增所述ZNF781_97的引物对如SEQ ID NO:5和SEQ ID NO:6；

用于扩增所述PTGER4-2_61的引物对如SEQ ID NO:7和SEQ ID NO:8；

用于扩增所述SHOX2-1-2_50的引物对如SEQ ID NO:9和SEQ ID NO:10；

用于扩增所述TAC1_71的引物对如SEQ ID NO:11和SEQ ID NO:12；

用于扩增所述MIR129-2_84的引物对如SEQ ID NO:13和SEQ ID NO:14；

用于扩增所述HOXA7_55的引物对如SEQ ID NO:15和SEQ ID NO:16；

用于扩增所述RASSF1A-2_53的引物对如SEQ ID NO:17和SEQ ID NO:18；

用于扩增所述TBR1_136的引物对如SEQ ID NO:19和SEQ ID NO:20。

9.一种用于肺癌检测或肺癌患病风险预测的试剂盒，其特征在于，所述试剂盒包含用于检测如权利要求2所述的DNA甲基化位点组合的检测试剂，其中，所述检测试剂包括如下全部引物：