CN117238373A

CN117238373A - 一种基于甲基化数据筛选疾病标志物的方法

Info

Publication number: CN117238373A
Application number: CN202311140411.6A
Authority: CN
Inventors: 吴宁宁; 韩晓亮; 刘栓平; 郭媛媛; 杨亚东; 李永君
Original assignee: Biochain Beijing Science and Technology Inc
Current assignee: Biochain Beijing Science and Technology Inc
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-15

Abstract

本申请提供一种基于甲基化数据筛选疾病标志物的方法，包括：获得a个甲基化检测平台的多个样本的甲基化数据；对甲基化数据进行预处理；基于a个甲基化检测平台的经预处理后的甲基化数据，通过计算并筛选出每个甲基化检测平台中的差异区间；基于差异区间存在的甲基化检测平台的个数，对差异区间进行分类，将其分成w个类型；计算w个类型的特征值并基于该特征值来选取疾病标志物；a个甲基化检测平台的测序深度分别为M₁～M_a，测序广度分别为L₁～L_a，在M₁～M_a中的最大值所在的甲基化检测平台与L₁～L_a中的最大值所在的甲基化检测平台为不同的平台。

Description

一种基于甲基化数据筛选疾病标志物的方法

技术领域

本申请属于分子生物学领域，涉及基因检测，具体的是涉及一种基于甲基化数据筛选疾病标志物的方法。

背景技术

根据世界卫生组织癌症研究机构(IARC)发布的2020年世界癌症报告(WorldCancer Report)，2020年全球新发癌症1930万例，死亡近1000万例；每5人中就有1人将在其一生中患癌症；每8名男性、每11名女性中就有1人将因癌症而死亡；癌症诊断后5年生存人数约为5060万；预计到2040年，全球新发癌症将达到2840万例。

根据IARC发布的数据，2020年癌症新发病例中肺癌(17.9％)占比最高，其次为结直肠癌(12.2％)、胃癌(10.5％)、乳腺癌(9.1％)、肝癌(9％)和膀胱癌(7.1％)。死亡率方面，肺癌依旧是死亡病例数占比(23.8％)最高的癌种，其次分别为肝癌(13％)、胃癌(12.4％)、膀胱癌(10％)和结直肠癌(9.5％)，早期筛查与诊断有利于即早干预治疗，提升患者生存率。

cfDNA(cell-free DNA)是外周血中游离的核酸小片段DNA，源于正常细胞或肿瘤细胞与代谢，包含体细胞突变和DNA甲基化等遗传信息。目前，DNA甲基化已被证明具有组织特异性,可用于早期癌症检测，并可根据循环肿瘤DNA(ctDNA)甲基化特征追踪到肿瘤原发部位。

常规的检测甲基化的测序方法包括WGBS(whole genome bisulfitesequencing)，450K/850K芯片，RRBS(Reduced representation bisulfite sequencing)，靶向Panel定向捕获等方法。每种方式都各有优缺点，例如，WGBS虽然覆盖的基因组范围大，但是测序深度低，不能高分辨样本的甲基化水平。定制的panel虽然可以做到高深度测序，但是覆盖基因组的范围小，因此，得到的可用标志物范围少。如何有效利用不同平台的优缺点，最大限度的利用数据成为研究的关键点。

发明内容

基于现有中存在的问题，本申请的目的在于提供一种利用血液中的游离DNA的甲基化信号，从整合不同平台数据出发，开发出一套针对癌症标志物的筛选方法，最大限度的利用了不同平台数据的优势，从而提高筛选出来的标志物的准确性，所述标志物具有非常高的灵敏度。

本申请具体技术方案如下：

1、一种基于甲基化数据筛选疾病标志物的方法，其中，包括如下步骤：

获得a个甲基化检测平台的多个样本的甲基化数据；

对甲基化数据进行预处理；

基于所述a个甲基化检测平台的经预处理后的甲基化数据，通过计算并筛选出每个甲基化检测平台中的差异区间；

基于所述差异区间存在的所述甲基化检测平台的个数，对差异区间进行分类，将其分成w个类型；

计算所述w个类型的特征值并基于该特征值来选取疾病标志物；

所述a为大于等于2的正整数，

其中a个甲基化检测平台的测序深度分别为M₁～M_a，测序广度分别为L₁～L_a，

在M₁～M_a中的最大值所在的甲基化检测平台与L₁～L_a中的最大值所在的甲基化检测平台为不同的平台；

多个样本包括疾病组样本和正常组样本。

2、根据项1所述的方法，其中，对甲基化数据进行预处理包括如下步骤：

对所述甲基化数据进行：数据质量预处理和评估(fastp软件)、基因组比对(Bismark软件)、去除样本或实验技术等带来的重复数据(deduplicate_bismark软件)或利用champ.norm函数做标准化。

3、根据项1所述的方法，其中，基于所述a个甲基化检测平台的经预处理后的甲基化数据，通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间：以待选定的差异区间作为检测目标时的疾病组样本检测AUC、以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值|delta|。

4、根据项3所述的方法，其中，选取delta值在不同甲基化检测平台中同时为正，或者同时为负的待选定差异区间作为差异区间。

5、根据项3所述的方法，其中，选取不同甲基化检测平台中的|AUC-0.5|>0.2的差异区间。

6、根据项1-5任一项所述的方法，其中，所述w个类型的差异区间的特征值为X，X满足如下公式：

n代表在w个类型的差异区间中，每一种类型中具有的差异区间的个数，其中Δβ_i表示差异区间i在某一样本中的甲基化水平与该样本所在样本组的甲基化水平的平均值的差异。

7、根据项6所述的方法，其中，当所述差异区间i只存在一个甲基化检测平台时，Δβ_i表示在该甲基化检测平台上，差异区间i在某一样本中的甲基化水平减去其所在样本组的甲基化水平的平均值；或

当所述差异区间i存在于s个甲基化检测平台时，其中，s为大于等于2的正整数，即所述差异区间i存在于第一甲基化检测平台～第s甲基化检测平台上；Δβ_i满足如下公式：

b₁为在第一甲基化检测平台上，差异区间i在某一样本中的甲基化水平；

d₁为在第一甲基化检测平台上，差异区间i在其所在样本组的甲基化水平的平均值；

b₂为在第二甲基化检测平台上，差异区间i在某一样本中的甲基化水平；

d₂为在第二甲基化检测平台上，差异区间i在其所在样本组的甲基化水平的平均值；

b_s为在第s甲基化检测平台上，差异区间i在某一样本中的甲基化水平；

d_s为在第s甲基化检测平台上，差异区间i在其所在样本组的甲基化水平的平均值。

8、根据项6或7所述的方法，其中，计算所述w个类型的特征值并基于该特征值来选取疾病标志物是指通过w个类型中的所有差异区间的甲基化水平数据通过广义线性回归来构建概率模型来判断差异区间是否可以作为疾病标志物。

9、根据项8所述的方法，其中，所述概率模型如下：

logit(p)＝ln(p/1-p)＝α₁X₁+α₂X₂+α₃X₃+......+α_wX_w+C

其中，p为受试者患所述疾病的概率；

X₁、X₂、X₃、......、X_w分别代表w个类型的差异区间的X值；

α₁、α₂、α₃、......、α_w分别代表w个类型的差异区间的权重系数；

C代表常数；

w为2^a-1。

10、根据项1-9任一项所述的方法，其中，所述甲基化数据选自Panel数据、RRBS数据、WGBS、450K等甲基化相关检测方法中的两种及其以上。

本申请具有以下有益效果：

本申请通过利用具有不同检测深度以及不同检测广度的甲基化检测平台的数据来挑选w种类型的标志物并计算特征值，基于所述w种类型的标志物的特征值可以得到受试者患癌概率模型。通过本申请所述方法，最大限度的利用了不同平台数据的优势，从而提高筛选出来的标志物的准确性，所述标志物具有非常高的灵敏度。

具体实施方式

下面对本申请做以详细说明。虽然显示了本申请的具体实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

除非另有说明，本申请的实施将采用常规的分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和基因学技术，其均在本领域常规技术手段的范围内。在文献中对此类技术进行了详细说明如Molecular Cloning:ALaboratory Manual，第二版(Sambrook等，1989)；Oligonucleotide Synthesis(M.J.Gait，1984版)；Animal CellCulture(R.I.Freshney，1987版)；Methods in Enzymology丛书(美国学术出版社有限公司)；Current Protocols in Molecular Biology(F.M.Ausubel等，1987版，和定期更新)；PCR:The Polymerase Chain Reaction(Mullis等，1994版)。本申请中使用的引物、探针、阻断剂和试剂盒可以采用本领域公知的标准技术制备。

除非另有定义，本申请所使用的技术和科学术语与本申请所属领域的普通技术人员的通常理解具有相同的含义。

定义

本申请的“引物”表示当置于能诱发与核酸链互补的引物延伸产物的合成的条件下，即在核苷酸和诸如DNA或RNA聚合酶的诱发剂的存在下并且在合适的温度和pH下，能够作为合成起始点的寡核苷酸，无论它是纯化的限制性消化物中天然存在的或合成产生的。引物可以是单链或双链的，并且必须足够长而使其在诱发剂的存在下能引发所需延伸产物的合成。引物的确切长度取决于多种因素，包括温度、引物来源和所用的方法。例如，为了诊断和预后应用，根据靶序列的复杂性，寡核苷酸引物通常含有至少或多于约9、10、或15、或20、或25或更多个核苷酸，但是其可以含有更少核苷酸或更多核苷酸。参与确定引物合适长度的因素是本领域技术人员熟知的。

本申请的“引物对”表示与靶DNA分子相反链杂交或与侧翼连接待扩增的核苷酸序列的靶DNA区域杂交的引物对。

本申请的“引物位点”表示引物杂交的靶DNA或其它核酸的区域。

本申请的“探针”，当涉及核酸序列时，以其通常含义使用，表示在规定条件下能与靶序列杂交并且可以用于检测该靶序列的存在的选择的核酸序列。本领域技术人员应当理解，在某些情况下，探针也可以用作引物，并且引物可以用作探针。

本申请的“DNA甲基化”是指甲基添加到胞嘧啶(C)的5位，这通常(但不必须)是在CpG(胞嘧啶之后为鸟嘌呤)二核苷酸的情况下。本文所用的“增加的甲基化程度”或“显著的甲基化程度”是指DNA序列中至少存在一个甲基化的胞嘧啶核苷酸，其中正常对照样品(例如从非癌细胞或组织样品提取的DNA样品或对DNA残基的甲基化进行处理的DNA样品)中对应的C是非甲基化的，在某些实施方式中，至少2、3、4、5、6、7、8、9、10或更多个C可以是甲基化的，其中对照DNA样品中的这些位置的C是非甲基化的。

本申请的“甲基化测定”指确定DNA序列内一个或多个CpG二核苷酸序列的甲基化状态的任何测定。

本申请的“检测”表示观察生物样品中的标志物或标志物改变(例如标志物甲基化状态的改变或核酸或蛋白序列的表达水平)的任何过程，无论实际上是否检测到标志物或标志物改变。换言之，探测样品的标志物或标志物改变的行为是“检测”，即使标志物被测定为不存在或低于灵敏度水平。检测可以是定量、半定量或非定量观察，并且可以基于与一个或多个对照样品的比较。

本申请的“扩增”表示由核酸的一个具体基因座得到多个拷贝的过程，所述核酸例如基因组DNA或cDNA。可以使用多种已知手段中的任何一种实现扩增，所述手段包括但不限于聚合酶链反应(PCR)、基于转录的扩增和链置换扩增(SDA)。

特异性

特异性是指没有特定临床疾病的患者的样本，其检测结果呈阴性的比率。

灵敏度

灵敏度是指患有明确临床疾病的患者的样本，其检测结果呈阳性的比率。

广义线性回归指的是通过连接函数将随机成分连接起来，其中连接函数是一一对应，连接可导的变换。

概述

本申请提供了一种基于甲基化数据筛选疾病标志物的方法，其中，包括如下步骤：

步骤一：获得a个甲基化检测平台的多个样本的甲基化数据；

步骤二：对甲基化数据进行预处理；

步骤三：基于所述a个甲基化检测平台的经预处理后的甲基化数据，通过计算并筛选出每个甲基化检测平台中的差异区间；

步骤四：基于所述差异区间存在的所述甲基化检测平台的个数，对差异区间进行分类，将其分成w个类型；

步骤五：计算所述w个类型的特征值并基于该特征值来选取疾病标志物；

在步骤一中，所述a为大于等于2的正整数，

具体地，所述甲基化检测平台的数量至少为2个，其中，至少有一个检测深度较深的甲基化检测平台，至少有一个检测广度较广的甲基化检测平台，例如当所述甲基化检测平台的数量为2个时，2个所述甲基化检测平台的检测深度以及检测广度均不同。

多个样本包括疾病组样本和正常组样本。

具体地，所述疾病组样本中的所有的样本均为患有疾病的受试者。所述正常组样本中的所有样本均为身体健康的受试者。

所述疾病组样本的数量可以与正常组样本的数量相同，也可以不同。

所述疾病组样本的数量大于2，优选大于等于10，进一步优选大于等于20，更进一步优选大于等于40。

所述正常组样本的数量大于2，优选大于等于10，进一步优选大于等于20，更进一步优选大于等于40。

所述甲基化数据选自Panel数据、RRBS数据、WGBS、450K等甲基化相关检测方法中的两种及其以上。

在步骤二中，对甲基化数据进行预处理包括如下步骤：

在步骤三中，基于所述a个甲基化检测平台的经预处理后的甲基化数据，通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间：

以待选定的差异区间作为检测目标时的疾病组样本检测AUC、以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值|delta|。

进一步地，选取delta值在不同甲基化检测平台中同时为正，或者同时为负的待选定差异区间作为差异区间。

进一步地，选取不同甲基化检测平台中的|AUC-0.5|>0.2的差异区间。

在步骤四中，基于步骤三中筛选出来的差异区间，将所述差异区间进行分类：

w为2^a-1，所述a为大于等于2的正整数，a为甲基化检测平台的数量。

具体地，a可以为2、3、4、5、6......。

具体地，w可以为3、7、15、31、63,......。

例如当所述甲基化检测平台的数量为2个时，2个所述甲基化检测平台分别为第一甲基化检测平台和第二甲基化检测平台，所述差异区间可以分为3类，其分别为①仅在第一甲基化检测平台中的差异区间，②仅在第二甲基化检测平台中的差异区间，③同时在第一甲基化检测平台和第二甲基化检测平台的差异区间。

例如当所述甲基化检测平台的数量为3个时，3个所述甲基化检测平台分别为第一甲基化检测平台、第二甲基化检测平台、第三甲基化检测平台，所述差异区间可以分为7类，其分别为①仅在第一甲基化检测平台中的差异区间，②仅在第二甲基化检测平台中的差异区间，③仅在第三甲基化检测平台中的差异区间，④同时在第一甲基化检测平台和第二甲基化检测平台的差异区间，⑤同时在第一甲基化检测平台和第三甲基化检测平台的差异区间，⑥同时在第二甲基化检测平台和第三甲基化检测平台的差异区间，⑦同时在第一甲基化检测平台、第二甲基化检测平台以及第三甲基化检测平台中的差异区间。

在步骤五中，所述w个类型的差异区间的特征值为X，X满足如下公式：

具体地，当所述差异区间i只存在一个甲基化检测平台时，Δβ_i表示在该甲基化检测平台上，差异区间i在某一样本中的甲基化水平减去其所在样本组的甲基化水平的平均值。

例如当某一样本为S1为疾病组样本，所述差异区间i只存在一个甲基化检测平台时，Δβ_i表示在该甲基化检测平台上，差异区间i在S1中的甲基化水平减去所述疾病组样本的甲基化水平的平均值。

例如当某一样本为S2为正常组样本，所述差异区间i只存在一个甲基化检测平台时，Δβ_i表示在该甲基化检测平台上，差异区间i在S2中的甲基化水平减去所述正常组样本的甲基化水平的平均值。

具体地，当所述差异区间i存在于s个甲基化检测平台时，其中，s为大于等于2的正整数，即所述差异区间i存在于第一甲基化检测平台～第s甲基化检测平台上；Δβ_i满足如下公式：

b₂为在第二甲基化检测平台上，差异区间i在某一样本中的的甲基化水平；

bs为在第s甲基化检测平台上，差异区间i在某一样本中的甲基化水平；

ds为在第s甲基化检测平台上，差异区间i在其所在样本组的甲基化水平的平均值；

例如，当某一样本S3为疾病组样本，所述差异区间i存在两个甲基化检测平台时，即所述差异区间i存在第一甲基化检测平台和第二甲基化检测平台上；Δβ_i满足如下公式：

b₁为在第一甲基化检测平台上，差异区间i在S3中的甲基化水平；

b₂为在第二甲基化检测平台上，差异区间i在S3中的甲基化水平；

d₂为在第二甲基化检测平台上，差异区间i在其所在样本组的甲基化水平的平均值。

例如，当某一样本S4为正常组样本，所述差异区间i存在三个甲基化检测平台时，即所述差异区间i存在第一甲基化检测平台、第二甲基化检测平台以及第三甲基化检测平台上；Δβ_i满足如下公式：

b₁为在第一甲基化检测平台上，差异区间i在S4中的甲基化水平；

b₂为在第二甲基化检测平台上，差异区间i在S4中的甲基化水平；

b₃为在第三甲基化检测平台上，差异区间i在S4中的甲基化水平；

d₃为在第三甲基化检测平台上，差异区间i在其所在样本组的甲基化水平的平均值。

进一步地，计算所述w个类型的特征值并基于该特征值来选取疾病标志物是指通过w个类型中的所有差异区间的甲基化水平数据通过广义线性回归来构建概率模型来判断差异区间是否可以作为疾病标志物。

进一步地，所述概率模型如下：

logit(P)＝ln(p/1-P)＝α₁X₁+α₂X₂+α₃X₃+......+α_wX_w+C

其中，P为受试者患所述疾病的概率，P大于等于0.5时，判定受试者患病，p小于0.5时，判定受试者健康；

C代表常数；

w为2^a-1。

在本申请中，所述差异区间与标志物可以通用，所述权重系数越高，该权重系数对应的差异区间作为标志物用于检测疾病的的准确度以及灵敏度也越高。

在本申请中，所述疾病可以为肝癌、肺癌、胰腺癌、乳腺癌、宫颈癌、子宫内膜癌、大肠癌、鼻咽癌、卵巢癌、前列腺癌症、皮肤癌、膀胱癌、胃癌、前列腺癌、结肠癌、骨癌、脑癌、直肠癌、食管癌、舌癌、肾癌、子宫体癌、睾丸癌、泌尿癌、黑素癌、星型细胞癌、脑膜瘤、霍奇金淋巴瘤、非霍奇金淋巴瘤、急性淋巴性白血病、慢性淋巴性白血病、急性骨髓性白血病、慢性粒细胞白血病、成人T细胞白血病淋巴瘤、肝细胞癌、支气管癌、多发性骨髓瘤、基底细胞瘤、精原细胞瘤、软骨肉瘤、肌肉瘤、纤维肉瘤等疾病。

实施例

本申请对试验中所用到的材料以及试验方法进行一般性和/或具体的描述，在下面的实施例中，如果无其他特别的说明，％表示wt％，即重量百分数。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规试剂产品。

实施例1

WGBS的实验流程：

1.1.cfDNA提取纯化：

1.1.1.血浆样本制备：

4℃、2000g离心血液样本10min,将血浆转移到一个新的离心管中。4℃、16000g离心血浆样本10min,根据使用的收集管类型，执行下一步,本实验中使用的收集管类型为其他。

1.1.2.裂解和结合：

1.1.2.1.吸取100μl、200μl、300μl、400μl、500μl QIAGEN蛋白酶K到50ml离心管中。

1.1.2.2.加入1ml、2ml、3ml、4ml、5ml血浆或血清到上述50ml离心管中。

1.1.2.3.加入0.8ml、1.6ml、2.4ml、3.2ml、4.0ml Buffer ACL(含1.0μgcarrierRNA)，盖上盖子并涡旋30s；注意：充分混匀保证裂解充分；立即进行下一步。

1.1.2.4.在60℃孵育30min。

1.1.2.5.取出离心管置于试验台上，旋开管盖。

1.1.2.6.加入1.8ml、3.6ml、5.4ml、7.2ml、9.0ml的Buffer ACB到50ml离心管中；盖上盖子，混匀15-30s。

1.1.2.7.在冰上孵育裂解混合物5min。

1.1.2.8.在真空泵接头适配器上插入QIAampMini column，将20ml tubeextender插在柱子上；注：确保tube extender牢固的插在QIAamp Mini column上，避免样本泄露。

1.1.2.9.将步骤7中的裂解物-缓冲液ACB混合物小心地加到QIAamp Mini column的tube extender中，打开真空泵；当所有裂解物完全从Mini column中抽出后，关闭真空泵，将压力释放至0mbar；小心地拆下并丢弃扩管器。

1.1.3.洗涤：

1.1.3.1.加入600μl Buffer ACW1到Mini column中，开盖状态，开启真空泵；所有液体通过柱膜后，关闭真空泵，释放压力到0mbar。

1.1.3.2.加入750μl Buffer ACW2到Mini column中，开盖状态，开启真空泵；所有液体通过柱膜后，关闭真空泵，释放压力到0mbar。

1.1.3.3.加入750μl乙醇(96-100％)到Mini column中，开盖状态，开启真空泵；所有液体通过柱膜后，关闭真空泵，释放压力到0mbar。

1.1.3.4.盖上QIAamp Mini column盖子，从适配器上取下，丢弃VacConnector。将QIAamp Mini column放到干净的2ml收集管中，高速离心(20000g；14000rpm)离心3min。

1.1.3.5.将QIAamp Mini column放到新的2ml收集管中。打开管盖，室温孵育5min使膜完全干燥。

1.1.4.洗脱cfDNA：

1.1.4.1.将QIAamp Mini column放到1.5ml洗脱管中，丢弃14步中的2ml收集管。加入20-150μl的Buffer AVE到Mini membrane的中心；盖上管盖，室温孵育3min。

1.1.4.2.离心机中全速(20000g；14000rpm)离心1min以洗脱核酸。

对于cfDNA样品，Agilent2100进行片段检测，直接Qubit用于后续的实验。

1.2.Bisulfite转化及纯化：

1.2.1.准备CT Conversion Reagent：

1.2.1.1.将700μl NF水、300μl M-Dilution Buffer和50μl M-DissolvingBuffer加入一管CT转化试剂中,室温混匀，频繁涡旋或摇晃10min。

1.2.1.2.混匀后进行分装，配置一次为10个反应量。

1.2.2.对DNA文库进行重亚硫酸盐转化，根据下表配制反应体系。

表1

组分	高浓度样本(1ng-2μg)体积
		上步反应结束的样品	40μl
CT Conversion Reagent	110μl
		Total volume	150μl

1.2.3.将移液器调至100μl，轻轻吸打混匀6次，然后分成两管，置于PCR仪上。

1.2.4.设置以下程序在PCR仪上进行反应：热盖温度105℃。

表2

温度	时间
		98℃	10min
64℃	2.5h
		4℃	∞

1.2.5.取一个新的1.5ml离心管，加入600μl的M-Binding Buffer。

1.2.6.PCR结束后，简短离心将两管相同样本分别转移至上述对应的1.5ml离心管中，混匀。

1.2.7.将上述混合好的样本加入Zymo-Spin^TM IC Column中，颠倒混匀，10,000x g离心30s。

1.2.8.向柱子中加入100μl的M-Wash Buffer，10,000x g离心30s。

1.2.9.向柱子中加入200μl的M-Desulphonation Buffer，室温静置15-20min，10,000x g离心30s。

1.2.10.向柱子中加入200μl的M-Wash Buffer，10,000x g离心30s。

1.2.11.重复上一步一次。

1.2.12.将柱子放入一个新的收集管中，10,000x g再次离心30s。

1.2.13.将回收柱放入一个新的1.5ml EP管中，加入15μl LOW EDTA缓冲液到柱膜中央，10,000x g离心30s。

1.3.变性：

1.3.1.将PCR仪预热至95℃。

1.3.2.设置以下程序在PCR仪上进行反应：热盖温度105℃。

表3

温度	时间
		95℃	∞
95℃	2min
		95℃	∞

1.3.3.孵育完成后，立即将试管放在冰上2min。

1.4.接头连接及纯化：

1.4.1.参照下表配置反应体系：

表4

1.4.2.设置以下程序在PCR仪上进行反应：热盖温度105℃。

表5

温度	时间
		37℃	∞
37℃	15min
		95℃	2min
4℃	∞

1.5.样本延伸及纯化：

1.5.1.参照下表配置反应体系：

表6

组分	体积
		Reagent Y1	2ul
Enzyme Y2	42ul
		totalVolume	44ul

1.5.2.设置以下程序在PCR仪上进行反应：热盖温度105℃。

表7

温度	时间
		98℃	∞
98℃	1min
		62℃	2min
65℃	5min
		4℃	∞

1.5.3.DNA保护缓冲液加入液体变成蓝色。轻轻吸打混匀，然后分成两管至于PCR仪上。

1.5.4.设置以下程序，并运行：热盖105℃。

表8

温度	时间
		95℃	5min
60℃	10min
		95℃	5min
60℃	10min
		4℃	∞

1.5.5.根据下表制备纯化体系：

表9

投入量	反应体积	磁珠量	体积
				200bp(SeqCap Epi)	84μl	101μl(ratio:1.2)	15μl

1.5.6.向每个样本中加入上述比例磁珠进行回收，震荡混匀瞬离。

1.5.7.室温静置孵育5min。

1.5.8.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(～2min)，待溶液澄清后吸走上清。

1.5.9.加入200μl的80％乙醇清洗30s磁珠,丢弃上清液,小心地从中清除所有滴管内壁剩余的乙醇。

1.5.10.重复上述步骤。

1.5.11.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱，后震荡混匀。

1.5.12.在室温下孵育2min。

1.5.13.放置磁力架上吸附直至溶液澄清(～2min)待溶液澄清后吸走上清。

1.5.14.将整个洗脱液转移到新的0.2mL PCR管中，确保洗脱液不包含磁珠。

1.6.接头连接及纯化：

1.6.1.根据下表制备文库反应体系：

表10

1.6.2.设置以下程序，并运行：热盖0℃：

表11

温度	时间
		25℃	∞
25℃	15min
		4℃	∞

1.6.3.根据下表制备纯化体系：

表12

投入量	反应体积	磁珠量	体积
				200bp(SeqCap Epi)	30μl	36μl(ratio:1.2)	20μl

1.6.4.向每个样本中加入上述比例磁珠进行回收，震荡混匀瞬离。

1.6.5.室温静置孵育5min。

1.6.6.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(～2min)，待溶液澄清后吸走上清。

1.6.7.加入200μl的80％乙醇清洗30s磁珠,丢弃上清液，小心地从中清除所有滴管内壁剩余的乙醇。

1.6.8.重复上述步骤。

1.6.9.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱，后震荡混匀。

1.6.10.在室温下孵育2min。

1.6.11.放置磁力架上吸附直至溶液澄清(～2min)待溶液澄清后吸走上清。

1.6.12.将整个洗脱液转移到新的0.2mL PCR管中，确保洗脱液不包含磁珠。

1.7.文库扩增及纯化：

1.7.1.根据下表制备文库反应体系：

表13

组分	体积
		上述反应DNA	20μl
KAPA HiFi HotStart Uracil+ReadyMix(2x)	25μl
		index(U001-U024)	5μl
Total volume	50μl

1.7.2.设置以下程序，并运行：热盖105℃：

表14

1.7.3.推荐循环数如下表：

表15

投入量	推荐循环数
		20ng cfDNA	10-11
100ng gDNA	9-10
		20ng gDNA	11-12

1.7.4.根据下表制备纯化体系：

表16

投入量	反应体积	磁珠量	体积
				200bp(SeqCap Epi)	50μl	60μl(ratio:1.2)	22μl

1.7.5.将PCR产物转入1.5ml离心管中。

1.7.6.向每个样本中加入上述比例磁珠进行回收，震荡混匀瞬离。

1.7.7.室温静置孵育5min。

1.7.8.震荡混匀瞬时离心放置在磁力架上吸附直至溶液呈请(～2min)，待溶液澄清后吸走上清。

1.7.9.加入500μl的80％乙醇清洗30s磁珠,丢弃上清液,小心地从中清除所有滴管内壁剩余的乙醇。

1.7.10.重复上述步骤。

1.7.11.磁力架上放置5-10分钟，直到珠子干燥(避免过度干燥，过度干燥可能会导致DNA回收率降低)。

1.7.12.加入上表推荐的low EDTA TE缓冲液最佳体积洗脱，后震荡混匀。

1.7.13.在室温下孵育2min。

1.7.14.放置磁力架上吸附直至溶液澄清(～2min)待溶液澄清后吸走上清。

1.7.15.将整个洗脱液转移到新的0.2mL PCR管中，确保洗脱液不包含磁珠。

1.7.16.吸出1μl进行qubit标定并进行2100质检。

1.7.17.取1μl文库使用Qubit进行定量，记录文库浓度。

1.7.18.取1μl样品使用Agilent2100进行文库片段长度测定。

1.7.19.使用Illumina高通量测序平台进行测序。

Panel的实验流程：

1.1.cfDNA提取纯化：

1.1.1.血浆样本制备：

4℃、2000g离心血液样本10min，将血浆转移到一个新的离心管中。4℃、16000g离心血浆样本10min，根据使用的收集管类型，执行下一步，本实验中使用的收集管类型为其他。

1.1.2.裂解和结合：

1.1.2.3.加入0.8ml、1.6ml、2.4ml、3.2ml、4.0ml Buffer ACL(含1.0μg carrierRNA)，盖上盖子并涡旋30s；注意：充分混匀保证裂解充分；立即进行下一步。

1.1.2.4.在60℃孵育30min。

1.1.2.5.取出离心管置于试验台上，旋开管盖。

1.1.2.7.在冰上孵育裂解混合物5min。

1.1.3.洗涤：

1.1.4.洗脱cfDNA：

1.1.4.2.离心机中全速(20000g；14000rpm)离心1min以洗脱核酸。

1.2.Bisulfite转化及纯化：

1.2.1..准备CT Conversion Reagent：

1.2.1.1..将700μl NF水、300μl M-Dilution Buffer和50μl M-DissolvingBuffer加入一管CT转化试剂中,室温混匀，频繁涡旋或摇晃10min。

1.2.1.2.混匀后进行分装，配置一次为10个反应量。

表1

1.2.3.将移液器调至100μl，轻轻吸打混匀6次，然后分成两管,置于PCR仪上。

1.2.4.设置以下程序在PCR仪上进行反应：热盖温度105℃。

表2

温度	时间
		98℃	10min
64℃	2.5h
		4℃	∞

1.2.5.取一个新的1.5ml离心管，加入600μl的M-Binding Buffer。

1.2.7.将上述混合好的样本加入Zymo-SpinIC Column中，颠倒混匀，10,000x g离心30s。

1.2.8.向柱子中加入100μl的M-Wash Buffer，10,000x g离心30s。

1.2.10.向柱子中加入200μl的M-Wash Buffer，10,000x g离心30s。

1.2.11.重复上一步一次。

1.2.12.将柱子放入一个新的收集管中，10,000x g再次离心30s。

1.3.变性：

1.3.1.将PCR仪预热至95℃。

1.3.2.设置以下程序在PCR仪上进行反应：热盖温度105℃。

表3

温度	时间
		95℃	∞
95℃	2min
		95℃	∞

1.3.3.孵育完成后，立即将试管放在冰上2min。

1.4.接头连接及纯化：

1.4.1.参照下表配置反应体系：

表4

组分	体积
		Low EDTA TE	11.5μl
Buffer G1	4μl
		Reagent G2	4μl
Reagent G3	2.5μl
		Enzyme G4	1μl
Enzyme G5	1μl
		Enzyme G6	1μl
DNA	15μl
		Total Volume	40μl

1.4.2.设置以下程序在PCR仪上进行反应：热盖温度105℃。

表5

温度	时间
		37℃	∞
37℃	15min
		95℃	2min
4℃	∞

1.5.样本延伸及纯化：

1.5.1.参照下表配置反应体系：

表6

组分	体积
		Reagent Y1	2μl
Enzyme Y2	42μl
		totalVolume	44μl

1.5.2.设置以下程序在PCR仪上进行反应：热盖温度105℃。

表7

温度	时间
		98℃	∞
98℃	1min
		62℃	2min
65℃	5min
		4℃	∞

1.5.4.设置以下程序，并运行：热盖105℃。

表8

温度	时间
		95℃	5min
60℃	10min
		95℃	5min
60℃	10min
		4℃	∞

1.5.5.根据下表制备纯化体系：

表9

投入量	反应体积	磁珠量	体积
				200bp(SeqCap Epi)	84ul	101μl(ratio:1.2)	15μl

1.5.7.室温静置孵育5min。

1.5.10.重复上述步骤。

1.5.12.在室温下孵育2min。

1.6.接头连接及纯化：

1.6.1.根据下表制备文库反应体系：

表10

组分	体积
		Buffer B1	3μl
Reagent B2	10μl
		Enzyme B3	2μl
TotalVolume	15μl

1.6.2.设置以下程序，并运行：热盖0℃：

表11

温度	时间
		25℃	∞
25℃	15min
		4℃	∞

1.6.3.根据下表制备纯化体系：

表12

1.6.5.室温静置孵育5min。

1.6.8.重复上述步骤。

1.6.10.在室温下孵育2min。

1.7.文库扩增及纯化：

1.7.1.根据下表制备文库反应体系：

表13

1.7.2.设置以下程序，并运行：热盖105℃：

表14

1.7.3.推荐循环数如下表：

表15

投入量	推荐循环数
		20ng cfDNA	10-11
100ng gDNA	9-10
		20ng gDNA	11-12

1.7.4.根据下表制备纯化体系：

表16

1.7.5.将PCR产物转入1.5ml离心管中。

1.7.7.室温静置孵育5min。

1.7.10.重复上述步骤。

1.7.13.在室温下孵育2min。

1.7.16.吸出1μl进行qubit标定并进行2100质检。

1.8.样本与探针杂交：

1.8.1.混合样本：

1.8.1.1.DNA文库用量参考下表，总用量可以用超过1500ng总量，但不大于4ug；

表17

混合样本数量	每个文库的用量	每个反应文库总量
			1	500ng	500ng
2	500ng	1000ng
			3	500ng	1500ng
4	375ng	1500ng
			8	187.5ng	1500ng

1.8.1.2.计算好不同样本用量，在离心管中混合均匀。

1.8.1.3.在混合好的样本中分别加入以下预杂交试剂，混匀，尽量不要产生气泡。

表18

组分	体积
		Twist探针panel	4μl
通用封闭剂	8μl
		封闭剂溶液	5μl
Methylation Enhancer	2μl

1.8.1.4.将以上混合好的预杂交试剂在真空浓缩仪中常温(如需加热，请用低温)烘干。

1.8.2.杂交：

1.8.2.1.将Fast Hybridization Mix在65℃孵育10min或直至所有沉淀溶解，迅速涡旋并加20μl至上步冻干的样本中重悬样本(请不要让杂交液恢复至室温)，指尖轻弹混匀，避免产生气泡。

1.8.2.2.快速离心去除气泡，加入30ul Hybridization Enhancer至以上试剂表面。

1.8.2.3.将PCR管放入预热好的PCR仪中杂交。

1.8.2.4.设置以下程序，并运行：热盖85℃。

表19

温度	时间
		95℃	∞
95℃	5min
		60℃	15min-4h

1.8.3.结合：

1.8.3.1.震荡预平衡的链霉亲和素磁珠直至完全混匀，加入100μl磁珠至1.5ml离心管中。

1.8.3.2.加入200ul结合缓冲液并用枪头吹打混匀。

1.8.3.3.将离心管置于磁力架上1min或至溶液澄清，弃去上清，取下离心管。

1.8.3.4.重复以上洗涤步骤2次，共3次。

1.8.3.5.最后一次清洗后，加入200ul结合缓冲液，震荡重悬使充分混匀。

1.8.3.6.杂交结束后，打开PCR仪盖子并迅速将杂交液全部转移至平衡好的磁珠中。

1.8.3.7.将加入了杂交液的磁珠在Shaker，rocker或rotator上室温充分混匀30min。

1.8.3.8.将离心管从混匀仪上取下，快速离心后在磁力架上放置1min,去上清，取下管子。

1.8.3.9.加入200μl预热的洗液1，混匀。

1.8.3.10.63℃或65℃孵育5min。

1.8.3.11.将离心管放置于磁力架上1min,去上清，取下管子。

1.8.3.12.重复以上步骤，再次加入200μl预热的洗液1，混匀。

1.8.3.13.在63℃或65℃孵育5min。

1.8.3.14.转移液体至一个新管子；磁力架上放置1min，去上清，取下管子。

1.8.3.15.加入200ul预热过的wash buffer 2,枪头混匀。

1.8.3.16.48℃孵育5min。

1.8.3.17.磁力架上放置1min,去上清，取下管子。

1.8.3.18.重复(步骤3.15-3.17)洗2次，共三次。

1.8.3.19.最后一次，用10μl枪头吸干净洗液。

1.8.3.20.加入45μl水，混匀，冰上孵育该溶液。

1.8.4.捕获后PCR扩增、纯化和质检：

1.8.4.1.设置以下程序，并运行：热盖105℃。

表20

1.8.4.2.混合1.3中的磁珠混合物，吸取22.5ul至0.2mlPCR管中。

1.8.4.3.将0.2mlPCR管中加入2.5μl扩增引物，25μl KAPA HiFi HotStartReadyMix，共50μl反应体系。

1.8.4.4.用枪头温和混匀，快速离心后放入PCR仪中，开始扩增。

1.8.4.5.涡旋充分混匀预平衡的DNA纯化磁珠。

1.8.4.6.在扩增后的PCR产物中加入90μl(1.8*)DNA纯化磁珠，涡旋充分混匀。

1.8.4.7.室温孵育5min。

1.8.4.8.将离心管置于磁力架上1min，待溶液澄清后去上清。

1.8.4.9.不用将离心管从磁力架上取下，直接加入现配的200μl 80％乙醇，孵育1min，弃上清；重复一次80％乙醇洗涤(共2次)，保持离心管在磁力架上。

1.8.4.10.用10μl枪头小心去除残留的乙醇，室温放置5-10min或至磁珠干燥，请注意不要使磁珠过干。

1.8.4.11.从磁力架上取下管子并加入32μl水，用枪头吹打充分混匀，室温孵育2min

1.8.4.12.将离心管置于磁力架上3min或至溶液澄清。

1.8.4.13.转移30μl上清至干净的0.2ml离心管。

1.8.4.14.取1μl文库使用Qubit进行定量，记录文库浓度。

1.8.4.15.取1μl样品使用Agilent2100进行文库片段长度测定。

1.8.4.16.使用Illumina高通量测序平台进行测序。

RRBS的实验流程：

1.1.cfDNA提取纯化

1.1.1.血浆样本制备：

4℃、2000g离心血液样本10min，将血浆转移到一个新的离心管中。4℃、16000g离心血浆样本10min，根据使用的收集管类型，执行下一步,本实验中使用的收集管类型为其他。

表1

1.1.2.裂解和结合

1.1.2.1.按照下表准备结合溶液/珠子混合物，然后彻底混匀。

表2

加入适量体积的血浆样品。

1.1.2.2.彻底混匀血浆样品和结合溶液/珠子混合物。

1.1.2.3.在旋转混匀仪上充分的结合10min，使cfDNA结合到磁珠上。

1.1.2.4.将结合管放在磁力架上5min，直到溶液变得澄清，磁珠完全吸附在磁力架上。

1.1.2.5.用移液管小心的弃去上清，继续保持管子在磁力架上几分钟，用移液管移去残留上清。

1.1.3.洗涤

1.1.3.1.将珠子重悬在1ml洗涤溶液中。

1.1.3.2.将重悬液转移到新的无吸附1.5ml离心管中。保留结合管。

1.1.3.3.将含有珠子重悬液的离心管置于磁力架上，20s。

1.1.3.4.将分离得到的上清，吸出洗涤结合管，将清洗后的残留珠子再次收集到重悬液中，弃掉裂解/结合管。

1.1.3.5.管子置于磁力架上2min，直到溶液变得澄清，珠子聚集在磁力架，用1ml移液器移除上清。

1.1.3.6.管子留在磁力架上，用200μL移液器尽可能移除残留的液体。

1.1.3.7.将管子从磁力架取下来，加入1ml洗涤溶液，涡旋30s。

1.1.3.8.置于磁力架2min，直到溶液澄清，珠子聚集在磁力架上，用1ml移液管移除上清。

1.1.3.9.管子留在磁力架上，用200μL移液器彻底移除残留液体。

1.1.3.10.将管子从磁力架取下，加入1ml 80％乙醇，涡旋30s。

1.1.3.11.置于磁力架上2min，溶液变得澄清，用1ml移液器移去上清。

1.1.3.12.管子留在磁力架上，用200μL移液器移去残留液体。

1.1.3.13.用80％乙醇重复上述1.1.3.10.-1.1.3.12.步骤一次，尽可能除去上清。

1.1.3.14.管子留在磁力架上，空气中干燥珠子3～5分钟。

1.1.4.洗脱cfDNA

1.1.4.1.按照下表加入洗脱液。

表3

1.1.4.2.涡旋5min，置于磁力架上2min，溶液变得澄清，吸取上清液中的cfDNA。

1.1.4.3.纯化的cfDNA立即使用，或者将上清转移至新的离心管中，-20℃保存。

1.1.4.4.Agilent2100进行片段检测，直接Qubit用于后续的实验。

1.2.MspI酶切消化:

1.2.1.取100ng以下DNA至PCR管中，加入以下试剂，涡旋混匀：

表3

组分	体积
		DNA	Xul
10×RRBS Buffer	4μl
		MspI(20U/μl)	0.5μl
DNase/RNase-free Water	(35.5X)μl
		总体积	40μl

1.2.2.设置以下程序在PCR仪上进行反应：热盖温度85℃。

表4

温度	时间
		37℃	4h
4℃	∞

1.3.接头连接及纯化：

1.3.1.按下表配制以下试剂，轻轻吸打混匀，短暂离心：

表5

组分	体积
		上一步酶切产物	40μl
10×RRBS Buffer	1μl
		rATP(10mM)	0.5μl
RRBS Adapters(10μM)	0.5μl
		MspI(20U/μl)	1μl
T4 DNA Ligase(400U/μl)	1μl
		DNase/RNase-free Water	6μl
总体积	50μl

1.3.2.设置以下程序在PCR仪上进行反应：热盖温度85℃。

表6

1.3.3.按下表配制以下试剂，轻轻吸打混匀，短暂离心：

表7

1.3.4.设置以下程序在PCR仪上进行反应：

表8

温度	时间
		74℃	30min

1.3.5.取1.5ml离心管，按7:1比例加入DNABinding Buffer于上述产物中(即加入364μl的DNA Binding Buffer至52μl的产物中)混匀，转移至Zymo-Spin IC离心柱中，离心≥10,000x g，30s。

1.3.6.加200μl DNA Wash Buffer至离心柱中，离心≥10,000x g，30s。弃废液，重复此步骤。(洗涤后可选择干旋转，确保清洗缓冲液完全清除的步骤。)

1.3.7.将离心柱转移至新的1.5ml的离心管中，加20μl DNA Elution Buffer，室温孵育1min后，离心≥10,000x g，30s。

1.4重亚硫酸盐处理及纯化：

1.5.1.预先拿出所需要的试剂，并溶解。根据下表加入各试剂：

表9

组分	体积
		接头连接纯化产物	20μl
Lightning Conversion Reagent	130μl
		总体积	150μl

1.5.3.设置以下程序，并运行：热盖105℃。

表10

温度	时间
		98℃	8min
54℃	1h
		4℃	∞

1.5.4.加600μl M-Binding Buffer至Zymo-Spin IC Column离心柱中，加亚硫酸盐转化样本于柱中，盖好盖子，颠倒8次，离心≥10,000x g，30s。

1.5.5.弃废液，加100μl M-Wash Buffer至离心柱中，离心≥10,000xg，30s。

1.5.6.加200μl L-Desulphonation Buffer至离心柱中，并在20℃-30℃环境放置15-20min，孵育结束后，离心≥10,000x g，30s。(注：孵育时间不能超20分钟)

1.5.7.加200μl M-Wash Buffer至离心柱≥10,000x g，30s。弃废液。

1.5.8.重复上一步。

1.5.9.将离心柱转移至新的1.5ml离心管中，加24μl DNA Elution Buffer，孵育1min，离心≥10,000x g，30s，得到亚硫酸盐转化后的DNA。

1.6.扩增及纯化：

1.6.1.按下列表格配制反应体系，吹打混匀，短暂离心：

表11

组分	体积
		LibraryAmp Master Mix(2×)	25μl
Index Primer Set(10μM)	1μl
		上一步的产物	24μl
总体积	50μl

1.6.2.设置以下程序并启动PCR程序：热盖105℃

表12

1.6.4.取1.5ml离心管，按7:1比例加入DNA Binding Buffer于上述产物中(即加入350μl的DNA Binding Buffer至50μl的产物中)，混匀，转移至Zymo-Spin IC离心柱中，离心≥10,000x g，30s。

1.6.5.加200μl DNA Wash Buffer至离心柱中，离心≥10,000x g，30s。弃废液，重复此步骤。(洗涤后可选择干旋转，确保清洗缓冲液完全清除的步骤。)。

1.6.6.将离心柱转移至新的1.5ml的离心管中，加15μl DNA Elution Buffer，室温孵育1min后，离心≥10,000x g，30s。

1.6.7.用移液器吸13μl上清液转移到1.5ml离心管，标记样品信息。

1.6.8.取1μl文库使用Qubit进行定量，记录文库浓度。

1.6.9.取1μl样品使用Agilent2100进行文库片段长度测定。

1.6.10.使用Illumina高通量测序平台进行测序。

实施例2构建癌症风险评估分类模型

Panel数据：博尔诚搜集60肺癌和60例健康人的外周血各10～20ml，分离血浆样本，提取纯化cfDNA。利用实施例1中的panel检测方法获得。选取40例肺癌数据和40例健康人数据作为训练集，剩余的作为验证集。

WGBS数据：博尔诚搜集30肺癌和30例健康人的外周血各10～20ml，分离血浆样本，提取纯化cfDNA。利用实施例1中的WGBS检测方法获得。选取20例肺癌数据和20例健康人数据作为训练集，剩余的作为验证集。

RRBS数据：博尔诚搜集20肺癌和20例健康人的外周血各10～20ml，分离血浆样本，提取纯化cfDNA。利用实施例1中的RRBS检测方法获得。选取15例肺癌数据和15例健康人数据作为训练集，剩余的作为验证集。

利用这三个不同平台的训练集样本数据，使用本申请的筛查方法来筛查差异区间(标志物)。从三个不同平台挑选了按照AUC选取了top50的标志物，总计115个标志物，具体如下：

表13：115个标志物的坐标以及基因信息。

/>

备注：标志物类型说明如下：①仅在WGBS数据中的差异位点，②仅在panel数据中的差异位点，③仅在RRBS中的差异位点，④同时在WGBS数据，panel数据，RRBS中的差异位点，⑤仅在WGBS数据和panel数据中的差异位点，⑥仅在panel数据中和RRBS中的差异位点，⑦仅在WGBS和RRBS中的差异位点。

然后，利用测试集的数据提取这115个标志物的甲基化水平数据，采用广义线性回归构建模型如下：

logP/(1-P)＝0.19X1+0.211X2+0.334X3+0.805X4+0.925X5+0.502X6+0.445X7。

公式中，P代表受试者患癌的概率，当模型计算受试者预测得分P值超过0.5时判别为患癌。在测试集中的预测灵敏性为91.43％，特异性为91.43％，AUC为0.975。需要主要的是，该公式第④类和第⑤类标志物的权重系数远高于其他类型的标志物，因此，第④类和第⑤类类型可以作为以后重点研究的对象。

根据以上公式，每个测试集样本P值如下：(在如下测试集中sample.NO.1-sample.NO.35为肺癌患者，sample.NO.3-sample.NO.70的受检者未患癌。模型计算得分超过0.5判别为受试者患肺癌(即1)，反之判别为未患癌(即0))

表14为通过上述模型计算得到的统计结果

表14

/>

表15为通过模型计算结果与临床检测结果对比

表15

小结：由表14以及表15可知，采用本申请所述的方法筛选出来的标志物用于预测疾病时，其预测灵敏性为91.43％，特异性为91.43％。

以上所述，仅是本申请的较佳实施例而已，并非是对本申请作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本申请技术方案的保护范围。

Claims

1.一种基于甲基化数据筛选疾病标志物的方法，其中，包括如下步骤：

获得a个甲基化检测平台的多个样本的甲基化数据；

对甲基化数据进行预处理；

所述a为大于等于2的正整数，

多个样本包括疾病组样本和正常组样本。

2.根据权利要求1所述的方法，其中，对甲基化数据进行预处理包括如下步骤：

对所述甲基化数据进行：数据质量预处理和评估(fastp软件)、基因组比对(Bismark软件)、去除样本或实验技术等带来的重复数据

(deduplicate_bismark软件)或利用champ.norm函数做标准化。

3.根据权利要求1所述的方法，其中，基于所述a个甲基化检测平台的经预处理后的甲基化数据，通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间：以待选定的差异区间作为检测目标时的疾病组样本检测AUC、以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值|delta|。

4.根据权利要求3所述的方法，其中，选取delta值在不同甲基化检测平台中同时为正，或者同时为负的待选定差异区间作为差异区间。

5.根据权利要求3所述的方法，其中，选取不同甲基化检测平台中的|AUC-0.5|>0.2的差异区间。

6.根据权利要求1-5任一项所述的方法，其中，所述w个类型的差异区间的特征值为X，X满足如下公式：

7.根据权利要求6所述的方法，其中，当所述差异区间i只存在一个甲基化检测平台时，Δβ_i表示在该甲基化检测平台上，差异区间i在某一样本中的甲基化水平减去其所在样本组的甲基化水平的平均值；或

8.根据权利要求6或7所述的方法，其中，计算所述w个类型的特征值并基于该特征值来选取疾病标志物是指通过w个类型中的所有差异区间的甲基化水平数据通过广义线性回归来构建概率模型来判断差异区间是否可以作为疾病标志物。

9.根据权利要求8所述的方法，其中，所述概率模型如下：

logit(p)＝ln(p/1-p)＝α₁X₁+α₂X₂+α₃X₃+......+α_wX_w+C

其中，p为受试者患所述疾病的概率；

C代表常数；

w为2^a-1。

10.根据权利要求1-9任一项所述的方法，其中，所述甲基化数据选自Panel数据、RRBS数据、WGBS、450K等甲基化相关检测方法中的两种及其以上。