CN115376616A

CN115376616A - 一种基于cfDNA多组学的多分类方法及装置

Info

Publication number: CN115376616A
Application number: CN202211299043.5A
Authority: CN
Inventors: 杨顺莉; 李溪; 李宇龙; 洪媛媛; 韩天澄; 黄宇; 陈维之; 杜波
Original assignee: Zhenyue Biotechnology Jiangsu Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Zhenyue Biotechnology Jiangsu Co ltd; Zhenhe Beijing Biotechnology Co ltd
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-11-22
Anticipated expiration: 2042-10-24
Also published as: CN115376616B

Abstract

本发明提供了一种基于cfDNA多组学的多分类方法及装置，其中，多分类方法包括：基于ATAC‑seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC‑seq区域簇的测序数据，每个ATAC‑seq区域簇对应一类别的特征区域；基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC‑seq区域簇测序数据的长插入片段数量和短插入片段数量；将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类，得到待测血浆样本所属的类别。其基于片段组学的特征信息对待检测血浆样本进行分类，为后续应用提供部分依据。

Description

一种基于cfDNA多组学的多分类方法及装置

技术领域

本发明涉及生物医学技术领域，尤其涉及一种基于ctDNA长度的分析方法和系统。

背景技术

细胞外游离DNA片段，称为cell-free DNA(cfDNA)，是由Mandel和Metais首次在人类血浆中发现，之后在身体的其他部位也有发现，例如尿液、胸腔积液、脑脊液流体等体液。对于健康人来说，cfDNA主要从细胞凋亡中释放，部分从坏死和活性细胞释放。但对于肿瘤患者来说，肿瘤细胞会释放大量携带突变信息的DNA，即循环肿瘤DNA(ctDNA)。

随着二代测序(NGS)等技术变得越来越便宜，使用cfDNA进行基因检测越来越流行并且慢慢应用于临床研究。随着基于胎儿游离DNA的无创产前检测(non-invasiveprenatal testing,NIPT)的迅速发展，依赖于ctDNA的肿瘤检测被认为有着更大的前景。ctDNA检测通常是非侵入性的，操作简单可行，并且能够描述肿瘤异质性。这些特征使得ctDNA检测比组织检测更适用于肿瘤遗传学诊断，其在个体化肿瘤治疗，肿瘤监测和筛查中发挥着关键作用。因此诞生了一个新的术语“液体活检”，即基于cfDNA的肿瘤遗传学检测，并且在2015年被麻省理工科技评论出版社评为10大突破性技术。

尽管针对cfDNA的研究取得了一些进步，能够为一些患者的肿瘤特异突变的早期诊断提供参考，但是精度仍然不够。且心肌梗塞、中风和自身免疫性疾病等均会显著影响cfDNA水平，可能会导致组织损伤，但是这些并不能通过cfDNA进行专门监测，因为缺乏这样的遗传差异。此外，即使突变可以监测肿瘤来源的cfDNA，但其在肿瘤的组织起源分析时候信号强度及灵敏度有限。可以看出，如何基于cfDNA对组织起源进行分析仍然是一个迫切需要解决的实际问题。

发明内容

针对上述问题，本发明提供了一种基于cfDNA多组学的多分类方法及装置，基于片段组学和/或甲基化维度的特征信息对待检测血浆样本进行分类，为后续应用提供部分依据。

本发明提供的技术方案如下：

一方面，本发明提供了一种基于cfDNA多组学的多分类方法，包括：

基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据，每个所述ATAC-seq区域簇对应一类别的特征区域；

基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量；

将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类，得到所述待测血浆样本所属的类别。

在本技术方案中，ATAC-seq为Assay for Transposase Accessible Chromatinwith high-throughput sequencing的英文缩写，即利用转座酶研究染色质可进入性的高通量测序技术，可用于研究染色体的可进入性。DNA转座，是一种把DNA序列从染色体的一个区域搬运到另外一个区域的现象，由DNA转座酶实现。这种转座插入DNA，需要插入位点的染色质是开放的，否则就会被一大坨高级结构给卡住。ATAC-seq测序中，将携带已知DNA序列标签的转座复合物（即带着红色蓝色测序标签的转座酶Tn5），加入到细胞核中，再利用已知序列的标签进行PCR后测序，即可得到开放染色质的区域。ATAC-seq出来的结果，和基于组蛋白修饰marker的染色质免疫共沉淀技术（ChIP-seq）有较高的吻合程度。也就是说，ATAC-seq中的区域（peak），往往是启动子、增强子序列，以及一些反式调控因子结合的位点。

另一方面，本发明提供了一种基于cfDNA多组学的多分类方法，包括：

分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i 个ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化CpG位点的数量；

将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类，得到所述待测血浆样本所属的类别。

分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i 个ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化CpG位点的数量；

将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类，得到所述待测血浆样本所属的类别。

另一方面，本发明提供了一种基于cfDNA多组学的多分类装置，包括：

数据获取模块，用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据，并从中进一步获取预设ATAC-seq区域簇的测序数据，每个所述ATAC-seq区域簇对应一类别的特征区域；

数量统计模块，用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量；

多分类模块，用于将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类，得到所述待测血浆样本所属的类别。

甲基化位点占比计算模块，用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i 个ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化CpG位点的数量；

多分类模块，用于将将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类，得到所述待测血浆样本所属的类别。

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i 个ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化CpG位点的数量；

多分类模块，用于将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类，得到所述待测血浆样本所属的类别。

另一方面，本发明提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时实现上述基于cfDNA多组学的多分类方法的步骤。

另一方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于cfDNA多组学的多分类方法的步骤。

本发明提供的基于cfDNA多组学的多分类方法及装置，其基于预设的ATAC-seq区域簇对其中的长插入片段数量和短插入片段数量、及甲基化位点占比进行统计，并根据统计得到的数据进行多组学分类，完成对待检测血浆样本的分类。相比MNase-seq和DNase-seq，ATAC-seq的重复性更强，操作起来也更加简单，少量的细胞能检测出更强的信号。该方法简单方便且精确度高，仅需静脉采血可以实现七大高发肿瘤的初期分类，包括乳腺癌、结直肠癌、食管癌、胃癌、肝癌、肺癌和胰腺癌，并且检测结果可提示肿瘤信号的器官来源，为进一步的临床诊疗提供指导方向，便捷、安全、有效，有效辅助癌症的早期诊断以及癌症的早期筛查，提高筛查效率和精度。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中基于cfDNA多组学的多分类方法一种实施例流程示意图；

图2为本发明中健康人血浆样本和癌症血浆样本插入片段大小概率分布图；

图3为本发明中累计概率密度分布图；

图4为本发明中健康人血浆样本和癌症血浆样本统计检验的pvalue值分布图；

图5为本发明中基于cfDNA多组学的多分类方法另一种实施例流程示意图；

图6为本发明中基于cfDNA多组学的多分类方法另一种实施例流程示意图；

图7为本发明中基于cfDNA多组学的多分类装置一种实施例结构示意图；

图8为本发明中终端设备结构示意图。

附图标记：

100-多分类装置，110-数据获取模块，120-数量统计模块，130-多分类模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明的一种实施例，一种基于cfDNA多组学的多分类方法，如图1所示，包括：

S11基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据，每个ATAC-seq区域簇对应一类别的特征区域；

S12基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量；

S13将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类，得到待测血浆样本所属的类别。

在本实施例中，ATAC-seq区域簇的选定，参考2018年由M. Ryan Corces等人在Science上发表的论文“The chromatin accessibilitylandscape of primary humancancers”进行确定，在该论文中公开有癌种特异性的ATAC-seq区域，每个区域（peak）长500bp，共计202888个peak。且针对所有peak进行聚类，得到18个区域簇（cluster），涉及18个类型的癌种，其中，cluster1为肾脏/胆管的主要特征区域（Kindey/Bile duct），cluster2为结肠癌的主要特征（Colon），cluster3为非基底乳腺癌的主要特征区域（Breast，non-basal），cluster4为前列腺癌的主要特征区域（Prostate），cluster5为脑瘤的主要特征区域（Brain），cluster6为甲状腺癌的主要特征区域(Thyroid)，cluster7为黑色素瘤的主要特征区域（Skin，melanocyte），cluster8为肺鳞癌的主要特征区域（Squamous），cluster9为肝癌的主要特征区域(Liver)，cluster10为神经细胞瘤的主要特征区域（Nerve cell），cluster11为睾丸的主要特征区域（Testicular），cluster12为非肺鳞癌的主要特征区域（Lung,no-squamous），cluster13为消化道的主要特征区域（Digestive），cluster14为基底乳腺癌的主要特征区域（Breast,basal），cluster15为子宫癌的特征区域（Uterine），cluster16为膀胱癌的主要特征区域，cluster17为间皮的主要特征区域（Mesothelium），cluster18为肾上腺的主要特征区域（Adrenal）。

基于该论文中公开的18个ATAC-seq区域簇，将其应用于本实施例中的基于cfDNA多组学的多分类方法，分类过程中，在对待测血浆样本进行了ATAC-seq测序后，基于论文中公开的18个ATAC-seq区域簇对测序数据进行选定。选定之后，进一步对每个ATAC-seq区域簇中的长插入片段数量和短插入片段数量进行统计，以此根据统计的长插入片段数量和短插入片段数量对待测血浆样本进行分类。这里，步骤S10中，ATAC-seq区域簇的数量可以根据实际需求进行选定，如仅选定论文中一个ATAC-seq区域簇或者更多数量的ATAC-seq区域簇等，当然也可以选定论文中公开了18个ATAC-seq区域簇。当选定该18个ATAC-seq区域簇时，则步骤S20中分别对该18个ATAC-seq区域簇的长插入片段数量和短插入片段数量进行统计，并以此对待测血浆样本进行分类。

长插入片段阈值区间为169bp~240bp，短插入片段阈值区间为100bp~166bp，在对其进行确定中：首先分别对健康人血浆样本和癌症血浆样本进行全基因组测序得到FASTQ文件，健康人血浆样本和癌症血浆样本中的cfDNA携带有预先接入的分子标签；对FASTQ文件进行数据质控，包括去除cfDNA携带的分子标签；对数据质控后的插入片段大小进行统计；对统计的片段大小进行累计概率密度分析，及比较不同长度的插入片段健康人血浆样本和癌症血浆样本之间的差异显著性；由累计概率密度分析结果及差异显著性统计结果对短插入片段区间阈值和长插入片段区间阈值进行选定。

具体，首先通过相对较高(~9X)的测序深度对健康人血浆样本和癌症血浆样本进行测序，之后对其进行预处理，将下机数据FASTQ文件进行数据质控，去掉不固定长度UMI，基于bwa软件比对到人类基因组（hg19），并对数据进行过滤，包括去重、去除多重比对的reads以及只保留质量值大于30和常染色体的reads等。

之后，分别对癌症血浆样本和健康人血浆样本的插入片段大小分析，如图2所示（(a)为健康人血浆样本插入片段大小概率分布图，(b)为癌症血浆样本插入片段大小概率分布图），健康人血浆样本插入片段峰值为166.6bp(~167bp)，癌症血浆样本插入片段峰值为165.6bp(~166bp)。可以看出，与健康人血浆样本比较，癌症血浆样本整体分布向左移，且在以10bp为单位的递减处有一系列较小的峰，血浆中肿瘤DNA的含量越大，癌症患者血浆中短DNA的比例就越高；相反，血浆中肿瘤DNA含量越低，癌症患者血浆中长DNA的比例就越高。

为了找到用于区分健康人血浆样本和癌症血浆样本的短插入片段和长插入片段的区间阈值，首先进行累计概率密度分析，如图3所示，在长度大小分别为169bp和308bp的cfDNA累计概率密度达到极值；之后对数据进行统计学检验比较不同插入片段长度健康人血浆样本和癌症血浆样本的差异显著性，如图4所示（a1表示p=0.05，a2表示p=0.01），当插入片段为100bp~166bp和169bp<~240bp两个连续区域时，健康人血浆样本和癌症血浆样本具有显著性的差异(T检验，p<=0.05)，以此将100bp<short<=166bp定义为短插入片段区间阈值（short frangment），将169bp<=long<=240bp定义为长插入片段区间阈值（longfrangment）。

基于此，在基于ATAC-seq技术对待测血浆样本进行超低深度（（1~2X））的全基因组测序，并统计得到各ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量之后，还包括针对每个ATAC-seq区域簇的长插入片段数量和短插入片段数量分别进行矫正的步骤，包括进行z-score标准化和归一化，其中，z-score标准化中，采用式(1)对长插入片段数量或短插入片段数量计算z-score值：

(1)

其中，

表示计算得到的z-score值，

表示待标准化数据，

表示健康人血浆样本对应ATAC-seq区域簇中待标准化数据的平均值，

表示健康人血浆样本对应ATAC- seq区域簇中待标准化数据的标准差。

归一化步骤中，采用式(2)对z-score标准化后的数据进行处理得到r值：

(2)

其中，

表示一样本所有ATAC-seq区域簇中待标准化数据的z-score最小值，

表示一样本所有ATAC-seq区域簇中待标准化数据的z-score最大值。这里，上述待标准化数据为长插入片段数量或短插入片段数量。

多组学分类模型可以选用cforest（条件随机森林）、svmLinear（线性核支持向量机）、LogitBoost（一种使用逻辑回归方法作为损失函数的梯度下降算法）、gbm（GradientBoosting Machine，梯度提升机）及Ensemble（集成学习）等模型进行建模，并预先基于从癌症血浆样本中统计的长插入片段数量和短插入片段数量对其进行训练得到模型结构及网络参数，用于后续对待测血浆样本进行分类。

一实例中，选用780例癌症血浆样本（包括乳腺癌BRCA、肝癌LIHC、非小细胞肺癌NSCLC、食管癌ESCA、胃癌STAD、结直肠癌COREAD及胰腺癌PACA）建立随机森林模型，并随机生成训练集和验证集，其中，训练集542个样本，验证集238个样本。在对癌症血浆样本进行ATAC-seq测序后，提取18个cluster（对应上述18个ATAC-seq区域簇）的测序数据，并分别统计各cluster测序数据的长插入片段数量和短插入片段数量，共36个特征。使用留一法交叉验证，对于训练集不同癌种得到的预测准确性如表1所示，从表中可以看出，肝癌使用短插入片段数量能够得到较高的准确性，准确率为0.56；乳腺癌使用长插入片段数量可以得到较高的准确性，准确率为0.57；结直肠癌在两种方法的均得到较好的准确性，准确率分别为0.4和0.44。

表1：不同癌种的预测准确性

在另一实施例中，在步骤S11基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据之前，还包括对预设ATAC-seq区域簇测序数据的性能表现进行验证的步骤，包括：基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据；癌症患者血浆样本包括多类型癌种的血浆样本；基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量；基于统计的长插入片段数量和短插入片段数量使用秩和（wilcox）单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。

一实例中，选用1278个样本进行验证，其中，健康人血浆样本498例，作为基线就；癌症血浆样本780例，包括乳腺癌BRCA、肝癌LIHC、非小细胞肺癌NSCLC、食管癌ESCA、胃癌STAD、结直肠癌COREAD及胰腺癌PACA。在对所有的健康人血浆样本和癌症血浆样本进行ATAC-seq测序后，提取18个cluster（对应上述ATAC-seq区域簇）的测序数据，并分别统计各cluster测序数据的长插入片段数量和短插入片段数量。之后，基于秩和单边检验方法，检验每个癌种和其他所有癌种各个特征的显著性，结果如表2和表3所示，可以明显看到，对于一些癌种存在差异显著性的cluster，且癌种特意性的cluster是明显低于其他的cluster。例如，不管基于长插入片段数量和短插入片段数量进行检验，cluster9在肝癌中有显著低的特征，cluster2在结直肠癌中有显著低的特征，cluster3在乳腺癌中有显著低的特征，cluster12在肺癌中有显著低的特征等。

表2：基于短插入片段数量的wilcox检验结果

表3：基于长插入片段数量的wilcox检验结果

本发明的另一实施例，一种基于cfDNA多组学的多分类方法，如图5所示，包括：

S21 基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据，每个ATAC-seq区域簇对应一类别的特征区域；

S22 分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比，如式(3)；

(3)

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i 个ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化CpG位点的数量；

S23 将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类，得到待测血浆样本所属的类别。

在本实施例中，ATAC-seq区域簇的选定方式与前述实施例相同，这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的甲基化位点占比之后，还包括针对每个ATAC-seq区域簇的甲基化位点占比分别进行矫正的步骤，包括如式(1)z-score标准化和如式(2)归一化，其中，待标准化数据为甲基化位点占比。

多组学分类模型可以选用cforest（条件随机森林）、svmLinear（线性核支持向量机）、LogitBoost（一种使用逻辑回归方法作为损失函数的梯度下降算法）、gbm（GradientBoosting Machine，梯度提升机）及Ensemble（集成学习）等模型进行建模，并预先基于从癌症血浆样本中统计的甲基化位点占比对其进行训练得到模型结构及网络参数，用于后续对待测血浆样本进行分类。

一实例中，选用780例癌症血浆样本（包括乳腺癌BRCA、肝癌LIHC、非小细胞肺癌NSCLC、食管癌ESCA、胃癌STAD、结直肠癌COREAD及胰腺癌PACA）建立随机森林模型，并随机生成训练集和测试集，其中，训练集542个样本，验证集238个样本。在对癌症血浆样本进行ATAC-seq测序后，提取18个cluster（对应上述18个ATAC-seq区域簇）的测序数据，并分别统计各cluster测序数据的甲基化位点占比，共18个特征。使用留一法交叉验证，对于训练集不同癌种得到的预测准确性如表4和表5所示，从表中可以看出，对于训练集可以准确预测22例乳腺癌，42例的结直肠癌，16例的胃癌，26例的肝癌，21例的胰腺癌以及36例的非小细胞肺癌。

表4：训练集模型预测结果

在另一实施例中，步骤S21 基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据之前，还包括对预设ATAC-seq区域簇测序数据的性能表现进行验证的步骤，包括：基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据；癌症患者血浆样本包括多类型癌种的血浆样本；分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；基于统计的甲基化位点占比使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。

一实例中，选用1278个样本进行验证，其中，健康人血浆样本498例，作为基线就；癌症血浆样本780例，包括乳腺癌BRCA、肝癌LIHC、非小细胞肺癌NSCLC、食管癌ESCA、胃癌STAD、结直肠癌COREAD及胰腺癌PACA。在对所有的健康人血浆样本和癌症血浆样本进行ATAC-seq测序后，提取18个cluster（对应上述ATAC-seq区域簇）的测序数据，并分别统计各cluster测序数据的甲基化位点占比。之后，基于秩和单边检验方法，检验每个癌种和其他所有癌种各个特征的显著性，结果如表5和表6所示，其中，后缀hypo代表相应cluster低甲基化，后缀hyper代表相应cluster高甲基化。从表中可以明显看到，对于一些癌种有其特异性的cluster，且这些特异性的cluster是的甲基化程度更低。例如cluster2在结直肠癌中有显著hypo特征，cluster3在乳腺癌中有显著hypo特征，cluster12在肺癌中有显著hypo特征等。

表5：基于甲基化位点占比的wilcox检验结果1

表6：基于甲基化位点占比的wilcox检验结果2

本发明的另一实施例，一种基于cfDNA多组学的多分类方法，如图6所示，包括：

S31 基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据，每个ATAC-seq区域簇对应一类别的特征区域；

S32 基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量；

S33 分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比，如式(3)；

S34 将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类，得到待测血浆样本所属的类别。

在本实施例中，ATAC-seq区域簇的选定方式、长插入片段阈值区间和短插入片段阈值区间的确定方式均与前述实施例相同，这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的长插入片段数量、短插入片段数量及甲基化位点占比之后，还包括针对每个ATAC-seq区域簇的插入片段数量、短插入片段数量及甲基化位点分别进行矫正的步骤，包括如式(1)z-score标准化和如式(2)归一化，其中，待标准化数据为长插入片段数量、短插入片段数量或甲基化位点占比。

多组学分类模型可以选用cforest（条件随机森林）、svmLinear（线性核支持向量机）、LogitBoost（一种使用逻辑回归方法作为损失函数的梯度下降算法）、gbm（GradientBoosting Machine，梯度提升机）及Ensemble（集成学习）等模型进行建模，并预先基于从癌症血浆样本中统计的长插入片段数量、短插入片段数量及甲基化位点占对其进行训练得到模型结构及网络参数，用于后续对待测血浆样本进行分类。

以下通过一实例对上述实施例及其有益效果进行说明：

一、实验流程：

1.血浆cfDNA提取

1.1 将每位受试者10mL全血存放在康为EDTA采血管中，过在4℃以1600g转速离心10min使血浆、血细胞分层。将上层血浆转移至新离心管，再次以12000rpm转速4℃离心15min取上清以去除细胞碎屑。得到约4mL血浆，80℃冻存备用。

1.2 血浆样本融化后，每1mL样本中加入15μL ProteinaseK(20mg /mL，thermoscientific cat#EO0492)和50μL SDS(20%)。血浆量不足4mL，用PBS补足。

1.3 翻转混匀，60℃孵育20min，然后冰浴5min。

1.4 使用MagMAX Cell Free DNA Isolation试剂（thermoscientific cat#A29319）提取cfDNA。

1.5 使用Bioanalyzer 2100(Agilent Technologies)检测cfDNA的提取浓度和质量。

2. cfDNA建库

使用甲基化文库构建试剂盒NEBNext Enzymatic Methyl seq Kit（NEB， cat#E7120），以530ngcfDNA起始量，通过TET2酶使5甲基胞嘧啶（5mC）转化为5甲酰胞嘧啶（5fC）和5羧基胞嘧啶（5caC），并且通过APOBEC酶，使非甲基化胞嘧啶（C）脱氨转化为尿嘧啶（U），然后进行扩增建库。具体文库构建过程如下：

2.1 内参准备

取50μL CpG全甲基化的pUC19 DNA和50μL CpG全非甲基化的LamdbaDNA混匀后加入100ul打断管中，使用M220打断仪（Covaris）打断。建库时，向待测cfDNA加入0.001ng的pUC19 DNA和0.02 ng 的lambda DNA。

2.2 cfDNA样本的准备

cfDNA样本起始量为5_30ng，不需要打断。

2.3末端修复

2.3.1在冰上混合以下反应体系。

2.3.2反应体系置于PCR仪上，进行末端修复反应。

2.4连接Adaptor

2.4.1在冰上操作，将以下组分加入上步的60μL反应体系中。

2.4.2 在20℃下孵育15min。

2.5连接后纯化

2.5.1 上一步反应结束后，取出样本，加入110μLNEBNext Sample PurificationBeads，立即使用移液器吹打混匀。

2.5.2室温孵育5 min

2.5.3 离心管置于磁力架上5 min待液体澄清，弃去上清。

2.5.4 加入200μL现配80％乙醇，孵育30s后弃去。重复一次200μL 80％乙醇清洗步骤。

2.5.5用10μL移液器吸尽离心管底部的残留乙醇，室温干燥3_5min至乙醇完全挥发。

2.5.6从磁力架取下离心管，加入29μL Elution Buffer（NEB），震荡混匀。室温孵育1min。

2.5.7短暂离心，离心管置于磁力架上3min待液体澄清，取28μL放进新的PCR管中。

2.6 5_甲基胞嘧啶和5_羟甲基胞嘧啶氧化反应

使用NEBNext Enzymatic Methyl_seq Kit（NEB，cat# E7120）进行以下反应操作。

2.6.1 TET2 Reaction Buffer Supplement干粉加入400μL TET2 ReactionBuffer，充分混合。

2.6.2在冰上将以下组分加入上述28 μL已连接adapter的DNA：

2.6.3 将500mM Fe(II)溶液按1：1250比例稀释。往上步混匀的产物中，加入已配好的Fe（II）。

充分混合并在37℃孵育1h。

2.6.4 反应结束后移至冰上并加入1μL Stop Reagent。

充分混合。

2.6.5 在37℃下孵育30 min。

2.7氧化后纯化

2.7.1 上一步反应结束后，取出样本，加入90μLNEBNext Sample PurificationBeads，立即使用移液器吹打混匀。

2.7.2室温孵育5 min。

2.7.3 离心管置于磁力架上5min待液体澄清，弃去上清。

2.7.4 加入200μL现配80％乙醇，孵育30 s后弃去。重复一次200μL 80％乙醇清洗步骤。

2.7.5用10μL移液器吸尽离心管底部的残留乙醇，室温干燥3_5min至乙醇完全挥发。

2.7.6从磁力架取下离心管，加入17μL Elution Buffer，震荡混匀。室温孵育1min。

2.7.7短暂离心，离心管置于磁力架上3min待液体澄清，取16μL放进新的PCR管中。

2.8 DNA变性

2.8.1 配制新鲜的0.1N NaOH。

2.8.2 提前预热PCR仪到50℃。

2.8.3加入4μL 0.1N NaOH到上步16μL纯化产物中，充分混合。

2.8.4 在50℃下孵育10 min。

2.8.5 反应结束后立刻放入冰上。

2.9 胞嘧啶脱氨基

2.9.1在冰上将下列组分加入上步20μL变性DNA

充分混合。

2.9.2 在PCR仪上37℃孵育3h后转为4℃终止反应。

2.10脱氨后纯化

2.10.1 上一步反应结束后，取出样本，加入100μLNEBNext SamplePurificationBeads，立即使用移液器吹打混匀。

2.10.2室温孵育5min。

2.10.3 离心管置于磁力架上5 min待液体澄清，弃去上清。

2.10.4 加入200μL现配80％乙醇，孵育30s后弃去。重复一次200μL 80％乙醇清洗步骤。

2.10.5用10μL移液器吸尽离心管底部的残留乙醇，室温干燥3_5min至乙醇完全挥发。

2.10.6从磁力架取下离心管，加入21 μLElution Buffer，震荡混匀。室温孵育1min。

2.10.7短暂离心，离心管置于磁力架上3 min待液体澄清，取20 μL放进新的PCR管中。

2.11文库PCR扩增

2.11.1在冰上将下列组分加入上步脱氨后的20μL DNA。

2.11.2 充分混合后在PCR以上进行以下PCR反应。

2.13 文库定量

使用Qubit高灵敏试剂（thermoscientific cat#Q32854）对所构建的文库进行定量，文库产量大于400ng进行后续上机测序。

3.文库测序

取100ng上述文库加入10% PhiX DNA（Illumina cat#FC-110-3001）混合成上机样品，在Novaseq6000（Illumina）平台进行PE100测序。

二、生信分析流程：

1. 处理下机FASTQ数据为各模块可使用的Bam文件

1.1 去接头

调用Trimmomatic-0.36将每一对FASTQ文件都作为配对的读段（paired reads）比对到hg19人类参考基因组序列，除M参数与指定Reads Group的ID外，不使用其余参数选项，生成初始bam文件。

1.2 比对

调用Bismark-v0.19 .0将去接头后的每一对FASTQ文件都作为配对读段比对到hg19人类参考基因组序列和Lambda DNA参考基因组序列，生成初始Bam文件。

1.3去重

调用Bismark-v0.19.0的deduplicate模块，对初始Bam文件进行去重复处理，生成去重后的Bam文件。

三、模型预测：

选用780个癌症血浆样本（包括其中乳腺癌BRCA66个样本，结直肠癌COREAD150个样本，食管癌ESCA61个样本，肝癌LIHC113个样本，非小细胞肺癌NSCLC157个样本，胰腺癌PACA119个样本，胃癌STAD114个样本，各癌种包括临床分期I期到IV期不等）建立随机森林模型，并将样本随机分成训练集和测试集，其中，训练集542个样本，验证集238个样本。在对癌症血浆样本进行ATAC-seq测序后，提取18个cluster（对应18个ATAC-seq区域簇）的测序数据，并分别统计各cluster测序数据的长插入片段数量、短插入片段数量和甲基化位点占比，共54个特征。使用留一法交叉验证，对于训练集不同癌种得到的预测结果和预测准确性如表7~9所示，对于测试集，其中乳腺癌的准确性为0.4375，肺癌的准确性为0.807692，肝和胰腺癌的准确性为0.641509（对应表9中的Hepatopancreas），消化道癌种（食管癌、胃癌、胰腺癌、结直肠癌）的准准确性为0.666667（对应表9中的Digestive），整合模型的平均准确性为0.638342。

表7：训练集模型预测结果

表8：测试集模型预测结果

表9：模型的预测准确性

相对应的，本发明还提供了一种基于cfDNA多组学的多分类装置，如图7所示，多分类装置100包括：数据获取模块110，用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据，并从中进一步获取预设ATAC-seq区域簇的测序数据，每个ATAC-seq区域簇对应一类别的特征区域；数量统计模块120，用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量；多分类模块130，用于将统计得到的长插入片段数量和短插入片段数量输入预先训练的多组学分类模型中进行分类，得到待测血浆样本所属的类别。

在本实施例中，ATAC-seq区域簇的选定、长插入片段阈值区间（169bp~240bp）和短插入片段阈值区间（100bp~166bp）的确定方式均与前述实施例相同，这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量之后，还包括针对每个ATAC-seq区域簇的长插入片段数量和短插入片段数量分别进行矫正的模块，用于对统计的长插入片段数量和短插入片段数量进行z-score标准化和归一化，其中，z-score标准化中，采用式(1)对长插入片段数量或短插入片段数量计算z-score值；归一化步骤中，采用式(2)对z-score标准化后的数据进行处理得到r值。多组学分类模型可以选用cforest（条件随机森林）、svmLinear（线性核支持向量机）、LogitBoost（一种使用逻辑回归方法作为损失函数的梯度下降算法）、gbm（Gradient Boosting Machine，梯度提升机）及Ensemble（集成学习）等模型进行建模，并预先基于从癌症血浆样本中统计的长插入片段数量和短插入片段数量对其进行训练得到模型结构及网络参数，用于后续对待测血浆样本进行分类。

在该多分类装置中，还包括用于对预设ATAC-seq区域簇测序数据的性能表现进行验证的性能验证模块，包括：数据获取单元，用于获取基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度全基因组测序得到的测序数据，并从中进一步获取预设ATAC-seq区域簇的测序数据；癌症患者血浆样本包括多类型癌种的血浆样本；数量统计模块，用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量；检验单元，用于基于统计的长插入片段数量和短插入片段数量使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。

本发明的另一实施例，一种基于cfDNA多组学的多分类装置，包括：数据获取模块，用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据，并从中进一步获取预设ATAC-seq区域簇的测序数据，每个ATAC-seq区域簇对应一类别的特征区域；甲基化位点占比计算模块，用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比，如式(3)；多分类模块，用于将将计算得到的甲基化位点占比输入预先训练的多组学分类模型中进行分类，得到待测血浆样本所属的类别。

在本实施例中，ATAC-seq区域簇的选定方式与前述实施例相同，这里不做赘述。在统计得到各ATAC-seq区域簇测序数据的甲基化位点占比之后，还包括针对每个ATAC-seq区域簇的甲基化位点占比分别进行矫正的步骤，包括如式(1)z-score标准化和如式(2)归一化，其中，待标准化数据为甲基化位点占比。多组学分类模型可以选用cforest（条件随机森林）、svmLinear（线性核支持向量机）、LogitBoost（一种使用逻辑回归方法作为损失函数的梯度下降算法）、gbm（Gradient Boosting Machine，梯度提升机）及Ensemble（集成学习）等模型进行建模，并预先基于从癌症血浆样本中统计的甲基化位点占比对其进行训练得到模型结构及网络参数，用于后续对待测血浆样本进行分类。

该多分类装置中，还包括用于对预设ATAC-seq区域簇测序数据的性能表现进行验证的性能验证模块，包括：数据获取单元，基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据；癌症患者血浆样本包括多类型癌种的血浆样本；甲基化位点占比计算单元，用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；检验单元，用于基于统计的甲基化位点占比使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。

本发明的另一实施例，一种基于cfDNA多组学的多分类装置，包括：数据获取模块，用于获取基于ATAC-seq技术对待测血浆样本进行超低深度全基因组测序得到的测序数据，并从中进一步获取预设ATAC-seq区域簇的测序数据，每个ATAC-seq区域簇对应一类别的特征区域；数量统计模块，用于基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量；甲基化位点占比计算模块，用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比，如式(3)；多分类模块，用于将统计得到的长插入片段数量、短插入片段数量及甲基化位点占比输入预先训练的多组学分类模型中进行分类，得到待测血浆样本所属的类别。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图8本发明一个实施例中提供的终端设备的结构示意图，如图所示，终端设备210终端设备包括：存储器211、处理器213以及存储在存储器211中并可在处理器213执行计算机程序212时实现上述基于cfDNA多组学的多分类方法实施例中的步骤，或者，处理器213执行计算机程序212现上述基于cfDNA多组学的多分类装置实施例中各模块的功能。

终端设备210可以为笔记本、平板型计算机、手机等设备。但不仅限于处理器213、存储器211。本领域技术人员可以理解，图8仅仅是终端设备210的示例，并不构成对终端设备210的限定可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如：终端设备210还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器213可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)等。通用处理器213可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器211可以是终端设备210的内部存储单元，例如：终端设备210的硬盘或内存。存储器211也可以是终端设备210的外部存储设备，例如：终端设备210上配备的插接式硬盘，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器211还可以既包括终端设备210的内部存储单元也包括外部存储设备。存储器211用于存储计算机程序212以及终端设备210所需要的其他程序和数据。存储器211还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其他的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序212发送指令给相关的硬件完成，计算机程序212可存储于一计算机可读存储介质中，该计算机程序212在被处理器213执行时，可实现上述各个方法实施例的步骤。其中，计算机程序212包括：计算机程序代码，计算机程序代码可以为源代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序212代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。

应当说明的是，上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通相关人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于cfDNA多组学的多分类方法，其特征在于，包括：

2.如权利要求1所述的多分类方法，其特征在于，在所述基于预先配置的长插入片段阈值区间和短插入片段阈值区间分别统计每个ATAC-seq区域簇测序数据的长插入片段数量和短插入片段数量中，所述长插入片段阈值区间为169bp~240bp，所述短插入片段阈值区间为100bp~166bp。

3.如权利要求1或2所述的多分类方法，其特征在于，所述基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据之前，还包括对预设ATAC-seq区域簇测序数据的性能表现进行验证的步骤，包括：

基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据；所述癌症患者血浆样本包括多类型癌种的血浆样本；

基于统计的长插入片段数量和短插入片段数量使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。

4.一种基于cfDNA多组学的多分类方法，其特征在于，包括：

分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i个 ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化 CpG位点的数量；

5.如权利要求4所述的多分类方法，其特征在于，所述基于ATAC-seq技术对待测血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据之前，还包括对预设ATAC-seq区域簇测序数据的性能表现进行验证的步骤，包括：

分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；

基于统计的甲基化位点占比使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。

6.一种基于cfDNA多组学的多分类方法，其特征在于，包括：

分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i个 ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化 CpG位点的数量；

7.一种基于cfDNA多组学的多分类装置，其特征在于，包括：

8.如权利要求7所述的多分类装置，其特征在于，所述数量统计模块中，所述长插入片段阈值区间为169bp~240bp，所述短插入片段阈值区间为100bp~166bp。

9.如权利要求7或8所述的多分类装置，其特征在于，所述多分类装置中，还包括用于对预设ATAC-seq区域簇测序数据的性能表现进行验证的性能验证模块，包括：

数据获取单元，用于获取基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度全基因组测序得到的测序数据，并从中进一步获取预设ATAC-seq区域簇的测序数据；所述癌症患者血浆样本包括多类型癌种的血浆样本；

检验单元，用于基于统计的长插入片段数量和短插入片段数量使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。

10.一种基于cfDNA多组学的多分类装置，其特征在于，包括：

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i个 ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化 CpG位点的数量；

11.如权利要求10所述的多分类装置，其特征在于，所述多分类装置中，还包括用于对预设ATAC-seq区域簇测序数据的性能表现进行验证的性能验证模块，包括：

数据获取单元，基于ATAC-seq技术分别对健康血浆样本和癌症患者血浆样本进行超低深度的全基因组测序，并获取预设ATAC-seq区域簇的测序数据；所述癌症患者血浆样本包括多类型癌种的血浆样本；

甲基化位点占比计算单元，用于分别计算每个ATAC-seq区域簇测序数据的甲基化位点占比；

检验单元，用于基于统计的甲基化位点占比使用秩和单边检验方法对癌症患者血浆样本对应癌种的特征显著性进行检验。

12.一种基于cfDNA多组学的多分类装置，其特征在于，包括：

其中，

表示第i个ATAC-seq区域簇的甲基化位点占比，

表示第i个 ATAC-seq区域簇中所有CpG位点的数量，

表示第i个ATAC-seq区域簇中甲基化 CpG位点的数量；

13.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时实现如权利要求1-6任意一项所述的基于cfDNA多组学的多分类方法的步骤。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的基于cfDNA多组学的多分类方法的步骤。