CN116312774B

CN116312774B - 基于cfDNA的癌症预测模型及其构建方法和应用

Info

Publication number: CN116312774B
Application number: CN202310575289.9A
Authority: CN
Inventors: 崔新; 吕芳; 聂佩瑶; 李宇龙; 洪媛媛; 杨滢; 黄宇; 陈维之; 杜波
Original assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Precision Medical Laboratory Co ltd; Zhenhe Beijing Biotechnology Co ltd
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2024-03-15
Anticipated expiration: 2043-05-22
Also published as: CN116312774A

Abstract

本申请公开了一种基于cfDNA的癌症预测模型及其构建方法和应用，属于医学检测技术领域。该模型构建方法是：利用收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度计算染色质开放区域内的方向特异cfDNA片段值（orientation‑aware cfDNA fragmentation value，OCF值），利用阳性样本和对照样本的OCF值进行机器学习训练和预测模型的构建。上述构建方法或者构建的预测模型可用于癌症预测，如制造癌症预测装置、设备和存储介质等，从而能对患者患有癌症的概率给出预测。本申请能够使用受试者血浆cfDNA全基因测序数据，而无需组织穿刺等侵入性检测方法，预测受试者患有癌症的概率。

Description

基于cfDNA的癌症预测模型及其构建方法和应用

技术领域

本申请属于医学检测技术领域，具体涉及基于cfDNA的癌症预测模型及其构建方法和应用。

背景技术

癌症是影响人类健康与寿命的主要疾病，现已成为全球重要的公共卫生问题之一。国家癌症中心公布的2016年全国癌症报告显示，2016年癌症新发病例406.4万，总死亡人数241.4万，整体发病率呈上升趋势，恶性肿瘤的死亡数持续上升。目前手术切除和辅助治疗是癌症的主要治疗方式，但是仍有一定比例的患者会出现肿瘤复发，例如肺癌I期、II期和III期的五年复发率分别为21%、36%和55%；胰腺癌的年标准化率（每10万人的年发病率或死亡率）分别为3.9和3.7，其发病率几乎等于其死亡率。胰腺癌的5年生存率不到8%，可行根治性手术的胰腺癌患者较未行手术者预后有显著差异，单纯的手术治疗仅能将胰腺癌5年生存率提高至10%左右。癌症预后不佳的原因有多种，例如大多数患者在确诊时已经处于晚期；手术后复发、转移的概率仍然极高。

肿瘤早期诊断是有效提高肿瘤预后的最重要手段之一。目前临床上主要采用影像、内镜、肿瘤标志物等对肿瘤进行早期筛查，然而其发现早期肿瘤的敏感性仍不够理想。相较于组织活检，液体活检的优势在于非侵入性、可重复性地获得肿瘤样本，其副作用小、操作简便、成本较低、检测速度快，在减小了肿瘤异质性对诊断造成的偏差的同时，也能及时地反应肿瘤发展的动态变化；其临床适应症也极为广泛，如常见的肺癌、乳腺癌、前列腺癌、结直肠癌、胃癌、肝癌、胰腺癌等肿瘤均可用液体活检进行诊断与监测。液体活检作为体外诊断的重要分支，通过捕获和检测体液（主要是血液）中的生物标记物来诊断和监测肿瘤等疾病，常见的生物标志物包括循环肿瘤细胞（CTC）、循环游离DNA（cfDNA）、循环肿瘤DNA（ctDNA）和肿瘤细胞来源的外泌体。其中，cfDNA通过肿瘤细胞凋亡、坏死、肿瘤细胞活性分泌等不同机制在血流中持续释放，cfDNA来源于癌细胞时，称为循环肿瘤DNA (ctDNA)。ctDNA的浓度水平与癌症的阶段和肿瘤大小有关，晚期癌症患者ctDNA浓度较高。虽然液体活检作为一种早期癌症检测的手段，其前景十分可观，但仍需进一步的研究和开发。比如血浆cfDNA全基因组测序中ctDNA含量低、测序深度低，也影响着液体活检的诊断效果。

多项研究表明cfDNA片段化模式与细胞内的体内基因调控图谱密切相关，如核小体定位和基因表达，这表明可以从cfDNA片段化模式推断细胞内表观基因组和转录组的状态。因此需要一种能够有效利用cfDNA片段化信息，在低深度测序（平均测序深度1×）下仍能保证较好预测效果的方法。

在真核染色质中，核小体是染色质折叠结构的基本单位，由包裹在组蛋白上的DNA片段组成，核小体通常通过相对较短的连接子DNA相互连接。在需要与基因调控元件结合时，需要将折叠结构展开以方便调控原件结合到DNA上。cfDNA分子中很大一部分由凋亡的细胞释放，在释放DNA片段过程中，内切酶倾向于切割核间体DNA。因此，当cfDNA分子进行测序时，包裹在组蛋白上的DNA被保存下来，而来自连接子和染色质开放区域的DNA，由于相对不受保护，会被切割成小片段，所以可能无法进行有效测序。因此，cfDNA的基因组覆盖度在核小体区域较高，而在连接子和染色质开放区域中较低。同时，在核小体5’-3’端连接的部分，cfDNA片段的5’端方向的末端覆盖度和3’端末端覆盖度较高。而在开放染色质区域的5’-3’端起始和结束位置，cfDNA片段的3’端方向的末端覆盖度和5’端末端覆盖度较高。

发明内容

1. 发明目的

本申请的目的在于提供一种基于cfDNA的癌症预测模型及其构建方法和应用，其构建方法是：利用预先收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度计算染色质开放区域内的方向特异cfDNA片段值（orientation-aware cfDNAfragmentation value，OCF值），利用阳性样本和对照样本的OCF值进行机器学习训练和预测模型的构建。将上述构建方法或者构建的预测模型用于癌症预测，如制造癌症预测装置、设备和存储介质等，从而能对患者患有癌症的概率给出预测。

2. 技术方案

为了解决上述问题，本申请所采用的技术方案如下：

作为本申请的第一方面，本申请提供了一种基于cfDNA的癌症预测模型的构建方法，该方法基于染色质开放区域内的方向特异cfDNA片段值（OCF值），具体包括如下步骤：

S1：获取阳性样本和对照样本的血浆cfDNA全基因组测序数据，并比对到人类参考基因组获得片段信息文件；

S2：收集染色质开放区域：染色质开放区域收集自公共数据库，包括以下一种或多种：

（1）504组转录因子结合位点区域，从转录因子调控数据库GTRD（版本18.01）下载共计共504个转录因子，其提供了基于ChIP-seq数据的各种组织样本的详细的转录因子结合位点信息，由于每个转录因子中可能存在大量的结合位点，因此结合ChIP-seq数据根据结合位点区域的Peak值，对结合位点区域的坐标进行调整，使得结合位点区域大小在2 kb，并根据Peak值的大小选取Peak最高的1000个结合位点区域，

（2）基于ATAC-seq的组织特异染色质开放区域，从FinaleDB数据库中收集了人体9个不同组织（B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃）的ATAC-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1 kb，共有9×2000个ATAC组织特异染色质开放区域，

（3）基于Dnase-seq的组织特异染色质开放区域，从FinaleDB数据库中收集了人体9个不同组织（B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞）的Dnase-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1 kb，共有9×2000个ATAC组织特异染色质开放区域；

S3：染色质开放区域上、下游末端覆盖度计算：将S1中片段信息文件比对至S2中收集的染色质开放区域，获得比对至染色质开放区域的序列；对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合位点区域，计算每个2 kb区域内的相对位置末端覆盖度，相对位置从-1000到999共2000个位置，相对位置0对应推测的染色质开放区域中心或转录因子结合位点，cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1，cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1；计算完单个长为2 kb区域的相对位置上游和/或下游覆盖度后，将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域，按照相对位置对齐，叠加每个相对位置的上游和下游覆盖度，对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理；

S4：计算染色质开放区域内的方向特异cfDNA片段值（OCF值）：根据cfDNA在染色质开放区域的覆盖度模式，对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算OCF值：

，

式中，D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度，U表示归一化处理后的相对位置上游方向覆盖度，OCF值的高低则反映了这组区域上的染色质开放程度的大小；

S5：以染色质开放区域的OCF值作为特征，进行数据归一化处理和主成分分析，选择阳性样本和对照样本中有显著差异的OCF值，使用支持向量机构建癌症预测模型。

进一步地，上述S1包括：获取阳性样本和对照样本的血浆cfDNA全基因组测序数据后，还包括对血浆cfDNA全基因组测序数据进行质控和过滤处理，并将过滤后的序列比对到参考基因组，获得片段信息文件。

进一步地，获得片段信息文件包括：根据双端测序数据中的序列1和序列2，以及其比对到参考基因组上坐标，计算其片段长度，以及片段比对到参考基因组上的起始位置和结束位置，生成序列的片段信息文件。

进一步地，上述进行质控和过滤处理包括：对测序数据进行去接头、截断末端序列低质量碱基，生成过滤后的FASTQ文件。

进一步地，上述质控和过滤处理后的序列比对到参考基因组后，对生成的BAM文件中的序列根据序列比对质量、序列碱基平均碱基质量、GC含量、N含量、序列长度进行筛选。

进一步地，上述S3中，S1中片段信息文件与S2中收集的染色质开放区域文件的比对，是使用Bedtools v2.27.1的intersect模块，输入片段信息文件和染色质开放区域文件进行比对。

作为本申请的第二方面，本申请提供了一种基于cfDNA的构建癌症预测模型的装置，该装置包括：

数据接收模块，其被配置为用于获取阳性样本和对照样本的血浆cfDNA全基因组测序数据，并比对到人类参考基因组获得片段信息文件；

覆盖度计算模块，其被配置为用于计算预先收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度，并进行归一化处理，其中：

预先收集的染色质开放区域，包括以下一种或多种：（1）504组转录因子结合位点区域，从转录因子调控数据库GTRD（版本18.01）下载共计504个转录因子，其提供了基于ChIP-seq数据的各种组织样本的详细的转录因子结合位点信息，由于每个转录因子中可能存在大量的结合位点，因此结合ChIP-seq数据根据结合位点区域的Peak值，对结合位点区域的坐标进行调整，使得结合位点区域大小在2 kb，并根据Peak值的大小选取Peak最高的1000个结合位点区域，（2）基于ATAC-seq的组织特异染色质开放区域，从FinaleDB数据库中收集了人体9个不同组织（B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃）的ATAC-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域，染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1kb，共有9×2000个ATAC组织特异染色质开放区域，（3）基于Dnase-seq的组织特异染色质开放区域，从FinaleDB数据库中收集了人体9个不同组织（B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞）的Dnase-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1 kb，共有9×2000个ATAC组织特异染色质开放区域，

覆盖度计算和归一化处理包括：将数据接收模块接收中片段信息文件比对至收集的染色质开放区域文件，获得比对至染色质开放区域的序列；对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合位点区域，计算每个2 kb区域内的相对位置末端覆盖度，相对位置从-1000到999共2000个位置，相对位置0对应推测的染色质开放区域中心或转录因子结合位点，cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1，cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1；计算完单个长为2 kb区域的相对位置上游和/或下游覆盖度后，将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域，按照相对位置对齐，叠加每个相对位置的上游和下游覆盖度，对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理；

OCF值计算模块，其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值，根据cfDNA在染色质开放区域的覆盖度模式，对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算OCF值：

，

式中，D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度，U表示归一化处理后的相对位置上游方向覆盖度；

癌症预测模型构建模块，用于以OCF值计算模块计算的多个染色质开放区域的OCF值作为特征，依次进行数据归一化处理、主成分分析后选择阳性样本和对照样本中有显著差异的OCF值，使用支持向量机构建癌症预测模型。

进一步地，上述一种基于cfDNA的构建癌症预测模型的装置，数据接受模块可以包括：

cfDNA全基因组测序数据接收模块，其被配置为用于接收阳性样本和对照样本的血浆cfDNA全基因组测序数据；

序列预处理模块，其被配置为用于对测序数据中的序列进行质控和过滤处理，并将过滤后的序列比对到参考基因组，获得片段信息文件。

作为本申请的第三方面，本申请提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面所描述的基于cfDNA的癌症预测模型的构建方法。

作为本申请的第四方面，本申请提供了一种计算机存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述第一方面所描述的基于cfDNA的癌症预测模型的构建方法。

作为本申请的第五方面，本申请提供了上述基于cfDNA的癌症预测模型的构建方法构建的癌症预测模型。

作为本申请的第六方面，本申请提供了上述基于cfDNA的癌症预测模型、上述基于cfDNA的癌症预测模型的构建方法、上述基于cfDNA的构建癌症预测模型的装置、上述电子设备和上述计算机存储介质在癌症预测中的应用。

作为本申请的第七方面，本申请提供了上述基于cfDNA的癌症预测模型、上述基于cfDNA的癌症预测模型的构建方法、上述基于cfDNA的构建癌症预测模型的装置、上述电子设备和上述计算机存储介质在制备癌症预测装置中的应用。

作为本申请的第八方面，本申请提供了一种癌症预测装置，包括：

数据接收模块，其被配置为用于接收待测样本的血浆cfDNA全基因组测序数据；

序列预处理模块，其被配置为用于对测序数据中的序列进行质控和过滤处理，并将过滤后的序列比对到参考基因组；

覆盖度计算模块，其被配置为用于计算染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度，并进行归一化处理；

OCF值计算模块，其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值；

预测模块，其被配置为使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率，该机器学习模型为上述任一基于cfDNA的癌症预测模型。

进一步地，上述一种癌症预测装置，还包括结果输出模块，输出预测模块中预测的患有癌症的概率。

作为本申请的第九方面，本申请提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第八方面所描述的使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率。

作为本申请的第十方面，本申请提供了一种计算机存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述第八方面所描述的使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率。

3. 有益效果

本申请与现有技术相比，其有益效果在于：

（1）本申请提供了一种基于cfDNA的癌症预测模型及其构建方法和应用，利用收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度计算染色质开放区域内的方向特异cfDNA片段值（orientation-aware cfDNA fragmentation value，OCF值），利用阳性样本和对照样本的OCF值进行机器学习训练和预测模型的构建，利用了cfDNA片段末端覆盖度和基因调控活动联系起来的统计量OCF值，在染色质展开折叠结构与调控元件结合的区域，该区域的OCF值较高。

（2）本申请提供了一种基于cfDNA的癌症预测模型及其构建方法和应用，从公共数据库中收集到了504个转录因子的504×1000个转录因子结合位点和基于ATAC-seq和DNANase-seq的组织特异染色质开放区域，根据这些区域的染色质开放程度不同，可以区分癌症和健康人。

（3）本申请提供了一种基于cfDNA的癌症预测模型及其构建方法和应用，提供了一种无需组织穿刺等侵入性检测，仅利用血浆cfDNA测序数据预测受试者患有癌症概率的装置，在泛癌种数据上具有较好的分类效果。

附图说明

图1为本发明实施例1中的数据处理和分析流程示意图。

图2为本发明实施例1中模型在训练集上预测结果的ROC曲线和AUC值。

图3为本发明实施例1中模型在测试集上预测结果的ROC曲线和AUC值。

图4本发明癌症预测装置的模块示意图。

具体实施方式

下面结合具体实施例对本申请进一步进行描述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例中未注明具体条件者，按照常规条件或制造商提供的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如本文所使用，术语“约”用于提供与给定术语、度量或值相关联的灵活性和不精确性。本领域技术人员可以容易地确定具体变量的灵活性程度。

如本文所使用，术语“......中的至少一个”旨在与“......中的一个或多个”同义。例如，“A、B和C中的至少一个”明确包括仅A、仅B、仅C以及它们各自的组合。

浓度、量和其他数值数据可以在本文中以范围格式呈现。应当理解，这样的范围格式仅是为了方便和简洁而使用，并且应当灵活地解释为不仅包括明确叙述为范围极限的数值，而且还包括涵盖在所述范围内的所有单独的数值或子范围，就如同每个数值和子范围都被明确叙述一样。例如，约1至约4.5的数值范围应当被解释为不仅包括明确叙述的1至约4.5的极限值，而且还包括单独的数字（诸如2、3、4）和子范围（诸如1至3、2至4等）。相同的原理适用于仅叙述一个数值的范围，诸如“小于约4.5”，应当将其解释为包括所有上述的值和范围。此外，无论所描述的范围或特征的广度如何，都应当适用这种解释。

实施例1

本实施例提供基于cfDNA的癌症预测模型的构建方法及模型训练和验证，其流程如图1所示，具体包括如下步骤：

样本收集：本实施例中回顾性地选取497例无癌症史的健康人血浆以及780例不同分期的多癌种癌症患者的血浆，患者的癌症种类包括了乳腺癌、结直肠癌、食管癌、胃癌、肝癌、肺癌和胰腺癌，并随机地按照7：3的比例分为训练集和测试集。其中训练集共有健康人和癌症共894例样本，包括了352例健康人及542例癌症患者（46例乳腺癌，105例结直肠癌，42例食管癌，78例胃癌，78例肝癌，110例肺癌，83例胰腺癌），测试集包括了共383例健康人和癌症样本，其中包括145例健康人和238例癌症患者（20例乳腺癌，45例结直肠癌，19例食管癌，36例胃癌，35例肝癌，47例肺癌，36例胰腺癌）。

文库构建：使用甲基化文库构建试剂盒NEBNext Enzymatic Methyl seq Kit（NEB，cat#E7120），以5-30 ng 血浆cfDNA起始量，通过TET2酶使5-甲基胞嘧啶（5-mC）转化为5-甲酰胞嘧啶（5-fC）和5-羧基胞嘧啶（5-caC），并且通过APOBEC酶，使非甲基化胞嘧啶（C）脱氨转化为尿嘧啶（U），然后进行扩增建库。

文库测序：取100 ng上述文库加入10% PhiX DNA（Illumina cat#FC-110-3001）混合成上机样品，在Novaseq 6000（Illumina）平台进行PE100测序。

测序数据质控、过滤和比对：（1）调用Trimmomatic-0.36将每一对FASTQ文件都作为配对序列（paired reads）进行去除接头，之后切去剩余部分开头和结尾处碱基质量低于20的碱基，从reads的5’端开始，以大小为5的窗口进行划窗计算平均质量，如果窗口内平均碱基质量低于20，则切除该窗口，并要求切除后剩余碱基数量超过75，生成去接头后的FASTQ文件；（2）调用Bismark-v0.19.0将经过质控处理的FASTQ文件比对到参考基因组上，生成初始BAM文件；（3）调用Bismark-v0.19.0的deduplicate模块，对初始BAM文件进行去重复处理，生成去重后的BAM文件；（4）调用SAMtools-1.3的sort模块，对去重后的BAM文件进行排序，生成排序后的BAM文件；调用Picard-2.1.0的AddOrReplaceReadGroups模块，对排序的BAM文件进行标记分组；（5）调用BamUtil-1.0.14的clipOverlap模块对标记分组后的BAM文件进行筛选，去除配对序列中的重叠部分，并调用SAMtools-1.3 view对去除重合部分的序列的BAM文件的比对质量进行过滤，去除比对质量低于20的序列，完成该步骤后，统计每条序列中非甲基化位点中C碱基的转化率，剔除转化率低于95%的序列，并输出到最终的BAM文件中；（6）调用SAMtools-1.3的index模块对最终生成的BAM文件建立索引，生成与最终BAM文件配对的bai文件。

染色质开放区域收集：染色质开放区域收集自公共数据库，包括：（1）504组转录因子结合位点，从转录因子调控数据库GTRD（版本18.01）下载到共504个转录因子，其提供了基于ChIP-seq数据的各种组织样本的详细的转录因子结合位点信息；由于每个转录因子中可能存在大量的结合位点，因此结合ChIP-seq数据根据结合位点区域的Peak值，对区域的坐标进行了调整，使得区域大小在2 kb；并根据Peak值的大小选取Peak最高的1000个结合位点区域；（2）基于ATAC-seq的组织特异区域，从FinaleDB数据库中收集了人体9个不同组织（B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃）的ATAC-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域，以染色质开放区域中心，分别向基因组上游和基因组下游各延伸1 kb，共有9×2000个ATAC组织特异染色质开放区域；（3）基于Dnase-seq的组织特异区域，从FinaleDB数据库中收集了人体9个不同组织（B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞）的Dnase-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域，以染色质开放区域中心，分别向基因组上游和基因组下游各延伸1kb，共有9×2000个ATAC组织特异染色质开放区域。

染色质开放区域内的上、下游末端覆盖度计算：（1）从最终BAM文件中，根据序列1和序列2的比对信息确定cfDNA片段的插入长度和比对到基因组上的坐标，结果输入到cfDNA片段信息文件；（2）使用Bedtools v2.27.1的intersect模块，输入cfDNA片段信息文件和染色质开放区域文件，获得比对到每个组织特异染色质开放区域和每个转录因子结合区域的序列；（3）对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合区域，计算每个2 kb区域内的相对位置末端覆盖度，相对位置从-1000到999共2000个位置，相对位置0对应推测的染色质开放区域中心或转录因子结合位点；cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1，cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1；（4）计算完单个长为2 kb区域的相对位置上游或下游覆盖度后，将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合区域，按照相对位置对齐，叠加每个相对位置的上游和下游覆盖度，对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理。

计算染色质开放区域内的方向特异cfDNA片段值（OCF值）：根据每组组织特异区域和/或每个转录因子的转录结合区域内的相对位置上游覆盖度和下游覆盖度使用如下公式计算方向OCF值：

，

式中，D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度，U表示归一化处理后的相对位置上游方向覆盖度；对每组染色质开放区域分别计算OCF值，每例样本计算得到522个染色质开放区域的OCF值。

主成分分析：对训练集的共894例健康人和癌症数据使用Z-score方法进行去中心化处理；对每个染色质开放区域的OCF值计算其在训练集上的均值和标准差，然后用该区域的OCF值减去均值后除以标准差；调用python Scikit-learn(0.23.0)中实现的PCA模块，对进行过标准化处理的训练集数据进行PCA主成分分析，选择总方差占比大于等于95%的成分，输入为894×522维矩阵，输出为894×340维矩阵。

模型构建：在训练集中使用5折交叉验证，依次将数据集划分成5份，随机选择其中的4份作为训练集用于构建分类模型，剩余的1份作为验证集数据进行验证，重复上面的过程，得到整个训练集的预测结果并绘制ROC曲线。根据验证集数据上的AUC值，通过随机搜索的方式进行超参数搜索。使用python Scikit-learn(0.23.0)实现的支持向量机算法，对训练集进行建模。

结果：在训练集上的AUC为0.94（图2），在测试集上的AUC值为0.88（图3）。

实施例2

本实施例提供了一种基于cfDNA的构建癌症预测模型的装置，该装置包括：

覆盖度计算模块，其被配置为用于计算预先收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度，并进行归一化处理；其中：

预先收集的染色质开放区域，包括：（1）504组转录因子结合位点区域，从转录因子调控数据库GTRD（版本18.01）下载共计共504个转录因子，其提供了基于ChIP-seq数据的各种组织样本的详细的转录因子结合位点信息，由于每个转录因子中可能存在大量的结合位点，因此结合ChIP-seq数据根据结合位点区域的Peak值，对结合位点区域的坐标进行调整，使得结合位点区域大小在2 kb，并根据Peak值的大小选取Peak最高的1000个结合位点区域，（2）基于ATAC-seq的组织特异染色质开放区域，从FinaleDB数据库中收集了人体9个不同组织（B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃）的ATAC-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1 kb，共有9×2000个ATAC组织特异染色质开放区域，（3）基于Dnase-seq的组织特异染色质开放区域，从FinaleDB数据库中收集了人体9个不同组织（B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞）的Dnase-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2 kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1 kb，共有9×2000个ATAC组织特异染色质开放区域；

覆盖度计算和归一化处理包括：将数据接收模块接收的片段信息文件比对至收集的染色质开放区域文件，获得比对至染色质开放区域的序列；对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合位点区域，计算每个2 kb区域内的相对位置末端覆盖度，相对位置从-1000到999共2000个位置，相对位置0对应推测的染色质开放区域中心或转录因子结合位点，cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1，cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1；计算完单个长为2 kb区域的相对位置上游和/或下游覆盖度后，将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域，按照相对位置对齐，叠加每个相对位置的上游和下游覆盖度，对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理；

OCF值计算模块，其被配置为使用经过归一化处理的序列上游和下游末端覆盖度计算OCF值，根据cfDNA在染色质开放区域的覆盖度模式，对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算方向OCF值：

,

实施例3

一种癌症预测装置，如图4所示，包括：

预测模块，其被配置为使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率，该机器学习模型为实施例1或实施例2中种构建的基于cfDNA的癌症预测模型。

Claims

1.一种基于cfDNA的癌症预测模型的构建方法，其特征在于，所述方法基于染色质开放区域内的方向特异cfDNA片段值，所述癌症包括乳腺癌、结直肠癌、食管癌、胃癌、肝癌、肺癌和胰腺癌，具体包括如下步骤：

S2：将S1中的片段信息文件与预设的染色质开放区域文件进行比对，计算染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度，

所述预设的染色质开放区域包括如下多种：

(1)504组转录因子结合位点区域，收集方法包括：从转录因子调控数据库GTRD下载共计共504个转录因子，结合ChIP-seq数据根据结合位点区域的Peak值，对结合位点区域的坐标进行调整，使得结合位点区域大小在2kb，并根据Peak值的大小选取Peak最高的1000个结合位点；

(2)基于ATAC-seq的组织特异染色质开放区域，收集方法包括：从FinaleDB数据库中收集了人体B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃的9个不同组织的ATAC-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1kb，共有9×2000个ATAC组织特异染色质开放区域；

(3)基于Dnase-seq的组织特异染色质开放区域，收集方法包括：从FinaleDB数据库中收集了人体B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃的9个不同组织的Dnase-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1kb，共有9×2000个ATAC组织特异染色质开放区域；

所述染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度计算包括：将S1中片段信息文件比对至S2中收集的染色质开放区域文件，获得比对至染色质开放区域的序列；对每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域，计算每个2kb区域内的相对位置末端覆盖度，相对位置从-1000到999共2000个位置，相对位置0对应推测的染色质开放区域中心或转录因子结合位点，cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1，cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1；计算完单个长为2kb区域的相对位置上游和/或下游覆盖度后，将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域，按照相对位置对齐，叠加每个相对位置的上游和下游覆盖度，对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理；

S3：根据S2中染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度，计算染色质开放区域内的方向特异cfDNA片段值；

S4：根据S3中多个染色质开放区域内的方向特异cfDNA片段值，进行数据归一化处理和主成分分析，选择阳性样本和对照样本中有显著差异的OCF值，使用支持向量机构建癌症预测模型；

所述S3染色质开放区域内的方向特异cfDNA片段值计算包括：

对每组组织特异区域和/或每个转录因子的转录结合位点区域内的相对位置覆盖度使用如下公式计算方向特异cfDNA片段值：

式中，OCF值表示方向特异cfDNA片段值，D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度，U表示归一化处理后的相对位置上游方向覆盖度。

2.一种基于cfDNA的构建癌症预测模型的装置，其特征在于，所述装置包括：

数据接收模块，其被配置为用于获取阳性样本和对照样本的血浆cfDNA全基因组测序数据，并比对到人类参考基因组获得片段信息文件；覆盖度计算模块，其被配置为用于计算预先收集的染色质开放区域内的序列上游末端覆盖度和序列下游末端覆盖度，并进行归一化处理；其中：

预先收集的染色质开放区域，包括以下一种或多种：

(1)504组转录因子结合位点区域，收集方法包括：从转录因子调控数据库GTRD下载共计共504个转录因子，结合ChIP-seq数据根据结合位点区域的Peak值，对结合位点区域的坐标进行调整，使得结合位点区域大小在2kb，并根据Peak值的大小选取Peak最高的1000个结合位点，

(2)基于ATAC-seq的组织特异染色质开放区域，从FinaleDB数据库中收集了人体B淋巴细胞、脑组织、结肠、心脏、白细胞、肝组织、肺组织、皮肤组织和胃9个不同组织的ATAC-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1kb，共有9×2000个ATAC组织特异染色质开放区域，

(3)基于Dnase-seq的组织特异染色质开放区域，从FinaleDB数据库中收集了人体B淋巴细胞、脑组织、纤维母细胞、肝组织、肺组织、骨髓细胞、小肠细胞、胃和T淋巴细胞9个不同组织的Dnase-seq测序数据，每组组织特异染色质开放区域包含2000个长度为2kb人类参考基因组区域，以染色质开放区域中心为起点，分别向基因组上游和基因组下游各延伸1kb，共有9×2000个ATAC组织特异染色质开放区域；

覆盖度计算和归一化处理包括：将数据接收模块接收的片段信息文件比对至收集的染色质开放区域文件，获得比对至染色质开放区域的序列；对每组2000个组织特异染色质开放区域和/或1个转录因子对应的1000个转录因子结合位点区域，计算每个2kb区域内的相对位置末端覆盖度，相对位置从-1000到999共2000个位置，相对位置0对应推测的染色质开放区域中心或转录因子结合位点，cfDNA片段的比对到参考基因组的5’端对应的区域内相对位置的上游覆盖度加1，cfDNA片段比对到参考基因组的3’端对应的区域内相对位置的下游覆盖度加1；计算完单个长为2kb区域的相对位置上游和/或下游覆盖度后，将每组2000个组织特异染色质开放区域和/或每个转录因子对应的1000个转录因子结合位点区域，按照相对位置对齐，叠加每个相对位置的上游和下游覆盖度，对每个相对位置的上游覆盖度和下游覆盖度除以该组区域的所有相对位置覆盖度的总和进行归一化处理；

式中，D表示每组组织特异区域和/或每个转录因子的转录结合区域内的经过归一化处理后的相对位置下游方向覆盖度，U表示归一化处理后的相对位置上游方向覆盖度；癌症预测模型构建模块，用于以OCF值计算模块计算的多个染色质开放区域的OCF值作为特征，依次进行数据归一化处理、主成分分析后选择阳性样本和对照样本中有显著差异的OCF值，使用支持向量机构建癌症预测模型。

3.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现权利要求1所述的基于cfDNA的癌症预测模型的构建方法。

4.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，程序被处理器执行时实现权利要求1所述的基于cfDNA的癌症预测模型的构建方法。

5.权利要求1所述的基于cfDNA的癌症预测模型的构建方法构建的癌症预测模型。

6.权利要求1所述基于cfDNA的癌症预测模型的构建方法，或权利要求2所述的基于cfDNA的构建癌症预测模型的装置，或权利要求3所述电子设备，或权利要求4所述计算机存储介质，或权利要求5所述的基于cfDNA的癌症预测模型在制备癌症预测装置中的应用。

7.一种癌症预测装置，其特征在于，包括：

预测模块，其被配置为使用预先训练好的机器学习模型和染色质开放区域内的OCF值预测患有癌症的概率，所述机器学习模型为权利要求5所述的基于cfDNA的癌症预测模型。