CN115424666B

CN115424666B - 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统

Info

Publication number: CN115424666B
Application number: CN202211109652.XA
Authority: CN
Inventors: 许志晖; 邓望龙; 魏强; 韩一辉; 张超; 王小强; 任用; 李诗濛
Original assignee: Beijing Xiansheng Medical Examination Laboratory Co ltd; Nanjing Xiansheng Medical Laboratory Co ltd; Jiangsu Xiansheng Medical Diagnosis Co ltd
Current assignee: Beijing Xiansheng Medical Examination Laboratory Co ltd; Nanjing Xiansheng Medical Laboratory Co ltd; Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2023-07-11
Anticipated expiration: 2042-09-13
Also published as: CN115424666A

Abstract

本申请涉及生物信息学技术领域，具体提供一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统。本方法基于全基因组重亚硫酸盐测序数据，根据癌旁样本的甲基化水平以及肿瘤样本的肿瘤占比，对肿瘤样本的甲基化水平进行校正，筛选出具有真实差异的甲基化区间。通过自编码模型对初筛分子标志物进行贡献度排序，从分子水平上评估其在肿瘤样本与癌旁样本及白细胞中的差异精简初筛分子标志物，提升开发产品的准确率和经济性。

Description

一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统

技术领域

本发明属于生信分析领域，具体提供一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统。

背景技术

传统的肿瘤早筛技术主要为医学影像学检查、肿瘤标志物检测以及组织活检，对医生的依赖度大。在早期病变不明显的情况下，传统的癌症早筛技术不适用于普查。相较于传统筛查技术，液体活检使用血、尿液、胸腔积液或粪便样本，具有安全性高、非入侵性、简单可重复以及进行全局筛查等特点，使得研究焦点从传统侵入式检查转向液体活检技术。目前，液体活检技术检测的生物标志物来源包括外泌体、循环肿瘤细胞、细胞外游离DNA(Cell-free DNA，cfDNA)、线粒体DNA(mitochondria DNA，mtDNA)和血液中的游离蛋白等(图1)。近来，较多文献报道使用cfDNA的DNA甲基化水平的变化作为特征进行肿瘤的预测和诊断，都取得较好的结果。

DNA甲基化是一种广泛分布的动态表观修饰，在早期肿瘤患者没有临床表现的情况下，DNA修饰就已发生改变，并随着疾病的进程不断进展，调控相关基因的表达。随着技术的发展，利用少量DNA样本在单碱基分辨率下分析甲基化水平的变异已成为可能，因而基于cfDNA甲基化的液体活检技术有希望成为一种高效的进行肿瘤筛查的方法。

目前，使用cfDNA的甲基化修饰特征来进行肿瘤早筛和早诊也存在一些需要攻克的难题。在肿瘤早期，细胞释放到血液中的cfDNA量较少，检测需要采集更多血液样本，患者的接受度较低。不同的采血方式、存储和人员操作等也会在一定程度上导致cfDNA中的甲基化信号丢失。上述问题可以通过规范化取样和实验操作，改进甲基化文库构建方法来解决。其次，血液提取cfDNA主要是肝脏组织或其他组织、白细胞等来源的，而源于肿瘤细胞释放的DNA(circle tumor DNA，ctDNA)的占比在早期可能不到1％，这导致肿瘤甲基化信号极弱，难以被检测到。此外，DNA甲基化位点修饰差异在不同肿瘤样本中不尽相同，且全基因甲基化测序成本很高，如何选择合适的基因组标志物区间来增强信号提升诊断效果同时兼顾经济性成为该方法能否商用的关键。针对上述问题，现有方法可以使用分子标志物的cfDNA片段甲基化单倍型的得分替代甲基化水平来扩大信号来进行肿瘤的预测(图2)。然而，通过全基因组重亚硫酸盐测序数据筛选的分子标志物会存在受到肿瘤占比的影响，导致部分真实存在差异CpG位点或区间无法筛出，以及筛选出的分子标志物甲基化水平差异极小，在保证分类效力时难以有效精简的问题。

综上所述，从全基因组的甲基化位点中筛选出合适大小的分子标志物，提高区间测序覆盖度和甲基化信号强度的同时兼顾经济性，成为肿瘤早筛早诊的关键。

有鉴于此，特提出本发明。

发明内容

为解决上述技术问题，本申请基于全基因组测序数据，根据癌旁样本的甲基化水平以及肿瘤样本的肿瘤占比，对肿瘤样本的甲基化水平进行校正，筛选出具有真实差异的甲基化区间。通过自编码模型对初筛分子标志物进行贡献度排序，从分子水平上评估其在肿瘤样本与癌旁样本及白细胞中的差异精简初筛分子标志物，提升开发产品的准确率和经济性。

具体的，本申请详细技术方案如图3或如下：

本申请首先提供一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法，包括如下步骤：

1)获取肿瘤样本、癌旁样本和白细胞样本的DNA甲基化测序数据；

2)基于拷贝数变异评估肿瘤样本的肿瘤占比TF；

3)校正肿瘤样本CpG位点的甲基化水平：

4)鉴定肿瘤与癌旁及白细胞样本间的差异位点；

5)CpG位点合并：如果显著差异的CpG位点在基因组上相邻则合并。

进一步的，所述方法还包括如下步骤：

6)机器学习模型对初筛分子标志物进行排序和过滤；优选的，连续3个差异CpG位点在100bp区间内则进行合并。

7)结合平均甲基化差异和自编码模型分配的重要性得分对分子标志物重新排序，选取优先级高的分子标志物形成最终panel。

进一步的，所述步骤1)中进一步包括，测序数据使用比对到人类hg19参考基因组上，去除PCR重复和比对质量低的reads。

进一步的，所述步骤2)进一步包括，剔除肿瘤占比较低的样本；优选的，所述肿瘤占比较低的样本为肿瘤占比低于15％的样本。

进一步的，所述步骤步骤3)具体为：

a)计算所有癌旁样本的CpG位点的甲基化水平的平均值(M_i,norm)；

b)计算每个肿瘤样本的亚克隆占比s，所述s计算如下：

其中，CNA为基因组拷贝数变异数，c为肿瘤细胞倍性值，TF为步骤2)评估的肿瘤占比；

c)计算肿瘤样本CpG位点的真实甲基化水平M_i,pure，所述M_i,pure计算如下：

其中，M_i,obs是实验得到的肿瘤样本每个CpG位点的甲基化水平。

进一步的，所述步骤4)中覆盖度较低的CpG位点为覆盖度<50的CpG位点；所述显著差异的CpG位点为甲基化差异>0.6的位点。

进一步的，所述步骤5)具体为：

a)计算所有肿瘤样本的CpG位点甲基化水平的平均值，过滤覆盖度较低的CpG位点；

b)选取肿瘤和癌旁样本、白细胞样本的甲基化差异均有显著差异的CpG位点。

进一步的，所述步骤6)具体包括：

a)计算分子标志物在reads水平上的甲基化得分；

b)癌旁样本和肿瘤样本分为训练和测试样本，采用5折交叉验证训练自编码模

型；优选的，模型的输入特征是各分子标志物在reads水平上甲基化得分，输入和输出保持一致，都是n维向量；

c)测试样本代入训练好的模型，对各特征分配重要性得分，对特征重新排序。

进一步的，所述机器学习模型的结构如下：输入层网络结构为线性层，输入维度为n；标准层共4层，前两层为编码器，后两层为解码器；输出维度为n；该模型通过修改模型的深度和参数使输入和输出保持一致；所述n为分子标志物的数量。

进一步的，所述分子标志物为基因组目标区域，具体的为甲基化差异区间输入自编码模型筛选得到的基因组目标区域。

本申请还提供一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的系统，包括各模块，所述各模块能够执行上述任一所述方法步骤。

本申请还提供一种电子设备，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行上述任一项所述的方法。

本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如上述任一项所述的方法。

本发明的有益技术效果：

1)本申请按照肿瘤占比对肿瘤样本的甲基化水平进行校正得到接近真实值，避免由于肿瘤占比不同导致肿瘤样本间的甲基化波动对分子标志物筛选的影响，增加具有真实差异分子标志物筛出的概率。

2)本申请使用深度学习模型对分子标志物的重要性进行排序筛选，并在reads水平上评估癌旁样本和肿瘤样本的差异，在精简分子标志物数量的同时提升产品的经济性和分类效力。

3)本申请通过对整体方法设计、参数选择以及自编码模型构建等，保证了方法获得的分子标志物对正常和肿瘤样本的分类效果极高，AUC高达0.99。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1液体活检样本的肿瘤标志物及来源图；

图2利用cfDNA片段的甲基化水平对肿瘤进行分类示意图；

图3泛癌早筛分子标志物筛选流程图；

图4肿瘤占比评估；

图5肿瘤样本甲基化水平校正；

图6初筛筛选分子标志物的降维区分结果图；

图7模型筛选分子标志物的降维区分结果图；

图8基于TCGA数据库的最终分子标志物的ROC曲线和AUC值。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下术语或定义仅仅是为了帮助理解本发明而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。

除非在下文中另有定义，本发明具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本发明。

如本发明中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

本发明中的术语“大约”、“大体”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本发明描述的实施方案能以不同于本发明描述或举例说明的其它顺序实施。

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场购买获得的常规产品。

实验例本申请方法及体系建立

1、将患者按照不同年龄段(30岁以上，每10岁一个年龄段)进行分层，收集肿瘤和癌旁样本，同时收集健康人白细胞样本；

2、提取样本的DNA，重亚硫酸盐试剂对DNA进行处理，使用SWIFT甲基化建库试剂盒构建单链特异性文库并于Novo-seq 6000上测序；

3、下机数据使用BWA-meth比对到人类hg19参考基因组上，并去除PCR重复和比对质量低的reads；

4、使用ichorCNA对肿瘤样本的肿瘤占比进行估计，剔除肿瘤占比低于15％的样本

5、校正肿瘤样本CpG位点的甲基化水平；

1)计算所有癌旁样本的CpG位点的甲基化水平的平均值(M_i,norm)；

2)根据公式(1)计算每个肿瘤样本亚克隆的占比，其中s为亚克隆的占比，c为肿瘤细胞倍性，TF为ichorCNA评估的肿瘤占比；

3)根据公式(2)计算肿瘤样本CpG位点的真实甲基化水平(M_i,pure)，其中M_i,obs是实验得到的肿瘤样本甲基化；

6、鉴定肿瘤与癌旁以及白细胞样本间的差异位点

1)计算所有肿瘤样本的CpG位点甲基化水平的平均值，过滤覆盖度小于50的CpG位点；

2)选取肿瘤和癌旁样本、白细胞的甲基化差异在0.6以上的位点。

7、如果显著差异的CpG位点在基因组上相邻则合并，比如，连续3个差异CpG位点在100bp区间内则进行合并；

8、机器学习模型对差异区间进行排序和过滤

初筛的分子标志物是基于CpG位点平均甲基化强度信号筛选出的，忽略了reads水平上甲基化的变动情况和这种变动在各分子标志物的相关性。因此，使用自编码模型reads水平的甲基化得分进行拟合。

具体步骤如下：

a)计算分子标志物在reads水平上的甲基化得分；

b)癌旁和肿瘤样本分为训练和测试样本，采用5折交叉验证训练自编码模型。因为癌旁和肿瘤中的reads无法确定其释放来源的细胞类型，从而导致reads的标签是模糊的，所以本专利中从无监督学习的方法中选取了自编码模型作为特征提取器。自编码模型的输入是各分子标志物在reads水平上甲基化得分组成的向量，输出是各分子标志物在reads水平上甲基化预测得分组成的向量。

本申请构建的自编码模型结构如下表所示:首先是输入层，网络结构为线性层，

输入维度为n，n为筛选出的分子标志物的数量，输出维度为1024。其次为标准层，共有4层，前两层为编码器，后两层为解码器，输入维度依次为1024、256、2、25

6,输出维度依次为256、2、256、1024。最后是输出层，输入维度为1024，输出维度为n。

网络层名	网络层结构	输入维度	输出维度
				输入层	线性层	n	1024
标准层1	线性层+BN层+激活函数(sigmoid)+dropout	1024	256
				标准层2	线性层+BN层+激活函数(sigmoid)+dropout	256	2
标准层3	线性层+BN层+激活函数(sigmoid)+dropout	2	256
				标准层4	线性层+BN层+激活函数(sigmoid)+dropout	256	1024
输出层	线性层+激活函数(linear)	1024	n

c)测试样本代入训练好的模型，使用DeepLIFT方法对各特征分配重要性得分，对特征重新排序。

9、结合平均甲基化差异和自编码模型分配的重要性得分对分子标志物重新排序，选取优先级高的分子标志物形成最终panel。

实施例基于临床样本分析验证

一、样本和数据处理

1、本实施例从临床中获取的肺的肿瘤和癌旁配对样本(57对)，肝的肿瘤和癌旁配对样本(30对)，乳腺的肿瘤和癌旁配对样本(34)对，食管的肿瘤和癌旁配对样本(39对)以及白细胞样本(32例)中提取DNA，使用ZYMO EZ DNA Methylation Gold Kit转化和SWIFT试剂盒构建单链特异性文库并于Novo-seq 6000上测序，得到全基因组重亚硫酸盐测序数据；

2、BWA-meth比对到人类基因组参考序列hg19上，MethylDackel提取CpG位点甲基化水平；

二、分子标志物筛选

1、根据肿瘤占比评估结果剔除不合格肿瘤样本，如图4所示；

2、根据公式(1)，对肿瘤样本的CpG甲基化水平均一化校正，消除肿瘤样本中正常细胞甲基化水平的干扰。肿瘤样本CpG位点的甲基化水平受到正常细胞占比，肿瘤细胞亚克隆占比和细胞倍性的影响。假设肿瘤样本中正常细胞占比30％，肿瘤细胞占比70％，某个CpG位点的正常细胞和肿瘤细胞的甲基化水平分别为0和1。在没有肿瘤细胞亚克隆的情况下，甲基化水平在校正前为0.3，校正后为0，和真实水平一致。通过校正可增大肿瘤与癌旁样本及白细胞间的甲基化差异，筛选出真实的具有显著差异的CpG位点(参见图5)；

3、设定肿瘤样本、癌旁样本和白细胞样本的CpG位点reads覆盖度的阈值均大于50X，筛选出三者间差异均在0.6以上的位点。

4、计算初筛分子标志物在reads水平上的甲基化水平得分，以其为特征输入到自编码模型中，使用DeepLIFT方法对各特征的贡献度进行排序。初筛和自编码模型筛选的标志物各挑选前100和200的分子标志物，tSNE对各个样本分子标志物的甲基化均值进行降维观察分类效果。

选取排序前100个分子标志物对肺腺癌、肺鳞癌以及癌旁样本进行分类，结果如图6和7所示，肺腺癌、肺鳞癌和癌旁样本分别聚集成三类，但是初筛标志物难以区分肺腺癌和肺鳞癌的样本(图6)。当选取前200个分子标志物进行tSNE降维后，初筛标志物仍难以区分肺腺癌和肺鳞癌样本(图6)。而本申请自编码模型重排筛选的标志物可以有效的区分两种肺癌亚型(图7)，说明结合自编码模型和DeepLIFT方法得到的筛选分子标志物可具有更好的分类效果。

5、初筛分子标志物的最终优先级是甲基化水平差异和特征重要性得分排序的加权平均值，部分示例如下表1。

表1分子标志物排序

6、选取排序top1000的分子标志物，基于TCGA数据库进行验证。

将TCGA数据集中乳腺、肝、肺和食管的各自样本按1:1分为训练集和测试集，采用5折交叉验证的方式训练逻辑回归模型并测试分类能力。

测试结果如图8所示，以分子标志物总体甲基化水平的变动作为特征值输入到逻辑回归模型中即可对癌旁和肿瘤样本进行分类，得到AUC的平均值为0.99。由此可见，通过本申请方法获得的分子标志物对于正常和肿瘤样本的分类效果非常优秀。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法，其特征在于，包括如下步骤：

2)基于拷贝数变异评估肿瘤样本的肿瘤占比TF；

3)校正肿瘤样本CpG位点的甲基化水平；

4)鉴定肿瘤样本、癌旁样本和白细胞样本间的差异位点；

5)CpG位点合并：如果显著差异的CpG位点在基因组上相邻,则合并得到分子标志物,所述显著差异的CpG位点为甲基化差异>0.6的位点；

6)机器学习模型对分子标志物进行排序和过滤，得到机器学习模型分配的重要性得分；

7)结合平均甲基化差异和机器学习模型分配的重要性得分对分子标志物重新排序，选取优先级高的分子标志物形成最终panel；

所述步骤3)的校正为：

a)计算所有癌旁样本的CpG位点的甲基化水平的平均值M_i,norm；

b)计算每个肿瘤样本的亚克隆占比s，所述s计算如下：

2.根据权利要求1所述的方法，其特征在于，所述步骤1)中进一步包括：测序数据使用比对到人类hg19参考基因组上，去除PCR重复和比对质量低的reads。

3.根据权利要求1所述的方法，其特征在于，所述步骤2)进一步包括，剔除肿瘤占比较低的样本；所述肿瘤占比较低的样本为肿瘤占比低于15％的样本。

4.根据权利要求1所述的方法，其特征在于，所述步骤4)具体为：

a)计算所有肿瘤样本的CpG位点甲基化水平的平均值，过滤覆盖度较低的CpG位点,所述覆盖度较低的CpG位点为覆盖度<50的CpG位点；

b)选取肿瘤样本、癌旁样本和白细胞样本的甲基化差异均有显著差异的CpG位点。

5.根据权利要求1-4任一所述的方法，其特征在于，所述步骤6)具体包括：

a)计算分子标志物在reads水平上的甲基化得分；

b)癌旁样本和肿瘤样本分为训练和测试样本，采用5折交叉验证训练机器学习模型；

c)测试样本代入训练好的机器学习模型，对各特征分配重要性得分，对特征重新排序；

所述机器学习模型的结构如下：输入层网络结构为线性层，输入维度为n；标准层共4层，前两层为编码器，后两层为解码器；输出维度为n；该机器学习模型通过修改模型的深度和参数使输入和输出保持一致；所述n为筛选出的差异甲基化区间的数量。

6.一种电子设备，其特征在于，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-5任一项所述的方法。

7.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-5任一项所述的方法。