CN115910349B

CN115910349B - 基于低深度wgs测序末端特征的癌症早期预测方法

Info

Publication number: CN115910349B
Application number: CN202310029968.6A
Authority: CN
Inventors: 万千惠; 张轶群; 李振聪; 张怡然; 裴志华; 王东亮; 牛孝亮
Original assignee: Beijing Qiuzhen Medical Laboratory Co ltd
Current assignee: Beijing Qiuzhen Medical Laboratory Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-05-30
Anticipated expiration: 2043-01-09
Also published as: CN115910349A

Abstract

本发明涉及医学分子生物学技术领域，特别涉及基于低深度WGS测序末端特征的癌症早期预测方法，通过采集健康人群与肿瘤人群样本，同时提取和统计样本cfDNA片段末端特征及break‑point末端特征，全面地考虑了不同长度和不同位置的片段末端特征，并利用优化的Mscore算法，更简便区分健康人组和癌症病人组，且在不同数据量的情况下仍能保持高稳定性。

Description

基于低深度WGS测序末端特征的癌症早期预测方法

技术领域

本发明涉及医学分子生物学技术领域，特别涉及基于低深度WGS测序末端特征的癌症早期预测方法。

背景技术

目前癌症早筛主要可以分为两大类，一类是依靠计算机扫描技术，内镜检查技术和细胞涂片技术等传统检测方法，包括利用低剂量计算机扫描（low-dose computedtomography, LDCT) 检测肺癌，利用肠镜检测肠癌和利用宫颈细胞涂片检测宫颈癌等。这一类方法普遍具有较低的特异性和灵敏度，同时又具有较高的侵入性。

癌症早筛的另一类方法是液体活检方法。液体活检方法相对于上述方法检测侵入性更低同时更有利于早期癌症的检测。液体活检目前主要采用血液，尿液或者唾液等作为样品，从样品中检测肿瘤来源的细胞，DNA，mRNA， microRNA和蛋白等来确定癌症病人的状态。其中外周血血浆游离DNA（cell-free DNA, cfDNA）是在癌症早筛中应用最广泛也是最有前景的。癌症病人和健康人的cfDNA有很大差异，包括突变，拷贝数，染色体重组，片段特征和甲基化等方面的显著差异。在最近的研究中，利用cfDNA片段特征来探索癌症早筛方法的研究越来越多，cfDNA末端特征（motif）属于其中的一个分支。cfDNA末端特征是指cfDNA片段5’末端的若干个碱基，研究表明健康人cfDNA的末端特征比癌症患者更有偏好性，比如CCCA, CCAG和CCTG这些末端特征的比例在健康人血浆中比在癌症病人血浆中高。目前，如何将cfDNA片段末端特征来助力早期癌症预测，具有十分重要的意义。

发明内容

针对以上述背景技术的不足，本发明提供基于低深度WGS测序末端特征的癌症早期预测方法。

本发明采用的技术方案如下：基于低深度WGS测序末端特征的癌症早期预测方法，关键在于：包括以下步骤：

S1. 对样品进行基因靶向测序，获取原始fastq文件；

S2. 对原始fastq文件进行数据控制，筛除低质量数据；

S3. 将质控后的fastq文件比对参考基因组获得bam文件，对bam文件进行数据过滤，去除重复序列；

S4. 分别统计cfDNA片段末端特征、break-point末端特征的数量和比例；

S5. 计算用于区分癌症病人的Mscore值。

优选的，S2中质量控制条件为：样品的测序深度不低于5×，碱基错误低于0.1%的碱基占总碱基数的比例大于90%，比对到基因组上的reads占所用reads的比例大于95%，测序结果对基因组序列的覆盖度大于90%。

优选的，S3中所述参考基因组序列为hg19。

优选的，S3中过滤条件为：基于CIGAR值取成对的reads（CIGAR值用来表明哪些reads与参考基因组完全吻合，哪些reads和参考基因组对比有缺失，那些reads和参考基因组对比有插入），最多错配为3bp，最多indel数量为2 bp，最长indel的gap为3bp。

优选的，S4中cfDNA片段末端特征数量和比例统计方法为：从每条read的正链及负链的5’端的4-6bp的末端，分别取4-6bp长度的末端序列片段，统计序列末端序列片段的数量和占比。

优选的，S4中break-point末端特征的数量和比例统计方法为：从每条read的负链5’端取2bp和3bp的末端序列片段，从参考基因组与read的负链5’端衔接端取2 bp和3 bp序列，将二者拼接得到4bp和6bp的break-point特征序列，统计break-point特征序列的数量和占比。

优选的，S5具体为：基于S4得到的样本cfDNA片段末端特征及break-point末端特征的数量和比例，用LASSO法筛选出motif，采用式1计算第i个样品的Mscore值

式1

其中，t_ij表示极差法得到的样品i的第j个motif的归一化的比例值；m为筛选出的motif数量；W _j为motifj的重要性。

优选的，所述t _ij采用式2计算：

式2

其中，P _ij是样品i的第j个motif的比例，i代表所有样品中的第i个样品，j代表所有motif中的第j个motif，对第i个样品的第j个motif；

优选的，由随机森林得到的每个motif j权重w _j，当

≥0时，W _j =w _j；当/>

＜0时，W _j =-w _j；

式3

其中，

是第j个motif的比例的均值在健康组和肿瘤组之间的差值；n _h表示健康人样品的数量，n _t表示肿瘤样品的数量，i _h表示第i个健康人样品，i _t表示第i个肿瘤样品，P _ihj是健康人样品i _h的第j个motif的比例，P _itj是肿瘤病人样品i _t的第j个motif的比例。

优选的，所述样品为来自于健康人群和肿瘤人群的组织液样品和块状样品，组织液样本包括组织研磨液、鼻拭子、病毒液、血液、血清、血浆、精液、唾液、尿液中的任一种；块状样品包括组织块、转基因小鼠尾巴、趾甲中的任一种。

有益效果：与现有技术相比，本发明提供的基于低深度WGS测序末端特征的癌症早期预测方法，通过采集健康人群与肿瘤人群样本，同时提取和统计样本cfDNA片段末端特征及break-point末端特征，全面地考虑了不同长度和不同位置的片段末端特征，并利用优化的Mscore算法，更简便区分健康人组和癌症病人组，且在不同数据量的情况下仍能保持高稳定性。

附图说明

图1为基于5×深度下的稳定性示意图；

图2为基于本发明的分类性能AUC曲线图；

图3为基于不同癌种的分类性能AUC曲线图；

图4为不同深度下的稳定性示意图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。

实施例1 样本数据提取

随机选择两组人群的血浆进行上机测序，一组为健康人（N=32，随机抽样三次N=96），另一组为癌症病人（n=112）。具体过程如下所示：

cfDNA提取：采用血浆提取试剂盒提取血浆样本中的cfDNA，具体的操作参见QIAGEN公司的QIAamp Circulating Nuleacid Kit试剂盒说明书，使用Qubit4.0和dsDNAHS Assay Kit对提取的DNA进行定量。

文库构建：末端修复并在3'末端加A尾；取10-50ng cfDNA至PCR管中，用Low TE补至50 μL，按照下表1加入试剂。

表1

涡旋混匀，微离心，设置以下程序在PCR仪上进行反应，表2：

表2

连接接头：按照下表3在上述反应结束后的体系内加入相应试剂：

表3

涡旋混匀，微离心，设置以下程序在PCR仪上进行反应（热盖关闭），表4：

表4

连接后纯化：Beckman Agencourt AMPure XP磁珠2~8℃保存，室温平衡至少30min；在每个样本中加80 μL（1× 体积）AMPure XP 磁珠，用移液器吹打或者振荡充分混匀。室温静置5分钟；放置磁力架静置2分钟，待磁珠全部吸附至侧壁，使用移液器吸取移弃上清，注意勿扰动磁珠；在磁力架上沿磁珠相反方向的管壁缓慢加入200 μL 80%乙醇，静置30s-1min，使用移液器吸取移弃上清；重复上步骤一次，用10 μL的移液器将残留的乙醇尽量吸弃干净；室温干燥磁珠5分钟；每个样本用21 μL low TE 缓冲液重悬磁珠；用移液器吹打或者振荡充分混匀，室温孵育 1分钟；放置磁力架上，室温孵育2分钟；待磁珠完全吸附至侧壁，将20 μL上清液移到一个新的PCR管中等待扩增；文库扩增：按照下表5在上述反应结束后的体系内加入相应试剂：

表5

涡旋混匀，微离心，设置以下程序在PCR仪上进行反应，表6：

表6

反应结束后，按照磁珠纯化的流程使用1X体积磁珠纯化PCR产物，之后用dsDNA HSAssay Kit测定预文库浓度，利用QIAxcel核酸电泳分析系统进行片段大小检测。

cfDNA全基因组测序: 将文库样本通过二代测序仪MGI2000进行上机测序，采用双端测序的测序方式，读长为100bp，测序深度为10×。

实施例2 区分癌症病人组和健康人组的Mscore的计算

按照样品的索引，将测序平台获取的BCL文件进行拆分，得到每个样本的fastq格式的数据，将fastq格式的数据比对到基因组序列（hg19）获得每个样品的bam文件，对每个样品的数据进行质量控制，质量控制条件包括：样品的测序深度为5×，碱基错误低于0.1%的碱基占总碱基数的比例大于90%，比对到基因组上的reads占所用reads的比例大于95%，测序结果对基因组序列的覆盖度大于90%；

对通过质量控制的样品数据进行reads水平的过滤，过滤条件为：取成对的reads（CIGAR值为83/163和99/147），最多错配为3bp，最多indel数量为2 bp，最长indel的gap为3bp；

从每条read的5’末端，取4-6bp长度的末端序列片段，统计序列末端序列片段的数量和占比；从每条read的5’端取2bp和3bp的末端序列片段，然后取参考基因组上，对应该5’端上游的2 bp和3 bp序列，将二者分别拼接得到4bp和6bp的break-point特征序列，统计break-point特征序列的数量和占比；

LASSO筛选出m个 motif，由随机森林得到的每个motif j权重w _j，当

≥0时，W _j = w _j；当/>

＜0时，W _j =-w _j；第/>

个motif的比例的均值在健康组和肿瘤组之间的差∆P _j根据式3计算得到/>

式3

其中，

是第j个motif的比例的均值在健康组和肿瘤组之间的差值；n _h表示健康人样品的数量，n _t表示肿瘤样品的数量，i _h表示第i个健康人样品，i _t表示第i个肿瘤样品，P _ihj是健康人样品i _h的第j个motif的比例，P _itj是肿瘤病人样品i _t的第j个motif的比例；

极差法归一化motif 的比例值t _ij采用式2计算：

式2

最后，采用式1计算样品的Mscore值

式1

图1中横坐标为健康和肿瘤组（包括肺癌，肠癌，胃癌，肝癌和胰腺癌），纵坐标是Mscore，图1中看到，基于5×深度数据的Mscore可以区分健康人组合癌症组的样品；图2表示基于Mscore的ROC分析结果，不分癌种时AUC为0.9934，TAScore阈值为0.3646时，特异性为1，灵敏度为0.9643；图3显示了不同癌种Mscore的ROC分析结果，肺癌的AUC为0.9659，肠癌的AUC为0.9926，胃癌、肝癌和胰腺癌的AUC均为1。当阈值为0.3646时，肺癌的特异性为1，灵敏度为0.8182；肠癌的特异性为1，灵敏度为0.8571；胃癌的特异行为1，灵敏度为0.9688；肝癌的特异性为1，灵敏度为1；胰腺癌的特异性为1，灵敏度为1。

实施例3 性能验证

选取两组人群的样本在不同深度的数据（0.1X、0.5X、1X、3X、5X、原始数据）为训练数据，计算Mscore值，并进行稳定性评估，结果如图4所示，说明了在用0.1×， 0.5×，1×，3×，5×和原始数据（RAW）的情况下，Mscore都可以区分健康人组和肿瘤组的样品，虚线位置的Mscore为0.3646，表明本方案在达到在算法稳定地前提下分类效果仍然很好，具有强灵敏度和特异性。

最后需要说明，上述描述仅为本发明的优选实施例，本领域的技术人员在本发明的启示下，在不违背本发明宗旨及权利要求的前提下，可以做出多种类似的表示，这样的变换均落入本发明的保护范围之内。

Claims

1.基于低深度WGS测序末端特征的癌症早期预测方法，其特征在于包括以下步骤：

S1. 对样品进行基因靶向测序，获取原始fastq文件；

S2. 对原始fastq文件进行数据控制，筛除低质量数据，质量控制条件为：样品的测序深度不低于5×，碱基错误低于0.1%的碱基占总碱基数的比例大于90%，比对到基因组上的reads占所用reads的比例大于95%，测序结果对基因组序列的覆盖度大于90%；

S4. 分别统计cfDNA片段末端特征、break-point末端特征的数量和比例，cfDNA片段末端特征数量和比例统计方法为：从每条read的正链及负链的5’端的4-6bp的末端，分别取4-6bp长度的末端序列片段，统计序列末端序列片段的数量和占比；break-point末端特征的数量和比例统计方法为：从每条read的负链5’端取2bp和3bp的末端序列片段，从参考基因组与read的负链5’端衔接端取2 bp和3 bp序列，将二者拼接得到4bp和6bp的break-point特征序列，统计break-point特征序列的数量和占比；

S5. 计算用于区分癌症病人的Mscore值，具体为：基于S4得到的样本cfDNA片段末端特征及break-point末端特征的数量和比例，用LASSO法筛选出motif，采用式1计算第i个样品的Mscore值