CN116189763A

CN116189763A - 一种基于二代测序的单样本拷贝数变异检测方法

Info

Publication number: CN116189763A
Application number: CN202310145770.4A
Authority: CN
Inventors: 林程宏; 陈少红; 潘心怡; 金保雷; 张林华; 李旭超; 阮力; 郑立谋; 罗捷敏
Original assignee: Amoy Diagnostics Co Ltd
Current assignee: Amoy Diagnostics Co Ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-05-30

Abstract

本发明提出一种基于二代测序的单样本拷贝数变异检测方法，包括：将基于二代测序技术的多类CNV阴性样本测序数据合并，得到CNV阴性参考集；采用已标记CNV的测序样本，训练隐马尔可夫模型，预测待测样本每个探针的CNV状态，并选取预测为阴性的探针对应的基因序列，得到待测样本的比对样本；从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集，统计待测样本每个探针经最优参考子集归一化的数据特征；利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测，再次将探针标记为阴性(Negative)、扩增(Gain)和缺失(Loss)，合并得到全CNV区域；过滤得真实CNV区域，不依赖待测样本自身的阴性对照样本或同批次的阴性样本参考集，简单、准确率高、适应性强。

Description

一种基于二代测序的单样本拷贝数变异检测方法

技术领域

本发明涉及二代测序技术测序领域，特别是指一种基于二代测序的单样本拷贝数变异检测。

背景技术

人类基因组上广泛存在着多种遗传变异形式与DNA多态性。除了DNA的点突变，基因组上还可以发生涉及1kb和5Mb之间的大片段DNA序列的重复或缺失。此类基因组片段的变异称为拷贝数变异(Copy number variation,CNV)。CNV是产生个体间遗传差异和人类遗传多样性的一个重要来源，是人类基因组中的一种结构变异，占基因组多样性的很大一部分，并与许多复杂的人类疾病有关。对CNV这类遗传变异的研究，或将可以促进对相关人类疾病的发病机制的认识，对患者临床诊断、预后、化疗敏感性以及治疗方案的制订具有重要意义。

在多数临床检验中，CNV的检测依赖于核型分析、荧光原位杂交、单核苷酸多态性阵列方法、阵列比较基因组杂交和多重连接依赖性探针扩增(Multiplex ligation-dependent probe amplification,MLPA)等。然而，由于杂交噪声、低分辨率、基因组覆盖范围有限以及难以检测新的和稀有突变等缺点，这些传统方法并不是最理想的。与传统方法不同，二代测序技术(Next-generation sequencing,NGS)产生的短读长具有更高的分辨率，为高效、低成本和高通量的准确识别CNV带来了新的可能性。

近年来，大多数基于NGS数据检测CNV的相关工具都是基于覆盖深度开发的，通常，这类方法需要同批次的肿瘤配对的阴性样本或其他样本构建参考集，并通过比较待测样本和参考集之间的覆盖深度信号水平差异来识别样本的CNV，例如：BIC-seq2、SeqCNV、rSW-seq、ExomeCNV、ExomeDepth、CNVkit、CONTRA等方法。然而，这不仅增加了测序成本；且检测范围有限：不适用于配对样本无法获取的应用场景，还存在同批次测序的样本数量要求，无法分析小样本量，特别是单个样本，其检出的结果往往也会受到同批次其他样本的影响；此外，如果使用通用的阴性样本构建参考集，由于NGS数据极易受到不同测序平台、实验试剂、实验参数、实验批次等环节的影响，而产生一定的整体波动，因此使用固定参考集在实际检测中往往会出现跨批次样本检出性能不佳，乃至不同平台、仪器、癌种需要构建和维护不同参考集以及参数流程的情况，在应用上带来很大的局限性，无法灵活快速的应对新平台、新仪器、新癌种数据。

综上，现有的方法都无法对单个样本CNV进行稳定的检出，因此，如何建立一个高效便捷且可在不同NGS检测平台、批次和不同癌种中通用的CNV阴性样本参考集用于单个样本CNV的检测至关重要。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于二代测序的单样本CNV检测方法。本发明适用于常见的基于NGS的序列捕获探针集合，可以是覆盖靶向的感兴趣区域的探针；本发明也适用于常见的基于测序覆盖深度的CNV检出算法的样本特征。

本发明采用如下技术方案：

一种基于二代测序的单样本拷贝数变异检测方法，包括：

将基于二代测序技术的多类CNV阴性样本测序数据合并，并进行预处理，得到CNV阴性参考集；所述多类CNV阴性样本测序数据包括但不限于：不同检测平台、批次、试剂类型和不同癌种；

采用已标记CNV的测序样本，训练隐马尔可夫模型，得到训练好的隐马尔可夫模型，通过训练好的隐马尔可夫模型，预测待测样本每个探针的CNV状态，并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列，得到待测样本的比对样本；

从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集，得到最优参考子集，统计待测样本每个探针经最优参考子集归一化的数据特征；

利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测，再次将探针标记为Negative、Gain和Loss，基于数据特征合并得到全CNV区域；

将得到的全CNV区域进行过滤得到真实CNV区域。

具体地，将基于二代测序技术的多类CNV阴性样本测序数据合并，并进行预处理，所述预处理具体包括：

统计参考集中每个样本在探针i的总reads数，记为探针的测序深度D_i；

对参考集中每个样本的所有探针i的测序深度D_i进行样本内归一化统计出该探针的数据特征F_i；所述样本内归一化是计算该样本所有探针的测序深度D_i的均值或是中位值MS_i，即FS_i＝D_i/MS_i；

对参考集样本利用统计学方法，基于样本的每个探针的数据特征FS_i进行分组质控，去掉含空值、样本内探针的数据特征波动超过阈值或整体特征超过组内其他样本偏离阈值的样本；得到CNV阴性参考集。

具体地，通过训练好的隐马尔可夫模型，预测待测样本每个探针的CNV状态，并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列，得到待测样本的比对样本，具体包括：

设定阈值a，统计该组被预测为某一种阳性CNV类型的探针数x，若x>a，则认为该组探针包含该种CNV类型；由此，得到该组探针阳性CNV类型数：0表示该组探针全为Negative，1表示该组阳性探针为Gain或者Loss，2表示该组阳性探针同时包含Gain和Loss；

若该组CNV类型数为0，则将该组探针对应的基因外显子区域标记为Negative；

若该组CNV类型数为1，根据所包含的CNV类型及设定的阈值，将该组探针对应的基因外显子区域标记为Gain或者Loss；所述阈值为针对Gain和Loss类型分别设定的过滤阈值，例如：假设该组探针仅包含Loss类型的阳性探针，可以设定Loss的阈值为t，计算该组探针数据特征的均值，若均值<t，则将该组探针对应的基因外显子区域标记为Loss，否则标记为Negative；

若该组CNV类型数为2，则将该组探针对应的基因外显子区域标记为Conflict；

根据设定的阈值，预测得到每个基因相应外显子的CNV状态，若同一基因有连续多个外显子都被标记为同一种CNV类型，则将连续相同的外显子合并标记。

具体地，统计待测样本每个探针经最优参考子集归一化的数据特征，具体为：

先计算待测样本每个探针样本内归一化数据特征FS_i在最优参考子集中的均值或中位值MR_i，然后求的待测样本归一化数据特征值FR_i＝FS_i/MR_i。

具体地，将得到的全CNV区域进行过滤得到真实CNV区域，具体包括：朴素贝叶斯-高斯模型构建与过滤、同样本过滤、批次样本过滤和其他过滤。

具体地，若同一基因有连续多个外显子都被标记为同一种CNV类型，则将连续相同的外显子合并标记，还包括：所述连续允许中间有b个外显子与其他外显子的CNV类型不一致，其中，b为1或2。

具体地，从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集之前，还包括：

利用统计学方法，比较待测样本的比对样本与CNV阴性参考集的每个样本，保留与待测样本的比对样本来自同一个分布的参考集样本，所述统计学方法包括但不限于T检验、Anderson-Darling检验。

具体地，从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集，所述相似度计算具体为：

计算相似度距离，包括但不限于欧式距离、余弦距离、曼哈顿距离。

本发明实施例另一方面提供一种基于二代测序的单样本拷贝数变异检测系统，包括：

CNV阴性参考集获取单元：将基于二代测序技术的多类CNV阴性样本测序数据合并，并进行预处理，得到CNV阴性参考集；所述多类CNV阴性样本测序数据包括但不限于：不同检测平台、批次、试剂类型和不同癌种；

待测样本初筛单元：采用已标记CNV的测序样本，训练隐马尔可夫模型，得到训练好的隐马尔可夫模型，通过训练好的隐马尔可夫模型，预测待测样本每个探针的CNV状态，并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列，得到待测样本的比对样本；

最优参考子集获取单元：从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集，得到最优参考子集，统计待测样本每个探针经最优参考子集归一化的数据特征；

全CNV区域获取单元：利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测，再次将探针标记为Negative、Gain和Loss，基于数据特征合并得到全CNV区域；

过滤单元：将得到的全CNV区域进行过滤得到真实CNV区域。

本发明实施例另一方面提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于二代测序的单样本拷贝数变异检测方法步骤。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

(1)本发明提供的一种基于NGS技术的CNV阴性样本参考集构建与适配方法，该分析方法能够应用在各种基于NGS测序的样本中，用于拷贝数变异的检测，且检测灵敏度能达到外显子级别(～200bp)；

(2)本发明方法不依赖于待测样本自身的阴性对照样本或同批次的阴性样本参考集，能够在无法获得自身阴性样本参考集的情况下，自动适配与其数据特征最接近的阴性参考集，提供一种基于NGS的单样本CNV检测方法；

(3)本发明提供的方法具备比固定参考集更强的跨批次、跨试剂、跨仪器、跨平台、跨癌种检出性能；

(4)本发明方法使待测样本和阴性参考集之间本底数据特征更相近，能够不需要针对待测样本类型进行单独优化和调参，乃至建立单独的流程，能够节约大量资源和成本，兼具理论与实际应用价值；

(5)相比传统的CNV检测方法，比如：阵列比较基因组杂交、MLPA，本发明基于NGS的方法具有高通量、高分辨率、实验方案简单高效等优点。

附图说明

图1是本发明实施例提供的一种基于二代测序的单样本拷贝数变异检测方法的流程框图；

图2是本发明实施例提供的一种基于二代测序的单样本拷贝数变异检测系统架构图；

图3是本发明实施例提供的一种计算机可读存储介质的实施例示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外，应理解，在阅读了本发明的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本发明所限定的范围。

实施例中所涉及的实验样本均预先通过MLPA方法进行验证，共54例BRCA基因CNV突变的阳性样本和1883例阴性样本。样本分成104个批次进行扩增子上机测序，使用了Nextseq500和MiSeq两种测序仪器。验证的阳性突变情况见表1，片段长度从单个外显子到整个基因不等，突变类型包含了Loss和Gain。

表1阳性样本CNV变异区域和类型

/>

/>

基于本发明的方法，具体实施步骤如下：

1.构建混合参考集

本实施例抽样选取了50个批次共763例阴性样本构建混合参考集，统计了上述阴性样本在BRCA基因上每条探针i的有效深度D_i，并除以每例样本的有效深度中位值MS_i进行样本内归一化，得到样本内归一化深度FS_i＝D_i/MS_i，在本实施例中，有效深度值指比对到该探针i序列的reads数的总和。对样本进行质控，具体而言：

去除样本中存在有效深度为0的样本；去除归一化后样本内探针标准差≥0.3的样本；求出每条探针在所有样本中的中位值，得到中位值样本，然后每个阴性样本与中位值进行两两F检验，去除F检验P<0.05的阴性样本，剩下的548例样本构建成混合参考集。

2.构建隐马尔可夫模型与待测样本状态初步预测

抽样选取部分阳性样本(24例)，使用其阳性探针部分和阴性探针部分的FS_i训练隐马尔可夫模型；

使用训练得到的隐马尔可夫模型对所有待测阳性和阴性待测样本探针进行状态预测，标记所有探针的CNV状态；对探针状态进行合并，得到每个样本的阳性外显子区域和阴性外显子区域；

3.待测样本CNV参考子集匹配与归一化

每个样本基于其初步标记为Negative的探针挑选12个阴性样本作为最优参考子集，具体方法为：。

利用统计学方法，比较待测样本的比对样本与CNV阴性参考集的每个样本，保留与待测样本的比对样本来自同一个分布的参考集样本，所述统计学方法包括但不限于T检验、Anderson-Darling检验；

从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集，所述相似度计算具体为：

计算相似度距离，包括但不限于欧式距离、余弦距离、曼哈顿距离；或采用聚类方法，挑选出来的相似度最高的子集，即为最优参考子集；

并使用参考子集在每条探针处的中位值深度MR_i对待测样本进行参考集归一化FR_i＝FS_i/MR_i。

4.待测样本CNV区域检出与过滤

将每个待测样本基于参考集归一化深度FR_i使用隐马尔可夫模型进行探针状态预测，并合并得到阳性外显子区域；

5.CNV区域过滤

具体过滤方法包括：

(1)朴素贝叶斯-高斯模型构建与过滤：使用已标记CNV的测序样本进行训练，即基于步骤2预测出来的每个CNV区域的观测值与样本的真实标签构建模型；根据该模型，对待测样本的所预测出来的CNV区域进行预测，预测结果分为三类：Negative、Gain和Loss。基于此，过滤掉预测为的Negative的CNV区域。所述观测值可以为该区域探针的数据特征的均值、该区域阳性探针数与总探针数的比值、待测样本与最优参考子集的相似度、该待测样本中预测为阳性的基因数等；

(2)同样本过滤：对于待测样本，针对步骤2预测出的每个CNV区域，计算该区域的探针与不在该区域内的其他探针的数据特征FR_i是否存在显著差异，若不存在显著差异，则认为该区域阳性不可信。所述显著性可以利用T检验方法统计；

(3)批次样本过滤：若同时有多个样本进行检测，对来自同一批次进行检出的样本，针对步骤2预测出的每个CNV区域，计算该区域的探针在待测样本与该批次其他样本中的数据特征FR_i是否存在显著差异，若不存在显著差异，则认为该区域阳性不可信。所述显著性可以利用T检验方法统计；

(4)其他过滤：对于待测样本，针对步骤2预测出的CNV区域，可根据阳性基因数、该区域阳性探针数与总探针数的比值、阴性区域探针的数据特征的标准差等，设定相应阈值进行过滤；

根据上述过滤方法对所有阳性外显子区域进行过滤，去除因为噪声等因素带来的假阳性区域，保留真实的阳性区域。

检出的具体结果见表2。结果显示，54例MLPA阳性样本53例检出为CNV阳性，仅1例被界定为CNV阴性，真阳性率(TPR)98.15％；1883例阴性样本中检出2例假阳，真阴性率(TNR)为99.89％，且检测灵敏度能达到外显子级别(～200bp)，检出的CNV突变区域BRCA1_E24、BRCA1_E16、BRCA1_E3等均为一个外显子；

上述结果表明了本发明提供的基于NGS技术，构建和挑选待测样本最优阴性样本参考集，对样本CNV变异进行检测的方法，与MLPA测序结果比较，准确率达99.85％，相比常规的固定参考集的方法，能够准确的进行单个样本的CNV检测，能够灵敏的检出单个外显子至整个基因的扩增或缺失，同时具备更好的跨批次、跨试剂、跨仪器、跨平台、跨癌种的稳定性。

表2本方法检出的样本CNV突变区域和类型

/>

/>

如图2是本发明实施例提供的一种基于二代测序的单样本拷贝数变异检测系统架构图；包括：

CNV阴性参考集获取单元201：将基于二代测序技术的多类CNV阴性样本测序数据合并，并进行预处理，得到CNV阴性参考集；所述多类CNV阴性样本测序数据包括但不限于：不同检测平台、批次、试剂类型和不同癌种；

待测样本初筛单元202：采用已标记CNV的测序样本，训练隐马尔可夫模型，得到训练好的隐马尔可夫模型，通过训练好的隐马尔可夫模型，预测待测样本每个探针的CNV状态，并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列，得到待测样本的比对样本；

最优参考子集获取单元203：从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集，得到最优参考子集，统计待测样本每个探针经最优参考子集归一化的数据特征；

全CNV区域获取单元204：利用训练好的隐马尔可夫模型对待测样本经最优参考子集归一化的数据特征进行预测，再次将探针标记为Negative、Gain和Loss，基于数据特征合并得到全CNV区域；

过滤单元205：将得到的全CNV区域进行过滤得到真实CNV区域。

请参阅图3，图3为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

如图3所示，本实施例提供了一种计算机可读存储介质300，其上存储有计算机程序311，该计算机程序311被处理器执行时实现本发明实施例提供的跨用户行为识别迁移学习的方法；

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于二代测序的单样本拷贝数变异检测方法，其特征在于，包括：

将得到的全CNV区域进行过滤得到真实CNV区域。

2.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法，其特征在于，将基于二代测序技术的多类CNV阴性样本测序数据合并，并进行预处理，所述预处理具体包括：

3.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法，其特征在于，

通过训练好的隐马尔可夫模型，预测待测样本每个探针的CNV状态，并选取被隐马尔可夫模型预测为Negative的探针对应的基因序列，得到待测样本的比对样本，具体包括：

若该组CNV类型数为1，根据所包含的CNV类型及设定的阈值，将该组探针对应的基因外显子区域标记为Gain或者Loss；所述阈值为针对Gain和Loss类型分别设定的过滤阈值，

4.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法，其特征在于，统计待测样本每个探针经最优参考子集归一化的数据特征，具体为：

5.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法，其特征在于，将得到的全CNV区域进行过滤得到真实CNV区域，具体包括：朴素贝叶斯-高斯模型构建与过滤、同样本过滤、批次样本过滤和其他过滤。

6.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法，其特征在于，若同一基因有连续多个外显子都被标记为同一种CNV类型，则将连续相同的外显子合并标记，还包括：所述连续允许中间有b个外显子与其他外显子的CNV类型不一致，其中，b为1或2。

7.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法，其特征在于，从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集之前，还包括：

8.根据权利要求1所述的一种基于二代测序的单样本拷贝数变异检测方法，其特征在于，从CNV阴性参考集选取与待测样本的比对样本相似度最高的子集，所述相似度计算具体为：

9.一种基于二代测序的单样本拷贝数变异检测系统，其特征在于，包括：

过滤单元：将得到的全CNV区域进行过滤得到真实CNV区域。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。