CN117174170A

CN117174170A - 一种拷贝数变异检测参考集的构建方法及其应用

Info

Publication number: CN117174170A
Application number: CN202311166260.1A
Authority: CN
Inventors: 单光宇; 王伟伟; 姬晓勇; 伍启熹; 赵汗青; 王建伟
Original assignee: Beijing Youxun Medical Devices Co ltd
Current assignee: Beijing Youxun Medical Devices Co ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-12-05

Abstract

本发明公开了一种拷贝数变异检测参考集的构建方法及其应用。所述方法包括获取待测样本及阴性样本、原始数据预处理及比对、窗口划分、GC校正及mappability校正以及构建参考数据集。本发明设计全新拷贝数变异检测参考集的构建方法，基于k‑means聚类算法，根据待测样本自动选择最佳参考集，降低CNV检测的假阴、假阳性结果概率，提高检测准确度，且计算速度快，鲁棒性强。

Description

一种拷贝数变异检测参考集的构建方法及其应用

技术领域

本发明属于基因工程技术领域，涉及一种拷贝数变异检测参考集构建方法及其应用，尤其涉及一种基于k-means聚类算法的拷贝数变异检测参考集的构建方法及其应用。

背景技术

拷贝数变异(Copy numbervariation，CNV)是指较之于参照基因组，DNA片段缺失或复制大于1kb至1Mb的结构变异。CNV很常见，占人类基因组的4.8-9.5％。随着研究的深入，已明确CNV与多种复杂疾病的密切相关，包括癌症、神经精神疾病和帕金森综合征等。因此，准确地检测CNV在临床的诊断和治疗中有重要的作用。与荧光原位杂交(FISH)和阵列比较基因组杂交(array comparative genomic hybridization,CGH)等传统技术相比，下一代测序技术(NGS)具有更高的分辨率、更高的效率和更低的成本，因此基于NGS技术的CNV检测方法受到广泛的关注。

目前已经开发了多种用于全基因组测序(WGS)、全外显子组测序(WES)的及靶向捕获测序数据的CNV工具，例如CONTRA，CNVKIT，FACETS等常用的检测工具，均基于读段深度(RD)进行CNV的检测。通常，CNV检测算法可以分为四个主要阶段。首先是覆盖深度计算，采用无重叠的静态滑动窗口将基因组划分为小区间统计每个bin的RD信号；然后是质量控制，将覆盖度低的区域或者重复区域剔除；接下来，在假设不发生CNV的情况下，将覆盖深度进行归一化，同时为了消除技术偏差的影响，包括目标区域的读取可映射性和GC含量，通常采用loess校正方法进行校正，另外，CNV检测算法需考虑到参考样本集的覆盖深度以减少系统噪声，计算原始覆盖深度与归一化覆盖深度的对数比；最后，应用分割算法确定CNV的断点。

参考样本集的适当选择对背景建模有很大的影响，然而大多数工具都没有提供从可用样本中选择最佳参考集的程序，应用固定的对照参考集时未考虑批次偏差的影响，易造成假阴或者假阳性结果。ExomeDepth和CANOES基于待测样本与其他样本之间的相关性计数，旨在找到最相似的元素并将其添加到参考集中，然后，取k个最近邻(kNN)，即k个最相关的样本作为特定元素的参考集，如CN107810502A公开用于拷贝数变异检测的方法和系统，应用样本分组技术来选择参考覆盖度数据；应用样本分组技术来选择参考覆盖度数据包括：接收所述样本覆盖度数据的多个度量；基于所述多个度量来定义所述样本覆盖度数据和所述参考覆盖度数据之间的距离度量；以及基于所述距离度量为每个样本选择所述参考覆盖度数据；其中所述样本分组技术包括k-最近邻(knn)算法，并且应用所述样本分组技术来选择参考覆盖度数据。然而上述方法对内存要求较高，计算量大。

综上所述，开发有效的CNV检测参考样本集构建方法，以提高检测准确度，同时降低计算需求，对于CNV检测领域具有重要意义。

发明内容

针对现有技术的不足和实际需求，本发明提供一种拷贝数变异检测参考集构建方法及其应用，尤其涉及一种基于k-means聚类算法的拷贝数变异检测参考集的构建方法及其应用。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种拷贝数变异检测参考集的构建方法，所述方法包括：

选取不存在基因拷贝数变异的健康样本，将健康样本与待测样本进行测序，对测序数据进行预处理及比对；

利用无重叠的静态滑动窗口将靶向捕获区域分成多个片段，统计每个窗口的覆盖深度，并计算参考序列对应窗口的GC含量及可映射性，去除可映射性小于0.5和GC含量小于20％或大于80％的bin，利用覆盖深度的中位数对每个窗口的覆盖深度进行归一化；并采用loess方法去除GC偏差和可映射性偏差；

利用K-means方法，将整个健康样本集被分为k组，根据公式(1)计算目标K值，其中，K为类别数量，p为样本，C_k是第k个聚类/簇的样本集，c_k是第k个聚类/簇的中心点；

然后基于每个bin的覆盖深度之间的相关性作为接近度量，筛选与待测样本最接近的聚类样本集，构成参考数据集。

本发明中设计一种基于k-means聚类算法的拷贝数变异检测参考集的构建方法，利用K-means方法，将整个健康样本集被分为k组，采用Elbowmethod方法确定合适的K值，WSS(K)是所有样本离其聚类中心点的距离的平方和。K的取值由小到大变化时，越接近“合适”的类别数时，WSS的下降幅度也会越大，当超过“合适”的类别数地，WSS的下降幅度也就趋于平缓了。当由快速下降到趋于平缓的拐点，就是最合适的K值，实现根据待测样本自动选择最佳参考集，降低CNV检测的假阴、假阳性结果概率，提高检测准确度，且计算速度快，鲁棒性强。

优选地，所述预处理及比对包括：

对测序数据进行去除接头及，切除首段和尾段碱基质量小于3的碱基，设置4碱基长的滑窗，去除窗口内平均碱基质量小于15的碱基，丢弃长度小于50bp的的reads，与人类基因组参考序列比对，去除未比对上及比对得分小于20的reads，并去除PCR扩增过程中产生的重复序列。

优选地，所述健康样本与待测样本在相同条件下进行测序，包括样本来源，起始DNA含量，文库构建方法，测序平台，测试方法及数据量等。

优选地，所述健康样本与待测样本各自独立地为全血、唾液、尿液、FFPE或ctDNA中任意一种。

优选地，所述人类基因组参考序列包括人类基因组参考序列hg19。

优选地，所述测序的方法包括基于高通量测序平台的目标区域测序。

作为优选的技术方案，所述拷贝数变异检测参考集的构建方法包括以下步骤：

(1)选取不存在基因拷贝数变异的健康样本，将健康样本与待测样本在相同条件下进行测序，对测序数据进行去除接头及低质量的reads，与人类基因组参考序列hg19比对，去除未比对上及比对得分低的reads，并去除PCR扩增过程中产生的重复序列；

(2)利用无重叠的静态滑动窗口将靶向捕获区域分成多个片段，统计每个窗口的覆盖深度，并计算参考序列对应窗口的GC含量及可映射性，去除可映射性小于0.5、GC含量小于20％或大于80％的bin，利用覆盖深度的中位数对每个窗口的覆盖深度进行归一化；

(3)采用loess方法去除GC偏差和可映射性偏差；

(4)利用K-means方法，将整个健康样本集被分为k组，根据公式(1)计算目标K值，其中，K为类别数量，p为样本，C_k是第k个聚类/簇的样本集，c_k是第k个聚类的中心点；K的取值由小到大变化时，越接近“合适”的类别数时，WSS的下降幅度也会越大，当超过“合适”的类别数地，WSS的下降幅度也就趋于平缓了，当由快速下降到趋于平缓的拐点，就是目标K值；

然后基于每个bin的覆盖深度之间的相关性作为接近度量，筛选与待测样本最接近的聚类样本集，作为拷贝数变异检测参考集。

本发明中，筛选与待测样本最接近的聚类样本集的方法具体包括：

计算待测样本与每个类的中心点坐标的欧几里得距离，选择距离最小的子类作为最终的参考集。

第二方面，本发明提供第一方面所述的拷贝数变异检测参考集的构建方法在拷贝数变异检测中的应用。

第三方面，本发明提供一种拷贝数变异检测方法，所述拷贝数变异检测方法包括：

利用第一方面所述的拷贝数变异检测参考集的构建方法构建参考集；

将待测样本的覆盖深度与参考集中样本覆盖深度的均值进行loess局部加权线性回归，计算得到残差，作为校正后的覆盖深度，利用CBS算法对校正后的覆盖深度进行分割，检测CNV断点，计算分割区域的覆盖深度的均值x，拷贝数为n＝round(2*x+2)，其中，n为分割区域的拷贝数。

本发明中，计算分割区域的覆盖深度的均值x的方法具体包括：

将每个分割区域内的全部bin的校正后的覆盖深度求和，再除以每个分割区域的bin的数量。

第四方面，本发明提供一种拷贝数变异检测装置，所述装置包括构建参考集单元和计算单元；

所述构建参考集单元用于执行包括：

所述计算单元用于执行包括：

将待测样本的覆盖深度与参考集中样本覆盖深度的均值进行加权线性回归，计算得到残差，作为校正后的覆盖深度，利用CBS算法对校正后的覆盖深度进行分割，检测CNV断点，计算分割区域的覆盖深度的均值x，拷贝数为n＝round(2*x+2)，其中，n为分割区域的拷贝数。

与现有技术相比，本发明具有以下有益效果：

本发明设计全新拷贝数变异检测参考集的构建方法，基于k-means聚类算法，根据待测样本自动选择最佳参考集，降低CNV检测的假阴、假阳性结果概率，提高检测准确度，且计算速度快，鲁棒性强。

附图说明

图1为利用WSS选择最优的聚类K值结果图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道购买获得的常规产品。

实施例1

采用500例健康样本进行靶向测序，测序平台USCISEQ-200，首先对下机数据进行预处理，对测序数据进行去除接头，切除首段和尾段碱基质量小于3的碱基，设置4碱基长的滑窗，去除窗口内平均碱基质量小于15的碱基，丢弃长度小于50bp的的reads，与人类基因组参考序列hg19比对，去除未比对上及比对得分小于20的reads，并去除PCR扩增过程中产生的重复序列。

利用K-means方法，将整个健康样本集被分为k组，根据公式(1)计算目标K值，其中，K为类别数量，p为样本，C_k是第k个聚类/簇的样本集，c_k是第k个聚类的中心点；K的取值由小到大变化时，越接近“合适”的类别数时，WSS的下降幅度也会越大，当超过“合适”的类别数地，WSS的下降幅度也就趋于平缓了，当由快速下降到趋于平缓的拐点，就是目标K值；如图1所示，在K＝5时，WSS的下降速度开始变缓，即出现拐点，因此取K＝5是最合适的。

然后基于每个bin的覆盖深度之间的相关性作为接近度量，筛选与待测样本最接近的聚类样本集，作为拷贝数变异检测参考集。计算待测样本与每个类的中心点坐标的欧几里得距离，选择距离最小的子类作为最终的参考集。

将待测样本的覆盖深度与参考集中样本覆盖深度的均值进行loess局部加权线性回归，计算得到残差，作为校正后的覆盖深度，利用CBS算法对校正后的覆盖深度进行分割，检测CNV断点，计算分割区域的覆盖深度的均值x，拷贝数为n＝round(2*x+2)，其中，n为分割区域的拷贝数。计算分割区域的覆盖深度的均值x的方法具体包括：将每个分割区域内的全部bin的校正后的覆盖深度求和，再除以每个分割区域的bin的数量。

实施例2

利用上述方法对6例人工模拟的拷贝数异常样本进行分析，样本共设5种CNV，拷贝数分别为0、1、3、4、5，表1、表2分别为5例测试样本采用优化的参考集和全部样本构建的参考集的检出结果，最后一列为模拟数据的真实拷贝数，为了便于统计，覆盖异常区域的80％，则认为检出区域一致。从表1和表2可以看出，本发明采用优化的参考集所计算出的染色体拷贝数具有较高的准确性。

表1 5例测试样本采用优化的参考集的检出结果

样本编号	染色体	起始位置	终止位置	基因	校正后残差	计算拷贝数	真实拷贝数
								S1	chr17	37855732	37884191	ERBB2	0.408	3	3
S2	chr7	55087034	55177653	EGFR	1.119	4	4
								S3	chr7	116339071	116436179	MET	1.365	5	5
S4	chr17	37333751	39386357	ERBB2	-0.438	0	0
								S5	chr7	55086994	55273369	EGFR	-0.896	1	1

表2 5例测试样本采用全部样本构建的参考集的检出结果

样本编号	染色体	起始位置	终止位置	基因	校正后残差	计算拷贝数	真实拷贝数
								S1	chr17	37855771	37884299	ERBB2	0.384	3	3
S2	chr7	55087034	55177653	EGFR	0.892	4	4
								S3	chr7	116339071	116436179	MET	1.244	4	5
S4	chr17	37333751	39386357	ERBB2	-0.413	0	0
								S5	chr7	55086954	55273334	EGFR	-0.765	1	1

综上所述，本发明设计全新拷贝数变异检测参考集的构建方法，基于k-means聚类算法，根据待测样本自动选择最佳参考集，降低CNV检测的假阴、假阳性结果概率，提高检测准确度，且计算速度快，鲁棒性强。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种拷贝数变异检测参考集的构建方法，其特征在于，所述方法包括：

利用K-means方法，将整个健康样本集被分为k组，根据公式(1)计算目标K值，其中，K为类别数量，p为样本，C_k是第k个聚类的样本集，c_k是第k个聚类的中心点；

2.根据权利要求1所述的拷贝数变异检测参考集的构建方法，其特征在于，所述预处理及比对包括：

对测序数据进行去除接头，切除首段和尾段碱基质量小于3的碱基，设置4碱基长的滑窗，去除窗口内平均碱基质量小于15的碱基，丢弃长度小于50bp的reads，与人类基因组参考序列比对，去除未比对上及比对得分小于20的reads，并去除PCR扩增过程中产生的重复序列。

3.根据权利要求1或2所述的拷贝数变异检测参考集的构建方法，其特征在于，所述健康样本与待测样本在相同条件下进行测序。

4.根据权利要求1-3任一项所述的拷贝数变异检测参考集的构建方法，其特征在于，所述健康样本与待测样本各自独立地为全血、唾液、尿液、FFPE或ctDNA中任意一种。

5.根据权利要求2所述的拷贝数变异检测参考集的构建方法，其特征在于，所述人类基因组参考序列包括人类基因组参考序列hg19。

6.根据权利要求1-5任一项所述的拷贝数变异检测参考集的构建方法，其特征在于，所述测序的方法包括基于高通量测序平台的目标区域测序。

7.根据权利要求1-6任一项所述的拷贝数变异检测参考集的构建方法，其特征在于，所述方法包括以下步骤：

(1)选取不存在基因拷贝数变异的健康样本，将健康样本与待测样本在相同条件下进行测序，对测序数据进行去除接头及低质量的reads，与人类基因组参考序列比对，去除未比对上及比对得分低的reads，并去除PCR扩增过程中产生的重复序列；

(3)采用loess方法去除GC偏差和可映射性偏差；

(4)利用K-means方法，将整个健康样本集被分为k组，根据公式(1)计算目标K值，其中，K为类别数量，p为样本，C_k是第k个聚类/簇的样本集，c_k是第k个聚类的中心点；

8.权利要求1-7任一项所述的拷贝数变异检测参考集的构建方法在拷贝数变异检测中的应用。

9.一种拷贝数变异检测方法，其特征在于，所述拷贝数变异检测方法包括：

利用权利要求1-7任一项所述的拷贝数变异检测参考集的构建方法构建参考集；

将待测样本的覆盖深度与参考集中样本覆盖深度的均值进行加权线性回归，计算得到残差，作为校正后的覆盖深度，利用CBS算法对校正后的覆盖深度进行分割，检测CNV断点，计算分割区域的覆盖深度的均值x，拷贝数为2x。

10.一种拷贝数变异检测装置，其特征在于，所述装置包括构建参考集单元和计算单元；

所述构建参考集单元用于执行包括：

所述计算单元用于执行包括：