CN114944195A

CN114944195A - 一种拷贝数变异检测前的数据矫正方法

Info

Publication number: CN114944195A
Application number: CN202210516756.6A
Authority: CN
Inventors: 邢彦如; 张军; 苏春明; 蔡举; 孔令印; 梁波
Original assignee: Suzhou Basecare Medical Device Co ltd
Current assignee: Suzhou Basecare Medical Device Co ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-26

Abstract

本发明公开了一种用于拷贝数变异检测的数据矫正方法。所述方法包括以下步骤：(1)获取每个窗口下的GC含量和深度覆盖值DOC，过滤掉GC含量或DOC为0的区域；(2)进行指数平滑处理；(3)使用局部加权回归模型loess对DOC_ets进行GC矫正，获得DOC_loess；(4)将DOC_loess除以所有窗口下的DOC_loess的中值，获得最终矫正后的每个窗口下的DOC_final。本发明将指数平滑方法应用至基于高通量测序背景下的基因组拷贝数变异检测前的数据降噪，能够有效的降低由于建库、测序等技术造成的测序序列在基因组上分布不均一的现象。

Description

一种拷贝数变异检测前的数据矫正方法

技术领域

本发明属于基因检测技术领域，涉及一种拷贝数变异检测前的数据矫正方法。

背景技术

基因的拷贝数变异(Copy Number Variation，CNV)是一类在临床上非常重要的结构变异，小的CNV通常是良性的，但大于250kb的CNV与发育障碍和癌症等病态后果密切相关。鉴定种群内和种群间的CNV对于更好地理解基因组的可塑性和阐明其对疾病或表型特征的可能贡献至关重要。虽然SNP和疾病易感性之间的联系已经得到了很好的研究，但迄今为止发表的CNV全基因组关联研究仍然很少；这可能是因为CNV分析仍比SNP分析稍微复杂，比如在生物信息学工作方面会导致CNV鉴定的高假阳性率和未知假阴性率。

二代测序技术(NGS)为基因组拷贝数变异鉴定提供了一个快速和廉价的平台，也具有较高的分辨率和灵敏度，但是其产生的数据在后续分析中依然存在挑战。因为在DNA文库构建过程中就开始引入了DNA文库扩增的不平衡，比如引物、文库片段大小的选择、PCR扩增和测序错误概率等。有研究表明PCR在测序前的各个阶段起主导作用(Aird D,Ross M G,Chen W S,et al.Analyzing and minimizing PCR amplification bias in Illuminasequencing libraries[J].Genome Biol,2011,12(2):R18.)，其中基因组本身的结构问题如富含GC的基因组区域往往被过度扩增，DNA或染色质的局部结构可能导致测序序列覆盖不均一，多种因素的叠加使得最终获得的测序结果在基因组中的分布是不均一的。因此，CNV鉴定之前必须去除测序序列在基因组上的分布偏差，以降低由于技术导致的噪音，识别出真正的CNV。

GC含量是目前研究比较明确的影响测序序列分布的因素之一，目前的大多方法针对GC效应进行了矫正，包括通过回归模型如loess(Boeva V,Zinovyev A,Bleakley K,etal.Control-free calling of copy number alterations in deep-sequencing datausing GC-content normalization[J].Bioinformatics,2011,27(2):268-9.)进行建模来矫正特定窗口下测序序列的覆盖深度(Depth of Coverage，DOC)的GC效应，此外，有一些研究通过在核苷酸水平而不是基因组窗口水平上对比对到基因组的序列数进行GC偏倚的矫正。但目前的矫正方法得到的序列在基因组上的分布依然存在较大的波动，并没有达到较好的降噪效果。

综上所述，如何提供一种降噪方法，以降低测序序列在基因组上分布的波动，使得测序数据能更真实的反映样本基因组的覆盖情况，是CNV检测领域亟需解决问题之一。

发明内容

针对现有技术的不足和实际需求，本发明提供一种拷贝数变异检测前的数据矫正方法，所述方法能够有效降低测序序列在基因组上分布的波动，使得测序数据能更真实的反映样本基因组的覆盖情况。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种用于拷贝数变异检测的数据矫正方法，所述方法包括以下步骤：

(1)获取每个窗口下的GC含量和深度覆盖值DOC，过滤掉GC含量或DOC为0的区域；

(2)指数平滑处理：使用Holt线性方法进行DOC值的指数平滑处理；

或者，使用公式(1)将DOC进行指数平滑处理，得到DOC_ets；

DOC_ets＝ets(DOC) 公式(1)，

其中ets为R语言forecast包中的函数；

(3)使用局部加权回归模型loess对DOC_ets进行GC矫正，获得每个窗口下的矫正权重，以矫正权重的倒数乘以DOC_ets获得DOC_loess；

(4)按公式(2)将DOC_loess除以所有窗口下的DOC_loess的中值，获得最终矫正后的每个窗口下的DOC，记为DOC_final；

DOC_final＝DOC_loess/median(DOC_loess) 公式(2)，

median(DOC_loess)表示所有窗口下的DOC_loess的中值。

本发明中，使用具有乘性误差的Holt线性方法进行DOC值的指数平滑处理，具体公式如下：

将向前一步训练误差指定为相对误差，可以得到：

ε_t＝(y_t-(l_t-1+b_t-1))/(l_t-1+b_t-1) (3)；

预测方程：y_t＝(l_t-1+b_t-1)(1+ε_t) (4)；

水平方程：l_t＝(l_t-1+b_t-1)(1+αε_t) (5)；

趋势方程：b_t＝b_t-1+β(l_t-1+b_t-1)ε_t (6)；

其中β＝αβ*且ε_t～NID(0,σ2) (7)。

其中y_t表示在t时刻该时间序列的预测值，由t-1时刻的水平估计值、趋势估计值和相对误差共同决定；l_t表示在t时刻该时间序列的水平的估计值，α是水平0≤α≤1的平滑参数；水平方程表明l_t是由t-1时刻的水平估计值、趋势估计值、相对误差和水平平滑参数共同决定；b_t表示该时间序列在t时刻的趋势(斜率)的估计，β*是趋势0≤β*≤1的平滑参数；趋势方程表明，b_t是由t-1时刻的水平估计值、趋势估计值、相对误差、水平平滑参数和趋势平滑参数共同决定。

或在R语言forecast包中可以使用ets函数直接对的DOC值进行指数平滑处理，并对α、β*和初始l和b进行调参。

本发明中，将指数平滑方法应用至基于高通量测序背景下的基因组拷贝数变异检测前的数据降噪，提供了一种用于拷贝数变异检测的数据矫正方法，所述方法能够有效的降低由于建库、测序等技术造成的测序序列在基因组上分布不均一的现象，且易于扩展到用于CNV检测的其他技术手段，如基于全外显子组测序(WES)的CNV检测，易于整合到CNV检测的装置中，具有较高的应用价值。

优选地，步骤(1)前还包括比对序列和划分窗口的步骤。

优选地，所述比对序列包括获取待测样本基因组的测序数据，与参考基因组进行比对，并按照染色体进行排序，对比对的结果进行去重复。

优选地，所述划分窗口包括按照给定的窗口大小对参考基因组进行窗口划分，生成各个窗口对应的GC含量，并统计每个窗口下的序列数，记为每个窗口下的深度覆盖值DOC。

作为优选的技术方案，所述用于拷贝数变异检测的数据矫正方法包括以下步骤：

(1)获取待测样本基因组的测序数据，与参考基因组进行比对，并按照染色体进行排序，对比对的结果进行去重复；

(2)按照给定的窗口大小对参考基因组进行窗口划分，生成各个窗口对应的GC含量，并统计每个窗口下的序列数，记为每个窗口下的深度覆盖值DOC；

(3)过滤掉GC含量或DOC为0的区域；

(4)使用Holt线性方法进行DOC值的指数平滑处理；

或者，使用公式(1)将DOC进行指数平滑处理，得到DOC_ets；

(5)使用局部加权回归模型loess对DOC_ets进行GC矫正，获得每个窗口下的矫正权重，以矫正权重的倒数乘以DOC_ets获得DOC_loess；

(6)按公式(2)将DOC_loess除以所有窗口下的DOC_loess的中值，获得最终矫正后的每个窗口下的DOC，记为DOC_final。

第二方面，本发明提供一种以非疾病诊断和/或治疗为目的的拷贝数变异检测方法，所述方法包括：

利用第一方面所述的用于拷贝数变异检测的数据矫正方法对样本基因组的测序数据进行矫正，进行拷贝数变异判断。

本发明中，提供一种以非疾病诊断和/或治疗为目的的拷贝数变异检测方法，可应用与拷贝数变异相关科学研究等。

优选地，所述以非疾病诊断和/或治疗为目的的拷贝数变异检测方法包括以下步骤：

(1’)获取待测样本基因组的测序数据，与参考基因组进行比对，并按照染色体进行排序，对比对的结果进行去重复；

(2’)按照给定的窗口大小对参考基因组进行窗口划分，生成各个窗口对应的GC含量，并统计每个窗口下的序列数，记为每个窗口下的深度覆盖值DOC；

(3’)过滤掉GC含量或DOC为0的区域；

(4’)使用Holt线性方法进行DOC值的指数平滑处理；

或者，使用公式(1)将DOC进行指数平滑处理，得到DOC_ets；

(5’)使用局部加权回归模型loess对DOC_ets进行GC矫正，获得每个窗口下的矫正权重，以矫正权重的倒数乘以DOC_ets获得DOC_loess；

(6’)按公式(2)将DOC_loess除以所有窗口下的DOC_loess的中值，获得最终矫正后的每个窗口下的DOC，记为DOC_final；

(7’)将DOC_final进行分片，利用分片后的数据进行差异性分析，报告拷贝数变异信息。

第三方面，本发明提供一种拷贝数变异检测装置，所述拷贝数变异检测装置包括：

序列比对模块：用于获取待测样本基因组的测序数据，与参考基因组进行比对；

窗口划分模块：与所述序列比对模块相连接，用于按照给定的窗口大小对参考基因组进行窗口划分，生成各个窗口对应的GC含量，并统计每个窗口下的序列数；

数据矫正模块：与所述窗口划分模块相连接，用于执行第一方面所述的用于拷贝数变异检测的数据矫正方法中的步骤；

拷贝数变异判定模块：与所述数据矫正模块相连接，用于进行拷贝数变异判断。

优选地，所述序列比对模块用于执行以下步骤：

(1”)获取待测样本基因组的测序数据，与参考基因组进行比对，并按照染色体进行排序；

(2”)对比对的结果进行去重复。

优选地，所述窗口划分模块用于执行以下步骤：

按照给定的窗口大小对参考基因组进行窗口划分，生成各个窗口对应的GC含量，并统计每个窗口下的序列数，记为每个窗口下的的深度覆盖值DOC。

优选地，拷贝数变异判定模块用于执行以下步骤：

将所述数据矫正模块得到的最终矫正后的每个窗口下的DOC进行分片，利用分片后的数据进行差异性分析，报告拷贝数变异信息。

第四方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序执行第一方面所述的用于拷贝数变异检测的数据矫正方法或第二方面所述的以非疾病诊断和/或治疗为目的的拷贝数变异检测方法中的步骤。

第五方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序执行第一方面所述的用于拷贝数变异检测的数据矫正方法或第二方面所述的以非疾病诊断和/或治疗为目的的拷贝数变异检测方法中的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明中，创造性地将指数平滑方法应用至基于高通量测序背景下的基因组拷贝数变异检测前的数据降噪，提供了一种用于拷贝数变异检测的数据矫正方法，所述方法能够有效的降低由于建库、测序等技术造成的测序序列在基因组上分布不均一的现象，且易于扩展到用于CNV检测的其他技术手段，如基于全外显子组测序(WES)的CNV检测，易于整合到CNV检测的装置中，具有较高的应用价值。

附图说明

图1为本发明实施例1实验流程图；

图2为原始数据的DOC与CG含量关系图；

图3为仅使用loess矫正后数据的DOC与CG含量关系图；

图4为本发明实施例1中矫正后数据的DOC与CG含量关系图；

图5为原始数据的DOC在基因组上的分布图；

图6为仅使用loess矫正后数据的DOC在基因组上的分布图；

图7为本发明实施例1中矫正后数据的DOC在基因组上的分布图；

图8为原始数据的DOC在14号染色体基因重排区域的分布图；

图9为仅使用loess矫正后数据的DOC在14号染色体基因重排区域的分布图；

图10为本发明实施例1中矫正后数据的DOC在14号染色体基因重排区域的分布图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道商购获得的常规产品。

实施例1

本实施例采用本发明的方法进行拷贝数变异检测前的数据矫正，流程图如图1所示，具体步骤如下：

1、对样本进行DNA文库构建、测序

在本实施例中，检测样本为培养的人B细胞，DNA建库方法按照苏州贝康医疗器械有限公司提供的产品说明书(试剂盒货号：J000027)操作，上机测序采用苏州贝康医疗器械有限公司的DA500高通量测序平台，测序类型为单端(Single End)测序150，测序序列数为20M左右；

2、对测序数据进行分割

将测序数据随机切割为10M，15M和20M；

3、将序列比对到参考基因组，排序和去除重复

将得到的下机数据和人参考基因组(UCSC hg19)进行比对，并将比对生成的BAM文件排序、去除重复；

4、参考基因组的窗口划分

4.1将人的基因组按5kb，10kb，15kb和20kb的窗口进行分割并统计每个窗口的GC含量；

4.2统计3中获得的bam文件落入不同窗口大小下(5kb，10kb，15kb和20kb)的每个窗口的测序序列数；

4.3合并4.1和4.2文件，获得每个窗口下的GC含量和DOC；

5、数据矫正

5.1针对4.3中获得的每个窗口下的GC含量和DOC，首先过滤掉GC含量或DOC为0的区域；

5.2使用R forecast包中的ets函数对5.1获得的DOC结果进行指数平滑处理，以降低数据在参考基因组分布的波动性；模型参数为“MAN”，公式为：DOC_ets＝ets(DOC,model＝"MAN")；

5.3使用局部加权回归模型loess对DOC_ets进行GC矫正，获得每个窗口下的矫正权重；使用矫正权重的倒数乘以DOC_ets获得DOC_loess，以矫正由于高GC引起的测序序列分布偏差；

5.4将5.3每个窗口下的DOC_loess除以所有窗口DOC_loess的中位数获得最终矫正后的每个窗口下的序列数，公式为：DOC_final＝DOC_loess/median(DOC_loess)，该公式中，DOC_final表示最终的DOC值，median(DOC_loess)表示所有窗口的DOC_loess值的中值。

对矫正后的DOC在基因组上分布的数据统计结果如表1和表2所示，表1为不同测序数据量矫正后的DOC在基因组上分布的数据统计(windows bin＝20kb)，结果显示，测序量越大，覆盖在基因组的序列数波动越小，表2为比较20M的测序reads下，不同窗口大小下降噪后的DOC在基因组上分布的数据统计，结果显示，窗口越大，覆盖在基因组的序列数波动越小。

表1

	10M	15M	20M
				SD	0.38	0.33	0.31
Var	0.15	0.11	0.10
				CV	38.72	33.17	31.32
Range	41.97	34.21	31.37

表2

	5kb	10kb	15kb	20kb
					SD	0.35	0.33	0.32	0.31
Var	0.12	0.11	0.10	0.10
					CV	35.30	33.67	32.77	31.32
Range	41.39	36.69	33.22	31.37

对比例1

本对比例比较了本发明与原始数据，仅使用局部加权回归模型loess方法矫正的区别，其中具体实施步骤的1-4与实施例1中的1-4一致，5略有差异，不进行指数平滑处理相关步骤。

1、原始数据：

将获得的每个窗口下的唯一比对序列数除以所有窗口计数结果的中位数获得每个窗口下的序列数，如下述公式所示：DOC_rawfinal＝DOC/median(DOC)。该公式中，DOC_rawfinal表示最终的DOC值，median(DOC)表示所有窗口的DOC值的中值。

2、loess矫正：

(1)使用loess对每个窗口下的DOC进行GC矫正，获得每个窗口下的矫正权重；使用矫正权重的倒数乘以每个窗口下的DOC，获得DOC_loess。

(2)将上述得到的每个窗口下的序列数除以所有窗口计数结果的中位数获得最终矫正后的每个窗口下的序列数，公式为：DOC_loessfinal＝DOC_loess/median(DOC_loess)，该公式中，DOC_loessfinal表示最终的DOC值，median(DOC_loess)表示所有窗口的DOC_loess值的中值。

表3为测序量为20M，窗口大小为20kb下，仅使用loess方法矫正后的DOC在基因组上分布的数据统计，与本发明矫正方法相比，仅使用loess方法矫正后的DOC的分布更广(range:72.80>31.37)，数据波动更大(SD:0.49>0.31；Var：0.24>0.10；CV:49.47>31.32)。

表3

对原始数据、仅使用loess方法矫正的数据以及本发明方法矫正的数据的DOC与GC含量的关系进行分析，结果如图2-图4所示，经本发明方法矫正的数据的DOC更不容易受GC含量的改变而发生改变，且DOC在不同GC含量的区域中分布更集中。

对原始数据、仅使用loess方法矫正的数据以及本发明方法矫正的数据的DOC在基因组上的分布情况进行分析，结果如图5-图7所示，经本发明方法矫正的数据的DOC在不同染色体上的分布更集中。

对原始数据、仅使用loess方法矫正的数据以及本发明方法矫正的数据的DOC在14号染色体基因重排区域的分布情况进行分析，结果如图8-图10所示，经本发明方法矫正的数据的DOC在14号染色体基因重排区域的分布更集中，且重排区域的reads缺失更容易被识别出来。

综上所述，本发明创造性地将指数平滑方法应用至基于高通量测序背景下的基因组拷贝数变异检测前的数据降噪，提供了一种用于拷贝数变异检测的数据矫正方法，能够有效的降低由于建库、测序等技术造成的测序序列在基因组上分布不均一的现象，该方法易于扩展到用于CNV检测的其他技术手段，如区域捕获的CNV检测，易于整合到CNV检测的装置中，具有较高的应用价值。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种用于拷贝数变异检测的数据矫正方法，其特征在于，所述方法包括以下步骤：

(2)指数平滑处理：

使用Holt线性方法进行DOC值的指数平滑处理；

或者，使用公式(1)将DOC进行指数平滑处理，得到DOC_ets；

DOC_ets＝ets(DOC) 公式(1)，

其中ets为R语言forecast包中的函数；

DOC_final＝DOC_loess/median(DOC_loess) 公式(2)，

median(DOC_loess)表示所有窗口下的DOC_loess的中值。

2.根据权利要求1所述的用于拷贝数变异检测的数据矫正方法，其特征在于，步骤(1)前还包括比对序列和划分窗口的步骤。

3.根据权利要求2所述的用于拷贝数变异检测的数据矫正方法，其特征在于，所述比对序列包括获取待测样本基因组的测序数据，与参考基因组进行比对，并按照染色体进行排序，对比对的结果进行去重复；

4.根据权利要求1-3任一项所述的用于拷贝数变异检测的数据矫正方法，其特征在于，所述方法包括以下步骤：

(3)过滤掉GC含量或DOC为0的区域；

(4)使用Holt线性方法进行DOC值的指数平滑处理；

或者，使用公式(1)将DOC进行指数平滑处理，得到DOC_ets；

5.一种以非疾病诊断和/或治疗为目的的拷贝数变异检测方法，其特征在于，所述方法包括：

利用权利要求1-4任一项所述的用于拷贝数变异检测的数据矫正方法对样本基因组的测序数据进行矫正，进行拷贝数变异判断。

6.根据权利要求5所述的以非疾病诊断和/或治疗为目的的拷贝数变异检测方法，其特征在于，所述方法包括以下步骤：

(3’)过滤掉GC含量或DOC为0的区域；

(4’)使用Holt线性方法进行DOC值的指数平滑处理；或者，使用所述公式(1)将DOC进行指数平滑处理，得到DOC_ets；

(6’)按所述公式(2)将DOC_loess除以所有窗口下的DOC_loess的中值，获得最终矫正后的每个窗口下的DOC，记为DOC_final；

7.一种拷贝数变异检测装置，其特征在于，所述拷贝数变异检测装置包括：

数据矫正模块：与所述窗口划分模块相连接，用于执行权利要求1-4任一项所述的用于拷贝数变异检测的数据矫正方法中的步骤；

8.根据权利要求7所述的拷贝数变异检测装置，其特征在于，所述序列比对模块用于执行以下步骤：

(2”)对比对的结果进行去重复；

优选地，所述窗口划分模块用于执行以下步骤：

按照给定的窗口大小对参考基因组进行窗口划分，生成各个窗口对应的GC含量，并统计每个窗口下的序列数，记为每个窗口下的的深度覆盖值DOC；

优选地，拷贝数变异判定模块用于执行以下步骤：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序执行权利要求1-4任一项所述的用于拷贝数变异检测的数据矫正方法或权利要求5或6所述的以非疾病诊断和/或治疗为目的的拷贝数变异检测方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序执行权利要求1-4任一项所述的用于拷贝数变异检测的数据矫正方法或权利要求5或6所述的以非疾病诊断和/或治疗为目的的拷贝数变异检测方法中的步骤。