CN110808084A

CN110808084A - 一种基于单样本二代测序数据的拷贝数变异检测方法

Info

Publication number: CN110808084A
Application number: CN201910888717.7A
Authority: CN
Inventors: 刘国军; 袁细国
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-18
Anticipated expiration: 2039-09-19
Also published as: CN110808084B

Abstract

本发明属于拷贝数变异(CNV)检测技术领域，公开了一种基于单样本二代测序数据的拷贝数变异检测方法；前期对数据进行预处理，过滤无效位置，GC含量校准，均衡数据，数据去噪，通过对数据进行分段处理，一部分数据用来拟合模型，另一部分数据用作被测数据，两部分数据交叉检测使变异在模型中检测出来，计算每个数据的概率值，选取一个显著性水平(α)，利用假设检验的方法预测CNV。为了进一步验证方法的有效性，本发明对仿真数据样本进行检测，并和现有几种比较流行的方法进行比对，均表现出最好的性能。本发明检测高效、精确易于操作，并且检测速度较快；在测试低纯度数据得到准确率和召回率，均大大优于比对算法。

Description

一种基于单样本二代测序数据的拷贝数变异检测方法

技术领域

本发明属于拷贝数变异检测技术领域，尤其涉及一种基于单样本二代测序数据的拷贝数变异检测方法。

背景技术

目前，最接近的现有技术：目前，第二代测序技术的拷贝数变异检测方法主要有以下几种：paired-endmapping(PEM)：利用双端测序reads去检测拷贝数变异，由于从文库中获得的片段大小基本上固定，当双端reads比对到参考基因组上，如果reads之间距离发生改变，发生拷贝数变异。Depth ofcoverage(DOC)：第二代测序中最常用的检测方法，通过分析不同位置的reads深度信号的差异来检测拷贝数变异。Split-Read：reads在比对到参考基因组的时候，可能分成多个片段比对到基因组不同位置，通过断点检测拷贝数变异。denovo Assembly：组装后的序列和参考基因组的差异检测拷贝数变异。

目前，绝大多数检测CNV的方法基于DOC开发的，利用每个比对位置的read count信号去检测拷贝数变异扩增或缺失。下面本发明分析几个基于DOC方法的检测CNV的算法：

(1)CNVnator。[A.Abyzov,A.E.Urban,M.Snyder,and M.Gerstein,"CNVnator:anapproach to discover,genotype,and characterize typical and atypical CNVs fromfamily and population genome sequencing,"Genome Res,vol.21,no.6,pp.974-84,Jun2011,doi:10.1101/gr.114876.110.]，利用mean-shift方法去预测CNV，它不适合检测长度较小的CNVs。

(2)GROM-RD。[S.D.Smith,J.K.Kawash,and A.Grigoriev,"GROM-RD:resolvinggenomic biases to improve read depth detection of copy number variants,"PeerJ,vol.3,p.e836,2015,doi:10.7717/peerj.836.]它通过修正GC含量和重复偏差去评估CNVs，它不适合检测低纯度的肿瘤样本。

(3)iCopyDAV。[P.Dharanipragada,S.Vogeti,and N.Parekh,"iCopyDAV:Integrated platform for copy number variations-Detection,annotation andvisualization,"PLoS One,vol.13,no.4,p.e0195334,2018,doi:10.1371/journal.pone.0195334.]iCopyDAV是一个检测CNV的软件平台，它适合检测高纯度的肿瘤样本。

综上所述，现有技术存在的问题是：

(1)现有检测方法应用在低纯度的样本检测，精确性和敏感性低，假阳性高。

(2)基于DOC的拷贝数变异检测方法对拷贝数缺失的检测不敏感。

解决上述技术问题的难度：低纯度样本中，正常细胞占的比重较大，导致异常信号不明显，给检测带来很大挑战。基于DOC的拷贝数变异检测方法在检测CNV缺失比较难，一般缺失的拷贝数和正常的拷贝数比较接近，容易造成假阳性。

解决上述技术问题的意义：通过解决上述问题，使一些不显著的CNVs检测出来，这些CNVs具有很重要的生物学意义，为临床的精准治疗提供有效的帮助。

发明内容

针对现有技术存在的问题，本发明提供了一种基于单样本二代测序数据的拷贝数变异检测方法。

本发明是这样实现的，一种基于单样本二代测序数据的拷贝数变异检测方法，所述基于单样本二代测序数据的拷贝数变异检测方法通过利用一种基于交叉模型的统计方法把CNVs检测出来；

所述基于交叉模型的统计方法对数据进行预处理，异常位置过滤、GC含量校准、均衡read count信号、数据降噪，这样得到预处理数据。

进一步，所述基于单样本二代测序数据的拷贝数变异检测方法包括以下步骤：

第一步，通过和参考基因组比对，把一些不确定位置去除，这些位置容易导致检测错误；对每一个bin的GC含量校准，统计GC含量相等的bins，对它们的read counts取均值；均衡处理每个bin的read count信号；对每个bin的read count信号去噪；

第二步，把整个序列分为长度相等的10个segments；

第三步，提取分段数据，利用一个segment作为测试集数据，把其它的数据拟合一个高斯模型，计算测试数据数据的概率值；

第四步，利用假设检验方法去进一步预测CNV。

进一步，所述第二步序列分为10个长度相等的segments，

SEG＝(SEG₁,SEG₂,···,SEG₁₀)，

1≤i≤10，1≤j≤10，i≠j

进一步，首先把SEG_i作为测试集数据，把其它segments建立一个高斯模型，把SEG_i输入模型，得到每个数据的概率值，取α＝0.05，每个数据的概率值和α进行比较，小于α的认为是发生拷贝数变异，大于α的认为是正常区域；依次分别取SEG₂到SEG₁₀，直到每个segment都被检测和建模，测试完成。

进一步，所述第四步CNV类型分为两类：缺失和扩增；计算每个变异区域的bins的read counts均值，计算整个序列bins的read counts均值；如果变异区域所有bins的readcounts均值大于整个序列bins的read counts均值，则认为该区域发生拷贝数扩增；如果变异区域所有bins的read counts均值小于整个序列bins的read counts均值，则认为该区域发生拷贝数缺失。

本发明的另一目的在于提供一种应用所述基于单样本二代测序数据的拷贝数变异检测方法的信息数据处理终端。

综上所述，本发明的优点及积极效果为：本发明提出了一种基于交叉模型的统计方法对数据进行分段处理，数据之间是没有交集的，交叉检测使变异更易准确地在模型中检测出来，利用该模型对拷贝数变异的检测更加准确和高效。

本发明能够解决现有技术对拷贝数变异检测的一些缺陷；本发明提高了对低纯度数据的拷贝数变异检测的敏感性和精确性。

本发明提出了一种基于交叉模型的统计方法，检测高效、精确易于操作，并且检测速度较快。通过对不同覆盖度和纯度的数据测试，并把得到的实验结果和现有算法比较，该方法综合性能优于比较算法，尤其在测试低纯度数据得到准确率和召回率，均大大优于比对算法。

附图说明

图1是本发明实施例提供的基于单样本二代测序数据的拷贝数变异检测方法流程图。

图2是本发明实施例提供的基于单样本二代测序数据的拷贝数变异检测方法实现流程图。

图3是本发明实施例提供的测试对比结果示意图；

图中：(a)在肿瘤纯度是0.2，测序覆盖度是4x的情况下，六种方法测得F1-score的结果；(b)在肿瘤纯度是0.2，测序覆盖度是6x的情况下，六种方法测得F1-score的结果；(c)在肿瘤纯度是0.3，测序覆盖度是4x的情况下，六种方法测得F1-score的结果；(d)在肿瘤纯度是0.3，测序覆盖度是6x的情况下，六种方法测得F1-score的结果。

图4是本发明实施例提供的对算法检出的CNV区域的个数进行统计示意图；

图中：(a)在肿瘤纯度是0.2，测序覆盖度是4x的情况下，六种方法测得变异区个数的统计；(b)在肿瘤纯度是0.2，测序覆盖度是6x的情况下，六种方法测得变异区个数的统计；(c)在肿瘤纯度是0.3，测序覆盖度是4x的情况下，六种方法测得变异区个数的统计；(d)在肿瘤纯度是0.3，测序覆盖度是6x的情况下，六种方法测得变异区个数的统计。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体的实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有检测方法应用在低覆盖度和低纯度的样本检测，精确性和敏感性低，假阳性高；基于DOC的拷贝数变异检测方法对拷贝数缺失的检测不敏感的问题。本发明对于低覆盖度和低纯度的样本检测，利用DOC方法检测尤其缺失信号和正常信号差异很小，利用预处理方法高信号和正常信号差，比例提高低信号，提高缺失信号和正常信号的差异性，便于检出缺失信号；前期对数据进行预处理处理，应用GC校准和去噪声等方法提高方法的精确性和敏感性，降低了假阳性率。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于单样本二代测序数据的拷贝数变异检测方法包括以下步骤：

S101：GC含量校准，把GC个数相等的区域的read counts取均值；利用去噪算法，对每个bin进行去噪；

S102：将序列分为10个长度相等的segments；

S103：采用基于交叉模型的统计方法对segmentation后的数据进行处理，确定测试集数据和建模数据，计算每个数据的概率值；

S104：利用假设检验的方法把变异区域提取出来，确定变异区域CNV类型。

下面结合附图对本发明的应用原理作进一步的描述。

本发明实施例提供的基于单样本二代测序数据的拷贝数变异检测方法是一种利用第二代测序数据，根据read count信号去检测拷贝数变异的方法。整个算法最主要有以下概念：

参考基因组：是一个由A、T、C、G四种字符组成的字符串。

read：另一个个体基因组的部分序列，基因组的一个子串。

read count：找出在参考基因组上每个read出现的位置，计算每个位置比对上的reads个数。

bin：类似一个窗口，落入bin中的reads的read counts求均值。

拷贝数变异(CNV)：是DNA结构变异的一种情况，是指长度在1kb以上的DNA片段的扩增或缺失。

如图2所示，本发明实施例提供的基于单样本二代测序数据的拷贝数变异检测方法包括以下步骤：

(1)数据预处理

利用SAMtools工具从bam文件中提取出read count文件，文件包括read counts值和对应的位置信息，因为设备的误差及PCR扩增的因素，造成GC含量的差异，这种偏差可导致检测结果不准确，所以在预处理阶段进行GC含量校准，把GC含量相等的区域read counts取均值，保证GC个数相等的区域，GC含量的一致性。利用去噪声算法，对每个bin进行去噪，保证分段区域的read counts一致性，更有利于检出CNVs，更易于进一步确定拷贝数变异扩增和缺失区域，提高方法检测的敏感性和精确性。

(2)序列segmentation

把序列分为10个长度相等的segments，

SEG＝(SEG₁,SEG₂,···,SEG₁₀)，1≤i≤10，1≤j≤10，i≠j

(3)交叉模型

用交叉模型对segmentation后的数据进行处理，首先把SEG_i里面的数据作为测试集数据，把其他segments的数据建立一个高斯模型，计算SEG_i的概率值。这里本发明取显著性水平α＝0.05，每个数据的概率值和α进行比较，小于α的认为是发生拷贝数变异，大于α的认为是正常区域。

(4)确定变异类别

把变异区域提取出来，确定变异区域CNV类型。CNV类型分为两类：缺失和扩增。计算每个变异区域的bins的read counts均值，计算整个序列bins的read counts均值；如果变异区域所有bins的read counts均值大于整个序列bins的read counts均值，则认为该区域发生拷贝数扩增；如果变异区域所有bins的read counts均值小于整个序列bins的readcounts均值，则认为该区域发生拷贝数缺失。

下面结合实验对本发明的技术效果作详细的描述。

实验1

本发明提出了基于交叉模型的统计方法，检测高效、精确易于操作，并且检测速度较快。通过对不同覆盖度和纯度的数据测试，并把得到的实验结果和现有算法比较，该方法综合性能优于比较算法，尤其在测试低纯度数据得到准确率和召回率，均大大优于比对算法，具体的比对结果显示在图3中。

在图3中，本发明一共统计了三个指标(recall，precision和F1-score)去评估每个算法的性能，TP代表肿瘤纯度，SC代表测序覆盖度。本发明选择了五种方法和本发明的方法进行比对。本发明的方法命名为CRSCNV，其他五种方法分别为FREEC、SeqCNV、GROM-RD、CNVnator和iCopyDAV。recall代表召回率，precision代表准确率，F1-score代表准确率和召回率的调和平均值。黑色曲线代表了F1-score水平。F1-score值越高，说明方法越有效。从图中本发明可以看到CRSCNV取得了较高的recall和中等的precision，取得了最好的F1-score。说明本发明的方法性能是最好的在这几种方法中。

实验2

为了进一步验证算法的有效性，本发明对算法检出的CNV区域的个数进行统计如图4所示。在图4中，VN代表变异区的个数，TP代表肿瘤纯度，SC代表测序覆盖度。这里一共有14个变异区。和其他五种算法相比CRSCNV检出了最多的变异区，进一步说明了CRSCNV的有效性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于单样本二代测序数据的拷贝数变异检测方法，其特征在于，所述基于单样本二代测序数据的拷贝数变异检测方法通过对数据进行预处理、分段处理、建立统计量，建立一个统计模型基于交叉模型，使变异在模型中检测出来；

所述统计模型对数据进行处理，通过模型去计算每个数据的概率值，选取合适的显著性水平，利用假设检验方法去预测候选的CNVs。

2.如权利要求1所述的基于单样本二代测序数据的拷贝数变异检测方法，其特征在于，所述基于单样本二代测序数据的拷贝数变异检测方法包括以下步骤：

第一步，对每个bin的GC含量校准，计算GC含量相等的bins的read counts均值；对每个bin进行去噪；

第二步，把序列分为10个长度相等的segments，每个segment是互斥的；

第三步，任选一个segment的数据作为被检测数据，把其余的segments数据建立一个统计模型，通过模型计算被测数据的概率值；

第四步，选择合适的显著性水平α利用假设检验的方法，概率值小于α的bins的概率值，是一个CNV区域。

3.如权利要求2所述的基于单样本二代测序数据的拷贝数变异检测方法，其特征在于，所述第二步序列分为10个长度相等的segments，

SEG＝(SEG₁,SEG₂,···,SEG₁₀)，

1≤i≤10，1≤j≤10，i≠j。

4.如权利要求2所述的基于单样本二代测序数据的拷贝数变异检测方法，其特征在于，所述第三步对数据是segmentation后的数据进行处理，首先把SEG_i里面的数据作为测试集数据，把其余的数据建立一个高斯模型，把SEG_i的数据输入模型，得到每个数据的概率值，取α＝0.05，每个数据的概率值和α进行比较，小于α的认为是发生拷贝数变异，大于α的认为是正常区域；依次分别取SEG₂到SEG₁₀，直到把每个segment区域检测出来。

5.如权利要求2所述的基于单样本二代测序数据的拷贝数变异检测方法，其特征在于，所述第四步CNV类型分为两类：缺失和扩增；计算每个变异区域的bins的read counts均值，计算整个序列bins的read counts均值；如果变异区域所有bins的read counts均值大于整个序列bins的read counts均值，则认为该区域发生拷贝数扩增；如果变异区域所有bins的read counts均值小于整个序列bins的read counts均值，则认为该区域发生拷贝数缺失。

6.一种应用权利要求1-5任意一项所述基于单样本二代测序数据的拷贝数变异检测方法的信息数据处理终端。