CN110310704A

CN110310704A - 一种基于局部异常因子的拷贝数变异检测方法

Info

Publication number: CN110310704A
Application number: CN201910381315.8A
Authority: CN
Inventors: 袁细国; 李俊萍; 李�杰; 张军英; 杨利英; 习佳宁
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-10-08

Abstract

本发明属于数据异常程度检测技术领域，公开了一种基于局部异常因子的拷贝数变异检测方法；本发明首先对数据进行预处理，减少了测序过程中带来的误差；本发明使用局部异常因子的算法将低敏感度的拷贝数变异区域的特征凸显出来，更容易，更准确的检测出低敏感度的拷贝数变异位置；操作简单，本发明只需要bam文件和参考序列即可完成检测，并且检测速度较快。同时，通过仿真数据的测试，可以发现本发明的测试结果相对于其它方法来说更为准确。本发明针对低敏感度区域的检测与现有方法做对比，正确率较高。现有技术对于低敏感度的拷贝数变异的检测造成遗漏，而本发明通过使用局部异常因子算法将该类型的变异区域的特征凸显出来，可以准确的检测出变异区域。

Description

一种基于局部异常因子的拷贝数变异检测方法

技术领域

本发明属于数据异常程度检测技术领域，尤其涉及一种基于局部异常因子的拷贝数变异检测方法。

背景技术

局部异常因子算法是一种基于密度的算法，量化了每个数据的异常程度。整个算法最主要的是一下四个概念：

1.k-邻近距离：对于点p来说，第k个与之最近的点与p点的距离称为点p的k-邻近距离。

2.可达距离：点p与点o的可达距离为点o的k-邻近距离与k到o点的直接距离的最大值。

3.局部可达密度：与点p距离小于等于p的k-邻近距离的点成为k邻近点，点p的局部可达密度就是点p与邻近点的平均可达距离的倒数。

4.局部异常因子：p的邻近点的平均局部可达密度跟点p的局部可达密度的比值。

所以，局部异常因子算法就是对每个点求该点的局部异常因子，也就是该点的异常程度。拷贝数变异：是DNA结构变异的一种情况，包括长度为1kb以上的DNA片段的增添与丢失。

目前，针对新一代测序技术的单样本拷贝数变异检测方法主要有以下几种：1.Read Depth(基于读段深度的检测方法，简称RD)；通过窗口的读段深度来检测拷贝数变异；2.Pair-end(双端比对的检测方法)；根据比较pair-end两端之间距离(插入片段的长度)与参考序列上的差异来确认拷贝数变异；3.Split Read：将序列进行分割，比较该片段与参考序列的差异来判断拷贝数变异；目前大多数使用read depth方法来检测拷贝数变异，而第二，三种方法大多用来检测其他结构体变异。从测序数据中获得的读段深度与拷贝数变异相关的，发生拷贝数增添区域的读段深度高，而拷贝数丢失的区域读段深度较低，所以可以根据每个窗口的读段深度来检测拷贝数变异。现阶段使用读段深度方法来检测拷贝数变异的主要思想分为两种：

(1)建立概率统计模型；该方法的依据是认为拷贝数与读段深度存在着线性关系，如泊松分布或高斯分布等。所以可以通过建立概率模型来确定拷贝数变异。如ReadDepth。但是该类方法需要假定拷贝数与读段深度服从某种分布，但是因为测序的误差等问题，使得拷贝数与读段深度并非是线性关系，所以该类方法会导致检测结果的不准确。

(2)使用机器学习某种算法检测拷贝数变异：如XHMM，该算法使用了隐马尔可夫模型来检测拷贝数变异；CNV-RF，该算法利用了随机森林算法确定拷贝数变异等。该类算法的准确率相对于第一类来说较为准确，但是大多数算法都是将拷贝数增添与丢失一同检测，忽略了敏感度较低的拷贝变异(拷贝数为3的增添变异和拷贝数为1的丢失)这一类信号不明显的特点，最终的检测结果仅能检测出敏感度较高的拷贝变异区域(拷贝数大于4的增添与拷贝数为0的丢失区域)，所以该类方法的灵敏度较低。

综上所述，现有技术存在的问题是：

(1)现有技术对于拷贝数变异的检测准确率较低了；

(2)现有技术对低老拷贝数变异区域的检测造成遗漏。

解决上述技术问题的难度：

1.目前的测序技术及分析过程使得读段深度与拷贝数并非存在线性关系，为了减少这些误差，必须要做好数据的预处理，如GC纠正，去除噪声等。

2.敏感度较低的拷贝变异区域的读段深度与正常区域的读段深度的差异对于高敏感度的拷贝数变异的读段深度与正常区域的差异来说，非常不明显，所以很难将该变异区域检测准确。

解决上述技术意义：

目前大多数检测拷贝数变异的方法，已经能够较为准确的检测出敏感度较高的拷贝变异区域，并应用与临床中，所以临床中也只能仅对该区域进行解析，这种分析是片面的，忽略了低敏感度的拷贝数变异带来的影响，所以要准确的检测出敏感度较低的拷贝数变异的意义非常重大。

发明内容

针对现有技术存在的问题，本发明提供了一种基于局部异常因子的拷贝数变异检测方法。

本发明是这样实现的，一种基于局部异常因子的拷贝数变异检测方法，所述基于局部异常因子的拷贝数变异检测方法包括以下步骤：

(1)提取read depth值：从bam文件中提取出每个窗口的read depth值，并对数据进行GC校正；

(2)数据预处理：将处理后的read depth值进行scaling计算，scaling计算首先将数据进行0均值归一化处理，将read depth处理成大于0的值和小于0的值；将read depth小于0的窗口进行某倍数的扩增，倍数通过将50个最大的read depth值与50个最小readdepth的绝对值相除所获得的比值，计算增加deletion区域read depth同正常区域的差异性；

(3)数据分割：将scaling后的read depth分成50段，分别通过CBS算法进行分割；

(4)异常点检测：将(3)产生的数据加上其位置信息组成二维数据，用局部异常因子检测算法对该二维数据进行计算，首先确定一个参数K，计算出该点A的第K距离，根据第K距离确定第K邻域{B1,B2...Bk}，也就是在第K距离内所有点的集合；再对K邻域内的每一个点Bi计算出第K距离，倘若A点属于Bi点的K邻域则两者之间的距离是第K距离，若不是的话两点的距离则是A与Bi的可达距离，欧式距离；A点将A到邻域B的每个点的距离相加除以邻域点的个数可获得A点的可达密度，同时也计算出B邻域中每个点的可达密度；最后将A点的可达密度与邻域内每个点的可达密度和的平均值相除，获得的比值就是该点的局部异常因子。

(5)使用箱形算法针对局部异常因子算法产生的score值进行筛选：

1.取这组score的四分位点，Q1.Q2和Q3；

2.计算Q3+1.5*(Q3-Q1)获得这组数据的上界upper；

3.score值大于上界upper的位点当做变异点，小于上界upper的位点当做变异点。

(6)确定拷贝数变异类型：将正常区域read depth的平均值作为标准；若变异区域的read depth值大于标准值，区域为增添duplication变异，若该区域的read depth值小于标准值，则认为该区域的变异类型是丢失deletion。

本发明首先通过对数据进行预处理，降低了测序误差带来的影响；本发明使用局部异常因子的算法将低敏感度的拷贝数变异区域的特征凸显出来，更容易，更准确的检测出此类变异位置；操作简单，本发明只需要bam文件和参考序列即可完成检测，并且检测速度较快。

下面的表格是该发明与现有的放心在仿真数据上进行对比的结果：

结果比较

如上表示，本发明针对低敏感度区域的检测与现有方法做对比，正确率较高。因此，本发明的优点及积极效果为：现有技术对于低敏感度的拷贝数变异的检测造成遗漏，而本发明通过使用局部异常因子算法将该类型的变异区域的特征凸显出来，可以准确的检测出变异区域。

附图说明

图1是本发明实施例提供的基于局部异常因子的拷贝数变异检测方法流程图。

图2是本发明实施例提供的基于局部异常因子的拷贝数变异检测方法实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术对于低覆盖度的数据，检测结果不准确；现有技术对拷贝数丢失变异检测不准确的问题。本发明前期对数据进行scaling处理，增加丢失区域read depth值同正常区域read depth值的差异，可以增加丢失变异检测的准确率。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于局部异常因子的拷贝数变异检测方法包括以下步骤：

S101：从bam文件中提取出每个窗口的read depth值；将一维read depth值进行scaling计算，scaling计算首先将数据进行0均值归一化处理，将read depth处理成大于0的值和小于0的值，之后将read depth小于0的窗口进行某倍数的扩增；

S102：对处理完的数据进行segment计算，将散乱的数据分割成长度不等的几个片段；将segment后的一维read depth数据加上位置信息转化成二维数据；

S103：将产生的数据与其位置信息构造成二维数据，用局部异常因子检测算法对该二维数据进行计算；通过局部异常因子算法将产生的一维read depth值转化成一组score值，通过score的值，很容易找到变异区域；

S104：获取了一组score值，使用箱形算法针对本组score值将较大的数据筛选；

S105：得到变异区域，确定该变异是丢失还是增添。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的基于局部异常因子的拷贝数变异检测方法具体包括以下步骤：

(1)数据预处理

从bam文件中提取出每个窗口的read depth值，因为序列中GC的含量会影响到read depth值，所以本发明还需要对数据进行GC校正。之后将一维read depth值进行scaling计算，scaling计算首先将数据进行0均值归一化处理，将read depth处理成大于0的值和小于0的值，之后将read depth小于0的窗口进行某倍数的扩增，这个倍数是通过将50个最大的read depth值与50个最小read depth的绝对值相除所获得的比值，计算可以增加deletion区域read depth同正常区域的差异性，提高了检测的准确率。

(2)segment计算

对通过(1)处理完的数据进行segment计算，segment计算是采用循环二元分割的算法将数据平滑分段处理。通过此步计算，可将散乱的数据分割成长度不等的几个片段，相对于原始的数据，更好检测出变异的位点。之后将segment后的一维read depth数据加上位置信息转化成二维数据，由于每个位点的位置差异为1，相对read depth来说影响过大，所以需要将位置压缩到read depth最小值与read depth最大值之间。

(3)使用局部异常因子检测算法对数据进行计算

将产生的数据与其位置信息构造成二维数据，用局部异常因子检测算法对该二维数据进行计算，首先确定一个参数K，计算出该点A的第K距离，根据第K距离确定第K邻域{B1,B2...Bk}，也就是该点在第K距离内所有点的集合，之后再对K邻域内的每一个点Bi计算出第K距离，倘若A点属于Bi点的K邻域则两者之间的距离可以是第K距离，若不是的话两点的距离则是A与Bi的可达距离，即欧式距离。之后A点将A到邻域B的每个点的距离相加除以邻域点的个数可获得A点的可达密度，同时也计算出B邻域中每个点的可达密度。最后将A点的可达密度与邻域内每个点的可达密度和的平均值相除，获得的比值就是该点的局部异常因子。通过局部异常因子算法将(2)产生的一维read depth值转化成一组score值，而通过score的值，很容易找到变异区域。

(4)筛选结果

通过(3)的计算，获取了一组score值，score值越大代表该点是变异点的可能性越高。由于每个样本的特异性及测序的层数等一系列原因，没有办法直接对score值进行截取操作，认为score大于某个值该点就是变异点，这个值是根据样本自身确定的，不可以取一个固定值来针对所有的样本。所以可以使用箱形算法针对本组score值将较大的数据筛选出来，步骤如下：1.取这组score的四分位点，Q1.Q2和Q3；2，计算Q3+1.5*(Q3-Q1)获得这组数据的上界upper；3.score值大于上界的位点可当做变异点。

(5)确定变异区域

通过(4)的计算，得到了变异区域，还需要确定该变异是丢失还是增添。而对于如何确定变异类型，该方法认为，score小于upper区域的区域是正常区域，可以将这些区域read depth的平均值作为标准。倘若该变异区域的read depth值大于标准值，该区域可认定为增添(duplication)变异，若该区域的read depth值小于标准值，则认为该区域的变异类型是丢失(deletion)。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于局部异常因子的拷贝数变异检测方法，其特征在于，所述基于局部异常因子的拷贝数变异检测方法包括以下步骤：

第一步，从bam文件中提取出每个窗口的read depth值；将一维read depth值进行scaling计算，scaling计算首先将数据进行0均值归一化处理，将read depth处理成大于0的值和小于0的值，之后将read depth小于0的窗口进行某倍数的扩增；

第二步，对处理完的数据进行segment计算，将散乱的数据分割成长度不等的几个片段；将segment后的一维read depth数据加上位置信息转化成二维数据；

第三步，用局部异常因子检测算法对产生的数据进行计算；通过局部异常因子算法将产生的一维read depth值转化成一组score值，通过score的值，很容易找到变异区域；

第四步，获取了一组score值，使用箱形算法针对本组score值将较大的数据筛选；

第五步，得到变异区域，确定变异是丢失还是增添。

2.如权利要求1所述的基于局部异常因子的拷贝数变异检测方法，其特征在于，所述第一步从bam文件中提取出每个窗口的read depth值，对数据进行GC校正；将一维read depth值进行scaling计算，scaling计算首先将数据进行0均值归一化处理，将read depth处理成大于0的值和小于0的值；将read depth小于0的窗口进行某倍数的扩增，倍数通过将50个最大的read depth值与50个最小read depth的绝对值相除所获得的比值，计算增加deletion区域read depth同正常区域的差异性。

3.如权利要求1所述的基于局部异常因子的拷贝数变异检测方法，其特征在于，所述第三步的用局部异常因子检测算法对产生的数据与其位置信息构造成二维数据进行计算，首先确定一个参数K，计算出该点A的第K距离，根据第K距离确定第K邻域{B1,B2...Bk}，也就是在第K距离内所有点的集合；再对K邻域内的每一个点Bi计算出第K距离，倘若A点属于Bi点的K邻域则两者之间的距离是第K距离，若不是的话两点的距离则是A与Bi的可达距离，欧式距离；A点将A到邻域B的每个点的距离相加除以邻域点的个数可获得A点的可达密度，同时也计算出B邻域中每个点的可达密度；最后将A点的可达密度与邻域内每个点的可达密度和的平均值相除，获得的比值就是该点的局部异常因子。

4.如权利要求1所述的基于局部异常因子的拷贝数变异检测方法，其特征在于，所述第四步使用箱形算法针对本组score值将数据筛选包括：(1)取这组score的四分位点，Q1.Q2和Q3；(2)计算Q3+1.5*(Q3-Q1)获得这组数据的上界upper；(3)score值大于上界的位点当做变异点。

5.如权利要求1所述的基于局部异常因子的拷贝数变异检测方法，其特征在于，所述第五步的score小于upper区域的区域是正常区域，将区域read depth的平均值作为标准；若变异区域的read depth值大于标准值，区域为增添duplication变异，若该区域的readdepth值小于标准值，则认为该区域的变异类型是丢失deletion。