CN105483244A

CN105483244A - 一种基于超长基因组的变异检测算法及检测系统

Info

Publication number: CN105483244A
Application number: CN201511005316.0A
Authority: CN
Inventors: 朱世杰
Original assignee: Wuhan Frasergen Co Ltd
Current assignee: Wuhan Frasergen Co Ltd
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2016-04-13
Anticipated expiration: 2035-12-28
Also published as: CN105483244B

Abstract

本发明涉及一种基于超长基因组的变异检测算法，简称VariationBlast算法，在得到长序列的情况下，大尺度结构变异通常可以通过序列与参考基因组进行比对来检测到，因为跨越结构变异的序列会产生比对上参考序列的部分片段，然后通过序列部分片段与相对应的参考序列片段之间的比较，结构变异的精确点位可以被检测到，VariationBlast是通过逐次对比对方法来检测每一个序列与参考基因组序列之间的比对，然后把所有代表结构变异的序列进行分类与筛选最后从比对的位点与方向得到可能的结构变异以及它们各自的类型。

Description

一种基于超长基因组的变异检测算法及检测系统

技术领域

本发明涉及基因序列结构变异检测，具体涉及到一种基于超长基因组的变异检测算法及检测系统。

背景技术

上世纪九十年代启动的人类基因组计划(HGP)，加上随之而来的千人基因组计划，DNA元件百科全书计划(ENCODE)等的实施加快了基因组时代的发展。第二代、三代DNA促使许多物种的基因组测序计划得以成功完成，从而积累了大量的生物数据。这些生物大数据必须通过适当的分析手段才能挖掘出具有潜在理论价值和应用价值的信息。基因组序列多态性，是指物种群体内及群体间DNA序列和结构的差异。人类的这些基因组差异决定了不同种族、群体和个体间基因组的差异或多态性。基因组多样性包括单核苷酸多态性(Singlenucleotidepolymorphism,SNP)、小片断插入和缺失(smallindel)；基因组结构变异通常指DNA序列长度大于1kb的基因组差异,包括DNA片段插入(insertion)与缺失(deletion)、移位(transposition)、倒位(inversion)以及DNA拷贝数目变化(Copynumbervariations,CNVs)等。结构变异由于覆盖的核苷酸总数远超过SNP的总数,因此对个体表型的影响可能更大。科学家们开发了很多用于预测基因组结构变异的软件，而且这些软件已被广泛应用到人类基因组多态性研究中。但是已开发的绝大多数软件只能有效地预测基因组单核苷酸多态性，小片段结构变异，以及结构变异中某种或某几种类型。这些软件对某些大尺度的结构变异(例如，长片段插入、缺失序列等)不能很好的挖掘，以至不同软件预测结果之间的差异很大。常用的变异检测软件，例如Pindel、Breakdancer、CNVnator等都无法检测大型的基因组变异，少部分算法可以检测到基因组大型缺失，但是几乎所有的算法流程都无法鉴定出大型插入、移位、倒置等大型的基因组结构变异。本发明中开发的VariationBlast算法，有效地将具有高灵敏度的比对算法和图形理论相结合，实现了碱基水平检测基因组变异，变异检测范围可以从最小的单核苷酸改变到大型复杂的基因组结构变异。

发明内容

本发明提供一种基于超长基因组的变异检测算法，简称VariationBlast算法，解决了现有算法不能准确检测大型超长基因组的结构变异的问题。

本发明解决上述技术问题的技术方案如下：

一种基于超长基因组的变异检测算法，包括以下步骤：

S1、采用局部序列比对算法，检测出测序片段和参考序列间存在的所有匹配，得到局部匹配事件，每一个局部匹配事件均包括测序片段和参考序列上的参考片段；

S2、将所有局部匹配事件中的测序片段按照比对至参考序列的位置进行排序，将测序片段比对至参考序列上的位置重叠或顺次相连的局部匹配事件分到一个组，有多少能够相连或重叠的测序片段，就有多少个组；

S3、对每一个组内的局部匹配事件按照不同的排序方式进行评分，建立一个用来表示每一个组内的所有局部匹配事件之间不同的排序方式的图形模型，根据评分情况确定每一组内的局部匹配事件的最佳排序方式；

S4、按照最佳排序方式将每一个组内的局部匹配事件中的测序片段进行串联，一个组得到一个测序序列read；

S5、将每一组的测序序列read和参考序列进行对比，在测序序列read上和参考序列不匹配的区域添加gap区域在参考序列上和测序序列read不匹配的区域添加gap区域，gap区域即空白区域，用于使测序序列read和参考序列的匹配区域位置完全对应，便于确认变异的类型；

S6、对添加了gap区域后的最终测序序列进行结构变异检测。

本发明的有益效果是：能够充分利用由不断提高(例如测序长度不断增加)的第二代以及第三代DNA测序技术所带来的可能性，利用测序结果检测各种尺度的结构变异，包括其它软件所不能够预测的大尺度插入以及所有现有软件都忽略的复合变异。本发明的VariationBlast将大大提高基因组变异和结构变异预测的灵敏度、效率和准确度，可以有效地应用于来自不同物种、不同复杂度的基因组序列，从而为各个领域的科学研究和应用提供强急需的强有力的支撑。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步的，述步骤S1里采用的局部序列比对算法，为BLASTn、MegaBlast、BLASTz、cross_match、BLAT和wublast算法中的一种。

进一步的，所述步骤S2中需要同时考虑了测序片段两条链上的情况，来建立局部匹配事件之间的关系模型。

采用上述进一步方案的有益效果是：本发明可检测出倒置等结构变异。

进一步的，所述步骤S4中的具体实现为：

S4.1、根据打分情况确定每一组内的局部匹配事件的最佳排序方式后，

将每一组内的局部匹配事件按照最佳排序方式进行排序，并将所有局部匹配事件中的测序片段串联成一个基础测序序列；

S4.2、对基础测序序列中的相邻的测序片段的重叠部分进行剔除，得到测序序列read。

进一步的，所述步骤S4.2中，对基础测序序列中的相邻的测序片段的重叠部分进行剔除的方法是，若相邻两个测序片段之间存在重叠部分，分别将两个测序片段的重叠部分和对应的参考片段进行对比，选取匹配度更高的一个重叠部分进行保留，并把另一个重叠部分剔除。

进一步的，步骤S4.2中对基础测序序列中的相邻的测序片段的重叠部分进行剔除后，还包括将基础测序序列和参考序列进行对比，若存在缺失片段，检测剩余未归入组内的测序片段与缺失片段的匹配度，选取匹配度最高的测序片段放入相应的基础测序序列内，再得到每一组的测序序列read的步骤。

采用上述进一步方案的有益效果是：本发明可检测出转座结构变异。

进一步的，步骤S3中，将符合线性连接关系的局部匹配事件分到一个组时,每一个组内的局部匹配事件的重叠度不大于阈值t。

进一步的，所述步骤S3的具体实现为：

S3.1、将每个组内的局部匹配事件中的测序片段按照比对至参考序列的位置进行排序，所有的局部匹配事件按照位置从前到后依次排列；

S3.2、按照所有的局部匹配事件均可以与位置排在其后的局部匹配事件连接的条件，按照所有的可能性建立排序方式，构建有向非循环图形模型；

S3.3、设图形模型中，在前局部匹配事件和在后局部匹配事件之间的关系为边e，则每个边e的减分Length(e)＝P(e)–R(e)，一个边e的减分越少，则评分越高；

其中，P(e)代表边e的减分、R(e)代表边e的得分；

R(e)＝PID*len，PID在后的局部匹配事件的匹配质量，len是在后局部匹配事件的长度；

P(e)＝α*P_skip(e)+β*(P_ext(e)+P_sep(e))；

α和β为权重系数，可根据所分析的物种设定不同的值；

跳过中间节点的边的减分P_skip(e)＝min(PID_i*len_i),其中i为所有被跳过的局部对比序列的序号，

边e有线性连接和非线性连接两种情况，若两个局部匹配事件中测序片段比对至参考序列的位置相邻则属于线性连接，不相邻则属于非线性连接，

P_ext(e)表示边e是线性连接时，测序片段和参考序列无法比对的区域，P_ext(e)＝PID_i→j*len_i→j，i和j代表没有比上参考序列的起始和终止位点；

P_sep(e)表示边e是非线性连接时，测序片段和参考序列无法比对的区域，P_sep(e)＝PID_i→j*len_i→j，i和j代表没有比上参考序列的起始和终止位点；

不同的排序方式组合成的测序序列减分为Length(p)＝Σ_e∈pLength(e)，一种排序方式测序序列的减分越小，则得分越高。

进一步的，步骤S3的具体实现为：

对Length(p)进行判断，选取Length(p)值最小情况下的边e对应的连接关系，确定为最优排序方式。

采用上述进一步方案的有益效果是：本发明可以有效建立排序模型，得到最佳排序方式。

一种基于超长基因组的变异检测系统，包括以下模块：

局部序列比对模块，用于检测出测序片段和参考序列间存在的所有匹配，得到局部匹配事件，每一个局部匹配事件均包括参考序列上的参考片段和测序片段；

局部匹配事件分组模块，用于将所有局部匹配事件中的测序片段按照比对至参考序列的位置进行排序，将测序片段比对至参考序列上的位置重叠或顺次相连的局部匹配事件分到一个组；

局部匹配事件排序模块，用于对每一个组内的局部匹配事件按照不同的排序方式进行评分，建立一个用来表示每一个组内的所有局部匹配事件之间不同的排序方式的图形模型，根据评分情况确定每一组内的局部匹配事件的最佳排序方式；

局部匹配事件串联模块，用于按照最佳排序方式将每一个组内的局部匹配事件中的测序片段进行串联，得到一个测序序列read；

gap添加模块，用于将每一组的测序序列read和参考序列进行对比，在测序序列read上和参考序列不匹配的区域添加gap区域，在参考序列上和测序序列read不匹配的区域添加gap区域，使测序序列read和参考序列的匹配区域的位置完全对应；

检测模块，用于对添加了gap区域后的最终测序序列进行结构变异检测。

进一步的，所述局部匹配事件分组排序模块包括以下单元：

位置排序单元，用于将每个组内的局部匹配事件中的测序片段按照比对至参考序列的位置进行排序，每一个局部匹配事件按照位置从前到后依次排列；

图形建模单元，用于按照所有的局部匹配事件均可以与位置排在其后的局部匹配事件连接的条件，按照所有的可能性建立排序方式，构建有向非循环图形模型；

评分单元，用于对不同的排序关系进行评分，设图形模型中，任一个局部匹配事件和位置排在其后的局部匹配事件之间的关系为边e，则每个边e的减分Length(e)＝P(e)–R(e)，一个边e的减分越少，则评分越高；

其中，P(e)代表边e的减分、R(e)代表边e的得分；

R(e)＝PID*len，PID位置排在后的局部匹配事件的匹配质量，len是位置排在后的局部匹配事件的长度；

P(e)＝α*P_skip(e)+β*(P_ext(e)+P_sep(e))；

α和β为权重系数，可根据所分析的物种设定不同的值；

不同的排序方式组合成的测序序列减分为Length(p)＝Σ_e∈pLength(e)，一种排序方式测序序列的减分越小，则得分越高；

决定单元，用于选取Length(p)最小的一种排序方式，确定为最优的排序方式。

附图说明

图1为本发明方法流程图；

图2为局部对比图像化结果图；

图3为步骤S3.2的图形模型示意图；

图4为步骤S5测序序列read和参考序列进行对比时示意图；

图5为本发明系统示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种基于超长基因组的变异检测算法，包括以下步骤：

S2、将所有局部匹配事件中的测序片段按照比对至参考序列的位置进行排序，将测序片段比对至参考序列上的位置重叠或顺次相连的局部匹配事件分到一个组；

S5、如图4所示，将每一组的测序序列read和参考序列进行对比，在测序序列read上和参考序列不匹配的区域添加gap区域在参考序列上和测序序列read不匹配的区域添加gap区域，gap区域即空白区域，用于使测序序列read和参考序列的匹配区域位置完全对应，便于确认变异是属于插入还是缺失的类型；

S6、对添加了gap区域后的最终测序序列进行结构变异检测。

所述步骤S1里采用的局部序列比对算法，为BLASTn、MegaBlast、BLASTz、cross_match、BLAT和wublast算法中的一种。

所述步骤S2中需要同时考虑了测序片段两条链上的情况，来建立局部匹配事件之间的关系模型。

所述步骤S4中的具体实现为：

所述步骤S4.2中，对基础测序序列中的相邻的测序片段的重叠部分进行剔除的方法是，若相邻两个测序片段之间存在重叠部分，分别将两个测序片段的重叠部分和对应的参考片段进行对比，选取匹配度更高的一个重叠部分进行保留，并把另一个重叠部分剔除。

所述步骤S4.2中对基础测序序列中的相邻的测序片段的重叠部分进行剔除后，还包括将基础测序序列和参考序列进行对比，若存在缺失片段，检测剩余未归入组内的测序片段与缺失片段的匹配度，选取匹配度最高的测序片段放入相应的基础测序序列内，再得到每一组的测序序列read的步骤。

步骤S3中，将符合线性连接关系的局部匹配事件分到一个组时,每一个组内的局部匹配事件的重叠度不大于阈值t。

如图2所示，为局部对比图像化结果展示，每一项局部比对(或者高分片段对，HSP)包含了一对序列片段[Q,T]，Q代表测序片段序列，T代表参考序列上匹配上的序列，H代表局部比对事件，H₁包括[T₁,Q₁],H₂包括[T₂,Q₁],H₃包括[T₃,Q₂],H₄包括[T₄,Q₃],H₅包括[T₅,Q₄],H₆包括[T₆,Q₁],所述S3中对所有局部匹配事件进行排序，建立一个如图3所示的图形模型表示所有局部匹配事件之间不同的排序方式，边e有线性连接和非线性连接两种情况，若两个局部匹配事件比对至参考序列的位置相邻则属于线性连接，不相邻则属于非线性连接，例如，H₁和H₂中比对至参考序列的位置均为Q₁，故H₁和H₂为非线性连接，H₂和H₃中比对至参考序列的位置分别为Q₁和Q₂，故H₂和H₃为线性连接，如图3所示，其中双竖线表示非线性连接，并对不同的排序形式进行打分，包括以下步骤：

其中，P(e)代表边e的减分、R(e)代表边e的得分；

P(e)＝α*P_skip(e)+β*(P_ext(e)+P_sep(e))；

α和β为权重系数，可根据所分析的物种设定不同的值；

不同的排序方式组合成的测序序列减分为Length(p)＝Σ_e∈pLength(e)。

一种基于超长基因组的变异检测系统，包括以下模块：

所述局部匹配事件分组排序模块包括以下单元：

其中，P(e)代表边e的减分、R(e)代表边e的得分；

P(e)＝α*P_skip(e)+β*(P_ext(e)+P_sep(e))；

α和β为权重系数，可根据所分析的物种设定不同的值；

本发明的VariationBlast算法的突出优势在于是它能够充分利用由不断提高(例如测序长度不断增加)的第二代以及第三代DNA测序技术所带来的可能性，利用测序结果检测各种尺度的结构变异，包括其它软件所不能够预测的大尺度插入以及所有现有软件都忽略的复合变异。VariationBlast将大大提高基因组变异和结构变异预测的灵敏度、效率和准确度，可以有效地应用于来自不同物种、不同复杂度的基因组序列，从而为各个领域的科学研究和应用提供强急需的强有力的支撑。

应用范围上，它是针对二代测序组装数据及三代测序数据开发的算法，所以对二代测序组装序列及三代测序序列特征进行了针对性优化。也就是说，它几乎能够适合目前所有完成测序或部分测序的基因组序列，包括来自真核生物与原核生物的各种复杂程度的基因组序列。基於技术限制，二代测序技术得到的reads序列较短，且对高复杂度的序列组装效果差，这也就对基因组结构变异检测软件提出了更高的要求。三代测序技术，是个新技术，有很多优点，具有很广泛的应用前景，而目前针对三代测序序列基因组结构变异检测的软件非常少，所以VariationBlast将来一定会被应用到更广泛的领域。

预测结果方面，VariationBlast可以大幅度提高基因组结构变异预测结果的准确性，可靠性，并提高输出结果可视性。预测结果的准确性，可靠性将直接影响后期实验验证，如果假阳性率太高，验证工作就会增加很多无用功，加大工作量，导致实验成本剧增。如果假阴性率太高，则可能会漏掉关键的基因组结构变异，错失解决问题的机会。更为重要的是，VariationBlast能够寻找到其他类似软件找不到的大尺度插入以及复合结构变异。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于超长基因组的变异检测算法，其特征在于，包括以下步骤：

S5、将每一组的测序序列read和参考序列进行对比，在测序序列read上和参考序列不匹配的区域添加gap区域，在参考序列上和测序序列read不匹配的区域添加gap区域，用于使测序序列read和参考序列的匹配区域的位置完全对应；

S6、对添加了gap区域后的最终测序序列进行结构变异检测。

2.根据权利要求1所述的基于超长基因组的变异检测算法，其特征在于，所述步骤S1里采用的局部序列比对算法为BLASTn、MegaBlast、BLASTz、cross_match、BLAT和wublast算法中的一种。

3.根据权利要求1所述的基于超长基因组的变异检测算法，其特征在于，所述步骤S4中的具体实现为：

S4.1、将每一组内的局部匹配事件按照最佳排序方式进行排序，并将所有局部匹配事件中的测序片段串联成一个基础测序序列；

4.根据权利要求3所述的基于超长基因组的变异检测算法，其特征在于，所述步骤S4.2中，对基础测序序列中的相邻的测序片段的重叠部分进行剔除的方法是，若相邻两个测序片段之间存在重叠部分，分别将两个测序片段的重叠部分和对应的参考片段进行对比，选取匹配度更高的一个重叠部分进行保留，并把另一个重叠部分剔除。

5.根据权利要求3所述的基于超长基因组的变异检测算法，其特征在于，步骤S4.2中对基础测序序列中的相邻的测序片段的重叠部分进行剔除后，还包括将基础测序序列和参考序列进行对比，若存在缺失片段，检测剩余未归入组内的测序片段与缺失片段的匹配度，选取匹配度最高的测序片段放入相应的基础测序序列内，再得到每一组的测序序列read的步骤。

6.根据权利要求1所述的基于超长基因组的变异检测算法，其特征在于，步骤S3中，将符合线性连接关系的局部匹配事件分到一个组时,每一个组内的局部匹配事件的重叠度不大于阈值t。

7.根据权利要求1所述的基于超长基因组的变异检测算法，其特征在于，所述步骤S3的具体实现为：

其中，P(e)代表边e的减分、R(e)代表边e的得分；

P(e)＝α*P_skip(e)+β*(P_ext(e)+P_sep(e))；

α和β为权重系数，可根据所分析的物种设定不同的值；

不同的排序方式组合成的测序序列减分为Length(p)＝Σ_e∈pLength(e)，一种排序方式测序序列的减分越小，则评分越高。

8.根据权利要求7所述的基于超长基因组的变异检测算法，其特征在于，步骤S3的具体实现为：

9.一种基于超长基因组的变异检测系统，其特征在于，包括以下模块：

10.根据权利要求9所述的基于超长基因组的变异检测系统，其特征在于，所述局部匹配事件分组排序模块包括以下单元：

其中，P(e)代表边e的减分、R(e)代表边e的得分；

P(e)＝α*P_skip(e)+β*(P_ext(e)+P_sep(e))；

α和β为权重系数，可根据所分析的物种设定不同的值；