CN107590363B

CN107590363B - 一种将多个重叠组装结果合并的方法

Info

Publication number: CN107590363B
Application number: CN201710720525.6A
Authority: CN
Inventors: 邬三毛; 肖世俊; 郭文浒; 陈楠生
Original assignee: Wuhan Frasergen Co Ltd
Current assignee: Wuhan Frasergen Co Ltd
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2019-11-08
Anticipated expiration: 2037-08-21
Also published as: CN107590363A

Abstract

本发明涉及一种将多个重叠组装结果合并的方法，其特征在于，包括以下步骤：获得多个重叠组装结果；根据所述多个重叠组装结果的数据特征确定前景和背景；将所述前景与所述背景进行比对，得到比对结果；根据所述比对结果，将所述前景与所述背景合并，即得到合并后的重叠组装结果。通过本发明的方法，可大大提高组装过程中的连接效率，并在一定程度上提高连接准确率，并且本发明的可以广泛适用于微生物、动物、植物的基因组辅助组装，其运行速度也比同类方法和软件更快。

Description

一种将多个重叠组装结果合并的方法

技术领域

本发明涉及基因组测序与组装领域，更特别地，涉及一种将多个重叠组装结果合并的方法

背景技术

由于高通量测序产生的下机结果并非完整连续的基因组，而是一系列末端有重叠的片段，所以必须通过特定的组装算法和软件才能使这些片段组装成相对完整的基因组。因此，组装软件和算法对高通量测序至关重要。

由于原始下机的数据量一般都很大(例如100X人的基因组约为300G)，并且基因组本身存在很多复杂区域，使得组装算法的设计变成了一个非常困难的领域。目前，虽然已经有很多组装的算法和软件可供使用，但其结果往往不够令人满意，原始数据中仍有很多有价值的信息未被组装算法充分挖掘。此外，为了得到一个较好的组装结果，往往不仅需要使用同一个软件尝试多种不同的参数，而且还要尝试多个不同软件，最终从这些结果中选择一个N50最长，序列准确性最高的版本。然而，即使是测试了如此之多的参数和软件，我们还是很难得到理论上最优的结果。为了得到更长的N50，我们需要以牺牲一定程度的准确性为代价，而为了得到较高的准确性，我们将很难同时获得最长的N50，准确性和连续性的矛盾使二者很难兼得。另一方面，我们用多种参数和软件组出的多个结果中，最终只保留了一个，其他所有的次优结果是被丢弃不用的，这实际上也是一种对计算资源和人力成本的浪费。

基于以上这些事实，我们可以总结出目前组装过程存在的四个问题：①组装结果还有进行一步提升空间，原始数据信息未被充分挖掘；②无法解决准确性和连续性的矛盾；③对复杂数据的适应性还不够强，导致使用人员不得不进行大量调参测试。④由于不同算法的组装策略不同，可能挖掘出不同的信息，这些信息有互补性，但是没有任何任何一个算法能完全整合这些信息。

因此，需要一种能够将多个组装软件的组装结果合并的方法。

发明内容

为解决以上问题，本发明提供了一种将多个重叠组装结果合并的方法，包括以下步骤：

S1：获得多个重叠组装结果；

S2：根据所述多个重叠组装结果的数据特征确定前景和背景；

S3：将所述前景与所述背景进行比对，得到比对结果；

S4：根据所述比对结果，将所述前景与所述背景合并，即得到合并后的重叠组装结果。

通过本发明的方法，可大大提高组装过程中的连接效率，并在一定程度上提高连接准确率，并且本发明的可以广泛适用于微生物、动物、植物的基因组辅助组装，其运行速度也比同类方法和软件更快。

在一个实施方案中，所述重叠组装结果为至少三个；

在S2中，将所述重叠组装结果中的一个确定为所述前景，将其余重叠组装结果确定为背景，并根据所述多个背景的数据特征确定每个所述背景与所述前景的合并顺序；

按所述合并顺序，将所述前景依次与相应的背景进行比对、合并，每次合并后的重叠组装结果作为下一次比对、合并的前景。

一般情况下，对多个不同的重叠组装结果进行合并，以集合不同的组装方法和软件的优点。

在一个实施方案中，S2中通过以下方法确定所述前景、背景和合并顺序：将所述多个重叠组装结果中碱基水平一致性最高的重叠组装结果作为前景，其他重叠组装结果作为背景，按照N50长度从小到大的顺序与所述前景合并，当多个背景N50相等时，按所述背景中的序列数量从小到大的顺序将所述多个背景依次与所述前景合并。

在一个实施方案中，S3包括以下步骤：

S31：将所述前景比对到所述背景；

S32：对前景中同一条读序的比对进行聚类和处理，选取选择总比对长度最长的一类作为提取信息的比对，合并离散比对，合并该类中的所有比对，拟合缺失区域比对信息，得到所述比对结果。如果多条前景序列间存在大片段的重叠，则剔除较短的比对，只保留最长的比对。

在一个优选实施方案中，S32中聚类的前后还分别进行了一次过滤。

优选地，S32中，聚类前的过滤剔除比对长度小于20-100bp的比对，剔除比对长度占自身比对长度的比例小于0.05-0.2的比对，并且剔除比对一致性低于85-95％的比对；聚类后的过滤剔除比对长度占自身比对长度的比例小于0.7-0.9的比对。这两次过滤减少了噪音和假阳性比对。

在一个实施方案中，S4包括以下步骤：

S41：对所述比对结果中有关联的序列构建有向无环图，选择最长路径处理分枝；

S42：根据所述最长路径连接序列，根据所述比对结果中的比对位置信息回填所述前景序列中的gap区域，或延伸序列首尾，得到合并后的重叠组装结果。

在一个优选实施方案中，S42包括以下步骤：

S421:根据所述比对结果中的比对位置信息，找到大致的比对区域；

S422：截取所述大致比对区域进行精细比对(smith-waterman比对)，确定精确的比对边界。

在一个优选实施方案中，在S4后，还包括步骤S5：评估所述合并后的重叠组装结果的可靠性。

优选地，S5中根据所述前景与背景的一致性来评估所述合并后的重叠组装结果是否可靠；

所述一致性为除背景两端位置外，前景完整比对到背景的比例，当一致性大于95％时，认为所述合并后的重叠组装结果可靠。

附图说明

图1为本发明方法的流程图；

图2为实施例中三种重叠组装结果合并后比对到参考基因组的一致性统计图。

具体实施方式

下文中以秀丽隐杆线虫的多个三代测序组装结果的合并为例来描述本发明的原理和特征。所举实例只用于解释本发明的目的，并非用于限定本发明的范围。

线虫是最经典的模式生物之一，现代分子生物学中很多重要的理论发现都源于对线虫的研究，如细胞凋亡，RNA沉默等。秀丽隐杆线虫基因组大小约为97M，核基因组共6条染色体。选择线虫基因组进行合并，于本方法的应用具有较强的代表性。虽然本实施例中以三代测序为例，但是应当注意到，本发明的方法同样适用于二代基因组测序重叠组装结果的合并，还适用于二代重叠组装结果和三代测序重叠组装结果的合并。

本实施例以合并线虫的三个不同组装软件的组装结果为例，以解释本发明的具体分析方法和步骤。为了检验本方法的准确性，使用了已有的线虫基因组作为参考序列，与本方法得到的结果进行比对。具体实施过程包括以下步骤：

1.获得多个组装结果

用三代pacbio技术对线虫基因组进行测序，得到的下机原始数据为8GB，分别使用三种主流的三代组装软件对其进行组装。这三种软件是falcon，canu，和miniasm。组装结果如下：

Falcon：contig数：78，N50长度:1968777bp

Canu：contig数：204，N50长度:2047258bp

miniasm：contig数：85，N50长度:3003329bp。

2.确定前景、背景和组装顺序

将三个组装结果进行两两比对，发现falcon和canu组装结果不论是碱基水平还是contig水平一致性都很高，但由于miniasm组装纠错不完善，其组装结果与falcon和canu结果在碱基水平一致性较差，但在contig水平一致性较高。Flacon和canu的序列准确性更高，但canu结果的N50更长，因此以canu结果为前景序列，以falcon和miniasm结果为背景序列，miniasm结果的N50比falcon长，因此选择先合并falcon再合并miniasm。

3.依次合并

将上述方法编成软件程序来运行，依次将canu，falcon，miniasm结果的路径作为参数输入程序。程序会根据输入顺序顺次进行合并。

经过第一次合并后结果如下：

Merge1：contig数：64，N50长度:2647722bp

经过第二次合并后，结果如下：

merge2：contig数：48，N50长度:3180387bp

可以看到，经过合并后的基因组，各项指标都有较明显的提升。相比canu结果，N50提升了约1.13M,contig数减少了30条。并且，其结合了canu组装的高准确性和miniasm组装的高连续性的优点，最终得到了令人满意的结果。

将最终结果比对到参考基因组，可以检验该合并操作的准确性，比对结果如图2所示。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种将多个重叠组装结果合并的方法，其特征在于，包括以下步骤：

S1：获得多个重叠组装结果，所述重叠组装结果为至少三个；

S2：根据所述多个重叠组装结果的数据特征确定前景和背景，将所述重叠组装结果中的一个确定为所述前景，将其余重叠组装结果确定为背景，并根据所述多个背景的数据特征确定每个所述背景与所述前景的合并顺序，按所述合并顺序，将所述前景依次与相应的背景进行比对、合并，每次合并后的重叠组装结果作为下一次比对、合并的前景，通过以下方法确定所述前景、背景和合并顺序：将所述多个重叠组装结果中碱基水平一致性最高的重叠组装结果作为前景，其他重叠组装结果作为背景，按照N50长度从小到大的顺序与所述前景合并，当多个背景N50相等时，按所述背景中的序列数量从小到大的顺序将所述多个背景依次与所述前景合并；

S3：将所述前景与所述背景进行比对，得到比对结果；

2.根据权利要求1所述的方法，其特征在于，S3包括以下步骤：

S31：将所述前景比对到所述背景；

S32：对前景中同一条读序的比对进行聚类和处理，选取总比对长度最长的一类作为最终比对，合并离散比对，得到所述比对结果。

3.根据权利要求2所述的方法，其特征在于，S32中聚类的前后还分别进行了一次过滤。

4.根据权利要求3所述的方法，其特征在于，S32中，聚类前的过滤剔除比对长度小于20-100bp的比对，剔除比对长度占自身比对长度的比例小于0.05-0.2的比对，并且剔除比对一致性低于85-95％的比对；聚类后的过滤剔除比对长度占自身比对长度的比例小于0.7-0.9的比对。

5.根据权利要求1所述的方法，其特征在于，S4包括以下步骤：

6.根据权利要求5所述的方法，其特征在于，S42包括以下步骤：

S422：截取所述大致比对区域进行精细比对，确定精确的比对边界。

7.根据权利要求1-6中任一项所述的方法，其特征在于，在S4后，还包括步骤S5：评估所述合并后的重叠组装结果的可靠性。

8.根据权利要求7所述的方法，其特征在于，S5中根据所述前景与背景的一致性来评估所述合并后的重叠组装结果是否可靠；