CN107273716B

CN107273716B - 一种基于长片段进行骨架组装的方法

Info

Publication number: CN107273716B
Application number: CN201710304027.3A
Authority: CN
Inventors: 邬三毛; 郭文浒; 肖世俊; 陈楠生
Original assignee: Wuhan Frasergen Information Co ltd
Current assignee: Wuhan Frasergen Information Co ltd
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2020-04-28
Anticipated expiration: 2037-05-03
Also published as: CN107273716A

Abstract

本发明涉及一种基于长片段进行骨架组装的方法，其特征在于，包括以下步骤：S1：获得长片段序列数据和基因组拼接结果，得到基因组预估大小、基因组拼接大小以及拼接块数量；S2：根据所述长片段序列数据和基因组拼接结果估计mate pair之间的插入长度范围；S3：根据所述长片段序列数据和所述插入长度范围生成mate pair文库；S4：用S3得到的mate pair文库对所述基因组拼接结果进行骨架组装，得到骨架组装结果。通过使用本发明的方法，可在不需要进行额外的mate pair或pair end测序的情况下，直接利用已有的长片段序列来获得mate pair文库，从而完成接下来的骨架组装。

Description

一种基于长片段进行骨架组装的方法

技术领域

本发明涉及基因组测序领域，更特别地，涉及一种基于长片段进行骨架组装的方法。

背景技术

由于高通量测序产生的下机结果并非完整连续的基因组，而是一系列的重叠片段，所以必须通过特定的组装算法和软件才能使这些片段组装成相对完整的基因组。然而，由于原始数据不足或组装软件缺陷，往往无法得到理想的组装结果，尤其是在基因组的复杂区域，一般较难组装，因此会在最终结果中留下一些长度和序列未知的区域，并且，由于这种区域的存在，就无法确定组装出片段的排列顺序。为了确定该顺序，目前发展了另一种技术：即骨架组装(scaffolding)技术。该技术可通过一种特殊的建库测序手段得到相距较远的两条短读序的序列，两条短读序之间的距离我们称之为插入长度(insert length)，由对应的一对读序组成的序列集合我们称之为mate pair/pair-end序列，通过利用matepair/pair-end序列来确定确定拼接块(contig)之间的顺序，从而进行骨架组装。

骨架组装法可以使测序结果有较大提升，但同时也存在一些缺点。其中最大的不便就在于，为得到mate pair/pair-end序列，必须从实验层面增加建库和测序量，实验周期长，花费大。而另一方面，已经测得的长片段数据实际上还远未被组装软件充分利用，其中蕴藏大量有效连接信息还可做进一步挖掘，并且，随着三代测序逐渐成为主流，测序片段长度相比二代大大增加，达到8-10k，用这些长片段来做骨架组装的应用场景越来越多。进一步来讲，与传统骨架组装策略中增加mate pair或pair end序列相比，即使增加三代测序量来得到长片段，其性价比也会比前者更高。因此，使用三代测序的长片段来做骨架组装是一种切实可行，经济高效的方法。

但是，这一切最终都必须依赖于一种好的长片段骨架组装的方法和软件来实现，所以，发展一种长片段骨架组装方法和软件非常必要且有重大意义。

发明内容

为了解决这些问题，我们开发了本发明的方法以及相应的软件。

基于此，本发明提供了一种基于长片段进行骨架组装的方法，其特征在于，包括以下步骤：

S1：获得长片段序列数据和基因组拼接结果，得到基因组预估大小、基因组拼接大小以及拼接块数量；

S2：根据所述长片段序列数据和基因组拼接结果计算mate pair之间的插入长度范围；

S3：根据所述长片段序列数据和所述插入长度范围生成mate pair文库；

S4：用S3得到的mate pair文库对所述基因组拼接结果进行骨架组装，得到骨架。

本发明虽然使用了mate pair的概念，然而，该属于在本发明的实施方案中并非通过传统的mate pair法得序列对，而是对已有的长片段序列数据进行分析得到的序列对，这样获得的mate pair文库可用于传统骨架组装。通过使用本发明的方法，可在不需要进行额外的mate pair或pair end测序的情况下，直接利用已有的长片段序列来获得mate pair文库，从而完成接下来的骨架组装。

优选地，所述长片段序列数据通过三代测序得到。三代测序可以获得大量的长片段序列，有利于进行骨架组装。

优选地，所述基因组拼接结果通过使用二代测序数据或三代测序数据拼接得到。

进一步地，S2包括以下步骤：

S21：确定插入长度最小值minIns：

S22：确定插入长度最大值maxIns：X＝2*avgL2/avgL1*contigN50，其中，avgL1表示拼接块的平均长度，avgL2表示所述长片段的平均长度，当X小于或等于所述长片段中最长片段的长度时，则maxIns＝X，当X大于所述长片段中最长片段的长度，则maxIns为所述长片段中最长片段的长度。

进一步地，S3中所述的mate pair文库为精确定长文库、定长文库和变长文库中的一种或多种组合，其中，所述精确定长文库为插入长度不同的mate pair的双端序列被严格分开到不同子文库的文库，每个子文库中的mate pair的插入长度都严格相等；所述定长文库为包含多套已知插入长度的mate pair的文库；所述变长文库为mate pair的插入长度没有严格规定。

进一步地，所述精确定长文库和定长文库中的mate pair通过以下方法得到：

S31：确定插入长度和mate pair序列长度；

S32：以插入长度加2倍的mate pair序列长度的和为窗口，在所述长片段上从5’端开始向3’端进行步移，窗口两端的mate pair序列长度的序列即为一组mate pair，步长根据覆盖深度来设定，最后一个步移距离不足时，以剩余距离作为步长。

进一步地，所述变长文库中的mate pair通过以下方法得到：

S33：确定mate pair序列长度；

S34：以所述长片段的两端为第一组mate pair，窗口从两端向中间步移，步长根据覆盖深度来设定。

优选地，在S3中，对所述基因组拼接结果进行分析，预估缺口的大小，根据预估的缺口大小来确定在所述长片段上生成mate pair的区域。这样做的优点是可以减少matepair数据大小，加快运行效率，减少非overlap区域产生的mate pair的干扰。

优选地，在S3中，可同时使用多套长片段数据来生成mate pair，每套长片段数据设置相同或不同的mate pair文库生成方式。由此，可以支持多套长片段数据信息整合进同一个组装结果，以提高骨架组装的精确度。

与其他捅了的方法相比，本发明提供的方法具有更高的准确率、组装效率，使得最终的骨架组装结果更完整更连续，并且本发明的使用范围更高，对微生物，动物，植物基因组都有较好的辅助组装效果，对基因组大小，序列片段长度都没有特殊要求。

发明人还根据本发明的方法制作了软件来进行骨架组装，测试结果表明，本发明的方法和软件可以大大提高连接效率的同时也在一定程度上提高了连接准确率，且可以广泛适用于微生物、动物、植物的基因组辅助组装，其运行速度也比同类方法和软件更快。

附图说明

图1为本发明的方法编成软件程序后的运行节点的示意图；

图2使用实施例中的软件程序对酿酒酵母的28个拼接块进行骨架组装后的结果与参考基因组的对比图。

具体实施方式

以下结合实例对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

将上述方法编成软件程序来运行，并以酿酒酵母的基因组骨架组装为例来展示。酿酒酵母是最经典的模式生物之一，在真核生物中，其地位相当于原核模式生物中的大肠杆菌。对酵母基因序列的分析可以为真核生物的许多分子生物学机理提供依据，因此，得到准确，完整，连续性好的酵母基因组有重要的科学价值。

对酿酒酵母基因组进行三代测序，得到526Mb的原始读序，使用这些原始读序进行拼接得到28条拼接块，进行骨架组装，以解释本发明的具体分析方法和步骤。为了检验本方法的准确度，本实施例使用了已有的酵母基因组作为参考序列，与本方法得到的结果进行比对。具体实施过程包括以下步骤：

运行本方法包含的参数评估程序，将酿酒酵母基因组的预估大小(由流式细胞仪分析或kmer分析得到)、三代测序得到的原始读序、初始拼接块(contig)以及希望生成的mate pair文库数量输入该软件程序。程序会根据对序列的数据特征综合考量给出将在生成mate pair时所使用的参数(insert length(插入长度)范围、平均insert length、matepair文库类型)。另外，如果使用者对序列已充分了解，也可自己评估参数，用于后续输入。

运行本方法包含的程序串连脚本，填入以上评估得到的参数，包括insert length的范围，平均的insert length的长度，生成的mate pair文库类型等。在本例中，共生成了两种类型的mate pair文库，精确定长和变长类型。其中精确定长类型的insert length范围为[6160bp，21427bp]，步长为3073bp，变长类型的insert length为13789bp，其它参数取默认参数。该脚本会自动生成两个PBS任务，分别为，mate pair生成程序运行任务，sspacescaffolding程序运行任务，这两个任务之间已设定先后顺序，只有第一个任务运行完成后才会开始第二个任务。此外，还会自动生成sspace scaffolding所需的library文件。

mate pair生成程序会根据参数设置生成6个不同的mate pair模拟数据文件。其中5个精确定长类型和1个变长类型。

mate pair数据文件生成完成后，sspace scaffolding程序自动开始运行，其会根据上一步中生成的PBS脚本和library文件中的参数，利用上一步生成的mate pair数据对初步拼接结果做骨架组装。骨架组装完成后，初步组装结果中原来的28条contig合并成了17条骨架(酵母共有17条染色体)，连接效率非常高。图2为用上述软件程序进行骨架组装后的结果与参考基因组比对的结果，两者一致性很高。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于长片段进行骨架组装的方法，其特征在于，包括以下步骤：

S4：用S3得到的mate pair文库对所述基因组拼接结果进行骨架组装，得到骨架；

S2包括以下步骤：

S21：确定插入长度最小值minIns：

2.根据权利要求1所述的方法，其特征在于，所述长片段序列数据通过三代测序得到。

3.根据权利要求1所述的方法，其特征在于，所述基因组拼接结果通过使用二代测序数据或三代测序数据拼接得到。

4.根据权利要求1所述的方法，其特征在于，S3中所述的mate pair文库为精确定长文库、定长文库和变长文库中的一种或多种组合，其中，所述精确定长文库为插入长度不同的mate pair的双端序列被分开到不同子文库的文库，每个子文库中的mate pair的插入长度都相等；所述定长文库为包含多套已知插入长度的mate pair的文库；所述变长文库为matepair的插入长度没有限定。

5.根据权利要求4所述的方法，其特征在于，所述精确定长文库和定长文库中的matepair通过以下方法得到：

S31：确定插入长度和mate pair序列长度；

6.根据权利要求4所述的方法，其特征在于，所述变长文库中的Mate pair通过以下方法得到：

S33：确定mate pair序列长度；

7.根据权利要求1-6中任一项所述的方法，其特征在于，在S3中对所述基因组拼接结果进行分析，预估缺口的大小，根据预估的缺口大小来确定在所述长片段上生成mate pair的区域。

8.根据权利要求1-6中任一项所述的方法，其特征在于，在S3中同时使用多套长片段数据来生成mate pair，每套长片段数据设置相同或不同的mate pair文库生成方式。