CN104531848A

CN104531848A - 一种组装基因组序列的方法和系统

Info

Publication number: CN104531848A
Application number: CN201410758244.6A
Authority: CN
Inventors: 詹东亮; 张姝; 蔡庆乐; 何荣军; 郝美荣; 梁倩; 韩雪莲; 刘三阳; 王军一
Original assignee: HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Current assignee: HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2015-04-22

Abstract

本发明公开了一种组装基因组序列的方法和系统，将第二代测序技术所得的高精度短片段序列数据和单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装，提高组装效率和准确率。该方法，包括以下步骤：(1)利用第二代测序技术对样品进行测序，获得高精度短片段序列；(2)对高精度短片段序列进行拼接，获得高精度的框架图；(3)利用单分子测序技术对与上述同样来源的样品进行测序，获得三代测序数据；(4)将三代测序数据比回所述框架图中，得到三代测序数据和框架图的详细对比信息；(5)利用详细对比信息对三代测序数据进行聚类并构建基因组骨架，对基因组骨架进行纠错，得到基因组精细图。

Description

一种组装基因组序列的方法和系统

技术领域

本发明涉及生物信息技术领域，尤其涉及一种组装基因组序列的方法和系统。

背景技术

Illumina的二代测序技术，以其高能量和准确性，成为了很多科研工作地的首选平台，目前它的平均读长为100bp～300bp，由于它的高能量、较低成本，极大地推进了生物信息学的发展，有非常多的基因组是基于这个平台进行研究的。但是由于读长的局限性，同时复杂基因组中包含着许多高GC，高度重复的区域，Illumina在这些基因组的组装上表现并不理想。

PacBio RSII是目前市场上应用最成熟的三代测序平台，它的平均测序读长从一开始的2k到目前的14k,可以跨越大部分的重复区域，在基因组的组装中有极大的优势，极大地克服了二代读长短的缺点，目前它非常成熟地运用在微生物完成图的拼接中。

但是，由于于单分子实施测序的错误率相对较高，单次测序错误率15％,循环测序误差8％左右，其准确度与第二代测序技术有很大的差距，传统的纠错方法非常耗计算资源，大基因组的计算量非常巨大，使得目前只有少数机构能承能使用这种技术。

发明内容

本发明的目的是解决以上提出的问题，提供一种组装基因组序列的方法和系统，将第二代测序技术所得的高精度短片段序列数据和单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装，提高组装效率和准确率。

一方面，本发明提供了一种组装基因组序列的方法，包括以下步骤：

(1)利用第二代测序技术对样品进行测序，获得高精度短片段序列；

(2)对获得的所述高精度短片段序列进行拼接，获得一个高精度的框架图；

(3)利用单分子测序技术对与上述同样来源的样品进行测序，获得所述同样来源样品的三代测序数据；

(4)将步骤(3)获得的所述三代测序数据比回所述框架图中，得到三代测序数据和框架图的详细对比信息；

(5)利用步骤(4)获得的详细对比信息对所述三代测序数据进行聚类并构建基因组骨架，对所述基因组骨架进行纠错，利用高精度短片段序列的大片断构建scaffold,小片断数据进行补洞，得到基因组精细图。

作为优选，所述步骤(4)包括：利用BWT和LCS算法，将步骤(3)获得的所述三代测序数据比回所述框架图中，得到三代测序数据和框架图的详细对比信息。

作为优选，所述步骤(5)中对所述基因组骨架进行纠错包括：

A、使用HGAP中自带的纠错模块，使用所述三测序代数据进行自纠错；

B、使用LoRDEC软件利用Illumina第二代测序技术获得的高精度短片段序列来纠正所述基因组骨架。

作为优选，所述的第二代测序技术采用的是HiSeq测序仪，所述的单分子测序技术采用的是PacBio RSII测序仪。

作为优选，所述步骤(2)采用的是SOAPdenovo2软件对获得的所述高精度短片段序列进行拼接。

作为优选，所述步骤(5)使用SSPACE软件来构建scaffold，最后使用GapCloser来进行补洞。

另一方面，本发明还提供了一种组装基因组序列的系统，包括：

接收模块Ⅰ，用于接收利用第二代测序技术获得的样品的高精度短片段序列；

拼接模块Ⅰ，与接收模块Ⅰ相连，用于对获得的样品的高精度短片段序列进行拼接，获得高精确度的框架图；

接收模块Ⅱ，用于接收利用单分子测序技术获得的样品的长片段序列；

定位模块，与所述拼接模块Ⅰ和所述接收模块Ⅱ相连，用于将所述三代测序数据比对回所述框架图上；

骨架模块，利用所述三代测序数据与所述框架图的详细对比信息系对所述三代测序数据进行聚类构图，搭建基因组骨架；

纠错模块Ⅰ，与骨架模块相连，利用骨架模块中的聚类关系，使用HGAP纠错和三代测序数据进行自纠错。

作为优选，该系统还包括：

纠错模块Ⅱ，所述的纠错模块Ⅱ与纠错模块Ⅰ相连，用于使用LoRDEC软件和所述高精度短片段序列对所述基因组骨架进行纠错；

Scaffold&补洞模块，利用高精度短片段序列进行scaffold构建和补洞，生成最终的基因组精细图。

本发明的有益效果如下：

1、本发明利用二代测序得到的高精度短片段序列进行组装，再结合10X的三代数据

(http://blog.pacificbiosciences.com/2014/02/data-release-54x-long-read-coverage-for.html)，contig N50达到279k，与二代测序组装的技术方案相比，contig N50提高了10多倍，组装效果显著提升；

2、本发明结合了第二代测序数据组装的框架图和三代测序数据，利用第二代测序技术的高准确度纠正单分子实时测序数据组装的高错误率，效果显著，而且，本发明的方法能够节省数据整理的时间；

3、将三代测序数据先比对回框架图中，利用三代测序数据和框架图的详细对比信息进行聚类并构建基因组骨架；

4、三代测序数据和框架图比对时利用BWT和LCS算法，与目前常用的blasr软件相比，可以大大提高比对的准确度和速度；

5、采用HGAP和LoRDEC进行纠错，能够对基因组骨架进行全面的纠错，并且应用起来更加有效、方便。

附图说明

图1是本发明组装基因组序列方法的流程示意图；

图2是本发明组装基因组序列方法的一个实施例的流程示意图；

图3是利用第二代测序数据结合SOAPdenovo2软件组装的一个实施例的流程示意图；

图4是PacBio与二代的框架图进行比对，构建骨架，并进行纠错的示意图；

图5是本发明组装基因组序列装置的一个实施例的结构示意图。

具体实施方式

下面结合附图对本发明的实施例进行进一步详细说明：

高效快速的de novo拼接有助于发现大片段的结构变异，对理解疾病相关基因组和存在融合基因、拷贝数变异和大范围结构变异的疾病遗传变化具有重要意义。高质量的基因组装配对于基因组注释和比较基因组分析也非常重要。本发明的方法充分利用了第三代测序仪PacBio RSII的读长优势，将其生成的数据和第二代测序仪生成的精确短读序数据结合在一起，使得基因组装配结果准确性大幅提高，拼接的重叠群平均长度是第二代测序仪所能得到的两倍以上。

图1是本发明组装基因组序列方法的流程示意图。

如图1所示，该流程包括A、B、C、D、E五个步骤：

A、对同样来源的样品分别进行二代测序和三代测序(即单分子测序)，对二代测序得到的高精度短片段序列进行组装成框架图；

B、将二代测序得到的高精度短片段序列组装的框架图定位到三代测序数据中；

C、处理框架图和三代测序数据的详细对比信息，进行聚类和构图；

D、得到基因组骨架；

E、对基因组骨架进行纠错。

图2是本发明组装基因组序列方法的一个实施例的流程示意图。

如图2所示，该实施例包括以下步骤：

S101，利用第二代测序技术对样品进行测序，获得所述样品的高精度短片段序列。其中，随即打散样品基因组，扩增片段长度在150～500bp之间的短克隆，并直接进行双末端测序。第二代测序技术平台454、Illumina和SOLID均可用于本本发明。本发明的样品没有限制，可以是基因组较大的植物、动物、真菌，也可以是基因组较小的物种，例如微生物和病毒，还可以是需要检测突变的基因组的一部分。

本发明一个实施例中，优选二代的HiSeq测序仪进行DNA测序，HiSeq测序仪是illumina公司推出的高通量测序仪，测序通量可达300Gb/run，一次运行可独立测试16个样品，其原理是基于DNA单分子簇的边合成边测序技术和专有的可逆终止化学反应原理。测序时将基因组DNA的随机片段附着到光学透明的玻璃表面(即Flow cell)，这些DNA片段经过延伸和桥式扩增后，在Flow cell上形成了数以亿计的Cluster，每个Cluster是具有数千份相同模板DNA的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸，通过可逆性终止的SBS(边合成边测序)技术对待测的模板DNA进行测序。这种新方法确保了高精确度和真实的一个碱基接一个碱基的测序，为同聚物和重复序列的测序提供了一个很好的解决方案。

S102，对S101获得的高精度短片段序列进行拼接，获得一个高精度的框架图。基于第二代测序数据的基因组序列拼接，通常包括以下几个部分：1)数据的预处理阶段。该阶段通过特定的方法，移除测序数据中的错误碱基；2)基因组连续片段(contigs)生成阶段。该阶段将reads拼接成contigs；3)超长序列片段(scaffoldings)组装阶段。该阶段使用配对数据，确定conntigs之间的方向和位置关系，生成scaffoldings。目前，基于第二代测序数据的全基因组从头测序拼接主要的策略有贪心(greedy)、交叠-排列-生成共有序列(Overlap-Layout-Consensus,OLC)与DeBruijn图。

本发明优选使用SOAPdenovo2软件进行高精度短序列的拼接。OAPdenovo2软件对于短读长组装起来速度快，消耗的内存相对较少，且拼接的连续性好。图3所示为利用SOAPdenovo2软件对HiSeq测序仪测序数据进行拼接的流程图，结合图中步骤可以得出具体流程分为A到F的过程：A.随即打散基因组，扩增长度在150～500bp之间的短克隆，并进行双末端直接测序。B.将未处理(或者未经纠正的)reads读入到内存中，并且用deBruijin图数据结构来表示reads间的Overlap。C.通过：a.剪去短末端；b.移除低覆盖度的边；c.解决reads路径中得微小重复；d.合并茎环，来简化deBruijin图。D.在简化deBruijin图的基础上，在重复边界上打断连接，输出明确的序列作为contigs。E.重新用reads和contigs进行比对，使用双末端信息来把单一的contigs连接成scaffolds。F.最后使用配对双端resds来填补scaffolds内部可能是由重复序列所造成的Gap。通过图示流程即得到第二代数据拼接的结果。SOAPdenovo的软件在官网上可以下载和使用：http://soap.genomics.org.cn。

S103，利用单分子测序技术获得样品的三代测序数据(长片段序列)。单分子测序技术利用DNA聚合酶合成与模板互补的DNA链，在三围空间中记录模板位置和核苷酸序列信息，再反向构建DNA模板的序列。除了DNA合成反应的三大要素(模板、酶、核苷酸)之外，模板所处位置和反应循环中单色荧光标记的核苷酸顺序(如A、C、G、T)也是最终DNA序列能够完成的关键要素。如果反应所用的核苷酸标记着四种不同的荧光，则每一次反应循环就需要切换不同波长的光以记录不同的碱基。单分子测序技术具有测序速度快。产出序列长、成本低的巨大优势，目前的缺陷和不足在于测序准确度。目前已经开发或正在开发中的单分子测序平台有：1.单分子即时DNA测序(single molecule real time DNAsequencing),简称SMRT；2.HeliScope单分子测序(HeliScope single molecular sequencing)；3.基于荧光共振能量转移的即时DNA测序(real-time DNA sequencing using fluorescenceresonance energy transfer)；4.纳米孔单分子测序(nanopore single molecularsequencing)；5.离子流半导体测序(ion semiconductor sequencing)。

本发明优选Pacific Biosciences公司的最新的发布的PacBio RSII测序仪，PacBio RSII的最新数据平均读长为14kb，最长读长可以达到20kb以上。另外，PacBio RSII系统测序速度较快，目前PacBio RSII上所使用的DNA聚合酶的合成速度大概是1～3个碱基/秒，从样品制备到获得碱基序列的全部流程可在1天内完成。现阶段PacBio RSII每天可运行8个SMRT cell，每天可获得8×400M＝3,200Mb的有效数据，为基因组De Novo组装提供了可靠数据供应。

S104，将S103测序的三代测序数据比对S102组装的框架图。目前发表的三代的比对程序有BLASR和DALIGN,这两款软件都非常优秀，但是在由于基因组中存在重复序列，比对上的序列可能是重复序列，从而导致连接错误，为了尽量使组装的结果准确，本方法重新开发了一个比对软件，先利用二代的数据进行建模，得到高精度短片段序列的框架图，从三代测序数据中取出关键的DNA序列，结合这些关键的DNA序列和BWT，LCS算法进行比对，得到三代测序数据和框架图的详细对比信息，大大提高了比对的准确度和速度。

S105，利用S104中二代的框架图与三代测序数据的详细对比信息，对三代测序数据进行聚类和整理，得到一个三代的基因组骨架。

S106，在105的构建基因组骨架过程中，会记录构建的基因组骨架和与其对应的三代测序数据，使用这些聚类数据和利用HGAP软件包中的纠错模块，对基因组骨架进行第一次纠错。

S107利用第二代测序获得高精度短片段序列对S106的输出结果再次进行纠正，使用已经发布的LoRDEC，能方便和高效地应用在这方面。

图4是PacBio与二代的框架图进行比对，构建骨架，并进行纠错的示意图。

如图4所示，包括以下步骤：

1、将二代测序得到的高精度短片段序列组装的框架图比对到三代测序数据中(红点指框架图，蓝线是三代测序数据)；

2、通过框架图和三代测序数据的详细对比信息，可以知道框架图和三代测序数据的连接关系图；

3、生成基因组骨架；

4、利用高精度短片段序列和/或三代测序数据来对组装的基因组骨架进行纠错。

如图5所示，该实施例的系统可以包括：

在本发明的一个实施例中，该系统还包括：

该实施例结合了第二代测序技术数据组装的结果和第三代测序技术数据，利用第二代测序技术的高精度纠正单分子实时测序数据组装的高错误率。而且，本发明的方法能够节省数据整理的时间。

以上所述的仅是本发明的优选实施方式，应当指出，对于本技术领域中的普通技术人员来说，在不脱离本发明核心技术特征的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种组装基因组序列的方法，其特征在于，包括以下步骤：

(5)利用步骤(4)获得的详细对比信息对所述三代测序数据进行聚类并构建基因组骨架，对所述基因组骨架进行纠错，利用步骤(1)中的高精度短片段序列的大片断构建scaffold,小片断数据进行补洞，得到基因组精细图。

2.根据权利要求1所述的组装基因组序列的方法，其特征在于，所述步骤(4)包括：利用BWT和LCS算法，将步骤(3)获得的所述三代测序数据比回所述框架图中，得到三代测序数据和框架图的详细对比信息。

3.根据权利要求1或2所述的组装基因组序列的方法，其特征在于，所述步骤(5)中对所述基因组骨架进行纠错包括：

4.根据权利要求1或2所述的组装基因组序列的方法，其特征在于，所述的第二代测序技术采用的是HiSeq测序仪，所述的单分子测序技术采用的是PacBioRSII测序仪。

5.根据权利要求1或2所述的组装基因组序列的方法，其特征在于，所述步骤(2)采用的是SOAPdenovo2软件对获得的所述高精度短片段序列进行拼接。

6.根据权利要求1或2所述的组装基因组序列的方法，其特征在于，所述步骤(5)使用SSPACE软件来构建scaffold，最后使用GapCloser来进行补洞。

7.一种组装基因组序列的系统，其特征在于，包括：

8.根据权利要求7所述的组装基因组序列的系统，其特征在于，还包括：