CN104017883A

CN104017883A - 组装基因组序列的方法和系统

Info

Publication number: CN104017883A
Application number: CN201410272988.7A
Authority: CN
Inventors: 詹东亮
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2014-09-03
Anticipated expiration: 2034-06-18
Also published as: CN104017883B

Abstract

本发明提供了一种组装基因组序列的方法和系统，将第二代测序技术所得的高精度短片段序列数据和单分子测序所得的长片段序列数据结合在一起进行基因组序列的组装，提高组装效率和准确率。该方法具体包括：利用第二代测序技术对样品进行测序，获得样品的高精度短片段序列；对获得的高精度短片段序列进行拼接，获得第一拼接序列；利用单分子测序技术对与同样来源的样品进行测序，获得同样来源样品的长片段序列；对获得的长片段序列进行拼接，获得第二拼接序列；将第一拼接序列定位到第二拼接序列上；利用第一拼接序列中的高精度短片段序列对第二拼接序列中的长片段序列进行局部纠错，获得第三拼接序列。

Description

组装基因组序列的方法和系统

技术领域

本发明涉及生物信息技术领域，尤其涉及一种组装基因组序列的方法和装置。

背景技术

第二代测序技术极大地推动了生物信息学的发展，已经有大量物种的基因组被测序。但目前第二代测序技术产生的都是长约100bp～150bp左右的小片段序列，仅100～150bp的读长(reads)相比庞大的基因组，使得完成拼接工作变得无比艰巨，不少用户虽然获得了大量的测序数据，测序覆盖深度达到了几十倍甚至上百倍，但仍然没法完成基因组的拼接。如何将这些测序得到的海量小片段序列数据还原为样品中的大片段数据给后续的信息分析工作提出了极大的挑战，需要通过非常大的运算量才有可能完成对大片段数据的还原。而且，基因组De Novo组装(从头组装)还会遇到如何跨越高重复区域(复杂动植物及真菌)、高GC(微生物)和高AT含量区域的难题，这些区域结构极其复杂，含有大量串联重复，现有的第二代测序技术的短读长，无法获得这些高度重复区域的准确的序列，难以获得整个基因组的完美拼接。就好象把一幅图打成非常小的碎片，然后做拼图，由于碎片太小，因此碎片数目很多，而且许多小碎片非常相似，看起来都差不多，要拼出一副完整的图难度很大。此外，第二代测序技术文库制备时必须要先进行PCR扩增，PCR过程中的偏向(bias)或者错配(mismatch)等将无法在测序时修正，也就意味着这些错误会变成系统误差，且无法通过增加测序覆盖深度来消除。

第三代测序平台正在迅速发展中，Pacific Biosciences公司的PacBio RS单分子实时测序系统自2011年4月底推出以来，立刻成为广大研究者的热点，被誉为最有前途的第三代测序平台。Pacific Biosciences公司在2012年度发布了最新的PacBio RSII测序仪，并且升级了最新的试剂以及测序酶，结合最新的C2试剂和P4酶，PacBio RSII将平均读长提升至5kb，最长读长可以达到20kb以上，在测序所得的序列拼接、定位以及跨越重复区域的应用中有着极大优势，可以完全克服第二代测序技术的困难。相当于同样的一幅拼图，用大的碎片来做拼图，碎片的数目会减少，而且大碎片比小碎片的识别度要高，因此完成拼图的难度就可以大幅降低，组装获得的图质量会大大提高，这对De Novo组装，特别是复杂细菌以及复杂动植物基因组的图谱组装质量的提升是空前的。而且，在PacBio平台上，文库制备时无需PCR扩增，因此避免了PCR产生的bias等。

但是，两年多过去了，研究人员对采用第三代单分子实时测序技术一直保持慎重。其主要原因在于单分子实时测序的错误率相对较高，单次测序错误率15％,循环测序误差8％左右，其准确度与第二代测序技术有很大的差距，无法进行正常的后续分析。PacBio平台上目前的错误主要是插入和缺失。缺失错误源自于有时候碱基掺入速度过快，超过了PacBio相机的拍摄帧数。插入错误源自于有的时候酶随机的选择一些碱基，但并未将这些碱基真的掺入合成链中。

发明内容

针对现有技术中存在的问题，本发明的主要目的在于提供一种组装基因组序列的方法和系统，将第二代测序技术所得的高精度短片段序列数据和单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装，提高组装效率和准确率。

一方面，本发明提供了一种组装基因组序列的方法，包括：

利用第二代测序技术对样品进行测序，获得所述样品的高精度短片段序列；

对获得的所述高精度短片段序列进行拼接，获得第一拼接序列；

利用单分子测序技术对与上述同样来源的样品进行测序，获得所述同样来源样品的长片段序列；

对获得的所述长片段序列进行拼接，获得第二拼接序列；

将所述第一拼接序列定位到所述第二拼接序列上；

利用所述第一拼接序列中的所述高精度短片段序列对所述第二拼接序列中的所述长片段序列进行局部纠错，获得第三拼接序列。

在本发明的一个实施例中，上述方法还包括使用LSC软件和所述高精度短片段序列对第三拼接序列中未被第一拼接序列覆盖到的区域进行纠错。

在本发明的另一个实施例中，第二代测序技术采用的是HiSeq测序仪，单分子测序技术采用的是PacBio RSII测序仪。

在本发明的又一个实施例中，使用SOAPdenovo软件对获得的高精度短片段序列进行拼接。

在本发明的又一个实施例中，使用SOAPdenovo软件对获得的高精度短片段序列进行拼接包括以下步骤：

A.将原始reads读入到内存中，用de Bruijin图数据结构表示reads之间的overlap；

B.简化de Bruijin图，所述简化包括剪去短末端，移除低覆盖度的边，解决reads路径中的微小重复和/或合并茎环；

C.基于所述简化的de Bruijin图，在其重复边界上打断连接，输出高精度的序列作为contigs；

D.重新用所述reads和所述contigs进行比对，使用配对双末端resds数据把单一的所述contigs连接成scaffolds；

E.使用配对双末端resds填补所述scaffolds内部的gap，即可获得所述的第一拼接序列。

在本发明的又一个实施例中，对获得的所述长片段序列进行拼接包括以下步骤：

A.先利用BLASR软件找出可能的连接区域，再对所述可能的连接区域进行详细比对；

B.利用步骤A所获得的详细比对信息进行去冗余和拼接，获得所述的第二拼接序列。

另一方面，本发明还提供了一种组装基因组序列的系统，包括：

接收模块Ⅰ，用于接收利用第二代测序技术获得的样品的高精度短片段序列；

拼接模块Ⅰ，与接收模块Ⅰ相连，用于对获得的样品的高精度短片段序列进行拼接，获得第一拼接序列；

接收模块Ⅱ，用于接收利用单分子测序技术获得的样品的长片段序列；

拼接模块Ⅱ，与接收模块Ⅱ相连，用于对获得的样品的长片段序列进行拼接，获得第二拼接序列；

定位模块，与接收模块Ⅰ和接收模块Ⅱ相连，用于将第一拼接序列定位到第二拼接序列上；

纠错模块Ⅰ，与定位模块相连，用于利用第一拼接序列中的高精度短片段序列对第二拼接序列中的长片段序列进行局部纠错，获得第三拼接序列。

在本发明的一个实施例中，该系统还包括纠错模块Ⅱ，与纠错模块Ⅰ相连，用于使用LSC软件和高精度短片段序列对第三拼接序列中未被第一拼接序列覆盖到的区域进行纠错。

本发明的方法结合了第二代测序技术数据组装的结果和第三代测序技术数据组装的结果，利用第二代测序技术数据组装的高准确度纠正单分子测序数据组装的高错误率，使单分子测序的错误率不再是基因组装配的障碍，实现了整个基因组的完美拼接。而且，本发明的方法能够节省数据整理的时间。此外，由于单分子测序技术能够识别RNA碱基修饰，可直接获取功能信息，将第二代技术的序列密集数据与中度覆盖的单分子技术数据相结合，可获得基因组的甲基化模式，有望更广泛地应用于真核基因组的组装。

附图说明

图1是本发明组装基因组序列方法的一个实施例的流程示意图。

图2是利用第二代测序数据结合SOAPdenovo软件组装的一个实施例的流程示意图。

图3是PacBio所得的长片段序列拼接的一个实施例示意图。

图4是将第一拼接序列定位到第二拼接序列上的示意图。

图5是本发明组装基因组序列方法的另一个实施例的流程示意图。

图6是利用第二代reads对第三拼接序列上未被第一拼接序列覆盖的地方进行局部纠错的示意图。

图7是本发明组装基因组序列装置的一个实施例的结构示意图。

图8是本发明组装基因组序列装置的另一个实施例的结构示意图。

具体实施方式

以下结合附图和优选实施例对本发明进行更全面地描述，应当理解的是，本文所描述的优选实施例仅用于说明和解释本发明，并不构成对本发明的限制。

除非另有说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不构成对本发明的限制。对于本领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为本说明的一部分。

高效快速的de novo拼接有助于发现大片段的结构变异，对理解疾病相关基因组和存在融合基因、拷贝数变异和大范围结构变异的疾病遗传变化具有重要意义。高质量的基因组装配对于基因组注释和比较基因组分析也非常重要。本发明的方法充分利用了第三代测序仪PacBio RSII的读长优势，将其生成的数据和第二代测序仪生成的精确短读序数据结合在一起，使得基因组装配结果准确性大幅提高，拼接的重叠群平均长度是第二代测序仪所能得到的两倍以上。

如图1所示，该实例包括以下步骤：

S101，利用第二代测序技术对样品进行测序，获得所述样品的高精度短片段序列。其中，随即打散样品基因组，扩增片段长度在150～500bp之间的短克隆，并直接进行双末端测序。第二代测序技术平台454、Illumina和SOLID均可用于本本发明。本发明的样品没有限制，可以是基因组较大的植物、动物、真菌，也可以是基因组较小的物种，例如微生物和病毒，还可以是需要检测突变的基因组的一部分。

本发明一个实施例中，优选第二代的HiSeq测序仪进行DNA测序，HiSeq测序仪是illumina公司推出的高通量测序仪，测序通量可达300Gb/run，一次运行可独立测试16个样品，其原理是基于DNA单分子簇的边合成边测序技术和专有的可逆终止化学反应原理。测序时将基因组DNA的随机片段附着到光学透明的玻璃表面(即Flow cell)，这些DNA片段经过延伸和桥式扩增后，在Flow cell上形成了数以亿计的Cluster(簇)，每个Cluster是具有数千份相同模板DNA的单分子簇。然后利用带荧光基团的四种特殊脱氧核糖核苷酸，通过可逆性终止的SBS(边合成边测序)技术对待测的模板DNA进行测序。这种新方法确保了高精确度和真实的一个碱基接一个碱基的测序，为同聚物和重复序列的测序提供了一个很好的解决方案。

S102，对S101获得的高精度短片段序列进行拼接。基于第二代测序数据的基因组序列拼接，通常包括以下几个部分：1)数据的预处理阶段。该阶段通过特定的方法，移除测序数据中的错误碱基；2)基因组连续片段(contigs)生成阶段，该阶段将reads拼接成contigs；3)超长序列片段(scaffoldings)组装阶段，该阶段使用配对数据，确定conntigs之间的方向和位置关系，生成scaffoldings。目前，基于第二代测序数据的全基因组从头测序拼接主要的策略有贪心(greedy)、交叠-排列-生成共有序列(Overlap-Layout-Consensus,OLC)与De Bruijn图。

本发明一个实施例中，优选使用SOAPdenovo软件进行高精度短序列的拼接。SOAPdenovo软件对于短读长组装起来速度快，消耗的内存相对较少，且拼接的连续性好。图2所示为利用SOAPdenovo软件对HiSeq测序仪测序数据进行拼接的流程图，结合图中步骤可以得出具体流程分为A到F的过程：A.随即打散基因组，扩增长度在150～500bp之间的短克隆，并进行双末端直接测序。B.将未处理(或者未经纠正的)reads读入到内存中，并且用deBruijin图数据结构来表示reads间的Overlap(重叠)。C.通过：a.剪去短末端；b.移除低覆盖度的边；c.解决reads路径中得微小重复；d.合并茎环，来简化deBruijin图。D.在简化deBruijin图的基础上，在重复边界上打断连接，输出明确的序列作为contigs。E.重新用reads和contigs进行比对，使用双末端信息来把单一的contigs连接成scaffolds。F.最后使用配对双端resds来填补scaffolds内部可能是由重复序列所造成的Gap(缺口)。通过图示流程即得到第二代数据拼接的结果。SOAPdenovo的软件在官网上http://soap.genomics.org.cn可以下载和使用。

S103，利用单分子测序技术获得样品的长片段序列。单分子测序技术利用DNA聚合酶合成与模板互补的DNA链，在三围空间中记录模板位置和核苷酸序列信息，再反向构建DNA模板的序列。除了DNA合成反应的三大要素(模板、酶、核苷酸)之外，模板所处位置和反应循环中单色荧光标记的核苷酸顺序(如A、C、G、T)也是最终DNA序列能够完成的关键要素。如果反应所用的核苷酸标记着四种不同的荧光，则每一次反应循环就需要切换不同波长的光以记录不同的碱基。单分子测序技术具有测序速度快、产出序列长、成本低的巨大优势，目前的缺陷和不足在于测序准确度。目前已经开发或正在开发中的单分子测序平台有：1.单分子即时DNA测序(single molecule real time DNAsequencing),简称SMRT；2.HeliScope单分子测序(HeliScope single molecular sequencing)；3.基于荧光共振能量转移的即时DNA测序(real-time DNA sequencing using fluorescence resonanceenergy transfer)；4.纳米孔单分子测序(nanopore single molecularsequencing)；5.离子流半导体测序(ion semiconductor sequencing)。

在本发明的一个实施例中，优选Pacific Biosciences公司的最新发布的PacBio RSII测序仪，且采用该公司测序系统升级了的最新的C2试剂和P4酶。PacBio RSII的平均读长为5kb，最长读长可以达到20kb以上。另外，PacBio RSII系统测序速度较快，目前PacBio RSII上所使用的DNA聚合酶的合成速度大概是1～3个碱基/秒，从样品制备到获得碱基序列的全部流程可在1天内完成。现阶段PacBio RSII每天可运行8个SMRT cell，每天可获得8×200M＝1600Mb的有效数据，为基因组De Novo组装提供了可靠数据供应。

S104，对S103单分子测序拼接长片段序列进行拼接。长序列片段的拼接相对于短序列的拼接更容易进行。图3示出了对PacBio数据进行组装。在该实施例中，所用的拼接软件为Assemble，该软件通过序列比对找到可能的连接区域，再将这些区域进行拼接和去冗余。软件中包含了2个关键模块:(1)比对：先利用BLASR软件找出可能的连接区域，再对这些区域进行全局比对。其中，可能的连接区域包括含有锚点、比对率高的区域；(2)组装：利用上步的详细全局比对信息进行拼接和去除冗余序列。

S105，将第二代测序获得高精度短片段序列定位到单分子测序技术获得的长片段序列上。图4示出了以PacBio数据拼接结果为基础，将第二代测序数据拼接结果定位到该基础上的构架搭建示意图，其中上面的横线部分为第二代数据拼接结果，下面的横线部分为PacBio数据拼接结果，将第二代的测序拼接结果比对回PacBio的测序拼接结果上，可以得到高准确度和完整的组装结果。该定位步骤采用的软件是Align，具体包括以下两部分操作：(1)序列比对；(2)根据比对结果找匹配锚点。

S106，利用第二代测序获得高精度短片段序列对单分子测序技术获得的长片段序列中被高精度短片段序列覆盖到的区域进行局部纠错，获得所述样品基因组的初步基因组序列。所谓局部纠错，即通过Replace函数(标识替换的函数)将同区域中的单分子测序技术获得的长片段序列替换为第二代测序获得的高精度短片段序列。

在本发明中，高精度短片段的获取和拼接步骤与长片段的获取和拼接步骤并无固定的顺序，可以先进行高精度短片段的获取和拼接，后进行长片段的获取和拼接；也可以先进行长片段的获取和拼接，后进行高精度短片段的获取和拼接；或者两者同时进行。

图5是本发明组装基因组序列方法的另一个实施例的流程示意图。该实施例的前面步骤与图1所示的实施例相同，但是该实施例增加了利用LSC软件和第二代reads对长片段拼接结果上未被短片段拼接结果覆盖的区域进行纠错的步骤。图5示出了使用LSC软件和第二代测序的原始reads，对PacBio拼接结果中未被第二代拼接结果覆盖到的区域进行纠错，得到高质量的PacBio组装结果图谱。此处纠错使用LSC软件，主要步骤包括：将第二代测序的原始reads比对至PacBio拼接结果；根据比对结果找到PacBio拼接结果上第二代高精度短片段序列的覆盖区域；将覆盖区域的PacBio拼接结果替换为第二代高精度短片段序列。

如图7所示，该实例可以包括：

接收模块11，用于接收利用第二代测序技术获得的样品的高精度短片段序列；

拼接模块12，与接收模块11相连，用于对获得的样品的高精度短片段序列进行拼接，获得第一拼接序列；

接收模块13，用于接收利用单分子测序技术获得的样品的长片段序列；

拼接模块14，与接收模块13相连，用于对获得的样品的长片段序列进行拼接，获得第二拼接序列；

定位模块15，与拼接模块12和拼接模块14相连，用于将第一拼接序列定位到第二拼接序列上；

纠错模块16，与定位模块15相连，用于利用第一拼接序列中的高精度短片段序列对第二拼接序列中的长片段序列进行局部纠错，获得初步的样品基因组序列。

该实施例结合了第二代测序技术数据组装的结果和第三代测序技术数据组装的结果，利用第二代测序技术数据组装的高准确度纠正单分子实时测序数据组装的高错误率，使单分子实时测序的错误率不再是基因组装配的障碍，实现了整个基因组的完美拼接。而且，本发明的方法能够节省数据整理的时间。此外，由于单分子实时测序技术能够识别RNA碱基修饰，可直接获取功能信息，将第二代技术的序列密集数据与中度覆盖的单分子技术数据相结合，可获得基因组的甲基化模式，有望更广泛地应用于真核基因组的组装。

如图8所示，与图7中的实施例相比，该实例的还可以包括：

纠错模块17，纠错模块16相连，用于使用LSC软件和高精度短片段序列对第三拼接序列中未被第一拼接序列覆盖到的区域进行纠错，获得准确度更高的样品基因组序列。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种组装基因组序列的方法，其特征在于，包括：

对获得的所述长片段序列进行拼接，获得第二拼接序列；

将所述第一拼接序列定位到所述第二拼接序列上；

2.一种如权利要求1所述的组装基因组序列的方法，其特征在于：所述方法还包括使用LSC软件和所述高精度短片段序列对所述第三拼接序列中未被所述第一拼接序列覆盖到的区域进行纠错。

3.一种如权利要求1所述的组装基因组序列的方法，其特征在于：所述的第二代测序技术采用的是HiSeq测序仪，所述的单分子测序技术采用的是PacBio RSII测序仪。

4.一种如权利要求1所述的组装基因组序列的方法，其特征在于：使用SOAPdenovo软件对获得的所述高精度短片段序列进行拼接。

5.一种如权利要求4所述的组装基因组序列的方法，其特征在于：所述的使用SOAPdenovo软件对获得的所述高精度短片段序列进行拼接包括以下步骤：

6.一种如权利要求1所述的组装基因组序列的方法，其特征在于，所述的对获得的所述长片段序列进行拼接包括以下步骤：

B.利用步骤A所获得的详细比对信息进行去冗余和拼接，获得所述第二拼接序列。

7.一种组装基因组序列的系统，其特征在于，包括：

拼接模块Ⅰ，与所述接收模块Ⅰ相连，用于对所获得的样品的高精度短片段序列进行拼接，获得第一拼接序列；

拼接模块Ⅱ，与所述接收模块Ⅱ相连，用于对所获得的样品的长片段序列进行拼接，获得第二拼接序列；

定位模块，与所述接收模块Ⅰ和所述接收模块Ⅱ相连，用于将所述第一拼接序列定位到所述第二拼接序列上；

纠错模块Ⅰ，与所述定位模块相连，用于利用所述第一拼接序列中的高精度短片段序列对所述第二拼接序列中的长片段序列进行局部纠错，获得第三拼接序列。

8.一种如权利要求7所述的组装基因组序列的系统，其特征在于：所述系统还包括纠错模块Ⅱ，与所述纠错模块Ⅰ相连，用于使用LSC软件和高精度短片段序列对所述第三拼接序列中未被所述第一拼接序列覆盖到的区域进行纠错。