CN107858408A

CN107858408A - 一种基因组二代序列组装方法和系统

Info

Publication number: CN107858408A
Application number: CN201610831202.XA
Authority: CN
Inventors: 邓天全
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2016-09-19
Filing date: 2016-09-19
Publication date: 2018-03-30

Abstract

本发明公开了一种基因组二代序列组装方法和系统，所述方法包括：将样品基因组DNA打断至第一预定长度范围；对打断的DNA片段选择第二预定长度范围；对第二预定长度范围的DNA片段进行双末端测序，得到具有重叠的第一读长序列和第二读长序列；对第一读长序列和第二读长序列进行拼接，获得各个文库拼接后的序列；对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列；根据读间对关系建立重叠群序列间的相对位置和方向关系，从而形成骨架序列；以及对骨架序列中无效碱基进行补洞填充。本发明的方法通过实验建库和测序读长选取，并结合拼接以实现延长序列读长，最后用延长后的序列进行组装，得到重叠群，能够提高基因组重叠群组装的指标和准确性。

Description

一种基因组二代序列组装方法和系统

技术领域

本发明涉及基因测序技术领域，尤其涉及一种基因组二代序列组装方法和系统。

背景技术

目前，基因组组装项目以全基因组鸟枪法测序(Whole-genome shotgunsequencing,WGS)为主流设计方案，它主要根据基因组的重复序列的具体特点，搭配不同长度的DNA插入片段进行双末端测序，在全基因组的平均测序深度足够的情况下可保证单碱基的准确性和基因组的完整性。随着第二代测序技术(Next-generation sequencing,NGS)的成熟和普及，测序成本大大降低，基于第二代测序技术的全基因组鸟枪法测序成为各种基因组项目测序的主流方案。而是否能组装出一个高质量的重叠群往往关系到基因组骨架序列组装效果好坏的一个重要影响因素。

把组装出的重叠群(Contig)和骨架序列(Scaffold)从大到小排列，当其累计长度刚刚超过全部组装序列总长度50％时，最后一个重叠群的大小即为Contig N50的大小，最后一个骨架序列的大小即为Scaffold N50的大小，Contig N50和Scaffold N50对评价基因测序的完整性有重要意义。N60即把组装出的重叠群和骨架序列从大到小排列，当其累计长度刚刚超过全部组装序列总长度60％时，最后一个重叠群(Contig)和骨架序列(Scaffold)的大小即为N60的大小。N10、N20、N30、N40、N70、N80、N90以此类推。

发明内容

序列读长(reads)对基因组组装效果有重要影响，本发明的方法和系统通过实验建库和测序读长选取，并结合拼接以实现延长序列读长，最后用延长后的序列进行组装，得到重叠群序列，并将二代序列比对到重叠群序列上，根据读间对关系(paired end)建立重叠群序列间的相对位置和方向关系，从而形成骨架序列(Scaffold)。

根据本发明的第一方面，本发明提供一种基因组二代序列组装方法，包括：将样品基因组DNA打断至第一预定长度范围；对打断的DNA片段切胶选择第二预定长度范围，以构建不同插入片段的文库；对上述第二预定长度范围的DNA片段进行双末端测序，针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列；对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接，获得各个文库拼接后的序列；对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列；根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系，从而形成骨架序列；以及利用读间对关系，对骨架序列中无效碱基进行补洞填充，获得基因组的组装结果。

进一步地，上述样品基因组DNA采用超声打断。

进一步地，上述第一预定长度范围是100bp-600bp或100bp-500bp。

进一步地，上述第二预定长度范围是170bp-180bp、260bp-280bp、450bp-470bp或550bp-570bp。

进一步地，上述第一读长序列和第二读长序列的序列长度是100-300bp。

进一步地，上述第一读长序列和第二读长序列的序列长度是100bp、150bp、250bp或300bp。

进一步地，上述对各个文库拼接后的序列进行序列组装具体是：将二代测序序列依次截取出长度为K的短序列K-mer；将K-mer存储到散列表中，形成德布鲁因图的顶点；在测序序列上前后相继的K-mer相连，形成德布鲁因图的边；将所有测序序列都处理完得到整个德布鲁因图；去除德布鲁因图中由测序错误、杂合位点引起的路径；将线性的K-mer路径连接起来形成第一级的重叠群。

进一步地，上述短序列K-mer的长度是30bp-500bp。

进一步地，上述方法还包括：在上述拼接之前，通过过滤去除含接头的序列以及低质量序列。

根据本发明的第二方面，本发明提供一种基因组二代序列组装系统，包括：打断模块，用于将样品基因组DNA打断至第一预定长度范围；选择模块，用于对打断的DNA片段切胶选择第二预定长度范围，以构建不同插入片段的文库；测序模块，用于对上述第二预定长度范围的DNA片段进行双末端测序，针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列；拼接模块，用于对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接，获得各个文库拼接后的序列；组装模块，用于对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列；骨架模块，用于根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系，从而形成骨架序列；以及利用读间对关系，对骨架序列中无效碱基进行补洞填充，获得基因组的组装结果。

本发明的方法和系统通过实验建库和测序读长选取，并结合拼接以实现延长序列读长，最后用延长后的序列进行组装，得到重叠群序列，并将二代序列比对到重叠群序列上，根据读间对关系建立重叠群序列间的相对位置和方向关系，从而形成骨架序列，能够提高基因组重叠群组装的指标和准确性。

附图说明

图1示出本发明的基因组二代序列组装方法的一个实施例流程图；

图2示出本发明切胶后的DNA分子利用第一读长序列和第二读长序列测通并进行拼接，获得更长序列的一个实施例流程图；

图3示出本发明的基因组二代序列组装系统的一个实施例结构框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

在本发明的一个实施例中，提供一种基于第二代测序技术和实验建库、切胶技术相结合，旨在提高基因组重叠群组装效果的方法和系统。

图1示出本发明基于第二代测序技术和实验建库、切胶技术相结合，组装基因组的一个实施例流程图。

如图1所示，在步骤102中，结合二代测序序列读长，将样品进行DNA打断到某一个长度范围(即第一预定长度范围)。在本发明的一个实施例中，样品基因组DNA采用超声打断，第一预定长度范围是100bp-600bp或100bp-500bp。

在步骤104中，根据需要选择双末端测序的序列读长，确定切胶的长度范围(即第二预定长度范围)，表1中给出了一个实施例中相应的例子。

表1

在步骤106中，根据步骤104切胶的长度范围，选取相应读长进行双末端测序，并保证读1和读2(即第一读长序列和第二读长序列)有重叠，如表1中给出了一个实施例中相应的例子。

在步骤108中，在步骤106获得序列后，对读1末端和读2前端进行比对，如能比对上就进行拼接，获得拼接后的序列。此步骤可以采用PEAR比对拼接软件，可从http://sco.h-its.org/exelixis/web/software/pear/获得。

在步骤110中，用步骤108获得的拼接序列进行组装，获得重叠群序列。将二代序列进行组装，将读长(测序序列)依次截取出长度为K的短序列，称为K-mer，K-mer前后互相重叠K-1个碱基。将K-mer存储到散列表中，形成德布鲁因图的顶点；在读上前后相继的K-mer认为这两个K-mer相连，形成德布鲁因图的边。将所有读长都处理完后，可以得到整个德布鲁因图，去除图中由测序错误、杂合位点引起的路径，将线性的K-mer路径连接起来即可形成第一级的Contig(重叠群)序列。将这些K-mer碱基连接起来即形成第一级的重叠群序列。这个阶段的组装可以使用拼接软件SOAPdenovo或Platanus。SOAPdenovo组装软件参考文献Li,R.et al.De novo assembly of human genomes with massively parallel shortread sequencing.Genome Res(2009)。此软件可以从网上免费获得，网址为http://soap.genomics.org.cn/soapdenovo.html。或者可从网上http://platanus.bio.titech.ac.jp/platanus/获得Platanus组装软件。

在步骤112中，将序列比对到重叠群序列上，根据读1和读2(即第一读长序列和第二读长序列)的对关系(paired end)建立重叠群序列间的相对位置和方向关系，从而形成Scaffold(骨架序列)。并利用读间对关系，对骨架序列中无效碱基N进行补洞填充，最终获得基因组的组装结果。

图2示出本发明基于第二代测序技术和实验建库、切胶技术相结合，获得更长序列读长的一个实施例流程图。

在步骤202中，示出了通过切胶后获得的一个DNA分子。

在步骤204中，示出了结合切胶范围，选取相应测序读长技术，获得读1和读2有重叠区域的序列。

在步骤206中，示出了读1和读2比对拼接后的序列。

对应于图1所示的基因组二代序列组装方法，本发明还提供一种基因组二代序列组装系统，如图3所示，包括：打断模块310，用于将样品基因组DNA打断至第一预定长度范围；选择模块320，用于对打断的DNA片段切胶选择第二预定长度范围，以构建不同插入片段的文库；测序模块330，用于对上述第二预定长度范围的DNA片段进行双末端测序，针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列；拼接模块340，用于对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接，获得各个文库拼接后的序列；组装模块350，用于对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列；骨架模块360，用于根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系，从而形成骨架序列；以及利用读间对关系，对骨架序列中无效碱基进行补洞填充，获得基因组的组装结果。

下面提供本发明方法的一个藻苔植物基因组大小约为400MB具体应用例。在该例子中，实现基因组重叠群测序组装，具体步骤如下：

(一)建库测序

1)提取样本的DNA并随机打断，经电泳后，分别切取170bp-180bp和250bp-260bp范围的凝胶纯化。纯化后的DNA片段连接测序接头，PCR扩增，然后分别使用二代测序仪进行双末端100bp和150bp序列读长的测序。

2)建立500bp、800bp、2k、5k、10k、20k大小的文库并测序。

(二)数据过滤

某些原始序列带有接头序列，或含有少量低质量序列。我们首先使用软件经过一系列数据处理以去除杂质数据，得到有效数据。过滤步骤具体包括：

1)去除含接头的序列；

2)去除低质量序列(质量值小于等于20的碱基数占整个序列的20％以上)；

3)获得过滤后的序列。

(三)序列拼接

通过PEAR软件分别对过滤后的插入片段为170bp-180bp和250bp-260bp序列进行比对拼接，获得拼接后的序列。

(四)建立重叠群。

将拼接后序列用Platanus软件进行组装，得到大小约为419Mb的重叠群序列。Contig N50为1881bp。表2为读1和读2拼接和不拼接进行比较的重叠群组装效果比较表。拼接的比不拼接的效果提升十分明显。

表2

(五)建立基因组骨架序列与补洞

将序列比对到重叠群序列上，根据500bp、800bp、2k、5k、10k、20k文库序列读1和读2的对关系(paired end)建立重叠群序列间的相对位置和方向关系，从而形成Scaffold(骨架序列)。这个阶段的组装可以使用拼接软件SOAPdenovo或Platanus。

例如，这个阶段的组装可以使用华大基因研究院研发的拼接软件SOAPdenovo进行拼接，基于德布鲁因图进行短序列组装，得到一级骨架序列(scaffold)。或者使用Platanus软件。

骨架序列完成后，利用读间对关系，对骨架序列中无效碱基N进行填充，例如，采用华大基因研究院研发的软件KGF进行补洞，也可以使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作，GapCloser可以在soap.genomics.org.cn免费获得。也可以使用Platanus配套的补洞工具Gapclose进行此阶段工作。

用Platanus软件完成补洞后，得到大小约为419M的基因组组装序列。ScaffoldN50为701kb。表3为读1和读2拼接和不拼接进行比较的组装效果比较表，拼接后ScaffoldN50为701kb比不拼接的477kb提高了46％，组装提升效果非常明显。而且拼接的最终组装结果基因组大小为340MB比不拼接的326MB更加完整，更接近预测的基因组大小。

表3

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基因组二代序列组装方法，其特征在于，所述方法包括：

将样品基因组DNA打断至第一预定长度范围；

对打断的DNA片段切胶选择第二预定长度范围，以构建不同插入片段的文库；

对所述第二预定长度范围的DNA片段进行双末端测序，针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列；

对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接，获得各个文库拼接后的序列；

对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列；

根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系，从而形成骨架序列；以及利用读间对关系，对骨架序列中无效碱基进行补洞填充，获得基因组的组装结果。

2.根据权利要求1所述的基因组二代序列组装方法，其特征在于，所述样品基因组DNA采用超声打断。

3.根据权利要求1所述的基因组二代序列组装方法，其特征在于，所述第一预定长度范围是100bp-600bp或100bp-500bp。

4.根据权利要求1所述的基因组二代序列组装方法，其特征在于，所述第二预定长度范围是170bp-180bp、260bp-280bp、450bp-470bp或550bp-570bp。

5.根据权利要求1所述的基因组二代序列组装方法，其特征在于，所述第一读长序列和第二读长序列的序列长度是100-300bp。

6.根据权利要求1所述的基因组二代序列组装方法，其特征在于，所述第一读长序列和第二读长序列的序列长度是100bp、150bp、250bp或300bp。

7.根据权利要求1所述的基因组二代序列组装方法，其特征在于，所述对各个文库拼接后的序列进行序列组装具体是：将二代测序序列依次截取出长度为K的短序列K-mer；将K-mer存储到散列表中，形成德布鲁因图的顶点；在测序序列上前后相继的K-mer相连，形成德布鲁因图的边；将所有测序序列都处理完得到整个德布鲁因图；去除德布鲁因图中由测序错误、杂合位点引起的路径；将线性的K-mer路径连接起来形成第一级的重叠群。

8.根据权利要求7所述的基因组二代序列组装方法，其特征在于，所述短序列K-mer的长度是30bp-500bp。

9.根据权利要求1所述的基因组二代序列组装方法，其特征在于，所述方法还包括：在所述拼接之前，通过过滤去除含接头的序列以及低质量序列。

10.一种基因组二代序列组装系统，其特征在于，所述系统包括：

打断模块，用于将样品基因组DNA打断至第一预定长度范围；

选择模块，用于对打断的DNA片段切胶选择第二预定长度范围，以构建不同插入片段的文库；

测序模块，用于对所述第二预定长度范围的DNA片段进行双末端测序，针对特定DNA片段得到具有重叠的第一读长序列和第二读长序列；

拼接模块，用于对各个文库双末端测序得到的第一读长序列和第二读长序列进行拼接，获得各个文库拼接后的序列；

组装模块，用于对各个文库拼接后的序列进行序列组装以获得基因组重叠群序列；

骨架模块，用于根据第一读长序列和第二读长序列的对关系建立重叠群序列间的相对位置和方向关系，从而形成骨架序列；以及利用读间对关系，对骨架序列中无效碱基进行补洞填充，获得基因组的组装结果。