CN107784201B

CN107784201B - 一种二代序列和三代单分子实时测序序列联合补洞方法和系统

Info

Publication number: CN107784201B
Application number: CN201610741836.6A
Authority: CN
Inventors: 邓天全; 贺丽娟; 杨林峰
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2021-05-28
Anticipated expiration: 2036-08-26
Also published as: CN107784201A

Abstract

本发明公开了一种二代序列和三代单分子实时测序序列联合补洞方法和系统，该方法包括：基因组参考序列建库；将三代单分子实时测序序列比对到基因组参考序列；获得间隙序列支持；提取间隙序列支持；组装，建立一致的间隙填充序列；使用一致的间隙填充序列修补基因组参考序列的间隙；使用二代序列和修补后的基因组参考序列进行比对获得无效比对区域，并用无效序列对该区域进行替换，获得新基因组参考序列；用二代序列对新基因组参考序列进行补洞，获得最终基因组参考序列。本发明的方法采用二代序列与三代单分子实时测序序列相结合的方法进行分级补洞，提高了基因组完整性和准确性。

Description

一种二代序列和三代单分子实时测序序列联合补洞方法和系统

技术领域

本发明涉及核苷酸序列组装技术领域，尤其涉及一种二代序列和三代单分子实时测序序列联合补洞方法和系统。

背景技术

目前，基因组组装项目以全基因组鸟枪法测序(Whole-genome shotgunsequencing,WGS)为主流设计方案，它主要根据基因组的重复序列的具体特点，搭配不同长度的DNA插入片段进行双末端测序，在全基因组的平均测序深度足够的情况下可保证单碱基的准确性和基因组的完整性。随着第二代测序技术(Next-generation sequencing,NGS)的成熟和普及，测序成本大大降低，基于第二代测序技术的全基因组鸟枪法测序成为各种基因组项目测序的主流方案。

然而对于复杂基因组，其具有高杂合性(杂合性即在同源染色体上的一个或多个位点上有不同等位基因存在的状态)与重复序列等各种问题，上述的解决方案易受这些问题的干扰，组装结果无法达标，导致数据分析及组装困难，不适用于复杂基因组。同时由于重复序列比较长，二代短序列无法跨越此区域，用二代序列补洞效果不是很理想。

将组装出的重叠群或骨架序列从大到小排列，当其累计长度刚刚超过全部组装序列总长度50％时，最后一个重叠群(Contig)或骨架序列(Scaffold)的大小即为N50的大小，N50对评价基因测序的完整性有重要意义。

目前三代——Pacbio单分子实时测序(SMRT)技术由于具有超长读长的特点，能对高重复序列、转座子区域及高度变异区域等基因组复杂区域进行高水平组装或补洞，使得Contig N50和Scaffold N50长度更长，组装和补洞结果更完整准确，三代测序技术用于全基因组组装和补洞的物种越来越多。但其由于样品要求高、成本昂贵、单碱基错误率高(比如Pacbio RSII平台序列平均15％的错误率)，如果只用Pacbio单分子实时测序序列进行全基因组装或补洞，组装和补洞后的某些区域可能会存在碱基错误，影响组装和补洞结果的准确性。

发明内容

本发明提供一种二代序列和三代单分子实时测序序列联合补洞方法和系统，能够提高基因组组装结果的指标和准确性。

根据本发明的第一方面，本发明提供一种二代序列和三代单分子实时测序序列联合补洞方法，包括：进行基因组参考序列建库；将三代单分子实时测序序列比对到上述基因组参考序列；获得间隙序列支持，确定支持每个间隙的三代单分子实时测序序列；提取间隙序列支持，获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中；对上述同一个文件夹中的序列进行组装，建立一致的间隙填充序列；使用上述一致的间隙填充序列修补上述基因组参考序列的间隙并输出修补结果；使用二代序列和经过上述三代单分子实时测序序列修补后的基因组参考序列进行比对获得无效比对区域，并用无效序列对该区域进行替换，获得新基因组参考序列；用二代序列对上述新基因组参考序列进行补洞，获得最终基因组参考序列。

进一步地，上述进行基因组参考序列建库包括：对上述基因组参考序列的每条骨架序列命名、建索引、及统计间隙信息。

进一步地，上述方法还包括：上述三代单分子实时测序序列利用序列间的比对关系进行自纠错，得到自纠错后的三代单分子实时测序序列。

进一步地，上述方法还包括：上述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。

进一步地，上述将三代单分子实时测序序列比对到上述基因组参考序列的步骤中使用的上述三代单分子实时测序序列是自纠错前的序列。

进一步地，上述将三代单分子实时测序序列比对到上述基因组参考序列的步骤中使用的上述三代单分子实时测序序列是自纠错后的序列。

进一步地，上述获得无效比对区域并用无效序列对该区域进行替换的步骤具体包括：二代序列比对到经过上述三代单分子实时测序序列修补后的基因组参考序列，获得比对结果；计算基因组参考序列的覆盖度，获得基因组参考序列有效区域无覆盖的情况；用无效序列替换无覆盖的有效序列区域，获得新基因组参考序列。

根据本发明的第二方面，本发明提供一种二代序列和三代单分子实时测序序列联合补洞系统，包括：参考序列建库单元，用于进行基因组参考序列建库；三代序列比对单元，用于将三代单分子实时测序序列比对到上述基因组参考序列；间隙序列支持获取单元，用于获得间隙序列支持，确定支持每个间隙的三代单分子实时测序序列；间隙序列支持提取单元，用于提取间隙序列支持，获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中；间隙填充序列建立单元，用于对上述同一个文件夹中的序列进行组装，建立一致的间隙填充序列；间隙修补单元，用于使用上述一致的间隙填充序列修补上述基因组参考序列的间隙并输出修补结果；比对替换单元，用于使用二代序列和经过上述三代单分子实时测序序列修补后的基因组参考序列进行比对获得无效比对区域，并用无效序列对该区域进行替换，获得新基因组参考序列；二代序列补洞单元，用于二代序列对上述新基因组参考序列进行补洞，获得最终基因组参考序列。

进一步地，上述系统还包括：三代序列自纠错单元，用于上述三代单分子实时测序序列利用序列间的比对关系进行自纠错，得到自纠错后的三代单分子实时测序序列。

进一步地，上述系统还包括：三代序列筛选单元，用于上述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。

本发明提供的基因组补洞方法和系统，采用二代序列与三代单分子实时测序序列相结合的方法进行分级补洞，提高了基因组完成性和准确性。

附图说明

图1示出三代单分子实时测序序列(例如Pacbio序列)自纠错的一个实施例的流程图；

图2示出本发明的基因组补洞方法的一个实施例的流程图；

图3示出本发明的基因组补洞方法中的基因组无效序列获取的一个实施例的流程图；

图4示出本发明的基因组补洞系统的一个实施例的结构框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

在本发明的一个实施方案中，提供一种基于第二代测序技术和第三代(例如Pacbio)单分子实时测序技术(SMRT)所得测序序列联合补洞方法和系统，采用基于第二代测序技术的全基因组鸟枪法与第三代(例如Pacbio)单分子实时测序技术相结合的方法进行测序，旨在解决简单基因组和复杂基因组的补洞问题。

本发明中涉及到的术语说明如下：

二代序列，是指基于第二代测序技术得到的测序序列。

三代单分子实时测序序列，是指基于第三代测序技术得到的测序序列，尤其是以Pacbio测序为代表的单分子实时测序序列，在本发明中，也可以称为“三代序列”。

基因组参考序列，作为本发明方法起始使用的基因组参考序列可以是第一代或第二代测序序列组装的基因组结果。本发明的方法，对于那些第一代或第二代测序的基因组中存在的间隙，使用少量三代单分子实时测序序列并且联合二代序列，即可实现良好的补洞效果。

本发明中涉及三代单分子实时测序序列的自纠错，例如Pacbio序列的自纠错。图1示出三代单分子实时测序(例如Pacbio测序)序列自纠错的实施例流程图，包括：

在步骤102中，将使用三代单分子实时测序(例如Pacbio测序)得到的原始序列数据，过滤掉接头、短序列和质量值过低的序列，最终获得质量值比较高的三代单分子实时测序(例如Pacbio测序)序列数据。

在步骤104中，由于三代单分子实时测序(例如Pacbio测序)序列一般平均的错误率高达15％，为了提高接下来的图2中步骤208补洞的效率和步骤210拼接的准确性，将步骤102过滤后的三代单分子实时测序(例如Pacbio测序)序列利用序列间的比对关系进行自纠错，最终获得自纠错后的三代单分子实时测序(例如Pacbio测序)序列，例如可以使用纠错软件MHAP(参考文献：Assembling Large Genomes with Single-MoleculeSequencing andLocality Sensitive Hashing)。又比如可以使用FALCON组装软件中的纠错功能。FALCON下载网址https://github.com/PacificBiosciences/FALCON。经过自纠错以后的序列错误率下降，准确率提高，数据量变小，比对时间变短，提高了效率，有很大优势。

图2示出本发明的基因组补洞方法的一个实施例的流程图，具体包括：

在步骤202中，进行基因组参考序列建库。

具体可以包括：对基因组参考序列每条骨架序列重新命名、建索引、及统计间隙信息。

在步骤204中，将三代单分子实时测序序列比对到基因组参考序列。

例如，可以使用blasr比对软件将三代单分子实时测序序列(例如Pacbio序列)比对到基因组参考序列，获得三代单分子实时测序序列(例如Pacbio序列)和基因组参考序列的比对结果。

该步骤中，采用的三代单分子实时测序序列(例如Pacbio序列)可以为图1中步骤102的过滤后获得的三代单分子实时测序序列(例如Pacbio序列)，也可以是步骤104的三代单分子实时测序序列(例如Pacbio序列)自纠错后获得的序列。经过自纠错以后的序列错误率下降，准确率提高，数据量变小，比对时间变短，提高了效率，有很大优势。

在步骤206中，获得间隙序列支持，确定支持每个间隙的三代单分子实时测序序列。

该步骤，根据比对结果(例如blasr的比对结果)，确定哪些三代单分子实时测序序列(例如Pacbio序列)支持哪些间隙。

在步骤208中，提取间隙序列支持，获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中。

在步骤210中，对同一个文件夹中的序列进行组装，建立一致的间隙填充序列。

在步骤212中，使用一致的间隙填充序列修补基因组参考序列的间隙并输出修补结果。

上述步骤202至步骤212是使用三代单分子实时测序序列对基因组进行补洞的过程。上述过程可以采用替代性的补洞软件进行，例如采用PBJelly补洞软件，参考文献：Mindthe Gap:Upgrading Genomes with Pacific Biosciences RS Long-Read SequencingTechnology。

在步骤214中，使用二代序列和经过三代单分子实时测序序列修补后的基因组参考序列进行比对获得无效比对区域，并用无效序列对该区域进行替换，获得新基因组参考序列。

该步骤的具体实施步骤可以如图3所示，首先在步骤302中，二代序列比对到经过三代单分子实时测序序列修补后的基因组参考序列，获得比对结果；其次在步骤304中，计算基因组参考序列的覆盖度，获得基因组参考序列有效区域无覆盖的情况；最后在步骤306中，用无效序列替换无覆盖的有效序列区域，获得新基因组参考序列。

在步骤216中，用二代序列对新基因组参考序列进行补洞，获得最终基因组参考序列。

该步骤可以利用读间对关系(paired end)，对骨架序列中无效碱基N进行填充。例如，采用华大基因研究院的软件KGF进行补洞，也可以使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作，GapCloser可以在soap.genomics.org.cn免费获得。也可以使用Platanus配套的补洞软件Gapclose进行此阶段工作。SOAPdenovo可以从网上免费获得，网址为http://soap.genomics.org.cn/soapdenovo.html。Platanus可以从网址http://platanus.bio.titech.ac.jp/platanus/获得。

对应于上述基因组补洞方法，本发明一个实施例还提供一种基因组补洞系统，如图4所示，该系统包括：

参考序列建库单元402，用于进行基因组参考序列建库；三代序列比对单元404，用于将三代单分子实时测序序列比对到基因组参考序列；间隙序列支持获取单元406，用于获得间隙序列支持，确定支持每个间隙的三代单分子实时测序序列；间隙序列支持提取单元408，用于提取间隙序列支持，获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中；间隙填充序列建立单元410，用于对同一个文件夹中的序列进行组装，建立一致的间隙填充序列；间隙修补单元412，用于使用一致的间隙填充序列修补基因组参考序列的间隙并输出修补结果；比对替换单元414，用于使用二代序列和经过三代单分子实时测序序列修补后的基因组参考序列进行比对获得无效比对区域，并用无效序列对该区域进行替换，获得新基因组参考序列；二代序列补洞单元416，用于二代序列对新基因组参考序列进行补洞，获得最终基因组参考序列。

作为进一步改进，上述系统还包括：三代序列筛选单元418，用于三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。

作为进一步改进，上述系统还包括：三代序列自纠错单元420，用于三代单分子实时测序序列利用序列间的比对关系进行自纠错，得到自纠错后的三代单分子实时测序序列。

本领域普通技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

下面提供本发明方法的一个藻类植物基因组大小约为400Mb具体应用例。基因组利用二代序列进行组装，组装后基因组大小约为342Mb，Scaffold N50约为787Kb，ContigN50约为11Kb，间隙大小约为35Mb，间隙数量为93269个。在该实施例中，实现基因组利用Pacbio单分子实时测序和二代测序联合补洞，具体步骤如下：

(一)Pacbio数据处理

1)将原始下机数据(Raw data)中的接头序列去除，同时去除小于500bp的短序列，RQ值小于0.75的序列，得到过滤后的序列数据，数据量约为22Gb。

2)使用MHAP软件对过滤后的Pacbio序列进行自纠错，获得自纠错后的Pacbio序列，数据量为7.5Gb。参考文献：Assembling Large Genomes with Single-MoleculeSequencing and Locality Sensitive Hashing。

(二)自纠错后的Pacbio序列对二代基因组骨架进行补洞

使用7.5Gb自纠错后Pacbio序列和PBJelly补洞软件对基因组序列进行补洞，获得补洞后的新基因组序列。

经过PBJelly软件补洞后可以得到大小约为365Mb的新基因组序列，Scaffold N50约为836Kb，Contig N50约为95Kb，间隙大小约为19Mb，间隙数量为34442。

(三)获取基因组骨架序列无效比对区域并用无效序列替换

由于Pacbio测序错误率比较高，经过自纠错后，错误率会大幅降低，但有些区域如果测序深度比较低，可能还会存在错误，所以可以通过二代序列比对将其挑出，采用华大基因研究院的软件SOAPaligner软件将二代序列比对到新的基因组序列，重复序列比对结果设置为全部输出，获得比对结果并统计基因组序列的覆盖度；挑选出无覆盖的有效序列区域；最后，用无效序列替换无覆盖度的有效序列区域，获得新的基因组序列。SOAPaligner软件可以在soap.genomics.org.cn免费获得。

通过替换可得到大小约为365Mb的新的基因组序列，Scaffold N50约为836Kb，Contig N50约为34Kb，间隙大小约为26Mb，间隙个数为87777个。

(四)二代序列对基因组骨架进行补洞

利用双端读中只有一端或者只有一部分比对到重叠群上，另一端则可以根据插入片段大小定位到骨架序列中的“N”区域中，这样就可以把骨架序列中的无效碱基转变为有效碱基。此步采用华大基因研究院的软件KGF进行补洞，同时使用SOAPdenovo配套的补洞软件GapCloser进行此阶段工作，GapCloser可以在soap.genomics.org.cn免费获得。

经过KGF软件补洞可以得到大小约为365Mb的新骨架序列，Scaffold N50约为834Kb，Contig N50约为55Kb，间隙大小为约19Mb，间隙个数为79462个。

经过Gapcloser软件补洞可以得到大小为365Mb的最终基因组组装序列，ScaffoldN50约为834Kb，Contig N50约为98Kb，间隙大小约为11Mb，间隙个数为29359个。

经过Pacbio序列和二代序列的联合补洞，从表1可以看出，相比原始组装结果，补洞后的最终基因组大小提升6.7％，Scaffold N50提升6％，Contig N50提升790.9％，间隙大小减少68.5％，间隙数量减少68.5％，补洞效果提升十分明显。

表1基因组序列补洞过程中指标变化表

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种二代序列和三代单分子实时测序序列联合补洞方法，其特征在于，所述方法包括：

进行二代基因组序列建库；

将三代单分子实时测序序列比对到所述二代基因组序列；

获得间隙序列支持，具体步骤为：确定支持每个间隙的三代单分子实时测序序列；

提取间隙序列支持，具体步骤为：获取支持每个间隙的所有三代单分子实时测序序列并放到同一个文件夹中；

对所述同一个文件夹中的序列进行组装，建立一致的间隙填充序列；

使用所述一致的间隙填充序列修补所述二代基因组序列的间隙并输出修补结果；

使用二代序列和经过所述三代单分子实时测序序列修补后的二代基因组序列进行比对获得无效比对区域，并用无效序列对该区域进行替换，获得新二代基因组序列；

用二代序列对所述新二代基因组序列进行补洞，获得最终二代基因组序列。

2.根据权利要求1所述的联合补洞方法，其特征在于，所述进行二代基因组序列建库包括：对所述二代基因组序列的每条骨架序列命名、建索引、及统计间隙信息。

3.根据权利要求1所述的联合补洞方法，其特征在于，所述方法还包括：

所述三代单分子实时测序序列利用序列间的比对关系进行自纠错，得到自纠错后的三代单分子实时测序序列。

4.根据权利要求3所述的联合补洞方法，其特征在于，所述方法还包括：

所述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。

5.根据权利要求1所述的联合补洞方法，其特征在于，所述将三代单分子实时测序序列比对到所述二代基因组序列的步骤中使用的所述三代单分子实时测序序列是自纠错前的序列。

6.根据权利要求1所述的联合补洞方法，其特征在于，所述将三代单分子实时测序序列比对到所述二代基因组序列的步骤中使用的所述三代单分子实时测序序列是自纠错后的序列。

7.根据权利要求1所述的联合补洞方法，其特征在于，所述获得无效比对区域并用无效序列对该区域进行替换的步骤具体包括：

二代序列比对到经过所述三代单分子实时测序序列修补后的二代基因组序列，获得比对结果；

计算二代基因组序列的覆盖度，获得二代基因组序列有效区域无覆盖的情况；

用无效序列替换无覆盖的有效序列区域，获得新二代基因组序列。

8.一种二代序列和三代单分子实时测序序列联合补洞系统，其特征在于，所述系统包括：

参考序列建库单元，用于进行二代基因组序列建库；

三代序列比对单元，用于将三代单分子实时测序序列比对到所述二代基因组序列；

间隙序列支持获取单元，用于获得间隙序列支持，确定支持每个间隙的三代单分子实时测序序列；

间隙序列支持提取单元，用于提取间隙序列支持，获取所有支持每个间隙的三代单分子实时测序序列并放到同一个文件夹中；

间隙填充序列建立单元，用于对所述同一个文件夹中的序列进行组装，建立一致的间隙填充序列；

间隙修补单元，用于使用所述一致的间隙填充序列修补所述二代基因组序列的间隙并输出修补结果；

比对替换单元，用于使用二代序列和经过所述三代单分子实时测序序列修补后的二代基因组序列进行比对获得无效比对区域，并用无效序列对该区域进行替换，获得新二代基因组序列；

二代序列补洞单元，用于二代序列对所述新二代基因组序列进行补洞，获得最终二代基因组序列。

9.根据权利要求8所述的联合补洞系统，其特征在于，所述系统还包括：

三代序列自纠错单元，用于所述三代单分子实时测序序列利用序列间的比对关系进行自纠错，得到自纠错后的三代单分子实时测序序列。

10.根据权利要求8所述的联合补洞系统，其特征在于，所述系统还包括：

三代序列筛选单元，用于所述三代单分子实时测序序列在自纠错之前先过滤接头、短序列和低质量值序列以获得过滤后的序列。