CN109411020A

CN109411020A - 利用长测序读段进行全基因组序列补洞的方法

Info

Publication number: CN109411020A
Application number: CN201811296723.5A
Authority: CN
Inventors: 李炯棠; 徐桂彩; 朱锐; 张研; 李尚琪; 孙晓晴
Original assignee: China Aquatic Scientific Research Institute
Current assignee: China Aquatic Scientific Research Institute
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-03-01
Anticipated expiration: 2038-11-01
Also published as: CN109411020B

Abstract

本发明公开了利用长测序读段进行全基因组序列补洞的方法，包括如下步骤：步骤一、首先将长测序读段分割为彼此顺次连接的若干个标签片段，然后将若干个标签片段比对到待补洞的全基因组序列上；步骤二、确定出与全基因组序列匹配的标签片段于全基因组序列上的比对方向和比对位置；步骤三、根据标签片段的比对位置和洞的位置关系，建立其对应的长测序读段与洞的关联关系；步骤四、根据长测序读段与洞的关联关系，利用长测序读段对洞未知序列进行补洞。本发明将短读段比对基因组方法应用于长测序读段比对基因组的方法，短读段比对到基因组序列上，运行时间短和内存需求小，提高了长片段补洞的速度和内存需求。

Description

利用长测序读段进行全基因组序列补洞的方法

技术领域

本发明属于基因组学和生物信息技术领域，具体地涉及DNA组装的补洞方法，特别涉及来进行基因组序列的补洞利用长测序读段进行全基因组序列补洞的方法。

背景技术

第二代测序技术允许通过从头装配实现低成本和快速的构建基因组序列。然而，测序错误、重复区域、异染色质、基因组多态性和二代测序的偏好型等因素使得一些基因组区域很难被组装，表现为基因组序列之间存在空洞，一般由一串N代替。N的长度代表洞的大小。填补基因组中洞的过程，为填补基因组序列之间的空洞以构建完整的基因组，已经开发出了几种利用二代测序片段来填补基因组中空洞的方法。例如，直接使用二代测序短读段进行补洞方法，或将二代测序读段拼接成重叠群后再进行填补洞。但是，这些补洞工具在补洞过程中显示出很高的错误组装率。此外，使用这些工具，由于依赖于二代测序技术，存在测序偏好性，补洞效率低下，特别是对于重复区域和异染色质的洞，无法很好地填补。

相比二代测序技术，基于Pacbio和Nanopore的第三代测序技术获得的长测序读段具有如下优势：(1)测序片段长，一般测序读长超过5000个碱基，而二代测序读长一般在150个碱基；(2)无GC偏好性、无测序偏好性；(3)可横跨重复区域和异染色质。因此更适合于基因组补洞。目前已知两种方法：PBJelly(https://github.com/alvaralmstedt/Tutorials/wiki/Gap-closing-with-PBJelly)和GMCloser(https://sourceforge.net/projects/gmcloser/)支持使用上述的Pacbio和Nanopore长测序读段进行补洞。PBJelly支持利用未矫正的长测序读段进行补洞，利用blasr将未矫正的长测序读段比对到有洞的基因组序列上，选择最优比对到支持读段，执行局部组装，并选择组装后的序列进行洞的填充。GMCloser仅支持校正后的长测序读段，因此必须先对未矫正后的长测序读段先进行矫正，然后利用矫正后的长测序读段进行补洞。GMCloser将有洞的基因组序列拆分成无洞的重叠群，将长测序读段与重叠群比对，基于似然法的分类方法将长测序读段准确地分配至基因组序列的洞区域。将长测序读段比对到基因组序列上，并在洞区域进行局部组装耗时长，导致运行时间长和内存需求大，限制了它们的应用，特别是在大基因组上的应用。

发明内容

本发明的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

本发明还有一个目的是提供利用长测序读段进行全基因组序列补洞的方法。

本发明再有一个目的是为了高效、准确地填补基因组的未知序列(又称为补洞)。本发明将长测序读段打断为短的标签片段，然后比对到基因组上，对标签片段的比对结果过滤筛选后建立标签片段与洞之间的关联，最后根据关联信息挑选出最优的长测序读段对其对应的洞进行替换填补。

为此，本发明提供的技术方案为：

利用长测序读段进行全基因组序列补洞的方法，包括如下步骤：

步骤一、首先将长测序读段分割为彼此顺次连接的若干个标签片段，然后将该若干个标签片段比对到待补洞的全基因组序列上；

步骤二、确定出与全基因组序列匹配的标签片段于所述全基因组序列上的比对方向和比对位置；

步骤三、根据标签片段的比对位置和洞的位置关系，建立其对应的长测序读段与洞的关联关系；

步骤四、根据长测序读段与洞的关联关系，利用该长测序读段对洞未知序列进行补洞。

优选的是，所述的利用长测序读段进行全基因组序列补洞的方法中，所述步骤三中，所述长测序读段与洞的关联关系包括完整型洞关联和部分型洞关联，所述完整型洞关联是指来自于同一长测序读段的若干个标签片段的比对位置存在于洞的两侧，所述部分型洞关联是指来自于同一条长测序读段的若干个标签片段的比对位置仅存在于所述洞的一侧；

所述步骤四中，利用该长测序读段对洞未知序列进行补洞时：

若所述长测序读段与洞为完整性洞关联，则进行I型补洞，所述I型补洞为将位于所述洞的两端的标签片段之间在长测序读段上的序列用于补洞；

若所述长测序读段与洞为部分型洞关联，且洞的每侧均有匹配的来自一条长测序读段的标签片段时，则进行II型补洞，所述II型补洞为对于洞的每一侧，从其侧的标签片段在长测序读段的位置到长测序读段末端之间的序列用于补洞；

若所述长测序读段与洞为部分型洞关联，且洞仅有一侧只有来自一条长测序读段的标签片段时，则进行III型补洞，所述III型补洞为对于洞的此侧，从该侧的标签片段在长测序读段的位置到长测序读段末端之间的序列用于补洞。

更优选的是，所述的利用长测序读段进行全基因组序列补洞的方法中，所述步骤四中，利用该长测序读段对洞未知序列进行补洞中：

进行所述I型补洞时，选择洞两侧最近的两个标签片段，用该两个标签片段在长测序读段间的序列，替换该两个标签片段在匹配序列间的序列；

进行所述II型补洞时，假定一个长测序读段A中的标签片段a位于最靠近洞的左侧，并且一个长测序读段B中的标签片段b位于最靠近洞的右侧，长测序读段A，长测序读段B和洞C的长度分别是L(A)，L(B)和L(C)，标签片段a在读段A中的位置是p(a)，并且其在对准的匹配序列中的位置是P(a)，长测序读段B中的标签片段(b)的位置是p(b)，并且其在对准的匹配序列中的位置是P(b)，

如果这两个长测序读段的用于填补洞的碱基数目之和小于洞长，即，

L(A)-p(a)+p(b)<L(C)，

则在两个填充序列之间插入一个由字母“N”组成的序列，插入的“N”数目是该洞长度和填充序列之间的差异，其中

N数目＝L(C)-(L(A)-p(a)+p(b))，

如果这两个长测序读段的用于闭合洞的碱基数目之和大于100％，即，

L(A)-p(a)+p(b)>L(C)，

则从p(a)到长测序读段A结尾的序列，以及从读段B的开始到p(b)的序列被采用并连接到上述填充序列以填补缺口；

进行所述III型补洞时，选择洞一侧最近的标签片段，用该标签片段在长测序读段位置到长测序读段末端间的序列，替换洞中的未知序列，其余位置仍然采用一段由字母“N”组成的序列插入，插入的“N”数量是洞长度和已填充序列之间的差值。

优选的是，所述的利用长测序读段进行全基因组序列补洞的方法中，所述步骤二中，确定出与全基因组序列匹配的标签片段于所述全基因组序列上的比对方向和比对位置包括如下方法：

2.1)若长测序读段对应的若干个标签片段在全基因组序列上的比对覆盖度超过预设的比对覆盖度阈值，则从中选择出有唯一比对位置的标签片段及其比对位置，

2.2)分析具有所述唯一比对位置的标签片段的比对方向，若于一个方向上的标签片段数大于另一个方向的标签片段数，则保留该比对方向的所有标签片段及其比对位置；

若被保留的标签片段数目超过了两个，则选择保留的所有标签片段中位于匹配序列的中间位置的标签片段作为参考片段，将其他标签片段的位置进行排序，如果其他标签片段的位置和参考片段的排列顺序与匹配序列比对方向上的排列顺序一致，并且其他标签片段在其对应的长测序读段中的距离接近于匹配序列中的距离，则保留所述标签片段和其比对结果；

2.3)对非唯一比对标签片段进行校正：如果非唯一比对的标签片段同时满足如下情况：与步骤2.2)中保留的唯一比对标签片段比对到同一条匹配序列上；比对方向与步骤2.2)中保留的唯一比对标签片段的方向一致；(iii)所在比对位置的顺序与步骤2.2)中保留的唯一比对标签片段的顺序一致，则保留该非唯一比对的标签片段及其比对位置。

更优选的是，所述的利用长测序读段进行全基因组序列补洞的方法中，步骤2.2)中，若保留的标签片段数目只有两个，且该两个标签片段的排列顺序与匹配序列比对方向上的排列顺序保持一致，则也保留该两个标签片段。

更优选的是，所述的利用长测序读段进行全基因组序列补洞的方法中，所述比对覆盖度＝(匹配碱基数+插入碱基数)/标签片段长度，所述匹配碱基数是指标签片段和匹配序列之间完全相同的碱基的数目，插入碱基数是指未在匹配序列中、但存在于标签片段中的碱基的数目，且所述插入碱基在对应的长序列片段中的位置处于匹配碱基的内部位置，所述匹配序列指所述标签片段与所述全基因组序列比对上的碱基序列；

所述比对覆盖度阈值为80％。

更优选的是，所述的利用长测序读段进行全基因组序列补洞的方法中，

所述步骤三中，在完整型洞关联的筛选过程中，所述洞的一侧上保留的标签片段与洞另一侧保留的标签片段，形成标签对，如果该标签对在长测序读段上的距离与其在匹配序列上的距离接近，则保留这些标签对及其比对位置，该距离的接近程度，用容忍度a来控制，满足如下公式：

标签对在长测序读段上的距离*(1-a)<＝标签对在匹配序列的距离<＝标签对在长测序读段上的距离*(1+a)，其中，容忍度a＝20％；

在部分型洞关联的筛选过程中，对于比对到最邻近洞位置的标签片段，如果该标签片段到其的对应长测序读段末端的长度超过了洞的长度，那么该长测序读段与该洞的部分型洞关联不可靠，移除该关联，否则认为该长测序读段与该洞关联是准确的，该长测序读段可用于后续补洞。

最优选的是，所述的利用长测序读段进行全基因组序列补洞的方法中，a值为20％。

优选的是，所述的利用长测序读段进行全基因组序列补洞的方法，还包括：

步骤五、利用步骤四经过补洞处理的全基因组序列作为新的全基因组，重复步骤一至四，进行多轮补洞，成为迭代补洞。

优选的是，所述的利用长测序读段进行全基因组序列补洞的方法中，所述标签序列的长度为100～1000bp，所述长测序读段基于Pacbio和Nanopore的第三代测序技术产生。

为了对本发明做出清楚的说明，针对本说明书中使用的技术术语如下进行定义：

洞：由于二代基因组测序技术和生物信息学组装技术的限制，拼接软件获得的基因组序列内部存在未知的序列。理论上该未知序列应该有碱基，但实际上却未拼接出具体序列，用一连串的N代替，表示此处为一个洞。N的长度代表洞的大小。

补洞：将洞中的N替换成具体碱基序列的过程。

长测序读段：长度超过1000个碱基的序列，用于补基因组洞的序列。可以是Pacbio和Nanopore技术获得的读段，也是通过二代测序产生的read组装获得的长片段。

短序列片段：又称为标签片段，将一条长测序读段按照一定长度打断为短片段。比长测序读段短，通常为小于1000个碱基。而且这些短序列片段在长测序读段上是顺序相接排列，且没有重叠。

匹配序列：标签片段比对上的那条基因组序列。

比对覆盖度：比对覆盖度＝(匹配碱基数+插入碱基数)/标签片段长度。其中，匹配碱基数是指标签片段和匹配序列之间完全相同的碱基数。插入碱基数是指未在匹配序列中、但存在于标签片段中的碱基数。比对覆盖度作为衡量序列比对相似程度的一个标准。比对覆盖度越高，那么标签片段与匹配序列的相似程度越高，比对结果越可靠。

唯一比对：是指一条标签片段只能比对到一条匹配序列且在该匹配序列上仅有唯一一个位置。

非唯一比对：标签片段有至少两个比对位置，包括如下情况：(1)比对到多条匹配序列；(2)比对到一条匹配序列，但是在这条序列上有多个比对位置。

完整型洞关联：是指一个洞两侧都有来自同一条长测序读段的标签片段。

部分型洞关联：是指一个洞的一侧仅有来自于一条长测序读段的标签片段。这种情况通常是长测序读段不够长，无法跨越整个洞，从而导致洞的另一边没有来自同一长测序读段的标签片段。

I型补洞：对于属于完整型洞关联的洞和对应的长测序读段，长测序读段可以将该洞完全填补。

II型补洞：对于属于部分型洞关联的洞和对应的长测序读段，如果一个洞的两侧没有来自同一条长测序读段，但是每一侧都有不同的长测序读段，那么两条不同的长测序读段共同填补该洞。

III型补洞：对于属于部分型洞关联的洞和对应的长测序读段，如果一个洞仅有一边有部分型洞关联，另一侧没有洞关联及长测序读段。这个洞仅能被部分填补，且被一条长测序读段用于填补。

支持证据数：对于洞的某一侧，可能存在多条长测序读段能比对到洞该侧的匹配序列上。对于完整型洞关联，每一条长测序读段比对到洞两侧的标签片段总数，称为该长测序读段的支持证据数。对于部分型洞关联，每一条长测序读段比对到洞一侧的标签片段总数，称为该长测序读段的支持证据数。

本发明至少包括以下有益效果：

本发明将短读段比对基因组方法应用于长测序读段比对基因组的方法，短读段比对到基因组序列上，运行时间短和内存需求小，提高了长片段补洞的速度和内存需求。

1.将长测序读段打断短的标签序列，提高将长测序读段比对到基因组上的速度，缩短补洞时间。如实施例1所用的数据和图2所示，利用30个CPU，将长测序读段直接比对到基因组上，需要27分钟。而如果将长测序读段打断成短标签片段(300个碱基)后，再比对到基因组上，需要3分钟。

2.相比现有的方法，PBJelly和GMCloser，基于短标签序列与洞关联的补洞方式增加了补洞的数量，提高补洞效率。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述的利用长测序读段进行全基因组序列补洞的方法的流程示意图；

图2为本发明其中一个实施例中的依照本发明的方法和传统方法比对时间的比较图表(其中fragmentation time表示本发明所提供的片段化时间；alignment time表示传统方法中比对到基因组的时间)。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

如图1所示，本发明提供一种利用长测序读段进行全基因组序列补洞的方法，包括如下步骤：

步骤二、确定出与全基因组序列匹配的标签片段于所述全基因组序列上的比对方向和比对位置；根据比对覆盖度，对标签序列的比对结果进行筛选，然后根据筛选出的标签片段的比对位置是否唯一、比对方向是否冲突、比对序列是否与标签序列在长片段读段中的位置一致依次继续筛选标签片段。

本发明将短读段比对基因组方法应用于长测序读段比对基因组的方法，短读段比对到基因组序列上，运行时间短和内存需求小，将提高长片段补洞的速度和内存需求。

在本发明的其中一个实施例中，作为优选，所述步骤三中，所述长测序读段与洞的关联关系包括完整型洞关联和部分型洞关联，所述完整型洞关联是指来自于同一长测序读段的若干个标签片段的比对位置存在于洞的两侧，所述部分型洞关联是指来自于同一条长测序读段的若干个标签片段的比对位置仅存在于所述洞的一侧；

在上述方案中，作为优选，所述步骤四中，利用该长测序读段对洞未知序列进行补洞中：

进行I型补洞时，选择洞两侧最近的两个标签片段，用该两个标签片段在长测序读段间的序列，替换该两个标签片段在匹配序列间的序列；

进行II型补洞时，假定一个长测序读段A中的标签片段a位于最靠近洞的左侧，并且一个长测序读段B中的标签片段b位于最靠近洞的右侧，长测序读段A，长测序读段B和洞C的长度分别是L(A)，L(B)和L(C)，标签片段a在读段A中的位置是p(a)，并且其在对准的匹配序列中的位置是P(a)，长测序读段B中的标签片段(b)的位置是p(b)，并且其在对准的匹配序列中的位置是P(b)，

L(A)-p(a)+p(b)<L(C)，

N数目＝L(C)-(L(A)-p(a)+p(b))，

L(A)-p(a)+p(b)>L(C)，

进行III型补洞时，选择洞一侧最近的标签片段，用该标签片段在长测序读段位置到长测序读段末端间的序列，替换洞中的未知序列，其余位置仍然采用一段由字母“N”组成的序列插入，插入的“N”数量是洞长度和已填充序列之间的差值。

在本发明的其中一些实施例中，作为优选，所述步骤二中，确定出与全基因组序列匹配的标签片段于所述全基因组序列上的比对方向和比对位置具体包括如下方法：

在上述方案中，作为优选，步骤2.2)中，若保留的标签片段数目只有两个，且该两个标签片段的排列顺序与匹配序列比对方向上的排列顺序保持一致，则也保留该两个标签片段。

在上述方案中，作为优选，所述比对覆盖度＝(匹配碱基数+插入碱基数)/标签片段长度，所述匹配碱基数是指标签片段和匹配序列之间完全相同的碱基的数目，插入碱基数是指未在匹配序列中、但存在于标签片段中的碱基的数目，且所述插入碱基在对应的长序列片段中的位置处于匹配碱基的内部位置，所述匹配序列指所述标签片段与所述全基因组序列比对上的碱基序列；所述比对覆盖度阈值为80％。

在本发明的其中一些实施例中，作为优选，所述步骤三中，在完整型洞关联的筛选过程中，洞的一侧上保留的标签片段与洞另一侧保留的标签片段，形成标签对，如果该标签对在长测序读段上的距离与其在匹配序列上的距离接近，则保留这些标签对及其比对位置，该距离的接近程度，用容忍度a来控制，满足如下公式：

标签对在长测序读段上的距离*(1-a)<＝标签对在匹配序列的距离<＝标签对在长测序读段上的距离*(1+a)，其中，容忍度a＝20％。

在上述方案中，作为优选，a值为20％。

在本发明的其中一些实施例中，作为优选，还包括：

在本发明的其中一些实施例中，作为优选，所述标签序列的长度为100～1000bp，所述长测序读段基于Pacbio和Nanopore的第三代测序技术产生。

为使本领域技术人员更好地理解本发明的技术方案，现提供如下的说明和实施例：

(一)将长测序读段打断成串联的、等长的、短的标签片段，并将标签片段比对基因组序列上

1.1长测序读段打断成标签片段

每个长测序读段按照特定的长度被打断成等长的标签片段。该特定长度范围在100个碱基到1000个碱基。超过1000个碱基后的标签片段，后续比对基因组的时间和内存需求都会增加。这些标签片段连续分布在一个长测序读段中，没有重叠。

1.2标签片段比对到基因组

将所有标签片段使用BWA软件中的BWA-mem算法(bio-bwa.sourceforge.net)比对到基因组序列上，获得比对结果。在本发明中，只是列举BWA-mem算法。其他利用短序列标签比对到基因组的算法，也可用于本发明。

(二)按照比对质量进行过滤筛选

2.1计算标签片段的比对覆盖度

根据如下公式，计算标签片段的比对覆盖度：

比对覆盖度＝(匹配碱基数+插入碱基数)/标签片段长度

如果比对覆盖度超过了某个阈值，则这些比对结果被认为是可靠的，并被保留下来。挑选完比对覆盖度后，挑选出有唯一比对的标签片段及其比对位置。这些唯一比对的标签片段与匹配序列只有一个比对结果，被认为是高可信度的。

2.2对唯一比对的标签序列进行顺序和方向的校正。

(1)由于长测序读段的测序错误和可能的匹配序列组装错误，那些来源于同一条长测序读段、且唯一比对到匹配序列上的标签片段，它们的比对方向可能会有冲突。计算各个方向的标签片段数量。如果每个比对方向的标签片段数目是相等的，那么比对到该匹配序列的长测序读段结果容易出错，所以移除所有比对结果。如果一个方向的标签片段数大于另一个方向的标签片段数，则该比对方向与该匹配序列的所有比对都被保留，并且另一方向的比对结果被去除。

(2)因为错误比对或错误组装，上一步骤保留的唯一比对标签片段间在基因组序列上的排列顺序可能与在长测序读段上的排列顺序不符合。(i)对于一条长测序读段只有两个标签片段被保留，且这两个标签片段的排列顺序与匹配序列比对方向上的排列顺序保持一致，则保留这些标签片段。否则，这些标签片段被删除。(ii)如果标签片段数目超过了两个，选择比对结果中位于匹配序列中间位置及其在长测序读段上的位置作为参考。然后将其他标签片段与参考片段进行比较。如果比较片段和参考片段的排列顺序与匹配序列中的排列顺序一致，并且这些片段在长测序读段中的距离接近于匹配序列中的距离，则比较片段和其比对结果被保留。否则，删除不一致的标签片段及其位置。

2.3对非唯一比对标签片段进行校正

然后利用2.2保留的唯一比对标签片段，进一步处理那些非唯一比对的标签片段，即至少有两个比对位置的标签片段。如果非唯一比对的标签片段同时满足如下情况：(i)与2.2保留唯一比对标签片段比对到同一条匹配序列上；(ii)比对结果的方向与2.2保留唯一比对的方向一致；(iii)标签序列所在比对结果的顺序与2.2保留唯一比对的顺序一致；那么该非唯一比对的标签片段及其比对位置保留，并应用于后续补洞。

(三)根据标签片段的比对位置，构建长测序读段与洞的关联关系

3.1对于每个洞，根据标签片段在洞两侧的位置，建立对应的长测序读段与洞的关系，分成完整型洞关联和部分型洞关联。

(i)完整型洞关联：洞两边有来自于同一条长测序读段的标签片段，洞两侧的标签片段形成标签对。

(ii)部分型洞关联：一条长测序读段的所有标签片段只比对到洞的一侧。

3.2对上述两种洞关联进行进一步优化

(i)完整型洞关联的进一步筛选过程：洞的一侧上保留的标签片段与洞另一侧保留的标签片段，形成标签对。如果这些标签对在长测序读段上的距离接近它们在匹配序列上的距离，则保留这些结果。这两种距离的接近程度，用容忍度a来控制，公式为：

标签对在长测序读段上的距离*(1-a)<＝标签对在匹配序列的距离<＝标签对在长测序读段上的距离*(1+a)。

建议容忍度为20％。过大容忍度将会导致错误的长测序读段用于补洞，提高错误率；过小容忍度将会导致无长测序读段用于补洞，降低补洞效率。如果这些标签对满足上述公式的要求，则认为这个洞关联是准确的，该长测序读段可用于后续补洞。

(iii)部分型洞关联的进一步筛选过程：

对于比对到最邻近洞位置的标签片段，如果该标签片段到长测序读段末端的长度超过了洞大小，那么该长测序读段与此部分型洞关联不可靠，将被移除。否则认为这个洞关联是准确的，该长测序读段可用于后续补洞。

(四)为每种洞关联挑选最优的长测序读段

(i)挑选完整型洞关联对应最优的长测序读段

对于每一个洞，如果存在同时完整型洞关联和部分型洞关联，优先选择完整型洞关联及其对应的长测序读段。对于每一个洞，计算每个完整型洞关联的长测序读段在洞两侧的总支持证据数。保留支持证据数最多的长测序读段，也称为最优长测序读段，用于后续补洞。能够用一条长测序读段完全补充洞的未知序列，称为I型补洞。

(ii)挑选部分型洞关联对应最优的长测序读段

如果一个洞仅存在部分型洞关联，那么对于每一侧，分别计算每个关联的长测序读段在该侧的总支持证据数。对于满足一定支持证据数的长测序读段，进一步计算每条长测序读段可补洞的长度。可补洞长度等于该标签片段到长测序读段末端的长度。挑选可补洞长度最长的长测序读段用于后续补洞。如果一个洞的两侧都有长测序读段用于补洞，称为II型补洞。如果一个洞仅一侧有长测序读段用于补洞，称为III型补洞。

(五)挑选最优的长测序读段进行补洞

(i)对于I型补洞及对应的最优长测序读段，先挑选洞两侧最近的标签片段。这两个标签片段在长测序读段间的序列，替换这两个标签片段在匹配序列间的序列。

(ii)对于II型补洞，一个洞由两条长测序读段进行填补。假定一个长测序读段(A)中的标签片段(a)位于最靠近洞的左侧，并且一个长测序读段(B)中的标签片段(b)位于最靠近洞的右侧。长测序读段A，长测序读段B和洞C的长度分别是L(A)，L(B)和L(C)。标签片段(a)在读段(A)中的位置是p(a)，并且其在对准的匹配序列中的位置是P(a)。读段(B)中的标签片段(b)的位置是p(b)，并且其在对准的匹配序列中的位置是P(b)。

如果这两个读段的用于填补洞的碱基数目之和小于洞长，即，

L(A)-p(a)+p(b)<L(C)，

这意味着这个洞还没有完成。在两个填充的序列之间插入一个由字母“N”组成的序列。插入的“N”数字是洞长度和填充序列之间的差异，其中

N数＝L(C)-(L(A)-p(a)+p(b))。

如果这两个读段的用于闭合洞的碱基数目之和大于100％，即，

L(A)-p(a)+p(b)>L(C)，

它暗示两个读段具有重叠的序列，并且这个缺口可以完成闭合。从p(a)到读段A结尾的序列，以及从读段B的开始到p(b)的序列被采用并连接到上述序列以填补该缺口。

(iii)对于III型补洞及对应的最优长测序读段，先挑选洞一侧最近的标签片段。该标签片段在长测序读段位置到长测序读段末端间的序列，替换洞中的未知序列。由于无法完全补充洞中的序列，插入一段由字母“N”组成的序列。插入的“N”号是洞长度和已填充序列之间的差值。

(六)迭代上述步骤

完成上述(一)至(五)，实现第一轮补洞。为提高补洞的效率，可利用经过补洞处理的基因组序列作为新的基因组，重复(一)至(五)，进行多轮补洞，成为迭代补洞。迭代补洞可以提升闭合洞的数目，可以设置多轮补洞，以提高补洞效能。

与现有的软件相比，本方法的优点在于：

2.相比PBJelly和GMCloser，本方法增加了补洞的数量，提高补洞效率。

实施例1

利用线虫PacBio测序数据来填补线虫基因组中的洞

材料：从美国国立生物技术信息中心(NCBI，National Center forBiotechnology Information)网站(https://www.ncbi.nlm.nih.gov/)下载线虫的二代基因组测序数据(NCBI SRA数据库编号：DRR023912和DRR023913)。从网站(http://datasets.pacb.com.s3.amazonaws.com/2014/c_elegans/list.html)下载线虫的PacBio原始测序数据。得到的数据格式为fastq格式，约为7.4G数据量，平均读长为10,958个碱基。对下载的PacBio数据进行预处理，将fastq格式的文件转化为fasta格式。首先将二代测序数据用Platanus(platanus.bio.titech.ac.jp)组装获得线虫基因组，获得基因组大小为95.5Mb，包括了4256个洞，洞总长度为3.6Mb。为填补洞中的未知碱基，按照如下步骤进行补洞，并进行三次迭代补洞。

1.将每条PacBio长测序读段打断成等长的300个碱基的标签片段。

2.将标签片段用bwa-mem比对到基因组上，运行bwa-mem设置的参数为-k17-W40-r10-A1-B1-O1-E1-L0。

3.计算每个标签片段的比对覆盖度，保留比对覆盖度大于等于0.8的比对结果；从上述比对结果中筛选出唯一比对的标签片段；对唯一比对的标签片段比对顺序和比对结果进行校正；再根据唯一比对的标签片段，找回非唯一比对中的匹配序列与唯一比对一致的结果。

4.将经过筛选的标签片段与洞建立洞关联，同时计算支持证据数。

5.根据标签片段的数目将洞关联分成完整型洞关联和部分型洞关联。完整型洞关联的进一步筛选过程：筛选两个标签片段在长测序读段中之间的长度在匹配序列之间的位置的长度差别控制在0.2的范围内的结果，即标签片段间在长测序上距离*(1-0.2)<＝标签片段间在匹配序列上距离<＝标签片段间在长测序上距离*(1+0.2)。部分型洞关联的进一步筛选过程，如前述步骤进行。

6.完整型洞关联和部分型洞关联的最优挑选。最后利用这些优选出的洞关联信息，对基因组上的洞进行替换填补。最终补洞结果，原输入基因组有4256个洞，洞总长度为3.6Mb。经本方法补洞后只剩下341个洞，洞总长度为11.5kb。

7.利用相同的Pacbio数据，使用PBJelly补洞后，洞总长度为67.9kb，剩下1968个洞；使用GMCloser补洞后，洞总长度为3.6Mb，剩下4256个洞。

8.相比较而言，本方法有如下优势：(1)补洞效果要比PBJelly和GMCloser要好；(2)本方法运行时间最短，为4小时25分钟，PBJelly需要119小时40分钟，GMCloser需要59小时11分钟。

实施例2

利用线虫Nanopore测序数据来填补线虫基因组中的洞

材料：同实施例1，下载线虫的二代基因组测序数据并组装为基因组。基因组大小和洞数目与实施例1一致。从美国国立生物技术信息中心网站(https:// www.ncbi.nlm.nih.gov/)下载线虫的Nanopore原始测序数据(NCBI SRA数据库编号：ERR2092776和ERR2092777)。得到约为9.9G数据量，平均读长为11,537个碱基。为填补洞中的未知碱基，按照如下步骤进行补洞，并进行三次迭代补洞。

1.将每条Nanopore长测序读段打断成等长的300个碱基的标签片段。

2.将标签片段用bwa-mem比对到基因组上，运行bwa-mem设置的参数为-k14-W20-r10-A1-B1-O1-E1-L0。

3.其余步骤同实施例1的3～6步骤。

4.最终补洞结果，原输入基因组有4256个洞，洞总长度为3.6Mb。经本方法补洞后只剩下339个洞，洞总长度为11kb。

7.利用相同的Nanopore数据，使用PBJelly补洞后，洞总长度为47.9kb，剩下1961个洞；使用GMCloser补洞后，洞总长度为2.4Mb，剩下3288个洞。

8.相比较而言，本方法有如下优势：(1)补洞效果要比PBJelly和GMCloser要好；(2)本方法运行时间最短，为5小时22分钟，PBJelly需要26小时55分钟，GMCloser需要161小时40分钟。

实施例3

利用酵母Nanopore测序数据来填补酵母基因组中的洞

材料：从美国国立生物技术信息中心(NCBI，National Center forBiotechnology Information)网站(https://www.ncbi.nlm.nih.gov/)下载酵母的二代基因组测序数据(NCBI SRA数据库编号：ERR225691,ERR225692,和SRR507778)。另外从该网站下载酵母的Nanopore原始测序数据(SRA数据库编号：ERR1883389,ERR1883402,ERR1883399,ERR1883400和ERR1883401)。得到的数据格式为fastq格式，约为440M数据量，平均读长为8,000个碱基。对下载的Nanopore数据进行预处理，将fastq格式的文件转化为fasta格式。首先将二代测序数据用Platanus(platanus.bio.titech.ac.jp)组装获得酵母基因组，获得基因组大小为11.27Mb，包括了472个洞，洞总长度为290.8Kb。为填补洞中的未知碱基，按照如下步骤进行补洞，并进行三次迭代补洞。

2.将标签片段用bwa-mem比对到基因组上，运行bwa-mem设置的参数为-k14-W20-r10-A1-B1-O1-E1-L0

6.完整型洞关联和部分型洞关联的最优挑选。最后利用这些优选出的洞关联信息，对基因组上的洞进行替换填补。最终补洞结果，原输入基因组有472个洞，洞总长度为290.8Kb。经本方法补洞后只剩下70个洞，洞总长度为90个碱基。

7.利用相同的Nanopore数据，使用PBJelly补洞后，洞总长度为18.3Kb，剩下208个洞；使用GMCloser补洞后，洞总长度为290.8Kb，剩下472个洞(实际未进行补洞)。

8.相比较而言，本方法有如下优势：(1)补洞效果要比PBJelly和GMCloser要好；(2)本方法运行时间最短，为7分钟，PBJelly需要4小时29分钟，GMCloser需要58分钟。

实施例4

利用人Pacbio测序数据来填补X染色体中的洞

材料：从美国国立生物技术信息中心(NCBI，National Center forBiotechnology Information)网站(https://www.ncbi.nlm.nih.gov/)下载人X染色体序列(编号为：CM001631.2)。该基因组序列大小为155Mb，包括了2280个洞，洞总长度为5.49Mb。为填补洞中的未知碱基，从http://www.cbcb.umd.edu/software/PBcR/MHAP/网站下载人三代Pacbio测序数据。得到的数据格式为fastq格式，约为159Gb数据量，平均读长为7,447个碱基。对下载的Pacbio数据进行预处理，将fastq格式的文件转化为fasta格式。按照如下步骤进行补洞，并进行三次迭代补洞。

3.其余步骤同实施例1的3～6步骤。

4.经本方法补洞后只剩下164个洞，洞总长度为4.12Mb。

7.利用相同的Pacbio数据，使用PBJelly补洞后，洞总长度为4.85Mb，剩下1810个洞；使用GMCloser补洞后，洞总长度为5.42Mb，剩下2278个洞(实际上只完成2个洞的填补)。

8.相比较而言，本方法有如下优势：(1)补洞效果要比PBJelly和GMCloser要好；(2)本方法运行时间最短，为5小时10分钟，PBJelly需要5小时22分钟，GMCloser需要17小时37分钟。

这里说明的模块数量和处理规模是用来简化本发明的说明的。对本发明的利用长测序读段进行全基因组序列补洞的方法的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.利用长测序读段进行全基因组序列补洞的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，

所述步骤三中，所述长测序读段与洞的关联关系包括完整型洞关联和部分型洞关联，所述完整型洞关联是指来自于同一长测序读段的若干个标签片段的比对位置存在于洞的两侧，所述部分型洞关联是指来自于同一条长测序读段的若干个标签片段的比对位置仅存在于所述洞的一侧；

3.如权利要求2所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，所述步骤四中，利用该长测序读段对洞未知序列进行补洞中：

L(A)-p(a)+p(b)<L(C)，

N数目＝L(C)-(L(A)-p(a)+p(b))，

L(A)-p(a)+p(b)>L(C)，

4.如权利要求1至3任一项所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，所述步骤二中，确定出与全基因组序列匹配的标签片段于所述全基因组序列上的比对方向和比对位置包括如下方法：

5.如权利要求4所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，步骤2.2)中，若保留的标签片段数目只有两个，且该两个标签片段的排列顺序与匹配序列比对方向上的排列顺序保持一致，则也保留该两个标签片段。

6.如权利要求4所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，

所述比对覆盖度＝(匹配碱基数+插入碱基数)/标签片段长度，所述匹配碱基数是指标签片段和匹配序列之间完全相同的碱基的数目，插入碱基数是指未在匹配序列中、但存在于标签片段中的碱基的数目，且所述插入碱基在对应的长序列片段中的位置处于匹配碱基的内部位置，所述匹配序列指所述标签片段与所述全基因组序列比对上的碱基序列；

所述比对覆盖度阈值为80％。

7.如权利要求2所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，

8.如权利要求7所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，a值为20％。

9.如权利要求1所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，还包括：

10.如权利要求1所述的利用长测序读段进行全基因组序列补洞的方法，其特征在于，所述标签序列的长度为100～1000bp，所述长测序读段基于Pacbio和Nanopore的第三代测序技术产生。