CN111564181B

CN111564181B - 一种基于二代和三代ont技术进行宏基因组组装方法

Info

Publication number: CN111564181B
Application number: CN202010255667.1A
Authority: CN
Inventors: 郑洪坤; 龚雪情; 王凡
Original assignee: Beijing Biomarker Technologies Co ltd
Current assignee: Beijing Biomarker Technologies Co ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2024-06-04
Anticipated expiration: 2040-04-02
Also published as: CN111564181A

Abstract

本发明实施例提供一种基于二代和三代ONT技术进行宏基因组组装方法，方法包括：利用三代ONT测序的reads进行自身比对，找到不同数据间的重叠部分overlap；根据不同数据间的重叠部分overlap对不同数据进行组装，得到组装后的数据；利用三代数据对所述组装后的数据进行自身纠错；利用二代测序继续进行纠错，得到最终的组装结果。本发明实施例先利用ONT三代测序的reads进行自身比对，找到数据间的overlap进行组装，组装后利用三代数据进行自身纠错，之后再利用二代测序继续进行纠错，从而提高组装结果的准确性。

Description

一种基于二代和三代ONT技术进行宏基因组组装方法

技术领域

本发明属于生物学技术领域，尤其涉及一种基于二代和三代ONT技术进行宏基因组组装方法。

背景技术

宏基因组学避开纯培养技术探知微生物的多样性及其功能,为我们提供了一种发现新基因、开发新的微生物活性物质和研究微生物群落结构及其功能的新技术。二代测序具有高质量的数据、较低的样品需求以及简单的操作流程等优点，但是读长短，扩增存在偏好性，为组装带来了很大的挑战。三代ONT测序实现了读长长，同时也降低了测序成本，但测序不够精准，三代ONT与二代结合将很大程度提高组装长度。

发明内容

为克服上述现有问题或者至少部分地解决上述问题，本发明实施例提供一种基于二代和三代ONT技术进行宏基因组组装方法。

本发明实施例提供了一种基于二代和三代ONT技术进行宏基因组组装方法，包括：

利用三代ONT测序的reads进行自身比对，找到不同数据间的重叠部分overlap；

根据不同数据间的重叠部分overlap对不同数据进行组装，得到组装后的数据；

利用三代数据对所述组装后的数据进行自身纠错；

利用二代测序继续进行纠错，得到最终的组装结果。

在上述技术方案的基础上，本发明实施例还可以做如下改进。

可选的，所述利用三代ONT测序的reads进行自身比对，找到不同数据间的重叠部分overlap包括：

利用minimap2软件通过将测序数据分成多个k长度的kmer组；

采用minimizers方法从多个相邻的kmers组里挑选出z值最小的两个kmer组；

如果两个kmer组序列间具有overlap重叠部分,则这两个序列为具有相同的代表性kmer；

通过使用单链聚类的方法使具有共线性的minimizers为一组kmer；

通过求解最长递增序列问题得到最大的共线性minimizers子集，即minimap的map结果。

可选的，所述根据不同数据间的重叠部分overlap对不同数据进行组装，得到组装后的数据包括：

利用miniasm-master软件通过检查read之间的映射关系，并去除接头和嵌合体；

基于与其他所有reads之间满足预设条件映射关系的每一条read，计算所述read的每一个碱基覆盖度，选择覆盖度不小于3的最长区域；

修剪过reads后，通过分析存在overlap的两条序列之间的map关系构建组装图；

利用miniasm方法去除transitive edges,修剪包含少于4个reads的unitigs,弹出小气泡；

将相邻的多个组装图串联合并成一个unitig，所述该unitig为多个相邻的可合并的组装图中的最大路径。

可选的，所述与其他所有reads之间满足预设条件映射关系的每一条read为长度大于2K，在相匹配的minimizers上非overlap区域长度大于100的read。

可选的，所述利用三代数据对所述组装后的数据进行自身纠错包括：

通过minimap软件找到原始三代reads和初步组装出的unitigs的映射关系；

通过Racon软件加载原始三代的reads，基于初步组装后的contigs和minimap比对后的overlap信息，进行简单过滤；

将保留下来的reads分到主干序列中没有overlap的窗口里的chunks中，进行快速的基于编辑距离的比对；

每个窗口构建一个POA图并调用所述窗口的consensus。；

通过将每个窗口的consensus拼接起来，从而得到最终的consensus。

可选的，所述基于初步组装后的contigs和minimap比对后的overlap信息，进行简单过滤包括：

每条read只保留一个overlap，且去除错误率高的overlap。

可选的，所述利用二代测序继续进行纠错，得到最终的组装结果包括：通过Bwa比对二代reads与三代reads校正后的组装结果，通过排序、合并和标记重复，建立索引得出比对结果，利用pilon软件根据比对结果对组装结果进行polish，得到最终的组装结果。

可选的，利用二代reads对三代reads矫正后的组装结果校正20次。

本发明实施例提供一种先利用ONT三代测序的reads进行自身比对，找到数据间的overlap进行组装，组装后利用三代数据进行自身纠错，之后在利用二代测序继续进行纠错，从而提高组装结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于二代和三代ONT技术进行宏基因组组装方法整体流程示意图。

具体实施方式

在本发明的一个实施例中提供一种基于二代和三代ONT技术进行宏基因组组装方法，图1为本发明实施例提供的基于二代和三代ONT技术进行宏基因组组装方法整体流程示意图，该方法包括：

S1，利用三代ONT测序的reads进行自身比对，找到不同数据间的重叠部分overlap；

S2，根据不同数据间的重叠部分overlap对不同数据进行组装，得到组装后的数据；

S3，利用三代数据对所述组装后的数据进行自身纠错；

S4，利用二代测序继续进行纠错，得到最终的组装结果。

作为一个可选的实施例，所述利用三代ONT测序的reads进行自身比对，找到不同数据间的重叠部分overlap包括：

作为一个可选的实施例，利用三代ONT测序的reads进行自身比对，找到不同数据间的重叠部分overlap包括：

利用minimap2(v2.11)软件通过将测序数据分成多个k长度的kmer组，利用minimizers方法从多个相邻的kmers组里挑选出z值最小的kmers组作为具有代表性的kmer组，如果两个kmer组序列间具有overlap重叠部分，则这两个序列为具有相同的代表性kmer组。通过使用单链聚类的方法得到具有共线性的minimizers；通过求解最长递增序列问题得到最大的共线性子集，即minimap的map结果，也即找到不同数据间的重叠部分overlap。

作为一个可选的实施例，所述根据不同数据间的重叠部分overlap对不同数据进行组装，得到组装后的数据包括：

利用miniasm-master(v0.2-r168-dirty)软件通过检查read之间的映射关系，并进行去除接头和嵌合体等处理。基于与其他所有reads之间较好的映射关系每一条read，其中，当read长度大于2K，且在相匹配的minimizers上非overlap区域长度大于100时，则该read与其他所有reads之间较好的映射关系。

对于与其他的所有reads之间具有较好映射关系的每一套read，计算每一条read的每一个碱基覆盖度，选择覆盖度不小于3的最长区域；对于修剪过的reads，通过分析两条序列之间的map关系(两个reads之间存在overlap，一条read包含另一条)构建组装图(assembly graph)。之后利用miniasm方法去除transitive edges,修剪包含少于4个reads的unitigs(tiipinh unitigs),弹出小气泡。在不影响原始组装图的连接性的情况下，将相邻的多个组装图串联合并成一个unitig(该unitig是多个相邻的可以明确合并的组装图中的最大路径)，即可得到组装后的数据。

作为一个可选的实施例，利用三代数据对所述组装后的数据进行自身纠错包括：

通过minimap软件找到原始三代reads和初步组装出的unitigs的映射关系，利用Racon(v1.2.1)软件加载原始三代的reads，基于初步组装后的contigs和minimap比对后的overlap信息，先进行简单的过滤过滤方法为每条read只保留一个overlap且去除错误率高的overlap。将保留下来的reads分到主干序列中没有overlap的窗口里的chunks中，进行一个快速的基于编辑距离的比对。然后每个窗口构建一个POA图(POA graph)并调用(calling)这个窗口的consensus。最后通过将每个窗口的consensus拼接起来，从而得到最终的consensus，得到纠错后的数据。

作为一个可选的实施例，利用二代测序继续进行纠错，得到最终的组装结果包括：

利用Bwa比对二代reads与三代reads校正后的组装结果，通过排序、合并和标记重复，建立索引得出比对结果，利用pilon软件根据比对结果对组装结果进行polish，得到最终的组装结果。其中，利用二代reads对三代reads矫正后的组装结果校正20次，从而达到去除大量SNP和Indel效果，去除比例高达99.9％。

下面通过两个具体实施例来说明本发明实施例提供的基于二代和三代ONT技术进行宏基因组组装方法，具体如下。

实施例1，其中，表1为二代组装和三代组装后的数据

表1

表2为对表1(组装后的数据)中的数据进行二代矫正前和矫正后的数据

表2

	snp num	indel num
			二代矫正前	113004	64346
二代矫正后	15	1

实施例2，其中，表3为二代组装和三代组装后的数据

表3

表4为对表3(组装后的数据)中的数据进行二代矫正前和矫正后的数据

表4

	snp num	indel num
			二代矫正前	193001	117962
二代矫正后	35	3

本发明实施例提供的一种基于二代和三代ONT技术进行宏基因组组装方法，先利用ONT三代测序的reads进行自身比对，找到数据间的overlap进行组装，组装后利用三代数据进行自身纠错，之后在利用二代测序继续进行纠错，从而提高组装结果的准确性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于二代和三代ONT技术进行宏基因组组装方法，其特征在于，包括：

利用三代数据对所述组装后的数据进行自身纠错；

利用二代测序继续进行纠错，得到最终的组装结果；

所述利用三代ONT测序的reads进行自身比对，找到不同数据间的重叠部分overlap包括：

利用minimap2软件通过将测序数据分成多个k长度的kmer组；

通过求解最长递增序列问题得到最大的共线性minimizers子集，即minimap的map结果；

所述根据不同数据间的重叠部分overlap对不同数据进行组装，得到组装后的数据包括：

2.根据权利要求1所述的组装方法，其特征在于，所述与其他所有reads之间满足预设条件映射关系的每一条read为长度大于2K，在相匹配的minimizers上非overlap区域长度大于100的read。

3.根据权利要求1所述的组装方法，其特征在于，所述利用三代数据对所述组装后的数据进行自身纠错包括：

每个窗口构建一个POA图并调用所述窗口的consensus；

4.根据权利要求3所述的组装方法，其特征在于，所述基于初步组装后的contigs和minimap比对后的overlap信息，进行简单过滤包括：

每条read只保留一个overlap，且去除错误率高的overlap。

5.根据权利要求1所述的组装方法，其特征在于，所述利用二代测序继续进行纠错，得到最终的组装结果包括：

通过Bwa比对二代reads与三代reads校正后的组装结果，通过排序、合并和标记重复，建立索引得出比对结果，利用pilon软件根据比对结果对组装结果进行polish，得到最终的组装结果。

6.根据权利要求5所述的组装方法，其特征在于，利用二代reads对三代reads矫正后的组装结果校正20次。