CN112786109B

CN112786109B - 一种基因组完成图的基因组组装方法

Info

Publication number: CN112786109B
Application number: CN202110069693.XA
Authority: CN
Inventors: 卢山; 李奎
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2024-04-16
Anticipated expiration: 2041-01-19
Also published as: CN112786109A

Abstract

本发明公开了一种基因组完成图的基因组组装方法，首先使用高保真测序数据(HiFi)进行基因组组装，生成重叠群、重叠群路径、边信息和重叠信息；将重叠群锚定在参考基因组的染色体上，得到锚定结果；将重叠群路径按照的锚定结果连接成染色体路径；对于每条染色体，按照重叠群在染色体路径的位置在字符串图上遍历每个重叠群，并为每一对重叠群之间的缺口寻找最短路径并填补缺口。本发明实现了高保真测序(HiFi)的无缺口动植物基因组组装完成图，并且完成图准确性高、质量好。

Description

一种基因组完成图的基因组组装方法

技术领域

本发明属于基因组学领域，具体涉及一种利用近缘物种参考基因组辅助重叠群(contigs)锚定到染色体，以及把重叠群(contigs)在染色体上的位置信息整合到字符串图(string graph)中实现高等动植物基因组完成图的方法。

背景技术

自1953年Watson和Crick提出DNA分子双螺旋结构以来,对遗传信息的解码一直是生命科学工作者的追求,很多研究者开始了对DNA测序技术的探索。现在已有的测序技术包括一代测序(Sanger测序，一般可测1kb左右的序列)、二代测序(next-generationsequencing，一般可测50～500bp的序列)、三代测序(可测100kb甚至更长的序列)。三代测序主要太平洋生物(PacBio)单分子实时测序(single molecule Real-time,SMRT)技术和牛津纳米孔单分子测序(Oxford Nanopore Technologies，ONT)技术。其中太平洋生物公司(PacBio)推出的高保真数据(HiFi)是首个在长度(大于10kb)和准确性(大于99％)方面均具有优势的数据类型。这使获得高质量的高等动植物基因组成为可能。

每一个物种的基因组序列的产生都要先通过测序的方法，获得基因组的测序片段(reads)，然后再进行从头拼接，最后还原测序物种的各条染色体的序列。基因组中最难组装的区域是重复序列，这些区域经常错误的组装、组装成一份、或者完全丢失。随着三代长片段测序技术的发展，基因组组装的连续性已提高了几个数量级。一些最新的生物学技术，例如单分子光学图谱(BioNano)技术，高通量染色体构象捕获(hic)技术和单细胞测序(10xGenomics)技术，进一步提高了基因组组装的连续性。例如，水稻，玉米和玫瑰的基因组只有少数的缺口。然而，基因组组装的最终目标，即高准确性的无缺口的高等动植物基因组尚未实现。

仅仅依靠当前的测序技术和组装算法来实现无缺口的染色体水平的基因组组装是困难的。

发明内容

发明目的：为针对基于现有基因组组装技术的不足，本发明提供一种基因组完成图的基因组组装方法，利用其他的生物学手段，如遗传图谱、高通量染色体构象捕获(hic)技术或者与近缘物种(相关物种)基因组序列比对，来辅助组装，以实现基于高保真测序(HiFi)的无缺口动植物基因组组装完成图。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基因组完成图的基因组组装方法，包括以下步骤：

步骤1，使用太平洋生物公司(PacBio)的高保真测序数据(HIFI)进行基因组组装，生成重叠群(contig)、重叠群(contig)在字符串图(string graph)中的重叠群路径(contig paths)、边信息(sg_edges_list)和重叠信息(pread.m4)。

步骤2，将重叠群(contigs)锚定在参考基因组的染色体上，得到锚定结果，锚定结果包括参考基因组的每个染色体上重叠群(contigs)的位置和方向。

步骤3，将步骤1中生成的每个重叠群(contig)在字符串图(string graph)中的重叠群路径(contig paths)按照步骤2的锚定结果连接成每个染色体在字符串图(stringgraph)中的染色体路径(chromosome paths)。每个染色体由重叠群路径(contig paths)和它们之间的缺口表示。如果两个重叠群(contig)相邻，则它们之间将没有缺口。

步骤4，使用步骤1中生成的边信息(sg_edges_list)和重叠信息(pread.m4)重建字符串图(string graph)。对于每条染色体，按照重叠群(contigs)在每个染色体在字符串图(string graph)中的路径染色体路径(chromosome paths)遍历每个重叠群(contig)，并在字符串图(string graph)上为每一对重叠群(contig)之间的缺口寻找最短路径并填补缺口，以实现无缺口的组装。

优选的：步骤2中将重叠群锚定在参考基因组的染色体上的方法为遗传图谱法、高通量染色体构象捕获法hic或者近缘参考基因组法。

优选的：步骤2中将重叠群(contigs)锚定在参考基因组的染色体上的方法：采用Nucmer或MCScan软件将重叠群(contigs)映射到参考基因组的染色体上，接着检索映射在参考基因组的染色体上的共线块的位置和方向。如果重叠群(contigs)映射到多条参考基因组的染色体上，将映射到多条参考基因组的染色体上的重叠群(contigs)分配给共线块数最多参考基因组的染色体。然后根据重叠群(contigs)在参考基因组的染色体上最长共线块的位置和方向，对重叠群(contigs)进行排序和定向。

优选的：步骤2中相邻的重叠群(contigs)100N连接。

优选的：步骤2中删除一些较短(一般小于300Kb)的重叠群(contigs)以提高锚定精度。

优选的：步骤4中寻找最短路径的方法：对于每个缺口，以缺口的起点为中心构建自我图(ego graph)，并在自我图(ego graph)中找到从缺口的起点到终点的路径。如果存在多个路径，选择重叠最多的最短路径。

优选的：步骤4中寻找最短路径时，如果未找到路径，则删除缺口上下游的唯一性可组装片段(untigs)，然后再次寻找最短路径，最后，如果仍未找到最短路径，在相应位置插入100个N。

本发明相比现有技术，具有以下有益效果：

本发明通过整合重叠群(contigs)在染色体上的位置信息到字符串图(stringgraph)中，来辅助组装，实现了高保真测序(HiFi)的无缺口动植物基因组组装完成图，其完成图准确性高、质量好。

附图说明

图1：组装过程的示意图。

图2：Minghui 63完成图和参考基因组MH63RS2的共线性分析。

图3：长末端重复组装指数(LAI)分析。

图4：12个着丝粒区域的细菌人工染色体(BAC)序列的共线性。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基因组完成图的基因组组装方法，如图1所示，我们实现了粳稻基因组Minghui 63的完成图，包括以下步骤：

步骤A，使用太平洋生物公司(PacBio)高保真测序数据(HIFI)进行基因组组装，生成重叠群(contig)、重叠群(contig)在字符串图(string graph)中的重叠群路径(contigpaths)、边信息(sg_edges_list)和重叠信息(pread.m4)。

首先从美国国立生物技术信息中心(NCBI)下载了大约25.3Gb(SRX6957825)Minghui63太平洋生物公司(PacBio)高保真测序(HIFI)测序数据。接着使用pb-assembly软件(https://github.com/PacificBiosciences/pb-assembly)对太平洋生物公司(PacBio)高保真测序数据进行从头组装，参数为'-k21-h850-e.99-l2000-s100--max-diff 400--max-cov 400--min-cov 2--n-core 24--min-idt 99.7--ignore-indels'。组装结果如表1所示。

表1：初步组装结果统计。

步骤B，将重叠群(contigs)锚定在参考基因组的染色体上，得到锚定结果，锚定结果包括在参考基因组每个染色体上的重叠群(contigs)的位置和方向。

在这里，我们利用粳稻参考基因组(MH63RS2)将重叠群(contigs)映射到12条染色体上。接着检索映射在粳稻参考基因组染色体上的共线块的位置和方向。如果重叠群(contigs)映射到多条粳稻参考基因组染色体上，将这些重叠群(contigs)分配给共线块数最多的粳稻参考基因组染色体。然后根据重叠群(contigs)在粳稻参考基因组染色体上最长共线块的位置和方向，对重叠群(contigs)进行排序和定向。相邻的重叠群(contigs)以100N连接。当然，遗传图谱，高通量染色体构象捕获(hic)技术或其他生物学方法也可用于锚定重叠群(contigs)。在这里，对重叠群(contigs)的锚定精度的要求较高，需要删除一些较短的重叠群(contigs)(小于300Kb)以提高锚定精度(表2)。

表2：初步组装结果锚定到MH63RS2染色体上的结果统计

步骤C，将重叠群路径(contig paths)连接成染色体路径(chromosome paths)。

根据上一步中锚定结果提取每个染色体上重叠群(contigs)的位置和方向，以连接重叠群路径(contig paths)(代表每个重叠群在字符串图中的路径)。每个染色体可以由重叠群路径(contig paths)和它们之间的缺口表示。如果两个重叠群(contig)相邻，则它们之间将没有缺口。如图1所示，重叠群(contigs)按照在每个染色体上的顺序连接，并且在字符串图(string graph)中可以找到重叠群(contigs)之间每个缺口的路径。方框表示重叠群和缺口，实线表示重叠群(contigs)位置，虚线表示缺口位置。此步骤之后，染色体路径(chromosome paths)中仅存在25个缺口。

步骤D，在字符串图(string graphs)中为每个缺口找到一个最佳的路径并填补缺口，如图1所示，共有14条染色体。

使用边和重叠信息重建字符串图(string graphs)。对于每个缺口，以缺口的起点为中心构建自我图(ego graph)，并在自我图(ego graph)中找到从缺口的起点到终点的路径。如果存在多个路径，选择重叠最多的最短路径。由于缺口的上游和下游可能存在组装错误，因此，如果未找到路径，则删除缺口上下游的唯一性可组装片段(untigs)，然后再次检索最短路径。最后，如果仍未找到最短路径，在相应位置插入100个N。通过此步骤，填充了24个缺口。在去掉可能的组装错误后，因为相邻的重叠群(contigs)变得连接在一起去除了一个缺口。最终获得了每个染色体从起点到终点的路径，从而实现了粳稻基因组完成图(表3)。

表3：粳稻完成图的组装结果统计。

对粳稻完成图进行了质量评估。

因美纳(Illumina)的双末端读段(reads)比对统计。将因美纳(Illumina)的双末端读段比对到粳稻完成图上，比对率为99.34％，覆盖率为98.98％(表4)。

表4：因美纳(Illumina)的双末端读段(reads)比对统计。

全长互补脱氧核糖核酸(cDNA)序列评估。将2,045个全长互补脱氧核糖核酸(cDNA)序列比对到粳稻完成图，比对率96.38％(1,971个)(http://server.ncgr.ac.cn/ricd/dym/ftp.php)(表5)。

表5：全长互补脱氧核糖核酸(cDNA)序列评估。

共线性分析。使用了NUCmer和MCScan分析了粳稻完成图与粳稻参考基因组MH63RS2之间的共线性，并发现了整个基因组的共线性较高(图2)。

基因区完整性评估。使用单拷贝直系同源基因(BUSCO)评估了粳稻完成图的完整性。在胚胎植物中鉴定出的1,614个单拷贝直系同源基因中，有98.6％在粳稻完成图中是完整的，优于已发表的水稻基因组(表6)。

表6：使用单拷贝直系同源基因(BUSCO)评估基因区完整性。

长末端重复反转录转座子(LTR-RTs)注释显示长末端重复组装指数(LAI)得分为22.72，达到了当前的金标准(图3)。

细菌人工染色体(BAC)评估。将粳稻完成图与从基因银行(GenBank)获得的12个着丝粒区域的细菌人工染色体(BAC)序列进行了比较(http://rice.plantbiology.msu.edu/annotation_pseudo_centromeres.shtml)。所有细菌人工染色体(BAC)序列均能比对到粳稻完成图，覆盖率超过90％(图4，表7)。

表7：12个着丝粒区域的细菌人工染色体(BAC)序列组装评估。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基因组完成图的基因组组装方法，其特征在于,包括以下步骤：

步骤1，使用高保真测序数据HiFi进行基因组组装，生成重叠群以及重叠群在字符串图中的重叠群路径、边信息和重叠信息；

步骤2，将重叠群锚定在参考基因组的染色体上，得到锚定结果，锚定结果包括参考基因组的每个染色体上重叠群的位置和方向；

将重叠群锚定在参考基因组的染色体上的方法：采用Nucmer或MCScan软件将重叠群映射到参考基因组的染色体上，接着检索映射在参考基因组的染色体上的共线块的位置和方向；如果重叠群映射到多条参考基因组的染色体上，将映射到多条参考基因组的染色体上的重叠群分配给共线块数最多参考基因组的染色体；然后根据重叠群在参考基因组的染色体上最长共线块的位置和方向，对重叠群进行排序和定向；

步骤3，将步骤1中生成的重叠群在字符串图中的重叠群路径按照步骤2的锚定结果连接成每个染色体在字符串图中的染色体路径；每个染色体路径由重叠群路径和它们之间的缺口表示；如果两个重叠群相邻，则它们之间将没有缺口；

步骤4，使用步骤1中生成的边信息和重叠信息重建字符串图得到重建后字符串图；对于每条染色体，按照步骤3得到的染色体路径遍历步骤1生成的重叠群，并在重建后字符串图上为每一对之间的缺口寻找最短路径并填补缺口，以实现无缺口的组装；

寻找最短路径的方法：对于每个缺口，以缺口的起点为中心构建自我图，并在自我图中找到从缺口的起点到终点的路径；如果存在多个路径，选择重叠最多的最短路径；

寻找最短路径时，如果未找到路径，则删除缺口上下游的唯一性可组装片段，然后再次寻找最短路径，最后，如果仍未找到最短路径，在相应位置插入100 个N。

2.根据权利要求1所述基因组完成图的基因组组装方法，其特征在于：步骤2中将重叠群锚定在参考基因组的染色体上的方法为遗传图谱法、高通量染色体构象捕获法hic或者近缘参考基因组法。

3.根据权利要求2所述基因组完成图的基因组组装方法，其特征在于：步骤2中相邻的重叠群以100 个N连接。

4.根据权利要求3所述基因组完成图的基因组组装方法，其特征在于：步骤2中删除小于300Kb的重叠群以提高锚定精度。