CN115691673A

CN115691673A - 一种端粒到端粒的基因组组装方法

Info

Publication number: CN115691673A
Application number: CN202211313407.0A
Authority: CN
Inventors: 杨易; 张艳; 吴志坤; 黎庭耀; 沈卓; 周轩
Original assignee: Vegetable Research Institute of Guangdong Academy of Agriculture Sciences
Current assignee: Vegetable Research Institute of Guangdong Academy of Agriculture Sciences
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-02-03
Anticipated expiration: 2042-10-25
Also published as: CN115691673B

Abstract

本发明属于基因组组装技术领域，具体涉及一种端粒到端粒的基因组组装方法。本发明分别利用Nanopore的超长片段和PacBio高保真片段独自组装基因组，随后将Nanopore数据组装的contig作为骨架，利用PacBio片段组装的高准确性序列替换Nanopore组装共线区域低准确性序列。随后利用Hi‑C挂载contig得到染色体水平的基因组，并利用Nanopore和PacBio测序片段对基因组填补缺口和提升挂载，最终得到兼具高准确性和高连续性的端粒到端粒基因组。

Description

一种端粒到端粒的基因组组装方法

技术领域

本发明属于基因组组装技术领域，具体涉及一种端粒到端粒的基因组组装方法。

背景技术

1952年Hershey和Chase证实了DNA是遗传物质的基础；1953年Watson和Crick提出DNA双螺旋结构。对遗传信息的解码一直是生命科学工作者的追求，很多研究者开始了对基因组DNA的探索。2003年人类基因组计划结合BAC克隆及Sanger测序，首次公布了人类基因组序列。然而由于技术的限制，当时仅完成了92％的测序图谱。随后研究者利用高通量、高准确性的二代测序技术(双端序列长度200-500bp)进一步完善了人类基因组。近年来，“端粒到端粒联盟”(T2T)利用三代测序技术组装了完整的单倍体基因组T2T-CHM13，填补了这部分缺失，其中包括端粒(telomere)和着丝粒(centromere)区域。现有的三代测序技术主要有太平洋生物(PacBio)单分子实时测序(single molecule real-time,SMRT)技术和牛津纳米孔科技(Oxford Nanopore Technologies,Nanopore)单分子测序。值得关注的是，PacBio具有连续长片段(CLR)测序模式(>15kb)，准确性偏低(85％-97％)；同时也推出一种高保真(HiFi)测序模式，可以获得长度(>10kb)和准确性(>99％)均有优势的序列；Nanopore包含普通(>15kb)和超长(>50kb)DNA片段两种测序方式，准确性和PacBio的CLR模式相当。

现在已有大量物种开展了基因组组装的工作，然而很少能实现基因组端粒到端粒的组装，主要是因为基因组中存在大量的重复序列，特别是基因组中的片段重复(segmental duplication)，端粒及着丝粒区域的重复等。当从头组装基因组时，三代测序测序片段(reads)间比对并根据重叠序列构建生成重叠群(contig)。当contig难以覆盖基因组的重复区域时，组装的contig可能会断裂，从而最终形成大量连续性低的组装contig。

发明内容

本发明的目的在于提供一种端粒到端粒的基因组组装方法，通过联合使用两种三代测序数据对基因组进行从头组装，并利用Hi-C技术辅助组装，最终组装得到高准确性，端粒到端粒的基因组序列。

本发明提供了一种端粒到端粒的基因组组装方法，包括以下步骤：(1)对目标物种的PacBio的高保真全基因组测序数据进行从头组装，得第一组装基因组；

(2)对目标物种的Nanopore的超长全基因组测序数据进行从头组装，得组装序列，利用Nanopore超长片段和PacBio高保真片段对所述组装序列依次进行矫正，得第二组装基因组；

(3)对所述第一组装基因组和第二组装基因组进行比对，查找共线性区域；

(4)以所述第二组装基因组为骨架，利用第一组装基因组的序列替换共线性区域的第二组装基因组的序列，得第三组装基因组；

(5)构建目标物种基因组的Hi-C测序文库，将得到测序数据比对至第三组装基因组，连接和定向不同contig，构建组装序列的scaffold，得到第四组装基因组；

(6)将步骤(1)所述PacBio的高保真全基因组测序数据和步骤(2)中Nanopore的超长全基因组测序数据分别比对至第四组装基因组，检测不同scaffold之间的易位和插入结构，连接定向不同scaffold，并填补Hi-C构建scaffold时可能产生的缺口，得到第五组装基因组；

(7)将步骤(1)中PacBio的高保真全基因组测序数据比对至第五组装基因组，对序列的碱基进行矫正，得到端粒到端粒的基因组组装结果；

步骤(1)和步骤(2)不存在时间上的先后顺序。

优选的，步骤(1)中利用PacBio对目标物种进行至少50×的高保真全基因组测序。

优选的，步骤(1)所述从头组装利用Hifiasm，采用参数“-l0”组装完成。

优选的，步骤(2)所述超长全基因组测序数据来源于对不低于50kb的片段进行测序，测序数据达到基因组至少60×。

优选的，步骤(2)中使用Nanopore序列组装工具NextDenovo采用默认参数进行从头组装。

优选的，步骤(3)利用MashMap进行所述比对，设定参数为“--perc_identity95--threads 10--segLength 50000--filter_mode one-to-one”。

优选的，步骤(5)中利用Illumina高通量测序平台对所述Hi-C测序文库进行100×的双端测序。

优选的，步骤(6)利用nimimap2将步骤(1)所述PacBio的高保真全基因组测序数据和步骤(2)中Nanopore的超长全基因组测序数据分别比对至第四组装基因组，参数分别为“--MD-a-x asm20”和“--MD-a-x map-ont”。

优选的，步骤(7)利用minimap2将步骤(1)所述PacBio的高保真全基因组测序数据比对至第五组装基因组，参数为“--MD-a-x asm20”；随后利用pilon对碱基进行矫正。

优选的，在得到端粒到端粒的基因组组装结果后，还包括利用步骤(5)中的Hi-C测序文库的测序数据进行验证。

有益效果：本发明提供了一种端粒到端粒的基因组组装方法，Nanopore超长片段可以跨越基因组中高度重复区域，因而可以组装连续性高的长contig，以及PacBio的HiFi数据具有高准确性等优点进行结合，可以组装出片段重复、端粒及着丝粒等高重复区域的序列，同时能保证组装的准确性。另外利用高通量染色体构象捕获(Hi-C)技术，可以进一步提高基因组组装的连续性，实现染色体水平的基因组组装。本发明分别利用Nanopore的超长片段和PacBio高保真片段独自组装基因组，随后将Nanopore数据组装的contig作为骨架，利用PacBio片段组装的高准确性序列替换Nanopore共线区域低准确性序列。随后利用Hi-C挂载contig得到染色体水平的基因组，并利用Nanopore和PacBio测序片段对基因组填补缺口和提升挂载，最终得到高准确性和高连续性的端粒到端粒基因组。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种端粒到端粒的基因组组装方法；

图2为利用Hi-C数据对组装的scaffold进行验证；

图3为组装的Fengchan6基因组与IT97K-499-35基因组共线性比较。

具体实施方式

本发明提供了一种端粒到端粒的基因组组装方法，具体流程如图1所示，包括以下步骤：(1)对目标物种的PacBio的高保真全基因组测序数据进行从头组装，得第一组装基因组；

(6)将步骤(1)所述PacBio的高保真全基因组测序数据和步骤(2)中Nanopore的超长全基因组测序数据分别比对至第四组装基因组，检测不同scaffold之间的易位结构，连接和定向不同scaffold，得到第五组装基因组；

步骤(1)和步骤(2)不存在时间上的先后顺序。

本发明对植物基因组进行基于PacBio平台的高可信的全基因组测序，得到高准确性的长度长测序数据。利用该测序数据进行从头组装，得到第一组装基因组，该基因组碱基准确性高。使用高准确性的长度长测序数据组装基因组，可以得到连续性远大于二代测序数据组装结果，同时兼具较高碱基准确性的基因组。本发明优选利用PacBio对目标物种进行至少50×的高保真全基因组测序，所述从头组装优选利用Hifiasm，采用参数“-l0”组装完成。本发明实施例中，优选使用太平洋生物(PacBio)的高保真测序片段(HiFi)进行基因组组装，或者高准确性的contig。

本发明对植物基因组进行基于Nanopore平台的超长读长的全基因组测序，得到植物基因组的三代超长测序数据。利用该测序数据进行从头组装；组装完成后将该测序数据比对至组装序列，对组装序列的碱基进行矫正(polish)，得到第二组装基因组，该基因组序列连续性高。本发明使用超长读长的三代测序数据进行组装基因组，可以得到高连续性的基因组。本发明实施例优选使用牛津纳米孔科技(Nanopore)的超长测序数据，从头组装基因组，获得高连续性的重叠群(contig)。本发明所述超长全基因组测序数据优选来源于对不低于50kb的片段进行测序，测序数据达到基因组至少60×；而后使用Nanopore序列组装工具进行从头组装。

本发明将上述基因组的第一组装基因组和第二组装基因组进行全基因组范围内的比对，得到基因组比对结果，鉴定两个基因组之间的共线性区域。本发明优选利用MashMap进行所述比对，设定参数为“--perc_identity 95--threads 10--segLength50000--filter_mode one-to-one”。

本发明将第一组装基因组作为基因组的骨架，基于上述比对获得的基因组共线性区域结果，用第二组装基因组的序列替换共线区域内第一组装基因组的序列，得到第三组装基因组。本发明结合两组组装结果的优势，获得了高连续性，高准确性的基因组。

本发明构建该植物基因组的Hi-C测序文库，得到测序数据后将其比对至第三组装基因组，连接和定向不同contig，构建组装序列的scaffold，得到第四组装基因组。在本发明中，Hi-C数据可以实现contig定向构建连续性更高的scaffold，从而达到染色体水平。该基因组可以组装完整的着丝粒区域和大部分端粒区域，实现基因组从端粒到端粒的组装。本发明优选利用Illumina高通量测序平台对所述Hi-C测序文库进行100×的双端测序。

本发明将Nanopore超长读长测序数据比对至第四组装基因组，检测不同scaffold之间的易位结构，连接和定向不同scaffold，得到第五组装基因组。本发明优选利用nimimap2将步骤(1)所述PacBio的高保真全基因组测序数据和步骤(2)中Nanopore的超长全基因组测序数据分别比对至第四组装基因组，参数分别为“--MD-a-x asm20”和“--MD-a-x map-ont”。

本发明将PacBio平台的高可信序列比对至第五组装基因组，对序列的碱基进行矫正(polish)，得到最终组装结果。本发明优选利用minimap2将步骤(1)所述PacBio的高保真全基因组测序数据比对至第五组装基因组，参数为“--MD-a-x asm20”；随后利用pilon对碱基进行矫正。

在得到端粒到端粒的基因组组装结果后，本发明优选还包括利用步骤(5)中的Hi-C测序文库的测序数据进行验证。

本发明的基因组组装方法，首先使用PacBio的高保真数据(HiFi)从头组装构建高碱基准确性的重叠群(contig)，同时用Nanopore的超长测序片段从头组装构建高连续性的contig；随后比较两组contig获取共线性区域，并利用高准确性contig序列替换高连续性contig中共线区间的序列，得到高连续性和高准确性contig；再利用Hi-C数据对contig进行定向，连接挂载contig得到更长、连续性更高的scaffold；并用Nanopore和PacBio测序片段填补缺口，用PacBio序列对组装碱基矫正。本发明实现了利用三代测序数据组装获得高连续性和高准确性的基因组，实现了端粒到端粒的组装。

为了进一步说明本发明，下面结合附图和实施例对本发明提供的一种端粒到端粒的基因组组装方法进行详细地描述，但不能将它们理解为对本发明保护范围的限定。

实施例1

长豇豆Fengchan6(李桂花等，园艺学报，2012，39:197-198)基因组端粒到端粒的组装，包括以下步骤：

步骤1，利用太平洋生物科技(PacBio)的高保真(HiFi)测序模式对基因组进行至少50×的全基因组测序。随后用利用hifiasm(https://github.com/chhylp123/hifiasm)对基因组进行从头组装，参数为“-l0”，组装时不用分相(phase)，得到组装的contig。

步骤2，利用牛津纳米孔科技(Nanopore)对基因组进行的超长片段测序(>50kb)，测序数据达到基因组至少60×。接着使用Nanopore序列组装工具NextDenovo(https://github.com/Nextomics/NextDenovo)进行从头组装，使用默认参数，得到组装的重叠群(contig)。随后利用minimap2(https://github.com/lh3/minimap2)将Nanopore数据比对至组装的contig(参数为--MD-a-x map-ont)，用racon使用默认参数对组装contig进行矫正，此矫正步骤轮回三次。再次用minimap2将PacBio的HiFi数据比对至contig(参数为--MD-a-x map-pb)，用racon使用默认参数对组装contig进行矫正，此矫正步骤轮回两次。

步骤3，利用MashMap(https://github.com/marbl/MashMap)比对步骤1和步骤2组装的contig序列，确定两个基因组的共线性区域，使用参数为“--perc_identity 95--threads 10--segLength 50000--filter_mode one-to-one”。

步骤4，基于步骤3获取的共线性区域，用步骤2的contig的高准确性序列替换步骤1中共线性区域contig序列，获得高准确性和高连续性contig。

步骤5，利用Illumina高通量测序平台对构建Hi-C测序文库并进行100×的双端测序(300bp)。利用SALSA(https://github.com/marbl/SALSA)采用默认参数对步骤4中contig进行挂载，获得染色体水平的scaffold。

步骤6，利用nimimap2将PacBio和Nanopore的测序数据比对至步骤5染色体水平scaffold，参数分别为“--MD-a-x asm20”和“--MD-a-x map-ont”，填补组装缺口并进一步提高scaffold的挂载。

步骤7，利用minimap2将PacBio的高保真测序数据比对至步骤6中的scaffold，参数为“--MD-a-x asm20”。随后利用pilon(https://github.com/broadinstitute/pilon)对scaffold的碱基进行矫正，最终得到高连续，高准确性的基因组。

步骤8，利用Hi-C数据对组装的scaffold进行验证。首选用bwa(https://github.com/lh3/bwa)将Hi-C数据比对至步骤7的scaffold(参数mem)，随后用samtools(https://github.com/lh3/samtools)处理比对得到的SAM和BAM文件，标注重复序列，再用PretextMap(https://github.com/wtsi-hpag/PretextMap)处理得到的BAM文件，参数为“--sortby length--sortorder descend--mapq 10”，最后用PretextView(https://github.com/wtsi-hpag/PretextView)展示得到的结果(图2)。

通过上述主要步骤，本发明成功组装长豇豆Fengchan6的基因组，该基因组总长为521.7Mb，包含17个scaffold(表1)。其中11个scaffold分别对应长豇豆的11条染色体，长度为39.3Mb至68.8Mb；6个较小的scaffold暂无法挂载至染色体，长度为100.0kb至365.0kb。虽然有少量scaffold无法挂载，然而挂载率仍高达99.5％，说明组装的基因组具有较高的完整性和连续性。

1、利用此前已经组装的同物种不同亚种的基因组(IT97K-499-35)将本发明组装的Fengchan6基因组映射到11条染色体上。检验发现组装的Fengchan6的基因组和此前不同亚种基因组有非常高的共线性(图3)，可以在不依赖其他基因组的情况能够独立从头组装出染色体水平的基因组，而在在基因组的端粒和着丝粒区域获得了更好的组装效果。

2、基因区完整性评估。使用单拷贝直系同源基因(BUSCO)评估Fengchan6组装基因组的完整性(表2)。在胚胎植物中鉴定出的1,614个单拷贝直系同源基因中，有99.0％在Fengchan6组装基因组中是完整的，优于已经发表的同物种基因组Xiabao II(93.2％)和IT97K-499-35(95.9％)。

3、在Fengchan6基因组的染色体末端检测到了端粒特征性的重复序列“CCCTAAA”和“TTTAGGG”(表3)。基因组中11条染色体的14个末端检测到了上述两种端粒重复序列，拷贝数总数分别为5,968和17,020。其中染色体Vu03、Vu04、Vu07和Vu04四条染色体两个末端均检测到了端粒重复序列，说明这四条染色体能实现端粒到端粒的组装。

4、同时根据长豇豆着丝粒区域455bp和1600bp的特征序列(Ishii,T.et al.,Communications Biology,2020)，鉴定Fengchan6的着丝粒区域，结果表明染色体的着丝粒区域范围为3.2-6.1Mb(表4)。所有染色体着丝粒区域总和为49.1Mb，远大于此前组装的基因组IT97K-499-35(20.2Mb)，说明本发明组装的基因组在着丝粒等复杂区域组装的连续性和准确性更高。

表1 Fengchan6端粒到端粒组装结果统计

表2使用单拷贝直系同源基因(BUSCO)评估基因区完整性

表3 Fengchan6基因组鉴定的端粒序列统计

表4 Fengchan6基因组着丝粒区域统计

尽管上述实施例对本发明做出了详尽的描述，但它仅仅是本发明一部分实施例，而不是全部实施例，人们还可以根据本实施例在不经创造性前提下获得其他实施例，这些实施例都属于本发明保护范围。

Claims

1.一种端粒到端粒的基因组组装方法，其特征在于，包括以下步骤：(1)对目标物种的PacBio的高保真全基因组测序数据进行从头组装，得第一组装基因组；

(6)将步骤(1)所述PacBio的高保真全基因组测序数据和步骤(2)中Nanopore的超长全基因组测序数据分别比对至第四组装基因组，检测不同scaffold之间的易位结构，连接和定向不同scaffold，同时根据插入序列信息填补Hi-C构建scaffold时留下的缺口，得到第五组装基因组；

步骤(1)和步骤(2)不存在时间上的先后顺序。

2.根据权利要求1所述组装方法，其特征在于，步骤(1)中利用PacBio对目标物种进行至少50×的高保真全基因组测序。

3.根据权利要求1所述组装方法，其特征在于，步骤(1)所述从头组装由Hifiasm组装完成。

4.根据权利要求1所述组装方法，其特征在于，步骤(2)所述超长全基因组测序数据来源于对不低于50kb的片段进行测序，测序数据达到基因组至少60×。

5.根据权利要求1所述组装方法，其特征在于，步骤(2)中使用Nanopore序列组装工具NextDenovo采用默认参数进行从头组装。

6.根据权利要求1所述组装方法，其特征在于，步骤(3)利用MashMap进行所述比对，设定参数为“--perc_identity 95--threads 10--segLength 50000--filter_mode one-to-one”。

7.根据权利要求1所述组装方法，其特征在于，步骤(5)中利用Illumina高通量测序平台对所述Hi-C测序文库进行100×的双端测序。

8.根据权利要求1所述组装方法，其特征在于，步骤(6)利用minimap2将步骤(1)所述PacBio的高保真全基因组测序数据和步骤(2)中Nanopore的超长全基因组测序数据分别比对至第四组装基因组，参数分别为“--MD-a-x asm20”和“--MD-a-x map-ont”。

9.根据权利要求1所述组装方法，其特征在于，步骤(7)利用minimap2将步骤(1)所述PacBio的高保真全基因组测序数据比对至第五组装基因组，参数为“--MD-a-x asm20”；随后利用pilon对碱基进行矫正。

10.根据权利要求1所述组装方法，其特征在于，在得到端粒到端粒的基因组组装结果后，还包括利用步骤(5)中的Hi-C测序文库的测序数据进行验证。