CN115148289A

CN115148289A - 同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用

Info

Publication number: CN115148289A
Application number: CN202211081173.1A
Authority: CN
Inventors: 李志民; 杨伟飞; 王娟; 张雪梅; 李晓波; 涂成芳; 刘涛; 王众司
Original assignee: Annoroad Gene Technology Beijing Co ltd
Current assignee: Annoroad Gene Technology Beijing Co ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-10-04
Anticipated expiration: 2042-09-06
Also published as: CN116168763A; CN115148289B

Abstract

本发明公开了一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用。该分型组装的方法包括：步骤1、将样本的测序数据集与近缘二倍体物种的分型后的参考基因组分别进行比对；根据比对结果鉴定基因组变异信息并分型，得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II，以及无法分型的测序数据集III；步骤2、提取单碱基深度≥1/2平均深度的测序数据集IV；步骤3、将测序数据集I与测序数据集III组装；将测序数据集II与测序数据集III、测序数据集IV组装。本发明的方法和装置具有良好的分型组装效果，可以应用于高度同源的同源四倍体样本，而且花费较低，取样容易。

Description

同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用

技术领域

本发明涉及生物技术领域，具体地，涉及一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置、通过上述方法和/或装置得到的基因组和染色体序列及其应用。

背景技术

基因组组装技术的应用极大地推动了基础生命科学和医学研究领域的发展。传统的基因组组装策略由于忽略同源染色体之间的差异，不可避免的会组装为嵌合体基因组，无法区分同源染色体的等位基因表达的差异，同源染色体修饰差异等。为了打破这种局限性，单体型基因组组装技术顺势而生，已成为高精确基因组组装和精准位点筛选的突破性技术。

目前针对同源四倍体的基因组分型组装技术有2种思路，但是这两种思路都有自己的局限性。

第一种方法是基于ALLHiC方法的四倍体基因组分型技术，目前主要成功应用的四倍体主要有甘蔗和苜蓿，首先是根据近缘物种的注释进行，将研究物种分群；第二步是根据构建的同源片段文件，去除同源染色体之间的hic互作关系；第三步是根据修剪后的bam文件，对contigs进行聚类；第四步是根据原始的bam文件，找回部分未聚类的contigs序列，根据hic互作信号，将这些contig分到对应的聚类群中；第五步是针对聚类的结果进行排序；最后一步是构建每条染色体的agp，序列信息和Hi-C互作热图。该方法的优点是依赖信息少，能够高质量地完成基因组的分型工作，获得高质量的基因组结果；缺点是针对同源性比较高的四倍体，分型效果较差，同源性越高的区域，只会组装出的一套序列，这样对第一步的同源信息表的构建影响比较大，甚至部分高度同源的四倍体无法完整的构建染色体。ALLHiC对同源四倍体分型原理的流程图可以如图5所示。

第二种方法是配子体单细胞测序辅助分型方法，该方法是将配子体进行单细胞测序和三代测序技术相结合的方法，该方法成功应用于人和同源四倍体马铃薯的分型基因组组装工作。首先，获取材料花粉和组织材料，组织材料进行三代测序和Hi-C测序，花粉（单倍体）进行10X单细胞测序，对三代测序数据进行初步组装，同时把花粉单细胞测序数据进行拆分，根据拆分的结果，把初步组装的序列分成4套，每套的基因组再利用HiC数据进行染色体的连接，最终形成染色体级别的基因，该方法的局限性是花费较大，部分样本取样困难。单细胞测序辅助分型原理的流程图可以如图6所示。

综上，现有技术针对同源性比较高的四倍体，主要存在分型组装的效果差；对配子进行单细胞测序等导致花费较大；获取花粉和组织材料样本取样困难等问题。

发明内容

针对上述现有技术存在的问题，本发明提供一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置。本发明的方法和装置可以应用于高度同源的同源四倍体样本，具有良好的分型组装结果，而且本发明的方法和装置不需要额外的测序技术，无需对配子进行单细胞测序进而能够降低花费，不需要获取材料花粉和组织材料等因此样本取样容易。

本发明一方面提供了一种同源四倍体基因组的分型组装方法，包括：

步骤1、将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对；根据比对结果鉴定基因组变异信息并分型，得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II，以及无法分型的测序数据集III；

步骤2、将所述样本的测序数据集与所述参考基因组中的任意一组进行比对，获得单碱基深度，提取单碱基深度≥1/2平均深度的测序数据集IV；

步骤3、将所述测序数据集I与所述测序数据集III合并组装，得到同源四倍体基因组的第一基因组、第二基因组；将测序数据集II与所述测序数据集III、测序数据集IV合并组装，得到同源四倍体基因组的第三基因组、第四基因组。

进一步地，所述样本的测序数据集包括同源四倍体基因组的长reads。

进一步地，所述同源四倍体基因组的长reads为三代测序方法得到的长reads。

进一步地，所述三代测序方法选自Pacbio和/或Nanopore。

进一步地，所述Pacbio选自HiFi。

进一步地，步骤1之前还包括：对样本的近缘二倍体物种进行分型，得到参考基因组A和参考基因组a。

进一步地，步骤2包括：将同源四倍体基因组样本的测序数据长reads与所述参考基因组A或参考基因组a进行比对，获得单碱基深度，提取单碱基深度为1/2-1倍的平均深度的测序数据IV。

进一步地，所述基因组变异信息选自SNP、Indel和SV中的一种或多种。

进一步地，所述分型的方法包括whatshap、longphase中的一种或多种。

本发明再一方面提供了根据上述的分型组装方法得到的同源四倍体样本的四组基因组。

本发明再一方面提供了一种构建染色体的方法，该方法包括：将上述的分型组装方法得到的同源四倍体样本的四组基因组进行染色体构建。

进一步地，所述染色体构建采用Hi-C构建。

本发明再一方面提供了一种根据上述的方法制备得到的同源四倍体样本的染色体序列。

本发明再一方面提供了一种用于上述的分型组装方法的同源四倍体基因组分型组装装置，该装置包括：第一比对单元、第二比对单元和组装单元，其中，

所述第一比对单元用于将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对；根据比对结果鉴定基因组变异信息并分型，得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II，以及无法分型的测序数据集III；

所述第二比对单元用于将所述样本的测序数据集与所述参考基因组中的任意一组进行比对，获得单碱基深度，提取单碱基深度≥1/2平均深度的测序数据集IV；

所述组装单元用于将所述测序数据集I与所述测序数据集III合并组装，得到同源四倍体基因组的第一基因组、第二基因组；将测序数据集II与所述测序数据集III、测序数据集IV合并组装，得到同源四倍体基因组的第三基因组、第四基因组。

本发明再一方面提供了一种构建染色体的装置，该装置包括上述的同源四倍体基因组分型组装装置和构建单元，其中，所述构建单元用于将同源四倍体基因组分型组装的装置得到的同源四倍体样本的四组基因组进行染色体构建。

进一步地，所述染色体构建单元为Hi-C。

本发明再一方面提供了上述的同源四倍体基因组的分型组装方法、上述的同源四倍体样本的四组基因组、上述的构建染色体的方法、上述的同源四倍体样本的染色体序列、上述的同源四倍体基因组分型组装的装置或上述的构建染色体的装置在物种进化和分子育种中的应用。

进一步地，所述应用为在基因组组装中的应用，更优选为在单体型基因组组装中的应用。

本发明具有以下优点：

1、在本发明的方法和装置中，将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对；根据比对结果鉴定基因组变异信息并分型，针对分型后的测序数据集进行提取，得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II，以及无法分型的测序数据集III。由于测序数据集I与测序数据集II的同源性较高，因此与近缘物种近的那套测序数据集I含有部分测序数据集II的测序数据，因此合并在一套近缘物种的单碱基深度≥1/2平均深度的测序数据集，可以显著提高数据的准确度、完整性和一致性。

2、相对于单细胞测序辅助分型方法（单细胞的分型技术），本发明的方法和装置不需要额外的测序技术，而且无需对配子进行单细胞测序进而能够降低花费，不需要获取材料花粉和组织材料等因此样本取样容易。

3、相对于ALLHiC的方法，本发明的方法和装置可以应用于高度同源的同源四倍体分型，并且具有良好的结果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1本发明实施例1提供的同源四倍体基因组的分型组装方法的原理示意图。

图2a为本发明实施例2的四组基因组中H1基因组染色体的互作热图。

图2b为本发明实施例2的四组基因组中H2基因组染色体的互作热图。

图2c为本发明实施例2的四组基因组中H3基因组染色体的互作热图。

图2d为本发明实施例2的四组基因组中H4基因组染色体的互作热图。

图3为本发明实施例2的4套染色体内部的互作热图。

图4为实施例3的本发明的4套染色体与近缘物种的共线性分布图。

图5 为ALLHiC的同源四倍体分型原理示意图。

图6为单细胞测序辅助分型原理示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明第一方面提供了一种同源四倍体基因组的分型组装方法，包括：

在本发明中，增加的染色体组来自于同一近缘物种，细胞中含有四个染色体组。同源四倍体植株的发生在自然条件下,同源四倍体植株的发生常常有两种情况。其一是二倍体植株幼苗生长发育过程中进行有丝分裂时,由于未知原因,形成了染色体加倍的体细胞,这些染色体加倍的体细胞,又进行正常的有丝分裂,就形成了四倍体植株。由于加倍的染色体来自同一二倍体物种,因此又称同源四倍体；其二是二倍体植株在进行减数分裂形成配子的过程中,由于未知原因,形成了未减数的配子、由两个未减数的配子受精形成同源四倍体。

根据本发明的分型组装方法，优选地，所述样本的测序数据集包括同源四倍体基因组的长reads，进一步地，所述同源四倍体基因组的长reads为三代测序方法得到的长reads。在本发明的技术领域中，短读长测序、长读长测序和直接测序均为公知常识。而本申请限定的长reads（长读长）是本领域的公知常识，在此不再赘述。

根据本发明的分型组装方法，优选地，所述三代测序方法选自Pacbio和/或Nanopore。更优选地，所述Pacbio选自HiFi。

根据本发明的分型组装方法，优选地，步骤1之前还包括：对样本的近缘二倍体物种进行分型，得到参考基因组A和参考基因组a。在本发明中，可以使用Winnowmap将同源四倍体样本的长reads比对到近缘二倍体物种的参考基因组A,a上，用samtools比对并对文件进行排序。

根据本发明的分型组装方法，优选地，步骤2包括：将同源四倍体基因组样本的测序数据长reads与所述参考基因组A或参考基因组a进行比对，获得单碱基深度，提取单碱基深度为1/2-1倍的平均深度的测序数据IV。在本发明中，可以利用samtools获得单碱基深度。

根据本发明的分型组装方法，优选地，所述基因组变异信息选自SNP、Indel和SV中的一种或多种。所述鉴定基因组变异的方法可以采用但不限于：pair-hidden Markov模型的longshot。例如使用longshot模型鉴定基因组SNP变异信息。

根据本发明的分型组装方法，优选地，所述分型的方法可以为选择与参考基因组相似度高于设定阈值的方法来进行，也可以采用数学模型来进行，优选地采用数学模型来进行，更优选地，所述分型的方法可以采用但不限于：whatshap、longphase中的一种或多种。通过上述的分型方法，得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II，以及无法分型的测序数据集III。也就是说，根据上述分型方法，能够判断是否能够分型，在分型的测序数据集中，是否与参考基因组相似。例如采用whatshap，能分型的且与参考基因组相似的测序数据集显示0，能分型的且与参考基因组不相似的测序数据集显示1，无法分型的测序数据集显示unphase。

根据本发明的分型组装方法，优选地，所述合并组装的方法可以根据组装算法，获得物种中完整的多套基因组遗传信息，例如四倍体物种，最终组装出4套基因组遗传信息。在本发明中，所述合并组装的方法可以为但不限于：hifiasm、falcon-unzip、falcon-phase中的一种或多种。

根据本发明的分型组装方法，优选地，在步骤1之后且步骤2之前，对变异结果进行过滤，获得高质量的变异分型结果。高质量可以为基因型质量值（GQ值）＞70的变异分型结果。

根据本发明的分型组装方法，优选地，所述近缘二倍体物种可以为本领域公知的近缘二倍体物种，也可以为同源四倍体样本的亲缘二倍体物种。采用本发明的方法，对于高度同源的四倍体样本能够较好地分型并组装。

在本发明中，术语“平均深度”是指在指定区域内得到的所有碱基数目与该区域长度的比值。例如，一个区域共有4条序列覆盖，一条序列有10个碱基，覆盖这条序列的碱基40个，那么平均深度为4，当有2条序列比对覆盖某个单碱基时，则该单碱基深度为1/2平均深度。

本发明第二方面提供了根据上述的分型组装方法得到的同源四倍体样本的四组基因组。

本发明第三方面提供了一种构建染色体的方法，该方法包括：将上述的分型组装方法得到的同源四倍体样本的四组基因组进行染色体构建。

根据本发明的方法，优选地，所述染色体构建采用Hi-C构建。

本发明第四方面提供了一种根据上述的方法制备得到的同源四倍体样本的染色体序列。

本发明第五方面提供了一种用于上述的分型组装方法的同源四倍体基因组分型组装装置，该装置包括：第一比对单元、第二比对单元和组装单元，其中，

本发明第六方面提供了一种构建染色体的装置，该装置包括上述的同源四倍体基因组分型组装装置和构建单元，其中，所述构建单元用于将同源四倍体基因组分型组装的装置得到的同源四倍体样本的四组基因组进行染色体构建。

根据本发明的装置，优选地，所述染色体构建单元为Hi-C。

本发明第七方面提供了上述的同源四倍体基因组的分型组装方法、上述的同源四倍体样本的四组基因组、上述的构建染色体的方法、上述的同源四倍体样本的染色体序列、上述的同源四倍体基因组分型组装的装置或上述的构建染色体的装置在物种进化和分子育种中的应用。

根据本发明的应用，优选地，所述应用为在基因组组装中的应用，更优选为在单体型基因组组装中的应用。

下面参考具体实施例，对本发明进行说明，需要说明的是，这些实施例仅仅是说明性的，而不能理解为对本发明的限制。

实施例1

一种同源四倍体基因组的分型组装方法和装置，分型组装方法的原理示意图如图1所示。图1中，hps1代表近缘二倍体物种分型后的参考基因组A；hps2代表近缘二倍体物种分型后的参考基因组a；HapA1 reads、HapA2 reads代表与参考基因组A比对后，能够分型的reads；未分型A reads代表与参考基因组A比对后，无法分型的reads；HapB1 reads、HapB2reads代表与参考基因组a比对后，能够分型的reads；未分型B reads代表与参考基因组a比对后，无法分型的reads；未分型A、B reads代表未分型A reads与未分型B reads 的总和；H1基因组、H2基因组、H3基因组、H4基因组分别代表高度同源的四倍体马铃薯Atlantic样本的四组基因组。

步骤1、同源四倍体基因组样本为高度同源的四倍体马铃薯Atlantic样本，通过Pacbio三代HiFi测序，得到测序数据71Gb；130G的Hi-C数据。近缘二倍体物种为二倍体马铃薯RH89-039-16，近缘二倍体物种分型后的参考基因组A和参考基因组a。

步骤2、使用Winnowmap将同源四倍体马铃薯样本的长reads比对到近缘二倍体物种的参考基因组A,a上，用samtools比对并进行排序。四倍体马铃薯样本比对到A,a的比对率见表1。

表1. 比对到A,a的比对率

步骤3、根据比对结果，使用longshot模型鉴定基因组SNP变异信息。鉴定到的变异数目见表2。

表2. 鉴定到的变异数目

步骤4、对变异结果进行过滤，获得高质量（GQ值＞70）的变异分型结果，见表3。

表3. 高质量的变异分型结果

步骤5、使用whatshap根据比对结果和分型的变异结果，对reads进行分型，得到能分型的且与参考基因组A,a相似的测序数据集I、能分型的且与参考基因组A,a不相似的测序数据集II，以及无法分型的测序数据集III。

将同源四倍体马铃薯样本的测序数据集与参考基因组A进行比对，利用samtools获得单碱基深度，提取单碱基深度≥1/2平均深度的测序数据集IV。分型后各个测序数据集的reads和数据量统计见表4。

表4. 分型后各个测序数据集的reads和数据量统计

步骤6、使用hifiasm将测序数据集I与所述测序数据集III合并组装，得到同源四倍体基因组的第一基因组（H1基因组）、第二基因组（H2基因组）；将测序数据集II与所述测序数据集III、测序数据集IV合并组装，得到同源四倍体基因组的第三基因组（H3基因组）、第四基因组（H4基因组），最终获得4组基因组，结果见表5。

表5. 4组单体型基因组组装结果和BUSCO结果

其中，BUSCO为通用单拷贝同源基因基准。H1基因组、H2基因组、H3基因组、H4基因组分别为高度同源的四倍体马铃薯Atlantic样本的四组基因组。Contig_len (bp)代表Contig碱基长度。Contig_num代表Contig数目。

通过表5能够说明组装的连续性和完整性比较好。

实施例2

步骤1、利用Hi-C辅助组装软件Lachesis对实施例1得到的四组基因组（H1基因组、H2基因组、H3基因组、H4基因组）分别进行染色体的构建。染色体构建效果如图2a、图2b、图2c、图2d所示。

步骤2、利用Hi-C辅助组装软件ALLHiC的绘图工具对4套染色体进行整体互作热图绘制，结果如图3所示。

通过上述热图能够说明组装的染色体质量较高，同源四倍体的四套染色体分型质量可靠。

实施例3

采用minimap2软件，将实施例2的组装的高度同源的四倍体马铃薯Atlantic样本的全部染色体与近缘二倍体物种为二倍体马铃薯RH89-039-16的一个单倍体进行比对，使用R软件绘制共线性结果如图4所示。

图4中，x轴代表近缘物种二倍体马铃薯的一套染色体（12条染色体），y轴代表同源四倍体马铃薯的每组基因组的染色体。x轴的每一条近缘物种的染色体均对应本发明同源四倍体样本的4条染色体，y轴共48条染色体（4×12），进而说明本发明的分型组装方法的结果具有较高的准确性、一致性和完整性。

对比例1

采用与实施例1相同的同源四倍体马铃薯Atlantic样本和近源二倍体马铃薯RH89-039-16。采用基于ALLHiC方法的四倍体基因组分型技术（原理如图5所示）。

采用该方法无法构建染色体。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种同源四倍体基因组的分型组装方法，包括：

2.根据权利要求1所述的分型组装方法，其特征在于，所述样本的测序数据集包括同源四倍体基因组的长reads。

3.根据权利要求2所述的分型组装方法，其特征在于，所述同源四倍体基因组的长reads为三代测序方法得到的长reads。

4.根据权利要求3所述的分型组装方法，其特征在于，所述三代测序方法选自Pacbio和/或Nanopore。

5.根据权利要求4所述的分型组装方法，其特征在于，所述Pacbio选自HiFi。

6.根据权利要求1-5中任一项所述的分型组装方法，其特征在于，步骤1之前还包括：对样本的近缘二倍体物种进行分型，得到参考基因组A和参考基因组a。

7.根据权利要求6所述的分型组装方法，其特征在于，步骤2包括：将同源四倍体基因组样本的测序数据长reads与所述参考基因组A或参考基因组a进行比对，获得单碱基深度，提取单碱基深度为1/2-1倍的平均深度的测序数据IV 。

8.根据权利要求1-5中任一项所述的分型组装方法，其特征在于，所述基因组变异信息选自SNP、Indel和SV中的一种或多种。

9.根据权利要求1-5中任一项所述的分型组装方法，其特征在于，所述分型的方法包括whatshap、longphase中的一种或多种。

10.一种根据权利要求1-9中任一项所述的分型组装方法得到的同源四倍体样本的四组基因组。

11.一种构建染色体的方法，该方法包括：将权利要求1-9中任一项所述的分型组装方法得到的同源四倍体样本的四组基因组进行染色体构建。

12.根据权利要求11所述的方法，其特征在于，所述染色体构建采用Hi-C构建。

13.一种根据权利要求11或12所述的方法制备得到的同源四倍体样本的染色体序列。

14.一种用于权利要求1-9中任一项所述的分型组装方法的同源四倍体基因组分型组装装置，该装置包括：第一比对单元、第二比对单元和组装单元，其中，

15.一种构建染色体的装置，该装置包括权利要求14所述的同源四倍体基因组分型组装装置和构建单元，其中，所述构建单元用于将同源四倍体基因组分型组装的装置得到的同源四倍体样本的四组基因组进行染色体构建。

16.根据权利要求15所述的装置，其特征在于，所述染色体构建单元为Hi-C 。

17.权利要求1-9中任一项所述的同源四倍体基因组的分型组装方法、权利要求10所述的同源四倍体样本的四组基因组、权利要求11或12所述的构建染色体的方法、权利要求13所述的同源四倍体样本的染色体序列、权利要求14所述的同源四倍体基因组分型组装的装置或权利要求15或16所述的构建染色体的装置在物种进化和分子育种中的应用。

18.根据权利要求17所述的应用，其特征在于，所述应用为在基因组组装中的应用。