CN115148289A - 同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用 - Google Patents

同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用 Download PDF

Info

Publication number
CN115148289A
CN115148289A CN202211081173.1A CN202211081173A CN115148289A CN 115148289 A CN115148289 A CN 115148289A CN 202211081173 A CN202211081173 A CN 202211081173A CN 115148289 A CN115148289 A CN 115148289A
Authority
CN
China
Prior art keywords
genome
data set
sequencing data
typing
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211081173.1A
Other languages
English (en)
Other versions
CN115148289B (zh
Inventor
李志民
杨伟飞
王娟
张雪梅
李晓波
涂成芳
刘涛
王众司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Annoroad Gene Technology Beijing Co ltd
Original Assignee
Annoroad Gene Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Annoroad Gene Technology Beijing Co ltd filed Critical Annoroad Gene Technology Beijing Co ltd
Priority to CN202211691347.6A priority Critical patent/CN116168763A/zh
Priority to CN202211081173.1A priority patent/CN115148289B/zh
Publication of CN115148289A publication Critical patent/CN115148289A/zh
Application granted granted Critical
Publication of CN115148289B publication Critical patent/CN115148289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用。该分型组装的方法包括:步骤1、将样本的测序数据集与近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;步骤2、提取单碱基深度≥1/2平均深度的测序数据集IV;步骤3、将测序数据集I与测序数据集III组装;将测序数据集II与测序数据集III、测序数据集IV组装。本发明的方法和装置具有良好的分型组装效果,可以应用于高度同源的同源四倍体样本,而且花费较低,取样容易。

Description

同源四倍体基因组分型组装的方法和装置、构建染色体的方 法和装置及其应用
技术领域
本发明涉及生物技术领域,具体地,涉及一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置、通过上述方法和/或装置得到的基因组和染色体序列及其应用。
背景技术
基因组组装技术的应用极大地推动了基础生命科学和医学研究领域的发展。传统的基因组组装策略由于忽略同源染色体之间的差异,不可避免的会组装为嵌合体基因组,无法区分同源染色体的等位基因表达的差异,同源染色体修饰差异等。为了打破这种局限性,单体型基因组组装技术顺势而生,已成为高精确基因组组装和精准位点筛选的突破性技术。
目前针对同源四倍体的基因组分型组装技术有2种思路,但是这两种思路都有自己的局限性。
第一种方法是基于ALLHiC方法的四倍体基因组分型技术,目前主要成功应用的四倍体主要有甘蔗和苜蓿,首先是根据近缘物种的注释进行,将研究物种分群;第二步是根据构建的同源片段文件,去除同源染色体之间的hic互作关系;第三步是根据修剪后的bam文件,对contigs进行聚类;第四步是根据原始的bam文件,找回部分未聚类的contigs序列,根据hic互作信号,将这些contig分到对应的聚类群中;第五步是针对聚类的结果进行排序;最后一步是构建每条染色体的agp,序列信息和Hi-C互作热图。该方法的优点是依赖信息少,能够高质量地完成基因组的分型工作,获得高质量的基因组结果;缺点是针对同源性比较高的四倍体,分型效果较差,同源性越高的区域,只会组装出的一套序列,这样对第一步的同源信息表的构建影响比较大,甚至部分高度同源的四倍体无法完整的构建染色体。ALLHiC对同源四倍体分型原理的流程图可以如图5所示。
第二种方法是配子体单细胞测序辅助分型方法,该方法是将配子体进行单细胞测序和三代测序技术相结合的方法,该方法成功应用于人和同源四倍体马铃薯的分型基因组组装工作。首先,获取材料花粉和组织材料,组织材料进行三代测序和Hi-C测序,花粉(单倍体)进行10X单细胞测序,对三代测序数据进行初步组装,同时把花粉单细胞测序数据进行拆分,根据拆分的结果,把初步组装的序列分成4套,每套的基因组再利用HiC数据进行染色体的连接,最终形成染色体级别的基因,该方法的局限性是花费较大,部分样本取样困难。单细胞测序辅助分型原理的流程图可以如图6所示。
综上,现有技术针对同源性比较高的四倍体,主要存在分型组装的效果差;对配子进行单细胞测序等导致花费较大;获取花粉和组织材料样本取样困难等问题。
发明内容
针对上述现有技术存在的问题,本发明提供一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置。本发明的方法和装置可以应用于高度同源的同源四倍体样本,具有良好的分型组装结果,而且本发明的方法和装置不需要额外的测序技术,无需对配子进行单细胞测序进而能够降低花费,不需要获取材料花粉和组织材料等因此样本取样容易。
本发明一方面提供了一种同源四倍体基因组的分型组装方法,包括:
步骤1、将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;
步骤2、将所述样本的测序数据集与所述参考基因组中的任意一组进行比对,获得单碱基深度,提取单碱基深度≥1/2平均深度的测序数据集IV;
步骤3、将所述测序数据集I与所述测序数据集III合并组装,得到同源四倍体基因组的第一基因组、第二基因组;将测序数据集II与所述测序数据集III、测序数据集IV合并组装,得到同源四倍体基因组的第三基因组、第四基因组。
进一步地,所述样本的测序数据集包括同源四倍体基因组的长reads。
进一步地,所述同源四倍体基因组的长reads为三代测序方法得到的长reads。
进一步地,所述三代测序方法选自Pacbio和/或Nanopore。
进一步地,所述Pacbio选自HiFi。
进一步地,步骤1之前还包括:对样本的近缘二倍体物种进行分型,得到参考基因组A和参考基因组a。
进一步地,步骤2包括:将同源四倍体基因组样本的测序数据长reads与所述参考基因组A或参考基因组a进行比对,获得单碱基深度,提取单碱基深度为1/2-1倍的平均深度的测序数据IV。
进一步地,所述基因组变异信息选自SNP、Indel和SV中的一种或多种。
进一步地,所述分型的方法包括whatshap、longphase中的一种或多种。
本发明再一方面提供了根据上述的分型组装方法得到的同源四倍体样本的四组基因组。
本发明再一方面提供了一种构建染色体的方法,该方法包括:将上述的分型组装方法得到的同源四倍体样本的四组基因组进行染色体构建。
进一步地,所述染色体构建采用Hi-C构建。
本发明再一方面提供了一种根据上述的方法制备得到的同源四倍体样本的染色体序列。
本发明再一方面提供了一种用于上述的分型组装方法的同源四倍体基因组分型组装装置,该装置包括:第一比对单元、第二比对单元和组装单元,其中,
所述第一比对单元用于将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;
所述第二比对单元用于将所述样本的测序数据集与所述参考基因组中的任意一组进行比对,获得单碱基深度,提取单碱基深度≥1/2平均深度的测序数据集IV;
所述组装单元用于将所述测序数据集I与所述测序数据集III合并组装,得到同源四倍体基因组的第一基因组、第二基因组;将测序数据集II与所述测序数据集III、测序数据集IV合并组装,得到同源四倍体基因组的第三基因组、第四基因组。
本发明再一方面提供了一种构建染色体的装置,该装置包括上述的同源四倍体基因组分型组装装置和构建单元,其中,所述构建单元用于将同源四倍体基因组分型组装的装置得到的同源四倍体样本的四组基因组进行染色体构建。
进一步地,所述染色体构建单元为Hi-C。
本发明再一方面提供了上述的同源四倍体基因组的分型组装方法、上述的同源四倍体样本的四组基因组、上述的构建染色体的方法、上述的同源四倍体样本的染色体序列、上述的同源四倍体基因组分型组装的装置或上述的构建染色体的装置在物种进化和分子育种中的应用。
进一步地,所述应用为在基因组组装中的应用,更优选为在单体型基因组组装中的应用。
本发明具有以下优点:
1、在本发明的方法和装置中,将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,针对分型后的测序数据集进行提取,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III。由于测序数据集I与测序数据集II的同源性较高,因此与近缘物种近的那套测序数据集I含有部分测序数据集II的测序数据,因此合并在一套近缘物种的单碱基深度≥1/2平均深度的测序数据集,可以显著提高数据的准确度、完整性和一致性。
2、相对于单细胞测序辅助分型方法(单细胞的分型技术),本发明的方法和装置不需要额外的测序技术,而且无需对配子进行单细胞测序进而能够降低花费,不需要获取材料花粉和组织材料等因此样本取样容易。
3、相对于ALLHiC的方法,本发明的方法和装置可以应用于高度同源的同源四倍体分型,并且具有良好的结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1本发明实施例1提供的同源四倍体基因组的分型组装方法的原理示意图。
图2a为本发明实施例2的四组基因组中H1基因组染色体的互作热图。
图2b为本发明实施例2的四组基因组中H2基因组染色体的互作热图。
图2c为本发明实施例2的四组基因组中H3基因组染色体的互作热图。
图2d为本发明实施例2的四组基因组中H4基因组染色体的互作热图。
图3为本发明实施例2的4套染色体内部的互作热图。
图4为实施例3的本发明的4套染色体与近缘物种的共线性分布图。
图5 为ALLHiC的同源四倍体分型原理示意图。
图6为单细胞测序辅助分型原理示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明第一方面提供了一种同源四倍体基因组的分型组装方法,包括:
步骤1、将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;
步骤2、将所述样本的测序数据集与所述参考基因组中的任意一组进行比对,获得单碱基深度,提取单碱基深度≥1/2平均深度的测序数据集IV;
步骤3、将所述测序数据集I与所述测序数据集III合并组装,得到同源四倍体基因组的第一基因组、第二基因组;将测序数据集II与所述测序数据集III、测序数据集IV合并组装,得到同源四倍体基因组的第三基因组、第四基因组。
在本发明中,增加的染色体组来自于同一近缘物种,细胞中含有四个染色体组。同源四倍体植株的发生在自然条件下,同源四倍体植株的发生常常有两种情况。其一是二倍体植株幼苗生长发育过程中进行有丝分裂时,由于未知原因,形成了染色体加倍的体细胞,这些染色体加倍的体细胞,又进行正常的有丝分裂,就形成了四倍体植株。由于加倍的染色体来自同一二倍体物种,因此又称同源四倍体;其二是二倍体植株在进行减数分裂形成配子的过程中,由于未知原因,形成了未减数的配子、由两个未减数的配子受精形成同源四倍体。
根据本发明的分型组装方法,优选地,所述样本的测序数据集包括同源四倍体基因组的长reads,进一步地,所述同源四倍体基因组的长reads为三代测序方法得到的长reads。在本发明的技术领域中,短读长测序、长读长测序和直接测序均为公知常识。而本申请限定的长reads(长读长)是本领域的公知常识,在此不再赘述。
根据本发明的分型组装方法,优选地,所述三代测序方法选自Pacbio和/或Nanopore。更优选地,所述Pacbio选自HiFi。
根据本发明的分型组装方法,优选地,步骤1之前还包括:对样本的近缘二倍体物种进行分型,得到参考基因组A和参考基因组a。在本发明中,可以使用Winnowmap将同源四倍体样本的长reads比对到近缘二倍体物种的参考基因组A,a上,用samtools比对并对文件进行排序。
根据本发明的分型组装方法,优选地,步骤2包括:将同源四倍体基因组样本的测序数据长reads与所述参考基因组A或参考基因组a进行比对,获得单碱基深度,提取单碱基深度为1/2-1倍的平均深度的测序数据IV。在本发明中,可以利用samtools获得单碱基深度。
根据本发明的分型组装方法,优选地,所述基因组变异信息选自SNP、Indel和SV中的一种或多种。所述鉴定基因组变异的方法可以采用但不限于:pair-hidden Markov模型的longshot。例如使用longshot模型鉴定基因组SNP变异信息。
根据本发明的分型组装方法,优选地,所述分型的方法可以为选择与参考基因组相似度高于设定阈值的方法来进行,也可以采用数学模型来进行,优选地采用数学模型来进行,更优选地,所述分型的方法可以采用但不限于:whatshap、longphase中的一种或多种。通过上述的分型方法,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III。也就是说,根据上述分型方法,能够判断是否能够分型,在分型的测序数据集中,是否与参考基因组相似。例如采用whatshap,能分型的且与参考基因组相似的测序数据集显示0,能分型的且与参考基因组不相似的测序数据集显示1,无法分型的测序数据集显示unphase。
根据本发明的分型组装方法,优选地,所述合并组装的方法可以根据组装算法,获得物种中完整的多套基因组遗传信息,例如四倍体物种,最终组装出4套基因组遗传信息。在本发明中,所述合并组装的方法可以为但不限于:hifiasm、falcon-unzip、falcon-phase中的一种或多种。
根据本发明的分型组装方法,优选地,在步骤1之后且步骤2之前,对变异结果进行过滤,获得高质量的变异分型结果。高质量可以为基因型质量值(GQ值)>70的变异分型结果。
根据本发明的分型组装方法,优选地,所述近缘二倍体物种可以为本领域公知的近缘二倍体物种,也可以为同源四倍体样本的亲缘二倍体物种。采用本发明的方法,对于高度同源的四倍体样本能够较好地分型并组装。
在本发明中,术语“平均深度”是指在指定区域内得到的所有碱基数目与该区域长度的比值。例如,一个区域共有4条序列覆盖,一条序列有10个碱基,覆盖这条序列的碱基40个,那么平均深度为4,当有2条序列比对覆盖某个单碱基时,则该单碱基深度为1/2平均深度。
本发明第二方面提供了根据上述的分型组装方法得到的同源四倍体样本的四组基因组。
本发明第三方面提供了一种构建染色体的方法,该方法包括:将上述的分型组装方法得到的同源四倍体样本的四组基因组进行染色体构建。
根据本发明的方法,优选地,所述染色体构建采用Hi-C构建。
本发明第四方面提供了一种根据上述的方法制备得到的同源四倍体样本的染色体序列。
本发明第五方面提供了一种用于上述的分型组装方法的同源四倍体基因组分型组装装置,该装置包括:第一比对单元、第二比对单元和组装单元,其中,
所述第一比对单元用于将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;
所述第二比对单元用于将所述样本的测序数据集与所述参考基因组中的任意一组进行比对,获得单碱基深度,提取单碱基深度≥1/2平均深度的测序数据集IV;
所述组装单元用于将所述测序数据集I与所述测序数据集III合并组装,得到同源四倍体基因组的第一基因组、第二基因组;将测序数据集II与所述测序数据集III、测序数据集IV合并组装,得到同源四倍体基因组的第三基因组、第四基因组。
本发明第六方面提供了一种构建染色体的装置,该装置包括上述的同源四倍体基因组分型组装装置和构建单元,其中,所述构建单元用于将同源四倍体基因组分型组装的装置得到的同源四倍体样本的四组基因组进行染色体构建。
根据本发明的装置,优选地,所述染色体构建单元为Hi-C。
本发明第七方面提供了上述的同源四倍体基因组的分型组装方法、上述的同源四倍体样本的四组基因组、上述的构建染色体的方法、上述的同源四倍体样本的染色体序列、上述的同源四倍体基因组分型组装的装置或上述的构建染色体的装置在物种进化和分子育种中的应用。
根据本发明的应用,优选地,所述应用为在基因组组装中的应用,更优选为在单体型基因组组装中的应用。
下面参考具体实施例,对本发明进行说明,需要说明的是,这些实施例仅仅是说明性的,而不能理解为对本发明的限制。
实施例1
一种同源四倍体基因组的分型组装方法和装置,分型组装方法的原理示意图如图1所示。图1中,hps1代表近缘二倍体物种分型后的参考基因组A;hps2代表近缘二倍体物种分型后的参考基因组a;HapA1 reads、HapA2 reads代表与参考基因组A比对后,能够分型的reads;未分型A reads代表与参考基因组A比对后,无法分型的reads;HapB1 reads、HapB2reads代表与参考基因组a比对后,能够分型的reads;未分型B reads代表与参考基因组a比对后,无法分型的reads;未分型A、B reads代表未分型A reads与未分型B reads 的总和;H1基因组、H2基因组、H3基因组、H4基因组分别代表高度同源的四倍体马铃薯Atlantic样本的四组基因组。
步骤1、同源四倍体基因组样本为高度同源的四倍体马铃薯Atlantic样本,通过Pacbio三代HiFi测序,得到测序数据71Gb;130G的Hi-C数据。近缘二倍体物种为二倍体马铃薯RH89-039-16,近缘二倍体物种分型后的参考基因组A和参考基因组a。
步骤2、使用Winnowmap将同源四倍体马铃薯样本的长reads比对到近缘二倍体物种的参考基因组A,a上,用samtools比对并进行排序。四倍体马铃薯样本比对到A,a的比对率见表1。
表1. 比对到A,a的比对率
Figure DEST_PATH_IMAGE001
步骤3、根据比对结果,使用longshot模型鉴定基因组SNP变异信息。鉴定到的变异数目见表2。
表2. 鉴定到的变异数目
Figure DEST_PATH_IMAGE002
步骤4、对变异结果进行过滤,获得高质量(GQ值>70)的变异分型结果,见表3。
表3. 高质量的变异分型结果
Figure DEST_PATH_IMAGE003
步骤5、使用whatshap根据比对结果和分型的变异结果,对reads进行分型,得到能分型的且与参考基因组A,a相似的测序数据集I、能分型的且与参考基因组A,a不相似的测序数据集II,以及无法分型的测序数据集III。
将同源四倍体马铃薯样本的测序数据集与参考基因组A进行比对,利用samtools获得单碱基深度,提取单碱基深度≥1/2平均深度的测序数据集IV。分型后各个测序数据集的reads和数据量统计见表4。
表4. 分型后各个测序数据集的reads和数据量统计
Figure DEST_PATH_IMAGE004
步骤6、使用hifiasm将测序数据集I与所述测序数据集III合并组装,得到同源四倍体基因组的第一基因组(H1基因组)、第二基因组(H2基因组);将测序数据集II与所述测序数据集III、测序数据集IV合并组装,得到同源四倍体基因组的第三基因组(H3基因组)、第四基因组(H4基因组),最终获得4组基因组,结果见表5。
表5. 4组单体型基因组组装结果和BUSCO结果
Figure DEST_PATH_IMAGE005
其中,BUSCO为通用单拷贝同源基因基准。H1基因组、H2基因组、H3基因组、H4基因组分别为高度同源的四倍体马铃薯Atlantic样本的四组基因组。Contig_len (bp)代表Contig碱基长度。Contig_num代表Contig数目。
通过表5能够说明组装的连续性和完整性比较好。
实施例2
步骤1、利用Hi-C辅助组装软件Lachesis对实施例1得到的四组基因组(H1基因组、H2基因组、H3基因组、H4基因组)分别进行染色体的构建。染色体构建效果如图2a、图2b、图2c、图2d所示。
步骤2、利用Hi-C辅助组装软件ALLHiC的绘图工具对4套染色体进行整体互作热图绘制,结果如图3所示。
通过上述热图能够说明组装的染色体质量较高,同源四倍体的四套染色体分型质量可靠。
实施例3
采用minimap2软件,将实施例2的组装的高度同源的四倍体马铃薯Atlantic样本的全部染色体与近缘二倍体物种为二倍体马铃薯RH89-039-16的一个单倍体进行比对,使用R软件绘制共线性结果如图4所示。
图4中,x轴代表近缘物种二倍体马铃薯的一套染色体(12条染色体),y轴代表同源四倍体马铃薯的每组基因组的染色体。x轴的每一条近缘物种的染色体均对应本发明同源四倍体样本的4条染色体,y轴共48条染色体(4×12),进而说明本发明的分型组装方法的结果具有较高的准确性、一致性和完整性。
对比例1
采用与实施例1相同的同源四倍体马铃薯Atlantic样本和近源二倍体马铃薯RH89-039-16。采用基于ALLHiC方法的四倍体基因组分型技术(原理如图5所示)。
采用该方法无法构建染色体。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (18)

1.一种同源四倍体基因组的分型组装方法,包括:
步骤1、将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;
步骤2、将所述样本的测序数据集与所述参考基因组中的任意一组进行比对,获得单碱基深度,提取单碱基深度≥1/2平均深度的测序数据集IV;
步骤3、将所述测序数据集I与所述测序数据集III合并组装,得到同源四倍体基因组的第一基因组、第二基因组;将测序数据集II与所述测序数据集III、测序数据集IV合并组装,得到同源四倍体基因组的第三基因组、第四基因组。
2.根据权利要求1所述的分型组装方法,其特征在于,所述样本的测序数据集包括同源四倍体基因组的长reads。
3.根据权利要求2所述的分型组装方法,其特征在于,所述同源四倍体基因组的长reads为三代测序方法得到的长reads。
4.根据权利要求3所述的分型组装方法,其特征在于,所述三代测序方法选自Pacbio和/或Nanopore。
5.根据权利要求4所述的分型组装方法,其特征在于,所述Pacbio选自HiFi。
6.根据权利要求1-5中任一项所述的分型组装方法,其特征在于,步骤1之前还包括:对样本的近缘二倍体物种进行分型,得到参考基因组A和参考基因组a。
7.根据权利要求6所述的分型组装方法,其特征在于,步骤2包括:将同源四倍体基因组样本的测序数据长reads与所述参考基因组A或参考基因组a进行比对,获得单碱基深度,提取单碱基深度为1/2-1倍的平均深度的测序数据IV 。
8.根据权利要求1-5中任一项所述的分型组装方法,其特征在于,所述基因组变异信息选自SNP、Indel和SV中的一种或多种。
9.根据权利要求1-5中任一项所述的分型组装方法,其特征在于,所述分型的方法包括whatshap、longphase中的一种或多种。
10.一种根据权利要求1-9中任一项所述的分型组装方法得到的同源四倍体样本的四组基因组。
11.一种构建染色体的方法,该方法包括:将权利要求1-9中任一项所述的分型组装方法得到的同源四倍体样本的四组基因组进行染色体构建。
12.根据权利要求11所述的方法,其特征在于,所述染色体构建采用Hi-C构建。
13.一种根据权利要求11或12所述的方法制备得到的同源四倍体样本的染色体序列。
14.一种用于权利要求1-9中任一项所述的分型组装方法的同源四倍体基因组分型组装装置,该装置包括:第一比对单元、第二比对单元和组装单元,其中,
所述第一比对单元用于将同源四倍体基因组样本的测序数据集与所述样本的近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;
所述第二比对单元用于将所述样本的测序数据集与所述参考基因组中的任意一组进行比对,获得单碱基深度,提取单碱基深度≥1/2平均深度的测序数据集IV;
所述组装单元用于将所述测序数据集I与所述测序数据集III合并组装,得到同源四倍体基因组的第一基因组、第二基因组;将测序数据集II与所述测序数据集III、测序数据集IV合并组装,得到同源四倍体基因组的第三基因组、第四基因组 。
15.一种构建染色体的装置,该装置包括权利要求14所述的同源四倍体基因组分型组装装置和构建单元,其中,所述构建单元用于将同源四倍体基因组分型组装的装置得到的同源四倍体样本的四组基因组进行染色体构建。
16.根据权利要求15所述的装置,其特征在于,所述染色体构建单元为Hi-C 。
17.权利要求1-9中任一项所述的同源四倍体基因组的分型组装方法、权利要求10所述的同源四倍体样本的四组基因组、权利要求11或12所述的构建染色体的方法、权利要求13所述的同源四倍体样本的染色体序列、权利要求14所述的同源四倍体基因组分型组装的装置或权利要求15或16所述的构建染色体的装置在物种进化和分子育种中的应用。
18.根据权利要求17所述的应用,其特征在于,所述应用为在基因组组装中的应用。
CN202211081173.1A 2022-09-06 2022-09-06 同源四倍体基因组分型组装的方法和装置、构建染色体的装置 Active CN115148289B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211691347.6A CN116168763A (zh) 2022-09-06 2022-09-06 同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用
CN202211081173.1A CN115148289B (zh) 2022-09-06 2022-09-06 同源四倍体基因组分型组装的方法和装置、构建染色体的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211081173.1A CN115148289B (zh) 2022-09-06 2022-09-06 同源四倍体基因组分型组装的方法和装置、构建染色体的装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211691347.6A Division CN116168763A (zh) 2022-09-06 2022-09-06 同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用

Publications (2)

Publication Number Publication Date
CN115148289A true CN115148289A (zh) 2022-10-04
CN115148289B CN115148289B (zh) 2023-01-24

Family

ID=83415271

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211081173.1A Active CN115148289B (zh) 2022-09-06 2022-09-06 同源四倍体基因组分型组装的方法和装置、构建染色体的装置
CN202211691347.6A Pending CN116168763A (zh) 2022-09-06 2022-09-06 同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211691347.6A Pending CN116168763A (zh) 2022-09-06 2022-09-06 同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用

Country Status (1)

Country Link
CN (2) CN115148289B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115762633A (zh) * 2022-11-23 2023-03-07 哈尔滨工业大学 一种基于三代测序的基因组结构变异基因型校正方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1269831A (zh) * 1997-07-09 2000-10-11 伍利当斯私人有限公司 通过分析y染色体dna序列确定马物种遗传性别
US20100099092A1 (en) * 2008-10-21 2010-04-22 Morehouse School Of Medicine Methods for determination of haplotype dissection
CN111816248A (zh) * 2020-05-22 2020-10-23 武汉菲沙基因信息有限公司 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法
CN112397149A (zh) * 2020-11-11 2021-02-23 天津现代创新中药科技有限公司 无参考基因组序列的转录组分析方法及系统
CN112820354A (zh) * 2021-02-25 2021-05-18 深圳华大基因科技服务有限公司 一种双倍体组装的方法、装置和存储介质
CN112908413A (zh) * 2021-03-22 2021-06-04 深圳市血液中心(深圳市输血医学研究所) 一种基于abo基因的血型分型方法
US20210280269A1 (en) * 2020-03-06 2021-09-09 Laboratory Corporation Of America Holdings Assay for Hemoglobin A (HBA) Detection and Genotyping
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置
CN113817725A (zh) * 2021-10-15 2021-12-21 西安浩瑞基因技术有限公司 Hla基因扩增引物、试剂盒、测序文库构建方法及测序方法
CN114678071A (zh) * 2021-12-31 2022-06-28 杭州芯原力生物科技有限公司 一种基于高通量测序数据的hla基因综合分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180282796A1 (en) * 2015-09-29 2018-10-04 Ludwig Institute For Cancer Research Ltd Typing and Assembling Discontinuous Genomic Elements
WO2017143585A1 (zh) * 2016-02-26 2017-08-31 深圳华大基因研究院 对分隔长片段序列进行组装的方法和装置
WO2019047181A1 (zh) * 2017-09-08 2019-03-14 深圳华大生命科学研究院 基于低深度基因组测序进行基因分型的方法、装置及其用途

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1269831A (zh) * 1997-07-09 2000-10-11 伍利当斯私人有限公司 通过分析y染色体dna序列确定马物种遗传性别
US20100099092A1 (en) * 2008-10-21 2010-04-22 Morehouse School Of Medicine Methods for determination of haplotype dissection
US20210280269A1 (en) * 2020-03-06 2021-09-09 Laboratory Corporation Of America Holdings Assay for Hemoglobin A (HBA) Detection and Genotyping
CN113496760A (zh) * 2020-04-01 2021-10-12 深圳华大基因科技服务有限公司 基于第三代测序的多倍体基因组组装方法和装置
CN111816248A (zh) * 2020-05-22 2020-10-23 武汉菲沙基因信息有限公司 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法
CN112397149A (zh) * 2020-11-11 2021-02-23 天津现代创新中药科技有限公司 无参考基因组序列的转录组分析方法及系统
CN112820354A (zh) * 2021-02-25 2021-05-18 深圳华大基因科技服务有限公司 一种双倍体组装的方法、装置和存储介质
CN112908413A (zh) * 2021-03-22 2021-06-04 深圳市血液中心(深圳市输血医学研究所) 一种基于abo基因的血型分型方法
CN113817725A (zh) * 2021-10-15 2021-12-21 西安浩瑞基因技术有限公司 Hla基因扩增引物、试剂盒、测序文库构建方法及测序方法
CN114678071A (zh) * 2021-12-31 2022-06-28 杭州芯原力生物科技有限公司 一种基于高通量测序数据的hla基因综合分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
顾明亮等: "基于标签单核苷酸多态性单倍型和单倍域的构建及其在关联研究中的应用", 《中华医学遗传学杂志》 *
高永俊等: "生长停滞特异性基因产物6的2个单核苷酸多态性与缺血性脑卒中的相关性", 《中华老年心脑血管病杂志》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115762633A (zh) * 2022-11-23 2023-03-07 哈尔滨工业大学 一种基于三代测序的基因组结构变异基因型校正方法
CN115762633B (zh) * 2022-11-23 2024-01-23 哈尔滨工业大学 一种基于三代测序的基因组结构变异基因型校正方法

Also Published As

Publication number Publication date
CN116168763A (zh) 2023-05-26
CN115148289B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
Sun et al. Chromosome-scale and haplotype-resolved genome assembly of a tetraploid potato cultivar
Argout et al. The cacao Criollo genome v2. 0: an improved version of the genome for genetic and functional genomic studies
CN108350498B (zh) 分型方法和装置
M. Salih et al. Complete chloroplast genomes from apomictic Taraxacum (Asteraceae): identity and variation between three microspecies
CN115148289B (zh) 同源四倍体基因组分型组装的方法和装置、构建染色体的装置
CN112820354B (zh) 一种双倍体组装的方法、装置和存储介质
CN111816248A (zh) 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法
Ilut et al. Genomic diversity and phylogenetic relationships in the genus Parthenium (Asteraceae)
Moritz The origin and evolution of parthenogenesis in the Heteronotia binoei complex: synthesis
CN112614541A (zh) 基因编辑位点的自动筛选方法、系统、装置及存储介质
Hendriks et al. Global phylogeny of the Brassicaceae provides important insights into gene discordance
Stelzer et al. Comparative analysis reveals within-population genome size variation in a rotifer is driven by large genomic elements with highly abundant satellite DNA repeat elements
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
Ge et al. Genome-wide selection and introgression of Chinese rice varieties during breeding
CN112786109A (zh) 一种基因组完成图的基因组组装方法
Liu et al. Molecular karyotyping on Populus simonii× P. nigra and the derived doubled haploid
CN115691673A (zh) 一种端粒到端粒的基因组组装方法
CN115992261A (zh) 一种构建牡蛎单倍型基因组的方法
Stephan Effects of genetic recombination and population subdivision on nucleotide sequence variation in Drosophila ananassae
Schaefer et al. Corrigendum and follow-up: Whole genome sequencing of multiple CRISPR-edited mouse lines suggests no excess mutations
CN103942466A (zh) 一种基于遗传背景的鱼类亲本选择系统及方法
CN114530200A (zh) 基于计算snp熵值的混合样本鉴定方法
CN112349347A (zh) 一种草莓功能基因连锁ssr标记的开发方法
Kimmel et al. Modeling neutral evolution of Alu elements using a branching process
CN113517027A (zh) 基于隐私保护并实现全基因组关联分析的联盟学习系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant