CN112289382B - 多倍体基因组同源染色体的拆分方法、装置及其应用 - Google Patents

多倍体基因组同源染色体的拆分方法、装置及其应用 Download PDF

Info

Publication number
CN112289382B
CN112289382B CN202011174363.9A CN202011174363A CN112289382B CN 112289382 B CN112289382 B CN 112289382B CN 202011174363 A CN202011174363 A CN 202011174363A CN 112289382 B CN112289382 B CN 112289382B
Authority
CN
China
Prior art keywords
contigs
interaction strength
similarity
clustering
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011174363.9A
Other languages
English (en)
Other versions
CN112289382A (zh
Inventor
李本萍
王璐
王迪
周勋
陶琳娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Novogene Biological Information Technology Co ltd
Original Assignee
Tianjin Novogene Biological Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Novogene Biological Information Technology Co ltd filed Critical Tianjin Novogene Biological Information Technology Co ltd
Priority to CN202011174363.9A priority Critical patent/CN112289382B/zh
Publication of CN112289382A publication Critical patent/CN112289382A/zh
Application granted granted Critical
Publication of CN112289382B publication Critical patent/CN112289382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种多倍体基因组同源染色体的拆分方法、装置及其应用。其中拆分方法包括:根据HiC数据与多倍体基因组序列比对得到的比对文件,计算基因组重叠群间的互作强度和重叠群内的互作强度;根据各重叠群内的互作强度对连接错误的重叠群进行打断;利用打断后的重叠群进行相互比对,得到重叠群间的相似度;根据重叠群间的互作强度和重叠群间的相似度对所有重叠群进行聚类,实现对多倍体基因组同源染色体的拆分。先通过利用重叠群内的互作强度识别错误连接的重叠群,并在错误的地方进行打断。再通过识别重叠群间的相似性,利用重叠群间的互作强度和相似度高低进行聚类,从而能够有效的将同源染色体进行拆分。

Description

多倍体基因组同源染色体的拆分方法、装置及其应用
技术领域
本发明涉及多倍体基因组序列组装领域,具体而言,涉及一种多倍体基因组同源染色体的拆分方法、装置及其应用。
背景技术
物种基因组在经过组装软件进行初步组装后,得到contig或者scaffold版本的基因组,可认为是基因组染色体的片段化的序列,为了得到更高连续性的基因组序列,需要使用多种方法进行scaffold连接,如10X Genomic、Bionano、HiC等技术,其中HiC技术可以将contig或scaffold版本的染色体连接到染色体水平,得到高质量的基因组序列。
HiC技术一般包括甲醛固定、限制酶切及建库测序等步骤,整个过程没有特异性引物存在,因而通过将HiC数据和基因组进行比对,可以获得物种基因组的all-to-all(即全基因组范围)的互作关系。在基因组组装过程中,可利用HiC技术产生的互作关系来进行染色体挂载,最终将基因组版本组装到染色体水平,增加了基因组的连续性和准确性。
利用HiC技术进行染色体挂载的主要原理是:首先将得到的HiC数据与基因组进行比对,得到基因组contig之间的互作强度。染色体内随着距离增加互作强度降低,染色体内的互作强度强于染色体间的互作强度,根据这个关系来对基因组的contig进行聚类,最后根据染色体内的互作强度对每个类中的contig进行排序和定向,得到最终的染色体版本的基因组序列。
现在使用的主要软件包括LACHESIS,Salsa等,主要针对于二倍体物种的染色体挂载,由于二倍体物种组装后一般是得到单倍体序列的基因组,因此传统软件进行的染色体挂载较好。
多倍体物种在植物和动物中比较常见,多倍体物种基因组由于同源染色体间的相似性,在使用HiC数据进行染色体挂载过程中,常规的二倍体挂载软件会导致出现染色体间相互嵌合的情况,无法将同源染色体进行拆分。针对这一问题,目前尚无有效的解决方案。
发明内容
本发明的主要目的在于提供一种多倍体基因组同源染色体的拆分方法、装置及其应用,以解决现有技术中的难以将同源染色体正确拆分的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种多倍体基因组同源染色体的拆分方法,该拆分方法包括:根据HiC数据与多倍体基因组序列比对得到的比对文件,计算基因组contig间的互作强度和contig内的互作强度;根据各contig内的互作强度判断相应contig连接的准确性,并对连接错误的contig进行打断;利用打断错误连接后的所有contig进行相互比对,得到contig间的相似度;根据contig间的互作强度和contig间的相似度对所有contig进行聚类,从而实现对多倍体基因组同源染色体的拆分。
进一步地,根据各contig内的互作强度判断相应contig连接的准确性,并对连接错误的contig进行打断包括:根据比对结果文件计算各contig内每个位点的平均互作强度;根据平均互作强度与每个位点的位点互作强度之间的差异,判断各contig内每个位点之间的连接准确性,并在位点互作强度与平均互作强度存在统计学上的显著差异的情况下,将contig内的两个位点之间的连接判断为连接错误,并将contig从两个位点之间进行打断。
进一步地,根据contig间的互作强度和contig间的相似度对所有contig进行聚类包括:按照如下原则对所有contig进行聚类:(1)染色体内的互作强度高于染色体间的互作强度;(2)距离近的互作强度高于距离远的互作强度;(3)降低相似度高于相似阈值的contig之间的互作强度。
进一步地,利用打断错误连接的contig后的所有contig进行非同源染色体水平的聚类,得到多个类群;对每个类群中的contig两两之间进行相似度对比,并将相似度比对结果中高于预定相似阈值的contig对的互作强度降低,得到调整后的contig间的互作强度;利用调整后的contig间的互作强度,对每个类群中的contig进行同源染色体水平的聚类,从而实现对多倍体基因组同源染色体的拆分。
根据本发明的第二个方面,提供了一种多倍体基因组序列的组装方法,该组装方法包括:采用上述任一种的拆分方法对多倍体基因组中的同源染色体进行拆分,从而将多个contig拆分到不同的同源染色体;对每个同源染色体中的contig进行排序和定向,得到染色体水平的多倍体基因组序列。
根据本发明的第三个方面,提供了一种多倍体基因组同源染色体的拆分装置,该拆分装置包括:互作强度计算模块,用于根据HiC数据与多倍体基因组序列比对得到的比对文件,计算基因组contig间和contig内的互作强度;判断打断模块,用于根据各contig内的互作强度判断相应contig连接的准确性,并对连接错误的contig进行打断;相似度比对模块,用于利用打断错误连接后的基因组内的所有contig进行相互比对,得到contig间的相似度;聚类模块,用于根据contig间的互作强度和contig间的相似度对所有contig进行聚类,从而实现对多倍体基因组同源染色体的拆分。
进一步地,判断打断模块包括:平均互作强度计算模块,用于根据比对结果文件计算各contig内每个位点的平均互作强度;判断打断子模块,用于根据平均互作强度与各位点的位点互作强度的差异,判断各contig内每个位点之间的连接准确性,在位点互作强度与平均互作强度存在统计学上的显著差异的情况下,将contig内的两个位点之间的连接判断为连接错误,并将contig从两个位点之间进行打断。
进一步地,聚类模块的聚类原则包括:(1)染色体内的互作强度高于染色体间的互作强度;(2)距离近的互作强度高于距离远的互作强度;(3)降低相似度高于相似阈值的contig之间的互作强度。
进一步地,聚类模块包括非同源染色体聚类模块和同源染色体聚类模块,相似度比对模块包括相似度比对及互作强度调整模块:非同源染色体聚类模块,用于根据利用打断错误连接的contig后的所有contig进行非同源染色体水平的聚类,得到多个类群;相似度比对及互作强度调整模块,用于根据对每个类群中的contig两两之间进行相似度对比,并将相似度比对结果中高于预定相似阈值的contig对的互作强度降低,得到调整后的contig间的互作强度;同源染色体聚类模块,用于利用调整后的contig间的互作强度,对每个类群中的contig进行同源染色体水平的聚类,从而实现对多倍体基因组同源染色体的拆分。
根据本发明的第四个方面,提供了一种多倍体基因组序列的组装装置,该组装装置包括:上述任一种拆分装置,用于对多倍体基因组中的同源染色体进行拆分,从而将多个contig拆分到不同的同源染色体;排序定向模块,用于对每个同源染色体中的contig进行排序和定向,得到染色体水平的多倍体基因组序列。
根据本发明的第五个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种的多倍体基因组同源染色体的拆分方法,或者多倍体基因组序列的组装方法。
根据本发明的第六个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种的多倍体基因组同源染色体的拆分方法,或者多倍体基因组序列的组装方法。
应用本发明的技术方案,通过利用contig内的互作强度识别错误连接的contig,并在错误的地方进行打断。并且通过识别contig间的相似性,利用contig间的互作强度和相似度高低进行聚类,从而能够有效的将同源染色体进行拆分。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例3的多倍体基因组序列的组装方法的详细流程示意图;
图2示出了根据本发明的实施例4的多倍体基因组序列组装过程中对错误连接的contig打断之后的结果图;
图3示出了根据本发明的实施例5的多倍体基因组序列组装过程中对同源染色体进行拆分的结果热图;
图4示出了根据本发明的实施例6的多倍体基因组同源染色体的拆分装置示意图;
图5示出了根据本发明的实施例7的多倍体基因组序列的组装装置示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
术语解释:
Read:高通量测序平台产生的短序列即为reads。
Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为contig(重叠群),无N。
Scaffold:基因组de novo测序,通过reads拼接获得contigs后,根据确定的一些contig之间的顺序关系而组装成的片段称为Scaffold(含N)。
本申请中的多倍体基因组序列,不仅指contig水平的基因组序列,也包括Scaffold水平的基因组序列。同样地,本申请说明书附图中图示中的contig列表,是沿用了ALLHIC中提到的allelic contig table的表述,但并不表明只针对contig水平的基因组序列,也可以针对Scaffold水平的基因组序列。本申请中的多倍体基因组序列组装,主要是指基于二代测序平台测序产生的HIC数据进行组装到染色体水平。
如背景技术所提到的,多倍体基因组组装完成后,根据HiC数据进行同源染色体间的拆分挂载时存在难以正确拆分的问题,发明人针对这一问题,进行了原因分析并尝试了各种解决办法。
对于多倍体基因组来说,多倍体基因组组装完成后,需要根据HiC数据进行同源染色体间的拆分挂载。由于多倍体中同源染色体间的相似性,会导致HiC数据无法准确对contig或scaffold进行定向,无法通过现有软件根据HiC数据进行多倍体基因组染色体的拆分挂载。另一方面,由于多倍体基因组的相似性,导致在初步组装过程中或者连接scaffold过程中会出现较多的嵌合contig,这些错误连接的contig也会导致后续的挂载错误。目前没有合适的软件来纠正这种错误。
发明人曾尝试利用现有的ALLHIC软件来改进,ALLHIC软件是根据contig版的多倍体基因组与近缘二倍体物种的比对结果,挑选出位于同源染色体上contig,通过降低它们之间的互作强度,来减少对挂载的影响。但由于ALLHIC软件需要有目标基因组的二倍体近源物种,并需要两个基因组都有注释文件,因而增加了分析难度和周期。另外,发明人经过测试发现:1)ALLHIC软件里的聚类过程无法正确将同源染色体进行分离;2)ALLHIC也无法解决contig内部错误组装的问题。
在上述发现的基础上,发明人提出的新的改进思路:根据HiC数据计算contig之间和contig内的互作强度,根据contig内的互作判断contig连接的准确性,对于明显连接错误的contig,进行打断。通过contig之间的强度来比对计算contig之间的相似性。最后根据contig之间的相似性和互作强度来进行聚类,从而达到同源染色体拆分的目的。经验证,该方法可以根据HiC数据对错误连接的contig进行打断,不需要二倍体近源物种和注释文件,聚类过程可以有效的将同源染色体进行分离。在上述研究结果基础上,申请人提出了本申请的技术方案。
实施例1
在本申请一种典型的实施方式中,提供了一种多倍体基因组同源染色体的拆分方法。该方法包括:根据HiC数据与多倍体基因组序列比对得到的比对文件,计算基因组contig间和contig内的互作强度;根据各contig内的互作强度判断相应contig连接的准确性,并对连接错误的contig进行打断;利用打断错误连接后的基因组内的所有contig进行相互比对,得到contig间的相似性;根据contig间的互作强度和contig间的相似度对所有contig进行聚类,从而实现对多倍体基因组同源染色体的拆分。
该方法,通过contig内的互作强度识别错误连接的contig,并在错误的地方进行打断,从而能够将初始组装错误的contig进行纠正,提高了后续对同源染色体拆分的准确率。进一步通过识别contig间的相似性和利用contig间的互作强度,从而能够有效的将同源染色体进行拆分。
上述方法中,contig内的互作强度可以根据比对的bam文件得到。对于所有连接错误的contig都进行打断。将HiC数据与多倍体基因组序列进行比对时,可以利用HiCup软件对HiC数据和多倍体基因组进行比对,得到比对文件。根据比对结果,计算得到contig间和contig内的互作强度。
根据contig内的HiC互作强度对基因组进行打断,纠正错误连接的contig的步骤,在优选实施例中,按如下操作进行:根据比对结果(如bam文件)计算各contig内每个位点的平均互作强度;根据平均互作强度与每个位点的位点互作强度之间的差异,判断各contig内每个位点之间的连接准确性,并在位点互作强度与平均互作强度存在统计学上的显著差异的情况下,将contig内的两个位点之间的连接判断为连接错误,将contig从两个位点之间进行打断。
上述位点互作强度与平均互作强度存在统计学上的显著差异的具体差异阈值可以根据用户实际需要合理设定,默认情况下,当位点互作强度小于平均互作强度的1/5时,则在此位点打断。此处的1/5用户可自己合理调整。
对基因组内的所有contig进行相互比对,得到contig之间的相似度的步骤中,优选采用minimap2进行比对。
根据contig间的互作强度和相似度来对contig进行聚类的步骤包括:按照染色体内互作强度高于染色体间的互作强度,距离近的互作强度高于距离远的互作强度,降低相似度高(比如高于40%)的contig之间的互作强度(比如降低为1,根据bam文件,会得到每条contig与其他contig对应的互作强度,之后形成一个contig之间的互作强度矩阵,如果两条contig的相似度高于40%,则在该矩阵中,对应的互作强度降为1)的原则来进行聚类。按照上述原则进行聚类后即可实现同源染色体的拆分。
此处的相似度高的相似阈值可以是一个范围,可由用户设定。相似度的定义如下最佳比对百分比,即:对于contig A来说,如果存在一条contig B与其有两处比对,区间分别为:200-500和300-700,则,最佳比对长度为700-200=500bp(即如果比对区间有重叠,则进行合并),最佳比对百分比为:500/(contig A的长度)。通常,优选将该值设置为40%,但用户可以根据自己需求来修改。
在一种更优选的实施例中,上述“利用打断错误连接后的基因组内的所有contig进行相互比对,得到contig间的相似度;以及根据contig间的互作强度和contig间的相似度对所有contig进行聚类,从而实现对所述多倍体基因组同源染色体的拆分”的详细步骤包括:
利用打断错误连接的contig后的所有contig(即所有contig间的互作强度)进行非同源染色体水平的聚类,得到包含多个类群(此处的类群,一组同源染色体归为一个类群,非同源染色体有几组,就有几个类群)的聚类结果(比如,共24条染色体的三倍体的物种中,每一组同源染色体含有3条染色体,此处的聚类则是指分成8个类群,每个类群含有3条同源染色体);
对每个类群中的所有contig两两之间进行相似度对比(基于序列同源性高低),并将相似度比对结果中高于预定相似阈值(比如前述的高于40%)的contig对的互作强度降低(如前述,比如降低为1),得到调整后的contig间的互作强度;
利用调整后的contig间的互作强度,对每个类群中的所有contig进行再次聚类(即同源染色体水平的聚类),从而实现对多倍体基因组同源染色体的拆分。
该方法,首先根据contig内的互作强度,对错误连接的contig进行打断,从而利用了打断后的contig进行了聚类分析,但由于多倍体(本申请中的多倍体可以是三倍体及以上)中,每条染色体都存在多条同源染色体,此时的聚类并未明确区分同源染色体,因而进一步根据同源染色体之间的相似度,对contig之间的互作强度进行了调整,从而使得同源染色体能够进行准确拆分。
实施例2
上述方法提供了一种对contig水平的基因组中同源染色体进行拆分的方式,从而使得多倍体的基因组组装可以达到染色体水平。因而,在本申请第二种典型的实施方式中,还提供了一种多倍体基因组序列的组装方法,该组装方法利用上述同源染色体的拆分方法,将contig水平的基因组中属于同源染色体的contig进行聚类,从而拆分成分属不同类(此处的不同类是指不同的同源染色体)的contig;然后对每个类(即每条同源染色体)中的contig进行排序和定向,从而获得染色体水平的多倍体基因组序列。
该方法不仅不需要目标多倍体基因组的二倍体近源物种及其基因组注释文件,而且通过识别contig内部错误组装,并将其打断,并利用所有contig之间的相似度及互作强度两方面的性能对同源染色体进行聚类,从而实现了多倍体在无二倍体近源物种的情况下对同源染色体进行拆分的目的,进而对聚类后的各类中的contig按照传统方法进行排序和定向,实现染色体水平的基因组序列组装。
具体地,对每个类进行排序定向可以采用现有方法进行,比如利用ALLHIC软件里的排序定向程序。
实施例3
本实施例提供了一种详细的多倍体基因组序列的组装方法,上述具体流程如图1(圆角矩形代表输入/输出,直角矩形代表处理操作):
(1)利用HICUP软件对HIC数据与多倍体基因组进行比对,得到比对文件all.bam(根据比对文件可以计算得到contig内的互作强度和contig间的互作强度)。
(2)根据比对文件all.bam,计算contig内的HIC互作强度,对多倍体基因组比文件中明显属于连接错误的contig打断(对基因组进行打断,纠正错误连接的contig),得到contig打断后的基因组和对应的bam文件。
(3)结合步骤(2)得到的文件,对contig进行非同源染色体水平的聚类(聚类模块借鉴ALLHIC中partition模块),类群的个数为单套染色体中包含的染色体数目(比如:有一个6倍体,单套染色体中,染色体条数为9,则此处会聚成9类)。
(4)根据上述聚类结果,得到每个类群中基因组序列和对应的bam比对文件;之后在每个类群中,采用minimap2软件对各类群内的所有contig进行相互比对,得到contig对两两之间的相似度(相似度比对借鉴purge_haplotigs软件,比对部分采用其中的minimap2,根据序列的identity来确定相似度)。
(5)结合步骤(4)的结果,对于相似度高(比如高于40%)的contig对,认为是属于同源染色体上对应的contig,从而降低其互作强度(本实施例中降低为1),然后再根据调整后的contig间的互作强度,来对每个类群中的contig进行聚类,从而达到拆分同源染色体的目的(本流程中消除了同源contig对聚类产生的干扰)。
(6)利用ALLHIC软件里的排序定向程序对每个类群进行排序定向。
(7)得到最终的染色体水平的基因组序列。
实施例4
由于多倍体基因组的特殊性,在组装过程中较易产生错误连接的嵌合的contig,利用实施例3所示流程中的打断方法对某三倍体植物的错误连接的contig进行打断,结果如图2所示。
从图2中可以看出错误连接的contig被拆分开,根据距离近的互作强度高于距离远的互作强度,contig内的互作强度会呈现一种平滑的分布,假如出现突然的断层,则表明此处的连接是错误连接。图2中对角线上虚线相交的位置出现了明显的断层,这也是模块判断出来的应该打断的位置。
实施例5
利用图1所示流程,对一种菊花进行同源染色体的拆分,结果如图3所示。图示为三条同源染色体(三个方框分别各对应一条染色体,将两条染色体分别横竖画线,相交的地方即为染色体间的互作。此实施例中染色体间有互作,说明是同源染色体),可以看出三条染色体能够较好的分离(一般HIC挂载染色体的质量和多倍体拆分的质量好坏是通过HIC热图来体现。图中颜色深的部分为互作,一般染色体的互作强度比较均匀的说明拆分效果较好)。
从以上实施例的描述可以看出,通过对多倍体植物进行测试,能够有效打断基因组中明显连错的contig,多倍体的拆分结果可通过HiC热图进行判断,发现对多倍体的拆分效果较好,与之前软件相比大大提升拆分效果。
从以上的描述中,可以看出,本发明上述的实施例通过以下改进点:(1)根据HiC数据对基因组错误的contig进行打断,纠正错误连接。(2)根据contig间的相似度和互作强度对同源染色体进行拆分;使得本申请的方案相比现有方案具有以下优势:
(1)无需近源二倍体物种,增加了软件的可实施性。(2)无需首先进行基因组注释,节省大量时间和资源。(3)根据HiC数据对基因组进行打断纠正,增加基因组的准确性。(4)聚类过程能够有效将同源染色体进行拆分。
此外,本申请的对同源染色体的拆分方法,也可适用于以下场景:
1)二倍体基因组组装结果接近两套大小(比如大小在1.5套以上,此大小不做明确限制,整体来说,越接近2套,拆分效果越好),利用此流程可以挂载出2套染色体(如某二倍体单套染色体是9,基因组大小是500M,则当组装结果接近1G大小时,此流程可以挂载出18条染色体),后续可结合其他数据进行单体型拆分;
2)针对高杂合物种,如杂合率在1%以上,当组装结果远大于预估基因组大小(比如大小在1.5套以上)时,可以利用此流程挂载出2套染色体,之后去除冗余的部分。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得计算设备执行本发明各个实施例所述的方法,或者是使得处理器来执行本发明各个实施例所述的方法。
实施例6
本实施例提供了一种多倍体基因组同源染色体的拆分装置,如图4所示,该拆分装置包括:
互作强度对比模块10,用于根据HiC数据与多倍体基因组序列比对得到的比对文件,计算基因组contig间和contig内的互作强度;
判断打断模块20,用于根据各contig内的互作强度判断相应contig连接的准确性,并对连接错误的contig进行打断;
相似度比对模块30,用于利用打断错误连接后的基因组内的所有contig进行相互比对,得到contig间的相似度;
聚类模块40,用于根据contig间的互作强度和contig间的相似度对所有contig进行聚类,从而实现对多倍体基因组同源染色体的拆分。
优选地,判断打断模块20包括:平均互作强度计算模块,用于根据比对结果文件计算各contig内每个位点的平均互作强度;判断打断子模块,用于根据平均互作强度与位点互作强度之间的差异,判断各contig内每个位点之间的连接准确性,在平均互作强度与位点互作强度之间存在统计学上的显著差异的情况下,将contig内的两个位点之间的连接判断为连接错误,将contig从两个位点之间进行打断。
优选地,聚类模块40的聚类原则包括:染色体内的互作强度大于染色体间的互作强度;距离近的互作强度高于距离远的互作强度;降低相似度高于相似阈值(优选相似阈值为40%)的contig间的互作强度(优选降低为1)。
优选地,聚类模块40包括非同源染色体聚类模块和同源染色体聚类模块,相似度比对模块包括相似度比对及互作强度调整模块:其中,
非同源染色体聚类模块,用于根据利用打断错误连接的contig后的所有contig进行非同源染色体水平的聚类,得到多个类群;
相似度比对及互作强度调整模块,用于根据对每个类群中的contig两两之间进行相似度对比,并将相似度比对结果中高于预定相似阈值的contig对的互作强度降低,得到调整后的contig间的互作强度;
同源染色体聚类模块,用于利用调整后的contig间的互作强度,对每个类群中的contig进行同源染色体水平的聚类,从而实现对多倍体基因组同源染色体的拆分。
实施例7
本实施例提供了一种多倍体基因组序列的组装装置,如图5所示,该组装装置包括:
上述任一种拆分装置,用于对多倍体基因组中的同源染色体进行拆分,从而将多个contig拆分到不同的同源染色体;
排序定向模块50,用于对每个同源染色体中的contig进行排序和定向,得到染色体水平的多倍体基因组序列。
优选地,排序定向模块为ALLHIC模块。
实施例8
本实施例提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种多倍体基因组同源染色体的拆分方法或任一种多倍体基因组的组装方法。
此外,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种多倍体基因组同源染色体的拆分方法或任一种多倍体基因组的组装方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本申请的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多倍体基因组同源染色体的拆分方法,其特征在于,所述拆分方法包括:
根据HiC数据与多倍体基因组序列比对得到的比对文件,计算基因组contig间的互作强度和contig内的互作强度;
根据各所述contig内的互作强度判断相应所述contig连接的准确性,并对连接错误的contig进行打断;
利用打断错误连接后的所有contig进行相互比对,得到contig间的相似度;
根据所述contig间的互作强度和所述contig间的相似度对所有contig进行聚类,从而实现对所述多倍体基因组同源染色体的拆分;
其中,所述聚类包括:利用所述打断错误连接后的contig的所有contig进行非同源染色体水平的聚类,得到多个类群;
对每个所述类群中的contig两两之间进行相似度对比,并将所述相似度比对结果中高于预定相似阈值的contig对的互作强度降低,得到调整后的contig间的互作强度;
利用所述调整后的contig间的互作强度,对每个所述类群中的contig进行同源染色体水平的聚类,从而实现对所述多倍体基因组同源染色体的拆分。
2.根据权利要求1所述的拆分方法,其特征在于,根据各所述contig内的互作强度判断相应所述contig连接的准确性,并对连接错误的contig进行打断包括:
根据比对结果文件计算各所述contig内每个位点的平均互作强度;
根据所述平均互作强度与每个位点的位点互作强度之间的差异,判断各所述contig内每个位点之间的连接准确性,并在所述位点互作强度与所述平均互作强度存在统计学上的显著差异的情况下,将所述contig内的两个位点之间的连接判断为连接错误,并将所述contig从所述两个位点之间进行打断。
3.根据权利要求1所述的拆分方法,其特征在于,根据所述contig间的互作强度和所述contig间的相似度对所有contig进行聚类包括:
按照如下原则对所有contig进行聚类:(1)染色体内的互作强度高于染色体间的互作强度;(2)距离近的互作强度高于距离远的互作强度;(3)降低相似度高于相似阈值的contig之间的互作强度。
4.一种多倍体基因组序列的组装方法,其特征在于,所述组装方法包括:
采用权利要求1至3中任一项所述的拆分方法对多倍体基因组中的同源染色体进行拆分,从而将多个contig拆分到不同的同源染色体;
对每个所述同源染色体中的contig进行排序和定向,得到染色体水平的多倍体基因组序列。
5.一种多倍体基因组同源染色体的拆分装置,其特征在于,所述拆分装置包括:
互作强度计算模块,用于根据HiC数据与多倍体基因组序列比对得到的比对文件,计算基因组contig间和contig内的互作强度;
判断打断模块,用于根据各所述contig内的互作强度判断相应所述contig连接的准确性,并对连接错误的contig进行打断;
相似度比对模块,用于利用打断错误连接后的基因组内的所有contig进行相互比对,得到contig间的相似度;
聚类模块,用于根据所述contig间的互作强度和所述contig间的相似度对所有contig进行聚类,从而实现对所述多倍体基因组同源染色体的拆分;
其中,所述聚类模块包括非同源染色体聚类模块和同源染色体聚类模块,所述相似度比对模块包括相似度比对及互作强度调整模块:
所述非同源染色体聚类模块,用于根据利用打断错误连接后的contig的所有contig进行非同源染色体水平的聚类,得到多个类群;
所述相似度比对及互作强度调整模块,用于根据对每个所述类群中的contig两两之间进行相似度对比,并将所述相似度比对结果中高于预定相似阈值的contig对的互作强度降低,得到调整后的contig间的互作强度;
所述同源染色体聚类模块,用于利用所述调整后的contig间的互作强度,对每个所述类群中的contig进行同源染色体水平的聚类,从而实现对所述多倍体基因组同源染色体的拆分。
6.根据权利要求5所述的拆分装置,其特征在于,所述判断打断模块包括:
平均互作强度计算模块,用于根据比对结果文件计算各所述contig内每个位点的平均互作强度;
判断打断子模块,用于根据所述平均互作强度与各位点的位点互作强度的差异,判断各所述contig内每个位点之间的连接准确性,在所述位点互作强度与所述平均互作强度存在统计学上的显著差异的情况下,将所述contig内的两个位点之间的连接判断为连接错误,并将所述contig从所述两个位点之间进行打断。
7.根据权利要求6所述的拆分装置,其特征在于,聚类模块的聚类原则包括:(1)染色体内的互作强度高于染色体间的互作强度;(2)距离近的互作强度高于距离远的互作强度;(3)降低相似度高于相似阈值的contig之间的互作强度。
8.一种多倍体基因组序列的组装装置,其特征在于,所述组装装置包括:
权利要求5至7中任一项所述的拆分装置,用于对多倍体基因组中的同源染色体进行拆分,从而将多个contig拆分到不同的同源染色体;
排序定向模块,用于对每个所述同源染色体中的contig进行排序和定向,得到染色体水平的多倍体基因组序列。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至3中任一项所述的多倍体基因组同源染色体的拆分方法,或者权利要求4所述的多倍体基因组序列的组装方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任一项所述的多倍体基因组同源染色体的拆分方法,或者权利要求4所述的多倍体基因组序列的组装方法。
CN202011174363.9A 2020-10-28 2020-10-28 多倍体基因组同源染色体的拆分方法、装置及其应用 Active CN112289382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011174363.9A CN112289382B (zh) 2020-10-28 2020-10-28 多倍体基因组同源染色体的拆分方法、装置及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011174363.9A CN112289382B (zh) 2020-10-28 2020-10-28 多倍体基因组同源染色体的拆分方法、装置及其应用

Publications (2)

Publication Number Publication Date
CN112289382A CN112289382A (zh) 2021-01-29
CN112289382B true CN112289382B (zh) 2023-02-24

Family

ID=74372881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011174363.9A Active CN112289382B (zh) 2020-10-28 2020-10-28 多倍体基因组同源染色体的拆分方法、装置及其应用

Country Status (1)

Country Link
CN (1) CN112289382B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908415B (zh) * 2021-02-23 2022-05-17 广西壮族自治区农业科学院 一种获得染色体水平基因组的方法
CN113782101A (zh) * 2021-11-12 2021-12-10 北京诺禾致源科技股份有限公司 高杂合二倍体序列组装结果去冗余的方法、装置及其应用
CN114464260B (zh) * 2021-12-29 2023-09-26 上海诺禾致源医学检验实验室有限公司 染色体水平基因组的组装方法和组装装置
CN114464261B (zh) * 2022-04-12 2022-07-01 天津诺禾致源生物信息科技有限公司 组装延长性染色体的方法及装置
CN114566212B (zh) * 2022-04-29 2022-09-16 天津诺禾致源生物信息科技有限公司 大于10G的基因组Hi-C挂载的方法和装置
CN114841294B (zh) * 2022-07-04 2022-10-28 杭州德适生物科技有限公司 一种检测染色体结构异常的分类器模型训练方法及装置
CN115101124B (zh) * 2022-08-24 2022-11-22 天津诺禾致源生物信息科技有限公司 全基因组等位基因鉴定方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120283108A1 (en) * 2011-05-03 2012-11-08 Sampas Nicholas M Method for phased genotyping of a diploid genome
CN107475394A (zh) * 2017-08-31 2017-12-15 中国农业科学院农业基因组研究所 一种基于少量细胞全基因组染色质高分辨率构象技术eHi‑C2.0
US20180060480A1 (en) * 2016-09-01 2018-03-01 Seven Bridges Genomics Inc. Systems and methods for detecting recombination
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN110020726A (zh) * 2019-03-04 2019-07-16 武汉未来组生物科技有限公司 一种对组装序列排序的方法及系统
CN111364105A (zh) * 2020-04-30 2020-07-03 华中农业大学 一种简便有效的植物长片段in situ DLO Hi-C测序文库的构建方法
CN111445948A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 一种利用Hi-C进行多倍体鱼类的染色体构建方法
CN111584004A (zh) * 2020-05-12 2020-08-25 西藏自治区农牧科学院水产科学研究所 一种基于三维组学数据的西藏特色鱼类基因组组装方法
CN111816248A (zh) * 2020-05-22 2020-10-23 武汉菲沙基因信息有限公司 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120283108A1 (en) * 2011-05-03 2012-11-08 Sampas Nicholas M Method for phased genotyping of a diploid genome
US20180060480A1 (en) * 2016-09-01 2018-03-01 Seven Bridges Genomics Inc. Systems and methods for detecting recombination
CN107475394A (zh) * 2017-08-31 2017-12-15 中国农业科学院农业基因组研究所 一种基于少量细胞全基因组染色质高分辨率构象技术eHi‑C2.0
CN109326323A (zh) * 2018-09-13 2019-02-12 北京百迈客生物科技有限公司 一种基因组的组装方法及装置
CN110020726A (zh) * 2019-03-04 2019-07-16 武汉未来组生物科技有限公司 一种对组装序列排序的方法及系统
CN111445948A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 一种利用Hi-C进行多倍体鱼类的染色体构建方法
CN111364105A (zh) * 2020-04-30 2020-07-03 华中农业大学 一种简便有效的植物长片段in situ DLO Hi-C测序文库的构建方法
CN111584004A (zh) * 2020-05-12 2020-08-25 西藏自治区农牧科学院水产科学研究所 一种基于三维组学数据的西藏特色鱼类基因组组装方法
CN111816248A (zh) * 2020-05-22 2020-10-23 武汉菲沙基因信息有限公司 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Reconstruction of the chromatin 3D conformation from single cell Hi-C data;P. I. Kos, A. A. Galitsyna, S. V. Ulianov, M. S. Gelfand等;《2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20181231;论文第2476-2476页 *
三维基因组染色质构象捕获及其衍生技术;田昊,杨梓健,徐兴文,刘良玉;《生物工程学报》;20201025;论文第2040-2050页 *

Also Published As

Publication number Publication date
CN112289382A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112289382B (zh) 多倍体基因组同源染色体的拆分方法、装置及其应用
US10796000B2 (en) Blockchain system with nucleobase sequencing as proof of work
Lischer et al. Reference-guided de novo assembly approach improves genome reconstruction for related species
Bukowski et al. Construction of the third-generation Zea mays haplotype map
Song et al. Rcorrector: efficient and accurate error correction for Illumina RNA-seq reads
CN107784200B (zh) 一种筛选新型CRISPR-Cas系统的方法和装置
CN108280325B (zh) 高通量测序数据的处理方法、处理装置、存储介质及处理器
CN113808668B (zh) 提升基因组组装完整性的方法、装置及其应用
Mallick et al. The difficulty of avoiding false positives in genome scans for natural selection
Paape et al. Patterns of polymorphism and selection in the subgenomes of the allopolyploid Arabidopsis kamchatica
Oikkonen et al. Making the most of RNA-seq: Pre-processing sequencing data with Opossum for reliable SNP variant detection
Kryvokhyzha et al. Parental legacy, demography, and admixture influenced the evolution of the two subgenomes of the tetraploid Capsella bursa-pastoris (Brassicaceae)
CN108629156B (zh) 三代测序数据纠错的方法、装置和计算机可读存储介质
Schiavinato et al. Subgenome evolution in allotetraploid plants
CN104036187A (zh) 计算机病毒类型确定方法及其系统
CN115101124B (zh) 全基因组等位基因鉴定方法及装置
CN113782101A (zh) 高杂合二倍体序列组装结果去冗余的方法、装置及其应用
Parra‐Salazar et al. Robust and efficient software for reference‐free genomic diversity analysis of genotyping‐by‐sequencing data on diploid and polyploid species
Guirao‐Rico et al. Benchmarking the performance of Pool‐seq SNP callers using simulated and real sequencing data
Bruna et al. GeneMark-ETP: automatic gene finding in eukaryotic genomes in consistency with extrinsic data
Shukla et al. hg19KIndel: ethnicity normalized human reference genome
Michno et al. The importance of genotype identity, genetic heterogeneity, and bioinformatic handling for properly assessing genomic variation in transgenic plants
CN112634991B (zh) 基因分型方法、装置、电子设备及存储介质
CN114657175A (zh) 一种基于三代测序的病毒基因组组装方法
CN114422186A (zh) 一种攻击检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant