CN113782101A - 高杂合二倍体序列组装结果去冗余的方法、装置及其应用 - Google Patents
高杂合二倍体序列组装结果去冗余的方法、装置及其应用 Download PDFInfo
- Publication number
- CN113782101A CN113782101A CN202111336702.3A CN202111336702A CN113782101A CN 113782101 A CN113782101 A CN 113782101A CN 202111336702 A CN202111336702 A CN 202111336702A CN 113782101 A CN113782101 A CN 113782101A
- Authority
- CN
- China
- Prior art keywords
- contigs
- genome
- sequence
- contig
- version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种高杂合二倍体序列组装结果去冗余的方法、装置及其应用。该方法包括:根据HiC数据与高杂合二倍体序列组装结果比对得到包含多重比对在内的所有比对信息的比对文件;计算contig内的HIC互作强度,进而对高杂合二倍体序列组装结果中连接错误的contig进行打断;利用打断后的连接正确的基因组、其对应的比对文件及contig间的互作强度对contig进行聚类,得到多个类群;对每个类群中的contig序列进行排序定向,得到染色体版本的基因组;保留染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。解决了难以去除冗余序列的问题。
Description
技术领域
本发明涉及基因组序列组装领域,具体而言,涉及一种高杂合二倍体序列组装结果去冗余的方法、装置及其应用。
背景技术
目前,基因组组装主要是基于PacBio单分子实时测序(single molecule realtime,SMRT,包括CLR和HIFI数据),或/和ONT(Oxford Nanopore Technologies)测序,或/和NGS测序(Next-generation sequencing technology)等将基因组组装到contig水平,之后使用多种技术进行scaffold连接,如10X Genomic、Bionano等,最后利用基因组图谱或者HIC数据等挂载到染色体水平。
但是在组装的过程中,也会存在一定的问题,尤其是对于高杂合物种(高杂合是指杂合度高于0.5%,其中,杂合度是从数学的角度,采用k-mer分析,通过计算序列中杂合位点的比例得到),现有的算法很容易使得组装结果远远大于基因组预估结果,这就导致在后续的生物学分析时,基因数目会偏多,进而在进行基因家族鉴定的时候,基因数目就没意义了。因此必需要采取一定的手段去除冗余序列。
目前常用的方法主要是将二代或者三代测序reads比对到参考基因组上,通过分析比对read的覆盖度(覆盖度的涵义如下:基因组序列中,某一个碱基位点共测了N条reads,即该位点能被N条reads覆盖,则该位点的覆盖度就是N)决定去除哪些序列,或者是对于一条contig包含另一条contig的情况,将长度短的contig去除,比如目前最常用的去杂合软件purge_haplotigs和purge_dups。
HiC技术一般包括甲醛固定、限制酶切及建库测序等步骤,通过将HiC数据和基因组进行比对,可以获得物种基因组的all-to-all(即全基因组范围)的互作关系。根据染色体内互作强度高于染色体间的互作强度,物理距离近的互作强度高于物理距离远的互作强度的原则,可以将contig分别聚类到各个染色体里面,因此也就可以将父本和母本的contig分别归属于不同的染色体里面了。
目前的方法可以去除部分冗余序列,但是一般也会存在以下问题:1)杂合去除不干净,在做基因组评估的时候,BUSCO D值明显偏高(其中BUSCO评估结果包括:C(即S+D,表示完整的基因),S(表示完整且单拷贝的基因),D(表示完整且多拷贝的基因组),F(表示部分被组装出来的基因),M(表示完全没有被组装出来的基因)。通常情况下,C值越大越好,但是对于一个正常的二倍体基因组来说,如果D值比较高,可能意味着组装错误的可能性较大,通常表示基因组中杂合没有去除干净,从而导致了基因出现了多拷贝);2)去杂合后剩余的序列中,会存在分别来自父本和母本的序列,即在最后的单条染色体内部,会存在contig间的嵌合;3)当初步组装时,一条contig内存在分别来自父本和母本的序列,比如序列的组成形式是:母-父-母,则目前的技术也很难将其拆分开来。
因此,仍需要对现有的去除冗余序列的方案进行改进,以进一步提高组装结果的准确性。
发明内容
本发明的主要目的在于提供一种高杂合二倍体序列组装结果去冗余的方法、装置及其应用,以解决现有技术中的难以将高杂合二倍体基因组组装结果中冗余序列去除的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种高杂合二倍体序列组装结果去冗余的方法,该方法包括:根据HiC数据与高杂合二倍体序列组装结果比对得到比对文件,比对文件包含多重比对在内的所有比对信息;根据比对文件计算contig内的HIC互作强度,根据contig内的HIC互作强度,对高杂合二倍体序列组装结果中连接错误的contig进行打断,得到打断后连接正确的基因组序列;利用打断后的连接正确的基因组和连接正确的基因组对应的比对文件,根据contig间的互作强度来对contig进行聚类,得到多个类群;对每个类群中的contig序列进行排序定向,得到染色体版本的基因组;保留染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。
进一步地,连接错误的contig包括:1)来源于同一亲本但连接错误的contig;和/或者2)父母本嵌合的contig;和/或者3)来自于非同源染色体,由于重复而被错误的连接在一起的contig。
进一步地,对每个类群中的contig序列进行排序定向,得到染色体版本的基因组包括:采用ALLHIC软件对每个类群中的contig序列进行排序定向,得到V1版本的基因组;采用juicerbox软件进一步调整V1版本的基因组中contig的顺序和方向,得到染色体版本的基因组。
进一步地,采用HICUP或Hic-Pro软件将HiC数据与高杂合二倍体序列组装结果比对得到比对文件。
根据本申请的第二个方面,提供了一种高杂合二倍体序列组装结果去冗余的装置,该装置包括:比对模块,用于根据HiC数据与高杂合二倍体序列组装结果比对得到比对文件,比对文件包含多重比对在内的所有比对信息;错误打断模块,用于根据比对文件计算contig内的HIC互作强度,根据contig内的HIC互作强度,对高杂合二倍体序列组装结果中连接错误的contig进行打断,得到打断后连接正确的基因组序列;聚类模块,用于利用打断后的连接正确的基因组和连接正确的基因组对应的比对文件,根据contig间的互作强度来对contig进行聚类,得到多个类群;调整模块,用于对每个类群中的contig序列进行排序定向,得到染色体版本的基因组;去冗余模块,用于保留染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。
进一步地,连接错误的contig包括:1)来源于同一亲本但连接错误的contig;和/或者2)父母本嵌合的contig;和/或者3)来自于非同源染色体,由于重复而被错误的连接在一起的contig。
进一步地,调整模块包括:第一调整单元,用于采用ALLHIC软件对每个类群中的contig序列进行排序定向,得到V1版本的基因组;第二调整单元,用于采用juicerbox软件进一步调整V1版本的基因组中contig的顺序和方向,得到染色体版本的基因组。
进一步地,比对模块为HICUP模块或Hic-Pro模块。
根据本发明的第三个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种高杂合二倍体组装结果去冗余的方法。
根据本发明的第四个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种高杂合二倍体组装结果去冗余的方法。
应用本发明的技术方案,通过在比对时保留多重比对在内的所有比对信息,以有效保留contig间的互作信息,方便后续染色体挂载时,将来自于父本(或母本)的contig聚类到一条染色体上,从而提高聚类及互作信息的准确性。此外,利用contig内的互作强度识别错误连接的contig,并在错误的地方进行打断,从而能够将初始组装错误的contig进行纠正,提高了后续对亲本一方来源的染色体聚类的准确率,进而便于准确去除同源染色体中的一条,从而获得冗余序列去除率高的组装序列。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例2中去除高杂合二本体序列组装结果中冗余序列的方法的详细流程示意图;
图2示出了根据本发明的一具体实施例中打断错误连接的contig的打断位置的示意图;
图3示出了根据本发明的实施例4中去除高杂合二本体序列组装结果中冗余序列的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
术语解释:
Reads:高通量测序平台产生的短序列,或者PacBio单分子实时测序(singlemolecule real time,SMRT,包括CLR和HIFI数据),ONT(Oxford Nanopore Technologies)测序产生的长序列,即为reads。
Contig:拼接软件基于reads之间的overlap区,拼接获得的序列称为contig(重叠群),无N。
Scaffold:基因组 de novo测序,通过reads拼接获得contigs后,根据确定的一些contig之间的顺序关系而组装成的片段称为Scaffold(含N)。
本申请中对高杂合二倍体组装结果去除冗余序列,是指对高杂合二倍体基因组初步组装得到的contig水平或Scaffold水平的基因组序列。本申请中对冗余序列的去除,主要是指基于二代测序平台测序产生的HIC数据进行冗余序列的去除。
如背景技术所提到的,高杂合二倍体基因组组装完成后,根据现有的二代或者三代数据进行冗余序列去除时存在难以将冗余序列去除干净,或者在同一contig内存在父本和母本嵌合的序列,或单条染色体内部存在来源于父本和母本嵌合contig的问题,针对这一问题,发明人进行了原因分析并尝试了各种解决办法。
最终,发明人提出的新的改进思路主要包括:1)不先去杂合,再挂载染色体,而是从整体着手,先挂载染色体,然后去除杂合的一套,这样可以有效避免一条染色体内同时存在来自父母本的contig;2)在将Hic数据与欲去冗余的基因组进行reads比对的时候,不对比对文件进行MAPQ(mapping的质量值)的过滤,这样可以有效保留contig间的互作信息,方便后续染色体挂载时,将来自于父本(或母本)的contig聚类到一条染色体里面(即提高聚类及互作信息的准确性)。进一步地,根据上述改进思路提出了本申请的改进方案。
实施例1
在本申请一种典型的实施方式中,提供了一种高杂合二倍体序列组装结果去冗余的方法,该方法包括:
S101,根据HiC数据与高杂合二倍体序列组装结果比对得到比对文件,比对文件包含多重比对在内的所有比对信息;
S102,根据比对文件计算contig内的HIC互作强度,根据contig内的HIC互作强度,对高杂合二倍体序列组装结果中连接错误的contig进行打断,得到打断后连接正确的基因组序列;
S103,利用打断后的连接正确的基因组和连接正确的基因组对应的比对文件,根据contig间的互作强度来对contig进行聚类,得到多个类群;
S104,对每个类群中的contig序列进行排序定向,得到染色体版本的基因组;
S105,保留染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。
本申请的去冗余的方法,在比对时保留多重比对在内的所有比对信息,以有效保留contig间的互作信息,方便后续染色体挂载时,将来自于父本(或母本)的contig聚类到一条染色体上,从而提高聚类及互作信息的准确性。此外,利用contig内的互作强度识别错误连接的contig,并在错误的地方进行打断,从而能够将初始组装错误的contig进行纠正,提高了后续对亲本一方来源的染色体聚类的准确率,进而便于准确去除同源染色体中的一条,从而获得冗余序列去除率高的组装序列。
上述连接错误的contig包括:1)来源于同一亲本但连接错误的contig;和/或者2)父母本嵌合的contig;和/或者3)来源于非同源染色体,由于重复而被错误的连接在一起的contig。
具体地,区分上述三种情况的方法示例如下:此处主要可以结合3D-DNA软件中,juicebox_tools产生的可视化.hic文件来判断:例如图2中在箭头位置处打断,除了打断点外,分为了contig1和contig2:
1)如果contig1和contig2分别和同一条染色体内其他位置处的contig有较强互作,则属于来源于同一亲本但连接错误的contig;
2) 如果contig1和contig2和2条染色体里的contig分别有互作,且这2条染色体是同源染色体,则该contig属于父母本嵌合的contig;
3 )如果contig1和contig2和2条染色体里的contig分别有互作,但是这两条染色体来自于非同源染色体,则属于来自于非同源染色体,由于重复序列而错误连接的contig。
上述方法中,contig内的互作强度可以根据比对的bam文件得到。对于所有连接错误的contig都进行打断。将HiC数据与高杂合的待去冗余的初始二倍体组装基因组序列进行比对时,可以利用HICUP或Hic-Pro软件对HiC数据和高杂合二倍体序列组装结果进行比对,得到比对文件。根据比对结果,计算得到contig间和contig内的互作强度。 另外,通过先组装出完整的染色体基因组后,再去除其中一个同源染色体,从而获得去除冗余序列的单体型的染色体基因组序列。
根据contig内的HiC互作强度对基因组进行打断,纠正错误连接的contig的步骤,在优选实施例中,按如下操作进行:根据比对结果(如bam文件)计算各contig内每个位点的平均互作强度;根据平均互作强度与每个位点的位点互作强度之间的差异,判断各contig内每个位点之间的连接准确性,并在位点互作强度与平均互作强度存在统计学上的显著差异的情况下,将contig内的两个位点之间的连接判断为连接错误,将contig从两个位点之间进行打断。
上述位点互作强度与平均互作强度存在统计学上的显著差异的具体差异阈值可以根据用户实际需要合理设定,默认情况下,当位点互作强度小于平均互作强度的1/5时,则在此位点打断。此处的1/5用户可自己合理调整。
利用打断错误连接的contig后的所有contig(即所有contig间的互作强度)进行染色体水平的聚类,得到包含多个类群的聚类结果(比如某物种单套染色体条数是10,则需要挂载出20条染色体)。
上述步骤S103中,利用打断后的连接正确的基因组和连接正确的基因组对应的比对文件,根据contig间的互作强度来对contig进行聚类,得到多个类群,其具体操作步骤示例如下:
1)利用ALLHIC extract模块获得Hi-C link的大小分布;
2)利用ALLHIC partition模块进行聚类,注意,如果该二倍体单套含有N条染色体,则此处的染色体条数设置为2N。
在一种优选的实施例中,对每个类群中的contig序列进行排序定向,得到染色体版本的基因组包括:采用ALLHIC软件对每个类群中的contig序列进行排序定向,得到V1版本的基因组;采用juicerbox软件进一步调整V1版本的基因组中contig的顺序和方向,得到染色体版本的基因组。
ALLHIC软件可以根据基因组序列和比对文件,计算contig之间的HIC link关系,之后依据相关模块进行聚类、排序及定向等。Juicerbox软件是一个可视化的hic调整工具,输入文件是基于3D-DNA软件中,juicebox_tools产生的可视化.hic文件,该文件的产生需要依赖于ALLHIC以及其他软件的处理结果。
上述将HiC数据与高杂合二倍体序列组装结果比对的步骤中,采用现有的比对软件进行比对即可,本申请中将包括但不限于采用HICUP或Hic-Pro软件进行上述比对,需要说明的是,比对时,不进行任何MAPQ(mapping的质量值)的过滤,不过滤多重比对,以保留尽可能多的互作信息。
实施例2
本实施例提供了一种详细的对高杂合二倍体序列组装结果进行去冗余的方法,上述具体流程如图1(圆角矩形代表输入/输出,直角矩形代表处理操作):
(1)利用HICUP或HiC-Pro软件对HIC数据与待去冗余的基因组进行比对,得到比对文件align.bam,比对结果中保留所有比对信息,即不对比对文件进行MAPQ(mapping的质量值)的过滤,不过滤多重比对(根据该比对文件有助于提高计算得到的contig内的互作强度和contig间的互作强度的准确性,以及后续聚类的准确性)。
(2)根据比对文件align.bam,计算contig内的HIC互作强度。根据contig内的HIC互作强度信息,对基因组错误连接的或者父母本嵌合的contig进行打断,获得打断后的连接正确的基因组序列;
(3)利用打断后的基因组和打断后基因组对应的bam比对文件,根据contig间的互作强度来对contig进行聚类;
(4)在每个类群中,利用ALLHIC软件里的排序定向程序对contig序列进行排序定向,得到初步的染色体版本基因组;
(5)利用juicerbox软件进一步调整contig的顺序和方向,得到更准确的染色体序列;
(6)对于每一对同源染色体,都去除其中一条(比如去除较短的一条染色体),结合未挂载的contig序列,形成最终的去除冗余序列的基因组。
实施例3
由于高杂合二倍体基因组的高杂合特点,摒弃单纯的先去杂合的思路,先挂载染色体,然后再去除杂合的一套,以避免在组装过程中可能产生的错误连接的嵌合的contig,或者在同一contig内部出现父母本嵌合的序列,利用实施例2所示流程中的去冗余方法对某柑橘属物种(杂合度大于1.5%)的组装结果进行去冗余,结果见下表。
表1:
从上表可以看出,通过对高杂合二倍体植物进行测试,本申请的去冗余方法能够有效打断基因组中明显连错的contig,经上述步骤处理后,最终保留的基因组中,使得BUSCO D值从去冗余前的93.2%,下降到去冗余后的1.4%,即下降到了2%以下。可见,该去冗余方法能够有效去除冗余序列,使组装结果更准确,进而有助于提高后续生物学分析的准确性。
从以上的描述中,可以看出,本申请上述的实施例具有以下改进点:(1)基于HIC数据来去冗余序列;(2)不是先去冗余,再挂载染色体,而是从整体着手,先挂载染色体,然后去除冗余的一套,这样可以有效避免一条染色体内同时存在来自父母本的contig;(3)在进行reads比对的时候,不对比对文件进行MAPQ(mapping的质量值)的过滤,这样可以有效保留contig间的互作信息,方便后续染色体挂载时,将来自于父本(或母本)的contig聚类到一条染色体里面。
本申请的实施例相比现有技术,具有以下优点:(1)根据HIC数据将组装错误的contig进行打断,可以进一步提升组装的准确性;(2)使最终获得的基因组中,每条染色体内部的contig尽可能多的保证全部来自于父本(或母本),有效避免contig间的嵌合;(3)能够有效降低最终基因组BUSCO评估的D值。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得计算设备执行本发明各个实施例所述的方法,或者是使得处理器来执行本发明各个实施例所述的方法。
实施例4
本实施例提供了一种高杂合二倍体序列组装结果去冗余的装置,如图3所示,该装置包括:
比对模块10,用于根据HiC数据与高杂合二倍体序列组装结果比对得到比对文件,比对文件包含多重比对在内的所有比对信息;
错误打断模块20,用于根据比对文件计算contig内的HIC互作强度,根据contig内的HIC互作强度,对高杂合二倍体序列组装结果中连接错误的contig进行打断,得到打断后连接正确的基因组序列;
聚类模块30,用于利用打断后的连接正确的基因组和连接正确的基因组对应的比对文件,根据contig间的互作强度来对contig进行聚类,得到多个类群;
调整模块40,用于对每个类群中的contig序列进行排序定向,得到染色体版本的基因组;
去冗余模块50,用于保留染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。
可选地,连接错误的contig包括:1)来源于同一亲本但连接错误的contig;和/或者2)父母本嵌合的contig;和/或者3) 来自于非同源染色体,由于重复而被错误的连接在一起的contig。
可选地,调整模块包括:第一调整单元,用于采用ALLHIC软件对每个类群中的contig序列进行排序定向,得到V1版本的基因组;第二调整单元,用于采用juicerbox软件进一步调整V1版本的基因组中contig的顺序和方向,得到染色体版本的基因组。
可选地,比对模块为HICUP模块或Hic-Pro模块。
实施例5
本实施例提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种高杂合二倍体序列组装结果去冗余的方法。
此外,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种高杂合二倍体序列组装结果去冗余的方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本申请的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种高杂合二倍体序列组装结果去冗余的方法,其特征在于,所述方法包括:
根据HiC数据与高杂合二倍体序列组装结果比对得到比对文件,所述比对文件包含多重比对在内的所有比对信息;
根据所述比对文件计算contig内的HIC互作强度,根据所述contig内的HIC互作强度,对所述高杂合二倍体序列组装结果中连接错误的contig进行打断,得到打断后连接正确的基因组序列;
利用所述打断后的连接正确的基因组和所述连接正确的基因组对应的比对文件,根据contig间的互作强度来对contig进行聚类,得到多个类群;
对每个所述类群中的contig序列进行排序定向,得到染色体版本的基因组;
保留所述染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。
2.根据权利要求1所述的方法,其特征在于,所述连接错误的contig包括如下任意一种或多种:1)来源于同一亲本但连接错误的contig;2)父母本嵌合的contig;3)来自于非同源染色体,由于重复而被错误的连接在一起的contig。
3.根据权利要求1所述的方法,其特征在于,对每个所述类群中的contig序列进行排序定向,得到染色体版本的基因组包括:
采用ALLHIC软件对每个所述类群中的contig序列进行排序定向,得到V1版本的基因组;
采用juicerbox软件进一步调整所述V1版本的基因组中contig的顺序和方向,得到所述染色体版本的基因组。
4.根据权利要求1所述的方法,其特征在于,采用HICUP或Hic-Pro软件将HiC数据与高杂合二倍体序列组装结果比对得到所述比对文件。
5.一种高杂合二倍体序列组装结果去冗余的装置,其特征在于,所述装置包括:
比对模块,用于根据HiC数据与高杂合二倍体序列组装结果比对得到比对文件,所述比对文件包含多重比对在内的所有比对信息;
错误打断模块,用于根据所述比对文件计算contig内的HIC互作强度,根据所述contig内的HIC互作强度,对所述高杂合二倍体序列组装结果中连接错误的contig进行打断,得到打断后连接正确的基因组序列;
聚类模块,用于利用所述打断后的连接正确的基因组和所述连接正确的基因组对应的比对文件,根据contig间的互作强度来对contig进行聚类,得到多个类群;
调整模块,用于对每个所述类群中的contig序列进行排序定向,得到染色体版本的基因组;
去冗余模块,用于保留所述染色体版本的基因组中同源染色体的一条,并结合未挂载的contig序列,形成最终的去除冗余序列的基因组。
6.根据权利要求5所述的装置,其特征在于,所述连接错误的contig包括如下任一种或多种:1)来源于同一亲本但连接错误的contig;2)父母本嵌合的contig;3)来自于非同源染色体,由于重复而被错误的连接在一起的contig。
7.根据权利要求5所述的装置,其特征在于,所述调整模块包括:
第一调整单元,用于采用ALLHIC软件对每个所述类群中的contig序列进行排序定向,得到V1版本的基因组;
第二调整单元,用于采用juicerbox软件进一步调整所述V1版本的基因组中contig的顺序和方向,得到所述染色体版本的基因组。
8.根据权利要求5所述的装置,其特征在于,所述比对模块为HICUP模块或Hic-Pro模块。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任一项所述的高杂合二倍体序列组装结果去冗余的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任一项所述的高杂合二倍体序列组装结果去冗余的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336702.3A CN113782101A (zh) | 2021-11-12 | 2021-11-12 | 高杂合二倍体序列组装结果去冗余的方法、装置及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336702.3A CN113782101A (zh) | 2021-11-12 | 2021-11-12 | 高杂合二倍体序列组装结果去冗余的方法、装置及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113782101A true CN113782101A (zh) | 2021-12-10 |
Family
ID=78956974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111336702.3A Pending CN113782101A (zh) | 2021-11-12 | 2021-11-12 | 高杂合二倍体序列组装结果去冗余的方法、装置及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782101A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114566212A (zh) * | 2022-04-29 | 2022-05-31 | 天津诺禾致源生物信息科技有限公司 | 大于10G的基因组Hi-C挂载的方法和装置 |
CN115579061A (zh) * | 2022-12-07 | 2023-01-06 | 北京诺禾致源科技股份有限公司 | 基因组hic分析的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239602A1 (en) * | 2013-09-27 | 2016-08-18 | University Of Washington | Methods and systems for large scale scaffolding of genome assemblies |
CN110020726A (zh) * | 2019-03-04 | 2019-07-16 | 武汉未来组生物科技有限公司 | 一种对组装序列排序的方法及系统 |
CN112289382A (zh) * | 2020-10-28 | 2021-01-29 | 天津诺禾致源生物信息科技有限公司 | 多倍体基因组同源染色体的拆分方法、装置及其应用 |
CN112908415A (zh) * | 2021-02-23 | 2021-06-04 | 广西壮族自治区农业科学院 | 一种获得更准确的染色体水平基因组的方法 |
CN113496760A (zh) * | 2020-04-01 | 2021-10-12 | 深圳华大基因科技服务有限公司 | 基于第三代测序的多倍体基因组组装方法和装置 |
-
2021
- 2021-11-12 CN CN202111336702.3A patent/CN113782101A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239602A1 (en) * | 2013-09-27 | 2016-08-18 | University Of Washington | Methods and systems for large scale scaffolding of genome assemblies |
CN110020726A (zh) * | 2019-03-04 | 2019-07-16 | 武汉未来组生物科技有限公司 | 一种对组装序列排序的方法及系统 |
CN113496760A (zh) * | 2020-04-01 | 2021-10-12 | 深圳华大基因科技服务有限公司 | 基于第三代测序的多倍体基因组组装方法和装置 |
CN112289382A (zh) * | 2020-10-28 | 2021-01-29 | 天津诺禾致源生物信息科技有限公司 | 多倍体基因组同源染色体的拆分方法、装置及其应用 |
CN112908415A (zh) * | 2021-02-23 | 2021-06-04 | 广西壮族自治区农业科学院 | 一种获得更准确的染色体水平基因组的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114566212A (zh) * | 2022-04-29 | 2022-05-31 | 天津诺禾致源生物信息科技有限公司 | 大于10G的基因组Hi-C挂载的方法和装置 |
CN114566212B (zh) * | 2022-04-29 | 2022-09-16 | 天津诺禾致源生物信息科技有限公司 | 大于10G的基因组Hi-C挂载的方法和装置 |
CN115579061A (zh) * | 2022-12-07 | 2023-01-06 | 北京诺禾致源科技股份有限公司 | 基因组hic分析的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tardaguila et al. | SQANTI: extensive characterization of long-read transcript sequences for quality control in full-length transcriptome identification and quantification | |
Tello et al. | NGSEP3: accurate variant calling across species and sequencing protocols | |
Minoche et al. | Evaluation of genomic high-throughput sequencing data generated on Illumina HiSeq and genome analyzer systems | |
Ewing et al. | Base-calling of automated sequencer traces using phred. II. Error probabilities | |
Dohm et al. | SHARCGS, a fast and highly accurate short-read assembly algorithm for de novo genomic sequencing | |
CN112289382B (zh) | 多倍体基因组同源染色体的拆分方法、装置及其应用 | |
CN113782101A (zh) | 高杂合二倍体序列组装结果去冗余的方法、装置及其应用 | |
Mallick et al. | The difficulty of avoiding false positives in genome scans for natural selection | |
CN113808668B (zh) | 提升基因组组装完整性的方法、装置及其应用 | |
US10726942B2 (en) | Long fragment de novo assembly using short reads | |
Kryvokhyzha et al. | Parental legacy, demography, and admixture influenced the evolution of the two subgenomes of the tetraploid Capsella bursa-pastoris (Brassicaceae) | |
CN108121897B (zh) | 一种基因组变异检测方法及检测装置 | |
WO2012034251A2 (zh) | 一种基因组结构性变异检测方法和系统 | |
CN111718982A (zh) | 一种肿瘤组织单样本体细胞突变检测方法及装置 | |
CA3005791A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
Eldem et al. | Transcriptome analysis for non-model organism: Current status and best-practices | |
Seixas et al. | Synteny-based genome assembly for 16 species of Heliconius butterflies, and an assessment of structural variation across the genus | |
Kobayashi et al. | Heap: A highly sensitive and accurate SNP detection tool for low-coverage high-throughput sequencing data | |
CN115101124A (zh) | 全基因组等位基因鉴定方法及装置 | |
Parra‐Salazar et al. | Robust and efficient software for reference‐free genomic diversity analysis of genotyping‐by‐sequencing data on diploid and polyploid species | |
Michno et al. | The importance of genotype identity, genetic heterogeneity, and bioinformatic handling for properly assessing genomic variation in transgenic plants | |
CN113409890B (zh) | 一种基于二代测序数据的hla分型方法 | |
Quinones-Valdez et al. | scAllele: A versatile tool for the detection and analysis of variants in scRNA-seq | |
Sezerman et al. | Bioinformatics workflows for genomic variant discovery, interpretation and prioritization | |
Lammers et al. | Phylogenetic conflict in bears identified by automated discovery of transposable element insertions in low-coverage genomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211210 |
|
RJ01 | Rejection of invention patent application after publication |