CN115273984B - 鉴定基因组串联重复区域的方法及装置 - Google Patents

鉴定基因组串联重复区域的方法及装置 Download PDF

Info

Publication number
CN115273984B
CN115273984B CN202211205346.6A CN202211205346A CN115273984B CN 115273984 B CN115273984 B CN 115273984B CN 202211205346 A CN202211205346 A CN 202211205346A CN 115273984 B CN115273984 B CN 115273984B
Authority
CN
China
Prior art keywords
tandem repeat
chromosome
filtered
sequence
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211205346.6A
Other languages
English (en)
Other versions
CN115273984A (zh
Inventor
赵勇
周勋
刘志静
王龙
李萍
周智伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Novogene Technology Co ltd
Original Assignee
Beijing Novogene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Novogene Technology Co ltd filed Critical Beijing Novogene Technology Co ltd
Priority to CN202211205346.6A priority Critical patent/CN115273984B/zh
Publication of CN115273984A publication Critical patent/CN115273984A/zh
Application granted granted Critical
Publication of CN115273984B publication Critical patent/CN115273984B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本发明公开了一种鉴定基因组串联重复区域的方法及装置。其中,该方法包括以下步骤:S1,统计基因组fasta文件每条染色体的长度;S2,使用软件对基因组的串联重复序列进行预测;S3,对预测的串联重复序列进行过滤;S4,结合S1中得到的染色体的长度,对滤后的过串联重复序列进行统计;S5,将每条染色体上的过滤后的串联重复序列单独提取出来;S6,对每条染色体的过滤后的串联重复序列进行聚类;S7,对潜在串联重复区域分布位置进行统计与过滤。应用本发明的技术方案,不需要已知着丝粒区域重复单元序列,即可实现染色体水平基因组着丝粒区域的鉴定。

Description

鉴定基因组串联重复区域的方法及装置
技术领域
本发明涉及基因组组装技术领域,具体而言,涉及一种鉴定基因组串联重复区域的方法及装置。
背景技术
随着三代测序技术的普及,基因组组装的精确度越来越高,Pacbio公司测序仪的ccs测序模式,下机数据N50在20k左右,单碱基准确度可以达到99%,称为hifi数据。hifi数据使用hifiasm软件进行组装,结果为重叠群(contig)水平基因组,组装的连续性相比二代数据组装具有显著提升。
Hi-C(High-through chromosome conformation capture)技术为高通量染色体构象捕获技术,利用染色体内部互做强度远大于染色体间互做强度的原理,对组织进行甲醛交联固定,特异性的限制酶对基因组进行酶切,然后经过加生物素标记和末端修复,再次进行酶连,打断,使用磁珠捕获带生物素标记的片段进行高通量测序,测序的数据结合contig或者scaffold水平的基因组使用3d-dna软件进行挂载,生成的hic文件和assembly文件,经过juicebox手动调整后,最终得到染色体水平基因组。
着丝粒是基本的染色体结构,可在细胞分裂过程中将姐妹染色单体结合在一起。
着丝粒区域的序列是短的串联重复序列,一般位于异染色质区内,通常着丝粒的串联重复序列单元长度为150-180 bp。着丝粒在所有生物中的功能是相同的,但是每种物种都表现出独特的特征,并且在结构、大小和复杂性方面可能存在种间差异。目前大部分物种对着丝粒序列研究较为欠缺,对重复序列的单元结构不清楚。
通过hifi数据进行基因组组装到contig水平,然后结合hic技术,可以将基因组挂载到染色体水平,由于hifi数据的高准确性,组装出的染色体基因组也会有着丝粒区域。目前鉴定着丝粒区域的方法主要为根据物种的着丝粒重复单元,去染色体内匹配寻找,鉴于大部分物种着丝粒区域内的重复单元还未确定,此方法存在很大的局限性。
发明内容
本发明旨在提供一种鉴定基因组串联重复区域的方法及装置,以解决现有技术中大部分物种着丝粒区域内因重复单元还未确定,无法鉴定基因组着丝粒区域的技术问题。
为了实现上述目的,根据本发明的一个方面,提供了一种鉴定基因组串联重复区域的方法。该方法包括以下步骤:S1,统计基因组fasta文件每条染色体的长度;S2,使用软件对基因组的串联重复序列进行预测,得到预测的串联重复序列;S3,对预测的串联重复序列进行过滤,保留预设长度及预设重复拷贝数的串联重复序列,得到过滤后的串联重复序列;S4,结合S1中得到的染色体的长度,对滤后的过串联重复序列进行统计,以N kb为窗口,统计得到每条染色体每个窗口内串联重复序列的数目,其中,N为50-200;S5,将每条染色体上的过滤后的串联重复序列单独提取出来;S6,对每条染色体的过滤后的串联重复序列进行聚类,得到聚类后的潜在串联重复区域分布位置;S7,对潜在串联重复区域分布位置进行统计与过滤,如果一个位点与当前聚类的中位数距离超过染色体长度的1/M,认为是错误组装或预测造成的,删除该位点,得到最终的串联重复区域位置,其中,M为5-15。
进一步地,串联重复区域为着丝粒区域或端粒区域。
进一步地,当串联重复区域为着丝粒区域时,S3中预设长度为大于100bp小于200bp,预设重复拷贝数为大于10。
进一步地,S2中,采用trf软件对基因组的串联重复序列进行预测;优选的,S3与S4之间还包括:将过滤后的串联重复序列转化为gff文件,得到过滤后的串联重复序列的gff文件;将过滤后的串联重复序列的gff文件转换为过滤后的串联重复序列的bed文件。
进一步地,S4中,使用bedtools软件,结合染色体长度,对滤后的串联重复序列的bed文件进行统计,以100kb为窗口统计得到每条染色体每个窗口内串联重复序列的数目;优选的,S6中,使用orthofinder软件,对每条染色体的过滤后的串联重复序列进行聚类;优选的,S7中,M=10;优选的,S7还包括将最终的串联重复区域位置转化为gff文件,使用R软件,结合染色体长度、每条染色体每个窗口内串联重复序列的数目,对最终的串联重复区域画图展示。
根据本发明的另一方面,提供了一种鉴定基因组串联重复区域的装置。该装置包括:长度统计单元,配置为用于统计基因组fasta文件每条染色体的长度;预测单元,配置为用于对基因组的串联重复序列进行预测,得到预测的串联重复序列;过滤单元,配置为用于对预测的串联重复序列进行过滤,保留预设长度及预设重复拷贝数的串联重复序列,得到过滤后的串联重复序列;数量统计单元,配置为用于结合长度统计单元中得到的染色体的长度,对滤后的过串联重复序列进行统计,以N kb为窗口,统计得到每条染色体每个窗口内串联重复序列的数目,其中,N为50-200;提取单元,配置为用于将每条染色体上的过滤后的串联重复序列单独提取出来;聚类单元,配置为用于对每条染色体的过滤后的串联重复序列进行聚类,得到聚类后的潜在串联重复区域分布位置;位置确定单元,配置为用于对潜在串联重复区域分布位置进行统计与过滤,如果一个位点与当前聚类的中位数距离超过染色体长度的1/M,认为是错误组装或预测造成的,删除该位点,得到最终的串联重复区域位置,其中,M为5-15。
进一步地,串联重复区域为着丝粒区域或端粒区域。
进一步地,当串联重复区域为着丝粒区域时,过滤单元中预设长度为大于100bp小于200bp,预设重复拷贝数为大于10。
进一步地,预测单元中,采用trf软件对基因组的串联重复序列进行预测;优选的,过滤单元与数量统计单元之间还设置有转换单元,转换单元配置为用于将过滤后的串联重复序列转化为gff文件,得到过滤后的串联重复序列的gff文件;将过滤后的串联重复序列的gff文件转换为过滤后的串联重复序列的bed文件。
进一步地,数量统计单元中,使用bedtools软件,结合染色体长度,对滤后的串联重复序列的bed文件进行统计,以100kb为窗口统计得到每条染色体每个窗口内串联重复序列的数目;优选的,聚类单元中,使用orthofinder软件,对每条染色体的过滤后的串联重复序列进行聚类;优选的,位置确定单元中,M=10;优选的,位置确定单元还配置为用于将最终的串联重复区域位置转化为gff文件,使用R软件,结合染色体长度、每条染色体每个窗口内串联重复序列的数目,对最终的串联重复区域画图展示。
根据本发明的再一方面,提供了一种计算机可读性存储介质。该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种鉴定基因组串联重复区域的方法。
根据本发明的又一方面,提供了一种处理器。该处理器用于运行程序,其中,程序运行时执行上述任一种鉴定基因组串联重复区域的方法。。
应用本发明的技术方案,不需要已知着丝粒区域重复单元序列,即可实现染色体水平基因组着丝粒区域的鉴定,本发明除了可以预测着丝粒区域,还可以通过调整预设串联重复序列的长度的过滤标准,用于对短序列的串联重复区域,如端粒进行鉴定。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明一实施例的鉴定着丝粒区域方法流程图;以及
图2示出了根据本发明一实施例的杜仲着丝粒分布画图展示结果。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
着丝粒区域位于异染色质区域,属于一种特化的串联重复DNA序列,动植物基因组测序组装到染色体水平后,一般都能组装出着丝粒区域,大部分物种因为组学研究较少,着丝粒区域序列是未知的,因此组装后染色体上的着丝粒区域也无法确定。针对此,本申请提出了下列技术方案。
本发明提供了一种不需要提供着丝粒区域序列,对基因组进行从头鉴定着丝粒区域的方法。
根据本发明一种典型的实施方式,提供一种鉴定基因组串联重复区域的方法。该方法包括以下步骤:S1,统计基因组fasta文件每条染色体的长度;S2,使用软件对基因组的串联重复序列进行预测,得到预测的串联重复序列;S3,对预测的串联重复序列进行过滤,保留预设长度及预设重复拷贝数的串联重复序列,得到过滤后的串联重复序列;S4,结合长度统计单元中得到的染色体的长度,对滤后的过串联重复序列进行统计,以N kb为窗口,统计得到每条染色体每个窗口内串联重复序列的数目,其中,N为50-200;S5,将每条染色体上的过滤后的串联重复序列单独提取出来;S6,对每条染色体的过滤后的串联重复序列进行聚类,得到聚类后的潜在串联重复区域分布位置;S7,对潜在串联重复区域分布位置进行统计与过滤,如果一个位点与当前聚类的中位数距离超过染色体长度的1/M,认为是错误组装或预测造成的,删除该位点,得到最终的串联重复区域位置,其中,M为5-15。
应用本发明的技术方案,不需要已知着丝粒区域重复单元序列,即可实现染色体水平基因组着丝粒区域的鉴定,本发明除了可以预测着丝粒区域,还可以通过调整预设串联重复序列的长度的过滤标准,用于对短序列的串联重复区域,如端粒进行鉴定。也就是说,在本发明中,串联重复区域可以为着丝粒区域或端粒区域,当然也可以是其他的串联重复区域。
当串联重复区域为着丝粒区域时,S3中预设长度为大于100bp小于200bp,预设重复拷贝数为大于10,如此设置参数可以高效准确的对着丝粒区域进行过滤。
在本发明一优选的实施例中,S2中,采用trf软件对基因组的串联重复序列进行预测;S3中可以使用脚本对预测的串联重复序列进行过滤;优选的,S3与S4之间还包括:使用脚本,将过滤后的串联重复序列转化为gff文件,得到过滤后的串联重复序列的gff文件;使用脚本,将过滤后的串联重复序列的gff文件转换为过滤后的串联重复序列的bed文件。S4中,使用bedtools软件,结合染色体长度,对滤后的串联重复序列的bed文件进行统计,以100kb为窗口统计得到每条染色体每个窗口内串联重复序列的数目; S6中,使用orthofinder软件,对每条染色体的过滤后的串联重复序列进行聚类; S7中,M=10。采用如此的软件配置可以高效准确的对数据进行处理。
为了更加直观的展示串联重复区域在染色体中的位置,S7还包括将最终的串联重复区域位置转化为gff文件,使用R软件,结合染色体长度、每条染色体每个窗口内串联重复序列的数目,对最终的串联重复区域画图展示。
根据本发明一种典型的实施方式,提供一种鉴定基因组串联重复区域的装置。该装置包括:长度统计单元,配置为用于统计基因组fasta文件每条染色体的长度;预测单元,配置为用于对基因组的串联重复序列进行预测,得到预测的串联重复序列;过滤单元,配置为用于对预测的串联重复序列进行过滤,保留预设长度及预设重复拷贝数的串联重复序列,得到过滤后的串联重复序列;数量统计单元,配置为用于结合S1中得到的染色体的长度,对滤后的过串联重复序列进行统计,以N kb为窗口,统计得到每条染色体每个窗口内串联重复序列的数目,其中,N为50-200;提取单元,配置为用于将每条染色体上的过滤后的串联重复序列单独提取出来;聚类单元,配置为用于对每条染色体的过滤后的串联重复序列进行聚类,得到聚类后的潜在串联重复区域分布位置;位置确定单元,配置为用于对潜在串联重复区域分布位置进行统计与过滤,如果一个位点与当前聚类的中位数距离超过染色体长度的1/M,认为是错误组装或预测造成的,删除该位点,得到最终的串联重复区域位置,其中,M为5-15。
应用本发明的技术方案,不需要已知着丝粒区域重复单元序列,即可实现染色体水平基因组着丝粒区域的鉴定,本发明除了可以预测着丝粒区域,还可以通过调整预设串联重复序列的长度的过滤标准,用于对短序列的串联重复区域,如端粒进行鉴定。也就是说,在本发明中,串联重复区域可以为着丝粒区域或端粒区域,当然也可以是其他的串联重复区域。
当串联重复区域为着丝粒区域时,S3中预设长度为大于100bp小于200bp,预设重复拷贝数为大于10,如此设置参数可以高效准确的对着丝粒区域进行过滤。
在本发明一优选的实施例中,预测单元中采用trf软件对基因组的串联重复序列进行预测;过滤单元中使用脚本对预测的串联重复序列进行过滤;优选的,过滤单元与数量统计单元之间还设置有转换单元,转换单元配置为用于使用脚本,将过滤后的串联重复序列转化为gff文件,得到过滤后的串联重复序列的gff文件;使用脚本,将过滤后的串联重复序列的gff文件转换为过滤后的串联重复序列的bed文件。数量统计单元中,使用bedtools软件,结合染色体长度,对滤后的串联重复序列的bed文件进行统计,以100kb为窗口统计得到每条染色体每个窗口内串联重复序列的数目;优选的,聚类单元中,使用orthofinder软件,对每条染色体的过滤后的串联重复序列进行聚类;位置确定单元中,M=10。采用如此的软件配置可以高效准确的对数据进行处理。
为了更加直观的展示串联重复区域在染色体中的位置,位置确定单元还配置为用于将最终的串联重复区域位置转化为gff文件,使用R软件,结合染色体长度、每条染色体每个窗口内串联重复序列的数目,对最终的串联重复区域画图展示。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
实施例1采用的植物为杜仲,杜仲的DNA使用SMRTbell Express Template PrepKit 2.0试剂盒进行建库,测序平台为PacBio sequel II的ccs模式,得到的hifi测序数据使用hifiasm进行组装,得到contig水平基因组,使用allhic结合hic数据进行聚类,使用juicebox调整后得到染色体水平的基因组。
参考图1,鉴定基因组着丝粒区域具体方法为:
1. 统计基因组fasta文件每条染色体的长度,得到每条染色体的长度。
2.使用trf(Tandem Repeats Finder)软件对基因组的串联重复序列进行预测,得到预测的串联重复序列。
3.使用trf_filter.pl脚本对预测的串联重复序列文件进行过滤,保留长度大于100bp,小于200bp,重复拷贝数大于10的串联重复序列,得到过滤后的串联重复序列。
4.使用repeat2gff.pl脚本,将过滤后的串联重复序列转化为gff文件,得到过滤后串联重复序列的gff文件。
5.使用trf2bed.pl脚本,将过滤后的串联重复序列的gff文件转换为过滤后串联重复序列的bed文件。
6.使用bedtools软件,结合染色体长度,对滤后串联重复序列的bed文件进行统计,以100kb为窗口,得到每条染色体每个窗口内串联重复序列的数目。
7.将每条染色体上的过滤后的串联重复序列单独提取出来,得到每条染色体的过滤后的串联重复序列。
8.使用orthofinder软件,对每条染色体的过滤后的串联重复序列进行聚类,得到聚类后的潜在着丝粒分布位置。
9.对潜在着丝粒分布位置进行统计与过滤,如果一个位点与当前聚类的中位数距离超过染色体长度的1/10,认为是错误组装或预测造成的,不保留该位点,得到最终的着丝粒位置,将着丝粒位置转化为gff文件。
10.使用R软件,结合染色体长度,每条染色体每个窗口内串联重复序列的数目,对最终的着丝粒画图展示,如图2所示。
得到的着丝粒结果如下表1:
Figure 563992DEST_PATH_IMAGE001
其中,chr代表染色体,start代表起始位点,end代表终止位点,len代表长度。
本实施例中的涉及的脚本,本领域技术人员能够在本发明的指引下通过常规的技术手段完成。
实施例2
本实施例提供了一种鉴定基因组串联重复区域的装置。该装置包括:长度统计单元,配置为用于统计基因组fasta文件每条染色体的长度;预测单元,配置为用于对基因组的串联重复序列进行预测,得到预测的串联重复序列;过滤单元,配置为用于对预测的串联重复序列进行过滤,保留预设长度及预设重复拷贝数的串联重复序列,得到过滤后的串联重复序列;数量统计单元,配置为用于结合长度统计单元中得到的染色体的长度,对滤后的过串联重复序列进行统计,以Nkb为窗口,统计得到每条染色体每个窗口内串联重复序列的数目,其中,N为50-200Kb;提取单元,配置为用于将每条染色体上的过滤后的串联重复序列单独提取出来;聚类单元,配置为用于对每条染色体的过滤后的串联重复序列进行聚类,得到聚类后的潜在串联重复区域分布位置;位置确定单元,配置为用于对潜在串联重复区域分布位置进行统计与过滤,如果一个位点与当前聚类的中位数距离超过染色体长度的1/M,认为是错误组装或预测造成的,删除该位点,得到最终的串联重复区域位置,其中,M为5-15。
当串联重复区域为着丝粒区域时,S3中预设长度为大于100bp小于200bp,预设重复拷贝数为大于10,如此设置参数可以高效准确的对着丝粒区域进行过滤。
在本发明一优选的实施例中,预测单元中采用trf软件对基因组的串联重复序列进行预测;过滤单元中使用trf_filter.pl脚本对预测的串联重复序列进行过滤;优选的,过滤单元与数量统计单元之间还设置有转换单元,转换单元配置为用于使用repeat2gff.pl脚本,将过滤后的串联重复序列转化为gff文件,得到过滤后的串联重复序列的gff文件;使用trf2bed.pl脚本,将过滤后的串联重复序列的gff文件转换为过滤后的串联重复序列的bed文件。数量统计单元中,使用bedtools软件,结合染色体长度,对滤后的串联重复序列的bed文件进行统计,以100kb为窗口统计得到每条染色体每个窗口内串联重复序列的数目;优选的,聚类单元中,使用orthofinder软件,对每条染色体的过滤后的串联重复序列进行聚类;位置确定单元中,M=10。采用如此的软件配置可以高效准确的对数据进行处理。
为了更加直观的展示串联重复区域在染色体中的位置,位置确定单元还配置为用于将最终的串联重复区域位置转化为gff文件,使用R软件,结合染色体长度、每条染色体每个窗口内串联重复序列的数目,对最终的串联重复区域画图展示。
实施例3
本实施例提供了一种计算机可读性存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任一种鉴定基因组串联重复区域的方法。
本实施例还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种鉴定基因组串联重复区域的方法。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
1)使用trf软件对所有串联重复序列进行预测,不需要提供着丝粒重复单元序列;
2)对所有串联重复序列根据着丝粒单元长度大小分别进行过滤,得到潜在的着丝粒位置;
3)使用orthofinder软件对潜在着丝粒位置进行聚类与过滤,得到最终着丝粒序列的位置。
对于任何染色体水平的基因组,本发明不需要提供物种的着丝粒单元序列即可对染色体进行着丝粒区域的预测,本发明适用的基因组范围更广。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种鉴定基因组串联重复区域的方法,其特征在于,包括以下步骤:
S1,统计基因组fasta文件每条染色体的长度;
S2,使用软件对基因组的串联重复序列进行预测,得到预测的串联重复序列;
S3,对预测的所述串联重复序列进行过滤,保留预设长度及预设重复拷贝数的串联重复序列,得到过滤后的串联重复序列;
S4,结合所述S1中得到的所述染色体的长度,对滤后的所述串联重复序列进行统计,以N kb为窗口,统计得到每条染色体每个窗口内所述串联重复序列的数目,其中,N为50-200;
S5,将每条染色体上的过滤后的所述串联重复序列单独提取出来;
S6,对每条染色体的过滤后的所述串联重复序列进行聚类,得到聚类后的潜在串联重复区域分布位置;
S7,对潜在串联重复区域分布位置进行统计与过滤,如果一个位点与当前聚类的中位数距离超过染色体长度的1/M,认为是错误组装或预测造成的,删除该位点,得到最终的串联重复区域位置,其中,M为5-15。
2.根据权利要求1所述的方法,其特征在于,所述串联重复区域为着丝粒区域或端粒区域。
3.根据权利要求2所述的方法,其特征在于,当所述串联重复区域为着丝粒区域时,所述S3中所述预设长度为大于100bp小于200bp,所述预设重复拷贝数为大于10。
4.根据权利要求1所述的方法,其特征在于,所述S2中,采用trf软件对基因组的串联重复序列进行预测。
5.根据权利要求4所述的方法,其特征在于,所述S3与S4之间还包括:将过滤后的所述串联重复序列转化为gff文件,得到过滤后的所述串联重复序列的gff文件;将过滤后的所述串联重复序列的gff文件转换为过滤后的所述串联重复序列的bed文件。
6.根据权利要求5所述的方法,其特征在于,所述S4中,使用bedtools软件,结合染色体长度,对滤后的所述串联重复序列的bed文件进行统计,以100kb为窗口统计得到每条染色体每个窗口内所述串联重复序列的数目。
7.根据权利要求6所述的方法,其特征在于,所述S6中,使用orthofinder软件,对每条染色体的过滤后的所述串联重复序列进行聚类。
8.根据权利要求1所述的方法,其特征在于,所述S7中,M=10。
9.根据权利要求1所述的方法,其特征在于,所述S7还包括将最终的串联重复区域位置转化为gff文件,使用R软件,结合染色体长度、每条染色体每个窗口内所述串联重复序列的数目,对最终的串联重复区域画图展示。
10.一种鉴定基因组串联重复区域的装置,其特征在于,包括:
长度统计单元,配置为用于统计基因组fasta文件每条染色体的长度;
预测单元,配置为用于对基因组的串联重复序列进行预测,得到预测的串联重复序列;
过滤单元,配置为用于对预测的所述串联重复序列进行过滤,保留预设长度及预设重复拷贝数的串联重复序列,得到过滤后的串联重复序列;
数量统计单元,配置为用于结合所述长度统计单元中得到的所述染色体的长度,对滤后的所述串联重复序列进行统计,以Nkb为窗口,统计得到每条染色体每个窗口内所述串联重复序列的数目,其中,N为50-200;提取单元,配置为用于将每条染色体上的过滤后的所述串联重复序列单独提取出来;
聚类单元,配置为用于对每条染色体的过滤后的所述串联重复序列进行聚类,得到聚类后的潜在串联重复区域分布位置;
位置确定单元,配置为用于对潜在串联重复区域分布位置进行统计与过滤,如果一个位点与当前聚类的中位数距离超过染色体长度的1/M,认为是错误组装或预测造成的,删除该位点,得到最终的串联重复区域位置,其中,M为5-15。
11.根据权利要求10所述的装置,其特征在于,所述串联重复区域为着丝粒区域或端粒区域。
12.根据权利要求11所述的装置,其特征在于,当所述串联重复区域为着丝粒区域时,所述过滤单元中所述预设长度为大于100bp小于200bp,所述预设重复拷贝数为大于10。
13.根据权利要求10所述的装置,其特征在于,所述预测单元中,采用trf软件对基因组的串联重复序列进行预测。
14.根据权利要求13所述的装置,其特征在于,所述过滤单元与所述数量统计单元之间还设置有转换单元,所述转换单元配置为用于将过滤后的所述串联重复序列转化为gff文件,得到过滤后的所述串联重复序列的gff文件;将过滤后的所述串联重复序列的gff文件转换为过滤后的所述串联重复序列的bed文件。
15.根据权利要求14所述的装置,其特征在于,所述数量统计单元中,使用bedtools软件,结合染色体长度,对滤后的所述串联重复序列的bed文件进行统计,以100kb为窗口统计得到每条染色体每个窗口内所述串联重复序列的数目。
16.根据权利要求15所述的装置,其特征在于,所述聚类单元中,使用orthofinder软件,对每条染色体的过滤后的所述串联重复序列进行聚类。
17.根据权利要求10所述的装置,其特征在于,所述位置确定单元中,M=10。
18.根据权利要求10所述的装置,其特征在于,
所述位置确定单元还配置为用于将最终的串联重复区域位置转化为gff文件,使用R软件,结合染色体长度、每条染色体每个窗口内所述串联重复序列的数目,对最终的串联重复区域画图展示。
19.一种计算机可读性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的鉴定基因组串联重复区域的方法。
20.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的鉴定基因组串联重复区域的方法。
CN202211205346.6A 2022-09-30 2022-09-30 鉴定基因组串联重复区域的方法及装置 Active CN115273984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211205346.6A CN115273984B (zh) 2022-09-30 2022-09-30 鉴定基因组串联重复区域的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211205346.6A CN115273984B (zh) 2022-09-30 2022-09-30 鉴定基因组串联重复区域的方法及装置

Publications (2)

Publication Number Publication Date
CN115273984A CN115273984A (zh) 2022-11-01
CN115273984B true CN115273984B (zh) 2022-11-29

Family

ID=83758123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211205346.6A Active CN115273984B (zh) 2022-09-30 2022-09-30 鉴定基因组串联重复区域的方法及装置

Country Status (1)

Country Link
CN (1) CN115273984B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102206704A (zh) * 2011-03-02 2011-10-05 深圳华大基因科技有限公司 组装基因组序列的方法和装置
CN105722994A (zh) * 2013-06-17 2016-06-29 维里纳塔健康公司 用于确定性染色体中的拷贝数变异的方法
CN108460248A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN108660200A (zh) * 2018-05-23 2018-10-16 北京希望组生物科技有限公司 一种检测短串联重复序列扩张的方法
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
CN114420208A (zh) * 2022-02-28 2022-04-29 上海亿康医学检验所有限公司 一种用于鉴定核酸样本中cnv的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5262230B2 (ja) * 2007-03-28 2013-08-14 独立行政法人理化学研究所 新規多型検出法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102206704A (zh) * 2011-03-02 2011-10-05 深圳华大基因科技有限公司 组装基因组序列的方法和装置
CN105722994A (zh) * 2013-06-17 2016-06-29 维里纳塔健康公司 用于确定性染色体中的拷贝数变异的方法
CN108460248A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN108660200A (zh) * 2018-05-23 2018-10-16 北京希望组生物科技有限公司 一种检测短串联重复序列扩张的方法
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
CN114420208A (zh) * 2022-02-28 2022-04-29 上海亿康医学检验所有限公司 一种用于鉴定核酸样本中cnv的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Short Tandem Repeats in plants: Genomic distribution and function prediction;Lin Zhu 等;《Electronic Journal of Biotechnology》;20210331;全文 *
基因组重复度量化及重复序列从头鉴定;冯聪;《中国博士学位论文全文数据库》;20220115;全文 *

Also Published As

Publication number Publication date
CN115273984A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN109994155B (zh) 一种基因变异识别方法、装置和存储介质
CN106599614B (zh) 一种高通量测序数据处理及分析流程控制方法及系统
US20080281819A1 (en) Non-random control data set generation for facilitating genomic data processing
CN110570907B (zh) 建立检测微卫星不稳定的基线及模型的方法与应用
CN104484582A (zh) 通过模块化选择实现的生物信息项目自动分析方法及系统
CN111755068A (zh) 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置
CN115273984B (zh) 鉴定基因组串联重复区域的方法及装置
CN109388636A (zh) 业务数据插入数据库方法、装置、计算机设备及存储介质
CN109524060B (zh) 一种遗传病风险提示的基因测序数据处理系统与处理方法
CN110970091A (zh) 标签质控的方法及装置
CN107153777B (zh) 一种估算四倍体物种基因组的二倍化程度的方法
CN113205857A (zh) 基因组性染色体非同源区域的鉴定方法和装置
CN115619200B (zh) 一种分割式Seru的排产与多能工调度组合优化方法和装置
CN110176276B (zh) 生物信息分析流程化管理方法及系统
CN109477140B (zh) 一种数据处理方法、装置及计算节点
US20220157414A1 (en) Method and system for facilitating optimization of a cluster computing network for sequencing data analysis using adaptive data parallelization, and non-transitory storage medium
CN115101124A (zh) 全基因组等位基因鉴定方法及装置
CN112750501A (zh) 一种宏病毒组流程的优化分析方法
CN110751982B (zh) 一种智能并行化敲除策略筛选的方法及系统
CN113173097A (zh) 充电方法及装置、非易失性存储介质、处理器
CN110021342B (zh) 用于加速变异位点的识别的方法及系统
CN114703263B (zh) 一种群组染色体拷贝数变异检测方法及装置
CN111883212B (zh) Dna指纹图谱的构建方法、构建装置及终端设备
CN110706745B (zh) 一种单核苷酸多态性位点整合方法及装置
CN112102885B (zh) 用于确定dna样本甲基化水平的方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant