CN117577199A - 一种染色体级的基因注释方法及装置 - Google Patents
一种染色体级的基因注释方法及装置 Download PDFInfo
- Publication number
- CN117577199A CN117577199A CN202311572410.9A CN202311572410A CN117577199A CN 117577199 A CN117577199 A CN 117577199A CN 202311572410 A CN202311572410 A CN 202311572410A CN 117577199 A CN117577199 A CN 117577199A
- Authority
- CN
- China
- Prior art keywords
- genome
- version
- chromosome
- file
- annotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000000349 chromosome Anatomy 0.000 title claims abstract description 147
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 27
- 102000042567 non-coding RNA Human genes 0.000 claims abstract description 24
- 108091027963 non-coding RNA Proteins 0.000 claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000013519 translation Methods 0.000 claims abstract description 6
- 230000002759 chromosomal effect Effects 0.000 claims description 9
- 102000004169 proteins and genes Human genes 0.000 claims description 8
- 108091026890 Coding region Proteins 0.000 claims description 7
- 230000002068 genetic effect Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 150000007523 nucleic acids Chemical group 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种染色体级的基因注释方法及装置,包括步骤1,得到染色体版本基因组和contig版本基因组的位置对应关系文件;步骤2,通过更新得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID,以及得到染色体版本基因组的非编码RNA基因结构注释文件;步骤3,进行染色体版本基因组的基因结构注释gff文件翻译;步骤4,验证转换后的染色体版本基因组的结构注释gff文件;步骤5,通过更新得到对应的染色体版本的基因功能注释文件。本发明实现了将生物信息学中原有的基因注释文件提升到染色体水平。
Description
技术领域
本发明涉及基因组组装和注释领域,特别是涉及一种快速提升基因组注释到染色体水平的方法和装置。
背景技术
基因组组装(Genome assembly)是把测序产生的片段(reads)经过序列拼接组装,生成基因组的碱基序列。基因组组装软件根据得到的所有读长组装成基因组。三代测序数据常用的基因组装软件为hifiasm或者nextdenovo等,能够将基因组装到重叠群contig水平。contig水平基因组是基因组组装过程中得到的一系列相邻的DNA片段。如果要将基因组组装到染色体水平,通常使用遗传图谱、光学图谱和高通量染色体构象捕获hiC(high-through chromosome conformation capture)技术。
但在生产过程中,有些基因组测序往往因为成本限制,不会进行Hi-C技术测序;有些物种则因为基因组序列特异性,酶切位点重复序列较高,导致Hi-C数据有效率不能达标;还有些物种因为个体较小或者珍稀程度较高,测序样本的组织量不足以进行hiC技术测序。因此,这些物种的基因组不会挂载到染色体水平,使得物种基因组的研究存在难题。目前比较常用的解决方法是对于染色体版本的基因组进行重新注释,需要耗费时间、精力及大量的集群成本,而且还会导致研究人员后面的分析和实验都要重新再做一遍,需要时间较长,成本较高。
基因组组装完后需要对基因组序列进行注释。基因组注释主要包括重复序列注释、非编码RNA注释文件(ncRNArepeat注释文件)、基因结构注释和基因功能注释这四个方面。基因组注释技术的过程包括:1)构建基因模型,有三种策略:①同源预测(homology-basedprediction),使用已有的高质量近缘物种注释信息通过序列比对的方式确定外显子边界和剪切位点,适用于相近物种间保守性高的基因蛋白;②基于转录组预测(transcriptome-basedprediction),通过物种的RNA-seq数据辅助注释,能够较为准确的确定外显子区域和剪切位点;③从头注释(de novo prediction):通过已有的概率模型来预测基因结构。每一种方法都有其优缺点,所以最后需要用EvidenceModeler(EVM)工具进行整合,合并成完整的基因结构。2)基于完整的基因结构进行功能注释;注释结果由通用特征格式的gff文件来描述,在gff文件中记录了序列ID、序列来源、序列类型、序列开始位置、序列结束位置、得分值、正负链信息、相位信息和序列的属性这九列信息;3)根据gff文件生成cds文件(编码序列)和蛋白pep文件(蛋白),这两个文件为fasta格式。
综上所述,如何提升基因组注释到染色体水平是本发明亟待解决的技术问题。
发明内容
针对上述背景技术,本发明旨在提出了一种染色体级的基因注释方法及装置,根据contig水平基因组与染色体水平基因组的对应序列位置更新注释结果文件,得到染色体级的基因注释。
为了实现上述目的,本发明提供如下技术方案:
一种染色体级的基因注释方法,其特征在于,包括以下步骤:
步骤1,将contig版本基因组与染色体版本基因组相匹配,得到染色体版本基因组和contig版本基因组的位置对应关系文件;
步骤2,根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件;
步骤3,对所述步骤2得到的染色体版本基因组的基因结构注释gff文件进行翻译处理,得到转换后的染色体版本基因组的结构注释gff文件,由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件;
步骤4,进行转换后的染色体版本基因组的结构注释gff文件验证,若异常,再次执行步骤2;若正常,更新重复基因集序列的染色体版本基因组的基因结构注释gff文件;
步骤5,根据步骤2的基因序列ID,得到染色体版本的基因功能注释文件。
一种染色体级的基因注释装置,包括:
位置关系确定模块100,用于将contig版本基因组与染色体版本基因组相匹配,得到染色体版本基因组和contig版本基因组的位置对应关系文件;
基因结构注释更新模块200,用于根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件;
翻译模块300,用于对染色体版本基因组的基因结构注释gff文件进行翻译处理,得到转换后的染色体版本基因组的结构注释gff文件,由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件;
验证模块400,进行转换后的染色体版本基因组的结构注释gff文件验证;所述比对模块进一步包括:异常处理子模块410,用于再次根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件;正常处理子模块420,用于更新重复基因集序列的染色体版本基因组的基因结构注释gff文件;以及,
基因功能注释更新模块500,用于根据所述基因序列ID更新基因功能注释文件,得到对应的染色体版本的基因功能注释文件。
与现有技术相比,本发明能够达成以下有益技术效果:
1)实现了将生物信息学中原有的基因注释文件提升到染色体水平;
2)无需对染色体版本的基因组进行重新注释即实现所有注释的更新,节约了计算资源及操作时间。
附图说明
图1为本发明的一种染色体级的基因注释方法整体流程示意图;
图2为本发明的一种染色体级的基因注释装置模块图。
具体实施方式
下面结合附图和具体实施例对本发明技术方案作进一步详细描述。
如图1所示,本发明的一种染色体级的基因注释方法,具体包括以下步骤:
步骤1,使用自编Alignment.py脚本文件将带有原始结构注释信息的contig版本基因组与染色体版本基因组相匹配,进行位置关系精准比对,生成染色体版本基因组和contig版本基因组的位置对应关系Alignment.agp文件;其中,Alignment.agp文件的数据结构包括位于第一列的染色体基因组的序列ID、位于第二列的比对上染色体版本基因组的起始位置、位于第三列的比对上染色体版本基因组的终止位置、位于第四列的比对上染色体版本基因组此区间的正向标识或者反向标识、位于第五列的比对上contig版本基因组的序列ID、位于第六列的比对上contig版本基因组的起始位置、位于第七列的比对上contig版本基因组的终止位置、位于第八列的比对上contig版本基因组此区间的正向标识或者反向标识;
步骤2,利用自编的updata.annogff.py脚本文件根据步骤1的所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID,以及,更新非编码RNA基因结构注释文件,利用脚本update.ncgff.py脚本文件得到染色体版本基因组的非编码RNA基因结构注释文件;具体的,updata.annogff.py脚本文件依据Alignment.agp文件的位置对应关系信息把原有的gff文件的染色体基因组及位置对应到染色体版本,比如agp文件记录contig11-10比对上了chr250-70的位置,那么gff现在的contig版本是contig11-20位置是个基因,那么现在就变成了chr250-70的位置;具体的,原有的染色体及位置对应到染色体版本及位置;
步骤3,通过常规翻译软件gff3_file_to_proteins.pl对所述步骤2得到的染色体版本基因组的基因结构注释gff文件进行翻译处理,得到转换后的染色体版本基因组的结构注释gff文件,由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件;
步骤4,利用自编的check_seq.py脚本文件进行所述步骤3得到的转换后的染色体版本基因组的结构注释gff文件验证,若异常,再次执行步骤2,根据步骤1的所述染色体版本基因组和contig版本基因组的位置对应关系Alignment.agp文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件;若正常,更新重复基因集序列的染色体版本基因组的基因结构注释gff文件;具体的,利用所述check_seq.py脚本文件核对每条基因序列ID对应的蛋白和核酸序列的MD5值:若不一致,转换后的染色体版本基因组的结构注释gff文件异常;若一致,转换后的染色体版本基因组的结构注释gff文件正常;这是由于gff文件只是相对位置发生了改变,基因组碱基并没有发生变化,所以翻译后的蛋白及核酸序列应该完全一样,脚本通过比对前后蛋白及核酸序列是否一致,来判断gff文件时候异常;
步骤5,更新功能注释结果:根据步骤2的序列对应信息,利用所述update.func.py脚本文件得到对应染色体版本的功能注释文件。
上述方法中,由于将contig版本基因组挂载到染色体版本上,基本不会改变内部的碱基排列,所以本发明利用自编脚本,可以更新基因组注释到染色体水平,既不影响已经完成的后续分析,又能得到染色体水平的注释结果文件。
实施例二
如图2所示,一种染色体级的基因注释装置。该装置中,位置关系确定模块100,用于将contig版本基因组与染色体版本基因组相匹配,得到染色体版本基因组和contig版本基因组的位置对应关系文件。基因结构注释更新模块200,用于根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件。具体的,原有的染色体及位置对应到染色体版本及位置。翻译模块300,用于对染色体版本基因组的基因结构注释gff文件进行翻译处理,得到转换后的染色体版本基因组的结构注释gff文件,由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件。比对模块400,用于比对所述翻译模块得到的翻译后的结构注释gff文件和所述更新模块得到的所述染色体版本基因组的结构注释gff文件中的蛋白和核酸序列是否一致,以验证所述翻译后的结构注释gff文件是否异常。异常处理子模块,用于验证翻译后的染色体版本基因组的结构注释gff文件异常,更新非编码RNA注释结果。正常处理子模块,用于验证翻译后的染色体版本基因组的结构注释gff文件正常,更新非编码RNA注释结果。具体的,所述验证模块400进一步包括核对每条基因序列ID对应的蛋白和核酸序列的MD5值:若不一致,换后的染色体版本基因组的结构注释gff文件异常,若一致,转换后的染色体版本基因组的结构注释gff文件正常。基因功能注释更新模块500,用于根据所述基因序列ID更新基因功能注释文件,得到对应的染色体版本的基因功能注释文件。
实施例三
本实施例提供了一种计算机可读性存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任一种染色体级的基因注释方法。存储介质采用一个或多个计算机可读的介质的任意组合。
实施例四
本实施例还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种染色体级的基因注释方法。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
本发明的各模块或各步骤可以用通用的计算装置来实现,执行于单个的计算装置上或者分布在多个计算装置所组成的网络上。可选地用计算装置可执行的程序代码来实现,将它们存储在存储装置中由计算装置来执行,可以不同于前述本发明方法的步骤顺序或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。也就是,本发明不限制于任何特定的硬件和软件结合。
综上所述,传统的更新注释结果的方法是重新进行染色体版本基因组的注释,本发明利用自编脚本,可以快速更新基因组注释到染色体水平,既不影响已经完成的后续分析,又能得到染色体水平的注释结果文件。
本发明经过多个项目验证及使用,成功将基因组注释快速提升到染色体水平。如表1所示,为常规注释方法和本发明注释方法比较的验证效果。
表1
基因组大小 | 常规注释方法(周期) | 本发明注释方法(周期) |
1G | 15d | 30min |
2G | 30d | 45min |
3G | 40d | 50min |
以上所述仅为本申请的实施例,并不用于限制本发明所要申请保护的范围。对于本领域技术人员来说,凡是通过各种更改和变化、在不脱离本发明的精神和原理的情况下做出各种任何修改、等同替换或变型等,均落入本发明所公开的技术内容和申请保护范围之内。
Claims (10)
1.一种染色体级的基因注释方法,其特征在于,包括以下步骤:
步骤1,将contig版本基因组与染色体版本基因组相匹配,得到染色体版本基因组和contig版本基因组的位置对应关系文件;
步骤2,根据步骤1的所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件;
步骤3,对所述步骤2得到的染色体版本基因组的基因结构注释gff文件进行翻译处理,得到转换后的染色体版本基因组的结构注释gff文件,由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件;
步骤4,进行所述步骤3得到的转换后的染色体版本基因组的结构注释gff文件验证,若异常,再次执行步骤2,根据步骤1的所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件;若正常,更新重复基因集序列的染色体版本基因组的基因结构注释gff文件;
步骤5,根据步骤2的基因序列ID更新原始基因功能注释文件,得到对应的染色体版本的基因功能注释文件。
2.根据权利要求1所述的一种染色体级的基因注释方法,其特征在于,所述步骤1的位置对应关系文件包括位于第一列的染色体基因组的序列ID、位于第二列的比对上染色体版本基因组的起始位置、位于第三列的比对上染色体版本基因组的终止位置、位于第四列的比对上染色体版本基因组此区间的正向标识或者反向标识、位于第五列的比对上contig版本基因组的序列ID、位于第六列的比对上contig版本基因组的起始位置、位于第七列的比对上contig版本基因组的终止位置、位于第八列的比对上contig版本基因组此区间的正向标识或者反向标识。
3.根据权利要求1所述的一种染色体级的基因注释方法,其特征在于,所述步骤2进一步包括将原有的染色体及位置对应到染色体版本及位置的处理。
4.根据权利要求1所述的一种染色体级的基因注释方法,其特征在于,所述步骤4进一步包括核对每条基因序列ID对应的蛋白和核酸序列的MD5值:若不一致,换后的染色体版本基因组的结构注释gff文件异常,若一致,转换后的染色体版本基因组的结构注释gff文件正常。
5.一种染色体级的基因注释装置,其特征在于,包括:
位置关系确定模块(100),用于将contig版本基因组与染色体版本基因组相匹配,得到染色体版本基因组和contig版本基因组的位置对应关系文件;
基因结构注释更新模块(200),用于根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件;
翻译模块(300),用于对染色体版本基因组的基因结构注释gff文件进行翻译处理,得到转换后的染色体版本基因组的结构注释gff文件,由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件;
验证模块(400),进行转换后的染色体版本基因组的结构注释gff文件验证;所述比对模块进一步包括:异常处理子模块(410),用于再次根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件,得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID,以及,更新非编码RNA基因结构注释文件,得到染色体版本基因组的非编码RNA基因结构注释文件;正常处理子模块(420),用于更新重复基因集序列的染色体版本基因组的基因结构注释gff文件;以及,
基因功能注释更新模块(500),用于根据所述基因序列ID更新基因功能注释文件,得到对应的染色体版本的基因功能注释文件。
6.根据权利要求5所述的一种染色体级的基因注释装置,其特征在于,所述位置关系确定模块(100)中的所述步位置对应关系文件包括位于第一列的染色体基因组的序列ID、位于第二列的比对上染色体版本基因组的起始位置、位于第三列的比对上染色体版本基因组的终止位置、位于第四列的比对上染色体版本基因组此区间的正向标识或者反向标识、位于第五列的比对上contig版本基因组的序列ID、位于第六列的比对上contig版本基因组的起始位置、位于第七列的比对上contig版本基因组的终止位置、位于第八列的比对上contig版本基因组此区间的正向标识或者反向标识。
7.根据权利要求5所述的一种染色体级的基因注释装置,其特征在于,所述基因结构注释更新模块(200)进一步包括将原有的染色体及位置对应到染色体版本及位置。
8.根据权利要求5所述的一种染色体级的基因注释装置,其特征在于,所述验证模块(400)进一步包括核对每条基因序列ID对应的蛋白和核酸序列的MD5值:若不一致,换后的染色体版本基因组的结构注释gff文件异常,若一致,转换后的染色体版本基因组的结构注释gff文件正常。
9.一种计算机可读性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的染色体级的基因注释方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的染色体级的基因注释方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311572410.9A CN117577199A (zh) | 2023-11-22 | 2023-11-22 | 一种染色体级的基因注释方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311572410.9A CN117577199A (zh) | 2023-11-22 | 2023-11-22 | 一种染色体级的基因注释方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117577199A true CN117577199A (zh) | 2024-02-20 |
Family
ID=89884034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311572410.9A Pending CN117577199A (zh) | 2023-11-22 | 2023-11-22 | 一种染色体级的基因注释方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117577199A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908415A (zh) * | 2021-02-23 | 2021-06-04 | 广西壮族自治区农业科学院 | 一种获得更准确的染色体水平基因组的方法 |
CN113205857A (zh) * | 2021-07-02 | 2021-08-03 | 天津诺禾致源生物信息科技有限公司 | 基因组性染色体非同源区域的鉴定方法和装置 |
CN115101124A (zh) * | 2022-08-24 | 2022-09-23 | 天津诺禾致源生物信息科技有限公司 | 全基因组等位基因鉴定方法及装置 |
CN116230096A (zh) * | 2022-12-29 | 2023-06-06 | 北京诺禾致源科技股份有限公司 | 批量更新基因组组装和注释文件id的方法和装置 |
-
2023
- 2023-11-22 CN CN202311572410.9A patent/CN117577199A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908415A (zh) * | 2021-02-23 | 2021-06-04 | 广西壮族自治区农业科学院 | 一种获得更准确的染色体水平基因组的方法 |
CN113205857A (zh) * | 2021-07-02 | 2021-08-03 | 天津诺禾致源生物信息科技有限公司 | 基因组性染色体非同源区域的鉴定方法和装置 |
CN115101124A (zh) * | 2022-08-24 | 2022-09-23 | 天津诺禾致源生物信息科技有限公司 | 全基因组等位基因鉴定方法及装置 |
CN116230096A (zh) * | 2022-12-29 | 2023-06-06 | 北京诺禾致源科技股份有限公司 | 批量更新基因组组装和注释文件id的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Flouri et al. | Species tree inference with BPP using genomic sequences and the multispecies coalescent | |
Venturini et al. | Leveraging multiple transcriptome assembly methods for improved gene structure annotation | |
Ye et al. | DBG2OLC: efficient assembly of large genomes using long erroneous reads of the third generation sequencing technologies | |
Numanagić et al. | Fast characterization of segmental duplications in genome assemblies | |
Voshall et al. | Next-generation transcriptome assembly: strategies and performance analysis | |
US20150169823A1 (en) | String graph assembly for polyploid genomes | |
Schwartz et al. | A composite genome approach to identify phylogenetically informative data from next-generation sequencing | |
CN115101124B (zh) | 全基因组等位基因鉴定方法及装置 | |
Mukherjee et al. | Error correcting optical mapping data | |
Behera et al. | Plant transcriptome assembly: review and benchmarking | |
CN107784198B (zh) | 一种二代序列和三代单分子实时测序序列联合组装方法和系统 | |
Meng et al. | Genome sequence assembly algorithms and misassembly identification methods | |
Wang et al. | BAUM: improving genome assembly by adaptive unique mapping and local overlap-layout-consensus approach | |
CN116864007B (zh) | 基因检测高通量测序数据的分析方法及系统 | |
CN117577199A (zh) | 一种染色体级的基因注释方法及装置 | |
CN111243666B (zh) | 一种基于Nextflow的环状核糖核酸自动化分析方法及系统 | |
CN112863603A (zh) | 细菌全基因组测序数据的自动化分析方法及系统 | |
Krause et al. | Sensitive and error-tolerant annotation of protein-coding DNA with BATH | |
CN116230096A (zh) | 批量更新基因组组装和注释文件id的方法和装置 | |
Li et al. | A novel scaffolding algorithm based on contig error correction and path extension | |
Schull et al. | Champagne: automated whole-genome phylogenomic character matrix method using large genomic indels for homoplasy-free inference | |
CN113096731B (zh) | 载体生产周期的预估方法、计算机存储介质及电子设备 | |
Nodehi et al. | Selection of optimal bioinformatic tools and proper reference for reducing the alignment error in targeted sequencing data | |
Fletcher et al. | From short reads to chromosome-scale genome assemblies | |
CN113782099B (zh) | 修补基因组序列组装缺口的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |