CN116230096A - 批量更新基因组组装和注释文件id的方法和装置 - Google Patents

批量更新基因组组装和注释文件id的方法和装置 Download PDF

Info

Publication number
CN116230096A
CN116230096A CN202211712048.6A CN202211712048A CN116230096A CN 116230096 A CN116230096 A CN 116230096A CN 202211712048 A CN202211712048 A CN 202211712048A CN 116230096 A CN116230096 A CN 116230096A
Authority
CN
China
Prior art keywords
chromosome
file
new
original
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211712048.6A
Other languages
English (en)
Inventor
康玲
周勋
彭珍
赵勇
王龙
陶琳娜
马策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Novogene Technology Co ltd
Original Assignee
Beijing Novogene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Novogene Technology Co ltd filed Critical Beijing Novogene Technology Co ltd
Priority to CN202211712048.6A priority Critical patent/CN116230096A/zh
Publication of CN116230096A publication Critical patent/CN116230096A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种批量更新基因组组装和注释文件ID的方法和装置。该方法包括:S1,使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID;S2,利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。本申请的方法批量更新方式简单快速、且更新后的ID格式统一,易于后续分析。

Description

批量更新基因组组装和注释文件ID的方法和装置
技术领域
本发明涉基因组组装与注释领域,具体而言,涉及一种批量更新基因组组装和注释文件ID的方法和装置。
背景技术
基因组组装与注释是生物信息学领域的核心,基因组组装就是把测序产生的片段(reads)经过序列拼接组装,生成基因组碱基序列。基因组组装首先根据测序序列之间的重叠(overlap)构建出重叠群(contig),再利用allhic等软件对contig进行聚类、排序和调整方向,得到最终染色体级别的基因组。基因组的格式为fasta格式,fasta格式文件中的每个序列信息由两个部分组成,分为描述行和序列行,描述行由一个大于号(>)开头,内容可以随意填写,没有重复,一般存放序列的ID或者名称。序列行为一行或者多行核酸或者蛋白序列,核酸使用碱基(ATCG)表示,蛋白使用氨基酸的字母缩写表示。
基因组组装完后需要对基因组序列进行注释。基因组注释主要包括四个方面:重复序列(repeat)注释、非编码RNA注释(ncRNA)、基因结构注释和基因功能注释。注释前首先构建基因模型,有三种策略:1)同源预测(homology-based prediction):有一些基因的蛋白在相近物种间的保守性高,所以可以使用已有的高质量近缘物种注释信息通过序列比对的方式确定外显子边界和剪切位点;2)基于转录组预测(transcriptome-basedprediction):通过物种的RNA-seq数据辅助注释,能够较为准确的确定外显子区域和剪切位点;3)从头注释(de novo prediction):通过已有的概率模型来预测基因结构。每一种方法都有各自的优缺点,所以最后需要用Evidence Modeler(EVM)工具进行整合,合并成完整的基因结构。基于可靠的基因结构,后续可进行功能注释。注释的结果一般是gff(通用特征格式)文件,gff文件一共有9列,分别是:(1)序列ID;(2)序列来源;(3)序列类型;(4)序列开始位置;(5)序列结束位置;(6)得分值;(7)正负链信息;(8)相位信息;(9)序列的属性。根据gff文件会生成CDS(编码序列)文件和蛋白pep(蛋白)文件,这两个文件为fasta格式。
基因组组装和注释完成后,基因组的序列名称和注释的序列名称会根据组装和注释的软件选择,以固定的id进行命名。例如使用allhic软件对基因组挂载完成之后,挂载的染色体id为Hic_asm_01、Hic_asm_02等,使用evm对基因组注释完成之后,基因序列id为evm.TU.Hic_asm_01.1、evm.TU.Hic_asm_01.2等。在后续的基因组比较分析中,不同的id命名方式会使读取混乱,不能直观表示,因此需要转化成统一规则的命名格式。
但如何提供一种简单易读且格式统一的基因组组装和注释文件,目前尚未有效的解决方案。
发明内容
本发明的主要目的在于提供一种批量更新基因组组装和注释文件ID的方法和装置,以解决现有技术中不同软件命名格式不统一难以准确读取的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种批量更新基因组组装和注释文件ID的方法,该方法包括:S1,使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID;S2,利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。
进一步地,S1包括:使用mummer软件将基因组与已知的近源物种的参考基因组进行比对,将基因组上的染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的ID进行更新替换。
进一步地,根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的原ID进行更新替换的原则包括:如果染色体的方向是反向的,则输出反向互补序列,如果是正向的,则序列则不做任何处理。
进一步地,S2包括:预设注释文件中基因ID的命名格式;根据各基因在染色体上的位置排序,获得各基因新ID与原ID的对应关系文件;根据各基因新ID与原ID的对应关系文件,对注释文件中的原ID进行替换,从而获得具有各基因新ID的注释文件。
进一步地,按如下顺序预设注释文件中基因ID的命名格式:物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。
进一步地,根据各基因在染色体上的位置排序,获得基因新ID与原ID的对应关系文件包括:根据染色体的方向为正向还是反向,若染色体为正向,则按照参考基因组上各基因的排序,顺序排列各基因原ID,并从小到大输出基因新ID与原ID的对应关系文件;若染色体是反向,则按照参考基因组上各基因的排序,逆序排列各基因原ID,并从小到大排序输出基因新ID与原ID的对应关系文件。
进一步地,注释文件包括结构注释文件和功能注释文件,在获得具有基因新ID的注释文件后,方法还包括如下至少之一:1)将注释文件中的转录本ID列替换为对应基因的新ID;2)提取基因新ID的CDS序列并翻译为蛋白序列。
进一步地,注释文件包括重复序列注释文件和/或ncRNA注释文件,在获得染色体新ID与原ID的对应关系文件后,方法还包括:将重复序列注释文件和ncRNA注释文件中的染色体的原ID替换为新ID。
根据本申请的第二个方面,提供了一种批量更新基因组组装和注释文件ID的装置,该装置包括:染色体ID更新模块和基因ID更新模块,染色体ID更新模块被设置为使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组上各染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID;基因ID更新模块被设置为利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。
进一步地,染色体ID更新模块包括:比对更新单元,被设置为使用mummer软件将基因组与已知的近源物种的参考基因组进行比对,将基因组上的染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;染色体ID更新单元,被设置为根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的ID进行更新替换。
进一步地,染色体ID更新模单元包括:输出子单元,被设置为当染色体的方向是反向时,输出反向互补序列,当染色体的方向是正向是,则序列则不做任何处理直接输出。
进一步地,基因ID更新模块包括:预设模块,被设置为预设注释文件中基因ID的命名格式;对应模块,被设置为根据各基因在染色体上的位置排序,获得各基因新ID与原ID的对应关系文件;基因ID替换模块,被设置为根据各基因新ID与原ID的对应关系文件,对注释文件中的原ID进行替换,从而获得具有各基因新ID的注释文件。
进一步地,预设模块按如下顺序预设注释文件中基因ID的命名格式:物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。
进一步地,对应模块包括:顺序排列输出模块,被设置为根据染色体的方向为正向还是反向,当染色体为正向时,按照参考基因组上各基因的排序,顺序排列各基因原ID,并从小到大输出基因新ID与原ID的对应关系文件;逆序排列输出模块,被设置为当染色体是反向时,按照参考基因组上各基因的排序,逆序排列各基因原ID,并从小到大排序输出基因新ID与原ID的对应关系文件。
进一步地,注释文件包括结构注释文件和功能注释文件,该装置还包括如下至少之一:1)转录本ID替换模块,被设置为将注释文件中的转录本ID列替换为对应基因的新ID;2)CDS翻译模块,被设置为提取基因新ID的CDS序列并翻译为蛋白序列。
进一步地,注释文件包括重复序列注释文件和/或ncRNA注释文件,该装置还包括:重复序列注释文件ID替换模块,被设置为将重复序列注释文件中的染色体的原ID替换为新ID;和/或ncRNA注释文件ID替换模块,被设置为将ncRNA注释文件中的染色体的原ID替换为新ID。
根据本申请的第三个方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种量更新基因组组装和注释文件ID的方法。
根据本申请的第四个方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种批量更新基因组组装和注释文件ID的方法。
应用本发明的技术方案,通过与近源物种的参考基因组进行比对进而获得染色体的新ID与原ID的对应关系文件,进而便于对染色体ID进行更新。根据实际所需对基因命名格式进行预设,采用简单易懂,方便后续分析的命名格式,对注释文件中的基因原ID更新为新ID。该更新方式简单快速、批量进行且更新后的ID格式统一,易于后续分析。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例2提供的一种批量更新基因组和注释文件ID的方法的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
如背景技术部分提到的,现有的基因组组装及注释完成后,不同的组装及注释软件会有不同的染色体及基因ID命名,染色体编号排序是随机的。为了方便与近源物种基因组比较及后续分析画图,需要参考已发表近源物种的染色体顺序和方向,来修改目标物种基因组的染色体ID。然而,如何提供一种简单易读且格式统一的基因组组装和注释文件,目前尚未有效的解决方案。为改善这一现状并为了进一步更直观的显示物种注释的基因信息,一般要求用物种拉丁名称简写、染色体ID以及基因在染色体上的位置顺序来命名geneID,本申请的发明人提供了一种批量更新基因组和注释文件ID的方法和流程,能对基因组序列和注释的序列ID统一格式命名,本申请能够批量地将染色体ID修改为Chr01、Chr02等,将基因名修改为XX01G0001、XX01G0002等。该命名格式简单易懂,方便后续的分析。在此基础上,申请人提出了本申请的一系列保护方案。
在本申请第一种典型的实施方式中,本发明提供了一种批量更新基因组和注释文件ID的方法,该方法包括:S1,使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID;S2,利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。
本申请的上述实施例,通过与近源物种的参考基因组进行比对进而获得染色体的新ID与原ID的对应关系文件,进而便于对染色体ID进行更新。根据实际所需对基因命名格式进行预设,采用简单易懂,方便后续的分析的命名格式,进而根据预设格式对注释文件中的基因原ID更新为新ID。该更新方式简单快速、批量进行且易于后续分析。
为了方便与近源物种基因组比较及后续分析画图,通常需要参考已发表近源物种的染色体顺序和方向,来修改目标物种基因组的染色体ID。为了进一步提高染色体更新的速度和数量,在一种优选的实施例中,S1包括:使用mummer软件将基因组与已知的近源物种的参考基因组进行比对,将基因组上的染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的ID进行更新替换。
为进一步确保更新后的染色体ID的准确性,需要确保染色体的方向正确。在一种优选的实施例中,根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的原ID进行更新替换的原则包括:如果染色体的方向是反向的,则输出反向互补序列,如果是正向的,则序列则不做任何处理。
在一种优选的实施例中,S2包括:预设注释文件中基因ID的命名格式;根据各基因在染色体上的位置排序,获得各基因新ID与原ID的对应关系文件;根据各基因新ID与原ID的对应关系文件,对注释文件中的原ID进行替换,从而获得具有各基因新ID的注释文件。
在一种优选的实施例中,按如下顺序预设注释文件中基因ID的命名格式:物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。
为了更方便与近缘物种比较进行基因组注释,上述优选实施例通过参考模式物种拟南芥基因组的命名格式,开发了上述新的基因组命名格式统一的方法,进而使得基因ID信息更加简单易读。
本申请的上述优选实施例,既能对基因组序列和注释的序列ID统一格式命名,而且能够批量地将染色体ID修改为Chr01、Chr02等,将基因名修改为XX01G0001、XX01G0002等。
为了进一步提高更新后的基因ID的准确性,在一种优选的实施例中,根据各基因在染色体上的位置排序,获得基因新ID与原ID的对应关系文件包括:根据染色体的方向为正向还是反向,若染色体为正向,则按照参考基因组上各基因的排序,顺序排列各基因原ID,并从小到大输出基因新ID与原ID的对应关系文件;若染色体是反向,则按照参考基因组上各基因的排序,逆序排列各基因原ID,并从小到大排序输出基因新ID与原ID的对应关系文件。
基因组注释主要包括四个方面:重复序列(repeat)注释、非编码RNA注释(ncRNA)、基因结构注释和基因功能注释。因而注释文件ID的更新中,在获得基因新ID与原ID的对应关系文件后,还需要对基因结构注释和基因功能注释相关文件中的ID进行更新。因而,在一种优选的实施例中,注释文件包括结构注释文件和功能注释文件,在获得具有基因新ID的注释文件后,方法还包括如下至少之一:1)将注释文件中的转录本ID列替换为对应基因的新ID;2)提取基因新ID的CDS序列并翻译为蛋白序列。在另一种优选的实施例中,注释文件包括重复序列注释文件和/或ncRNA注释文件,在获得染色体新ID与原ID的对应关系文件后,该方法还包括:将重复序列注释文件和ncRNA注释文件中的染色体的原ID替换为新ID。
经过上述多个步骤,即可实现本申请的快速批量更新基因组和注释文件ID,且ID更新后的基因组和注释文件更易于后续分析。
下面将结合具体的实施例来进一步详细解释本申请的有益效果。
实施例2
本实施例提供一种批量更新基因组和注释文件ID的方法,具体流程如图1所示,该方法包括如下步骤:
1)获得染色体对应关系:测序目标物种基因组(target)和已发表的近缘物种基因组(reference)用mummer软件比对,获得染色体排序和方向的对应关系。
2)修改基因组文件:根据染色体新旧ID对应关系对基因组的ID进行修改替换,如果方向是反向的,则输出反向互补序列,如果是正向的,序列则不做任何处理。
3)修改基因gff文件:确定修改后基因和转录本ID的命名格式,根据基因在染色上的位置排序输出新ID与旧ID的对应关系,染色体正向则按照基因组坐标顺序排列且ID从小到大输出新旧对应关系,如果染色体是反向则坐标逆序排列ID从小到大排序输出;根据新旧对应关系对gff文件里的ID进行替换,最后得到新的gff文件。
4)提取新ID的cds序列并翻译为蛋白序列:根据修改后的基因组和修改后的gff文件,重新提取新ID的cds序列,然后将其翻译为对应的蛋白序列。
5)修改功能注释文本文件的转录本ID:将功能注释结果文件中的转录本ID列替换为对应的新ID。
6)修改重复序列注释中的gff文件:根据染色体新旧ID对应关系文件修改重复序列注释结果gff文件中的染色体ID,如果对应关系是正向,只修改ID,如果是负向,对应染色体上的位置也要做相应的修改。
7)修改ncRNA注释文件:同6)。
实施例3
以下以大豆基因组及注释文件的部分修改结果的示例展示。该物种修改注释文件耗时5分钟。
Figure BDA0004028048740000061
Figure BDA0004028048740000071
共线性分析分析时,可以使用两个基因组的基因通过Mcscan获得基因区块的共线性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本申请的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
实施例4
本实施例提供了一种批量更新基因组组装和注释文件ID的装置,该装置包括:染色体ID更新模块和基因ID更新模块,其中,染色体ID更新模块被设置为使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组上各染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID;基因ID更新模块被设置为利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。
可选地,染色体ID更新模块包括:比对更新单元,被设置为使用mummer软件将基因组与已知的近源物种的参考基因组进行比对,将基因组上的染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;染色体ID更新单元,被设置为根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的ID进行更新替换。
可选地,染色体ID更新模单元包括:输出子单元,被设置为当染色体的方向是反向时,输出反向互补序列,当染色体的方向是正向是,则序列则不做任何处理直接输出。
可选地,基因ID更新模块包括:预设模块,被设置为预设注释文件中基因ID的命名格式;对应模块,被设置为根据各基因在染色体上的位置排序,获得各基因新ID与原ID的对应关系文件;基因ID替换模块,被设置为根据各基因新ID与原ID的对应关系文件,对注释文件中的原ID进行替换,从而获得具有各基因新ID的注释文件。
可选地,预设模块按如下顺序预设注释文件中基因ID的命名格式:物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。
可选地,对应模块包括顺序排列输出模块和逆序排列输出模块,其中顺序排列输出模块被设置为根据染色体的方向为正向还是反向,当染色体为正向时,按照参考基因组上各基因的排序,顺序排列各基因原ID,并从小到大输出基因新ID与原ID的对应关系文件;逆序排列输出模块被设置为当染色体是反向时,按照参考基因组上各基因的排序,逆序排列各基因原ID,并从小到大排序输出基因新ID与原ID的对应关系文件。
可选地,注释文件包括结构注释文件和功能注释文件,装置还包括如下至少之一:1)转录本ID替换模块,被设置为将注释文件中的转录本ID列替换为对应基因的新ID;2)CDS翻译模块,被设置为提取基因新ID的CDS序列并翻译为蛋白序列。
可选地,注释文件包括重复序列注释文件和/或ncRNA注释文件,上述装置还包括:重复序列注释文件ID替换模块,被设置为将重复序列注释文件中的染色体的原ID替换为新ID;和/或ncRNA注释文件ID替换模块,被设置为将ncRNA注释文件中的染色体的原ID替换为新ID。
实施例5
本实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种批量更新基因组组装和注释文件ID的方法。
本实施例还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种批量更新基因组组装和注释文件ID的方法。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
(1)本发明使用mummer和参考基因组进行比对,使更改后的ID和已发表的参考基因组顺序一致。
(2)本发明的基因命名规则是按照在染色体上的物理位置从大到小进行排序,且ID名称中加入物种拉丁简写,仅从ID命名就直观展示出该基因的物种信息、所在的染色体编号及在染色体上的位置,方便后期分析,例如某基因家族基因的复制方式、某代谢通路基因是否成簇存在、多倍体等位基因鉴定等。
(3)操作简单:只需修改流程内的4个参数,物种简写、输入文件路径、结果输出路径、及文件前缀就可运行得到修改后的基因组和注释结果文件;
(4)运行快速:本发明可以批量快速修改基因组及注释结果文件ID名字,1G的基因组可在半个小时内完成基因组ID的修改,注释结果文件可在5分钟内完成修改。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种批量更新基因组组装和注释文件ID的方法,其特征在于,所述方法包括:
S1,使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID;
S2,利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。
2.根据权利要求1所述的方法,其特征在于,所述S1包括:
使用mummer软件将所述基因组与已知的近源物种的所述参考基因组进行比对,将所述基因组上的染色体的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;
根据所述染色体新ID与原ID的对应关系文件,对所述基因组上各染色体的ID进行更新替换。
3.根据权利要求2所述的方法,其特征在于,根据所述染色体新ID与原ID的对应关系文件,对所述基因组上各染色体的原ID进行更新替换的原则包括:
如果染色体的方向是反向的,则输出反向互补序列,如果是正向的,则序列则不做任何处理。
4.根据权利要求1所述的方法,其特征在于,所述S2包括:
预设注释文件中基因ID的命名格式;
根据各所述基因在染色体上的位置排序,获得各基因新ID与原ID的对应关系文件;
根据各所述基因新ID与原ID的对应关系文件,对注释文件中的原ID进行替换,从而获得具有各所述基因新ID的注释文件。
5.根据权利要求4所述的方法,其特征在于,按如下顺序预设所述注释文件中基因ID的命名格式:物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。
6.根据权利要求5所述的方法,其特征在于,根据各所述基因在染色体上的位置排序,获得基因新ID与原ID的对应关系文件包括:根据染色体的方向为正向还是反向,
若所述染色体为正向,则按照所述参考基因组上各基因的排序,顺序排列各基因原ID,并从小到大输出基因新ID与原ID的对应关系文件;
若所述染色体是反向,则按照所述参考基因组上各基因的排序,逆序排列各基因原ID,并从小到大排序输出基因新ID与原ID的对应关系文件。
7.根据权利要求4至6中任一项所述的方法,其特征在于,所述注释文件包括结构注释文件和功能注释文件,在获得具有基因新ID的注释文件后,所述方法还包括如下至少之一:
1)将所述注释文件中的转录本ID列替换为对应基因的新ID;
2)提取基因新ID的CDS序列并翻译为蛋白序列。
8.根据权利要求2或3所述的方法,其特征在于,所述注释文件包括重复序列注释文件和/或ncRNA注释文件,在获得染色体新ID与原ID的对应关系文件后,所述方法还包括:将所述重复序列注释文件和ncRNA注释文件中的染色体的原ID替换为新ID。
9.一种批量更新基因组组装和注释文件ID的装置,其特征在于,所述装置包括:
染色体ID更新模块,被设置为使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组上各染色体的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID;
基因ID更新模块,被设置为利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。
10.根据权利要求9所述的装置,其特征在于,所述染色体ID更新模块包括:
比对更新单元,被设置为使用mummer软件将所述基因组与已知的近源物种的所述参考基因组进行比对,将所述基因组上的染色体的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;
染色体ID更新单元,被设置为根据所述染色体新ID与原ID的对应关系文件,对所述基因组上各染色体的ID进行更新替换。
11.根据权利要求10所述的装置,其特征在于,所述染色体ID更新模单元包括:
输出子单元,被设置为当染色体的方向是反向时,输出反向互补序列,当染色体的方向是正向是,序列则不做任何处理直接输出。
12.根据权利要求9所述的装置,其特征在于,所述基因ID更新模块包括:
预设模块,被设置为预设注释文件中基因ID的命名格式;
对应模块,被设置为根据各所述基因在染色体上的位置排序,获得各基因新ID与原ID的对应关系文件;
基因ID替换模块,被设置为根据各所述基因新ID与原ID的对应关系文件,对注释文件中的原ID进行替换,从而获得具有各所述基因新ID的注释文件。
13.根据权利要求12所述的装置,其特征在于,所述预设模块按如下顺序预设所述注释文件中基因ID的命名格式:物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。
14.根据权利要求13所述的装置,其特征在于,所述对应模块包括:
顺序排列输出模块,被设置为根据染色体的方向为正向还是反向,当所述染色体为正向时,按照所述参考基因组上各基因的排序,顺序排列各基因原ID,并从小到大输出基因新ID与原ID的对应关系文件;
逆序排列输出模块,被设置为当所述染色体是反向时,按照所述参考基因组上各基因的排序,逆序排列各基因原ID,并从小到大排序输出基因新ID与原ID的对应关系文件。
15.根据权利要求12至14中任一项所述的装置,其特征在于,所述注释文件包括结构注释文件和功能注释文件,所述装置还包括如下至少之一:
1)转录本ID替换模块,被设置为将所述注释文件中的转录本ID列替换为对应基因的新ID;
2)CDS翻译模块,被设置为提取基因新ID的CDS序列并翻译为蛋白序列。
16.根据权利要求10或11所述的装置,其特征在于,所述注释文件包括重复序列注释文件和/或ncRNA注释文件,所述装置还包括:
重复序列注释文件ID替换模块,被设置为将所述重复序列注释文件中的染色体的原ID替换为新ID;和/或
ncRNA注释文件ID替换模块,被设置为将所述ncRNA注释文件中的染色体的原ID替换为新ID。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的批量更新基因组组装和注释文件ID的方法。
18.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的批量更新基因组组装和注释文件ID的方法。
CN202211712048.6A 2022-12-29 2022-12-29 批量更新基因组组装和注释文件id的方法和装置 Pending CN116230096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211712048.6A CN116230096A (zh) 2022-12-29 2022-12-29 批量更新基因组组装和注释文件id的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211712048.6A CN116230096A (zh) 2022-12-29 2022-12-29 批量更新基因组组装和注释文件id的方法和装置

Publications (1)

Publication Number Publication Date
CN116230096A true CN116230096A (zh) 2023-06-06

Family

ID=86586401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211712048.6A Pending CN116230096A (zh) 2022-12-29 2022-12-29 批量更新基因组组装和注释文件id的方法和装置

Country Status (1)

Country Link
CN (1) CN116230096A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577199A (zh) * 2023-11-22 2024-02-20 允思拓(天津)生物科技有限公司 一种染色体级的基因注释方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577199A (zh) * 2023-11-22 2024-02-20 允思拓(天津)生物科技有限公司 一种染色体级的基因注释方法及装置

Similar Documents

Publication Publication Date Title
Qu et al. PGA: a software package for rapid, accurate, and flexible batch annotation of plastomes
Li Protein-to-genome alignment with miniprot
Keilwagen et al. GeMoMa: homology-based gene prediction utilizing intron position conservation and RNA-seq data
US10204207B2 (en) Systems and methods for transcriptome analysis
Kelley et al. PathBLAST: a tool for alignment of protein interaction networks
Angiuoli et al. Mugsy: fast multiple alignment of closely related whole genomes
Riley et al. Escherichia coli K-12: a cooperatively developed annotation snapshot—2005
Delcher et al. Fast algorithms for large-scale genome alignment and comparison
Fonseca et al. Tools for mapping high-throughput sequencing data
Delcher et al. Using MUMmer to identify similar regions in large sequence sets
Medvedev et al. Paired de bruijn graphs: a novel approach for incorporating mate pair information into genome assemblers
Bhagwat et al. Using BLAT to find sequence similarity in closely related genomes
Hoffmann et al. Accurate mapping of tRNA reads
Dündar et al. Introduction to differential gene expression analysis using RNA-seq
Hunt et al. Annotating and prioritizing genomic variants using the Ensembl Variant Effect Predictor—A tutorial
Vis et al. An efficient algorithm for the extraction of HGVS variant descriptions from sequences
Kaye et al. The genome atlas: navigating a new era of reference genomes
CN116230096A (zh) 批量更新基因组组装和注释文件id的方法和装置
Zambelli et al. Using Weeder, Pscan, and PscanChIP for the discovery of enriched transcription factor binding site motifs in nucleotide sequences
Wang et al. BAUM: improving genome assembly by adaptive unique mapping and local overlap-layout-consensus approach
Shulgina et al. Codetta: predicting the genetic code from nucleotide sequence
Morgulis et al. SRPRISM (Single Read Paired Read Indel Substitution Minimizer): an efficient aligner for assemblies with explicit guarantees
Hu et al. Using TWINSCAN to predict gene structures in genomic DNA sequences
JP2004318321A (ja) 生物情報検索システム及び検索方法
CA2519674A1 (en) Genomic profiling of regulatory factor binding sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination