CN117577199A

CN117577199A - 一种染色体级的基因注释方法及装置

Info

Publication number: CN117577199A
Application number: CN202311572410.9A
Authority: CN
Inventors: 孙亚民; 王龙
Original assignee: Yunsituo Tianjin Biotechnology Co ltd
Current assignee: Yunsituo Tianjin Biotechnology Co ltd
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-02-20

Abstract

本发明公开了一种染色体级的基因注释方法及装置，包括步骤1，得到染色体版本基因组和contig版本基因组的位置对应关系文件；步骤2，通过更新得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID，以及得到染色体版本基因组的非编码RNA基因结构注释文件；步骤3，进行染色体版本基因组的基因结构注释gff文件翻译；步骤4，验证转换后的染色体版本基因组的结构注释gff文件；步骤5，通过更新得到对应的染色体版本的基因功能注释文件。本发明实现了将生物信息学中原有的基因注释文件提升到染色体水平。

Description

一种染色体级的基因注释方法及装置

技术领域

本发明涉及基因组组装和注释领域，特别是涉及一种快速提升基因组注释到染色体水平的方法和装置。

背景技术

基因组组装(Genome assembly)是把测序产生的片段(reads)经过序列拼接组装，生成基因组的碱基序列。基因组组装软件根据得到的所有读长组装成基因组。三代测序数据常用的基因组装软件为hifiasm或者nextdenovo等，能够将基因组装到重叠群contig水平。contig水平基因组是基因组组装过程中得到的一系列相邻的DNA片段。如果要将基因组组装到染色体水平，通常使用遗传图谱、光学图谱和高通量染色体构象捕获hiC(high-through chromosome conformation capture)技术。

但在生产过程中，有些基因组测序往往因为成本限制，不会进行Hi-C技术测序；有些物种则因为基因组序列特异性，酶切位点重复序列较高，导致Hi-C数据有效率不能达标；还有些物种因为个体较小或者珍稀程度较高，测序样本的组织量不足以进行hiC技术测序。因此，这些物种的基因组不会挂载到染色体水平，使得物种基因组的研究存在难题。目前比较常用的解决方法是对于染色体版本的基因组进行重新注释，需要耗费时间、精力及大量的集群成本，而且还会导致研究人员后面的分析和实验都要重新再做一遍，需要时间较长，成本较高。

基因组组装完后需要对基因组序列进行注释。基因组注释主要包括重复序列注释、非编码RNA注释文件(ncRNArepeat注释文件)、基因结构注释和基因功能注释这四个方面。基因组注释技术的过程包括：1)构建基因模型，有三种策略：①同源预测(homology-basedprediction)，使用已有的高质量近缘物种注释信息通过序列比对的方式确定外显子边界和剪切位点，适用于相近物种间保守性高的基因蛋白；②基于转录组预测(transcriptome-basedprediction)，通过物种的RNA-seq数据辅助注释，能够较为准确的确定外显子区域和剪切位点；③从头注释(de novo prediction)：通过已有的概率模型来预测基因结构。每一种方法都有其优缺点，所以最后需要用EvidenceModeler(EVM)工具进行整合，合并成完整的基因结构。2)基于完整的基因结构进行功能注释；注释结果由通用特征格式的gff文件来描述，在gff文件中记录了序列ID、序列来源、序列类型、序列开始位置、序列结束位置、得分值、正负链信息、相位信息和序列的属性这九列信息；3)根据gff文件生成cds文件(编码序列)和蛋白pep文件(蛋白)，这两个文件为fasta格式。

综上所述，如何提升基因组注释到染色体水平是本发明亟待解决的技术问题。

发明内容

针对上述背景技术，本发明旨在提出了一种染色体级的基因注释方法及装置，根据contig水平基因组与染色体水平基因组的对应序列位置更新注释结果文件，得到染色体级的基因注释。

为了实现上述目的，本发明提供如下技术方案：

一种染色体级的基因注释方法，其特征在于，包括以下步骤：

步骤1，将contig版本基因组与染色体版本基因组相匹配，得到染色体版本基因组和contig版本基因组的位置对应关系文件；

步骤2，根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件；

步骤3，对所述步骤2得到的染色体版本基因组的基因结构注释gff文件进行翻译处理，得到转换后的染色体版本基因组的结构注释gff文件，由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件；

步骤4，进行转换后的染色体版本基因组的结构注释gff文件验证，若异常，再次执行步骤2；若正常，更新重复基因集序列的染色体版本基因组的基因结构注释gff文件；

步骤5，根据步骤2的基因序列ID，得到染色体版本的基因功能注释文件。

一种染色体级的基因注释装置，包括：

位置关系确定模块100，用于将contig版本基因组与染色体版本基因组相匹配，得到染色体版本基因组和contig版本基因组的位置对应关系文件；

基因结构注释更新模块200，用于根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件；

翻译模块300，用于对染色体版本基因组的基因结构注释gff文件进行翻译处理，得到转换后的染色体版本基因组的结构注释gff文件，由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件；

验证模块400，进行转换后的染色体版本基因组的结构注释gff文件验证；所述比对模块进一步包括：异常处理子模块410，用于再次根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件；正常处理子模块420，用于更新重复基因集序列的染色体版本基因组的基因结构注释gff文件；以及，

基因功能注释更新模块500，用于根据所述基因序列ID更新基因功能注释文件，得到对应的染色体版本的基因功能注释文件。

与现有技术相比，本发明能够达成以下有益技术效果：

1)实现了将生物信息学中原有的基因注释文件提升到染色体水平；

2)无需对染色体版本的基因组进行重新注释即实现所有注释的更新，节约了计算资源及操作时间。

附图说明

图1为本发明的一种染色体级的基因注释方法整体流程示意图；

图2为本发明的一种染色体级的基因注释装置模块图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细描述。

如图1所示，本发明的一种染色体级的基因注释方法，具体包括以下步骤：

步骤1，使用自编Alignment.py脚本文件将带有原始结构注释信息的contig版本基因组与染色体版本基因组相匹配，进行位置关系精准比对，生成染色体版本基因组和contig版本基因组的位置对应关系Alignment.agp文件；其中，Alignment.agp文件的数据结构包括位于第一列的染色体基因组的序列ID、位于第二列的比对上染色体版本基因组的起始位置、位于第三列的比对上染色体版本基因组的终止位置、位于第四列的比对上染色体版本基因组此区间的正向标识或者反向标识、位于第五列的比对上contig版本基因组的序列ID、位于第六列的比对上contig版本基因组的起始位置、位于第七列的比对上contig版本基因组的终止位置、位于第八列的比对上contig版本基因组此区间的正向标识或者反向标识；

步骤2，利用自编的updata.annogff.py脚本文件根据步骤1的所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID，以及，更新非编码RNA基因结构注释文件，利用脚本update.ncgff.py脚本文件得到染色体版本基因组的非编码RNA基因结构注释文件；具体的，updata.annogff.py脚本文件依据Alignment.agp文件的位置对应关系信息把原有的gff文件的染色体基因组及位置对应到染色体版本，比如agp文件记录contig11-10比对上了chr250-70的位置，那么gff现在的contig版本是contig11-20位置是个基因，那么现在就变成了chr250-70的位置；具体的，原有的染色体及位置对应到染色体版本及位置；

步骤3，通过常规翻译软件gff3_file_to_proteins.pl对所述步骤2得到的染色体版本基因组的基因结构注释gff文件进行翻译处理，得到转换后的染色体版本基因组的结构注释gff文件，由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件；

步骤4，利用自编的check_seq.py脚本文件进行所述步骤3得到的转换后的染色体版本基因组的结构注释gff文件验证，若异常，再次执行步骤2，根据步骤1的所述染色体版本基因组和contig版本基因组的位置对应关系Alignment.agp文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件；若正常，更新重复基因集序列的染色体版本基因组的基因结构注释gff文件；具体的，利用所述check_seq.py脚本文件核对每条基因序列ID对应的蛋白和核酸序列的MD5值：若不一致，转换后的染色体版本基因组的结构注释gff文件异常；若一致，转换后的染色体版本基因组的结构注释gff文件正常；这是由于gff文件只是相对位置发生了改变，基因组碱基并没有发生变化，所以翻译后的蛋白及核酸序列应该完全一样，脚本通过比对前后蛋白及核酸序列是否一致，来判断gff文件时候异常；

步骤5，更新功能注释结果：根据步骤2的序列对应信息，利用所述update.func.py脚本文件得到对应染色体版本的功能注释文件。

上述方法中，由于将contig版本基因组挂载到染色体版本上，基本不会改变内部的碱基排列，所以本发明利用自编脚本，可以更新基因组注释到染色体水平，既不影响已经完成的后续分析，又能得到染色体水平的注释结果文件。

实施例二

如图2所示，一种染色体级的基因注释装置。该装置中，位置关系确定模块100，用于将contig版本基因组与染色体版本基因组相匹配，得到染色体版本基因组和contig版本基因组的位置对应关系文件。基因结构注释更新模块200，用于根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件。具体的，原有的染色体及位置对应到染色体版本及位置。翻译模块300，用于对染色体版本基因组的基因结构注释gff文件进行翻译处理，得到转换后的染色体版本基因组的结构注释gff文件，由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件。比对模块400，用于比对所述翻译模块得到的翻译后的结构注释gff文件和所述更新模块得到的所述染色体版本基因组的结构注释gff文件中的蛋白和核酸序列是否一致，以验证所述翻译后的结构注释gff文件是否异常。异常处理子模块，用于验证翻译后的染色体版本基因组的结构注释gff文件异常，更新非编码RNA注释结果。正常处理子模块，用于验证翻译后的染色体版本基因组的结构注释gff文件正常，更新非编码RNA注释结果。具体的，所述验证模块400进一步包括核对每条基因序列ID对应的蛋白和核酸序列的MD5值：若不一致，换后的染色体版本基因组的结构注释gff文件异常，若一致，转换后的染色体版本基因组的结构注释gff文件正常。基因功能注释更新模块500，用于根据所述基因序列ID更新基因功能注释文件，得到对应的染色体版本的基因功能注释文件。

实施例三

本实施例提供了一种计算机可读性存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行任一种染色体级的基因注释方法。存储介质采用一个或多个计算机可读的介质的任意组合。

实施例四

本实施例还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述任一种染色体级的基因注释方法。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

本发明的各模块或各步骤可以用通用的计算装置来实现，执行于单个的计算装置上或者分布在多个计算装置所组成的网络上。可选地用计算装置可执行的程序代码来实现，将它们存储在存储装置中由计算装置来执行，可以不同于前述本发明方法的步骤顺序或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。也就是，本发明不限制于任何特定的硬件和软件结合。

综上所述，传统的更新注释结果的方法是重新进行染色体版本基因组的注释，本发明利用自编脚本，可以快速更新基因组注释到染色体水平，既不影响已经完成的后续分析，又能得到染色体水平的注释结果文件。

本发明经过多个项目验证及使用，成功将基因组注释快速提升到染色体水平。如表1所示，为常规注释方法和本发明注释方法比较的验证效果。

表1

基因组大小	常规注释方法(周期)	本发明注释方法(周期)
			1G	15d	30min
2G	30d	45min
			3G	40d	50min

以上所述仅为本申请的实施例，并不用于限制本发明所要申请保护的范围。对于本领域技术人员来说，凡是通过各种更改和变化、在不脱离本发明的精神和原理的情况下做出各种任何修改、等同替换或变型等，均落入本发明所公开的技术内容和申请保护范围之内。

Claims

1.一种染色体级的基因注释方法，其特征在于，包括以下步骤：

步骤2，根据步骤1的所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件；

步骤4，进行所述步骤3得到的转换后的染色体版本基因组的结构注释gff文件验证，若异常，再次执行步骤2，根据步骤1的所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件；若正常，更新重复基因集序列的染色体版本基因组的基因结构注释gff文件；

步骤5，根据步骤2的基因序列ID更新原始基因功能注释文件，得到对应的染色体版本的基因功能注释文件。

2.根据权利要求1所述的一种染色体级的基因注释方法，其特征在于，所述步骤1的位置对应关系文件包括位于第一列的染色体基因组的序列ID、位于第二列的比对上染色体版本基因组的起始位置、位于第三列的比对上染色体版本基因组的终止位置、位于第四列的比对上染色体版本基因组此区间的正向标识或者反向标识、位于第五列的比对上contig版本基因组的序列ID、位于第六列的比对上contig版本基因组的起始位置、位于第七列的比对上contig版本基因组的终止位置、位于第八列的比对上contig版本基因组此区间的正向标识或者反向标识。

3.根据权利要求1所述的一种染色体级的基因注释方法，其特征在于，所述步骤2进一步包括将原有的染色体及位置对应到染色体版本及位置的处理。

4.根据权利要求1所述的一种染色体级的基因注释方法，其特征在于，所述步骤4进一步包括核对每条基因序列ID对应的蛋白和核酸序列的MD5值：若不一致，换后的染色体版本基因组的结构注释gff文件异常，若一致，转换后的染色体版本基因组的结构注释gff文件正常。

5.一种染色体级的基因注释装置，其特征在于，包括：

位置关系确定模块(100)，用于将contig版本基因组与染色体版本基因组相匹配，得到染色体版本基因组和contig版本基因组的位置对应关系文件；

基因结构注释更新模块(200)，用于根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件；

翻译模块(300)，用于对染色体版本基因组的基因结构注释gff文件进行翻译处理，得到转换后的染色体版本基因组的结构注释gff文件，由转换后的染色体版本基因组的结构注释gff文件生成编码序列cds文件和蛋白pep文件；

验证模块(400)，进行转换后的染色体版本基因组的结构注释gff文件验证；所述比对模块进一步包括：异常处理子模块(410)，用于再次根据所述染色体版本基因组和contig版本基因组的位置对应关系文件更新原始基因结构注释gff文件，得到染色体版本基因组的基因结构注释gff文件及对应的基因集序列ID，以及，更新非编码RNA基因结构注释文件，得到染色体版本基因组的非编码RNA基因结构注释文件；正常处理子模块(420)，用于更新重复基因集序列的染色体版本基因组的基因结构注释gff文件；以及，

基因功能注释更新模块(500)，用于根据所述基因序列ID更新基因功能注释文件，得到对应的染色体版本的基因功能注释文件。

6.根据权利要求5所述的一种染色体级的基因注释装置，其特征在于，所述位置关系确定模块(100)中的所述步位置对应关系文件包括位于第一列的染色体基因组的序列ID、位于第二列的比对上染色体版本基因组的起始位置、位于第三列的比对上染色体版本基因组的终止位置、位于第四列的比对上染色体版本基因组此区间的正向标识或者反向标识、位于第五列的比对上contig版本基因组的序列ID、位于第六列的比对上contig版本基因组的起始位置、位于第七列的比对上contig版本基因组的终止位置、位于第八列的比对上contig版本基因组此区间的正向标识或者反向标识。

7.根据权利要求5所述的一种染色体级的基因注释装置，其特征在于，所述基因结构注释更新模块(200)进一步包括将原有的染色体及位置对应到染色体版本及位置。

8.根据权利要求5所述的一种染色体级的基因注释装置，其特征在于，所述验证模块(400)进一步包括核对每条基因序列ID对应的蛋白和核酸序列的MD5值：若不一致，换后的染色体版本基因组的结构注释gff文件异常，若一致，转换后的染色体版本基因组的结构注释gff文件正常。

9.一种计算机可读性存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的染色体级的基因注释方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的染色体级的基因注释方法。