CN115424670A

CN115424670A - 一种构建物种基因组信息数据库的方法、设备和介质

Info

Publication number: CN115424670A
Application number: CN202211170835.2A
Authority: CN
Inventors: 毛维康; 陈志锋; 郎秋蕾
Original assignee: Hangzhou Lianchuan Gene Diagnosis Technology Co ltd
Current assignee: Hangzhou Lianchuan Gene Diagnosis Technology Co ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-02

Abstract

本发明公开了一种构建物种基因组信息数据库的方法、设备和介质，属于生物信息技术领域。所述方法包括：获得目标物种在不同数据库中的基因组序列信息文件和基因组注释信息文件；对基因组注释信息进行处理；提取基因组组成元件序列信息；进行GO和/或KEGG功能注释。利用本发明的方法和系统，能够快速地应用于下游多种组学中的序列比对分析，如转录本比对，基因比对，小RNA比对等。

Description

一种构建物种基因组信息数据库的方法、设备和介质

技术领域

本发明属于生物信息技术领域，具体地，涉及一种构建物种基因组信息数据库的方法、设备和介质。

背景技术

物种基因组数据库的建立对于生物信息学领域而言是一笔巨大的财富，其极大地方便了广大使用者熟悉物种的基本信息、了解目前的科研进展、进行序列比对分析，下载基因组数据、查看基因结构/变异位点等。同时绝大部分物种基因组数据库的信息都是共享的，方便对数据库进行不断地更新迭代。

目前比较规范以及权威的一些数据库主要有NCBI、ENSEMBL、UCSC等。

NCBI(National Center for Biotechnology Information，美国国立生物技术信息中心)于1988年11月4日建立，是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。目前有将近40个在线的文库和分子生物学数据库，包括：PubMed、GEO、RefSeq和GenBank等，其中主要存储物种基因组信息的数据库为RefSeq与GenBank。其中，GenBank是一个开放的数据库，对每个基因都含有许多序列。研究者或使用者都可以自己提交序列，因此其数据可能重复或者不准。而RefSeq数据库是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。RefSeq序列是NCBI筛选过的非冗余数据库，一般可信度比较高。

ENSEMBL是由英国Sanger研究所Wellcome基金会(WTSI)和欧洲分子生物学实验室所属分部欧洲生物信息学研究所(EMBI-EBI)共同协作运营的一个项目。Ensembl项目得到的数据可以用于支持基因组的比较基因组，进化，序列突变和转录调控方面研究。ENSEMBL注释基因可以用于多重序列比对，预测结构和收集疾病数据。

UCSC Genome Database(http://genome.ucsc.edu/)是加州大学圣克鲁兹分校(UCSC)创立和维护的一个重要的生物学数据库，也是基因组研究过程中广泛使用的数据库。它包含了大量基因组数据，包括基因注释信息(ENCODE)、基因组间的比对信息、重复序列、同源序列、参考序列(mRNA)、表型、表达谱、调控信息、保守性、变异、重复区域等一系列信息。

GO是基因本体联合会(Gene Onotology Consortium)所建立的国际标准化的基因功能分类体系。提供了三类描述的系统定义方式，用于描述基因产物的功能，GO的结构包括三个方面：(1)分子功能(Molecular Function)，描述的是在分子生物学上的活性如催化活性或结合活性；(2)参与的生物学过程(Biological Process)，描述的是由分子功能有序地组成的，具有多个步骤的一个过程；(3)所处的细胞位置(Cellar Component)，指基因产物位于细胞器或基因产物组件中如核糖体、蛋白酶体等。

KEGG(Kyoto Encyclopedia of Genes and Genomes，京都基因和基因组百科全书)，其联系了基因组分子水平的信息与高层次生物系统功能信息，包括细胞层次、生物体层次、生态环境层次的数据库。它是生物系统的一种计算机表示形式，包括作为整个系统架构单元的各种基因和蛋白(基因组信息)，各种参与相互作用、化学反应关系网络(系统信息)的化学物质(化学信息)，还包括对生物系统产生扰动作用的各种疾病和药物信息(健康信息)

随着越来越多的物种的基因组信息被测序出来，数据库也逐渐丰富起来。但大部分数据库均只提供在线版本，对于需要频繁以及大批量使用基因组信息的研究带来了很大的限制，如内存限制、网络连接速度限制等，极大地影响使用效率。因此数据库本地化将能够极大提高使用效率，一般数据库的本地化仅提供基因组全长序列信息以及基因组注释，未对基因组序列中组成成分进行细分，无法直观找到基因、转录本等组成元件的信息，对于后续本地化的分析仍存在一些缺陷。同时一些数据库提供的基因注释文件经常出现信息缺失以及格式不规范的情况，给后续数据库的构建以及后续分析软件带来挑战；并且大部分基因组注释信息中缺少UTR(非翻译区)的注释信息。

发明内容

为了解决上述技术问题中的至少一个，本发明采取的技术方案如下：

本发明第一方面提供一种构建物种基因组信息数据库的方法，包括以下步骤：

S1，获得目标物种在不同数据库中的基因组序列信息文件和基因组注释信息文件；其中，所述不同数据库包括Ensembl数据库和选自包括NCBI数据库、UCSC基因数据库的组中的至少一种，

S2，基因组注释信息处理：

S21对于Ensembl数据库得到的gtf格式注释信息文件，缺失gene_name信息的基因信息行添加gene_name信息；

S22，对于Ensembl数据库得到的gff格式注释信息文件，跳过第三列feature字段不属于基因结构注释的行；

S23，对于其他数据库得到的gff格式注释信息文件，进行如下处理：

将EntrezeID信息作为gene_id，将Name信息作为gene_name，如果gene_biotype与description字段信息存在则保留；

对于转录本信息的行，添加Parent转录本信息，如果transcript_id与transcript_biotype存在则保留；

对于外显子信息的行，加上exon_id，加上外显子对应Parent转录本信息，如果外显子信息不包含Parent信息，即以基因ID作为转录本ID；

对于CDS注释信息，添加对应Parent转录本信息，如果CDS信息不包含Parent转录本信息，即以基因ID作为转录本ID。

在本发明的一些实施方案中，所述方法进一步包括：

S3，利用位置信息提取出基因组组成单元序列，生成序列信息文件。

在本发明的一些实施方案中，所述基因组组成单元包括基因、转录本、外显子、CDS和UTR。

在本发明的一些实施方案中，针对UTR，3’UTR取CDS下游边界的30bp序列长度，若不存在CDS信息，则将基因中最后一个位置的转录本作为CDS的下游边界。

进一步包括：

S4，获得序列的索引文件。

在本发明的一些实施方案中，所述方法进一步包括：

S5，对序列进行GO和/或KEGG功能注释，得到GO和/或KEGG功能注释文件。

在本发明的一些实施方案中，对于不存在GO/KEGG数据库功能注释的基因，通过构建好的索引文件进行序列比对，选择evalue阈值为小于10-5的比对结果作为注释结果，以获得每个未注释的基因的功能注释信息。

本发明第二方面提供一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如本发明第一方面任一所述方法的步骤。

本发明第三方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一所述方法的步骤。

本发明的有益效果

相对于现有技术，本发明的有益效果是：

利用本发明的方法和系统，根据基因组注释信息将基因组序列进行拆分，得到包含转录本等基因组组成元件的序列信息；针对UTR、外显子进行进一步的规范整理校正；并对于无基因注释gtf文件但有gff文件的参考基因组进行格式转换；并得到基因ID与基因名称对应关系、基因ID与转录本对应关系，基因的功能性描述、参与信号通路信息等。通过构建常见生物信息学比对软件的参考索引，能够快速地应用于下游多种组学中的序列比对分析，如转录本比对，基因比对，小RNA比对等。

附图说明

图1示出了本发明构建物种基因组信息数据库的流程图。

图2示出了Ensembl数据库获得的部分文件信息。

图3示出了Ensembl数据库获得的gtf文件部分信息。

图4示出了NCBI数据库获得的gtf文件部分信息。

图5示出了本发明构建的物种基因组信息数据库的索引文件。

图6示出了本发明构建的物种基因组信息数据库的注释文件。

图7示出了本发明构建的物种基因组信息数据库的基因注释信息文件。

图8示出了本发明构建的物种基因组信息数据库的基因GO注释文件

图9示出了本发明构建的物种基因组信息数据库的基因KEGG注释文件。

图10示出了本发明构建的物种基因组信息数据库的基因ID与基因名称对应文件。

图11示出了本发明构建的物种基因组信息数据库的转录本与基因对应关系文件。

图12示出了本发明构建的物种基因组信息数据库的转录本与KO号对应关系文件。

具体实施方式

除非另有说明、从上下文暗示或属于现有技术的惯例，否则本申请中所有的份数和百分比都基于重量，且所用的测试和表征方法都是与本申请的提交日期同步的。在适用的情况下，本申请中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考，且其等价的同族专利也引入作为参考，。如果现有技术中披露的具体术语的定义与本申请中提供的任何定义不一致，则以本申请中提供的术语定义为准。

本申请中的数字范围是近似值，因此除非另有说明，否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值，条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。例如，如果记载有是100至1000，意味着明确列举了所有的单个数值，例如100，101，102等，以及所有的子范围，例如100到166，155到170，198到200等。对于包含小于1的数值或者包含大于1的分数(例如1.1，1.5等)的范围，则适当地将1个单位看作0.0001，0.001，0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围，通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例，并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本申请中。

术语“包含”，“包括”，“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在，且与这些其它的组分、步骤或过程是否在本申请中披露无关。为消除任何疑问，除非明确说明，否则本申请中所有使用术语“包含”，“包括”，或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反，出来对操作性能所必要的那些，术语“基本上由……组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由……组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明，否则术语“或”指列出的单独成员或其任何组合。

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。

实施例

以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白，下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术，因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白，这里所公开的特定实施例可以做很多修改，仍然能得到相同的或者类似的结果，而非背离本发明的精神或范围。

除非另有定义，所有在此使用的技术和科学的术语，和本发明所属领域内的技术人员所通常理解的意思相同，在此公开引用及他们引用的材料都将以引用的方式被并入。

那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的仪器设备，如无特殊说明，均为实验室常规仪器设备；下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。

实施例1一种构建基因组数据库的方法

如图1所示，本实施例一种构建基因组数据库的方法。

1.Ensembl数据库来源基因组信息的下载

Ensembl数据库来源基因组序列文件为fa格式，网络存储路径如下：

常规物种：ftp://ftp.ensembl.org/pub/release-$version/fasta/$species/dna/

植物：ftp://ftp.ensemblgenomes.org/pub/release-$version_tmp/plants/fasta/$species/dna/

真菌：ftp://ftp.ensemblgenomes.org/pub/fungi/release-$version_tmp/fasta/$species/dna/

动物：ftp://ftp.ensemblgenomes.org/pub/metazoa/release-$version_tmp/fasta/$species/dna/

基因组注释文件为gtf格式，网络存储路径如下：

常规物种：ftp://ftp.ensembl.org/pub/release-$version/fasta/$species/gtf/

植物：ftp://ftp.ensemblgenomes.org/pub/release-$version_tmp/plants/fasta/$species/gtf/

真菌：ftp://ftp.ensemblgenomes.org/pub/fungi/release-$version_tmp/fasta/$species/gtf/

动物：ftp://ftp.ensemblgenomes.org/pub/metazoa/release-$version_tmp/fasta/$speciesgtf/

其中，常规物种包含部分植物、动物和真菌物种，$version为版本信息，可以为已发表的版本号如101，$species为物种拉丁名称，例如homo_sapiens(人)。

得到文件存储网址路径后通过linux系统中wget工具下载对应网址文件，基于网址文件查找每个染色体基因组序列与基因组注释文件gtf文件下载。对于人的基因组数据，下载如图2所示。

2.其他数据库来源基因组信息的下载

其他数据库包括NCBI、UCSC、JGI-Phytozome等。

对于人，基因组信息的下载网址分别是：

NCBI:https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.40

_GRCh38.p14/GCF_000001405.40_GRCh38.p14_genomic.fna.gz

UCSC:https://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/

3.基因组注释信息处理

对于Ensembl数据库基因注释gtf文件(如图3)，添加gene_name信息：在gtf文件中attributes列中添加gene_name信息，保持后续分析能获取到gene_name信息，将gene_id信息填充gene_name。gtf文件格式如下：

1)seqname：序列的名字。通常格式染色体ID或是contig ID。

2)source：注释的来源。通常是预测软件名或是公共数据库。

3)start：起始位置，从1开始计数。

4)end：终止位置。

5)feature：基因结构.根据所使用软件不同，feature types必须注明。CDS，start_codon，stop_codon是一定要含有的类型。

6)score：这一列的值表示对该类型存在性和其坐标的可信度，不是必须的，可以用点“.”代替。

7)strand：链的正向与负向，分别用加号+和减号-表示。

8)frame：密码子偏移，可以是0、1或2。

9)attributes：必须要有以下两个值。①gene_id value：表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开，如果值为空，则表示没有对应的基因。②transcript_id value：预测的转录本的唯一ID。transcript_id与value值用空格分开，空表示没有转录本。

对于非Ensembl数据库(即其他数据库)基因注释gff文件(如图4)，过滤掉第三列feature字段不属于基因结构注释的行。gff格式如下：

1)seqid：序列的id。

2)source：注释的来源，一般指明产生此gff3文件的软件或方法(如Augustus或RepeatMasker)。如果未知，则用点(.)代替。

3)type：类型，此处不受约束，但为下游分析方便，建议使用gene，repeat_region，exon，CDS，或SO对应编号等。

4)start：起始位置，从1开始计数(区别于bed文件从0开始计数)。

5)end：终止位置。

6)score：得分，注释信息可能性说明，可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。(indicates the confidence of the sourceon the annotated feature)

7)strand：“+”表示正链，“－”表示负链，“.”表示不需要指定正负链，“？”表示未知。

8)phase：步进。仅对编码蛋白质的CDS有效，本列指定下一个密码子开始的位置。可以是0、1或2，表示到达下一个密码子需要跳过碱基个数。

9)attributes：属性。一个包含众多属性的列表，格式为“标签＝值”(tag＝value)，不同属性之间以分号相隔。

对于其他数据库来源的gff文件，将EntrezeID信息作为gene_id，将Name信息作为gene_name，如果gene_biotype与description字段信息存在则保留；对于转录本信息的行，添加Parent转录本信息，如果transcript_id与transcript_biotype存在则保留；对于外显子信息的行，加上exon_id，加上外显子对应Parent转录本信息，如果外显子信息不包含Parent转录本信息，即以基因ID作为转录本ID。对于CDS注释信息，添加对应Parent转录本信息，如果CDS信息不包含Parent转录本信息，即以基因ID作为转录本ID。

4.提取基因组组成单元信息

基因组主要组成单元包含基因、转录本、外显子、CDS等基因结构区，通过整理之后的gtf文件中记录的各元件所在基因组中起始终止位置信息，使用bedtools软件中getfasta功能将基因、转录本、外显子、CDS等信息提取出单独的序列文件，并使用对应的ID信息作为序列ID。getfasta主要通过位置信息找到基因组中对应位置区域的碱基信息，生成对应序列信息。

同时针对不同转录本类型，分为mRNA(信使RNA)、miRNA(小RNA)、lncRNA(长链非编码RNA)、circRNA(环状RNA)。针对UTR结构区域，3’UTR取CDS下游边界下游30bp序列长度，对于不存在CDS信息的gtf文件，使用基因中最后一个位置的转录本作为CDS的下游边界。

5.构建比对索引

构建基因组序列、基因序列、转录本序列比对软件如bowtie、botiwe2、hisat2、blast、diamond的索引，可以快速用于下游测序短read数据比对基因或者转录本并获得对应丰度，其中，blast与diamond常用于核酸或蛋白序列之间进行比对，确认序列之间相似性。

对于bowtie软件或bowtie2软件或hisat2软件构建索引通过软件提供命令行进行：

<bowtie-build/bowtie2-build/hisat2-build>

<reference_in><ebwt_outfile_base>

bowtie-build/bowtie2-build/hisat2-build为各自软件时使用的指令

Reference_in为参考基因组序列

ebwt_outfile_base为输出文件路径

对于blast软件构建索引通过blast软件提供命令行进行：

makeblastdb-in<reference_in>-dbtype nucl-parse_seqids

Reference_in为参考基因组序列

dbtype为序列类型，nucl为核酸，prot为蛋白

对于diamond软件构建索引通过diamond软件提供命令行进行：

diamond makedb-d<reference_in>-o<outfile_base>

Reference_in为参考基因组序列

outfile_base为输出文件路径

6.GO、KEGG功能数据库注释

对于已有GO、KEGG的常见物种，可以通过BioMart API获取基因ID与GO数据库中GOID与GO关系，并且下载GO ID与GO Term(分类通路)、GO category(分类)。使用KEGG提供的API进行下载，获得基因ID与KEGG中KOEntry、pathwayID、pathway Defination的注释信息。

对于目前不存在GO、KEGG数据库功能注释的物种，通过构建好的索引信息进行序列比对，选择evalue阈值为小于10^-5的比对结果作为最终参考的结果信息，以获得每个未注释的基因ID与GO Term、GO category、KOEntry、pathwayID、pathway Defination的功能注释信息。

实施例2针对Homosapiens建的数据库

利用实施例1对人(Homo sapiens)建立基因组数据库，得到的数据库结构如图5和图6所示。

索引文件均为二进制文件，用于快速比对序列。基因注释信息文件、基因GO注释文件、基因KEGG注释文件、基因ID与基因名称对应文件、转录本注释信息文件转录本与基因对应关系转录本与KO号对应关系文件格式分别如图7～图12所示。如下：

利用实施例1的构建方法构建数据库，总体花费时间在14h左右，具体如下表所示：

步骤	花费时间(小时)
		下载基因数据	7
处理基因组	1
		提取基因组成单元序列	1
构建基因组索引	5

利用实施例1构建的数据库用于下游转录组数据比对，使用原始测序数据数据量为6G时花费时间为1h，大大节约了比对时间。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种构建物种基因组信息数据库的方法，其特征在于，包括以下步骤：

S2，基因组注释信息处理：

S21对于Ensembl数据库得到的gtf格式注释信息文件，添加gene_name信息；

2.根据权利要求1所述的方法，其特征在于，进一步包括：

S3，利用位置信息提取出基因组组成元件序列，生成序列信息文件。

3.根据权利要求2所述的方法，其特征在于，所述基因组组成元件包括基因、转录本、外显子、CDS和UTR。

4.根据权利要求3所述的方法，其特征在于，针对UTR，3’UTR取CDS下游边界的30bp序列长度，若不存在CDS信息，则将基因中最后一个位置的转录本作为CDS的下游边界。

5.根据权利要求2-4任一所述的方法，其特征在于，进一步包括：

S4，获得序列的索引文件。

6.根据权利要求5所述的方法，其特征在于，进一步包括：

7.根据权利要求6所述的方法，其特征在于，对于不存在GO/KEGG数据库功能注释的基因，通过构建好的索引文件进行序列比对，选择evalue阈值为小于10^-5的比对结果作为注释结果，以获得每个未注释的基因的功能注释信息。

8.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述方法的步骤。