CN109285587B

CN109285587B - 一种circbank数据库系统及其应用

Info

Publication number: CN109285587B
Application number: CN201811221928.7A
Authority: CN
Inventors: 丁向明; 刘明; 王茜; 申健; 余荣发; 杜艺
Original assignee: Guangzhou Atcgene Technology Co ltd
Current assignee: Guangzhou Bio Polytron Technologies Inc
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2020-09-25
Anticipated expiration: 2038-10-19
Also published as: CN109285587A

Abstract

本发明涉及一种circbank数据系统，所述数据由数据持久层、数据模型层和人机交互层组成，包括circRNA科学命名模块、circRNA‑miRNA结合预测分析模块、circRNA保守性分析模块、circRNA的m6A修饰信息模块、circRNA突变分析模块、circRNA蛋白翻译潜能分析模块等六大模块；所述数据系统从circRNA基本基因注释、序列保守性、circRNA‑miRNA互作，翻译潜能、基因突变和RNA修饰信息等6大维度对每个circRNA进行全面注释，为circRNA在生物医学科研中的研究提供便利的检索和预测方法，通过该数据库系统可加速circRNA生物医学科研的进展。

Description

一种circbank数据库系统及其应用

技术领域

本发明属于基因数据库的技术领域，具体涉及一种circbank数据库系统、该数据系统的构建方法以及该数据系统的应用。

背景技术

circRNA(环形RNA)由RNA前体可变剪接产生，比线性RNA稳定性更强，数量众多，现已查明人类circRNA数量多达14万多种，是近几年RNA研究领域的热点。越来越多的证据表明circRNA与多种疾病的发生发展密切相关，可通过调控miRNA、蛋白及其亲本基因和编码蛋白，从而发挥特定的生物学功能。尤其在癌症研究领域，circRNA在肿瘤的生长、转移和耐药性方面发挥重要分子功能，相当一部分circRNA可作为癌症诊断和治疗分子靶标。

circRNA数量众多，人类现已发现的circRNA数量达到14万多种，如何组织管理这么多的circRNA信息，迫切需要一个科学的管理系统。circRNA命名方面尚未有统一规范实用的体系，目前已发布的其他系统，要么直接以阿拉伯数字命名(比如circbase数据库：hsa_circ_0007534)虽然可以解决circRNA数量多而名字不重叠的问题，但给理解circRNA分子带来了困难。

此外，circRNA分子在人体中大量存在，且功能强大，已有研究报道发现，circRNA在人类疾病，如肿瘤、老年痴呆和心血管疾病等都存在密切关联。如何阐释circRNA在这些疾病中的分子功能和分子机制，为上述疾病的诊断和治疗将带来重要突破。目前已有circRNA数据库都功能单一，只针对其中某个方向或其中一部分，很难为全面理解circRNA分子特性和功能带来益处。

目前国内外尚未出现类似的大型综合circRNA数据库系统，有些数据库信息老旧，实用意义大打折扣。如circbase数据库只提供circRNA的序列信息，circRNADb数据库主要提供蛋白翻译预测功能，CircNet主要提供circRNA结合miRNA预测功能等。

发明内容

本发明综合生物医学和计算机信息技术，构建了circRNA相关基因信息的综合分析预测系统circbank数据库系统，通过circbank数据库系统，可以方便、快捷、全面地分析circRNA相关特征和功能预测，加速circRNA科学研究进展。

本发明所述的circbank数据库系统是一套利用计算机信息技术构建的生物医药领域circRNA基因大型数据系统。

一种circbank数据库系统，所述数据系统运行架构由数据持久层、数据模型层和人机交互层组成。其中所述数据持久层位于最底层，其在磁盘上保存了记录文件；所述数据模型层位于中间层，用于提供与数据库连接及数据处理接口，完成来自上层的业务请求，实现对业务逻辑的处理；所述人机交互层位于最上层，其用于为用户提供各种数据接口，包括各级菜单和各种图形界面组件，交互层接受用户请求，对请求进行分析和分发，最后对处理结果进行展示或保存为对应格式的文件。

进一步，所述记录文件选自生物信息记录、数据文件及系统日志文件中的一种或多种。

进一步，所述记录文件选自circRNAS Data File、miRNAS Data File、Log File中的一种或多种。

进一步，所述circbank数据库系统包括六大模块：circRNA科学命名模块、circRNA-miRNA结合预测分析模块、circRNA保守性分析模块、circRNA的m6A修饰信息模块、circRNA突变分析模块、circRNA蛋白翻译潜能分析模块。

进一步，所述circRNA科学命名模块采用如下命名规则：

(1)命名基本格式：物种_circ基因名_三位阿拉伯数字；

(2)一个基因名只对应一个circRNA时，则命名为：物种_circ基因名_001；

(3)同一基因名对应多个circRNA时，三位阿拉伯数字的规则，主要依据转录其实和终止靠前的原则来排列，谁先转录谁排前，同时转录看谁先终止；

(4)针对正链来源的circRNA，依据circRNA坐标起点数值从左到右、从小到大排列顺序，排在最前面的命名为001，后续依次排列；

(5)针对负链来源的circRNA，依据circRNA坐标起点数值从右到左、从大到小排列顺序，排在最前面的命名为001，后续依次排列；

(6)遇到转录起始终止坐标完全一致但序列长度不一致的circRNA时，三位阿拉伯数字前加大写V，依据序列从长到短，从V001往后依次排列；

(7)同一基因名对应既有正链又有负链来源的circRNA时，按以上规则先命名正链的circRNA，再命名负链的circRNA；

(8)如果circRNA没有对应的基因名，则按对应的染色体来命名，数字按5位阿拉伯数字计数，由00001起始；

进一步，所述circRNA蛋白翻译潜能分析模块通过蛋白翻译预测算法工具CPAT：Coding-Potential Assement Tool预测circRNA的编码潜能。所述CPAT(Coding PotentialAssessment Tool)可快速区分新转录本是蛋白质编码还是非编码。CPAT使用了4种序列特征(开放阅读框大小，开放阅读框覆盖，Fickett TESTCODE统计和六联体使用偏倚)构建逻辑回归模型。CPAT在区分RNA编码能力方面表现优秀，其检测灵敏度可到0.96，特异性可达0.97，能够在数秒钟内处理数以千计的转录本。比Coding-Potential Calculator和PhyloCodon Substitution Frequencies快约4个数量级，且CPAT可接受FASTA或BED格式文件作为输入序列；

进一步，所述circRNA-miRNA结合预测分析模块采用miRanda和targetscan两种算法对所有人类circRNA进行了miRNA结合位点预测，通过该circbank数据库系统可检索每个人circRNA结合miRNA的情况。所述miRanda是最早的一个利用生物信息学对miRNA靶基因进行预测的软件,由Enright等人于2003年设计开发。作为最早的miRNA靶基因预测软件,miRanda对3′UTR的筛选依据主要是从序列匹配、miRNA与mRNA双链的热稳定性以及靶位点的保守性三个方面进行分析。其算法具体运行代码及参数如下：miranda hg19_miRNA_seq.fa circRNAseq.fa-sc 140>miranda_circ_prediction_output.txt；所述TargetScan是Lewis等人在2003年开发的一款用于预测哺乳动物miRNA靶基因的软件，该软件将RNA间相互作用的热力学模型与序列比对分析相结合，预测不同物种间保守的miRNA结合位点。其算法具体运行代码及参数如下：targetscan_70.pl human_mirna_seed.fa hsa_circRNA_seq.fa targetscan_circ_output.txt；

进一步，所述circRNA保守性分析模块通过序列对比分析，提供人circRNA对应保守的小鼠circRNA序列。

进一步，所述circRNA突变分析模块包含了circRNA基因位置上包含的人类疾病相关基因突变位点信息，其通过circRNA基因区域包含的基因突变位点ID号、突变位点在基因组上坐标信息、染色体正负链和参考文献的pubmed ID号进行展示。

本发明还提供了采用上述circbank数据库系统在人类circRNA基因库的综合检索应用，对circRNA基因库构建全新命名体系，综合运用circRNA基因序列、基因注释信息、miRNA结合预测、翻译蛋白潜能、序列保守性、序列突变信息和circRNA转录后修饰信息，为circRNA在生物医学科研中的研究提供检索和预测。

本发明circbank数据系统主要包含以下几方面主要功能：

(1)对14万中人的circRNA基因进行了全新的科学命名，有利于circRNA研究规范和传承；

(2)提供circRNA基因基本特征注释信息；

(3)提供circRNA序列检索提取功能；

(4)提供预测了circRNA结合miRNA的信息；

(5)提供circRNA翻译蛋白潜能的预测评估；

(6)提供circRNA基因序列保守性分析结果；

(7)提供circRNA转录后修饰信息。

本发明的circbank数据库系统引入circRNA来源基因的信息并结合转录起始信息，可直观的从circRNA名称上了理解更多circRNA的信息，如上面的hsa_circ_0007534在我们circbank中对应的名称是hsa_circDDX42_005，从该名称中我们就可以得到该circRNA来源于人DDX42基因，转录顺序为第5号circRNA。大大提高了circRNA名称的可读性和信息量；

此外，本发明的circbank数据系统从circRNA基本基因注释、序列保守性、circRNA-miRNA互作，翻译潜能、基因突变和RNA修饰信息等6大维度对每个circRNA进行全面注释，是真正的circRNA大型综合数据系统。

本发明circbank数据库系统具有如下优点：

1、通过本发明circbank数据系统的circRNA命名模块，可直观看出circRNA来源宿主基因的名称，一致性好。对于新发现的circRNA也适用于本命名系统，如hsa_circHIPK3_001，表示来源于蛋白编码基因HIPK3的001号circRNA。目前国际上使用的circBase数据库的命名则采用阿拉伯数字，如hsa_circ_0021592，可读性比较差，单从名称很难看出该circRNA来自HIPK3的001号circRNA；

2、circbank数据系统综合分析了所有人circRNA与小鼠circRNA序列间保守性。一般认为物种间保守性高的circRNA往往有更重要的生物学功能，本系统利用序列比对技术对所有人跟小鼠的circRNA的进行了分析，并在系统中进行了注明。方面使用者检索查询保守性高的circRNA，国内外尚未出现该功能；

3、circbank数据库采用miRanda和targetscan两种算法对所有人类circRNA进行了miRNA结合位点预测，通过该系统可检索每个人circRNA结合miRNA的情况。采用两种以上的算法在预测准确度上更高；

4、结合最新最稳定的计算机数据库技术，架构circbank数据管理系统，保障数据快速稳定检索和分析，采用MySQL进行数据管理，采用DB Connector、Data Reader/Writer等进行数据模型处理，用户使用检索界面则采用人机交互层(Interaction Layer)技术，实现用于各类数据检索和分析请求；

通过利用本发明circbank数据系统工具可以加速科研工作者的研究进度，越来越多circRNA研究成果出现，也会日益扩展circbank数据系统本身的信息量，使得circbank预测分析系统更准确。为研究circRNA在人类疾病中的诊断和治疗带来帮助。

附图说明

图1为本发明circbank数据库系统的运行架构图；

图2为六个模块在circbank中数据架构图；

图3为circbank数据库系统命名方式；

图4为circRNA基因基本特征注释信息示意图；

图5为circRNA序列检索提取功能展示的序列图；

图6为circRNA结合miRNA信息示意图；

图7为circRNA基因序列保守性分析示意图；

图8为circRNA详细信息检索circbankid反馈结果示意图；

图9为circRNA详细信息检索microRNA反馈结果示意图。

具体实施方式

下面将结合说明书附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的circbank数据库实现了对circRNA基因构建了全新命名体系，综合了circRNA基因序列、基因注释信息、miRNA结合预测、翻译蛋白潜能、序列保守性、序列突变信息和circRNA转录后修饰等信息，是人类circRNA基因的综合检索系统。该circRNA基因信息系统，汇集了前沿的大数据挖掘技术，为circRNA在生物医学科研中的研究提供便利的检索和预测方法，通过该系统可加速circRNA生物医学科研的进展。

实施例

一种circbank数据库系统，其由三部分组成，最底层为数据持久层(DataPersistence Layer)，采用MySQL数据库作为数据管理系统，在磁盘上保存了生物信息记录、数据文件及系统日志文件,如circRNAS Data File、miRNAS Data File、Log File等；中间层为数据模型层(Model Layer)，提供与数据库连接及数据处理接口，完成来自上层的业务请求，实现对业务逻辑的处理，如DB Connector、Data Reader/Writer等；最上层为人机交互层(Interaction Layer)，为用户提供各种功能接口，包括各级菜单和各种图形界面组件，交互层接受用户请求，对请求进行分析和分发，最后对处理结果进行展示或保存为一格式的文件；所述circbank数据系统的运行架构如图1所示；

所述circbank数据系统包括circRNA科学命名模块、circRNA-miRNA结合预测分析模块、circRNA保守性分析模块、circRNA的m6A修饰信息模块、circRNA突变分析模块、circRNA蛋白翻译潜能分析模块；其中各个模块在circbank中数据架构如图2所示；

1.circRNA全新科学命名方式

对于circbank数据库系统命名方式如图3所示，采用如下命名规则：

(1)命名基本格式：物种_circ基因名_三位阿拉伯数字，如hsa_circHIPK3_001；

(3)同一基因名对应多个circRNA时，三位阿拉伯数字的规则，主要依据转录起始和终止靠前的的原则来排列，谁先转录谁排前，同时转录看谁先终止；

(4)针对正链来源的circRNA，依据circRNA坐标起点数值从左到右、小到大排列顺序，排在最前的命名为001，依次002……；

(5)针对负链来源的circRNA，依据circRNA坐标起点数值从右到左、从大到小排列顺序，排在前面的命名为001，依次002……；

(6)遇到转录起始终止坐标完全一致但序列长度不一致的circRNA时，三位阿拉伯数字前加大写V，依据序列从长到短，依次V001，V002……；

(7)同一基因名对应既有正链又有负链来源的circRNA时，按以上规则先命名正链的circRNA再命名负链的；

(8)如果circRNA没有对应的基因名，则按对应的染色体来命名,数字按5位阿拉伯数字计数如下表1所示:

表1

染色体坐标	正/负链	转录本号	基因名称
				Chr11:33307958-33369559	+	NM_005734	NA

则命名为：hsa_circ_chrll_00001；

2.circRNA基因基本注释信息

如图4所示，通过网页直接展示circRNA相关基本注释信息，如circbank ID号，宿主基因名称(Host gene symbol)，circbase ID号，对应转录本编号(best transcript)，circRNA基因在染色体上的坐标信息(Position)，基因间区域(Annotation)，circRNA序列长度(Length)。

3.circRNA序列检索提取功能

如图5所示，circRNA序列检索提取功能，网页上直接提供对应circRNA的成熟序列。

4.circRNA结合miRNA的信息

如图6所示，采用miRanda和targetscan两种算法预测circRNA与miRNA之间的配对关系，使得结果更为准确。

5.circRNA翻译蛋白潜能的预测评估

如下表2所示，通过蛋白翻译预测算法工具(CPAT：Coding-Potential AssessmentTool)，进行预测circRNA的编码潜能：

表2

6.circRNA基因序列保守性分析

如图7所示，通过序列对比分析，提供人circRNA对应保守的小树circRNA序列。

7.circRNA转录后修饰信息

如下表3所示，本发明数据系统收录所有报道circRNA转录后修饰相关研究的数据：

表3

8.circRNA基因突变数据信息

如下表4所示，本发明数据系统整合分析了circRNA基因位置上包含的人类疾病相关基因突变位点信息，为circRNA在疾病研究方面提供最直接参考信息：

表4

上表4中，Mutation ID为circRNA基因区域包含的基因突变位点ID号；Mutationgenome position为突变位点在基因组上坐标信息；Mutation strand为染色体正负链；Pubmed PMID为参考文献的pubmed ID号；

9.circRNA数据库系统运行方式

circRNA科学命名模块、circRNA-miRNA结合预测分析模块、circRNA保守性分析模块、circRNA的m6A修饰信息模块、circRNA突变分析模块、circRNA蛋白翻译潜能分析模块等六大模块数据主要放在数据模型层，用户通过人机交互层在网页上就可以分别检索六大模块相关的数据信息。

(1)主页快捷搜索

若用户想查询HIPK3基因相关的信息，可在主页搜索框内，输入HIPK3基因名称，点击search按钮，随后将返回HIPK3基因来源的circRNA等信息，如下表5所示：

表5

上述表5中包含HIPK3基因来源的circRNAs信息表，每行代表一个circRNAs的信息，包含circbank数据库ID号，对应circBase数据库的ID号，染色体坐标(strand，length)，circRNA序列长度(length)，该circRNA可结合的microRNA(microRNA)，基因名称(Gene_Symbol),对应在小鼠中保守的circRNA的ID号(conserved_mouse_circRNA)。circbank id和microRNA列均包含超链接，点击可进入详细界面；

(2)circRNA详细信息检索

若需检索hsa_circHIPK3_001这个circRNA分子的详细信息，可在“circRNA”搜索框中，输入circbank ID号hsa_circHIPK3_001，点击search按钮，将返回hsa_circHIPK3_001相关的列表信息，如下表6所示：

表6

上述表6中点击circbank id中的hsa_circHIPK3_001将返回hsa_circHIPK3_001相关的详细信息，如图8所示，包含circRNA科学命名模块(basic information)、circRNA保守性分析模块、circRNA的m6A修饰信息模块、circRNA突变分析模块、circRNA蛋白翻译潜能分析模块。

点击miRNA将返回circRNA-miRNA结合预测分析模块信息，如图9所示，主要是hsa_circHIPK3_001可能结合的miRNA。

本发明的circbank数据系统利用MySQL、DB Connector和人机交互等计算机技术手段实现circRNA数据综合管理和检索分析功能，具有如下优点：

1.circRNA全新科学命名系统，有利于circRNA研究规范和传承；

2.circRNA基因基本特征注释信息，全面可靠；

3.circRNA序列检索提取功能，方便直观；

4.circRNA结合miRNA的信息，综合两种算法，更准确；

5.circRNA翻译蛋白潜能的预测评估，算法可靠，更准确；

6.circRNA基因序列保守性分析，全新功能；

7.circRNA转录后修饰信息，circRNA最前沿的研究领域；

8.circRNA基因突变信息整合，第一次将人类疾病相关突变与circRNA进行关联，为circRNA在疾病方面研究提供第一手参考信息。

相对比现有技术，本发明的更多优点如下：

circRNA数量众多，人类现已发现的circRNA数量达到14万多种，如何组织管理这么多的circRNA信息，迫切需要一个科学的管理系统。CircRNA命名方面尚未有统一规范实用的体系，目前已发布的其他系统，要么直接以阿拉伯数字命名，比如circbase数据库：hsa_circ_0007534，虽然可以解决circRNA数量多而名字不重叠的问题，但给理解circRNA分子带来了困难。而本发明circbank数据库引入circRNA来源基因的信息并结合转录起始信息，可直观的从circRNA名称上了理解更多circRNA的信息，如上面的hsa_circ_0007534在我们circbank中对应的名称是hsa_circDDX42_005，从该名称中我们就可以得到该circRNA来源于人DDX42基因，转录顺序为第5号circRNA。大大提高了circRNA名称的可读性和信息量。

CircRNA分子在人体中大量存在，且功能强大，已有研究报道发现，circRNA在人类疾病，如肿瘤、老年痴呆和心血管疾病等都存在密切关联。如何阐释circRNA在这些疾病中的分子功能和分子机制，为上述疾病的诊断和治疗将带来重要突破。目前已有circRNA数据库都功能单一，只针对其中某个方向或其中一部分，很难为全面理解circRNA分子特性和功能带来益处。本发明的circbank数据库从circRNA基本基因注释、序列保守性、circRNA-miRNA互作，翻译潜能、基因突变和RNA修饰信息等6大维度对每个circRNA进行全面注释，是真正的circRNA大型综合数据库。

Claims

1.一种circbank数据库系统，其特征在于，所述数据库系统运行架构由数据持久层、数据模型层和人机交互层组成；其中所述数据持久层位于最底层，其在磁盘上保存了记录文件；所述数据模型层位于中间层，用于提供与数据库连接及数据处理接口，完成来自上层的业务请求，实现对业务逻辑的处理；所述人机交互层位于最上层，其用于为用户提供各种数据接口，包括各级菜单和各种图形界面组件，交互层接受用户请求，对请求进行分析和分发，最后对处理结果进行展示或保存为对应格式的文件；所述circbank数据库系统包括六大模块：circRNA科学命名模块、circRNA-miRNA结合预测分析模块、circRNA保守性分析模块、circRNA的m6A修饰信息模块、circRNA突变分析模块、circRNA蛋白翻译潜能分析模块；

所述circRNA科学命名模块采用如下命名规则：

（1）命名基本格式：物种_circ基因名_三位阿拉伯数字；

（2）一个基因名只对应一个circRNA时，则命名为：物种_circ基因名_001；

（3）同一基因名对应多个circRNA时，三位阿拉伯数字的规则，依据转录起始和终止靠前的原则来排列，谁先转录谁排前，同时转录看谁先终止；

（4）针对正链来源的circRNA，依据circRNA坐标起点数值从左到右、从小到大排列顺序，排在最前面的命名为001，后续依次排列；

（5）针对负链来源的circRNA，依据circRNA坐标起点数值从右到左、从大到小排列顺序，排在最前面的命名为001，后续依次排列；

（6）遇到转录起始终止坐标完全一致但序列长度不一致的circRNA时，三位阿拉伯数字前加大写V，依据序列从长到短，从V001往后依次排列；

（7）同一基因名对应既有正链又有负链来源的circRNA时，按以上规则先命名正链的circRNA，再命名负链的circRNA；

（8）如果circRNA没有对应的基因名，则按对应的染色体来命名，数字按5位阿拉伯数字计数，由00001起始。

2.根据权利要求1所述的circbank数据库系统，其特征在于，所述记录文件选自生物信息记录、数据文件及系统日志文件中的一种或多种。

3.根据权利要求1所述的circbank数据库系统，其特征在于，所述记录文件选自circRNAS Data File、miRNAS Data File、Log File中的一种或多种。

4.根据权利要求1所述的circbank数据库系统，其特征在于，所述circRNA蛋白翻译潜能分析模块通过蛋白翻译预测算法工具CPAT：Coding-Potential Assement Tool预测circRNA的编码潜能。

5.根据权利要求1所述的circbank数据库系统，其特征在于，所述circRNA-miRNA结合预测分析模块采用miRanda和targetscan两种算法对所有人类circRNA进行了miRNA结合位点预测，通过该circbank数据库系统可检索每个人circRNA结合miRNA的情况。

6.根据权利要求1所述的circbank数据库系统，其特征在于，所述circRNA保守性分析模块通过序列对比分析，提供人circRNA对应保守的小鼠circRNA序列。

7.根据权利要求1所述的circbank数据库系统，其特征在于，所述circRNA突变分析模块包含了circRNA基因位置上包含的人类疾病相关基因突变位点信息，其通过circRNA基因区域包含的基因突变位点ID号、突变位点在基因组上坐标信息、染色体正负链和参考文献的pubmed ID号进行展示。

8.采用如权利要求1的circbank数据库系统在人类circRNA基因库的综合检索应用，其特征在于，对circRNA基因库构建全新命名体系，综合运用circRNA基因序列、基因注释信息、miRNA结合预测、翻译蛋白潜能、序列保守性、序列突变信息和circRNA转录后修饰信息，为circRNA在生物医学科研中的研究提供检索和预测。