CN103399948A

CN103399948A - 一种基因组代谢网络初模型信息挖掘方法

Info

Publication number: CN103399948A
Application number: CN2013103584683A
Authority: CN
Inventors: 薛卫; 张梁; 柴文平; 倪丁香; 徐焕良; 任守纲
Original assignee: Nanjing Agricultural University
Current assignee: Nanjing Agricultural University
Priority date: 2013-08-16
Filing date: 2013-08-16
Publication date: 2013-11-20

Abstract

一种基因组代谢网络初模型信息挖掘方法，它包括以下步骤：对于KEGG网站，基于网页关键内容先验位置信息，采用网站脚本语义分析技术，提取基因-蛋白-反应之间的对应关系即确定GPR关系，建立excel表格呈现GPR关系信息，得到基因组代谢网络初模型。本方法构出的模型统一了反应格式，方便同其他模型进行比较查阅。本方法已在树干毕赤酵母基因组规模代谢网络构建中得到应用，与传统的基于KEGG数据库的网络初模型构建相比，节省了大量的劳力和时间，大大提高了构建效率。

Description

一种基因组代谢网络初模型信息挖掘方法

技术领域

本发明涉及一种使用计算机编程语言从网页中挖掘生物信息数据及存取为微软公司excel格式数据的方法，属于生物信息学领域。

背景技术

随着基因组学、蛋白组学、代谢组学等高通量数据的不断积累，基因组代谢网络模型的研究已经成为系统生物学的研究热点之一。它是在系统水平上研究所有参与代谢的反应及关联的基因和酶的相互作用，可以用于指导代谢工程的改造。目前，代谢网络构建还没有完全实现自动化，且构建过程需要大量的人力和劳力，耗时长。所以，代谢网络重构的自动化成为提高网络重构速度并推动代谢网络研究发展的重要问题，逐渐引起研究者们的兴趣。

基因组规模代谢网络模型的构建包括全基因组注释与初模型构建和精细模型修正两个阶段。构建基因组代谢网络初模型主要就是确定GPR关系，即基因-蛋白-反应之间的对应关系。一般都是通过基因组注释信息从各个代谢网络数据库和文献信息中获取相应的GPR关系。最常用的网络数据库就是KEGG数据库。KEGG数据库是系统分析基因功能、基因组信息的数据库，包括物种的基因与基因组、酶促反应及其途径和各种生化物质的信息，是代谢网络构建中强有力的工具。为确保数据的及时更新，以往研究者在重构代谢网络过程中，为读取数据不得不频繁访问KEGG的远程在线服务器，非常耗时耗力。并且，目前KEGG各个子数据库不能够免费下载，需要付费使用。所以，实现一种能够批量在线获取并存取数据的方法就显得非常必要了。

发明内容

本发明的目的是针对上述问题，提出一种基因组代谢网络初模型信息挖掘方法。

本发明的技术方案是：

一种基因组代谢网络初模型信息挖掘方法，它包括以下步骤：，对于KEGG网站，基于网页关键内容先验位置信息，采用网站脚本语义分析技术，提取基因-蛋白-反应之间的对应关系即确定GPR关系，建立excel表格呈现GPR关系信息，得到基因组代谢网络初模型。

本发明的该方法具体包括：

（1）、向KEGG网站的自动注释服务器KAAS提交物种基因组蛋白序列，KAAS自动注释服务器返回该蛋白序列的KO号和R号；

（2）、依据R号从KEGG网站的REACTION和GENES子数据库中获得该物种基因组蛋白序列对应的反应信息，并且存储于excel中构成基因组代谢网络初模型。

（3）、依据KO号从KEGG Genomenet数据库中获得目标生物对应基因与蛋白信息，存于excel列表中。

本发明的步骤2中，所述的反应信息包括：Name催化该反应的蛋白名称、Definition反应式、Equation代谢物ID格式反应式、Enzyme催化该反应的蛋白对应的酶号、Pathway该反应所属代谢途径和Orthology催化该反应的蛋白在KEGG中的相似注释；步骤3中，所述的基因与蛋白信息包括：基因和编码的蛋白名称缩写。

本发明的步骤1具体包括：通过物种蛋白序列获得KO号及R号：将物种所有蛋白序列上传到KAAS自动服务器，依据返回的KO号从KEGG Brite数据库编程查找对应的R号，即反应ID，提取过程具体包括：

（1-A）:提交蛋白序列至KAAS服务器；

（1-B）:服务器返回含有所需蛋白序列的KO值的excel表KO.xls和含有所有KEGG内KO值和R值信息的excel表KO-R.xls；

（1-C）:设line=1，新建KOR.xls表，记录KO值、R值及其对应关系；

（1-D）:读取KO.xls的第line行，取其中KO单元格中的值与KO-R.xls表每一行数据中KO单元格中的值比较，判断KO.xls中KO值与KO-R.xls中的KO值是否相等，如果不相等，转入步骤E；如果相等，将KO-R.xls中该KO所对应的R值提取出来，R值是空字符、一个或多个值；

当R值是空字符时，不做任何处理，进入下一步骤；

当R值是一个时，直接提取，写在与KO值对应的一行；

当R值是多个时，需用空格符对获取的R值序列进行分割，将单个R值分别写入到excel表KOR.xls新的与KO值对应的各行中；

（1-E）:line增1，如果line小于等于KO.xls表行数，回到步骤D，否则，结束。

本发明的步骤2是依据R号获得反应信息：KEGG提供反应式查询网页，统一资源定位符URL格式：http://www.genome.jp/dbget-bin/www_bget?+R号，网页的超文本标记语言html的脚本含有反应信息，采用网站脚本语义分析技术即html分析方法获取每个节点数据，提取出反应信息。

本发明的步骤2具体包括以下步骤：

（2-A）:新建KAASINF.xls表，记录KO值、对应的R值以及各R值对应的反应信息；读取步骤1中生成的KOR.xls；

（2-B）:设line=1；

（2-C）:读取KOR.xls的第line行，取行中R值，设置KEGG服务器访问地址为KEGG网站的反应式查询网址前缀+R值，发送http请求；

（2-D）:获取服务器响应代码串get_str，即html格式脚本，如果line=1，在get_str串中查询字符串中起始位置start_pos值，并保存；

（2-E）:读取start_pos，在get_str串中查询字符串中结束位置end_pos值，得到待处理的起始符包含<table>…</table>的内容字符串content_str；

（2-F）:用html分析工具读取content_str中KAASINF.xls表结构描述列名字段值，并写入该表一行中；

（2-G）:line增1，如果line小于等于KO.xls表行数，回到步骤D，否则，结束。

本发明的html分析工具包括NekoHTML、htmlparser和jsoup。

本发明通过修改配置文件能够适应KEGG的网站地址变更，修改正则表达式适应网站内容表述语法的变更。

本发明的步骤2-D和2-E中，查询字符串中起始位置和结束位置，即基于网站关键内容先验位置信息获取反应信息，具体为：获取网站页面html脚本正文中<form>标记后第一个<table>标记作为html脚本字符串中起始位置start_pos，并将该值保存在一个文本文件中，后续分析时提取</form>标记前最近一个</table>结束位置end_pos，只处理start_pos至end_pos脚本串。

本发明的步骤3中，KEGG提供基因与蛋白查询网页，URL格式:http://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=T01023&keywords=+目标物种标识+&mode=bfind&max_hit=nolimit，其中，+号为连接运算符，该地址保存于配置文件中，通过该地址发送HTTP请求，返回网页html脚本含有基因与蛋白信息，用正则表达式提取基因信息，提取过程如下：

A:设置目标生物标识符sign，读取配置文件并设置KEGG查询URL，发送HTTP请求；

B:获取服务器响应代码串getgene_str，分析提取html所有<DIV>节点，节点数为div_size；

C:设index=1；

D:对第index节点，设置JAVA正则表达式：K+\\d{5}，提取KO号；

E:遍历读取KAASINF.xls中的每一行，读取行中KO单元格值，与上一步KO比较，如相等，设置JAVA正则表达式：sign+\\_+\\d+，提取GENE，设置JAVA正则表达式：\\s+(\\w+)+\\;|\\s+(\\w++\\.+\\w+)+\\；提取PROTEIN，并写入表中KO号所在行；

F:index增1，如果index小于等于div_size，回到步骤D，否则，结束。

本发明的有益效果：

本发明可以自动获取物种基因组代谢网络初模型数据。通过提交物种基因组蛋白序列，KAAS自动注释服务器会给相应的蛋白序列分配一个KO号。依据KO号，本发明能够自动为每个KO确定相应的Ｒ号，并从KEGG的REACTION和GENES子数据库中获得对应的生化反应、催化该反应的酶及酶号信息、关联基因、参与反应的化合物信息以及亚细胞定位信息等，并且存储于excel中构成基因组代谢网络初模型。

本方法构出的模型统一了反应格式，方便同其他模型进行比较查阅。本方法已在树干毕赤酵母（scheffersomyces stipitis CBS6054）基因组规模代谢网络构建中得到应用，与传统的基于KEGG数据库的网络初模型构建相比，节省了大量的劳力和时间，大大提高了构建效率。

具体实施方式

下面结合实施例对本发明作进一步的说明。

一种基因组代谢网络初模型信息挖掘方法，该方法使用配置文件设置信息挖掘用基础数据，包括：目标生物标识符，KEGG提供反应式查询地址，KEGG基因与蛋白查询地址，反应式查询结果网页正文区域起始位置，KEGG描述基因与蛋白正则表达式，具体步骤如下：

（1）、通过物种蛋白序列获得KO号及R号，将物种所有蛋白序列上传到KAAS自动服务器，依据返回的KO号从KEGG Brite数据库编程查找对应的R号，即反应ID，提取过程如下流程描述。

A:提交蛋白序列至KAAS服务器。

B:服务器返回含有所需KO值的excel表KO.xls(结构见表1)和含有所有KO值和R值信息的excel表KO-R.xls(结构见表2)。

C:设line=1。

D:读取KO.xls的第line行，取其中KO单元格中的值与KO-R.xls表每一行数据中KO单元格中的值比较，判断KO.xls中KO值与KO-R.xls中的KO值是否相等，如果相等，将KO-R.xls中该KO所对应的R值提取出来，而R值可能是由多个R值通过空格符连接的，需用空格符对获取的R值序列进行分割，将单个R值写入到excel表KOR.xls(结构见表3)中。

E:line增1，如果line小于等于KO.xls表行数，回到步骤D，否则，结束。

表1KOxl表结构（第二列为KO值）

表2KO-R.xls表结构（第一行#KO表示KO值，Reaction表示R值）

表3KOR.xls、KAASINF.xls、KAAS.xls表结构

KO

RXN

EC

NAME

DEFIN

EQUA

PATH

ORTHO

GENE

PROTEIN

ID

ITION

TION

WAY

LOGY

（2）、依据R号获得反应式及相关信息：依据R号编程从KEGG Reaction数据库提取相应的信息存储于excel列表中，提取的信息包括：Name催化该反应的蛋白名称、Definition反应式、Equation代谢物ID格式反应式、Enzyme催化该反应的蛋白对应的酶号、Pathway该反应所属代谢途径、Orthology催化该反应的蛋白在KEGG中的相似注释。

KEGG提供反应式查询网页，URL(Uniform Resource Locator，统一资源定位符)格式:http://www.genome.jp/dbget-bin/www_bget?+R号（以R01786为例：http://www.genome.jp/dbget-bin/www_bget?R01786），网页的html(HyperText Markup Language，超文本标记语言)脚本含有反应式及相关信息，用html分析方法获取每个节点数据可提取出反应式及相关信息。htmlparser是一个纯的java写的html解析的工具库，它不依赖于其它的java库文件，主要用于改造或提取html。

该页面包含主题栏、<script>栏、正文栏、相关链接栏、声明栏等，有用信息只出现在正文栏<table>标记内，如分析其它html标记，将浪费大量时间。使用基于内容区域的分析方法可解决该问题，获取html脚本正文中<form>标记后第一个<table>标记在html脚本字符串中起始位置start_pos，并将该值保存在一个文本文件中，那么后续分析时提取</form>标记前最近一个</table>结束位置end_ps，只处理start_pos至end_ps脚本串即可。

提取过程如下流程描述。

A:读取上一步骤中生成的KOR.xls。

B:设line=1。

C:读取KOR.xls的第line行，取行中R值，设置KEGG服务器访问地址为网址前缀+R值，发送http请求。

D:获取服务器响应代码串get_str，即html格式脚本，如果line=1，在get_str串中查询start_pos值，并保存。

E:读取start_pos，在get_str串中查询end_pos值，得到待处理的<table>…</table>内容字符串content_str。

F:用html分析工具如htmlparser读取content_str中KAASINF.xls表结构描述列名字段值，并写入该表一行中。

G:line增1，如果line小于等于KO.xls表行数，回到步骤D，否则，结束。

（3）、依据KO号获取基因信息：依据KO号从KEGG Genomenet数据库中编程查找目标生物对应基因信息存于excel列表中。KEGG提供基因与蛋白查询网页，URL格式：http://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=T01023&keywords=PICST&mode=bfind&max_hit=nolimit（以树干毕赤酵母为例，”PICST”为其特有标识），该地址保存于配置文件中，通过该地址发送HTTP请求，返回网页html脚本含有基因与蛋白信息，用正则表达式提取基因与蛋白信息。

提取过程如下流程描述。

A:设置目标生物标识符sign，读取配置文件并设置KEGG查询URL，发送HTTP请求。

B:获取服务器响应代码串getgene_str，分析提取html所有<DIV>节点，节点数为div_size。

C:设index=1。

D:对第index节点，设置JAVA正则表达式"K+\\d{5}"提取KO号。

E:遍历读取KAASINF.xls中的每一行，读取行中KO单元格值，与上一步KO比较，如相等，设置JAVA正则表达式"sign+\\_+\\d+"提取GENE，设置JAVA正则表达式"\\s+(\\w+)+\\;|\\s+(\\w++\\.+\\w+)+\\;"提取PROTEIN，并写入表中KO号所在行。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

1.一种基因组代谢网络初模型信息挖掘方法，其特征是它包括以下步骤：，对于KEGG网站，基于网页关键内容先验位置信息，采用网站脚本语义分析技术，提取基因-蛋白-反应之间的对应关系即确定GPR关系，建立excel表格呈现GPR关系信息，得到基因组代谢网络初模型。

2.根据权利要求1所述的基因组代谢网络初模型信息挖掘方法，其特征是该方法具体包括：

3.根据权利要求2所述的基因组代谢网络初模型信息挖掘方法，其特征是步骤2中，所述的反应信息包括：Name催化该反应的蛋白名称、Definition反应式、Equation代谢物ID格式反应式、Enzyme催化该反应的蛋白对应的酶号、Pathway该反应所属代谢途径和Orthology催化该反应的蛋白在KEGG中的相似注释；步骤3中，所述的基因与蛋白信息包括：基因和编码的蛋白名称缩写。

4.根据权利要求2所述的基因组代谢网络初模型信息挖掘方法，其特征是步骤1具体包括：通过物种蛋白序列获得KO号及R号：将物种所有蛋白序列上传到KAAS自动服务器，依据返回的KO号从KEGG Brite数据库编程查找对应的R号，即反应ID，提取过程具体包括：

（1-A）:提交蛋白序列至KAAS服务器；

当R值是空字符时，不做任何处理，进入下一步骤；

当R值是一个时，直接提取，写在与KO值对应的一行；

5.根据权利要求2所述的基因组代谢网络初模型信息挖掘方法，其特征是步骤2是依据R号获得反应信息：KEGG提供反应式查询网页，统一资源定位符URL格式：http://www.genome.jp/dbget-bin/www_bget?+R号，网页的超文本标记语言html的脚本含有反应信息，采用网站脚本语义分析技术即html分析方法获取每个节点数据，提取出反应信息。

6.根据权利要求2或5所述的基因组代谢网络初模型信息挖掘方法，其特征是步骤2具体包括以下步骤：

（2-B）:设line=1；

7.根据权利要求6所述的基因组代谢网络初模型信息挖掘方法，其特征是html分析工具包括NekoHTML、htmlparser和jsoup。

8.根据权利要求6所述的基因组代谢网络初模型信息挖掘方法，其特征是通过修改配置文件能够适应KEGG的网站地址变更，修改正则表达式适应网站内容表述语法的变更。

9.根据权利要求6所述的基因组代谢网络初模型信息挖掘方法，其特征是步骤2-D和2-E中，查询字符串中起始位置和结束位置，即基于网站关键内容先验位置信息获取反应信息，具体为：获取网站页面html脚本正文中<form>标记后第一个<table>标记作为html脚本字符串中起始位置start_pos，并将该值保存在一个文本文件中，后续分析时提取</form>标记前最近一个</table>结束位置end_pos，只处理start_pos至end_pos脚本串。

10.根据权利要求2所述的基因组代谢网络初模型信息挖掘方法，其特征是步骤3中，KEGG提供基因与蛋白查询网页，URL格式:http://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=T01023&keywords=+目标物种标识+&mode=bfind&max_hit=nolimit，其中，+号为连接运算符，该地址保存于配置文件中，通过该地址发送HTTP请求，返回网页html脚本含有基因与蛋白信息，用正则表达式提取基因信息，提取过程如下：

C:设index=1；

D:对第index节点，设置JAVA正则表达式：K+\\d{5}，提取KO号；