CN103399948A - 一种基因组代谢网络初模型信息挖掘方法 - Google Patents

一种基因组代谢网络初模型信息挖掘方法 Download PDF

Info

Publication number
CN103399948A
CN103399948A CN2013103584683A CN201310358468A CN103399948A CN 103399948 A CN103399948 A CN 103399948A CN 2013103584683 A CN2013103584683 A CN 2013103584683A CN 201310358468 A CN201310358468 A CN 201310358468A CN 103399948 A CN103399948 A CN 103399948A
Authority
CN
China
Prior art keywords
value
xls
information
genome
kegg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103584683A
Other languages
English (en)
Inventor
薛卫
张梁
柴文平
倪丁香
徐焕良
任守纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Agricultural University
Original Assignee
Nanjing Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Agricultural University filed Critical Nanjing Agricultural University
Priority to CN2013103584683A priority Critical patent/CN103399948A/zh
Publication of CN103399948A publication Critical patent/CN103399948A/zh
Pending legal-status Critical Current

Links

Abstract

一种基因组代谢网络初模型信息挖掘方法,它包括以下步骤:对于KEGG网站,基于网页关键内容先验位置信息,采用网站脚本语义分析技术,提取基因-蛋白-反应之间的对应关系即确定GPR关系,建立excel表格呈现GPR关系信息,得到基因组代谢网络初模型。本方法构出的模型统一了反应格式,方便同其他模型进行比较查阅。本方法已在树干毕赤酵母基因组规模代谢网络构建中得到应用,与传统的基于KEGG数据库的网络初模型构建相比,节省了大量的劳力和时间,大大提高了构建效率。

Description

一种基因组代谢网络初模型信息挖掘方法
技术领域
本发明涉及一种使用计算机编程语言从网页中挖掘生物信息数据及存取为微软公司excel格式数据的方法,属于生物信息学领域。
背景技术
随着基因组学、蛋白组学、代谢组学等高通量数据的不断积累,基因组代谢网络模型的研究已经成为系统生物学的研究热点之一。它是在系统水平上研究所有参与代谢的反应及关联的基因和酶的相互作用,可以用于指导代谢工程的改造。目前,代谢网络构建还没有完全实现自动化,且构建过程需要大量的人力和劳力,耗时长。所以,代谢网络重构的自动化成为提高网络重构速度并推动代谢网络研究发展的重要问题,逐渐引起研究者们的兴趣。
基因组规模代谢网络模型的构建包括全基因组注释与初模型构建和精细模型修正两个阶段。构建基因组代谢网络初模型主要就是确定GPR关系,即基因-蛋白-反应之间的对应关系。一般都是通过基因组注释信息从各个代谢网络数据库和文献信息中获取相应的GPR关系。最常用的网络数据库就是KEGG数据库。KEGG数据库是系统分析基因功能、基因组信息的数据库,包括物种的基因与基因组、酶促反应及其途径和各种生化物质的信息,是代谢网络构建中强有力的工具。为确保数据的及时更新,以往研究者在重构代谢网络过程中,为读取数据不得不频繁访问KEGG的远程在线服务器,非常耗时耗力。并且,目前KEGG各个子数据库不能够免费下载,需要付费使用。所以,实现一种能够批量在线获取并存取数据的方法就显得非常必要了。
发明内容
本发明的目的是针对上述问题,提出一种基因组代谢网络初模型信息挖掘方法。
本发明的技术方案是:
一种基因组代谢网络初模型信息挖掘方法,它包括以下步骤:,对于KEGG网站,基于网页关键内容先验位置信息,采用网站脚本语义分析技术,提取基因-蛋白-反应之间的对应关系即确定GPR关系,建立excel表格呈现GPR关系信息,得到基因组代谢网络初模型。
本发明的该方法具体包括:
(1)、向KEGG网站的自动注释服务器KAAS提交物种基因组蛋白序列,KAAS自动注释服务器返回该蛋白序列的KO号和R号;
(2)、依据R号从KEGG网站的REACTION和GENES子数据库中获得该物种基因组蛋白序列对应的反应信息,并且存储于excel中构成基因组代谢网络初模型。
(3)、依据KO号从KEGG Genomenet数据库中获得目标生物对应基因与蛋白信息,存于excel列表中。
本发明的步骤2中,所述的反应信息包括:Name催化该反应的蛋白名称、Definition反应式、Equation代谢物ID格式反应式、Enzyme催化该反应的蛋白对应的酶号、Pathway该反应所属代谢途径和Orthology催化该反应的蛋白在KEGG中的相似注释;步骤3中,所述的基因与蛋白信息包括:基因和编码的蛋白名称缩写。
本发明的步骤1具体包括:通过物种蛋白序列获得KO号及R号:将物种所有蛋白序列上传到KAAS自动服务器,依据返回的KO号从KEGG Brite数据库编程查找对应的R号,即反应ID,提取过程具体包括:
(1-A):提交蛋白序列至KAAS服务器;
(1-B):服务器返回含有所需蛋白序列的KO值的excel表KO.xls和含有所有KEGG内KO值和R值信息的excel表KO-R.xls;
(1-C):设line=1,新建KOR.xls表,记录KO值、R值及其对应关系;
(1-D):读取KO.xls的第line行,取其中KO单元格中的值与KO-R.xls表每一行数据中KO单元格中的值比较,判断KO.xls中KO值与KO-R.xls中的KO值是否相等,如果不相等,转入步骤E;如果相等,将KO-R.xls中该KO所对应的R值提取出来,R值是空字符、一个或多个值;
当R值是空字符时,不做任何处理,进入下一步骤;
当R值是一个时,直接提取,写在与KO值对应的一行;
当R值是多个时,需用空格符对获取的R值序列进行分割,将单个R值分别写入到excel表KOR.xls新的与KO值对应的各行中;
(1-E):line增1,如果line小于等于KO.xls表行数,回到步骤D,否则,结束。
本发明的步骤2是依据R号获得反应信息:KEGG提供反应式查询网页,统一资源定位符URL格式:http://www.genome.jp/dbget-bin/www_bget?+R号,网页的超文本标记语言html的脚本含有反应信息,采用网站脚本语义分析技术即html分析方法获取每个节点数据,提取出反应信息。
本发明的步骤2具体包括以下步骤:
(2-A):新建KAASINF.xls表,记录KO值、对应的R值以及各R值对应的反应信息;读取步骤1中生成的KOR.xls;
(2-B):设line=1;
(2-C):读取KOR.xls的第line行,取行中R值,设置KEGG服务器访问地址为KEGG网站的反应式查询网址前缀+R值,发送http请求;
(2-D):获取服务器响应代码串get_str,即html格式脚本,如果line=1,在get_str串中查询字符串中起始位置start_pos值,并保存;
(2-E):读取start_pos,在get_str串中查询字符串中结束位置end_pos值,得到待处理的起始符包含<table>…</table>的内容字符串content_str;
(2-F):用html分析工具读取content_str中KAASINF.xls表结构描述列名字段值,并写入该表一行中;
(2-G):line增1,如果line小于等于KO.xls表行数,回到步骤D,否则,结束。
本发明的html分析工具包括NekoHTML、htmlparser和jsoup。
本发明通过修改配置文件能够适应KEGG的网站地址变更,修改正则表达式适应网站内容表述语法的变更。
本发明的步骤2-D和2-E中,查询字符串中起始位置和结束位置,即基于网站关键内容先验位置信息获取反应信息,具体为:获取网站页面html脚本正文中<form>标记后第一个<table>标记作为html脚本字符串中起始位置start_pos,并将该值保存在一个文本文件中,后续分析时提取</form>标记前最近一个</table>结束位置end_pos,只处理start_pos至end_pos脚本串。
本发明的步骤3中,KEGG提供基因与蛋白查询网页,URL格式:http://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=T01023&keywords=+目标物种标识+&mode=bfind&max_hit=nolimit,其中,+号为连接运算符,该地址保存于配置文件中,通过该地址发送HTTP请求,返回网页html脚本含有基因与蛋白信息,用正则表达式提取基因信息,提取过程如下:
A:设置目标生物标识符sign,读取配置文件并设置KEGG查询URL,发送HTTP请求;
B:获取服务器响应代码串getgene_str,分析提取html所有<DIV>节点,节点数为div_size;
C:设index=1;
D:对第index节点,设置JAVA正则表达式:K+\\d{5},提取KO号;
E:遍历读取KAASINF.xls中的每一行,读取行中KO单元格值,与上一步KO比较,如相等,设置JAVA正则表达式:sign+\\_+\\d+,提取GENE,设置JAVA正则表达式:\\s+(\\w+)+\\;|\\s+(\\w++\\.+\\w+)+\\;提取PROTEIN,并写入表中KO号所在行;
F:index增1,如果index小于等于div_size,回到步骤D,否则,结束。
本发明的有益效果:
本发明可以自动获取物种基因组代谢网络初模型数据。通过提交物种基因组蛋白序列,KAAS自动注释服务器会给相应的蛋白序列分配一个KO号。依据KO号,本发明能够自动为每个KO确定相应的R号,并从KEGG的REACTION和GENES子数据库中获得对应的生化反应、催化该反应的酶及酶号信息、关联基因、参与反应的化合物信息以及亚细胞定位信息等,并且存储于excel中构成基因组代谢网络初模型。
本方法构出的模型统一了反应格式,方便同其他模型进行比较查阅。本方法已在树干毕赤酵母(scheffersomyces stipitis CBS6054)基因组规模代谢网络构建中得到应用,与传统的基于KEGG数据库的网络初模型构建相比,节省了大量的劳力和时间,大大提高了构建效率。
具体实施方式
下面结合实施例对本发明作进一步的说明。
一种基因组代谢网络初模型信息挖掘方法,该方法使用配置文件设置信息挖掘用基础数据,包括:目标生物标识符,KEGG提供反应式查询地址,KEGG基因与蛋白查询地址,反应式查询结果网页正文区域起始位置,KEGG描述基因与蛋白正则表达式,具体步骤如下:
(1)、通过物种蛋白序列获得KO号及R号,将物种所有蛋白序列上传到KAAS自动服务器,依据返回的KO号从KEGG Brite数据库编程查找对应的R号,即反应ID,提取过程如下流程描述。
A:提交蛋白序列至KAAS服务器。
B:服务器返回含有所需KO值的excel表KO.xls(结构见表1)和含有所有KO值和R值信息的excel表KO-R.xls(结构见表2)。
C:设line=1。
D:读取KO.xls的第line行,取其中KO单元格中的值与KO-R.xls表每一行数据中KO单元格中的值比较,判断KO.xls中KO值与KO-R.xls中的KO值是否相等,如果相等,将KO-R.xls中该KO所对应的R值提取出来,而R值可能是由多个R值通过空格符连接的,需用空格符对获取的R值序列进行分割,将单个R值写入到excel表KOR.xls(结构见表3)中。
E:line增1,如果line小于等于KO.xls表行数,回到步骤D,否则,结束。
表1KOxl表结构(第二列为KO值)
Figure BDA0000367550440000061
表2KO-R.xls表结构(第一行#KO表示KO值,Reaction表示R值)
表3KOR.xls、KAASINF.xls、KAAS.xls表结构
KO RXN EC NAME DEFIN EQUA PATH ORTHO GENE PROTEIN
ID ITION TION WAY LOGY
(2)、依据R号获得反应式及相关信息:依据R号编程从KEGG Reaction数据库提取相应的信息存储于excel列表中,提取的信息包括:Name催化该反应的蛋白名称、Definition反应式、Equation代谢物ID格式反应式、Enzyme催化该反应的蛋白对应的酶号、Pathway该反应所属代谢途径、Orthology催化该反应的蛋白在KEGG中的相似注释。
KEGG提供反应式查询网页,URL(Uniform Resource Locator,统一资源定位符)格式:http://www.genome.jp/dbget-bin/www_bget?+R号(以R01786为例:http://www.genome.jp/dbget-bin/www_bget?R01786),网页的html(HyperText Markup Language,超文本标记语言)脚本含有反应式及相关信息,用html分析方法获取每个节点数据可提取出反应式及相关信息。htmlparser是一个纯的java写的html解析的工具库,它不依赖于其它的java库文件,主要用于改造或提取html。
该页面包含主题栏、<script>栏、正文栏、相关链接栏、声明栏等,有用信息只出现在正文栏<table>标记内,如分析其它html标记,将浪费大量时间。使用基于内容区域的分析方法可解决该问题,获取html脚本正文中<form>标记后第一个<table>标记在html脚本字符串中起始位置start_pos,并将该值保存在一个文本文件中,那么后续分析时提取</form>标记前最近一个</table>结束位置end_ps,只处理start_pos至end_ps脚本串即可。
提取过程如下流程描述。
A:读取上一步骤中生成的KOR.xls。
B:设line=1。
C:读取KOR.xls的第line行,取行中R值,设置KEGG服务器访问地址为网址前缀+R值,发送http请求。
D:获取服务器响应代码串get_str,即html格式脚本,如果line=1,在get_str串中查询start_pos值,并保存。
E:读取start_pos,在get_str串中查询end_pos值,得到待处理的<table>…</table>内容字符串content_str。
F:用html分析工具如htmlparser读取content_str中KAASINF.xls表结构描述列名字段值,并写入该表一行中。
G:line增1,如果line小于等于KO.xls表行数,回到步骤D,否则,结束。
(3)、依据KO号获取基因信息:依据KO号从KEGG Genomenet数据库中编程查找目标生物对应基因信息存于excel列表中。KEGG提供基因与蛋白查询网页,URL格式:http://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=T01023&keywords=PICST&mode=bfind&max_hit=nolimit(以树干毕赤酵母为例,”PICST”为其特有标识),该地址保存于配置文件中,通过该地址发送HTTP请求,返回网页html脚本含有基因与蛋白信息,用正则表达式提取基因与蛋白信息。
提取过程如下流程描述。
A:设置目标生物标识符sign,读取配置文件并设置KEGG查询URL,发送HTTP请求。
B:获取服务器响应代码串getgene_str,分析提取html所有<DIV>节点,节点数为div_size。
C:设index=1。
D:对第index节点,设置JAVA正则表达式"K+\\d{5}"提取KO号。
E:遍历读取KAASINF.xls中的每一行,读取行中KO单元格值,与上一步KO比较,如相等,设置JAVA正则表达式"sign+\\_+\\d+"提取GENE,设置JAVA正则表达式"\\s+(\\w+)+\\;|\\s+(\\w++\\.+\\w+)+\\;"提取PROTEIN,并写入表中KO号所在行。
F:index增1,如果index小于等于div_size,回到步骤D,否则,结束。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims (10)

1.一种基因组代谢网络初模型信息挖掘方法,其特征是它包括以下步骤:,对于KEGG网站,基于网页关键内容先验位置信息,采用网站脚本语义分析技术,提取基因-蛋白-反应之间的对应关系即确定GPR关系,建立excel表格呈现GPR关系信息,得到基因组代谢网络初模型。
2.根据权利要求1所述的基因组代谢网络初模型信息挖掘方法,其特征是该方法具体包括:
(1)、向KEGG网站的自动注释服务器KAAS提交物种基因组蛋白序列,KAAS自动注释服务器返回该蛋白序列的KO号和R号;
(2)、依据R号从KEGG网站的REACTION和GENES子数据库中获得该物种基因组蛋白序列对应的反应信息,并且存储于excel中构成基因组代谢网络初模型。
(3)、依据KO号从KEGG Genomenet数据库中获得目标生物对应基因与蛋白信息,存于excel列表中。
3.根据权利要求2所述的基因组代谢网络初模型信息挖掘方法,其特征是步骤2中,所述的反应信息包括:Name催化该反应的蛋白名称、Definition反应式、Equation代谢物ID格式反应式、Enzyme催化该反应的蛋白对应的酶号、Pathway该反应所属代谢途径和Orthology催化该反应的蛋白在KEGG中的相似注释;步骤3中,所述的基因与蛋白信息包括:基因和编码的蛋白名称缩写。
4.根据权利要求2所述的基因组代谢网络初模型信息挖掘方法,其特征是步骤1具体包括:通过物种蛋白序列获得KO号及R号:将物种所有蛋白序列上传到KAAS自动服务器,依据返回的KO号从KEGG Brite数据库编程查找对应的R号,即反应ID,提取过程具体包括:
(1-A):提交蛋白序列至KAAS服务器;
(1-B):服务器返回含有所需蛋白序列的KO值的excel表KO.xls和含有所有KEGG内KO值和R值信息的excel表KO-R.xls;
(1-C):设line=1,新建KOR.xls表,记录KO值、R值及其对应关系;
(1-D):读取KO.xls的第line行,取其中KO单元格中的值与KO-R.xls表每一行数据中KO单元格中的值比较,判断KO.xls中KO值与KO-R.xls中的KO值是否相等,如果不相等,转入步骤E;如果相等,将KO-R.xls中该KO所对应的R值提取出来,R值是空字符、一个或多个值;
当R值是空字符时,不做任何处理,进入下一步骤;
当R值是一个时,直接提取,写在与KO值对应的一行;
当R值是多个时,需用空格符对获取的R值序列进行分割,将单个R值分别写入到excel表KOR.xls新的与KO值对应的各行中;
(1-E):line增1,如果line小于等于KO.xls表行数,回到步骤D,否则,结束。
5.根据权利要求2所述的基因组代谢网络初模型信息挖掘方法,其特征是步骤2是依据R号获得反应信息:KEGG提供反应式查询网页,统一资源定位符URL格式:http://www.genome.jp/dbget-bin/www_bget?+R号,网页的超文本标记语言html的脚本含有反应信息,采用网站脚本语义分析技术即html分析方法获取每个节点数据,提取出反应信息。
6.根据权利要求2或5所述的基因组代谢网络初模型信息挖掘方法,其特征是步骤2具体包括以下步骤:
(2-A):新建KAASINF.xls表,记录KO值、对应的R值以及各R值对应的反应信息;读取步骤1中生成的KOR.xls;
(2-B):设line=1;
(2-C):读取KOR.xls的第line行,取行中R值,设置KEGG服务器访问地址为KEGG网站的反应式查询网址前缀+R值,发送http请求;
(2-D):获取服务器响应代码串get_str,即html格式脚本,如果line=1,在get_str串中查询字符串中起始位置start_pos值,并保存;
(2-E):读取start_pos,在get_str串中查询字符串中结束位置end_pos值,得到待处理的起始符包含<table>…</table>的内容字符串content_str;
(2-F):用html分析工具读取content_str中KAASINF.xls表结构描述列名字段值,并写入该表一行中;
(2-G):line增1,如果line小于等于KO.xls表行数,回到步骤D,否则,结束。
7.根据权利要求6所述的基因组代谢网络初模型信息挖掘方法,其特征是html分析工具包括NekoHTML、htmlparser和jsoup。
8.根据权利要求6所述的基因组代谢网络初模型信息挖掘方法,其特征是通过修改配置文件能够适应KEGG的网站地址变更,修改正则表达式适应网站内容表述语法的变更。
9.根据权利要求6所述的基因组代谢网络初模型信息挖掘方法,其特征是步骤2-D和2-E中,查询字符串中起始位置和结束位置,即基于网站关键内容先验位置信息获取反应信息,具体为:获取网站页面html脚本正文中<form>标记后第一个<table>标记作为html脚本字符串中起始位置start_pos,并将该值保存在一个文本文件中,后续分析时提取</form>标记前最近一个</table>结束位置end_pos,只处理start_pos至end_pos脚本串。
10.根据权利要求2所述的基因组代谢网络初模型信息挖掘方法,其特征是步骤3中,KEGG提供基因与蛋白查询网页,URL格式:http://www.genome.jp/dbget-bin/www_bfind_sub?dbkey=T01023&keywords=+目标物种标识+&mode=bfind&max_hit=nolimit,其中,+号为连接运算符,该地址保存于配置文件中,通过该地址发送HTTP请求,返回网页html脚本含有基因与蛋白信息,用正则表达式提取基因信息,提取过程如下:
A:设置目标生物标识符sign,读取配置文件并设置KEGG查询URL,发送HTTP请求;
B:获取服务器响应代码串getgene_str,分析提取html所有<DIV>节点,节点数为div_size;
C:设index=1;
D:对第index节点,设置JAVA正则表达式:K+\\d{5},提取KO号;
E:遍历读取KAASINF.xls中的每一行,读取行中KO单元格值,与上一步KO比较,如相等,设置JAVA正则表达式:sign+\\_+\\d+,提取GENE,设置JAVA正则表达式:\\s+(\\w+)+\\;|\\s+(\\w++\\.+\\w+)+\\;提取PROTEIN,并写入表中KO号所在行;
F:index增1,如果index小于等于div_size,回到步骤D,否则,结束。
CN2013103584683A 2013-08-16 2013-08-16 一种基因组代谢网络初模型信息挖掘方法 Pending CN103399948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103584683A CN103399948A (zh) 2013-08-16 2013-08-16 一种基因组代谢网络初模型信息挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103584683A CN103399948A (zh) 2013-08-16 2013-08-16 一种基因组代谢网络初模型信息挖掘方法

Publications (1)

Publication Number Publication Date
CN103399948A true CN103399948A (zh) 2013-11-20

Family

ID=49563576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103584683A Pending CN103399948A (zh) 2013-08-16 2013-08-16 一种基因组代谢网络初模型信息挖掘方法

Country Status (1)

Country Link
CN (1) CN103399948A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156636A (zh) * 2014-07-30 2014-11-19 中南大学 一种基于后缀数组的模糊串联重复序列识别方法
CN104866248A (zh) * 2015-06-12 2015-08-26 中国地质大学(武汉) 一种量化语义块关系的方法及装置
CN105447337A (zh) * 2015-11-13 2016-03-30 大连理工大学 一种基于动态网络图分析的时间序列数据处理方法
CN106462337A (zh) * 2014-02-13 2017-02-22 Illumina公司 综合式消费者基因组服务
CN110473591A (zh) * 2019-08-20 2019-11-19 西南林业大学 基于量子计算的基因网络功能模块挖掘及分析方法
CN110767261A (zh) * 2019-09-29 2020-02-07 天津科技大学 一种自动化构建高精度基因组尺度代谢网络模型的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KANEHISA M,GOTO S: "KEGG: kyoto encyclopedia of genes and genomes", 《NUCLEIC ACIDS RESEARCH》 *
周冒达: "巨大芽孢杆菌WSH-002全基因组规模代谢网络模型的构建与分析", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 *
李向真,刘子明,李娟,方慧生: "KEGG数据库的进展及其在生物信息学中的应用", 《药物生物技术》 *
王晖,马红武,赵学明: "基因组尺度代谢网络研究进展", 《生物工程学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462337A (zh) * 2014-02-13 2017-02-22 Illumina公司 综合式消费者基因组服务
US10438244B2 (en) 2014-02-13 2019-10-08 Illumina, Inc. Integrated consumer genomic services
CN106462337B (zh) * 2014-02-13 2019-11-01 Illumina公司 综合式消费者基因组服务
US11556958B2 (en) 2014-02-13 2023-01-17 Illumina, Inc. Integrated consumer genomic services
CN104156636A (zh) * 2014-07-30 2014-11-19 中南大学 一种基于后缀数组的模糊串联重复序列识别方法
CN104866248A (zh) * 2015-06-12 2015-08-26 中国地质大学(武汉) 一种量化语义块关系的方法及装置
CN105447337A (zh) * 2015-11-13 2016-03-30 大连理工大学 一种基于动态网络图分析的时间序列数据处理方法
CN105447337B (zh) * 2015-11-13 2018-01-26 大连理工大学 一种基于动态网络图分析的时间序列数据处理方法
CN110473591A (zh) * 2019-08-20 2019-11-19 西南林业大学 基于量子计算的基因网络功能模块挖掘及分析方法
CN110473591B (zh) * 2019-08-20 2022-09-27 西南林业大学 基于量子计算的基因网络功能模块挖掘及分析方法
CN110767261A (zh) * 2019-09-29 2020-02-07 天津科技大学 一种自动化构建高精度基因组尺度代谢网络模型的方法
CN110767261B (zh) * 2019-09-29 2023-07-18 天津科技大学 一种自动化构建高精度基因组尺度代谢网络模型的方法

Similar Documents

Publication Publication Date Title
CN103399948A (zh) 一种基因组代谢网络初模型信息挖掘方法
Glez-Peña et al. Web scraping technologies in an API world
Keilwagen et al. GeMoMa: homology-based gene prediction utilizing intron position conservation and RNA-seq data
Licata et al. MINT, the molecular interaction database: 2012 update
James‐Zorn et al. Xenbase: Core features, data acquisition, and data processing
Nicolazzi et al. SNPchiMp: a database to disentangle the SNPchip jungle in bovine livestock
Sallet et al. EuGene: an automated integrative gene finder for eukaryotes and prokaryotes
Wang et al. SnpHub: an easy-to-set-up web server framework for exploring large-scale genomic variation data in the post-genomic era with applications in wheat
CN101655862A (zh) 信息对象搜索的方法和装置
CN102667776A (zh) 用于处理信息流的信息的方法和系统
Winkler et al. The LASER database: Formalizing design rules for metabolic engineering
CN105335487A (zh) 基于农业技术信息本体库的农业专家信息检索系统及方法
Hwang et al. Web-based CRISPR toolkits: Cas-OFFinder, cas-designer, and cas-analyzer
Challis et al. GenomeHubs: simple containerized setup of a custom Ensembl database and web server for any species
Vineetha et al. SPARK-MSNA: Efficient algorithm on Apache Spark for aligning multiple similar DNA/RNA sequences with supervised learning
Babnigg et al. GELBANK: a database of annotated two‐dimensional gel electrophoresis patterns of biological systems with completed genomes
CN102571934A (zh) 一种web页面数据绑定的方法
US20150154162A1 (en) Website content and seo modifications via a web browser for native and third party hosted websites
CN103064839A (zh) 一种Pdf全文在线检索方法
Montoni et al. Anguix: cell signaling modeling improvement through Sabio-RK association to Reactome
Blinov et al. Pathway Commons at Virtual Cell: use of pathway data for mathematical modeling
Mudadu et al. Machado: open source genomics data integration framework
CN111651531B (zh) 数据导入方法、装置、设备及计算机存储介质
Arita What can metabolomics learn from genomics and proteomics?
CN102411572B (zh) 生物分子数据的高效共享方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20131120

RJ01 Rejection of invention patent application after publication