CN105354441A

CN105354441A - 构建植物蛋白质互作网络的方法

Info

Publication number: CN105354441A
Application number: CN201510697708.1A
Authority: CN
Inventors: 张利达; 刘诗薇; 刘奕慧
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2016-02-24
Anticipated expiration: 2035-10-23
Also published as: CN105354441B

Abstract

一种构建植物蛋白质互作网络的方法，该方法将蛋白质结构与非结构特征相结合，利用随机森林算法训练蛋白质互作模型，并用训练后的蛋白质互作分类器对植物蛋白质相互作用关系进行预测，而后构建植物蛋白质相互作用关系网络。与现有方法相比，该方法极大地提高了植物蛋白质相互作用关系预测的准确性。

Description

构建植物蛋白质互作网络的方法

技术领域

本发明涉及生物技术，尤其涉及一种构建植物蛋白质互作网络的方法。

背景技术

蛋白质之间的相互作用几乎对所有细胞过程必不可少，大部分基因在蛋白质水平通过与其它蛋白质的相互作用来行使生物学功能。目前，已发展一些实验手段，如酵母双杂交、亲和纯化等技术方法来解析蛋白质的相互作用关系。随着已完成基因组序列信息的急剧增加，对基因/蛋白质之间的相互关系的认识已远远落后基因序列的增长，而解析蛋白质互作的实验方法不仅通量较低、而且技术要求较高，难以大规模开展相关研究工作。

过去十几年发展了许多基于计算机方法来预测蛋白质之间的相关作用关系，包括基因融合、基因进化谱、基因共表达、基因邻位、同源映射等方法。尽管这些方法利用不同类型的生物数据资源来预测蛋白质相互作用关系，但这些方法均基于非结构特征的间接依据进行预测，限制了方法的准确性。

发明内容

本发明的目的，就是为了解决上述问题，提供一种构建植物蛋白质互作网络的方法。

为了达到上述目的，本发明采用了以下技术方案：一种构建植物蛋白质互作网络的方法，包括如下步骤：

步骤1、在全基因组水平，用Modeller同源建模软件对植物基因进行同源结构建模，同源模型筛选标准为BLAST的E值<10^-5、或ModPipe的MPQS(ModPipequalityscore)质量分值≥0.5、或GA341值≥0.5(Meloetal.,2007)、或z-DOPE值<0(Shenetal.,2006)。

步骤2、从PDB与PISA数据库收集同源或异源蛋白质复合体空间结构数据，用PIBASE软件包计算蛋白质复合体各链间互作界面的结构(interfacestructures)及对应互作残基。用TM-Align软件对蛋白质同源结构与复合体模板进行空间结构比对叠加。

步骤3、筛选模板建模分值(TM-Score)大于0.4的蛋白质同源结构与复合体模板间的空间叠加结果(Zhangetal.,2004)，计算结构特征，具体包括基因同源结构与复合体模板之间的均方根偏差(Root-mean-squaredeviation)、模板建模分值、以及蛋白质同源结构之间互作界面保守残基数目以及互作界面保守残基比例。

步骤4、非结构特征计算，包括基因共表达，GO三类属性的基因功能相似性，基因系统发生谱，蛋白质相互作用的跨物种保守性(Interolog)以及基因融合。

步骤5、构建蛋白质相互作用阳性数据集与非相互作用蛋白质对阴性数据集，根据每一蛋白质对的4类结构与7类非结构特征，利用R软件包中的随机森林(RandomForests)算法训练目标植物蛋白质互作模型，选择分裂属性的个数mtry为4，生成决策树的数目为500。

步骤6、利用训练后的蛋白质互作分类器对植物整个基因组所有蛋白质两两之间的相互作用关系进行预测，随机森林模型的筛选阈值≥0.5。

步骤7、使用Cytoscape(http://www.cytoscape.org/)软件构建植物全基因组水平的蛋白质相互作用关系网络。

本发明针对现有技术存在的不足，提供了一种将蛋白质空间结构与非结构特征相结合，利用随机森林算法预测蛋白质之间相互作用关系的方法，提高了蛋白质之间相互作用关系预测的准确性，并可以此构建植物全基因组水平的基因相互作用网络。

附图说明

图1为本发明构建植物蛋白质互作网络方法的流程图。

图2是水稻蛋白质互作网络拓扑结构。

具体实施方式

下面以水稻全基因组水平的蛋白质互作网络构建为例，参照图1，具体说明本发明构建植物蛋白质互作网络方法的具体实施步骤。

步骤1、从水稻基因组中分离非转座子相关基因，用Modeller同源建模软件构建稳定的水稻蛋白质结构模型，其筛选标准符合下述条件之一：局部序列比对工具BLASTE值<10^-5、或MPQS(ModPipequalityscore)值≥0.5、或GA341值≥0.5、或z-DOPE值<0。

步骤2、从PDB与PISA数据库收集同源或异源蛋白质复合体空间结构数据，用PIBASE软件包计算蛋白质复合体各链间互作界面的结构(interfacestructures)及对应互作残基。用TM-Align软件对水稻蛋白质同源结构与复合体模板进行空间结构比对叠加，筛选稳定的水稻蛋白质同源结构与复合体模板间的空间叠加结果，其筛选标准为模板建模分值TM-Score大于0.4。

步骤3、计算水稻蛋白质同源结构与复合体模板之间的均方根偏差RMSD值、同源结构与复合体模板之间的建模分值、水稻蛋白质同源结构间互作界面保守残基数目以及互作界面保守残基比例。

步骤4、从NCBI(http://www.ncbi.nlm.nih.gov/)的SRA数据库中下载获得水稻RNA-seq样本数据，过滤低质量及污染序列后，获得高质量的RNA测序reads，采用TopHat2与Htseq-count连用计算上述各个样本中水稻基因表达丰度，并基于表达数据，计算水稻基因两两之间的皮尔逊相关系数(Pearsoncorrelationcoefficient)。

步骤5、根据GeneOntology数据，分Biologicalprocess，Molecularfunction及Cellularcomponent三类属性计算水稻基因之间功能相似性分值。基因功能相似性分值定义为S＝log(n/N)/log(2/N)，其中n是GeneOntology中包含有这两个基因的最低层次GO类别所含基因数目，N是水稻基因组注释基因总数。

步骤6、收集已完成测序的真核和原核基因组，筛选去除进化类似的基因组数据。对水稻基因与已完成测序基因组的与所有编码蛋白质序列进行BLAST比对(设定E值<10^-10)。如有匹配序列为1，反之为0，结果产生一个代表同源序列存在与否的n维向量的基因系统进化谱。

步骤7、从BioGRID、IntAct、DIP、MINT及BIND数据库中收集大肠杆菌、酵母、线虫、果蝇、小鼠、人以及拟南芥7个物种的蛋白质互作数据，并根据InParanoid方法计算获得的与上述物种直系同源的水稻基因，按公式计算水稻基因之间互作可能性大小的Interolog分值，其中ISai是水稻基因A与上述各物种直系同源基因A′i的InParanoid值，ISbi是水稻基因B与上述各物种直系同源基因B′i的InParanoid值。

步骤8、对水稻蛋白质与NCBI(http://www.ncbi.nlm.nih.gov/)的nr蛋白质数据库进行BLAST比对，如水稻两个非同源蛋白质序列与nr数据库中的第三条蛋白质序列的不同区域存在至少70％的序列相似性，该两个水稻基因为RosettaStone蛋白质。

步骤9、从BioGRID、IntAct、DIP、MINT及BIND数据库中收集水稻蛋白质互作数据为阳性数据集，非相互作用蛋白质对则由软件随机产生。计算每一蛋白质对的4类结构与7类非结构特征数值，利用R软件包中的随机森林(RandomForests)算法训练水稻蛋白质互作模型，选择分裂属性的个数mtry为4，生成决策树的数目为500。

步骤10、计算水稻所有非转座子相关蛋白质两两之间的4类结构与7类非结构特征值，利用训练后的水稻蛋白质互作分类器对水稻全基因组水平的蛋白质相互作用关系进行的预测，获得708819对水稻蛋白质互作关系，并用Cytoscape构建水稻蛋白质互作网络。

水稻蛋白质互作网络拓扑结构如图2所示。

Claims

1.一种构建植物蛋白质互作网络的方法，其特征在于：包括以下步骤：

一、植物基因同源结构建模，同源结构模型筛选标准为BLAST的E值<10^-5、或MPQS值≥0.5、或GA341值≥0.5、或z-DOPE值<0；

二、蛋白质同源结构与复合体模板进行空间结构比对叠加；

三、选择模板建模分值大于0.4的空间叠加结果，计算结构特征，具体包括蛋白质同源结构与复合体模板之间的均方根偏差、同源结构与复合体模板之间的模板建模分值、蛋白质同源结构间互作界面保守残基数目以及互作界面保守残基比例；

四、非结构特征计算，具体包括基因共表达，GO三类属性的基因功能相似性，基因系统发生谱，蛋白质相互作用关系的跨物种保守性以及基因融合；

五、利用随机森林算法进行植物蛋白质互作模型训练，随机森林算法选择分裂属性的个数为4，生成决策树的数目为500；

六、植物蛋白质相互作用关系预测，其筛选阈值≥0.5；

七、构建植物蛋白质相互作用关系网络。

2.如权利要求1所述的构建植物蛋白质互作网络的方法，其特征在于：步骤一中所述植物基因同源结构建模，是在全基因组水平，用Modeller同源建模软件对植物基因进行同源结构建模。

3.如权利要求1所述的构建植物蛋白质互作网络的方法，其特征在于：步骤二所述蛋白质同源结构与复合体模板进行空间结构比对叠加，是从PDB与PISA数据库收集同源或异源蛋白质复合体空间结构数据，用PIBASE软件包计算蛋白质复合体各链间互作界面的结构及对应互作残基，用TM-Align软件对蛋白质同源结构与复合体模板进行空间结构比对叠加。

4.如权利要求1所述的构建植物蛋白质互作网络的方法，其特征在于：步骤五中所述利用随机森林算法进行植物蛋白质互作模型训练，是构建蛋白质相互作用阳性数据集与非相互作用蛋白质对阴性数据集，根据每一蛋白质对的4类结构与7类非结构特征，利用R软件包中的随机森林算法训练目标植物蛋白质互作模型。

5.如权利要求1所述的构建植物蛋白质互作网络的方法，其特征在于：步骤六中所述植物蛋白质相互作用关系预测，是利用训练后的蛋白质互作分类器对植物整个基因组所有蛋白质两两之间的相互作用关系进行预测。

6.如权利要求1所述的构建植物蛋白质互作网络的方法，其特征在于：步骤七中所述构建植物蛋白质相互作用关系网络，是使用Cytoscape软件构建植物全基因组水平的蛋白质相互作用关系网络。