CN105279397B

CN105279397B - 一种识别蛋白质相互作用网络中关键蛋白质的方法

Info

Publication number: CN105279397B
Application number: CN201510701754.4A
Authority: CN
Inventors: 张伟; 徐佳; 朱姝; 李雄政
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2017-12-19
Anticipated expiration: 2035-10-26
Also published as: CN105279397A

Abstract

本发明公开了一种识别蛋白质相互作用网络中关键蛋白质的方法，根据蛋白质相互作用数据，构建无向图G，计算图的边聚类系数，本发明与现有的技术相比，在考虑蛋白质相互作用网络拓扑结构特性的基础上，结合基因表达谱数据和基因功能注释信息数据，整合三组数据来预测关键蛋白，能有效的减少单个数据源数据噪声对预测准确性的影响，通过计算蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数以及基因功能相似性指数这三类数据所体现的关键蛋白特性结合起来预测网络中关键蛋白，本发明可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度，并且可以一次预测出大量的关键蛋白质，解决了生物实验方法的昂贵成本和耗时的问题。

Description

一种识别蛋白质相互作用网络中关键蛋白质的方法

技术领域

本发明涉及生物信息学领域，尤其涉及一种识别蛋白质相互作用网络中关键蛋白质的方法。

背景技术

蛋白质是构成生物组织器官的支架和主要物质，它是生理功能的执行者，在生命活动中起着非常重要的作用。关键蛋白质在维持生物体正常生理过程中起着至关重要的作用，一旦移除这些蛋白质会造成相关蛋白质复合物和功能模块的生物功能丧失，导致生物体无法完成正常的生理活动，最终导致生物体生理活动失调或者死亡。有效的预测关键蛋白质对研究细胞的生理调控机制具有非常重要的生物意义，对药物靶标设计也具有很重要的实际价值。

在生物学领域，一般采取基因敲除、RNA干扰等生物实验的方法控制相关蛋白后通过观察生物体能否正常执行生命活动来判别一个蛋白是否是关键蛋白。利用生物实验的方法预测关键蛋白的方法虽然比较准确，但是生物实验周期长而且代价高。近些年来，随着高通量技术的发展，获得了大量的蛋白质相互作用、基因时序表达、基因功能注释信息等数据，这为从网络水平上预测关键蛋白质提供了条件。

已有的研究成果显示，一个蛋白质是否是关键蛋白质取决于这个蛋白质在生物分子网络中所对应节点的拓扑特性和生物功能特性。近些年来，出现了大量的网络中心性预测方法，典型的基于网络拓扑结构的有：度中心性(degree centrality,DC),介数中心性(betweenness centrality,BC),边聚类系数中心性(edge clustering coefficientcentrality,ECC),子图中心性(subgraph centrality,SC)和特征向量中心性(eigenvector centrality,EC)等。

由于目前通过高通量技术得到的蛋白质相互作用含有较大的假阳性、假阴性等噪声数据，为了减少噪声的影响，近几年来出现了结合网络拓扑结构跟其它生物信息数据比如基因表达数据等的方法有Pec,CoEWC等方法。

发明内容

本发明的目的在于提供一种识别蛋白质相互作用网络中关键蛋白质的方法，通过计算蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数以及基因功能相似性指数这三个不同的层面来刻画关键蛋白的特性，有效的将这三种特性结合起来预测关键蛋白，本发明不需要借助已有关键蛋白信息，准确度高，有效解决了生物实验的昂贵成本和时间周期长等问题。

为解决上述技术问题，本发明采取的技术方案是：通过计算蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数以及基因功能相似性指数，只需要根据网络拓扑结构信息，基因表达谱信息以及基因功能相似性信息就能准确地预测未知关键蛋白，本发明具体实现步骤为：1)根据蛋白质相互作用数据，构建无向图G，计算图的边聚类系数；2)根据基因表达谱，找出蛋白质相互作用数据中蛋白质对应基因的表达谱，计算蛋白质相互作用数据中任意一对蛋白质相互作用的两个蛋白对应基因表达谱的皮尔逊相关系数，依次类推，计算所有相互作用蛋白质对的皮尔逊相关系数；3)根据蛋白质相互作用数据中的任意一对蛋白质相互作用关系的两个蛋白，找出这两个蛋白对应基因的功能注释编号，然后根据基因功能相似性计算方法计算这一对蛋白质之间的功能相似性，依次类推，计算所有相互作用蛋白质对的功能相似性值；4)由上述步骤得到的网络边聚类系数，基因功能相似性数据和基因表达相关性数据按照公式(3)计算每个蛋白质的关键值排名，值越大说明这个蛋白质越重要。

本发明的技术效果是：本发明与现有的技术相比，在考虑蛋白质相互作用网络拓扑结构特性的基础上，结合基因表达谱数据和基因功能注释信息数据，整合这三组数据来预测关键蛋白，能有效的减少单个数据源数据噪声对预测准确性的影响，通过计算蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数以及基因功能相似性指数这三类数据所体现的关键蛋白特性结合起来预测网络中关键蛋白，本发明可以显著提高蛋白质相互作用网络中关键蛋白的识别准确度，并且可以一次预测出大量的关键蛋白质，解决了生物实验方法的昂贵成本和耗时的问题。

附图说明

图1为本发明TGE在结合三种GO信息情况下与其它五种中心性度量方法DC,BC,NC,COEWC,Pec在测试数据1下关键蛋白预测结果的准确度比较图,其中N＝200对应的子图表示预测的前200个关键蛋白质中各种方法预测正确的关键蛋白质个数比较；N＝400对应的子图表示预测的前400个关键蛋白质中各种方法预测正确关键蛋白质个数比较；N＝600对应的子图表示预测的前600个关键蛋白质中各种方法预测正确关键蛋白质个数比较。

图2为本发明TGE在结合三种GO信息情况下与其它五种中心性度量DC,BC,NC,COEWC,Pec在测试数据2下关键蛋白预测结果的准确度比较图,其中N＝200对应的子图表示预测的前200个关键蛋白质中各种方法预测正确的关键蛋白质个数比较；N＝400对应的子图表示预测的前400个关键蛋白质中各种方法预测正确关键蛋白质个数比较；N＝600对应的子图表示预测的前600个关键蛋白质中各种方法预测正确关键蛋白质个数比较。

图3为本发明TGE在结合三种GO信息情况下与其它五种中心性度量DC,BC,NC,COEWC,Pec在两组测试数据下Jackknife方法的验证比较图：图A为在测试数据1下的比较结果，图B为在测试数据2下的比较结果。

具体实施方式

下面将结合实施例详细说明本发明所具有的有益效果，旨在帮助阅读者更好地理解本发明的实质，但不能对本发明的实施和保护范围构成任何限定。

由于酵母是目前研究最为广泛的物种，而且积累了一些实验测定的酵母关键蛋白质信息。为了证实本发明方法的有效性，将酵母的数据作为测试验证。本发明从DIP(蛋白质相互作用数据库)中下载酵母的蛋白质相互作用网络数据，剔除掉重复的和自相互作用数据后，最终得到一个包含5093个酵母蛋白质和24743对相互作用的网络作为测试数据1,另外从文献库中搜集由质谱测量技术和酵母双杂交技术得到的综合的蛋白质相互作用网络数据，剔除重复和自相互作用以及孤立点数据后得到一个包含3861个酵母蛋白，19165对相互作用的网络数据作为测试数据2；

从GEO(Gene Expression Omnibus)数据库中下载酵母的基因表达时间序列值，得到6,777个基因产物对应的36个时间点的表达值；从GO(Gene Ontology)数据库中下载酵母的基因功能注释信息数据，截止日期是2015-3-4。实验测试所用的关键蛋白质数据来源于MIPS(Munich Information center for Protein Sequences)，SGD(SaccharomycesGenome Database),DEG(Database of Essential Genes)和SGDP(Saccharomyces GenomeDeletion Project)四个数据库，一共有1285个关键蛋白。经过统计，实验所用的酵母蛋白质相互作用网络数据中共有5093个蛋白，其中1167个是关键蛋白，3591个是非关键蛋白，剩余的335个蛋白质的关键性未知。

通过对已知数据的研究发现网络中的关键蛋白总是会形成连接紧密的子网，从拓扑结构来看它们之间的聚类系数较高，而且处在同一个连接子网里面的关键蛋白共表达的概率很高；从基因表达值之间的关系来看，它们之间的相关系数较高；连接紧密的子网通常是由一个或者多个复合物组成共同执行某个特定的生物过程，因此它们之间的功能相似性较高。鉴于此，本发明通过综合PPI网络拓扑结构，基因表达值和基因功能信息提出了一个新的预测关键蛋白的方法TGE。

为了描述基于多数据源预测关键蛋白的方法，我们给出该方法涉及到的相关定义。

1.为了刻画子图中两个连接节点之间的稠密性，采用边聚类系数(edgeclustering coefficient(ECC))来衡量，网络中节点u和节点v之间的边聚类系数的定义如下:

其中d_u和d_v分别为节点u和v的度。表示由边(u,v)构成的在这个网络中三个节点相连组成三角形子网的个数。Ecc(u,v)刻画了节点u和v之间的疏密程度。

2.为了衡量两个处在同一稠密子网中蛋白质及的共表达性，采用皮尔逊相关系数(Pearson correlation coefficient(PCC))来计算两蛋白对应基因表达值之间相关性,一对基因(X和Y)之间的表达相关性计算皮尔逊相关系数定义如下：

其中n是基因表达值数据的样本数目；X_i是第i个基因的表达水平。

3.为了刻画两个蛋白质之间功能相似性，我们采用GO相似性来度量两个相连蛋白对应基因功能之间的相似程度。基因功能包含三个部分，分别是生物过程(BiologicalProcess(BP))，细胞组成(Cellular Component(CC))和分子功能(Molecular function(MF))，这三部分通常都可用于刻画蛋白质的功能信息，本发明采用James Z Wang等人提出的计算方法^[1]来计算分别结合基因功能这三部分信息(CC+PPI,MF+PPI,BP+PPI)下的两蛋白质之间功能相似性。

4.基于上述步骤中计算得到的网络边聚类系数，基因功能相似性数据和基因表达相关性数据，定义新的识别关键蛋白质的方法TGE如下，对于蛋白质相互作用数据中的一个蛋白u,TGE(u)的计算公式如下：

其中N_u表示节点u的所有邻居节点集合。

本发明的方法可以归结为四个步骤：构建初始蛋白质相互作用网络，计算两相连蛋白质之间的边聚类系数、皮尔逊相关系数、基因功能相似性，然后结合新定义关键性指标计算蛋白质关键指数TGE，将TGE指数从大到小进行排序，输出结果。

[1]Wang JZ,Du Z,Payattakool R,Yu PS,Chen CF:A new method to measurethe semantic similarity of GO terms.Bioinformatics 2007,23(10):1274-1281.

基于网络拓扑结构、基因表达值和基因功能注释信息的关键蛋白识别方法TGE的有效性验证：

通常采用预测精度作为评价预测方法好坏的评估指标，因此将TGE与DC,BC,NC,CoEWC,Pec的预测结果精度进行比较，预测精度的定义如下：

其中M_i表示方法i，S_i表示方法i预测的关键蛋白集合，S_E表示真实的关键蛋白集合。

本发明方法TGE与其它方法预测关键蛋白的精确度比较：分别对TGE和其它5种中心性度量指标得到的指数从大到小排序，分别将前200，400，600的蛋白作为后续关键蛋白，通过精确度计算公式，分别计算每种方法的精确度并进行比较。

在预测的前600个关键蛋白情况下，在结合生物过程信息(BP)下本发明方法TGE预测精度最高。在测试数据1的情况下结合BP信息的TGE的预测结果比DC,BC,NC,CoEWC,Pec预测精度提高的百分比分别为20％,25％,9％,9％,7％(表1).在测试数据2的情况下结合BP信息的TGE的预测结果比DC,BC,NC,CoEWC,Pec预测精度提高的百分比分别为16％,22％,7％,7％,7％(表1).

表1.在测试数据1下各种方法预测关键蛋白的精确度

表2.在测试数据2下各种方法预测关键蛋白的精确度

本方法不需要任何已知的关键蛋白信息数据，完全是基于目前高通量所得的数据来分析，可以适用于其它物种和组织的关键蛋白质的预测，适用范围广，精确度高。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种识别蛋白质相互作用网络中关键蛋白质的方法，所述方法包括如下步骤：

步骤1:建立蛋白质相互作用网络，过滤其中重复的相互作用和子相互作用关系，基于蛋白质相互作用网络得到这个网络的邻接矩阵A，首先基于这个邻接矩阵计算每个节点的度，然后采用边聚类系数公式计算这个网络中节点u和节点v之间的聚类系数:

其中d_u和d_v分别为节点u和v的度，表示由边(u,v)构成的在这个网络中三个节点相连组成三角形子网的个数；

步骤2：根据基因时序表达数据计算基因表达相关性，具体采用皮尔逊相关系数Pearson correlation coefficient(PCC)公式计算每对蛋白质相互作用关系下对应的基因对之间两基因之间的表达相关性，一对基因X和Y之间的表达相关性计算皮尔逊相关系数定义如下：

<mrow> <mi>P</mi> <mi>C</mi> <mi>C</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>s</mi> <mi>t</mi> <mi>d</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>s</mi> <mi>t</mi> <mi>d</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中n是基因表达值数据的样本数目；X_i是第i个基因的表达水平；

步骤3：根据蛋白质相互作用关系数据在基因功能注释信息数据库下载酵母基因功能注释信息数据，然后找出蛋白质相互作用关系数据中每个蛋白质对应的基因功能编号信息GO-id，这样每一对相互作用的两个蛋白质对应相互作用的一对基因功能编号信息；由于每个物种下基因功能注释信息包含三方面的功能信息，分别是生物过程信息BiologicalProcess，分子功能信息Molecular function，细胞组成信息Cellular component，基于上述方法得到的基因功能编号相互作用信息数据，采用统计软件R中工具箱GOSemSim来计算蛋白质相互作用关系数据对应的三方面基因功能信息相似性，这样得到三组蛋白质相互作用关系对应的三方面相似性数据，分别是基因过程相似性、分子功能信息相似性、细胞组成相似性；

步骤4：基于上述步骤中计算得到的网络边聚类系数，基因功能相似性数据和基因表达相关性数据，定义新的识别关键蛋白质的方法TGE如下，对于蛋白质相互作用数据中的一个蛋白u,TGE(u)的计算公式如下：

<mrow> <mi>T</mi> <mi>G</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> </mrow> </munder> <mi>E</mi> <mi>c</mi> <mi>c</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>G</mi> <mi>O</mi> <mo>_</mo> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo>(</mo> <mrow> <mi>u</mi> <mo>,</mo> <mi>v</mi> </mrow> <mo>)</mo> <mo>+</mo> <mi>P</mi> <mi>C</mi> <mi>C</mi> <mo>(</mo> <mrow> <mi>u</mi> <mo>,</mo> <mi>v</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中N_u表示节点u的所有邻居节点集合。