CN111128292B

CN111128292B - 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法

Info

Publication number: CN111128292B
Application number: CN201911356473.4A
Authority: CN
Inventors: 钟坚成; 唐超; 孙瑜穗; 杨家红
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2023-05-05
Anticipated expiration: 2039-12-25
Also published as: CN111128292A

Abstract

本发明涉及一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，该方法的具体步骤为先利用边聚集系数描述蛋白质相互作用网络成簇的特性；再通过设置阈值参数来设定基因活性表达，并采用布尔值描述；基于基因活性表达的布尔值定义了计算方法，利用Jaccard系数来计算活性共表达的得分；最后基于蛋白质成簇特性和活性共表达得出的关键性综合得分并输出排序结果，top排序后关键性综合得分高的蛋白质(取top N作为阈值)为关键蛋白质。本发明的关键蛋白质识别方法消除基因表达数据噪声的影响，并且在识别的准确性、特异性和敏感性等性能上要优于中心性度量方法及拥有相同输入数据集的关键蛋白质预测方法。

Description

一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法

技术领域

本发明属于生物信息技术领域，涉及一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法。

背景技术

生物体的生命活动往往需要蛋白质的深度参与。关键蛋白质一般存在于蛋白质的复合物中，它的缺失会造成生物体内某些功能的丧失，甚至会导致生物体无法存活。关键蛋白质对于生命的生理活动和存活都是必不可少的。因此，如何准确的预测关键蛋白质成为了蛋白质组学领域的研究重点。

早期研究关键蛋白质时，生物学家主要通过生物实验来观察生物在丢失了某些蛋白质时对生物的影响，并以此来判断该蛋白质是否为关键蛋白质。虽然取得了不错的效果，但是存在耗时长，耗费大等局限。为此，部分研究人员以计算机的思维来解决此类问题，再加上高通量蛋白质组技术的快速发展和蛋白质相互作用数据日益完善，这就使得使用计算方法识别关键蛋白质成为了可能。Jeong等人提出了“中心性-致死性”法则，该法则将蛋白质网络结构中的度数即相邻蛋白质节点比较多的节点称为hub点，hub点通常处于网络中心的位置，对于整个网络的拓扑结构更具有影响。而hub点的缺失对于整个网络可能是毁灭性的，这也在一定程度上暗示着hub点的缺失如同关键蛋白质缺失一样，可能会对生物活动产生巨大的影响。基于该“中心性-致死性”法则和蛋白质相互作用数据的完善，衍生了一批基于蛋白质网络的节点拓扑的中心性度量方法。包括节点的度中心性(Degree centrality，DC)指的是网络中节点的领域的个数，该方法简单易用，但是预测出的关键蛋白质数量较少。节点的介数中心性(Betweenness centrality，BC)指某节点出现在其他节点之间的最短路径的个数，它反映了节点位置的枢纽程度，但计算的复杂度高。节点的接近中心性(Closeness centrality，CC)考察的是节点对于其他节点信息传播的依赖程度，但此方法很大程度上依赖于网络的拓扑结构。节点的子图中心性(Subgraph centrality,SC)利用了网络中某节点与别的节点形成的闭合回路的总数来衡量蛋白质的节点的关键性。节点的特征向量中心性(Eigenvector centrality,EC)是利用在网络邻接矩阵的主向量中每个顶点的分量来衡量对应蛋白质节点的关键性。节点的信息中心性(Information centrality,IC)是利用每个顶点为端点的路径的平均总和来衡量每个蛋白质节点的关键性。这些中心性度量方法虽然考虑了PPI网络的拓扑特性，但是却忽略了蛋白质相互作用中可能会存在一些假阴性和假阳性数据，从而影响了关键蛋白质的预测。

为了更好地预测关键蛋白质，Li和Tang等人结合蛋白质相互作用网络和基因表达信息提出了名为PeC和WDC的关键蛋白质预测方法；Peng等人提出了UDoNC方法和ION方法，通过蛋白质的域特征之间的相关性和同源蛋白质信息，结合PPI网络的一些拓扑特性来对关键蛋白质进行预测。同时，又有一部分的研究采用有监督的学习方法，运用机器学习算法，如SVM、决策树、朴素贝叶斯等来进行预测关键蛋白质。Gustafson等人通过将具有不同预测能力的基因组特征和蛋白质特征组合，并采用朴素贝叶斯进行关键蛋白质预测。Hwang等人基于ORF、ST、PHY等生物学特征和DC、BD、CC等一些PPI网络特征构建了一种SVM分类器来进行关键蛋白质预测。Zhong等人通过整合PPI网络拓扑特性(DC、BC、CC、EC、IC、SC、NC)和基于生物学计算出来的特征(PeC、WDC和ION)，提出了一种基于GEP的关键蛋白质预测方法。

公开号为104156634A的发明专利公开了一种基于亚细胞定位特异性的关键蛋白质识别方法，其核心思想是在蛋白质相互作用网络的基础上加入亚细胞定位信息构建了11个蛋白质亚细胞定位相互作用子网，并计算各个子网的蛋白质的关键性得分，再根据蛋白质得分的可信度从高到低依次更新蛋白质的关键性综合得分。这种方法虽然简单易用，能一定程度上的提高预测的精准度。但是由于其是在迭代的基础上进行的，计算复杂度较大。

公开号为108733976A的发明专利公开了一种基于融合生物与拓扑特征的关键蛋白质识别方法，其核心思想是根据蛋白质拓扑特征和生物特性指标构建归一化的属性矩阵，对属性矩阵赋予权重，迭代得到的损失函数并优化，得到最终的关键蛋白质。这种方法能够较好的识别关键蛋白质。然而此种方法引用了大量的数据源且计算较为复杂。

公开号为109166604A的发明专利公开了一种融合多数据的关键蛋白质的计算方法。其核心思想是结合蛋白质相互作用网络的边聚集系数、基因表达值的皮尔逊相关系数、基因本体属于的语义相似性指数以及蛋白质亚细胞定位统计特征设计了一种新的关键蛋白质预测方法。这种方法的好处是结合了多种数据源有效的减少了单个数据源中噪声的影响，但是这种方法需要获取多种数据源，带来了收集数据难度和计算复杂度等困难。

公开号为110400599A的发明专利公开了一种基于鸽子优化算法识别关键蛋白质的计算方法。其核心思想是在蛋白质相互作用网络、亚细胞定位信息和功能注释信息的基础上，通过鸽群优化算法，不断的迭代适应度值，得出最终的关键蛋白质得分排序。这种方法能够将鸽子算法的优化特性与蛋白质的拓扑特性与生物特性结合起来识别关键蛋白质，提高了关键蛋白质的识别准确率。但是由于亚细胞定位信息和功能注释信息存在噪声，可能会使的预测结果出现偏差。同时在融入了多种数据集后也增加了计算复杂度。

在上述的这些方法和公开文件中，基于PPI网络数据的关键蛋白质预测方法由于高通量蛋白质相互作用数据中存在许多假阳性和假阴性数据，从而可能会影响预测的准确性；基于PPI网络数据和基因表达数据的关键蛋白质预测方法虽然在一定程度上消除了蛋白质相互作用数据的假阳性和假阴性，但是忽略了基因表达数据中的噪声带来的影响。

发明内容

有鉴于此，本发明的目的在于提供一种基于蛋白质相互作用数据和基因表达数据，以蛋白质往往成簇的特性为前提，通过基因表达在不同时刻具有“活性”和“非活性”的发现来消除基因表达数据噪声的影响，识别性准确、特异性好的关键蛋白质识别方法。

为达到上述目的，本发明提供如下技术方案：

1.一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，具体包括以下步骤：

a.利用边聚集系数描述蛋白质相互作用网络成簇的特性；

b.通过设置阈值参数来设定基因活性表达，并采用布尔值描述；

c.基于基因活性表达的布尔值定义了计算方法，利用Jaccard系数来计算活性共表达的得分；

d.基于蛋白质成簇特性和活性共表达得出的关键性综合得分并输出排序结果。

进一步，所述边聚集系数的公式如下：

其中

表示的是PPI网络中由边(i,j)参与形成的实际三角形的个数，k_i和k_j表示的是蛋白质i和蛋白质j的度的个数，min(k_i-1,k_j-1)表示的是蛋白质i和蛋白质j的度的最小数决定的可能形成的三角形的个数。

进一步，步骤b中阈值参数根据基因表达数据的均值和标准差来计算的，阈值参数来设定基因活性表达为大于阈值参数的基因活性为1，小于等于阈值参数的基因活性为0。

进一步，阈值参数计算公式如下：

S(i)＝U(i)+σ(i)×V(i)，

其中U(i)表示的是基因i表达数据的平均表达程度，σ(i)表示的是基因i表达数据的标准差，V(i)表示的是蛋白质i表达数据的波动性，S(i)表示的是基因i确定的阈值参数。

根据权利要求4所述的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，其特征在于，步骤c中Jaccard相关系数的值在0到1的范围内，基因i和基因j的活性共表达的公式为：

其中S(i)，S(j)表示的是基因i和j二值化后的基因表达数据。

进一步，步骤d为通过结合边聚集系数计算的成簇特性和Jaccard相关系数计算的活性共表达得分得出关键性综合得分，然后对所有蛋白质按照关键性综合得分排序并输出排序结果；边聚集系数和Jaccard相关系数的结合计算关键性综合得分公式如下：

Jc(i,j)＝J(i,j)*ECC(i,j)，其中J(i,j)表示的是Jaccard相关系数计算出来的得分，ECC(i,j)表示的是边聚集系数计算出来的得分，对于蛋白质i,定义它的JDC值为该蛋白质与其领域属于同一簇的概率之和，其计算公式如下：

其中D_i表示的是蛋白质i的所有邻域，JDC度量出来的值取决于具有成簇特性的蛋白质活性共表达的相似性。

进一步，蛋白质的蛋白质相互作用网络数据和基因表达数据从公共数据库中获得，所述的公共数据库包括DIP和NCBI数据库。

本发明的有益效果在于：本发明方法基于蛋白质相互作用数据和基因表达数据，以蛋白质往往成簇的特性为前提，通过基因表达在不同时刻具有“活性”和“非活性”的发现来消除基因表达数据噪声的影响，提出了一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，并且在识别的准确性、特异性和敏感性等性能上要优于中心性度量方法(DC、IC、EC、SC、BC、CC和NC)及拥有相同输入数据集的关键蛋白质预测方法(PeC和WDC)。基于亚细胞定位特异性的关键蛋白质识别方法在使用相同的输入蛋白质相互作用网络数据集的基础上加入了亚细胞定位信息，与之相比较，本发明方法在没有输入亚细胞定位信息情况下还能识别出更多的关键蛋白质，具有更高的准确性。基于鸽子优化算法识别关键蛋白质的计算方法在使用蛋白质相互作用网络数据和亚细胞定位信息的基础上加入了功能注释信息，与之相比较，本发明方法所使用的数据集更少且具有更高的特异性。融合多数据的关键蛋白质的计算方法将基因表达数据、蛋白质相互作用网络数据、功能注释信息和亚细胞定位信息作为预测关键蛋白质方法的输入，在准确性上有了一定的提高，但是与本发明基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法相比较，JDC方法的计算简单，需要的输入数据集少降低了输入数据采集难度。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法(简写为JDC方法)的流程图；

图2-图7为本发明JDC方法与其他七种中心性度量方法DC、IC、EC、SC、BC、CC、NC、以及具有相同数据输入方法PeC和P&E预测正确的关键蛋白质个数比较图；

其中图2对应的是排序Top1％的蛋白质作为预测的关键蛋白质；

图3为对应的是排序Top5％的蛋白质作为预测的关键蛋白质；

图4为对应的是排序Top10％的蛋白质作为预测的关键蛋白质；

图5为对应的是排序Top15％的蛋白质作为预测的关键蛋白质；

图6为对应的是排序Top20％的蛋白质作为预测的关键蛋白质；

图7为对应的是排序Top25％的蛋白质作为预测的关键蛋白质；

图8为本发明JDC方法与其他七种中心性度量方法DC、IC、EC、SC、BC、CC、NC、以及具有相同数据输入方法PeC和P&E测得的ROC曲线的比较图；

图9为本发明JDC方法与其他七种中心性度量方法DC、IC、EC、SC、BC、CC、NC、以及具有相同数据输入方法PeC和P&E的jackknife曲线图；图9-1显示了在Yeast数据下的十种关键蛋白质预测方法的折刀曲线，为了更清楚的显示，图9-2、图9-3和图9-4分别显示了JDC和其他几种预测方法的比较，其中图9-2为JDC同DC、IC和EC的比较，图9-3为JDC和SC、BC、CC的比较，图9-4为JDC和NC、WDC、PeC的比较。

图10为本发明JDC方法排序的Top100个关键蛋白质之间相互作用的模块图。

图11为WDC方法排序的Top100个关键蛋白质之间相互作用的模块图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。实施例中未注明具体条件的实验方法，通常按照常规条件或按照制造厂商所建议的条件。

实施例1

1.蛋白质相互作用网络(PPI)数据和基因表达数据的选择。

由于酵母的数据是所有物种中比较完备的，并且被广泛应用于各种关键蛋白质预测方法中，因此本发明采用酿酒酵母(Bakers Yeast)的数据来进行试验。从DIP中下载酵母的全基因组蛋白质相互作用数据，丢弃其中重复的相互作用数据和自我相互作用数据，得到的酵母PPI网络有5093个蛋白质和24743个边。关键蛋白质通过整合MIPS、SGD、DEG和SGDP四个数据库，其中酵母的关键蛋白质有1285个(1167个关键蛋白质出现在酵母PPI中)。基因表达数据体现了基因在代谢周期中的动态特性。酵母的基因表达数据是从NCBI GeneExpression Omnibus网站上下载的，经过预处理得到了6777个基因产物和36个样本，其中4858个基因参与酵母蛋白相互作用网络。

2.图1为本发明基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法(简写为JDC方法)的步骤流程图，基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法的具体步骤如下：

步骤1：利用边聚集系数描述蛋白质相互作用网络成簇的特性；

Radicchi等人首先提出了边聚集系数是用于刻画网络中的一个重要的拓扑指标。之后Wang等人率先引入了边聚集系数，并在酵母PPI网络中进行试验用来检测关键蛋白质，取得了较好的检测效果。边聚集系数的优点是从拓扑的角度出发描述蛋白质相互作用网络成簇的特性，将蛋白质i和蛋白质j为端点的边与周围节点之间紧密联系的程度显现出来。本发明方法定义蛋白质i和蛋白质j的边聚集系数的公式如下：

其中

步骤2：通过设置阈值参数来设定基因活性表达，并采用布尔值描述；

在选定基因表达数据时，由于测量基因表达量的实验可能会产生部分噪声，从而导致基因在不同时刻的表达量产生偏差。为了消除这种偏差，将每个时刻的基因表达采用“活性”和“非活性”的表达形式来刻画基因的表达活性。通过将基因表达数据按照设定的阈值进行表达活性筛选。本发明方法选取基因表达数据的均值和标准差来设定的阈值参数，大于阈值的为活性显示为“1”，小于等于阈值参数的基因活性为“0”。阈值参数的计算公式如下：

S(i)＝U(i)+σ(i)×V(i)，其中U(i)表示的是基因i表达数据的平均表达程度，σ(i)表示的是基因i表达数据的标准差，V(i)表示的是蛋白质i表达数据的波动性，S(i)表示的是基因i确定的阈值参数。

步骤3：基于基因活性表达的布尔值定义了一种相似度计算方法，利用Jaccard系数来计算活性共表达的得分；

基于基因活性表达的布尔值，本发明方法定义了一种相似度的计算方法，利用Jaccard系数来计算活性共表达的得分。Jaccard相关系数的值在0到1的范围内。本发明定义了基因i和基因j的活性共表达的得分公式为：

其中S(i)，S(j)表示的是基因i和j二值化后的基因表达数据。

步骤4：输出结果：计算基于蛋白质成簇特性和活性共表达得出的关键性综合得分并输出排序结果，top排序后关键性综合得分高的蛋白质(取top N作为阈值)为关键蛋白质。

通过结合边聚集系数计算的成簇系数得分和Jaccard相关系数计算的活性共表达得分得出关键性综合得分，然后对所有蛋白质按照综合得分排序并输出排序结果。边聚集系数和Jaccard相关系数的结合公式如下：

Jc(i,j)＝J(i,j)*ECC(i,j)，其中J(i,j)表示的是Jaccard相关系数计算出来的得分，ECC(i,j)表示的是边聚集系数计算出来的得分。对于蛋白质i,定义它的JDC值为该蛋白质与其领域属于同一簇的概率之和，其计算公式如下：

其中D_i表示的是蛋白质i的所有邻域。JDC度量出来的值取决于具有成簇特性的蛋白质活性共表达的相似性。本发明的关键蛋白识别方法基于蛋白质相互作用数据和基因表达数据基础上，结合蛋白质成簇特性和活性共表达建立的方法，并且在识别的准确性、特异性和敏感性等性能上要优于中心性度量方法(DC、IC、EC、SC、BC、CC和NC)及拥有相同输入数据集的关键蛋白质预测方法(PeC和WDC)。

实施例2

为了验证本发明方法JDC的性能，选取了9种关键蛋白质预测方法进行了对比。其中的9种预测方法分别为：(Degree Centrality,DC)度中心方法；(InformationCentrality,IC)信息中心性；(Eigenvector Centrality,EC)信息向量中心性；(SubgraphCentrality,SC)子图中心性；(Betweenness Centrality,BC)介数中心性；(ClosenessCentrality,CC)接近度中心性；(Edge Clustering Cofficient Centrality,NC)，基于边聚集系数的关键蛋白质度量方法，(Integratioin of gene expressionprofiles and PPIdata，PeC)基于基因表达数据和PPI网络数据的关键蛋白质度量方法；(Integratioinofgene expressionprofiles and PPI data and add the parameters to adjust theproportion，P&E)基于加权度量中心性的关键蛋白质度量方法。并分别选取了Top1％、5％、10％、15％、20％和25％的蛋白质作为预测的关键蛋白质，计算了有多少蛋白质是真正对的关键蛋白质，实验结果依次如图2-图7所示。从图2中可以看出，当选择排序Top1％的蛋白质时，JDC与其他方法(DC、IC、EC、SC、BC、CC、NC、PeC和WDC)分别识别42、22、24、24、24、24、24、32、39和36个关键蛋白质，可以充分表明本发明方法要优于其余的关键蛋白质预测方法。显而易见，从图3、图4、图5、图6和图7中可以看出本发明方法在Top5％、10％、15％、20％和25％的蛋白质排序中的关键蛋白质的数目均高于其余的预测方法。

实施例3

基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法的ROC曲线比较和多种性能评估。

为了评估各个方法的全局性能，使用了ROC曲线进行比较。比较结果如图8所示，在Yeast数据下，JDC曲线下面积(AUC)为0.6992，WDC和NC曲线下面积(AUC)分别为0.6884和0.6889。JDC的方法相较于WDC和NC分别提高了0.0108和0.0103。JDC、WDC和PeC的区别就是在对PPI网络如何进行加权。LI和Tang虽然在ECC的基础上引入了PCC相关系数对PPI网络进行加权，有效的抑制了假阳性和假阴性。但是在引入基因表达数据时忽略了基因表达在不同时刻的“活性”与“不活性”。为此，本发明提出了通过将基因表达数据二值化并引入Jaccard系数来加权，不仅考虑到了PPI网络的假阴性和假阳性，还考虑了基因的活性共表达，使结果更准确更灵敏。从图8中可以看出DC、IC、EC、SC、BC、CC和PeC的曲线下面积分别为0.6705、0.6657、0.6386、0.6385、0.6256、0.6293和0.6331，本发明方法的面积明显要高于其余的关键蛋白质预测方法。当Yeast的FPR在小于0.4的情况下，JDC方法的ROC曲线较与其余关键蛋白质预测方法性能最优，这说明JDC方法在识别关键蛋白质中具有较高的灵敏度。

在通过比较ROC曲线的基础上，并用了以下的标准进行了评价，包括敏感性(SN)、特异性(SP)、FPR、阳性预测值(PPV)、阴性预测值(NPV)、F-measure、准确度(ACC)、Matthews相关系数(MCC)。评估分析如表1所示。从表1可以看出，JDC的SN，SP，PPV，NPV，F-measure，ACC和MCC的值比其余的预测方法得出的值要高，而FPR的值是最低的，由此可以看出JDC的方法要优于其余的预测方法。

表1评估分析

实施例4

基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法的Jackknife曲线比较和重叠性分析。

用Jackknife曲线来进一步验证JDC方法以及其他预测方法的性能。实验结果如图9所示。纵坐标代表的是真正的关键蛋白质的累加和，横坐标代表的是预测的关键蛋白质的数目。图9-1显示了在Yeast数据下的十种关键蛋白质预测方法的折刀曲线，为了更清楚的显示，图9-2、图9-3和图9-4分别显示了JDC和其他几种预测方法的比较，其中图9-2为JDC同DC、IC和EC的比较，图9-3为JDC和SC、BC、CC的比较，图9-4为JDC和NC、WDC、PeC的比较，都可以看出JDC方法在曲线下(AUC)的面积要高于其余九种方法(DC,IC,EC,SC,BC,CC,NC,WDC和PeC)。折刀曲线的分析结果表明，JDC在预测关键蛋白质的性能要明显高于其他预测方法。

为了进一步的分析JDC在预测关键蛋白质的表现，将JDC和其余九种关键蛋白质预测方法(DC,EC,SC,BC,CC.IC,LAC和NC)预测出的关键蛋白质进行重叠分析。表2显示的是JDC与其他中心性度量之间重叠数量。其中，C_i表示的是不同的关键蛋白质预测方法，JDC∩C_i表示的是由JDC和各个关键蛋白质预测方法检测的出来的重叠的蛋白质的数量，|C_i-JDC|表示的是由JDC和各个关键蛋白质预测方法检测出来的不重叠的蛋白质的数量。从表2中可以看出JDC与只使用拓扑特性的度量方法(DC,IC,EC,SC,BC,CC和NC)共同鉴定的关键蛋白质在40％以下，而同样使用了生物数据的PeC和WDC有着很高的重叠。在非重叠部分，JDC相较于其余度量方法非关键蛋白质的数量要少得多，关键蛋白质所占的比例要高的多。以BC为例，BC的|C_i-JDC|的数量为75，在这个75个非重叠蛋白质中BC测得关键蛋白质的比例为43.5％，而JDC识别了80.0％的关键蛋白质，在其余的中心性度量方法中JDC方法测得的效果要更好，这就说明了JDC方法预测出来的蛋白质更有可能是关键蛋白质。

表2 JDC与其他中心性度量之间重叠数量

(6)基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法的模块性分析和动态网络比较分析。

本发明利用酵母PPI网络和JDC预测的前100位蛋白质构成了一个小的PPI网络模块。结果如图10所示。JDC计算出来的相似性排序前100位的蛋白质包括了78个关键蛋白质和16个模块。一个超大模块里面包含了很多的关键蛋白质，表明了相似性越大的关键蛋白质越容易聚集在一起。为了进一步说明JDC在关键蛋白质中的模块性，也构建了WDC排序Top100的模块。根据图11所示，可以得出WDC的排序Top100的蛋白质中有68个关键蛋白质和14个模块。JDC预测的模块相较于WDC预测的模块要多，并且预测的关键蛋白质的数目也要多10个。因此，作为关键蛋白质的预测方法，本发明方法JDC的模块性要比WDC的更好。

之前将JDC同静态网络下的各种中心性方法进行了比较。实验结果表明，本发明方法能够提高预测关键蛋白质的准确性。为了进一步验证本发明方法的准确性，用同预测结果较好的动态网络进行比较。Xiao等人通过结合静态蛋白质相互作用网路和蛋白质活性表达时刻点构建了NF-PIN动态网络。Li等人通过结合基因表达谱和亚细胞定位信息构建了TS-PIN动态网络。使用在Yeast数据的结果下分别于NF-PIN动态网络和融入亚细胞定位的TS-PIN网络的各种中心性预测方法进行比较，结果如表3和表4所示。

表3于NF-PIN动态网络的各种中心性预测方法进行比较

表4融入亚细胞定位的TS-PIN网络的各种中心性预测方法进行比较

虽然Xiao和Li等人提出的动态网络有效的提高了DC,EC,SC,BC,CC.IC,LAC和NC预测关键蛋白质的数量。本发明方法预测出来的Top100，Top200，Top300，Top400，Top500和Top600的关键蛋白质的数量分别为78,150,209,262,306,和351。从表3可以看出，在与NF-PIN动态网络比较中，本发明方法在Top200，Top300，Top400，Top500和Top600的预测结果要优于动态网络的预测方法。从表4可以看出，在动态网络的基础上融入的新的亚细胞定位的数据集，本发明的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法虽然没有采用亚细胞定位数据集，但是在Top200，Top500，Top600下预测的关键蛋白质的数目要优于融入了亚细胞定位数据的动态网络。这表明了在没有亚细胞数据的基础上，本发明方法JDC的预测效果也是比较好的。

综上数据都表明，在与其他预测方法比较之后，证明了基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法的有效性和实用性，该方法识别的关键蛋白结果更准确，灵敏更高。且计算方法简便。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，其特征在于，包括以下步骤：

a.利用边聚集系数描述蛋白质相互作用网络成簇的特性；

d.基于蛋白质成簇特性和活性共表达得出的关键性综合得分并输出排序结果；具体为通过结合边聚集系数计算的成簇特性和Jaccard相关系数计算的活性共表达得分得出关键性综合得分，然后对所有蛋白质按照关键性综合得分排序并输出排序结果；边聚集系数和Jaccard相关系数的结合计算关键性综合得分公式如下：

J_c(i,j)＝J(i,j)*ECC(i,j)，其中J(i,j)表示的是Jaccard相关系数计算出来的得分，ECC(i,j)表示的是边聚集系数计算出来的得分，所述边聚集系数的公式如下：

其中

表示的是PPI网络中由边(i,j)参与形成的实际三角形的个数，k_i和k_j表示的是蛋白质i和蛋白质j的度的个数，min(k_i-1,k_j-1)表示的是蛋白质i和蛋白质j的度的最小数决定的可能形成的三角形的个数；

对于蛋白质i,定义它的JDC值为该蛋白质与其领域属于同一簇的概率之和，其计算公式如下：

2.根据权利要求1所述的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，其特征在于，步骤b中阈值参数根据基因表达数据的均值和标准差来计算的，阈值参数来设定基因活性表达为大于阈值参数的基因活性为1，小于等于阈值参数的基因活性为0。

3.根据权利要求2所述的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，其特征在于，阈值参数计算公式如下：

4.根据权利要求3所述的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，其特征在于，步骤c中Jaccard相关系数的值在0到1的范围内，基因i和基因j的活性共表达的公式为：

其中S(i)，S(j)表示的是基因i和j二值化后的基因表达数据。

5.根据权利要求1-4任一项所述的基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法，其特征在于，蛋白质的蛋白质相互作用网络数据和基因表达数据从公共数据库中获得，所述的公共数据库包括DIP和NCBI数据库。