CN107885971A

CN107885971A - 采用改进花授粉算法识别关键蛋白质的方法

Info

Publication number: CN107885971A
Application number: CN201711039345.8A
Authority: CN
Inventors: 雷秀娟; 方铭; 代才
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-04-06
Anticipated expiration: 2037-10-30
Also published as: CN107885971B

Abstract

本发明公开了一种采用改进花授粉算法识别关键蛋白质的方法，将蛋白质相互作用网络转化为无向图、选取度最大的前Q个蛋白质作为花粉个体、度量PeC中心性、确定复合物信息、确定亚细胞定位信息，评价花粉重要性、更新花粉位置、输出识别的关键蛋白质；本发明在评价花粉重要性时不仅考虑了蛋白质网络的拓扑属性，而且融合了蛋白质网络的生物特性，能准确地识别关键蛋白；仿真实验结果表明，正确率、特异性、敏感度等指标性能较优；与其他关键蛋白识别方法相比，结合蛋白质网络的拓扑属性和生物特性，实现关键蛋白质识别过程，提高了关键蛋白的识别准确率。

Description

采用改进花授粉算法识别关键蛋白质的方法

【技术领域】

本发明属于生物信息领域，涉及一种蛋白质相互作用网络中关键蛋白质的识别方法，具体涉及一种采用改进花授粉算法识别关键蛋白质的方法。

【背景技术】

关键蛋白质是细胞生命活动中所必需的蛋白质，关键蛋白质的缺失会导致有关蛋白质复合物功能丧失，并导致生物体无法生存。由于关键蛋白质在生命活动中扮演重要角色，因此对于关键蛋白质的预测与识别成为一项重要研究工作，识别关键蛋白质对于研究细胞的生长调控过程具有重要意义。此外，在生物医学领域，关键蛋白质的识别对于致病基因的发现及药物标靶的鉴定具有重要意义，在疾病诊治和药物设计等方面具有重要的应用价值。

在生物学领域，一般利用基因敲除，RNA干扰等实验方法，例如单基因挑出和条件性基因剔除等，通过观察生物体的生存情况来辨别蛋白质的关键性，通过这些实验技术得到的结果虽然准确有效，但是代价高、效率低，并且适用的物种范围有限。近年来，随着酵母双杂交，串联亲和纯化和质谱分析等高通量的蛋白质组技术的发展，大量的蛋白质相互作用数据被检测出来，使得在网络水平上预测关键蛋白质成为可能，通过计算生物学的方法来预测关键蛋白质成为一个新的发展方向。

已有研究表明，蛋白质的关键性与它在生物网络中所对应结点的拓扑特性密切相关，因此，出现了一系列利用结点的中心性测度识别关键蛋白质的方法。结点的中心性测度通常用来衡量结点在网络中影响力的大小，评估结点所代表的对象获得、控制信息及资源的能力。基于结点中心性的关键蛋白质预测，主要是通过计算蛋白质网路中各蛋白质结点的中心性测度，按中心性测度值由大到小的顺序筛选出一定数量的蛋白质作为预测的关键蛋白质集合。

度中心性(degree centrality,DC)是最常用的一种中心性测度，一个结点的度中心性表示为与该结点直接相连的邻居结点的个数。Jeong等提出“中心性-致死性”法则(centrality-lethality rule)，该法则显示一个蛋白质参与的相互作用越多，则它对细胞的生存也就越重要。除了度中心性以外，还有介数中心性、接近度中心性、子图中心性、特征向量中心性、信息中心性、局部平均联通性和边聚集系数之和。其中，结点的介数中心性(betweenness centrality,BC)表示网络中所有最短路径中经过该结点的数目占所有最短路径数的比例；结点的接近度中心性(closeness centrality,CC)为反比于该结点到网络中其他所有结点的最短路径之和；结点的子图中心性(subgraph centrality,SC)是该结点参与网络闭合回路的总数；结点的特征向量中心性(eigenvector centrality,EC)被定义为网络邻接矩阵的主特征向量该结点的分量；结点的信息中心性(informationcentrality,IC)是测量以该结点为端点的路径的调和平均长度；结点的局部平均联通性(local average connectivity，LAC)是指该结点的邻居结点彼此之间公共邻居结点的个数之和除以该结点的邻居结点的个数；结点的边聚集系数之和(sum of edge clusteringcoefficient，NC)是指该结点所有连接边的聚集系数之和。这8种中心性测度都已被用于生物网络中关键蛋白质的预测，且发现任何一个中心性测度的预测结果都远远好于随机选择的结果，从而证明蛋白质的关键性与其对应结点的中心性存在较为显著的相关性。

这些中心性方法仅仅依靠蛋白质相互作用数据识别关键蛋白质，预测的准确度比较依赖网络本身的可靠性，但蛋白质相互作用网络是通过高通量生物实验获得，包含了很多假阳性，很大地影响了关键蛋白质识别的准确率。

针对中心性方法识别关键蛋白质的不足，研究人员提出一些新的识别方法进一步提高关键蛋白质的识别准确率。如融合蛋白质相互作用网络和基因表达数据的关键蛋白质识别方法PeC，降低了预测方法对蛋白质相互作用网络本身可靠性的依赖程度，结合了蛋白质的同源特性和蛋白质相互作用网络的ION关键蛋白质识别方法，此外，还有一些通过融合其他信息进行关键蛋白质识别的方法，如基于结构域的关键蛋白质识别方法，基于基因共表达的关键蛋白质识别方法等。

尽管关键蛋白质的识别问题越来越引起人们的关注，但目前结合网络信息的识别方法的准确率依旧较低，而且大多数方法都是孤立或者零碎地使用少数参数或特征分析关键蛋白质，导致关键蛋白质识别准确率低。

综合上述关键蛋白质识别方法的缺陷，主要有大部分方法只考虑了网络的拓扑特性以及蛋白质相互作用网络数据的假阳性，而忽略了关键蛋白质的内在生物意义，虽然有一些方法增加了生物数据，但是考虑的不够全面，造成关键蛋白质识别结果并不是很理想。

【发明内容】

本发明的目的在于克服上述关键蛋白质识别方法的缺点与不足，提供一种采用改进花授粉算法识别关键蛋白质的方法，融合基因表达数据、蛋白质复合物和亚细胞定位信息评价蛋白质的重要性，识别关键蛋白质的准确度高。

为达到上述目的，本发明采用如下技术方案：

采用改进花授粉算法识别关键蛋白质的方法，包括以下步骤：

(1)将蛋白质相互作用网络转化为无向图

将蛋白质相互作用网络转化成一个无向图G＝(V，E)，其中，V＝{v_i,i＝1,2,…,n}为结点v_i的集合，E为边e的集合，结点v_i表示蛋白质，边e表示蛋白质之间的相互作用，w_ij表示结点v_i与结点v_j之间的连接情况，若结点v_i与结点v_j相连，则w_ij＝1，若v_i与v_j之间没有边，则w_ij＝0，i＝1,2,Λ,n，j＝1,2,Λ,n；

(2)选取度最大的前Q个蛋白质作为花粉个体

结点的度DC即与该结点直接相连的邻居结点的个数，计算所有结点的度并按降序排序，选取前Q个作为初始的花粉个体，按式(1)计算结点i的度：

DC(i)＝∑_iedge(i,v) 式(1)

式中，结点v表示与结点i直接相连的结点；

(3)度量PeC中心性

计算边聚集系数：边聚集系数ECC刻画了边(i,j)的两个结点i和j的亲疏程度，按式(2)计算边(i,j)的边聚集系数：

式中，N_i和N_j分别表示结点i和结点j的邻居结点的集合，d_i和d_j分别表示结点i和结点j的度，ECC的取值越大，表明结点i和j属于同一个簇的可能性越大；

计算蛋白质间的皮尔逊相关系数：基因表达数据用来表示蛋白质生命运动的过程，利用皮尔逊相关系数PCC计算相互作用的蛋白质的基因共表达的强弱程度，按式(3)计算皮尔逊相关系数：

式中，x_i,y_i表示蛋白质v_x,v_y在时间点t时的基因表达值，μ(x),μ(y)是蛋白质v_x,v_y的平均基因表达值，T为时间点的最大值；

(4)确定复合物信息

出现在蛋白质复合物中的蛋白质更可能是关键蛋白质，整合两个蛋白质复合物数据集CM270和CM425，去除重复的复合物，得到一个复合物数据集；判断一个蛋白质结点出现在几个复合物中即为此蛋白质结点的复合物得分pc，如果一个蛋白质不属于任何一个已知的蛋白质复合物，则其复合物得分pc为0，如果一个蛋白质存在于已知的蛋白质复合物中，则其复合物得分pc为相应存在于已知蛋白质复合物中的次数；

(5)确定亚细胞定位信息

亚细胞定位指细胞中某种蛋白质出现的具体位置，关键蛋白质在某些亚细胞位置出现的较多；对从亚细胞定位数据库中下载的亚细胞定位数据进行预处理，去除重复的数据，得到所需的包含11个亚细胞位置的数据；把预处理得到的11个位置的亚细胞定位数据集R与关键蛋白质标准数据集进行比对得到他们的关系数据集S，则相应的每一个具体位置的关系数据集为S_r,如果给定一个蛋白质，它出现在数据集R中，则11个亚细胞位置中的每一个具体位置出现的频率S_r/length(S)即为每个位置对应的得分F_i(r)；按式(4)计算此蛋白质的亚细胞定位得分：

SL(i)＝∑_C(i)F_i(r) 式(4)

式中，C(i)表示蛋白质i在数据集R中所对应的亚细胞位置集合，一个蛋白质可能在多个亚细胞位置中的出现；

(6)评价花粉重要性

首先，关键蛋白质大多出现在同一簇中且倾向于共表达，p_c(i,j)利用边聚集系数ECC和皮尔逊相关系数PCC分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响，p_c(i,j)为边(i,j)出现在同一簇中的概率，将p_c(i,j)看作边(i,j)的权值，则对于一个蛋白质结点i，计算结点i的连接边的权值之和PeC(i)；

然后，结合蛋白质复合物得分和亚细胞定位得分；

最后，计算出每一个蛋白质结点的得分，即得到每一个蛋白质结点的重要程度，且一个花粉由Q个蛋白质结点组成，进而对花粉个体的重要性GSC进行评价；

(7)更新花粉位置

在全局授粉中，花粉不仅向全局最优解移动，而且自身在全局范围内随机搜索，更新花粉在全局授粉中的位置；

在局部授粉中，花粉的位置保持不变，更新花粉在局部授粉中的位置；

(8)输出识别的关键蛋白质

花粉经过全局授粉和局部授粉找到当前最优解之后，若迭代次数小于最大迭代次数Maxiter，转向步骤(7)；否则，花粉输出全局最优解，即一个候选关键蛋白质集合得到关键蛋白质。

进一步，所述步骤(6)中边(i,j)出现在同一簇中的概率p_c(i,j)由式(5)得到：

p_c(i,j)＝ECC(i,j)×PCC(i,j) 式(5)

式中，ECC是结点i和结点j之间的边(i,j)的聚集系数由公式(2)得到，PCC是结点i和结点j之间的边的皮尔森聚集系数由公式(3)得到。

进一步，所述步骤(6)中结点i的连接边的权值之和PeC(i)由式(6)得到：

式中，n_i表示结点i的邻居结点的集合。

进一步，所述步骤(6)中的花粉的重要性GSC由式(7)得到：

式中，α为一个在[0,1]之间的常数，H＝{h₁,h₂,…h_Q}表示一个候选关键蛋白质集合，其中每一个元素h_i代表一个候选关键蛋白质。

进一步，所述步骤(7)中的花粉按全局授粉更新的位置由式(8)得到：

式中，t是迭代次数，cat函数表示连接由和RANDOM得到的位置向量，dim的值为1表示两个由和RANDOM得到的位置向量按列连接，intersect函数表示中的元素和Gbest中的某些元素进行交集运算，Gbest是全局最优解，表示花粉不断向全局最优靠近，RANDOM则表示花粉进行全局范围内的搜索，和RANDOM一起构成花粉经过全局授粉后得到的新位置。

进一步，所述步骤(7)中的花粉按局部授粉更新的位置由式(9)得到：

式中，t表示迭代次数。

本发明与现有的方法相比，具有以下优点：

1、本发明基于改进的花授粉算法，通过考虑蛋白质的网络拓扑特性和生物特性以评价蛋白质的重要性，不但在在蛋白质相互作用网络的基础上融合基因表达数据，而且增加了蛋白质复合物信息和亚细胞定位信息。首先，考虑到蛋白质复合物和关键蛋白之间存在密切的联系，关键性是蛋白质复合物的产物而不是单个蛋白质的产物，所以在预测关键蛋白质时整合蛋白质复合物的信息。另外，亚细胞定位也是关键蛋白质的重要特征，它代表细胞中某种蛋白质出现的具体位置，且关键蛋白质在某些亚细胞位置比非关键蛋白质更频繁出现，所以增加亚细胞定位信息以预测关键蛋白质。通过融合基因表达、蛋白质复合物和亚细胞定位数据来评价蛋白质的重要性，进一步评价花粉的重要性，再通过全局授粉和局部授粉，找到全局最优，即识别出关键蛋白质。经实际数据验证，多方面特征的使用使得采用本发明识别出来的关键蛋白质的准确度要比目前大部分采用其他关键蛋白质识别方法识别的准确度高。

2、本发明不仅考虑到蛋白质相互作用网络不仅具有复杂网络的拓扑特性，还考虑到蛋白质相互作用网络具有一定的生物功能和生物意义。基因表达是关键蛋白质的重要特征，关键基因的表达水平比非关键蛋白质的表达水平高，通过融合蛋白质的网络拓扑特性和生物特性识别关键蛋白，利用聚集系数测度蛋白质结点的拓扑特性，利用基因共表达的皮尔逊相关系数表征蛋白质网络的生物特性。

3、采用本发明的关键蛋白质预测结果能够有效地识别蛋白质相互作用网络里的关键蛋白质，不仅能帮助我们理解细胞生命活动的最小需求，而且具有实际应用，为发现致病基因及鉴定药物标靶具有重要意义，在疾病诊治和药物设计等方面也具有重要的应用价值，有利于推动相关产业的发展。本发明能够从大量的蛋白质相互作用网络数据中提取关键蛋白，关键蛋白是指通过基因剔除式突变将其移除后造成有关蛋白质复合物功能丧失，并导致生物体无法生存的蛋白质，简而言之，关键蛋白是生物体生存和繁殖所必需的蛋白质，该研究是理解生命活动的运作机理、发现致病基因和药物设计的基础，本发明识别的关键蛋白质能够为生物学和医药学等领域提供重要的信息，不仅有助于了解细胞的生长调节过程，而且对于基因疾病的发现及药物靶标的设计有着重要意义。

【附图说明】

图1是本发明实施例1的工艺流程图

图2是采用实施例1得出的关键蛋白质在整个蛋白质相互作用网络中的部分示意图

图3是图2对应的标准库中关键蛋白质情况

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明采用改进花授粉算法识别关键蛋白质的方法，包括以下步骤：

(1)将蛋白质相互作用网络转化为无向图

(2)选取度最大的前Q个蛋白质作为花粉个体

结点的度DC即与该结点直接相连的邻居结点的个数，计算所有结点的度并按降序排序，选取前Q个作为初始的花粉个体。按式(1)计算结点i的度：

DC(i)＝∑_iedge(i,v) 式(1)

式中，结点v表示与结点i直接相连的结点；

(3)度量PeC中心性

计算边聚集系数：边聚集系数ECC(edge clustering coefficient)刻画了边(i,j)的两个结点i和j的亲疏程度，按式(2)计算边(i,j)的边聚集系数：

计算蛋白质间的皮尔逊相关系数：基因表达数据可以用来表示蛋白质生命运动的过程，利用皮尔逊相关系数PCC(Pearson correlation coefficient)来计算相互作用的蛋白质的基因共表达的强弱程度，按式(3)计算皮尔逊相关系数：

(4)确定复合物信息

(5)确定亚细胞定位信息

亚细胞定位指的是细胞中某种蛋白质出现的具体位置，关键蛋白质在某些亚细胞位置出现的较多；对从亚细胞定位数据库中下载的亚细胞定位数据进行预处理，去除重复的数据，得到所需的包含11个亚细胞位置的数据；把预处理得到的11个位置的亚细胞定位数据集R与关键蛋白质标准数据集进行比对得到他们的关系数据集S，则相应的每一个具体位置的关系数据集为S_r,如果给定一个蛋白质，它出现在数据集R中，则11个亚细胞位置中的每一个具体位置出现的频率S_r/length(S)即为每个位置对应的得分F_i(r)；按式(4)计算此蛋白质的亚细胞定位得分：

SL(i)＝∑_C(i)F_i(r) 式(4)

式中，C(i)表示蛋白质i在R中所对应的亚细胞位置集合，一个蛋白质可能在多个亚细胞位置中的出现；

(6)评价花粉重要性

首先，关键蛋白质大多出现在同一簇中且倾向于共表达，p_c(i,j)利用边聚集系数ECC和皮尔逊相关系数PCC分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响，利用p_c(i,j)可以得出边(i,j)出现在同一簇中的概率，将p_c(i,j)看作边(i,j)的权值，则对于一个蛋白质结点i，计算它的PeC(i)即为结点i的连接边的权值之和；

边(i,j)出现在同一簇中的概率p_c(i,j)由式(5)得到：

p_c(i,j)＝ECC(i,j)×PCC(i,j) 式(5)

式中，ECC是结点i和结点j之间的边(i,j)的聚集系数由公式(2)得到，PCC是结点i和结点j之间的边的皮尔森聚集系数由公式(3)得到；

结点i的连接边的权值之和PeC(i)由式(6)得到：

式中，n_i表示结点i的邻居结点的集合。

然后，结合蛋白质复合物得分和亚细胞定位得分；

最后，计算出每一个蛋白质结点的得分，即得到每一个蛋白质结点的重要程度，且一个花粉由Q个蛋白质结点组成，进而可以对花粉个体的重要性GSC进行评价；

按式(7)评价花粉的重要性GSC：

(7)更新花粉位置

花授粉算法的更新规则被重新定义；

在全局授粉中，花粉不仅向全局最优解移动，而且自身在全局范围内随机搜索，按式(8)计算花粉在全局授粉中更新的位置

在局部授粉中，花粉的位置保持不变，按式(9)计算花粉在局部授粉中更新的位置

式中，t表示迭代次数。

(8)输出识别的关键蛋白质

花粉经过全局授粉和局部授粉找到当前最优解之后，若迭代次数小于最大迭代次数Maxiter，转向步骤(7)；否则，花粉输出全局最优解，即一个候选关键蛋白质集合，将本方法识别出的候选关键蛋白质集合中的蛋白质与标准库中的关键蛋白质进行对比，得出本方法识别的关键蛋白质的性能情况。

以下通过具体实施例对本发明进一步详细说明：

实施例1

以蛋白质相互作用网络为例一种采用改进花授粉算法识别关键蛋白质的方法的步骤如下：

本实施例以采用下载自DIP数据库的酵母数据集(DIP 20101010版)作为仿真数据集，移除蛋白质相互作用数据集中的自相互作用，去掉冗余后最终的蛋白质相互作用网络包括5093个蛋白质和24743个相互作用关系。

基因表达数据集采自GEO数据库中的酵母新陈代谢表达数据集GSE3431，它实际上是一个9335行36列的矩阵，包括了9335个探针在36个不同的时间点上表达谱，矩阵中列代表时间点，行代表基因在代谢周期上的表达谱。经过对数据进行预处理，探针被映射为基因名称，总共获得了7074个基因产物。

最终的蛋白质复合物数据集由两个蛋白质复合物数据集(CM270和CM425)整合得到，第一个蛋白质复合物数据集CM270下载自MIPS数据库，它包含270个蛋白质复合物和1230个蛋白质；第二个蛋白质复合物数据集CM425来源于MIPS、Aloy和SGD数据库，它包括425个蛋白质复合物和1970个蛋白质。去除重复的复合物数据，最终的蛋白质复合物数据集共包含538个蛋白质复合物数据。

亚细胞定位数据集下载自COMPARTMENTS数据库的酵母亚细胞定位数据集，它整合了五个数据库：UniProtKB、MGI、SGD、FlyBase和WormBase，通过预处理，最终包含6892个亚细胞记录。

实验所用的关键蛋白质数据集通过整合数据库MIPS、SGD、DEG和SGDP的酵母蛋白质信息数据得到，最后使用的关键蛋白质集总共包括1285个关键蛋白质。

实验平台Windows 10操作系统，Intel酷睿i5 3.30GHz处理器，8GB内存，用MatlabR2016b软件实现本发明的方法。

1、将蛋白质相互作用网络转化为无向图

将包含5093个蛋白质和24743个相互作用关系的蛋白质相互作用网络转化成一个无向图G＝(V，E)，其中，V＝{v_i,i＝1,2,…,5093}为结点v_i的集合，E为24743个边e的集合，结点v_i表示蛋白质，边e表示蛋白质之间的相互作用，w_ij表示结点v_i与结点v_j之间的连接情况，若结点v_i与结点v_j相连则w_ij＝1，若v_i与v_j之间没有边，则w_ij＝0，i＝1,2,…,5093，j＝1,2,…,5093。

2、选取度最大的前Q个蛋白质作为花粉个体

结点的度DC即与该结点直接相连的邻居结点的个数，计算所有结点的度并按降序排序，选取前Q个作为初始的花粉个体。按式(1)计算结点i＝1,2,…,5093的度：

DC(i)＝∑_iedge(i,v) 式(1)

式中，结点v表示与结点i直接相连的结点。

3、度量PeC中心性

计算边聚集系数：边聚集系数(edge clustering coefficient,ECC)刻画了边(i,j)的两个结点i和j的亲疏程度，一共有24743条边，每给定一条确定的边，可计算出一组两个结点间的关系，一共可计算出24743组两个结点之间的关系，按式(2)计算边(i,j)的边聚集系数：

式中，n_i和n_j分别表示结点i和结点j的邻居结点的集合，d_i和d_j分别表示结点i和结点j的度，ECC的取值越大，表明结点i和j属于同一个簇的可能性越大。

计算蛋白质间的皮尔逊相关系数：基因表达数据可以用来表示蛋白质生命运动的过程，利用皮尔逊相关系数(Pearson correlation coefficient,PCC)来计算相互作用的蛋白质的基因共表达的强弱程度，按式(3)计算皮尔逊相关系数：

式中，x_i,y_i表示蛋白质v_x,v_y在时间点t时的基因表达值，μ(x),μ(y)是蛋白质v_x,v_y的平均基因表达值，T为时间点的最大值。

4、确定复合物信息

出现在蛋白质复合物中的蛋白质更可能是关键蛋白，整合两个蛋白质复合物数据集(CM270和CM425)，第一个蛋白质复合物数据集CM270包含270个蛋白质复合物和1230个蛋白质；第二个蛋白质复合物数据集CM425包括425个蛋白质复合物和1970个蛋白质。去除重复的复合物数据之后，最终的蛋白质复合物数据集包含538个蛋白质复合物数据；判断一个蛋白质结点出现在几个复合物中即为此蛋白质结点的复合物得分pc，如果一个蛋白质不属于任何一个已知的蛋白质复合物，则其复合物得分pc为0，如果一个蛋白质存在于已知的蛋白质复合物中，则其复合物得分pc为相应存在于已知蛋白质复合物中的次数。

5、确定亚细胞定位信息

SL(i)＝∑_C(i)F_i(r) 式(4)

式中，C(i)表示蛋白质i在R中所对应的亚细胞位置集合，一个蛋白质可能在多个亚细胞位置中的出现。

6、评价花粉重要性

首先，关键蛋白质大多出现在同一簇中且倾向于共表达，p_c(i,j)利用边聚集系数(ECC)和皮尔逊相关系数(PCC)分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响，利用p_c(i,j)可以得出边(i,j)出现在同一簇中的概率，将p_c(i,j)看作边(i,j)的权值，则对于一个蛋白质结点i，计算它的PeC(i)即为结点i的连接边的权值之和；然后，结合蛋白质复合物得分和亚细胞定位得分；最后，计算出每一个蛋白质结点的得分，即得到每一个蛋白质结点的重要程度，且一个花粉由Q个蛋白质结点组成，进而可以对花粉个体的重要性GSC进行评价。边(i,j)出现在同一簇中的概率p_c(i,j)由式(5)得到：

p_c(i,j)＝ECC(i,j)×PCC(i,j) 式(5)

结点i的连接边的权值之和PeC(i)由式(6)得到：

式中，n_i表示结点i的邻居结点的集合。

花粉的重要性GSC由式(7)得到：

7、更新花粉位置

花授粉算法的更新规则被重新定义。

在全局授粉中，花粉不仅向全局最优解移动，而且自身在全局范围内随机搜索。花粉按全局授粉更新的位置由式(8)得到：

在局部授粉中，花粉的位置保持不变。花粉按局部授粉更新的位置由式(9)得到：

式中，t表示迭代次数。

8、输出识别的关键蛋白质

为了验证本发明的有益效果，发明人采用本发明实施例1采用改进花授粉算法识别关键蛋白质的方法对DIP数据库中的蛋白质网络进行关键蛋白质的识别，根据“排序—筛选”原则对本发明按照降序排序，再选出序列中前600个蛋白质作为候选关键蛋白质进行分析，结果见表1、图2和图3，表1显示了与当前其他识别关键蛋白质的方法识别出来的结果进行对比准确率的比较。在图2中显示了本发明识别的部分关键蛋白质在网络中的分布情况，图3显示了图2的对应标准库部分。

表1本发明与其他方法识别的关键蛋白质在准确率上的比较

表1显示了本发明识别出的结果中的前600个关键蛋白质与标准库中关键蛋白质作比较的准确率，以及与当前其他识别关键蛋白质方法识别结果的比较。与传统的5个中心性方法比较时显示本发明识别的前600个关键蛋白质中准确的概率都比其它中心性方法要好，与当前较新的PeC及WDC方法相比较时，本发明识别出的结果的前600个关键蛋白质的准确率要远远比当前的新方法的结果准确率高。由表1看出，本发明能有效地识别关键蛋白质，有着很高的准确率。图2显示了本发明识别出的部分关键蛋白质在蛋白质相互作用网络中的位置。图2中带深色背景颜色的是本发明正确识别出来的关键蛋白质，不带背景的是非关键蛋白质，带浅色的是错误识别出来的关键蛋白质。图3是图2对应的标准库中的关键蛋白质情况，带深色背景颜色的是标准关键蛋白质，不带背景的是非关键蛋白质。通过图2和图3的对比可以发现，本发明识别出的错误的蛋白质有“YIL035C”和“YBL025W”,漏识别的关键蛋白质有“YJR057W”。说明本发明方法能正确识别出大部分关键蛋白质。

以上所述是本发明的优选实施方式，通过上述说明内容，本技术领域的相关工作人员可以在不偏离本发明技术原理的前提下，进行多样的改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.采用改进花授粉算法识别关键蛋白质的方法，其特征在于，包括以下步骤：

(1)将蛋白质相互作用网络转化为无向图

(2)选取度最大的前Q个蛋白质作为花粉个体

DC(i)＝∑_iedge(i,v) 式(1)

式中，结点v表示与结点i直接相连的结点；

(3)度量PeC中心性

(4)确定复合物信息

(5)确定亚细胞定位信息

SL(i)＝∑_C(i)F_i(r) 式(4)

(6)评价花粉重要性

首先，关键蛋白质大多出现在同一簇中且倾向于共表达，p_c(i,j)利用边聚集系数ECC和皮尔逊相关系数PCC分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响，p_c(i,j)为边(i,j)出现在同一簇中的概率，将pc(i,j)看作边(i,j)的权值，则对于一个蛋白质结点i，计算结点i的连接边的权值之和PeC(i)；

然后，结合蛋白质复合物得分和亚细胞定位得分；

(7)更新花粉位置

(8)输出识别的关键蛋白质

2.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法，其特征在于：所述步骤(6)中边(i,j)出现在同一簇中的概率p_c(i,j)由式(5)得到：

p_c(i,j)＝ECC(i,j)×PCC(i,j) 式(5)

3.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法，其特征在于：所述步骤(6)中结点i的连接边的权值之和PeC(i)由式(6)得到：

式中，n_i表示结点i的邻居结点的集合。

4.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法，其特征在于：所述步骤(6)中的花粉的重要性GSC由式(7)得到：

5.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法，其特征在于：所述步骤(7)中的花粉按全局授粉更新的位置由式(8)得到：

6.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法，其特征在于：所述步骤(7)中的花粉按局部授粉更新的位置由式(9)得到：

式中，t表示迭代次数。