CN108229643B

CN108229643B - 一种采用果蝇优化算法识别关键蛋白质的方法

Info

Publication number: CN108229643B
Application number: CN201810111997.6A
Authority: CN
Inventors: 雷秀娟; 王思果; 陆铖
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2022-04-29
Anticipated expiration: 2038-02-05
Also published as: CN108229643A

Abstract

本发明公开了一种采用果蝇优化算法识别关键蛋白质的方法，将蛋白质相互作用网络转化为无向图、构建动态蛋白质相互作用网络、对动态蛋白质相互作用网络边和结点预处理、随机初始化果蝇种群的位置、利用嗅觉搜寻食物随机方向和距离、计算果蝇个体味道浓度判定值、计算果蝇个体的气味浓度值、找出当前种群中最高气味浓度值、利用视觉向食物飞去、产生关键蛋白质。本发明能准确地识别关键蛋白质；仿真实验结果表明本发明在敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标性能都表现良好；跟其他识别关键蛋白质的方法相对，本发明采用果蝇优化算法识别关键蛋白质的方法具有一定的优势。

Description

一种采用果蝇优化算法识别关键蛋白质的方法

技术领域

本发明属于生物信息技术领域，涉及在动态蛋白质相互作用网络中识别关键蛋白质的方法，具体涉及一种采用果蝇优化算法识别关键蛋白质的方法。

背景技术

蛋白质基本上在每个有机体的细胞中起着重要的作用，关键蛋白质对于生物体的生长和发育至关重要，关键蛋白质的缺失会导致生物体致死或无法生存。最近的一些研究结果表明，对于关键蛋白质的综合分析可以深入地理解基因突变与人类疾病之间的关系，揭示人类疾病的一般原理。因此，识别关键蛋白质与疾病预测和药物设计密切相关。

随着酵母双杂交、串联亲和纯化和质谱分析等高通量技术的发展，许多生物数据都可用了。识别关键蛋白质方法主要分为两类，一类是基于生物实验的方法如基因敲除、RNA干扰和条件性敲除等，这些方法不仅昂贵而且耗时。另一类方法是基于网络拓扑中心性的方法，他们是基于“中心性-致死性”法则提出的，该法则指出关键蛋白质与蛋白质相互作用网络紧密相关，拥有较多邻居结点的蛋白质的缺失更容易影响整个网络的拓扑结构，从而产生致死效应。网络拓扑中心性的方法主要包括度中心性(Degree Centrality,DC)，介数中心性(Betweenness Centrality，BC)，紧密度中心性(Closeness Centrality，CC)，特征向量中心性(Eigenvector Centrality，EC)，信息中心性(Information Centrality，IC)，子图中心性(Subgraph Centrality，SC)和局部平均联通(Local AverageConnectivity，LAC)。基于网络拓扑的方法不仅提高了识别关键蛋白质的方法还降低了成本。但是，这些中心性的方法也有不足之处。众所周知，基于拓扑的方法的性能与蛋白质相互作用网络密切相关，但在蛋白质相互作用网络中存在很多假阳性和假阴性。

为了弥补这些方法的不足，研究人员提出了通过整合拓扑特性和生物学特性来识别关键蛋白质的方法。考虑到数据的相互作用和基因本体注释信息，Hsing等人提出了一种预测高度连接蛋白质的方法去预测关键蛋白质。Li等人提出的PeC和WDC这两种方法都是结合了网络拓扑特性和基因表达数据，Peng提出的UDoNC结合了蛋白质相互作用网络拓扑特性和结构域数据去识别关键蛋白质。这些结合生物数据的方法比仅仅依赖于网络拓扑的方法在识别精度上有了很大的提高。同时，也有一些研究者考虑到蛋白质模块化和保守型特性，他们认为在蛋白质网络中表现为存在大量的蛋白质复合物功能模块，并且认为关键蛋白质在进化的过程中比非关键蛋白质具有较强的保守型。基于模块化和保守型的方法在识别精度上有很大的优势。还有一些方法结合了蛋白质复合物信息去识别关键蛋白质，例如复合物中心性方法等。

其中，也有一些研究者将支持向量机(SVM)，朴素贝叶斯和NB tree等机器学习方法运用到识别关键蛋白质的研究中去。例如，研究者提出的机器学习中随机森林的方法去识别关键蛋白质，机器学习的方法在识别效率上有明显的优势。

虽然近年来研究者从不同的视角和方法入手去识别关键蛋白质，但是识别精度和效率依然没有达到我们所希望的目标，所以这一课题仍然值得进一步研究和探讨。在目前的结合网络拓扑去识别关键蛋白质的方法中，大部分方法都基于静态的蛋白质相互作用网络，而忽略了网络的时序性。真实的蛋白质相互作用网络在细胞周期的不同阶段不断变化，因此在动态的蛋白质相互作用网络中识别关键蛋白质是很有必要的。

综合上述分析，在识别关键蛋白质的过程中，不仅要综合考虑网络的拓扑特性包括模块化特性，还要考虑到蛋白质相互作用网络的时序性以及生物特性，但是，现有的识别方法中，鲜有能够同时满足关键蛋白质的识别精度和识别效率的方法。

发明内容

本发明所要解决的问题在于克服现有的识别关键蛋白质的方法上的不足，提出一种采用果蝇优化算法识别关键蛋白质的方法，该方法不仅体现了真实蛋白质相互作用网络的动态性还提高了识别精度及效率。

本发明是通过以下技术方案来实现：

本发明公开了一种采用果蝇优化算法识别关键蛋白质的方法，包括以下步骤：

1)将蛋白质相互作用网络转化为无向图

将蛋白质相互作用网络转化为一个无向图G＝(V，E)，其中，V＝{v₁,v₂,…,v_i,…,v_n}为结点v_i的集合，E为边e的集合，结点v_i表示蛋白质，边e表示蛋白质之间的相互作用，n表示蛋白质结点的个数；

2)构建动态蛋白质相互作用网络

基因表达数据有三个周期，每个周期有12个时间点，在时间点t时，蛋白质v_i的基因表达值FT(s)若大于基因表达阈值AT(s)，则被认为蛋白质v_i在时间点t具有活性，否则认为该结点在时间点t不具有活性；

将所有时间点的活性的蛋白质组合到一起，对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络，即动态蛋白质相互作用网络；

3)对动态蛋白质相互作用网络的边和结点的预处理

结点预处理包括计算结点的度、结点的局部平均连通性、在动态网络中结点的局部平均联通性以及结点的亚细胞定位得分；边的预处理包括计算边的聚集系数、边的功能相似性；然后计算得到新的中心性方法和动态网络中新的中心性方法；

4)随机初始化果蝇群体的位置

随机选取p个蛋白质作为一个果蝇，将p个蛋白质的序列号作为果蝇的位置，EP代表随机选取的p个蛋白质的集合；iter，maxiter分别表示当前迭代次数和最大迭代次数，iter＝1，matxiter＝100；

5)利用嗅觉搜寻食物随机方向和距离

将EP与已知关键蛋白质标准库进行对比，令m为EP集合中关键蛋白质的个数，将EP集合之外的n-p个蛋白质的度进行降序排序，然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新；

6)通过计算得到果蝇个体的味道浓度判定值S(q)；

7)计算果蝇个体的味道浓度值

根据步骤6)求得的味道浓度的判定值S(q)，将其带入味道浓度判定函数中，计算当前每个果蝇个体的味道浓度值smell(q)；

8)找出当前种群中最高气味浓度值

根据味道浓度值smell(q)，根据公式[bestSmellbestIndex]＝max(smell_q)找出果蝇群体中味道浓度值中的最大浓度值，式中，bestSmell为最大浓度值，bestIndex为最大浓度值的坐标；

9)利用视觉向食物飞去

判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell，若是则保留最佳味道浓度的值和它的位置bestIndex，此时，果蝇利用视觉往该位置飞去；iter迭代加1；

10)产生关键蛋白质

若iter的值小于等于maxiter，则转向步骤5)；否则，将位置bestIndex中的蛋白质作为关键蛋白质输出。

优选地，步骤2)中，蛋白质v_i的基因表达值FT(s)由式(1)得到：

式中，T(s)代表蛋白质v_i在时间点t的基因表达值；

基因表达阈值AT(s)由式(2)得到：

式中，μ(s)代表蛋白质v_i的平均基因表达值，σ(s)是基因表达值的标准差。

优选地，步骤3)中，结点预处理具体包括：

按式(3)计算结点的度：

式中，n表示网络中蛋白质结点总数；当结点v_i和v_j之间有边相连时，a_ij的值为1，否则为0；

按式(4)计算结点的局部平均连通性：

式中，Nv表示蛋白质v的邻居结点的集合，|Nv|表示蛋白质v的邻居结点的个数，C_v代表由Nv引导的子图，

代表在C_v中蛋白质u的局部联通；

按式(5)计算在动态网络中结点的局部平均联通性：

式中，N代表了动态网络中时序网络的个数，LACⁱ(v)表示在i时间点的LAC值，LAC代表了结点的局部平均连通性，由公式(4)得到，tim(v)代表了时序网络中包含蛋白质结点v的次数；

按式(6)计算结点的亚细胞定位得分：

式中，|v|代表蛋白质v在细胞核中出现的次数，|C_max|是在细胞核中出现次数最多的蛋白质的次数；

边的预处理包括：

按式(7)计算边的聚集系数：

式中，Z(v_i，v_j)表示包含边(v_i,v_j)的三角形个数，d_i,d_j分别是结点v_i和v_j的度；

按式(8)计算边的功能相似性：

式中，

是与蛋白质结点v_i有关的GO术语k的S值，

是与蛋白质结点v_j有关的GO术语k的S值；

按式(9)计算新的中心性方法：

式中，N(v)为蛋白质结点v_i的邻居结点的集合，ECC是蛋白质结点v_i和蛋白质结点v_j之间的边聚集系数，由公式(7)得到；GO_sim(v_i，v_j)代表蛋白质结点v_i和蛋白质结点v_j之间的功能相似性系数，由公式(8)得到；

按式(10)计算动态网络中新的中心性方法：

式中，N代表了动态网络中时序网络的个数，EGⁱ(u)代表了在时间点i时EG的值，EG代表了新的中心性方法，由公式(9)得到；tim(v)代表了时序网络中包含蛋白质结点v的次数。

优选地，步骤6)中，果蝇个体的味道浓度判定值S(q)由式(11)计算得到：

式中，p代表EP候选集中关键蛋白质的个数，v_i代表候选关键蛋白质集中的蛋白质结点，D_LAC是动态网络中结点v_i的局部平均连通性由公式(5)得到，D_EG是动态网络中结点v_i新的中心性方法由公式(9)得到。

优选地，按照式(12)计算当前每个果蝇个体的味道浓度值smell(q)：

式中，α∈[0，1]用来调节拓扑特性和亚细胞定位信息在识别关键蛋白之中的比例，NSL(v_i)由公式(6)得到。

与现有技术相比，本发明具有以下有益的技术效果：

1、本发明不仅考虑了蛋白质相互作用网络的时序性，还综合考虑了网络拓扑的模块化特性，并且与亚细胞定位数据相结合去识别关键蛋白质，弥补了当前的方法中只依赖于网络拓扑特性的不足和在静态网络中识别关键蛋白质的缺陷，比其他的方法更能体现网络特性以及蛋白质生物意义。

2、本发明将果蝇算法与识别关键蛋白质的过程巧妙结合，不仅弥补了传统的方法只能逐一去识别关键蛋白质的不足，还很大程度上提高了识别的效率。

3、采用本发明的结果能够有效地高效率地识别蛋白质相互作用网络中的关键蛋白质，这对于理解细胞的生命活动和发展是很有用的，甚至对于疾病基因的研究和药物设计提供了一定的理论依据。

【附图说明】

图1是本发明流程图

图2是实施例1采用本发明识别的部分关键蛋白质在网络中的分布情况

具体实施方式

下面结合附图和实施实例对本发明进一步详细说明，但本发明并不仅限于这些实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明采用果蝇优化算法识别关键蛋白质的方法，包括以下步骤：

(1)将蛋白质相互作用网络转化为无向图

(2)构建动态蛋白质相互作用网络

基因表达数据有三个周期，每个周期有12个时间点。在时间点t时，蛋白质v_i的基因表达值FT(s)若大于基因表达阈值AT(s),则被认为蛋白质v_i在时间点t具有活性，否则认为该结点在时间点t不具有活性；将所有时间点的活性的蛋白质组合到一起，对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络，即动态蛋白质相互作用网络。

蛋白质的基因表达值FT由式(1)得到：

式中T(s)代表蛋白质v_i在时间点t的基因表达值.

基因表达阈值AT(s)由式(2)得到：

式中μ(s)代表蛋白质v_i的平均基因表达值，σ(s)是基因表达值的标准差；

(3)对动态蛋白质相互作用网络的边和结点的预处理

按式(3)计算点的度：

按式(4)计算点的局部平均连通性：

代表在C_v中蛋白质u的局部联通；

按式(5)计算在动态网络中点的局部平均联通性：

式中N代表了动态网络中时序网络的个数，LACⁱ(v)表示在i时间点的LAC值，LAC代表了结点的局部平均连通性由公式(4)得到，tim(v)代表了时序网络中包含蛋白质结点v的次数。

按式(6)计算点的亚细胞定位得分：

式中|v|代表蛋白质v在细胞核中出现的次数，|C_max|是在细胞核中出现次数最多的蛋白质的次数。

按式(7)计算边的聚集系数：

按式(8)计算边的功能相似性：

式中

是与蛋白质v_i有关的GO术语k的S值，

是与蛋白质v_j有关的GO术语k的S值；

按式(9)计算新的中心性方法：

式中N(v)蛋白质结点v_i的邻居结点的集合，ECC是结点v_i和结点v_j之间的边聚集系数由公式(7)得到，GO_sim(v_i，v_j)代表结点v_i和结点v_j之间的功能相似性系数由公式(8)得到；

按式(10)计算动态网络中新的中心性方法：

式中N代表了动态网络中时序网络的个数，EGⁱ(u)代表了在时间点i时EG的值，EG代表了新的中心性方法由公式(9)得到，tim(v)代表了时序网络中包含蛋白质结点v的次数；

(4)随机初始化果蝇群体的位置

(5)利用嗅觉搜寻食物随机方向和距离

将EP与关键蛋白标准库进行对比，令m为关键蛋白质的个数，按照式(3)计算出的EP集合之外的n-p个蛋白质的度进行降序排序，然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新；

(6)计算果蝇个体味道浓度判定值

因为无法得知食物源的具体方位，所以计算动态局部平均联通D_LAC和新的中心性方法D_EG,进而求得味道浓度判定值S(q)；

(7)计算果蝇个体的气味浓度值

根据味道浓度的判定值S(q)，将其带入味道浓度判定函数中，计算当前每个果蝇个体的气味浓度值smell(q)；

(8)找出当前种群中最高气味浓度值

根据味道浓度值smell(q)，根据公式[bestSmell bestIndex]＝max(smell_q)找出果蝇群体中味道浓度值最大的,式中bestSmell为最大浓度值，bestIndex为最大浓度值的坐标；

(9)利用视觉向食物飞去

判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell，若是则保留最佳味道浓度的值和它的位置bestIndex，此时果蝇利用视觉往该位置飞去；iter迭代加1；

(10)产生关键蛋白质

若iter的值小于等于maxiter，转向步骤(5)；否则，将位置bestIndex中的蛋白质作为关键蛋白质输出。

本发明步骤(6)中果蝇个体代表的蛋白质的味道浓度判定值为S(q)由式(11)得到：

式中p代表EP候选集中关键蛋白质的个数，v_i代表候选关键蛋白质集中的蛋白质结点，D_LAC是动态网络中结点v_i的局部平均连通性由公式(5)得到，D_EG是动态网络中结点v_i新的中心性方法由公式(9)得到。

本发明步骤(7)中果蝇的味道浓度值由式(12)得到：

式中α∈[0，1]用来调节拓扑特性和亚细胞定位信息在识别关键蛋白之中的比例,NSL(v_i)由公式(6)得到。

本实施例以采用DIP数据库的酵母数据集作为仿真数据集，DIP中的酵母数据集包含5093个蛋白质和24743条相互作用关系。基因表达数据采自GEO数据库中的酵母数据集其中包括7074个基因，3个周期每个周期有12个时间点的基因值。基因本体数据采自GOConsortium数据库。亚细胞定位数据库采自COMPARTMENTS数据库，它包含5095个蛋白质和206831条亚细胞定位记录。关键蛋白质标准数据库由4个数据库整合而来，分别包括MIPS、SGD、DEG和SGDP，它包含1285个关键蛋白质，对应到酵母数据中有1167个关键蛋白质。本发明的实验平台为Windows 10 64位操作系统，处理器为Intel(R)Core(TM)i5-6600CPU，8GB物理内存，实验仿真软件平台为Matlab 2016a。

一种采用果蝇优化算法识别关键蛋白质的方法，步骤如下：

1、将蛋白质相互作用网络转化为无向图

将蛋白质相互作用网络转化为一个无向图G＝(V，E)，其中V＝{v₁,v₂,…,v_i,…,v_n}为结点v_i的集合，E为边e的集合，结点v_i表示蛋白质，边e表示蛋白质之间的相互作用，n表示蛋白质结点的个数；

2、构建动态蛋白质相互作用网络

蛋白质的基因表达值FT由式(1)得到：

式中T(s)代表蛋白质v_i在时间点t的基因表达值.

基因表达阈值AT(s)由式(2)得到：

式中μ(s)代表蛋白质v_i的平均基因表达值，σ(s)是基因表达值的标准差；通过上述处理，我们可以得到每个蛋白质的活性值，如果活性值大于基因表达阈值AT(i)那么它就是活跃的，如果两个有相互作用的蛋白质在同一时间点具有活性，那么我们保留该边。最后形成了一个具有12个子网的动态蛋白质相互作用网络。

3、对动态蛋白质相互作用网络的边和结点的预处理

按式(3)计算点的度：

按式(4)计算点的局部平均连通性：

代表在C_v中蛋白质u的局部联通；

按式(5)计算在动态网络中点的局部平均联通性：

按式(6)计算点的亚细胞定位得分：

按式(7)计算边的聚集系数：

按式(8)计算边的功能相似性：

式中

是与蛋白质v_i有关的GO术语k的S值，

是与蛋白质v_j有关的GO术语k的S值；

按式(9)计算新的中心性方法：

按式(10)计算动态网络中新的中心性方法：

4、随机初始化果蝇群体的位置

5、利用嗅觉搜寻食物随机方向和距离

将EP与关键蛋白标准库进行对比，令m为关键蛋白质的个数，按照式(3)将EP集合之外的n-p个蛋白质的度进行降序排序，然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新；

6、计算果蝇个体味道浓度判定值

因为无法得知食物源的具体方位，所以计算动态局部平均联通D_LAC和新的中心性方法D_EG,进而求得味道浓度判定值S(q)，S(q)由式(11)得到：

7、计算果蝇个体的气味浓度值

根据味道浓度的判定值S(q)，将其带入味道浓度判定函数中，计算当前每个果蝇个体的气味浓度值smell(q)，smell(q)由式(12)得到：

8、找出当前种群中最高气味浓度值

根据味道浓度值smell(q)，根据公式[bestSmell bestIndex]＝max(smell(q))找出果蝇群体中味道浓度值最大的,式中bestSmell为最大浓度值，bestIndex为最大浓度值的坐标；iter迭代加1；

9、利用视觉向食物飞去

判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell，若是则保留最佳味道浓度的值和它的位置bestIndex，此时果蝇利用视觉往该位置飞去。

10、产生关键蛋白质

为了验证本发明的有益效果，发明人采用本发明实施例1果蝇优化算法识别关键蛋白质的方法对DIP数据库中的蛋白质网络进行关键蛋白质的识别，对识别的关键蛋白质的前25％(5093*25％＝1274)个关键蛋白质进行分析，结果见表1图2，表1显示了本发明与当前其他识别关键蛋白质的方法识别出来的结果进行对比，对比内容包括SN(敏感性)、SP(特异性)、PPV(阳性预测值)、NPV(阴性预测值)、F-measure(精确率和召回率调和值)、ACC(精确值)。图2显示了实施例1采用本发明识别的部分关键蛋白质在网络中的分布情况。

表1本发明与其他方法识别的关键蛋白质SN、SP、PPV、NPV、F-measure、ACC的比较

表1显示了本发明识别出的关键蛋白质中的前25％个的关键蛋白质与关键蛋白质标准库的比对结果，以及一些现有的其他识别关键蛋白质的方法的结果。挑选的现有的方法涵盖范围较广，涉及基本的拓扑中心性的方法包括DC、EC、IC、SC、NC和LAC对比的方法中也有融合基因表达数据的PeC方法和运用了蛋白质结构域数据的方法UDoNC。从表1中我们可以看出本发明实验结果都好于现有的方法。图2显示了实施例1采用本发明识别的关键蛋白质在蛋白质相互作用网络中的位置。在图2中，黄色的圆圈代表的是本发明正确识别的关键蛋白质，绿色的圆圈代表的是本发明识别为关键蛋白质但实际情况为非关键的蛋白质，从图中可以看出本发明可以识别出团簇状的关键蛋白质，具有良好的识别特性。

综上所述，本发明将蛋白质相互作用网络转化为无向图、构建动态蛋白质相互作用网络、对动态蛋白质相互作用网络边和结点预处理、随机初始化果蝇种群的位置、利用嗅觉搜寻食物随机方向和距离、计算果蝇个体味道浓度判定值、计算果蝇个体的气味浓度值、找出当前种群中最高气味浓度值、利用视觉向食物飞去、产生关键蛋白质。本发明能准确地识别关键蛋白质；仿真实验结果表明本发明在敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标性能都表现良好；跟其他识别关键蛋白质的方法相对，本发明采用果蝇优化算法识别关键蛋白质的方法具有一定的优势。

以上所述是本发明的优选实施方式，通过上述说明内容，本技术领域的相关工作人员可以在不偏离本发明技术原理的前提下，进行多样的改进和替换，这些改进和替换也应视为本发明的保护范围。