CN108229643B - 一种采用果蝇优化算法识别关键蛋白质的方法 - Google Patents
一种采用果蝇优化算法识别关键蛋白质的方法 Download PDFInfo
- Publication number
- CN108229643B CN108229643B CN201810111997.6A CN201810111997A CN108229643B CN 108229643 B CN108229643 B CN 108229643B CN 201810111997 A CN201810111997 A CN 201810111997A CN 108229643 B CN108229643 B CN 108229643B
- Authority
- CN
- China
- Prior art keywords
- protein
- value
- node
- proteins
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种采用果蝇优化算法识别关键蛋白质的方法,将蛋白质相互作用网络转化为无向图、构建动态蛋白质相互作用网络、对动态蛋白质相互作用网络边和结点预处理、随机初始化果蝇种群的位置、利用嗅觉搜寻食物随机方向和距离、计算果蝇个体味道浓度判定值、计算果蝇个体的气味浓度值、找出当前种群中最高气味浓度值、利用视觉向食物飞去、产生关键蛋白质。本发明能准确地识别关键蛋白质;仿真实验结果表明本发明在敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标性能都表现良好;跟其他识别关键蛋白质的方法相对,本发明采用果蝇优化算法识别关键蛋白质的方法具有一定的优势。
Description
技术领域
本发明属于生物信息技术领域,涉及在动态蛋白质相互作用网络中识别关键蛋白质的方法,具体涉及一种采用果蝇优化算法识别关键蛋白质的方法。
背景技术
蛋白质基本上在每个有机体的细胞中起着重要的作用,关键蛋白质对于生物体的生长和发育至关重要,关键蛋白质的缺失会导致生物体致死或无法生存。最近的一些研究结果表明,对于关键蛋白质的综合分析可以深入地理解基因突变与人类疾病之间的关系,揭示人类疾病的一般原理。因此,识别关键蛋白质与疾病预测和药物设计密切相关。
随着酵母双杂交、串联亲和纯化和质谱分析等高通量技术的发展,许多生物数据都可用了。识别关键蛋白质方法主要分为两类,一类是基于生物实验的方法如基因敲除、RNA干扰和条件性敲除等,这些方法不仅昂贵而且耗时。另一类方法是基于网络拓扑中心性的方法,他们是基于“中心性-致死性”法则提出的,该法则指出关键蛋白质与蛋白质相互作用网络紧密相关,拥有较多邻居结点的蛋白质的缺失更容易影响整个网络的拓扑结构,从而产生致死效应。网络拓扑中心性的方法主要包括度中心性(Degree Centrality,DC),介数中心性(Betweenness Centrality,BC),紧密度中心性(Closeness Centrality,CC),特征向量中心性(Eigenvector Centrality,EC),信息中心性(Information Centrality,IC),子图中心性(Subgraph Centrality,SC)和局部平均联通(Local AverageConnectivity,LAC)。基于网络拓扑的方法不仅提高了识别关键蛋白质的方法还降低了成本。但是,这些中心性的方法也有不足之处。众所周知,基于拓扑的方法的性能与蛋白质相互作用网络密切相关,但在蛋白质相互作用网络中存在很多假阳性和假阴性。
为了弥补这些方法的不足,研究人员提出了通过整合拓扑特性和生物学特性来识别关键蛋白质的方法。考虑到数据的相互作用和基因本体注释信息,Hsing等人提出了一种预测高度连接蛋白质的方法去预测关键蛋白质。Li等人提出的PeC和WDC这两种方法都是结合了网络拓扑特性和基因表达数据,Peng提出的UDoNC结合了蛋白质相互作用网络拓扑特性和结构域数据去识别关键蛋白质。这些结合生物数据的方法比仅仅依赖于网络拓扑的方法在识别精度上有了很大的提高。同时,也有一些研究者考虑到蛋白质模块化和保守型特性,他们认为在蛋白质网络中表现为存在大量的蛋白质复合物功能模块,并且认为关键蛋白质在进化的过程中比非关键蛋白质具有较强的保守型。基于模块化和保守型的方法在识别精度上有很大的优势。还有一些方法结合了蛋白质复合物信息去识别关键蛋白质,例如复合物中心性方法等。
其中,也有一些研究者将支持向量机(SVM),朴素贝叶斯和NB tree等机器学习方法运用到识别关键蛋白质的研究中去。例如,研究者提出的机器学习中随机森林的方法去识别关键蛋白质,机器学习的方法在识别效率上有明显的优势。
虽然近年来研究者从不同的视角和方法入手去识别关键蛋白质,但是识别精度和效率依然没有达到我们所希望的目标,所以这一课题仍然值得进一步研究和探讨。在目前的结合网络拓扑去识别关键蛋白质的方法中,大部分方法都基于静态的蛋白质相互作用网络,而忽略了网络的时序性。真实的蛋白质相互作用网络在细胞周期的不同阶段不断变化,因此在动态的蛋白质相互作用网络中识别关键蛋白质是很有必要的。
综合上述分析,在识别关键蛋白质的过程中,不仅要综合考虑网络的拓扑特性包括模块化特性,还要考虑到蛋白质相互作用网络的时序性以及生物特性,但是,现有的识别方法中,鲜有能够同时满足关键蛋白质的识别精度和识别效率的方法。
发明内容
本发明所要解决的问题在于克服现有的识别关键蛋白质的方法上的不足,提出一种采用果蝇优化算法识别关键蛋白质的方法,该方法不仅体现了真实蛋白质相互作用网络的动态性还提高了识别精度及效率。
本发明是通过以下技术方案来实现:
本发明公开了一种采用果蝇优化算法识别关键蛋白质的方法,包括以下步骤:
1)将蛋白质相互作用网络转化为无向图
将蛋白质相互作用网络转化为一个无向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
2)构建动态蛋白质相互作用网络
基因表达数据有三个周期,每个周期有12个时间点,在时间点t时,蛋白质vi的基因表达值FT(s)若大于基因表达阈值AT(s),则被认为蛋白质vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;
将所有时间点的活性的蛋白质组合到一起,对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络,即动态蛋白质相互作用网络;
3)对动态蛋白质相互作用网络的边和结点的预处理
结点预处理包括计算结点的度、结点的局部平均连通性、在动态网络中结点的局部平均联通性以及结点的亚细胞定位得分;边的预处理包括计算边的聚集系数、边的功能相似性;然后计算得到新的中心性方法和动态网络中新的中心性方法;
4)随机初始化果蝇群体的位置
随机选取p个蛋白质作为一个果蝇,将p个蛋白质的序列号作为果蝇的位置,EP代表随机选取的p个蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter=100;
5)利用嗅觉搜寻食物随机方向和距离
将EP与已知关键蛋白质标准库进行对比,令m为EP集合中关键蛋白质的个数,将EP集合之外的n-p个蛋白质的度进行降序排序,然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新;
6)通过计算得到果蝇个体的味道浓度判定值S(q);
7)计算果蝇个体的味道浓度值
根据步骤6)求得的味道浓度的判定值S(q),将其带入味道浓度判定函数中,计算当前每个果蝇个体的味道浓度值smell(q);
8)找出当前种群中最高气味浓度值
根据味道浓度值smell(q),根据公式[bestSmellbestIndex]=max(smellq)找出果蝇群体中味道浓度值中的最大浓度值,式中,bestSmell为最大浓度值,bestIndex为最大浓度值的坐标;
9)利用视觉向食物飞去
判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell,若是则保留最佳味道浓度的值和它的位置bestIndex,此时,果蝇利用视觉往该位置飞去;iter迭代加1;
10)产生关键蛋白质
若iter的值小于等于maxiter,则转向步骤5);否则,将位置bestIndex中的蛋白质作为关键蛋白质输出。
优选地,步骤2)中,蛋白质vi的基因表达值FT(s)由式(1)得到:
式中,T(s)代表蛋白质vi在时间点t的基因表达值;
基因表达阈值AT(s)由式(2)得到:
式中,μ(s)代表蛋白质vi的平均基因表达值,σ(s)是基因表达值的标准差。
优选地,步骤3)中,结点预处理具体包括:
按式(3)计算结点的度:
式中,n表示网络中蛋白质结点总数;当结点vi和vj之间有边相连时,aij的值为1,否则为0;
按式(4)计算结点的局部平均连通性:
按式(5)计算在动态网络中结点的局部平均联通性:
式中,N代表了动态网络中时序网络的个数,LACi(v)表示在i时间点的LAC值,LAC代表了结点的局部平均连通性,由公式(4)得到,tim(v)代表了时序网络中包含蛋白质结点v的次数;
按式(6)计算结点的亚细胞定位得分:
式中,|v|代表蛋白质v在细胞核中出现的次数,|Cmax|是在细胞核中出现次数最多的蛋白质的次数;
边的预处理包括:
按式(7)计算边的聚集系数:
式中,Z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是结点vi和vj的度;
按式(8)计算边的功能相似性:
按式(9)计算新的中心性方法:
式中,N(v)为蛋白质结点vi的邻居结点的集合,ECC是蛋白质结点vi和蛋白质结点vj之间的边聚集系数,由公式(7)得到;GO_sim(vi,vj)代表蛋白质结点vi和蛋白质结点vj之间的功能相似性系数,由公式(8)得到;
按式(10)计算动态网络中新的中心性方法:
式中,N代表了动态网络中时序网络的个数,EGi(u)代表了在时间点i时EG的值,EG代表了新的中心性方法,由公式(9)得到;tim(v)代表了时序网络中包含蛋白质结点v的次数。
优选地,步骤6)中,果蝇个体的味道浓度判定值S(q)由式(11)计算得到:
式中,p代表EP候选集中关键蛋白质的个数,vi代表候选关键蛋白质集中的蛋白质结点,DLAC是动态网络中结点vi的局部平均连通性由公式(5)得到,DEG是动态网络中结点vi新的中心性方法由公式(9)得到。
优选地,按照式(12)计算当前每个果蝇个体的味道浓度值smell(q):
式中,α∈[0,1]用来调节拓扑特性和亚细胞定位信息在识别关键蛋白之中的比例,NSL(vi)由公式(6)得到。
与现有技术相比,本发明具有以下有益的技术效果:
1、本发明不仅考虑了蛋白质相互作用网络的时序性,还综合考虑了网络拓扑的模块化特性,并且与亚细胞定位数据相结合去识别关键蛋白质,弥补了当前的方法中只依赖于网络拓扑特性的不足和在静态网络中识别关键蛋白质的缺陷,比其他的方法更能体现网络特性以及蛋白质生物意义。
2、本发明将果蝇算法与识别关键蛋白质的过程巧妙结合,不仅弥补了传统的方法只能逐一去识别关键蛋白质的不足,还很大程度上提高了识别的效率。
3、采用本发明的结果能够有效地高效率地识别蛋白质相互作用网络中的关键蛋白质,这对于理解细胞的生命活动和发展是很有用的,甚至对于疾病基因的研究和药物设计提供了一定的理论依据。
【附图说明】
图1是本发明流程图
图2是实施例1采用本发明识别的部分关键蛋白质在网络中的分布情况
具体实施方式
下面结合附图和实施实例对本发明进一步详细说明,但本发明并不仅限于这些实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明采用果蝇优化算法识别关键蛋白质的方法,包括以下步骤:
(1)将蛋白质相互作用网络转化为无向图
将蛋白质相互作用网络转化为一个无向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
(2)构建动态蛋白质相互作用网络
基因表达数据有三个周期,每个周期有12个时间点。在时间点t时,蛋白质vi的基因表达值FT(s)若大于基因表达阈值AT(s),则被认为蛋白质vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;将所有时间点的活性的蛋白质组合到一起,对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络,即动态蛋白质相互作用网络。
蛋白质的基因表达值FT由式(1)得到:
式中T(s)代表蛋白质vi在时间点t的基因表达值.
基因表达阈值AT(s)由式(2)得到:
式中μ(s)代表蛋白质vi的平均基因表达值,σ(s)是基因表达值的标准差;
(3)对动态蛋白质相互作用网络的边和结点的预处理
按式(3)计算点的度:
式中,n表示网络中蛋白质结点总数;当结点vi和vj之间有边相连时,aij的值为1,否则为0;
按式(4)计算点的局部平均连通性:
按式(5)计算在动态网络中点的局部平均联通性:
式中N代表了动态网络中时序网络的个数,LACi(v)表示在i时间点的LAC值,LAC代表了结点的局部平均连通性由公式(4)得到,tim(v)代表了时序网络中包含蛋白质结点v的次数。
按式(6)计算点的亚细胞定位得分:
式中|v|代表蛋白质v在细胞核中出现的次数,|Cmax|是在细胞核中出现次数最多的蛋白质的次数。
按式(7)计算边的聚集系数:
式中,Z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是结点vi和vj的度;
按式(8)计算边的功能相似性:
按式(9)计算新的中心性方法:
式中N(v)蛋白质结点vi的邻居结点的集合,ECC是结点vi和结点vj之间的边聚集系数由公式(7)得到,GO_sim(vi,vj)代表结点vi和结点vj之间的功能相似性系数由公式(8)得到;
按式(10)计算动态网络中新的中心性方法:
式中N代表了动态网络中时序网络的个数,EGi(u)代表了在时间点i时EG的值,EG代表了新的中心性方法由公式(9)得到,tim(v)代表了时序网络中包含蛋白质结点v的次数;
(4)随机初始化果蝇群体的位置
随机选取p个蛋白质作为一个果蝇,将p个蛋白质的序列号作为果蝇的位置,EP代表随机选取的p个蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter=100;
(5)利用嗅觉搜寻食物随机方向和距离
将EP与关键蛋白标准库进行对比,令m为关键蛋白质的个数,按照式(3)计算出的EP集合之外的n-p个蛋白质的度进行降序排序,然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新;
(6)计算果蝇个体味道浓度判定值
因为无法得知食物源的具体方位,所以计算动态局部平均联通DLAC和新的中心性方法DEG,进而求得味道浓度判定值S(q);
(7)计算果蝇个体的气味浓度值
根据味道浓度的判定值S(q),将其带入味道浓度判定函数中,计算当前每个果蝇个体的气味浓度值smell(q);
(8)找出当前种群中最高气味浓度值
根据味道浓度值smell(q),根据公式[bestSmell bestIndex]=max(smellq)找出果蝇群体中味道浓度值最大的,式中bestSmell为最大浓度值,bestIndex为最大浓度值的坐标;
(9)利用视觉向食物飞去
判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell,若是则保留最佳味道浓度的值和它的位置bestIndex,此时果蝇利用视觉往该位置飞去;iter迭代加1;
(10)产生关键蛋白质
若iter的值小于等于maxiter,转向步骤(5);否则,将位置bestIndex中的蛋白质作为关键蛋白质输出。
本发明步骤(6)中果蝇个体代表的蛋白质的味道浓度判定值为S(q)由式(11)得到:
式中p代表EP候选集中关键蛋白质的个数,vi代表候选关键蛋白质集中的蛋白质结点,DLAC是动态网络中结点vi的局部平均连通性由公式(5)得到,DEG是动态网络中结点vi新的中心性方法由公式(9)得到。
本发明步骤(7)中果蝇的味道浓度值由式(12)得到:
式中α∈[0,1]用来调节拓扑特性和亚细胞定位信息在识别关键蛋白之中的比例,NSL(vi)由公式(6)得到。
本实施例以采用DIP数据库的酵母数据集作为仿真数据集,DIP中的酵母数据集包含5093个蛋白质和24743条相互作用关系。基因表达数据采自GEO数据库中的酵母数据集其中包括7074个基因,3个周期每个周期有12个时间点的基因值。基因本体数据采自GOConsortium数据库。亚细胞定位数据库采自COMPARTMENTS数据库,它包含5095个蛋白质和206831条亚细胞定位记录。关键蛋白质标准数据库由4个数据库整合而来,分别包括MIPS、SGD、DEG和SGDP,它包含1285个关键蛋白质,对应到酵母数据中有1167个关键蛋白质。本发明的实验平台为Windows 10 64位操作系统,处理器为Intel(R)Core(TM)i5-6600CPU,8GB物理内存,实验仿真软件平台为Matlab 2016a。
一种采用果蝇优化算法识别关键蛋白质的方法,步骤如下:
1、将蛋白质相互作用网络转化为无向图
将蛋白质相互作用网络转化为一个无向图G=(V,E),其中V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
2、构建动态蛋白质相互作用网络
基因表达数据有三个周期,每个周期有12个时间点。在时间点t时,蛋白质vi的基因表达值FT(s)若大于基因表达阈值AT(s),则被认为蛋白质vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;将所有时间点的活性的蛋白质组合到一起,对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络,即动态蛋白质相互作用网络。
蛋白质的基因表达值FT由式(1)得到:
式中T(s)代表蛋白质vi在时间点t的基因表达值.
基因表达阈值AT(s)由式(2)得到:
式中μ(s)代表蛋白质vi的平均基因表达值,σ(s)是基因表达值的标准差;通过上述处理,我们可以得到每个蛋白质的活性值,如果活性值大于基因表达阈值AT(i)那么它就是活跃的,如果两个有相互作用的蛋白质在同一时间点具有活性,那么我们保留该边。最后形成了一个具有12个子网的动态蛋白质相互作用网络。
3、对动态蛋白质相互作用网络的边和结点的预处理
按式(3)计算点的度:
式中,n表示网络中蛋白质结点总数;当结点vi和vj之间有边相连时,aij的值为1,否则为0;
按式(4)计算点的局部平均连通性:
按式(5)计算在动态网络中点的局部平均联通性:
式中N代表了动态网络中时序网络的个数,LACi(v)表示在i时间点的LAC值,LAC代表了结点的局部平均连通性由公式(4)得到,tim(v)代表了时序网络中包含蛋白质结点v的次数。
按式(6)计算点的亚细胞定位得分:
式中|v|代表蛋白质v在细胞核中出现的次数,|Cmax|是在细胞核中出现次数最多的蛋白质的次数。
按式(7)计算边的聚集系数:
式中,Z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是结点vi和vj的度;
按式(8)计算边的功能相似性:
按式(9)计算新的中心性方法:
式中N(v)蛋白质结点vi的邻居结点的集合,ECC是结点vi和结点vj之间的边聚集系数由公式(7)得到,GO_sim(vi,vj)代表结点vi和结点vj之间的功能相似性系数由公式(8)得到;
按式(10)计算动态网络中新的中心性方法:
式中N代表了动态网络中时序网络的个数,EGi(u)代表了在时间点i时EG的值,EG代表了新的中心性方法由公式(9)得到,tim(v)代表了时序网络中包含蛋白质结点v的次数;
4、随机初始化果蝇群体的位置
随机选取p个蛋白质作为一个果蝇,将p个蛋白质的序列号作为果蝇的位置,EP代表随机选取的p个蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter=100;
5、利用嗅觉搜寻食物随机方向和距离
将EP与关键蛋白标准库进行对比,令m为关键蛋白质的个数,按照式(3)将EP集合之外的n-p个蛋白质的度进行降序排序,然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新;
6、计算果蝇个体味道浓度判定值
因为无法得知食物源的具体方位,所以计算动态局部平均联通DLAC和新的中心性方法DEG,进而求得味道浓度判定值S(q),S(q)由式(11)得到:
式中p代表EP候选集中关键蛋白质的个数,vi代表候选关键蛋白质集中的蛋白质结点,DLAC是动态网络中结点vi的局部平均连通性由公式(5)得到,DEG是动态网络中结点vi新的中心性方法由公式(9)得到。
7、计算果蝇个体的气味浓度值
根据味道浓度的判定值S(q),将其带入味道浓度判定函数中,计算当前每个果蝇个体的气味浓度值smell(q),smell(q)由式(12)得到:
式中α∈[0,1]用来调节拓扑特性和亚细胞定位信息在识别关键蛋白之中的比例,NSL(vi)由公式(6)得到。
8、找出当前种群中最高气味浓度值
根据味道浓度值smell(q),根据公式[bestSmell bestIndex]=max(smell(q))找出果蝇群体中味道浓度值最大的,式中bestSmell为最大浓度值,bestIndex为最大浓度值的坐标;iter迭代加1;
9、利用视觉向食物飞去
判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell,若是则保留最佳味道浓度的值和它的位置bestIndex,此时果蝇利用视觉往该位置飞去。
10、产生关键蛋白质
若iter的值小于等于maxiter,转向步骤(5);否则,将位置bestIndex中的蛋白质作为关键蛋白质输出。
为了验证本发明的有益效果,发明人采用本发明实施例1果蝇优化算法识别关键蛋白质的方法对DIP数据库中的蛋白质网络进行关键蛋白质的识别,对识别的关键蛋白质的前25%(5093*25%=1274)个关键蛋白质进行分析,结果见表1图2,表1显示了本发明与当前其他识别关键蛋白质的方法识别出来的结果进行对比,对比内容包括SN(敏感性)、SP(特异性)、PPV(阳性预测值)、NPV(阴性预测值)、F-measure(精确率和召回率调和值)、ACC(精确值)。图2显示了实施例1采用本发明识别的部分关键蛋白质在网络中的分布情况。
表1本发明与其他方法识别的关键蛋白质SN、SP、PPV、NPV、F-measure、ACC的比较
表1显示了本发明识别出的关键蛋白质中的前25%个的关键蛋白质与关键蛋白质标准库的比对结果,以及一些现有的其他识别关键蛋白质的方法的结果。挑选的现有的方法涵盖范围较广,涉及基本的拓扑中心性的方法包括DC、EC、IC、SC、NC和LAC对比的方法中也有融合基因表达数据的PeC方法和运用了蛋白质结构域数据的方法UDoNC。从表1中我们可以看出本发明实验结果都好于现有的方法。图2显示了实施例1采用本发明识别的关键蛋白质在蛋白质相互作用网络中的位置。在图2中,黄色的圆圈代表的是本发明正确识别的关键蛋白质,绿色的圆圈代表的是本发明识别为关键蛋白质但实际情况为非关键的蛋白质,从图中可以看出本发明可以识别出团簇状的关键蛋白质,具有良好的识别特性。
综上所述,本发明将蛋白质相互作用网络转化为无向图、构建动态蛋白质相互作用网络、对动态蛋白质相互作用网络边和结点预处理、随机初始化果蝇种群的位置、利用嗅觉搜寻食物随机方向和距离、计算果蝇个体味道浓度判定值、计算果蝇个体的气味浓度值、找出当前种群中最高气味浓度值、利用视觉向食物飞去、产生关键蛋白质。本发明能准确地识别关键蛋白质;仿真实验结果表明本发明在敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标性能都表现良好;跟其他识别关键蛋白质的方法相对,本发明采用果蝇优化算法识别关键蛋白质的方法具有一定的优势。
以上所述是本发明的优选实施方式,通过上述说明内容,本技术领域的相关工作人员可以在不偏离本发明技术原理的前提下,进行多样的改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (2)
1.一种采用果蝇优化算法识别关键蛋白质的方法,其特征在于,包括以下步骤:
1)将蛋白质相互作用网络转化为无向图
将蛋白质相互作用网络转化为一个无向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
2)构建动态蛋白质相互作用网络
基因表达数据有三个周期,每个周期有12个时间点,在时间点t时,蛋白质vi的基因表达值FT(s)若大于基因表达阈值AT(s),则被认为蛋白质vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;
将所有时间点的活性的蛋白质组合到一起,对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络,即动态蛋白质相互作用网络;
3)对动态蛋白质相互作用网络的边和结点的预处理
结点预处理包括计算结点的度、结点的局部平均连通性、在动态网络中结点的局部平均联通性以及结点的亚细胞定位得分;边的预处理包括计算边的聚集系数、边的功能相似性;然后计算得到新的中心性方法和动态网络中新的中心性方法;结点预处理具体包括:
按式(3)计算结点的度:
式中,n表示网络中蛋白质结点总数;当结点vi和vj之间有边相连时,aij的值为1,否则为0;
按式(4)计算结点的局部平均连通性:
按式(5)计算在动态网络中结点的局部平均联通性:
式中,N代表了动态网络中时序网络的个数,LACi(v)表示在i时间点的LAC值,LAC代表了结点的局部平均连通性,由公式(4)得到,tim(v)代表了时序网络中包含蛋白质结点v的次数;
按式(6)计算结点的亚细胞定位得分:
式中,|v|代表蛋白质v在细胞核中出现的次数,|Cmax|是在细胞核中出现次数最多的蛋白质的次数;
边的预处理包括:
按式(7)计算边的聚集系数:
式中,Z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是结点vi和vj的度;
按式(8)计算边的功能相似性:
按式(9)计算新的中心性方法:
式中,N(v)为蛋白质结点vi的邻居结点的集合,ECC是蛋白质结点vi和蛋白质结点vj之间的边聚集系数,由公式(7)得到;GO_sim(vi,vj)代表蛋白质结点vi和蛋白质结点vj之间的功能相似性系数,由公式(8)得到;
按式(10)计算动态网络中新的中心性方法:
式中,N代表了动态网络中时序网络的个数,EGi(u)代表了在时间点i时EG的值,EG代表了新的中心性方法,由公式(9)得到;tim(v)代表了时序网络中包含蛋白质结点v的次数;
4)随机初始化果蝇群体的位置
随机选取p个蛋白质作为一个果蝇,将p个蛋白质的序列号作为果蝇的位置,EP代表随机选取的p个蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter=100;
5)利用嗅觉搜寻食物随机方向和距离
将EP与已知关键蛋白质标准库进行对比,令m为EP集合中关键蛋白质的个数,将EP集合之外的n-p个蛋白质的度进行降序排序,然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新;
6)通过计算得到果蝇个体的味道浓度判定值S(q);
步骤6)中,果蝇个体的味道浓度判定值S(q)由式(11)计算得到:
式中,p代表EP候选集中关键蛋白质的个数,vi代表候选关键蛋白质集中的蛋白质结点,DLAC是动态网络中结点vi的局部平均连通性由公式(5)得到,DEG是动态网络中结点vi新的中心性方法;
7)计算果蝇个体的味道浓度值
根据步骤6)求得的味道浓度的判定值S(q),将其带入味道浓度判定函数中,计算当前每个果蝇个体的味道浓度值smell(q);
按照式(12)计算当前每个果蝇个体的味道浓度值smell(q):
式中,α∈[0,1]用来调节拓扑特性和亚细胞定位信息在识别关键蛋白之中的比例,NSL(vi)为结点的亚细胞定位得分;
8)找出当前种群中最高气味浓度值
根据味道浓度值smell(q),根据公式[bestSmellbestIndex]=max(smellq)找出果蝇群体中味道浓度值中的最大浓度值,式中,bestSmell为最大浓度值,bestIndex为最大浓度值的坐标;
9)利用视觉向食物飞去
判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell,若是则保留最佳味道浓度的值和它的位置bestIndex,此时,果蝇利用视觉往该位置飞去;iter迭代加1;
10)产生关键蛋白质
若iter的值小于等于maxiter,则转向步骤5);否则,将位置bestIndex中的蛋白质作为关键蛋白质输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810111997.6A CN108229643B (zh) | 2018-02-05 | 2018-02-05 | 一种采用果蝇优化算法识别关键蛋白质的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810111997.6A CN108229643B (zh) | 2018-02-05 | 2018-02-05 | 一种采用果蝇优化算法识别关键蛋白质的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229643A CN108229643A (zh) | 2018-06-29 |
CN108229643B true CN108229643B (zh) | 2022-04-29 |
Family
ID=62670744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810111997.6A Active CN108229643B (zh) | 2018-02-05 | 2018-02-05 | 一种采用果蝇优化算法识别关键蛋白质的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229643B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166604B (zh) * | 2018-08-22 | 2021-07-02 | 华东交通大学 | 一种融合多数据特征预测关键蛋白质的计算方法 |
CN109616153B (zh) * | 2018-12-05 | 2022-08-05 | 陕西师范大学 | 一种采用改进的hits算法识别关键蛋白质的方法 |
CN110135484B (zh) * | 2019-05-05 | 2023-07-07 | 防灾科技学院 | 一种判定食物网关键种的方法 |
CN111128292B (zh) * | 2019-12-25 | 2023-05-05 | 湖南师范大学 | 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002101011A2 (en) * | 2001-06-08 | 2002-12-19 | The Penn State Research Foundation | Reagents and methods for detection and characterization of protein-protein interactions |
CN102750460A (zh) * | 2012-05-31 | 2012-10-24 | 常州工学院 | 分层简化大规模图数据的运算方法 |
CN102945333A (zh) * | 2012-12-04 | 2013-02-27 | 中南大学 | 一种基于先验知识和网络拓扑特性的关键蛋白预测方法 |
CN104156634A (zh) * | 2014-08-14 | 2014-11-19 | 中南大学 | 基于亚细胞定位特异性的关键蛋白质识别方法 |
CN105868582A (zh) * | 2016-03-25 | 2016-08-17 | 陕西师范大学 | 采用果蝇优化方法识别蛋白质复合物 |
CN106874708A (zh) * | 2017-01-23 | 2017-06-20 | 陕西师范大学 | 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法 |
CN107092812A (zh) * | 2017-03-06 | 2017-08-25 | 扬州大学 | 一种在ppi网络中基于遗传算法识别关键蛋白质的方法 |
-
2018
- 2018-02-05 CN CN201810111997.6A patent/CN108229643B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002101011A2 (en) * | 2001-06-08 | 2002-12-19 | The Penn State Research Foundation | Reagents and methods for detection and characterization of protein-protein interactions |
CN102750460A (zh) * | 2012-05-31 | 2012-10-24 | 常州工学院 | 分层简化大规模图数据的运算方法 |
CN102945333A (zh) * | 2012-12-04 | 2013-02-27 | 中南大学 | 一种基于先验知识和网络拓扑特性的关键蛋白预测方法 |
CN104156634A (zh) * | 2014-08-14 | 2014-11-19 | 中南大学 | 基于亚细胞定位特异性的关键蛋白质识别方法 |
CN105868582A (zh) * | 2016-03-25 | 2016-08-17 | 陕西师范大学 | 采用果蝇优化方法识别蛋白质复合物 |
CN106874708A (zh) * | 2017-01-23 | 2017-06-20 | 陕西师范大学 | 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法 |
CN107092812A (zh) * | 2017-03-06 | 2017-08-25 | 扬州大学 | 一种在ppi网络中基于遗传算法识别关键蛋白质的方法 |
Non-Patent Citations (4)
Title |
---|
A new Fruit Fly Optimization Algorithm: Taking the financial distress model as an example;Wen-Tsao Pan;《Knowledge-Based Systems》;20120229;第26卷;69-74 * |
A new method to measure the semantic similarity of GO terms;James Z. Wang 等;《Bioinformatics》;20070331;第23卷(第10期);1274-1281 * |
Predicting Essential Proteins Based on Gene Expression Data, Subcellular Localization and PPI Data;Xiujuan Lei 等;《International Conference on Bio-Inspired Computing: Theories and Applications》;20171109;92-105 * |
Protein complex identification through Markov clustering with firefly algorithm on dynamic protein–protein interaction networks;Xiu juan Lei 等;《Information Sciences》;20150928;303-316 * |
Also Published As
Publication number | Publication date |
---|---|
CN108229643A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229643B (zh) | 一种采用果蝇优化算法识别关键蛋白质的方法 | |
CN108319812B (zh) | 一种基于布谷鸟搜索算法识别关键蛋白质的方法 | |
CN107885971B (zh) | 采用改进花授粉算法识别关键蛋白质的方法 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN107784196B (zh) | 基于人工鱼群优化算法识别关键蛋白质的方法 | |
CN108009403A (zh) | 基于多源数据融合及多目标优化的蛋白质复合物识别方法 | |
CN109801674B (zh) | 一种基于异构生物网络融合的关键蛋白质识别方法 | |
CN109727637B (zh) | 基于混合蛙跳算法识别关键蛋白质的方法 | |
Sikandar et al. | Decision tree based approaches for detecting protein complex in protein protein interaction network (PPI) via link and sequence analysis | |
CN105117618B (zh) | 一种基于牵连犯罪原则和网络拓扑结构特征的药物‑靶标相互作用识别方法 | |
CN111584010B (zh) | 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法 | |
CN104992078B (zh) | 一种基于语义密度的蛋白质网络复合物识别方法 | |
CN111145830A (zh) | 基于网络传播的蛋白质功能预测方法 | |
CN106372458A (zh) | 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法 | |
CN114242168B (zh) | 一种识别生物必需蛋白质方法 | |
CN108804871B (zh) | 基于最大邻居子网的关键蛋白质识别方法 | |
CN105590039B (zh) | 一种基于bso优化的蛋白质复合物识别方法 | |
He et al. | Exploring ant-based algorithms for gene expression data analysis | |
ElAlami | Supporting image retrieval framework with rule base system | |
CN116092595A (zh) | 基于拓扑药效分子图建模和靶标特征解析的虚拟筛选方法 | |
Lei et al. | The clustering model and algorithm of PPI network based on propagating mechanism of artificial bee colony | |
Babu et al. | A simplex method-based bacterial colony optimization algorithm for data clustering analysis | |
Liu et al. | A Network Hierarchy-Based method for functional module detection in protein–protein interaction networks | |
CN109616153B (zh) | 一种采用改进的hits算法识别关键蛋白质的方法 | |
Guan et al. | Grace: a graph-based cluster ensemble approach for single-cell rna-seq data clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Lei Xiujuan Inventor after: Wang Siguo Inventor after: Lu Cheng Inventor before: Lei Xiujuan Inventor before: Wang Siguo Inventor before: Lu Cheng |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |