CN109545275B - 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法 - Google Patents

基于模糊谱聚类的不确定ppi网络功能模块挖掘方法 Download PDF

Info

Publication number
CN109545275B
CN109545275B CN201811149953.9A CN201811149953A CN109545275B CN 109545275 B CN109545275 B CN 109545275B CN 201811149953 A CN201811149953 A CN 201811149953A CN 109545275 B CN109545275 B CN 109545275B
Authority
CN
China
Prior art keywords
protein interaction
representing
protein
clustering
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811149953.9A
Other languages
English (en)
Other versions
CN109545275A (zh
Inventor
毛伊敏
刘银萍
毛丁慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Science and Technology
Original Assignee
Jiangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Science and Technology filed Critical Jiangxi University of Science and Technology
Priority to CN201811149953.9A priority Critical patent/CN109545275B/zh
Publication of CN109545275A publication Critical patent/CN109545275A/zh
Application granted granted Critical
Publication of CN109545275B publication Critical patent/CN109545275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供一种基于模糊谱聚类的不确定PPI网络功能模块挖掘方法包括以下步骤:去掉蛋白质相互作用数据中的重复相互作用和自相互作用,利用边聚集系数来测度每一组相互作用,构建不确定蛋白质相互作用网络图;利用流行距离和蛋白质网络的拓扑特性来改进谱聚类算法的相似度度量,进一步采用谱聚类算法完成对蛋白质相互作用数据的预处理;采用DPCS策略选取初始聚类中心,基于初始聚类中心,采用模糊C‑均值算法不断更新聚类中心和隶属度,进而实现蛋白质相互作用功能模块的挖掘;利用期望稠密度融合边聚集系数的边期望稠密度来过滤挖掘出的蛋白质相互作用功能模块;以及输出预测挖掘出的蛋白质相互作用功能模块。

Description

基于模糊谱聚类的不确定PPI网络功能模块挖掘方法
技术领域
本公开涉及系统生物学领域,尤其涉及一种基于模糊谱聚类的不确定PPI网络功能模块挖掘方法。
背景技术
蛋白质组是一个在空间和时间上动态变化的整体,其功能往往是通过蛋白质之间或核酸之间的相互作用而表现出来,这种相互作用存在于机体细胞的生命活动过程中,相互交叉形成蛋白质相互作用(protein-protein interaction,PPI)网络。在一个PPI网络中,不同时间和空间阶段通过相互作用完成某一特定分子进程的蛋白质集合称为蛋白质功能模块。功能模块的挖掘不仅可以了解细胞的功能组织结构和执行生理功能的方式,而且还有助于人们理解各种生物学过程、揭示疾病的发生机制以及寻找新的药物靶标。因此,挖掘蛋白质相互作用的功能模块具有重要的意义。
通过生物实验进行PPI网络功能模块的挖掘是过去传统而经典的方法,但该方法在检测挖掘费用、时间和质量上的局限性,远远无法满足后基因时代人类对生命科学研究的实际需要。因此,迫切需要有效的计算方法来降低实验的成本,提高实验效率。
随着高通量的蛋白质相互作用数据的积累,利用蛋白质相互作用网络来挖掘蛋白质功能模块成为了目前的研究热点。根据计算机理的不同,挖掘蛋白质功能模块的方法包括:基于密度的聚类方法;基于层次的聚类方法、基于划分的聚类方法、基于谱分析的聚类方法。基于密度的聚类方法很难对网络中大量的稀疏节点进行聚类,方法挖掘的功能模块的准确率不高;基于层次的聚类方法难于检测出节点交叠的功能模块,聚类结果对网络的噪声非常敏感;基于划分的聚类方法需要事先确定聚类数目,不能检测出重叠的功能模块。由于基于图论的谱聚类方法实现简单,不局限于原始数据的分布形状,可以收敛于全局最优解。因此,目前谱聚类算法已成功应用于PPI网络功能模块挖掘,成为该领域的研究热点。例如,Madani等人提出了一种新的基于谱聚类的功能模块挖掘方法,用于挖掘整个PPI网络最相似的功能模块。Qin等人利用谱聚类方法对PPI网络模块识别进行了研究,提出一种基于PPI网络属性确定模块数的方法,并且进行了相关验证。Inoue等人提出了一种基于扩散模型的谱聚类ADMSC方法,该方法用于PPI网络模块划分挖掘。谱聚类方法是根据特征向量将数据划分到不相交的类中,属于且仅属于一个类,可以自动确定聚类数目,是一种硬划分方法,不能准确反映样本间的实际关系;另计算相似度矩阵时,实验结果容易受到尺度参数的影响,导致功能模块挖掘过程中不能充分考虑节点的局部一致性和全局一致性,进而使得该方法的运行效率降低以及准确性不高。随着高通量生物数据的增多,最近一些研究者试图结合模糊C-means(模糊C-均值)来提高挖掘蛋白质功能模块的准确性。例如,Trivodaliev等人提出将模糊C-means与谱聚类方法相结合用于蛋白质模块挖掘,利用C-means方法中的模糊因子改进谱聚类的硬划分问题,不断更新聚类中心隶属度来划分簇,划分结果却存在对初始聚类中心以及聚类数目敏感的问题,导致功能模块挖掘的过程中容易陷入局部最优,方法的预测精度降低以及特异性和灵敏度不高。
然而,目前研究都是将PPI网络有效地用无向图模型来描述,只关注于精确的、完全的确定图,忽略了生物信息学中的PPI网络数据以及其他的一些生物数据,常常会由于实验检测方法的局限性而呈现出不确定性,实验结果容易受到假阳性的影响。因此,将PPI网络作为不确定图来研究更为合理。目前从不确定性的数据中挖掘蛋白质功能模块信息越来越受到人们的关注。例如,Zhang等人提出了融合基因共表达数据和高通量PPI数据的不确定PPI网络方法CDUN,用于挖掘蛋白质功能模块。Zhao等人提出了一种基于不确定图模型的检测蛋白质子图模块的方法DCU。Halim等人提出了一种从不确定蛋白质网络概率图中聚类子图模块的EA方法。Bano等人在不确定数据基础上,提出MGPPA算法应用于蛋白质簇的挖掘。这些方法克服了假阳性对实验结果的影响,有很好的预测精度和很强的鲁棒性,但是聚类结果的灵敏度和准确率不高。
上述各类方法从不同的角度解决了蛋白质功能模块挖掘存在的一些问题。然而,如何有效地构建不确定PPI网络,如何克服谱聚类融合模糊C-means算法对尺度参数、聚类中心和聚类数目敏感等导致的准确率、灵敏度不高以及执行效率低等缺陷,仍存在很多挑战。
发明内容
为了解决至少一个上述技术问题,本公开提供一种基于模糊谱聚类的不确定PPI网络功能模块挖掘方法(FSC-FM)。
根据本公开的一个方面,基于模糊谱聚类的不确定PPI网络功能模块挖掘方法包括以下步骤:
构建不确定蛋白质相互作用网络图:去掉蛋白质相互作用数据中的重复相互作用和自相互作用,根据蛋白质相互作用网络图中连接每条边的两个节点的公共邻居节点数,以及两个节点度的最小值,利用边聚集系数来测度每一组相互作用,从而构建不确定蛋白质相互作用网络图;
预处理蛋白质相互作用数据:利用流行距离和蛋白质网络的拓扑特性来改进谱聚类算法的相似度度量,分别计算在网络图中的节点之间的相似度,形成相似度矩阵,进而采用谱聚类算法完成对蛋白质相互作用数据的预处理;
挖掘蛋白质相互作用功能模块:采用DPCS策略选取初始聚类中心,基于初始聚类中心,采用模糊C-均值算法不断更新聚类中心和隶属度,进而实现蛋白质相互作用功能模块的挖掘;
过滤蛋白质相互作用功能模块:利用期望稠密度融合边聚集系数的边期望稠密度来过滤挖掘出的蛋白质相互作用功能模块;以及
输出结果:输出预测挖掘出的蛋白质相互作用功能模块。
根据本公开的至少一个实施方式,边聚集系数通过下式1计算:
Figure BDA0001817710610000031
其中,ECC表示边聚集系数,Hc表示节点u和v的公共邻居节点,du和dv分别代表u节点和v节点的度。
根据本公开的至少一个实施方式,流行距离的计算公式如下式2所示:
Figure BDA0001817710610000041
其中,FD(b0,bs)表示不确定图上任意两个节点b0,bs之间的流行距离,Ros表示不确定图上连接两个节点的全部可能的到达路径集合,d(bk,bk+1)表示节点b0和bs间的欧氏距离,0≤k≤s,ρ(ρ>1)表示伸缩因子。
根据本公开的至少一个实施方式,相似度用下式3计算:
FEC(bi,bj)=ECC(bi,bj)×FD(bi,bj) 式3
其中,FEC(bi,bj)表示任意两个节点bi,bj之间的相似度,ECC(bi,bj)表示节点bi,bj的边聚集系数,FD(bi,bj)表示节点bi,bj之间的流行距离。
根据本公开的至少一个实施方式,采用DPCS策略选取初始聚类中心的步骤包括:
计算数据节点之间的相似度;
基于相似度计算样本的概率密度函数;
基于概率密度函数获取初始聚类中心。
根据本公开的至少一个实施方式,概率密度函数通过下式4计算:
Figure BDA0001817710610000042
其中,
Figure BDA0001817710610000043
表示对象zi处的概率密度函数,rd表示邻域半径;
邻域半径通过下式5计算:
Figure BDA0001817710610000044
其中,FEC(zi,zj)表示对象zi,zj之间的相似度,N为大于1的整数。
根据本公开的至少一个实施方式,令
Figure BDA0001817710610000045
设为第k个聚类中心点
Figure BDA0001817710610000046
更新概率密度函数,更新后的概率密度函数通过下式6计算:
Figure BDA0001817710610000047
根据本公开的至少一个实施方式,聚类中心和隶属度的迭代更新表达式分别如下式7和下式8所示:
Figure BDA0001817710610000051
Figure BDA0001817710610000052
其中,xi表示第i个数据点,cj表示第j个聚类中心,ck表示第k个聚类中心,m表示控制算法的柔性参数,根据具体设定,C表示聚类数目,大于1;
Figure BDA0001817710610000053
时,迭代停止,其中k表示迭代次数,ε表示一个较小的阈值,J表示目标函数。
根据本公开的至少一个实施方式,假设不确定图G=(V,E,P)中存在的子图F=(V”,E”,P”),其中
Figure BDA0001817710610000054
P(e)=ECC(e)表示边e存在的概率,则子图F在不确定图G中的边期望稠密度EDD表示为下式9:
Figure BDA0001817710610000055
其中,V”子图中节点的集合,E”表示子图中边的集合。
根据本公开的至少一个实施方式,利用边期望稠密度来过滤挖掘出的蛋白质相互作用功能模块,是指将低于边期望稠密度的阈值T的功能模块过滤掉。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开的至少一个实施方式的不确定PPI网络的构建示意图。
图2是根据本公开的至少一个实施方式的基于模糊谱聚类的不确定PPI网络功能模块挖掘方法流程图。
图3是根据本公开的至少一个实施方式的5种方法的挖掘蛋白质相互作用功能模块P-value取值区间的显著性模块比例的比较图。
图4是根据本公开的至少一个实施方式的5种方法的挖掘蛋白质相互作用功能模块的特异性、灵敏度和F-measure的比较图。
图5是根据本公开的至少一个实施方式的5种功能模块挖掘方法的具体检测实例比较图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
本公开技术方案基于模糊谱聚类对蛋白质功能模块的挖掘,提出了一种基于模糊谱聚类的不确定PPI网络功能模块挖掘方法(FSC-FM):首先利用边聚集系数构造不确定PPI网络,然后采用FEC距离改进谱聚类算法中蛋白质节点之间的相似矩阵计算来降低数据维数,基于谱聚类算法降低数据维数的基础上,采用基于密度的概率中心选取策略DPCS优化的FCM(模糊C-均值)算法来实现功能模块的挖掘,同时利用改进的边期望稠密度EDD对挖掘出的蛋白质功能模块进行过滤,最终输出所有预测挖掘出的蛋白质功能模块。
下面结合附图详细介绍本公开的FSC-FM方法。
酵母蛋白质相互作用网络和蛋白质功能模块数据在众多物种中是最为完整和可靠的,因此,在本公开的一个可选实施方式中,优选以酵母蛋白质为例进行数据分析和实验验证。
(一)构建不确定蛋白质相互作用网络图:
酵母蛋白质相互作用网络来自于DIP数据库,除去自相互作用和重复的相互作用,总共有4995个蛋白质,21554对相互作用。标准蛋白质功能模块信息来源于CYC2008模块集,该数据集中包含408个通过生物实验方法预测到的蛋白质功能模块,每个模块包含两个或两个以上的蛋白质。考虑到实验检测条件的局限性以及蛋白质网络的拓扑特性,蛋白质相互作用网络和生物信息学中的一些生物数据存在不确定性,挖掘功能模块结果容易受到假阳性的影响。为了降低实验结果受假阳性的影响,融合不确定数据处理技术提高PPI网络功能模块预测的准确率,我们将PPI网络用不确定图(无向图)来表示。通过计算PPI网络图中连接每条边的两个节点的公共邻居节点数以及选取这两个节点度的最小值,利用边聚集系数定义公式来测度每一组相互作用,构建不确定PPI网络。从上述分析可以发现,蛋白质相互作用子图规模越大,特异性蛋白质数目越多,从而挖掘出的蛋白质功能模块数量较多。假设不确定图G=(V,E,P),则不确定图中的边聚集系数通过下式1计算:
Figure BDA0001817710610000071
其中,ECC表示边聚集系数,Hc表示节点u和v的公共邻居节点,du和dv分别代表u节点和v节点的度。
这种构建方式可以充分考虑到由于实验检测条件的局限性以及蛋白质网络的拓扑特性,蛋白质相互作用网络和生物信息学中的一些生物数据存在不确定性的情况,从而降低功能模块挖掘结果受假阳性的影响,并且融合不确定数据处理技术可以提高PPI网络功能模块预测的准确率。如图1所示为不确定PPI网络的构建示意图,从图1可以看出,不同蛋白质相互作用存在概率具有很大的差异性。其中,公共邻居节点数较多的蛋白质相互作用存在概率相比公共邻居节点少的相互作用要高。分析的结果表明:蛋白质功能模块在各个不确定蛋白质相互作用网络图的分布具有显著的统计特性,且蛋白质功能模块主要在某些相互作用子网富集,这说明并非所有的不确定蛋白质相互作用网络的蛋白质边聚集系数测度都对细胞内蛋白质功能模块的挖掘有用。
(二)预处理蛋白质相互作用数据:
利用流行距离和蛋白质网络的拓扑特性来改进谱聚类算法的相似度度量,进而采用谱聚类算法完成对数据的预处理。分别计算在蛋白质相互作用网络图中的节点之间的相似度,形成相似度矩阵,进而采用谱聚类算法完成对数据的预处理。
假设在不确定图G上的任意两个顶点b0和bs存在顶点序列r=(b0,b1,...,bs),该顶点序列表示连接b0和bs的路径。其中bk∈V(0≤k≤s),(bk,bk+1)∈E(0≤k≤s),令R0s表示不确定图G上连接两顶点之间全部可能的到达路径集合,顶点b0和bs之间的流行距离定义如下式2所示:
Figure BDA0001817710610000081
其中,FD(b0,bs)表示不确定图上任意两个顶点b0,bs之间的流行距离,bk∈V(0≤k≤s),(bk,bk+1)∈E(0≤k≤s),Ros表示不确定图G上连接两个顶点的全部可能的到达路径集合,d(bk,bk+1)表示节点b0和bs间的欧氏距离,0≤k≤s,ρ(ρ>1)表示伸缩因子,是可调节的参数。
假设不确定图G=(V,E,P),V代表蛋白质,E代表蛋白质之间的相互作用,两个蛋白质bi,bj之间的相似性定义如下式3所示:
FEC(bi,bj)=ECC(bi,bj)×FD(bi,bj) 式3
其中,FEC(bi,bj)表示任意两个节点bi,bj之间的相似度,ECC(bi,bj)表示节点bi,bj的边聚集系数,FD(bi,bj)表示节点bi,bj之间的流行距离。
在确定PPI网络中,根据蛋白质网络的拓扑特性即聚集程度以及流行距离来改进相似性度量,提出了FEC策略,得到蛋白质节点之间的相似度矩阵,进而采用谱聚类算法实现数据的预处理。
(三)挖掘蛋白质相互作用功能模块:
采用DPCS策略优化FCM初始聚类中心的选取,进而采用FCM方法实现蛋白质功能模块的挖掘:1)采用DPCS策略选取初始聚类中心;2)基于初始的聚类中心,采用FCM算法不断更新聚类中心和隶属度进而实现蛋白质功能模块挖掘。
DPCS策略选取初始聚类中心:首先计算样本数据间的几何分布紧密程度得到相应的密度中心,然后将得到的样本数据密度中心带入FSC-FM方法近似模拟全体数据的初始聚类中心。该策略可以避免算法陷入局部最优并且减少算法迭代次数,使得算法的运行效率和精度提高。具体步骤如下:
1)利用FEC距离度量公式计算数据节点之间的相似度;
2)根据数据节点之间的相似度计算样本的概率密度函数,对象zi处的概率密度函数表示为下式4:
Figure BDA0001817710610000091
其中,
Figure BDA0001817710610000092
表示对象zi处的概率密度函数,rd表示邻域半径,其数值是N个对象的平均距离度量。
邻域半径rd通过下式5计算:
Figure BDA0001817710610000093
其中,FEC(zi,zj)表示对象zi,zj之间的相似度,N为大于1的整数。显然,zi与其他元素的紧密度越大,邻域半径越小,相对应的概率密度函数值越大。
3)得到初始聚类中心:令
Figure BDA0001817710610000094
设为第k个聚类中心点
Figure BDA0001817710610000095
更新概率密度函数,更新后的概率密度函数通过下式6计算:
Figure BDA0001817710610000096
基于初始的聚类中心,采用FCM算法不断更新聚类中心和隶属度进而实现蛋白质功能模块挖掘。
聚类中心和隶属度的迭代更新表达式分别如下式7和下式8所示:
Figure BDA0001817710610000097
Figure BDA0001817710610000098
其中,xi表示第i个数据点,cj表示第j个聚类中心,ck表示第k个聚类中心,m表示控制算法的柔性的参数,根据具体设定,C表示聚类数目,大于1;
Figure BDA0001817710610000099
时,迭代停止,其中k表示迭代次数,ε表示一个较小的阈值,J表示目标函数。
(四)过滤蛋白质相互作用功能模块:
利用期望稠密度融合边聚集系数的边期望稠密度来过滤挖掘出的蛋白质功能模块,避免重复划分以及提高预测的准确率。假设不确定图G=(V,E,P)中存在的子图F=(V”,E”,P”),其中
Figure BDA0001817710610000101
P(e)=ECC(e)表示边e存在的概率,则子图F在G中的边期望稠密度可定义为下式9:
Figure BDA0001817710610000102
其中,V”子图中节点的集合,E”表示子图中边的集合。
当所有的蛋白质功能模块都过滤完毕,对挖掘出的蛋白质功能模块进行实验对比分析。本公开优选EDD优化策略对挖掘出的蛋白质相互作用功能模块进行过滤,将低于EDD阈值T的功能模块过滤掉,避免重复划分,提高算法的预测率。优选的,阈值T设置为0.1。
综上所述,基于模糊谱聚类的不确定PPI网络的功能模块挖掘方法可以用如图2所示的流程图表示:首先,利用边聚集系数进行不确定蛋白质相互作用网络图的构建;接着在各个蛋白质相互作用网络图中采用改进相似度度量的谱聚类算法对数据进行预处理;其次采用DPCS优化初始聚类中心选取的FCM算法实现功能模块挖掘聚类;为避免重复挖掘聚类功能模块,采用边期望稠密度来过滤模块,最终输出预测挖掘出的蛋白质相互作用功能模块
为了验证方法FSC-FM的有效性和相比于其他方法的性能优越性,将FSC-FM方法应用于酵母蛋白质组学数据和DIP数据库中的酵母蛋白质相互作用网络,并与CDUN、DCU、EA和MGPPA这四种方法在挖掘的蛋白质功能模块的生物功能富集、功能模块挖掘灵敏度和特异性以及执行效率等方面进行了比较。具体验证过程如下:
1)生物功能富集比较
采用功能富集分析评价功能模块的统计和生物特性。低值的P-value表示相应的功能模块具有很高的统计学意义,一般将P-value的最小值对应的功能作为该功能模块的主要功能,通过给每个挖掘的功能模块赋予最小的P-value值对应的功能,可以识别预测的功能模块的功能。若一个模块的P-value<0.01,则认为这个模块是显著的。显著的功能模块数量在挖掘出的功能模块总数中所占的比例可以很好地评价上述各个算法的整体性能。具体各个算法性能比较分析如下表1所示:
表1各个算法挖掘的功能模块的显著性统计信息
Figure BDA0001817710610000111
注:PM表示各算法挖掘出的功能模块总数,SC表示具有显著意义的功能模块数目,Proportion表示具有显著意义的功能模块所占比例。
FSC-FM算法挖掘出的功能模块数目中显著性模块的比例达到83.20%,相比较CDUN,DCU,EA和MGPPA算法分别提高了66.4%、26.54%、51.19%、63.62%。由此可见,FSC-FM算法挖掘的功能模块具有很强的生物统计学意义。为了更加深入的分析,对各个算法预测得到的功能模块根据P-value区间值进行对比,可分为四个区间,即(0,E-30)、[E-30,E-15)、[E-15,E-10)、[E-10,0.01)。图3显示了分区间对比情况。FSC-FM算法挖掘的功能模块中,P-value<E-10的模块显著性比例最高,达到了58.51%,相比较其他算法的比例分别是48.32%、55.23%、52.06%、50.17%。根据表1显著性比例和图3 P-value分析,可以得出结论,FSC-FM算法挖掘的功能模块具有很强的生物统计意义。
2)灵敏度和特异性比较
比较各个算法在蛋白质功能模块挖掘的灵敏度和特异性方面的优劣。将FSC-FM方法与其他4种方法独立运行20次,取实验结果的平均值进行分析,得到各个方法挖掘的功能模块基本信息和实验评价指标对比分析,如表2所示:
表2各算法挖掘的功能模块基本信息
Figure BDA0001817710610000112
注:PM表示各算法挖掘出的功能模块总数,TP表示挖掘的功能模块中匹配的功能模块数量,Full表示被完全匹配的功能模块数量。
由表2可以知道,FSC-FM算法挖掘的功能模块中有254个被匹配,在所有算法中匹配数量最多,在挖掘蛋白质功能模块的各算法中具有更高的效率。
如图4所示为各算法在DIP数据集中识别的功能模块计算的灵敏度Sn、特异性Sp和F-measure对比分析。图4表明,FSC-FM算法具有较高的F-measure值,以及较高的灵敏度和特异性,其中,F-measure值相比较CDUN,DCU,EA和MGPPA算法分别提高了192.37%,27.92%,82.98%,182.23%。
在本公开的一个可选实施方式中,采用5种方法挖掘功能模块Elongatorholoenzyme,如图5所示,为5种方法检测到的Elongator holoenzyme模块的结果,它真实存在与酵母细胞中。图5(a)是Elongator holoenzyme标准模块所包含的蛋白质相互作用情况;图5(b)是本公开的FSC-FM算法的检测结果;图5(c)是CDUN算法的检测结果;图5(d)是DCU算法的检测结果;图5(e)是EA算法的检测结果;图5(f)是算法MGPPA算法的检测结果。从图5分析可知,本公开技术方案能够准确地挖掘蛋白质功能模块;CDUN算法识别出标准复合物中的6个蛋白质,但是也包含了4个非Elongator holoenzyme模块内的蛋白质;DCU算法识别出标准模块中的6个蛋白质,但是也包含了1个非Elongator holoenzyme模块内的蛋白质;EA算法识别出标准模块中的6个蛋白质,但是也包含了2个非Elongator holoenzyme模块内的蛋白质;MGPPA算法识别出标准模块中的5个蛋白质。由此可见,本公开识别的功能模块中识别正确的部分所占比例较高,特异性和灵敏度较高,故本公开取得了较好的优化效率。
3)执行效率比较
对比分析蛋白质功能模块挖掘的执行效率来进一步验证本公开的FSC-FM方法的有效性。为进一步分析比较执行效率,将FSC-FM方法与CDUN、DCU、EA和MGPPA方法在各自方法的优化参数之下,在DIP数据库上运行20次,取实验的平均值来比较分析,得到各个方法的平均运行效率,对比结果如下表3所示:
表3算法FSC-FM和其他四种算法效率分析
Figure BDA0001817710610000131
注:模块数量是指算法挖掘的模块规模大于3的蛋白质数目,匹配率是指挖掘的蛋白质和标准模块匹配的数目比例。
通过表3分析可知,本公开的FSC-FM方法挖掘蛋白质功能模块的时间相对较少,实验运行的时间复杂度较低,是508.25s,而其他4种方法的平均运行时间都超过了600s,由此可见,本公开可以应用于相对规模较大的不确定PPI网络,进而挖掘蛋白质功能模块。这主要是因为,本公开技术方案在不确定PPI网络的基础上,使用改进相似度度量的谱聚类算法以及融合优化初始聚类中心选取的FCM算法来挖掘蛋白质功能模块,进而采用不确定PPI网络拓扑特性的边期望稠密度来过滤模块,因此,本公开的FSC-FM方法在挖掘蛋白质功能模块上具有很好的运行效率。
综上所述,本公开的基于模糊谱聚类的不确定PPI网络功能模块挖掘方法,实用简便,与已有的基于不确定蛋白质相互作用网络的功能模块挖掘方法相比较,本公开技术方案在预测蛋白质功能模块的准确性以及与标准蛋白质模块匹配的敏感度、特异性以及执行效率等方面均具有明显优势,能为生物学家进行蛋白质功能模块的挖掘和进一步研究提供有价值的参考信息。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种基于模糊谱聚类的不确定PPI网络功能模块挖掘方法,其特征在于,包括以下步骤:
构建不确定蛋白质相互作用网络图:去掉蛋白质相互作用数据中的重复相互作用和自相互作用,根据蛋白质相互作用网络图中连接每条边的两个节点的公共邻居节点数,以及所述两个节点度的最小值,利用边聚集系数来测度每一组相互作用,从而构建不确定蛋白质相互作用网络图;
预处理蛋白质相互作用数据:利用流行距离和蛋白质网络的拓扑特性来改进谱聚类算法的相似度度量,分别计算在所述网络图中的节点之间的相似度,形成相似度矩阵,进而采用谱聚类算法完成对所述蛋白质相互作用数据的预处理;
挖掘蛋白质相互作用功能模块:采用DPCS策略选取初始聚类中心,基于所述初始聚类中心,采用模糊C-均值算法不断更新聚类中心和隶属度,进而实现蛋白质相互作用功能模块的挖掘;其中,所述DPCS策略是基于密度的概率中心选取策略;
过滤所述蛋白质相互作用功能模块:利用期望稠密度融合边聚集系数的边期望稠密度来过滤挖掘出的所述蛋白质相互作用功能模块;以及
输出结果:输出预测挖掘出的蛋白质相互作用功能模块。
2.根据权利要求1所述的方法,其特征在于,所述边聚集系数通过下式1计算:
Figure FDA0002644507360000011
其中,ECC表示边聚集系数,Hc表示节点u和v的公共邻居节点,du和dv分别代表u节点和v节点的度。
3.根据权利要求1或2所述的方法,其特征在于,所述流行距离的计算公式如下式2所示:
Figure FDA0002644507360000021
其中,FD(b0,bs)表示不确定图上任意两个节点b0,bs之间的流行距离,Ros表示不确定图上连接两个节点的全部可能的到达路径集合,d(bk,bk+1)表示节点b0和bs间的欧氏距离,0≤k≤s,ρ(ρ>1)表示伸缩因子。
4.根据权利要求3所述的方法,其特征在于,
所述相似度用下式3计算:
FEC(bi,bj)=ECC(bi,bj)×FD(bi,bj) 式3
其中,FEC(bi,bj)表示任意两个节点bi,bj之间的相似度,ECC(bi,bj)表示节点bi,bj的边聚集系数,FD(bi,bj)表示节点bi,bj之间的流行距离。
5.根据权利要求1所述的方法,其特征在于,采用DPCS策略选取初始聚类中心的步骤包括:
计算数据节点之间的相似度;
基于所述相似度计算样本的概率密度函数;
基于所述概率密度函数获取初始聚类中心。
6.根据权利要求5所述的方法,其特征在于,
所述概率密度函数通过下式4计算:
Figure FDA0002644507360000022
其中,
Figure FDA0002644507360000023
表示对象zi处的概率密度函数,rd表示邻域半径,rd的数值是N个对象的平均距离度量;
所述邻域半径通过下式5计算:
Figure FDA0002644507360000024
其中,FEC(zi,zj)表示对象zi,zj之间的相似度。
7.根据权利要求6所述的方法,其特征在于,
Figure FDA0002644507360000031
设为第k个聚类中心点
Figure FDA0002644507360000032
更新所述概率密度函数,更新后的所述概率密度函数通过下式6计算:
Figure FDA0002644507360000033
其中,ck表示第k个聚类中心。
8.根据权利要求7所述的方法,其特征在于,
所述聚类中心和隶属度的迭代更新表达式分别如下式7和下式8所示:
Figure FDA0002644507360000034
Figure FDA0002644507360000035
其中,xi表示第i个数据点,cj表示第j个聚类中心,m表示控制算法的柔性参数,C表示聚类数目;
Figure FDA0002644507360000036
时,迭代停止,其中k表示迭代次数,ε表示一个较小的阈值,J表示目标函数。
9.根据权利要求1所述的方法,其特征在于,
假设不确定图G=(V,E,P)中存在的子图F=(V”,E”,P”),其中
Figure FDA0002644507360000037
P(e)=ECC(e)表示边e存在的概率,则子图F在不确定图G中的边期望稠密度EDD表示为下式9:
Figure FDA0002644507360000038
其中,V”子图中节点的集合,E”表示子图中边的集合。
10.根据权利要求1所述的方法,其特征在于,利用所述边期望稠密度来过滤挖掘出的所述蛋白质相互作用功能模块,是指将低于所述边期望稠密度的阈值T的功能模块过滤掉。
CN201811149953.9A 2018-09-29 2018-09-29 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法 Active CN109545275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811149953.9A CN109545275B (zh) 2018-09-29 2018-09-29 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811149953.9A CN109545275B (zh) 2018-09-29 2018-09-29 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法

Publications (2)

Publication Number Publication Date
CN109545275A CN109545275A (zh) 2019-03-29
CN109545275B true CN109545275B (zh) 2020-11-10

Family

ID=65843359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811149953.9A Active CN109545275B (zh) 2018-09-29 2018-09-29 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法

Country Status (1)

Country Link
CN (1) CN109545275B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128301A (zh) * 2019-12-06 2020-05-08 北部湾大学 一种基于模糊聚类的重叠蛋白质复合物识别方法
CN113470739B (zh) * 2021-07-03 2023-04-18 中国科学院新疆理化技术研究所 一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统
CN113518009B (zh) * 2021-07-12 2023-07-21 山东建筑大学 一种基于不确定图的水声通信路由转发方法
CN115497555B (zh) * 2022-08-16 2024-01-05 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多物种蛋白质功能预测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590039A (zh) * 2015-03-05 2016-05-18 华中师范大学 一种基于bso优化的蛋白质复合物识别方法
CN106960134A (zh) * 2017-03-23 2017-07-18 江南大学 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法
CN107704578A (zh) * 2017-09-30 2018-02-16 桂林电子科技大学 一种面向ppi网络比对的图匹配约束求解符号方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645339B2 (en) * 2011-11-11 2014-02-04 International Business Machines Corporation Method and system for managing and querying large graphs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590039A (zh) * 2015-03-05 2016-05-18 华中师范大学 一种基于bso优化的蛋白质复合物识别方法
CN106960134A (zh) * 2017-03-23 2017-07-18 江南大学 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法
CN107704578A (zh) * 2017-09-30 2018-02-16 桂林电子科技大学 一种面向ppi网络比对的图匹配约束求解符号方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A New Method for Identifying Essential Proteins Based on Edge Clustering Coefficient;Huan Wang 等;《ISBRA"11: Proceedings of the 7th international conference on Bioinformatics research and applications》;20110531;87-98 *
一种基于流形距离核的谱聚类算法;陶新民 等;《信息与控制》;20120615;第41卷(第3期);307-313 *
基于不确定PPI网络的功能模块挖掘;孟雅;《计算机应用研究》;20111215;第28卷(第12期);4481-4484,4491 *

Also Published As

Publication number Publication date
CN109545275A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109545275B (zh) 基于模糊谱聚类的不确定ppi网络功能模块挖掘方法
Li et al. Interaction graph mining for protein complexes using local clique merging
Choi et al. Learning latent tree graphical models
CN111651545A (zh) 一种基于多源数据融合的城市边缘区提取方法
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
Masciari et al. Analysing microarray expression data through effective clustering
CN112182306A (zh) 一种基于不确定图的社区发现方法
CN109002858A (zh) 一种用于用户行为分析的基于证据推理的集成聚类方法
Wind et al. Link prediction in weighted networks
CN108388769B (zh) 基于边驱动的标签传播算法的蛋白质功能模块识别方法
Wang et al. A neighborhood-based three-stage hierarchical clustering algorithm
Ferguson et al. Theoretical analysis and computation of the sample Frechet mean for sets of large graphs based on spectral information
Choi et al. Learning latent tree graphical models
Jiang et al. Towards interactive exploration of gene expression patterns
Vandaele et al. Mining topological structure in graphs through forest representations
Wu et al. Algorithms for detecting protein complexes in PPI networks: an evaluation study
Fa et al. Parametric validity index of clustering for microarray gene expression data
Mao et al. Functional module mining in uncertain PPI network based on fuzzy spectral clustering
CN111709846A (zh) 基于线图的局部社区发现算法
Ivazeh et al. Performance evaluation measures for protein complex prediction
Jha et al. Multiple Hypothesis Testing To Estimate The Number of Communities in Sparse Stochastic Block Models
Chunhao et al. Reverse-Nearest-Neighbor-Based Clustering by Fast Search and Find of Density Peaks
Peng et al. A scalable community detection algorithm for large graphs using stochastic block models
Li et al. An adaptive clustering algorithm based on boundary detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant