CN106228036A - 一种采用烟花算法识别蛋白质复合物的方法 - Google Patents

一种采用烟花算法识别蛋白质复合物的方法 Download PDF

Info

Publication number
CN106228036A
CN106228036A CN201610596280.6A CN201610596280A CN106228036A CN 106228036 A CN106228036 A CN 106228036A CN 201610596280 A CN201610596280 A CN 201610596280A CN 106228036 A CN106228036 A CN 106228036A
Authority
CN
China
Prior art keywords
protein
node
fireworks
formula
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610596280.6A
Other languages
English (en)
Other versions
CN106228036B (zh
Inventor
雷秀娟
王飞
程适
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201610596280.6A priority Critical patent/CN106228036B/zh
Publication of CN106228036A publication Critical patent/CN106228036A/zh
Application granted granted Critical
Publication of CN106228036B publication Critical patent/CN106228036B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种采用烟花算法识别蛋白质复合物的方法,由如下步骤组成:将蛋白质相互作用网络转化为无向图、对蛋白质相互作用网络边和结点预处理、构建动态蛋白质相互作用网络、设置参数、初始化烟花的位置、模拟烟花爆炸产生火花、从火花中选择部分较好的点作为烟花、所有烟花组成一个类、过滤不好的类、输出最终得到的类。该方法考虑了蛋白质网络的动态性、蛋白质复合物内部核心‑附件结构以及蛋白质相互作用网络的局部性和全局性,能准确地识别蛋白质复合物。仿真实验结果表明,正确率、查全率等指标性能较优。与其他聚类方法相比,结合蛋白质相互作用网络和蛋白质复合物特性,实现蛋白质复合物识别过程,提高了蛋白质复合物的识别准确率。

Description

一种采用烟花算法识别蛋白质复合物的方法
技术领域
本发明属于生物信息领域,涉及一种动态蛋白质相互作用网络中蛋白质复合物的识别方法,具体涉及一种采用烟花算法识别蛋白质复合物的方法。
背景技术
随着人类基因组计划以及多物种基因组测序工作的完成,蛋白质组学(Proteomics)的研究拉开了序幕。蛋白质是生命体内不可或缺的一种组成成分,是保证生命活动正常进行的重要参与者,而蛋白质组学正是研究蛋白质的功能、结构以及蛋白质之间的相互作用,以便完整描述整个生命周期中的所有蛋白质。细胞中的每一个蛋白质都不是孤立存在的,每一项生命活动从开始到结束都会涉及到多个蛋白质,这些蛋白质通过相互作用连在一起共同完成一项生命活动。蛋白质的相互作用也是生命活动得到精确执行的保证,例如生命体的新陈代谢、细胞分裂、神经传导等。在生命活动中,有些蛋白质的相互作用是同时发生的,而有些则是以一定顺序依次发生的。蛋白质相互作用网络(ProteinProtein Interaction Networks)就是细胞中所有相互作用的集合,网络是我们研究生命活动内在规律、探索生命微观未知领域的基础。
近年来的研究发现,大规模的复杂的蛋白质相互作用网络有着明显的模块化结构特征,构成蛋白质相互作用网络的模块的内部在功能和拓扑上也存在着相互联系。所以从蛋白质相互作用网络中挖掘出蛋白质功能模块(Protein Functional Modules),对揭示蛋白质功能和解释特定的生命活动过程具有十分重要的意义。近几年来,在蛋白质相互作用网络以及蛋白质功能模块挖掘方面的研究成为生命科学的研究热点,已有很多学者提出了一系列基于相互作用网络进行蛋白质功能模块挖掘的算法。此外,目前研究人员往往对蛋白质复合物和功能模块等同看待。
在蛋白质相互作用网络中,蛋白质功能模块在结构上就比较特殊。研究人员对此有着不同的理解,提出了簇、稠密子图等理论。其中,簇属于稠密子图的一种特殊情况。之所以把簇看成是稠密子图的一种特殊情况,是因为很多计算方法会把簇当成功能模块的一个组成部分。
一方面,簇常被用作功能模块的组成部分。Spirin和Mirny提出了三种方法来识别蛋白质功能模块。第一种方法通过枚举网络中的所有全连通子图来进行挖掘工作,然而由于蛋白质相互作用数据的不完整,这种方法有很大的局限性。因此两位作者提出的第二种方法是给网络中的每一个点指定一个自旋参数,每个点的自旋参数都可能有好几种状态,若一条相互作用两端的点的自旋参数处于相同的状态,则这两个点的能量最小。该方法的思想是高度连接的子图的自旋参数以一种相关的方式在波动,通过检测点的自旋参数,这种方法可以识别出网络中高连接子图的点。第三种方法是将识别子图描述为一个最优化问题:找出一些点使得子图的密度最大化。
还有一种情况是将簇看成一个新图的组成部分。Palla和Adamcsek等人提出的CFinder算法正是基于此。算法首先检测出网络中全部的K-簇。K-簇是指包含K个顶点的簇。如果两个K-簇有K-1个公共结点,那么就称这两个K-簇是邻接的。K-簇连通图是指将K-簇看成结点,将两个K-簇的邻接关系看成边,从而构成的一个图。对于其中的一些簇,如果它们任意之间都是连通的或者可以通过其他簇连接起来,那么算法就把这些簇看成一个功能模块。该算法的性能受K的取值影响较大,若K的取值较大,那么将产生较少的邻接关系,从而会得到规模较小的功能模块。
另一方面,很多算法通过发现网络中的稠密子图来挖掘功能模块。这是因为功能模块内部的蛋白为往往具有更强的联系,而模块间蛋白质的联系较弱。但是稠密子图并没有一个普适的定义,研究人员一般将它定义为网络中连接较紧密的一组点集。研究人员提出了基于成本的方法、随机方法等方法来发现蛋白质相互作用网络中的稠密子图。
对于基于成本的方法,都会设定一个成本函数。King等人提出的RNSC(RestrictedNeighborhood Search Clustering,受限邻居搜索聚类)算法就是一种典型的算法。成本函数是结点的无效连接数。算法首先将网络划分为k个独立的子图,通过不断地将一个子图中的结点移动到另一个子图中来降低成本函数值。当函数值达到给定阈值或者函数值无法继续降低时,算法终止。
对于随机方法,一个典型的例子就是MCL(Markov Clustering,马尔可夫聚类)算法。Van Dongen通过模拟图中的随机流将MCL算法用于解决聚类问题。算法输入的是一个状态转移概率矩阵,经过两步运算,仍然得到一个状态转移概率矩阵。通过对这个矩阵的运算,最终可以得到一个体现聚类结果的矩阵,矩阵中大部分元素为零或接近于零,而取值较大的元素组成了一个个类。Satuluri等人提出了一种改进型的R-MCL算法并使它更适用于挖掘蛋白质功能模块。
上述聚类方法的缺陷在于没有考虑到蛋白质相互作用网络的动态性,不能同时考虑到整个蛋白质相互作用网络的全局特性和局部特性以及蛋白质复合物的内部结构,蛋白质复合物识别的准确率低。
发明内容
本发明要解决的技术问题在于克服上述蛋白质复合物识别方法的缺点,提供了一种模拟烟花爆炸的现象,准确度高、能真实地模拟蛋白质相互作用网络的动态性,采用烟花算法识别蛋白质复合物的方法。
解决上述技术问题所采用的技术方案由下述步骤组成:
一种采用烟花算法识别蛋白质复合物的方法,包括以下步骤:
(1)将蛋白质相互作用网络转化为无向图
将最初得到的蛋白质相互作用网络转化成一个无向图,该无向图可用G=(V,E)表示,其中,V为所有蛋白质结点的集合,E为所有蛋白质相互作用边的集合;
(2)对无向图中的边和结点进行预处理
对点集V进行预处理:计算点集中每个结点vi的聚集系数和度,结点的度是每个结点的邻居结点的数目,结点的聚集系数可由式(1)计算得出:
式中kv是结点vi的度,nv是结点vi的kv个邻居结点相互之间的边的个数;
边的聚集系数可由式(2)计算得到:
式中,Z(vi,vj)表示包含结点vi与vj的三角形个数,即两个结点的公共邻居结点的数目,di,dj分别是结点vi,vj的度;
边的皮尔森相关系数可由式(3)计算得到:
式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;
(3)构建动态蛋白质相互作用网络
在时间点t时,蛋白质vx的基因表达值xi若大于基因表达阈值AT(i),则认为蛋白质vx在时间点t具有活性;一条边两端的两个蛋白质vx,vy都在时间点t具有活性,则这条边是构成动态蛋白质相互作用网络的一条边,在时间点t存在于网络当中;
通过对每个蛋白质结点都进行上述处理,再每个时间点都可以得到在该时间具有活性的蛋白质结点及边,这些结点和边在每个时间点都构成了一个子网,由全部时间点的子网所构成的一个网络就是动态蛋白质相互作用网络;
(4)初始化参数
令t,T分别表示当前的时间点和最大时间点,t=1;firework表示烟花结点,spark表示火花结点,fc表示一个蛋白质簇,簇的密度阈值th_core=0.7,重叠度阈值为th_os,past表示已经聚类的结点集合,temp表示剩余未聚类的结点集合,cluster是最终聚类得到的蛋白质复合物,t=1时,temp=V,cluster和past均为空集;
(5)初始化烟花的位置
对剩余未聚类的结点集合temp中的结点先按照点的聚集系数和度进行降序排序,其中值最大的结点作为一个初代烟花firework;
(6)模拟烟花爆炸产生火花
在蛋白质相互作用网络中,由烟花结点firework起,模拟烟花爆炸,经由连接烟花的相互作用向外扩散,所有与烟花相连的结点均为由它爆炸产生的火花spark;
(7)从火花中选择部分较好的点作为烟花
对于由烟花爆炸产生的火花spark,逐个将火花加入烟花所在的簇fc中,若加入后的簇的密度大于阈值th_core,则将此火花转换为烟花,并保存在簇中,否则将它从簇中删除,在将所有火花遍历一遍后,簇中的所有结点成为新一代烟花firework;
(8)所有烟花组成一个类
将簇fc中的结点从temp中删除,将fc归到cluster中,若temp为空集,则转到步骤(9),若temp不为空,则转到步骤(6);
(9)过滤不好的类
确定所有时间点产生的蛋白质复合物之间的重叠度OS,合并重叠度大于重叠度阈值th_os的蛋白质复合物,并删除cluster中只包含一个蛋白质结点的蛋白质复合物;
(10)输出得到的类
将最终的蛋白质复合物cluster输出,cluster中的每个元素均为一个蛋白质复合物,每个蛋白质复合物至少包含两个蛋白质,所有这些蛋白质复合物即为聚类结果。
进一步,所述的步骤(3)中基因表达阈值AT(i)由式(4)得到:
AT(i)=μ(i)+3σ(i)(1-F(i) 式(4)
式中μ(i)是蛋白质vi平均基因表达值,σ(i)是基因表达值的标准差,F(i)=1/(1+σ2(i))是权函数。
进一步,所述的步骤(7)中簇的密度由式(5)得到:
式中e是子图中的边数,n是子图中的顶点数。
进一步,所述的步骤(9)中蛋白质复合物之间的重叠度OS由式(7)得到:
式中,CA,CB分别表示蛋白质复合物A和蛋白质复合物B中顶点的集合。
本发明与现有的方法相比,具有以下优点:
1、本发明基于烟花算法优秀的爆炸聚类性能,根据蛋白质之间联系的紧密程度,通过烟花爆炸形式选择紧密蛋白质聚成一类。通过这种方法识别出来的蛋白质复合物与标准库相近,经实际数据验证,采用本发明方法识别出蛋白质复合物的准确度要比目前采用其它蛋白质复合物识别方法要高。
2、采用本发明的聚类结果能够有效地识别出具有重叠部分的蛋白质复合物,使得研究人员深入了解重叠部分蛋白质的作用,并探究不同蛋白质复合物功能之间的联系,为研究疾病机理及治疗方法提供了理论基础
3、本发明能够从包含大量噪声数据的蛋白质相互作用数据中提取出准确性很高的蛋白质复合物,剔除干扰得到的复合物具有很大的生物意义,对研究人员理解生物进程原理、研究生物功能具有重要意义。
附图说明
图1是本发明的工艺流程模型图。
具体实施方式
以下结合附图和实施例子对本发明进一步详细说明,但本发明不限于这些实施例子。
如图1所示,本发明的采用烟花算法识别蛋白质复合物的方法,包括以下步骤:
(1)将蛋白质相互作用网络转化为无向图
将蛋白质相互作用网络转化成无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连,则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,…,n,j=1,2,…,n;
(2)对蛋白质相互作用网络中的边和结点的预处理
对结点vi预处理:计算结点vi的聚集系数和度,度是与结点vi相邻的结点的个数,按式(1)计算结点vi的聚集系数:
式中Kv是点vi的度,nv是点vi的Kv个邻居结点间的边的个数;
按式(2)计算边的聚集系数:
式中,z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是点vi,vj的度;
按式(3)计算边的皮尔森相关系数:
式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;
(3)构建动态蛋白质相互作用网络
在时间点t时,蛋白质vi的基因表达值GEit若大于基因表达阈值AT(i),则被认为蛋白质vi在时间点t具有活性;若边eij∈E,GEit≥AT(i),GEjt≥AT(j),则边eij在时间点t是存在于网络中,同理,边所连接的蛋白质也存在于网络中;
通过上述处理,由全部时间点的子网所构成的一个网络就是动态蛋白质相互作用网络;
基因表达阈值AT(i)由式(4)得到:
AT(i)=μ(i)+3σ(i)(1-F(i) 式(4)
式中μ(i)是蛋白质vi平均基因表达值,σ(i)是基因表达值的标准差,F(i)=1/(1+σ2(i))是权函数;
(4)初始化参数
令t,T分别表示当前的时间点和最大时间点,t=1;firework表示烟花结点,spark表示火花结点,fc表示一个蛋白质簇,簇的密度阈值th_core=0.7,重叠度阈值为th_os,past表示已经聚类的结点集合,temp表示剩余未聚类的结点集合,cluster是最终聚出来的蛋白质复合物;
(5)初始化烟花的位置
对剩余未聚类的结点集合temp中的结点先按照点的聚集系数和度进行降序排序,其中值最大的结点作为一个初代烟花;
(6)模拟烟花爆炸产生火花
在蛋白质相互作用网络中,由烟花结点起,模拟烟花爆炸,经由连接烟花的相互作用向外扩散,所有与烟花相连的结点均为由它爆炸产生的火花;
(7)从火花中选择部分较好的点作为烟花
对于由烟花爆炸产生的火花,逐个将火花加入烟花所在的簇fc中,若加入后的簇的密度大于阈值th_core,则将此火花转换为烟花,并保存在簇中,否则将它从簇中删除,在将所有火花遍历一遍后,簇中的所有结点成为新一代烟花;
簇的密度由式(5)得到:
式中e是子图中的边数,n是子图中的顶点数;
(8)所有烟花组成一个类
将簇fc中的结点从temp中删除,将fc归到cluster中,若temp为空集,则转到步骤(9),若temp不为空,则转到步骤(6);
(9)过滤不好的类
确定所有时间点产生的蛋白质复合物之间的重叠度OS,合并重叠度大于重叠度阈值th_os的蛋白质复合物,删除cluster中只有一个蛋白质的复合物;
蛋白质复合物之间的重叠度OS由式(7)得到:
式中,CA,CB分别表示蛋白质复合物A和蛋白质复合物B中顶点的集合;
(10)输出得到的类
将最终的蛋白质复合物cluster输出,即为聚类结果。
以12个动态蛋白质网络为例采用烟花算法识别蛋白质复合物的方法步骤如下:
本实施例以采自DIP数据库的酵母数据集(DIP 20140427版)作为仿真数据集,DIP数据包含了4995个蛋白质和21554个相互作用关系。基因表达数据集采自GEO数据库中的酵母新陈代谢表达数据集GSE3431,其中包括6777个基因,3个周期共36个时间点的基因值,覆盖了DIP中的95%的蛋白质。采用基因表达值创建12个动态蛋白质相互作用网络。实验平台为Windows 10操作系统,Intel酷睿2双核3.1GHz处理器,4GB物理内存,用Matlab R2015b软件实现本发明的FWAC方法。
1、将蛋白质相互作用网络转化为无向图
将包含4995个蛋白质和21554个相互作用关系的蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,4995}为结点vi的集合,E为21554个边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,…,4995,j=1,2,…,4995。
2、对蛋白质相互作用网络边和结点的预处理
对结点vi预处理:i=1,2,…,4995,每给定一个确定的i,可计算出4995个聚集系数和度,度是与结点vi相邻的结点的个数,按式(1)计算结点vi的聚集系数:
式中Kv是点vi的度,nv是点vi的Kv个邻居结点间的边的个数;按(2)计算边的聚集系数:
式中,z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是点vi,vj的度;按式(3)计算边的皮尔森相关系数:
式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值12。
3、构建动态蛋白质相互作用网络
在时间点t时,蛋白质vi的基因表达值GEit若大于基因表达阈值AT(i),则被认为蛋白质vi在时间点t具有活性;若边eij∈E,GEit≥AT(i),GEjt≥AT(j),则边eij为时间点t的边,对应的蛋白为活性蛋白质,基因表达阈值AT(i)由式(4)得到:
AT(i)=μ(i)+3σ(i)(1-F(i) 式(4)
式中μ(i)是蛋白质vi基因表达值,σ(i)是基因表达值的标准差,F(i)=1/(1+σ2(i))是权函数。
通过上述处理,在时间点t的动态网络G(t)=(V(t),E(t)),t=1,…,12,其中V表示全体蛋白质结点,E(t)在时间点t时出现的边;eij∈E,GEit≥AT(i),GEjt≥AT(j)。整个网络被分成12个动态蛋白质的子网。
4、初始化参数
令t和T分别表示当前的时间点和最大时间点,t=1,T=12;firework表示烟花结点,spark表示火花结点,fc表示一个蛋白质簇,簇的密度阈值th_core=0.7,重叠度阈值为th_os,past表示已经聚类的结点集合,past_num表示已聚类结点的计数器,temp表示剩余未聚类的结点集合,并令temp=V(t),temp_num表示未聚类结点的计数器,cluster是最终聚出来的蛋白质复合物,c_num表示复合物数目的计数器;
5、初始化烟花的位置
对temp中的结点先按照点的聚集系数和度进行降序排序,其中值最大的结点temp(1)就作为一个初代烟花,firework=temp(1)。
6、模拟烟花爆炸产生火花
在蛋白质相互作用网络中,由烟花结点firework起,模拟烟花爆炸,经由连接烟花的相互作用向外扩散,所有与烟花相连且存在于temp中的结点均为由它爆炸产生的火花,并将火花保存在spark中;
7、从火花中选择部分较好的点作为烟花
对于由烟花爆炸产生的火花spark,将其中点按聚集系数降序排列,从spark(1)起逐个将火花加入烟花所在的簇fc中,若加入后的簇的密度大于阈值th_core,则将此火花转换为烟花并保存在firework以及fc中,否则将它丢弃,在将spark中所有结点遍历一遍后,簇fc中剩下的所有结点成为新一代烟花;
8、所有烟花组成一个类
将簇fc中的结点从temp中删除,将fc归到cluster中,若删除后temp为空集,则转到步骤(9),若temp不为空,则转到步骤(6);
9、过滤不好的类
确定所有时间点产生的蛋白质复合物之间的重叠度OS,合并重叠度大于重叠度阈值th_os的蛋白质复合物,删除cluster中只有一个蛋白质的复合物;
10、输出得到的类
将最终的cluster输出,即为聚类结果。
为了验证本发明的有益效果,发明人采用本发明实施例1烟花聚类算法(FWC)的蛋白质复合物识别方法对DIP数据库中的蛋白质网络进行蛋白质复合物的识别,共识别出1588个蛋白质复合物,结果见表2、表3,表2中选取了5个蛋白质复合物中正确和错误的蛋白质以及对应的标准库中的蛋白质进行分析。
表2本发明识别的蛋白质复合物中正确的和错误的蛋白质
表2显示了本发明识别出的结果中的5个蛋白质复合物中正确和错误的蛋白质以及对应的标准库中的蛋白质复合物,对于蛋白质复合物“ESCRT IIcomplex”,“tRNA-intronendonuclease complex”和“Sac3p/Thp1p complex”,算法能给完全正确地识别出标准库中的蛋白质复合物;对于蛋白质复合物“GINS complex”,算法识别的蛋白质复合物中遗漏了一个蛋白质;对于蛋白质复合物“gamma-tubulin complex”,算法少识别了一个蛋白质。由表2可以看出,本发明能有效地识别蛋白质复合物。
表3其他方法的对蛋白质复合物识别结果对比表
表3显示了本发明跟当前其他蛋白质复合物识别方法在性能上的对比。结果显示本发明无论是准确率还是查全率都比其它蛋白质复合物的性能要好。

Claims (4)

1.一种采用烟花算法识别蛋白质复合物的方法,其特征在于包括以下步骤:
(1)将蛋白质相互作用网络转化为无向图
将最初得到的蛋白质相互作用网络转化成一个无向图,该无向图可用G=(V,E)表示,其中,V为所有蛋白质结点的集合,E为所有蛋白质相互作用边的集合;
(2)对无向图中的边和结点进行预处理
对点集V进行预处理:计算点集中每个结点vi的聚集系数和度,结点的度是每个结点的邻居结点的数目,结点的聚集系数可由式(1)计算得出:
式中kv是结点vi的度,nv是结点vi的kv个邻居结点相互之间的边的个数;
边的聚集系数可由式(2)计算得到:
式中,Z(vi,vj)表示包含结点vi与vj的三角形个数,即两个结点的公共邻居结点的数目,di,dj分别是结点vi,vj的度;
边的皮尔森相关系数可由式(3)计算得到:
式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;
(3)构建动态蛋白质相互作用网络
在时间点t时,蛋白质vx的基因表达值xi若大于基因表达阈值AT(i),则认为蛋白质vx在时间点t具有活性;一条边两端的两个蛋白质vx,vy都在时间点t具有活性,则这条边是构成动态蛋白质相互作用网络的一条边,在时间点t存在于网络当中;
通过对每个蛋白质结点都进行上述处理,再每个时间点都可以得到在该时间具有活性的蛋白质结点及边,这些结点和边在每个时间点都构成了一个子网,由全部时间点的子网所构成的一个网络就是动态蛋白质相互作用网络;
(4)初始化参数
令t,T分别表示当前的时间点和最大时间点,t=1;firework表示烟花结点,spark表示火花结点,fc表示一个蛋白质簇,簇的密度阈值th_core=0.7,重叠度阈值为th_os,past表示已经聚类的结点集合,temp表示剩余未聚类的结点集合,cluster是最终聚类得到的蛋白质复合物,t=1时,temp=V,cluster和past均为空集;
(5)初始化烟花的位置
对剩余未聚类的结点集合temp中的结点先按照点的聚集系数和度进行降序排序,其中值最大的结点作为一个初代烟花firework;
(6)模拟烟花爆炸产生火花
在蛋白质相互作用网络中,由烟花结点firework起,模拟烟花爆炸,经由连接烟花的相互作用向外扩散,所有与烟花相连的结点均为由它爆炸产生的火花spark;
(7)从火花中选择部分较好的点作为烟花
对于由烟花爆炸产生的火花spark,逐个将火花加入烟花所在的簇fc中,若加入后的簇的密度大于阈值th_core,则将此火花转换为烟花,并保存在簇中,否则将它从簇中删除,在将所有火花遍历一遍后,簇中的所有结点成为新一代烟花firework;
(8)所有烟花组成一个类
将簇fc中的结点从temp中删除,将fc归到cluster中,若temp为空集,则转到步骤(9),若temp不为空,则转到步骤(6);
(9)过滤不好的类
确定所有时间点产生的蛋白质复合物之间的重叠度OS,合并重叠度大于重叠度阈值th_os的蛋白质复合物,并删除cluster中只包含一个蛋白质结点的蛋白质复合物;
(10)输出得到的类
将最终的蛋白质复合物cluster输出,cluster中的每个元素均为一个蛋白质复合物,每个蛋白质复合物至少包含两个蛋白质,所有这些蛋白质复合物即为聚类结果。
2.如权利要求1所述的采用烟花算法识别蛋白质复合物的方法,其特征在于:所述的步骤(3)中基因表达阈值AT(i)由式(4)得到:
AT(i)=μ(i)+3σ(i)(1-F(i) 式(4)
式中μ(i)是蛋白质vi平均基因表达值,σ(i)是基因表达值的标准差,F(i)=1/(1+σ2(i))是权函数。
3.根据权利要求1所述的采用烟花算法识别蛋白质复合物的方法,其特征在于:所述的步骤(7)中簇的密度由式(5)得到:
式中e是子图中的边数,n是子图中的顶点数。
4.根据权利要求1所述的采用烟花算法识别蛋白质复合物的方法,其特征在于:所述的步骤(9)中蛋白质复合物之间的重叠度OS由式(7)得到:
式中,CA,CB分别表示蛋白质复合物A和蛋白质复合物B中顶点的集合。
CN201610596280.6A 2016-07-26 2016-07-26 一种采用烟花算法识别蛋白质复合物的方法 Expired - Fee Related CN106228036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610596280.6A CN106228036B (zh) 2016-07-26 2016-07-26 一种采用烟花算法识别蛋白质复合物的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610596280.6A CN106228036B (zh) 2016-07-26 2016-07-26 一种采用烟花算法识别蛋白质复合物的方法

Publications (2)

Publication Number Publication Date
CN106228036A true CN106228036A (zh) 2016-12-14
CN106228036B CN106228036B (zh) 2019-03-26

Family

ID=57533551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610596280.6A Expired - Fee Related CN106228036B (zh) 2016-07-26 2016-07-26 一种采用烟花算法识别蛋白质复合物的方法

Country Status (1)

Country Link
CN (1) CN106228036B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009403A (zh) * 2017-11-24 2018-05-08 中国地质大学(武汉) 基于多源数据融合及多目标优化的蛋白质复合物识别方法
CN108932402A (zh) * 2018-06-27 2018-12-04 华中师范大学 一种蛋白质复合物识别方法
CN109493915A (zh) * 2018-12-12 2019-03-19 桂林电子科技大学 一种基于不确定图模型侦测蛋白质复合物的方法
CN110956223A (zh) * 2018-12-24 2020-04-03 宁波大学 一种复杂网络图的概要方法及其在蛋白质关系网中的应用
CN111402964A (zh) * 2020-03-19 2020-07-10 西南医科大学 一种基于混合烟花算法的分子构象搜索方法
CN111667886A (zh) * 2020-04-22 2020-09-15 大连理工大学 一种动态蛋白质复合物识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100799541B1 (ko) * 2006-12-04 2008-01-31 한국전자통신연구원 미지의 단백질 특성 예측 장치 및 그 방법
EP2600269A2 (en) * 2011-12-03 2013-06-05 Medeolinx, LLC Microarray sampling and network modeling for drug toxicity prediction
CN105279570A (zh) * 2015-06-19 2016-01-27 电子科技大学 一种基于烟花算法的复杂机械产品装配序列规划方法
CN105301203A (zh) * 2015-11-27 2016-02-03 中国矿业大学 一种基于烟花算法的气味源定位方法
CN105512751A (zh) * 2015-11-30 2016-04-20 国家电网公司 一种用电量的预测方法及装置
CN105607575A (zh) * 2016-01-27 2016-05-25 电子科技大学 基于fa-lssvm的数控机床主轴热漂移建模方法
CN105652952A (zh) * 2016-04-18 2016-06-08 中国矿业大学 一种基于烟花算法的光伏发电系统最大功率点跟踪方法
CN105740970A (zh) * 2016-01-22 2016-07-06 中国电力科学研究院 一种基于烟花算法的配电网重构方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100799541B1 (ko) * 2006-12-04 2008-01-31 한국전자통신연구원 미지의 단백질 특성 예측 장치 및 그 방법
EP2600269A2 (en) * 2011-12-03 2013-06-05 Medeolinx, LLC Microarray sampling and network modeling for drug toxicity prediction
CN105279570A (zh) * 2015-06-19 2016-01-27 电子科技大学 一种基于烟花算法的复杂机械产品装配序列规划方法
CN105301203A (zh) * 2015-11-27 2016-02-03 中国矿业大学 一种基于烟花算法的气味源定位方法
CN105512751A (zh) * 2015-11-30 2016-04-20 国家电网公司 一种用电量的预测方法及装置
CN105740970A (zh) * 2016-01-22 2016-07-06 中国电力科学研究院 一种基于烟花算法的配电网重构方法
CN105607575A (zh) * 2016-01-27 2016-05-25 电子科技大学 基于fa-lssvm的数控机床主轴热漂移建模方法
CN105652952A (zh) * 2016-04-18 2016-06-08 中国矿业大学 一种基于烟花算法的光伏发电系统最大功率点跟踪方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BACK T,ET AL.,: "An overview of evolutionary algorithms for parameter optimization", 《EVOLUTIONARY COMPUTATION》 *
TAN Y, ET AL.,: "Fireworks algorithm for optimization", 《INTERNATIONAL CONFERENCE IN SWARM INTELLIGENCE》 *
谭营,等;: "烟花算法研究进展", 《智能系统学报》 *
雷秀娟,等;: "蛋白质相互作用网络的蜂群信息流聚类模型与算法", 《计算机学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009403A (zh) * 2017-11-24 2018-05-08 中国地质大学(武汉) 基于多源数据融合及多目标优化的蛋白质复合物识别方法
CN108932402A (zh) * 2018-06-27 2018-12-04 华中师范大学 一种蛋白质复合物识别方法
CN109493915A (zh) * 2018-12-12 2019-03-19 桂林电子科技大学 一种基于不确定图模型侦测蛋白质复合物的方法
CN109493915B (zh) * 2018-12-12 2021-05-07 桂林电子科技大学 一种基于不确定图模型侦测蛋白质复合物的方法
CN110956223A (zh) * 2018-12-24 2020-04-03 宁波大学 一种复杂网络图的概要方法及其在蛋白质关系网中的应用
CN111402964A (zh) * 2020-03-19 2020-07-10 西南医科大学 一种基于混合烟花算法的分子构象搜索方法
CN111402964B (zh) * 2020-03-19 2023-07-25 西南医科大学 一种基于混合烟花算法的分子构象搜索方法
CN111667886A (zh) * 2020-04-22 2020-09-15 大连理工大学 一种动态蛋白质复合物识别方法
CN111667886B (zh) * 2020-04-22 2023-04-18 大连理工大学 一种动态蛋白质复合物识别方法

Also Published As

Publication number Publication date
CN106228036B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN106228036A (zh) 一种采用烟花算法识别蛋白质复合物的方法
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
CN102413029B (zh) 基于分解的局部搜索多目标复杂动态网络社区划分方法
Qiao et al. A fast parallel community discovery model on complex networks through approximate optimization
CN103761236B (zh) 一种增量式频繁模式增长数据挖掘方法
Zheng et al. Migo-nas: Towards fast and generalizable neural architecture search
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
CN105183796A (zh) 一种基于聚类的分布式链路预测方法
Botta et al. Finding network communities using modularity density
CN102890703A (zh) 一种网络异质多维标度方法
CN107784327A (zh) 一种基于gn的个性化社区发现方法
CN103838820A (zh) 基于近邻传播的进化多目标优化社区检测方法
CN105069290A (zh) 一种面向寄递数据的并行化关键节点发现方法
CN107392239A (zh) 一种基于Spark计算模型的K‑Means算法优化方法
Sardana et al. Graph clustering using mutual K-nearest neighbors
CN108614932B (zh) 基于边图的线性流重叠社区发现方法、系统及存储介质
Park et al. On the power of gradual network alignment using dual-perception similarities
CN111190711B (zh) Bdd结合启发式a*搜索的多机器人任务分配方法
CN102760085B (zh) 通信轨迹扩展方法及装置、通信轨迹驱动模拟方法及系统
CN108897820A (zh) 一种denclue算法的并行化方法
Xu et al. An improved immune evolutionary algorithm for multimodal function optimization
CN106383863A (zh) 一种同构子图查询优化方法
CN112669907A (zh) 基于分治整合策略的成对蛋白质相互作用网络比对方法
Lu et al. An island-based GA implementation for VLSI standard-cell placement
CN111339374A (zh) 一种基于加权三角密度的稠密子图抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326

Termination date: 20210726

CF01 Termination of patent right due to non-payment of annual fee