CN106991295A - 一种基于多目标优化的蛋白质网络模块挖掘方法 - Google Patents

一种基于多目标优化的蛋白质网络模块挖掘方法 Download PDF

Info

Publication number
CN106991295A
CN106991295A CN201710208877.3A CN201710208877A CN106991295A CN 106991295 A CN106991295 A CN 106991295A CN 201710208877 A CN201710208877 A CN 201710208877A CN 106991295 A CN106991295 A CN 106991295A
Authority
CN
China
Prior art keywords
protein
node
particle
module
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710208877.3A
Other languages
English (en)
Other versions
CN106991295B (zh
Inventor
张兴义
潘贺斌
张磊
张鑫
苏延森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201710208877.3A priority Critical patent/CN106991295B/zh
Publication of CN106991295A publication Critical patent/CN106991295A/zh
Application granted granted Critical
Publication of CN106991295B publication Critical patent/CN106991295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多目标优化算法的蛋白质功能模块识别方法,是将所述网络蛋白质节点判定为非重叠蛋白质节点和候选重叠蛋白质节点,通过混合编码,粒子群初始化以及粒子群进化来解决蛋白质网络功能模块挖掘问题。本发明能解决蛋白质网络功能模块组合的单一性问题,提供多种模块组合供用户选择,从而能提高功能模块挖掘的准确性与有效性。

Description

一种基于多目标优化的蛋白质网络模块挖掘方法
技术领域
本发明涉及复杂蛋白质网络功能模块识别技术领域,具体的说是一种基于多目标优化算法的蛋白质功能模块识别方法,将蛋白质网络描述为一个二元组,利用多目标优化算法的重叠社团检测算法来解决蛋白质功能模块识别。
背景技术
生物体内成千上万种蛋白质,在不同时间和不同空间阶段组成功能种类繁多的蛋白质模块,在具有生物意义的细胞功能中,蛋白质功能模块是其最基本的组成单位之一,它在结合各个基因产物的过程中起着非常重要的作用,如何从蛋白质的相互作用数据中挖掘与生物功能密切相关的蛋白质功能模块,成为人们揭开蛋白质相互作用与探测生物功能联系的重要突破口,而当前存在的方案不能有效的解决蛋白质功能模块识别问题,而且这些方案最后得到的结果单一,缺乏选择多样性,所以提出基于多目标优化算法的蛋白质功能模块识别方法,能有效的挖掘更好的蛋白质模块组合,并且能提供更多的蛋白质模块选择组合。
目前蛋白质网络功能模块识别领域中的问题包含两类研究方法:
一类研究方法是利用融合多生物数据的二分图聚类集成方法来检测网络中的功能模块,该方法结合了基因本体论(gene ontology,GO)、基因表达谱数据以及多种基础聚类算法,用一种新的二分图来组织多种基础聚类算法的中间结果,并结合对称非负矩阵分解(non-negative matrix factorization,NMF)。此类方法存在着很高的时候复杂度缺陷,随着蛋白质网络规模的增大,该类方法无法快速得多用户想要的蛋白质模块。
一类研究方法是利用以PPIN的拓扑结构为基础,根据存在相互作用的蛋白质建立邻接矩阵,利用邻接矩阵的信息采用社团检测算法来挖掘蛋白质网络里面的社团,当前有利用层次聚类的算法,也有利用单目标优化的算法。此类方法利用社团检测的算法来挖掘蛋白质网络中的模块能快速满足用户的需求,然而蛋白质网络在不同时间和不同空间阶段组成功能种类繁多的蛋白质模块,此类方法对某个蛋白质网络只能挖掘出一组蛋白质模块,无法满足用户多样的需求。
发明内容
本发明针对现有技术中的一些不足,提供一种基于多目标优化算法的蛋白质模块挖掘方法,以期能短时间内解决功能模块组合的单一性问题,提供多种蛋白质功能模块组合供用户选择,同时提高功能模块挖掘的准确性与有效性,从而满足解决实际问题的需要。
为解决上述技术问题,本发明采用如下技术方案:
本发明一种基于多目标优化的蛋白质网络的模块挖掘方法的特点是按如下步骤进行:
定义所述蛋白质网络表征为G(V,E),V={v1,v2,…,vi,…,vn}表示所述蛋白质网络中所有蛋白质节点的集合,vi表示第i个蛋白质节点;n为蛋白质节点的总数;E={eij|i=1,2,…,n;j=1,2,…,n}表示任意两个蛋白质节点之间的联系的集合;eij表示第i个蛋白质节点vi与第j个蛋白质节点vj之间的联系;若eij=1表示第i个蛋白质节点vi与第j个蛋白质节点vj之间有边相连,则称第i个蛋白质节点vi与第j个蛋白质节点vj互为邻居节点;若第k个蛋白质节点vk同时与第i个蛋白质节点vi与第j个蛋白质节点vj之间有边相连,则称第k个蛋白质节点vk是第i个蛋白质节点vi与第j个蛋白质节点vj的共同邻居;若eij=0,表示第i个蛋白质节点vi与第j个蛋白质节点vj之间无边相连,即不存在联系;
步骤1、将所述网络蛋白质节点判定为非重叠蛋白质节点和候选重叠蛋白质节点:
步骤1.1:定义第i个蛋白质节点vi的关键点记为Hi;所述关键点Hi表示第i个蛋白质节点vi的邻居节点中与vi拥有最多共同邻居的蛋白质节点;
定义第i个蛋白质节点vi的关键点Hi以及第i个蛋白质节点vi和关键点Hi之间的共同邻居所组成的蛋白质网络称为关键邻居子图;
步骤1.2:判断第i个蛋白质节点vi是否存在一个关键邻居子图,若存在,则将第i个蛋白质节点vi的第一个关键邻居子图记为Gi,1,并执行步骤1.3;否则,表示第i个蛋白质节点vi为非重叠点蛋白质节点;
步骤1.3:判断第i个蛋白质节点vi是否还存在另一个关键邻居子图,若存在,则将第i个蛋白质节点vi的第二个关键邻居子图记为Gi,2,并执行步骤1.4;否则表示第i个蛋白质节点vi为非重叠蛋白质节点;
步骤1.4:利用式(1)计算第一个关键邻居子图Gi,1和第二关键邻居子图Gi,2之间的连接稀疏灵敏度值COCL(Gi,1,Gi2):
式(1)中,L(Gi,1,Gi,2)表示第一个关键邻居子图Gi,1和第二关键邻居子图Gi,2之间的连接边数;L(Gi,1,Gi,1)表示第一个关键邻居子图Gi,1内的连接边数;L(Gi,2,Gi,2)表示第二关键邻居子图Gi,2内的连接边数;
步骤1.5:判断COCL(Gi,1,Gi,2)是否小于灵敏度参数μ,若小于,则表示所述第i个蛋白质节点vi为候选重叠蛋白质节点,否则表示所述第i个蛋白质节点vi为非重叠蛋白质节点;
步骤1.6、重复步骤1.2-1.5,从而完成n个蛋白质节点的判断,并由所有的候选重叠蛋白质节点构成候选重叠蛋白质节点集合O=(o1,o2,…,oa,…,ob),oa表示任意第a个候选重叠蛋白质节点;由所有的非重叠蛋白质节点构成非重叠蛋白质节点集合S=(s1,s2,…,sc,…,sd);sc表示任意第c个非重叠蛋白质节点;b+d=n;
步骤2、个体编码及解码:
步骤2.1:个体编码
对候选重叠蛋白质节点集合O中的第a个候选蛋白质节点oa进行编码,令第a个候选重叠蛋白质节点oa的基因值xa随机为-1或0;对非重叠蛋白质节点集合S中的第c个非重叠蛋白质节点sc进行编码,令第c个非重叠蛋白质节点sc的基因值xc为非重叠蛋白质节点的下标;从而得到个体编码为X={x1,x2,…xi…xn};xi表示第i个蛋白质节点的基因值;
步骤2.2:个体解码
步骤2.3:初始化i=1;
步骤2.4:判断第i位基因值xi是否为0;若是,则执行步骤2.5:否则,判断第i位基因值xi是否为-1,若是则执行步骤2.6;否则,执行步骤2.7;
步骤2.5、则将第i个蛋白质节点的所有非重叠蛋白质邻居节点在个体编码X中所对应的不同基因值作为第i个蛋白质节点的基因值;
步骤2.6、则将第i个蛋白质节点的所有非重叠邻居节点在基因编码X中所对应的基因值出现次数最多的基因值作为第i个蛋白质节点的基因值;
步骤2.7、将i+1赋值给i,并返回步骤2.4执行,直到i=n为止,从而得到解码后的基因编码X′;
步骤2.8、对处理后的个体编码X′中所有基因值相同的蛋白质节点归为一个蛋白质模块,从而得到m个蛋白质模块,记为C={C1,C2,…,Cr,…,Cm},Cr表示第r个蛋白质模块;
步骤3:初始化:
步骤3.1:定义最大迭代次数为gene,初始迭代次数为t=0、粒子群个体的数目为pop,邻域大小为NS,粒子学习因子为c1、c2,惯性向量为ω,权重向量为λ={λ12,…,λg,…,λpop};
步骤3.2:假设有N个粒子{X1,X2,…,Xg,…,Xpop},1≤g≤pop,Xg表示第g个粒子;定义t时刻所述第g个粒子在第i维的位置为定义t时刻所述第g个粒子在第i维的速度为
步骤3.3:按照步骤2.1得到第g个粒子Xg的个体编码,并将第g个粒子Xg的个体编码内的第i维xi赋给t=0时刻粒子的第i维的位置从而得到第g个粒子Xg在t=0时刻的位置
步骤3.4:执行pop次步骤3.3,从而得到初始粒子群的位置
步骤3.5:以初始粒子群的位置作为初始历史最优粒子群的位置
步骤3.6:将“0”赋给t=0时刻第g个粒子Xg的第i维的速度从而得到第g个粒子Xg在t=0时刻的速度
步骤3.7:执行步骤3.6进行pop次,从而得到初始粒子群的速度
步骤3.8、参考点的计算
步骤3.8.1:将初始粒子群的位置中的每个粒子初始的位置按照步骤2.2进行解码,得到每个粒子初始的位置对应的若干个蛋白质模块;利用式(2)计算初始粒子群的位置P中第g个粒子Xg的两个目标函数,包括:蛋白质模块内部的连接密度KKMg和蛋白质模块外部的连接密度RCg
式(2)中,L(Cr,g,Cr,g)表示第g个粒子Xg所对应的第r个蛋白质模块内的连接边数;|Cr,g|表示第g个粒子Xg所对应的第r个蛋白质模块内的蛋白质节点的数目;表示与第g个粒子Xg所对应的第r个蛋白质模块内的节点连接的所有外部蛋白质节点;表示第g个粒子Xg所对应的第r个蛋白质模块与所有外部蛋白质节点的连接边数;
步骤3.8.2:执行pop次步骤3.8.1,得到pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC;从pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC中分别选取最小值记为f1 *并构成参考点
步骤3.9:邻域初始化
根据第g个粒子的权重向量λg,计算第g个粒子的权重向量λg与其他粒子的权重向量之间的欧式距离,并选取欧式距离最小的前NS个粒子作为第g个粒子的邻居粒子从而得到pop个粒子的邻居粒子
步骤3.10:粒子群的全局最优粒子的位置初始化
对于第g个粒子从第g个粒子的邻居粒子里面随机选取一个粒子的位置作为粒子的全局最优粒子
进行pop次得到粒子群的全局最优粒子的位置,记为
步骤4、粒子群进化:
步骤4.1:初始化t=1;
步骤4.2:g=1;
步骤4.3:t时刻第g粒子的速度产生
步骤4.3.1:利用式(3)计算t时刻第g粒子第i维的速度:
式(3)中,ω是惯性权值,设为0;c1是认知能力值,c2是社交能力值;r1和r2是0到1之间的随机数;是二进制的“与”操作;假设sig函数内运算得到的值是的定义如式(4)所示:
式(4)中rand是0到1之间的随机数;函数定义如式(5)所示:
步骤4.3.2:对第g粒子的速度的每一维进行步骤4.3.1操作,从而得到第g粒子的速度
步骤4.4:t时刻第g粒子的位置的产生
步骤4.4.1:利用式(6)计算t时刻第g粒子的第i维位置
式(6)中,当时,为0;当时,为-1;NB为将第i个蛋白质节点的所有非重叠蛋白质邻居节点在t-1时刻第g粒子中所对应的不同基因值;
步骤4.4.2:对第g粒子的速度的每一维进行步骤4.4.1操作,从而得到t时刻第g粒子的位置
步骤4.5:粒子群的位置更新
步骤4.5.1:将Pt-1赋给Pt
步骤4.5.2:按照步骤3.8.1计算t时刻第g粒子的位置对应的蛋白质模块内部的连接密度和蛋白质模块外部的连接密度
步骤4.5.3:根据所述t时刻第g粒子的位置的两个目标函数以及参考点Z*,计算t时刻第g粒子的位置在其邻居粒子对应的权重向量上的切比雪夫值Q={Q1,...Ql,...,QNS},1≤l≤NS;
再根据步骤3.8.1得到的所有邻居粒子的两个目标函数以及参考点Z*,计算出所有邻居粒子对应权重向量上的切比雪夫值QN={QN1,...QNl,...,QNNS};
判断邻居粒子对应权重向量上的切比雪夫值QNl是否有大于在其邻居粒子对应的权重向量上的切比雪夫值Ql,若存在第l个邻居粒子满足条件,则在t时刻粒子群的位置Pt中用替代第l个邻居粒子;
步骤4.6:根据步骤3.8.1计算对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC;
判断所对应的蛋白质模块内部的两个目标函数是否均小于对应的蛋白质模块内部的两个目标函,若是,则将赋给否则将赋给
步骤4.7:判断所对应的蛋白质模块内部的连接密度KKM是否小于参考点Z*内的f1 *,若是,则将所对应的蛋白质模块内部的连接密度KKM赋给f1 *;否则,f1 *不变;
判断的对应的蛋白质模块外部的连接密度RC是否小于参考点Z*内的若是,则将的对应的蛋白质模块外部的连接密度RC赋给否则,不变;
步骤4.8:将g+1赋给g,重新执行步骤4.3,直到g等于pop为止;
步骤4.9:根据步骤3.10,得到t时刻
步骤4.10:将t+1赋给t,重新执行步骤4.2,直到t大于gene为止,输出最优的蛋白质网络的模块组合。
与已有技术相比,本发明有益效果体现在:
1、本发明方法将蛋白质网络中的模块分组问题转化为多目标优化问题,通过利用基于多目标优化的蛋白质网络模块挖掘方法来挖掘蛋白质功能模块问题;该方法利用邻接矩阵的信息采用多目标进化算法来挖掘蛋白质网络里面的功能模块,很大程度上提高了蛋白质网络中功能模块挖掘的效率和计算的效率,同时使蛋白质网络中功能模块组合具备多样性,达到了更好的划分蛋白质网络的目的。
2、本发明使用的个体编码不仅能挖掘出非重叠的蛋白质模块,而且能挖掘出重叠的蛋白质模块。并且基于此种方法采用粒子群的粒子更新产生优秀子代粒子,很大程度上提高了蛋白质模块挖掘的效率。
3、目前的解决方案中得到的都是一组蛋白质模块,无法提供给研究者多种选择,本发明针对这样的缺陷使用了多目标进化算法来挖掘蛋白质网络中的蛋白质模块,充分利用了多目标进化算法的优势,不仅提供给决策者提供多种选择,而且还能检测出同时属于多个功能模块的蛋白质分子,使挖掘结果呈现多样性。
附图说明
图1本发明算法流程图;
图2为本发明实施例的一个简单网络示意图。
具体实施方式
本实施例中,一种基于多目标优化的蛋白质网络的模块挖掘方法,是将蛋白质网络描述为一个二元组,利用多目标优化算法来解决蛋白质功能模块识别;生物体内成千上万种蛋白质,在不同时间和不同空间阶段组成功能种类繁多的蛋白质模块,而当前存在的方案不能有效的解决蛋白质功能模块识别,而且这些方案最后得到的结果单一,所以提出了基于多目标优化算法的蛋白质功能模块识别方法,能有效的挖掘更好的蛋白质模块组合,并且能提供更多的蛋白质模块选择组合。
具体实施中,一种基于多目标优化的蛋白质网络功能模块识别方法将蛋白质网络中的节点分组问题转化为多目标问题,通过多目标优化算法来解决蛋白质网络中功能模块识别问题,从而实线蛋白质网络中的功能模块有效地识别;具体地说,如图1所示,是按如下步骤进行:
步骤一、定义蛋白质网络表征为{V,E},V={v1,v2,…,vi,…,vn}表示蛋白质网络中所有蛋白质分子节点的集合,vi表示第i个蛋白质节点;n为节点的总数;E={eij|i=1,2,…,n;j=1,2,…,n}表示任意两个节点之间的联系的集合;eij表示第i个节点vi与第j个节点vj之间的联系;若eij=1表示第i个节点vi与第j个节点vj之间有边相连;若eij=0,表示第i个节点vi与第j个节点vj之间无边相连,即不存在联系;如图2中的(a)所示为一个包含8个蛋白质节点的简单蛋白质网络结构图,其中每个蛋白质节点代表蛋白质网络中的分子,每条边代表两个蛋白质节点之间存在联系;
步骤1、将网络蛋白质节点判定为非重叠蛋白质节点和候选重叠蛋白质节点:
步骤1.1:定义第i个蛋白质节点vi的关键点记为Hi;关键点Hi表示第i个蛋白质节点vi的邻居节点中与vi拥有最多共同邻居的蛋白质节点;
定义第i个蛋白质节点vi的关键点Hi以及第i个蛋白质节点vi和关键点Hi之间的共同邻居所组成的蛋白质网络称为关键邻居子图;
步骤1.2:判断第i个蛋白质节点vi是否存在一个关键邻居子图,若存在,则将第i个蛋白质节点vi的第一个关键邻居子图记为Gi,1,并执行步骤1.3;否则,表示第i个蛋白质节点vi为非重叠点蛋白质节点;
步骤1.3:判断第i个蛋白质节点vi是否还存在另一个关键邻居子图,若存在,则将第i个蛋白质节点vi的第二个关键邻居子图记为Gi,2,并执行步骤1.4;否则表示第i个蛋白质节点vi为非重叠蛋白质节点;
步骤1.4:利用式(1)计算第一个关键邻居子图Gi,1和第二关键邻居子图Gi,2之间的连接稀疏灵敏度值COCL(Gi,1,Gi,2):
式(1)中,L(Gi,1,Gi,2)表示第一个关键邻居子图Gi,1和第二关键邻居子图Gi,2之间的连接边数;L(Gi,1,Gi,1)表示第一个关键邻居子图Gi,1内的连接边数;L(Gi,2,Gi,2)表示第二关键邻居子图Gi,2内的连接边数;
步骤1.5:判断COCL(Gi,1,Gi,2)是否小于灵敏度参数μ,若小于,则表示第i个蛋白质节点vi为候选重叠蛋白质节点,否则表示第i个蛋白质节点vi为非重叠蛋白质节点;
步骤1.6、重复步骤1.2-1.5,从而完成n个蛋白质节点的判断,并由所有的候选重叠蛋白质节点构成候选重叠蛋白质节点集合O=(o1,o2,…,oa,…,ob),oa表示任意第a个候选重叠蛋白质节点;由所有的非重叠蛋白质节点构成非重叠蛋白质节点集合S=(s1,s2,…,sc,…,sd);sc表示任意第c个非重叠蛋白质节点;b+d=n;
步骤2、个体编码及解码:
步骤2.1:个体编码
对候选重叠蛋白质节点集合O中的第a个候选蛋白质节点oa进行编码,令第a个候选重叠蛋白质节点oa的基因值xa随机为-1或0;对非重叠蛋白质节点集合S中的第c个非重叠蛋白质节点sc进行编码,令第c个非重叠蛋白质节点sc的基因值xc为非重叠蛋白质节点的下标;从而得到个体编码为X={x1,x2,…xi…xn};xi表示第i个蛋白质节点的基因值,如图2中的(b)所示个体编码为{3,3,3,0,5,5,5,5};
步骤2.2:个体解码
步骤2.3:初始化i=1;
步骤2.4:判断第i位基因值xi是否为0;若是,则执行步骤2.5:否则,判断第i位基因值xi是否为-1,若是则执行步骤2.6;否则,执行步骤2.7;
步骤2.5、则将第i个蛋白质节点的所有非重叠蛋白质邻居节点在个体编码X中所对应的不同基因值作为第i个蛋白质节点的基因值;
步骤2.6、则将第i个蛋白质节点的所有非重叠邻居节点在基因编码X中所对应的基因值出现次数最多的基因值作为第i个蛋白质节点的基因值;
步骤2.7、将i+1赋值给i,并返回步骤2.4执行,直到i=n为止,从而得到解码后的基因编码X′;
步骤2.8、对处理后的个体编码X′中所有基因值相同的蛋白质节点归为一个蛋白质模块,从而得到m个蛋白质模块,记为C={C1,C2,…,Cr,…,Cm},Cr表示第r个蛋白质模块,如图2中的(c)所示为蛋白质网络被划分为两个蛋白质模块,C1={1,2,3,4}和C1={4,5,6,7,8},其中C1,C2都是重叠蛋白质模块;
步骤3:初始化:
步骤3.1:定义最大迭代次数为gene,初始迭代次数为t=0、粒子群个体的数目为pop,邻域大小为NS,粒子学习因子为c1、c2,惯性向量为ω,权重向量为λ={λ12,…,λg,…,λpop};
步骤3.2:假设有N个粒子{X1,X2,…,Xg,…,Xpop},1≤g≤pop,Xg表示第g个粒子;定义t时刻第g个粒子在第i维的位置为定义t时刻第g个粒子在第i维的速度为
步骤3.3:按照步骤2.1得到第g个粒子Xg的个体编码,并将第g个粒子Xg的个体编码内的第i维xi赋给t=0时刻粒子的第i维的位置从而得到第g个粒子Xg在t=0时刻的位置
步骤3.4:执行pop次步骤3.3,从而得到初始粒子群的位置
步骤3.5:以初始粒子群的位置作为初始历史最优粒子群的位置
步骤3.6:将“0”赋给t=0时刻第g个粒子Xg的第i维的速度从而得到第g个粒子Xg在t=0时刻的速度
步骤3.7:执行步骤3.6进行pop次,从而得到初始粒子群的速度
步骤3.8、参考点的计算
步骤3.8.1:将初始粒子群的位置中的每个粒子初始的位置按照步骤2.2进行解码,得到每个粒子初始的位置对应的若干个蛋白质模块;利用式(2)计算初始粒子群的位置P中第g个粒子Xg的两个目标函数,包括:蛋白质模块内部的连接密度KKMg和蛋白质模块外部的连接密度RCg
式(2)中,L(Cr,g,Cr,g)表示第g个粒子Xg所对应的第r个蛋白质模块内的连接边数;|Cr,g|表示第g个粒子Xg所对应的第r个蛋白质模块内的蛋白质节点的数目;表示与第g个粒子Xg所对应的第r个蛋白质模块内的节点连接的所有外部蛋白质节点;表示第g个粒子Xg所对应的第r个蛋白质模块与所有外部蛋白质节点的连接边数;
步骤3.8.2:执行pop次步骤3.8.1,得到pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC;从pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC中分别选取最小值记为f1 *并构成参考点
步骤3.9:邻域初始化
根据第g个粒子的权重向量λg,计算第g个粒子的权重向量λg与其他粒子的权重向量之间的欧式距离,并选取欧式距离最小的前NS个粒子作为第g个粒子的邻居粒子从而得到pop个粒子的邻居粒子
步骤3.10:粒子群的全局最优粒子的位置初始化
对于第g个粒子从第g个粒子的邻居粒子里面随机选取一个粒子的位置作为粒子的全局最优粒子
进行pop次得到粒子群的全局最优粒子的位置,记为
步骤4、粒子群进化:
步骤4.1:初始化t=1;
步骤4.2:g=1;
步骤4.3:t时刻第g粒子的速度产生
步骤4.3.1:利用式(3)计算t时刻第g粒子第i维的速度:
式(3)中,ω是惯性权值,设为0;c1是认知能力值,c2是社交能力值;r1和r2是0到1之间的随机数;是二进制的“与”操作;假设sig函数内运算得到的值是的定义如式(4)所示:
式(4)中rand是0到1之间的随机数;函数定义如式(5)所示:
步骤4.3.2:对第g粒子的速度的每一维进行步骤4.3.1操作,从而得到第g粒子的速度
步骤4.4:t时刻第g粒子的位置的产生
步骤4.4.1:利用式(6)计算t时刻第g粒子的第i维位置
式(6)中,当时,为0;当时,为-1;NB为将第i个蛋白质节点的所有非重叠蛋白质邻居节点在t-1时刻第g粒子中所对应的不同基因值;
步骤4.4.2:对第g粒子的速度的每一维进行步骤4.4.1操作,从而得到t时刻第g粒子的位置
步骤4.5:粒子群的位置更新
步骤4.5.1:将Pt-1赋给Pt
步骤4.5.2:按照步骤3.8.1计算t时刻第g粒子的位置对应的蛋白质模块内部的连接密度和蛋白质模块外部的连接密度
步骤4.5.3:根据t时刻第g粒子的位置的两个目标函数以及参考点Z*,计算t时刻第g粒子的位置在其邻居粒子对应的权重向量上的切比雪夫值Q={Q1,...Ql,...,QNS},1≤l≤NS;
再根据步骤3.8.1得到的所有邻居粒子的两个目标函数以及参考点Z*,计算出所有邻居粒子对应权重向量上的切比雪夫值QN={QN1,...QNl,...,QNNS};
判断邻居粒子对应权重向量上的切比雪夫值QNl是否有大于在其邻居粒子对应的权重向量上的切比雪夫值Ql,若存在第l个邻居粒子满足条件,则在t时刻粒子群的位置Pt中用替代第l个邻居粒子;
步骤4.6:根据步骤3.8.1计算对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC;
判断所对应的蛋白质模块内部的两个目标函数是否均小于对应的蛋白质模块内部的两个目标函,若是,则将赋给否则将赋给
步骤4.7:判断所对应的蛋白质模块内部的连接密度KKM是否小于参考点Z*内的f1 *,若是,则将所对应的蛋白质模块内部的连接密度KKM赋给f1 *;否则,f1 *不变;
判断的对应的蛋白质模块外部的连接密度RC是否小于参考点Z*内的若是,则将的对应的蛋白质模块外部的连接密度RC赋给否则,不变;
步骤4.8:将g+1赋给g,重新执行步骤4.3,直到g等于pop为止;
步骤4.9:根据步骤3.10,得到t时刻
步骤4.10:将t+1赋给t,重新执行步骤4.2,直到t大于gene为止,输出最优的蛋白质网络的模块组合。

Claims (1)

1.一种基于多目标优化的蛋白质网络的模块挖掘方法,其特征是按如下步骤进行:
定义所述蛋白质网络表征为G(V,E),V={v1,v2,…,vi,…,vn}表示所述蛋白质网络中所有蛋白质节点的集合,vi表示第i个蛋白质节点;n为蛋白质节点的总数;E={eij|i=1,2,…,n;j=1,2,…,n}表示任意两个蛋白质节点之间的联系的集合;eij表示第i个蛋白质节点vi与第j个蛋白质节点vj之间的联系;若eij=1表示第i个蛋白质节点vi与第j个蛋白质节点vj之间有边相连,则称第i个蛋白质节点vi与第j个蛋白质节点vj互为邻居节点;若第k个蛋白质节点vk同时与第i个蛋白质节点vi与第j个蛋白质节点vj之间有边相连,则称第k个蛋白质节点vk是第i个蛋白质节点vi与第j个蛋白质节点vj的共同邻居;若eij=0,表示第i个蛋白质节点vi与第j个蛋白质节点vj之间无边相连,即不存在联系;
步骤1、将所述网络蛋白质节点判定为非重叠蛋白质节点和候选重叠蛋白质节点:
步骤1.1:定义第i个蛋白质节点vi的关键点记为Hi;所述关键点Hi表示第i个蛋白质节点vi的邻居节点中与vi拥有最多共同邻居的蛋白质节点;
定义第i个蛋白质节点vi的关键点Hi以及第i个蛋白质节点vi和关键点Hi之间的共同邻居所组成的蛋白质网络称为关键邻居子图;
步骤1.2:判断第i个蛋白质节点vi是否存在一个关键邻居子图,若存在,则将第i个蛋白质节点vi的第一个关键邻居子图记为Gi,1,并执行步骤1.3;否则,表示第i个蛋白质节点vi为非重叠点蛋白质节点;
步骤1.3:判断第i个蛋白质节点vi是否还存在另一个关键邻居子图,若存在,则将第i个蛋白质节点vi的第二个关键邻居子图记为Gi,2,并执行步骤1.4;否则表示第i个蛋白质节点vi为非重叠蛋白质节点;
步骤1.4:利用式(1)计算第一个关键邻居子图Gi,1和第二关键邻居子图Gi,2之间的连接稀疏灵敏度值COCL(Gi,1,Gi,2):
C O C L ( G i , 1 , G i , 2 ) = max L ( G i , 1 , G i , 2 ) L ( G i , 1 , G i , 1 ) , L ( G i , 1 , G i , 2 ) L ( G i , 2 , G i , 2 ) - - - ( 1 )
式(1)中,L(Gi,1,Gi,2)表示第一个关键邻居子图Gi,1和第二关键邻居子图Gi,2之间的连接边数;L(Gi,1,Gi,1)表示第一个关键邻居子图Gi,1内的连接边数;L(Gi,2,Gi,2)表示第二关键邻居子图Gi,2内的连接边数;
步骤1.5:判断COCL(Gi,1,Gi,2)是否小于灵敏度参数μ,若小于,则表示所述第i个蛋白质节点vi为候选重叠蛋白质节点,否则表示所述第i个蛋白质节点vi为非重叠蛋白质节点;
步骤1.6、重复步骤1.2-1.5,从而完成n个蛋白质节点的判断,并由所有的候选重叠蛋白质节点构成候选重叠蛋白质节点集合O=(o1,o2,…,oa,…,ob),oa表示任意第a个候选重叠蛋白质节点;由所有的非重叠蛋白质节点构成非重叠蛋白质节点集合S=(s1,s2,…,sc,…,sd);sc表示任意第c个非重叠蛋白质节点;b+d=n;
步骤2、个体编码及解码:
步骤2.1:个体编码
对候选重叠蛋白质节点集合O中的第a个候选蛋白质节点oa进行编码,令第a个候选重叠蛋白质节点oa的基因值xa随机为-1或0;对非重叠蛋白质节点集合S中的第c个非重叠蛋白质节点sc进行编码,令第c个非重叠蛋白质节点sc的基因值xc为非重叠蛋白质节点的下标;从而得到个体编码为X={x1,x2,…xi…xn};xi表示第i个蛋白质节点的基因值;
步骤2.2:个体解码
步骤2.3:初始化i=1;
步骤2.4:判断第i位基因值xi是否为0;若是,则执行步骤2.5:否则,判断第i位基因值xi是否为-1,若是则执行步骤2.6;否则,执行步骤2.7;
步骤2.5、则将第i个蛋白质节点的所有非重叠蛋白质邻居节点在个体编码X中所对应的不同基因值作为第i个蛋白质节点的基因值;
步骤2.6、则将第i个蛋白质节点的所有非重叠邻居节点在基因编码X中所对应的基因值出现次数最多的基因值作为第i个蛋白质节点的基因值;
步骤2.7、将i+1赋值给i,并返回步骤2.4执行,直到i=n为止,从而得到解码后的基因编码X′;
步骤2.8、对处理后的个体编码X′中所有基因值相同的蛋白质节点归为一个蛋白质模块,从而得到m个蛋白质模块,记为C={C1,C2,…,Cr,…,Cm},Cr表示第r个蛋白质模块;
步骤3:初始化:
步骤3.1:定义最大迭代次数为gene,初始迭代次数为t=0、粒子群个体的数目为pop,邻域大小为NS,粒子学习因子为c1、c2,惯性向量为ω,权重向量为λ={λ12,…,λg,…,λpop};
步骤3.2:假设有N个粒子{X1,X2,…,Xg,…,Xpop},1≤g≤pop,Xg表示第g个粒子;定义t时刻所述第g个粒子在第i维的位置为定义t时刻所述第g个粒子在第i维的速度为
步骤3.3:按照步骤2.1得到第g个粒子Xg的个体编码,并将第g个粒子Xg的个体编码内的第i维xi赋给t=0时刻粒子的第i维的位置从而得到第g个粒子Xg在t=0时刻的位置
步骤3.4:执行pop次步骤3.3,从而得到初始粒子群的位置
步骤3.5:以初始粒子群的位置作为初始历史最优粒子群的位置
步骤3.6:将“0”赋给t=0时刻第g个粒子Xg的第i维的速度从而得到第g个粒子Xg在t=0时刻的速度
步骤3.7:执行步骤3.6进行pop次,从而得到初始粒子群的速度
步骤3.8、参考点的计算
步骤3.8.1:将初始粒子群的位置中的每个粒子初始的位置按照步骤2.2进行解码,得到每个粒子初始的位置对应的若干个蛋白质模块;利用式(2)计算初始粒子群的位置P中第g个粒子Xg的两个目标函数,包括:蛋白质模块内部的连接密度KKMg和蛋白质模块外部的连接密度RCg
KKM g = 2 ( n - m g ) - Σ r = 1 m g L ( C r , g , C r , g ) | C r , g | RC g = Σ r = 1 m g L ( C r , g , C r , g ‾ ) | C r , g | - - - ( 2 )
式(2)中,L(Cr,g,Cr,g)表示第g个粒子Xg所对应的第r个蛋白质模块内的连接边数;|Cr,g|表示第g个粒子Xg所对应的第r个蛋白质模块内的蛋白质节点的数目;表示与第g个粒子Xg所对应的第r个蛋白质模块内的节点连接的所有外部蛋白质节点;表示第g个粒子Xg所对应的第r个蛋白质模块与所有外部蛋白质节点的连接边数;
步骤3.8.2:执行pop次步骤3.8.1,得到pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC;从pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC中分别选取最小值记为f1*和并构成参考点
步骤3.9:邻域初始化
根据第g个粒子的权重向量λg,计算第g个粒子的权重向量λg与其他粒子的权重向量之间的欧式距离,并选取欧式距离最小的前NS个粒子作为第g个粒子的邻居粒子从而得到pop个粒子的邻居粒子
步骤3.10:粒子群的全局最优粒子的位置初始化
对于第g个粒子从第g个粒子的邻居粒子里面随机选取一个粒子的位置作为粒子的全局最优粒子
进行pop次得到粒子群的全局最优粒子的位置,记为
步骤4、粒子群进化:
步骤4.1:初始化t=1;
步骤4.2:g=1;
步骤4.3:t时刻第g粒子的速度产生
步骤4.3.1:利用式(3)计算t时刻第g粒子第i维的速度:
V g t ( i ) = s i g ( ωV g t - 1 ( i ) + c 1 r 1 ( Pbest g t - 1 ( i ) ⊕ X g t - 1 ( i ) ) + c 2 r 2 ( Gbest g t - 1 ( i ) ⊕ X g t - 1 ( i ) ) - - - ( 3 )
式(3)中,ω是惯性权值,设为0;c1是认知能力值,c2是社交能力值;r1和r2是0到1之间的随机数;是二进制的“与”操作;假设sig函数内运算得到的值是的定义如式(4)所示:
V g t ( i ) = 1 i f r a n d ( 0 , 1 ) < s i g mod ( &part; ) V g t ( i ) = 0 i f r a n d ( 0 , 1 ) &GreaterEqual; s i g mod ( &part; ) - - - ( 4 )
式(4)中rand是0到1之间的随机数;函数定义如式(5)所示:
s i g mod ( &part; ) = 1 1 + e - &part; - - - ( 5 )
步骤4.3.2:对第g粒子的速度的每一维进行步骤4.3.1操作,从而得到第g粒子的速度步骤4.4:t时刻第g粒子的位置的产生
步骤4.4.1:利用式(6)计算t时刻第g粒子的第i维位置
X g t ( i ) = X g t - 1 ( i ) i f V g t = 0 ~ X g t - 1 ( i ) i f V g t = 1 a n d X g t - 1 ( i ) &Element; { - 1 , 0 } N B i f V g t = 1 a n d X g t - 1 ( i ) &Element; { 1 , ... n } - - - ( 6 )
式(6)中,当时,为0;当时,为-1;NB为将第i个蛋白质节点的所有非重叠蛋白质邻居节点在t-1时刻第g粒子中所对应的不同基因值;
步骤4.4.2:对第g粒子的速度的每一维进行步骤4.4.1操作,从而得到t时刻第g粒子的位置
步骤4.5:粒子群的位置更新
步骤4.5.1:将Pt-1赋给Pt
步骤4.5.2:按照步骤3.8.1计算t时刻第g粒子的位置对应的蛋白质模块内部的连接密度和蛋白质模块外部的连接密度
步骤4.5.3:根据所述t时刻第g粒子的位置的两个目标函数以及参考点Z*,计算t时刻第g粒子的位置在其邻居粒子对应的权重向量上的切比雪夫值Q={Q1,...Ql,....QNS},1≤l≤NS;
再根据步骤3.8.1得到的所有邻居粒子的两个目标函数以及参考点Z*,计算出所有邻居粒子对应权重向量上的切比雪夫值QN={QN1,...QNl,...,QNNS};
判断邻居粒子对应权重向量上的切比雪夫值QNl是否有大于在其邻居粒子对应的权重向量上的切比雪夫值Ql,若存在第l个邻居粒子满足条件,则在t时刻粒子群的位置Pt中用替代第l个邻居粒子;
步骤4.6:根据步骤3.8.1计算对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC;
判断所对应的蛋白质模块内部的两个目标函数是否均小于对应的蛋白质模块内部的两个目标函,若是,则将赋给否则将赋给
步骤4.7:判断所对应的蛋白质模块内部的连接密度KKM是否小于参考点Z*内的f1 *,若是,则将所对应的蛋白质模块内部的连接密度KKM赋给f1 *;否则,f1 *不变;
判断的对应的蛋白质模块外部的连接密度RC是否小于参考点Z*内的若是,则将的对应的蛋白质模块外部的连接密度RC赋给否则,不变;
步骤4.8:将g+1赋给g,重新执行步骤4.3,直到g等于pop为止;
步骤4.9:根据步骤3.10,得到t时刻
步骤4.10:将t+1赋给t,重新执行步骤4.2,直到t大于gene为止,输出最优的蛋白质网络的模块组合。
CN201710208877.3A 2017-03-31 2017-03-31 一种基于多目标优化的蛋白质网络模块挖掘方法 Active CN106991295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710208877.3A CN106991295B (zh) 2017-03-31 2017-03-31 一种基于多目标优化的蛋白质网络模块挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710208877.3A CN106991295B (zh) 2017-03-31 2017-03-31 一种基于多目标优化的蛋白质网络模块挖掘方法

Publications (2)

Publication Number Publication Date
CN106991295A true CN106991295A (zh) 2017-07-28
CN106991295B CN106991295B (zh) 2019-06-21

Family

ID=59415369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710208877.3A Active CN106991295B (zh) 2017-03-31 2017-03-31 一种基于多目标优化的蛋白质网络模块挖掘方法

Country Status (1)

Country Link
CN (1) CN106991295B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388769A (zh) * 2018-03-01 2018-08-10 安徽大学 基于边驱动的标签传播算法的蛋白质功能模块识别方法
CN109376842A (zh) * 2018-08-20 2019-02-22 安徽大学 一种基于属性优化蛋白质网络的功能模块挖掘方法
CN109390057A (zh) * 2018-08-20 2019-02-26 安徽大学 一种基于多目标优化的疾病模块检测方法
CN109712670A (zh) * 2018-12-25 2019-05-03 湖南城市学院 一种miRNA功能模块的识别方法及系统
CN110610742A (zh) * 2019-09-20 2019-12-24 福建工程学院 一种基于蛋白质互作网络的功能模块检测方法
CN113035268A (zh) * 2021-04-09 2021-06-25 上海交通大学 基于多目标分解优化策略的蛋白质结构优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559426A (zh) * 2013-11-06 2014-02-05 北京工业大学 一种针对多视图数据融合的蛋白质功能模块挖掘方法
US20140244228A1 (en) * 2012-09-19 2014-08-28 Agency For Science, Technology And Research Codon optimization of a synthetic gene(s) for protein expression
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140244228A1 (en) * 2012-09-19 2014-08-28 Agency For Science, Technology And Research Codon optimization of a synthetic gene(s) for protein expression
CN103559426A (zh) * 2013-11-06 2014-02-05 北京工业大学 一种针对多视图数据融合的蛋白质功能模块挖掘方法
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FRANCESCO FOLINO等: ""An Evolutionary Multiobjective Approach for Community Discovery in Dynamic Networks"", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388769A (zh) * 2018-03-01 2018-08-10 安徽大学 基于边驱动的标签传播算法的蛋白质功能模块识别方法
CN108388769B (zh) * 2018-03-01 2020-03-17 安徽大学 基于边驱动的标签传播算法的蛋白质功能模块识别方法
CN109376842A (zh) * 2018-08-20 2019-02-22 安徽大学 一种基于属性优化蛋白质网络的功能模块挖掘方法
CN109390057A (zh) * 2018-08-20 2019-02-26 安徽大学 一种基于多目标优化的疾病模块检测方法
CN109390057B (zh) * 2018-08-20 2021-12-14 安徽大学 一种基于多目标优化的疾病模块检测方法
CN109376842B (zh) * 2018-08-20 2022-04-05 安徽大学 一种基于属性优化蛋白质网络的功能模块挖掘方法
CN109712670A (zh) * 2018-12-25 2019-05-03 湖南城市学院 一种miRNA功能模块的识别方法及系统
CN110610742A (zh) * 2019-09-20 2019-12-24 福建工程学院 一种基于蛋白质互作网络的功能模块检测方法
CN110610742B (zh) * 2019-09-20 2023-12-19 福建工程学院 一种基于蛋白质互作网络的功能模块检测方法
CN113035268A (zh) * 2021-04-09 2021-06-25 上海交通大学 基于多目标分解优化策略的蛋白质结构优化方法

Also Published As

Publication number Publication date
CN106991295B (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN106991295A (zh) 一种基于多目标优化的蛋白质网络模块挖掘方法
Das et al. Real-parameter evolutionary multimodal optimization—A survey of the state-of-the-art
CN103745258B (zh) 基于最小生成树聚类的遗传算法的复杂网络社区挖掘方法
CN111240995B (zh) 结合关键点概率与路径相似度的多路径覆盖方法及系统
CN102413029A (zh) 基于分解的局部搜索多目标复杂动态网络社区划分方法
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
Allesina Predicting trophic relations in ecological networks: a test of the allometric diet breadth model
Abdulateef et al. A new evolutionary algorithm with locally assisted heuristic for complex detection in protein interaction networks
Oluoch et al. A review on RNA secondary structure prediction algorithms
CN104573004B (zh) 一种基于双阶遗传计算的基因表达数据的双聚类方法
Neverov et al. The research of automl methods in the task of wave data classification
Zhao et al. Finding novel diagnostic gene patterns based on interesting non-redundant contrast sequence rules
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
Takahashi Solving the traveling salesman problem through genetic algorithms with changing crossover operators
Traoré et al. A data-driven approach to neural architecture search initialization
Liu et al. An improved multiobjective evolutionary approach for community detection in multilayer networks
Covantes Osuna Theoretical and Empirical Evaluation of Diversity-preserving Mechanisms in Evolutionary Algorithms: On the Rigorous Runtime Analysis of Diversity-preserving Mechanisms in Evolutionary Algorithms
Anyaso-Samuel et al. Bioinformatics pre-processing of microbiome data with an application to metagenomic forensics
CN118196600B (zh) 基于差分进化算法的神经架构搜索方法和系统
CN117591675B (zh) 学术引用网络的节点分类预测方法、系统及存储介质
CN108647490B (zh) 基于多目标进化算法的大规模蛋白质功能模块识别方法和系统
CN115878908B (zh) 一种图注意力机制的社交网络影响力最大化方法及系统
Zhang et al. Check for updates An Improved DNA Genetic Algorithm Based on Cell-Like P System with Dynamic Membrane Structure
Gharavian et al. A Pairwise Surrogate Model using GNN for Evolutionary Optimization
Yusupov et al. Multi-objective Evolutionary Algorithm based on Ensemble of Initializations for Overlapping Community Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant