CN107885971A - 采用改进花授粉算法识别关键蛋白质的方法 - Google Patents

采用改进花授粉算法识别关键蛋白质的方法 Download PDF

Info

Publication number
CN107885971A
CN107885971A CN201711039345.8A CN201711039345A CN107885971A CN 107885971 A CN107885971 A CN 107885971A CN 201711039345 A CN201711039345 A CN 201711039345A CN 107885971 A CN107885971 A CN 107885971A
Authority
CN
China
Prior art keywords
protein
node
formula
pollen
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711039345.8A
Other languages
English (en)
Other versions
CN107885971B (zh
Inventor
雷秀娟
方铭
代才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201711039345.8A priority Critical patent/CN107885971B/zh
Publication of CN107885971A publication Critical patent/CN107885971A/zh
Application granted granted Critical
Publication of CN107885971B publication Critical patent/CN107885971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Peptides Or Proteins (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种采用改进花授粉算法识别关键蛋白质的方法,将蛋白质相互作用网络转化为无向图、选取度最大的前Q个蛋白质作为花粉个体、度量PeC中心性、确定复合物信息、确定亚细胞定位信息,评价花粉重要性、更新花粉位置、输出识别的关键蛋白质;本发明在评价花粉重要性时不仅考虑了蛋白质网络的拓扑属性,而且融合了蛋白质网络的生物特性,能准确地识别关键蛋白;仿真实验结果表明,正确率、特异性、敏感度等指标性能较优;与其他关键蛋白识别方法相比,结合蛋白质网络的拓扑属性和生物特性,实现关键蛋白质识别过程,提高了关键蛋白的识别准确率。

Description

采用改进花授粉算法识别关键蛋白质的方法
【技术领域】
本发明属于生物信息领域,涉及一种蛋白质相互作用网络中关键蛋白质的识别方法,具体涉及一种采用改进花授粉算法识别关键蛋白质的方法。
【背景技术】
关键蛋白质是细胞生命活动中所必需的蛋白质,关键蛋白质的缺失会导致有关蛋白质复合物功能丧失,并导致生物体无法生存。由于关键蛋白质在生命活动中扮演重要角色,因此对于关键蛋白质的预测与识别成为一项重要研究工作,识别关键蛋白质对于研究细胞的生长调控过程具有重要意义。此外,在生物医学领域,关键蛋白质的识别对于致病基因的发现及药物标靶的鉴定具有重要意义,在疾病诊治和药物设计等方面具有重要的应用价值。
在生物学领域,一般利用基因敲除,RNA干扰等实验方法,例如单基因挑出和条件性基因剔除等,通过观察生物体的生存情况来辨别蛋白质的关键性,通过这些实验技术得到的结果虽然准确有效,但是代价高、效率低,并且适用的物种范围有限。近年来,随着酵母双杂交,串联亲和纯化和质谱分析等高通量的蛋白质组技术的发展,大量的蛋白质相互作用数据被检测出来,使得在网络水平上预测关键蛋白质成为可能,通过计算生物学的方法来预测关键蛋白质成为一个新的发展方向。
已有研究表明,蛋白质的关键性与它在生物网络中所对应结点的拓扑特性密切相关,因此,出现了一系列利用结点的中心性测度识别关键蛋白质的方法。结点的中心性测度通常用来衡量结点在网络中影响力的大小,评估结点所代表的对象获得、控制信息及资源的能力。基于结点中心性的关键蛋白质预测,主要是通过计算蛋白质网路中各蛋白质结点的中心性测度,按中心性测度值由大到小的顺序筛选出一定数量的蛋白质作为预测的关键蛋白质集合。
度中心性(degree centrality,DC)是最常用的一种中心性测度,一个结点的度中心性表示为与该结点直接相连的邻居结点的个数。Jeong等提出“中心性-致死性”法则(centrality-lethality rule),该法则显示一个蛋白质参与的相互作用越多,则它对细胞的生存也就越重要。除了度中心性以外,还有介数中心性、接近度中心性、子图中心性、特征向量中心性、信息中心性、局部平均联通性和边聚集系数之和。其中,结点的介数中心性(betweenness centrality,BC)表示网络中所有最短路径中经过该结点的数目占所有最短路径数的比例;结点的接近度中心性(closeness centrality,CC)为反比于该结点到网络中其他所有结点的最短路径之和;结点的子图中心性(subgraph centrality,SC)是该结点参与网络闭合回路的总数;结点的特征向量中心性(eigenvector centrality,EC)被定义为网络邻接矩阵的主特征向量该结点的分量;结点的信息中心性(informationcentrality,IC)是测量以该结点为端点的路径的调和平均长度;结点的局部平均联通性(local average connectivity,LAC)是指该结点的邻居结点彼此之间公共邻居结点的个数之和除以该结点的邻居结点的个数;结点的边聚集系数之和(sum of edge clusteringcoefficient,NC)是指该结点所有连接边的聚集系数之和。这8种中心性测度都已被用于生物网络中关键蛋白质的预测,且发现任何一个中心性测度的预测结果都远远好于随机选择的结果,从而证明蛋白质的关键性与其对应结点的中心性存在较为显著的相关性。
这些中心性方法仅仅依靠蛋白质相互作用数据识别关键蛋白质,预测的准确度比较依赖网络本身的可靠性,但蛋白质相互作用网络是通过高通量生物实验获得,包含了很多假阳性,很大地影响了关键蛋白质识别的准确率。
针对中心性方法识别关键蛋白质的不足,研究人员提出一些新的识别方法进一步提高关键蛋白质的识别准确率。如融合蛋白质相互作用网络和基因表达数据的关键蛋白质识别方法PeC,降低了预测方法对蛋白质相互作用网络本身可靠性的依赖程度,结合了蛋白质的同源特性和蛋白质相互作用网络的ION关键蛋白质识别方法,此外,还有一些通过融合其他信息进行关键蛋白质识别的方法,如基于结构域的关键蛋白质识别方法,基于基因共表达的关键蛋白质识别方法等。
尽管关键蛋白质的识别问题越来越引起人们的关注,但目前结合网络信息的识别方法的准确率依旧较低,而且大多数方法都是孤立或者零碎地使用少数参数或特征分析关键蛋白质,导致关键蛋白质识别准确率低。
综合上述关键蛋白质识别方法的缺陷,主要有大部分方法只考虑了网络的拓扑特性以及蛋白质相互作用网络数据的假阳性,而忽略了关键蛋白质的内在生物意义,虽然有一些方法增加了生物数据,但是考虑的不够全面,造成关键蛋白质识别结果并不是很理想。
【发明内容】
本发明的目的在于克服上述关键蛋白质识别方法的缺点与不足,提供一种采用改进花授粉算法识别关键蛋白质的方法,融合基因表达数据、蛋白质复合物和亚细胞定位信息评价蛋白质的重要性,识别关键蛋白质的准确度高。
为达到上述目的,本发明采用如下技术方案:
采用改进花授粉算法识别关键蛋白质的方法,包括以下步骤:
(1)将蛋白质相互作用网络转化为无向图
将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连,则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,Λ,n,j=1,2,Λ,n;
(2)选取度最大的前Q个蛋白质作为花粉个体
结点的度DC即与该结点直接相连的邻居结点的个数,计算所有结点的度并按降序排序,选取前Q个作为初始的花粉个体,按式(1)计算结点i的度:
DC(i)=∑iedge(i,v) 式(1)
式中,结点v表示与结点i直接相连的结点;
(3)度量PeC中心性
计算边聚集系数:边聚集系数ECC刻画了边(i,j)的两个结点i和j的亲疏程度,按式(2)计算边(i,j)的边聚集系数:
式中,Ni和Nj分别表示结点i和结点j的邻居结点的集合,di和dj分别表示结点i和结点j的度,ECC的取值越大,表明结点i和j属于同一个簇的可能性越大;
计算蛋白质间的皮尔逊相关系数:基因表达数据用来表示蛋白质生命运动的过程,利用皮尔逊相关系数PCC计算相互作用的蛋白质的基因共表达的强弱程度,按式(3)计算皮尔逊相关系数:
式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;
(4)确定复合物信息
出现在蛋白质复合物中的蛋白质更可能是关键蛋白质,整合两个蛋白质复合物数据集CM270和CM425,去除重复的复合物,得到一个复合物数据集;判断一个蛋白质结点出现在几个复合物中即为此蛋白质结点的复合物得分pc,如果一个蛋白质不属于任何一个已知的蛋白质复合物,则其复合物得分pc为0,如果一个蛋白质存在于已知的蛋白质复合物中,则其复合物得分pc为相应存在于已知蛋白质复合物中的次数;
(5)确定亚细胞定位信息
亚细胞定位指细胞中某种蛋白质出现的具体位置,关键蛋白质在某些亚细胞位置出现的较多;对从亚细胞定位数据库中下载的亚细胞定位数据进行预处理,去除重复的数据,得到所需的包含11个亚细胞位置的数据;把预处理得到的11个位置的亚细胞定位数据集R与关键蛋白质标准数据集进行比对得到他们的关系数据集S,则相应的每一个具体位置的关系数据集为Sr,如果给定一个蛋白质,它出现在数据集R中,则11个亚细胞位置中的每一个具体位置出现的频率Sr/length(S)即为每个位置对应的得分Fi(r);按式(4)计算此蛋白质的亚细胞定位得分:
SL(i)=∑C(i)Fi(r) 式(4)
式中,C(i)表示蛋白质i在数据集R中所对应的亚细胞位置集合,一个蛋白质可能在多个亚细胞位置中的出现;
(6)评价花粉重要性
首先,关键蛋白质大多出现在同一簇中且倾向于共表达,pc(i,j)利用边聚集系数ECC和皮尔逊相关系数PCC分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响,pc(i,j)为边(i,j)出现在同一簇中的概率,将pc(i,j)看作边(i,j)的权值,则对于一个蛋白质结点i,计算结点i的连接边的权值之和PeC(i);
然后,结合蛋白质复合物得分和亚细胞定位得分;
最后,计算出每一个蛋白质结点的得分,即得到每一个蛋白质结点的重要程度,且一个花粉由Q个蛋白质结点组成,进而对花粉个体的重要性GSC进行评价;
(7)更新花粉位置
在全局授粉中,花粉不仅向全局最优解移动,而且自身在全局范围内随机搜索,更新花粉在全局授粉中的位置;
在局部授粉中,花粉的位置保持不变,更新花粉在局部授粉中的位置;
(8)输出识别的关键蛋白质
花粉经过全局授粉和局部授粉找到当前最优解之后,若迭代次数小于最大迭代次数Maxiter,转向步骤(7);否则,花粉输出全局最优解,即一个候选关键蛋白质集合得到关键蛋白质。
进一步,所述步骤(6)中边(i,j)出现在同一簇中的概率pc(i,j)由式(5)得到:
pc(i,j)=ECC(i,j)×PCC(i,j) 式(5)
式中,ECC是结点i和结点j之间的边(i,j)的聚集系数由公式(2)得到,PCC是结点i和结点j之间的边的皮尔森聚集系数由公式(3)得到。
进一步,所述步骤(6)中结点i的连接边的权值之和PeC(i)由式(6)得到:
式中,ni表示结点i的邻居结点的集合。
进一步,所述步骤(6)中的花粉的重要性GSC由式(7)得到:
式中,α为一个在[0,1]之间的常数,H={h1,h2,…hQ}表示一个候选关键蛋白质集合,其中每一个元素hi代表一个候选关键蛋白质。
进一步,所述步骤(7)中的花粉按全局授粉更新的位置由式(8)得到:
式中,t是迭代次数,cat函数表示连接由和RANDOM得到的位置向量,dim的值为1表示两个由和RANDOM得到的位置向量按列连接,intersect函数表示中的元素和Gbest中的某些元素进行交集运算,Gbest是全局最优解,表示花粉不断向全局最优靠近,RANDOM则表示花粉进行全局范围内的搜索,和RANDOM一起构成花粉经过全局授粉后得到的新位置。
进一步,所述步骤(7)中的花粉按局部授粉更新的位置由式(9)得到:
式中,t表示迭代次数。
本发明与现有的方法相比,具有以下优点:
1、本发明基于改进的花授粉算法,通过考虑蛋白质的网络拓扑特性和生物特性以评价蛋白质的重要性,不但在在蛋白质相互作用网络的基础上融合基因表达数据,而且增加了蛋白质复合物信息和亚细胞定位信息。首先,考虑到蛋白质复合物和关键蛋白之间存在密切的联系,关键性是蛋白质复合物的产物而不是单个蛋白质的产物,所以在预测关键蛋白质时整合蛋白质复合物的信息。另外,亚细胞定位也是关键蛋白质的重要特征,它代表细胞中某种蛋白质出现的具体位置,且关键蛋白质在某些亚细胞位置比非关键蛋白质更频繁出现,所以增加亚细胞定位信息以预测关键蛋白质。通过融合基因表达、蛋白质复合物和亚细胞定位数据来评价蛋白质的重要性,进一步评价花粉的重要性,再通过全局授粉和局部授粉,找到全局最优,即识别出关键蛋白质。经实际数据验证,多方面特征的使用使得采用本发明识别出来的关键蛋白质的准确度要比目前大部分采用其他关键蛋白质识别方法识别的准确度高。
2、本发明不仅考虑到蛋白质相互作用网络不仅具有复杂网络的拓扑特性,还考虑到蛋白质相互作用网络具有一定的生物功能和生物意义。基因表达是关键蛋白质的重要特征,关键基因的表达水平比非关键蛋白质的表达水平高,通过融合蛋白质的网络拓扑特性和生物特性识别关键蛋白,利用聚集系数测度蛋白质结点的拓扑特性,利用基因共表达的皮尔逊相关系数表征蛋白质网络的生物特性。
3、采用本发明的关键蛋白质预测结果能够有效地识别蛋白质相互作用网络里的关键蛋白质,不仅能帮助我们理解细胞生命活动的最小需求,而且具有实际应用,为发现致病基因及鉴定药物标靶具有重要意义,在疾病诊治和药物设计等方面也具有重要的应用价值,有利于推动相关产业的发展。本发明能够从大量的蛋白质相互作用网络数据中提取关键蛋白,关键蛋白是指通过基因剔除式突变将其移除后造成有关蛋白质复合物功能丧失,并导致生物体无法生存的蛋白质,简而言之,关键蛋白是生物体生存和繁殖所必需的蛋白质,该研究是理解生命活动的运作机理、发现致病基因和药物设计的基础,本发明识别的关键蛋白质能够为生物学和医药学等领域提供重要的信息,不仅有助于了解细胞的生长调节过程,而且对于基因疾病的发现及药物靶标的设计有着重要意义。
【附图说明】
图1是本发明实施例1的工艺流程图
图2是采用实施例1得出的关键蛋白质在整个蛋白质相互作用网络中的部分示意图
图3是图2对应的标准库中关键蛋白质情况
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明采用改进花授粉算法识别关键蛋白质的方法,包括以下步骤:
(1)将蛋白质相互作用网络转化为无向图
将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连,则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,Λ,n,j=1,2,Λ,n;
(2)选取度最大的前Q个蛋白质作为花粉个体
结点的度DC即与该结点直接相连的邻居结点的个数,计算所有结点的度并按降序排序,选取前Q个作为初始的花粉个体。按式(1)计算结点i的度:
DC(i)=∑iedge(i,v) 式(1)
式中,结点v表示与结点i直接相连的结点;
(3)度量PeC中心性
计算边聚集系数:边聚集系数ECC(edge clustering coefficient)刻画了边(i,j)的两个结点i和j的亲疏程度,按式(2)计算边(i,j)的边聚集系数:
式中,Ni和Nj分别表示结点i和结点j的邻居结点的集合,di和dj分别表示结点i和结点j的度,ECC的取值越大,表明结点i和j属于同一个簇的可能性越大;
计算蛋白质间的皮尔逊相关系数:基因表达数据可以用来表示蛋白质生命运动的过程,利用皮尔逊相关系数PCC(Pearson correlation coefficient)来计算相互作用的蛋白质的基因共表达的强弱程度,按式(3)计算皮尔逊相关系数:
式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;
(4)确定复合物信息
出现在蛋白质复合物中的蛋白质更可能是关键蛋白质,整合两个蛋白质复合物数据集CM270和CM425,去除重复的复合物,得到一个复合物数据集;判断一个蛋白质结点出现在几个复合物中即为此蛋白质结点的复合物得分pc,如果一个蛋白质不属于任何一个已知的蛋白质复合物,则其复合物得分pc为0,如果一个蛋白质存在于已知的蛋白质复合物中,则其复合物得分pc为相应存在于已知蛋白质复合物中的次数;
(5)确定亚细胞定位信息
亚细胞定位指的是细胞中某种蛋白质出现的具体位置,关键蛋白质在某些亚细胞位置出现的较多;对从亚细胞定位数据库中下载的亚细胞定位数据进行预处理,去除重复的数据,得到所需的包含11个亚细胞位置的数据;把预处理得到的11个位置的亚细胞定位数据集R与关键蛋白质标准数据集进行比对得到他们的关系数据集S,则相应的每一个具体位置的关系数据集为Sr,如果给定一个蛋白质,它出现在数据集R中,则11个亚细胞位置中的每一个具体位置出现的频率Sr/length(S)即为每个位置对应的得分Fi(r);按式(4)计算此蛋白质的亚细胞定位得分:
SL(i)=∑C(i)Fi(r) 式(4)
式中,C(i)表示蛋白质i在R中所对应的亚细胞位置集合,一个蛋白质可能在多个亚细胞位置中的出现;
(6)评价花粉重要性
首先,关键蛋白质大多出现在同一簇中且倾向于共表达,pc(i,j)利用边聚集系数ECC和皮尔逊相关系数PCC分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响,利用pc(i,j)可以得出边(i,j)出现在同一簇中的概率,将pc(i,j)看作边(i,j)的权值,则对于一个蛋白质结点i,计算它的PeC(i)即为结点i的连接边的权值之和;
边(i,j)出现在同一簇中的概率pc(i,j)由式(5)得到:
pc(i,j)=ECC(i,j)×PCC(i,j) 式(5)
式中,ECC是结点i和结点j之间的边(i,j)的聚集系数由公式(2)得到,PCC是结点i和结点j之间的边的皮尔森聚集系数由公式(3)得到;
结点i的连接边的权值之和PeC(i)由式(6)得到:
式中,ni表示结点i的邻居结点的集合。
然后,结合蛋白质复合物得分和亚细胞定位得分;
最后,计算出每一个蛋白质结点的得分,即得到每一个蛋白质结点的重要程度,且一个花粉由Q个蛋白质结点组成,进而可以对花粉个体的重要性GSC进行评价;
按式(7)评价花粉的重要性GSC:
式中,α为一个在[0,1]之间的常数,H={h1,h2,…hQ}表示一个候选关键蛋白质集合,其中每一个元素hi代表一个候选关键蛋白质。
(7)更新花粉位置
花授粉算法的更新规则被重新定义;
在全局授粉中,花粉不仅向全局最优解移动,而且自身在全局范围内随机搜索,按式(8)计算花粉在全局授粉中更新的位置
式中,t是迭代次数,cat函数表示连接由和RANDOM得到的位置向量,dim的值为1表示两个由和RANDOM得到的位置向量按列连接,intersect函数表示中的元素和Gbest中的某些元素进行交集运算,Gbest是全局最优解,表示花粉不断向全局最优靠近,RANDOM则表示花粉进行全局范围内的搜索,和RANDOM一起构成花粉经过全局授粉后得到的新位置。
在局部授粉中,花粉的位置保持不变,按式(9)计算花粉在局部授粉中更新的位置
式中,t表示迭代次数。
(8)输出识别的关键蛋白质
花粉经过全局授粉和局部授粉找到当前最优解之后,若迭代次数小于最大迭代次数Maxiter,转向步骤(7);否则,花粉输出全局最优解,即一个候选关键蛋白质集合,将本方法识别出的候选关键蛋白质集合中的蛋白质与标准库中的关键蛋白质进行对比,得出本方法识别的关键蛋白质的性能情况。
以下通过具体实施例对本发明进一步详细说明:
实施例1
以蛋白质相互作用网络为例一种采用改进花授粉算法识别关键蛋白质的方法的步骤如下:
本实施例以采用下载自DIP数据库的酵母数据集(DIP 20101010版)作为仿真数据集,移除蛋白质相互作用数据集中的自相互作用,去掉冗余后最终的蛋白质相互作用网络包括5093个蛋白质和24743个相互作用关系。
基因表达数据集采自GEO数据库中的酵母新陈代谢表达数据集GSE3431,它实际上是一个9335行36列的矩阵,包括了9335个探针在36个不同的时间点上表达谱,矩阵中列代表时间点,行代表基因在代谢周期上的表达谱。经过对数据进行预处理,探针被映射为基因名称,总共获得了7074个基因产物。
最终的蛋白质复合物数据集由两个蛋白质复合物数据集(CM270和CM425)整合得到,第一个蛋白质复合物数据集CM270下载自MIPS数据库,它包含270个蛋白质复合物和1230个蛋白质;第二个蛋白质复合物数据集CM425来源于MIPS、Aloy和SGD数据库,它包括425个蛋白质复合物和1970个蛋白质。去除重复的复合物数据,最终的蛋白质复合物数据集共包含538个蛋白质复合物数据。
亚细胞定位数据集下载自COMPARTMENTS数据库的酵母亚细胞定位数据集,它整合了五个数据库:UniProtKB、MGI、SGD、FlyBase和WormBase,通过预处理,最终包含6892个亚细胞记录。
实验所用的关键蛋白质数据集通过整合数据库MIPS、SGD、DEG和SGDP的酵母蛋白质信息数据得到,最后使用的关键蛋白质集总共包括1285个关键蛋白质。
实验平台Windows 10操作系统,Intel酷睿i5 3.30GHz处理器,8GB内存,用MatlabR2016b软件实现本发明的方法。
1、将蛋白质相互作用网络转化为无向图
将包含5093个蛋白质和24743个相互作用关系的蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,5093}为结点vi的集合,E为24743个边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,…,5093,j=1,2,…,5093。
2、选取度最大的前Q个蛋白质作为花粉个体
结点的度DC即与该结点直接相连的邻居结点的个数,计算所有结点的度并按降序排序,选取前Q个作为初始的花粉个体。按式(1)计算结点i=1,2,…,5093的度:
DC(i)=∑iedge(i,v) 式(1)
式中,结点v表示与结点i直接相连的结点。
3、度量PeC中心性
计算边聚集系数:边聚集系数(edge clustering coefficient,ECC)刻画了边(i,j)的两个结点i和j的亲疏程度,一共有24743条边,每给定一条确定的边,可计算出一组两个结点间的关系,一共可计算出24743组两个结点之间的关系,按式(2)计算边(i,j)的边聚集系数:
式中,ni和nj分别表示结点i和结点j的邻居结点的集合,di和dj分别表示结点i和结点j的度,ECC的取值越大,表明结点i和j属于同一个簇的可能性越大。
计算蛋白质间的皮尔逊相关系数:基因表达数据可以用来表示蛋白质生命运动的过程,利用皮尔逊相关系数(Pearson correlation coefficient,PCC)来计算相互作用的蛋白质的基因共表达的强弱程度,按式(3)计算皮尔逊相关系数:
式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值。
4、确定复合物信息
出现在蛋白质复合物中的蛋白质更可能是关键蛋白,整合两个蛋白质复合物数据集(CM270和CM425),第一个蛋白质复合物数据集CM270包含270个蛋白质复合物和1230个蛋白质;第二个蛋白质复合物数据集CM425包括425个蛋白质复合物和1970个蛋白质。去除重复的复合物数据之后,最终的蛋白质复合物数据集包含538个蛋白质复合物数据;判断一个蛋白质结点出现在几个复合物中即为此蛋白质结点的复合物得分pc,如果一个蛋白质不属于任何一个已知的蛋白质复合物,则其复合物得分pc为0,如果一个蛋白质存在于已知的蛋白质复合物中,则其复合物得分pc为相应存在于已知蛋白质复合物中的次数。
5、确定亚细胞定位信息
亚细胞定位指的是细胞中某种蛋白质出现的具体位置,关键蛋白质在某些亚细胞位置出现的较多;对从亚细胞定位数据库中下载的亚细胞定位数据进行预处理,去除重复的数据,得到所需的包含11个亚细胞位置的数据;把预处理得到的11个位置的亚细胞定位数据集R与关键蛋白质标准数据集进行比对得到他们的关系数据集S,则相应的每一个具体位置的关系数据集为Sr,如果给定一个蛋白质,它出现在数据集R中,则11个亚细胞位置中的每一个具体位置出现的频率Sr/length(S)即为每个位置对应的得分Fi(r);按式(4)计算此蛋白质的亚细胞定位得分:
SL(i)=∑C(i)Fi(r) 式(4)
式中,C(i)表示蛋白质i在R中所对应的亚细胞位置集合,一个蛋白质可能在多个亚细胞位置中的出现。
6、评价花粉重要性
首先,关键蛋白质大多出现在同一簇中且倾向于共表达,pc(i,j)利用边聚集系数(ECC)和皮尔逊相关系数(PCC)分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响,利用pc(i,j)可以得出边(i,j)出现在同一簇中的概率,将pc(i,j)看作边(i,j)的权值,则对于一个蛋白质结点i,计算它的PeC(i)即为结点i的连接边的权值之和;然后,结合蛋白质复合物得分和亚细胞定位得分;最后,计算出每一个蛋白质结点的得分,即得到每一个蛋白质结点的重要程度,且一个花粉由Q个蛋白质结点组成,进而可以对花粉个体的重要性GSC进行评价。边(i,j)出现在同一簇中的概率pc(i,j)由式(5)得到:
pc(i,j)=ECC(i,j)×PCC(i,j) 式(5)
式中,ECC是结点i和结点j之间的边(i,j)的聚集系数由公式(2)得到,PCC是结点i和结点j之间的边的皮尔森聚集系数由公式(3)得到。
结点i的连接边的权值之和PeC(i)由式(6)得到:
式中,ni表示结点i的邻居结点的集合。
花粉的重要性GSC由式(7)得到:
式中,α为一个在[0,1]之间的常数,H={h1,h2,…hQ}表示一个候选关键蛋白质集合,其中每一个元素hi代表一个候选关键蛋白质。
7、更新花粉位置
花授粉算法的更新规则被重新定义。
在全局授粉中,花粉不仅向全局最优解移动,而且自身在全局范围内随机搜索。花粉按全局授粉更新的位置由式(8)得到:
式中,t是迭代次数,cat函数表示连接由和RANDOM得到的位置向量,dim的值为1表示两个由和RANDOM得到的位置向量按列连接,intersect函数表示中的元素和Gbest中的某些元素进行交集运算,Gbest是全局最优解,表示花粉不断向全局最优靠近,RANDOM则表示花粉进行全局范围内的搜索,和RANDOM一起构成花粉经过全局授粉后得到的新位置。
在局部授粉中,花粉的位置保持不变。花粉按局部授粉更新的位置由式(9)得到:
式中,t表示迭代次数。
8、输出识别的关键蛋白质
花粉经过全局授粉和局部授粉找到当前最优解之后,若迭代次数小于最大迭代次数Maxiter,转向步骤(7);否则,花粉输出全局最优解,即一个候选关键蛋白质集合,将本方法识别出的候选关键蛋白质集合中的蛋白质与标准库中的关键蛋白质进行对比,得出本方法识别的关键蛋白质的性能情况。
为了验证本发明的有益效果,发明人采用本发明实施例1采用改进花授粉算法识别关键蛋白质的方法对DIP数据库中的蛋白质网络进行关键蛋白质的识别,根据“排序—筛选”原则对本发明按照降序排序,再选出序列中前600个蛋白质作为候选关键蛋白质进行分析,结果见表1、图2和图3,表1显示了与当前其他识别关键蛋白质的方法识别出来的结果进行对比准确率的比较。在图2中显示了本发明识别的部分关键蛋白质在网络中的分布情况,图3显示了图2的对应标准库部分。
表1本发明与其他方法识别的关键蛋白质在准确率上的比较
表1显示了本发明识别出的结果中的前600个关键蛋白质与标准库中关键蛋白质作比较的准确率,以及与当前其他识别关键蛋白质方法识别结果的比较。与传统的5个中心性方法比较时显示本发明识别的前600个关键蛋白质中准确的概率都比其它中心性方法要好,与当前较新的PeC及WDC方法相比较时,本发明识别出的结果的前600个关键蛋白质的准确率要远远比当前的新方法的结果准确率高。由表1看出,本发明能有效地识别关键蛋白质,有着很高的准确率。图2显示了本发明识别出的部分关键蛋白质在蛋白质相互作用网络中的位置。图2中带深色背景颜色的是本发明正确识别出来的关键蛋白质,不带背景的是非关键蛋白质,带浅色的是错误识别出来的关键蛋白质。图3是图2对应的标准库中的关键蛋白质情况,带深色背景颜色的是标准关键蛋白质,不带背景的是非关键蛋白质。通过图2和图3的对比可以发现,本发明识别出的错误的蛋白质有“YIL035C”和“YBL025W”,漏识别的关键蛋白质有“YJR057W”。说明本发明方法能正确识别出大部分关键蛋白质。
以上所述是本发明的优选实施方式,通过上述说明内容,本技术领域的相关工作人员可以在不偏离本发明技术原理的前提下,进行多样的改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (6)

1.采用改进花授粉算法识别关键蛋白质的方法,其特征在于,包括以下步骤:
(1)将蛋白质相互作用网络转化为无向图
将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连,则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,Λ,n,j=1,2,Λ,n;
(2)选取度最大的前Q个蛋白质作为花粉个体
结点的度DC即与该结点直接相连的邻居结点的个数,计算所有结点的度并按降序排序,选取前Q个作为初始的花粉个体,按式(1)计算结点i的度:
DC(i)=∑iedge(i,v) 式(1)
式中,结点v表示与结点i直接相连的结点;
(3)度量PeC中心性
计算边聚集系数:边聚集系数ECC刻画了边(i,j)的两个结点i和j的亲疏程度,按式(2)计算边(i,j)的边聚集系数:
式中,Ni和Nj分别表示结点i和结点j的邻居结点的集合,di和dj分别表示结点i和结点j的度,ECC的取值越大,表明结点i和j属于同一个簇的可能性越大;
计算蛋白质间的皮尔逊相关系数:基因表达数据用来表示蛋白质生命运动的过程,利用皮尔逊相关系数PCC计算相互作用的蛋白质的基因共表达的强弱程度,按式(3)计算皮尔逊相关系数:
式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;
(4)确定复合物信息
出现在蛋白质复合物中的蛋白质更可能是关键蛋白质,整合两个蛋白质复合物数据集CM270和CM425,去除重复的复合物,得到一个复合物数据集;判断一个蛋白质结点出现在几个复合物中即为此蛋白质结点的复合物得分pc,如果一个蛋白质不属于任何一个已知的蛋白质复合物,则其复合物得分pc为0,如果一个蛋白质存在于已知的蛋白质复合物中,则其复合物得分pc为相应存在于已知蛋白质复合物中的次数;
(5)确定亚细胞定位信息
亚细胞定位指细胞中某种蛋白质出现的具体位置,关键蛋白质在某些亚细胞位置出现的较多;对从亚细胞定位数据库中下载的亚细胞定位数据进行预处理,去除重复的数据,得到所需的包含11个亚细胞位置的数据;把预处理得到的11个位置的亚细胞定位数据集R与关键蛋白质标准数据集进行比对得到他们的关系数据集S,则相应的每一个具体位置的关系数据集为Sr,如果给定一个蛋白质,它出现在数据集R中,则11个亚细胞位置中的每一个具体位置出现的频率Sr/length(S)即为每个位置对应的得分Fi(r);按式(4)计算此蛋白质的亚细胞定位得分:
SL(i)=∑C(i)Fi(r) 式(4)
式中,C(i)表示蛋白质i在数据集R中所对应的亚细胞位置集合,一个蛋白质可能在多个亚细胞位置中的出现;
(6)评价花粉重要性
首先,关键蛋白质大多出现在同一簇中且倾向于共表达,pc(i,j)利用边聚集系数ECC和皮尔逊相关系数PCC分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响,pc(i,j)为边(i,j)出现在同一簇中的概率,将pc(i,j)看作边(i,j)的权值,则对于一个蛋白质结点i,计算结点i的连接边的权值之和PeC(i);
然后,结合蛋白质复合物得分和亚细胞定位得分;
最后,计算出每一个蛋白质结点的得分,即得到每一个蛋白质结点的重要程度,且一个花粉由Q个蛋白质结点组成,进而对花粉个体的重要性GSC进行评价;
(7)更新花粉位置
在全局授粉中,花粉不仅向全局最优解移动,而且自身在全局范围内随机搜索,更新花粉在全局授粉中的位置;
在局部授粉中,花粉的位置保持不变,更新花粉在局部授粉中的位置;
(8)输出识别的关键蛋白质
花粉经过全局授粉和局部授粉找到当前最优解之后,若迭代次数小于最大迭代次数Maxiter,转向步骤(7);否则,花粉输出全局最优解,即一个候选关键蛋白质集合得到关键蛋白质。
2.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(6)中边(i,j)出现在同一簇中的概率pc(i,j)由式(5)得到:
pc(i,j)=ECC(i,j)×PCC(i,j) 式(5)
式中,ECC是结点i和结点j之间的边(i,j)的聚集系数由公式(2)得到,PCC是结点i和结点j之间的边的皮尔森聚集系数由公式(3)得到。
3.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(6)中结点i的连接边的权值之和PeC(i)由式(6)得到:
式中,ni表示结点i的邻居结点的集合。
4.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(6)中的花粉的重要性GSC由式(7)得到:
式中,α为一个在[0,1]之间的常数,H={h1,h2,…hQ}表示一个候选关键蛋白质集合,其中每一个元素hi代表一个候选关键蛋白质。
5.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(7)中的花粉按全局授粉更新的位置由式(8)得到:
式中,t是迭代次数,cat函数表示连接由和RANDOM得到的位置向量,dim的值为1表示两个由和RANDOM得到的位置向量按列连接,intersect函数表示中的元素和Gbest中的某些元素进行交集运算,Gbest是全局最优解,表示花粉不断向全局最优靠近,RANDOM则表示花粉进行全局范围内的搜索,和RANDOM一起构成花粉经过全局授粉后得到的新位置。
6.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(7)中的花粉按局部授粉更新的位置由式(9)得到:
式中,t表示迭代次数。
CN201711039345.8A 2017-10-30 2017-10-30 采用改进花授粉算法识别关键蛋白质的方法 Active CN107885971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711039345.8A CN107885971B (zh) 2017-10-30 2017-10-30 采用改进花授粉算法识别关键蛋白质的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711039345.8A CN107885971B (zh) 2017-10-30 2017-10-30 采用改进花授粉算法识别关键蛋白质的方法

Publications (2)

Publication Number Publication Date
CN107885971A true CN107885971A (zh) 2018-04-06
CN107885971B CN107885971B (zh) 2021-01-15

Family

ID=61783052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711039345.8A Active CN107885971B (zh) 2017-10-30 2017-10-30 采用改进花授粉算法识别关键蛋白质的方法

Country Status (1)

Country Link
CN (1) CN107885971B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629159A (zh) * 2018-05-14 2018-10-09 辽宁大学 一种用于发现阿尔兹海默症致病关键蛋白质的方法
CN108647489A (zh) * 2018-05-15 2018-10-12 华中农业大学 一种筛选疾病药物靶标和靶标组合的方法及系统
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109686403A (zh) * 2018-12-26 2019-04-26 扬州大学 基于不确定蛋白质相互作用网络中关键蛋白质识别方法
CN109801674A (zh) * 2019-01-30 2019-05-24 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009149911A2 (en) * 2008-06-13 2009-12-17 Biocant- Associação De Transferência De Tecnologia Method for processing protein data
CN102176223A (zh) * 2011-01-12 2011-09-07 中南大学 基于关键蛋白质和局部适应的蛋白质复合物识别方法
CN102841985A (zh) * 2012-08-09 2012-12-26 中南大学 一种基于结构域特征的关键蛋白质识别方法
US20130144585A1 (en) * 2011-12-06 2013-06-06 Korea Advanced Institute Of Science And Technology Apparatus and method for idendificaton of protein modification
CN104156634A (zh) * 2014-08-14 2014-11-19 中南大学 基于亚细胞定位特异性的关键蛋白质识别方法
CN105279397A (zh) * 2015-10-26 2016-01-27 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN105868582A (zh) * 2016-03-25 2016-08-17 陕西师范大学 采用果蝇优化方法识别蛋白质复合物
CN106874708A (zh) * 2017-01-23 2017-06-20 陕西师范大学 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009149911A2 (en) * 2008-06-13 2009-12-17 Biocant- Associação De Transferência De Tecnologia Method for processing protein data
CN102176223A (zh) * 2011-01-12 2011-09-07 中南大学 基于关键蛋白质和局部适应的蛋白质复合物识别方法
US20130144585A1 (en) * 2011-12-06 2013-06-06 Korea Advanced Institute Of Science And Technology Apparatus and method for idendificaton of protein modification
CN102841985A (zh) * 2012-08-09 2012-12-26 中南大学 一种基于结构域特征的关键蛋白质识别方法
CN104156634A (zh) * 2014-08-14 2014-11-19 中南大学 基于亚细胞定位特异性的关键蛋白质识别方法
CN105279397A (zh) * 2015-10-26 2016-01-27 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN105868582A (zh) * 2016-03-25 2016-08-17 陕西师范大学 采用果蝇优化方法识别蛋白质复合物
CN106874708A (zh) * 2017-01-23 2017-06-20 陕西师范大学 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIE Z.等: "Identifying protein complexes in dynamic protein-protein interaction networks based on Cuckoo Search algorithm", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
王峘: "基于蛋白质网络的关键蛋白质识别方法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
黄海滨 等: "基于网络拓扑的生物网络关键节点识别研究进展", 《数学的实践与认识》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629159A (zh) * 2018-05-14 2018-10-09 辽宁大学 一种用于发现阿尔兹海默症致病关键蛋白质的方法
CN108629159B (zh) * 2018-05-14 2021-11-26 辽宁大学 一种用于发现阿尔兹海默症致病关键蛋白质的方法
CN108647489A (zh) * 2018-05-15 2018-10-12 华中农业大学 一种筛选疾病药物靶标和靶标组合的方法及系统
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109166604B (zh) * 2018-08-22 2021-07-02 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109686403A (zh) * 2018-12-26 2019-04-26 扬州大学 基于不确定蛋白质相互作用网络中关键蛋白质识别方法
CN109801674A (zh) * 2019-01-30 2019-05-24 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法
CN109801674B (zh) * 2019-01-30 2022-06-14 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法

Also Published As

Publication number Publication date
CN107885971B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN107885971A (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN110532436B (zh) 基于社区结构的跨社交网络用户身份识别方法
Bu et al. A fast parallel modularity optimization algorithm (FPMQA) for community detection in online social network
Rajeh et al. Interplay between hierarchy and centrality in complex networks
TWI766618B (zh) 關鍵點檢測方法、電子設備及電腦可讀儲存介質
Lee et al. Style2vec: Representation learning for fashion items from style sets
CN107515877A (zh) 敏感主题词集的生成方法和装置
Gong et al. Novel heuristic density-based method for community detection in networks
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
CN108319812A (zh) 一种基于布谷鸟搜索算法识别关键蛋白质的方法
CN106708953A (zh) 基于离散粒子群优化的局部社区检测协同过滤推荐方法
Ma et al. Decomposition-based multiobjective evolutionary algorithm for community detection in dynamic social networks
CN107784196B (zh) 基于人工鱼群优化算法识别关键蛋白质的方法
CN109086356A (zh) 大规模知识图谱的错误连接关系诊断及修正方法
CN108229643B (zh) 一种采用果蝇优化算法识别关键蛋白质的方法
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN112507130A (zh) 一种基于多源知识图谱的三元组可信评估方法
CN107609084A (zh) 一种基于群智汇聚收敛的资源关联方法
CN110532399A (zh) 面向游戏问答系统的知识图谱更新方法、系统及装置
CN109166604A (zh) 一种融合多数据特征预测关键蛋白质的计算方法
CN111143704A (zh) 一种融合用户影响关系的在线社区好友推荐方法及系统
CN106874708A (zh) 采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
Gao et al. Multilayer network community detection: A novel multi-objective evolutionary algorithm based on consensus prior information [feature]
CN108804871A (zh) 基于最大邻居子网的关键蛋白质识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant