CN109616153B - 一种采用改进的hits算法识别关键蛋白质的方法 - Google Patents

一种采用改进的hits算法识别关键蛋白质的方法 Download PDF

Info

Publication number
CN109616153B
CN109616153B CN201811481161.1A CN201811481161A CN109616153B CN 109616153 B CN109616153 B CN 109616153B CN 201811481161 A CN201811481161 A CN 201811481161A CN 109616153 B CN109616153 B CN 109616153B
Authority
CN
China
Prior art keywords
node
protein
value
edges
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811481161.1A
Other languages
English (en)
Other versions
CN109616153A (zh
Inventor
雷秀娟
王思果
赵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201811481161.1A priority Critical patent/CN109616153B/zh
Publication of CN109616153A publication Critical patent/CN109616153A/zh
Application granted granted Critical
Publication of CN109616153B publication Critical patent/CN109616153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明将蛋白质相互作用网络转化为有向图、对蛋白质相互作用网络的边的预处理、网络拓扑加权边、网络生物特性加权边、利用HITS算法得到结点权威值和中心值、结点权威值和中心值归一化处理、得到每个结点的综合得分、产生关键蛋白质。本发明通过仿真实验来验证本发明的识别效果,实验结果分别使用敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标来评价本发明中的方法;并将本发明跟其他识别关键蛋白质的方法做对比,结果表明本发明采用改进的HITS算法识别关键蛋白质的方法具有较好的性能,从以上评价指标来看本发明优于其他方法。

Description

一种采用改进的HITS算法识别关键蛋白质的方法
技术领域
本发明属于生物信息技术领域,涉及在蛋白质相互作用网络中识别关键蛋白质的方法,具体涉及一种采用改进的HITS算法识别关键蛋白质的方法。
背景技术
众所周知,蛋白质是细胞生理代谢途径的主要组成部分对生物体很重要。蛋白质参与各种生物过程,通过与其他蛋白质或DNA的相互作用实现几乎所有的细胞功能。随着蛋白质组学在后基因组时代的发展,一些与蛋白质相关的课题已经成为很热门的话题,包括蛋白质结构和功能的发现、识别关键蛋白质或蛋白质复合物的鉴定和功能模块。值得注意的是,仅去除其中一个关键蛋白质就会导致生命机体发生致命缺陷。此外,最近的一些研究结果表明关键蛋白质与人类疾病基因相关并在预测药物靶点方面具有重要作用。因此,识别重要关键蛋白质是至关重要的,这有助于帮助我们了解细胞生命的最低要求,并找到新的方法来治疗疾病。
迄今为止,许多基于生物学实验的方法和基于网络的方法已经被用来预测关键蛋白质。基于传统的生物实验方法,如基因敲除,RNA干扰和条件敲除等,虽然可以准确预测关键蛋白质,但它们耗时且昂贵。随着高通量技术的发展,如酵母双杂交,质谱分析,串联亲和纯化等技术的发展,出现了大量可用的蛋白质相互作用(PPI)数据。为了突破生物实验的约束,一些研究人员基于可用的PPI数据提出了各种计算方法。一些研究表明,PPI网络中高度连接的蛋白质往往是关键蛋白质,这称为中心致死规则。PPI网络中缺乏高度连接的蛋白质节点可能导致整个网络结构的崩溃,并对生物体本身产生致命的影响。受这些研究结果的启发,提出了各种中心性指标,如度中心性(Degree Centrality,DC),介数中心性(Betweenness Centrality,BC),紧密度中心性(Closeness Centrality,CC),特征向量中心性(Eigenvector Centrality,EC),信息中心性(Information Centrality,IC),子图中心性(Subgraph Centrality,SC)和局部平均联通(Local Average Connectivity,LAC)。尽管这些方法可用于识别关键蛋白质并提高了识别效率,但由于PPI数据中假阳性和假阴性的比例较高,它们在某种程度上具有某些缺陷。
为了弥补PPI网络的不足,一些研究者开始通过整合其他生物数据来加权PPI网络,包括基因表达数据、蛋白复合物信息、亚细胞定位信息、蛋白质同源物信息等。Li和Peng等人分别结合PPI网络和基因表达数据提出了两种鉴定关键蛋白质的方法命名为PeC和WDC。一些研究表明关键蛋白质更有可能聚集在蛋白复合物中,基于这一观点Li等人提出了两种结合蛋白复合物信息去识别关键蛋白质的方法分别为UC和改进UC-P。此外,最近许多研究发现,亚细胞定位可能在鉴定关键蛋白质中起重要作用。Tang等人提出了一种名为CNC的方法,将亚细胞定位信息整合在一起以提高识别关键蛋白质的精度。由于关键蛋白质绝大部分具有保守性,因此Li等人提出了一种结合同源物信息的方法去识别关键蛋白质,命名为SON。最近,Peng等人将蛋白质在PPI网络中的域特征与拓扑特性相结合提出了一种新的预测方法UDoNC。同时,Xu等人提出了将多个数据源加权PPI网络的重要度排名方法去识别关键蛋白质。
虽然上述研究者提出了大量的方法去识别关键蛋白质,但是识别精度和效率依然不是很高,而且大多数方法都是需要分析参数对方法的影响,缺乏对方法的整体性认识,并且大部分的方法都是将PPI网络转化为无向图,没有考虑到加权过程中的方向性。所以这一课题仍然值得我们进一步研究和探讨。
综合上述分析,识别关键蛋白质的过程中不仅要考虑网络的拓扑特性还要考虑生物特性在在识别关键蛋白质的过程中的作用,如何运用这些特征并且运用什么样的排序的方法去识别关键蛋白质就显得尤为重要。
发明内容
本发明所要解决的问题在于克服现有的识别关键蛋白质的方法上的不足,提出一种采用改进的HITS算法识别关键蛋白质的方法,该方法不仅考虑网络拓扑特性,还分别考虑了蛋白质网络的假阳性和假阴性、蛋白质功能和蛋白质的位置,并采用并行的方法去识别关键蛋白质提高了识别精度和效率。
本发明是通过以下技术方案来实现:
本发明公开了一种采用改进的HITS算法识别关键蛋白质的方法,包括以下步骤:
1)将蛋白质相互作用网络转化为双向有向图
将蛋白质相互作用网络转化为一个双向有向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
2)对蛋白质相互作用网络的边的预处理
边的预处理包括计算边的聚集系数、边的基因表达相似性、边的功能相似性、边的可靠相似性;
3)网络拓扑加权边
根据2)得到的边聚集系数得到网络拓扑加权边的权值wvu
4)网络生物特性加权边
根据2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权,得到生物信息加权边的权值wuv
5)利用HITS算法得到结点权威值和中心值
利用HITS算法得到每个结点的权威值a(v)和中心值h(v);
6)结点权威值和中心值归一化处理
根据5)得到的权威值a(v)和中心值h(p),对其进行归一化处理,得到标准权威值a(v)和标准中心值h(v);iter迭代加1;
7)得到每个结点的综合得分
若iter的值小于等于maxiter,则转向步骤6);此时,根据每个结点当前的权威值a(v)和中心值h(v)得到综合得分Fin(v);
8)产生关键蛋白质
根据步骤7)得到的每个结点的综合得分Fin(v),对蛋白质进行排序;随着k个不同参数的变化,每个结点的排序也会有所变化,将所有的蛋白质的排序合并为一个关键蛋白质候选集Xi,统计候选集Xi中蛋白质出现的个数作为集成得分EM(v),若某个蛋白质的集成得分EM(v)大于设定阈值
Figure BDA0001893416770000048
则认为其为关键蛋白质。
优选地,步骤2)中,边预处理具体包括:
按式(1)计算边的聚集系数:
Figure BDA0001893416770000041
式中,Z(v,u)表示包含边(v,u)的三角形个数,di,dj分别是结点v和u的度;
按式(2)计算边的基因表达相似性:
Figure BDA0001893416770000042
式中g(u,i),g(v,i)分别代表了蛋白质结点u和v在时间i时的表达水平,
Figure BDA0001893416770000046
Figure BDA0001893416770000047
分别代表了蛋白质结点u和v的平均表达水平;
按式(3)计算边的功能相似性:
Figure BDA0001893416770000043
式中,
Figure BDA0001893416770000044
是与蛋白质结点vi有关的GO术语k的S值,
Figure BDA0001893416770000045
是与蛋白质结点vj有关的GO术语k的S值;
按式(4)计算边的可靠性:
Figure BDA0001893416770000051
式中,C代表了边(u,v)在亚细胞位置中出现的次数,Cmax代表了边(u,v)在亚细胞位置中出现的最大次数;
优选地,步骤3)中,网络拓扑加权边的权值wvu由式(5)计算得到:
wvu=ECC(v,u) (5);
式中,ECC是蛋白质结点v和蛋白结点u之间的边聚集系数,由公式(1)得到;
优选地,步骤4)中,生物信息加权边的权值wuv由式(6)计算得到:
wuv=PCC(u,v)+GO_sim(u,v)+SL(u,v) (6);
式中,PCC是蛋白质结点v和蛋白结点u之间的基因表达相似性,由公式(2)得到;GO_sim(v,u)是蛋白质结点v和蛋白结点u之间的功能相似性,由公式(3)得到;SL(u,v)是蛋白质结点v和蛋白结点u之间的可靠性,由公式(4)得到;
优选地,步骤5)中,每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到:
a(v)=∑q∈B(v)h(q) (7);
h(v)=∑q∈F(v)a(q) (8);
式中,B(p)代表了指向蛋白质结点v的蛋白质集合,F(p)代表蛋白质结点v指向的蛋白质集合;
优选地,步骤6)中,每个结点的标准权威值a(v)和标准中心值h(v)由式(9)、(10)计算得到:
Figure BDA0001893416770000052
Figure BDA0001893416770000053
式中,a(v)代表了每个蛋白质结点v的权威值,由公式(7)得到;式中,h(v)代表了每个蛋白质结点v的中心值,由公式(8)得到;右侧的a(v)为式(7)计算出来的值,左侧的a(v)为式(7)计算出的值除以当前最大的a(v)值得到每个结点新的a(v)值。
优选地,步骤7)中,每个结点的综合得分Fin(v)由式(11)得到:
Fin(v)=α*a(v)+(1-α)*h(v) (11);
式中,α∈[0,1]用来调节拓扑特性和生物信息在识别关键蛋白之中的比例;a(v),h(v)分别由公式(9)和公式(10)得到;
优选地,步骤8)中,每个结点的集成得分EM(v)由式(12)得到:
Figure BDA0001893416770000061
Figure BDA0001893416770000062
式中,k代表了上述参数α的取值个数;Xi代表了关键蛋白质候选集合。
与现有技术相比,本发明具有以下有益的技术效果:
1、本发明不仅结合了网络拓扑特征还考虑了生物特性对识别关键蛋白质的作用,主要包括三个方面:蛋白质网络的假阳性和假阴性、蛋白质的功能和蛋白质的位置;并且将蛋白质相互作用网络转化为双向有向图,利用网络拓扑特性和生物特性分别对蛋白质网络进行加权。
2、本发明采用改进的HITS算法在加权的PPI网络上,提高了算法的运行效率,并且能很好的融合网络拓扑特性和生物特性。
3、本发明为了综合考虑参数对本方法的影响并且促进该方法的广泛应用,采用了一种综合的方法来为每个蛋白质打分,并最终确定是否为蛋白质。
4、采用本发明的结果能够有效地高效率地识别蛋白质相互作用网络中的关键蛋白质,这对于理解细胞的生命活动和发展是很有用的,甚至对于疾病基因的研究和药物设计提供了一定的理论依据。
【附图说明】
图1是本发明流程图;
图2是实施例1采用本发明识别的部分关键蛋白质在蛋白质网络中的分布情况。
具体实施方式
下面结合附图和实施实例对本发明进一步详细说明,但本发明并不仅限于这些实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明采用改进的HITS算法识别关键蛋白质的方法,包括以下步骤:
(1)将蛋白质相互作用网络转化为双向有向图
将蛋白质相互作用网络转化为一个双向有向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
(2)对蛋白质相互作用网络的边的预处理
按式(1)计算边的聚集系数:
Figure BDA0001893416770000071
式中,Z(v,u)表示包含边(v,u)的三角形个数,di,dj分别是结点v和u的度;
按式(2)计算边的基因表达相似性:
Figure BDA0001893416770000072
式中g(u,i),g(v,i)分别代表了蛋白质结点u和v在时间i时的表达水平,
Figure BDA0001893416770000073
Figure BDA0001893416770000081
分别代表了蛋白质结点u和v的平均表达水平;
按式(3)计算边的功能相似性:
Figure BDA0001893416770000082
式中,
Figure BDA0001893416770000084
是与蛋白质结点vi有关的GO术语k的S值,
Figure BDA0001893416770000085
是与蛋白质结点vj有关的GO术语k的S值;
按式(4)计算边的可靠性:
Figure BDA0001893416770000083
式中,C代表了边(u,v)在亚细胞位置中出现的次数,Cmax代表了边(u,v)在亚细胞位置中出现的最大次数;
3)网络拓扑加权边
根据(2)得到的边聚集系数得到网络拓扑加权边的权值wvu
4)网络生物特性加权边
根据(2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权,得到生物信息加权边的权值wuv
5)利用HITS算法得到结点权威值和中心值
利用HITS算法得到每个结点的权威值a(v)和中心值h(v);
6)结点权威值和中心值归一化处理
根据(5)得到的权威值a(v)和中心值h(p),对其进行归一化处理,得到标准权威值a(v)和标准中心值h(v);iter迭代加1;
7)得到每个结点的综合得分
若iter的值小于等于maxiter,则转向步骤6);此时,根据每个结点当前的权威值a(v)和中心值h(v)得到综合得分Fin(v);
8)产生关键蛋白质
根据步骤7)得到的每个结点的综合得分Fin(v),对蛋白质进行排序;随着k个不同参数的变化,每个结点的排序也会有所变化,将所有的蛋白质的排序合并为一个关键蛋白质候选集Xi,统计候选集Xi中蛋白质出现的个数作为集成得分EM(v),若某个蛋白质的集成得分EM(v)大于设定阈值
Figure BDA0001893416770000091
则认为其为关键蛋白质。
本发明步骤3)中,网络拓扑加权边的权值wvu由式(5)计算得到:
wvu=ECC(v,u) (5);
式中,ECC是蛋白质结点v和蛋白结点u之间的边聚集系数,由公式(1)得到;
本发明步骤4)中,生物信息加权边的权值wuv由式(6)计算得到:
wuv=PCC(u,v)+GO_sim(u,v)+SL(u,v) (6);
式中,PCC是蛋白质结点v和蛋白结点u之间的基因表达相似性,由公式(2)得到;GO_sim(v,u)是蛋白质结点v和蛋白结点u之间的功能相似性,由公式(3)得到;SL(u,v)是蛋白质结点v和蛋白结点u之间的可靠性,由公式(4)得到;
本发明步骤5)中,每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到:
a(v)=∑q∈B(v)h(q) (7);
h(v)=∑q∈F(v)a(q) (8);
式中,B(p)代表了指向蛋白质结点v的蛋白质集合,F(p)代表蛋白质结点v指向的蛋白质集合;
本发明步骤6)中,每个结点的标准权威值a(v)和标准中心值h(v)由式(9)、(10)计算得到:
Figure BDA0001893416770000101
Figure BDA0001893416770000102
式中,a(v)代表了每个蛋白质结点v的权威值,由公式(7)得到;式中,h(v)代表了每个蛋白质结点v的中心值,由公式(8)得到;
本发明步骤7)中,每个结点的综合得分Fin(v)由式(11)得到:
Fin(v)=α*a(v)+(1-α)*h(v) (11);
式中,α∈[0,1]用来调节拓扑特性和生物信息在识别关键蛋白之中的比例;a(v),h(v)分别由公式(9)和公式(10)得到;
本发明步骤8)中,每个结点的集成得分EM(v)由式(12)得到:
Figure BDA0001893416770000103
Figure BDA0001893416770000104
式中,k代表了上述参数α的取值个数;Xi代表了关键蛋白质候选集合。
实施例
本实施例拟采用DIP数据库的酵母数据集作为仿真数据集,经过去重等处理后DIP中的酵母数据集包含5093个蛋白质和24743条相互作用关系。基因表达数据采自GEO数据库中的酵母数据集其中包括7074个基因。GO数据库是生物信息学中最全面的本体数据库之一,从GO Consortium数据库获得酵母GO注释数据。亚细胞位置被分为十一个位置,该数据采自COMPARTMENTS数据库其中它包含5095个蛋白质和206831条亚细胞定位记录。关键蛋白质标准数据库由4个数据库整合而来,分别包括MIPS、SGD、DEG和SGDP,它包含1285个关键蛋白质,对应到酵母数据中有1167个关键蛋白质。本发明的实验平台为Windows 10 64位操作系统,处理器为Intel(R)Core(TM)i5-6600 CPU,8GB物理内存,实验仿真软件平台为Matlab2016a。
采用改进的HITS算法识别关键蛋白质的方法,步骤如下:
1、将蛋白质相互作用网络转化为双向有向图
将蛋白质相互作用网络转化为一个双向有向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
2、对蛋白质相互作用网络的边的预处理
按式(1)计算边的聚集系数:
Figure BDA0001893416770000111
式中,Z(v,u)表示包含边(v,u)的三角形个数,di,dj分别是结点v和u的度;
按式(2)计算边的基因表达相似性:
Figure BDA0001893416770000112
式中g(u,i),g(v,i)分别代表了蛋白质结点u和v在时间i时的表达水平,
Figure BDA0001893416770000113
Figure BDA0001893416770000114
分别代表了蛋白质结点u和v的平均表达水平;
按式(3)计算边的功能相似性:
Figure BDA0001893416770000115
式中,
Figure BDA0001893416770000116
是与蛋白质结点vi有关的GO术语k的S值,
Figure BDA0001893416770000117
是与蛋白质结点vj有关的GO术语k的S值;
按式(4)计算边的可靠性:
Figure BDA0001893416770000118
式中,C代表了边(u,v)在亚细胞位置中出现的次数,Cmax代表了边(u,v)在亚细胞位置中出现的最大次数;
3、网络拓扑加权边
根据(2)得到的边聚集系数得到网络拓扑加权边的权值wvu,wvu由式(5)计算得到:
wvu=ECC(v,u) (5);
式中,ECC是蛋白质结点v和蛋白结点u之间的边聚集系数,由公式(1)
4、网络生物特性加权边
根据(2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权,得到生物信息加权边的权值wuv,wuv由式(6)计算得到:
wuv=PCC(u,v)+GO_sim(u,v)+SL(u,v) (6);
式中,PCC是蛋白质结点v和蛋白结点u之间的基因表达相似性,由公式(2)得到;GO_sim(v,u)是蛋白质结点v和蛋白结点u之间的功能相似性,由公式(3)得到;SL(u,v)是蛋白质结点v和蛋白结点u之间的可靠性,由公式(4)得到;
5、利用HITS算法得到结点权威值和中心值
利用HITS算法得到每个结点的权威值a(v)和中心值h(v),每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到:
a(v)=∑q∈B(v)h(q) (7);
h(v)=∑q∈F(v)a(q) (8);
式中,B(p)代表了指向蛋白质结点v的蛋白质集合,F(p)代表蛋白质结点v指向的蛋白质集合;
6、结点权威值和中心值归一化处理
根据(5)得到的权威值a(v)和中心值h(p),对其进行归一化处理,得到标准权威值a(v)和标准中心值h(v);iter迭代加1;每个结点的标准权威值a(v)和标准中心值h(v)由式(9)、(10)计算得到:
Figure BDA0001893416770000131
Figure BDA0001893416770000132
式中,a(v)代表了每个蛋白质结点v的权威值,由公式(7)得到;式中,h(v)代表了每个蛋白质结点v的中心值,由公式(8)得到;
7、得到每个结点的综合得分
若iter的值小于等于maxiter,则转向步骤6);此时,根据每个结点当前的权威值a(v)和中心值h(v)得到综合得分Fin(v);
每个结点的综合得分Fin(v)由式(11)得到:
Fin(v)=α*a(v)+(1-α)*h(v) (11);
式中,α∈[0,1]用来调节拓扑特性和生物信息在识别关键蛋白之中的比例;a(v),h(v)分别由公式(9)和公式(10)得到;
8、产生关键蛋白质
根据(7)得到的每个结点的Fin(v),对蛋白质进行排序;随着参数的变化,每个结点的排序也会有所变化,将所有的蛋白质的排序合并为一个关键蛋白质候选集Xi,统计候选集中蛋白质出现的个数作为集成得分EM(v),若集成得分大于设定阈值T,我们认为它为关键蛋白质。每个结点的集成得分EM(v)由式(12)得到:
Figure BDA0001893416770000133
Figure BDA0001893416770000134
式中,k代表了权利要求7中的参数α的取值个数;Xi代表了关键蛋白质候选集合。
为了评价本发明的实验效果,采用本发明实施例1采用改进的HITS算法识别关键蛋白质的方法对DIP数据库中的蛋白质网络进行关键蛋白质的识别,把前25%(5093*25%=1274)的蛋白质作为关键蛋白质候选集,然后跟标准数据库进行对比。结果见表1图2,表1显示了本发明与当前其他识别关键蛋白质的方法识别出来的结果进行对比,对比内容包括六个统计测率分别包括SN(敏感性)、SP(特异性)、PPV(阳性预测值)、NPV(阴性预测值)、F-measure(精确率和召回率调和值)、ACC(精确值)。图2显示了实施例1采用本发明识别的部分关键蛋白质在网络中的分布情况。
表1本发明与其他方法识别的关键蛋白质SN、SP、PPV、NPV、F-measure、ACC的比较
Figure BDA0001893416770000141
表1显示了本发明把前25%个蛋白质作为关键蛋白质候选集与关键蛋白质标准库的比对结果包含SN、SP、PPV、NPV、F-measure、ACC,以及一些现有的其他识别关键蛋白质的方法的结果。与本发明对比的其他方法代表了不同的角度识别关键蛋白质,挑选的现有的方法涵盖范围较广,其中涉及基本的拓扑中心性的方法包括DC、EC、IC、SC、NC和LAC,涉及与生物信息相融合的方法包括结合基因表达数据的PeC方法和运用了蛋白质结构域数据的方法UDoNC。从表1中我们可以看出本发明实验结果都优于现有的方法,这表明本发明对识别关键蛋白质有良好作用。图2显示了实施例1采用本发明识别的关键蛋白质在蛋白质相互作用网络中的位置。在图2中,每个圆圈代表了识别出的关键蛋白质,圆圈的大小代表了每个蛋白质结点的度的大小。从图中我们可以看出,识别出的关键蛋白质具有良好的拓扑特性,并且在图2中只有蛋白质‘YHR066W’是本发明识别为关键蛋白质但实际情况为非关键的蛋白质,在识别出的前51个中,只有一个结果相反,说明本方法的识别效率和准确率是比较高的,当然上述的蛋白质‘YHR066W’识别报错,也表明度数大的蛋白质不一定为关键蛋白质。
综上所述,本发明将蛋白质相互作用网络转化为有向图、对蛋白质相互作用网络的边的预处理、网络拓扑加权边、网络生物特性加权边、利用HITS算法得到结点权威值和中心值、结点权威值和中心值归一化处理、得到每个结点的综合得分、产生关键蛋白质。本发明通过仿真实验来验证本发明的识别效果,实验结果分别使用敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标来评价本发明中的方法;并将本发明跟其他识别关键蛋白质的方法做对比,结果表明本发明采用改进的HITS算法识别关键蛋白质的方法具有较好的性能,从以上评价指标来看本发明优于其他方法。
以上所述是本发明的优选实施方式,通过上述说明内容,本技术领域的相关工作人员可以在不偏离本发明技术原理的前提下,进行多样的改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (6)

1.一种采用改进的HITS算法识别关键蛋白质的方法,其特征在于,包括以下步骤:
1)将蛋白质相互作用网络转化为双向有向图
将蛋白质相互作用网络转化为一个双向有向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
2)对蛋白质相互作用网络的边的预处理
边的预处理包括计算边的聚集系数、边的基因表达相似性、边的功能相似性、边的可靠性;
3)网络拓扑加权边
根据步骤2)得到的边聚集系数得到网络拓扑加权边的权值wvu
4)网络生物特性加权边
根据步骤2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权,得到生物信息加权边的权值wuv
5)利用HITS算法得到结点权威值和中心值
利用HITS算法得到每个结点的权威值a(v)和中心值h(v),每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到:
a(v)=∑q∈B(v)h(q) (7);
h(v)=∑q∈F(v)a(q) (8);
式中,B(v)代表指向蛋白质结点v的蛋白质集合,F(v)代表蛋白质结点v指向的蛋白质集合;
6)结点权威值和中心值归一化处理
对步骤5)得到的权威值a(v)和中心值h(v),进行归一化处理,得到标准权威值a’(v)和标准中心值h’(v);iter迭代加1;
每个结点的标准权威值a’(v)和标准中心值h’(v)由式(9)、(10)计算得到:
Figure FDA0003624135110000021
Figure FDA0003624135110000022
式中,a(v)代表每个蛋白质结点v的权威值,由公式(7)得到;式中,h(v)代表每个蛋白质结点v的中心值,由公式(8)得到;
7)得到每个结点的综合得分
若iter的值小于等于次数maxiter,则转向步骤6);此时,根据每个结点当前的标准权威值a’(v)和标准中心值h’(v)得到综合得分Fin(v);
8)产生关键蛋白质
根据步骤7)得到的每个结点的综合得分Fin(v),对蛋白质进行排序;随着k个不同参数的变化,每个结点的排序也会有所变化,将所有的蛋白质的排序合并为一个关键蛋白质候选集Xi,统计候选集Xi中蛋白质出现的个数作为集成得分EM(v),若某个蛋白质的集成得分EM(v)大于设定阈值
Figure FDA0003624135110000024
则认为其为关键蛋白质。
2.根据权利要求1所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤2)中,边预处理具体包括:
按式(1)计算边的聚集系数:
Figure FDA0003624135110000023
式中,Z(v,u)表示包含边(v,u)的三角形个数,di,dj分别是结点v和u的度;
按式(2)计算边的基因表达相似性:
Figure FDA0003624135110000031
式中,g(u,i)和g(v,i)分别代表蛋白质结点u和v在时间i时的表达水平,
Figure FDA0003624135110000032
Figure FDA0003624135110000033
分别代表蛋白质结点u和v的平均表达水平;
按式(3)计算边的功能相似性:
Figure FDA0003624135110000034
式中,Sv(t)是与蛋白质结点v有关的GO术语k的S值,Su(t)是与蛋白质结点u有关的GO术语k的S值;
按式(4)计算边的可靠性:
Figure FDA0003624135110000035
式中,C代表边(u,v)在亚细胞位置中出现的次数,Cmax代表边(u,v)在亚细胞位置中出现的最大次数。
3.根据权利要求2所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤3)中,网络拓扑加权边的权值wvu由式(5)计算得到:
wvu=ECC(v,u) (5);
式中,ECC是蛋白质结点v和蛋白质结点u之间的边聚集系数,由公式(1)得到。
4.根据权利要求2所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤4)中,生物信息加权边的权值wuv由式(6)计算得到:
wuv=PCC(u,v)+GO_sim(u,v)+SL(u,v) (6);
式中,PCC是蛋白质结点v和蛋白质结点u之间的基因表达相似性,由公式(2)得到;GO_sim(u,v)是蛋白质结点v和蛋白质结点u之间的功能相似性,由公式(3)得到;SL(u,v)是蛋白质结点v和蛋白质结点u之间的可靠性,由公式(4)得到。
5.根据权利要求1所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤7)中,每个结点的综合得分Fin(v)由式(11)得到:
Fin(v)=α*a′(v)+(1-α)*h′(v) (11);
式中,α∈[0,1]用来调节拓扑特性和生物信息在识别关键蛋白之中的比例;a′(v),h′(v)分别由公式(9)和公式(10)得到。
6.根据权利要求5所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤8)中,每个结点的集成得分EM(v)由式(12)得到:
Figure FDA0003624135110000041
Figure FDA0003624135110000042
式中,k代表式(11)中的参数α的取值个数;Xi代表关键蛋白质候选集合。
CN201811481161.1A 2018-12-05 2018-12-05 一种采用改进的hits算法识别关键蛋白质的方法 Active CN109616153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811481161.1A CN109616153B (zh) 2018-12-05 2018-12-05 一种采用改进的hits算法识别关键蛋白质的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811481161.1A CN109616153B (zh) 2018-12-05 2018-12-05 一种采用改进的hits算法识别关键蛋白质的方法

Publications (2)

Publication Number Publication Date
CN109616153A CN109616153A (zh) 2019-04-12
CN109616153B true CN109616153B (zh) 2022-08-05

Family

ID=66006121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811481161.1A Active CN109616153B (zh) 2018-12-05 2018-12-05 一种采用改进的hits算法识别关键蛋白质的方法

Country Status (1)

Country Link
CN (1) CN109616153B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724787B (zh) * 2021-07-28 2024-05-03 扬州大学 一种基于核心-附件结构的蛋白质复合物识别方法
CN113990397B (zh) * 2021-12-20 2022-03-29 北京科技大学 基于有监督学习检测蛋白质复合物的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279397A (zh) * 2015-10-26 2016-01-27 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN105868582A (zh) * 2016-03-25 2016-08-17 陕西师范大学 采用果蝇优化方法识别蛋白质复合物
CN108229643A (zh) * 2018-02-05 2018-06-29 陕西师范大学 一种采用果蝇优化算法识别关键蛋白质的方法
CN108319812A (zh) * 2018-02-05 2018-07-24 陕西师范大学 一种基于布谷鸟搜索算法识别关键蛋白质的方法
CN108733976A (zh) * 2018-05-23 2018-11-02 扬州大学 基于融合生物与拓扑特征的关键蛋白质识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279397A (zh) * 2015-10-26 2016-01-27 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN105868582A (zh) * 2016-03-25 2016-08-17 陕西师范大学 采用果蝇优化方法识别蛋白质复合物
CN108229643A (zh) * 2018-02-05 2018-06-29 陕西师范大学 一种采用果蝇优化算法识别关键蛋白质的方法
CN108319812A (zh) * 2018-02-05 2018-07-24 陕西师范大学 一种基于布谷鸟搜索算法识别关键蛋白质的方法
CN108733976A (zh) * 2018-05-23 2018-11-02 扬州大学 基于融合生物与拓扑特征的关键蛋白质识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Identifying Essential Proteins in Dynamic PPI Network with Improved FOA;Xiujuan Lei 等;《INTERNATIONAL JOURNAL OF COMPUTERS COMMUNICATIONS & CONTROL》;20180630;第13卷(第3期);第365-382页 *
Predicting Essential Proteins Based on Gene Expression Data, Subcellular Localization and PPI Data;Xiujuan Lei 等;《BIC-TA 2017》;20171231;第92-105页 *

Also Published As

Publication number Publication date
CN109616153A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN108319812B (zh) 一种基于布谷鸟搜索算法识别关键蛋白质的方法
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
CN107784196B (zh) 基于人工鱼群优化算法识别关键蛋白质的方法
CN108229643B (zh) 一种采用果蝇优化算法识别关键蛋白质的方法
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN109727637B (zh) 基于混合蛙跳算法识别关键蛋白质的方法
CN109616153B (zh) 一种采用改进的hits算法识别关键蛋白质的方法
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
CN111145830A (zh) 基于网络传播的蛋白质功能预测方法
CN106372458A (zh) 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法
Hu et al. Multiparticipant federated feature selection algorithm with particle swarm optimization for imbalanced data under privacy protection
WO2021229454A1 (en) Retrosynthesis-related synthetic accessibility
Huang et al. Clustering of cancer attributed networks by dynamically and jointly factorizing multi-layer graphs
CN114242168B (zh) 一种识别生物必需蛋白质方法
Putluri et al. New exon prediction techniques using adaptive signal processing algorithms for genomic analysis
WO2022257457A1 (zh) 产品数据的融合方法、装置、设备及存储介质
Li et al. AngClust: angle feature-based clustering for short time series gene expression profiles
CN111128292B (zh) 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法
Liu et al. Crbsp: prediction of circrna-rbp binding sites based on multimodal intermediate fusion
Wang et al. Multi-view random-walk graph regularization low-rank representation for cancer clustering and differentially expressed gene selection
Lu et al. A mixed clustering coefficient centrality for identifying essential proteins
Nagi et al. Cluster analysis of cancer data using semantic similarity, sequence similarity and biological measures
Lei et al. Identifying essential proteins in dynamic ppi network with improved foa
Ai et al. Virtual screening for COX-2 inhibitors with random forest algorithm and feature selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant