CN109616153B

CN109616153B - 一种采用改进的hits算法识别关键蛋白质的方法

Info

Publication number: CN109616153B
Application number: CN201811481161.1A
Authority: CN
Inventors: 雷秀娟; 王思果; 赵杰
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2022-08-05
Anticipated expiration: 2038-12-05
Also published as: CN109616153A

Abstract

本发明将蛋白质相互作用网络转化为有向图、对蛋白质相互作用网络的边的预处理、网络拓扑加权边、网络生物特性加权边、利用HITS算法得到结点权威值和中心值、结点权威值和中心值归一化处理、得到每个结点的综合得分、产生关键蛋白质。本发明通过仿真实验来验证本发明的识别效果，实验结果分别使用敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标来评价本发明中的方法；并将本发明跟其他识别关键蛋白质的方法做对比，结果表明本发明采用改进的HITS算法识别关键蛋白质的方法具有较好的性能，从以上评价指标来看本发明优于其他方法。

Description

一种采用改进的HITS算法识别关键蛋白质的方法

技术领域

本发明属于生物信息技术领域，涉及在蛋白质相互作用网络中识别关键蛋白质的方法，具体涉及一种采用改进的HITS算法识别关键蛋白质的方法。

背景技术

众所周知，蛋白质是细胞生理代谢途径的主要组成部分对生物体很重要。蛋白质参与各种生物过程，通过与其他蛋白质或DNA的相互作用实现几乎所有的细胞功能。随着蛋白质组学在后基因组时代的发展，一些与蛋白质相关的课题已经成为很热门的话题，包括蛋白质结构和功能的发现、识别关键蛋白质或蛋白质复合物的鉴定和功能模块。值得注意的是，仅去除其中一个关键蛋白质就会导致生命机体发生致命缺陷。此外，最近的一些研究结果表明关键蛋白质与人类疾病基因相关并在预测药物靶点方面具有重要作用。因此，识别重要关键蛋白质是至关重要的，这有助于帮助我们了解细胞生命的最低要求，并找到新的方法来治疗疾病。

迄今为止，许多基于生物学实验的方法和基于网络的方法已经被用来预测关键蛋白质。基于传统的生物实验方法，如基因敲除，RNA干扰和条件敲除等，虽然可以准确预测关键蛋白质，但它们耗时且昂贵。随着高通量技术的发展，如酵母双杂交，质谱分析，串联亲和纯化等技术的发展，出现了大量可用的蛋白质相互作用(PPI)数据。为了突破生物实验的约束，一些研究人员基于可用的PPI数据提出了各种计算方法。一些研究表明，PPI网络中高度连接的蛋白质往往是关键蛋白质，这称为中心致死规则。PPI网络中缺乏高度连接的蛋白质节点可能导致整个网络结构的崩溃，并对生物体本身产生致命的影响。受这些研究结果的启发，提出了各种中心性指标，如度中心性(Degree Centrality,DC)，介数中心性(Betweenness Centrality，BC)，紧密度中心性(Closeness Centrality，CC)，特征向量中心性(Eigenvector Centrality，EC)，信息中心性(Information Centrality，IC)，子图中心性(Subgraph Centrality，SC)和局部平均联通(Local Average Connectivity，LAC)。尽管这些方法可用于识别关键蛋白质并提高了识别效率，但由于PPI数据中假阳性和假阴性的比例较高，它们在某种程度上具有某些缺陷。

为了弥补PPI网络的不足，一些研究者开始通过整合其他生物数据来加权PPI网络，包括基因表达数据、蛋白复合物信息、亚细胞定位信息、蛋白质同源物信息等。Li和Peng等人分别结合PPI网络和基因表达数据提出了两种鉴定关键蛋白质的方法命名为PeC和WDC。一些研究表明关键蛋白质更有可能聚集在蛋白复合物中，基于这一观点Li等人提出了两种结合蛋白复合物信息去识别关键蛋白质的方法分别为UC和改进UC-P。此外，最近许多研究发现，亚细胞定位可能在鉴定关键蛋白质中起重要作用。Tang等人提出了一种名为CNC的方法，将亚细胞定位信息整合在一起以提高识别关键蛋白质的精度。由于关键蛋白质绝大部分具有保守性，因此Li等人提出了一种结合同源物信息的方法去识别关键蛋白质，命名为SON。最近，Peng等人将蛋白质在PPI网络中的域特征与拓扑特性相结合提出了一种新的预测方法UDoNC。同时，Xu等人提出了将多个数据源加权PPI网络的重要度排名方法去识别关键蛋白质。

虽然上述研究者提出了大量的方法去识别关键蛋白质，但是识别精度和效率依然不是很高，而且大多数方法都是需要分析参数对方法的影响，缺乏对方法的整体性认识，并且大部分的方法都是将PPI网络转化为无向图，没有考虑到加权过程中的方向性。所以这一课题仍然值得我们进一步研究和探讨。

综合上述分析，识别关键蛋白质的过程中不仅要考虑网络的拓扑特性还要考虑生物特性在在识别关键蛋白质的过程中的作用，如何运用这些特征并且运用什么样的排序的方法去识别关键蛋白质就显得尤为重要。

发明内容

本发明所要解决的问题在于克服现有的识别关键蛋白质的方法上的不足，提出一种采用改进的HITS算法识别关键蛋白质的方法，该方法不仅考虑网络拓扑特性，还分别考虑了蛋白质网络的假阳性和假阴性、蛋白质功能和蛋白质的位置，并采用并行的方法去识别关键蛋白质提高了识别精度和效率。

本发明是通过以下技术方案来实现：

本发明公开了一种采用改进的HITS算法识别关键蛋白质的方法，包括以下步骤：

1)将蛋白质相互作用网络转化为双向有向图

将蛋白质相互作用网络转化为一个双向有向图G＝(V，E)，其中，V＝{v₁,v₂,…,v_i,…,v_n}为结点v_i的集合，E为边e的集合，结点v_i表示蛋白质，边e表示蛋白质之间的相互作用，n表示蛋白质结点的个数；

2)对蛋白质相互作用网络的边的预处理

边的预处理包括计算边的聚集系数、边的基因表达相似性、边的功能相似性、边的可靠相似性；

3)网络拓扑加权边

根据2)得到的边聚集系数得到网络拓扑加权边的权值w_vu；

4)网络生物特性加权边

根据2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权，得到生物信息加权边的权值w_uv；

5)利用HITS算法得到结点权威值和中心值

利用HITS算法得到每个结点的权威值a(v)和中心值h(v)；

6)结点权威值和中心值归一化处理

根据5)得到的权威值a(v)和中心值h(p)，对其进行归一化处理，得到标准权威值a(v)和标准中心值h(v)；iter迭代加1；

7)得到每个结点的综合得分

若iter的值小于等于maxiter，则转向步骤6)；此时，根据每个结点当前的权威值a(v)和中心值h(v)得到综合得分Fin(v)；

8)产生关键蛋白质

根据步骤7)得到的每个结点的综合得分Fin(v)，对蛋白质进行排序；随着k个不同参数的变化，每个结点的排序也会有所变化，将所有的蛋白质的排序合并为一个关键蛋白质候选集X_i，统计候选集X_i中蛋白质出现的个数作为集成得分EM(v)，若某个蛋白质的集成得分EM(v)大于设定阈值

则认为其为关键蛋白质。

优选地，步骤2)中，边预处理具体包括：

按式(1)计算边的聚集系数：

式中，Z(v,u)表示包含边(v,u)的三角形个数，d_i,d_j分别是结点v和u的度；

按式(2)计算边的基因表达相似性：

式中g(u,i),g(v,i)分别代表了蛋白质结点u和v在时间i时的表达水平，

分别代表了蛋白质结点u和v的平均表达水平；

按式(3)计算边的功能相似性：

式中，

是与蛋白质结点v_i有关的GO术语k的S值，

是与蛋白质结点v_j有关的GO术语k的S值；

按式(4)计算边的可靠性：

式中，C代表了边(u,v)在亚细胞位置中出现的次数，C_max代表了边(u,v)在亚细胞位置中出现的最大次数；

优选地，步骤3)中，网络拓扑加权边的权值w_vu由式(5)计算得到：

w_vu＝ECC(v,u) (5)；

式中，ECC是蛋白质结点v和蛋白结点u之间的边聚集系数，由公式(1)得到；

优选地，步骤4)中，生物信息加权边的权值w_uv由式(6)计算得到：

w_uv＝PCC(u,v)+GO_{_sim}(u,v)+SL(u,v) (6)；

式中，PCC是蛋白质结点v和蛋白结点u之间的基因表达相似性，由公式(2)得到；GO_sim(v,u)是蛋白质结点v和蛋白结点u之间的功能相似性，由公式(3)得到；SL(u,v)是蛋白质结点v和蛋白结点u之间的可靠性，由公式(4)得到；

优选地，步骤5)中，每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到：

a(v)＝∑_q∈B(v)h(q) (7)；

h(v)＝∑_q∈F(v)a(q) (8)；

式中，B(p)代表了指向蛋白质结点v的蛋白质集合，F(p)代表蛋白质结点v指向的蛋白质集合；

优选地，步骤6)中，每个结点的标准权威值a(v)和标准中心值h(v)由式(9)、(10)计算得到：

式中，a(v)代表了每个蛋白质结点v的权威值，由公式(7)得到；式中，h(v)代表了每个蛋白质结点v的中心值，由公式(8)得到；右侧的a(v)为式(7)计算出来的值，左侧的a(v)为式(7)计算出的值除以当前最大的a(v)值得到每个结点新的a(v)值。

优选地，步骤7)中，每个结点的综合得分Fin(v)由式(11)得到：

Fin(v)＝α*a(v)+(1-α)*h(v) (11)；

式中，α∈[0,1]用来调节拓扑特性和生物信息在识别关键蛋白之中的比例；a(v)，h(v)分别由公式(9)和公式(10)得到；

优选地，步骤8)中，每个结点的集成得分EM(v)由式(12)得到：

式中，k代表了上述参数α的取值个数；Xi代表了关键蛋白质候选集合。

与现有技术相比，本发明具有以下有益的技术效果：

1、本发明不仅结合了网络拓扑特征还考虑了生物特性对识别关键蛋白质的作用，主要包括三个方面：蛋白质网络的假阳性和假阴性、蛋白质的功能和蛋白质的位置；并且将蛋白质相互作用网络转化为双向有向图，利用网络拓扑特性和生物特性分别对蛋白质网络进行加权。

2、本发明采用改进的HITS算法在加权的PPI网络上，提高了算法的运行效率，并且能很好的融合网络拓扑特性和生物特性。

3、本发明为了综合考虑参数对本方法的影响并且促进该方法的广泛应用，采用了一种综合的方法来为每个蛋白质打分，并最终确定是否为蛋白质。

4、采用本发明的结果能够有效地高效率地识别蛋白质相互作用网络中的关键蛋白质，这对于理解细胞的生命活动和发展是很有用的，甚至对于疾病基因的研究和药物设计提供了一定的理论依据。

【附图说明】

图1是本发明流程图；

图2是实施例1采用本发明识别的部分关键蛋白质在蛋白质网络中的分布情况。

具体实施方式

下面结合附图和实施实例对本发明进一步详细说明，但本发明并不仅限于这些实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明采用改进的HITS算法识别关键蛋白质的方法，包括以下步骤：

(1)将蛋白质相互作用网络转化为双向有向图

(2)对蛋白质相互作用网络的边的预处理

按式(1)计算边的聚集系数：

按式(2)计算边的基因表达相似性：

分别代表了蛋白质结点u和v的平均表达水平；

按式(3)计算边的功能相似性：

式中，

是与蛋白质结点v_i有关的GO术语k的S值，

是与蛋白质结点v_j有关的GO术语k的S值；

按式(4)计算边的可靠性：

3)网络拓扑加权边

根据(2)得到的边聚集系数得到网络拓扑加权边的权值w_vu；

4)网络生物特性加权边

根据(2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权，得到生物信息加权边的权值w_uv；

5)利用HITS算法得到结点权威值和中心值

利用HITS算法得到每个结点的权威值a(v)和中心值h(v)；

6)结点权威值和中心值归一化处理

根据(5)得到的权威值a(v)和中心值h(p)，对其进行归一化处理，得到标准权威值a(v)和标准中心值h(v)；iter迭代加1；

7)得到每个结点的综合得分

8)产生关键蛋白质

则认为其为关键蛋白质。

本发明步骤3)中，网络拓扑加权边的权值w_vu由式(5)计算得到：

w_vu＝ECC(v,u) (5)；

本发明步骤4)中，生物信息加权边的权值w_uv由式(6)计算得到：

w_uv＝PCC(u,v)+GO_{_sim}(u,v)+SL(u,v) (6)；

本发明步骤5)中，每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到：

a(v)＝∑_q∈B(v)h(q) (7)；

h(v)＝∑_q∈F(v)a(q) (8)；

本发明步骤6)中，每个结点的标准权威值a(v)和标准中心值h(v)由式(9)、(10)计算得到：

式中，a(v)代表了每个蛋白质结点v的权威值，由公式(7)得到；式中，h(v)代表了每个蛋白质结点v的中心值，由公式(8)得到；

本发明步骤7)中，每个结点的综合得分Fin(v)由式(11)得到：

Fin(v)＝α*a(v)+(1-α)*h(v) (11)；

本发明步骤8)中，每个结点的集成得分EM(v)由式(12)得到：

式中，k代表了上述参数α的取值个数；X_i代表了关键蛋白质候选集合。

实施例

本实施例拟采用DIP数据库的酵母数据集作为仿真数据集，经过去重等处理后DIP中的酵母数据集包含5093个蛋白质和24743条相互作用关系。基因表达数据采自GEO数据库中的酵母数据集其中包括7074个基因。GO数据库是生物信息学中最全面的本体数据库之一，从GO Consortium数据库获得酵母GO注释数据。亚细胞位置被分为十一个位置，该数据采自COMPARTMENTS数据库其中它包含5095个蛋白质和206831条亚细胞定位记录。关键蛋白质标准数据库由4个数据库整合而来，分别包括MIPS、SGD、DEG和SGDP，它包含1285个关键蛋白质，对应到酵母数据中有1167个关键蛋白质。本发明的实验平台为Windows 10 64位操作系统，处理器为Intel(R)Core(TM)i5-6600 CPU，8GB物理内存，实验仿真软件平台为Matlab2016a。

采用改进的HITS算法识别关键蛋白质的方法，步骤如下：

1、将蛋白质相互作用网络转化为双向有向图

2、对蛋白质相互作用网络的边的预处理

按式(1)计算边的聚集系数：

按式(2)计算边的基因表达相似性：

分别代表了蛋白质结点u和v的平均表达水平；

按式(3)计算边的功能相似性：

式中，

是与蛋白质结点v_i有关的GO术语k的S值，

是与蛋白质结点v_j有关的GO术语k的S值；

按式(4)计算边的可靠性：

3、网络拓扑加权边

根据(2)得到的边聚集系数得到网络拓扑加权边的权值w_vu，w_vu由式(5)计算得到：

w_vu＝ECC(v,u) (5)；

式中，ECC是蛋白质结点v和蛋白结点u之间的边聚集系数，由公式(1)

4、网络生物特性加权边

根据(2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权，得到生物信息加权边的权值w_uv，w_uv由式(6)计算得到：

w_uv＝PCC(u,v)+GO_{_sim}(u,v)+SL(u,v) (6)；

5、利用HITS算法得到结点权威值和中心值

利用HITS算法得到每个结点的权威值a(v)和中心值h(v)，每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到：

a(v)＝∑_q∈B(v)h(q) (7)；

h(v)＝∑_q∈F(v)a(q) (8)；

6、结点权威值和中心值归一化处理

根据(5)得到的权威值a(v)和中心值h(p)，对其进行归一化处理，得到标准权威值a(v)和标准中心值h(v)；iter迭代加1；每个结点的标准权威值a(v)和标准中心值h(v)由式(9)、(10)计算得到：

7、得到每个结点的综合得分

每个结点的综合得分Fin(v)由式(11)得到：

Fin(v)＝α*a(v)+(1-α)*h(v) (11)；

8、产生关键蛋白质

根据(7)得到的每个结点的Fin(v)，对蛋白质进行排序；随着参数的变化，每个结点的排序也会有所变化，将所有的蛋白质的排序合并为一个关键蛋白质候选集X_i，统计候选集中蛋白质出现的个数作为集成得分EM(v)，若集成得分大于设定阈值T，我们认为它为关键蛋白质。每个结点的集成得分EM(v)由式(12)得到：

式中,k代表了权利要求7中的参数α的取值个数；X_i代表了关键蛋白质候选集合。

为了评价本发明的实验效果，采用本发明实施例1采用改进的HITS算法识别关键蛋白质的方法对DIP数据库中的蛋白质网络进行关键蛋白质的识别，把前25％(5093*25％＝1274)的蛋白质作为关键蛋白质候选集，然后跟标准数据库进行对比。结果见表1图2，表1显示了本发明与当前其他识别关键蛋白质的方法识别出来的结果进行对比，对比内容包括六个统计测率分别包括SN(敏感性)、SP(特异性)、PPV(阳性预测值)、NPV(阴性预测值)、F-measure(精确率和召回率调和值)、ACC(精确值)。图2显示了实施例1采用本发明识别的部分关键蛋白质在网络中的分布情况。

表1本发明与其他方法识别的关键蛋白质SN、SP、PPV、NPV、F-measure、ACC的比较

表1显示了本发明把前25％个蛋白质作为关键蛋白质候选集与关键蛋白质标准库的比对结果包含SN、SP、PPV、NPV、F-measure、ACC，以及一些现有的其他识别关键蛋白质的方法的结果。与本发明对比的其他方法代表了不同的角度识别关键蛋白质，挑选的现有的方法涵盖范围较广，其中涉及基本的拓扑中心性的方法包括DC、EC、IC、SC、NC和LAC，涉及与生物信息相融合的方法包括结合基因表达数据的PeC方法和运用了蛋白质结构域数据的方法UDoNC。从表1中我们可以看出本发明实验结果都优于现有的方法，这表明本发明对识别关键蛋白质有良好作用。图2显示了实施例1采用本发明识别的关键蛋白质在蛋白质相互作用网络中的位置。在图2中，每个圆圈代表了识别出的关键蛋白质，圆圈的大小代表了每个蛋白质结点的度的大小。从图中我们可以看出，识别出的关键蛋白质具有良好的拓扑特性，并且在图2中只有蛋白质‘YHR066W’是本发明识别为关键蛋白质但实际情况为非关键的蛋白质，在识别出的前51个中，只有一个结果相反，说明本方法的识别效率和准确率是比较高的，当然上述的蛋白质‘YHR066W’识别报错，也表明度数大的蛋白质不一定为关键蛋白质。

综上所述，本发明将蛋白质相互作用网络转化为有向图、对蛋白质相互作用网络的边的预处理、网络拓扑加权边、网络生物特性加权边、利用HITS算法得到结点权威值和中心值、结点权威值和中心值归一化处理、得到每个结点的综合得分、产生关键蛋白质。本发明通过仿真实验来验证本发明的识别效果，实验结果分别使用敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标来评价本发明中的方法；并将本发明跟其他识别关键蛋白质的方法做对比，结果表明本发明采用改进的HITS算法识别关键蛋白质的方法具有较好的性能，从以上评价指标来看本发明优于其他方法。

以上所述是本发明的优选实施方式，通过上述说明内容，本技术领域的相关工作人员可以在不偏离本发明技术原理的前提下，进行多样的改进和替换，这些改进和替换也应视为本发明的保护范围。