CN106372458A

CN106372458A - 基于邻居接近中心性和直系同源信息的关键蛋白质识别方法

Info

Publication number: CN106372458A
Application number: CN201610781892.2A
Authority: CN
Inventors: 王建新; 李高仕; 李敏
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-02-01

Abstract

本发明公开了一种融合网络邻居接近中心性和直系同源蛋白质信息的关键蛋白预测方法(NCCO)。通过对蛋白质相互作用网络的拓扑特征的分析，我们发现网络中存在大量的三角形，许多关键蛋白质出现在这些三角形中。根据这个发现，我们提出邻居接近中心性。考虑到蛋白质进化保守性的重要性，我们把邻居接近中心性和反映进化保守性的直系同源蛋白质信息进行结合，然后提出了新的识别关键蛋白质方法NCCO。本发明简单易用，输入的数据只要蛋白质相互作用数据和直系同源蛋白质数目数据，和已有的经典方法相比，本发明提出的方法在预测的准确度、与已知关键蛋白质匹配的敏感度和特异性等方面都有明显提高，可供生物学家进行实验，并且有进一步研究的价值。

Description

基于邻居接近中心性和直系同源信息的关键蛋白质识别方法

技术领域

本发明属于系统生物学领域，涉及融合蛋白质相互作用网络和直系同源蛋白质信息的关键蛋白质的识别。

背景技术

众所周知，蛋白质是生命活动的主要参与者，种类繁多，作用各不相同，重要性也不一样。有一类蛋白质在生命活动中非常重要，对细胞的生存和发育而言必不可少，这类蛋白质被认为是关键蛋白质。识别关键蛋白意义重大。细菌病毒的关键蛋白是抗生素的候选药物标靶，识别关键蛋白有助于药物开发。研究表明，关键蛋白也与致病基因有关，识别关键蛋白也有助于疾病研究。并且，生成一个只有关键基因的细胞，可以理解细胞生存的最小需求。

目前，识别关键蛋白质的生物实验方法，例如单个基因敲除，RNA干扰和有条件基因敲除等，时间周期长，效率低，费用高，而且只能在少量物种上施行。因此，迫切需要有效的新方法来降低实验的时间和经济成本，提高实验效率，能在多个物种上施行。

随着高通量技术的出现和蛋白质相互作用数据的积累，利用蛋白质相互作用网络拓扑特征来识别关键蛋白质成了目前的研究热点。一些基于蛋白质相互作用网络的经典中心性方法被提出来，主要有度中心性(Degree Centrality,DC),介数中心性(BetweennessCentrality,BC)，接近性中心性(Closeness Centrality,CC),子图中心性(SubgraphCentrality,SC),特征向量中心(Eigenvector Centrality,EC),信息中心性(InformationCentrality,IC)和邻居中心性(Neighbor Centrality,NC)等。这类方法根据蛋白质在相互作用网络中的重要性来判断是否是关键蛋白。

这类中心性方法的预测准确度依赖于蛋白质相互作用数据的可靠性。然而，目前蛋白质相互作用数据既不完整也不可靠，包含了很多假阳性和假阴性，这都影响了关键蛋白质识别的准确度。随着可以利用的生物信息的增多，通过融合多种信息来提高识别关键蛋白的准确度的方法正在得到蓬勃发展。例如，Li等人加入基因的功能注释，构建了一个加权的蛋白质相互作用网络；通过加入基因表达信息到蛋白质相互作用网络中，他们提出了一个新的关键蛋白识别方法PeC。Peng等人把直系同源蛋白质信息和蛋白质相互作用网络结合，提出一个迭代的识别关键蛋白方法ION。LUO等通过加入蛋白质复合物信息到相互作用网络中，分别提出了CSC和LIDC方法。

上述方法都是基于多信息融合识别关键蛋白的方法，在识别准确度上有一定的提高，但是，识别关键蛋白的准确度仍需要提高。

发明内容

本发明旨在克服现有技术的不足，提供一种基于邻居接近中心性和直系同源信息的关键蛋白质识别方法。

为了达到上述目的，本发明提供的技术方案为：

所述基于邻居接近中心性和直系同源信息的关键蛋白质识别方法包括以下步骤：

(1)计算每一个蛋白质节点的接近中心性CC；计算公式为：

C C (u) = \frac{N - 1}{Σ_{v} d (u, v)};

其中，N代表蛋白质相互作用网络中蛋白质个数，d(u,v)代表节点u和v之间的最短路径；

(2)计算蛋白质相互作用网络中每个蛋白质的邻居接近中心性得分；计算公式为：

N C C (u) = Σ_{v &Element; N_{u}} Σ \frac{t r i S C C (u, v)}{\min (k_{u}, k_{v})};

其中，triSCC(u,v)代表基于边(u,v)建立的三角形的三个节点的接近中心性得分之和，即triSCC(u,v)＝CC(u)+CC(v)+CC(w)；K_u和K_v分别代表节点u和v的度；min()是取最小值函数；Nu代表u的所有邻居节点；

(3)计算直系同源得分：为了形式化定义，先给出以下概念：让S代表参考物种集合，s(物种)是S的元素，|S|代表S的元素个数；让S代表参考物种集合，如果在V中存在物种s，让X_s代表V的子集；让OS(u)代表节点v_u在多少个参考物种上有直系同源，v_u∈V(u＝1,…,N)；计算公式为：

OS(u)＝∑_m∈ST_u；

(4)采用结合模型给出最终得分；计算公式为：

PF(u)＝∑_vDM_u；

(5)输出结果：对所有蛋白质按关键性最终得分排序，关键性最终得分PF越高的越可能为关键蛋白质。

本发明公开了一种融合邻居接近中心性(NCC)和直系同源蛋白质信息的关键蛋白预测方法NCCO。通过分析蛋白质相互作用网络的拓扑结构，我们发现网络中存在大量的三角形，许多关键蛋白质出现在这些三角形中。根据这个发现，我们提出了邻居接近中心性。考虑到蛋白质进化保守性的重要性，我们把邻居接近中心性和反映进化保守性的直系同源蛋白质信息进行结合，然后提出了新的识别关键蛋白质方法NCCO。本发明简单易用，输入的数据只要蛋白质相互作用数据和直系同源蛋白质数目数据，和已有的经典方法相比，本发明提出的方法在预测的准确度、与已知关键蛋白质匹配的敏感度和特异性等方面都有明显提高，可供生物学家进行实验，并且有进一步研究的价值。

附图说明

图1：在酵母蛋白质相互作用网络上不同比例的具有较高排序得分的蛋白质作为预测的关键蛋白质时，方法NCC,NCCO和10种其它现存经典方法识别关键蛋白质的数量的比较图；(a),(b),(c),(d),(e),(f)分别为取前面100，200，300，400，500，600个蛋白质时被各种方法预测到的关键蛋白个数；

图2：方法NCC,NCCO和10种其它现存经典方法基于precision-recall曲线以及其下面积(AUC)的比较图；

图3：方法NCC,NCCO和10种其它现存经典方法基于jackknife曲线评价的比较图。

具体实施方式

(1)存在于蛋白质相互作用网络中的三角形中的关键蛋白/非关键蛋白比例统计分析

考虑到酵母的蛋白质相互作用网络和关键蛋白质数据在众多物种中最为完整和可靠，我们的实验全部基于酵母数据。蛋白质相互作用网络下载于DIP数据库2010年10月的数据。除去自相互作用和重复的相互作用，总共有5093个蛋白质，24743条边。关键蛋白质信息来源于MIPS,SGD,DEG和SGDP四个数据库。在5093个蛋白质中1167个为关键蛋白质，剩余3926个蛋白质看作非关键蛋白质。蛋白质保守性可以通过直系同源蛋白质数目进行反映。直系同源数据下载自InParanoid数据库第七版。InParanoid数据库包含了100个物种(99个真核生物和1个原核生物)间的直系同源蛋白质数据。物种间蛋白质的直系同源关系是通过INPARANIOD程序计算两个物种中任意两个蛋白质之间的序列相似性得到的。

根据观察发现，大量的三角形存在于蛋白质相互作用网络中，并且很多关键蛋白出现在这些三角形中，为此，我们做了详细的统计分析。在蛋白质相互作用网络中，共有24743条边，共构成18249个三角形，共有2388个蛋白质出现在这些三角形中，其中有813个是关键蛋白，占关键蛋白总数的69.67％(＝813/1167)，三角形中关键蛋白浓度为34％(＝813/2388)，高于整个网络的关键蛋白浓度22.9％(＝1167/5093)。并且易知，处在三角形中的蛋白质的接近中心性(Closeness Centrality)值通常比不在三角形中的要高。

(2)蛋白质保守性特性分析

蛋白质的直系同源属性可以反映其保守性特性。本团队前期工作已做了蛋白质的关键性与其直系同源属性之间的关联分析，检查所有在酿酒酵母蛋白质相互作用网络中的蛋白质是否在99个参考物种中存在直系同源蛋白质。这99个参考物种包括人类(H.sapiens)等真核生物以及一个原核生物大肠杆菌(E.coli)。5093个酿酒酵母蛋白质中4511个蛋白质在至少一个参考物种中存在直系同源蛋白质。而且1167个已知的关键蛋白质中有1118个在至少一个参考物种中存在直系同源蛋白质。也就意味着96％(＝1118/1167)的关键蛋白质在进化上是保守的。

(3)基于邻居接近中心性和蛋白质保守性特性的蛋白质关键性综合得分计算

基于邻居接近中心性(NCC)和蛋白质保守性特性的关键蛋白质识别方法(NCCO)如下。首先，计算蛋白质相互作用网络中的每一个蛋白质的接近中心性得分(CC)；然后，计算蛋白质相互作用网络中每个蛋白质的邻居接近中心性(NCC)；接下来，计算相互作用网络中的每一个蛋白质的直系同源得分；最后，利用结合模型结合NCC和直系同源得分。

计算每个蛋白质的关键性综合得分，具体步骤如下：

步骤1：考察信息等在网络中的传递现象，边缘节点必然依赖较多的其他节点，而中心节点则较少地依赖于其它节点。接近中心性(CC)就是表征一个节点在网络拓扑中被其它节点依赖的程度，反映节点在拓扑结构中的中心地位的一个指标。接近中心性计算公式如下：

C C (u) = \frac{N - 1}{Σ_{v} d (u, v)} - - - (1)

N代表蛋白质相互作用网络中蛋白质个数，d(u,v)代表节点u和v之间的最短路径。

步骤2：计算蛋白质相互作用网络中每个蛋白质的邻居接近中心性得分。计算公式如下：

N C C (u) = Σ_{v &Element; N_{u}} Σ \frac{t r i S C C (u, v)}{\min (k_{u}, k_{v})} - - - (2)

其中，triSCC(u,v)代表基于边(u,v)建立的三角形的三个节点的接近中心性得分之和，即triSCC(u,v)＝CC(u)+CC(v)+CC(w)；K_u和K_v分别代表节点u和v的度；min()是取最小值函数；Nu代表u的所有邻居节点。

步骤3：计算直系同源得分。为了形式化定义，先给出以下概念。让S代表参考物种集合，s(物种)是S的元素，|S|代表S的元素个数。V代表PPI网络中蛋白质集合，如果在V中存在物种s，让X_s代表V的子集。让OS(u)代表节点v_u在多少个参考物种上有直系同源，v_u∈V(u＝1,…,N)。计算公式如下：

OS(u)＝∑_m∈ST_u (3)

其中，

步骤4：采用结合模型给出最终得分。计算公式如下：

PF(u)＝Σ_vDM_u (4)

其中，

基于邻居接近中心性(NCC)和直系同源关键蛋白质识别方法(NCCO)的有效性验证

为了评估NCCO方法的有效性，我们将NCCO方法分别与几种代表性的中心性方法结合，如DC,BC,CC,SC,EC,IC,NC,PeC,ION和CSC。我们的实验基于如下三个数据集。酵母的蛋白质相互作用网络数据来自于DIP数据库2010年10月的数据，包含有5093个蛋白质，24743条边。直系同源数据下载自InParanoid数据库第七版。InParanoid数据库包含了100个物种(99个真核生物和1个原核生物)间的直系同源蛋白质数据。物种间蛋白质的直系同源关系是通过INPARANIOD程序计算两个蛋白质之间的序列相似性得到的。来源于MIPS,SGD,DEG和SGDP四个数据库的1167个关键蛋白质作为标准集，用来比较预测结果的准确性。

a.基于柱状图比较实验结果

首先按蛋白质最终得分对所有蛋白质进行降序排列，选取排在前面的100,200,300,400,500，600个蛋白质作为候选关键蛋白质。再依据已知的关键蛋白质集合，对比预测结果。预测正确的蛋白质数量作为评价各个方法性能的标准。图1表明，相比于其它方法的预测结果，NCCO较大提高了正确预测的关键蛋白质数量，并且NCC和纯粹的中心性方法(DC,IC,EC SC,BC和CC,)比较也具备明显优势。当选择排序得分排在前100的蛋白质作为预测的关键蛋白质时，NCC预测到58个关键蛋白，比纯粹的中心性DC,IC,EC,SC,BC,CC和NC都要高，NCCO则预测到了多达86个关键蛋白。当选择前面200，300，400，500，600个蛋白质时，我们发现NCC和纯粹的中心性方法(DC,IC,EC SC,BC和CC,)比较一直具备明显优势，而NCCO的表现则全面超过所有方法。

b.基于precision-recall(准确率-召回率)曲线比较实验结果

我们用precision-recall曲线以及其下的面积(AUC)进一步验证NCC，NCCO方法和其它10种方法的性能。将蛋白质相互作用网络中所有的蛋白质依据各个方法计算的关键性得分降序排序，排在前面的K个蛋白质作为预测的关键蛋白质(阳性数据集)，细胞中剩下的蛋白质作为非关键蛋白质(阴性数据集)。阈值K的范围从1到5093。随着K取值的不同，分别计算各个方法相应的Sensitivity和1-Specificity值，从而得到precision-recall曲线，如图2所示。从图2，我们可以看出NCCO的precision-recall曲线和ION的比较接近，但AUC略大于ION的AUC，明显大于其它方法的AUC。另外，我们还可以观察到，NCC的AUC明显大于DC,IC,EC SC,BC和CC的AUC。

c.基于jackknife方法比较实验结果

我们用jackknife方法来进一步验证NCC,NCCO方法以及其他10种方法的预测性能。实验结果如图3所示。X轴表示的是按照各个关键蛋白质预测方法排序，排在前面的蛋白质数量。Y轴表示的是识别的正确关键蛋白质的累积数量。图中线下的面积用来比较各个方法的性能。从图3中我们看出NCCO预测关键蛋白质的准确性明显高于所有其它方法，并且NCC也明显高于纯粹的中心性方法DC,IC,EC SC,BC和CC。

Claims

1.基于邻居接近中心性和直系同源信息的关键蛋白质识别方法，其特征在于，所述方法包括以下步骤：

(1)计算每一个蛋白质节点的接近中心性CC；计算公式为：

C C (u) = \frac{N - 1}{Σ_{v} d (u, v)};

N C C (u) = Σ_{v &Element; N_{u}} Σ \frac{t r i S C C (u, v)}{\min (k_{u}, k_{v})};

(3)计算直系同源得分：让S代表参考物种集合，s(物种)是S的元素，|S|代表S的元素个数；让S代表参考物种集合，如果在V中存在物种s，让X_s代表V的子集；让OS(u)代表节点v_u在多少个参考物种上有直系同源，v_u∈V(u＝1,…,N)；计算公式为：

OS(u)＝∑_m∈ST_u；

(4)采用结合模型给出最终得分；计算公式为：

PF(u)＝∑_vDM_u；