CN108804871A

CN108804871A - 基于最大邻居子网的关键蛋白质识别方法

Info

Publication number: CN108804871A
Application number: CN201710301362.8A
Authority: CN
Inventors: 李敏; 李文凯; 王建新
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2018-11-13
Anticipated expiration: 2037-05-02
Also published as: CN108804871B

Abstract

本发明公开了一种基于最大邻居子网的关键蛋白质识别方法，首先根据亚细胞定位信息对获得的蛋白质相互作用网络进行子网划分，位于相同亚细胞位置的蛋白质被划分到相同的子网，从而得到多个在同一亚细胞区间内具有相互作用关系的蛋白质子网络。然后对每个蛋白质对应的所在的最大子网进行拓扑特征分析,计算其基于共同邻居的关键性综合评分值，分值越高表示该蛋白质越趋向于是关键的，从而利用得分排序来预测潜在的关键蛋白质。本发明在简单实用的基础上，能够很好的提高关键蛋白质识别的准确率，为研究人员进行关键蛋白质的实验分析和更深层次的研究提供重要的参考价值和实用价值。

Description

基于最大邻居子网的关键蛋白质识别方法

技术领域

本发明属于系统生物学技术领域，主要涉及根据亚细胞定位信息对蛋白质相互作用网络划分子网并基于网络拓扑特性识别关键蛋白质的方法。

背景技术

蛋白质是构成细胞和组织结构必不可缺的组成成分，是维持重要生命活动的高分子有机物，承载着生命活动和生理功能的执行。生物体体内有多种类型的蛋白质，参与营养物质运输、生理功能调节和生物化学反应等各种生命活动过程。不同种类的蛋白质对生物体的重要性存在明显的差异。其中，某些蛋白质的缺失将造成生物体生物功能的丧失，从而导致病变或者停止生长发育。这类蛋白质被称为关键蛋白质。准确地识别生物体内的关键蛋白质不仅有助于了解疾病的发生和作用机制，对疾病的防治和新药物的研发也有重要意义。

通过生物医学实验方法可以识别出生物体内的关键蛋白质，如单基因敲除、RNA干扰和条件性剔除。然而这些传统的方法由于受到实验环境、实验周期长、成本高以及适用物种种类有限等条件限制因素的影响，甚至实验方法本身所存在的缺陷使其并不能大规模的应用。随着现代计算机技术的迅猛发展，根据对现有的实验数据中关键蛋白质所呈现出的特性进行分析，采用生物信息学的计算方法预测关键蛋白质逐渐成为研究热点。

随着酵母双杂交、质谱分析、蛋白质芯片和串联亲和纯化反应等高通量实验技术和基于生物信息学的蛋白质相互作用关系预测方法的快速发展和广泛应用，可以获得更多公共可用的蛋白质相互作用数据，包括蛋白质相互作用数据库(Database of InteractingProteins,DIP)、生物相互作用数据通用库(Biological General Repository forInteraction Dataset,BioGRID)、分子相互作用数据库(Molecular INTeractiondatabase,MINT)和慕尼黑蛋白质序列信息数据库(Munich Information Center forProtein Sequences,MIPS)等。这些蛋白质相互作用数据以蛋白质网络的形式表示，为基于网络拓扑特性的关键蛋白质预测方法的研究提供了新思路。Jeong等人2001年在Nature的文章中提出了“中心性-致死性”法则，阐述了在蛋白质相互作用网络中高度连接的蛋白质节点的缺失更容易导致整个网络结构坍塌，对生物体本身会造成致命性的影响，说明了蛋白质分子的关键性与其在蛋白质网络中的节点拓扑特性密切相关。2005年，Butland等人在Nature发表论文指出关键蛋白质比非关键蛋白质更具有保守的特性，而这些高度保守的蛋白质也倾向于是高度连接的。目前，已经有一系列的基于网络拓扑特性的中心性度量方法被提出来用于预测关键蛋白质，例如介数中心性(Betweenness Centrality,BC)、最大邻居分量(MaximumNeighborhood Component,MNC)、接近度中心性(Closeness Centrality,CC)、特征向量中心性(Eigenvector Centrality,EC)、信息中心性(InformationCentrality,IC)、子图中心性(Subgraph Centrality,SC)和基于边聚集系数的网络中心性(Network Centrality,NC)等。虽然基于蛋白质网络节点拓扑特性的研究已取得了很大的进展，但从关键蛋白质识别的准确率来看还有更多提升的可能。

由于现有实验技术的限制等问题导致目前获得的相互作用数据并不丰富完善，混杂了很多假阳性(实际上并不存在的假的相互作用)和假阴性数据(真实存在的相互作用但是并没有被检测出来)，使得现有的基于蛋白质网络的中心性方法并不能高效的预测关键蛋白质。但是，随着高通量实验技术的应用，除了产生大量可用的蛋白质相互作用数据外，还有其他的生物信息数据，如亚细胞定位信息、密码子适应性、GC含量、蛋白质长度、基因表达数据和同源信息等。这些高通量的生物实验数据的出现，为进一步研究基于蛋白质网络的关键蛋白质识别方法提供了一个重要的契机，从而提高识别的准确度。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于最大邻居子网的关键蛋白质识别方法。

为解决上述技术问题，本发明所采用的技术方案是：一种基于最大邻居子网的关键蛋白质识别方法，包括以下步骤：

1)给定一个蛋白质相互作用网络G＝(V,E),V表示所有的蛋白质节点集合，E表示蛋白质与蛋白质之间的相互作用关系集合；对于任意一个蛋白质节点v∈V,该节点与其所有的邻居节点根据其亚细胞位置分别被划分到多个子网中，子网个数取决于蛋白质节点v所在的亚细胞位置个数；若蛋白质节点v有N个亚细胞位置，则有N个子网，其中第i个子网记为G_i(v)＝(V_i,E_i),V_i表示第i个子网中的蛋白质节点集合，E_i表示第i个子网中的蛋白质相互作用关系集合；蛋白质节点v的所有子网中节点个数最多的子网为最大邻居子网，记作G_max(v)，用下述公式来表示：G_max(v)＝{G_i(v)|Max(|V_i|)},i＝0,1,2,…,N；

2)对蛋白质相互作用网络G中的每一个蛋白质节点v，利用步骤1)得到节点v的最大邻居子网G_max(v)，计算节点v与其子网内每一个邻居节点u之间的共同邻居数目CN(v,u)；

3)对于蛋白质相互作用网络G中的每一个蛋白质节点：对蛋白质节点v在最大邻居子网中与每个邻居节点u的共同邻居数目CN(v,u)加权求和，得到节点v的关键性综合评分值Score(v)；

4)对关键性综合评分值进行降序排序，越排在前面就表明该节点越有可能是潜在的关键蛋白质。

步骤2)中，共同邻居数目CN(v,u)的计算公式为：CN(v,u)＝|N^v∩N^u|v,u∈V_max；其中，N_v表示节点v在其对应的最大邻居子网中的邻居节点集合，N_u是节点u在其最大邻居子网中的邻居节点集合，N^v∩N^u表示这两个集合中相同蛋白质节点的集合，V_max为最大邻居子网中的节点集合，|N^v|为集合N^v中元素的数量。

步骤3)中，节点v的关键性综合评分值Score(v)的计算公式为：

其中，d_v为节点v在最大邻居子网中的度值；d_u为节点u在最大邻居子网中的度值。

与现有技术相比，本发明所具有的有益效果为：本发明所提出的方法充分考虑了假阳性数据对关键蛋白质的识别可能带来的影响，通过结合亚细胞定位信息对划分的子网进行分析，同时了解到具有关键作用的蛋白质之间的紧密连接关系，基于网络拓扑结构对子网中的节点计算关键性综合性评分值。本发明在简单实用的基础上，能够很好的提高关键蛋白质识别的准确率，为研究人员进行关键蛋白质的实验分析和更深层次的研究提供重要的参考价值和实用价值。

附图说明

图1为蛋白质相互作用网络划分子网的过程。

图2为DIP蛋白质相互作用网络中的一个连通分支图。

图3(a)～图3(i)为MNS与八种中心性方法的比较，其中横坐标表示各个中心性方法，纵坐标表示该方法识别出真正的关键蛋白质数量；图3(a)为排在前100的蛋白质；图3(b)为排在前200的蛋白质；图3(c)为排在前300的蛋白质；图3(d)为排在前400的蛋白质；图3(e)为排在前500的蛋白质；图3(f)为排在前600的蛋白质；图3(g)为排在前700的蛋白质；图3(h)为排在前800的蛋白质；图3(i)为排在前900的蛋白质。

图4为各个方法基于DIP蛋白质相互作用网络的jackknife曲线。

图5为各个方法识别的前100个蛋白质差异分析。

具体实施方式

本发明中所使用的生物数据集：酵母是目前研究中使用最为广泛的物种，并且现有的公开数据库中已有大量实验测定的酵母物种的关键蛋白质。本发明中所使用的酵母蛋白质相互作用数据集是从DIP数据库中下载得到，去除数据集中自相互作用和重复的相互作用，得到原始蛋白质相互作用网络。由于实验技术等方面存在的缺陷，蛋白质相互作用数据中不可避免的存在一些假阳性和假阴性数据，为了减少这些错误数据对关键蛋白质识别造成的影响，本发明中使用COMPARTMENTS数据库中的酵母蛋白质亚细胞定位信息对原始网络进行划分。该数据库集成了UniProtKB、MGI、SGD、FlyBase和WormBase等数据库中的相关亚细胞定位信息，共包含了5911个被注释的蛋白质，其中酵母蛋白质分别被11种亚细胞定位信息注释。同时为了有效验证实验方法的准确性，使用收集并整理于DEG、MIPS、SGD和SGDP这四个数据库中的已知关键蛋白质信息。通过统计，最终得到DIP蛋白质相互作用网络中包含了4746个蛋白质节点，15166条边，其中具有亚细胞定位信息注释的蛋白质数目为4455，已知的关键蛋白质有1130个。

基于最大邻居子网的关键蛋白质识别方法，通过使用亚细胞定位信息对原始蛋白质相互作用网络的节点进行子网划分，从而减少假阳性数据所带来的影响。同时依据蛋白质相互作用网络中节点的拓扑结构特征，利用每个节点对应的最大亚细胞定位子网络来计算其关键性，具体步骤如下：

步骤1子网划分并获得最大邻居子网

COMPARTMENTS数据库中酵母蛋白质亚细胞结构共包含了11种：细胞骨架(CYTOSKELETON)、细胞质基质(CYTOSOL)、内质网(ENDOPLASMIC)、核内体(ENDOSOME)、细胞外基质(EXTRACELLULAR)、高尔基体(GOLGI)、溶酶体(LYSOSOME)、线粒体(MITOCHONDRION)、细胞核(NUCLEUS)、过氧化物酶体(PEROXISOME)和细胞质(PLASMA)。这些亚细胞定位信息的出现为确定蛋白质相互作用场所及研究蛋白质的功能提供了依据。另外，现有的研究表明不同的亚细胞结构中，同一种蛋白质具有不同的功能。而只有在正确的亚细胞结构中，蛋白质才能发挥其生物功能，位于同一亚细胞结构中的蛋白质间的相互作用才能共同完成细胞的各种生命活动。因此，本发明通过结合亚细胞定位信息对原始蛋白质相互作用网络划分子网。图1展示了原始网络中节点v与其所有邻居节点的划分过程的一个示例。图1中，节点v共有10个邻居节点(a,b,…,j)，分别分布在该节点所在的四种亚细胞结构中，根据所处亚细胞结构的不同可以得到四种不同的子网，使得每一个子网中的所有节点都处于同一个亚细胞结构。例如节点v与邻居节点a,b,c位于同一个子网。由于每个蛋白质可能位于多个不同的亚细胞位置，因此v与c,d,e位于另外一个子网中。对于节点v来说，它所在的所有子网中邻居节点数目最多的称为最大邻居子网，同时也是接下来的研究中重要的参考依据。

给定一个蛋白质相互作用网络G＝(V,E),V表示所有的蛋白质集合(节点)，E表示蛋白质与蛋白质间的相互作用关系集合(边)。对于任意一个节点v∈V,其可能位于多种亚细胞结构中，根据上述的子网划分方法，该节点与其所有的邻居节点分别被划分到多个子网中。子网个数取决于节点v所在的亚细胞位置个数。若蛋白质节点v有N个亚细胞位置则有N个子网，其中第i个子网记为G_i(v)＝(V_i,E_i),V_i表示第i个子网中的蛋白质集合，E_i表示第i个子网中的蛋白质相互作用关系集合。蛋白质节点v的所有子网中节点个数最多的子网为最大邻居子网，记作G_max(v)，用下述公式来表示：

G_max(v)＝{G_i(v)|Max(|V_i|)},i＝0,1,2,…,N.

通过该方式获得最大邻居子网，方便接下来基于节点拓扑结构特征进行分析。

步骤2基于最大邻居子网的共同邻居计算

随着“中心性-致死性”法则的提出和计算生物学的发展，目前有很多中心性方法被提出并用于预测关键蛋白质。研究学者认为连接数目多的蛋白质节点更偏向于关键性，可以用蛋白质相互作用网络中节点的度值作为蛋白质关键性的标准，节点度值越高关键性就越大。另外，也有研究表明，存在一定比例的度值很高，但却是非关键的蛋白质。这些高度值的非关键蛋白质相互作用的蛋白质节点存在着比较少的相互作用关系。在现有的DIP数据集上，通过分析蛋白质相互作用网络和已知关键蛋白质数据，给出了其中的一个连通分支，如图2所示。为了明显的区分关键蛋白质与非关键蛋白质，将非关键蛋白质节点以“NON”字符串开头进行了重命名。从图2中可以观察出关键蛋白质间的这种紧密连接特性，共同形成这样一个稳定的网络整体结构。为了能够定量分析这种特性，本发明中使用最大邻居子网中蛋白质节点间的共同邻居(Common Neighborhood)衡量两个蛋白质节点相互作用的强弱，共同邻居数目越多就说明网络整体结构就更加紧密更加稳定。所以，对于网络中的两个节点v和u,它们的共同邻居数目可以通过下面的公式计算得到：

CN(v,u)＝|N^v∩N^u|v,u∈V_max

其中，N^v和N^u分别代表节点v和u在节点v所对应的最大邻居子网中的邻居节点集合，N^v∩N^u表示两个集合中相同蛋白质节点的集合，V_max为最大邻居子网中的节点集合。

步骤3基于最大邻居子网的节点关键性综合评分计算

当计算完节点v与其最大邻居子网中所有邻居节点之间的共同邻居数目，通过下面的公式进行加权求和，即可得到该节点的关键性综合评分值：

其中，d_v为节点v在最大邻居子网中的度值。对于原始网络中的每一个节点都计算得到关键性综合评分后，根据评分值进行降序排序，即可得到预测的结果，则越排在前面就表明该节点越有可能是关键蛋白质。

(3)关键蛋白质识别方法的有效性验证

为了评估本发明中所提出的方法的有效性，我们将上述方法分别与目前关键蛋白质识别研究中的八种中心性方法进行比较，包括DC,BC,CC,SC,EC,IC,NC,MNC，使用“排序-筛选”统计方法进行，通过计算酵母蛋白质相互作用网络中所有蛋白质的关键性评分值，将计算结果由大到小排序，并依次按序选择一定数量的蛋白质作为候选集。该集合中的蛋白质就是通过计算预测出来的关键蛋白质，将其与DEG数据库中的已知关键蛋白质数据集进行对比分析可得到识别的准确率，从而观察比较本发明中所提出的基于最大邻居子网的关键蛋白质识别方法的有效性。

a.与八种中心性方法在识别准确度的比较分析

为了评价提出的基于最大邻居子网的关键蛋白质识别方法的性能，通过使用DIP酵母数据集作为预测的蛋白质相互作用网络，分别采用本发明中的方法与八种中心性方法，计算网络中所有蛋白质节点的关键性综合评分并进行排序，并选取排在前100，200，300，400，500，600，700，800，900的蛋白质作为预测的关键蛋白质。将预测结果与已知的关键蛋白质数据集进行比较分析，求取每种方法识别的准确率。

如图3(a)～图3(i)所示，基于最大邻居子网的关键蛋白质识别方法与八种中心性方法的比较结果。当选择前100个作为预测关键蛋白质时，识别的准确率可以达到85％。当选择前600个作为预测关键蛋白质时，识别的准确率为60％。其中DC作为一种简单且应用广泛的中心性方法，本方法与其相比充分显示了识别的优异性，分别在排前100，200，300，400，500，600，700，800，900的预测关键蛋白质结果上提高了54.5％，44.7％，37.7％，29.8％，23.0％，19.2％，19.2％，21.5％，18.7％。同时与其他的方法相比，基于最大邻居子网的关键蛋白质识别方法也具有明显的优势。

b.基于jackknife方法比较实验结果

本发明中同时使用jackknife方法进一步的验证分析，从而说明基于最大邻居子网的关键蛋白质方法预测的性能。如图4所示，X轴表示根据蛋白质节点关键性综合评分排前的预测关键蛋白质数目,Y轴表示预测关键蛋白质中是已知关键蛋白质的数量。通过图中可以看出，对DIP蛋白质相互作用网络，该方法比其它八种中心性方法都有着更好的预测结果，从而说明基于最大邻居子网的关键蛋白质识别方法的优异性。

c.与八种中心性方法在识别差异性的比较分析

为了说明基于最大邻居子网的关键蛋白质识别方法具有较高准确率的原因，本发明进一步分析了DIP蛋白质相互作用网络基于蛋白质节点综合性评分值排在前100位的蛋白质，计算该方法与其它八种中心性方法相比在预测蛋白质的重叠性和差异性。如图5所示的DIP数据集上的差异性结果，X轴表示该方法与八种中心性方法的比较，Y轴表示两种对比的方法识别出的所有不同蛋白质中已知关键蛋白质所占的比例。以DC为例，在预测的100个蛋白质中，被MNS识别出来但没有被DC识别出来的蛋白质有57个，其中MNS识别出的已知关键蛋白质占有87.7％(＝50/57)个，而被DC识别到但没有被新方法识别的有35.1％(＝20/57)个。从而说明通过基于最大邻居子网的关键蛋白质识别比其他中心性方法预测的更加准确，能够降低假阳性数据对蛋白质识别所造成的影响。

综上所述，本发明所提出的基于最大邻居子网的关键蛋白质识别方法，通过结合已知的亚细胞定位信息对原始蛋白质相互作用网络划分子网并充分考虑蛋白质节点间紧密连接特性，能够有效的提高关键蛋白质识别的准确率，从而对于蛋白质网络的分析和关键蛋白质的研究有着重要的作用。

Claims

1.一种基于最大邻居子网的关键蛋白质识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于最大邻居子网的关键蛋白质识别方法，其特征在于，步骤2)中，共同邻居数目CN(v,u)的计算公式为：CN(v,u)＝|N^v∩N^u|v,u∈V_max；其中，N_v表示节点v在其对应的最大邻居子网中的邻居节点集合，N_u是节点u在其最大邻居子网中的邻居节点集合，N^v∩N^u表示这两个集合中相同蛋白质节点的集合，V_max为最大邻居子网中的节点集合，|N^v|为集合N^v中元素的数量。

3.根据权利要求1所述的基于最大邻居子网的关键蛋白质识别方法，其特征在于，步骤3)中，节点v的关键性综合评分值Score(v)的计算公式为：