CN109637579A

CN109637579A - 一种基于张量随机游走的关键蛋白质识别方法

Info

Publication number: CN109637579A
Application number: CN201811550297.3A
Authority: CN
Inventors: 赵碧海; 胡赛; 王雷; 李学勇; 张帆; 田清龙
Original assignee: Changsha University
Current assignee: Changsha University
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-04-16
Anticipated expiration: 2038-12-18
Also published as: CN109637579B

Abstract

本发明公开了一种基于张量随机游走的关键蛋白质识别方法,包括以下步骤：获取蛋白质相互作用网络拓扑结构、蛋白质结构域信息、基于时间序列的基因表达信息以及蛋白质同源信息；根据上述信息，建立蛋白质节点相互作用中不同蛋白质节点间的关联关系；根据所述蛋白质同源信息对蛋白质节点的枢纽得分进行初始化；以蛋白质相互作用中不同蛋白质节点间的关联关系建立张量模型；基于所述张量模型进行迭代计算得到每个蛋白质节点的枢纽得分并进行排序，将序列排行前n个蛋白质节点作为关键蛋白质。本发明简单有效，通过与其他方法比较，及在多个数据集上测试表明，该发明在关键蛋白质识别方面具有较好的预测性能。

Description

一种基于张量随机游走的关键蛋白质识别方法

技术领域

本发明涉及系统生物学领域，具体涉及一种基于张量随机游走的关键蛋白质识别方法。

背景技术

蛋白质是构成一切细胞和组织结构必不可少的成分，是生命活动最重要的物质基础。然而，不同的蛋白质对生命活动的重要性却不相同。通常那些被剔除后造成有关蛋白质复合物功能丧失，并导致生物体无法生存或发育的蛋白质称为关键蛋白质。关键蛋白质不仅是生物体生存和繁殖所必需的，而且，在生命活动中扮演重要角色。因此，关键蛋白质的识别有助于从系统水平上理解生命活动的内在组织和过程。同时，大量研究表明关键蛋白质(基因)往往是致病基因。由此可知，关键蛋白质的识别不仅为生物学，还为医学等相关学科提供有价值的信息，特别是在疾病诊疗、药物设计上有重要的应用前景。

目前关键蛋白质识别的计算方法大致可以分为生物实验测定方法、基于网络拓扑结构的方法和基于多元生物信息融合的方法三种。(1)、生物实验测定方法：在生物学上，有许多的实验方法来鉴定关键蛋白质，如单基因移除、RNA干扰、反义RNA和转座子突变。然而，这些实验方法都有一些局限性，如代价高、耗时，而且只能在少量物种上实行。(2)、基于网络拓扑结构的方法：He等对高度节点倾向于成为关键蛋白质的原因进行了探索。虽然高度节点倾向于表现出关键性，但是网络中仍然存在很大一部分节点具有很高的度，却不是关键蛋白质。Li等发现高度节点的邻居节点之间不存在或存在很少的相互作用关系，提出了基于局部连通性的关键蛋白质识别方法LAC。此外，一些经典的节点拓扑参数，包括介数、聚集系数等被引入用于关键蛋白质的识别。关键蛋白质并不是孤立存在，而是彼此之间密切联系，倾向于成簇出现。Hart等指出关键性是蛋白质复合物的一种属性，并通过实验数据显示出关键蛋白质往往大量集中于某些蛋白质复合物中，而在另一些复合物中只存在极少量的关键蛋白质。考虑到关键蛋白质的集聚特性，Wang等提出基于边聚集系数的网络中心性方法(Network Centrality,NC)来预测关键蛋白质。考虑到不同的中心性测度预测的关键蛋白质之间交叠较少，Chua等提出结合现有中心性测度方法(包括度，边聚集系数，NFC和ND)来识别关键蛋白质。这类方法还存在一些限制。由于高通量实验方法获得的PPI数据包含假阳性和假阴性，这将影响关键蛋白质识别的准确性。因此，一些中心性方法几个具有完整和可靠相互作用数据的物种上预测关键蛋白质。其次，大多数的方法很少分析其他已知关键蛋白质的内在属性，而只是使用网络的拓扑属性。(3)、基于多元生物信息融合的方法：Tew等结合功能信息与网络拓扑特性预测关键蛋白质。他们提出假设，这些关键蛋白质应该在功能模块的中心才能有效地完成它们的角色，删除这些关键蛋白质应该比删除外围的蛋白质更容易削弱模块。基于这个假设，它们基于功能条目的相似性定义了两个蛋白质之间的功能相似性，并提出了一种新的中心性方法：NFC，它是蛋白质与所有邻居的功能相似性的总和。通过结合逻辑回归模型和功能相似性，Li等构建了一个加权网络，并且基于加权网络定义了六种加权中心性方法(DC、BC、CC、SC、EC和IC)。有研究表明，关键蛋白质强烈集群在一起，关键性是蛋白质复合物的产物，而非单个蛋白质。Ren等结合PPI网络的拓扑特性和蛋白质复合物信息提出了一种新的关键蛋白质识别方法。对于一个蛋白质，他们使用SC(Complex Centrality)描述其在PPI网络中的重要性。复合物中心性是蛋白质在所有复合物的入度总和。考虑到关键蛋白质的模块性以及共聚集和共表达之间的紧密联系，Li等结合相互作用数据和基因表达数据提出了一种新的关键蛋白质预测方法Pec。最近，Zhang等通过改进Pec，提出一种名为CoEWC的关键蛋白质挖掘方法，该方法结合了PPI网络的拓扑特征和共表达的相互作用的蛋白质。考虑到关键蛋白质比非关键蛋白质更保守，它们相互绑定在一起更频繁。Peng等结合同源信息和PPI网络，提出了一种迭代的关键蛋白质预测方法。然而，融入多源生物数据后，蛋白质(基因)之间的联系变得更加复杂，生物网络具有节点异质性、关系多类型以及关系超二元型等特点。上述方法不足以刻画多关系网络的复杂作用关系，容易忽视生物特性，掩盖多源数据的内在属性。

因此，有必要改进多源生物数据融合方式，设计一种全新的关键蛋白质识别方法。

发明内容

本发明目的在提供一种基于张量随机游走的关键蛋白质识别方法，以解决现有技术中存在的关键蛋白质预测性能差的技术缺陷。

为实现上述目的，本发明提供了一种基于张量随机游走的关键蛋白质识别方法，包括以下步骤：

S1：获取蛋白质相互作用网络拓扑结构、蛋白质结构域信息、基于时间序列的基因表达信息以及蛋白质同源信息。

S2：根据蛋白质相互作用网络拓扑结构、蛋白质结构域信息以及基于时间序列的基因表达信息，建立蛋白质节点相互作用中不同蛋白质节点间的关联关系；根据所述蛋白质同源信息对蛋白质节点的枢纽得分进行初始化。

S3：以蛋白质相互作用中不同蛋白质节点间的关联关系建立张量模型。

S4：基于所述张量模型进行迭代计算得到每个蛋白质节点的枢纽得分并进行排序，将序列排行前n个蛋白质节点作为关键蛋白质。

优选地，通过聚集系数计算蛋白质相互作用网络中不同蛋白质节点间的关联关系的计算公式如下：

N_i和N_j分别表示蛋白质节点p_i和蛋白质节点p_j的邻居节点的集合，N_i∩N_j表示蛋白质节点p_i和蛋白质节点p_j的共同邻居节点集合。

优选地，根据蛋白质结构域信息计算不同蛋白质节点间的关联关系的计算公式如下：

Weight(p_i,p_j)＝P_D(p_i)×P_D(p_j)

其中，D表示不同结构域构成的集合，D_j表示包含结构域j的蛋白质数量。如果蛋白质p_i包含结构域j，则t_ij＝1，则否为0。

优选地，根据时间序列的基因表达信息计算不同蛋白质节点间的关联关系的计算公式如下：

一个给定蛋白质v，它的n个不同时刻的基因表达可以用一个向量表示：Gen(v)＝{T(v,1),T(v,2),...,T(v,n)}，其中，T(v,i)表示基因v在第i时刻的表达水平。

优选地，所述蛋白质节点的枢纽得分的计算公式如下：

其中N(v)表示节点v在参考物种S中拥有直系同源蛋白质的次数。

优选地，蛋白质节点的枢纽得分由邻居节点枢纽得分以及边重要性得分共同决定。

优选地，张量模型由随机游走算法扩展得到，扩展的方式为模拟高阶马尔可夫链的方式进行扩展。

优选地，对随机游走算法进行一次扩展得到的二维张量模型的两个状态转移模型为：

其中，表示访问第j个节点和选中第k种类型边时，下一刻访问第i个节点的概率，表示从第j个节点出发到第i个节点，选中第k种类型的边的概率。

优选地，对张量模型进行迭代计算每个蛋白质节点的枢纽得分包括以下步骤：

S401：根据节点枢纽得分由邻居节点枢纽得分和与之相连的边的重要性共同决定的原则，计算节点的枢纽得分如下：

其中，y_L(i)表示节点i在第L步迭代时的枢纽得分，d为跳转概率，此处可以设置为y₀(i)；

S402：根据重要性边连接两个高枢纽得分节点的原则，计算不同类型边的重要性得分如下：

S403：如果||Y_L-Y_L-1||+||Z_L-Z_L-1||≥ε，使L＝L+1，返回S401继续进行迭代，否则，迭代终止。

本发明具有以下有益效果：

本发明改变了现有方法基于加权汇总建立二维数据模型的多源数据融合方式，建立张量表示的多维数据模型，保留数据间的内在联系；通过模拟高阶马尔可夫链，将传统的随机游走算法扩展至张量表示的多维数据模型；识别关键蛋白质时，不仅考虑节点的连通性和边的权值，而且还考虑不同类型边的重要性与节点得分间的相互关联。本发明简单有效，通过与其他方法比较，及在多个数据集上测试表明，该发明在关键蛋白质识别方面具有较好的预测性能。

下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明基于张量随机游走的关键蛋白质识别方法的流程图；

图2是本发明融合多源数据建立的张量模型示意图；

图3是本发明TPK方法与其他十种关键蛋白质预测方法DC、IC、BC、CC、SC、NC、CoEWC、Pec、POEM、ION分别预测前100、200、300、400、500、600个关键蛋白质的准确度比较图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1：

参见图1，本发明首先提供了一种基于张量随机游走的关键蛋白质识别方法，包括以下步骤：

上述三种数据均源于Internet网上的公共数据库。蛋白质相互作用网络来源于酿酒酵母(面包酵母)，已经通过基因敲除实验被很好地特征化，并被广泛应用于关键蛋白质的评估。蛋白质结构域数据从Pfam数据库下载得到，包含1107个不同的结构域，涉及PPI网络中的3,056个蛋白质。基因表达数据共包含6,776个基因产品(蛋白质)在36个不同时刻的采样数据。

本发明结合蛋白质相互作用网络拓扑特性分析，以及基因表达信息和蛋白质结构域与关键蛋白质的关联分析，建立蛋白质互作用张量。

(1)蛋白质相互作用网络拓扑特性分析：

聚集系数用于刻画网络中某个节点与其邻居之间的亲疏程度，也是复杂网络中最重要的拓扑特征之一。本发明采用调整的聚集系数(AdjustECC)计算蛋白质相互作用网络中节点p_i和节点p_j的权值，计算公式如下：

N_i和N_j分别表示节点p_i和节点p_j的邻居节点的集合，N_i∩N_j表示节点p_i和节点p_j的共同邻居节点集合。

(2)蛋白质结构域与关键蛋白质关联分析：

蛋白质结构域是分子的一个特别区域,具有独立的功能。研究表明，若某蛋白质包含很少出现在其他蛋白质中的结构域，则该蛋白质更具有关键特性。本发明根据这一发现，建立节点间第二种类型的联系，节点间互作用权值计算公式如下：

Weight(p_i,p_j)＝P_D(p_i)×P_D(p_j)。

(3)基因表达相关分析：

基因表达是基因信息被用在功能性基因产物的合成过程，基因产物一般是蛋白质。对于一个给定蛋白质v，它的n个不同时刻的基因表达可以用一个向量表示：Gen(v)＝{T(v,1),T(v,2),...,T(v,n)}，其中，T(v,i)表示基因v在第i时刻的表达水平。本发明利用时间序列的基因表达信息的相关分析建立节点间第三种类型的联系，节点间互作用权值计算公式如下：

参见图2，图2为本发明建立的蛋白质互作用张量示意图。

根据所述蛋白质同源信息对蛋白质节点的枢纽得分进行初始化，包括初始化节点枢纽得分向量Y₀和边重要性得分向量Z₀。

初始的每条边的重要性得分设置为1/m，m为边的类型数量。节点的初始枢纽得分根据同源信息计算：

S3：以蛋白质相互作用中不同蛋白质节点间的关联关系建立张量模型

张量模型为n表示蛋白质数量，蛋白质之间存在m种类型的联系。如果第i个蛋白质与第j个蛋白质存在第k种类型的联系，则t_ijk＝1，否则t_ijk＝0。

本发明通过模拟高阶马尔可夫链，将随机游走算法扩充至张量。其中二维张量模型的两个状态转移张量T⁽¹⁾和T⁽²⁾计算公式如下所示：

将状态转移张量从二维扩展至张量表示的多维数据模型，迭代地计算每个节点的枢纽得分和每种类型边的重要性得分，迭代终止时的节点枢纽得分为关键蛋白质得分，节点根据得分降序排列。

基于张量的随机游走迭代过程如下：

(1)、根据节点枢纽得分由邻居节点枢纽得分和与之相连的边的重要性共同决定的原则，计算节点的枢纽得分如下：

其中，y_L(i)表示节点i在第L步迭代时的枢纽得分，d为跳转概率，此处可以设置为y₀(i)。

(2)根据重要性边通常连接两个高枢纽得分节点的原则，计算不同类型边的重要性得分如下：

(3)如果||Y_L-Y_L-1||+||Z_L-Z_L-1||≥ε，则L＝L+1跳至步骤(1)继续迭代，否则，迭代终止。

(4)节点根据枢纽得分向量Y_L降序排列。

(5)输出排在前面的n个蛋白质为识别的关键蛋白质。

实施例2：

为了验证本发明提出的关键蛋白质识别方法的有效性，我们在酵母蛋白质相互作用网络运行本方法和其他十种现行的关键蛋白质识别方法。用于实验的蛋白质相互作用网络源于DIP数据库，它由5,023个蛋白质和22,570条边组成。网络中已经移除了自相互作用和重复的相互作用。酵母的基因表达数据共包含6,776个基因产品(蛋白质)在36个不同时刻的采样数据。6,776个蛋白质中，有4,902个蛋白质包含在DIP数据集中。图3是本发明提出的方法与其他十种关键蛋白质预测方法DC、IC、BC、CC、SC、NC、CoEWC、Pec、POEM、ION分别预测前100、200、300、400、500、600个关键蛋白质的准确度比较图(即n＝100，200，300，400，500，600)。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于张量随机游走的关键蛋白质识别方法，其特征在于，包括以下步骤：

S1：获取酵母蛋白质相互作用网络拓扑结构、蛋白质结构域信息、基于时间序列的基因表达信息以及蛋白质同源信息；

S2：根据蛋白质相互作用网络拓扑结构、蛋白质结构域信息以及基于时间序列的基因表达信息，建立蛋白质节点相互作用中不同蛋白质节点间的关联关系；根据所述蛋白质同源信息对蛋白质节点的枢纽得分进行初始化；

S3：以蛋白质相互作用中不同蛋白质节点间的关联关系建立张量模型；

2.根据权利要求1所述的一种基于张量随机游走的关键蛋白质识别方法，其特征在于，通过聚集系数计算蛋白质相互作用网络中不同蛋白质节点间的关联关系的计算公式如下：

3.根据权利要求1所述的一种基于张量随机游走的关键蛋白质识别方法，其特征在于，根据蛋白质结构域信息计算不同蛋白质节点间的关联关系的计算公式如下：

Weight(p_i,p_j)＝P_D(p_i)×P_D(p_j)

其中，D表示不同结构域构成的集合，D_j表示包含结构域j的蛋白质数量；如果蛋白质p_i包含结构域j，则t_ij＝1，则否为0。

4.根据权利要求1所述的一种基于张量随机游走的关键蛋白质识别方法，其特征在于，根据时间序列的基因表达信息计算不同蛋白质节点间的关联关系的计算公式如下：

5.根据权利要求1所述的一种基于张量随机游走的关键蛋白质识别方法，其特征在于，所述蛋白质节点的枢纽得分的计算公式如下：

其中N(v)表示蛋白质节点v在参考物种S中拥有直系同源蛋白质的次数。

6.根据权利要求5所述的一种基于张量随机游走的关键蛋白质识别方法，其特征在于，蛋白质节点的枢纽得分与邻居节点枢纽得分和边重要性得分相关联。

7.根据权利要求1所述的一种基于张量随机游走的关键蛋白质识别方法，其特征在于，所述张量模型由随机游走算法扩展得到，扩展的方式为模拟高阶马尔可夫链的方式进行扩展。

8.根据权利要求6所述的一种基于张量随机游走的关键蛋白质识别方法，其特征在于，对随机游走算法进行一次扩展得到的二维张量模型的两个状态转移模型为：

其中，表示访问第j个蛋白质节点和选中第k种类型边时，下一刻访问第i个蛋白质节点的概率，表示从第j个蛋白质节点出发到第i个蛋白质节点，选中第k种类型的边的概率。

9.根据权利要求8所述的一种基于张量随机游走的关键蛋白质识别方法，其特征在于，对所述张量模块进行迭代计算每个蛋白质节点的枢纽得分包括以下步骤：