CN110910953B

CN110910953B - 一种基于蛋白质-域异构网络的关键蛋白预测方法

Info

Publication number: CN110910953B
Application number: CN201911187485.9A
Authority: CN
Inventors: 王雷; 孟子璇; 邹赛; 陈治平
Original assignee: Chongqing College of Electronic Engineering; Changsha University
Current assignee: Chongqing College of Electronic Engineering; Changsha University
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2022-09-13
Anticipated expiration: 2039-11-28
Also published as: CN110910953A

Abstract

本发明根据PageRank算法，设计了一种基于异构蛋白质域网络的基本蛋白质预测方法。本发明先将加权PPI网络、域‑域网络和初始蛋白质域网络三种网络结合起来，构建一个新的蛋白质‑域异构网络。其中，这三种网络分别根据基因表达数据、原始PPI网络以及已知的蛋白质‑域关联关系网络建立起来的。然后根据提取的每个蛋白质的功能特征和拓扑特征计算出每个蛋白质和域的初始分数。接下来，在新构建的蛋白质‑域异构网络的基础上，根据蛋白质和域的初始分数进一步构建新的分配率网络。最后，在构建的分配率网络的基础上，本发明设计了一种改进的PageRank算法来预测关键蛋白，并且预测的精度得到了很大的提高。

Description

一种基于蛋白质-域异构网络的关键蛋白预测方法

技术领域

本发明属于生物信息领域，具体涉及关键蛋白预测方法。

背景技术

越来越多的证据表明，蛋白质几乎参与了所有的生命活动，而不同蛋白质在生命活动中的功能和重要性是不同的。关键蛋白作为一类重要的蛋白质，在生物体的发育和生存中起着至关重要的作用，不仅能为维持生命提供基本的需求，而且在合成生物学中具有一定的实用价值。缺乏关键蛋白会导致蛋白质复合体的生物功能丧失，甚至导致机体死亡。因此，预测关键蛋白逐渐成为一个热点问题，这有利于疾病的治疗和药物的发展。在生物学中，识别关键蛋白主要通过生物学实验进行，如单基因敲除RNA干扰、条件敲除等。然而，生物实验是非常耗时和昂贵的。近年来，大量的计算方法相继被提出。其中，预测关键蛋白的准确性仍是一个具有挑战性的难题。

发明内容

为了解决上述问题，本发明提供一种准确性较高的基于异构蛋白质域网络的基本蛋白质预测方法，包括以下步骤，

S1：从两个不同的公共数据库分别下载的已知PPIs数据集，分别构建两个原始的PPI网络，对于给定的原始PPI网络中的每一对蛋白质，计算它们之间基因表达的高斯交互作用谱核相似性作为它们之间的权重，构建了一个新的加权PPI网络。

S2：根据从公共数据库下载的域信息和已知的蛋白质域关联，分别构建加权域-域关联网络N_DD和初始蛋白质-域网络N_PD，对N_PP、N_DD、N_PD三种新构建的网络进行整合，得到蛋白质-域异构网络N_HPD。

S3：在原有的PPI网络N_I的基础上，根据初始的PPI网络提取每个蛋白质的拓扑特征，结合从公共数据库下载的与蛋白质相关的亚细胞定位信息和直系同源信息，计算N_HPD中每个蛋白质和域的初始得分。

原有的PPI网络是指从数据库中直接下载的蛋白质所构成的网络。

初始的PPI网络是指把原有的PPI网络在本方法中进行初始化后的网络。

加权ppi网络是指根据NDD、NPD所计算的信息对初始化后的PPI网络的各条过的权值修正。

Npp为PPI网络，即从数据库中直接下载的蛋白质所构成的网络。

S4：基于蛋白质-域异构网络N_HPD，设计基于PageRank的迭代算法来预测潜在的关键蛋白质。

进一步的，所述步骤S1包括以下步骤：

S101：从两个不同的公共数据库分别下载PPIs数据集，基于所述PPIs数据集，分别构建了两个不同的原始PPI网络，将N_I＝{P_I,L_I}定义为基于从数据库I下载的已知PPIs的原始PPI网络，其中P_I＝{p₁,p₂,…,p_K}表示从数据库I下载的蛋白质集合，L_I表示P_I中蛋白质的边集合，根据获得的原始PPI网络N_I,,构造K×K维邻接矩阵NI＝(a_ij)_K×K，当且仅当p_i和p_j有一个边时，a_ij＝1，否则a_ij＝0；

S102：对于每个蛋白质p∈P_I，令Ex(p,i)表示其第i个时间点的基因表达数据，蛋白质p的基因表达数据表示为Ex(p)＝{Ex(p,1),Ex(p,2),…,Ex(p,m)}，对于P_I中任意两个给定的蛋白质p_j和pj，它们之间的权重赋值采用以下公式定义:

其中，

γ_p表示归一化新的内核带宽参数，γ′_p表示内核带宽参数NE_p表示存在基因表达的蛋白质数量，α表示参数分布比例，其中α∈[0,1]。

进一步的，所述步骤S2包括以下步骤：

S201：从数据库下载关于域的数据集，采用D＝{d₁,d₂,…,d_N}表示数据集中的域，L_PD代表域和蛋白质之间的边的集合,构造初始蛋白质-域网络N_PD＝{P_I,L_PD}，基于初始蛋白质-域网络N_PD,构建K×N维邻接矩阵NPD＝(b_ij)_K×N,当且仅当蛋白质p_i∈P_I和域d_j∈D有一条边时，b_ij＝1，否则b_ij＝0；

S202：对于D中任意两个给定的域d_i和d_j，采用D_i和D_j分别表示d_i和d_j中的蛋白质集合，D_i∩D_j表示d_i和d_j中的共同蛋白质，采用以下公式计算d_i和d_j域之间的权重:

构造N×N维邻接矩阵N_DD；

S203：基于K×K维邻接矩阵NPP、K×N维邻接矩阵NPD和N×N维邻接矩阵NDD，采用以下公式得到(K+N)×(K+N)维异构矩阵NHPD:

构建异构蛋白质域网络N_HPD。

进一步的，所述步骤S3包括以下步骤：

S301：分别从两个不同的数据库下载亚细胞定位信息和同源信息，采用S＝{s₁,s₂,…,s_n}表示一组亚细胞定位信息,pro(s_i)代表与亚细胞定位s_i相关的蛋白质集合和|pro(s_i)|表示在pro(s_i)中蛋白质的数量,采用以下公式获得pro(s_i)的平均数量:

S302：采用以下公式定义亚细胞定位s_i∈S的评分:

其中，

S303：对于给定的蛋白质p_i∈P_I,采用以下公式计算其在亚细胞定位方面的评分：

S(p_i)是与p_i相关的一组亚细胞定位；

S304：对于每个蛋白质p_i∈P_I，令ort(p_i)表示蛋白质p_i对应的其直系同源信息分数，采用以下公式计算初始分数:

S305：对于N_I＝{P_I,L_I}中的任意给定的蛋白质p_i，采用以下公式定义其相邻节点集合:

S306：采用以下公式计算N_I中与p_i相关的三角形数量:

其中，|NS(p_i)∩NS(p_j)|是NS(p_i)∩NS(p_j)中节点的数量；

S307：对于N_I＝{P_I,L_I}中的每个蛋白质p_i，采用以下公式定义平均三角形的拓扑特征:

其中，

|NS(p_i)|是NS(p_i)中节点的数量；

S308：对于N_I＝{P_I,L_I}中的每个蛋白质p_i，采用以下公式定义其初始得分:

其中，β∈[0,1],γ∈[0,1]，δ∈[0,1]，β+γ+δ＝1；

S309：对于N_HPD中任意给定的域d_i，采用以下公式定义初始得分:

进一步的，所述步骤S4包括以下步骤：

S401：基于新构建的加权PPI网络N_PP，对于P_I中任意给定的蛋白质p_i，采用以下公式定义一组与p_i相关的蛋白质集合:

N_NP(p_i)＝{p_j|NPP(p_i,p_j)≠0,p_j∈P_I}；

S402：令

BN(p_i,p_j＝NPP(p_i,p_j)/(1+MNPP)²,对于两个给定的蛋白质p_i和p_j,采用以下公式定义它们之间的分配率N_PP:

S403：对于给定的蛋白质p_i∈P_I和域d_j∈D，采用以下公式定义它们之间的权值:

S404：对于给定的蛋白质p_i∈P_I和域d_j∈D,采用以下公式定义它们之间的分配率在N_PD:

S405：对于给定的域d_i和d_j,令

采用以下公式定义它们之间的权重:

S406：对于D中的任意给定域d_i，采用以下公式定义了一组与d_i相关的域集合:

N_D(d_i)＝{d_j|NDD(d_i,d_j)≠0,d_j∈D}；

S407：对于D中的任意给定域d_i和d_j，采用以下公式定义它们在N_DD中的分配率:

S408：采用以下公式得到新的分配率矩阵DRM:

S409：基于PageRank算法，设a表示异构蛋白质域网络N_HPD中任意的蛋白质节点或域节点，采用以下公式迭代计算蛋白质和域的分数:

其中，NPR_a(t)是第t次迭代后的得分向量，

为比例调整参数。

本发明的有益效果是，将PPI网络与亚细胞定位、直系同源数据、基因表达等与蛋白质相关的生物数据相结合构建新的加权PPI网络来推断关键蛋白质，具有较高的预测准确率。

附图说明

图1为本发明流程图。

图2为本发明流程图。

具体实施方式

预测关键蛋白的计算模型大致可以分为两大类。第一类模型侧重于利用PPI网络(PPI网络表示蛋白质相互作用网络)的拓扑特征来预测关键蛋白。例如,受centrality-lethality规则的启发，一些预测关键蛋白的方法被陆续的提出，其中包括DC(Degreecentrality),IC(Information centrality),CC(Closeness centrality),BC(Be-tweenness centrality),SC(Subgraph centrality),NC(Neighbor centrality)。这些基于PPI网络拓扑的方法都不需要额外的生物数据，打破了传统生物实验的局限性，取得了很大的进展。然而，由于PPI网络的不完整性，PPI网络中的假阳性和假阴性数据可能会对预测结果产生负面影响。因此，这些基于PPI网络拓扑特征的预测方法在预测关键蛋白的过程中，并不能获得令人满意的预测结果。第二类预测方法是将PPI网络与亚细胞定位、直系同源数据、基因表达等与蛋白质相关的生物数据相结合构建新的加权PPI网络来推断关键蛋白质，以此来提高预测准确率。

综上所述，将生物学数据与PPI网络相结合，可以显著提高关键蛋白质的预测准确性。但考虑到单纯的PPI网络不能很好地反映蛋白质的多样性,所以构建了一个名为NPRI的新预测模型来识别关键蛋白。NPRI模型将加权PPI网络与初始蛋白质-域关联网络和域-域关联网络相结合构建蛋白质-域异构网络。此外，对于异构蛋白质-域网络中的每一个蛋白质，都将从原始PPI网络中提取的一些关键的拓扑特性，和与蛋白质相关的亚细胞定位信息、同源信息和整合在一起，得到其初始得分。然后，基于异构蛋白质域网络，进一步构建基于PageRank的迭代算法来检测潜在的关键蛋白质。

本发明先将加权PPI网络、域-域网络和初始蛋白质域网络三种网络结合起来，构建一个新的蛋白质-域异构网络。其中，这三种网络分别根据基因表达数据、原始PPI网络以及已知的蛋白质-域关联关系网络建立起来的。然后根据提取的每个蛋白质的功能特征和拓扑特征计算出每个蛋白质和域的初始分数。接下来，在新构建的蛋白质-域异构网络的基础上，根据蛋白质和域的初始分数进一步构建新的分配率网络。最后，在构建的分配率网络的基础上，本发明设计了一种改进的PageRank算法来预测关键蛋白，并且预测的精度得到了很大的提高。

如图1所示本发明包括以下步骤：

S1：根据从两个公共数据库分别下载的已知PPIs数据集，构建两个原始的PPI网络。然后，对于任意给定的原始PPI网络中的每一对蛋白质，计算它们之间基因表达的高斯交互作用谱核相似性作为它们之间的权重。这样就构建了一种新的加权PPI网络。

S2：根据从公共数据库下载的域信息和已知的蛋白质域关联，分别构建加权域-域关联网络N_DD和初始蛋白质-域网络N_PD。然后，对N_PP、N_DD、N_PD三种新构建的网络进行整合，得到一种新型的蛋白质-域异构网络N_HPD。

S3：在原有的PPI网络N_I的基础上，可以先根据初始的PPI网络提取每个蛋白质的拓扑特征，然后结合从公共数据库下载的与蛋白质相关的亚细胞定位信息和直系同源信息，计算N_HPD中每个蛋白质和域的初始得分。

S4：基于蛋白质-域异构网络N_HPD，设计一种新的基于PageRank的迭代算法来预测潜在的关键蛋白质。

PageRank是Google提出的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page和Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。

所述步骤S1包括以下步骤：

S101：从两个公共数据库(如Gavin数据库和DIP数据库)分别下载两个已知的PPIs数据集。经过筛选，最终获得了来自DIP数据库的5093个蛋白质之间的1167个基本蛋白质和24743个关联关系；来自Gavin数据库的1855个蛋白质之间的617个基本蛋白质和7669个关联关系。基于以上两个数据库下载的已知PPI数据集，分别构建了两个不同的原始PPI网络。为方便起见，将N_I＝{P_I,L_I}定义为基于从数据库I下载的已知PPIs的原始PPI网络，其中P_I＝{p₁,p₂,…,p_K}表示从数据库I下载的蛋白质集合，L_I表示P_I中蛋白质间的边集合。在P_I中对于任何给定的蛋白质p_i、p_j之间有一条边,当且仅当它们之间有一个已知的关联关系。根据获得的原始PPI网络N_I,,构造K×K维邻接矩阵NI＝(a_ij)_K×K。当且仅当p_i和p_j有一个边时，有a_ij＝1；否则a_ij＝0。

S102：将下载基因表达数据集。对于每个蛋白质p∈P_I，令Ex(p,i)表示其第i个时间点的基因表达数据，则蛋白质p的基因表达数据可以表示为Ex(p)＝{Ex(p,1),Ex(p,2),…,Ex(p,m)}。因此，受高斯相互作用谱核相似性概念的启发，对于P_I中任意两个给定的蛋白质p_j和pj，它们之间的权重可以赋值如下:

其中，

在γ_p表示归一化新的内核带宽参数γ′_p,NE_p表示存在基因表达的蛋白质数量，α表示参数分布比例，其中α∈[0,1]。

显然，根据上式(2)，可以得到一个K×K维邻接矩阵NPP。

所述步骤S2包括以下步骤：

S201：从Pfam数据库下载关于域的数据集。经过筛选，获得4936个蛋白质域关联，包括3630个蛋白质和1107个蛋白质域。为方便起见,让D＝{d₁,d₂,…,d_N}表示数据集中的域，L_PD代表域和蛋白质之间的边的集合,然后构造出一个初始蛋白质-域网络N_PD＝{P_I,L_PD}:对于任何给定的蛋白质p_i∈P_I和域d_j∈D,它们之间存在一条边p_i和d_j当且仅当它们之间有一个已知的关联关系。

显然,基于初始蛋白质-域网络N_PD,可以进一步构建一个K×N维邻接矩阵NPD＝(b_ij)_K×N,当且仅当蛋白质p_i∈P_I和域d_j∈D有一条边时，b_ij＝1；否则b_ij＝0。

S202：对于D中任意两个给定的域d_i和d_j，让D_i和D_j分别表示d_i和d_j中的蛋白质集合，D_i∩D_j表示d_i和d_j中的共同蛋白质，那么可以计算d_i和d_j域之间的权重如下:

显然，基于上述式(3)，可以构造一个新的域-域关联网络N_DD，同时得到一个相应的N×N维邻接矩阵N_DD。

S203：基于新构建的K×K维邻接矩阵NPP、K×N维邻接矩阵NPD和N×N维邻接矩阵NDD，可以很容易地得到一个(K+N)×(K+N)维异构矩阵NHPD如下:

显然，根据(4)式，可以得到异构蛋白质域网络N_HPD。

所述步骤S3包括以下步骤：

S301：为了对N_HPD中的蛋白质和域节点进行初始评分，分别从COMPART-MENTS数据库和InParanoid数据库(Version 7)下载亚细胞定位信息和同源信息。然后,让S＝{s₁,s₂,…,s_n}表示一组亚细胞定位信息,pro(s_i)代表与亚细胞定位s_i相关的蛋白质集合和|pro(s_i)|表示在pro(s_i)中蛋白质的数量,从下式可以获得的平均数量:

S302：根据上式(5)，对于每个亚细胞定位s_i∈S的评分可以定义为:

其中，

S303：由上式(6)可知，对于任意给定的蛋白质p_i∈P_I,其在亚细胞定位方面的评分为：

S(p_i)是与p_i相关的一组亚细胞定位。

S304：对于每个蛋白质p_i∈P_I，令ort(p_i)表示蛋白质p_i对应的其直系同源信息分数，其直系同源信息分数从InParanoid数据库下载的，基于蛋白质的同源信息，它的初始分数如下:

S305：对于N_I＝{P_I,L_I}中的任意给定的蛋白质p_i，我们定义其相邻节点集合为:

S306：由上式(10)可知，考虑到三角形具有稳定性的特点，对于N_I＝{P_I,L_I}中的每一个蛋白质p_i，我们可以得到N_I中与p_i相关的三角形数量如下:

其中，|NS(p_i)∩NS(p_j)|是NS(p_i)∩NS(p_j)中节点的数量。

S307：根据上式(11)，对于N_I＝{P_I,L_I}中的每个蛋白质p_i，我们可以定义其平均三角形的拓扑特征如下:

其中，

|NS(p_i)|是NS(p_i)中节点的数量。

S308：根据上式(8)(9)(12)，对于N_I＝{P_I,L_I}中的每个蛋白质p_i，我们定义其初始得分为:

其中，β∈[0,1],γ∈[0,1]，δ∈[0,1]，它们三个为调整比例参数，其中β+γ+δ＝1。

S309：根据上式(14)，对于N_HPD中任意给定的域d_i，我们将其初始得分定义为:

所述步骤S4包括以下步骤：

S401：基于新构建的加权PPI网络N_PP，对于P_I中任意给定的蛋白质p_i，我们首先定义一组与p_i相关的蛋白质集合，如下:

N_NP(p_i)＝{p_j|NPP(p_i,p_j)≠0,p_j∈P_I} (16)

S402：令

BN(p_i,p_j)＝NPP(p_i,p_j)/(1+MNPP)²,然后对于任意两个给定的蛋白质p_i和p_j,我们可以进一步定义它们之间的分配率N_PP如下:

S403：根据构建的初始蛋白质-域关联网络N_PD，对于任意给定的蛋白质p_i∈P_I和域d_j∈D，我们可以定义它们之间的权值为:

S404：基于公式(18),让

那么,对于任何给定的蛋白质p_i∈P_I和域d_j∈D,我们可以定义它们之间的分配率在N_PD如下:

S405：基于域-域网络N_DD,对于任何给定的域d_i和d_j,让

然后我们可以定义它们之间的权重如下:

S406：对于D中的任意给定域d_i，我们定义了一组与d_i相关的域集合，如下所示:

N_D(d_i)＝{d_j|NDD(d_i,d_j)≠0,d_j∈D} (21)

S407：对于D中的任意给定域d_i和d_j，我们可以定义它们在N_DD中的分配率为:

S408：由(17)(19)(22)式可得新的分配率矩阵DRM如下:

S409：基于PageRank算法，设a表示异构蛋白质域网络N_HPD中任意的蛋白质节点或域节点，则根据式(24)迭代计算蛋白质和域的分数:

其中，NPR_a(t)是第t次迭代后的得分向量，

为比例调整参数。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于异构蛋白质域网络的基本蛋白质预测方法，其特征在于包括以下步骤，

S1：从两个不同的公共数据库分别下载的已知PPIs数据集，分别构建两个原始的PPI网络，对于给定的原始的PPI网络中的每一对蛋白质，计算它们之间基因表达的高斯交互作用谱核相似性作为它们之间的权重，构建了一个新的加权PPI网络；

S2：根据从公共数据库下载的域信息和已知的蛋白质域关联，分别构建加权域-域关联网络N_DD和初始蛋白质-域网络N_PD，对N_PP、N_DD、N_PD三种新构建的网络进行整合，得到蛋白质-域异构网络N_HPD；

S3：在原始的PPI网络N_I的基础上，根据初始的PPI网络提取每个蛋白质的拓扑特征，结合从公共数据库下载的与蛋白质相关的亚细胞定位信息和直系同源信息，计算N_HPD中每个蛋白质和域的初始得分；

S4：基于蛋白质-域异构网络N_HPD，设计基于PageRank的迭代算法来预测潜在的关键蛋白质；

所述步骤S1包括以下步骤：

S101：从两个不同的公共数据库分别下载PPIs数据集，基于所述PPIs数据集，分别构建了两个不同的原始PPI网络，将N_I＝{P_I,L_I}定义为基于从数据库I下载的已知PPIs的原始PPI网络，其中P_I＝{p₁,p₂,…,p_K}表示从数据库I下载的蛋白质集合，L_I表示P_I中蛋白质的边集合，根据获得的原始PPI网络N_I,构造K×K维邻接矩阵NI＝(a_ij)_K×K，当且仅当p_i和p_j有一个边时，a_ij＝1，否则a_ij＝0；

S102：对于每个蛋白质p∈P_I，令Ex(p,m)表示其第m个时间点的基因表达数据，蛋白质p的基因表达数据表示为Ex(p)＝{Ex(p,1),Ex(p,2),…,Ex(p,m)}，对于P_I中任意两个给定的蛋白质p_i和p_j，它们之间的权重赋值采用以下公式定义: