CN113450872A

CN113450872A - 磷酸化位点特异激酶的预测方法

Info

Publication number: CN113450872A
Application number: CN202110751661.8A
Authority: CN
Inventors: 施绍萍; 郭昕昀; 张菊
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-09-28
Anticipated expiration: 2041-07-02
Also published as: CN113450872B

Abstract

本发明涉及一种磷酸化位点特异激酶的预测方法，具体步骤如下：根据数据库中的数据构建激酶‑底物异构网络，并计算赋予其边不同的权重；基于建立的网络，采用加权最大二部图匹配算法预测潜在的激酶‑底物关系；对于查询的磷酸化位点，截取其氨基酸片段并计算该片段和不同激酶催化的底物片段之间的序列相似性打分；结合预测出的激酶‑底物关系和序列相似性打分，预测所给磷酸化位点的催化激酶。本发明磷酸化位点特异激酶的预测方法，有效结合了PPI网络信息和蛋白质局部序列信息；针对查询位点给出不同阈值下各激酶的催化可能性；在不同的激酶上均获得了比现有方法更高的预测准确率。

Description

磷酸化位点特异激酶的预测方法

技术领域

本发明涉及生物信息领域，具体的说，涉及一种磷酸化位点特异激酶的预测方法。

背景技术

蛋白激酶催化的磷酸化是真核生物体内最普遍存在的翻译后修饰，几乎对所有细胞行为都起着重要的调控作用，包括DNA修复、转录调控、细胞调亡、免疫应答、新陈代谢和细胞分化。越来越多的实验研究揭示蛋白激酶能直接或间接地影响蛋白质的异常磷酸化，并牵涉很多严重疾病的发生发展。因此研究激酶对蛋白磷酸化位点的特异性作用对于理解激酶在生理和病理过程中的调控机制以及相关疾病的药物设计具有重要意义。

随着生物技术的发展，大量的磷酸化位点被实验证实并收入到磷酸化数据库中。实验方法昂贵耗时，并且目前为止高通量检测磷酸化位点激酶的实验方法鲜有报道，发现激酶信息是偶然的，因此数据库中的磷酸化位点只有小部分拥有激酶的注释，大量的位点是没有激酶标注信息的。

鉴于现存实验方法的局限性，开发预测方法更高效更全面地识别磷酸化显得十分必要。虽然已经有一些计算工具被提出，但当前可用的预测工具存在以下不足：一些工具仅能预测激酶和底物蛋白的关系，不能对磷酸化位点的催化激酶进行准确地预测；绝大部分工具基于机器学习算法，需要对样本进行特征编码，这个过程不可避免地会造成原始信息的丢失，此外，不平衡的正负样本集也会影响到机器学习的预测结果；最后，一些方法在提取PPI网络信息时只考虑局部信息而未使用全局信息，这可能导致假阳性的出现。

发明内容

针对上述现有技术中的不足，本发明提供一种通过有效结合蛋白质-蛋白质相互作用网络信息和局部序列信息，针对用户给出的磷酸化位点进行催化激酶的预测，改进现有磷酸化的整体预测质量的磷酸化位点特异激酶的预测方法。

本发明所采取的技术方案是：

一种磷酸化位点特异激酶的预测方法，

步骤S101，根据数据库中的数据构建激酶-底物异构网络，并计算赋予其边不同的权重；

步骤S102，利用步骤S101建立的网络，采用MWBM算法来预测潜在的激酶-底物关系，给出查询底物和不同激酶间相互作用的可能性打分；

步骤S103，对于查询的位点，截取其氨基酸片段并计算该片段和不同激酶催化的底物片段之间的序列相似性打分P_seq；

步骤S104，结合预测出的潜在的激酶-底物关系和序列相似性打分P_seq，对查询位点的催化激酶进行预测并给出预测结果。

优选的，根据数据库中的数据构建激酶-底物异构网络步骤如下：

步骤S201，计算激酶-激酶和底物-底物相似性，为了减少由于边缘损失造成的假阴性，使用边缘聚类算法(NECC)更新蛋白质-蛋白质相互作用(PPI)网络边的权重，并与STRING数据库中已标注的PPI置信分数(CF)通过取平均数的方式结合，确定激酶-激酶相互作用网络、底物-底物相互作用网络中边的权重；

无向图G(V,E)代表PPI网络，定义v∈V为节点蛋白质，(u,v)∈E为两个节点蛋白u和v之间的相互作用关系；

ECC用来表示两个节点之间的紧密程度：

其中Z_u,v是蛋白u和v的共同邻居集，d(x)代表了节点x的度，边缘聚类系数NECC如下式定义：

其中：

图G(V,E)中边的权重可以根据下式更新：

其中CF(u,v)是蛋白对(u,v)在数据库STRING中已有的置信分数；

对于任意两个蛋白质u和v，都能在图上找到他们之间的最短路径，SP(u,v)代表了最短路径中的边的集合，最终，蛋白u和v之间的相似性可以更新为：

W(i,j)是由式(4)计算得出的蛋白i和j之间边的权重；由于激酶和底物都是蛋白质，使用上述方法计算激酶-激酶相似性和底物-底物相似性，以激酶-激酶相似性为例，从数据库STRING中得到激酶蛋白间的相互作用网络，由式(1)至式(4)更新数据库中已有的边的权重，随后从激酶集中任选两个激酶，两者之间存在一条最短路径，利用式(5)能够计算其相似性，底物-底物相似性以相同方法计算；

步骤S202，建立激酶-底物异构网络，根据步骤S201计算的相似性，设计两个新的网络G_k(U,E_k)和G_S(V,E_s)，在这里U代表了激酶集而E_k包含了激酶对之间所有的边，V表示底物集，E_s包含了两两底物间所有的边；两个网络中，边的权重为步骤S201计算得到的相似性，如果两个节点间的相似性为0，则认为这两个节点间没有相互作用；

使用G_I表示激酶-底物相互作用的网络，如果激酶k_i和底物s_j之间已经有实验证实的相互作用存在，那么k_i和s_j之间存在边e_ij，e_ij的权重为k_i和s_j之间已证实的相互作用发生的次数；

将G_k、G_S和G_I结合起来，建立激酶-底物异构网络模型。

优选的，基于相似性网络使用MWBM算法进行预测步骤如下；

根据步骤S101建立的激酶-激酶网络G_k，底物-底物网络G_S和激酶-底物网络G_I分别建立其邻接矩阵K、S和I；

以S为例介绍如何构建邻接矩阵，s_i和s_j为底物集V中的两个不同底物，如果(s_i,s_j)∈E_s，那么S(i,j)＝W_ij，否则S(i,j)＝0，激酶相似度邻接矩阵和激酶-底物相互作用邻接矩阵以相同的方法构建；在使用矩阵进行预测前，对三个邻接矩阵进行归一化，选择Laplace归一化准则对K、S实施归一化，得到归一矩阵K_n和S_n：

其中，D_s对角矩阵，其对角线上的值D_s(i,i)等于矩阵S第i行元素值的和，D_k以同样的方式得到；

与K和S不同，采用对称正则化对激酶-底物相互作用矩阵I进行归一化，得到归一矩阵I_n：

利用MWBM进行激酶-底物关系预测；

不同于Random Walk总是作为“扩散器”工作，很难清晰地捕获两个节点之间的局部邻域的相似性，MWBM能够直接匹配节点之间的局部邻域，更清晰地量化局部拓扑相似性。

利用MWBM预测激酶-底物关系步骤如下；

首先初始化预测矩阵T:T＝I_n，其次，对于每一对激酶-底物关系(k_i,s_j)；

分别提取其邻居集N(k_i)＝{k_i'|k_i,i'∈E_k}和N(s_j)＝{s_j'|s_j,j'∈E_s}；

其中A_ij表示使用MWBM后邻居集N(k_i)和N(s_j)之间的最优映射，接着根据这个映射，预测矩阵T可由下式更新：

更新后，对于一个查询底物n，NetScore(k_i,n)＝T(k_i,n),i＝1,2,3,…,|U|为激酶k_i与底物n之间关联的预测打分，所有的激酶将依据预测打分从高到低进行排序，对于一个特定的激酶k，如果其排名在第i位，最终定义：

优选的，提取磷酸化位点周围的氨基酸序列信息步骤如下：

步骤S301，构建数据集，对于特定的激酶k，将其包含的所有磷酸化片段序列集定义为S_p，预先定义的背景集记为S_b，值得注意的是，

步骤S302，计算序列相似性，给出两段长度均为2n+1的氨基酸序列S₁和S₂的局部序列相似性定义：

其中Sim代表标准化的氨基酸取代矩阵；

对于任意两个氨基酸a和b，

M是一个代替矩阵(此方法中使用BLOSUM62)，针对一个查询P位点，截取得到2n+1长度的片段P_query，计算该片段与S_p和S_b中的所有片段的相似性得分，并将得分进行降序排列；

步骤S303，计算富集分数ES，在相似性排序中，如果P_query与S_p中的序列更为相似，那么S_p中的序列排名就会靠前，认为P_query很有可能被S_p所对应的激酶催化；

为了确定S_p在序列顶部的富集程度，计算动态求和得分RS：

其中d_j代表了P_query和S_p中的片段P_j之间的相似性得分，D是所有d_j的和；

RS总的变化趋势是先增后降的，规定其在动态变化的过程中达到的最大值为富集分数ES；

步骤S304估计ES的统计意义P_seq，与使用P_net来刻画PPI相互作用信息类似，使用P_seq来描述P位点局部序列的相似性；

从背景集S_b中随机选取999个与S_p大小相同的集合S_b1～S_b999，并计算P_query相对于这999个集合的ES，记为ES(S_b1)～ES(S_b999)，将上述计算所得与ES(S_p)一起进行降序排序，假设ES(S_p)排在第L位，则定义：

优选的，结合激酶-底物关系打分P_net和序列相似性打分P_seq，对查询位点的催化激酶进行预测，综合得分P_combine为P_net和P_seq的加权和：

P_combine＝λ×P_net+(1-λ)×P_seq (15)

利用参数λ调整PPI网络信息P_net和序列信息P_seq在结合时的比重，取λ为{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},以训练集预测结果的精确度为评价标准，选取预测结果精确度最高时的值作为λ的取值，激酶k的P_combine值越小，查询的P位点越有可能被激酶k催化。

优选的，所述的训练过程，正样本的选取为某一激酶所催化的所有磷酸化位点，而负样本则随机选择其他激酶催化的磷酸化位点以及与正样本位点同底物同氨基酸类型的非磷酸化位点，按照1:1的比例混合构建训练集。

优选的，步骤S104用户可以设置不同的阈值，低于阈值的预测分数将被输出，阈值选择0.01(高阈值)或0.02(低阈值)。

本发明相对现有技术的有益效果：

本发明磷酸化位点特异激酶的预测方法，有效结合了PPI网络信息和蛋白质局部序列信息；针对查询位点给出不同阈值下各激酶的催化可能性；在不同的激酶上均获得了比现有方法更高的预测准确率。

附图说明

图1本发明磷酸化位点特异激酶的预测方法总体流程示意图；

图2是磷酸化位点特异激酶的预测方法的实例预测图。

具体实施方式

以下参照附图及实施例对本发明进行详细的说明：

图2是使用本发明进行的实例预测，预测对象为AR蛋白质氨基酸上第16和第650个氨基酸位点，两个位点均为丝氨酸(下文用S16和S650替代)；S650已有实验证实被激酶MAPK3催化，而S16目前还未有激酶催化信息；图2展示了不同激酶催化S650和S16的预测打分，分数越小则由该激酶催化的可能性就越大，注意这里仅仅显示预测打分阈值之内激酶信息。

据图2所示，对于磷酸化位点S650，本发明可以预测出其真实催化激酶MAPK3，而对于无激酶注释位点S16，预测分数总体上高于S650(催化可能性更小)，但依旧能显示出潜在的催化激酶，为查询用户提供建议。

附图1和2可知，一种磷酸化位点特异激酶的预测算法，具体步骤如下：

根据数据库中的数据构建激酶-底物异构网络，并预测KSR：

步骤1)计算激酶-激酶和底物-底物相似性，为了减少由于边缘损失造成的假阴性，使用边缘聚类算法(NECC)更新蛋白质-蛋白质相互作用(PPI)网络边的权重，并与STRING数据库中已标注的PPI置信分数(CF)通过取平均数的方式结合，确定激酶-激酶相互作用网络、底物-底物相互作用网络中边的权重；

ECC用来表示两个节点之间的紧密程度：

其中：

图G(V,E)中边的权重可以根据下式更新：

其中CF(u,v)是蛋白对(u,v)在数据库STRING中已有的置信分数；

W(i,j)是由式(4)计算得出的蛋白i和j之间边的权重；由于激酶和底物都是蛋白质，使用上述方法计算激酶-激酶相似性和底物-底物相似性；以激酶-激酶相似性为例，从数据库STRING中得到激酶蛋白间的相互作用网络，由式(1)至式(4)更新数据库中已有的边的权重，接着从激酶集中任选两个激酶，两者之间存在一条最短路径，利用式(5)能够计算其相似性，底物-底物相似性以相同方法计算；

步骤2)建立激酶-底物异构网络，根据步骤1)计算的相似性，设计两个新的网络G_k(U,E_k)和G_S(V,E_s)，在这里U代表了激酶集而E_k包含了激酶对之间所有的边，V表示底物集，E_s包含了两两底物间所有的边；两个网络中，边的权重为步骤1)计算得到的相似性，如果两个节点间的相似性为0，则认为这两个节点间没有相互作用；

将G_k、G_S和G_I结合起来，建立激酶-底物异构网络模型；

步骤3)基于相似性网络使用MWBM算法进行预测，根据步骤2)建立的激酶-激酶网络G_k，底物-底物网络G_S和激酶-底物网络G_I分别建立其邻接矩阵K、S和I；

以S为例介绍如何构建邻接矩阵，a_i和s_j为底物集V中的两个不同底物，如果(s_i,s_j)∈E_s，那么S(i,j)＝W_ij，否则S(i,j)＝0，激酶相似度邻接矩阵和激酶-底物相互作用邻接矩阵以相同的方法构建；在使用矩阵进行预测前，对三个邻接矩阵进行归一化，选择Laplace归一化准则对K、S实施归一化，得到归一矩阵K_n和S_n：

利用MWBM进行激酶-底物关系预测；

利用MWBM预测激酶-底物关系，首先初始化预测矩阵T:T＝I_n，其次，对于每一对激酶-底物关系(k_i,s_j)，

更新后，对于一个查询底物n，NetScore(k_i,n)＝T(k_i,n),i＝1,2,3,…,|U|为激酶k_i与底物n之间关联的预测打分，所有的激酶将依据预测打分从高到低进行排序，对于一个特定的激酶k，如果其排名在第i位，最终我们定义：

提取磷酸化位点周围的氨基酸序列信息：

步骤1)构建数据集，对于特定的激酶k，将其包含的所有磷酸化片段序列集定义为S_p，预先定义的背景集记为S_b，值得注意的是，

步骤2)计算序列相似性，给出两段长度均为2n+1的氨基酸序列S₁和S₂的局部序列相似性定义：

其中sim代表标准化的氨基酸取代矩阵；

对于任意两个氨基酸a和b，

步骤3)计算富集分数ES，在相似性排序中，如果P_query与S_p中的序列更为相似，则S_p中的序列排名就会靠前，认为P_query很有可能被S_p所对应的激酶催化；

为了确定S_p在序列顶部的富集程度，计算动态求和得分RS：

步骤4)估计ES的统计意义P_seq，与使用P_net来刻画PPI相互作用信息类似，使用P_seq来描述P位点局部序列的相似性；

综合得分方法：

综上所述，P_net和P_seq分别度量了PPI网络信息和磷酸化位点局部序列信息；

综合得分P_combine为P_net和P_seq的加权和：

P_combine＝λ×P_net+(1-λ)×P_seq (15)。

利用参数λ调整PPI网络信息和序列信息在结合时的比重，激酶k的P_combine值越小，查询的P位点越有可能被激酶k催化。

本发明公开了一种磷酸化位点特异激酶的预测方法，具体步骤如下：根据数据库中的数据构建激酶-底物异构网络，并计算赋予其边不同的权重；利用建立的网络，采用加权最大二部图匹配算法预测潜在的激酶-底物关系；对于查询的磷酸化位点，截取其氨基酸片段并计算该片段和不同激酶催化的底物片段之间的序列相似性打分；结合预测出的激酶-底物关系和序列相似性打分，预测所给磷酸化位点的催化激酶。该方法结合了蛋白质-蛋白质相互作用网络信息和磷酸化位点局部序列信息，提高了模型的预测性能和生物可解释性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明的技术方案范围内。

Claims

1.一种磷酸化位点特异激酶的预测方法，其特征在于，具体步骤如下：

步骤S102，利用步骤S101建立的网络，采用加权最大二部图匹配(MWBM)算法来预测潜在的激酶-底物关系，给出查询底物和不同激酶间相互作用的可能性打分；

2.根据权利要求1所述磷酸化位点特异激酶的预测方法，其特征在于：

根据数据库中的数据构建激酶-底物异构网络步骤如下：

步骤S201，计算激酶-激酶和底物-底物相似性，使用边缘聚类算法更新蛋白质-蛋白质相互作用(PPI)网络边的权重，并与STRING数据库中已标注的PPI置信分数(CF)通过取平均数的方式结合，确定激酶-激酶相互作用网络、底物-底物相互作用网络中边的权重；

无向图G(V，E)代表PPI网络，定义v∈V为节点蛋白质，(u，v)∈E为两个节点蛋白u和v之间的相互作用关系；

ECC用来表示两个节点之间的紧密程度：

其中Z_u，v是蛋白u和v的共同邻居集，d(x)代表了节点X的度，边缘聚类系数NECC如下式定义：

其中：

图G(V，E)中边的权重可以根据下式更新：

其中CF(u，v)是蛋白对(u，v)在数据库STRING中已有的置信分数；

对于任意两个蛋白质u和v，都能在图上找到他们之间的最短路径，SP(u，v)代表了最短路径中的边的集合，最终，蛋白u和v之间的相似性可以更新为：

W(i，j)是由式(4)计算得出的蛋白i和j之间边的权重；由于激酶和底物都是蛋白质，使用上述方法计算激酶-激酶相似性和底物-底物相似性，以激酶-激酶相似性为例，从数据库STRING中得到激酶蛋白间的相互作用网络，由式(1)至式(4)更新数据库中已有的边的权重，随后从激酶集中任选两个激酶，两者之间存在一条最短路径，利用式(5)能够计算其相似性，底物-底物相似性以相同方法计算；

步骤S202，建立激酶-底物异构网络，根据步骤S201计算的相似性，设计两个新的网络G_k(U，E_k)和G_S(V，E_s)，在这里U代表了激酶集而E_k包含了激酶对之间所有的边，V表示底物集，E_s包含了两两底物间所有的边；两个网络中，边的权重为步骤S201计算得到的相似性，如果两个节点间的相似性为0，则认为这两个节点间没有相互作用；

将G_k、G_S和G_I结合起来，建立激酶-底物异构网络模型。

3.根据权利要求1所述磷酸化位点特异激酶的预测方法，其特征在于：

基于相似性网络使用MWBM算法进行预测步骤如下；

以S为例介绍如何构建邻接矩阵，s_i和s_j为底物集V中的两个不同底物，如果(s_i，s_j)∈E_s，那么S(i，j)＝W_ij，否则S(i，j)＝0，激酶相似度邻接矩阵和激酶-底物相互作用邻接矩阵以相同的方法构建；在使用矩阵进行预测前，对三个邻接矩阵进行归一化，选择Laplace归一化准则对K、S实施归一化，得到归一矩阵K_n和S_n：

其中，D_s对角矩阵，其对角线上的值D_s(i，i)等于矩阵S第i行元素值的和，D_k以同样的方式得到；

利用MWBM进行激酶-底物关系预测，步骤如下；

首先初始化预测矩阵T：T＝I_n，其次，对于每一对激酶-底物关系(k_i，s_j)；

分别提取其邻居集N(k_i)＝{k_i′|k_i，i′∈E_k}和N(s_j)＝{s_j′|S_j，j′∈E_s}；

更新后，对于一个查询底物n，NetScore(k_i，n)＝T(k_i，n)，i＝1，2，3，...，|U|为激酶k_i与底物n之间关联的预测打分，所有的激酶将依据预测打分从高到低进行排序，对于一个特定的激酶k，如果其排名在第i位，最终定义：

4.根据权利要求1所述磷酸化位点特异激酶的预测方法，其特征在于：提取磷酸化位点周围的氨基酸序列信息步骤如下：

其中sim代表标准化的氨基酸取代矩阵；

对于任意两个氨基酸a和b，

M是一个代替矩阵，针对一个查询P位点，截取得到2n+1长度的片段P_query，计算该片段与S_p和S_b中的所有片段的相似性得分，并将得分进行降序排列；

为了确定S_p在序列顶部的富集程度，计算动态求和得分RS：

5.根据权利要求1所述磷酸化位点特异激酶的预测方法，其特征在于：

结合激酶-底物关系打分P_net和序列相似性打分P_seq，对查询位点的催化激酶进行预测，综合得分P_combine为P_net和P_seq的加权和：

P_combine＝λ×P_net+(1-λ)×P_seq (15)

利用参数λ调整PPI网络信息P_net和序列信息P_seq在结合时的比重，取λ为{0，0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9，1}，以训练集预测结果的精确度为评价标准，选取预测结果精确度最高时的值作为λ的取值，激酶k的P_combine值越小，查询的P位点越有可能被激酶k催化。

6.根据权利要求1所述磷酸化位点特异激酶的预测方法，其特征在于：

所述的训练过程，正样本的选取为某一激酶所催化的所有磷酸化位点，而负样本则随机选择其他激酶催化的磷酸化位点以及与正样本位点同底物同氨基酸类型的非磷酸化位点，按照1∶1的比例混合构建训练集。

7.根据权利要求1所述磷酸化位点特异激酶的预测方法，其特征在于：步骤S104用户可以设置不同的阈值，低于阈值的预测分数将被输出，阈值选择0.01或0.02。