CN113539364A

CN113539364A - 一种深度神经网络框架预测蛋白质磷酸化的方法

Info

Publication number: CN113539364A
Application number: CN202110811509.4A
Authority: CN
Inventors: 李重; 周赳; 王世洋
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-22
Anticipated expiration: 2041-07-19
Also published as: CN113539364B

Abstract

本发明公开了一种深度神经网络框架预测蛋白质磷酸化的方法，包括(1)搭建集成深度神经网络框架：由ACNet和多尺度CapsNet两种网络集成得到深度神将网络框架；(2)数据集的选取：磷酸化数据集PhosphoData1训练集、多个独立测试集；(3)使用信息增益方法优化过的融合特征作为网络输入特征；(4)使用步骤(1)搭建的集成深度神经网络框架在数据集上预测模型；(5)模型参数设置；(6)将待测蛋白质序列输入模型，预测出该蛋白是否有磷酸化位点及其位置。该方法对研究蛋白质翻译后修饰位点、分析蛋白质的功能以及药物研究等方面具有重要的指导意义。

Description

一种深度神经网络框架预测蛋白质磷酸化的方法

技术领域

本发明涉及蛋白质磷酸化的预测方法，尤其涉及一种深度神经网络框架预测蛋白质磷酸化的方法

背景技术

蛋白质是生命体的基础和重要组成部分，而蛋白质翻译后修饰(PTM)是调控蛋白质功能的一种主要方式，与生物的生命活动息息相关，因此深入研究蛋白质翻译后修饰对理解认知蛋白质具有重要的意义。随着生物技术的发展，人们所得到的蛋白质序列数量变的极为庞大，如何从海量的蛋白质序列中找到蛋白质翻译后修饰位点，对蛋白质的研究和药物开发至关重要。

传统的方法主要是通过截取蛋白质中特定的肽段，利用实验的方法来确定翻译后修饰位点，如基于高通量质谱等技术的实验。随着越来越多的蛋白质序列被发现，传统方法耗时耗力，已经不能满足需求了，因此很多研究人员和专家学者探索蛋白质序列的表示方法，基于生物信息学的方法来进行蛋白质翻译后修饰位点的预测，相比传统的实验方法，极大地提高了预测的效率。

Wang D,Liu D,Yuchi J,et al.在Nucleic Acids Research上发表了MusiteDeep:a deep-learning based webserver for protein post-translationalmodification site prediction and visualizatio，该深度学习方法MusiteDeep使用MultiCNN和CapsNet两个独立的网络对蛋白质翻译后修饰位点进行预测，对两个网络的预测得分取平均得到最终的预测得分，该方法结合了两种神经网络的优点，在一定程度上降低了极端数据对实验结果的影响，但是增加了参数的数量。

Luo F,Wang M,Liu Y,et al.在Bioinformatics上发表了DeepPhos:predictionof protein phosphorylation sites with deep learning，深度学习方法DeepPhos使用紧密连接的卷积神经网络块作为基本结构，块内连接层和块间连接层可以捕获蛋白质序列的多种表示，进行蛋白质磷酸化预测，该方法可以有效的保证蛋白质序列的关键信息，但是也会造成特征的冗余，对预测结果产生负面影响。Do D,Le T,Le N.在Briefings inBioinformatics上发表了Using deep neural networks and biological subwords todetect protein S-sulfenylation sites，深度学习方法fastSulf-DNN使用DNN网络预测蛋白质亚磺酰化位点，特征是通过fastText模型生成的一组向量，该方法仅考虑蛋白质序列的文本特征信息，忽略了氨基酸之间的相互作用等其他蛋白质信息，会对预测结果产生负面影响。

综上所述，尽管现有技术可以用于蛋白质翻译后修饰位点预测，但是并不能保证其预测精度是最优的，现有技术在计算代价、预测精度两个方面距离实际应用的要求还有一定差距。存在蛋白质序列利用不充分，使更多有效的蛋白质序列信息输入到预测网络中；使不同输入特征之间存在互相干扰；还存在参数数量多；保留有效特征少，从而使蛋白质翻译后修饰位点的预测精度较低。

发明内容

为了克服现有技术中存在的缺陷，本发明提出了一种深度神经网络框架预测蛋白质磷酸化的方法，该方法可以准确地预测出输入蛋白质序列是否有磷酸化位点及其位置。

为实现上述技术目的，所采用的技术方案如下：

一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述深度神经网络框架预测蛋白质磷酸化的方法包括以下步骤：

(1)搭建集成深度神经网络框架：由ACNet和多尺度CapsNet两种网络集成得到深度神将网络框架；

(2)数据集的选取：磷酸化数据集PhosphoData1训练集、多个独立测试集；

(3)使用信息增益方法优化过的融合特征作为网络输入特征；

(4)使用步骤(1)搭建的集成深度神经网络框架在数据集上预测模型；

(5)模型参数设置；

(6)将待测蛋白质序列输入模型，预测出该蛋白是否有磷酸化位点及其位置。

作为优选，所述磷酸化数据集PhosphoData1训练集中筛选的5000个样本；多个独立测试集分别为PhosphoData1的测试集、Phospho.ELM、PhosphoData2的测试集和PhosphoData3。

作为优选，所述的训练集和测试集中蛋白质残基长度为27，且任何两种蛋白质残基的相似性都小于50％。

作为优选，所述融合特征包含位置特异性计分矩阵(PSSM)、氨基酸的理化性质、RECM转换矩阵和RECM构成特征。

作为优选，所述位置特异性计分矩阵(PSSM)是通过HHblits程序在uniprot_sprotdatabase搜索同源序列，然后构建出多序列比对(MSA)，最后计算得出。

作为优选，所述的氨基酸理化性质包括疏水性、亲水性、侧链分子量、极性、侧链质量、侧链体积、曲线形状指数、残基可及表面、信息熵以及表面区域溶解能力。

作为优选，所述RECM转换矩阵采用氨基酸成对能量矩阵RECM表示。

作为优选，所述RECM构成特征是通过对RECM转换矩阵先按氨基酸分组，然后再按行求和产生的。

作为优选，所述的ACNet包含3×3、3×1和1×3的三个卷积核的非对称卷积块，并将其输出求和，然后将结果输入到之后的网络结构中继续进行训练。

作为优选，所述多尺度CapsNet使用两个不同大小的卷积核m×m和n×n得到两个PrimaryCaps层，再然后融合两个PrimaryCaps层通过动态路由机制生成的结果，将其输入到DigitCaps中，得到最终的预测结果。

本发明选择信息增益的方法进行特征选择：首先对四个特征的所有向量进行打分，挑选出得分较高即重要的特征向量重新组成一个有序的新特征。信息增益通过信息熵对特征进行打分，当给定的特征被用到另一个特征的值进行分组时，熵减少。特征X的熵的定义为：

H(X)＝-∑_i P(x_i)log₂(P(x_i))

其中x_i是特征X的一个值，P(x_i)是x_i的先验概率。给定另一个特征Y，特征X的条件熵定义为：

H(X|Y)＝-∑_j P(y_i)∑_i P(x_i|y_i)log₂(P(x_i|y_i))

其中P(x_i|y_i)是特征Y的一个值y_i在特征X中的后验概率。特征X的熵减少的量反映了特征Y提供给特征X的附加信息，这个附加信息被称为信息增益：

IG(X|Y)＝H(X)-H(X|Y)

通过上述理论，可以得到结论：IG值越大，对应的特征向量对实验结果的影响越大。

本发明的有益效果：

(1)选择信息增益的方法进行特征选择，有效除去原始特征冗余。

(2)采用的集成深度神经网络框架由ACNet和多尺度CapsNet集合而成，其中ACNet使用非对称的卷积核，提高了特征提取能力，不增加计算量，同时还提升了模型对目标旋转的鲁棒性。

(3)多尺度CapsNet对目标的空间信息和物体的存在概率进行编码，存储在胶囊向量中，该向量的模表示特征存在概率，该向量的方向表示姿态的信息，移动特征会改变向量，但不影响存在概率，提高融合特征信息获取能力，进而提高深度神经网络框架预测蛋白质磷酸化准确率和有效性。

附图说明

图1所示为本发明的深度神经网络框架示意图。

图2所示为动态路由机制示意图。

图3所示为CapsNet结构示意图。

图4所示为ACB结构示意图。

图5所示为RECM转换矩阵和RECM构成特征示意图。

图6(A)所示为本方法在PhosphoData1上取不同残基长度的ROC曲线。

图6(B)所示为本方法在Phospho.ELM上取不同残基长度的ROC曲线。

图6(C)所示为本方法在PhosphoData2上取不同残基长度的ROC曲线。

图6(D)所示为本方法在PhosphoData3上取不同残基长度的ROC曲线。

图7(A)所示为本方法在PhosphoData1上不同网络结构的ROC曲线。

图7(B)所示为本方法在Phospho.ELM上不同网络结构的ROC曲线。

图7(C)所示为本方法在PhosphoData2上不同网络结构的ROC曲线。

图7(D)所示为本方法在PhosphoData3上不同网络结构的ROC曲线。

图8(A)所示为本方法在PhosphoData1上不同预测方法的ROC曲线。

图8(B)所示为本方法在Phospho.ELM上不同预测方法的ROC曲线。

图8(C)所示为本方法在PhosphoData2上不同预测方法的ROC曲线。

图8(D)所示为本方法在PhosphoData3上不同预测方法的ROC曲线。

具体实施方式

为更好体现本发明的目的、技术方案和优点，下面将结合附图，对本发明中的技术方案进行清楚、完整地描述。

一种深度神经网络框架预测蛋白质磷酸化的方，具体步骤如下：

(1)搭建集成深度神经网络框架：由ACNet和多尺度CapsNet两种网络集成得到集成神经网络框架。

具体地，首先对蛋白质序列进行特征表示、融合特征包括PSSM、氨基酸的理化性质、RECM转换矩阵和RECM构成特征，然后使用ACNet对融合特征进行提取，再使用两个不同大小的卷积核m×m和n×n得到两个PrimaryCaps层，再然后融合两个PrimaryCaps层通过动态路由机制生成的结果，将其输入到DigitCaps中，得到最终的预测结果。

(2)数据集的收集：从现有的文献中收集到四个磷酸化数据集。

具体地，磷酸化数据集PhosphoData1其包含训练集和测试集，本发明使用从其训练集中筛选的5000个样本作为训练集，其中任何两条序列之间的相似性都小于50％；磷酸化测试集分别为PhosphoData1的测试集、Phospho.ELM、PhosphoData2的测试集和PhosphoData3。

(3)使用PSSM、氨基酸的理化性质、RECM转换矩阵和RECM构成特征作为网络的特征输入。

具体地，位置特异性计分矩阵(PSSM)是通过HHblits程序(设置E-value为0.001与3次迭代)在uniprot_sprot database搜索同源序列，然后构建出多序列比对(MSA)，最后计算得出。

具体地，氨基酸的理化性质包括疏水性、亲水性、侧链分子量、极性、侧链质量、侧链体积、曲线形状指数、残基可及表面、信息熵以及表面区域溶解能力。

具体地，RECM转换矩阵是基于氨基酸成对能量矩阵RECM的一个矩阵表示。

具体地，RECM构成特征是通过对RECM转换矩阵先按氨基酸分组，然后再按行求和产生的。

(4)、特征优化

通过以上特征得到的直接融合特征往往是有冗余的，本发明选择信息增益的方法进行特征选择：首先对四个特征的所有向量进行打分，挑选出得分较高即重要的特征向量重新组成一个有序的新特征。信息增益通过信息熵对特征进行打分，当给定的特征被用到另一个特征的值进行分组时，它的熵将会减少。特征X的熵的定义为：

H(X)＝-∑_i P(x_i)log₂(P(x_i))

H(X|Y)＝-∑_j P(y_i)∑_i P(x_i|y_i)log₂(P(x_i|y_i))

IG(X|Y)＝H(X)-H(X|Y)

(5)将待测代蛋白质序列输入模型，得到该蛋白质序列的预测结果。

残基长度的选择：蛋白质翻译后修饰位点主要受其上游和下游的氨基酸影响，因此在进行蛋白质翻译后修饰的研究时，通常都需要截取一定长度的残基作为实验数据：太长的残基会导致数据量太大，增加模型的运算量，而较短的残基则会导致丢失序列信息，对结果产生不好的影响。本发明通过实验的方法对每个长度的残基都进行训练，得到12个磷酸化修饰位点模型，然后分别在四个测试集中进行验证，比较其预测性能，选择最优的残基长度用于之后的实验。12个磷酸化修饰位点模型在四个测试集中的准确率如表1所示：

表1 使用不同长度的残基在四个数据集上的准确率

从表1中可以看出当残基的长度为27时，使用本发明方法预测在四个测试集上可以得到最高的准确率，分别为0.8342、0.7827、0.8901和0.8655，在同一数据集上，比其他残基长度的准确率要高出0.03以上。

使用CNN、DenseNet和CapsNet与本发明的集成神经网络在残基长度为27的训练集上训练磷酸化位点预测模型，然后在四个磷酸化位点测试集上进行对比实验，如表2到表5所示：

表2 不同神经网络框架在PhosphoData1上的测试结果

表3 不同神经网络框架在Phospho.ELM上的测试结果

表4 不同神经网络框架在PhosphoData2上的测试结果

表5 不同神经网络框架在PhosphoData3上的测试结果

以PhosphoData1数据集的结果为例进行分析，从表2可以看出本发明方法的评价指标基本上都优于其他方法，其中准确率分别比其他三种模型高0.1896、0.1195和0.0854，MCC分别比其他三种模型高0.294、0.1815和0.1419，AUROC分别比其他三种模型高0.1344、0.0972和0.0552。综合各个评价指标说明本发明方法得到的预测模型比其他网络的到的预测模型更加稳定。

本发明方法与现有技术中磷酸化修饰位点预测方法PhosphoSVM、PhosPred-RF、DeepPhos、MusiteDeep1和MusiteDeep2进行比较，在四个数据集上的到的评价指标如表6到表9所示：

表6 不同磷酸化预测方法在PhosphoData1上的测试结果

表7 不同磷酸化预测方法在Phospho.ELM上的测试结果

表8 不同磷酸化预测方法在PhosphoData2上的测试结果

表9 不同磷酸化预测方法在PhosphoData3上的测试结果

通过表6到表9可以看出，除部分指标外，本发明方法均优于其他五种方法，尤其是在准确率、MCC和AUROC上，以PhosphoData1数据集的结果为例，准确率分别比其他方法高0.1114、0.0957、0.0776、0.0633和0.0397，MCC分别高0.3962、0.3587、0.1259、0.0970和0.0662，AUROC分别高0.0767、0.0593、0.039、0.0364和0.0241。

综上，本发明提出了一种基于ACNet和多尺度CapsNet集合框架的网络模型用于蛋白质磷酸化位点预测。该方法结合ACNet增强特征提取效率和多尺度CapsNet集合位姿信息的特性，可以充分获取蛋白质序列中氨基酸之间的位置等与蛋白质磷酸化相关的信息，对蛋白质磷酸化位点的预测更准确有效。

以上阐述的实施例是本发明一部分实施例的预测效果，而不是全部的实施例，在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施，都属于本发明保护的范围。

Claims

1.一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述深度神经网络框架预测蛋白质磷酸化的方法包括以下步骤：

(3)使用信息增益方法优化过的融合特征作为网络输入特征；

(5)模型参数设置；

2.根据权利要求1所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述磷酸化数据集PhosphoData1训练集中筛选的5000个样本；多个独立测试集分别为PhosphoData1的测试集、Phospho.ELM、PhosphoData2的测试集和PhosphoData3。

3.根据权利要求2所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述的训练集和测试集中蛋白质残基长度为27，且任何两种蛋白质残基的相似性都小于50％。

4.根据权利要求1所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述融合特征包含位置特异性计分矩阵(PSSM)、氨基酸的理化性质、RECM转换矩阵和RECM构成特征。

5.根据权利要求4所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述位置特异性计分矩阵(PSSM)是通过HHblits程序在uniprot_sprot database搜索同源序列，然后构建出多序列比对(MSA)，最后计算得出。

6.根据权利要求4所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述氨基酸理化性质包括疏水性、亲水性、侧链分子量、极性、侧链质量、侧链体积、曲线形状指数、残基可及表面、信息熵以及表面区域溶解能力。

7.根据权利要求4-6任意一项所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述RECM转换矩阵采用氨基酸成对能量矩阵RECM表示。

8.根据权利要求7任意一项所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述RECM构成特征是通过对RECM转换矩阵先按氨基酸分组，然后再按行求和产生的。

9.根据权利要求1所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述的ACNet包含3×3、3×1和1×3的三个卷积核的非对称卷积块，并将其输出求和，然后将结果输入到之后的网络结构中继续进行训练。

10.根据权利要求1所述一种深度神经网络框架预测蛋白质磷酸化的方法，其特征在于，所述多尺度CapsNet使用两个不同大小的卷积核m×m和n×n得到两个PrimaryCaps层，再然后融合两个PrimaryCaps层通过动态路由机制生成的结果，将其输入到DigitCaps中，得到最终的预测结果。