CN114724630A

CN114724630A - 用于预测蛋白质翻译后修饰位点的深度学习方法

Info

Publication number: CN114724630A
Application number: CN202210406078.8A
Authority: CN
Inventors: 许晶晶; 黄自鑫; 郭磊; 董继扬
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-08
Anticipated expiration: 2042-04-18
Also published as: CN114724630B

Abstract

用于预测蛋白质翻译后修饰位点的深度学习方法,涉及生物信息学领域。包括：从公共数据库上收集带有蛋白质翻译后修饰位点注释的蛋白质序列数据；对收集到的蛋白质序列进行去冗余处理，并删除可信度较低的位点注释信息，得到不同PTM类型的蛋白质序列集合；构建基于深度神经网络的预测模型，提取蛋白质序列的短程耦合信息和长程耦合信息；利用蛋白质序列数据集为每种PTM类型训练一个预测模型；将训练好的预测模型部署到网上得到在线预测系统；用户通过在线预测系统输入蛋白质序列文件，选择需要预测的PTM位点类型，在线系统返回PTM位点的预测结果。可以同时预测多种PTM位点，可为生物医学研究和药物设计提供相关的蛋白质信息。

Description

用于预测蛋白质翻译后修饰位点的深度学习方法

技术领域

本发明涉及生物信息学领域，尤其是涉及一种用于预测蛋白质翻译后修饰位点的深度学习方法及系统。

背景技术

蛋白质翻译后修饰(PTM)是增加蛋白质组多样性的关键机制，它通过向一个或多个残基添加修饰基团可使蛋白质具有更为复杂的结构和更为完善的功能，实现更为精细的调节(Khoury,G.A.；Baliban,R.C.；Floudas,C.A.,Proteome-wide post-translationalmodification statistics:frequency analysis and curation of the Swiss-protdatabase.Scientific Reports 2011,1,(90),5.)。磷酸化、糖基化、乙酰赖氨酸化和甲基精氨酸化是其中重要的蛋白质翻译后修饰物，它们与生物的代谢过程有着重要的关联，例如细胞周期、神经活动、肌肉收缩和肿瘤生成等。已有研究表明，异常的蛋白质翻译后修饰与某些疾病的发生有关(Eipper,B.Betty A.,Posttranslational modification ofproteins:expanding nature's inventory.The Quarterly Review of Biology 2008,83,(4),403-403)。准确地识别PTM位点，对于更好地理解蛋白质在生命活动中起到的作用以及药物设计具有重要意义。

近几年，研究人员已经提出多种PTM位点识别方法，主要分为干实验和湿实验的方法。其中，Edman降解法和³²P标记法是识别PTM位点的两种经典的湿实验方法。最近，Lyu等人(Lyu,J.W.；Wang,Y.；Mao,J.W.；Yao,Y.T.；Wang,S.J.；Zheng,Y.；Ye,M.L.,PseudotargetedMS method for the sensitive analysis of protein phosphorylation in proteincomplexes.Analytical Chemistry 2018,90,(10),6214-6221)提出一种基于平行反应监测技术的伪靶向质谱法识别和定量磷酸肽，该方法产生比过去湿实验方法更多的PTM位点。虽然基于湿实验的方法能够精确的识别PTM位点，但需要消耗大量的成本和时间。而基于干实验的方法假设序列中的残基遵循一种有规律的模式，并利用计算机学习该模式预测真实的PTM位点，具有成本低、速度快的特点。随着技术的发展，越来越多的PTM位点被发现，这为利用干实验的方法挖掘残基上的翻译后修饰模式进而PTM位点预测提供条件。

目前，研究人员已经提出一些基于干实验的PTM位点预测方法，主要分为基于机器学习的方法和深度学习的方法，如Musite(Gao,J.J.；Thelen,J.J.；Dunker,A.K.；Xu,D.,Musite,a tool for global prediction of general and kinase-specificphosphorylationsites.Molecular&Cellular Proteomics 2010,9,(12),2586-2600)，PhosPred-RF(Wei,L.Y.；Xing,P.W.；Tang,J.J.；Zou,Q.,PhosPred-RF:a novel sequence-based predictor for phosphorylation sites using sequential informationonly.IEEE Transactions onNanobioscience 2017,16,(4),240-247)，MusiteDeep(Wang,D.L.；Zeng,S.；Xu,C.H.；Qiu,W.R.；Liang,Y.C.；Joshi,T.；Xu,D.,MusiteDeep:a deep-learning framework for general and kinase-specific phosphorylation siteprediction.Bioinformatics 2017,33,(24),3909-3916)，CapsNet(Wang,D.L.；Liang,Y.C.；Xu,D.,Capsule network for protein post-translational modification siteprediction.Bioinformatics 2019,35,(14),2386-2394),HybridSucc(薛宇；宁万山；许浩东；邓万锟；郭亚萍,蛋白质编码方法及蛋白质翻译后修饰位点预测方法及系统,CN110033822,2019.03.29)等方法。其中，Musite、PhosPred-RF是典型的机器学习方法，这些方法提供有效的特征提取，并优化模型的关键参数以拟合实验数据。Musite使用k近邻评分、蛋白质紊乱特征和氨基酸频率特征来表示潜在PTM位点周围的局部序列信息。PhosPred-RF是一种基于随机森林的预测模型，它应用信息论特征、重叠属性特征、二十位特征和skip-n-gram特征来捕获PTM位点和非PTM位点之间的差异。然而，基于机器学习的方法性能依赖特征工程，对方法的使用与改进有着很大的限制。与其相比，基于深度学习的方法可以自动对蛋白质序列的特征进行提取，通过端到端的策略直接预测PTM位点，摆脱特征工程和专家领域的依赖。其中MusiteDeep和CapsNet是两种常用的基于一级序列信息的深度学习的PTM位点预测方法，HybridSucc则是基于多级结构与进化信息的PTM位点预测方法，它们表现出比基于机器学习方法更好的预测效果。MusiteDeep发布基于web的在线预测服务，研究人员可以直接输入faste文件获得蛋白质序列中潜在的PTM位点位置。

虽然已有的PTM位点预测方法能够获得良好的预测性能，但仍存在以下不足：一是对序列信息的利用率不高。现有的预测PTM位点的方法主要侧重于利用潜在PTM位点与周围位点的短程耦合信息进行预测，而没有考虑长程耦合信息；二是一些方法采用蛋白质的多级结构信息，难以进行获取；三是模型的特征表征能力不足。研究发现，相对于非PTM位点周围的残基，PTM位点周围的残基通常有更高度的相关性；并且潜在PTM位点附近的残基对该位点是否为PTM位点更为重要，而目前大多数的模型设计时没有关注到这方面的特性。三是目前的在线预测服务仍存在着一些问题，如当用户有大量数据需要预测时，由于服务器吞吐量和性能的限制需要等待较长时间。当出现浏览器崩溃或不慎误关网页的情况，很容易导致预测失败。这不仅会造成服务器资源的浪费，也消耗用户的时间。

发明内容

本发明的目的在于针对现有技术存在的信息利用率不足、模型可解释性差、web服务等待时间过长等问题，提供可提升预测PTM位点的预测准确度，缓解深度学习模型可解释性差，节省用户等待时间的一种用于预测蛋白质翻译后修饰位点的深度学习方法。

本发明包括以下步骤：

1)蛋白质序列数据集的构建：从公开的数据库中收集带有翻译后修饰位点(PTM)的蛋白质序列，删除冗余的蛋白质序列，得到不同PTM位点类型的蛋白质序列数据集；

2)蛋白质序列的编码：通过补零或剪切的方式归一化蛋白质序列的长度，并对蛋白质序列进行one-hot编码；

3)PTM位点预测模型的构建：利用基于深度神经网络构建PTM位点的预测模型，设计并行的特征提取模块分别提取蛋白质序列的短程和长程的耦合信息；

4)PTM位点预测模型的训练：根据PTM位点的类型，利用蛋白质序列数据集分别训练预测模型；

5)在线交互系统的实现：将训练后的神经网络模型部署于服务器上，实现在线预测和结果可视化，并将预测结果输出。

步骤1)中，所述蛋白质序列数据集的构建，具体包括以下步骤：

(1)从公开的数据库中收集并整理有PTM位点的蛋白质序列，获取PTM位点的位置，整理成为初始数据集；所述公开的数据库包括SwissProt、dbPTM、phosphoELM、PhosphoSitePLUS等PTM位点数据库；

(2)使用蛋白质序列聚类工具CD-HIT从初始数据集中去除冗余的蛋白质序列；

(3)对去冗余的蛋白质序列进行数据清洗，删除可信度低的位点注释信息，得到干净的蛋白质序列数据集。

在步骤2)中，所述蛋白质序列的编码，具体包括以下步骤：

(1)将长序列进行截断操作，短序列进行零填充，使蛋白质序列具有相同的长度；

(2)对统一长度的蛋白质序列进行one-hot编码，转化为计算机可识别的向量。

在步骤3)中，所述PTM位点预测模型的构建，具体步骤为：构建一个基于深度神经网络的模型，模型包含短程耦合特征提取模块和长程耦合信息处理模块，分别用于提取蛋白质序列的短程和全局耦合信息；短程耦合特征提取模块，依次包含有1个卷积神经网络CNN，2个挤压与激励网络SENet，1个双向长短期记忆网络Bi-LSTM和2个全连接层FC。

在步骤4)中，所述PTM位点预测模型的训练，具体步骤包括：

(1)由于PTM位点的正负样本通常是不平衡的，故将训练数据集随机分为N个训练子集，样本量不足的训练子集采用重采样方法补齐，得到N个平衡的训练子集；

(2)用N个训练子集分别对模型进行训练，再对训练结果进行集成学习得到预测模型。

在步骤5)中，所述在线交互系统的实现，具体步骤包括：

(1)利用Python和JavaScript语言编程实现在线的PTM位点预测模型；

(2)设计在线模型的输入输出模块；

(3)用户通过系统提交蛋白质序列文件，选择待预测的PTM类型，系统将预测结果通过Http和邮件的方式返回给用户；所述预测结果包括蛋白质序列的信息、位点位置、PTM位点种类等信息。

与现有技术相比，本发明包括以下优点和技术效果：

1、本发明针对信息利用率不足的问题，通过引入长程耦合信息估计PTM位点的先验分布，进而提升预测PTM位点的预测准确度；

2、本发明针对模型的特征表征能力问题，在模型设计时引入Bi-LSTM和SENet网络来分别捕获以上两种信号，在提升性能的同时缓解深度学习模型可解释性差的问题。

3、本发明针对已有的web服务等待时间过长的问题，提供的在线预测技术在处理大型fasta文件任务时，利用STMP邮件功能库预设需要发送邮件的账户。用户只需留下邮箱地址，本发明提供的服务便可以在模型运行结束后将结果以邮件的形式发送给用户，节省用户的等待时间。

4、本发明所述DeepPTM模型在构建数据集时使用多个数据库中的数据，相比于其它同类型的预测模型有着更大的训练集；

5、本发明所述DeepPTM模型有着更高的信息利用率和更有效的模型设计，具有更高的预测性能；且编码时不需要获取蛋白质的多级结构，只需要蛋白质的一级结构，预测过程更加便捷；

6、本发明所述基于DeepPTM模型的PTM位点预测的在线预测系统，采用更简洁的可视化界面，使用户可以更加直观了解到预测的结果。采用通过邮件后台发送预测结果的设计，解决用户需要长时间保存网站页面等待预测结果的问题。

7、本发明可以同时预测多种PTM位点，为生物医学研究和药物设计提供相关的蛋白质信息。

附图说明

图1是本发明总体流程图。

图2是本发明中DeepPTM神经网络模型结构示意图。

图3是本发明中长程耦合信息处理模块和短程耦合信息处理模块结构示意图。

图4是DeepPTM神经网络模型在磷酸化位点的预测任务上，基于Pre、Re、F1-score、MCC等指标和其他方法的对比。

图5是本发明中的DeepPTM神经网络的本地信息处理模块中第二个SENet块的输出。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

如图1，本发明实施例包括以下步骤：

1)蛋白质序列数据集的构建

从网上公开的蛋白质翻译后修饰(PTM)位点数据库中收集并整理有PTM位点的蛋白质序列，获取PTM位点的位置，整理成为数据集。对整理好的初始数据集进行去冗余的处理后，为每一类型的PTM位点构建一个独立的蛋白质序列数据集。将每个数据集的蛋白质序列按10︰1的比例随机分为训练集和测试集，将标注的PTM位点定义为正样本，其余的潜在PTM位点定义为负样本。具体地，PTM位点数据集从SWISSPROT，dbPTM，phosphoELM，PhosphoSitePLUS等PTM位点数据库中收集蛋白质序列和PTM位点的数据，并使用CD-HITweb服务器从数据集中去除相似度超过0.5的冗余序列。

2)蛋白质序列的编码

得到数据集后，根据蛋白质序列上的氨基酸相互作用分为长程耦合和短程耦合两类。长程耦合定义为蛋白质序列上的所有氨基酸对PTM位点的可能作用，而短程耦合则定义为PTM位点周围少数几个氨基酸的作用；为了统一模型输入数据的维数，将长程耦合的最大距离限制为n，而将长度大于n蛋白质序列进行截断，长度小于n的蛋白质序列进行零填充。同时将短程耦合的距离限制为m，若潜在PTM位点的上下游的氨基酸数目不足m，则使用“*”填充，并将其视为一个氨基酸。

使用ont-hot编码方式，对两类蛋白质序列进行编码，将处理好的蛋白质序列转化为计算机可识别的向量。具体的，每个残基可以编码为一个向量，序列中相应的索引氨基酸表示为“1”，其余的向量均为“0”，具体步骤可如下：

采用2000×20矩阵和51×21矩阵分别表示残基的长程耦合信息和短程耦合信息。将长程耦合信息中的蛋白质序列统一长度为2000，长度大于2000的蛋白质序列进行截断操作，长度小于2000的蛋白质序列进行零填充，以适应模型的输入。使用一个51×1的窗口来获取短程耦合信息，每个窗口的中心为潜在的PTM位点，窗口两侧为位点左右的各25个残基，若潜在PTM位点的上下游的氨基酸数目不足25，则空缺的部分使用“*”进行填充，将它视为一种额外的氨基酸。然后使用one-hot对蛋白质进行编码，每个残基可以编码为一个向量，每个序列里仅有一个向量为“1”，其余的为“0”，其中“1”代表蛋白质序列中相应的索引氨基酸。

3)PTM位点预测模型的构建

构建基于深度神经网络的预测模型，记为DeepPTM，结构如图2所示。该模型包括短程耦合信息处理模块(Short-range coupling module)和长程耦合信息处理模块(Long-range coupling module)，两个信息处理模块分别用于处理长程耦合信息和短程耦合信息，分别提取蛋白质序列上来自邻近氨基酸的作用和来自远距离氨基酸的作用，结构如图3所示。其中，长程耦合信息处理模块和短程耦合信息处理模块的特征提取模块使用网络架构，包含有1个卷积神经网络(Convolutional neural network，CNN)，2个挤压与激励网络(Sequeese and excitation networks，SENet)，1个双向长短期记忆网络(Bi-directionalLong Short-Term Memory，Bi-LSTM)和2个全连接层(Fully Connected Layers，FC。长程和短程耦合特征提取模块通过一系列非线性变换提取蛋白质序列中的高级特征，并将其输入全连接层使用softmax激活函数生成位点预测结果。

PTM位点预测模型构建的具体步骤可为：

1)首先使用卷积层来提取蛋白质序列的特征，本发明中使用的是1×1的卷积核，它可以实现跨通道交互和信息集成。卷积块的输出可以写成公式(1)：

其中，M_jk为在k^th特征图中的j^th位置，X为输入矩阵，f为RELU的激活函数，W_d,i为滤波器的d^th行的i^th列，b_k为k^th滤波器的偏置。

2)在卷积层提取好特征后，使用SENet层来压缩和激励特征，以此对特征图进行优化。压缩操作是对特征进行压缩，然后将特征图转化为一个能反映特征的数字。压缩操作可以表示为公式(2)：

其中M_ic为c^th特征图的i^th位置，H为特征图的个数，Z_c为c^th特征图的分布。同时，利用激励运算可以构造特征图之间的相关性。这一操作由两个全连接层完成，第一个全连接层用于减少图的数量并降低计算复杂度，第二个全连接层将维数恢复为输入的维数。激励操作可以表示为公式(3)：

W_c＝f₁(f₂(Z_c,W₁),W₂) 3

其中Z为压缩操作后的c^th特征图，W₁和W₂为两个全连接层的权重。f₁和f₂分别为sigmoid和RELU激活函数。W_c可以作为c^th特征图的重要性度量，接着将对所有的特征图进行加权求和得到优化后的特征图，可以表示为公式(4)：

M′＝W*M 4其中M为SENet层的输入矩阵，W为压缩操作的输出，M′为SENet层的输出矩阵。

3)使用一个Bi-LSTM层来进一步获取SENet层的特征。在每个Bi-LSTM层中有三个门，分别是遗忘门，输入门，输出门。遗忘门用来丢弃不重要的信息，输入门决定需要添加多少新的信息进入状态信息中，而输出门则提供每个单元的输出结果，可以表示为公式(5)：

其中f_t，i_t，o_t分别为遗忘门，输入门，输出门的输出，

C_t，h_t分别为候选单元状态，未标注单元状态，隐藏单元状态。W_f，W_i，W_C，W_o和b_f，b_i，b_C，b_o分别为相应门和单元状态的权重和偏置。

4)使用另一个SENet层估计潜在PTM位点附近的每个位置的残基贡献。上一个SENet层的输出会被调换并输入到另一个SENet层。短程耦合信息处理模块会产生一个具有短程耦合信息的输出，接着将所有特性提供给全连接层。对于长程耦合信息处理模块，也可以使用相似的结构获取长程耦合信息。然后使用其它的全连接层和Softmax输出层获取最后的预测结果。

深度学习模型由于其高度非线性的特征，常常引起黑箱效应并导致数据解释难以进行。DeepPTM模型中引入了注意力机制，从而一定程度上缓解了黑箱效应，使得模型从序列中学习到的信息具备可解释性。图4展示短程耦合信息处理模块中的第二个SENet块的输出，其中横坐标表示蛋白质序列中的位置，纵坐标表示其中一个训练子集中的样本。每个元素表示的是SENet输出的权重，颜色越深表示该位置的权重越大。从图中可以看出，在预测未知的PTM位点时，DeepPTM更加关注潜在位点附近的残基，从而更符合生物学认知。

4、PTM位点预测模型的训练

利用Adam优化器对DeepPTM模型的参数进行学习更新，采用模型输出与位点标签的交叉熵作为损失函数。为了防止模型过拟合并具有更好的泛化能力，训练过程中采用早停法(early stopping)，将给定迭代范围内验证集准确率不再提升时的模型参数作为最优参数进行保存。采用Bootstrap重采样和stacking集成学习相结合的策略来解决数据集中正负样本数量不平衡的的问题，将负样本随机划分为n个部分，并与同等数量的正样本相结合构建平衡数据集进行训练，得到n次的训练结果，最后通过集成学习得到训练后的DeepPTM模型。具体步骤如下：

(1)在模型训练过程中，使用Adam优化器对DeepPTM进行梯度更新，并采用标准交叉熵作为损失函数，将验证集表现最优时的参数作为最优参数。使用早停法防止模型过拟合并具有更好的泛化能力。

(2)针对不平衡数据集，采用一种结合Bootstrap重采样和集成学习(ensemblelearning)的非平衡数据集策略，最后得到预测的结果。

具体地，首先将负样本随机分为n个部分，每个部分有m个样本，其中m等于正样本的数量。然后，将各部分负样本与所有正样本相结合，构建平衡数据集。接下来使用n个模型在这些平衡数据集上进行训练。最后，使用集成学习将n个预测结果进行组合并再次进行学习以获得最终预测。

(3)使用模型预测进行PTM位点预测。将待测蛋白质序列输入模型，得到PTM位点预测结果。

具体地，本发明以磷酸化位点预测为例，将本发明的DeepPTM模型与其它四种常用的磷酸化位点预测方法使用TP(Ture positive),TN(Ture negative)，FP(Falsepositive)和FN(False negative)等统计方法来测试数据集中两类样本被正确和错误分类的数量，用精确率Pr(Precision)，召回率Re(Recall),F1值(F1 score),相关系数MCC(Matthews correlation coefficient)，接收者工作特征曲线ROC(Receiver OperatingCharacteristic Curve)，接收者工作特征曲线下面积AUROC(Area under the ReceiverOperating Characteristic Curve)，精确率召回率曲线下面积AUPRC(Area under thePrecision Recall Curve)等指标上行了比较。

在Pre、Re、F1-score、MCC以及AUROC、AUPRC曲线的指标上，根据图5以及表1所示，DeepPTM在AUROC和AUPRC预测值上总体表现更好。

表1

Notes:AUROC:Areas under the ROC；AUPRC:Areas under the PRC；

为了展示DeepPTM在预测真实PTM位点方面的优势，本发明使用最近发布的蛋白质序列(Uniprot ID：A0A2R8Y619，于2020年6月17日发布)作为测试数据，将DeepPTM与其他三种提供Web服务的系统进行比较。本发明将置信度大于50％的位点视为阳性位点，测试蛋白质序列的真实磷酸化位点为33、81、112，将测试蛋白质序列输入各模型进行测试，测试结果分别为：Musite预测的位点为2、18、19、24、33、116、119；PhosPred-RF预测的位点为18、19、33、85、93；MusiteDeep预测的位点为2、33、112；DeepPTM预测的位点为2、33、35、81、109、112，与其他系统对比，可以正确预测出了所有磷酸化位点，这一结果也表明本发明能准确预测PTM位点并非依赖于数据。

5、在线交互系统的实现

使用Python的Flask框架作为后端，Html与Javascript作为项目前端，将DeepPTM的预测模块封装成接口对外暴露提供服务，用户只需要输入fasta格式的蛋白质序列，即可在线或通过邮件获取预测结果。

具体的，在上述步骤4的基础上，利用Python和JavaScript将DeepPTM模型部署到云平台上，得到在线的PTM位点预测系统。利用Python中的flask构建系统的后端框架，使用Html与JavaScipt技术构建系统的前端框架。用户预测新蛋白质序列的PTM位点时，只需向系统提交fasta格式的蛋白质序列文件，系统计算后返回相应的预测结果，包括蛋白质序列的信息、位点位置、PTM位点种类等信息。

综上，本发明中提出一种新的深度神经网络模型DeepPTM，并开发一个基于DeepPTM模型的蛋白质翻译后修饰位点预测的在线预测技术系统，结果证明，DeepPTM可以有效地提高PTM位点的预测性能。希望本发明能够帮助研究人员发现新的位点，为生物医学研究提供便利，并为未来的医学研究提供有用的帮助。

以上所述，仅为本发明较佳实施例而已，故不能依此限定本发明实施的范围，即依本发明专利范围及说明书内容所作的等效变化与修饰，皆应仍属本发明涵盖的范围内。

Claims

1.用于预测蛋白质翻译后修饰位点的深度学习方法，其特征在于包括以下步骤：

1)蛋白质序列数据集的构建：从公开的数据库中收集带有翻译后修饰位点PTM的蛋白质序列，删除冗余的蛋白质序列，得到不同PTM位点类型的蛋白质序列数据集；

2.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法，其特征在于步骤1)中，所述蛋白质序列数据集的构建，具体包括以下步骤：

3.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法，其特征在于在步骤2)中，所述蛋白质序列的编码，具体包括以下步骤：

4.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法，其特征在于在步骤3)中，所述PTM位点预测模型的构建，具体步骤为：构建一个基于深度神经网络的模型，模型包含短程耦合特征提取模块和长程耦合信息处理模块，分别用于提取蛋白质序列的短程和全局耦合信息；短程耦合特征提取模块，依次包含有1个卷积神经网络CNN，2个挤压与激励网络SENet，1个双向长短期记忆网络Bi-LSTM和2个全连接层FC。

5.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法，其特征在于在步骤4)中，所述PTM位点预测模型的训练，具体步骤包括：

6.如权利要示1所述用于预测蛋白质翻译后修饰位点的深度学习方法，其特征在于在步骤5)中，所述在线交互系统的实现，具体步骤包括：

(1)利用Python和JavaScript语言编程实现在线的PTM位点预测模型；

(2)设计在线模型的输入输出模块；