CN116935964A

CN116935964A - 基于深度学习模型预测抗体翻译后修饰位点的方法和系统

Info

Publication number: CN116935964A
Application number: CN202311191034.9A
Authority: CN
Inventors: 司马鹏
Original assignee: Suzhou Chuangteng Software Co ltd
Current assignee: Suzhou Chuangteng Software Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-10-24

Abstract

本发明涉及人工智能领域，具体涉及一种基于深度学习模型预测抗体翻译后修饰位点的方法和系统，所述方法包括：获取待预测抗体的蛋白质序列；将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，以得到所述修饰位点预测模型输出的修饰位点预测结果；其中，所述修饰位点预测模型是基于预先构建的注意力卷积神经网络框架和胶囊网络框架、利用抗体样本的蛋白质序列以及抗体样本对应的修饰位点进行训练得到的。利用预先训练的深度学习模型对多种修饰位点进行快速、准确的预测，解决了现有技术中修饰位点预测过程复杂耗时，泛化能力较差的技术问题。

Description

基于深度学习模型预测抗体翻译后修饰位点的方法和系统

技术领域

本发明涉及人工智能领域，具体涉及一种基于深度学习模型预测抗体翻译后修饰位点的方法和系统。

背景技术

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

抗体是一种免疫球蛋白分子，可以识别和结合外来抗原并调节免疫反应。抗体的基本结构包括两个重链和两个轻链，它们通过二硫键相互连接形成一个Y形分子。

抗体在翻译后会发生多种修饰，这些修饰可以影响抗体的结构、功能和稳定性。其中最常见的修饰包括糖基化、去乙酰化、磷酸化、甲基化等。

糖基化是抗体翻译后最常见的修饰之一，大约90%的抗体都会发生糖基化。糖基化可以增强抗体的稳定性、活性和黏附性，并且还可以调节抗体与其他分子之间的相互作用。此外，糖基化还可以影响抗体的免疫原性和清除效率。

去乙酰化也是一种常见的修饰，在抗体的某些位点上发生去乙酰化可以增加其亲和力和特异性。磷酸化则可能影响抗体与其他分子的相互作用，例如抗体与受体或信号转导分子之间的相互作用。

甲基化是一种较少被研究的修饰，但已经发现可以影响抗体的稳定性和免疫原性。此外，还有其他一些不太常见的修饰方式，如二硫键桥的形成、脯氨酸的异构化等。

总之，抗体翻译后的修饰对其结构、功能和稳定性都有很大的影响，如何对抗体翻译后的修饰位点进行预测，也是生物制药领域所要解决的问题。

在已有技术中，可以通过开发特异于表位翻译后修饰状态的抗体的方法和组合物，生成泛翻译后修饰结合抗体文库以及非翻译后修饰结合抗体文库，然后做大量筛选，以此来寻找感兴趣的翻译后修饰位点。但是，采用数据库筛选的方式进行修饰位点预测的过程比较复杂，且耗时，泛化能力较差。

因此，提供一种基于深度学习的修饰位点预测方法，以期利用预先训练的深度学习模型对多种修饰位点进行快速、准确的预测，从而解决现有技术中修饰位点预测过程复杂耗时，泛化能力较差的技术问题，就成为本领域技术人员亟待解决的问题。

发明内容

发明目的

为解决上述技术问题，本发明的目的在于提供一种基于深度学习模型预测抗体翻译后修饰位点的方法和系统。本发明训练好的预测模型仅输入抗体序列即可，可快速实现大量抗体序列的多种翻译后修饰位点的预测。

解决方案

为实现本发明目的，第一方面，本发明提供了一种基于深度学习模型预测抗体翻译后修饰位点的方法，所述方法包括：

获取待预测抗体的蛋白质序列；

将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，以得到所述修饰位点预测模型输出的修饰位点预测结果；

其中，所述修饰位点预测模型是基于预先构建的注意力卷积神经网络框架和胶囊网络框架、利用抗体样本的蛋白质序列以及抗体样本对应的修饰位点进行训练得到的。

在一些实施例中，基于预先构建的注意力卷积神经网络框架和胶囊网络框架、利用抗体样本的蛋白质序列以及抗体样本对应的修饰位点进行训练，得到所述修饰位点预测模型，具体包括：

获取抗体样本的蛋白质序列以及抗体样本对应的修饰位点；

将抗体样本对应的修饰位点进行分类，以得到多个位点类别；

以所述抗体样本的蛋白质序列和抗体样本对应的位点类别构建数据集；

将所述数据集中的训练集分别输入预先构建的注意力卷积神经网络框架和胶囊网络框架中进行训练，以得到所述修饰位点预测模型；

在训练过程中，将所述注意力卷积神经网络框架得到的预测分数与所述胶囊网络框架的预测分数取平均值，以所述平均值作为预测结果值。

注意力卷积神经网络框架中的注意力机制用于计算全长序列氨基酸之间的相互作用关系的注意力分布，根据注意力分布来计算输入信息的加权平均，提取权重较高的氨基酸对，捕捉抗体序列信息中的远距离依赖特征。

在一些实施例中，获取抗体样本的蛋白质序列以及抗体样本对应的修饰位点，具体包括：

获取带有翻译后修饰注释信息的抗体样本的蛋白质序列；

在所述抗体样本的蛋白质序列中，提取含有以翻译后修饰位点为中心的n个氨基酸残基的片段序列作为一维向量进行二进制单热编码，得到翻译后修饰位点的n×m二维矩阵数据；

其中，n为≥7的奇数；m为氨基酸种类的特征维度。

在一些实施例中，所述修饰位点预测模型包括多个子模型；将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，以得到所述修饰位点预测模型输出的修饰位点预测结果，具体包括：

将所述待预测抗体的蛋白质序列输入至少一个子模型，以分别得到子模型输出的预测分数；

将所述子模型输出的预测分数的平均值与预设的阈值进行比较，在所述预测分数的平均值高于阈值的情况下，则判定该待预测抗体包含翻译后修饰位点，并得到修饰位点预测结果。

在一些实施例中，预先构建的所述注意力卷积神经网络框架包括三层卷积层、注意力层、全连接层和输出层，其中，

注意力卷积神经网络的第一卷积层用于提取序列编码后的特征，并逐一滤波求和；其中，第一卷积层的卷积通道数为100，卷积核大小：1×1，步长：1，采样率：0.8；

注意力卷积神经网络的第二卷积层用于将第一卷积层的输出结果进行填充继续提取特征，再汇总求和，其中，所述第二卷积层卷积核通道数为50，卷积核大小：6×6，步长：1，采样率：0.5；

注意力卷积神经网络的第三卷积层，用于将第二卷积层的输出结果进行填充继续提取特征，再汇总求和，其中，所述第三卷积层的卷积核通道数为100，卷积核大小：10×10，步长：1，采样率：0.8；

注意力层用于计算全长序列氨基酸之间的相互作用关系的注意力分布，根据注意力分布来计算输入信息的加权平均，提取权重较高的氨基酸对，捕捉抗体序列信息中的远距离依赖特征，其中，注意力层含有100个隐藏神经元，权重上L1正则化参数：0.2；

全连接层用于整合抗体序列在卷积层中具有类别区分性的局部信息，所述全连接层含有20个隐藏神经元；

输出层用于输出每个残基是翻译后修饰位点的概率，所述输出层含有2个隐藏神经元。

在一些实施例中，预先构建的胶囊网络框架包括两层卷积层、第一胶囊层、动态路由层和第二胶囊层，其中，

胶囊网络的第一卷积层用于提取序列编码后的特征，逐一滤波求和；其中，卷积通道数为100，卷积核大小：1×1，步长：1，采样率：0.8；

胶囊网络的第二卷积层用于将第一卷积层的输出结果进行填充继续提取特征，再汇总求和，其中，卷积核通道数为100，卷积核大小：6×6，步长：1，采样率：0.8；

第一胶囊层用于将卷积层探测的基本特征组合，进行卷积运算，其中，卷积核通道数为30，卷积核大小：15×15，步长：1，采样率：0.8；

动态路由层用于更新不同层级胶囊的权重，迭代过程中将预测向量进行加权求和，权重更新后进行点积处理，检测胶囊输入与输出的相似性；

第二胶囊层用于获得所有向量的主要特征，作出最终分类，其中，正向层具有10个隐藏神经元，反向层具有10个隐藏神经元。

第二方面，本发明提供一种基于深度学习的修饰位点预测系统，所述系统包括：

数据获取单元，用于获取待预测抗体的蛋白质序列；

结果生成单元，用于将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，以得到所述修饰位点预测模型输出的修饰位点预测结果；

第三方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述方法的步骤。

第四方面，提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

有益效果

本发明所提供的基于深度学习的修饰位点预测方法，通过获取待预测抗体的蛋白质序列，将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，即可得到所述修饰位点预测模型输出的修饰位点预测结果；其中，所述修饰位点预测模型是基于预先构建的注意力卷积神经网络框架和胶囊网络框架、利用抗体样本的蛋白质序列以及抗体样本对应的修饰位点进行训练得到的。这样，本发明通过搭建深度学习模型，训练抗体翻译后修饰位点数据集，从而训练出几种常见的抗体翻译后修饰位点的模型，本发明训练好的预测模型仅输入抗体序列即可，可快速实现大量抗体序列的多种翻译后修饰位点的预测；从而利用预先训练的深度学习模型对多种修饰位点进行快速、准确的预测，解决了现有技术中修饰位点预测过程复杂耗时，泛化能力较差的技术问题。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

图1为本发明所提供的基于深度学习的修饰位点预测方法的流程示意图之一；

图2为本发明所提供的基于深度学习的修饰位点预测方法的流程示意图之二；

图3是本发明的深度学习模型的网络构建图。

图4是本发明的整体抗体位点预测及修饰工作流程图。

图5是本发明的添加磷酸修饰集团前的可视化的抗体原始结构图；

图6是本发明的添加磷酸修饰集团后的可视化的抗体结构图；

图7为本发明所提供的基于深度学习的修饰位点预测系统的结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实施例中，对于本领域技术人员熟知的原料、元件、方法、手段等未作详细描述，以便于凸显本发明的主旨。

本发明搭建的深度学习框架由两种神经网络组成：注意力卷积神经网络及胶囊网络。

注意力卷积神经网络是一种结合了卷积神经网络和注意力机制的深度学习模型。其原理是在卷积神经网络中添加注意力模块，用于提取更有意义的特征，增强网络对关键信息的关注度，从而提高网络性能。该网络在每个卷积层后加入注意力模块，该模块通过计算一个权重向量来决定每个特征图的重要性，并将该权重向量应用于特征图上进行加权，得到加权特征图。这样做可以使网络更加关注那些有用的特征，减少无用噪声的干扰，从而提高网络的分类精度和鲁棒性。注意力卷积神经网络作为一种新型的深度学习模型，在视觉、语音识别等领域有着广泛的应用前景。

相较于传统的卷积神经网络，胶囊网络使用了“胶囊”这一新颖的概念来替代传统的神经元。胶囊可以看作是一组向量，在胶囊网络中充当了神经元的角色。每个胶囊都有一个输出向量和一个权重矩阵，这个输出向量表示一个特定的实体（例如一个部件），而权重矩阵则表示这个实体与其他实体之间的关系。相较于传统的神经元，胶囊具有以下几个特点：

方向性：每个胶囊都有一个方向，它对应着一个特定的实体。

长度表示：每个胶囊的长度可以表示这个特定实体的存在程度或者说置信度。

动态路由：胶囊之间可以通过动态路由进行通信，从而实现不同实体之间的关系推断和分类。

根据这些特点，胶囊网络可以更好地处理图像中的空间关系和姿态变换，从而在图像分类、物体识别等任务上取得了很好的效果。

请参考图1，图1为本发明所提供的基于深度学习的修饰位点预测方法的流程示意图之一。

在一种具体实施方式中，本发明所提供的基于深度学习的修饰位点预测方法包括以下步骤：

S110：获取待预测抗体的蛋白质序列；

S120：将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，以得到所述修饰位点预测模型输出的修饰位点预测结果；

在一些实施例中，基于预先构建的注意力卷积神经网络框架和胶囊网络框架、利用抗体样本的蛋白质序列以及抗体样本对应的修饰位点进行训练，得到所述修饰位点预测模型，如图2所示，具体包括以下步骤：

S210：获取抗体样本的蛋白质序列以及抗体样本对应的修饰位点。

具体地，获取带有翻译后修饰注释信息的抗体样本的蛋白质序列；在所述抗体样本的蛋白质序列中，提取含有以翻译后修饰位点为中心的n个氨基酸残基的片段序列作为一维向量进行二进制单热编码，得到翻译后修饰位点的n×m二维矩阵数据；其中，n为≥7的奇数（优选n=11）；m为氨基酸种类的特征维度(优选m=21，指20种常见氨基酸和1种非标准氨基酸)。

S220：将抗体样本对应的修饰位点进行分类，以得到多个位点类别；

S230：以所述抗体样本的蛋白质序列和抗体样本对应的位点类别构建数据集；

S240：将所述数据集中的训练集分别输入预先构建的注意力卷积神经网络框架和胶囊网络框架中进行训练，以得到所述修饰位点预测模型；

为了提高预测效果，所述修饰位点预测模型包括多个子模型；将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，以得到所述修饰位点预测模型输出的修饰位点预测结果，具体包括：

在一个具体使用场景中，本发明提供一种基于深度学习的修饰位点预测方法，所述方法包括预处理抗体蛋白质序列、训练学习模型和测试卷积神经网络三个过程，其具体步骤如下：

S1：预处理抗体蛋白质序列：从数据库中收集带有翻译后修饰注释信息的已知抗体蛋白质序列，选取含有以翻译后修饰位点为中心的n个氨基酸残基的片段序列作为一维向量进行二进制单热编码，得到翻译后修饰位点的n×m二维矩阵数据，其中，n为≥7的奇数；m为21，m为氨基酸种类的特征维度，指20种常见氨基酸和1种非标准氨基酸；

按以下分类获得不同翻译后修饰位点的数据集合，包括：磷酸化丝氨酸、磷酸化苏氨酸、磷酸化酪氨酸、甲基化精氨酸、甲基化赖氨酸、N-糖基化、O-糖基化和去乙酰化赖氨酸等八种；

将相应翻译后修饰位点的数据集随机分别分为训练集和验证集；

S2：训练学习模型：分别建立注意力卷积神经网络框架和胶囊网络框架，输入S1的相应翻译后修饰位点的训练集分别进行训练，分别获得不同翻译后修饰位点的注意力卷积神经网络和胶囊网络的预测模型，分别输出预测结果值并计算最终预测分数；

S3：将验证集分别输入预测模型进行验证，评估预测模型的性能；

S4：输入待预测抗体的结构文件，预处理转化为序列文件，选择感兴趣的一个或多个抗体翻译后修饰模型进行预测，将平均的预测分数与预设的阈值进行比较，预测分数高于阈值，则判定该待预测抗体序列包含相应的翻译后修饰位点，反之，则不含。

进一步地，步骤S1中，数据库为Swiss-Prot数据库；

进一步地，步骤S1中，二进制单热编码中，m个特征种类包括（m-1）种常见氨基酸和1种非标准氨基酸；

和/或，步骤S1中，若翻译后修饰的目标位点在边缘区域时两侧填充非标准氨基酸残基，再进行编码；

步骤S1中，以n=11，m=21为例；将抗体蛋白序列作为输入，以目标位点为中心选取11个残基的片段作为一维向量进行二进制单热编码，目标位点在边缘区域时两侧残基需要填充，填充残基当非标准残基处理，编码种类由20种常见氨基酸和1种非标准氨基酸组成，形成11×21的矩阵，这里将11个残基分别与21类氨基酸进行匹配，匹配上的残基编码值为1，其余匹配不上的残基编码值都为为0，例如，11个残基中若氨基酸属于第一类氨基酸，编码则是[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]，若属于第二类氨基酸则编码为[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]，以此类推，得到11×21的矩阵。本发明考虑该矩阵信息数据等同于图片像素矩阵数据，抗体翻译后修饰位点预测也可以当作一个二分类问题（比如预测抗体序列某残基是不是磷酸化位点，概率为多大），因此本发明可将抗体翻译后修饰位点预测任务转化为图片二分类任务，可借助上述注意力卷积神经网络及胶囊网络来实现。

进一步地，步骤S1中，当目标位点在边缘区域时两侧填充非标准氨基酸残基，再进行编码。

进一步地，步骤S2中，注意力卷积神经网络框架包括三层卷积层、注意力层、全连接层和输出层，其中，

注意力卷积神经网络的第一卷积层：提取序列编码后的特征，逐一滤波求和；其中，卷积通道数为100，卷积核大小：1×1，步长：1，激活函数：ReLU，采样率：0.8；输出第一卷积n×m(例如11×21)矩阵的结果；

注意力卷积神经网络的第二卷积层：将第一卷积层的输出结果（n×m(例如11×21)矩阵）进行填充继续提取特征，再汇总求和，其中，卷积核通道数为50，卷积核大小：6×6，步长：1，激活函数：ReLU，采样率：0.5；

注意力卷积神经网络的第三卷积层：将第二卷积层的输出结果进行填充继续提取特征，再汇总求和，其中，卷积核通道数为100，卷积核大小：10×10，步长：1，激活函数：ReLU，采样率：0.8；

一般来说，卷积层越多，越能拟合复杂的研究体系，激活函数是为了增加非线性关系，采样率是为了防止训练过拟合。

注意力层：计算全长序列氨基酸之间的相互作用关系的注意力分布，根据注意力分布来计算输入信息的加权平均，提取权重较高的氨基酸对，捕捉抗体序列信息中的远距离依赖特征，其中，注意力层含有100个隐藏神经元，权重上L1正则化参数：0.2；注意力层可以弥补卷积神经网络提取局部特征的缺陷。

可选地，在注意力机制中，通过应用softmax函数将注意力权重进行标准化。

注意力机制的计算可以分为两步：一是在所有输入信息上计算注意力分布，二是根据注意力分布来计算输入信息的加权平均。注意力在神经网络中的应用往往是作为权重向量引入的，通过为相关的元素赋予一定的权值，然后把相应元素的加权求和作为目标元素的估计。简单来说，注意力机制会考虑全长序列氨基酸之间的相互作用关系，通过计算两个向量之间的内积就可以得到它与其他氨基酸之间的关联性得分（即注意力权重），然后提取权重较高的氨基酸对，当然包括远距离氨基酸的相互作用，因为蛋白质是会折叠的，较远距离经过折叠后也可能存在相互作用，注意力机制会计算出较高的权重，从而提取远距离依赖特征。卷积网络通过滤波器只能提取短程信息，会忽略一些远距离依赖特征，注意力机制弥补了这一缺点。

全连接层：整合抗体序列在卷积层中具有类别区分性的局部信息，其含有20个隐藏神经元；

输出层：输出每个残基是翻译后修饰位点的概率，其含有2个隐藏神经元，激活函数：SoftMax；

每次迭代中采用交叉损失熵损失函数进行早期停止策略：当验证集的损失在一定数量的训练轮次中没有减少时，该训练过程将停止，并得到相应的翻译后修饰分类模型。

可选地，在注意力机制中，通过应用softmax函数将注意力权重进行标准化，就可以得到注意力分布。注意力分布是一个概率分布，在这个分布中，每个氨基酸都有与其他氨基酸之间的注意力权重。最终将每个氨基酸的向量表示与注意力分布进行加权求和，得到最终的注意力表示，这样，每个氨基酸都考虑到了与其他氨基酸之间的相互作用信息。需要说明的是，数据的标准化是特征缩放(feature scaling)的方法，是数据预处理的关键步骤，softmax函数将特征信息以概率的形式展现出来，概率越大，注意力权重越大，说明两个氨基酸关联越大。

进一步地，步骤S2中，胶囊网络框架包括两层卷积层、第一胶囊层、动态路由层和第二胶囊层，其中，

胶囊网络的第一卷积层：提取序列编码后的特征，逐一滤波求和；其中，卷积通道数为100，卷积核大小：1×1，步长：1，激活函数：ReLU，采样率：0.8；

胶囊网络的第二卷积层：将第一卷积层的输出结果进行填充继续提取特征，再汇总求和，其中，卷积核通道数为100，卷积核大小：6×6，步长：1，激活函数：ReLU,采样率：0.8；

第一胶囊层：将卷积层探测的基本特征组合，进行卷积运算，其中，卷积核通道数为30，卷积核大小：15×15，步长：1，激活函数：ReLU,采样率：0.8；

动态路由层：更新不同层级胶囊的权重，迭代过程中将预测向量进行加权求和，权重更新后进行点积处理，检测胶囊输入与输出的相似性；更新权重后，进行下一轮迭代，经过3次路由迭代后，返回最终的输出向量，使用softmax函数输出最终结果概率，从而实现分类；

第二胶囊层：获得所有向量的主要特征，作出最终分类，其中，正向层：10个隐藏神经元，反向层：10个隐藏神经元；

进一步地，步骤S2中，当某一翻译后修饰位点的样本数量较少时，采用其它翻译后修饰位点的基础预测模型的权重初始化该样本少的预测模型的权重，通过微调，获得模型，微调方法包括：在已有模型的基础上直接输入该样本数量少的数据集，修改输出层和超参数进行微调。

进一步地，还包括在原抗体结构上根据预测位点添加相应的翻译后修饰基团，分别输出初始抗体结构和添加了相应修饰基团的抗体结构。

在上述具体实施方式中，本发明所提供的基于深度学习的修饰位点预测方法，通过获取待预测抗体的蛋白质序列，将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，即可得到所述修饰位点预测模型输出的修饰位点预测结果；其中，所述修饰位点预测模型是基于预先构建的注意力卷积神经网络框架和胶囊网络框架、利用抗体样本的蛋白质序列以及抗体样本对应的修饰位点进行训练得到的。这样，本发明通过搭建深度学习模型，训练抗体翻译后修饰位点数据集，从而训练出几种常见的抗体翻译后修饰位点的模型，本发明训练好的预测模型仅输入抗体序列即可，可快速实现大量抗体序列的多种翻译后修饰位点的预测；从而利用预先训练的深度学习模型对多种修饰位点进行快速、准确的预测，解决了现有技术中修饰位点预测过程复杂耗时，泛化能力较差的技术问题。

第二方面，本发明提供一种基于深度学习的修饰位点预测系统，如图7所示，包括：

数据获取单元710，用于获取待预测抗体的蛋白质序列；

结果生成单元720，用于将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，以得到所述修饰位点预测模型输出的修饰位点预测结果；

在一些实施例中，该系统还包括抗体翻译后修饰器：根据翻译后修饰分类模型的预测位点添加相应的修饰位点，并分别输出初始抗体结构和添加了相应修饰基团的抗体结构。

获取抗体样本的蛋白质序列以及抗体样本对应的修饰位点；

获取带有翻译后修饰注释信息的抗体样本的蛋白质序列；

其中，n为≥7的奇数；m为氨基酸种类的特征维度。

为了便于对上述技术效果进行验证，下面提供一个实施例：

S1. 数据集准备：Swiss-Prot数据库记录了大量已知的抗体蛋白序列及其相关的注释信息，包括翻译后修饰信息。本发明经预处理后形成以下数据集：磷酸化丝氨酸、磷酸化苏氨酸，磷酸酪氨酸，甲基化精氨酸，甲基化赖氨酸，N-糖基化，O-糖基化，去乙酰化赖氨酸等八个常见抗体翻译后修饰数据集。

S2. 模型搭建，如图3所示：

S21.注意力卷积神经网络：

卷积层1：100个卷积核（即卷积核通道数），卷积核大小：1×1，步长：1，激活函数：ReLU,采样率：0.8；

卷积层2：50个卷积核（即卷积核通道数），卷积核大小：6×6，步长：1，激活函数：ReLU,采样率：0.5；

卷积层3：100个卷积核（即卷积核通道数），卷积核大小：10×10，步长：1，激活函数：ReLU,采样率：0.8；

注意力层：100个隐藏神经元，权重上L1正则化参数：0.2；

全连接层：20个隐藏神经元；

输出层：2个隐藏神经元，激活函数：SoftMax；

损失函数：交叉损失熵

S22.胶囊网络：

卷积层1：100个卷积核，核大小：1，步长：1，激活函数：ReLU,采样率：0.8；

卷积层2：100个卷积核，核大小：6，步长：1，激活函数：ReLU,采样率：0.8；

胶囊网络：

胶囊层1：300个卷积核，核大小：15，步长：1，激活函数：ReLU,采样率：0.8；

动态路由层：3次路由迭代；

胶囊层2：正向层：10个隐藏神经元，反向层：10个隐藏神经元；

损失函数：边缘损失函数。

S3.训练：

将抗体不同翻译后修饰数据集分别进行编码后，接入上述深度学习框架进行训练，本发明分别训练了两种网络，发现通过两种网络的结合，整体性能得到了提升，在评估过程中，通过平均两个独立网络获得的预测分数来计算最终预测分数。在每次迭代中我们都应用了早期停止策略，当验证集的损失在一定数量的训练轮次中没有减少时，该训练过程将停止，并得到相应的翻译后修饰分类模型。

对于具有较小训练样本的数据集，应用了迁移学习技术来进一步提高性能。例如，磷酸化酪氨酸数据集样本较少，本发明根据磷酸化丝氨酸和磷酸化苏氨酸数据训练了一个基础模型，然后使用基础模型的预训练权重来初始化磷酸化酪氨酸模型的权重。最后，使用磷酸化酪氨酸数据微调了模型的权重，得到最终的磷酸化酪氨酸模型。

本发明最终训练完成磷酸化丝氨酸、磷酸化苏氨酸，磷酸酪氨酸，甲基化精氨酸，甲基化赖氨酸，N-糖基化，O-糖基化，去乙酰化赖氨酸等八个抗体翻译后修饰模型，可用于抗体翻译后修饰预测任务。

S4.预测:

1）读入抗体结构文件，大分子预处理后转换成序列，或者直接读入批量的抗体序列文件；

2）选择感兴趣的抗体翻译后修饰模型，八个模型可以单选，也可以多选，另外可以设置判定翻译后修饰位点的阈值，如果两个模型框架最终平均的预测分数高于该阈值，则判定该预测的抗体序列残基即为感兴趣的抗体翻译后修饰位点。

S5.添加修饰基团并可视化:

读取抗体结构文件并做大分子预处理之后可走两个流程（如图4），上分支可通过结构序列提取器将抗体结构转换为抗体序列，再接翻译后修饰位点预测模型可以预测出相应的修饰位点，下分支直接输出初始抗体结构，最后将抗体结构和修饰位点输入抗体翻译后修饰器，就可以完成修饰基团在抗体上的添加，从而实现整个抗体修饰功能。例如，以添加磷酸基团为例，分别获得可视化的原始抗体结构（图5），及添加磷酸基团修饰后的抗体结构（图6）。

又一方面，本发明还提供一种电子设备可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令，以执行上述各方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够以执行上述各方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习模型预测抗体翻译后修饰位点的方法，其特征在于，所述方法包括：

获取待预测抗体的蛋白质序列；

2.根据权利要求1所述的方法，其特征在于，基于预先构建的注意力卷积神经网络框架和胶囊网络框架、利用抗体样本的蛋白质序列以及抗体样本对应的修饰位点进行训练，得到所述修饰位点预测模型，具体包括：

获取抗体样本的蛋白质序列以及抗体样本对应的修饰位点；

3.根据权利要求2所述的方法，其特征在于，获取抗体样本的蛋白质序列以及抗体样本对应的修饰位点，具体包括：

获取带有翻译后修饰注释信息的抗体样本的蛋白质序列；

其中，n为≥7的奇数；m为氨基酸种类的特征维度。

4.根据权利要求1所述的方法，其特征在于，所述修饰位点预测模型包括多个子模型；将所述待预测抗体的蛋白质序列输入预先训练的修饰位点预测模型，以得到所述修饰位点预测模型输出的修饰位点预测结果，具体包括：

5.根据权利要求1所述的方法，其特征在于，预先构建的所述注意力卷积神经网络框架包括三层卷积层、注意力层、全连接层和输出层，其中，

6.根据权利要求1所述的方法，其特征在于，预先构建的胶囊网络框架包括两层卷积层、第一胶囊层、动态路由层和第二胶囊层，其中，

7.一种基于深度学习的修饰位点预测系统，其特征在于，所述系统包括：

数据获取单元，用于获取待预测抗体的蛋白质序列；

8.根据权利要求7所述的预测系统，其特征在于，还包括抗体翻译后修饰器：根据翻译后修饰分类模型的预测位点添加相应的修饰位点，并分别输出初始抗体结构和添加了相应修饰基团的抗体结构。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。