CN115588462A

CN115588462A - 基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法

Info

Publication number: CN115588462A
Application number: CN202211121535.5A
Authority: CN
Inventors: 臧天仪; 王福旭; 王皓; 俨赵飞
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-01-10

Abstract

本发明涉及基于迁移学习的预测方法，属于大数据分析技术领域，本发明为了解决现有的肽和主要组织相容性复合物结合请合理算法准确性和特异性，相对实际应用有待改进的问题。本发明通过如下步骤实现的：步骤一、对pepRoBERTa训练层进行预训练；步骤二、通过softmax激活函数获得概率分布，获得模型的序列特征；步骤三、对步骤二中得到的模型进行微调；步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。本发明不仅利用了肽和MHCI类蛋白结合亲和力数据，并融合了无标签蛋白的序列特征。

Description

基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法

技术领域

本发明涉及基于迁移学习的预测方法，属于大数据分析技术领域。

背景技术

众所周知，药物研发是一个漫长的过程，存在着研发周期长，研发成果率低，研发费用高的困境。而随着计算机技术的更新以及大数据技术的发展，人工智能正在各行各业中发挥巨大的应用价值，在制药行业也受到了广泛的关注。在新药发现过程中，虚拟筛选可以提高活性分子的富集，通过对化合物的性能进行预测，可以节约大量的人力、物力，缩短药物研发周期，加速研究成果的转化，因此近年来已引起科研机构和制药公司的高度重视。研究蛋白质的生物序列可以帮助科学家更好地了解疾病的生物蛋白基础，根据自定义的功能需求改进蛋白，帮助提高生产效率，甚至开发出全新功效的蛋白质。现有的肽和主要组织相容性复合物结合亲和力算法准确性和特异性，相对实际应用有待改进。

发明内容

本发明为解决现有的肽和主要组织相容性复合物结合亲和力算法准确性和特异性，相对实际应用有待改进的问题，进而提出基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法

本发明为解决上述问题采取的技术方案是：本发明通过如下步骤实现的：

步骤一、对pepRoBERTa训练层进行预训练；

步骤二、通过softmax激活函数获得概率分布，获得模型的序列特征；

步骤三、对步骤二中得到的模型进行微调；

步骤四、对步骤三中微调后的模型进行嵌入并通过RoBERTa训练层和输出层得出结果。

进一步的，步骤一中预训练是通过如下步骤实现的：

步骤A、将蛋白质序列进行分词；

步骤B、挑选分词并利用特殊字符进行替代；

步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵；

步骤D、将步骤C中得到的序列特征矩阵输入pepRoBERTa训练层进行训练。

进一步的，步骤B中替换的分词数量为总数量的15％。

进一步的，步骤C中嵌入的序列特征矩阵规格为768*512。

进一步的，步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。

进一步的，步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的：

步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符；

步骤Ⅱ、将多肽和步骤Ⅰ中分词得到的词符进行合并获得新的词符；

步骤Ⅲ、将步骤Ⅱ中获得的词符输入嵌入层和RoBERTa训练层，得出结果。

本发明的有益效果是：本发明在利用肽和MHCI类蛋白结合亲和力数据的基础上，为了提高效率与检索的效率，本发明还融合了无标签蛋白的序列特征，加大了数据库，更新了预算的算法，从而提高了算法的准确性和特异性，本发明的斯皮尔曼秩相关系数平均值为0.543，优于国际公认的泛特异性基准测试方法NetMHCpan3.0和NetMHCpan4.0，具有很高的可信度，可以作为下游寻找癌症靶点疫苗的可靠算法。

附图说明

图1是本发明的流程示意图；

图2是本发明的数据对比图。

具体实施方式

具体实施方式一：结合图1至图2说明本实施方式，本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法是通过如下步骤实现的：

步骤一、对pepRoBERTa训练层进行预训练；

步骤三、对步骤二中得到的模型进行微调；

通过上述步骤完成对数据的分析。

具体实施方式二：结合图1至图2说明本实施方式，本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤一中预训练是通过如下步骤实现的：

步骤A、将蛋白质序列进行分词；

步骤B、挑选分词并利用特殊字符进行替代；

步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵；

通过上述方式完成对pepRoBERTa训练层的预训练，使pepRoBERTa训练层能够快速准确的对数据进行分析。

具体实施方式三：结合图1至图2说明本实施方式，本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤B中替换的分词数量为总数量的15％。通过替换适量的特殊字符来完成使用掩码语言模型技术的预训练。

具体实施方式四：结合图1至图2说明本实施方式，本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤C中嵌入的序列特征矩阵规格为768*512。通过指定规格的特征矩阵便于算法进行运行。

具体实施方式五：结合图1至图2说明本实施方式，本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。每次向模型提供一个序列时，都会生成一个新的掩码模式。嵌入向量通过多头自注意力层，在此层，有12个独立的随机初始化注意力头。从这些注意力头中，模型可以学习输入数据中氨基酸序列的上下文。

具体实施方式六：结合图1至图2说明本实施方式，本实施方式所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法的步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的：

步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符；

通过对上述步骤完成对模型的微调，以此来确保输出结果的准确性。

实施例

实施本算法的时候，需要先进行预训练，以蛋白质序列“MSTNPKPQKKNKRNTNRRPQDVK”为例，在通过分词算法后得到分词序列“[CLS]”，“MST”，“NP”，“KP”，“QKK”，“NK”，“RN”，“TN”，“RRP”，“QD”，“VK”，由于本发明使用的预训练技术采用了掩码语言模型技术，因为在得到的分词序列中挑选15％的分词，用特殊字符“[MASK]”替代以确保预训练的高效与准确。通过分词模块得到的分词进入嵌入层模块，将所得分词嵌入为一个768*512的序列特征矩阵，该矩阵作为预训练的pepRoBERTa训练层的输入，pepRoBERTa训练层由5个Transformer编码层组成。每次向模型提供一个序列时，都会生成一个新的掩码模式。嵌入向量通过多头自注意力层，在此层，本算法设置有12个独立的随机初始化注意力头。从这些注意力头中，模型可以学习输入数据中氨基酸序列的上下文。然后向量将通过一个完全连接的前馈层，该层使用GeLU激活函数，模型通过softmax激活函数获得概率分布，获得模型的序列特征。以此来完成前期的模型构建与预训练，在模型构建与预训练后，进行模型参数微调，模型微调与预训练相似，需要先将需要肽和MHCI类蛋白分子进行分词，获得分词后的词符后，需要将多肽和MHC I类蛋白分子的分词词符进行合并，具体方法如下：首先获得肽链分词，

然后获得MHC I类蛋白分子分词

而后通过合并获得词符，

而后进入嵌入层和RoBERTa训练层，最后输出结果。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法，其特征在于：所述基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法是通过如下步骤实现的：

步骤一、对pepRoBERTa训练层进行预训练；

步骤三、对步骤二中得到的模型进行微调；

2.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法，其特征在于：步骤一中预训练是通过如下步骤实现的：

步骤A、将蛋白质序列进行分词；

步骤B、挑选分词并利用特殊字符进行替代；

步骤C、将分词送入嵌入层模块并嵌入一个序列特征矩阵；

3.根据权利要求2所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法，其特征在于：步骤B中替换的分词数量为总数量的15％。

4.根据权利要求2所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法，其特征在于：步骤C中嵌入的序列特征矩阵规格为768*512。

5.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法，其特征在于：步骤D中的pepRoBERTa训练层由5个Transformer编码层组成。

6.根据权利要求1所述的基于迁移学习的多肽与主要组织相容性复合物类蛋白分子结合预测方法，其特征在于：步骤三中对步骤二中得到的模型进行微调是通过如下步骤实现的：

步骤Ⅰ、肽和MHCI类蛋白分子进行分词得到词符；