CN116844646A

CN116844646A - 一种基于深度对比学习的酶功能预测方法

Info

Publication number: CN116844646A
Application number: CN202311131004.9A
Authority: CN
Inventors: 于新迪; 周树森; 臧睦君; 刘通; 柳婵娟; 王庆军
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-10-03
Anticipated expiration: 2043-09-04
Also published as: CN116844646B

Abstract

本发明属于生物信息学领域，涉及一种基于深度对比学习的酶功能预测方法，其中包括深度学习、对比学习、卷积神经网络等技术。首先，使用蛋白质语言预训练模型ESM‑2对蛋白质序列进行预处理，并计算预处理后各类酶的聚类中心之间的欧氏距离，存储为成对距离矩阵；其次，将预处理后的样本作为输入，训练基于对比学习构建的并行卷积神经网络，并在训练过程中更新成对距离矩阵，保存训练好的模型；最后，对需要预测的蛋白质序列进行预处理，将其输入训练好的模型得到预测向量，计算预测向量与各类酶的聚类中心的距离，选取距离较近的类的标签作为预测结果。本发明提出的方法有效提高了酶功能预测的正确率。

Description

一种基于深度对比学习的酶功能预测方法

技术领域

本发明属于生物信息学领域，涉及一种基于深度对比学习的酶功能预测方法，其中包括深度学习、对比学习、卷积神经网络等技术。

背景技术

蛋白酶是参与人体生化反应的重要催化剂。除此之外，酶还广泛应用于食品工业、皮革工业、药品制造等领域。酶的种类丰富多样，目前人类已经发现了4000多种酶，但这只是一小部分。因此，认识酶并对酶进行标注分类对于酶的研究与使用非常重要。传统的酶鉴定实验成本比较高，而且费时费力。所以，利用人工智能来预测酶的功能已经成为生物信息学领域的一个重要课题。

为了方便研究，酶学委员会为酶创建了EC编号，用于表示酶的功能和所属的类别。酶所属的大类是根据酶所催化的化学反应标注的。由于多数酶可参与的化学反应不止一种，所以一种酶可能属于多个EC编号。而且EC编号种类也有许多，每个类别包含的酶的数量差别较大。因此，酶功能预测是一个复杂的多分类问题，比较具有挑战性，目前的酶功能预测工具尚未达到理想的水平。

本发明提出了一种并行卷积对比学习方法用于酶功能预测。该方法的创新之处主要体现在蛋白酶序列特征提取和模型构建两个方面。在预处理阶段利用蛋白质语言模型ESM-2初次提取蛋白酶的序列特征，在模型训练阶段利用对比学习与并行卷积神经网络进一步提取序列特征，提高模型预测酶功能的性能。

发明内容

酶的种类丰富多样，广泛应用于工业、医药等领域。所以，酶功能预测非常重要。因此，本发明提出了一种基于深度对比学习的酶功能预测方法，该方法有效提高了酶功能预测的正确率。

一种基于深度对比学习的酶功能预测方法，包括蛋白酶序列的预处理、计算成对距离矩阵、三元组采样、基于对比学习的并行卷积神经网络的训练和预测五个过程，其具体步骤如下：

步骤1、将蛋白酶序列输入蛋白质语言模型ESM-2进行预处理，得到特征提取后的酶序列信息，并保存；

步骤2、计算步骤1中预处理后各类酶的聚类中心之间的欧氏距离，并存储为成对距离矩阵；

步骤3、基于步骤2中的成对距离矩阵为神经网络的训练选取三元组，即随机选取一个样本，称为锚，选取一个同类别的样本，称为正样本，选取一个不同类别的样本，称为负样本；

步骤4、把按步骤3中的策略选取的三元组输入基于对比学习的并行卷积神经网络，训练并保存酶功能预测模型；

步骤5、将需要预测的蛋白酶序列经过步骤1处理后输入步骤4中保存好的模型，以预测其类别。

一种基于深度对比学习的酶功能预测方法，步骤1的实现过程如下：

将蛋白酶序列输入蛋白质语言模型ESM-2，提取蛋白酶序列的特征信息；最终每个样本被转换为一个1280维的向量；保存每个预处理后的样本向量。

一种基于深度对比学习的酶功能预测方法，步骤2的实现过程如下：

计算步骤1中预处理后各类酶的聚类中心之间的欧氏距离，并存储为成对距离矩阵；首先计算各个类的聚类中心，即为该类中所有样本的平均向量；其次计算各类平均向量相互之间的欧氏距离，并将它们存储为成对距离矩阵；成对距离矩阵的行数与列数均为类别总数量，矩阵中的每个数字表示其列数和行数所代表的两类之间的欧氏距离。

一种基于深度对比学习的酶功能预测方法，步骤3的实现过程如下：

基于步骤2中的成对距离矩阵为神经网络的训练选取三元组，包括三个样本；首先随机选取一个样本，称为锚；其次从该类剩余样本中随机抽取一个样本，称为正样本；最后，在选择负样本时，根据其他类的聚类中心与锚所属类的聚类中心之间的欧氏距离，搜索成对距离矩阵，选择距离最近的类，在该类中随机抽取一个样本作为负样本；锚、正样本与负样本组成一个三元组。

一种基于深度对比学习的酶功能预测方法，步骤4的实现过程如下：

把按步骤3中的策略选取的三元组输入基于对比学习的并行卷积神经网络，训练并保存酶功能预测模型；神经网络主要由三个并行的卷积神经网络、两个隐藏层和一个全连接层组成；其中每个卷积神经网络包括一维卷积层、批量归一化层和最大池化层，使用的卷积核大小为3，并在批量归一化操作后使用非线性激活函数ReLU，最大池化层的池化窗口大小和步长都为3，三个卷积神经网络的通道数分别为2、4、4；三个卷积神经网络并行排列，在每个卷积神经网络后面设置一个隐藏层，使卷积神经网络输出的多维张量转化为一维张量；第二个隐藏层将前面三个隐藏层输出的一维张量进行拼接，并且对拼接后的输出进行随机丢弃Dropout操作，概率设置为0.15；最后一个全连接层的节点数为128；训练时使用的优化器为Adam，初始学习率为5×10^-4；使用的损失函数为三重对比损失函数L，其定义为公式 (1) ：

⑴

其中表示锚和正样本之间的欧氏距离，/>表示锚和负样本之间的欧氏距离，/>是一个常量，设置为1，max含义为L的值取和0的最大值；对比神经网络的训练目标是最小化损失函数L，使得网络模型映射后的同类样本向量之间的距离最小化，不同类样本向量之间的距离最大化；训练迭代次数为15000，每迭代100次重新计算步骤2中的成对距离矩阵，此时每个样本不仅经过预处理，还要经过网络模型的映射，每个样本由128维的向量表示，使用128维的样本向量重复步骤2即可得到新的成对距离矩阵；最终保存训练好的网络模型。

一种基于深度对比学习的酶功能预测方法，步骤5的实现过程如下：

将需要预测的蛋白酶序列经过步骤1处理后输入步骤4中保存好的模型，得到一个128维的向量；计算该向量与各类酶的聚类中心之间的欧式距离，选择距离小于1×10^-4的类作为预测结果。

附图说明

图1为酶功能预测网络模型训练步骤示意图。

图2为并行卷积神经网络总体架构图。

图3为图2中卷积神经网络局部架构图。

具体实施方式

以下结合附图和实例对本发明进行详细说明。

本发明的目的是提出一种基于深度对比学习的酶功能预测方法，包括蛋白酶序列的预处理、计算成对距离矩阵、三元组采样、基于对比学习的并行卷积神经网络的训练和预测五个过程，其具体过程的实现步骤如下所示：

步骤1、将蛋白酶序列输入蛋白质语言模型ESM-2进行预处理，得到特征提取后的酶序列信息，并保存：

本发明使用的训练集来自通用蛋白质知识库Uniport，共包含227362个蛋白酶序列；将训练集的蛋白酶序列输入蛋白质语言模型ESM-2，进行特征提取；每个蛋白酶序列被处理成一个1280维的向量，保存所有预处理后的样本向量。

步骤2、计算步骤1中预处理后各类酶的聚类中心之间的欧氏距离，并存储为成对距离矩阵：

首先计算各个类的聚类中心，即为类中所有样本的平均向量；其次计算各类平均向量相互之间的欧氏距离，并将它们存储为成对距离矩阵；成对距离矩阵的行数与列数均为类别总数量，为5242，矩阵中的每个数字表示其列数和行数所代表的两类之间的欧氏距离，该成对距离矩阵用于网络模型训练时三元组的选取。

步骤3、基于步骤2中的成对距离矩阵为神经网络的训练选取三元组：

首先随机选取一个样本，称为锚；其次从该类剩余样本中随机抽取一个样本，称为正样本；在选择负样本时，根据其他类的聚类中心与锚所属类之间的欧氏距离，搜索成对距离矩阵，选择距离最近的类，在该类中随机抽取一个样本作为负样本；锚、正样本与负样本组成一个三元组。

步骤4、把按步骤3中的策略选取的三元组输入基于对比学习的并行卷积神经网络，训练并保存酶功能预测模型：

酶功能预测网络模型训练步骤如图1所示；蛋白酶序列经过步骤1的预处理后，根据步骤2

得到的成对距离矩阵选取三元组，即为步骤3，接下来将三元组作为并行卷积神经网络的输入，训练酶功能预测模型；并行卷积神经网络总体架构图如图2所示，其中卷积神经网络局部架构如图3所示；网络的输入为1280维的向量，将其分别作为三个并行的卷积神经网络的输入，经过了一维卷积、批量归一化、非线性激活函数ReLU和最大池化操作，其中卷积核的大小都为3，最大池化的池化窗口大小和步长都为3，1280维的向量经过这些操作后变换为426维的向量；第一个卷积神经网络的通道数为2，它的输出大小为2×426，第二个和第三个卷积神经网络的通道数为4，它们的输出大小为4×426；三个并行的卷积神经网络输出的多维张量分别经过隐藏层的一维化操作转化为一维张量，第一个输出的张量大小为1×852，第二个和第三个输出的张量大小为1×1704；接下来的隐藏层将三个一维张量进行拼接，输出大小为1×4260；为了防止网络模型训练过程中的过拟合，对拼接后的输出进行随机丢弃Dropout操作，概率设置为0.15；接下来经过全连接层的映射，得到模型输出，大小为1×128；训练时使用的优化器为Adam，初始学习率设置为5×10^-4；训练迭代次数为15000，每迭代100次重新计算步骤2中的成对距离矩阵，此时每个样本不仅经过预处理，还要经过网络模型的映射，每个样本由128维的向量表示，使用该数据重复步骤2即可得到新的成对距离矩阵；最终保存训练好的网络模型。

步骤5、将需要预测的蛋白酶序列经过步骤1处理后输入步骤4中保存好的模型，即可预测其所属类别，测试模型性能：

本发明测试了来自通用蛋白质知识库Uniport的两个小型蛋白酶数据集，名为NEW-392和PRICE-149，分别包含392和149个样本；将两个数据集的样本经过步骤1的预处理后，分别输入步骤4中保存好的模型；每个样本可以得到一个128维的向量，计算该向量与各类酶的聚类中心之间的欧式距离，选择距离小于1×10^-4的类作为预测结果；基于本发明提出预测方法训练好的模型在测试集NEW-392上的精确率Precision、召回率Recall分别为0.6313、0.501，与目前性能最好的酶功能预测模型CLEAN相比，分别提高了3.48%、1.99%；在测试集PRICE-149上的精确率Precision、召回率Recall分别为0.596、0.5197，与目前性能最好的酶功能预测模型CLEAN相比，分别提高了1.16%、5.26%；该测试结果证明本发明提出的方法可以有效提高酶功能预测模型的性能。

以上实例的详细描述是进一步对本发明作出的详细说明，但并不能认定本发明仅局限于以上实例所述范围。在本发明的构思范围内，本领域的普通技术人员还可以针对其他实例做出若干相关的简单推演或替换，都视为本发明的保护范围之内。

Claims

1.一种基于深度对比学习的酶功能预测方法，包括蛋白酶序列的预处理、计算成对距离矩阵、三元组采样、基于对比学习的并行卷积神经网络的训练和预测五个过程，其具体步骤如下：

2.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法，步骤1的实现过程如下：

3.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法，步骤2的实现过程如下：

4.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法，步骤3的实现过程如下：

5.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法，步骤4的实现过程如下：

把按步骤3中的策略选取的三元组输入基于对比学习的并行卷积神经网络，训练并保存酶功能预测模型；神经网络主要由三个并行的卷积神经网络、两个隐藏层和一个全连接层组成；其中每个卷积神经网络包括一维卷积层、批量归一化层和最大池化层，使用的卷积核大小为3，并在批量归一化操作后使用非线性激活函数ReLU，最大池化层的池化窗口大小和步长都为3，三个卷积神经网络的通道数分别为2、4、4；三个卷积神经网络并行排列，在每个卷积神经网络后面设置一个隐藏层，使卷积神经网络输出的多维张量转化为一维张量；第二个隐藏层将前面三个隐藏层输出的一维张量进行拼接，并且对拼接后的输出进行随机丢弃Dropout操作，概率设置为0.15；最后一个全连接层的节点数为128；训练时使用的优化器为Adam，初始学习率为5×10^-4；使用的损失函数为三重对比损失函数L，其定义为公式(1) ：

⑴

6.根据权利要求1所述的一种基于深度对比学习的酶功能预测方法，步骤5的实现过程如下：