CN115472221A

CN115472221A - 一种基于深度学习的蛋白质适应度预测方法

Info

Publication number: CN115472221A
Application number: CN202211290871.2A
Authority: CN
Inventors: 梁亦龙; 戈其珺; 舒坤贤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2022-12-13

Abstract

本发明属于生命科学领域，具体涉及一种基于深度学习的蛋白质适应度预测方法，包括：对目标蛋白质进行多序列比对，并推断其进化耦合，并获取同源蛋白质序列的局部进化表示；利用蛋白质语言模型来获取目标蛋白质的氨基酸特征；对目标蛋白质的氨基酸序列进行位置嵌入表示，得到位置特征；将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型中提取特征，将提取的特征通过全连接计算，得到蛋白质适应度的预测结果值。本发明提出了一种新的混合神经网络，网络充分利用了蛋白质序列的局部进化信息和氨基酸特征信息，可以更有效的提取并学习蛋白质序列数据，提高了预测精度。

Description

一种基于深度学习的蛋白质适应度预测方法

技术领域

本发明属于生命科学领域，具体涉及一种基于深度学习的蛋白质适应度预测方法。

背景技术

天然的蛋白质在稳定性、耐受性、选择性等方面往往无法满足工业生产的需求，促使人类探索高效的蛋白质改造方法。在自然条件下，蛋白质性质或功能的改变通常需要很长时间。因此，人们为了加速天然蛋白质的进化过程，提出了蛋白质定向进化(directedevolution)。蛋白质定向进化，主要指通过蛋白质工程等手段，在实验室模拟并加速蛋白质进化过程，对目的基因进行多轮反复的突变、表达，随后根据特定的标准进行筛选，以分离或富集具有一个或多个预期性能改进的蛋白质突变体。筛选突变体由适应度的大小决定，适应度是指在自然进化中对宿主生物在特定环境中繁殖能力的衡量，更适合的生物繁殖更快，它们的基因在整个种群中传播。当实施人工选择时，适应度由实验者定义。随机突变的定向进化与高通量筛选相结合，显著提高了酶的活性，拓宽了其在工业催化中的应用。尽管定向进化策略十分有效，但仍存在突变文库大、阳性突变少、难以筛选等问题，还需借助适当的计算手段来指导突变体及其文库设计。

近年来，机器学习(machine learning，ML)逐渐成为助力蛋白质定向进化的一种新方法。机器学习通常使用计算机的方法对组合文库进行采样，从而在每一轮中通过序列空间搜索实现更大的筛选。在这种方法中，来自组合文库(也称输入文库)中随机样本的真实实验数据用于训练机器学习模型，这些模型可预测较小的突变体数据集(即预测文库)，然后将表现最佳的突变体用作下一轮进化的亲本序列，并在新位置进行突变。而深度学习通过训练深度神经网络，学习由低到高的特征层次，进而对输入数据进行分层抽象处理，原始特征数据能够被映射成更高层次和更抽象的数据表示，能有效增强辨别能力和减轻无关因素的影响，因此深度学习深刻变革了机器学习领域。相比之下，传统的学习技术，如支持向量机(Support vector machine，SVM)、高斯回归(Gaussian processes，GP)和人工神经网络(Artificial neural networks，ANN)等，则强烈依赖于人工提取的特征(feature)，由于它们明确的特征编码原理，这些方法可能会丢失隐藏在输入数据中的敏感特征；无法通过在蛋白质序列数据库上训练后模拟和预测目标蛋白质的所有可能序列的适应度来工作。

综上所述，现有技术问题：

1.传统学习技术根据明确的特征编码原理来人工提取特征会丢失隐藏在输入数据中的敏感特征；

2.传统学习技术无法通过在蛋白质序列数据库上训练后模拟和预测目标蛋白质的所有可能序列的适应度来工作。

发明内容

为解决上述技术问题，本发明提出一种基于深度学习的蛋白质适应度预测方法，包括以下步骤：

S1：获取大规模深度突变扫描(DMS)数据集和已发表的文献中整理的随机突变数据集；

S2：对目标蛋白质进行多序列比对，并推断其进化耦合，并获取同源蛋白质序列的局部进化表示；

S3：利用蛋白质语言模型来获取目标蛋白质的氨基酸特征；

S4：对目标蛋白质的氨基酸序列进行位置嵌入表示，得到位置特征；

S5：将目标蛋白质的局部进化表示和氨基酸特征与位置特征输入到混合神经网络模型中提取特征，将提取的特征通过全连接计算，得到蛋白质适应度的预测结果值。

优选的，所述S2具体包括：

使用HH-Suite中的HHblits搜索根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的蛋白质与目标蛋白质的同源的蛋白质序列，并将搜索到的同源蛋白质序列格式化为A3M多序列比对格式，通过CCMPred使用马尔可夫随机场学习同源蛋白质序列的A3M多序列比对来识别进化耦合，得到耦合矩阵e_ij和位点偏好向量e_i，根据位点偏好向量e_i和耦合矩阵e_ij构建蛋白质协同进化信息的数据表示，得到同源蛋白质序列的局部进化表示。

进一步的，通过CCMPred使用马尔可夫随机场学习同源序列的多序列比对来识别进化耦合，表示为：

其中，L(e)表示进化耦合概率，e_i表示位点偏好向量，e_ij表示耦合矩阵，

表示第n个序列中的第i个氨基酸，

表示第n个序列中的第j个氨基酸，Z表示归一化常数，N是同源序列的个数，L是多序列比对中的列数，exp()表示以自然常数e为底的指数函数。

进一步的，根据位点偏好向量e_i和耦合矩阵e_ij构建蛋白质协同进化信息的数据表示，得到同源蛋白质序列的局部进化表示，表示为：

V_i＝[e_i(x_i),e_i1(x_i,x₁),e_i2(x_i,x₂),e_i3(x_i,x₃),...,e_iL(x_i,x_L)]

其中，V_i表示蛋白质协同进化信息的数据表示即局部进化表示，e_i表示位点偏好向量，e_iL表示第L个耦合矩阵，x_i表示第i个氨基酸，x_L表示第L个氨基酸。

优选的，利用蛋白质语言模型来获取目标蛋白质的氨基酸特征，具体包括：

蛋白质语言模型ESM-1b根据输入的目标蛋白质序列，为目标蛋白质每个氨基酸生成1280维的矢量表示，得到包含有关生物特性信息的氨基酸特征。

优选的，所述S4具体包括：

目标蛋白质的氨基酸序列通过20维嵌入层，得到氨基酸嵌入特征，对嵌入特征进行Position Embedding，得到位置特征。

优选的，所述混合神经网络模型包括：双向门控循环单元、TextCNN层、BN层、两个全连接层、dropout层。

优选的，所述S5具体包括：

将目标蛋白质的局部进化表示和氨基酸特征经过线性降维后拼接，将位置特征和降维后的特征按序列的位置顺序连接，将连接后的特征输入双向门控循环单元为序列中每个氨基酸产生一个隐藏状态向量，将隐藏状态向量输入TextCNN层，通过卷积操作和池化操作提取序列特征表示，提取的序列特征通过BN层进行批量归一化操作，将归一化后的序列特征表示通过具有tanh激活函数的两层全连接层，并在两层全连接层中用dropout层进行防止过拟合操作，得到预测适应度值。

本发明的有益效果：

1.充分利用了蛋白质序列的局部进化信息和氨基酸特征信息；

2.本发明提出了一种新的混合神经网络，将TextCNN和双向GRU进行了融合，融合后的网络可以更有效的提取并学习蛋白质序列数据，提高了预测精度，且针对不同数据集都有着不错的泛化性能。

附图说明

图1为本发明的流程图；

图2为本发明的神经网络模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于深度学习的蛋白质适应度预测方法，如图1所示，包括以下步骤：

S3：利用蛋白质语言模型来获取目标蛋白质的氨基酸特征；

深度突变扫描(deep-mutational scanning，DMS)是通过高通量合成各种基因突变，建立突变库，确定突变对蛋白质功能的影响。所获得的深度突变扫描(DMS)数据集和已发表的文献中整理的随机突变数据集中包括目标蛋白质序列、蛋白突变体序列及其对应的适应度(标签值)，目标蛋白质的适应度为1，若蛋白突变体的适应度高于目标蛋白质的适应度，则说明此突变体改良的比目标蛋白质功能更好。

所述S2具体包括：

使用HH-Suite中的HHblits搜索根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的蛋白质与目标蛋白质的同源的蛋白质序列，并将搜索到的同源蛋白质序列格式化为A3M多序列比对(MSA)格式，通过CCMPred使用马尔可夫随机场学习同源蛋白质序列的A3M多序列比对来识别进化耦合，得到耦合矩阵e_ij和位点偏好向量e_i，根据位点偏好向量e_i和耦合矩阵e_ij构建蛋白质协同进化信息的数据表示，得到同源蛋白质序列的局部进化表示。

通过CCMPred使用马尔可夫随机场学习同源序列的MSA来识别进化耦合，表示为：

表示第n个序列中的第i个氨基酸，

根据位点偏好向量e_i和耦合矩阵e_ij构建蛋白质协同进化信息的数据表示，得到同源蛋白质序列的局部进化表示，表示为：

V_i＝[e_i(x_i),e_i1(x_i,x₁),e_i2(x_i,x₂),e_i3(x_i,x₃),...,e_iL(x_i,x_L)]

ESM-1b是使用无监督学习，对跨越进化多样性的2.5亿个蛋白质序列中的860亿个氨基酸训练的蛋白质语言模型。所得到的模型在其表示中包含有关生物特性的信息，这些表示仅从序列数据中学习，对于输入的序列，ESM-1b为每个氨基酸生成1280维的矢量表示，将重新投影的ESM-1b表示称为氨基酸特征表示。

利用蛋白质语言模型来获取目标蛋白质的氨基酸特征，具体包括：

所述S4具体包括：

将输入序列中的氨基酸用类似与文本处理中词向量的方式进行表示，此词向量的维数为20。词向量只记录了每一个氨基酸的信息，而没有记录这些氨基酸在序列中出现的位置信息，所以将Position Embedding加在词向量层之后，补充位置信息，将结合后的向量称为位置特征。

所述混合神经网络模型，如图2所示，包括：双向门控循环单元、TextCNN层、BN层、两个全连接层、dropout层。

使用带有默认参数的Adam optimizer完成对模型的训练，使用均方误差(MeanSquare Error,MSE)作为模型的损失函数。

模型的损失函数为：

其中，MSE表示模型的损失函数；y为实际的标签值；f(x)为当前模型训练的预测值；n为样本数。

所述S5具体包括：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度学习的蛋白质适应度预测方法，其特征在于，包括：

S1：获取大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集；

S2：根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的蛋白质对目标蛋白质进行多序列比对，并推断其进化耦合，并获取同源蛋白质序列的局部进化表示；

S3：利用蛋白质语言模型来获取目标蛋白质的氨基酸特征；

2.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，所述S2具体包括：

使用HH-Suite中的HHblits搜索根据大规模深度突变扫描数据集和已发表的文献中整理的随机突变数据集中的目标蛋白质的同源蛋白质序列，并将搜索到的同源蛋白质序列格式化为A3M多序列比对格式，通过CCMPred使用马尔可夫随机场学习同源蛋白质序列的多序列比对来识别进化耦合，得到耦合矩阵e_ij和位点偏好向量e_i，根据位点偏好向量e_i和耦合矩阵e_ij构建蛋白质协同进化信息的数据表示，得到同源蛋白质序列的局部进化表示。

3.根据权利要求2所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，通过CCMPred使用马尔可夫随机场学习同源序列的多序列比对来识别进化耦合，表示为：

表示第n个序列中的第i个氨基酸，

4.根据权利要求2所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，根据位点偏好向量e_i和第一耦合矩阵e_ij构建蛋白质协同进化信息的数据表示，表示为：

V_i＝[e_i(x_i),e_i1(x_i,x₁),e_i2(x_i,x₂),e_i3(x_i,x₃),...,e_iL(x_i,x_L)]

5.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，利用蛋白质语言模型来获取目标蛋白质的氨基酸特征，具体包括：

蛋白质语言模型ESM-1b根据输入的目标蛋白质序列，为目标蛋白质的每个氨基酸生成1280维的矢量表示，得到包含有关生物特性信息的氨基酸特征。

6.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，所述S4具体包括：

7.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，所述混合神经网络模型包括：双向门控循环单元、TextCNN层、BN层、两个全连接层、dropout层。

8.根据权利要求1所述的一种基于深度学习的蛋白质适应度预测方法，其特征在于，所述S5具体包括：

将目标蛋白质的局部进化表示和氨基酸特征经过线性降维后拼接，将位置特征和降维后的特征按序列的位置顺序连接，将连接后的特征输入双向门控循环单元为序列中每个氨基酸产生一个隐藏状态向量，将隐藏状态向量输入TextCNN层，通过卷积操作和池化操作提取序列特征，提取的序列特征通过BN层进行批量归一化操作，将归一化后的序列特征通过具有tanh激活函数的两层全连接层，并在两层全连接层中用dropout层进行防止过拟合，得到预测适应度值。