CN116417062A

CN116417062A - 酶-底物亲和力常数预测方法、存储介质和装置

Info

Publication number: CN116417062A
Application number: CN202310206869.0A
Authority: CN
Inventors: 魏志强; 刘其琛; 刘昊; 毛相朝; 李阳阳; 刘成超
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-11
Anticipated expiration: 2043-03-07
Also published as: CN116417062B

Abstract

本发明涉及一种酶‑底物亲和力常数预测方法、存储介质和装置，属于生物信息学领域，所述方法包括如下步骤：1)构建蛋白质和化合物序列语料库用来训练模型，2)提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型，构建张量矩阵，3)将张量矩阵输入到卷积神经网络进行特征提取，获得特征向量；4)将提取到的两个特征向量连接成单个向量，并将该向量输入到回归网络中以进行K_M预测。本发明还提供了存储有所述方法的计算机可读存储介质和由所述介质组成的装置。本发明可以将蛋白质序列和底物的SMILES字符串的上下文信息进行相关表示，可以表征各种序列或字符串中每个氨基酸或原子的多样性，从而提高酶‑底物亲和力常数K_M预测的准确性。

Description

酶-底物亲和力常数预测方法、存储介质和装置

技术领域

本发明属于生物信息学领域，结合了基因组学和生物化学以及深度神经网络的知识设计并实现了一套对酶-底物的亲和力常数K_M进行预测的新方法。

背景技术

米氏常数K_M定义为酶以最大催化速率的一半运行时的底物浓度，因此，它描述了酶对特定底物的亲和力，是酶动力学和细胞生理学研究的核心参数。K_M值对于定量理解酶和代谢物之间的酶促和调节相互作用至关重要：它将代谢物的细胞内浓度与其消耗速率联系起来，将代谢组与细胞生理学联系起来。然而K_M值的测量通常既困难又耗时，因此即使在模式生物中也只有少数的酶-底物组合存在实验估计值。例如，即使是在生化特征最好的生物体大肠杆菌中，也只有不到30％的天然底物存在体外K_M测量值。因此，如何快速高效并且准确的预测K_M值成为生物信息学中的一个基本问题。

随着人工智能的发展，使得计算机技术在生物信息学领域的应用得以实现。目前大规模动力学建模的标准方法是在优化过程中估计动力学参数，这些优化通常试图估计更多的未知参数，而不是以测量值作为输入，因此，得到的K_M值有很大的置信范围，并且与实验观测值几乎没有联系。因此，人工智能对这些数值的预测，即使只是一个数量级，也代表着向更现实的细胞代谢模型迈进了一大步，并可能大大增加这些模型提供的生物学理解。在之前只有少数的研究试图通过计算机辅助来预测天然酶促反应的动力学参数。有人成功地使用机器学习模型来预测大肠杆菌反应的未知周转数，虽然用这个模型可以成功地预测许多大肠杆菌的K_cat值，但是对于大多数酶来说，活性位点信息是不可用的。此外，除了少数模式生物之外，既没有活性位点信息，也没有反应通量估计，从而阻碍了这种方法的推广。有人训练了一个线性模型来预测K_M值，该模型基于同一底物的其他K_M值测量，这些K_M值与同一生物体中的不同酶和其他生物体中的相同酶配对；他们为8种不同的底物中的每一种都拟合了一个独立的模型。有人后来遵循了类似的聚焦策略，基于神经网络预测底物纤维二糖的β-葡萄糖苷酶的Km值。这两种预测K_M的方法针对的是个体，需要具有经过充分研究的酶-底物组合，具有大量用于训练和测试的实验K_M数据。因此，他们的策略不适用于研究较少的反应，也不能应用于基因组规模的预测。

在此背景下，越来越多的研究倾向于采用预测DTI的方法应用到K_M值的预测上。目前已经开发了多种预测药物靶标结合亲和力的方法。这些方法大多是基于相似性、基于结构或基于特征的。基于相似性的方法依赖于相似药物倾向于与相似靶点相互作用的假设；这些方法使用已知的药物-靶点相互作用来学习基于药物-药物和靶点-靶点相似性度量的预测函数。基于结构的DTI预测模型利用目标蛋白质的3D结构的信息。这两种策略都不能轻易推广到基因组规模的、与生物无关的预测，因为许多酶和底物与特征良好的分子相似性差距比较大，而且3D结构只适用于少数酶。

总之，前两种方法都只适用于较少的酶和底物亲和力预测，无法推广至基因组规模的预测。

发明内容

本发明要解决的技术问题在于提供一种融合酶-底物的重要信息并对其亲和力常数K_M进行预测的新方法，所述方法首先分别构建表示蛋白质和化合物信息的语料库；然后，提出一种新颖的融合了特征提取器和全连接神经网络FCNN的对酶-底物亲和力常数K_M进行预测的模型，所述模型可以将蛋白质序列和底物的SMILES字符串的上下文信息进行相关表示，可以表征各种序列或字符串中每个氨基酸或原子的多样性，从而提高酶-底物亲和力常数K_M预测的准确性。

本发明是通过如下技术方案来实现的：

一种酶-底物亲和力常数K_M预测的方法，所述方法的具体步骤如下所示：1)构建蛋白质和化合物序列语料库用来训练模型，2)提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型，构建张量矩阵，3)将张量矩阵输入到卷积神经网络(CNN)进行特征提取，获得特征向量；4)将提取到的两个特征向量连接成单个向量，并将该向量输入到回归网络中以进行K_M预测。

进一步，所述的构建蛋白质和化合物序列语料库用来训练模型：构建针对特定任务的语料库训练ELECTRA模型，以获得输入序列的编码层；SMILES字符串中每个原子和化学键都是一个单词，通过收集许多化合物来自然地组成语料库，使用Open Babel将语料库中的所有SMILES字符串转换为规范格式；与SMILES字符串类似，从蛋白质FASTA序列中提取单词并创建蛋白质序列语料库，把每个残基看成一个单词，利用UniProt数据库收集蛋白质信息；

利用两个独立的ELECTRA模型将SMILES字符串和氨基酸序列分别编码为固定维度的向量；ELECTRA使用两个Transformer编码器作为基础结构，一个充当生成器网络，另一个充当鉴别器网络；来自SMILES字符串的标记首先被屏蔽，一些被替换为具有固定概率的屏蔽符号[MASK]；然后，将[MASK]标记输入生成器，与鉴别器进行联合预训练。

所述的提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型，构建张量矩阵：使用经过训练的ELECTRA模型，从BRENDA数据库中提取代表底物信息的SMILES字符串和代表酶信息的氨基酸序列，分别嵌入到张量中，输出张量矩阵；

进一步，对于单个化合物，来自其SMILES字符串的标记序列(代表原子或结构指示符)被输入经过训练的ELECTRA-M模型以产生复合编码。

进一步，所述每个字符被转换成一个长度为W_C的向量通过ELECTRA-M，然后是一系列的令牌被转换为一个长度为N_C的序列，最终连接成一个W_C×N_C的张量矩阵作为复合表示；以同样的方式，一个蛋白质残基标记被编码成一个长度为W_P由ELECTRA-P和长度为N_P的氨基酸序列连接成一个W_P×N_P张量矩阵。

进一步，将张量矩阵输入到卷积神经网络(CNN)进行特征提取，获得特征向量：把代表底物信息的SMILES字符串特征张量矩阵和代表蛋白质信息的氨基酸序列特征张量矩阵分别输入到两个相同的特征提取器网络中进行特征提取，获得SMILES字符串特征向量和氨基酸序列特征向量；使用一维卷积来投影输入化合物或蛋白质，将其张量X∈R^T×256进入特征图U∈R^T×C执行特征重新校准。

进一步，将提取到的SMILES字符串特征向量和氨基酸序列特征向量连接成单个向量，并将其输入到回归网络中来预测K_M值。

本发明还提供一种计算机可读存储介质，所述存储介质能够运行所述的酶-底物亲和力常数预测方法。

本发明还提供一种酶-底物亲和力常数预测装置，所述装置搭载所述计算机可读存储介质。

本发明与现有技术相比的有益效果：

1)本发明基于特征的药物-靶点相互作用预测模型使用药物和靶点的数字表示作为完全连接的神经网络(FCNN)的输入。药物特征向量通常要么是SMILES字符串表示，要么是专家精心制作的指纹，或者是用图神经网络(GNN)创建的指纹，而目标的那些通常是基于序列的表示。所以这种方法可以表示大多数的酶和底物并推广至基因组规模的预测。

2)本发明使用来自PubChem数据库的化合物SMILES字符串信息和来自UniProt数据库的蛋白质FASTA序列信息对模型进行预训练。使用这两个数据库中的数据信息可以保证数据的高质量性和规模性，在对ELECTRA模型进行预训练时可以使得模型学习到更多的高质量的数据，从而使模型在预测酶-底物亲和力时获得更高的准确性。

3)采用NLP技术构建SMILES字符串和蛋白质FASTA语料库。在预训练ELECTRA模型之前，需要构建适当的语料库。在处理复合SMILES字符串时，将每个原子和键符号看作是单词，并且为了保持不同来源的SMILES的一致性，使用Open Babel将语料库中的所有SMILES字符串转换为规范格式。同样的，在处理蛋白质FASTA序列时，将每个残基看作是单词。这样，ELECTRA编码提供了蛋白质序列和复合SMILES的上下文相关表示，可以表征各种序列或字符串中每个原子或氨基酸的多样性。

附图说明

图1为本发明的整体框架图；

图2为本发明的ELECTRA预训练的原理示意图；

图3为复合SMILES字符串和蛋白质序列嵌入原理示意图；

图4为CNN和FCNN模型架构图；

图5为本发明的模型预测结果图。

具体实施方式

下面通过实施例结合附图来对本发明的技术方案做进一步解释，但本发明的保护范围不受实施例任何形式上限制。

实施例1

一种融合了化合物和蛋白质序列上下文信息的预测酶-底物亲和力K_M的新方法，整体框架图如图1所示，所述方法的具体步骤如下所示：

1)构建蛋白质和化合物序列语料库用来训练模型。

需要提前构建针对特定任务的语料库训练ELECTRA模型，以获得输入序列的编码层。SMILES字符串是具有简单词汇(只有原子和化学键符号)和一些语法规则的语言结构。与自然语言处理类似，SMILES字符串类似于句子，其中每个原子和键符号都是一个单词。然后可以通过收集许多化合物来自然地组成语料库。例如，SMILES字符串“CC(＝)OC1＝C”可以列为由标记为由‘C’，‘(’，‘＝’，‘)’，‘0’，‘1’组合构成的句子。为了确保来自不同来源的所有SMILES字符串的一致性，我们使用Open Babel将语料库中的所有SMILES字符串转换为规范格式。与SMILES字符串类似，我们从蛋白质FASTA序列中提取单词并创建蛋白质序列语料库，把每个残基看成一个单词，我们利用UniProt数据库收集蛋白质信息。

2)提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型，构建张量矩阵。

利用两个独立的ELECTRA模型将SMILES字符串和氨基酸序列分别编码为固定维度的向量。ELECTRA预训练的原理示意图如图2所示，ELECTRA使用两个Transformer编码器作为基础结构：一个充当生成器网络，另一个充当鉴别器网络。生成器通常是一个小的掩码语言模型，它在令牌上产生输出分布。来自SMILES字符串的标记首先被屏蔽，一些被替换为具有固定概率的屏蔽符号[MASK]。然后，将[MASK]标记输入生成器，与鉴别器进行联合预训练。生成器网络首先从被屏蔽的标记中学习，然后用预测值填充缺失的标记，但预测值可能与原始值不同。从PubChem数据库中提取化合物的复合SMILES字符串，从UniProt数据库中提取蛋白质的FASTA序列，分别输入到两个Transformer编码器中，一个充当生成器网络，另一个充当鉴别器网络，在使用SMILES字符串进行预训练后，我们获得了一个ELECTRA-M模型作为编码器，可以将每个SMILES字符串编码为下游任务中的特征向量。类似地，获得一个用氨基酸序列预训练的ELECTRA-P模型，该模型也将每个氨基酸序列编码成一个特征向量。将氨基酸序列和SMILES字符串作为输入输入到整个框架中，因为SMILES字符串和氨基酸序列的长度不同，将它们截断为固定长度以进行有效表示。为SMILES选择固定长度100，为蛋白质序列选择1000作为数据集的基准。我们根据数据集的分布选择这些最大长度，以便最大长度覆盖数据集中至少80％的蛋白质和化合物。较长的序列被截断到这些长度，而较短的序列用零填充到固定长度。

3)将张量矩阵输入到卷积神经网络(CNN)进行特征提取，获得特征向量。从BRENDA数据库下载了K_M值以及生物体和底物名称、EC编号、酶的UniProt ID和PubMed ID。这产生了一个具有156387个条目的数据集。通过KEGG的同义词列表将底物名称映射到KEGG化合物ID。对于所有不能直接映射到KEGG化合物ID的底物名称，尝试首先通过PubChem中的同义词列表将它们映射到PubChem化合物ID，然后使用MBROLE的Web服务将这些ID映射到KEGG化合物ID。如果UniProt ID可用，通过UniProt映射服务下载所有数据点的氨基酸序列；否则，通过生物体名称和EC编号从BRENDA下载氨基酸序列。然后，删除了(I)所有重复的条目；(II)具有非野生型酶的所有条目；(III)没有该酶的UniProt ID的非细菌生物的条目；以及(IV)底物名称无法映射到KEGG化合物ID的条目。这导致了34526个数据点的过滤集合。对于其中的11737个，可以在KEGG反应数据库中找到EC编号-底物组合的条目。因为只有天然基质的K_M值有意义，所以只保留了这些数据点。对此数据集中的所有K_M值进行了log10转换。将包含11737个条目的最终数据集随机分为训练数据(80％)和测试数据(20％)。我们进一步将训练集分成5个子集，用于对机器学习模型的超参数优化进行5次交叉验证。使用测试数据对超参数优化后的最终模型进行了评估。

从Sabio-RK数据库下载K_M值以及生物体名称、底物名称、EC编号、酶的UniProt ID和PubMed ID。这产生了一个包含8375个条目的数据集。以与上述BRENDA数据集相同的方式处理此数据集。删除了所有具有PubMed ID的条目，该ID已经存在于BRENDA数据集中。这产生了一个包含274个条目的最终数据集，我们将其用作K_M预测的最终模型的附加测试集。

首先通过3种不同的分子指纹(ECFP、RDKit指纹、MACCS键)来表示每种底物。对于最终数据集中的每个底物，通过KEGG化合物ID从KEGG下载了一个MDL Molfile，其中包含其原子和键的2D投影。然后，使用来自RDKit的包Chem，以Molfile作为输入来计算2048维二进制RDKit指纹、166维二进制MACCS密钥和1024维二进制ECFP。

把经过预处理的SMILES字符串和氨基酸序列分别嵌入经过训练的ELECTRA-M和ELECTRA-P模型。复合SMILES字符串和蛋白质序列嵌入原理示意图如图3所示，对于单个化合物，来自其SMILES字符串的标记序列(代表原子或结构指示符)被输入经过训练的ELECTRA-M模型以产生复合编码。具体来说，每个token，也就是一个字符，被转换成一个长度为W_C的向量通过ELECTRA-M，然后是一系列的令牌被转换为一个长度为N_C的序列，最终连接成一个W_C×N_C的张量矩阵作为复合表示。以同样的方式，一个蛋白质残基标记被编码成一个长度为W_P由ELECTRA-P和长度为N_P的氨基酸序列连接成一个W_P×N_P张量矩阵。把得到的两个张量矩阵分别输入到两个相同的特征提取器网络CNN和FCNN中，CNN和FCNN模型框架如图4所示，其内部是由两个SE块和一个全局最大池化层构成，获得SMILES字符串特征向量和氨基酸序列特征向量。使用一维卷积来投影输入化合物或蛋白质张量X∈R^T×256进入特征图U∈R^T×C执行特征重新校准；这个一维卷积在特征方向，因此，首先对这些特征图U进行压缩，并通过特征方向上的全局平均池化来生成通道或特征描述符；交互信息被累积在这个描述符中；压缩操作之后是具有完全连接层和ReLU激活的激励操作，该操作通过简单的自选通机制从特征中产生调制权重；SE块的输出是由这些调制权重缩放的特征图U的形式；堆叠的SE块进一步扩大了特征之间的这种交互信息；对用于超参数优化的4种底物表示(ECFP、RDKit指纹、MACCS密钥和特定于任务的指纹)中的每一种的训练集进行了5次交叉验证。FCNN由两个隐含层组成，并在隐含层中使用定义为RELU(X)＝max(x，0)的修正线性单元(RELU)作为激活函数来引入非线性。我们在每个隐藏层之后应用了批量归一化。此外，我们在每一层都使用了L2正则化，以防止过拟合。

4)将提取到的两个特征向量连接成单个向量，并将该向量输入到回归网络中以进行K_M预测。

将步骤3)提取到的SMILES字符串特征向量和氨基酸序列特征向量连接成单个向量，并将其输入到回归网络中来预测K_M值。

实验结果如图5所示，把从BRENDA和Sabio-RK数据库中提取并预处理的数据嵌入本发明的模型中进行K_M的预测，横坐标是真实结果，纵坐标是预测结果。大多数的预测结果和真实结果是符合或者接近的，少数误差较大的结果也在可接受的范围之内，说明本发明的模型提高了预测的准确性。

Claims

1.一种酶-底物亲和力常数K_M预测的方法，其特征在于，所述方法包括如下步骤：1)构建蛋白质和化合物序列语料库用来训练模型，2)提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型，构建张量矩阵，3)将张量矩阵输入到卷积神经网络进行特征提取，获得特征向量；4)将提取到的两个特征向量连接成单个向量，并将该向量输入到回归网络中以进行K_M预测。

2.根据权利要求1所述的一种酶-底物亲和力常数K_M预测的方法，其特征在于，所述的构建蛋白质和化合物序列语料库用来训练模型：构建针对特定任务的语料库训练ELECTRA模型，以获得输入序列的编码层；SMILES字符串中每个原子和化学键都是一个单词，通过收集许多化合物来自然地组成语料库，使用Open Babel将语料库中的所有SMILES字符串转换为规范格式；与SMILES字符串类似，从蛋白质FASTA序列中提取单词并创建蛋白质序列语料库，把每个残基看成一个单词，利用UniProt数据库收集蛋白质信息；

3.根据权利要求1所述的一种酶-底物亲和力常数K_M预测的方法，其特征在于，所述的提取表征底物信息的复合SMILES字符串和表征酶信息的氨基酸序列嵌入模型，构建张量矩阵：使用经过训练的ELECTRA模型，从BRENDA数据库中提取代表底物信息的SMILES字符串和代表酶信息的氨基酸序列，分别嵌入到张量中，输出张量矩阵。

4.根据权利要求3所述的一种酶-底物亲和力常数K_M预测的方法，其特征在于，对于单个化合物，来自其SMILES字符串的标记序列被输入经过训练的ELECTRA-M模型以产生复合编码。

5.根据权利要求3所述的一种酶-底物亲和力常数K_M预测的方法，其特征在于，所述每个字符被转换成一个长度为W_C的向量通过ELECTRA-M，然后是一系列的令牌被转换为一个长度为N_C的序列，最终连接成一个W_C×N_C的张量矩阵作为复合表示；以同样的方式，一个蛋白质残基标记被编码成一个长度为W_P由ELECTRA-P和长度为N_P的氨基酸序列连接成一个W_P×N_P张量矩阵。

6.根据权利要求3所述的一种酶-底物亲和力常数K_M预测的方法，其特征在于，将张量矩阵输入到卷积神经网络进行特征提取，获得特征向量：把代表底物信息的SMILES字符串特征张量矩阵和代表蛋白质信息的氨基酸序列特征张量矩阵分别输入到两个相同的特征提取器网络中进行特征提取，获得SMILES字符串特征向量和氨基酸序列特征向量；使用一维卷积来投影输入化合物或蛋白质，将其张量X∈R^T×256进入特征图U∈R^T×C执行特征重新校准。

7.根据权利要求1所述的一种酶-底物亲和力常数K_M预测的方法，其特征在于，将提取到的SMILES字符串特征向量和氨基酸序列特征向量连接成单个向量，并将其输入到回归网络中来预测K_M值。

8.一种计算机可读存储介质，其特征在于，所述存储介质有计算机程序，所述计算机程序能够运行权利要求1所述的酶-底物亲和力常数预测方法。

9.一种酶-底物亲和力常数预测装置，其特征在于，所述装置搭载权利要求8所述计算机可读存储介质。