CN117711505A

CN117711505A - 一种酶动力学参数预测方法、装置、设备及介质

Info

Publication number: CN117711505A
Application number: CN202311776662.3A
Authority: CN
Inventors: 董一英; 张慧锋; 李加忠; 罗贤涛; 于铁妹; 潘俊锋; 刘建
Original assignee: Shenzhen Readline Biotechnology Co ltd
Current assignee: Shenzhen Readline Biotechnology Co ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-15

Abstract

本申请公开了一种酶动力学参数预测方法、装置、设备及介质，涉及生物酶技术领域，包括：确定待预测生物酶和与基于序列表示的待反应底物；将待预测生物酶和和待反应底物输入至预设酶动力学参数预测模型，以便预设酶动力学参数预测模型中的信息提取层分别提取待预测生物酶的酶序列特征信息和待反应底物的底物特征信息；通过预设酶动力学参数预测模型中的信息提取层将酶序列特征信息及底物特征信息发送至预设酶动力学参数预测模型中的信息处理层，获取待预测特征信息，基于待预测特征信息预测待预测生物酶的酶动力学参数。通过提取待反应底物的基于序列表示的底物特征信息，减少了输入错误造成的影响，从而能够更准确地预测酶动力学参数。

Description

一种酶动力学参数预测方法、装置、设备及介质

技术领域

本发明涉及生物酶技术领域，特别涉及一种酶动力学参数预测方法、装置、设备及介质。

背景技术

在生物工程领域，酶动力学参数是用来描述酶活性、底物与产物之间的相互作用以及反应速率等方面的重要参数，是衡量酶催化效率的关键方法，也是理解细胞代谢、蛋白质组分配和生理多样性的钥匙，它们对于酶的设计、优化及应用至关重要。目前在预测酶动力学参数时，主流技术常使用基于自监督的语言模型提取酶序列特征，使用基于自监督的语言模型提取分子结构的简化分子线性输入SMILES(Simplified molecular input lineentry system)，最后机器学习算法预测酶动力学参数。但是现有技术中，在底物分子提取过程中，由于提取分子结构的简化分子线性输入SMILES相同的分子结构可能具有不同的SMILES表示形式，这取决于编写SMILES的方式。这种多样性可能导致在处理大规模化学数据时产生混淆和错误。另外复杂的结构和立体异构体可能会有较长和复杂的SMILES表示形式，这可能降低其可读性和可解释性。某些特定类型的化学结构可能无法准确表示。此外SMILES表示法只是一种字符串表示方法，不包含分子的更多化学信息，如物理属性、反应性质和立体构型等。这可能限制了基于SMILES表示的模型对分子特征的准确学习和理解。最后，由于SMILES表示可能无法充分捕捉分子的关键特征，基于SMILES的特征提取模型会面临学习受限的情况。这限制了模型在分子相关任务中，如酶动力学参数预测，的预测准确性和应用能力。

综上，如何实现在特征提取过程中，能够提取出描述分子结构和化学性质的底物特征信息，进而更好地利用该底物特征信息以及酶特征信息预测酶动力学参数，提高预测效率是本领域有待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种酶动力学参数预测方法、装置、设备及介质，能够实现在特征提取过程中，能够提取出描述分子结构和化学性质的底物特征信息，进而更好地利用该底物特征信息以及酶特征信息预测酶动力学参数，提高预测效率。其具体方案如下：

第一方面，本申请公开了一种酶动力学参数预测方法，包括：

确定待预测生物酶和与基于序列表示的待反应底物；

将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息；

通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，然后基于所述待预测特征信息预测所述待预测生物酶的酶动力学参数。

可选的，所述将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息，包括：

将所述待预测生物酶输入至预设蛋白质表示层，以便所述预设蛋白质表示层提取所述待预测生物酶的酶序列特征信息；

将所述待反应底物输入至基于SELFIES语言的预设分子表示层，以便所述预设分子表示层提取所述待反应底物的分子结构特征信息和分子化学性质，并按照数值向量的表示方式表示所述分子结构特征信息和所述分子化学性质，以得到所述待反应底物的底物特征信息。

可选的，所述通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，包括：

通过所述预设酶动力学参数预测模型中的所述信息处理层按照预设合并方式对所述酶序列特征信息以及所述底物特征信息进行合并处理，以得到待预测特征信息。

可选的，所述将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型之前，还包括：

将酶动力学参数满足预设参数值范围条件的生物酶、对应的底物分子以及酶动力学参数作为训练样本；

利用所述训练样本对初始酶动力学参数预测模型进行模型训练，以获取预设酶动力学参数预测模型。

可选的，所述利用所述训练样本对初始酶动力学参数预测模型进行模型训练，以获取预设酶动力学参数预测模型，包括：

利用所述训练样本以及验证样本并采用预设梯度提升算法对所述初始酶动力学参数预测模型进行模型训练并搜索模型参数，以得到满足预设模型训练条件的超参数，并停止模型训练，以得到预设酶动力学参数预测模型。

可选的，所述利用所述训练样本以及验证样本并采用预设梯度提升算法对所述初始酶动力学参数预测模型进行模型训练并搜索模型参数，以得到满足预设模型训练条件的超参数，包括：

定义超参数空间和用于表征超参数组合性能的评估函数；

将利用每一所述训练样本和验证样本对所述初始酶动力学参数预测模在进行模型训练时产生的模型参数存储至所述超参数空间，并通过使用预设最小值库函数运行目标搜索算法从所述超参数空间中找到所述评估函数的最优超参数组合，以得到超参数。

可选的，所述酶动力学参数预测方法，还包括：

将测试集输入至所述预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型输出相应的预测结果；

计算测试集中的测试数据结果和所述预测结果之间的均方误差指标、决定系数指标以及皮尔逊相关系数指标；

其中，所述均方误差指标，用于衡量预测值与实际测试值之间的平均误差的指标；所述决定系数指标，用于衡量所述预测值与所述实际测试值之间的线性相关性的指标；所述皮尔逊相关系数指标，用于衡量所述预测值与所述实际测试值之间的相关性强度的指标；

根据所述均方误差指标、所述决定系数指标和所述皮尔逊相关系数指标，对所述预设酶动力学参数预测模型的性能进行评估，以得到所述预设酶动力学参数预测模型的性能评估结果。

第二方面，本申请公开了一种酶动力学参数预测装置，包括：

数据确定模块，用于确定待预测生物酶和与基于序列表示的待反应底物；

信息提取模块，用于将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息；

参数预测模块，用于通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，然后基于所述待预测特征信息预测所述待预测生物酶的酶动力学参数。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的酶动力学参数预测方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的酶动力学参数预测方法的步骤。

由此可见，本申请公开了一种酶动力学参数预测方法，包括：确定待预测生物酶和与基于序列表示的待反应底物；将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息；通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，然后基于所述待预测特征信息预测所述待预测生物酶的酶动力学参数。可见，通过提取待反应底物的基于序列表示的底物特征信息，其与基于简化分子线性输入SMILES相比，序列表示能力更强，可以更准确地表示复杂的分子结构和化学性质，允许使用自引用和嵌套结构，从而提高了表示的灵活性和表达能力；可拓展性更强，基于序列表示可以比较容易地扩展到描述更复杂的分子结构和化学性质，使得其具有更广泛的应用潜力；错误容忍性更强，相对于简化分子线性输入SMILES，本发明在一定程度上能够容忍输入中的错误，并且能够更好地处理特定类型的化学结构，减少了输入错误造成的影响，从而能够更准确地预测酶动力学参数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种酶动力学参数预测方法流程图；

图2为本申请公开的一种通过预测模型进行酶动力学参数预测架构图；

图3为本申请公开的一种具体的酶动力学参数预测方法流程图；

图4为本申请公开的一种酶动力学参数预测装置结构示意图；

图5为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在生物工程领域，酶动力学参数是用来描述酶活性、底物与产物之间的相互作用以及反应速率等方面的重要参数，是衡量酶催化效率的关键方法，也是理解细胞代谢、蛋白质组分配和生理多样性的钥匙，它们对于酶的设计、优化及应用至关重要。目前在预测酶动力学参数时，主流技术常使用基于自监督的语言模型提取酶序列特征，使用基于自监督的语言模型提取分子结构的简化分子线性输入SMILES，最后机器学习算法预测酶动力学参数。但是现有技术中，在底物分子提取过程中，由于提取分子结构的简化分子线性输入SMILES相同的分子结构可能具有不同的SMILES表示形式，这取决于编写SMILES的方式。这种多样性可能导致在处理大规模化学数据时产生混淆和错误。另外复杂的结构和立体异构体可能会有较长和复杂的SMILES表示形式，这可能降低其可读性和可解释性。某些特定类型的化学结构可能无法准确表示。此外SMILES表示法只是一种字符串表示方法，不包含分子的更多化学信息，如物理属性、反应性质和立体构型等。这可能限制了基于SMILES表示的模型对分子特征的准确学习和理解。最后，由于SMILES表示可能无法充分捕捉分子的关键特征，基于SMILES的特征提取模型会面临学习受限的情况。这限制了模型在分子相关任务中，如酶动力学参数预测，的预测准确性和应用能力。

为此，本发明提供了一种酶动力学参数预测方案，能够实现在特征提取过程中，提取出描述分子结构和化学性质的底物特征信息，进而更好地利用该底物特征信息以及酶特征信息预测酶动力学参数，提高预测效率。

参照图1所示，本发明实施例公开了一种酶动力学参数预测方法，包括：

步骤S11：确定待预测生物酶和与基于序列表示的待反应底物。

本实施例中，从酶库中确定出本次待预测其酶动力学参数的生物酶信息，以得到待预测生物酶，并找到与待预测生物酶对应的基于SELFIE表示的待反应底物，以便作为预测酶动力学参数的输入值。

步骤S12：将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息。

本实施例中，将所述待预测生物酶输入至预设蛋白质表示层，以便所述预设蛋白质表示层提取所述待预测生物酶的酶序列特征信息；将所述待反应底物输入至基于SELFIES语言的预设分子表示层，以便所述预设分子表示层提取所述待反应底物的分子结构特征信息和分子化学性质，并按照数值向量的表示方式表示所述分子结构特征信息和所述分子化学性质，以得到所述待反应底物的底物特征信息。可以理解的是，将待预测生物酶的蛋白质序列输入到预设蛋白质表示层，其中，所述预设蛋白质表示层可以为蛋白质表征模型Transformer，然后Transformer模型会提取出1280维的酶序列特征信息。此外，蛋白质表征模型还可以包括但不限于：BERT(BERT，Bidirectional Encoder Representationsfrom Transformers)等模型。将待反应底物输入至基于SELFIES训练的分子表示模型，也即输入至基于SELFIES语言的预设分子表示层RoBERTa(Robustly Optimized BERTPretraining Approach)，以便基于SELFIES训练的分子表示模型能够提取待反应底物的待反应底物的分子结构特征信息和分子化学性质，并且以数值向量形式进行表示，也即提取出768维底物特征信息。相较于SMILES的基于图形的表示方法，将分子表示为一个二维图形，其中每个原子和原子团都用一个符号表示，SELFIES基于字符串的表示方法，能够将分子表示为一系列字符，每个字符代表一个原子或原子团，可以准确地表示分子的结构和化学性质，并且可以很容易地进行计算和分析。这样一来，通过SELFIES训练的分子表示模型能够提取出更能准确反映待反应底物的结构特征及化学性质，也为酶动力学参数结果的准确预测提供了准备。

步骤S13：通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，然后基于所述待预测特征信息预测所述待预测生物酶的酶动力学参数。

本实施例中，通过所述预设酶动力学参数预测模型中的所述信息处理层按照预设合并方式对所述酶序列特征信息以及所述底物特征信息进行合并处理，以得到待预测特征信息。可以理解的是，对于提取的酶序列特征信息和底物特征信息，对其进行合并处理，具体的，按照预设合并方式对二者特征信息进行特征合并，其中，所述预设合并方式具体可以包括加法合并、拼接合并、乘法合并和特征选择合并，加法合并，即将酶序列特征信息和底物特征信息的特征向量按元素相加，得到一个新的特征向量，也即待预测特征信息。这种方法简单直接，但可能会导致特征信息的丢失或重复。拼接合并，即将酶序列特征信息和底物特征信息的特征向量按行或列拼接在一起，得到一个新的特征矩阵，也即待预测特征信息。这种方法可以保留更多的特征信息，但可能会增加特征的维度。乘法合并：即将酶序列特征信息和底物特征信息的特征向量进行矩阵乘法，得到一个新的特征向量，也即待预测特征信息。这种方法可以提取特征之间的交互信息，但可能会导致特征信息的丢失或重复。特征选择合并：选择酶序列特征信息和底物特征信息中两个特征向量中最重要的特征，组成一个新的特征向量，也即待预测特征信息。这种方法可以减少特征维度，提高模型的效率，因此，在按照预设合并方式合并后，得到2048维的待预测特征信息。当获取到待预测特征信息后，通过特征信息预测层对其进行酶动力学参数的结果预测，通过分析酶序列特征信息以及待反应底物的详细且准确的分子结构、化学键等信息得到待预测生物酶在待反应底物进行催化反应的过程中的酶活动、待反应底物和反应后产物的相互作用和酶促反应速率等重要参数，也即酶动力学参数。其中，酶动力学参数具体的可以包括但不限于：酶的周转数Kcat、酶的米氏常数K_M、酶的周转数与酶的米氏常数的比值Kcat/K_M等，比如，米氏常数K_M表示在酶促反应达到最大反应速度一半时的底物浓度。米氏常数值越小，酶对底物的亲和力就越强，通过研究米氏常数可以确定酶对底物的亲和性和特异性，有助于酶的筛选和改造。

参照图2所示，在特征提取阶段中，分别将待预测生物酶的蛋白质序列输入到蛋白质表征模型Transformer中，在本发明中，Transformer模型会提取出1280维的酶序列特征信息，同时将SELFIES表示的待反应底物输入到分子表征模型RoBERTa中，分子表征模型RoBERTa模型会提取出768维底物特征信息，随后将二者合并得到2048维待预测特征信息。然后就进入第二部分的模型预测阶段，将2048维待预测特征信息输入到基于预设梯度提升算法的模型中，使用预先训练好的模型进行酶动力学参数预测，获取酶动力学参数。所述预设梯度提升算法具体可以包括但不限于：XGBoost(Extreme Gradient Boosting)，Catboost(Categorical Boosting)，GBDT(Gradient Boosting Decision Tree，梯度提升决策树)，LightGBM(Light Gradient Boosting Machine)等。

参照图3所示，本发明实施例公开了一种具体的酶动力学参数预测方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

步骤S21：将酶动力学参数满足预设参数值范围条件的生物酶、对应的底物分子以及酶动力学参数作为训练样本；利用所述训练样本对初始酶动力学参数预测模型进行模型训练，以获取预设酶动力学参数预测模型。

本实施例中，从存储了生物酶-底物SELFIES-酶动力学参数的数据集中筛选出满足预设参数阈值范围条件的生物酶-底物SELFIES-酶动力学参数作为训练样本，以得到训练样本集。然后对训练样本集进行数据预处理，具体的预处理操作包括：去除训练样本集中的无效数据，其中，无效数据包括：缺失值、异常值等，随后经过数据预处理操作后的训练样本集中的生物酶及底物分别输入到初始酶动力学参数预测模型中的蛋白质表示层及分子表示层中提取二者特征并以预设方式进行合并，得到训练样本特征信息，并同时对训练样本中的酶动力学参数的真实值进行对数运算得到目标真实值，以得到与训练样本特征信息对应的目标真实值，对数运算目的是将酶动力学参数进行归一化处理，使数据更加稳定和可比较。在机器学习中，数据的归一化可以帮助模型更好地学习数据的特征和模式，同时也可以避免数据的尺度对模型的影响。具体来说，因为酶动力学参数的数值范围可能非常大，而且不同的酶可能具有不同的数值范围，因此对数运算可以将数据的尺度压缩到一个较小的范围内，同时保持数据的相对大小关系。通过对酶动力学参数的真实值进行对数运算，可以将数据的尺度压缩到一个较小的范围内，使得不同酶的动力学参数可以在同一尺度下进行比较。这有助于模型更好地学习酶动力学参数的特征和模式，从而提高模型的预测能力和泛化能力。然后对训练样本特征信息-目标真实值所在的训练样本集采用随机数打乱方式进行随机划分，以分别得到训练集、验证集和测试集。然后利用训练集对初始酶动力学参数预测模型中的特征信息预测层进行训练，以获取预设酶动力学参数预测模型。

本实施例中，利用所述训练样本以及验证样本并采用预设梯度提升算法对所述初始酶动力学参数预测模型进行模型训练并搜索模型参数，以得到满足预设模型训练条件的超参数，并停止模型训练，以得到预设酶动力学参数预测模型。可以理解的是，在使用了交叉验证方式将数据集划分为训练集、验证集以及测试集后，将训练集和验证集输入至基于预设梯度提升算法的初始酶动力学参数预测模型中搜索最佳超参数进行训练，具体的，定义超参数空间和用于表征超参数组合性能的评估函数；将利用每一所述训练样本和验证样本对所述初始酶动力学参数预测模在进行模型训练时产生的模型参数存储至所述超参数空间，并通过使用预设最小值库函数运行目标搜索算法从所述超参数空间中找到所述评估函数的最优超参数组合，以得到超参数。这样一来，通过Hyperopt技术实现模型迭代训练，以获取最优的超参数组合，Hyperopt是一个Python库，用于在机器学习中进行超参数优化。它提供了一个灵活的框架，可以使用不同的搜索算法来找到最佳的超参数组合，以提高模型的性能。Hyperopt的核心是一个基于随机搜索的超参数优化算法，它通过在超参数空间中随机采样并评估每个样本的性能来找到最佳的超参数组合。Hyperopt还提供了一些高级功能，例如自动模型选择、多目标优化和分布式超参数优化。使用Hyperopt进行超参数优化的步骤如下：

定义一个超参数空间：使用Hyperopt的space模块来定义超参数空间。

定义一个评估函数：评估函数用于衡量超参数组合的性能。

选择一个搜索算法：使用Hyperopt的tpe、random或grid等模块来选择一个目标搜索算法。

运行搜索：使用Hyperopt的fmin函数来运行搜索算法，找到最佳的超参数组合。

应用最佳超参数：将找到的最佳超参数应用到初始酶动力学参数预测模型中，获取预设酶动力学参数预测模型。

需要注意的是，超参数优化是一个迭代的过程，需要花费一定的时间和计算资源。因此，在使用Hyperopt进行超参数优化时，需要根据实际情况选择合适的搜索算法和超参数空间，并进行适当的调整和优化，以获得更好的结果。

步骤S22：将测试集输入至所述预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型输出相应的预测结果；计算测试集中的测试数据结果和所述预测结果之间的均方误差指标、决定系数指标以及皮尔逊相关系数指标；根据所述均方误差指标、所述决定系数指标和所述皮尔逊相关系数指标，对所述预设酶动力学参数预测模型的性能进行评估，以得到所述预设酶动力学参数预测模型的性能评估结果。

本实施例中，使用测试集评估预设酶动力学参数预测模型性能，获取预设酶动力学参数预测模型输出的对应预测结果，然后选取了均方误差MSE(Mean Squared Error)或均方根误差RMSE(Root Mean Square Error)、R²指标(R-squared，决定系数)和皮尔逊相关系数(Pearson Correlation Coefficient)三种评估指标。其中，所述均方误差指标，用于衡量预测值与实际测试值之间的平均误差的指标；所述决定系数指标，用于衡量所述预测值与所述实际测试值之间的线性相关性的指标；所述皮尔逊相关系数指标，用于衡量所述预测值与所述实际测试值之间的相关性强度的指标。其中，均方误差MSE指标，计算方式如下所示：

其中，N表示测试集中样本点数量，y_i表示测试集中第i个样本的目标真实值，表示测试集中第i个样本的预测值，该指标可以衡量预测值与目标真实值之间差异，MSE的值越小，表示预设酶动力学参数预测模型的预测结果与目标真实值之间差异越小，预设酶动力学参数预测模型拟合越好。

其中，均方根误差为均方误差的算数平方根，计算方式如下所示：

RMSE的值越小，表示预设酶动力学参数预测模型的预测结果越接近实际值，预设酶动力学参数预测模型的性能越好。

R²指标，计算方式如下所示：

其中，表示所有目标真实值的均值，该指标用于衡量回归模型的拟合程度，表示预设酶动力学参数预测模型解释了因变量(目标变量)变异性的比例，R2的值越接近1，表示预设酶动力学参数预测模型对数据的拟合越好，能够解释更多的变异性。

皮尔逊相关系数指标Pearson，计算方式如下所示：

其中，x_i和y_i分别表示两个变量的取值，x和y分别表示两个变量的均值，在本实施例中分别表示目标真实值变量和预测值变量。该指标可用于评估预设酶动力学参数预测模型的预测结果与实际观测值之间的相关性，以衡量预设酶动力学参数预测模型的拟合程度，较高的相关系数通常表示模型的预测与实际观测值之间的线性关系更强。皮尔逊相关系数的取值范围在-1到1之间。

通过上述RMSE、R²、Pearson三种指标能够发现，当数据集为DLTKcat数据时，本申请的预设酶动力学参数预测模型对酶动力学参数Kcat进行预测结果进行评估后，酶动力学参数Kcat在RMSE指标和R²指标上都有显著提升，具体的，根据实验数据可知，使用PreKcat、Revised PreKcat、EF-PreKcat、TurNup、DLTKcat、ESXKcat(SMILES)、ESXKcat(SELFIES)等Kcat预测方法中，ESXKcat(SELFIES)的RMSE指标和R²指标表现最好，在相关性指标Pearson系数上更是达到0.941，由此可证本方法相较主流方法准确度提升巨大。其中，各预测方法对应的评估数据如下：PreKcat的Pearson指标、RMSE指标、R²指标为：0，0，0.118；其中，Revised PreKcat的Pearson指标、RMSE指标、R²指标为：0，0，0.358；其中，EF-PreKcat的Pearson指标、RMSE指标、R²指标为：0，0，0.378；其中，TurNup的Pearson指标、RMSE指标、R²指标为：0，0，0.44；其中，DLTKcat的Pearson指标、RMSE指标、R²指标为：0，0.88，0.66；其中，ESXKcat(SMILES)的Pearson指标、RMSE指标、R²指标为：0.933，0.490，0.862；其中，ESXKcat(SELFIES)的Pearson指标、RMSE指标、R²指标为：0.941，0.470，0.880。

可见，使用了SELFIES表示底物后，预设酶动力学参数预测模型预测结果与真实值的相关性增强，说明SELFIES表示法在分子描述方面具有更强的表征能力，同时说明SELFIES可以更有效地捕捉分子之间的结构相似性和属性关系，从而提高了预设酶动力学参数预测模型的预测性能。测试值与目标真实值的差异减小，表明SELFIES有助于减少预设酶动力学参数预测模型在处理分子结构时的信息丢失，意味着SELFIES能更准确地保留底物地关键结构特征。

通过MSE、R²、Pearson三种指标能够发现，当数据集为公开数据库Bre nda中的数据时，根据实验数据可知，本发明的预设酶动力学参数预测模型对酶动力学参数K_M进行预测结果进行评估后，ESXK_M相较其他预测方法在Pe arson相关系数、MSE指标以及R²指标上提升显著，Pearson系数达到0.875，MSE达到0.3，R²达到0.764，优于当前所有模型。各预测方法对应的评估数据如下：ProSmith、ESXK_M(SMILES)、ESXK_M(SELFIES)：ProSmith的Pears on指标、MSE指标、R²指标为：0.752，0.604，0.563；ESXK_M(SMILES)的Pearson指标、MSE指标、R²指标为：0.798，0.545，0.592；ESXK_M(SELFIES)的Pearson指标、MSE指标、R²指标为：0.875，0.300，0.764。

通过MSE、R²、Pearson三种指标能够发现，当数据集为包含DLKcat数据集的数据集时，根据实验数据可知，ESXKcat在Pearson上达到0.949，MSE指标上达到了0.177，而在R²指标上相较主流模型提升了0.532，另外与基于SMILES表示的模型相比，基于SELFIES表示的预设酶动力学参数预测模型在三种指标上也均有提升，各预测方法对应的评估数据如下：DLKcat、ESXKcat(SMILES)、ESXKcat(SELFIES)：DLKcat的Pearson指标、MSE指标、R²指标为：0，0.348，0.3；ESXKcat(SMILES)的Pearson指标、MSE指标、R²指标为：0.931，0.240，0.864；ESXKcat(SELFIES)的Pearson指标、MSE指标、R²指标为：0.949，0.177，0.900。

此外，由于在模型训练过程中使用的训练集中存在突变型生物酶的训练数据，因此模型有一定的判别突变型酶和野生型酶的能力。

步骤S23：确定待预测生物酶和与基于序列表示的待反应底物。

步骤S24：将所述待预测生物酶和和所述待反应底物输入至所述预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息。

步骤S25：通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，然后基于所述待预测特征信息预测所述待预测生物酶的酶动力学参数。

其中，步骤S23、S24、S25中更加详细的处理过程请参照前述公开的实施例内容，在此不再进行赘述。

由此可见，通过使用SELFIES表示分子，提高了数据处理效率、减少了表示误差，最终加速了酶筛选过程。另外加入了突变型酶数据进行训练还可预测突变型酶的酶动力学参数，扩大酶动力学参数预测的种类范围。

参照图4所示，本发明还相应公开了一种酶动力学参数预测装置，包括：

数据确定模块11，用于确定待预测生物酶和与基于序列表示的待反应底物；

信息提取模块12，用于将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息；

参数预测模块13，用于通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，然后基于所述待预测特征信息预测所述待预测生物酶的酶动力学参数。

由此可见，本申请公开了确定待预测生物酶和与基于序列表示的待反应底物；将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息；通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，然后基于所述待预测特征信息预测所述待预测生物酶的酶动力学参数。可见，通过提取待反应底物的基于序列表示的底物特征信息，其与基于简化分子线性输入SMILES相比，序列表示能力更强，可以更准确地表示复杂的分子结构和化学性质，允许使用自引用和嵌套结构，从而提高了表示的灵活性和表达能力；可拓展性更强，基于序列表示可以比较容易地扩展到描述更复杂的分子结构和化学性质，使得其具有更广泛的应用潜力；错误容忍性更强，相对于简化分子线性输入SMILES，本发明在一定程度上能够容忍输入中的错误，并且能够更好地处理特定类型的化学结构，减少了输入错误造成的影响，从而能够更准确地预测酶动力学参数。

进一步的，本申请实施例还公开了一种电子设备，图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的酶动力学参数预测方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的酶动力学参数预测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的酶动力学参数预测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器RAM(Random Access Memory)、内存、只读存储器ROM(Read Only Memory)、电可编程EPROM(Electrically Programmable Read Only Memory)、电可擦除可编程EEPROM(ElectricErasable Programmable Read Only Memory)、寄存器、硬盘、可移动磁盘、CD-ROM(CompactDisc-Read Only Memory，紧凑型光盘只读储存器)、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种酶动力学参数预测方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种酶动力学参数预测方法，其特征在于，包括：

确定待预测生物酶和与基于序列表示的待反应底物；

2.根据权利要求1所述的酶动力学参数预测方法，其特征在于，所述将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型，以便所述预设酶动力学参数预测模型中的信息提取层分别提取所述待预测生物酶的酶序列特征信息和所述待反应底物的底物特征信息，包括：

3.根据权利要求1所述的酶动力学参数预测方法，其特征在于，所述通过所述预设酶动力学参数预测模型中的所述信息提取层将所述酶序列特征信息以及所述底物特征信息发送至所述预设酶动力学参数预测模型中的信息处理层，以获取待预测特征信息，包括：

4.根据权利要求1所述的酶动力学参数预测方法，其特征在于，所述将所述待预测生物酶和和所述待反应底物输入至预设酶动力学参数预测模型之前，还包括：

5.根据权利要求4所述的酶动力学参数预测方法，其特征在于，所述利用所述训练样本对初始酶动力学参数预测模型进行模型训练，以获取预设酶动力学参数预测模型，包括：

6.根据权利要求5所述的酶动力学参数预测方法，其特征在于，所述利用所述训练样本以及验证样本并采用预设梯度提升算法对所述初始酶动力学参数预测模型进行模型训练并搜索模型参数，以得到满足预设模型训练条件的超参数，包括：

定义超参数空间和用于表征超参数组合性能的评估函数；

7.根据权利要求1至6任一项所述的酶动力学参数预测方法，其特征在于，还包括：

8.一种酶动力学参数预测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的酶动力学参数预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的酶动力学参数预测方法的步骤。