CN116913393A

CN116913393A - 一种基于强化学习的蛋白质进化方法及装置

Info

Publication number: CN116913393A
Application number: CN202311172259.XA
Authority: CN
Inventors: 张强; 陈华钧
Original assignee: ZJU Hangzhou Global Scientific and Technological Innovation Center
Current assignee: ZJU Hangzhou Global Scientific and Technological Innovation Center
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-10-20
Anticipated expiration: 2043-09-12
Also published as: CN116913393B

Abstract

本说明书实施例提供一种基于强化学习的蛋白质进化方法，方法包括：获取各样本蛋白质的特征信息，根据各样本蛋白质的特征信息构建蛋白质变异生成模型和评估模型；由蛋白质变异生成模型在初始蛋白质基础上得到一组变异蛋白质；每得到一组变异蛋白质，使用评估模型评估最新得到的该组变异蛋白质中各变异蛋白质的适应度，并判断适应度是否满足预设条件；若适应度不满足预设条件，则根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习，并由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质；若适应度满足预设条件，则从最新得到的该组变异蛋白质中得到目标进化蛋白质。

Description

一种基于强化学习的蛋白质进化方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于强化学习的蛋白质进化方法及装置。

背景技术

定向进化（Directed Evolution）是一种生物技术，用于通过模拟自然选择和遗传机制来改进和优化生物分子的性质，比如酶的活性和特异性。这种技术在2000年代初开始获得广泛的关注，并在2018年赢得了诺贝尔化学奖。

然而，由于生物分子的复杂性，传统的定向进化方法通常需要进行大量的实验迭代，这在时间和成本上都是相当昂贵的。特别的，在进行蛋白质定向进化过程中，由于蛋白设计空间极大(例如一个100氨基酸的蛋白有20^100种可能的变体),目前的蛋白工程方法很难有效地对这么大的设计空间进行采样和搜索。故现有的蛋白工程方法，如定向进化主要依赖随机突变和筛选,很难跳出局部最优解的局限,无法进行有效的全局搜索。

有鉴于此，需要更有效和更高效的蛋白质进化方案。

发明内容

本说明书实施例提供一种基于强化学习的蛋白质进化方法、装置及装置，用以解决如何更有效和更高效地进行蛋白质定向进化的技术问题。

为解决上述技术问题，本说明书实施例提供如下技术方案：

本说明书实施例提供一种基于强化学习的蛋白质进化方法，所述方法包括：

获取各样本蛋白质的特征信息，根据各样本蛋白质的特征信息构建蛋白质变异生成模型和评估模型；

由所述蛋白质变异生成模型在初始蛋白质基础上得到一组变异蛋白质；

每得到一组变异蛋白质，使用所述评估模型评估最新得到的该组变异蛋白质中各变异蛋白质的适应度，并判断所述适应度是否满足预设条件；

若所述适应度不满足预设条件，则根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习，并由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质；

若所述适应度满足预设条件，则从最新得到的该组变异蛋白质中得到目标进化蛋白质。

本说明书实施例提供一种基于强化学习的蛋白质进化装置，所述装置包括：

模型构建模块，用于获取各样本蛋白质的特征信息，根据各样本蛋白质的特征信息构建蛋白质变异生成模型和评估模型；

变异生成模块，用于由所述蛋白质变异生成模型在初始蛋白质基础上得到一组变异蛋白质；

学习进化模块，用于每得到一组变异蛋白质，使用所述评估模型评估最新得到的该组变异蛋白质中各变异蛋白质的适应度，并判断所述适应度是否满足预设条件；

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

每通过所构建的蛋白质变异生成模型生成一组变异蛋白质，就对最新得到的变异蛋白质组进行评估，根据评估得到的适应度值判断变异蛋白质是否可作为目标进化蛋白质。若最新得到的变异蛋白质尚不能作为目标进化蛋白质，则根据最新得到的变异蛋白质对蛋白质变异生成模型进行强化学习，用强化学习后的变异蛋白质模型继续生成变异蛋白质。这样一来，可以不断对蛋白质变异生成模型进行优化，以及不断用已产生的变异蛋白质指导后续蛋白质的生成，直至得到可以作为目标进化蛋白质的变异蛋白质。

通过使用强化学习的方法，不断优化蛋白质变异生成模型和变异蛋白质，可以自动实现蛋白质的定向进化，提高蛋白质定向进化效率。

通过使用强化学习的方法，使得所产生的变异蛋白质逐步靠近和达到预期目标，能够提高蛋白质定向进化效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书第一个实施例中的基于强化学习的蛋白质进化方法的执行主体示意图。

图2是本说明书第一个实施例中的基于强化学习的蛋白质进化方法的流程示意图。

图3是本说明书第一个实施例中的基于强化学习的蛋白质进化过程示意图。

图4是本说明书第一个实施例提供的示例中的蛋白质进化示意图。

图5是本说明书第二个实施例中的基于强化学习的蛋白质进化装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本说明书第一个实施例（以下简称“实施例一”）提供了一种基于强化学习的蛋白质进化方法，实施例一的执行主体可以是终端（包括但不限于手机、计算机、pad、电视）或者服务器或者操作系统或者应用程序或者基于强化学习的蛋白质进化平台或者基于强化学习的蛋白质进化系统等，即执行主体可以是多种多样的，可以根据需要设置、使用或者变换执行主体。另外，也可以有第三方应用程序协助所述执行主体执行实施例一。例如图1所示，可以由服务器来执行实施例一中的基于强化学习的蛋白质进化方法，并且可以在（用户所持有的）终端上安装（与所述服务器）相对应的应用程序，终端或应用程序与服务器之间可以进行数据传输，通过终端或应用程序来进行数据的采集或输入或输出或（向用户）进行页面或信息处理，从而辅助服务器执行实施例一中的基于强化学习的蛋白质进化方法。

如图2和图3所示，实施例一提供的基于强化学习的蛋白质进化方法包括：

S101：（执行主体）获取各样本蛋白质的特征信息，根据各样本蛋白质的特征信息构建蛋白质变异生成模型和评估模型；

实施例一中，可以获取各种已有蛋白质作为样本蛋白质。其中，可以根据蛋白质进化目标来确定什么样的蛋白质为样本蛋白质。例如，蛋白质进化目标是使进化得到的蛋白质具有某种性质，则可以将具有该种性质的相同或相似性质的现有蛋白质作为样本蛋白质。

对于任一样本蛋白质，可以获取该样本蛋白质的特征信息（也可以称为内嵌特征信息）。其中，蛋白质的特征信息包括但不限于蛋白质中的氨基酸序列，蛋白质中的氨基酸的性质（包括但不限于化学特性或理化属性），蛋白质或蛋白质中的氨基酸的空间结构信息。对于特征信息的具体内容，实施例一不进行具体限定。

实施例一中，获取各样本蛋白质的特征信息可以包括：使用蛋白质预训练模型获取或抽取各样本蛋白质的特征信息。其中，蛋白质预训练模型可以是深度学习模型，或者说，蛋白质预训练模型可以是使用深度学习技术来理解和解释蛋白质序列或蛋白质结构的计算模型。

深度学习是一种基于人工神经网络的机器学习技术，它可以从大量数据中学习和提取复杂的模式和特征。在定向进化的背景下，深度学习模型可以用来预测生物分子（如蛋白质）的性质，以及如何通过改变它们的序列来优化这些性质。具体来说，深度学习模型可以被训练来预测一个生物分子的特定性质（如酶活性或结合能力），然后这些预测可以用来指导分子的设计和优化。例如，可以使用深度学习模型来预测如何改变一个酶的氨基酸序列以优化其活性，然后将这些预测的变化应用到实际的酶上，以实现优化目标。

此外，深度学习模型还可以用于设计新的生物分子，这在某些情况下可能比优化现有分子更有效。例如，可以使用深度学习模型来生成新的蛋白质序列，然后将这些序列合成并测试，以寻找具有所需性质的新蛋白质。总的来说，深度学习提供了一种强大的工具，可以显著提高定向进化的效率和效果，为生物科技的发展提供新的可能性。

在此基础上，蛋白质预训练模型通过在大量无标签蛋白质数据上进行预训练，学习到蛋白质序列或结构中的特征和规律。然后，蛋白质预训练可以通过迁移学习的方法，将预训练得到的知识迁移到具体的蛋白质相关任务上，例如蛋白质结构预测、蛋白质-蛋白质相互作用预测、蛋白质功能注释等。

具体的，蛋白质预训练模型例如可以是ESM（Evolutionary Scale Modeling，进化尺度模型）这样的蛋白质预训练模型。ESM模型是一款旨在学习蛋白质序列表征的预训练模型，此模型能够有效地学习到氨基酸的理化性质和潜在空间结构信息，并通过自监督学习来掌握大量未标记蛋白质序列数据的潜在结构和功能信息。

蛋白质预训练模型可以下载（ESM模型的模型权重也可以下载得到）并部署或加载在实施例一的执行主体上。通常，所下载的蛋白质预训练模型已经在大量蛋白质序列数据上进行了训练，并能够理解蛋白质和蛋白质序列中氨基酸的各种特性。

下面进一步说明如何使用蛋白质预训练模型获取各样本蛋白质的特征信息。

实施例一中，使用蛋白质预训练模型获取各样本蛋白质的特征信息可以包括：

S1011：对任一样本蛋白质，使用蛋白质预训练模型将该样本蛋白质中的各氨基酸转化为对应的数值型向量；

样本蛋白质是由氨基酸组成的长链，每个氨基酸可以用单字母来表示，例如“A”代表丝氨酸，“C”代表半胱氨酸。

对任一样本蛋白质，蛋白质预训练模型可以获取该样本蛋白质的氨基酸序列，并可以将字母形式的氨基酸序列转换为了实施例一的执行主体可以理解和处理的数值形式的向量（即数值型向量，可以是高维向量），从而得到各氨基酸对应的数值型向量。各氨基酸对应的数值型向量相当于氨基酸的标签，所述标签用于表征氨基酸的特性，包括但不限于氨基酸的化学性质和空间结构等信息。这样一来，通过数值型向量便于分析氨基酸的特性。

该步骤也就相当于将该样本蛋白质序列转化为数值型向量，故该步骤也可以称为样本蛋白质的“嵌入”或“向量化”，

S1013：整合该样本蛋白质中的各氨基酸对应的数值型向量，得到该样本蛋白质对应的向量，该样本蛋白质对应的向量用于表征该样本蛋白质的特征信息。

由于该样本蛋白质包括一系列氨基酸，每个氨基酸对应一个数值型向量，故可以得到一系列的数值型向量。通过蛋白质预训练模型可以对这一系列的数值型向量进行整合（相当于对各个氨基酸的嵌入表示进行整合），得到一个与该样本蛋白质对应的向量，以便分析该样本蛋白质的综合特性。

其中，整合该样本蛋白质中的各氨基酸对应的数值型向量，得到该样本蛋白质对应的向量，可以包括：

对该样本蛋白质中的各氨基酸对应的数值型向量取平均值，得到对应和代表该样本蛋白质的向量。此方法可以称为“平均值法”；

或，

由该样本蛋白质中的各氨基酸对应的数值型向量中的最大值组成该样本蛋白质对应的向量；即从该样本蛋白质中的每个氨基酸对应的数值型向量中选取最大的数值，组合成一个对应和代表该样本蛋白质的向量。此方法可以称为“最大池化法”。

或，

为该样本蛋白质中的各氨基酸分配对应的权重，根据该样本蛋白质中的各氨基酸对应的权重，对该样本蛋白质中的各氨基酸对应的向量进行加权计算，得到该样本蛋白质对应的向量。例如，该样本蛋白质中的各氨基酸对应的数值型向量分别是V1，V2，……，Vn，该样本蛋白质中的各氨基酸对应的权重分别是a1，a2，……，an，则加权计算可以是a1 V1+a2 V2+……an Vn，加权计算所得向量即为对应和代表该样本蛋白质的向量。此方法可以称为“注意力机制法”，该方法中的上述权重可以由蛋白质预训练模型自动确定，权重可以表征蛋白质预训练模型对氨基酸的关注度。

当然，还可以使用其他方法整合该样本蛋白质中的各氨基酸对应的数值型向量，实施例一不进行具体限定。

通过上述操作所得的对应该样本蛋白质的向量用于表征该样本蛋白质的特征信息，可以用于蛋白质的性质分析、结构预测等。

实施例一中，可以根据上述各样本蛋白质的特征信息分别构建蛋白质变异生成模型和评估模型。下面分别进行说明：

构建蛋白质变异生成模型

实施例一组中，根据各样本蛋白质的特征信息构建蛋白质变异生成模型可以包括：

获取蛋白质预训练模型；其中，所获取的蛋白质预训练模型是通过掩码模型（Masked Language Model，掩蔽语言模型）训练得到的。

掩码模型是一种预训练模型，掩码模型的主要任务是预测被遮盖的词语，故通过掩码模型训练得到的蛋白质预训练模型具有蛋白质序列预测功能，只不过掩码模型的预测对象是词语，蛋白质预训练模型的预测对象是蛋白质中的氨基酸。通过掩码模型训练得到蛋白质预训练模型的过程可以由实施例一的执行主体执行，也可以由实施例一的执行主体以外的主体执行。

获取蛋白质预训练模型后，可以使用各样本蛋白质的特征信息，对蛋白质预训练模型进行训练，以得到蛋白质变异生成模型。所得到的蛋白质变异生成模型不仅具有蛋白质序列预测功能，且已学习到样本蛋白质的特征信息。

构建评估模型

实施例一中，根据各样本蛋白质的特征信息构建评估模型可以包括：

获取蛋白质预训练模型；

保持蛋白质预训练模型除指定层（一般是蛋白质预训练模型靠后的一层或多层）以外的其他层参数或权重不变（或只进行较小幅度的更新），使用各样本蛋白质的特征信息，对蛋白质预训练模型的指定层的参数进行重新训练，以得到评估模型。

在对蛋白质预训练模型的指定层的参数进行重新训练时，可以为各样本蛋白质赋予对应的分数，并使用各样本蛋白质的特征信息以及各样本蛋白质对应的分数对蛋白质预训练模型的指定层的参数进行训练。这样一来，所得到的评估模型不仅可以学习到各样本蛋白质的特征信息，还可以学习到各样本蛋白质对应的分数，从而可以用于对样本蛋白质以外的蛋白质进行评分，即评估模型具有评估功能，可以用于评估（评估包括评分或打分）任务。

上述对蛋白质预训练模型的重新训练过程相当于对蛋白质预训练模型的微调训练。具体而言，深度学习的微调（Fine-tuning）是一种迁移学习技术，它指的是在一个预训练模型（即在一个较大的数据集上事先训练得到的模型，实施例一中指蛋白质预训练莫醒醒）的基础上，针对一个特定的新任务（通常是规模较小的样本，实施例一中指样本蛋白质）进行进一步的训练。这种方法允许利用预训练模型学到的知识（例如特征表示）来帮助解决新的任务（实施例一中指蛋白质评估任务），输出需要的结果（例如，不同数量的类别）。

实施例一中，在对蛋白质预训练模型的指定层的参数进行重新训练前，可以根据需要对蛋白质预训练模型的指定层进行修改或调整，然后再对蛋白质预训练模型的指定层的参数进行重新训练。

实施例一中，蛋白质变异生成模型和评估模型的构建顺序并不是绝对的，所构建的蛋白质变异生成模型和/或评估模型可以部署或加载在实施例一的执行主体上。

上述各处所提到的蛋白质预训练模型可以指同样的蛋白质预训练模型。

S103：（执行主体）由所述蛋白质变异生成模型在初始蛋白质基础上得到一组变异蛋白质；

构建蛋白质变异生成模型后，可以由蛋白质变异生成模型在初始蛋白质基础上得到变异蛋白质。其中，可以根据蛋白质进化目标来确定什么样的蛋白质为初始蛋白质。例如，蛋白质进化目标是使进化得到的蛋白质具有某种性质，则可以将具有该种性质的相同或相似性质的现有蛋白质作为初始蛋白质。

特别的，在由蛋白质变异生成模型在初始蛋白质基础上得到变异蛋白质，可以根据需要对蛋白质变异生成模型进行初始化操作。若对蛋白质变异生成模型进行了初始化操作，则就是由初始化后的蛋白质变异生成模型在初始蛋白质基础上得到变异蛋白质。

实施例一中，由蛋白质变异生成模型在初始蛋白质基础上得到一组变异蛋白质可以包括：

S1031：遮盖初始蛋白质的各指定位置，由蛋白质变异生成模型预测各指定位置的氨基酸；

实施例一中，可以指定初始蛋白质的某个或某些位置为指定位置，然后将初始蛋白质的各指定位置进行遮盖，即遮盖初始蛋白质的各指定位置的氨基酸，这可以通过对各指定位置设置标记（例如“[MASK]”）来实现。

具体的，可以根据蛋白质进化目标来确定哪个或哪些位置为指定位置。蛋白质进化目标是使进化得到的蛋白质具有某种性质，则可以根据已有蛋白质或已有数据预测初始蛋白质的哪个或哪些位置用于对该种性质起决定作用，从而将所预测的位置作为指定位置。当然，也可以将任意的一个或多个位置作为指定位置。

如前所述，蛋白质变异生成模型具有蛋白质序列预测功能，故可以由蛋白质变异生成模型决定在指定位置被遮盖情况下应当产生什么样的氨基酸，从而预测初始蛋白质被遮盖的各指定位置的氨基酸，这种方式也可以称为“masking”。

其中，可以将遮盖了各指定位置的初始蛋白质输入蛋白质变异生成模型，蛋白质变异生成模型根据已学习到的蛋白质的特征信息（包括蛋白质预训练模型学习到的蛋白质的特征信息和蛋白质变异生成模型学习到的样本蛋白质的特征信息）和/或蛋白质序列中的氨基酸之间的相互作用和依赖关系（包括蛋白质预训练模型学习到的蛋白质序列中的氨基酸之间的相互作用和依赖关系，以及蛋白质变异生成模型学习到的蛋白质序列中的氨基酸之间的相互作用和依赖关系）和/或初始蛋白质状态（包括但不限于初始蛋白质的氨基酸序列和/或各指定位置），预测初始蛋白质被遮盖的各指定位置的氨基酸。

S1033：根据所述蛋白质变异生成模型对各指定位置的氨基酸的预测结果，确定各指定位置所对应的预测氨基酸；

蛋白质变异生成模型会输出对各指定位置的氨基酸的预测结果。其中，对任一指定位置，对该指定位置的氨基酸的预测结果包括每种氨基酸出现在该指定位置的概率，即蛋白质变异生成模型输出的预测结果是概率分布的形式。

对任一指定位置，可以根据蛋白质变异生成模型对该指定位置的氨基酸的预测结果，确定该指定位置所对应的预测氨基酸。具体的，可以根据每种氨基酸出现在该指定位置的概率，选择概率最高的氨基酸作为该指定位置对应的预测氨基酸。如此，就确定了各指定位置对应的预测氨基酸。

S1035：将所述初始蛋白质的各指定位置设置为所对应的预测氨基酸，以生成第一个变异蛋白质；

将初始蛋白质的各指定位置设置为对应的预测氨基酸，就可以得到新的蛋白质，作为第一个变异蛋白质。

S1037：每得到一个变异蛋白质，则遮盖最新得到的变异蛋白质的一个或多个指定位置，由蛋白质变异生成模型预测各指定位置的氨基酸；根据所述蛋白质变异生成模型对各指定位置的氨基酸的预测结果，确定各指定位置所对应的预测氨基酸；将所述最新得到的变异蛋白质的各指定位置设置为所对应的预测氨基酸，以生成下一个变异蛋白质，直至得到预定数量个变异蛋白质。

蛋白质变异生成模型可以重复上述过程，重复生成变异蛋白质。

具体的，每得到一个变异蛋白质，则遮盖最新得到的变异蛋白质的一个或多个指定位置。

将遮盖了各指定位置的该最新得到的变异蛋白质输入蛋白质变异生成模型，蛋白质变异生成模型根据已学习到的蛋白质的特征信息（包括蛋白质预训练模型学习到的蛋白质的特征信息和蛋白质变异生成模型学习到的样本蛋白质的特征信息）和/或蛋白质序列中的氨基酸之间的相互作用和依赖关系（包括蛋白质预训练模型学习到的蛋白质序列中的氨基酸之间的相互作用和依赖关系，以及蛋白质变异生成模型学习到的蛋白质序列中的氨基酸之间的相互作用和依赖关系）和/或该最新得到的变异蛋白质状态（包括但不限于该最新得到的变异蛋白质的氨基酸序列和/或各指定位置），预测（最新得到的变异蛋白质的）各指定位置的氨基酸。

根据蛋白质变异生成模型对（最新得到的变异蛋白质的）各指定位置的氨基酸的预测结果，确定（最新得到的变异蛋白质的）各指定位置所对应的预测氨基酸。

将最新得到的变异蛋白质的各指定位置设置为所对应的预测氨基酸，以生成下一个变异蛋白质，直至得到预定数量个变异蛋白质，这预定数量个变异蛋白质作为一组变异蛋白质。

需要说明的是，所述一组变异蛋白质可以是一个或多个变异蛋白质。若一组变异蛋白质是多个变异蛋白质，则在前后两个变异蛋白质生成过程中，被遮盖的指定位置一般相同。

S105：每得到一组变异蛋白质，使用所述评估模型评估最新得到的该组变异蛋白质中各变异蛋白质的适应度，并判断所述适应度是否满足预设条件；若所述适应度不满足预设条件，则根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习，并由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质；若所述适应度满足预设条件，则从最新得到的该组变异蛋白质中得到目标进化蛋白质。

在生物学中，适应度（Fitness）是用来描述一个个体或者一种基因型在某种环境中的生存和繁衍能力。一个具有较高适应度的个体更有可能把自己的基因传递给下一代。换句话说，适应度高的个体更有可能成功繁殖。在自然选择的过程中，适应度高的个体和基因型往往会更有优势。而实际情况中，通过实验获取蛋白质的适应度的成本很高。

实施例一中，评估模型可以用于变异蛋白质的评估任务，具体是根据变异蛋白质的序列稳定性、亲和力等生物学属性，对变异蛋白质进行评估，并可以将评估模型对蛋白质的评估结果作为变异蛋白质的适应度，这也就实现了对蛋白质的适应度的AI自动评估。另外，评估模型对变异蛋白质的评估结果也代表了变异蛋白质的未来回报的预测。

实施例一中，每得到一组变异蛋白质后，可以使用评估模型评估最新得到的该组变异蛋白质中各变异蛋白质的适应度，并判断最新得到的该组变异蛋白质中各变异蛋白质的适应度是否满足预设条件。以下将评估模型评估得到的适应度称为预测适应度。

其中，判断最新得到的该组变异蛋白质中各变异蛋白质的适应度是否满足预设条件可以包括：确定最新得到的该组变异蛋白质中各变异蛋白质的适应度的整合结果，判断所述整合结果是否满足预设条件。若整合结果满足预设条件，说明该组变异蛋白质中各变异蛋白质的适应度满足预设条件；若整合结果不满足预设条件，说明该组变异蛋白质中各变异蛋白质的适应度不满足预设条件。

具体的，各变异蛋白质的适应度的整合结果可以是对各变异蛋白质的适应度进行整合操作后所得结果，所述整合操作包括但不限于求和或求平均。

特别的，为了提高评估模型的蛋白质适应度评估能力的泛化程度，所得到的评估模型可以包括Rank Loss函数（也称Pairwise Ranking Loss）。对任一变异蛋白质，该变异蛋白质可以有一个基准适应度，该基准适应度可以人工设置。评估模型得到该变异蛋白质的预测适应度后，可以将该变异蛋白质的预测适应度和基准适应度进行比较。若该变异蛋白质的预测适应度低于其基准适应度，则会产生该变异蛋白质的预测适应度和基准适应度之间的loss（损失）。该变异蛋白质的预测适应度和基准适应度之间的loss，可以称为该变异蛋白质的适应度loss。其中，该变异蛋白质的适应度loss，可以通过该变异蛋白质的预测适应度和基准适应度之间的差值的某种函数（包括但不限于sigmoid函数）来计算。

每得到一组变异蛋白质，可以通过评估模型得到该组变异蛋白质中各变异蛋白质的适应度loss（若有）。将该组变异蛋白质中各变异蛋白质的适应度loss进行整合（包括但不限于求和或求平均），得到整合后的Rank Loss，整合后的Rank Loss可以作为该组变异蛋白质中各变异蛋白质的适应度的整合结果。

另外，整合后的Rank Loss还可以用于评价评估模型的质量或能力，一般来说，整合后的Rank Loss越小，表明评估模型的评估越准确，质量或能力越强。构建出的评估模型在实际应用前，可以利用验证集或测试集来计算RankLoss，并通过迭代和梯度下降法等优化评估模型，使Rank Loss最小化,从而得到合格、准确、可靠的评估模型，再将评估模型用于实际应用。

若最新得到的该组变异蛋白质中各变异蛋白质的适应度不满足预设条件，则可以根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习。下面说明强化学习的内容：

实施例一中，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习可以包括：根据最新得到的该组变异蛋白质中各变异蛋白质的适应度，更新得到新的变异蛋白质所使用的变异策略。

其中，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度，更新由蛋白质变异生成模型得到新的变异蛋白质所使用的变异策略，可以包括：

情况一：若最新得到的该组变异蛋白质中各变异蛋白质的适应度的整合结果满足第一预设范围，则提高得到新的变异蛋白质所使用的变异策略中，当前变异策略的使用概率或当前变异动作的使用概率。

其中，第一预设范围可以是大于第一预设值或不小于第二预设值。若最新得到的该组变异蛋白质中各变异蛋白质的适应度的整合结果满足第一预设范围，说明最新得到的该组变异蛋白质中各变异蛋白质的适应度整体向好或向上，从而在接下来由蛋白质变异生成模型得到新的变异蛋白质过程中，可以沿用或强化当前变异策略或当前变异动作，从而使得新的变异蛋白质不仅具备最新得到的该组变异蛋白质的相同或相似特性（例如亲水、疏水特性），且相比于最新得到的该组蛋白质，其特性更加鲜明。

由于蛋白质变异生成模型同时也是策略网络（策略网络通常用神经网络表示，下同），其是按照一定的变异策略（变异策略包括如何预测氨基酸，下同）来预测氨基酸，并生成或得到变异蛋白质。故沿用或强化当前变异策略或当前变异动作可以表现为：提高“得到新的变异蛋白质所使用的变异策略”中，当前变异策略的使用概率或当前变异动作的使用概率。也就是说，接下来会由蛋白质变异生成模型按照变异策略得到新的变异蛋白质，并且要提高当前变异策略在“用于得到新的变异蛋白质的变异策略”中的使用概率，或提高当前变异动作在“用于得到新的变异蛋白质的变异策略”中的使用概率。

或，

情况二：若最新得到的该组变异蛋白质中各变异蛋白质的适应度的整合结果满足第二预设范围和/或不满足第一预设范围，则降低得到新的变异蛋白质所使用的变异策略中，当前变异策略的使用概率或当前变异动作的使用概率。

其中，第二预设范围可以是小于第三预设值或不大于第四预设值，且一般的，第二预设范围低于或小于第一预设范围。若最新得到的该组变异蛋白质中各变异蛋白质的适应度的整合结果满足第二预设范围和/或不满足第一预设范围，说明最新得到的该组变异蛋白质中各变异蛋白质的适应度整体向坏或向下，从而在接下来由蛋白质变异生成模型得到新的变异蛋白质过程中，可以减弱或弃用当前变异策略或当前变异动作。

由于蛋白质变异生成模型同时也是策略网络，其是按照一定的变异策略来预测氨基酸，并生成或得到变异蛋白质。故减弱或弃用当前变异策略或当前变异动作可以表现为：降低“得到新的变异蛋白质所使用的变异策略”中，当前变异策略的使用概率或当前变异动作的使用概率。也就是说，接下来会由蛋白质变异生成模型按照变异策略得到新的变异蛋白质，并且要降低当前变异策略在“用于得到新的变异蛋白质的变异策略”中的使用概率，或降低当前变异动作在“用于得到新的变异蛋白质的变异策略”中的使用概率。

实施例一中，当前变异策略指，为产生最新得到的一组变异蛋白质所用的变异策略，也就是在产生最新得到的一组变异蛋白质过程中所用的变异策略。例如，最新得到的一组变异蛋白质包括变异蛋白质1至变异蛋白质n，则当前变异策略指，为产生变异蛋白质1至变异蛋白质n所用的变异策略。

当前变异动作指，为产生最新得到的一组变异蛋白质所用的变异动作，也就是在产生最新得到的一组变异蛋白质过程中所用的变异动作。例如，最新得到的一组变异蛋白质包括变异蛋白质1至变异蛋白质n，则当前变异动作指，为产生变异蛋白质1至变异蛋白质n所用的变异动作。

由于实施例一中的变异蛋白质的生成方式包括将指定位置设置为对应的预测氨基酸，故实施例一中的变异动作可以指预测指定位置的氨基酸这样的动作。

实质上，为产生变异蛋白质1至变异蛋白质n所用的变异策略和为产生变异蛋白质1至变异蛋白质n所用的变异动作是对应的，正是在“为产生变异蛋白质1至变异蛋白质n所用的变异策略”的指导下，蛋白质变异生成模型执行相应的变异动作，对指定位置进行氨基酸预测，并得到变异蛋白质1至变异蛋白质n。

无论是上述情况一或情况二，其作用和效果都是根据最新得到的该组变异蛋白质中各变异蛋白质的适应度，对接下来得到新的变异蛋白质所使用的变异策略进行了更新和优化，以便蛋白质变异生成模型使用更新后的变异策略得到新的变异蛋白质，这也就相当于使用已得到的变异蛋白质的适应度，对蛋白质变异生成模型进行了强化学习，以便由强化学习后的蛋白质变异生成模型得到新的变异蛋白质。

实施例一中，考虑到蛋白质性质的改变常伴随着多个位点的变化，可以借助策略梯度算法和PPO（Proximal Policy Optimization）框架（PPO框架可以公开获得）来实现对得到新的变异蛋白质所使用的变异策略的更新。其中，PPO是一种用于解决强化学习问题的算法，它是一种策略优化方法，目标是改进一个参数化策略，以使得它能在一个给定的任务中获得更高的累积奖赏。PPO旨在结合值函数方法和策略梯度方法的优势，尤其是通过避免在策略更新时进行大的更新，从而保证学习过程更稳定。

在此基础上，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习可以包括：由包含策略梯度算法的PPO框架根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习。

其中，由包含策略梯度算法的PPO框架根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习可以包括：

由PPO框架中的策略梯度算法根据最新得到的该组变异蛋白质中各变异蛋白质的适应度，确定当前变异策略或当前变异动作的性质，包括判断最新得到的该组变异蛋白质中各变异蛋白质的适应度是否满足预设条件。具体的，由策略梯度算法根据最新得到的该组变异蛋白质中各变异蛋白质的适应度的整合结果，确定当前变异策略或当前变异动作的性质，例如当前变异策略或当前变异动作整体向好或向上还是整体向坏或向下。特别的，还可以由策略梯度算法根据单个变异蛋白质的适应度，确定用于得到单个变异蛋白质所使用的变异策略或变异动作的性质。

由PPO框架根据当前变异策略或当前变异动作的性质，更新得到新的变异蛋白质所使用的变异策略。具体的，由PPO框架限制变异策略超向好或向上方向更新。故若当前变异策略或当前变异动作整体向好或向上，则PPO框架可以限制变异策略朝沿用或强化当前变异策略或当前变异动作的方向更新；若当前变异策略或当前变异动作整体向坏或向下，则PPO框架可以限制变异策略朝减弱或弃用当前变异策略或当前变异动作的方向更新。这也相当于通过已有变异蛋白质的适应度进行反向传播，以更新变异策略。

实施例一中，PPO框架可以根据收集到的各种数据（包括但不限于初始蛋白质序列和/或各指定位置和/或各指定位置对应的预测氨基酸和/或最新得到的该组变异蛋白质中各变异蛋白质的适应度）来更新得到新的变异蛋白质所使用的变异策略。其中，PPO框架可以根据上述各种数据，利用计算得到的优势函数更新蛋白质变异生成模型的策略参数，以实现变异策略的更新。

需要说明的是，之所以借助PPO框架更新变异策略，是因为PPO框架的关键在于其能够限制变异策略的更新步长，这意味着，更新后的变异策略不会离当前变异策略太远，从而保证了强化学习过程的稳定性。也就是说，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习还可以包括：更新得到新的变异蛋白质所使用的变异策略时，限制变异策略的更新步长。并且，限制变异策略的更新步长可以包括：通过PPO框架限制变异策略的更新步长。例如，PPO框架可以在此过程中引入一个名为“proximal”或“trust region”的约束，以确保更新后的变异策略不会偏离当前变异策略过远

具体的，通过PPO框架限制变异策略的更新步长可以采用的方式包括：

对任一变异蛋白质，将评估模型对该变异蛋白质的评估结果进行处理。所述处理如公式（1）所示：

；（1）

其中，表示策略函数，/>表示更新后的变异策略和当前变异策略的变化比率，/>是对变异蛋白质/>的实际评估结果，/>是一个剪枝函数，目的是为了将更新后的变异策略和当前变异策略变化限制在/>和之内。其中，/>通常是一个常数，一般是0.1或者0.2。

在此基础上，上述“判断所述适应度是否满足预设条件；若所述适应度不满足预设条件，则根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习，并由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质”等步骤中所涉及的适应度都可以是经公式（1）处理后的适应度。即得到变异蛋白质的适应度后，先将适应度经公式（1）处理，再判断处理后的适应度是否满足预设条件；若处理后的适应度不满足预设条件，则根据最新得到的该组变异蛋白质中各变异蛋白质的处理后的适应度对蛋白质变异生成模型进行强化学习，并由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质。

同样的，下面内容中的适应度也可以指处理后的适应度。

上述公式（1）相当于对评估模型的评估结果施加了比例因子，该比例因子对应于更新后的变异策略和当前变异策略的相对概率。通过上述公式（1），保证了不同的变异蛋白质的处理后的适应度之间不会有太大的变化或跳跃，从而根据最新得到的该组变异蛋白质中各变异蛋白质的处理后适应度对蛋白质变异生成模型进行强化学习时，更新后的变异策略相对于当前变异策略变化不会过大，从而保证策略的稳定更新。

经过上述的强化学习后，可以由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质。

其中，由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质，可以包括：由蛋白质变异生成模型按照更新后的变异策略，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质。由于强化学习的核心就是更新变异策略，故经强化学习后的蛋白质变异生成模型的作用或效果就是：由蛋白质变异生成模型按照更新后的变异策略得到新的一组变异蛋白质。

实施例一中，由蛋白质变异生成模型按照更新后的变异策略得到新的一组变异蛋白质的过程可以参照S1037，即在最新得到的变异蛋白质基础上得到新的一组变异蛋白质可以包括：

遮盖最新得到的变异蛋白质的一个或多个指定位置，由蛋白质变异生成模型预测各指定位置的氨基酸；例如最新得到的一组变异蛋白质，按照生成顺序分别是变异蛋白质1至变异蛋白质n，则最新得到的变异蛋白质就是该组变异蛋白质中最后生成的变异蛋白质，也就是变异蛋白质n。

根据所述蛋白质变异生成模型对各指定位置的氨基酸的预测结果，确定各指定位置所对应的预测氨基酸。具体的，将遮盖了各指定位置的该最新得到的变异蛋白质输入蛋白质变异生成模型，蛋白质变异生成模型根据已学习到的蛋白质的特征信息（包括蛋白质预训练模型学习到的蛋白质的特征信息和蛋白质变异生成模型学习到的样本蛋白质的特征信息）和/或蛋白质序列中的氨基酸之间的相互作用和依赖关系（包括蛋白质预训练模型学习到的蛋白质序列中的氨基酸之间的相互作用和依赖关系，以及蛋白质变异生成模型学习到的蛋白质序列中的氨基酸之间的相互作用和依赖关系）和/或该最新得到的变异蛋白质状态（包括但不限于该最新得到的变异蛋白质的氨基酸序列和/或各指定位置），预测（最新得到的变异蛋白质的）各指定位置的氨基酸。根据蛋白质变异生成模型对（最新得到的变异蛋白质的）各指定位置的氨基酸的预测结果，确定（最新得到的变异蛋白质的）各指定位置所对应的预测氨基酸。

如前所述，前后两个变异蛋白质生成过程中，被遮盖的指定位置一般相同，不论这两个变异蛋白质是否属于同一组。

得到新的一组变异蛋白质后，就可以重复上述过程：使用评估模型评估最新得到的该组变异蛋白质中各变异蛋白质的适应度，并判断所述适应度是否满足预设条件；若所述适应度不满足预设条件，则根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习，并由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质。

实施例一中，前述的求和操作也可以通过PPO框架中的得分累积函数实现。则随着变异策略的更新，逐步产生各组变异蛋白质，且单组变异蛋白质中各变异蛋白质的适应度之和或适应度累积值逐步增加。

实施例一中，在得到某组变异蛋白质后，若该组变异蛋白质的适应度满足预设条件，说明该组变异蛋白质的适应度普遍较高，即该组变异蛋白质的序列稳定性、亲和力等特性符合预期目标，从而可以从最新得到的该组变异蛋白质中得到目标进化蛋白质。

其中，从最新得到的该组变异蛋白质中得到目标进化蛋白质可以包括：

将最新得到的该组变异蛋白质（全部）作为目标进化蛋白质；

或，

将最新得到的该组变异蛋白质中，适应度符合预设范围的变异蛋白质作为目标进化蛋白质；

或，

将最新得到的该组变异蛋白质中，适应度最高的变异蛋白质作为目标进化蛋白质。

实施例一中，目标进化蛋白质具有期望的蛋白质属性，能够满足蛋白质工程的基本目标。

另外，实施例一中，在得到一组或多组变异蛋白质后，可以使用验证集评估蛋白质变异生成模型的性能，并根据需要调整超参数。其中，可以设定并检查评估的终止条件，例如达到预设的最大训练回合数或蛋白质变异生成模型性能的提升已趋于平稳。

上述的ESM模型、掩码模型、蛋白质变异生成模型、评估模型、PPO框架、策略梯度算法等都可以根据需要部署或加载在实施例一的执行主体上，这种情况下，它们所执行的操作可以看作是实施例一的执行主体执行的操作。

下面通过示例进一步说明实施例一的应用：

如图4所示，GB1蛋白是一种常用的模型蛋白质,其定向进化目标通常是提高与IgG-Fc的结合亲和力。

根据实施例一的内容，可以进行如下操作：

模型的训练和构建:基于ESM-1b模型及其预训练好的权重，使用已有的GB1序列活性数据,训练一个序列-亲和力的评估模型（本示例中可称为评分模型）,用于给出变异蛋白质的评分（适应度），并作为奖励。并且，训练出蛋白质变异生成模型（即actor（生成序列））。

定义状态空间:将GB1的氨基酸序列转换为二进制编码的矩阵,每一列代表一个氨基酸位点,每一行代表20种氨基酸,1表示该列对应的氨基酸,0表示非该氨基酸。这样整个GB1序列就转化为一个二进制状态矩阵，实现了向量化。

定义动作空间:动作定义为对状态矩阵进行4个点突变,即将指定的4个位置的氨基酸改变为另一种氨基酸。动作空间即所有可能的单点突变组合。指定位置用MASK代替。

强化学习:初始化一个起始GB1序列状态（初始蛋白质）;在每一步中,根据当前变异策略选择一个突变动作,生成变异蛋白质，由评分模型进行评分，并由PPO框架判断适应度（即critic（评价序列））。当适应度满足预设条件，奖励增加时继续该突变方向探索；当适应度不满足预设条件，奖励下降则结束或弱化该突变方向;重复该迭代过程,不断调整变异策略提高奖励,直到找到亲和力（即适应度）提高的突变（即作为目标进化蛋白质的变异序列）。

实验验证:从强化学习的搜索过程中选择亲和力预测最高的几个突变体（即目标进化蛋白质）进行实验构建、表达和亲和力确定,验证目标进化蛋白质的正确性。

上述过程中，通过交替的变异、评估、强化学习以及实验验证,可以有效地在庞大的序列空间中找到提高GB1亲和力的关键突变,完成定向进化。

实施例一中，通过使用强化学习的方法，不断更新优化变异策略，也就实现了蛋白质变异生成模型的不断优化，在此基础上不断产生变异蛋白质，且用已有蛋白质指导后续蛋白质的生成，可以自动实现蛋白质的定向进化，提高蛋白质定向进化效率。实施例一有效解决了传统蛋白质工程中蛋白质序列优化效率低，人工调试工作量大等问题，并为蛋白质工程提供了新的自动优化方案。

实施例一中，通过使用强化学习的方法，使得所产生的变异蛋白质适应度逐步提高，逐步靠近和达到预期目标，实现了蛋白质性质的有效改造，能够提高蛋白质定向进化效果。

实施例一中，蛋白质变异生成模型的变异策略指导蛋白质的变异和进化，并与蛋白质的评估相匹配，逐步提高评估模型的评估结果，同时评估模型的评估结果又会优化变异策略，实现了蛋白质变异生成模型和评估模型的协同作用，提高蛋白质定向进化效果和效率。

实施例一中，可以有一个或多个指定位置，并可以同时预测多个指定位置的氨基酸，从而能够准确评估单个变异和多个位点联合变异的效果，进一步提高蛋白质定向进化效果和效率。

实施例一中，通过PPO框架不仅可以指导蛋白质的定向进化，而且可以优化变异策略，使得变异策略更好地匹配蛋白质的变异目标，从而产生更好的氨基酸变异和更高适应度的变异氨基酸。并且，这种方式既能有效地评价单个位点的变异效果，又能考虑到多个位点变异之间的相互作用，从而更准确地评价变异蛋白质的适应度或全局性质。

实施例一中，通过使用PPO框架中的策略梯度技术确定变异策略的性质，策略梯度技术通过反向传播反馈的适应度,来优化策略网络的参数,更新变异策略，不断提高后续的变异蛋白质的适应度，进一步提高蛋白质定向进化效果和效率。

实施例一中，通过PPO框架可以限制变异策略更新步长，实现变异策略的稳定可控更新，进一步提高蛋白质定向进化效果和效率。

通过实施例一的上述内容，能够逐个预测最优的氨基酸替换，细致地优化蛋白质序列，更好地处理序列依赖性，并生成优质的变异蛋白质序列。同时，利用包括Rank Loss的评估模型和PPO框架，可以高效地对变异蛋白质进行评估并更新变异策略，极大地降低了获取蛋白质的Fitness值的成本以及蛋白质进化效率。此外，通过上述的强化学习，能有效利用包括适应度在内的各类反馈，将其充分应用于学习过程，使每一步的变异蛋白质评估能够累积并优化。

另外，利用评估模型为每个变异蛋白质进行评估，这样更贴近自然进化或实验诱导突变。

此外，实施例一中的变异行动空间明确,每次行动后可评估状态奖励（即适应度）,避免仅在变异结束时得到稀疏奖励。

同时，利用预训练知识结构信息(如ESM模型)指导蛋白质变异生成模型学习理化性质,同时结合评估模型评估突变,进而逐步更新变异策略，实现对变异蛋白质的筛选（例如筛选出符合适应度满足预设条件的变异蛋白质），解决了传湿实验方法过于消耗时间，成本过高的问题。

如图5所示，本说明书第二个实施例提供一种与实施例一所述基于强化学习的蛋白质进化方法对应的基于强化学习的蛋白质进化装置，包括：

模型构建模块202，用于获取各样本蛋白质的特征信息，根据各样本蛋白质的特征信息构建蛋白质变异生成模型和评估模型；

变异生成模块204，用于由所述蛋白质变异生成模型在初始蛋白质基础上得到一组变异蛋白质；

学习进化模块206，用于每得到一组变异蛋白质，使用所述评估模型评估最新得到的该组变异蛋白质中各变异蛋白质的适应度，并判断所述适应度是否满足预设条件；

若所述适应度满足预设条件，则从最新得到的该组变异蛋白质中得到目标进化蛋白质

可选的，获取各样本蛋白质的特征信息包括：

对任一样本蛋白质，使用蛋白质预训练模型将该样本蛋白质中的各氨基酸转化为对应的数值型向量；

整合该样本蛋白质中的各氨基酸对应的数值型向量，得到该样本蛋白质对应的向量，该样本蛋白质对应的向量用于表征该样本蛋白质的特征信息。

可选的，根据各样本蛋白质的特征信息构建评估模型包括：

获取蛋白质预训练模型；

保持所述蛋白质预训练模型除指定层以外的其他层参数不变，使用所述各样本蛋白质的特征信息，对所述蛋白质预训练模型的指定层的参数进行重新训练，以得到评估模型。

可选的，根据各样本蛋白质的特征信息构建蛋白质变异生成模型包括：

获取蛋白质预训练模型；其中，所述蛋白质预训练模型通过掩码模型训练得到；

使用所述各样本蛋白质的特征信息，对所述蛋白质预训练模型进行训练，以得到蛋白质变异生成模型。

可选的，由所述蛋白质变异生成模型在初始蛋白质基础上得到一组变异蛋白质包括：

遮盖初始蛋白质的一个或多个指定位置，由蛋白质变异生成模型预测各指定位置的氨基酸；

根据所述蛋白质变异生成模型对各指定位置的氨基酸的预测结果，确定各指定位置所对应的预测氨基酸；

将所述初始蛋白质的各指定位置设置为所对应的预测氨基酸，以生成一个变异蛋白质；

每得到一个变异蛋白质，则遮盖最新得到的变异蛋白质的一个或多个指定位置，由蛋白质变异生成模型预测各指定位置的氨基酸；根据所述蛋白质变异生成模型对各指定位置的氨基酸的预测结果，确定各指定位置所对应的预测氨基酸；将所述最新得到的变异蛋白质的各指定位置设置为所对应的预测氨基酸，以生成下一个变异蛋白质，直至得到预定数量个变异蛋白质。

可选的，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习包括：

根据最新得到的该组变异蛋白质中各变异蛋白质的适应度，更新得到新的变异蛋白质所使用的变异策略。

可选的，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度，更新得到新的变异蛋白质所使用的变异策略，包括：

若最新得到的该组变异蛋白质中各变异蛋白质的适应度的整合结果满足第一预设范围，则提高得到新的变异蛋白质所使用的变异策略中，当前变异策略的使用概率或当前变异动作的使用概率；

或，

若最新得到的该组变异蛋白质中各变异蛋白质的适应度的整合结果满足第二预设范围和/或不满足第一预设范围，则降低得到新的变异蛋白质所使用的变异策略中，当前变异策略的使用概率或当前变异动作的使用概率；

其中，所述当前变异策略指，为产生最新得到的一组变异蛋白质所用的变异策略；

所述当前变异动作指，为产生最新得到的一组变异蛋白质所用的变异动作。

由包含策略梯度算法的PPO框架根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习；

其中，由包含策略梯度算法的PPO框架根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习包括：

由策略梯度算法根据最新得到的该组变异蛋白质中各变异蛋白质的适应度，确定当前变异策略或当前变异动作的性质；

由PPO框架根据当前变异策略或当前变异动作的性质，更新得到新的变异蛋白质所使用的变异策略；

可选的，由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质，包括：

由蛋白质变异生成模型按照更新后的变异策略，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质。

上述各实施例可以结合使用，不同实施例之间或同一实施例内的名称相同的模块可以是相同或不同的模块。

上述对本说明书特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（FieldProgrammable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（CornellUniversity Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于强化学习的蛋白质进化方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，获取各样本蛋白质的特征信息包括：

3.如权利要求1所述的方法，其特征在于，根据各样本蛋白质的特征信息构建评估模型包括：

获取蛋白质预训练模型；

4.如权利要求1所述的方法，其特征在于，根据各样本蛋白质的特征信息构建蛋白质变异生成模型包括：

5.如权利要求1所述的方法，其特征在于，由所述蛋白质变异生成模型在初始蛋白质基础上得到一组变异蛋白质包括：

6.如权利要求1所述的方法，其特征在于，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习包括：

7.如权利要求6所述的方法，其特征在于，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度，更新得到新的变异蛋白质所使用的变异策略，包括：

或，

8.如权利要求1所述的方法，其特征在于，根据最新得到的该组变异蛋白质中各变异蛋白质的适应度对蛋白质变异生成模型进行强化学习包括：

9.如权利要求6至8中任一项所述的方法，其特征在于，由经强化学习后的蛋白质变异生成模型，在最新得到的变异蛋白质基础上得到新的一组变异蛋白质，包括：

10.一种基于强化学习的蛋白质进化装置，其特征在于，所述装置包括：