CN115136246A

CN115136246A - 机器学习引导的多肽设计

Info

Publication number: CN115136246A
Application number: CN202080067045.4A
Authority: CN
Inventors: J·D·菲拉; A·L·彼姆; M·K·吉布森; B·J·卡布拉尔
Original assignee: Flagship Development And Innovation Vi Co
Current assignee: Flagship Development And Innovation Vi Co
Priority date: 2019-08-02
Filing date: 2020-07-31
Publication date: 2022-09-30
Also published as: IL290507A; CA3145875A1; US20220270711A1; KR20220039791A; EP4008006A1; WO2021026037A1; JP2022543234A

Abstract

用于工程化被配置为具有特定蛋白质功能或性质的氨基酸序列的系统、装置、软件和方法。方法实施机器学习以处理输入种子序列并生成具有所需功能或性质的优化序列作为输出。

Description

机器学习引导的多肽设计

相关申请

本申请要求均于2019年8月2日提交的美国临时申请号62/882,150和62/882,159的权益。将上述申请的全部传授内容通过援引并入本文。

通过引用将材料并入ASCII文本文件

本申请通过引用并入包含在以下同时提交的ASCII文本文件中的序列表：

a)文件名：GBD_SeqListing_ST25.txt；创建于2020年7月29日，大小为5KB。

背景技术

蛋白质是生物体所必需的大分子，并在生物体内执行许多功能或与许多功能相关，这些功能包括例如催化代谢反应、促进DNA复制、响应刺激、为细胞和组织提供结构、以及转运分子。蛋白质由一条或多条氨基酸链构成，并且典型地形成三维构象。

发明内容

本文描述了用于生成或修饰蛋白质或多肽序列以实现某一功能和/或性质或其改进的系统、装置、软件和方法。这些序列可以通过计算方法在计算机上确定。人工智能或机器学习被用来为合理地工程化蛋白质或多肽提供新颖的框架。因此，可以生成不同于天然存在的蛋白质的新多肽序列以具有所需的功能或性质。

长期以来，针对特定功能对氨基酸序列(例如蛋白质)进行设计一直是分子生物学的目标。然而，基于功能或性质进行蛋白质氨基酸序列预测具有很高的挑战性，至少部分是由于由看似简单的一级氨基酸序列可能产生的结构复杂性。迄今为止，一种方法是使用体外随机诱变，然后进行选择，从而产生定向进化过程。然而，这种方法是时间和资源密集型的，通常需要生成突变克隆体，这种生成进而又会受到库设计中的偏差或对序列空间的有限探索的影响，筛选这些克隆以获得所需的性质，并迭代地重复这个过程。事实上，传统方法未能提供基于氨基酸序列来预测蛋白质功能的准确且可重复的方法，更不允许基于蛋白质功能来预测氨基酸序列。事实上，关于基于功能的蛋白质一级序列预测的传统思想是，一级蛋白质序列不能与已知功能直接关联，因为如此多的蛋白质功能是通过其最终的三级(或四级)结构驱动的。

相比之下，使用计算或计算机方法来工程化具有感兴趣的性质或功能的蛋白质的能力可以改变蛋白质设计领域。尽管对该主题进行了大量研究，但迄今为止取得的成就甚微。因此，本文公开了创新的系统、装置、软件和方法，其生成针对被配置为具有特定性质和/或功能的多肽或蛋白质的氨基酸序列编码。因此，鉴于关于蛋白质分析和蛋白质结构的传统思想，本文描述的创新是出乎意料的并且产生了出乎意料的结果。

本文描述了一种工程化通过功能评估的改进的生物聚合物序列的方法，该方法包括：(a)根据步长计算该功能相对于起点处的嵌入的变化，该起点被提供给包括预测生物聚合物序列的功能的监督模型和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将生物聚合物序列嵌入在该功能空间中的情况下提供概率性生物聚合物序列，任选地其中，该起点是嵌入种子生物聚合物序列，从而提供该功能空间中的第一更新点；(b)任选地计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，并且任选地迭代地计算该功能相对于进一步更新点处的嵌入的变化的过程；(c)在该功能空间中的第一更新点或任选地迭代的进一步更新点处接近所需的功能水平时，将该第一更新点或任选地迭代的进一步更新点提供给该解码器网络；以及(d)从该解码器获得概率性改进的生物聚合物序列。

在本文中，术语“function(功能/函数)”可以具有双重含义。一方面，功能可以在定性方面代表蛋白质在生物领域中的一些性质和/或能力(例如，荧光)。另一方面，功能可以在定量方面表示与生物领域中的这种性质和/或能力相关联的一些品质因数，例如荧光效应强度的度量。

因此，术语“功能空间”的含义不限于其在数学领域的含义，即从同一个空间中接受输入并将该输入映射到相同空间或其他空间中的输出的一组函数。而是，功能空间可以包括生物聚合物序列的压缩表示，从中可以获得功能的值，即所需性质和/或能力的定量品质因数。

特别地，压缩表示可以包括两个或更多个数值，这些数值可以被解释为具有两个或更多个维度的笛卡尔向量空间中的坐标。然而，笛卡尔向量空间可能不会被这些压缩表示完全填充。而是，压缩表示可以在所述笛卡尔向量空间内形成子空间。这是本文用于压缩表示的术语“嵌入”的一种含义。

在一些实施例中，该嵌入是表示该功能并具有一个或多个梯度的连续可微功能空间。在一些实施例中，计算该功能相对于该嵌入的变化包括取该功能关于该嵌入的导数。

特别地，监督模型的训练可以在以下意义上将嵌入与功能联系起来：即，如果两个生物聚合物序列在功能的定量意义上具有所述品质因数的相似值，则它们的压缩表示在功能空间中是接近的。这有助于对压缩表示进行有针对性的更新，以获得具有改进的品质因数的生物聚合物序列。

短语“具有一个或多个梯度”不应被解释为限制在该梯度必须根据将压缩表示映射到定量品质因数的某个显式功能来计算的意义上。而是，该品质因数对压缩表示的依赖性可能是一种已学到的关系，其中没有显式的功能项可用。对于这种已学到的关系，嵌入的功能空间中的梯度可以例如通过反向传播来计算。例如，如果嵌入中的生物聚合物序列的第一压缩表示被解码器转换为生物聚合物序列，并且该生物聚合物序列进而被馈送到编码器并映射到压缩表示，则监督模型可以从这种压缩表示计算所述定量品质因数。然后可以通过反向传播获得该品质因数相对于原始压缩表示中的数值的梯度。这在图3A中进行更详细地说明。

如前所述，特定嵌入空间和特定品质因数可以是同一个奖牌的两个面，因为具有相似品质因数的压缩表示在嵌入空间中靠得很近。因此，如果有一种有意义的方法来获得品质因数功能相对于构成压缩表示的数值的梯度，则该嵌入空间可以被认为是“可微的”。

术语“概率性生物聚合物序列”尤其可以包括生物聚合物序列的某种分布，可以通过采样从中获得生物聚合物序列。例如，如果寻找限定长度L的生物聚合物序列，并且每个位置的可用氨基酸集是固定的，则对于序列中的每个位置和每个可用氨基酸，概率性生物聚合物序列可以指示该位置被该特定氨基酸占据的概率。这在图3C中进行更详细地说明。

在一些实施例中，该功能是两个或更多个分量功能的复合功能。在一些实施例中，该复合功能是该两个或更多个复合功能的加权和。在一些实施例中，该嵌入中的两个或更多个起点同时使用，例如，至少两个起点。在实施例中，可以同时使用2、3、4、5、6、7、8、9、10、20、30、40、50、100、200个起点，然而这是非限制性的列表。在一些实施例中，在采样过程中，使用考虑到已经生成的序列部分的条件概率，考虑包括残基同一性的概率分布的概率性序列中的残基之间的相关性。在一些实施例中，该方法进一步包括从包括残基同一性的概率分布的概率性生物聚合物序列中选择最大似然改进的生物聚合物序列。在一些实施例中，该方法进一步包括在包括残基同一性的概率分布的概率性生物聚合物序列的每个残基上对边际分布进行采样。在一些实施例中，该功能相对于该嵌入的变化是通过以下方式计算的：通过计算该功能相对于该编码器的变化，然后计算该编码器相对于该解码器的变化的变化，以及计算该解码器相对于该嵌入的变化。在一些实施例中，该方法包括：将该功能空间中的第一更新点或该功能空间中的进一步更新点提供给该解码器网络，以提供中间概率性生物聚合物序列，向该监督模型网络提供该中间概率性生物聚合物序列以预测该中间概率性生物聚合物序列的功能，然后计算该功能相对于该中间概率性生物聚合物的嵌入的变化，以在功能空间中提供进一步更新点。

本文描述了一种系统，该系统包括处理器；以及用软件编码的非暂态计算机可读介质，该软件被配置为使该处理器：(a)根据步长计算该功能相对于起点处的嵌入的变化，从而提供该功能空间中的第一更新点，该起点被提供给包括预测生物聚合物序列的功能的监督模型和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将生物聚合物序列嵌入在该功能空间中的情况下提供概率性生物聚合物序列，任选地其中，该起点是嵌入种子生物聚合物序列；(b)任选地计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，并且任选地迭代地计算该功能相对于进一步更新点处的嵌入的变化的过程；(c)在该功能空间中的第一更新点或任选地迭代的进一步更新点处接近所需的功能水平时，将该第一更新点或任选地迭代的进一步更新点提供给该解码器网络；以及(d)从该解码器获得概率性改进的生物聚合物序列。在一些实施例中，该嵌入是表示该功能并具有一个或多个梯度的连续可微功能空间。在一些实施例中，计算该功能相对于该嵌入的变化包括取该功能关于该嵌入的导数。在一些实施例中，该功能是两个或更多个分量功能的复合功能。在一些实施例中，该复合功能是该两个或更多个复合功能的加权和。在一些实施例中，该嵌入中的两个或更多个起点同时使用，例如，至少两个。在某些实施例中，可以使用2、3、4、5、6、7、8、9、10、20、30、40、50、100或200个，然而这是非限制性的列表。在一些实施例中，在采样过程中，使用考虑到已经生成的序列部分的条件概率，考虑包括残基同一性的概率分布的概率性序列中的残基之间的相关性。在一些实施例中，该处理器进一步被配置为从包括残基同一性的概率分布的概率性生物聚合物序列中选择最大似然改进的生物聚合物序列。在一些实施例中，该处理器进一步被配置为在包括残基同一性的概率分布的概率性生物聚合物序列的每个残基上对边际分布进行采样。在一些实施例中，该功能相对于该嵌入的变化是通过以下方式计算的：通过计算该功能相对于该编码器的变化，然后计算该编码器相对于该解码器的变化的变化，以及计算该解码器相对于该嵌入的变化。在一些实施例中，该处理器进一步被配置为：将该功能空间中的第一更新点或该功能空间中的进一步更新点提供给该解码器网络，以提供中间概率性生物聚合物序列，向该监督模型网络提供该中间概率性生物聚合物序列以预测该中间概率性生物聚合物序列的功能，然后计算该功能相对于该中间概率性生物聚合物的嵌入的变化，以在功能空间中提供进一步更新的点。

本文描述了一种非暂态计算机可读介质，该计算机可读介质包括指令，这些指令在由处理器执行时使该处理器：(a)根据步长计算该功能相对于起点处的嵌入的变化，从而提供该功能空间中的第一更新点，其中，该起点被提供给包括预测生物聚合物序列的功能的监督模型和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将生物聚合物序列嵌入在该功能空间中的情况下提供概率性生物聚合物序列，任选地其中，该起点是嵌入种子生物聚合物序列；(b)任选地计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，并且任选地迭代地计算该功能相对于进一步更新点处的嵌入的变化的过程；(c)在该功能空间中的第一更新点或任选地迭代的进一步更新点处接近所需的功能水平时，将该第一更新点或任选地迭代的进一步更新点提供给该解码器网络；以及(d)从该解码器获得概率性改进的生物聚合物序列。在一些实施例中，该嵌入是表示该功能并具有一个或多个梯度的连续可微功能空间。在一些实施例中，计算该功能相对于该嵌入的变化包括取该功能关于该嵌入的导数。在一些实施例中，该功能是两个或更多个分量功能的复合功能。在一些实施例中，该复合功能是该两个或更多个复合功能的加权和。在一些实施例中，该嵌入中的两个或更多个起点同时使用，例如，至少两个。在实施例中，可以使用2、3、4、5、6、7、8、9、10、20、30、40、50、100或200个起点，但这是非限制性的列表。在一些实施例中，在采样过程中，使用考虑到已经生成的序列部分的条件概率，考虑包括残基同一性的概率分布的概率性序列中的残基之间的相关性。在一些实施例中，该处理器进一步被配置为从包括残基同一性的概率分布的概率性生物聚合物序列中选择最大似然改进的生物聚合物序列。在一些实施例中，该处理器进一步被配置为在包括残基同一性的概率分布的概率性生物聚合物序列的每个残基上对边际分布进行采样。在一些实施例中，该功能相对于该嵌入的变化是通过以下方式计算的：通过计算该功能相对于该编码器的变化，然后计算该编码器相对于该解码器的变化的变化，以及计算该解码器相对于该嵌入的变化。在一些实施例中，该处理器进一步被配置为：将该功能空间中的第一更新点或该功能空间中的进一步更新点提供给该解码器网络，以提供中间概率性生物聚合物序列，向该监督模型网络提供该中间概率性生物聚合物序列以预测该中间概率性生物聚合物序列的功能，然后计算该功能相对于该中间概率性生物聚合物的嵌入的变化，以在功能空间中提供进一步更新的点。

本文披露了一种工程化通过功能评估的改进的生物聚合物序列的方法，该方法包括：(a)预测嵌入起点的功能，该起点被提供给包括预测生物聚合物序列的功能的监督模型网络和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于提供预测的概率性生物聚合物序列，可选地其中，该起点是嵌入种子生物聚合物序列；(b)根据步长来计算该功能相对于该起点处的嵌入的变化，从而提供该功能空间中的第一更新点；(c)在该解码器网络处，基于该功能空间中的第一更新点来计算第一中间概率性生物聚合物序列；(d)在该监督模型处，基于该第一中间概率性生物聚合物序列来预测该第一中间概率性生物聚合物序列的功能，(e)计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，以提供该功能空间中的更新点；(f)在该解码器网络处，基于该功能空间中的更新点来计算附加中间概率性生物聚合物序列；(g)由该监督模型基于该附加中间概率性生物聚合物序列来预测该附加中间概率性生物聚合物序列的功能；(h)计算该功能相对于该功能空间中的进一步第一更新点处的嵌入的变化，以提供该功能空间中的又进一步更新点，任选地迭代步骤(g)-(i)，其中，步骤(h)中引用的该功能空间中的又进一步更新点被视为步骤(f)中该功能空间中的进一步更新点；以及(i)在该功能空间中接近所需的功能水平时，将该嵌入的点提供给该解码器网络；以及从该解码器获得概率性改进的生物聚合物序列。在一些实施例中，该生物聚合物是蛋白质。在一些实施例中，该种子生物聚合物序列是多个序列的平均值。在一些实施例中，该种子生物聚合物序列不具有功能或功能水平低于该所需的功能水平。在一些实施例中，该编码器是使用至少20、30、40、50、60、70、80、90、100、150或200个生物聚合物序列的训练数据集来训练的。在一些实施例中，该编码器是卷积神经网络(CNN)或递归神经网络(RNN)。在一些实施例中，该编码器是变换(transformer)神经网络。在一些实施例中，该编码器包括一个或多个卷积层、池化层、全连接层、归一化层或其任何组合。在一些实施例中，该编码器是深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该编码器包括至少10、50、100、250、500、750或1000或更多层。在一些实施例中，该编码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该编码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该编码器使用迁移学习程序进行训练。在一些实施例中，该迁移学习程序包括：使用未标记功能的第一生物聚合物序列训练数据集来训练第一模型，生成包括该第一模型的至少一部分的第二模型，以及使用标记了功能的第二生物聚合物序列训练数据集来训练该第二模型，从而生成已训练编码器。在一些实施例中，该解码器是使用至少20、30、40、50、60、70、80、90、100、150或200个生物聚合物序列的训练数据集来训练的。在一些实施例中，该解码器是卷积神经网络(CNN)或递归神经网络(RNN)。在一些实施例中，该解码器是变换神经网络。在一些实施例中，该解码器包括一个或多个卷积层、池化层、全连接层、归一化层或其任何组合。在一些实施例中，该解码器是深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该解码器包括至少10、50、100、250、500、750或1000层。在一些实施例中，该解码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该解码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该解码器使用迁移学习程序进行训练。在一些实施例中，该迁移学习程序包括：使用未标记功能的第一生物聚合物序列训练数据集来训练第一模型，生成包括该第一模型的至少一部分的第二模型，以及使用标记了功能的第二生物聚合物序列训练数据集来训练该第二模型，从而生成已训练解码器。在一些实施例中，与该种子生物聚合物序列的一种或多种功能相比，该改进的生物聚合物序列的一种或多种功能得到改进。在一些实施例中，该一种或多种功能选自荧光、酶活性、核酸酶活性和蛋白质稳定性。在一些实施例中，使用两个或更多个功能的加权线性组合来评估该生物聚合物序列。

本文描述了一种计算机系统，该计算机系统包括处理器；以及用软件编码的非暂态计算机可读介质，该软件被配置为使该处理器：(a)根据步长计算该功能相对于起点处的嵌入的变化，从而提供该功能空间中的第一更新点，该嵌入起点被提供给包括预测生物聚合物序列的功能的监督模型网络和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将预测的生物聚合物序列嵌入在该功能空间中的情况下提供预测的概率性生物聚合物序列，任选地其中，该起点是嵌入种子生物聚合物序列；(b)在该解码器网络处，基于该功能空间中的第一更新点来计算第一中间概率性生物聚合物序列；(c)在该监督模型处，基于该第一中间概率性生物聚合物序列来预测该第一中间概率性生物聚合物序列的功能，(d)计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，以提供该功能空间中的更新点；(e)在该解码器网络处，基于该功能空间中的更新点来计算附加中间概率性生物聚合物序列；(f)在该监督模型处，基于该附加中间概率性生物聚合物序列来预测该附加中间概率性生物聚合物序列的功能；(g)计算该功能相对于该功能空间中的进一步第一更新点处的嵌入的变化，以提供该功能空间中的又进一步更新点，任选地迭代步骤(f)-(g)，其中，步骤(g)中引用的该功能空间中的又进一步更新点被视为步骤(e)中该功能空间中的进一步更新点；以及(i)在该功能空间中接近所需的功能水平时，将该嵌入的点提供给该解码器网络；以及(j)从该解码器获得概率性改进的生物聚合物序列。在一些实施例中，该生物聚合物是蛋白质。在一些实施例中，该种子生物聚合物序列是多个序列的平均值。在一些实施例中，该种子生物聚合物序列不具有功能或功能水平低于该所需的功能水平。在一些实施例中，该编码器是使用至少20、30、40、50、60、70、80、90、100、150或200个生物聚合物序列的训练数据集来训练的。在一些实施例中，该编码器是卷积神经网络(CNN)或递归神经网络(RNN)。在一些实施例中，该编码器是变换神经网络。在一些实施例中，该编码器包括一个或多个卷积层、池化层、全连接层、归一化层或其任何组合。在一些实施例中，该编码器是深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该编码器包括至少10、50、100、250、500、750或1000或更多层。在一些实施例中，该编码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该编码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该编码器使用迁移学习程序进行训练。在一些实施例中，该迁移学习程序包括：使用未标记功能的第一生物聚合物序列训练数据集来训练第一模型，生成包括该第一模型的至少一部分的第二模型，以及使用标记了功能的第二生物聚合物序列训练数据集来训练该第二模型，从而生成已训练编码器。在一些实施例中，该解码器是使用至少20、30、40、50、60、70、80、90、100、150或200个生物聚合物序列的训练数据集来训练的。在一些实施例中，该解码器是卷积神经网络(CNN)或递归神经网络(RNN)。在一些实施例中，该解码器是变换神经网络。在一些实施例中，该解码器包括一个或多个卷积层、池化层、全连接层、归一化层或其任何组合。在一些实施例中，该解码器是深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该解码器包括至少10、50、100、250、500、750或1000或更多层。在一些实施例中，该解码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该解码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该解码器使用迁移学习程序进行训练。在一些实施例中，该迁移学习程序包括：使用未标记功能的第一生物聚合物序列训练数据集来训练第一模型，生成包括该第一模型的至少一部分的第二模型，以及使用标记了功能的第二生物聚合物序列训练数据集来训练该第二模型，从而生成已训练解码器。在一些实施例中，与该种子生物聚合物序列的一种或多种功能相比，该改进的生物聚合物序列的一种或多种功能得到改进。在一些实施例中，该一种或多种功能选自荧光、酶活性、核酸酶活性和蛋白质稳定性。在一些实施例中，使用两个或更多个功能的加权线性组合来评估该生物聚合物序列。

本文描述了一种非暂态计算机可读介质，该计算机可读介质包括指令，这些指令在由处理器执行时使该处理器：(a)预测嵌入起点的功能，其中，该起点是嵌入种子生物聚合物序列，该起点被提供给包括预测生物聚合物序列的功能的监督模型网络和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将预测的生物聚合物序列嵌入在该功能空间中的情况下提供预测的概率性生物聚合物序列；(b)根据步长来计算该功能相对于该起点处的嵌入的变化，从而提供该功能空间中的第一更新点；(c)将该功能空间中的第一更新点提供给该解码器网络，以提供第一中间概率性生物聚合物序列；(d)由该监督模型基于该第一中间概率性生物聚合物序列来预测该第一中间概率性生物聚合物序列的功能；(e)计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，以提供该功能空间中的更新点；(f)由该解码器网络基于该功能空间中的更新点来提供附加中间概率性生物聚合物序列；(g)预测该附加中间概率性生物聚合物序列的功能，向该监督模型提供该附加中间概率性生物聚合物序列；(h)计算该功能相对于该功能空间中的进一步第一更新点处的嵌入的变化，以提供该功能空间中的又进一步更新点，任选地迭代步骤(f)-(h)，其中，步骤(h)中引用的该功能空间中的又进一步更新点被视为步骤(f)中该功能空间中的进一步更新点；以及(i)在该功能空间中接近所需的功能水平时，将该嵌入的点提供给该解码器网络；以及从该解码器获得概率性改进的生物聚合物序列。在一些实施例中，该生物聚合物是蛋白质。在一些实施例中，该种子生物聚合物序列是多个序列的平均值。在一些实施例中，该种子生物聚合物序列不具有功能或功能水平低于该所需的功能水平。在一些实施例中，该编码器是使用至少20、30、40、50、60、70、80、90、100、150或200个生物聚合物序列的训练数据集来训练的。在一些实施例中，该编码器是卷积神经网络(CNN)或递归神经网络(RNN)。在一些实施例中，该编码器是变换神经网络。在一些实施例中，该编码器包括一个或多个卷积层、池化层、全连接层、归一化层或其任何组合。在一些实施例中，该编码器是深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该编码器包括至少10、50、100、250、500、750或1000或更多层。在一些实施例中，该编码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该编码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该编码器使用迁移学习程序进行训练。在一些实施例中，该迁移学习程序包括：使用未标记功能的第一生物聚合物序列训练数据集来训练第一模型，生成包括该第一模型的至少一部分的第二模型，以及使用标记了功能的第二生物聚合物序列训练数据集来训练该第二模型，从而生成已训练编码器。在一些实施例中，该解码器是使用至少20、30、40、50、60、70、80、90、100、150或200个生物聚合物序列的训练数据集来训练的。在一些实施例中，该解码器是卷积神经网络(CNN)或递归神经网络(RNN)。在一些实施例中，该解码器是变换神经网络。在一些实施例中，该解码器包括一个或多个卷积层、池化层、全连接层、归一化层或其任何组合。在一些实施例中，该解码器是深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、DeepResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该解码器包括至少10、50、100、250、500、750或1000或更多层。在一些实施例中，该解码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该解码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该解码器使用迁移学习程序进行训练。在一些实施例中，该迁移学习程序包括：使用未标记功能的第一生物聚合物序列训练数据集来训练第一模型，生成包括该第一模型的至少一部分的第二模型，以及使用标记了功能的第二生物聚合物序列训练数据集来训练该第二模型，从而生成已训练解码器。在一些实施例中，与该种子生物聚合物序列的一种或多种功能相比，该改进的生物聚合物序列的一种或多种功能得到改进。在一些实施例中，该一种或多种功能选自荧光、酶活性、核酸酶活性和蛋白质稳定性。在一些实施例中，使用两个或更多个功能的加权线性组合来评估该生物聚合物序列。

本文披露了一种用于工程化具有指定的蛋白质功能的生物聚合物序列的计算机实施的方法，该方法包括：(a)通过编码器方法生成初始生物聚合物序列的嵌入；(b)通过优化方法，通过调整一个或多个嵌入参数来迭代地改变该嵌入以与该指定的蛋白质功能相对应，从而生成更新的嵌入；(c)通过解码器方法处理该更新的嵌入以生成最终的生物聚合物序列。在一些实施例中，该生物聚合物序列包含一级蛋白质氨基酸序列。在一些实施例中，该氨基酸序列导致蛋白质构型，该蛋白质构型产生蛋白质功能。在一些实施例中，该蛋白质功能包含荧光。在一些实施例中，该蛋白质功能包含酶活性。在一些实施例中，该蛋白质功能包含核酸酶活性。在一些实施例中，该蛋白质功能包含蛋白质稳定性程度。在一些实施例中，该编码器方法被配置为接收该初始生物聚合物序列并生成该嵌入。在一些实施例中，该编码器方法包括深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该编码器包括至少10、50、100、250、500、750或1000或更多层。在一些实施例中，该编码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该编码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该解码器方法包括深度卷积神经网络。在一些实施例中，使用两个或更多个功能的加权线性组合来评估该生物聚合物序列。在一些实施例中，该优化方法在连续可微的嵌入空间中使用基于梯度的下降生成更新的嵌入。在一些实施例中，该优化方法使用从Adam、RMS Prop、Ada delta、AdamMAX或具有动量的SGD中选择的优化方案。在一些实施例中，最终的生物聚合物序列针对至少一个附加蛋白质功能进行了进一步优化。在一些实施例中，该优化方法根据整合了该蛋白质功能和该至少一个附加蛋白质功能的复合功能生成该更新的嵌入。在一些实施例中，该复合功能是与该蛋白质功能和该至少一个附加蛋白质功能相对应的两个或更多个功能的加权线性组合。

本文披露了一种用于工程化具有指定的蛋白质功能的生物聚合物序列的计算机实施的方法，该方法包括：(a)通过编码器方法生成初始生物聚合物序列的嵌入；(b)通过优化方法，通过修改一个或多个嵌入参数来调整该嵌入以实现该指定的蛋白质功能，从而生成更新的嵌入；(c)通过解码器方法处理该更新的嵌入以生成最终的生物聚合物序列。

本文描述了一种计算机系统，该计算机系统包括处理器；以及用软件编码的非暂态计算机可读介质，该软件被配置为使该处理器：(a)通过编码器方法生成初始生物聚合物序列的嵌入；(b)通过优化方法，通过调整一个或多个嵌入参数来迭代地改变该嵌入以与该指定的蛋白质功能相对应，从而生成更新的嵌入；(c)通过解码器方法处理该更新的嵌入以生成最终的生物聚合物序列。在一些实施例中，该生物聚合物序列包含一级蛋白质氨基酸序列。在一些实施例中，该氨基酸序列导致蛋白质构型，该蛋白质构型产生蛋白质功能。在一些实施例中，该蛋白质功能包含荧光。在一些实施例中，该蛋白质功能包含酶活性。在一些实施例中，该蛋白质功能包含核酸酶活性。在一些实施例中，该蛋白质功能包含蛋白质稳定性程度。在一些实施例中，该编码器方法被配置为接收该初始生物聚合物序列并生成该嵌入。在一些实施例中，该编码器方法包括深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该编码器包括至少10、50、100、250、500、750或1000或更多层。在一些实施例中，该编码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该编码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该解码器方法包括深度卷积神经网络。在一些实施例中，使用两个或更多个功能的加权线性组合来评估该生物聚合物序列。在一些实施例中，该优化方法在连续可微的嵌入空间中使用基于梯度的下降生成更新的嵌入。在一些实施例中，该优化方法使用从Adam、RMS Prop、Ada delta、AdamMAX或具有动量的SGD中选择的优化方案。在一些实施例中，最终的生物聚合物序列针对至少一个附加蛋白质功能进行了进一步优化。在一些实施例中，该优化方法根据整合了该蛋白质功能和该至少一个附加蛋白质功能的复合功能生成该更新的嵌入。在一些实施例中，该复合功能是与该蛋白质功能和该至少一个附加蛋白质功能相对应的两个或更多个功能的加权线性组合。

本文描述了一种非暂态计算机可读介质，该计算机可读介质包括指令，这些指令在由处理器执行时使该处理器：(a)通过编码器方法生成初始生物聚合物序列的嵌入；(b)通过优化方法，通过调整一个或多个嵌入参数来迭代地改变该嵌入以与该指定的蛋白质功能相对应，从而生成更新的嵌入；(c)通过解码器方法处理该更新的嵌入以生成最终的生物聚合物序列。在一些实施例中，该生物聚合物序列包含一级蛋白质氨基酸序列。在一些实施例中，该氨基酸序列导致蛋白质构型，该蛋白质构型产生蛋白质功能。在一些实施例中，该蛋白质功能包含荧光。在一些实施例中，该蛋白质功能包含酶活性。在一些实施例中，该蛋白质功能包含核酸酶活性。在一些实施例中，该蛋白质功能包含蛋白质稳定性程度。在一些实施例中，该编码器方法被配置为接收该初始生物聚合物序列并生成该嵌入。在一些实施例中，该编码器方法包括深度卷积神经网络。在一些实施例中，该卷积神经网络是一维卷积网络。在一些实施例中，该卷积神经网络是二维或更高维的卷积神经网络。在一些实施例中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，该编码器包括至少10、50、100、250、500、750或1000或更多层。在一些实施例中，该编码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。在一些实施例中，使用批归一化执行该正则化。在一些实施例中，使用组归一化执行该正则化。在一些实施例中，该编码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。在一些实施例中，该解码器方法包括深度卷积神经网络。在一些实施例中，使用两个或更多个功能的加权线性组合来评估该生物聚合物序列。在一些实施例中，该优化方法在连续可微的嵌入空间中使用基于梯度的下降生成更新的嵌入。在一些实施例中，该优化方法使用从Adam、RMS Prop、Ada delta、AdamMAX或具有动量的SGD中选择的优化方案。在一些实施例中，最终的生物聚合物序列针对至少一个附加蛋白质功能进行了进一步优化。在一些实施例中，该优化方法根据整合了该蛋白质功能和该至少一个附加蛋白质功能的复合功能生成该更新的嵌入。在一些实施例中，该复合功能是与该蛋白质功能和该至少一个附加蛋白质功能相对应的两个或更多个功能的加权线性组合。

本文披露了一种制造生物聚合物的方法，该方法包括合成能够通过前述实施例中任一项所述的方法或使用前述实施例中任一项所述的系统获得的改进的生物聚合物序列。

本文披露了一种荧光蛋白，包含相对于SEQ ID NO:1的氨基酸序列并且具有相对于SEQ ID NO:1增加的荧光，该氨基酸序列包括在选自Y39、F64、V68、D129、V163、K166、G191或其组合中的位点处的替代物。在一些实施例中，该荧光蛋白包括在Y39、F64、V68、D129、V163、K166和G191中的2、3、4、5、6或全部7处的替代物。在一些实施例中，该荧光蛋白包含相对于SEQ ID NO:1的S65。在一些实施例中，该氨基酸序列包含相对于SEQ ID NO:1的S65。在一些实施例中，该氨基酸序列包含在F64和V68处的替代物。在一些实施例中，该氨基酸序列包含Y39、D129、V163、K166和G191中的1、2、3、4或全部5个。在一些实施例中，Y39、F64、V68、D129、V163、K166或G191处的替代物分别为Y39C、F64L、V68M、D129G、V163A、K166R或G191V。在一些实施例中，该荧光蛋白包含与SEQ ID NO:1至少80％、85％、90％、92％、92％、93％、94％、95％、96％、97％、98％、99％或更多相同的氨基酸序列。在一些实施例中，该荧光蛋白包含相对于SEQ ID NO:1至少1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个突变。在一些实施例中，该荧光蛋白包含相对于SEQ ID NO:1不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个突变。在一些实施例中，该荧光蛋白具有至少约：SEQ ID NO:1的2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50倍的荧光强度。在一些实施例中，该荧光蛋白具有至少约：超级文件夹GFP(AIC82357)的2、3、4或5倍的荧光。在一些实施例中，本文披露了一种包含荧光蛋白的融合蛋白。在一些实施例中，本文披露了一种包含编码荧光蛋白或融合蛋白的序列的核酸。在一些实施例中，本文披露了一种包含核酸的载体。在一些实施例中，本文披露了一种包含蛋白质、核酸或载体的宿主细胞。在一些实施例中，本文披露了一种可视化方法，包括检测荧光蛋白。在一些实施例中，该检测是通过检测该荧光蛋白的发射光谱的波长。在一些实施例中，该可视化在细胞中。在一些实施例中，该细胞在分离的生物组织中、体外或体内。在一些实施例中，本文披露了一种表达荧光蛋白或融合蛋白的方法，包括将表达载体引入细胞中，该表达载体包含编码多肽的核酸。在一些实施例中，该方法进一步包括培养该细胞以生长一批培养细胞并从该批培养细胞中纯化该多肽。在一些实施例中，本文披露了一种检测生物细胞或组织内、组织内的多肽的荧光信号的方法，该方法包括：(a)将荧光蛋白或包含编码所述荧光蛋白的核酸的表达载体引入该生物细胞或组织中；(b)将适合于激发该荧光蛋白的第一波长的光引导在该生物细胞或组织上；以及(c)检测由该荧光蛋白响应于该第一波长的光的吸收而发射的第二波长的光。在一些实施例中，该第二波长的光是使用荧光显微镜或荧光激活细胞分选(FACS)来检测的。在一些实施例中，该生物细胞或组织是原核或真核细胞。在一些实施例中，该表达载体包含融合基因，该融合基因包含与N末端或C末端上的另一个基因融合的编码该多肽的核酸。在一些实施例中，该表达载体包含控制该多肽的表达的启动子，该启动子是组成型活性启动子或诱导型表达启动子。

披露了一种用于训练在如前所述的方法或系统中使用的监督模型的方法。该监督模型包括编码器网络，该编码器网络被配置为将生物聚合物序列映射到嵌入功能空间中的表示。该监督模型被配置为基于这些表示来预测该生物聚合物序列的功能。该方法包括以下步骤：(a)提供多个训练生物聚合物序列，其中，每个训练生物聚合物序列被标记有功能；(b)使用该编码器将每个训练生物聚合物序列映射到该嵌入功能空间中的表示；(c)基于这些表示，使用该监督模型来预测每个训练生物聚合物序列的功能；(d)针对每个训练生物聚合物序列，使用预定的预测损失函数来确定该预测功能与按照相应训练生物聚合物序列的标签的功能的一致性程度；以及(e)优化表征该监督模型的行为的参数，目的是通过在进一步训练生物聚合物序列由该监督模型处理时所产生的所述预测损失函数来提高评级。

披露了一种用于训练在如前所述的方法或系统中使用的解码器的方法。该解码器被配置为将生物聚合物序列的表示从嵌入功能空间映射到概率性生物聚合物序列。该方法包括以下步骤：(a)在该嵌入功能空间中提供生物聚合物序列的多个表示；(b)使用该解码器将每个表示映射到概率性生物聚合物序列；(c)从每个概率性生物聚合物序列中抽取样本生物聚合物序列；(d)使用已训练编码器将该样本生物聚合物序列映射到所述嵌入功能空间中的表示；(e)使用预定的重建损失函数来确定每个如此确定的表示与对应的原始表示的一致性程度；以及(f)优化表征该解码器的行为的参数，目的是通过在来自所述嵌入功能空间的生物聚合物序列的进一步表示由该解码器处理时所产生的所述重建损失函数来提高评级。

任选地，该编码器是被配置为基于该解码器生成的这些表示来预测该生物聚合物序列的功能的监督模型的一部分，并且该方法进一步包括：(a)通过使用该已训练编码器将训练生物聚合物序列映射到该嵌入功能空间中的表示，来将生物聚合物序列的多个表示中的至少一部分提供给该解码器；(b)对于从该概率性生物聚合物序列中抽取的样本生物聚合物序列，使用该监督模型来预测该样本生物聚合物序列的功能；(c)将所述功能与由相同监督模型针对对应原始训练生物聚合物序列预测的功能进行比较；(d)使用预定的一致性损失函数来确定针对该样本生物聚合物序列预测的功能与针对该原始训练生物聚合物序列预测的功能的一致性程度；以及(e)优化表征该解码器的行为的参数，目的是通过当该编码器从训练生物聚合物序列生成的生物聚合物序列的进一步表示由该解码器处理时所产生的所述一致性损失函数和/或通过所述一致性损失函数与所述重建损失函数的预定组合来提高评级。

披露了一种用于训练监督模型和解码器的集合的方法。该监督模型包括编码器网络，该编码器网络被配置为将生物聚合物序列映射到嵌入功能空间中的表示。该监督模型被配置为基于这些表示来预测该生物聚合物序列的功能。该解码器被配置为将生物聚合物序列的表示从嵌入功能空间映射到概率性生物聚合物序列。该方法包括以下步骤：(a)提供多个训练生物聚合物序列，其中，每个训练生物聚合物序列被标记有功能；(b)使用该编码器将每个训练生物聚合物序列映射到该嵌入功能空间中的表示；(c)基于这些表示，使用该监督模型来预测每个训练生物聚合物序列的功能；(d)使用该解码器将该嵌入功能空间中的每个表示映射到概率性生物聚合物序列；(e)从该概率性生物聚合物序列中抽取样本生物聚合物序列；(f)针对每个训练生物聚合物序列，使用预定的预测损失函数来确定该预测功能与按照相应训练生物聚合物序列的标签的功能的一致性程度；(g)针对每个样本生物聚合物序列，使用预定的重建损失函数来确定该样本生物聚合物序列与产生该样本生物聚合物序列的原始训练生物聚合物序列的一致性程度；以及(h)优化表征该监督模型的行为的参数和表征该解码器的行为的参数，目的是通过该预测损失函数和该重建损失函数的预定组合来提高评级。

此外，根据这些训练方法之一获得的表征监督模型、编码器或解码器的行为的一组参数是本发明范围内的另一产品。

通过引用并入

本说明书中提到的所有出版物、专利和专利申请通过援引并入本文，其程度如同明确地和单独地指示将每篇单独的公开、专利或专利申请通过援引并入本文。具体地，美国申请号62/804,036通过引用并入本文。

附图说明

本专利或申请文件包含至少一个彩色附图。应请求并且支付必要的费用后，具有(多个)彩色附图的本专利或专利申请公开的副本将由专利局提供。通过参考下面的详细描述和附图，将获得对本发明特征和优点的更好理解，下面的详细描述阐述了说明性实施例，其中利用了本披露的原理，并且附图中：

图1示出了图示作为神经网络的编码器的非限制性实施例的图。

图2示出了图示作为神经网络的解码器的非限制性实施例的图。

图3A示出了基于梯度的设计程序的非限制性概览。

图3B示出了基于梯度的设计程序的一次迭代的非限制性示例。

图3C示出了对由解码器生成的概率性序列进行编码的矩阵的非限制性示例。

图4示出了图示解码器验证程序的非限制性实施例的图。

图5A示出了GFP编码器模型针对训练数据集的预测荧光值与真实荧光值的关系图。

图5B示出了GFP编码器模型针对验证数据集的预测荧光值与真实荧光值的关系图。

图6A至图6B示出了如本文所述的计算系统的示例性实施例。

图7示出了图示用于工程化GFP序列的基于梯度的设计(GBD)的非限制性示例的图。

图8示出了使用GBD创建的GFP序列的相对荧光值的实验验证结果。

图9示出了avGFP与具有最高实验验证荧光的GBD工程化的GFP序列的成对氨基酸序列比对。

图10示出了图示预测的抗性在基于梯度的设计的轮次或迭代中的演变的图表。

图11示出了为对使用基于梯度的设计而设计的七种新型β-内酰胺酶所赋予的实际抗生素抗性进行评估而进行的验证实验的结果。

图12A至图12F是图示了RNA优化(12A-C)和格子蛋白质优化(12D-F)的离散优化结果的图。

图13A至图13H是图示了基于梯度的优化的结果的图。

图14A至图14B是图示了对正则化项λ进行增权重的效果的图：较大的λ导致模型误差降低，但在优化过程中，由于模型被限制在分配了高概率p_θ的序列，序列多样性也对应降低。

图15A至图15B图示了启发式激励GBD：它将群组驱动到

可以可靠解码的Z区域。

图16图示了GBD能够比离散方法找到离初始种子序列更远的最优值，同时保持相当低的误差。

图17是图示了湿实验室数据的图表，其测试了所列蛋白质所生成的方差，验证了所生成的蛋白质的亲和力。

具体实施方式

本文描述的是用于生成与性质或功能相对应的氨基酸序列的预测的系统、装置、软件和方法。机器学习方法允许生成模型，这些模型接收输入数据(如一级氨基酸序列)并生成与至少部分由氨基酸序列定义的所得多肽或蛋白质的一种或多种功能或特征相对应的经修饰的氨基酸序列。输入数据可以包括另外的信息，例如氨基酸相互作用的接触图、三级蛋白质结构或与多肽结构有关的其他相关信息。在一些情况下，迁移学习用于在经标记的训练数据不足时提高模型的预测能力。输入的氨基酸序列可以被映射到嵌入空间，在嵌入空间内针对所需的功能或性质(例如，增加酶的反应速率)进行优化，然后解码成映射到所需的功能或性质的经修饰的氨基酸序列。

本披露结合了蛋白质适合于基于机器学习的合理序列设计(如使用深度神经网络的基于梯度的设计，其允许使用标准优化技术(例如，梯度上升)来创建执行所需功能的氨基酸序列)的新发现。在基于梯度的设计的说明性示例中，将初始氨基酸序列投射到代表蛋白质功能的新嵌入空间中。蛋白质序列的嵌入是将蛋白质作为D维空间中的点的表示。在这个新空间中，可以将蛋白质编码为两个数字的向量(例如，在2维空间的情况下)，这提供了该蛋白质在嵌入空间中的坐标。嵌入空间的一个性质是，在该空间附近的蛋白质在功能上是相似和相关的。因此，当蛋白质集合被嵌入到这个空间中时，任何两种蛋白质的功能相似性可以通过使用欧几里得度量计算它们之间的距离来确定。

计算机蛋白质设计

在一些实施例中，本文披露的设备、软件、系统和方法利用(多种)机器学习方法作为蛋白质设计的工具。在一些实施例中，使用连续可微的嵌入空间来生成映射到所需功能或性质的新蛋白质或多肽序列。在一些情况下，该过程包括提供种子序列(例如，不执行(多个)所需功能或不在所需水平上执行所需功能的序列)，将种子序列投射到嵌入空间中，通过在嵌入空间中进行小的更改来迭代地优化该序列，然后将这些更改映射回序列空间。在一些情况下，种子序列缺乏所需功能或性质(例如，不具有抗生素抗性的β-内酰胺酶)。在一些情况下，种子序列具有某个功能或性质(例如，具有一些荧光的基线GFP序列)。种子序列可以具有最高或“最佳”的可用功能或性质(例如，文献中具有最高荧光强度的GFP)。种子序列可以具有与所需功能或性质最接近的功能或性质。例如，可以选择荧光强度值最接近最终所需荧光强度值的种子GFP序列。种子序列可以基于单个序列或者多个序列的平均或共有序列。例如，可以平均多个GFP序列以产生共有序列。被平均的序列可以代表“最佳”序列(例如，具有最高或最接近水平的所需功能或性质的待优化序列)的起点。本文披露的方法可以利用多于一种方法或训练模型。在一些实施例中，提供了两个协同工作的神经网络：编码器网络和解码器网络。编码器网络可以接收可以表示为独热向量序列的氨基酸序列，并为该蛋白质生成嵌入。同样，解码器可以获得该嵌入并返回映射到嵌入空间中的特定点的氨基酸序列。

为了改变给定蛋白质的功能，可以首先使用编码器网络将初始序列投射到嵌入空间中。接下来，可以通过将初始序列在嵌入空间内的位置“移动”到由具有所需功能(或功能水平，例如增强功能)的蛋白质占据的空间区域来改变蛋白质的功能。一旦嵌入的序列移动到嵌入空间的所需区域(并因此达到所需的功能水平)，就可以使用解码器网络接收嵌入空间中的新坐标并产生将编码具有所需功能或功能水平的真实蛋白质的实际氨基酸序列。在其中编码器网络和解码器网络是深度神经网络的一些实施例中，可以针对嵌入空间内的点计算偏导数，从而允许优化方法(如例如基于梯度的优化程序)来计算该空间中的最陡改进方向。

本文描述的计算机蛋白质设计的一个实施例的简化、逐步概述包括以下步骤：

(1)选择蛋白质作为“种子”蛋白质。该蛋白质用作要修饰的碱基序列。

(2)使用编码器网络将该蛋白质投射到嵌入空间中。

(3)使用梯度上升程序对嵌入空间内的种子蛋白质进行迭代改进，该程序基于功能相对于编码器网络提供的嵌入的导数。

(4)一旦获得所需的功能水平，使用解码器网络将最终嵌入映射回序列空间。这会产生具有所需功能水平的氨基酸序列。

嵌入空间的构建

在一些实施例中，本文披露的设备、软件、系统和方法利用编码器来在给定诸如一级氨基酸序列等输入时生成嵌入空间。在一些实施例中，编码器是通过训练神经网络(例如，深度神经网络)来构建的，以基于一组标记的训练数据来预测期望的功能。编码器模型可以是使用呈1D卷积(例如一级氨基酸序列)、2D卷积(例如氨基酸相互作用的接触图)或3D卷积(例如三级蛋白质结构)形式的卷积神经网络(CNN)的监督模型。卷积架构可以是以下描述的架构中的任何一种：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。

在一些实施例中，编码器利用任意数量的替代正则化方法来防止过拟合。正则化方法的说明性非限制性示例包括提前停止，包括在至少1、2、3、4个层直到所有层的退出，包括在至少1、2、3、4个层直到所有层的L1-L2正则化，包括在至少1、2、3、4个层直到所有层的跳跃连接。在此，术语“退出(drop out)”尤其可以包括在训练期间随机停用该层的一些神经元或其他处理单元，使得训练实际上是在大量略微不同的网络架构上执行的。这减少了“过拟合”，即，使网络过度适应手头的具体训练数据，而不是从该训练数据中学习一般化知识。替代性地或组合地，可以使用批归一化或组归一化来执行正则化。

在一些实施例中，使用以下非限制性优化程序中的任一种对编码器进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。可以使用以下激活函数中的任一个对模型进行优化：softmax、elu、SeLU、softplus、softsign、ReLU、tanh、sigmoid、hard_sigmoid、指数、PReLU和LeaskyReLU或线性。

在一些实施例中，编码器包含3个层至100,000个层。在一些实施例中，编码器包含3个层至5个层、3个层至10个层、3个层至50个层、3个层至100个层、3个层至500个层、3个层至1,000个层、3个层至5,000个层、3个层至10,000个层、3个层至50,000个层、3个层至100,000个层、3个层至100,000个层、5个层至10个层、5个层至50个层、5个层至100个层、5个层至500个层、5个层至1,000个层、5个层至5,000个层、5个层至10,000个层、5个层至50,000个层、5个层至100,000个层、5个层至100,000个层、10个层至50个层、10个层至100个层、10个层至500个层、10个层至1,000个层、10个层至5,000个层、10个层至10,000个层、10个层至50,000个层、10个层至100,000个层、10个层至100,000个层、50个层至100个层、50个层至500个层、50个层至1,000个层、50个层至5,000个层、50个层至10,000个层、50个层至50,000个层、50个层至100,000个层、50个层至100,000个层、100个层至500个层、100个层至1,000个层、100个层至5,000个层、100个层至10,000个层、100个层至50,000个层、100个层至100,000个层、100个层至100,000个层、500个层至1,000个层、500个层至5,000个层、500个层至10,000个层、500个层至50,000个层、500个层至100,000个层、500个层至100,000个层、1,000个层至5,000个层、1,000个层至10,000个层、1,000个层至50,000个层、1,000个层至100,000个层、1,000个层至100,000个层、5,000个层至10,000个层、5,000个层至50,000个层、5,000个层至100,000个层、5,000个层至100,000个层、10,000个层至50,000个层、10,000个层至100,000个层、10,000个层至100,000个层、50,000个层至100,000个层、50,000个层至100,000个层、或100,000个层至100,000个层。在一些实施例中，编码器包含3个层、5个层、10个层、50个层、100个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、或100,000个层。在一些实施例中，编码器包含至少3个层、5个层、10个层、50个层、100个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、或100,000个层。在一些实施例中，编码器包含至多5个层、10个层、50个层、100个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、或100,000个层。

在一些实施例中，编码器被训练以在给定蛋白质或多肽的原始氨基酸序列的情况下预测蛋白质或多肽的功能或性质。作为学习预测的副产品，编码器的倒数第二层对嵌入空间中的原始序列进行编码。因此，为了嵌入给定序列，该给定序列通过网络的所有层一直到倒数第二层，并将该层的激活模式作为嵌入。图1是图示了作为神经网络的编码器100的非限制性实施例的图。编码器神经网络被训练以在给定输入序列110的情况下预测特定功能102。倒数第二层是二维嵌入104，其对关于给定序列的功能的所有信息进行编码。因此，编码器可以获得输入序列，如氨基酸序列或与氨基酸序列相对应的核酸序列，并处理该序列以创建源序列的嵌入或向量化表示，该表示捕获嵌入空间内的氨基酸序列的功能。初始源序列的选择可以基于合理方式(例如，具有最高功能水平的(多个)蛋白质)或通过一些其他方式(例如，随机选择)。

然而，并不严格要求编码器参与从输入序列一直到功能的具体定量值的所有过程。而是，与编码器不同的层或其他处理单元可以接受由编码器提供的嵌入并将其映射到所寻求的功能定量值。图3A中图示了一个这样的实施例。

编码器和解码器可以在编码器-解码器布置中至少部分地串联训练。无论功能的定量值是在编码器内部还是编码器外部评估，从输入的生物聚合物序列开始，编码器产生的嵌入空间中的压缩表示可以被馈送到解码器，然后可以确定由解码器提供的概率性生物聚合物序列与原始输入生物聚合物序列的一致性程度。例如，可以从概率性生物聚合物序列中抽取一个或多个样本，并且可以将一个或多个抽取的样本与原始输入生物聚合物序列进行比较。然后可以优化表征编码器和/或解码器的行为的参数，使得概率性生物聚合物序列与原始输入生物聚合物序列之间的一致性最大化。

如稍后将讨论的，这种一致性可以通过预定损失函数(“重建损失”)来衡量。最重要的是，功能的预测可以在输入生物聚合物序列上进行训练，这些输入生物聚合物序列标记有应当通过预测再现的功能的已知值。预测与功能的实际已知值的一致性可以通过可以以任何合适方式与所述重建损失组合的另一损失来衡量。

在一些实施例中，至少部分地使用迁移学习来生成编码器以提高性能。起点可以是除输出层(或一个或多个附加层)之外冻结的完整第一模型，该模型在目标蛋白质功能或蛋白质特征上进行训练。起点可以是预训练的模型，其中嵌入层、最后2层、最后3层或所有层被解冻，模型的其余部分在目标蛋白质功能或蛋白质特征上训练期间被冻结。

嵌入空间中基于梯度的蛋白质设计

在一些实施例中，本文披露的设备、软件、系统和方法获得输入数据(如一级氨基酸序列)的初始嵌入，并朝向特定功能或性质来优化嵌入。在一些实施例中，一旦已经创建了嵌入，就使用诸如‘反向传播’方法等数学方法朝向给定功能来优化嵌入，以计算嵌入相对于要优化的功能的导数。给定初始嵌入E₁、学习率r、功能F的梯度

可以执行以下更新以创建新的嵌入E₂：

F的梯度

由编码器网络隐式定义，并且由于编码器几乎在任何地方都是可微的，因此可以计算嵌入相对于功能的导数。可以重复上述更新程序，直到达到所需的功能水平。

图3B是图示了基于梯度的设计(GBD)的迭代的图。首先，源嵌入354被馈送到由解码器356和监督模型358构成的GBD网络350。梯度364被计算并用于产生新的嵌入，然后经由解码器356将新的嵌入反馈到GBD网络350以最终生成功能F₂382。可以重复该过程，直到获得所需的功能水平或直到预测的功能已经饱和。

该更新规则有许多可能的变型，包括r的不同步长以及不同的优化方案，如Adam、RMS Prop、Ada delta、AdamMAX和具有动量的SGD。另外，上述更新是仅使用关于一阶导数的信息的“一阶”方法的示例，但是在一些实施例中，可以使用利用Hessian中包含的信息的更高阶方法，如例如二阶方法。

使用本文描述的嵌入优化方法，可以结合约束和其他所需数据，只要它们可以被结合到更新方程中。在一些实施例中，针对至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个或至少十个参数(例如，期望功能和/或性质)对嵌入进行优化。作为非限制性和说明性示例，针对功能F₁(例如，荧光)和功能F₂(例如，热稳定性)来对序列进行优化。在这种情况下，编码器已被训练来预测这两个功能，因此允许使用复合功能F＝c₁F₁+c₂F₂将这两个功能合并到优化过程中，并根据需要对功能进行加权。因此，可以优化这个复合功能，例如使用本文描述的基于梯度的更新程序。在一些实施例中，本文描述的设备、软件、系统和方法利用结合了权重的复合功能，这些权重表达了在该框架下对F₁和F₂的相对偏好(例如，大部分使荧光最大化，但也结合了一些热稳定性)。

映射回蛋白质空间：解码器网络

在一些实施例中，本文披露的设备、软件、系统和方法获得已被优化以实现某个所需功能水平的种子嵌入，并利用解码器将嵌入空间中的优化坐标映射回蛋白质空间。在一些实施例中，诸如神经网络等解码器被训练以基于包括嵌入的输入来产生氨基酸序列。该网络本质上提供了编码器的“逆”，并且可以使用深度卷积神经网络来实施。换句话说，编码器接收输入氨基酸序列并生成映射到嵌入空间的序列的嵌入，并且解码器接收输入(优化的)嵌入坐标并生成所得氨基酸序列。解码器可以使用标记数据(例如，用抗生素抗性信息标记的β-内酰胺酶)或未标记数据(例如，缺乏抗生素抗性信息的β-内酰胺酶)进行训练。在一些实施例中，解码器和编码器的整体结构是相同的。例如，解码器的变型数量(架构、层数、优化器等)可以与编码器相同。

在一些实施例中，本文披露的设备、软件、系统和方法利用解码器来处理输入(如一级氨基酸序列或其他生物聚合物序列)，并生成预测序列(例如，具有每个位置的氨基酸分布的概率性序列)。在一些实施例中，解码器是通过训练神经网络(例如，深度神经网络)来构建的，以基于一组标记的训练数据来生成预测序列。例如，嵌入可以从标记的训练数据中生成，然后用于训练解码器。解码器模型可以是使用呈1D卷积(例如一级氨基酸序列)、2D卷积(例如氨基酸相互作用的接触图)或3D卷积(例如三级蛋白质结构)形式的卷积神经网络(CNN)的监督模型。卷积架构可以是以下描述的架构中的任何一种：VGG16、VGG19、DeepResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。

在一些实施例中，解码器利用任意数量的替代正则化方法来防止过拟合。正则化方法的说明性非限制性示例包括提前停止，包括在至少1、2、3、4个层直到所有层的退出，包括在至少1、2、3、4个层直到所有层的L1-L2正则化，包括在至少1、2、3、4个层直到所有层的跳跃连接。可以使用批归一化或组归一化来执行正则化。

在一些实施例中，使用以下非限制性优化程序中的任一种对解码器进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。可以使用以下激活函数中的任一个对模型进行优化：softmax、elu、SeLU、softplus、softsign、ReLU、tanh、sigmoid、hard_sigmoid、指数、PReLU和LeaskyReLU或线性。

在一些实施例中，解码器包含3个层至100,000个层。在一些实施例中，解码器包含3个层至5个层、3个层至10个层、3个层至50个层、3个层至100个层、3个层至500个层、3个层至1,000个层、3个层至5,000个层、3个层至10,000个层、3个层至50,000个层、3个层至100,000个层、3个层至100,000个层、5个层至10个层、5个层至50个层、5个层至100个层、5个层至500个层、5个层至1,000个层、5个层至5,000个层、5个层至10,000个层、5个层至50,000个层、5个层至100,000个层、5个层至100,000个层、10个层至50个层、10个层至100个层、10个层至500个层、10个层至1,000个层、10个层至5,000个层、10个层至10,000个层、10个层至50,000个层、10个层至100,000个层、10个层至100,000个层、50个层至100个层、50个层至500个层、50个层至1,000个层、50个层至5,000个层、50个层至10,000个层、50个层至50,000个层、50个层至100,000个层、50个层至100,000个层、100个层至500个层、100个层至1,000个层、100个层至5,000个层、100个层至10,000个层、100个层至50,000个层、100个层至100,000个层、100个层至100,000个层、500个层至1,000个层、500个层至5,000个层、500个层至10,000个层、500个层至50,000个层、500个层至100,000个层、500个层至100,000个层、1,000个层至5,000个层、1,000个层至10,000个层、1,000个层至50,000个层、1,000个层至100,000个层、1,000个层至100,000个层、5,000个层至10,000个层、5,000个层至50,000个层、5,000个层至100,000个层、5,000个层至100,000个层、10,000个层至50,000个层、10,000个层至100,000个层、10,000个层至100,000个层、50,000个层至100,000个层、50,000个层至100,000个层、或100,000个层至100,000个层。在一些实施例中，解码器包含3个层、5个层、10个层、50个层、100个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、或100,000个层。在一些实施例中，解码器包含至少3个层、5个层、10个层、50个层、100个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、或100,000个层。在一些实施例中，解码器包含至多5个层、10个层、50个层、100个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、或100,000个层。

在一些实施例中，解码器被训练以在给定序列嵌入的情况下预测蛋白质或多肽的原始氨基酸序列。在一些实施例中，至少部分地使用迁移学习来生成解码器以提高性能。起点可以是除输出层(或一个或多个附加层)之外冻结的完整第一模型，该模型在目标蛋白质功能或蛋白质特征上进行训练。起点可以是预训练的模型，其中嵌入层、最后2层、最后3层或所有层被解冻，模型的其余部分在目标蛋白质功能或蛋白质特征上训练期间被冻结。

在一些实施例中，使用与编码器的训练方式类似的程序来训练解码器。例如，获得一组训练序列，并使用已训练编码器为这些序列创建嵌入。这些嵌入表示解码器的输入，而输出是解码器必须预测的原始序列。在一些实施例中，卷积神经网络用于解码器，其反向镜像了编码器的架构。可以使用其他类型的神经网络，例如，递归神经网络(RNN)，如长短期记忆(LSTM)网络。

可以训练解码器以最小化损失，即驻留式分类交叉熵，以重建映射到给定嵌入(也称为重建损失)的序列。在一些实施例中，将附加项添加到损失中，已发现这对过程提供了实质性改进。本文使用以下符号：

a.x：氨基酸序列

b.y：对x感兴趣的可测量性质，例如，荧光

c.f(x)：接受x以预测y的函数，例如，深度神经网络

d.enc(x)：f(x)的子模块，其产生序列(x)的嵌入(e)

e.dec(e)：单独的解码器模块，其接受嵌入(e)并产生重建序列(x’)

f.x’：解码器dec(e)的输出，例如，从嵌入(e)生成的重建序列

除了重建损失之外，重建序列(x’)通过原始监督模型f(x’)反馈，以使用解码器的重建序列来产生预测值(称为y’)。将重建序列的预测值(y’)与给定序列的预测值(称为y*并且其是使用f(x)计算的)进行比较。相似的x和x’值和/或相似的y’和y*值表明解码器正在有效地工作。为了强制执行这一点，在一些实施例中，使用Kullback-Leibler散度(KLD)将附加项添加到网络的损失函数。任意y’与y*之间的KLD表示为：

a.KLD(y^′，y^*)＝y^′*log(y^*/y′)

包含该项的损失表示为：

a.loss＝λ_1*CCE+λ_2*KLD(y^′，y^*)，其中，CCE是分类交叉熵重建损失，并且λ_1和λ_2是调整参数。

图2是图示了作为神经网络的解码器的示例的图。解码器网络200具有四层节点，其中，第一层202对应于嵌入层，其可以接收来自本文描述的编码器的输入。在这个说明性示例中，接下来的两层204和206是隐藏层，并且最后一层208是输出从嵌入中“解码”的氨基酸序列的最终层。

图3A是图示了基于梯度的设计程序的概览的实施例的图。编码器310可以用于生成源嵌入304。将源嵌入馈送到解码器306，然后将其转换为概率性序列(例如，每个残基处的氨基酸分布)。然后可以由包括编码器310的监督模型308处理概率性序列以产生预测函数值312。函数(F)模型的梯度314是相对于输入嵌入304获取的，并且是通过使用通过监督模型和解码器的反向传播来计算的。

图3C示出了由解码器产生的概率性生物聚合物序列390的示例。在该示例中，概率性生物聚合物序列390可以由矩阵392来图示。矩阵392的列代表20个可能的氨基酸中的每一个，并且行代表长度为L的蛋白质中的残基位置。第一个氨基酸(第1行)始终是甲硫氨酸，因此M(第7列)的概率为1，并且其余氨基酸的概率为0。例如，下一个残基(第2行)可能有80％的概率是W，20％的概率是G。为了生成序列，可以选择该矩阵所暗示的最大似然序列，这需要选择在每个位置处具有最高概率的氨基酸。替代性地，可以通过根据氨基酸概率对每个位置进行采样来随机生成序列，例如，通过在位置2分别以80％对20％的概率随机挑选W或G。

解码器验证

在一些实施例中，本文披露的设备、软件、系统和方法提供解码器验证框架以确定解码器的性能。有效的解码器能够以非常高的准确度预测哪个序列映射到给定的嵌入。因此，可以通过使用本文描述的编码器和编码器-解码器框架对相同的输入(例如，氨基酸序列)进行处理来验证解码器。编码器将生成指示所需功能和/或性质的输出，该输出用作可以评估编码器-解码器框架的输出的参考。作为说明性示例，编码器和解码器是根据本文描述的方法生成的。接下来，使用编码器嵌入训练集和验证集中的每个蛋白质。然后，使用解码器对这些嵌入进行解码。最后，使用编码器来预测解码序列的函数值，并将这些预测值与使用原始序列预测的值进行比较。

图4中示出了解码器验证过程400的一个实施例的概要。如图4所示，编码器神经网络402在顶部示出，其接收一级氨基酸序列(例如，绿色荧光蛋白)作为输入并且处理该序列以输出功能(例如，荧光强度)的预测406。下方的编码器-解码器框架408示出了具有倒数第二个嵌入层的编码器网络412，除了缺失预测406的计算之外，该嵌入层与编码器神经网络402相同。编码器网络412连接或链接(或以其他方式提供输入)到解码器网络410以解码序列，然后将序列再次馈送到编码器网络402以得到预测功能416。因此，当这两个预测406和416的值接近时，该结果提供了解码器410有效地将嵌入映射到与期望功能相对应的序列的验证。

可以以多种方式计算预测值之间的相似性或对应性。在一些实施例中，确定来自原始序列的预测值与来自解码序列的预测值之间的相关性。在一些实施例中，相关性为约0.7至约0.99。在一些实施例中，相关性为约0.7至约0.75、约0.7至约0.8、约0.7至约0.85、约0.7至约0.9、约0.7至约0.95、约0.7至约0.99、约0.75至约0.8、约0.75至约0.85、约0.75至约0.9、约0.75至约0.95、约0.75至约0.99、约0.8至约0.85、约0.8至约0.9、约0.8至约0.95、约0.8至约0.99、约0.85至约0.9、约0.85至约0.95、约0.85至约0.99、约0.9至约0.95、约0.9至约0.99、或约0.95至约0.99。在一些实施例中，相关性为约0.7、约0.75、约0.8、约0.85、约0.9、约0.95或约0.99。在一些实施例中，相关性为至少约0.7、约0.75、约0.8、约0.85、约0.9或约0.95。在一些实施例中，相关性为至多约0.75、约0.8、约0.85、约0.9、约0.95或约0.99。

附加性能指标可以用于验证本文披露的系统和方法，例如，肯定预测值(PPV)、F1、均方误差、接受者操作特性(ROC)下的面积和精确率召回率曲线(PRC)下的面积。

在一些实施例中，本文披露的方法生成具有肯定预测值(PPV)的结果。在一些实施例中，PPV为0.7至0.99。在一些实施例中，PPV为0.7至0.75、0.7至0.8、0.7至0.85、0.7至0.9、0.7至0.95、0.7至0.99、0.75至0.8、0.75至0.85、0.75至0.9、0.75至0.95、0.75至0.99、0.8至0.85、0.8至0.9、0.8至0.95、0.8至0.99、0.85至0.9、0.85至0.95、0.85至0.99、0.9至0.95、0.9至0.99、或0.95至0.99。在一些实施例中，PPV为0.7、0.75、0.8、0.85、0.9、0.95或0.99。在一些实施例中，PPV为至少0.7、0.75、0.8、0.85、0.9或0.95。在一些实施例中，PPV为至多0.75、0.8、0.85、0.9、0.95或0.99。

在一些实施例中，本文披露的方法生成具有F1值的结果。在一些实施例中，F1为0.5至0.95。在一些实施例中，F1为0.5至0.6、0.5至0.7、0.5至0.75、0.5至0.8、0.5至0.85、0.5至0.9、0.5至0.95、0.6至0.7、0.6至0.75、0.6至0.8、0.6至0.85、0.6至0.9、0.6至0.95、0.7至0.75、0.7至0.8、0.7至0.85、0.7至0.9、0.7至0.95、0.75至0.8、0.75至0.85、0.75至0.9、0.75至0.95、0.8至0.85、0.8至0.9、0.8至0.95、0.85至0.9、0.85至0.95、或0.9至0.95。在一些实施例中，F1为0.5、0.6、0.7、0.75、0.8、0.85、0.9或0.95。在一些实施例中，F1为至少0.5、0.6、0.7、0.75、0.8、0.85或0.9。在一些实施例中，F1为至多0.6、0.7、0.75、0.8、0.85、0.9或0.95。

在一些实施例中，本文披露的方法产生具有均方误差的结果。在一些实施例中，均方误差为0.01至0.3。在一些实施例中，均方误差为0.01至0.05、0.01至0.1、0.01至0.15、0.01至0.2、0.01至0.25、0.01至0.3、0.05至0.1、0.05至0.15、0.05至0.2、0.05至0.25、0.05至0.3、0.1至0.15、0.1至0.2、0.1至0.25、0.1至0.3、0.15至0.2、0.15至0.25、0.15至0.3、0.2至0.25、0.2至0.3、或0.25至0.3。在一些实施例中，均方误差为0.01、0.05、0.1、0.15、0.2、0.25或0.3。在一些实施例中，均方误差为至少0.01、0.05、0.1、0.15、0.2或0.25。在一些实施例中，均方误差为至多0.05、0.1、0.15、0.2、0.25或0.3。

在一些实施例中，本文披露的方法生成具有ROC下的面积的结果。在一些实施例中，ROC下的面积为0.7至0.95。在一些实施例中，ROC下的面积为0.95至0.9、0.95至0.85、0.95至0.8、0.95至0.75、0.95至0.7、0.9至0.85、0.9至0.8、0.9至0.75、0.9至0.7、0.85至0.8、0.85至0.75、0.85至0.7、0.8至0.75、0.8至0.7、或0.75至0.7。在一些实施例中，ROC下的面积为0.95、0.9、0.85、0.8、0.75或0.7。在一些实施例中，ROC下的面积为至少0.95、0.9、0.85、0.8或0.75。在一些实施例中，ROC下的面积为至多0.9、0.85、0.8、0.75或0.7。

在一些实施例中，本文披露的方法生成具有PRC下的面积的结果。在一些实施例中，PRC下的面积为0.7至0.95。在一些实施例中，PRC下的面积为0.95至0.9、0.95至0.85、0.95至0.8、0.95至0.75、0.95至0.7、0.9至0.85、0.9至0.8、0.9至0.75、0.9至0.7、0.85至0.8、0.85至0.75、0.85至0.7、0.8至0.75、0.8至0.7、或0.75至0.7。在一些实施例中，PRC下的面积为0.95、0.9、0.85、0.8、0.75或0.7。在一些实施例中，PRC下的面积为至少0.95、0.9、0.85、0.8或0.75。在一些实施例中，PRC下的面积为至多0.9、0.85、0.8、0.75或0.7。

多肽序列的预测

本文描述了设备、软件、系统和方法，其用于评估诸如初始氨基酸序列(或编码氨基酸序列的核酸序列)等输入数据，以便预测与被配置为具有特定功能或性质的多肽或蛋白质相对应的一个或多个新氨基酸序列。能够执行某个(些)功能或具有某些性质的特定氨基酸序列(例如蛋白质)的外推一直是分子生物学的目标。因此，本文描述的设备、软件、系统和方法利用人工智能或机器学习技术对多肽或蛋白质分析的能力来预测序列信息。与标准的非机器学习方法相比，机器学习技术能够生成具有增加的预测能力的模型。在一些情况下，当没有足够的数据来训练模型以获得所需的输出时，可以利用迁移学习来提高预测准确性。替代性地，在一些情况下，当有足够的数据来训练模型以实现与并入迁移学习的模型相当的统计参数时，不使用迁移学习。

在一些实施例中，输入数据包含蛋白质或多肽的一级氨基酸序列。在一些情况下，使用包含一级氨基酸序列的标记训练数据集来训练模型。例如，数据集可以包括基于荧光强度的程度标记的荧光蛋白的氨基酸序列。因此，可以使用机器学习方法用该数据集训练模型以生成氨基酸序列输入的荧光强度的预测。换句话说，该模型可以是编码器，例如被训练以基于一级氨基酸序列输入来预测功能的深度神经网络。在一些实施例中，输入数据还包含除一级氨基酸序列之外的信息，例如像表面电荷、疏水表面积、测量的或预测的溶解度或其他相关信息。在一些实施例中，输入数据包含多维输入数据，该多维输入数据包括多种类型或类别的数据。

在一些实施例中，本文描述的设备、软件、系统和方法利用数据增强来增强(多种)预测模型的性能。数据增强需要使用相似但不同的训练数据集的示例或变型进行训练。例如，在图像分类中，可以通过稍微改变图像的方向(例如，轻微旋转)来增强图像数据。在一些实施例中，数据输入(例如一级氨基酸序列)通过对一级氨基酸序列的随机突变和/或生物学上获知的突变、多序列比对、氨基酸相互作用的接触图和/或三级蛋白质结构而增强。另外的增强策略包括使用来自可变剪接转录物的已知的同种型和预测的同种型。例如，输入数据可以通过包括对应于相同功能或性质的可变剪接转录物的同种型来增强。因此，关于同种型或突变的数据可以允许鉴定不显著影响预测的功能或性质的一级序列的那些部分或特征。这允许模型解释信息，例如像增强、降低或不影响预测的蛋白质性质(例如稳定性)的氨基酸突变。例如，数据输入可以包含在已知不影响功能的位置处具有随机取代的氨基酸的序列。这允许以下模型，该模型用该数据训练以了解预测的功能相对于那些特定突变是不变的。

本文描述的设备、软件、系统和方法可以用于基于多种不同的功能和/或性质中的一种或多种生成序列预测。预测可以涉及蛋白质功能和/或性质(例如，酶活性、稳定性等)。可以基于蛋白质稳定性预测或映射氨基酸序列，该蛋白质稳定性可以包括各种指标，例如像热稳定性、氧化稳定性或血清稳定性。在一些实施例中，编码器被配置成并入与一个或多个结构特征(例如像二级结构、三级蛋白质结构、四级结构或其任何组合)相关的信息。二级结构可包括指定多肽中的氨基酸或氨基酸序列是否被预测为具有α螺旋结构、β折叠结构或无序或环结构。三级结构可包括氨基酸或多肽部分在三维空间中的位置或定位。四级结构可包括形成单个蛋白质的多个多肽的位置或定位。在一些实施例中，预测包含基于一种或多种功能的序列。多肽或蛋白质功能可以属于各种类别，包括代谢反应、DNA复制、提供结构、运输、抗原识别、细胞内或细胞外信号传导以及其他功能类别。在一些实施例中，预测包含酶促功能，例如像催化效率(例如，特异性常数k_cat/K_M)或催化特异性。

在一些实施例中，序列预测基于蛋白质或多肽的酶功能。在一些实施例中，蛋白质功能是酶功能。酶可以进行各种酶促反应，并且可以归类为迁移酶(例如，将官能团从一个分子迁移到另一个分子)、氧化还原酶(例如，催化氧化还原反应)、水解酶(例如，经由水解切割化学键)、裂解酶(例如，产生双键)、连接酶(例如，经由共价键连接两个分子)和异构酶(例如，催化分子内从一种异构体到另一种异构体的结构变化)。在一些实施例中，水解酶包括蛋白酶，例如丝氨酸蛋白酶、苏氨酸蛋白酶、半胱氨酸蛋白酶、金属蛋白酶、天冬酰胺肽裂解酶、谷氨酸蛋白酶和天冬氨酸蛋白酶。丝氨酸蛋白酶在凝血、伤口愈合、消化、免疫反应和肿瘤侵袭和转移等方面具有多种生理作用。丝氨酸蛋白酶的示例包括胰凝乳蛋白酶、胰蛋白酶、弹性蛋白酶、因子10、因子11、凝血酶、纤溶酶、C1r、C1s和C3转化酶。苏氨酸蛋白酶包括在活性催化位点内具有苏氨酸的蛋白酶家族。苏氨酸蛋白酶的示例包括蛋白酶体的亚基。蛋白酶体是由α和β亚基组成的桶状蛋白质复合物。催化活性β亚基可在每个催化活性位点包括保守的N-末端苏氨酸。半胱氨酸蛋白酶具有利用半胱氨酸巯基基团的催化机制。半胱氨酸蛋白酶的示例包括木瓜蛋白酶、组织蛋白酶、半胱天冬酶和钙蛋白酶。天冬氨酸蛋白酶具有两个在活性位点参与酸/碱催化的天冬氨酸残基。天冬氨酸蛋白酶的示例包括消化酶胃蛋白酶、一些溶酶体蛋白酶和肾素。金属蛋白酶包括消化酶羧肽酶、在细胞外基质重塑和细胞信号传导中发挥作用的基质金属蛋白酶(MMP)、ADAM(解聚素和金属蛋白酶结构域)和溶酶体蛋白酶。酶的其他非限制性示例包括蛋白酶、核酸酶、DNA连接酶、聚合酶、纤维素酶、木质素酶、淀粉酶、脂肪酶、果胶酶、木聚糖酶、木质素过氧化物酶、脱羧酶、甘露聚糖酶、脱氢酶和其他基于多肽的酶。

在一些实施例中，酶促反应包括靶分子的翻译后修饰。翻译后修饰的示例包括乙酰化、酰胺化、甲酰化、糖基化、羟基化、甲基化、肉豆蔻酰化、磷酸化、脱酰胺、异戊二烯化(例如，法呢基化、香叶基化等)、泛素化、核糖基化和硫酸化。磷酸化可发生在氨基酸(例如酪氨酸、丝氨酸、苏氨酸或组氨酸)上。

在一些实施例中，蛋白质功能是发光，其是不需要应用加热的光发射。在一些实施例中，蛋白质功能是化学发光，例如生物发光。例如，化学发光酶(例如萤光素)可以作用于底物(萤光素)，以催化底物氧化，从而释放光。在一些实施例中，蛋白质功能是荧光，其中荧光蛋白或肽吸收某些(多种)波长的光并发射不同的(多种)波长的光。荧光蛋白的示例包括绿色荧光蛋白(GFP)或GFP的衍生物，例如EBFP、EBFP2、石青蓝(Azurite)、mKalama1、ECFP、蔚蓝(Cerulean)、CyPet、YFP、柠檬色(Citrine)、Venus或YPet。一些蛋白质如GFP是天然荧光的。荧光蛋白的示例包括EGFP、蓝色荧光蛋白(EBFP、EBFP2、石青蓝、mKalamal)、青色荧光蛋白(ECFP、蔚蓝、CyPet)、黄色荧光蛋白(YFP、柠檬色、Venus、YPet)、氧化还原敏感GFP(roGFP)和单体GFP。

在一些实施例中，蛋白质功能包含酶功能、结合(例如，DNA/RNA结合、蛋白质结合等)、免疫功能(例如，抗体)、收缩(例如，肌动蛋白、肌球蛋白)以及其他功能。在一些实施例中，输出包含与蛋白质功能相关的一级序列，例如像酶功能或结合的动力学。作为示例，可以通过优化并入所需指标(例如亲和力、特异性或反应速率中的任一个)的复合功能来获得此类输出。

在一些实施例中，本文披露的系统和方法生成与功能或性质相对应的生物聚合物序列。在一些情况下，生物聚合物序列是核酸。在一些情况下，生物聚合物序列是多肽。具体生物聚合物序列的示例包括荧光蛋白(如GFP)和酶(如β-内酰胺酶)。在一种情况下，参考GFP序列(例如avGFP)由具有以下序列的238个氨基酸长的多肽定义：

使用基于梯度的设计来设计的GFP序列可以包含与参考GFP序列具有小于100％序列同一性的序列。在一些情况下，GBD优化的GFP序列相对于SEQ ID NO:1具有80％至99％的序列同一性。在一些情况下，GBD优化的GFP序列相对于SEQ ID NO:1具有以下的序列同一性：80％至85％、80％至90％、80％至95％、80％至96％、80％至97％、80％至98％、80％至99％、85％至90％、85％至95％、85％至96％、85％至97％、85％至98％、85％至99％、90％至95％、90％至96％、90％至97％、90％至98％、90％至99％、95％至96％、95％至97％、95％至98％、95％至99％、96％至97％、96％至98％、96％至99％、97％至98％、97％至99％、或98％至99％。在一些情况下，GBD优化的GFP序列相对于SEQ ID NO:1具有以下的序列同一性：80％、85％、90％、95％、96％、97％、98％或99％。在一些情况下，GBD优化的GFP序列相对于SEQ ID NO:1具有以下的序列同一性：至少80％、85％、90％、95％、96％、97％或98％。在一些情况下，GBD优化的GFP序列相对于SEQ ID NO:1具有以下的序列同一性：至多85％、90％、95％、96％、97％、98％或99％。在一些情况下，GBD优化的GFP序列相对于SEQ ID NO:1具有少于45个(例如，少于40、35、30、25、20、15或10个)氨基酸取代。在一些情况下，GBD优化的GFP序列相对于参考GFP序列包含至少一个、两个、三个、四个、五个、六个或七个点突变。GBD优化的GFP序列可以通过以下来定义：从Y39C、F64L、V68M、D129G、V163A、K166R和G191V中选择一个或多个突变，包括前述的组合，例如，包括1、2、3、4、5、6或所有7个突变。在一些情况下，GBD优化的GFP序列不包括S65T突变。在一些实施例中，本发明提供的GBD优化的GFP序列包括N-末端甲硫氨酸，而在其他实施例中，序列不包括N-末端甲硫氨酸。

在一些实施例中，本文披露了编码GBD优化的多肽序列(例如GFP和/或β-内酰胺酶)的核酸序列。本文还披露了包含核酸序列的载体，例如原核和/或真核表达载体。表达载体可以是组成型活性的或具有诱导型表达(例如四环素诱导型启动子)。例如，CMV启动子是组成型活性的，但也可以使用允许在四环素/强力霉素存在的情况下诱导表达的Tet操纵基因元件进行调节。

多肽和编码这些多肽的核酸序列可用于各种成像技术中。例如，荧光显微术、细胞激活细胞分选(FACS)、流式细胞术和其他基于荧光成像的技术可以利用本披露的荧光蛋白。GBD优化的GFP蛋白可以提供比标准参考GFP蛋白更高的亮度。在一些情况下，GBD优化的GFP蛋白的荧光亮度与未优化的GFP序列(例如avGFP)的亮度相比高2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50倍或更多。

在一些实施例中，本文描述的(多种)机器学习方法包含监督机器学习。监督机器学习包括分类和回归。在一些实施例中，(多种)机器学习方法包含无监督机器学习。无监督机器学习包括聚类、自编码、变分自编码、蛋白质语言模型(例如，其中，当可以访问前一个氨基酸时，模型预测序列中的下一个氨基酸)和关联规则挖掘。

机器学习

本文描述了设备、软件、系统和方法，其应用一种或多种方法来分析输入数据以生成映射到一种或多种蛋白质或多肽性质或功能的序列。在一些实施例中，这些方法利用统计建模来生成关于(多种)蛋白质或多肽功能或性质的预测或估计。在一些实施例中，方法用于将一级序列(如氨基酸序列)嵌入到嵌入空间中，针对所需功能或性质优化嵌入序列，并处理优化嵌入以生成被预测具有该功能或性质的序列。在一些实施例中，利用了编码器-解码器框架，其中组合了两个模型以允许使用第一模型嵌入初始序列，然后使用第二模型将优化的嵌入映射到序列上。

在一些实施例中，方法利用例如神经网络、决策树、支持向量机或其他适用模型的预测模型。使用训练数据，方法能够形成用于根据相关特征生成分类或预测的分类器。可以使用多种方法对选择用于分类的特征进行分类。在一些实施例中，训练方法包含机器学习方法。

在一些实施例中，机器学习方法使用支持向量机(SVM)、朴素贝叶斯分类、随机森林或人工神经网络。机器学习技术包括分装程序、升压程序、随机森林法及其组合。在一些实施例中，预测模型是深度神经网络。在一些实施例中，预测模型是深度卷积神经网络。

在一些实施例中，机器学习方法使用监督学习方法。在监督学习中，该方法从经标记的训练数据中生成函数。每个训练示例都是由输入对象和所需输出值构成的一对。在一些实施例中，最佳方案允许该方法针对未见情况正确确定类标签。在一些实施例中，监督学习方法需要用户确定一个或多个控制参数。通过优化训练集的子集(称为验证集)的性能，任选地调整这些参数。在参数调整和学习之后，任选地用与训练集分开的测试集测量所得函数的性能。回归方法常用于监督学习。因此，监督学习允许使用其中预期输出预先已知的训练数据生成或训练模型或分类器，例如在已知一级氨基酸序列时计算蛋白质功能中。

在一些实施例中，机器学习方法使用无监督学习方法。在无监督学习中，该方法生成函数以描述来自未标记数据的隐藏结构(例如，分类或归类不包括在观察中)。由于提供给学习者的示例是未标记的，因此没有对相关方法输出的结构的准确性进行评估。无监督学习的方法包括：聚类、异常检测和基于神经网络的方法，包括自动编码器和变分自编码器。

在一些实施例中，机器学习方法利用多类别学习。多任务学习(MTL)是机器学习的一个领域，在该领域中，以利用跨多项任务的共性和差异的方式同时解决一个以上学习任务。与单独训练那些模型相比，该方法的优点可以包括提高具体预测模型的学习效率和预测准确性。可以通过要求一种方法在相关任务上表现良好来提供正则化以防止过拟合。该方法可能比对所有复杂性应用相同罚分的正则化更好。当应用于具有显著共性和/或样本不足的任务或预测时，多类别学习可能尤其有用。在一些实施例中，多类别学习对于不具有显著共性的任务(例如，不相关的任务或分类)是有效的。在一些实施例中，多类别学习与迁移学习组合使用。

在一些实施例中，机器学习方法基于训练数据集和该批次的其他输入分批学习。在其他实施例中，机器学习方法在更新权重和误差计算的情况下(例如使用新的或更新的训练数据)执行另外的学习。在一些实施例中，机器学习方法基于新的或更新的数据更新预测模型。例如，机器学习方法可以应用于待重新训练或优化的新的或更新的数据，以生成新的预测模型。在一些实施例中，随着另外的数据变得可用，机器学习方法或模型被定期重新训练。

在一些实施例中，本披露的分类器或训练方法包含一个特征空间。在一些情况下，分类器包含两个或更多个特征空间。在一些实施例中，两个或更多个特征空间彼此不同。在一些实施例中，通过在分类器中组合两个或更多个特征空间而不是使用单个特征空间来提高分类或预测的准确性。属性通常构成特征空间的输入特征，并被标记以指示每个案例的针对对应于该案例的给定输入特征集的分类。

在一些实施例中，使用机器学习方法使用一组或多组训练数据来训练模型。在一些实施例中，本文所述的方法包括使用训练数据集训练模型。在一些实施例中，使用包含多个氨基酸序列的训练数据集训练模型。在一些实施例中，训练数据集包含至少1百万、2百万、3百万、4百万、5百万、6百万、7百万、8百万、9百万、1千万、1500万、2千万、2500万、3千万、3500万、4千万、4500万、5千万、5500万、5600万、5700万、5800万个蛋白质氨基酸序列。在一些实施例中，训练数据集包含至少1万、2万、3万、4万、5万、6万、7万、8万、9万、10万、15万、20万、25万、30万、35万、40万、45万、50万、60万、70万、80万、90万或100万或更多个氨基酸序列。在一些实施例中，训练数据集包含至少50、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000或10000或更多个注释。尽管本披露的示例性实施例包括使用深度神经网络的机器学习方法，但是设想了各种类型的方法。在一些实施例中，该方法利用例如神经网络、决策树、支持向量机或其他适用模型的预测模型。在一些实施例中，机器学习方法选自由以下各项构成的组：监督学习、半监督学习和无监督学习，例如支持向量机(SVM)、朴素贝叶斯分类、随机森林、人工神经网络、决策树、K均值、学习矢量量化(LVQ)、自组织图(SOM)、图模型、回归方法(例如，线性、逻辑、多变量、关联规则学习、深度学习、降维和集合选择方法。在一些实施例中，机器学习方法选自由以下各项构成的组：支持向量机(SVM)、朴素贝叶斯分类、随机森林和人工神经网络。机器学习技术包括分装程序、升压程序、随机森林法及其组合。用于分析数据的说明性方法包括但不限于直接处理大量变量的方法，例如统计方法和基于机器学习技术的方法。统计方法包括惩罚逻辑回归、微阵列预测分析(PAM)、基于缩小的质心的方法、支持向量机分析和正则化线性辨别分析。

本文描述的各种模型(包括监督模型和无监督模型)可以具有可替代的正则化方法，包括提前停止，包括在1、2、3、4个层直到所有层的退出，包括在1、2、3、4个层直到所有层的L1-L2正则化，包括在1、2、3、4个层直到所有层跳跃连接。对于第一模型和第二模型，可以使用批归一化或组归一化进行正则化。L1正则化(也称为LASSO)控制权重向量的L1范数(norm)允许的长度，而L2控制L2范数可能的大小。可以从Resnet架构获得跳跃连接。

可以使用以下优化程序中的任一种来优化使用本文描述的机器学习训练的各种模型：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrov加速梯度的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。可以使用以下激活函数中的任一个对模型进行优化：softmax、elu、SeLU、softplus、softsign、ReLU、tanh、sigmoid、hard_sigmoid、指数、PReLU和LeaskyReLU或线性。损失函数可以用于测量模型的性能。损失可以理解为预测不准确性的代价。例如，交叉熵损失函数测量分类模型的性能，其输出是介于0至1之间的概率值(例如，0表示没有抗生素抗性，并且1表示完全抗生素抗性)。该损失值随着预测概率与实际值的偏离而增加。

在一些实施例中，本文描述的方法包括对上面列出的优化器试图最小化的损失函数进行“重赋权”，使得在肯定示例和否定示例两者上放置大约相等的权重。例如，180,000个输出中的一个预测给定蛋白质是膜蛋白的概率。由于蛋白质只能是膜蛋白或不是膜蛋白，所以这是二进制分类任务，并且二进制分类任务的传统损失函数是“二元交叉熵”：loss(p,y)＝-y*log(p)-(1-y)*log(1-p)，其中p是根据网络成为膜蛋白的概率，并且y是“标签”，如果蛋白质是膜蛋白，则为1，如果蛋白质不是膜蛋白，则为0。如果y＝0的示例多得多，则可能会出现问题，因为网络可能会学习总是预测该注释的极低概率的病理规则，因为它很少因总是预测y＝0而受到罚分。为了解决该问题，在一些实施例中，损失函数被修改为以下：loss(p,y)＝-w1*y*log(p)-w0*(1-y)*log(1-p)，其中w1是肯定类别权重，w0是否定类别权重。该方法假设w0＝1并且w1＝1/√((1-f0)/f1)，其中f0是否定示例的频率，f1是肯定示例的频率。该权重方案“增权重”罕见的肯定示例，并“减权重”了更常见的否定示例。因此，本文披露的方法可以包括将提供增权重和/或减权重的加权方案结合到损失函数中，以解决否定示例和肯定示例的不均匀分布。

在一些实施例中，训练模型(如神经网络)包含10个层至1,000,000个层。在一些实施例中，神经网络包含10个层至50个层、10个层至100个层、10个层至200个层、10个层至500个层、10个层至1,000个层、10个层至5,000个层、10个层至10,000个层、10个层至50,000个层、10个层至100,000个层、10个层至500,000个层、10个层至1,000,000个层、50个层至100个层、50个层至200个层、50个层至500个层、50个层至1,000个层、50个层至5,000个层、50个层至10,000个层、50个层至50,000个层、50个层至100,000个层、50个层至500,000个层、50个层至1,000,000个层、100个层至200个层、100个层至500个层、100个层至1,000个层、100个层至5,000个层、100个层至10,000个层、100个层至50,000个层、100个层至100,000个层、100个层至500,000个层、100个层至1,000,000个层、200个层至500个层、200个层至1,000个层、200个层至5,000个层、200个层至10,000个层、200个层至50,000个层、200个层至100,000个层、200个层至500,000个层、200个层至1,000,000个层、500个层至1,000个层、500个层至5,000个层、500个层至10,000个层、500个层至50,000个层、500个层至100,000个层、500个层至500,000个层、500个层至1,000,000个层、1,000个层至5,000个层、1,000个层至10,000个层、1,000个层至50,000个层、1,000个层至100,000个层、1,000个层至500,000个层、1,000个层至1,000,000个层、5,000个层至10,000个层、5,000个层至50,000个层、5,000个层至100,000个层、5,000个层至500,000个层、5,000个层至1,000,000个层、10,000个层至50,000个层、10,000个层至100,000个层、10,000个层至500,000个层、10,000个层至1,000,000个层、50,000个层至100,000个层、50,000个层至500,000个层、50,000个层至1,000,000个层、100,000个层至500,000个层、100,000个层至1,000,000个层、或500,000个层至1,000,000个层。在一些实施例中，神经网络包含10个层、50个层、100个层、200个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、500,000个层、或1,000,000个层。在一些实施例中，神经网络包含至少10个层、50个层、100个层、200个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、或500,000个层。在一些实施例中，神经网络包含至多50个层、100个层、200个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、500,000个层、或1,000,000个层。

在一些实施例中，机器学习方法包括使用不用于训练的数据进行测试以评估其预测能力的训练模型或分类器。在一些实施例中，使用一种或多种性能指标来评估训练模型或分类器的预测能力。这些性能指标包括分类准确性、特异性、灵敏度、肯定预测值、否定预测值、受试者工作曲线下的测量面积(AUROC)、均方误差、错误发现率以及预测值和实际值之间的皮尔逊相关性，这些性能指标通过针对一组独立案例对它进行测试来确定模型。在一些情况下，针对至少约50、60、70、80、90、100、110、120、130、140、150、160、170、180、190或200个独立案例(包括其中的增量)，方法具有至少约60％、65％、70％、75％、80％、85％、90％、95％或更多的AUROC(包括其中的增量)。在一些情况下，针对至少约50、60、70、80、90、100、110、120、130、140、150、160、170、180、190或200个独立案例(包括其中的增量)，方法具有至少约75％、80％、85％、90％、95％或更高的准确性(包括其中的增量)。在一些情况下，针对至少约50、60、70、80、90、100、110、120、130、140、150、160、170、180、190或200个独立案例(包括其中的增量)，方法具有至少约75％、80％、85％、90％、95％或更高的特异性(包括其中的增量)。在一些情况下，针对至少约50、60、70、80、90、100、110、120、130、140、150、160、170、180、190或200个独立案例(包括其中的增量)，方法具有至少约75％、80％、85％、90％、95％或更高的灵敏度(包括其中的增量)。在一些情况下，针对至少约50、60、70、80、90、100、110、120、130、140、150、160、170、180、190或200个独立案例(包括其中的增量)，方法具有至少约75％、80％、85％、90％、95％或更高的肯定预测值(包括其中的增量)。在一些情况下，针对至少约50、60、70、80、90、100、110、120、130、140、150、160、170、180、190或200个独立案例(包括其中的增量)，方法具有至少约75％、80％、85％、90％、95％或更高的否定预测值(包括其中的增量)。

迁移学习

本文描述了用于基于一种或多种所需性质或功能产生蛋白质或多肽序列的设备、软件、系统和方法。在一些实施例中，迁移学习用于提高预测准确性。迁移学习是一种机器学习技术，其中为一项任务开发的模型可以重复用作第二项任务的模型的起点。通过让模型在数据丰富的相关任务上学习，迁移学习可以用于提高对数据有限的任务的预测准确性。在PCT申请号PCT/US 2020/01751762/804,036中描述的迁移学习方法通过引用并入本文。因此，本文描述了用于从测序的蛋白质的大数据集中学习蛋白质的一般功能特征并将其用作模型的起点以预测任何特定蛋白质功能、性质或特征的方法。因此，编码器的生成可以包括迁移学习，以提高编码器在将输入序列处理成嵌入时的性能。因此，改进的嵌入可以提高整个编码器-解码器框架的性能。本披露认识到令人惊讶的发现，可以将在所有测序蛋白质中由第一预测模型编码的信息迁移以使用第二预测模型设计感兴趣的特定蛋白质功能。在一些实施例中，预测模型是神经网络，例如像深度卷积神经网络。

本披露可以经由一个或多个实施例来实施，以实现以下优势中的一个或多个。在一些实施例中，使用迁移学习训练的模型从资源消耗的角度表现出改进，例如表现出小的内存占用、低延迟或低计算成本。在可能需要巨大计算能力的复杂分析中，不能低估这一优势。在一些情况下，需要使用迁移学习来在合理的时间段内(例如，几天而不是几周)训练足够准确的模型。在一些实施例中，与未使用迁移学习训练的模型相比，使用迁移学习训练的模型提供高准确性。在一些实施例中，与未使用迁移学习的其他方法或模型相比，在用于预测多肽序列、结构、性质和/或功能的系统中使用深度神经网络和/或迁移学习提高了计算效率。

在一些实施例中，提供包含神经网嵌入器或编码器的第一系统。在一些实施例中，该神经网嵌入器包含一个或多个嵌入层。在一些实施例中，神经网络的输入包含表示为“独热”向量的蛋白质序列，该“独热”向量将氨基酸序列编码为矩阵。例如，在该矩阵内，每一行可以配置为恰好含有1个非零条目，该条目对应于存在于残基处的氨基酸。在一些实施例中，第一系统包含神经网预测器。在一些实施例中，预测器包含用于基于输入生成预测或输出的一个或多个输出层。在一些实施例中，使用第一训练数据集对第一系统进行预训练以提供预训练神经网嵌入器。使用迁移学习，预训练的第一系统或其部分可以被迁移以形成第二系统的部分。当在第二系统中使用时，可以冻结神经网嵌入器的一个层或多个层。在一些实施例中，第二系统包含来自第一系统的神经网嵌入器或其部分。在一些实施例中，第二系统包含神经网嵌入器和神经网预测器。神经网预测器可以包括一个或多个用于生成最终输出或预测的输出层。可以使用根据感兴趣的蛋白质功能或性质标记的第二训练数据集训练第二系统。如本文所用，嵌入器和预测器可以指例如使用机器学习训练的神经网络的预测模型的组件。在本文披露的编码器-解码器框架内，嵌入层可以被处理以用于优化并且随后“解码”成关于一个或多个功能的更新或优化序列。

在一些实施例中，迁移学习用于训练第一模型，该第一模型至少一部分用于形成第二模型的一部分。第一模型的输入数据可以包含已知的天然和合成蛋白质的大型数据储存库，而不管功能或其他性质。输入数据可以包括以下任何组合：一级氨基酸序列、二级结构序列、氨基酸相互作用的接触图、作为氨基酸物理化学性质的函数的一级氨基酸序列、和/或三级蛋白质结构。尽管本文提供了这些具体示例，但考虑了与蛋白质或多肽有关的任何另外的信息。在一些实施例中，输入数据被嵌入。例如，输入数据可以表示为序列的二进制独热编码的多维张量、实值(例如，在物理化学性质或来自三级结构的3维原子位置的情况下)、成对相互作用的邻接矩阵、或使用数据的直接嵌入(例如，一级氨基酸序列的字符嵌入)。第一系统可以包括带有嵌入向量和线性模型的卷积神经网络架构，该模型使用UniProt氨基酸序列和约70,000个注释(例如序列标签)进行训练。在迁移学习期间，第一系统或模型的嵌入向量和卷积神经网络部分被迁移以形成第二系统或模型的核心，该第二系统或模型现在并入新的线性模型，该线性模型被配置为预测蛋白质性质或功能。第二系统使用基于与蛋白质性质或功能相对应的所需序列标签的第二训练数据集进行训练。一旦训练完成，就可以针对验证数据集和/或测试数据集(例如，未在训练中使用的数据)来评估第二系统。

在一些实施例中，第一模型和/或第二模型的数据输入通过另外的数据(例如一级氨基酸序列的随机突变和/或生物学上获知的突变、氨基酸相互作用的接触图和/或三级蛋白质结构)增强。另外的增强策略包括使用来自可变剪接转录物的已知的同种型和预测的同种型。在一些实施例中，不同类型的输入(例如，氨基酸序列、接触图等)由一个或多个模型的不同部分处理。在初始处理步骤之后，来自多个数据源的信息可以在网络的层处进行组合。例如，网络可以包含序列编码器、接触图编码器和其他被配置为接收和/或处理各种类型的数据输入的编码器。在一些实施例中，数据被转为网络中一个或多个层内的嵌入。

第一模型的数据输入的标签可以从一个或多个公共蛋白质序列注释资源中提取，例如：基因本体(GO)、Pfam结构域、SUPFAM结构域、酶委员会(EC)编号、分类学、极端微生物名称、关键字、包括OrthoDB和KEGG直系同源的直系同源组分配。此外，可以基于数据库(例如SCOP、FSSP或CATH)指定的已知结构或折叠分类来分配标签，包括全α、全β、α+β、α/β、膜、固有无序、卷曲螺旋、小蛋白质或设计蛋白质。对于结构已知的蛋白质，定量全局特性(例如总表面电荷、疏水表面积、测量或预测的溶解度或其他数字量)可用作由预测模型(例如多任务模型)拟合的另外的标签。尽管这些输入是在迁移学习的上下文中描述的，但也考虑将这些输入应用于非迁移学习方法。在一些实施例中，第一模型包含被剥离以留下由编码器构成的核心网络的注释层。注释层可以包括多个独立的层，每个层对应于特定的注释，例如像一级氨基酸序列、GO、Pfam、Interpro、SUPFAM、KO、OrthoDB和关键字。在一些实施例中，注释层包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、1000、5000、10000、50000、100000或150000或更多个独立的层。在一些实施例中，注释层包含180000个独立的层。在一些实施例中，使用至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、1000、5000、10000、50000、100000、或150000个或更多个注释训练模型。在一些实施例中，使用大约180000个注释训练模型。在一些实施例中，使用跨多个函数表示(例如，GO、Pfam、关键字、Kegg本体论、Interpro、SUPFAM和OrthoDB中的一个或多个)的多个注释训练模型。氨基酸序列和注释信息可以从各种数据库(例如UniProt)中获得。

在一些实施例中，第一模型和第二模型包含神经网络架构。第一模型和第二模型可以是使用呈1D卷积(例如一级氨基酸序列)、2D卷积(例如氨基酸相互作用的接触图)或3D卷积(例如三级蛋白质结构)形式的卷积架构的监督模型。卷积架构可以是以下描述的架构之一：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNetResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。在一些实施例中，考虑了利用本文描述的任何架构的单一模型方法(例如，非迁移学习)。

第一模型也可以是使用生成式对抗网络(GAN)、递归神经网络或变分自编码器(VAE)的无监督模型。如果是GAN，第一模型可以是条件GAN、深度卷积GAN、StackGAN、infoGAN、Wasserstein GAN、用生成式对抗网络发现跨结构域关系(Disco GANS)。在递归神经网络的情况下，第一模型可以是Bi-LSTM/LSTM、Bi-GRU/GRU或转换器网络。在一些实施例中，考虑了利用本文描述的任何架构来生成编码器和/或解码器的单一模型方法(例如，非迁移学习)。在一些实施例中，GAN是DCGAN、CGAN、SGAN/渐进式GAN、SAGAN、LSGAN、WGAN、EBGAN、BEGAN、或infoGAN。递归神经网络(RNN)是为循序数据构建的传统神经网络的变体。LSTM是指长短期记忆(其是RNN中的一种神经元)，其记忆允许它对数据中的顺序或时间依赖性进行建模。GRU是指门控递归单元(其是LSTM的变体)，其试图解决LSTM的一些缺点。Bi-LSTM/Bi-GRU是指LSTM和GRU的“双向”变体。典型地，LSTM和GRU在“正向”方向上顺序处理，但双向版本也在“反向”方向学习。LSTM可以使用隐藏状态保存来自已经通过它的数据输入的信息。单向LSTM只保留过去的信息，因为它只看到过去的输入。相比之下，双向LSTM在从过去到未来的两个方向上运行数据输入，反之亦然。因此，正向和方向运行的双向LSTM保留了来自未来和过去的信息。

第二模型可以使用第一模型作为训练的起点。起点可以是除输出层之外冻结的完整第一模型，该模型对目标蛋白质功能或蛋白质性质进行训练。起点可以是第一模型，其中嵌入层、最后2层、最后3层或所有层被解冻，模型的其余部分在对目标蛋白质功能或蛋白质性质训练期间被冻结。起点可以是第一模型，其中去除了嵌入层，并添加了1、2、3个或更多个层，并对目标蛋白质功能或蛋白质性质进行了训练。在一些实施例中，冻结层的数量为1至10。在一些实施例中，冻结层的数量为1至2、1至3、1至4、1至5、1至6、1至7、1至8、1至9、1至10、2至3、2至4、2至5、2至6、2至7、2至8、2至9、2至10、3至4、3至5、3至6、3至7、3至8、3至9、3至10、4至5、4至6、4至7、4至8、4至9、4至10、5至6、5至7、5至8、5至9、5至10、6至7、6至8、6至9、6至10、7至8、7至9、7至10、8至9、8至10、或9至10。在一些实施例中，冻结层的数量为1、2、3、4、5、6、7、8、9或10。在一些实施例中，冻结层的数量为至少1、2、3、4、5、6、7、8或9。在一些实施例中、冻结层的数量为至多2、3、4、5、6、7、8、9或10。在一些实施例中，在迁移学习期间没有层被冻结。在一些实施例中，在第一模型中冻结的层数至少部分地基于可用于训练第二模型的样本数来确定。本披露认识到冻结(多个)层或增加冻结层的数量可以增强第二模型的预测性能。在用于训练第二模型的样本量小的情况下，该效果可能更加突出。在一些实施例中，当第二模型在训练集中具有不超过200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40或30个样本时，来自第一模型的所有层被冻结。在一些实施例中，当用于训练第二模型的样本数在训练集中不超过200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40或30个样本时，第一模型中的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、或至少100个层被冻结以迁移至第二模型。

第一模型和第二模型可以具有10-100个层、100-500个层、500-1000个层、1000-10000个层、或多达1000000个层。在一些实施例中，第一模型和/或第二模型包含10个层或1,000,000个层。在一些实施例中，第一模型和/或第二模型包含10个层至50个层、10个层至100个层、10个层至200个层、10个层至500个层、10个层至1,000个层、10个层至5,000个层、10个层至10,000个层、10个层至50,000个层、10个层至100,000个层、10个层至500,000个层、10个层至1,000,000个层、50个层至100个层、50个层至200个层、50个层至500个层、50个层至1,000个层、50个层至5,000个层、50个层至10,000个层、50个层至50,000个层、50个层至100,000个层、50个层至500,000个层、50个层至1,000,000个层、100个层至200个层、100个层至500个层、100个层至1,000个层、100个层至5,000个层、100个层至10,000个层、100个层至50,000个层、100个层至100,000个层、100个层至500,000个层、100个层至1,000,000个层、200个层至500个层、200个层至1,000个层、200个层至5,000个层、200个层至10,000个层、200个层至50,000个层、200个层至100,000个层、200个层至500,000个层、200个层至1,000,000个层、500个层至1,000个层、500个层至5,000个层、500个层至10,000个层、500个层至50,000个层、500个层至100,000个层、500个层至500,000个层、500个层至1,000,000个层、1,000个层至5,000个层、1,000个层至10,000个层、1,000个层至50,000个层、1,000个层至100,000个层、1,000个层至500,000个层、1,000个层至1,000,000个层、5,000个层至10,000个层、5,000个层至50,000个层、5,000个层至100,000个层、5,000个层至500,000个层、5,000个层至1,000,000个层、10,000个层至50,000个层、10,000个层至100,000个层、10,000个层至500,000个层、10,000个层至1,000,000个层、50,000个层至100,000个层、50,000个层至500,000个层、50,000个层至1,000,000个层、100,000个层至500,000个层、100,000个层至1,000,000个层、或500,000个层至1,000,000个层。在一些实施例中，第一模型和/或第二模型包含10个层、50个层、100个层、200个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、500,000个层、或1,000,000个层。在一些实施例中，第一模型和/或第二模型包含至少10个层、50个层、100个层、200个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、或500,000个层。在一些实施例中，第一模型和/或第二模型包含至多50个层、100个层、200个层、500个层、1,000个层、5,000个层、10,000个层、50,000个层、100,000个层、500,000个层、或1,000,000个层。

在一些实施例中，本文描述了第一系统，该第一系统包含神经网嵌入器和任选的神经网预测器。在一些实施例中，第二系统包含神经网嵌入器和神经网预测器。在一些实施例中，嵌入器包含10个层至200个层。在一些实施例中，嵌入器包含10个层至20个层、10个层至30个层、10个层至40个层、10个层至50个层、10个层至60个层、10个层至70个层、10个层至80个层、10个层至90个层、10个层至100个层、10个层至200个层、20个层至30个层、20个层至40个层、20个层至50个层、20个层至60个层、20个层至70个层、20个层至80个层、20个层至90个层、20个层至100个层、20个层至200个层、30个层至40个层、30个层至50个层、30个层至60个层、30个层至70个层、30个层至80个层、30个层至90个层、30个层至100个层、30个层至200个层、40个层至50个层、40个层至60个层、40个层至70个层、40个层至80个层、40个层至90个层、40个层至100个层、40个层至200个层、50个层至60个层、50个层至70个层、50个层至80个层、50个层至90个层、50个层至100个层、50个层至200个层、60个层至70个层、60个层至80个层、60个层至90个层、60个层至100个层、60个层至200个层、70个层至80个层、70个层至90个层、70个层至100个层、70个层至200个层、80个层至90个层、80个层至100个层、80个层至200个层、90个层至100个层、90个层至200个层、或100个层至200个层。在一些实施例中，嵌入器包含10个层、20个层、30个层、40个层、50个层、60个层、70个层、80个层、90个层、100个层、或200个层。在一些实施例中，嵌入器包含至少10个层、20个层、30个层、40个层、50个层、60个层、70个层、80个层、90个层、或100个层。在一些实施例中，嵌入器包含至多20个层、30个层、40个层、50个层、60个层、70个层、80个层、90个层、100个层、或200个层。

在一些实施例中，不使用迁移学习来生成最终的训练模型。例如，在有足够数据可用的情况下，与不使用迁移学习的模型(例如，针对测试数据集进行测试时)相比，至少部分使用迁移学习生成的模型在预测方面没有提供显著改进。因此，在一些实施例中，利用非迁移学习方法来生成训练模型。

计算系统和软件

在一些实施例中，如本文所述的系统被配置为提供软件应用，如多肽预测引擎(例如，提供编码器-解码器框架)。在一些实施例中，多肽预测引擎包含用于基于输入数据(如初始种子氨基酸序列)来预测映射到至少一种功能或性质的氨基酸序列的一个或多个模型。在一些实施例中，如本文所述的系统包含计算设备，例如数字处理设备。在一些实施例中，如本文所述的系统包含用于与服务器通信的网络元件。在一些实施例中，如本文所述的系统包含服务器。在一些实施例中，系统被配置为上载到服务器和/或从服务器下载数据。在一些实施例中，服务器被配置为存储输入数据、输出和/或其他信息。在一些实施例中，服务器被配置为从系统或装置备份数据。

在一些实施例中，系统包含一个或多个数字处理设备。在一些实施例中，系统包含被配置为生成(多个)训练模型的多个处理单元。在一些实施例中，系统包含多个图形处理单元(GPU)，这些图形处理单元适用于机器学习应用。例如，与中央处理单元(CPU)相比，GPU通常表征为由算术逻辑单元(ALU)、控制单元和存储器缓存构成的较小逻辑核的数量增加。因此，GPU被配置为并行处理更多数量的简单且相同的计算，这些计算适用于机器学习方法中常见的数学矩阵计算。在一些实施例中，系统包含一个或多个张量处理单元(TPU)，这些张量处理单元是由谷歌开发的用于神经网络机器学习的AI专用集成电路(ASIC)。在一些实施例中，本文描述的方法在包含多个GPU和/或TPU的系统上实施。在一些实施例中，系统包含至少2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、或100个或更多个GPU或TPU。在一些实施例中，GPU或TPU被配置为提供并行处理。

在一些实施例中，系统或装置被配置为加密数据。在一些实施例中，服务器上的数据被加密。在一些实施例中，系统或装置包含用于存储数据的数据存储单元或存储器。在一些实施例中，使用高级加密标准(AES)来进行数据加密。在一些实施例中，使用128位、192位或256位AES加密来进行数据加密。在一些实施例中，数据加密包含数据存储单元的全盘加密。在一些实施例中，数据加密包含虚拟磁盘加密。在一些实施例中，数据加密包含文件加密。在一些实施例中，在系统或装置与其他设备或服务器之间传输或以其他方式通信的数据在传输期间被加密。在一些实施例中，系统或装置与其他设备或服务器之间的无线通信被加密。在一些实施例中，传输中的数据使用安全套接层(SSL)加密。

如本文所述的装置包含数字处理设备，该数字处理设备包括一个或多个执行设备功能的硬件中央处理单元(CPU)或通用图形处理单元(GPGPU)。数字处理设备进一步包含被配置为执行可执行指令的操作系统。数字处理设备任选地连接到计算机网络。数字处理设备任选地连接到互联网，以便它访问万维网。数字处理设备任选地连接到云计算基础设施。合适的数字处理设备包括，以非限制性示例的方式，服务器计算机、台式计算机、膝上型计算机、笔记本计算机、小型笔记本计算机、上网本计算机、netpad计算机、机顶计算机、流媒体设备、手持式计算机、互联网设备、移动智能手机、平板计算机、个人数字助理、视频游戏控制台和传播媒介。本领域技术人员将认识到，许多智能手机适用于在本文描述的系统中使用。

典型地，数字处理设备包括被配置为执行可执行指令的操作系统。例如，操作系统是软件，包括程序和数据，该操作系统管理设备的硬件并为应用的执行提供服务。本领域技术人员将认识到，以非限制性示例的方式，合适的服务器操作系统包括FreeBSD、OpenBSD、

Linux、

Mac OS X

Windows

和

本领域技术人员将认识到，以非限制性示例的方式，合适的个人计算机操作系统包括

Mac OS

和类UNIX操作系统，例如

在一些实施例中，操作系统由云计算提供。

如本文所述的数字处理设备包括或可操作地耦合到存储和/或存储器设备。存储和/或存储器设备是一种或多种用于临时或永久存储数据或程序的物理装置。在一些实施例中，设备是易失性存储器并且需要电源来维持存储的信息。在一些实施例中，设备是非易失性存储器并且在数字处理设备未通电时保留存储的信息。在另外的实施例中，非易失性存储器包含闪存。在一些实施例中，非易失性存储器包含动态随机存取存储器(DRAM)。在一些实施例中，非易失性存储器包括铁电随机存取存储器(FRAM)。在一些实施例中，非易失性存储器包含相变随机存取存储器(PRAM)。在其他实施例中，设备是存储设备，以非限制性示例的方式，包括CD-ROM、DVD、闪存设备、磁盘驱动器、磁带驱动器、光盘驱动器、和基于云计算的存储。在另外的实施例中，存储和/或存储器设备是如本文所披露的那些设备的组合。

在一些实施例中，如本文所述的系统或方法生成含有或包含输入和/或输出数据的数据库。本文描述的系统的一些实施例是基于计算机的系统。这些实施例包括CPU(包括处理器和存储器)，其可以呈非暂态计算机可读存储介质的形式。这些系统实施例进一步包括典型地存储在存储器(例如呈非暂态计算机可读存储介质的形式)中的软件，其中该软件被配置为使处理器执行功能。并入本文所述系统的软件实施例含有一个或多个模块。

在各种实施例中，装置包含计算设备或组件，例如数字处理设备。在本文描述的一些实施例中，数字处理设备包括显示器以显示视觉信息。适用于与本文描述的系统和方法一起使用的显示器的非限制性示例包括液晶显示器(LCD)、薄膜晶体管液晶显示器(TFT-LCD)、有机发光二极管(OLED)显示器、OLED显示器、有源矩阵OLED(AMOLED)显示器、或等离子显示器。

在本文描述的一些实施例中，数字处理设备包括用于接收信息的输入设备。适用于与本文描述的系统和方法一起使用的输入设备的非限制性示例包括键盘、鼠标、轨迹球、轨迹板或手写笔。在一些实施例中，输入设备是触摸屏或多触摸屏。

本文描述的系统和方法典型地包括一个或多个非暂态计算机可读存储介质，该存储介质用程序编码，该程序包括可由任选网络化的数字处理设备的操作系统执行的指令。在本文描述的系统和方法的一些实施例中，非暂态存储介质是数字处理设备的组件，该数字处理设备是系统的组件或在方法中使用。在仍另外的实施例中，计算机可读存储介质任选地可从数字处理设备去除。在一些实施例中，计算机可读存储介质，以非限制性示例的方式，包括CD-ROM、DVD、闪存设备、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务器等。在一些情况下，程序和指令永久地、基本上永久地、半永久地或非暂态地编码在介质上。

典型地，本文描述的系统和方法包括至少一个计算机程序或其使用。计算机程序包括一系列指令，其可在数字处理设备的CPU中执行，被编写以执行指定任务。计算机可读指令可以被实施为执行特定任务或实施特定抽象数据类型的程序模块，例如函数、对象、应用编程接口(API)、数据结构等。根据本文提供的披露内容，本领域技术人员将认识到可以以各种语言的各种版本来编写计算机程序。计算机可读指令的功能可以根据需要在各种环境中组合或分布。在一些实施例中，计算机程序包含一个指令序列。在一些实施例中，计算机程序包含多个指令序列。在一些实施例中，从一个位置提供计算机程序。在其他实施例中，从多个位置提供计算机程序。在各种实施例中，计算机程序包括一个或多个软件模块。在各种实施例中，计算机程序以部分地或全部地包括一个或多个网络应用、一个或多个移动应用、一个或多个独立应用、一个或多个网络浏览器插件、扩展、外接程序或附加组件、或其组合。在各种实施例中，软件模块包含文件、代码段、编程对象、编程结构或其组合。在另外的各种实施例中，软件模块包含多个文件、多个代码段、多个编程对象、多个编程结构或其组合。在各种实施例中，以非限制性示例的方式，一个或多个软件模块包含网络应用、移动应用和独立应用。在一些实施例中，软件模块在一个计算机程序或应用中。在其他实施例中，软件模块在一个以上的计算机程序或应用中。在一些实施例中，软件模块驻留在一台机器上。在其他实施例中，软件模块驻留在一台以上机器上。在另外的实施例中，软件模块驻留在云计算平台上。在一些实施例中，软件模块驻留在一个位置的一台或多台机器上。在其他实施例中，软件模块驻留在多于一个位置的一台或多台机器上。

典型地，本文描述的系统和方法包括和/或利用一个或多个数据库。鉴于本文提供的披露内容，本领域技术人员将认识到，许多数据库适用于基线数据集、文件、文件系统、对象、对象系统以及本文描述的数据结构和其他类型信息的存储和检索。在各种实施例中，以非限制性示例的方式，合适的数据库包括关系型数据库、非关系型数据库、面向对象的数据库、对象数据库、实体关系模型数据库、关联数据库和XML数据库。另外的非限制性示例包括SQL、PostgreSQL、MySQL、Oracle、DB2和Sybase。在一些实施例中，数据库是基于互联网的。在另外的实施例中，数据库是基于网络的。在仍另外的实施例中，数据库是基于云计算的。在其他实施例中，数据库基于一个或多个本地计算机存储设备。

图6A图示了可以在其中实施本发明的实施例的计算机网络或类似的数字处理环境。

(多个)客户端计算机/设备50和(多个)服务器计算机60提供执行应用程序等的处理设备、存储设备和输入/输出设备。(多个)客户端计算机/设备50还可以通过通信网络70链接到其他计算设备，包括其他客户端设备/进程50和(多个)服务器计算机60。通信网络70可以是远程接入网络、全球网络(例如，互联网)、全球计算机集合、局域网或广域网以及当前使用相应协议(TCP/IP、

等)来相互通信的网关的一部分。其他电子设备/计算机网络架构也适用。

图6B是图6A的计算机系统中的计算机(例如，客户端处理器/设备50或服务器计算机60)的示例内部结构的图。每个计算机50、60包含系统总线79，其中总线是用于在计算机或处理系统的部件之间传输数据的一组硬件线。系统总线79本质上是连接计算机系统的不同元件(例如，处理器、磁盘存储、存储器、输入/输出端口、网络端口等)的共享渠道，其使得能够在元件之间传输信息。附接到系统总线79的是I/O设备接口82，用于将各种输入和输出设备(例如，键盘、鼠标、显示器、打印机、扬声器等)连接到计算机50、60。网络接口86允许计算机连接到附接到网络(例如，图5的网络70)的各种其他设备。存储器90为用于实施本发明的实施例的计算机软件指令92和数据94提供易失性存储(例如，上面详述的神经网络、编码器和解码器)。磁盘存储95为用于实施本发明实施例的计算机软件指令92和数据94提供非易失性存储。中央处理器单元84也附接到系统总线79并提供计算机指令的执行。

在一个实施例中，处理器例程92和数据94是计算机程序产品(一般称为92)，包括为本发明系统提供至少一部分软件指令的非暂态计算机可读介质(例如，诸如一个或多个DVD-ROM、CD-ROM、软盘、磁带等可移除存储介质)。计算机程序产品92可以通过如本领域所熟知的任何合适的软件安装程序来安装。在另一个实施例中，软件指令的至少一部分也可以通过有线通信和/或无线连接下载。在其他实施例中，本发明的程序是体现在传播介质上的传播信号(例如，在全球网络(如互联网或(多个)其他网络)上传播的无线电波、红外波、激光波、声波或电波)上的计算机程序传播信号产品。这样的载体介质或信号可以用于提供用于本发明例程/程序92的软件指令的至少一部分。

某些定义

如本文所用，单数形式“一个/一种(a/an)”以及“该(这些)”包括复数个指示物，除非上下文中另外明确指明。例如，术语“样本”包括多个样本，包括其混合物。除非另有说明，否则本文中对“或”的任何引用均旨在涵盖“和/或”。

如本文所用，术语“核酸”通常是指一种或多种核碱基、核苷或核苷酸。例如，核酸可以包括一个或多个选自腺苷(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)或其变体的核苷酸。核苷酸通常包括核苷和至少1、2、3、4、5、6、7、8、9、10个或更多个磷酸(PO3)基团。核苷酸可以包括核碱基、五碳糖(核糖或脱氧核糖)以及一个或多个磷酸基团。核糖核苷酸包括其中糖为核糖的核苷酸。脱氧核糖核苷酸包括其中糖是脱氧核糖的核苷酸。核苷酸可以是核苷一磷酸、核苷二磷酸、核苷三磷酸或核苷多磷酸。腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶和尿嘧啶被称为典型或初级核碱基。具有非初级或非典型核碱基的核苷酸包括已经修饰的碱基，例如经修饰的嘌呤和经修饰的嘧啶。经修饰的嘌呤核碱基包括次黄嘌呤、黄嘌呤和7-甲基鸟嘌呤，它们分别是核苷肌苷、黄苷和7-甲基鸟苷的一部分。经修饰的嘧啶核碱基包括5,6-二氢尿嘧啶和5-甲基胞嘧啶，它们分别是核苷二氢尿苷和5-甲基胞苷的一部分。其他非典型核苷包括假尿苷(Ψ)，其通常发现于tRNA中。

如本文所用，术语“多肽”、“蛋白质”和“肽”可互换使用，并且是指经由肽键连接的氨基酸残基的聚合物，并且其可由两条或更多条多肽链构成。术语“多肽”、“蛋白质”和“肽”是指通过酰胺键连接在一起的至少两个氨基酸单体的聚合物。氨基酸可以是L光学异构体或D光学异构体。更具体地说，术语“多肽”、“蛋白质”和“肽”是指由两个或更多个氨基酸以特定顺序构成的分子；例如，由对蛋白质的基因或RNA编码中核苷酸的碱基序列决定的顺序。蛋白质对身体细胞、组织和器官的结构、功能和调节至关重要，并且每种蛋白质都具有独特的功能。示例是激素、酶、抗体及其任何片段。在一些情况下，蛋白质可以是蛋白质的部分，例如蛋白质的结构域、亚结构域或基序。在一些情况下，蛋白质可以是蛋白质的变体(或突变)，其中一个或多个氨基酸残基被插入到天然存在的(或至少已知的)蛋白质氨基酸序列中、从其中缺失和/或取代到其中。蛋白质或其变体可以是天然存在的或重组的。多肽可以是通过相邻氨基酸残基的羧基基团和氨基基团之间的肽键结合在一起的氨基酸的单一线性聚合物链。例如，可以通过添加碳水化合物、磷酸化等来修饰多肽。蛋白质可以包含一个或多个多肽。氨基酸包括典型氨基酸精氨酸、组氨酸、赖氨酸、天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、甘氨酸、脯氨酸、丙氨酸、缬氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、酪氨酸和色氨酸。氨基酸还可以包括非典型氨基酸，如硒代半胱氨酸和吡咯赖氨酸。例如，可以通过添加碳水化合物、脂质、磷酸化等来修饰多肽，例如通过翻译后修饰，以及前述的组合。蛋白质可以包含一个或多个多肽。氨基酸包括典型L-氨基酸精氨酸、组氨酸、赖氨酸、天冬氨酸、谷氨酸、丝氨酸、苏氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、甘氨酸、脯氨酸、丙氨酸、缬氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、酪氨酸和色氨酸。氨基酸还可以包括非典型氨基酸，例如典型氨基酸的D-异构体，以及另外的非典型氨基酸，例如硒代半胱氨酸和吡咯赖氨酸。氨基酸还包括非典型的β-丙氨酸、4-氨基丁酸、6-氨基己酸、肌氨酸、抑胃酶氨酸、瓜氨酸、高瓜氨酸、高丝氨酸、正亮氨酸、戊氨酸和鸟氨酸。多肽还可以包括翻译后修饰，其包括以下中的一种或多种：乙酰化、酰胺化、甲酰化、糖基化、羟基化、甲基化、肉豆蔻酰化、磷酸化、脱酰胺、异戊二烯化(例如，法呢基化、香叶基化等)、泛素化、核糖基化和硫酸化，包括前述的组合。因此，在一些实施例中，本发明提供的或在本发明提供的方法或系统中使用的多肽在不同实施例中可以含有：仅典型氨基酸、仅非典型氨基酸、或典型氨基酸和非典型氨基酸的组合，如其他含有L-氨基酸的多肽中的一种或多种D-氨基酸残基。

如本文所用，术语“神经网”是指人工神经网络。人工神经网络具有互连的节点组的一般结构。节点通常被组织成多个层，其中每个层包含一个或多个节点。信号可以通过神经网络从一层传播到下一层。在一些实施例中，神经网络包含嵌入器。嵌入器可以包括一个层或多个层，例如嵌入层。在一些实施例中，神经网络包含预测器。预测器可以包括一个或多个生成输出或结果(例如，基于一级氨基酸序列的预测功能或性质)的输出层。

如本文所用，术语“人工智能”通常是指能够以“智能”或非重复或死记硬背或预编程的方式执行任务的机器或计算机。

如本文所用，术语“机器学习”是指机器(例如，计算机程序)可以在没有被编程的情况下自行学习的一种学习类型。

如本文所用，短语“a、b、c和d中的至少一个”是指a、b、c或d，以及包含a、b、c和d中的两个或两个以上的任何和所有组合。

示例

示例1：在计算机中使用基于梯度的设计来工程化绿色荧光蛋白

使用计算机机器学习方法将不发光的蛋白质转化为荧光蛋白。该实验的源数据是50,000个公开可用的GFP序列，已对这些序列进行了荧光检测。首先，通过使用首先在UniProt数据库上预训练的模型、然后使用该模型并对其进行训练以从序列预测荧光，在迁移学习的帮助下生成了编码器神经网络。选择亮度较低的80％的蛋白质作为训练数据集，而保留亮度最高的20％的蛋白质作为验证数据集。训练集和验证集的均方误差<0.001，表明直接从序列预测荧光的准确性很高。图5A和图5B中分别示出了训练集和验证集中的真实荧光值与预测荧光值的数据图。

图7示出了图示用于工程化GFP序列的基于梯度的设计(GBD)的图。基于梯度优化了嵌入702。解码器704用于基于嵌入来确定GFP序列，之后可以通过GFP荧光模型706评估GFP序列以得到预测荧光708。如图7所示，使用基于梯度的设计生成GFP序列的过程包括：在梯度的引导下在嵌入空间中进行一步，做出预测710，重新评估梯度712，然后重复这个过程。

在训练编码器之后，选择当前不发荧光的序列作为种子蛋白质，并使用已训练编码器将其投射到嵌入空间(例如，2维空间)中。运行基于梯度的更新程序来改进嵌入，从而优化种子蛋白质的嵌入。接下来，计算导数并将其用于朝向更高功能的区域移动通过嵌入空间。优化的嵌入坐标在荧光功能方面得到了改进。一旦实现所需的功能水平，嵌入空间中的坐标就会被投射回蛋白质空间，从而产生具有所需功能的氨基酸序列。

选择了60个具有最高预测亮度的GBD设计序列的选择进行实验验证。图8中示出了使用GBD创建的序列的实验验证的结果。Y轴是相对于avGFP(WT)的荧光倍数变化。图8从左到右示出：(1)WT——avGFP的亮度，其是监督模型所训练的所有GFP序列的对照；(2)工程化：人工设计的GFP，称为“超级文件夹(super folder)”(sfGFP)；(3)GBD：使用基于梯度的设计程序创建的新序列。可以看出，在一些情况下，由GBD设计的序列比野生型和训练序列亮约50倍，比众所周知的人类工程化的sfGFP亮5倍。这些结果证实了GBD能够工程化其功能优于人类工程化的多肽的功能的多肽。

图9示出了avGFP与具有最高的实验验证荧光的GBD工程化的GFP序列(其比avGFP高约50倍)的成对氨基酸序列比对900。句点‘.’表示相对于avGFP没有突变，而突变或成对差异由代表比对中指定位置的GBD工程化的GFP氨基酸残基的单字母氨基酸代码示出。如图9所示，成对比对揭示了avGFP(其是SEQ.NO.1)与GBD工程化的GFP多肽序列(其可以称为SEQ.NO.2)之间的7个氨基酸突变或残基差异。

avGFP是具有以下SEQ ID NO:1序列的长度为238个氨基酸的多肽。GBD工程化的GFP多肽相对于avGFP序列具有7个氨基酸突变：Y39C、F64L、V68M、D129G、V163A、K166R和G191V。

在训练数据和验证数据上，解码器的残基准确率都>99.9％，这意味着平均而言解码器每个GPF序列有0.5个错误(假设GFP的长度为238个氨基酸)。接下来，评估解码器在蛋白质设计方面的性能。首先，使用编码器将训练集和验证集中的每个蛋白质嵌入。接下来，使用解码器对这些嵌入进行解码。最后，使用编码器预测解码序列的荧光值，并将这些预测值与使用原始序列预测的值进行比较。图4中示出了该过程的概要。

计算来自原始序列的预测值与来自解码序列的预测值之间的相关性。在训练数据集和验证数据集中都观察到了高度的一致性。表1总结了这些观察结果。

表1

数据	相关性
		训练	0.99
验证	0.77

示例2在计算机中使用基于梯度的设计来工程化β-内酰胺酶基因

计算机机器学习方法用于转化β-内酰胺酶，以使其对以前没有抗性的抗生素产生抗性。使用已测量了对11种抗生素的抗性的662个公开可用的β-内酰胺酶序列的训练集，建立了多任务深度学习模型，以基于氨基酸序列预测对这些抗生素的抗性。

接下来，从训练集中选择对测试抗生素没有抗性的20种β-内酰胺酶，目的是设计对这种抗生素具有抗性的新序列。将基于梯度的设计(GBD)应用于这些序列，总共进行100次迭代。图10中示出了该过程的可视化。如前所述，初始序列用作映射到嵌入空间并随后通过100次迭代进行优化的种子。图10示出了设计序列对测试抗生素的预测抗性作为基于梯度的设计的迭代的函数。y轴表示由模型预测的抗性，并且x轴表示在优化嵌入时基于梯度的设计的轮次或迭代。图10图示了预测抗性如何随着GBD的轮次或迭代而增加。种子序列以低抗性(第0轮)开始，并在几轮后迭代地改进为具有高预测抗性(概率>0.9)。如图所示，似乎预测抗性在大约25轮时达到峰值，然后达到稳定水平。

与GFP不同，β-内酰胺酶具有可变长度，因此，在该示例中，GBD能够控制蛋白质的长度。

选择了7个序列进行实验验证，如下表2所示。

表2.选择由GBD设计的七个序列进行实验验证。这七个序列是根据对测试抗生素有抗性的高概率(ResistanceProb)、与训练数据中对测试抗生素有抗性的序列具有低序列同一性(ClassPercentID)、以及具有低相互序列同一性等因素综合选择的。训练数据中最长的β-内酰胺酶是400个氨基酸，GBD设计的β-内酰胺酶多肽序列中有几个超过了该长度。

对使用GBD设计的七种新型β-内酰胺酶进行了验证实验。用表达β-内酰胺酶的载体转化的细菌进行了10倍的连续稀释，并在存在8ug/ml测试抗生素+1mM IPTG的情况下在琼脂板中生长。图11是图示了抗生素抗性测试的图。典型的β-内酰胺酶TEM-1在最后一列中示出。很明显，设计的序列中的几个对测试抗生素显示出比TEM-1更大的抗性能力。第14-1和14-2列的β-内酰胺酶有向下五个斑点的菌落。第14-3列有向下七个斑点的菌落。第14-4、14-6和14-7列有向下四个斑点的菌落。第14-5列有向下三个斑点的菌落。同时，TEM-1只有向下两个斑点的菌落。

示例3——在模拟地形上使用基于梯度的设计的综合实验

使用机器学习对具有特定功能性质的生物序列进行计算设计是本披露的目标。常见策略是基于模型的优化：将序列映射到功能的模型在标记数据上进行训练，然后进行优化以产生具有所需功能的序列。然而，朴素优化方法无法避免模型误差很高的分布外输入。为了解决这些问题，显式方法和隐式方法将目标约束为分布中的输入，从而高效地生成新的生物序列。

蛋白质工程是指生成具有所需功能性质的新型蛋白质。该领域有许多应用，包括蛋白质治疗剂、农业蛋白质和工业生物催化剂的设计。识别编码具有指定功能的蛋白质的氨基酸序列具有挑战性，部分原因是虽然功能序列的子集非常小，但候选序列的空间有很多组合方式。

已经取得成功的一个方法系列是定向进化：在从遗传变体库中采样与筛选从中建立下一轮候选者的具有改进功能的变体之间交替进行的迭代过程。即使随着高通量测定的发展，该过程也是时间和资源密集型的，需要多次迭代和筛选大量变体。在许多应用中，为所需的功能性质设计高通量测定具有挑战性或不可行。

最近的方法利用机器学习方法更高效地设计库，并以更少的迭代/筛选获得更高适应度的序列。一种这样的方法是基于模型的优化。在该设置中，将序列映射到功能的模型被拟合到标记数据。然后，该模型通过计算筛选变体并设计更高的适应度库。在实施例中，本披露的系统和方法改善了在基于模型的优化的朴素方法中出现的问题并改进了生成的序列。

在示例中，令X表示蛋白质序列的空间，并且f是编码感兴趣性质(例如，荧光、活性、表达、溶解度)的蛋白质空间上的实值映射。然后，设计具有指定功能的新型蛋白质的任务可以重新表述为找到以下的解：

其中，f通常是未知的。这类问题称为基于模型的优化。这个问题可以被限制为静态设置，其中，不能直接查询f，但提供了标记数据集

其中标签y_i可能是有噪的：y_i≈f(x_i)。

朴素方法是使用D来拟合逼近f的模型f_θ，然后求解：

这往往会产生较差的结果，因为优化器可能找到使f_θ错误地大的点。关键问题是可能的氨基酸序列空间具有非常高的维度，但数据通常是从低得多的维度子空间中采样的。实际中θ是高维的、而f_θ高度非线性(例如，由于像生物学中的上位性等现象)的事实会加剧这种情况。因此，必须以某种方式约束输出，以将搜索限制在f_θ是f的良好近似的一类可接受序列。

一种方法是将概率模型p_θ拟合到(x_i)^N使得p_θ(x)是序列x从数据分布中采样的概率。可以显式计算(或设置下界)似然性的模型类的一些示例是一阶/逐位点模型、隐马尔可夫模型、条件随机场、变分自动编码器(VAE)、自回归模型和基于流的模型。在实施例中，该方法优化了以下函数：

其中，λ>0是固定的超参数。标记数据通常昂贵或稀缺，但来自感兴趣系列的未标记蛋白质示例很容易获得。在实践中，p_θ可以拟合到来自该系列的未标记蛋白质的更大数据集。

直接在序列空间中进行优化的一个挑战是序列空间是离散的，因此不适合基于梯度的方法。利用f_θ是已学到的连续序列空间表示的平滑函数这一事实，可以更高效地利用梯度并进行优化。为此，f_θ＝a_θe_θ，其中，f_θ是L层神经网络，e_θ：Z，称为编码器，是前K层，并且a_θ：Z→R，称为注释器，是最后L-K层。这使我们能够将优化移动到空间Z并利用梯度。非正则化类比是为了求解：

然后拟合概率解码器

其映射

使得对于从数据分布中采样的x’

其可以返回

人们可能会预期这里的问题会复杂化，因为梯度可能会将z^*拉入不仅a_θ而且

都具有高误差的Z的区域。该方法的动机是观察到，由于a_θ和

是在相同的数据流形上训练的，因此

的重建误差往往与a_θ的平均绝对误差相关。

提出如下目标函数：

这为优化添加了隐式约束。(5)的稳定解对应于

具有低熵和低重建误差的Z区域。考虑这种正则化的启发式方法是，因为解码器被训练以输出集中在数据分布中的点上的分布，映射

可以被认为是投射到数据流形。而较早的f_θ是X上的映射，并且方程表明f_θ是p()上的映射。然而，下面将描述方程(5)所拟合的f_θ到p()的自然扩展。最后，与方程(3)中的p_θ一样，如果经由方程(5)使用梯度上升作为基于梯度的设计(GBD)，则解码器

可以拟合到来自感兴趣系列的更大的未标记蛋白质数据集。

结果——综合实验

评估基于模型的优化方法需要查询地面真值函数f。在实践中，这可能很慢和/或很昂贵。为了帮助开发和评估方法，该方法在两种设置下通过综合实验进行测试：格子蛋白质优化任务和RNA优化任务。在这两个任务中，地面真值f是高度非线性的并且是真实生物序列的近似非平凡生物物理性质。

格子蛋白质是指简化假设，即，长度为L的蛋白质被限制为位于没有自交点的2维格子上的构象。在这种假设下，人们可以枚举所有可能的构象并精确计算配分函数，从而使得可以高效地计算许多热力学性质。地面真值适应度f被定义为氨基酸链相对于固定构象sf的自由能。针对这种适应度来优化序列相当于找到相对于固定结构构象稳定的序列，这是序列设计的长期目标。

可以高效地计算核苷酸序列相对于固定构象的自由能，而无需在2维格子蛋白质模型中进行许多简化假设。在RNA优化设置中，f在核苷酸序列空间上定义为相对于已知tRNA结构的固定构象sf的自由能。

对于这两个任务，在定义f之后，通过修改的Metropolis-Hastings采样，生成从中选择训练数据的适应度地形。在Metropolis-Hastings下，序列x被包含在地形中的概率与f(x)渐近成正比。根据适应度对数据进行拆分：验证数据从较高的适应度序列中均匀采样并且训练数据从较低的适应度序列中均匀采样，以评估方法生成具有大于训练期间所看到的适应度的序列的能力，这是实际应用中的理想性质。

卷积神经网络f_θ和逐位点p_θ被拟合到数据。从训练数据中抽取一组192个种子序列，并根据离散优化目标(2)和(3)以及基于梯度的优化目标(4)和(5)对这些种子序列进行优化。离散目标通过贪婪局部搜索算法进行优化，其中在每个步骤中，从由训练数据给出的经验分布中采样多个候选突变，并根据目标为群组中的每个序列选择最佳突变。

朴素优化迅速将群组驱动到模型误差较高的空间区域，并且在两个实验中都未能提高群组的平均适应度。正则化可以减少这种影响，从而允许群组的平均适应度提高，同时模型误差保持在较低水平。所生成的序列很少(<1％)超过在任一任务训练期间所看到的适应度值。

图12A至图12F是图示了RNA优化(12A-C)和格子蛋白质优化(12D-F)的离散优化结果的图。图12A和图12D图示了优化期间整个群组的适应度(μ±σ)。朴素优化不会导致任何环境中的平均适应度的显著提高，而正则化目标能够做到这一点。图12B和图12E图示了由适应度前10个百分位数构成的子群组的适应度(阴影部分为子群组中的最小到最大性能)。在RNA沙箱中，任何一种方法都无法找到比训练期间所看到的有意义的适应度更高的序列。图12C和图12F图示了在优化期间在整个群组中f_θ与f的绝对偏差(μ±σ)。朴素目标未能提高群组性能，因为群组移动到模型不可靠的空间部分。

图14图示了对方程(3)中的正则化项λ进行增权重的效果：较大的λ导致模型误差降低，但在优化过程中，由于模型被限制在分配了高概率p_θ的序列，序列多样性也对应降低。对于测试该系统的所有实验，如果没有另外指定，则λ设置为5。然而，其他测试也可以使用其他值。左图图示了随着目标(3)中λ的增加，整个群组的平均模型误差(μ±σ)会降低，而右图图示了群组中的序列多样性也降低。数据是从格子蛋白质沙箱环境中获取的。基于梯度的方法比离散方法更快地进入空间。GBD能够探索距离初始种子更远的序列空间区域，同时保持与离散正则化方法相当的低模型误差。

图13A至图13H图示了基于梯度的优化的结果。以上在优化时突出的问题仅在Z中工作时才会加剧：在不使用正则化的情况下，不仅群组被驱动到点z，其中，a_θ(z)具有不切实际(且不正确)的高预测适应度值，而且解码序列

也不会被f_θ预测为具有高适应度。在这两种设置中，朴素优化都无法提高整个群组的平均适应度，也无法找到超过训练期间所看到的适应度的序列。GBD没有表现出这种行为：成功优化f_θ d^*、a_θ和

在这两种情况下，GBD都提高了群组的平均适应度，并且群组中前10％的序列的适应度始终超过训练期间所看到的适应度。

图13A至图13D图示了RNA优化的基于梯度的优化结果，并且图13E至图13H图示了格子蛋白质优化。图13A和图13E图示了

在优化期间整个群组的最大似然解码序列真实适应度。朴素优化不会导致RNA沙箱中平均适应度的显著提高，而会导致格子蛋白质环境中的群组适应度显著下降。GBD能够在优化期间成功提高平均群组适应度。图13B和图13F图示了由适应度前10个百分位数构成的子群组的适应度(阴影部分为子群组中的最小到最大性能)。GBD可靠地找到适应度值超过训练期间所看到的适应度值的序列。图13C和图13G是图示了在优化期间群组的

的面板，在Z中的当前点处解码序列的预测适应度。图13D和图13H图示了优化期间群组的a_θ(z)(μ±σ)，即，Z中当前表示的预测适应度。朴素目标快速超优化a_θ，从而将群组推到Z空间中无法被

解码为有意义序列的不切实际部分。GBD目标成功地防止了这种异常。

图15A至图15B图示了启发式激励GBD：它将群组驱动到

可以可靠解码的Z区域。在X中观察，这意味着

近似具有同一性(右)，或在Z中观察到

很小，因此

也很小。数据表明f_θ在该空间区域中也是可靠的，因为f_θ和

是在相同的分布上训练的。

图15A是在格子蛋白质地形中优化的群组中的所有步骤和所有序列上针对a_θ(z)与

的偏差绘制的a_θ(z)与

的偏差的散点图。图15B是图示了

的准确度的曲线图，即，在相同数据上针对a_θ(z)与

的偏差绘制的Z中的点的最大似然解码。GBD通过将群组推送到

可靠解码的Z区域来隐式提供正则化。由于f_θ和

拟合在同一分布上，因此该区域的预测适应度是可靠的。

在综合实验中，GBD能够满足或超过根据群组适应度(平均值和最大值)探索的蒙特卡罗优化方法的性能。在实践中，GBD要快得多：离散方法涉及在每次迭代中生成和评估K个候选突变。这需要每次迭代每个序列对模型进行K次前向传递。GBD需要每次迭代每个序列一次前向传递和一次反向传递。

另外，图16图示了在优化格子蛋白质中的各种目标期间来自群组中初始种子的突变数量(μ±σ)。图16图示了GBD能够比离散方法找到离初始种子序列更远的最优值，同时保持相当低的误差。

表3提供了所讨论的所有方法的比较以及随机搜索基线。在RNA沙箱上，GBD是唯一一种探索过的方法，它可以生成具有比Metropolis Hastings(运行的迭代次数比优化多几个数量级)生成的整个地形中所看到的更大的适应度的序列。python包LatticeProteins枚举了长度为16的氨基酸链的所有可能的非自交构象。该枚举用于计算固定构象sf下长度为16个氨基酸链的自由能。适应度函数f在长度为32个氨基酸序列的空间上定义如下：

f(x)＝E(x₁)+E(x₂)-R(x₁，x₂) (6)

其中，E(x₁)是由前16个氨基酸残基形成的链相对于sf的自由能，E(x₂)是由后16个氨基酸残基形成的链相对于sf的自由能。

R(x₁，x₂)＝c((x₁)_i，(x₂)_i) (7)

并且c(α,β)是从所有氨基酸α,β的标准正态采样的常数相互作用项。

RNA结构适应度函数

令sf是固定的tRNA结构。在python包ViennaRNA的帮助下，适应度函数f在长度为70个核苷酸序列的空间上定义为：

f(x)＝E(x)-min(exp(βd(s_f，s_x))，20) (8)

其中，d表示汉明距离，β＝0.3是超参数，s_x表示x的最小能量构象，并且E(x)表示序列在构象s_x中的自由能。

贪婪的蒙特卡罗搜索优化

该方法通过贪婪的蒙特卡罗搜索算法来优化目标2和3。x是长度为L的序列，在每次迭代中，从由训练数据给出的先验分布中采样K个突变。更准确地说，K个位置是通过替换而从1...L中均匀采样的，并且对于每个位置，从由该位置的数据给出的边际分布中采样氨基酸(或在RNA优化的情况下为核苷酸)。然后在(包括原始序列的)库中的每个变体上评估目标，并选择最佳变体。该过程持续M个步骤。

D.适应度地形的生成

在适应度函数f的情况下，希望获得用于训练监督模型f_θ的样本。由于X是高维的，均匀采样是不可行的，直观上是因为序列被随机选择的概率很高，这导致适应度极低。目标是从密度与f成比例的分布中获得样本。对于过程中的每个内循环，随机初始化一组M个序列。对于每个序列，抽取的N个突变是随机均匀抽取的，并且包括地形中的所有M N个序列。(x_ij)^N表示序列i的N个变体，该方法通过从[1...N]的分类分布中采样突变进行更新，其中，logits由(f(x_ij))^N给出。内循环运行J步，并且运行C次外循环，如以下进一步描述的。

基于梯度的设计

基于梯度的设计是指通过梯度上升来优化目标(4)。给定f_θ、

和初始点z₀，设置

GBD的迭代由基于梯度的优化器(如Adam)的K个步骤构成，以使h最大化，然后是解码步骤，其中

在实践中，有效学习率是良好性能的关键，在K为20的情况下在整个实验中使用了0.05的值。

模型架构和训练

该方法对f_θ＝a_θe_θ进行了因式分解。在所有实验中都使用了卷积编码器e_θ，其由卷积块和平均池化层的交替堆叠构成。一个块包括包裹在残差连接中的两层。每层都包括1d卷积、层归一化、退出(dropout)和ReLU激活。自始至终使用了2层全连接前馈网络a_θ。解码器网络

由残差块和转置卷积层的交替堆叠构成，后面是2层全连接前馈网络。

参数估计是按顺序而不是共同进行的：首先拟合f_θ，然后冻结参数θ并且拟合

学习是通过随机梯度下降来完成的，以分别使用ADAM优化器来最小化f_θ、

的MSE和交叉熵。使用最大学习率为10^-4的单周期学习率退火计划，f_θ被拟合20个时期，

被拟合40个时期。在每个时期，模型参数都被保存并在训练之后，由验证损失测量的最佳参数被选择用于生成。在所有实验中，都使用了按最大似然拟合的逐位点p_θ。

通过最大化证据下限来将变分自动编码器拟合到数据。编码器参数和解码器参数通过重新参数化(摊销)的方式共同学习。10^-3的恒定学习率用于50个时期，并设置了提前停止和10的耐心参数。对于20次迭代，N＝5000个序列从标准正态先验中采样并通过解码器，由f_θ分配预测适应度。在这些序列上在10个时期上对VAE进行了微调，重新加权以生成具有更高预测适应度的序列。表I中的结果报告了与这两种方法的最大均值真实适应度相对应的迭代，因为这两种生成模型在20次迭代完成之前都会塌缩成Δ质量函数。因此，报告的指标概括了方法的峰值性能。

表3:格子蛋白质优化和RNA优化的方法比较：对于随机搜索、朴素蒙特卡罗、正则化蒙特卡罗、朴素基于梯度、和基于梯度的设计的方法：被优化的整个群组、群组的前10％的真实适应度的(μ±σ)，以及优化结束时群组中的最大适应度序列。优化由应用于从训练数据中采样的192个序列(在整个方法中保持不变)的20次迭代构成。

实施例4在计算机中使用基于梯度的设计来工程化抗体

前文描述了使用基于梯度的设计生成结合异硫氰酸荧光素(FITC)并具有改进的解离常数(KD)的抗体。模型在公开可用的包含2825个独特抗体序列的KD估计数据集上进行训练，这些抗体序列是使用荧光激活细胞分选法然后是下一代测序法测量的，如Adams RM、Mora T、Walczak AM、Kinney JB、Elife的“Measuring the sequence-affinity landscapeof antibodies with massively parallel titration curves[用大规模平行滴定曲线测量抗体的序列-亲和力地形]”(2016年)(以下简称“Adams等人”)中描述的，其全文通过引用并入本文。将抗体序列映射到KD的序列和KD对的数据集以三种方式拆分。第一种拆分是通过保留前6％用于执行序列验证(因此模型在最低94％上进行训练)。第二种拆分是通过保留前15％用于执行序列验证(因此模型在最低85％上进行训练)。第三种拆分是通过对20％的序列进行均匀采样(iid)，以保留用于验证。

对于每种拆分，包括编码器(将序列映射到嵌入)和注释器(将嵌入映射到KD)的监督模型被共同拟合。然后将嵌入映射回序列的解码器被拟合到相同的训练集上。对于每个模型，从训练集中均匀采样128个种子，并通过两种方式进行优化。第一种方式是通过GBD进行5轮，每轮由20个GBD步骤构成，然后通过解码器投射回去。第二种方法是通过GBD+进行5轮(其中目标通过一阶正则化进行增强)，每轮由20个GBD步骤构成，然后通过解码器投射回去。GBD+使用附加正则化，包括使用MSA(多序列比对)来约束方法。因此，每个模型产生两组候选者(每种方法GBD、GBD+一组)。通过首先用预测的表达(来自独立训练的表达模型，被拟合到以i.i.d(独立同分布)方式拆分的序列、表达数据的数据集)标记每个候选者，从每个群组中选择要排序的最终序列。群组以两种方式过滤：如果序列被预测为低表达，则删除该序列，并且如果序列的预测适应度低于其种子初始预测适应度，则删除该序列。在剩余的序列中，选择最高预测适应度序列在实验室中进行测量。

图17是图示了湿实验室数据的图表1700，其测量了所列蛋白质变体的Kd，验证了所生成的蛋白质的亲和力。

该图表所图示的方法包括正则化和非正则化的CDE、正则化和非正则化的GBD、以及基线过程。图17所基于的数据集如下表4所示，其中列出了所生成的蛋白质的实验测量的Kd值。

表4

测量我们的GBD生成变体的Kd的湿实验室实验如下进行。酵母细胞用表达独特的抗FITC scFv设计的变体的克隆质粒转化而成，这些变体被格式化用于表面展示并包括用于表达定量的cMyc标签。在培养和scFv表达后，酵母细胞被荧光素抗原以及荧光缀合的抗cMyc抗体以多种浓度染色。达到平衡后，通过流式细胞术来测量每个浓度染色的细胞。在对表达细胞进行门控后计算荧光素抗原结合的中值荧光强度。将中值荧光数据拟合到标准单结合亲和力曲线以确定每个克隆scFv变体的近似结合亲和力Kd(解离常数)。这些结果表明GBD优于用于设计FITC抗体的其他设计方法。

虽然已经在本文示出和描述了本发明的优选实施例，但是对本领域技术人员将是显而易见的是，仅通过举例的方式来提供这样的实施例。在不脱离本发明的情况下，本领域技术人员现在将清楚许多变型、改变和替代。应该理解的是，本文所述的本发明的实施例的各种替代方案可用于实践本发明。所附权利要求旨在限定本发明的范围，并且由此覆盖这些权利要求及其等同物的范围内的方法和结构。

本申请的披露内容还包括以下说明性实施例：

说明性实施例1：一种工程化通过功能评估的改进的生物聚合物序列的方法，该方法包括：

(a)向包括预测生物聚合物序列的功能的监督模型和解码器网络的系统提供嵌入起点，任选地其中，该起点是嵌入种子生物聚合物序列，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将生物聚合物序列嵌入在该功能空间中的情况下提供概率性生物聚合物序列；

(b)根据步长来计算该功能相对于该起点处的嵌入的变化，从而提供该功能空间中的第一更新点；

(c)任选地计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，并且任选地迭代地计算该功能相对于进一步更新点处的嵌入的变化的过程；

(d)在该功能空间中的第一更新点或任选地迭代的进一步更新点处接近所需的功能水平时，将该第一更新点或任选地迭代的进一步更新点提供给该解码器网络；以及

(e)从该解码器获得概率性改进的生物聚合物序列。

说明性实施例2：一种工程化通过功能评估的改进的生物聚合物序列的方法，该方法包括：

(a)向包括预测生物聚合物序列的功能的监督模型网络和解码器网络的系统提供嵌入起点，任选地其中，该起点是嵌入种子生物聚合物序列，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将预测的生物聚合物序列嵌入在该功能空间中的情况下提供预测的概率性生物聚合物序列；

(b)预测该嵌入起点的功能；

(c)根据步长来计算该功能相对于该起点处的嵌入的变化，从而提供该功能空间中的第一更新点；

(d)将该功能空间中的第一更新点提供给该解码器网络，以提供第一中间概率性生物聚合物序列；

(e)向该监督模型提供该第一中间概率性生物聚合物序列以预测该第一中间概率性生物聚合物序列的功能，

(f)计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，以提供该功能空间中的更新点；

(g)将该功能空间中的更新点提供给该解码器网络，以提供附加中间概率性生物聚合物序列；

(h)向该监督模型提供该附加中间概率性生物聚合物序列以预测该附加中间概率性生物聚合物序列的功能；

(i)然后计算该功能相对于该功能空间中的进一步第一更新点处的嵌入的变化，以提供该功能空间中的又进一步更新点，任选地迭代步骤(g)-(i)，其中，步骤(i)中引用的该功能空间中的又进一步更新点被视为步骤(g)中该功能空间中的进一步更新点；以及

(j)在该功能空间中接近所需的功能水平时，将该嵌入的点提供给该解码器网络；以及从该解码器获得概率性改进的生物聚合物序列。

说明性实施例3：一种非瞬态和/或非暂态计算机可读介质，包括指令，这些指令在由处理器执行时使该处理器：

(e)从该解码器获得概率性改进的生物聚合物序列。

说明性实施例4：一种系统，包括处理器和非瞬态和/或非暂态计算机可读介质，该计算机可读介质包括指令，这些指令在由处理器执行时使该处理器：

(e)从该解码器获得概率性改进的生物聚合物序列。

说明性实施例5：一种系统，包括处理器和非瞬态和/或非暂态计算机可读介质，该计算机可读介质包括指令，这些指令在由处理器执行时使该处理器：

(b)预测该嵌入起点的功能；

说明性实施例6：一种非瞬态和/或非暂态计算机可读介质，包括指令，这些指令在由处理器执行时使该处理器：

(b)预测该嵌入起点的功能；

序列表

<110> 旗舰创业创新第六有限责任公司（Flagship Pioneering Innovations VI,LLC）

Feala, Jacob D.

Beam, Andrew L.

Gibson, Molly K.

Cabral, Bernard J.

<120> 机器学习引导的多肽设计

<130> 5708.1007-002

<150> US 62/882,150

<151> 2019-08-02

<150> US 62/882,159

<151> 2019-08-02

<160> 2

<170> PatentIn 3.5版

<210> 1

<211> 238

<212> PRT

<213> 维多利亚多管发光水母

<400> 1

Met Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu Val

1 5 10 15

Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly Glu

20 25 30

Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile Cys

35 40 45

Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr Phe

50 55 60

Ser Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys Gln

65 70 75 80

His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu Arg

85 90 95

Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu Val

100 105 110

Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile

115 120 125

Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr Asn

130 135 140

Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn Gly

145 150 155 160

Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Ser Val

165 170 175

Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly Pro

180 185 190

Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Ala Leu Ser

195 200 205

Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe Val

210 215 220

Thr Ala Ala Gly Ile Thr His Gly Met Asp Glu Leu Tyr Lys

225 230 235

<210> 2

<211> 238

<212> PRT

<213> 人工序列

<220>

<223> 合成

<400> 2

Met Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu Val

1 5 10 15

Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly Glu

20 25 30

Gly Glu Gly Asp Ala Thr Cys Gly Lys Leu Thr Leu Lys Phe Ile Cys

35 40 45

Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr Leu

50 55 60

Ser Tyr Gly Met Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys Gln

65 70 75 80

His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu Arg

85 90 95

Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu Val

100 105 110

Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile

115 120 125

Gly Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr Asn

130 135 140

Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn Gly

145 150 155 160

Ile Lys Ala Asn Phe Arg Ile Arg His Asn Ile Glu Asp Gly Ser Val

165 170 175

Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Val Pro

180 185 190

Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Ala Leu Ser

195 200 205

Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe Val

210 215 220

Thr Ala Ala Gly Ile Thr His Gly Met Asp Glu Leu Tyr Lys

225 230 235

Claims

1.一种工程化通过功能评估的改进的生物聚合物序列的方法，该方法包括：

(a)向包括预测生物聚合物序列的功能的监督模型和解码器网络的系统提供嵌入起点，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将生物聚合物序列嵌入在该功能空间中的情况下提供概率性生物聚合物序列；

(b)根据步长来计算该功能相对于该起点处的嵌入的变化，该计算的变化使得提供该功能空间中的第一更新点；

(c)在该功能空间中的第一更新点处在特定阈值内达到该所需的功能水平时，提供该第一更新点；以及

(d)从该解码器获得概率性改进的生物聚合物序列。

2.如权利要求1所述的方法，其中，该起点是嵌入种子生物聚合物序列。

3.如权利要求1或2所述的方法，进一步包括：

计算该功能相对于该功能空间中的第一更新点处的嵌入的第二变化；以及

迭代计算该功能相对于进一步更新点处的嵌入的第二变化的过程。

4.如权利要求3所述的方法，其中，提供该第一更新点可以在任选地迭代的进一步更新点处在特定阈值内达到该所需的功能水平时执行，并且提供该进一步更新点包括将该迭代的进一步更新点提供给该解码器网络。

5.如前述权利要求中任一项所述的方法，其中，该嵌入是表示该功能并具有一个或多个梯度的连续可微功能空间。

6.如前述权利要求中任一项所述的方法，其中，计算该功能相对于该嵌入的变化包括取该功能关于该嵌入的导数。

7.如前述权利要求中任一项所述的方法，其中，该功能是两个或更多个分量功能的复合功能。

8.如权利要求7所述的方法，其中，该复合功能是该两个或更多个复合功能的加权和。

9.如前述权利要求中任一项所述的方法，其中，该嵌入中的两个或更多个起点同时使用。

10.如前述权利要求中任一项所述的方法，其中，在采样过程中，使用考虑到已经生成的序列部分的条件概率，考虑包括残基同一性的概率分布的概率性序列中的残基之间的相关性。

11.如前述权利要求中任一项所述的方法，进一步包括从包括残基同一性的概率分布的概率性生物聚合物序列中选择最大似然改进的生物聚合物序列。

12.如前述权利要求中任一项所述的方法，包括在包括残基同一性的概率分布的概率性生物聚合物序列的每个残基上对边际分布进行采样。

13.如前述权利要求中任一项所述的方法，其中，该功能相对于该嵌入的变化是通过以下方式计算的：通过计算该功能相对于该编码器的变化，然后计算该编码器相对于该解码器的变化的变化，以及计算该解码器相对于该嵌入的变化。

14.如前述权利要求中任一项所述的方法，该方法包括：

将该功能空间中的第一更新点或该功能空间中的进一步更新点提供给该解码器网络，以提供中间概率性生物聚合物序列，

向该监督模型网络提供该中间概率性生物聚合物序列以预测该中间概率性生物聚合物序列的功能，

计算该功能相对于该中间概率性生物聚合物的嵌入的变化，以在功能空间中提供进一步更新的点。

15.一种工程化通过功能评估的改进的生物聚合物序列的方法，该方法包括：

(a)预测向包括预测生物聚合物序列的功能的监督模型网络和解码器网络的系统提供的嵌入起点的功能，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将预测的生物聚合物序列嵌入在该功能空间中的情况下提供预测的概率性生物聚合物序列；

(c)在该解码器网络处，基于该功能空间中的第一更新点来计算第一中间概率性生物聚合物序列；

(d)在该监督模型处，基于该第一中间生物聚合物序列来预测该第一中间概率性生物聚合物序列的功能，

(e)计算该功能相对于该功能空间中的第一更新点处的嵌入的变化，以提供该功能空间中的更新点；

(f)在该解码器网络处，基于该功能空间中的更新点来计算附加中间概率性生物聚合物序列；

(g)在该监督模型处，基于该附加中间概率性生物聚合物序列来预测该附加中间概率性生物聚合物序列的功能；

(h)计算该功能相对于该功能空间中的进一步第一更新点处的嵌入的变化，以提供该功能空间中的又进一步更新点，其中，该功能空间中的又进一步更新点替代步骤(g)中该功能空间中的进一步更新点；以及

(i)在特定阈值内达到该功能空间中所需的功能水平时，基于该嵌入的点从该解码器获得概率性改进的生物聚合物序列。

16.如前述权利要求中任一项所述的方法，其中该起点是嵌入种子生物聚合物序列。

17.如前述权利要求中任一项所述的方法，其中，该生物聚合物是蛋白质。

18.如权利要求2-14或16-17所述的方法，其中，该种子生物聚合物序列是多个序列的平均值。

19.如权利要求2-14或16-17所述的方法，其中，该种子生物聚合物序列不具有功能或功能水平低于该所需的功能水平。

20.如前述权利要求中任一项所述的方法，其中，使用至少20个生物聚合物序列的训练数据集对该编码器进行训练。

21.如前述权利要求中任一项所述的方法，其中，该编码器是卷积神经网络(CNN)或递归神经网络(RNN)。

22.如前述权利要求中任一项所述的方法，其中，该编码器是变换神经网络。

23.如前述权利要求中任一项所述的方法，其中，该编码器包括一个或多个卷积层、池化层、全连接层、归一化层或其任何组合。

24.如前述权利要求中任一项所述的方法，其中，该编码器是深度卷积神经网络。

25.如权利要求23所述的方法，其中，该卷积神经网络是一维卷积神经网络。

26.如权利要求23所述的方法，其中，该卷积神经网络是二维或更高维的卷积神经网络。

27.如权利要求23至26中任一项所述的方法，其中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。

28.如前述权利要求中任一项所述的方法，其中，该编码器包含至少10层。

29.如前述权利要求中任一项所述的方法，其中，该编码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。

30.如权利要求29所述的方法，其中，使用批归一化执行该正则化。

31.如权利要求29所述的方法，其中，使用组归一化执行该正则化。

32.如前述权利要求中任一项所述的方法，其中，该编码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。

33.如前述权利要求中任一项所述的方法，其中，该编码器使用迁移学习程序进行训练。

34.如权利要求32所述的方法，其中，该迁移学习程序包括：使用未标记功能的第一生物聚合物序列训练数据集来训练第一模型，生成包括该第一模型的至少一部分的第二模型，以及使用标记了功能的第二生物聚合物序列训练数据集来训练该第二模型，从而生成已训练编码器。

35.如前述权利要求中任一项所述的方法，其中，使用至少20个生物聚合物序列的训练数据集对该解码器进行训练。

36.如前述权利要求中任一项所述的方法，其中，该解码器是卷积神经网络(CNN)或递归神经网络(RNN)。

37.如前述权利要求中任一项所述的方法，其中，该解码器是变换神经网络。

38.如前述权利要求中任一项所述的方法，其中，该解码器包括一个或多个卷积层、池化层、全连接层、归一化层或其任何组合。

39.如前述权利要求中任一项所述的方法，其中，该解码器是深度卷积神经网络。

40.如权利要求38所述的方法，其中，该卷积神经网络是一维卷积神经网络。

41.如权利要求38所述的方法，其中，该卷积神经网络是二维或更高维的卷积神经网络。

42.如权利要求38至41中任一项所述的方法，其中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。

43.如前述权利要求中任一项所述的方法，其中，该解码器包含至少10层。

44.如前述权利要求中任一项所述的方法，其中，该解码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。

45.如权利要求43所述的方法，其中，使用批归一化执行该正则化。

46.如权利要求43所述的方法，其中，使用组归一化执行该正则化。

47.如前述权利要求中任一项所述的方法，其中，该解码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。

48.如前述权利要求中任一项所述的方法，其中，该解码器使用迁移学习程序进行训练。

49.如权利要求47所述的方法，其中，该迁移学习程序包括：使用未标记功能的第一生物聚合物序列训练数据集来训练第一模型，生成包括该第一模型的至少一部分的第二模型，以及使用标记了功能的第二生物聚合物序列训练数据集来训练该第二模型，从而生成已训练解码器。

50.如前述权利要求中任一项所述的方法，其中，与该种子生物聚合物序列的一种或多种功能相比，该改进的生物聚合物序列的一种或多种功能得到改进。

51.如前述权利要求中任一项所述的方法，其中，该一种或多种功能选自荧光、酶活性、核酸酶活性和蛋白质稳定性。

52.如前述权利要求中任一项所述的方法，其中，使用两个或更多个功能的加权线性组合来评估该生物聚合物序列。

53.一种用于工程化具有指定的蛋白质功能的生物聚合物序列的计算机实施的方法，该方法包括：

(a)通过编码器方法生成初始生物聚合物序列的嵌入；

(b)通过优化方法，通过调整一个或多个嵌入参数来迭代地改变该嵌入以与该指定的蛋白质功能相对应，从而生成更新的嵌入；以及

(c)通过解码器方法处理该更新的嵌入以生成最终的生物聚合物序列。

54.如权利要求52所述的方法，其中，该生物聚合物序列包含一级蛋白质氨基酸序列。

55.如权利要求53所述的方法，其中，该氨基酸序列导致蛋白质构型，该蛋白质构型产生该蛋白质功能。

56.如权利要求52-54中任一项所述的方法，其中，该蛋白质功能包含荧光。

57.如权利要求52-54中任一项所述的方法，其中，该蛋白质功能包含酶活性。

58.如权利要求52-54中任一项所述的方法，其中，该蛋白质功能包含核酸酶活性。

59.如权利要求52-54中任一项所述的方法，其中，该蛋白质功能包含蛋白质稳定性程度。

60.如权利要求52-58中任一项所述的方法，其中，该编码器方法被配置为接收该初始生物聚合物序列并生成该嵌入。

61.如权利要求59所述的方法，其中，该编码器方法包括深度卷积神经网络。

62.如权利要求60所述的方法，其中，该卷积神经网络是一维卷积网络。

63.如权利要求60所述的方法，其中，该卷积神经网络是二维或更高维的卷积神经网络。

64.如权利要求60所述的方法，其中，该卷积神经网络具有从以下各项中选择的卷积架构：VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNetResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet或MobileNet。

65.如权利要求52-63中任一项所述的方法，其中，该编码器包含至少10层。

66.如权利要求52-64中任一项所述的方法，其中，该编码器采用正则化方法，包括在一层或多层上的L1-L2正则化、在一层或多层上的跳跃连接、在一层或多层上退出、或其组合。

67.如权利要求65所述的方法，其中，使用批归一化执行该正则化。

68.如权利要求65所述的方法，其中，使用组归一化执行该正则化。

69.如前述权利要求中任一项所述的方法，其中，该编码器通过从以下各项中选择的程序进行优化：Adam、RMS prop、具有动量的随机梯度下降(SGD)、具有动量和Nestrop的SGD、不具有动量的SGD、Adagrad、Adadelta或NAdam。

70.如权利要求52-68中任一项所述的方法，其中，该解码器方法包括深度卷积神经网络。

71.如权利要求52-69中任一项所述的方法，其中，使用两个或更多个功能的加权线性组合来评估该生物聚合物序列。

72.如权利要求52-70中任一项所述的方法，其中，该优化方法在连续可微的嵌入空间中使用基于梯度的下降生成更新的嵌入。

73.如权利要求52-68中任一项所述的方法，其中，该优化方法使用从Adam、RMS Prop、Ada delta、AdamMAX或具有动量的SGD中选择的优化方案。

74.如权利要求52-72中任一项所述的方法，其中，最终的生物聚合物序列针对至少一个附加蛋白质功能进行了进一步优化。

75.如权利要求73所述的方法，其中，该优化方法根据整合了该蛋白质功能和该至少一个附加蛋白质功能的复合功能生成该更新的嵌入。

76.如权利要求74所述的方法，其中，该复合功能是与该蛋白质功能和该至少一个附加蛋白质功能相对应的两个或更多个功能的加权线性组合。

77.一种用于工程化具有指定的蛋白质功能的生物聚合物序列的计算机实施的方法，该方法包括：

(a)通过编码器方法生成初始生物聚合物序列的嵌入；

(b)通过优化方法，通过修改一个或多个嵌入参数来调整该嵌入以实现该指定的蛋白质功能，从而生成更新的嵌入；

78.一种包括指令的非暂态计算机可读介质，这些指令在由处理器执行时使该处理器执行前述权利要求中任一项所述的方法。

79.一种非暂态计算机可读介质，包括指令，这些指令在由处理器执行时使该处理器：

(a)根据步长计算该功能相对于起点处的嵌入的变化，该起点被提供给包括预测生物聚合物序列的功能的监督模型和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将生物聚合物序列嵌入在该功能空间中的情况下提供概率性生物聚合物序列，从而实现提供该功能空间中的第一更新点；

(b)在该功能空间中的第一更新点处在特定阈值内达到该所需的功能水平时，提供该第一更新点；以及

(c)从该解码器获得概率性改进的生物聚合物序列。

80.如权利要求79所述的非暂态计算机可读介质，其中，该起点是嵌入种子生物聚合物序列。

81.如权利要求79-80所述的方法，进一步包括：

82.如权利要求81所述的方法，其中，提供该第一更新点可以在任选地迭代的进一步更新点处在特定阈值内达到该所需的功能水平时执行，并且提供该进一步更新点包括将该迭代的进一步更新点提供给该解码器网络。

83.一种系统，包括适于执行前述权利要求中任一项所述的方法的前述计算机可读介质、以及处理器。

84.一种系统，包括处理器和非暂态计算机可读介质，该计算机可读介质包括指令，这些指令在由处理器执行时使该处理器：

(a)根据步长计算该功能相对于起点处的嵌入的变化，该嵌入的起点被提供给包括预测生物聚合物序列的功能的监督模型和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将生物聚合物序列嵌入在该功能空间中的情况下提供概率性生物聚合物序列，从而实现提供该功能空间中的第一更新点；

(b)在该功能空间中的第一更新点处接近所需的功能水平时，提供该第一更新点；以及

(c)从该解码器获得概率性改进的生物聚合物序列。

85.如权利要求84所述的系统，其中，该起点是嵌入种子生物聚合物序列。

86.如权利要求84或85所述的系统，其中，这些指令在由该处理器执行时进一步使该处理器：

87.如权利要求86所述的系统，其中，提供该第一更新点可以在任选地迭代的进一步更新点处在特定阈值内达到该所需的功能水平时执行，并且提供该进一步更新点包括将该迭代的进一步更新点提供给该解码器网络。

88.一种系统，包括处理器和非暂态计算机可读介质，该计算机可读介质包括指令，这些指令在由处理器执行时使该处理器：

(a)在包括预测生物聚合物序列的功能的监督模型网络和解码器网络的系统处预测嵌入起点的功能，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将预测的生物聚合物序列嵌入在该功能空间中的情况下提供预测的概率性生物聚合物序列；

(b)根据步长来计算该功能相对于该起点处的嵌入的变化，从而实现提供该功能空间中的第一更新点；

(d)在该监督模型处基于该第一中间生物聚合物序列来预测该第一中间概率性生物聚合物序列的功能；

(g)在该监督模型处基于该附加中间概率性生物聚合物序列来预测该附加中间概率性生物聚合物序列的功能；

(h)计算该功能相对于该功能空间中的进一步第一更新点处的嵌入的变化，以提供该功能空间中的又进一步更新点，任选地迭代步骤(g)-(i)，其中，步骤(i)中引用的该功能空间中的又进一步更新点被视为步骤(g)中该功能空间中的进一步更新点；以及

(i)在该功能空间中接近所需的功能水平时，将该嵌入的点提供给该解码器网络；以及从该解码器获得概率性改进的生物聚合物序列。

89.一种非暂态计算机可读介质，包括指令，这些指令在由处理器执行时使该处理器：

(a)预测嵌入起点的功能，该嵌入起点被提供给包括预测生物聚合物序列的功能的监督模型网络和解码器网络的系统，该监督模型网络包括编码器网络，该编码器网络提供了将生物聚合物序列嵌入在表示该功能的功能空间中，并且该解码器网络被训练用于在将预测的生物聚合物序列嵌入在该功能空间中的情况下提供预测的概率性生物聚合物序列；

(c)由该解码器网络基于该功能空间中的第一更新点来计算第一中间概率性生物聚合物序列；

(d)在该监督模型处基于该第一中间概率性生物聚合物序列来预测该第一中间概率性生物聚合物序列的功能；

(f)由该解码器网络基于该功能空间中的更新点来计算附加中间概率性生物聚合物序列；

(g)由该监督模型基于该附加概率性生物聚合物序列来预测该附加中间概率性生物聚合物序列的功能；

(h)计算该功能相对于该功能空间中的进一步第一更新点处的嵌入的变化，以提供该功能空间中的又进一步更新点，其中，该功能空间中的又进一步更新点被视为该功能空间中的进一步更新点；以及

90.一种制造生物聚合物的方法，该方法包括合成能够通过前述权利要求中任一项所述的方法或使用前述权利要求中任一项所述的系统获得的改进的生物聚合物序列。

91.一种荧光蛋白，包含相对于SEQ ID NO:1的氨基酸序列并且具有相对于SEQ ID NO:1增加的荧光，该氨基酸序列包括在选自Y39、F64、V68、D129、V163、K166、G191或其组合中的位点处的替代物。

92.如权利要求90所述的荧光蛋白，包含在Y39、F64、V68、D129、V163、K166和G191中的2、3、4、5、6或全部7处的替代物。

93.如权利要求90或91所述的荧光蛋白，包含相对于SEQ ID NO:1的S65。

94.如权利要求90-92中任一项所述的荧光蛋白，其中，该氨基酸序列包含相对于SEQID NO:1的S65。

95.如权利要求90-93中任一项所述的荧光蛋白，其中，该氨基酸序列包含在F64和V68处的替代物。

96.如权利要求90-94中任一项所述的荧光蛋白，其中，该氨基酸序列包含Y39、D129、V163、K166和G191中的1、2、3、4或全部5个。

97.如权利要求90-95中任一项所述的荧光蛋白，其中，Y39、F64、V68、D129、V163、K166或G191处的替代物分别为Y39C、F64L、V68M、D129G、V163A、K166R或G191V。

98.如权利要求90-96中任一项所述的荧光蛋白，包含与SEQ ID NO:1至少80％、85％、90％、92％、92％、93％、94％、95％、96％、97％、98％、99％或更多相同的氨基酸序列。

99.如权利要求90-97中任一项所述的荧光蛋白，包含相对于SEQ ID NO:1至少1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个突变。

100.如权利要求90-98中任一项所述的荧光蛋白，包含相对于SEQ ID NO:1不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14或15个突变。

101.如权利要求90-99中任一项所述的荧光蛋白，该荧光蛋白具有至少约：SEQ ID NO:1的2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50倍的荧光强度。

102.如权利要求90-100中任一项所述的荧光蛋白，该荧光蛋白具有至少约：超级文件夹GFP(AIC82357)的2、3、4或5倍的荧光。

103.一种融合蛋白，包含如权利要求90-101中任一项所述的荧光蛋白。

104.一种核酸，包含对如权利要求91-102中任一项所述的荧光蛋白或如权利要求102所述的融合蛋白进行编码的序列。

105.一种包含如权利要求103所述的核酸的载体。

106.一种宿主细胞，包含如权利要求90-102中任一项所述的蛋白质、如权利要求103所述的核酸或如权利要求104所述的载体。

107.一种可视化方法，包括检测如权利要求90-101中任一项所述的荧光蛋白或如权利要求103所述的融合蛋白。

108.如权利要求106所述的方法，其中，该检测是通过检测该荧光蛋白的发射光谱的波长。

109.如权利要求106或107所述的方法，其中，该可视化在细胞中。

110.如权利要求108所述的方法，其中，该细胞在分离的生物组织中、体外或体内。

111.一种表达如权利要求91-102中任一项所述的荧光蛋白或如权利要求103所述的融合蛋白的方法，该方法包括将表达载体引入细胞中，该表达载体包含编码多肽的核酸。

112.如权利要求110所述的方法，进一步包括培养该细胞以生长一批培养细胞并从该批培养细胞中纯化该多肽。

113.一种检测生物细胞或组织内、组织内的多肽的荧光信号的方法，该方法包括：

(a)将如权利要求90至101中任一项所述的荧光蛋白或包含编码所述荧光蛋白的核酸的表达载体引入该生物细胞或组织中；

(b)将适合于激发该荧光蛋白的第一波长的光引导在该生物细胞或组织上；以及

(c)检测由该荧光蛋白响应于该第一波长的光的吸收而发射的第二波长的光。

114.如权利要求112所述的方法，其中，该第二波长的光是使用荧光显微镜或荧光激活细胞分选(FACS)来检测的。

115.如权利要求112所述的方法，其中，该生物细胞或组织是原核或真核细胞。

116.如权利要求112所述的方法，其中，该表达载体包含融合基因，该融合基因包含与N末端或C末端上的另一个基因融合的编码该多肽的核酸。

117.如权利要求112所述的方法，其中，该表达载体包含控制该多肽的表达的启动子，该启动子是组成型活性启动子或诱导型表达启动子。

118.一种用于训练在根据权利要求1至88中任一项所述的方法或系统中使用的监督模型的方法，其中，该监督模型包括编码器网络，该编码器网络被配置为将生物聚合物序列映射到嵌入功能空间中的表示，其中，该监督模型被配置为基于这些表示来预测该生物聚合物序列的功能，并且其中，该方法包括以下步骤：

(a)提供多个训练生物聚合物序列，其中，每个训练生物聚合物序列被标记有功能；

(b)使用该编码器将每个训练生物聚合物序列映射到该嵌入功能空间中的表示；

(c)基于这些表示，使用该监督模型来预测每个训练生物聚合物序列的功能；

(d)针对每个训练生物聚合物序列，使用预定的预测损失函数来确定该预测功能与按照相应训练生物聚合物序列的标签的功能的一致性程度；以及

(e)优化表征该监督模型的行为的参数，目的是通过在进一步训练生物聚合物序列由该监督模型处理时所产生的所述预测损失函数来提高评级。

119.一种用于训练在根据权利要求1至88中任一项所述的方法或系统中使用的解码器的方法，其中，该解码器被配置为将生物聚合物序列的表示从嵌入功能空间映射到概率性生物聚合物序列，该方法包括以下步骤：

(a)在该嵌入功能空间中提供生物聚合物序列的多个表示；

(b)使用该解码器将每个表示映射到概率性生物聚合物序列；

(c)从每个概率性生物聚合物序列中抽取样本生物聚合物序列；

(d)使用已训练编码器将该样本生物聚合物序列映射到所述嵌入功能空间中的表示；

(e)使用预定的重建损失函数来确定每个如此确定的表示与对应的原始表示的一致性程度；以及

(f)优化表征该解码器的行为的参数，目的是通过在来自所述嵌入功能空间的生物聚合物序列的进一步表示由该解码器处理时所产生的所述重建损失函数来提高评级。

120.如权利要求119所述的方法，其中，该编码器是被配置为基于该解码器生成的这些表示来预测该生物聚合物序列的功能的监督模型的一部分，并且其中，该方法进一步包括：

(a)通过使用该已训练编码器将训练生物聚合物序列映射到该嵌入功能空间中的表示，来将生物聚合物序列的多个表示中的至少一部分提供给该解码器；

(b)对于从该概率性生物聚合物序列中抽取的样本生物聚合物序列，使用该监督模型来预测该样本生物聚合物序列的功能；

(c)将所述功能与由相同监督模型针对对应原始训练生物聚合物序列预测的功能进行比较；

(d)使用预定的一致性损失函数来确定针对该样本生物聚合物序列预测的功能与针对该原始训练生物聚合物序列预测的功能的一致性程度；以及

(e)优化表征该解码器的行为的参数，目的是通过当该编码器从训练生物聚合物序列生成的生物聚合物序列的进一步表示由该解码器处理时所产生的所述一致性损失函数和/或通过所述一致性损失函数与所述重建损失函数的预定组合来提高评级。

121.一种用于训练监督模型和解码器的集合的方法，

其中，该监督模型包括编码器网络，该编码器网络被配置为将生物聚合物序列映射到嵌入功能空间中的表示，

其中，该监督模型被配置为基于这些表示来预测该生物聚合物序列的功能，

其中，该解码器被配置为将生物聚合物序列的表示从嵌入功能空间映射到概率性生物聚合物序列，

并且其中，该方法包括以下步骤：

(d)使用该解码器将该嵌入功能空间中的每个表示映射到概率性生物聚合物序列；

(e)从该概率性生物聚合物序列中抽取样本生物聚合物序列；

(f)针对每个训练生物聚合物序列，使用预定的预测损失函数来确定该预测功能与按照相应训练生物聚合物序列的标签的功能的一致性程度；

(g)针对每个样本生物聚合物序列，使用预定的重建损失函数来确定该样本生物聚合物序列与产生该样本生物聚合物序列的原始训练生物聚合物序列的一致性程度；

(h)优化表征该监督模型的行为的参数和表征该解码器的行为的参数，目的是通过该预测损失函数和该重建损失函数的预定组合来提高评级。

122.通过根据权利要求118至121中任一项所述的方法获得的表征监督模型、编码器或解码器的行为的一组参数。