CN114401734A

CN114401734A - 用于工程化中尺度肽的基于机器学习的设备及其方法和系统

Info

Publication number: CN114401734A
Application number: CN202080050301.9A
Authority: CN
Inventors: M·P·格雷文; A·T·田口; K·E·豪瑟
Original assignee: Rubik Therapy Co ltd
Current assignee: Ibio Inc
Priority date: 2019-05-31
Filing date: 2020-05-13
Publication date: 2022-04-26
Also published as: EP3976083A1; EP3977117A1; US20220081472A1; US11545238B2; EP3976083A4; US20210166788A1; KR20220041784A; KR20220039659A; CN114585918A; US20230095685A1; WO2020242765A1; CA3142227A1; WO2020242766A1; EP3977117A4; JP2022535769A; CA3142339A1; JP2022535511A

Abstract

本文提供了设计经工程化的多肽的方法，所述经工程化的多肽重现参考蛋白质结构的预定部分的分子结构特征，例如抗体表位或蛋白质结合位点。通过用基于由蓝图记录生成的多肽结构的计算蛋白质建模计算的分数标记从参考目标结构生成的蓝图记录来训练机器学习(ML)模型。所述方法可以包括基于第一蓝图记录集或其表示以及第一分数集来训练ML模型，来自所述第一蓝图记录集中的每个蓝图记录与来自所述第一分数集中的每个分数相关联。在所述训练后，可以执行所述机器学习模型以生成第二蓝图记录集。然后基于所述第二蓝图记录集生成经工程化的多肽集。

Description

用于工程化中尺度肽的基于机器学习的设备及其方法和系统

相关申请的交叉引用

本申请要求2019年5月31日提交的标题为“Meso-Scale Engineered Peptidesand Methods of Selecting”的美国专利申请号62/855,767的优先权和权益，该专利申请以引用的方式整体并入本文。

技术领域

本公开整体涉及人工智能/机器学习领域，尤其涉及用于训练和使用用于工程化肽的机器学习模型的方法和设备。

背景技术

计算设计可以用于设计模拟天然蛋白质的新型治疗性蛋白质，或者用于设计展示来自致病性抗原的一个或多个所期望的表位的疫苗。经计算设计的蛋白质也可以用于生成或选择结合剂。例如，可以针对经设计的蛋白质诱饵对抗体文库(例如噬菌体展示文库)进行淘选以选择与该诱饵结合的克隆，或者可以用经设计的免疫原来免疫实验动物以生成新型抗体。

虽然还有其他平台，但是领先的计算设计建模平台是罗塞塔(Rosetta)(Das和Baker，2008)。该平台可以用于设计与所期望的结构相匹配的蛋白质。Correia等人,Structure 18:1116-26(2010)公开了一种设计表位支架的通用计算方法，其中连续的结构表位被移植到支架蛋白中以实现构象稳定和免疫呈递。Olek等人,PNAS USA 107:17880-87(2010)公开了来自HIV-1gp41蛋白的表位至所选的受体支架的移植。

常规计算设计技术通常依赖于目标蛋白质结构的一部分(例如，表位)到预先存在的支架的移植。建模平台(诸如罗塞塔)计算量太大，无法充分探索大型拓扑空间，诸如重现给定蛋白质结构的庞大的蛋白质拓扑空间。因此，需要用于模拟目标蛋白质结构的蛋白质的计算设计的新型改进装置和方法。

发明内容

通常，在一些变型中，设备可以包括存储表示将由处理器执行的指令的代码的非暂时性处理器可读介质。所述代码可以包括使所述处理器基于第一蓝图记录集或其表示以及第一分数集来训练机器学习模型的代码，来自所述第一蓝图记录集中的每个蓝图记录与来自所述第一分数集中的每个分数相关联。所述介质可以包括在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二蓝图记录集的代码。所述第二蓝图记录集可以被配置为作为计算蛋白质建模中的输入而被接收，以基于所述第二蓝图记录集来生成经工程化的多肽。

所述介质可以包括使所述处理器接收参考目标结构的代码。所述介质可以包括使所述处理器从所述参考目标结构的预定部分生成所述第一蓝图记录集的代码，来自所述第一蓝图记录集中的每个蓝图记录包括目标残基位置和支架残基位置，来自多个目标残基位置的每个目标残基位置对应于来自多个目标残基中的一个目标残基。在一些变型中，在至少一个蓝图记录中，所述目标残基位置是不连续的。在一些变型中，在至少一个蓝图记录中，目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。

所述介质可以包括使所述处理器标记所述第一蓝图记录集的代码，所述标记通过对每个蓝图记录执行计算蛋白质建模以生成多肽结构、计算所述多肽结构的分数以及将所述分数与所述蓝图记录相关联来进行。在一些变型中，所述计算蛋白质建模可以基于不具有与所述参考目标结构匹配的模板的从头设计。在一些变型中，每个分数包括能量项和结构约束匹配项，所述结构约束匹配项可以使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。

所述介质可以包括使所述处理器通过计算所述第二蓝图记录集的第二分数集来确定是否需要重新训练所述机器学习模型的代码。所述介质可以包括作为对所述确定的响应，基于以下各项来重新训练所述机器学习模型的另外的代码：(1)重新训练包括所述第二蓝图记录集的蓝图记录以及(2)重新训练包括所述第二分数集的分数。

所述介质可以包括使所述处理器在机器学习模型的重新训练之后连接所述第一蓝图记录集和所述第二蓝图记录集以生成重新训练的蓝图记录以及生成重新训练分数的代码，来自所述重新训练的蓝图记录中的每个蓝图记录与来自所述重新训练分数的分数相关联。在一些变型中，至少一个期望分数可以是预设值。在一些变型中，所述至少一个期望分数可以动态确定。

在一些变型中，所述机器学习模型可以是监督机器学习模型。所述监督机器学习模型可以包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。在一些变型中，所述监督机器学习模型可以包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。

在一些变型中，所述机器学习模型可以包括归纳机器学习模型。在一些变型中，所述机器学习模型可以包括生成机器学习模型。

所述介质可以包括使所述处理器对所述第二蓝图记录集执行计算蛋白质建模以生成经工程化的多肽的代码。

所述介质可以包括使所述处理器过滤所述经工程化的多肽的代码，所述过滤通过与所述参考目标结构的表示进行静态结构比较来进行。

所述介质可以包括使所述处理器过滤所述经工程化的多肽的代码，所述过滤通过使用所述参考目标结构的表示和所述经工程化的多肽中的每个的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来进行。在某些变型中，MD模拟使用对称多处理(SMP)并行执行。

附图说明

图1是示例性经工程化的多肽设计装置的示意图。

图2是用于经工程化的多肽设计的示例性机器学习模型的示意图。

图3是经工程化的多肽设计的示例性方法的示意图。

图4是经工程化的多肽设计的示例性方法的示意图。

图5是为经工程化的多肽设计装置而准备数据的示例性方法的示意图。

图6是经工程化的多肽设计的示例性方法的示意图。

图7是用于经工程化的多肽设计的机器学习模型的示例性性能的示意图。

图8是使用机器学习模型进行经工程化的多肽设计的示例性方法的示意图。

图9是用于经工程化的多肽设计的机器学习模型的示例性性能的示意图。

图10A-D展示了执行分子动力学模拟以验证经工程化的多肽的示例性方法。

图11展示了执行分子动力学模拟以验证经工程化的多肽的示例性方法。

图12是使分子动力学模拟并行化的示例性方法的示意图。

图13是验证用于经工程化的多肽设计的机器学习模型的示例性方法的示意图。

具体实施方式

本发明的各个方面和变型的非限制性实例在本文中进行描述并且在附图中展示。

本文提供了设计经工程化的多肽的方法，以及包含所述经工程化的肽的组合物和使用所述经工程化的肽的方法。例如，本文提供了在体外抗体选择中使用经工程化的肽的方法。在一些方面，使用者(或程序)可以选择具有已知结构的目标蛋白质以及鉴定目标蛋白质的一部分作为设计经工程化的多肽的输入。目标蛋白质可以是来自病原性生物的抗原(或推定的抗原)；与疾病相关细胞功能有关的蛋白质；酶；信号传导分子；或需要重现蛋白质的一部分的经工程化的多肽的任何蛋白质。经工程化的多肽可以用于抗体发现、疫苗接种、诊断、在治疗方法中的使用、生物制造或其他应用。在一个变型中，“目标蛋白质”可以是多于一种蛋白质，诸如多聚体蛋白质复合物。为简洁起见，本公开涉及目标蛋白质，但是方法也适用于多聚体结构。在一个变型中，目标蛋白质是两种或更多种不同的蛋白质或蛋白质复合物。例如，本文公开的方法可以用于设计模拟来自不同物种的蛋白质的共同属性——例如，靶向用于抗体选择的保守表位的经工程化的肽。

导出出蛋白质拓扑结构的计算记录，本文称为“参考目标结构”。参考目标结构可以是常规蛋白质结构或结构模型，例如以蛋白质中的所有(或大部分)原子的3D坐标或所选的原子的3D坐标(例如，每个蛋白质残基的Cβ原子的坐标)表示。任选地，参考目标结构可以包括计算(例如，从分子动力学模拟)或实验(例如，从光谱学、晶体学或电子显微镜)导出的动态项。

目标蛋白质的预定部分被转换为具有目标残基位置和支架残基位置的蓝图。每个位置都可以被指定固定的氨基酸残基同一性或可变的同一性(例如，任何氨基酸、或具有所期望的生理化学性质——极性/非极性、疏水性、大小等的氨基酸)。在一个变型中，来自目标蛋白质的预定部分的每个氨基酸被映射到一个目标残基位置，该位置被指定为具有与目标蛋白质中存在的相同的氨基酸同一性。目标残基位置可以是连续的和/或按顺序的。然而，在一些变型中，一个优点是目标残基位置可以是不连续的(被支架残基位置中断)和不按顺序的(与目标蛋白质的顺序不同)。在一些变型中，与移植方法不同的是，残基的顺序不受限制。类似地，所公开的方法可以适应目标蛋白质的不连续部分(例如，其中相同蛋白质的不同部分或甚至不同的蛋白质链对一个表位有贡献的不连续表位)。

蓝图的支架残基位置可以被指定为在该位置具有任何氨基酸(即，X代表任何氨基酸)。在变型中，支架残基位置通过从一个可能的天然或非天然氨基酸的子集(例如，小极性氨基酸残基、大疏水性氨基酸残基等)中选择来指定。蓝图还可以适应任选的目标和/或支架残基位置。换句话说，蓝图可以容忍残基位置的插入或缺失。例如，目标或支架残基位置可以被指定为存在或不存在；或者所述位置可以被指定为0、1、2、3、4、5、6、7、8、9、10或更多个残基。

然后一个蓝图的子集可以用于执行计算建模以生成相应的多肽结构，所述计算建模使用例如从参考目标结构导出的能量项和拓扑约束以及针对每个多肽结构计算的分数来进行。机器学习(ML)模型可以使用分数和蓝图或蓝图的表示(例如，表示蓝图的矢量)来训练，并且ML模型可以被执行以生成另外的蓝图。这种方法的一个优点是，与很多蓝图的迭代计算建模所探索的相比，ML模型可以探索更多蓝图覆盖的拓扑空间。

本公开还提供了将输出蓝图转换为经工程化的多肽的序列和/或结构，以及将这些经工程化的多肽与目标蛋白质进行比较——使用静态比较、动态比较或它们二者——以及使用这些比较来过滤多肽的方法和相关装置。

虽然本文将方法和设备描述为处理来自一个蓝图记录集、一个分数集、一个能量项集、一个分子动力学能量集、一个能量项集或一个能量函数集的数据，但是在一些情况下，如图1所显示和描述的经工程化的多肽设计装置101可以用于生成所述蓝图记录集、所述分数集、所述能量项集、所述分子动力学能量集、所述能量项集或所述能量函数集。因此，经工程化的多肽设计装置101可以用于生成或处理任何数据、事件和/或对象的集合或流。例如，经工程化的多肽设计装置101可以处理和/或生成任意一个或多个字符串、一个或多个数字、一个或多个名称、一个或多个图像、一个或多个视频、一个或多个可执行文件、一个或多个数据集、一个或多个电子表格、一个或多个数据文件、一个或多个蓝图文件等等。对于另外的实例，经工程化的多肽设计装置101可以处理和/或生成任意一个或多个软件代码、一个或多个网页、一个或多个数据文件、一个或多个模型文件、一个或多个源文件、一个或多个脚本等等。作为另一个实例，经工程化的多肽设计装置101可以处理和/或生成一个或多个数据流、一个或多个图像数据流、一个或多个文本数据流、一个或多个数值数据流、一个或多个计算机辅助设计(CAD)文件流等等。

图1是示例性经工程化的多肽设计装置101的示意图。经工程化的多肽设计装置可以用于生成一个经工程化的多肽设计集。经工程化的多肽设计装置101包括存储器102、通信接口103和处理器104。经工程化的多肽设计装置101可以任选地经由网络150连接(无中间组件)或耦合(有或无中间组件)至后端服务平台160。经工程化的多肽设计装置101可以是基于硬件的计算装置，例如台式计算机、服务器计算机、大型计算机、量子计算装置、并行计算装置、台式计算机、膝上型计算机、智能手机装置的集合等等。

经工程化的多肽设计装置101的存储器102可以包括例如存储器缓冲器、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、嵌入式多次可编程(MTP)存储器、嵌入式多媒体卡(eMMC)、通用闪存(UFS)装置等等。存储器102可以存储例如一个或多个软件模块和/或代码，所述软件模块和/或代码包括使经工程化的多肽设计装置101的处理器104执行一个或多个过程或功能(例如，数据准备模块105、计算蛋白质建模模块106、机器学习模型107和/或分子动力学模拟模块108)。存储器102可以存储一个与机器学习模型107相关(例如，通过执行生成)的文件集，所述文件包括在经工程化的多肽设计装置101的操作期间由机器学习模型107生成的数据。在一些情况下，所述与机器学习模型107相关的文件集可以包括在经工程化的多肽设计装置101的操作期间生成的临时变量、返回存储器地址、变量、机器学习模型107的图形(例如，机器学习模型107使用的一个算术运算集或所述算术运算集的表示)、图形的元数据、资产(例如，外部文件)、电子签名(例如，指定正在导出的机器学习模型107的类型和输入/输出张量)等等。

经工程化的多肽设计装置101的通信接口103可以是经工程化的多肽设计装置101的硬件组件，所述硬件组件可操作地耦合至处理器104和/或存储器102并且由它们使用。通信接口103可以包括例如网络接口卡(NIC)、Wi-Fi^TM模块、

模块、光通信模块以及/或者任何其他合适的有线和/或无线通信接口。通信接口103可以被配置为将经工程化的多肽设计装置101连接至网络150，如本文所进一步详细描述。在一些情况下，通信接口103可以促进经由网络150接收或发送数据。更具体而言，在一些实施方式中，通信接口103可以促进接收或发送数据，例如经由网络150从后端服务平台160接收一个蓝图记录集、一个分数集、一个能量项集、一个分子动力学能量集、一个能量项集或一个能量函数集或者将它们发送到后端服务平台。在一些情况下，经由通信接口103接收的数据可以由处理器104处理或存储在存储器102中，如本文所进一步详细描述。

处理器104可以包括例如基于硬件的集成电路(IC)或者被配置为运行和/或执行一个指令或代码集的任何其他合适的处理装置。例如，处理器104可以是通用处理器、中央处理单元(CPU)、图形处理单元(GPU)、张量处理单元(TPU)、加速处理单元(APU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、复杂可编程逻辑装置(CPLD)、可编程逻辑控制器(PLC)等等。处理器104通过系统总线(例如，地址总线、数据总线和/或控制总线)可操作地耦合至存储器102。

处理器104可以包括数据准备模块105、计算蛋白质建模模块106和机器学习模型107。处理器104可以任选地包括分子动力学模拟模块108。数据准备模块105、计算蛋白质建模模块106、机器学习模型107或分子动力学模拟模块108中的每个可以是存储在存储器102中并且由处理器104执行的软件。例如，使机器学习模型107生成一个蓝图记录集的代码可以存储在存储器102中并且由处理器104执行。类似地，数据准备模块105、计算蛋白质建模模块106、机器学习模型107或分子动力学模拟模块108中的每个可以是基于硬件的装置。例如，使机器学习模型107生成所述蓝图记录集的过程可以在单独的集成电路(IC)芯片上实施。

数据准备模块105可以被配置为接收(例如，从存储器102或后端服务平台160)一个数据集，包括接收针对参考目标的参考目标结构。数据准备模块105可以另外被配置为从参考目标结构的预定部分生成一个蓝图记录集(例如，在字母数字数据表中编码的蓝图文件)。在一些情况下，来自所述蓝图记录集中的每个蓝图记录可以包括目标残基位置和支架残基位置，每个目标残基位置对应于来自多个目标残基中的一个目标残基。

在一些情况下，数据准备模块105可以另外被配置为将参考目标结构的蓝图编码为蓝图记录。数据准备模块105可以另外将蓝图记录转换为一般适用于机器学习模型的蓝图记录的表示。在一些情况下，所述表示可以是一维数字矢量、二维字母数字数据矩阵、三维归一化数字张量。更具体而言，在一些情况下，所述表示是插入支架残基位置数量的有序列表的矢量。这种表示可以使用是因为目标残基的顺序可以从目标结构推断，因此所述表示不需要鉴定目标残基位置的氨基酸同一性。这种表示的一个实例如图6进一步描述。

在一些情况下，数据准备模块105可以生成和/或处理一个蓝图记录集、一个分数集、一个能量项集、一个分子动力学能量集、一个能量项集和/或一个能量函数集。数据准备模块105可以被配置为从所述蓝图记录集、所述分数集、所述能量项集、所述分子动力学能量集、所述能量项集或所述能量函数集中提取信息。

在一些情况下，数据准备模块105可以将所述蓝图记录集的编码转换为具有通用字符编码，例如ASCII、UTF-8、UTF-16、国标、Big5、Unicode或任何其他合适的字符编码。在另外一些其他情况下，数据准备模块105可以另外被配置为通过例如鉴定对经工程化的多肽意义重大的蓝图记录的一部分或蓝图记录的表示来提取蓝图记录的特征和/或蓝图记录的表示。在一些情况下，数据准备模块105可以将所述蓝图记录集、所述分数集、所述能量项集、所述分子动力学能量集、所述能量项集或所述能量函数集的单位从英制单位(例如英里、英尺、英寸等等)转换为国际单位制(SI)(例如千米、米、厘米等等)。

计算蛋白质建模模块106可以被配置为从参考目标结构的预定部分生成蓝图记录的一个初始候选者集，所述候选者可以用作本文所述的计算优化过程的起始模板。在一个实例中，计算蛋白质建模模块106可以是罗塞塔重建模器。方法的变化采用其他建模算法，包括但不限于分子动力学模拟、从头开始片段组装、蒙特卡罗(Monte Carlo)片段组装、机器学习结构预测(诸如AlphaFold或trRosetta)、基于结构知识库的蛋白质折叠、神经网络蛋白质折叠、基于序列的循环或变换器网络蛋白质折叠、生成对抗网络蛋白质结构生成、马尔可夫(Markov)链蒙特卡罗蛋白质折叠等等。使用罗塞塔重建模器生成的初始候选结构可以用作机器学习模型107的训练集。计算蛋白质建模模块106可以另外从蓝图记录的初始候选者以计算方式确定每个蓝图的能量项。然后数据准备模块105可以被配置为从能量项生成分数。在一个实例中，分数可以是能量项的归一化值。归一化值可以是从0至1的数字、从-1至-1的数字、在0和100之间的归一化值或任何其他数值范围。在一些变型中，计算蛋白质建模模块106可以基于不存在与参考目标结构匹配的模板的从头设计或基于弱距离限制，其中例如在目标结构中目标残基之间的距离被限制在1埃的目标残基距离内。弱距离限制可以包括允许围绕距离限制的变分噪声分布的限制(例如，具有围绕距离限制的特定均值和特定方差的高斯噪声)。在一些变型中，计算蛋白质建模模块106可以通过将变分噪声平滑或添加至任何距离约束和/或定义计算蛋白质模型的目标函数来使用，以使得当不满足远距离约束时计算蛋白质模型受到不太严厉的罚分。此外，在一些情况下，计算蛋白质建模模块106可以使用能量项的平滑标记。该方法的优点在于，通过平滑能量项标记，机器学习模型107可以更容易地优化由要探索的蓝图覆盖的拓扑空间。

与所述蓝图记录的初始候选者集相比，机器学习模型107可以用于生成改进的蓝图记录。机器学习模型107可以是监督机器学习模型，所述模型被配置为接收由计算蛋白质建模模块106计算的所述蓝图记录的初始候选者集和一个分数集。来自所述分数集中的每个分数对应于来自所述蓝图记录的初始候选者集的蓝图记录。处理器104可以被配置为将每个对应的分数和蓝图记录相关联以生成一个标记的训练数据集。

在一些情况下，机器学习模型107可以包括归纳机器学习模型和/或生成机器学习模型。机器学习模型可以包括提升决策树算法、决策树集合、极端梯度提升(XGBoost)模型、随机森林、支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)、对抗网络模型、基于实例的训练模型、变换器神经网络等等。机器学习模型107可以被配置为包括一个模型参数集，包括一个权重集、一个偏差集和/或一个活化函数集，一旦经过训练，所述模型参数就可以在归纳模式下执行以从蓝图记录生成分数或可以在生成模式下执行以从分数生成蓝图记录。

在一个实例中，机器学习模型107可以是深度学习模型，所述模型包括输入层、输出层和多个隐藏层(例如，5层、10层、20层、50层、100层、200层等)。多个隐藏层可以包括归一化层、全连接层、活化层、卷积层、循环层和/或任何其他适合表示所述蓝图记录集和所述分数集(每个分数表示一个能量项)之间的相关性的层。

在一个实例中，机器学习模型107可以是XGBoost模型，所述模型包括一个超参数集，例如定义XGBoost模型中的提升轮数或树的多个提升轮数，定义从XGBoost模型的树的根到树的叶等等的最大允许节点数的最大深度。XGBoost模型可以包括一个树集、一个节点集、一个权重集、一个偏差集和其他可以用于描述XGBoost模型的参数。

在一些实施方式中，机器学习模型107(例如，深度学习模型、XGBoost模型等等)可以被配置为从所述蓝图记录集迭代接收每个蓝图记录并且生成输出。来自所述蓝图记录集中的每个蓝图记录都与来自所述分数集的一个分数相关联。可以使用目标函数(也称为“成本函数”)来比较输出和分数以生成第一训练损失值。目标函数可以包括例如均方误差、平均绝对误差、平均绝对百分比误差、logcosh、分类交叉熵等等。所述模型参数集可以在多次迭代中修改，并且第一目标函数可以在每次迭代中执行，直到第一训练损失值收敛到第一预定训练阈值(例如80％、85％、90％、97％等)。

在一些实施方式中，机器学习模型107可以被配置为迭代接收来自所述分数集中的每个分数并且生成输出。来自所述蓝图记录集中的每个蓝图记录都与来自所述分数集的一个分数相关联。可以使用目标函数来比较输出和蓝图记录以生成第二训练损失值。所述模型参数集可以在多次迭代中修改，并且第一目标函数可以在多次迭代的每次迭代中执行，直到第二训练损失值收敛到第二预定训练阈值。

一旦经过训练，机器学习模型107就可以执行以生成一个改进的蓝图记录集。可以预期所述改进的蓝图记录集比所述蓝图记录的初始候选者集具有更高的分数。在一些情况下，机器学习模型107可以是生成机器学习模型，所述模型针对对应于第一分数集的第一蓝图记录集(例如，使用罗塞塔重建模器生成)而训练(例如，每个分数的能量项对应于来自所述蓝图记录集的蓝图记录的罗塞塔能量)，以表示第一蓝图记录集的设计空间与第一分数集的相关性(例如，对应于能量项)。一旦经过训练，机器学习模型107就可以生成具有与其相关的第二分数集的第二蓝图记录集。在一些实施方式中，计算蛋白质建模模块106可以用于通过计算第二蓝图记录集的一个能量项集来验证第二蓝图记录集和第二分数集。所述能量项集可以用于生成第二蓝图记录集的一个基准真实分数集。一个蓝图记录的子集可以从第二蓝图记录集选择，以使得来自所述蓝图记录的子集的每个蓝图记录具有大于阈值的基准真实分数。在一些情况下，阈值可以是由例如经工程化的多肽设计装置101的使用者预定的数字。在一些其他情况下，阈值可以是基于所述基准真实分数集动态确定的数字。

在机器学习模型107被执行以生成第二蓝图记录集之后，分子动力学模拟模块108可以任选地用于验证机器学习模型107的输出。经工程化的多肽设计装置101可以通过以下步骤来过滤掉一个第二蓝图记录的子集：基于第二蓝图记录集来生成经工程化的多肽，以及使用参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟，与参考目标结构的表示进行动态结构比较。例如，分子动力学模拟模块108可以选择几个(例如，少于10个命中)经工程化的多肽(基于第二蓝图记录集)。在一些情况下，MD模拟可以在边界条件、限制和/或平衡下执行。在一些情况下，MD模拟可以在溶液条件下执行，包括以下步骤：模型准备、平衡(例如，100K至300K的温度)，将力场参数和/或溶剂模型参数应用于参考目标结构和经工程化的多肽的结构中的每个的表示。在一些情况下，MD模拟可以进行限制最小化(例如，缓解结构冲突)、限制加热(例如，限制加热100皮秒并逐渐升温至环境温度)、放松限制(例如，放松限制100皮秒并逐渐除去骨架限制)等等。

在一些实施方式中，机器学习模型107是归纳机器学习模型。一旦经过训练，这种机器学习模型107就可以通过例如计算蓝图的分数(例如，计算蛋白质建模模块、基于密度函数理论的分子动力学能量模拟器等等)的数值方法，在通常花费的时间的一小部分内，基于蓝图记录来预测分数。因此，机器学习模型107可以用于快速估算一个蓝图记录集的一个分数集，以大幅提高优化算法的优化速度(例如，快50％、快2倍、快10倍、快100倍、快1000倍、快1,000,000倍、快1,000,000,000倍等等)。在一些实施方式中，机器学习模型107可以生成第一蓝图记录集的第一分数集。经工程化的多肽设计装置101的处理器104可以执行表示一个指令集的代码，以选择第一蓝图记录集中表现最佳者(例如，第一分数集的前10％，例如，第一分数集的前2％等等)。处理器104可以另外包括验证第一蓝图记录集中表现最佳者的分数的代码。在一些变型中，如果第一蓝图记录集中表现最佳者所对应的验证分数具有大于第一分数集中的任一者的值，则可以将其作为输出生成。在一些变型中，机器学习模型107可以基于新数据集而重新训练，所述数据集包括第二蓝图记录集和第二分数集，它们包括蓝图记录和表现最佳者的分数。

网络150可以是服务器和/或计算装置的数字电信网络。网络上的服务器和/或计算装置可以经由一个或多个有线或无线通信网络(未示出)连接，以共享资源(例如数据存储或计算能力)。网络的服务器和/或计算装置之间的有线或无线通信网络可以包括一个或多个通信信道，例如一个或多个射频(RF)通信信道、一个或多个光纤通信信道等等。网络可以是例如因特网、内联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、全球互通微波访问网

虚拟网络、任何其他合适的通信系统和/或此类网络的组合。

后端服务平台160可以是可操作地耦合至服务器和/或计算装置的数字通信网络(例如，因特网)和/或在所述数字通信网络内的计算装置(例如，服务器)。在一些变型中，后端服务平台160可以包括和/或执行基于云的服务，例如，软件即服务(SaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)等等。在一个实例中，后端服务平台160可以提供数据存储，以存储大量数据，包括蛋白质结构、蓝图记录、罗塞塔能量、分子动力学能量等等。在另一个实例中，后端服务平台160可以提供快速计算，以执行一个计算蛋白质建模集、分子动力学模拟集、训练机器学习模型集等等。

在一些变型中，本文所述的计算蛋白质模块106的过程可以在提供云计算服务的后端服务平台160中执行。在此类变型中，经工程化的多肽设计装置101可以被配置为使用通信接口103将信号发送至后端服务平台160以生成一个蓝图记录集。后端服务平台160可以执行生成所述蓝图记录集的计算蛋白质建模过程。然后后端服务平台160可以经由网络150将所述蓝图记录集发送到经工程化的多肽设计装置101。

在一些变型中，经工程化的多肽设计装置101可以将包括机器学习模型107的文件发送到远离经工程化的多肽设计装置101的使用者计算装置(未示出)。使用者计算装置可以被配置为生成满足设计标准(例如，具有期望分数)的一个蓝图记录集。在一些变型中，使用者计算装置从经工程化的多肽设计装置101接收参考目标结构。使用者计算装置可以从参考目标结构的预定部分生成第一蓝图记录集，以使得每个蓝图记录包括目标残基位置和支架残基位置。每个目标残基位置对应于来自多个目标残基中的一个目标残基。使用者计算装置可以另外基于第一蓝图记录集或其表示和第一分数集来训练机器学习模型。在训练后，使用者计算装置可以执行机器学习模型以生成具有至少一个期望分数(例如，满足特定设计标准)的第二蓝图记录集。第二蓝图记录集可以作为计算蛋白质建模中的输入而被接收，以基于第二蓝图记录集来生成经工程化的肽。

图2是用于经工程化的多肽设计的示例性机器学习模型202(类似于如图1所描述和显示的机器学习模型107)的示意图。机器学习模型202可以是将蓝图记录的设计空间与对应于基于那些蓝图记录构建的多肽的能量项的分数相关联的监督机器学习模型。机器学习模型可以具有生成操作模式和/或归纳操作模式。

在生成操作模式中，机器学习模型202针对第一蓝图记录集201和第一分数集203而训练。一旦经过训练，机器学习模型202就可以生成第二蓝图记录集，所述第二蓝图记录集具有在统计上比第一分数集更高(例如，具有更高的均值)的第二分数集。在归纳操作模式中，机器学习模型202针对第一蓝图记录集201和第一分数集203而训练。一旦经过训练，机器学习模型202就可以生成第二蓝图记录集的第二分数集。第二分数集是基于历史训练数据的一个预测分数集(例如第一蓝图记录集和第一分数集)，并且生成速度比使用计算蛋白质建模(类似于如图1所显示和描述的计算蛋白质建模模块106)或分子动力学模拟(类似于如图1所显示和描述的分子动力学模块108)的数值计算分数和/或能量项明显更快(例如，快50％、快2倍、快10倍、快100倍、快1000倍、快1,000,000倍、快1,000,000,000倍等等)。

图3是经工程化的多肽设计的示例性方法300的示意图。经工程化的多肽设计的方法300可以例如通过经工程化的多肽设计装置(类似于如图1所显示和描述的经工程化的多肽设计装置101)来执行。经工程化的多肽设计的方法300任选地包括，在步骤301，接收参考目标的参考目标结构。经工程化的多肽设计的方法300任选地包括，在步骤302，从参考目标结构的预定部分生成第一蓝图记录集，来自第一蓝图记录集中的每个蓝图记录包括目标残基位置和支架残基位置，每个目标残基位置对应于来自多个目标残基中的一个目标残基。在一些情况下，目标残基是不连续的。在一些情况下，目标残基是不按顺序的。经工程化的多肽设计的方法300可以包括，在步骤303，基于第一蓝图记录集或其表示以及第一分数集来训练机器学习模型(类似于如图1所显示和描述的机器学习模型107)，来自第一蓝图记录集中的每个蓝图记录与来自第一分数集中的每个分数相关联。所述表示可以使用数据准备模块(类似于如图1所显示和描述的数据准备模块)基于第一蓝图记录集来生成。经工程化的多肽设计的方法300还包括，在步骤304，在训练后执行机器学习模型，以生成具有至少一个期望分数(例如，一个分数或多个分数)的第二蓝图记录集。在一些构造中，机器学习模型包括生成机器学习模型，并且至少一个期望分数是由经工程化的多肽设计装置的使用者确定的预设值。在一些构造中，机器学习模型包括归纳机器学习模型，所述归纳机器学习模型预测第二蓝图记录集的一个预测分数集。可以选择一个第二蓝图记录集的子集，以使得来自所述蓝图记录的子集的每个蓝图记录具有大于至少一个期望分数的分数。在一些构造中，可以动态确定至少一个期望分数。例如，可以将至少一个期望分数确定为所述预测分数集的第90个百分位。

经工程化的多肽设计的方法300任选地包括，在305，通过使用数值方法计算第二分数集(例如，一个基准真实分数集)来确定是否需要重新训练机器学习模型，所述数值方法例如罗塞塔重建模器、从头开始分子动力学模拟、机器学习结构预测(诸如AlphaFold或trRosetta)、基于结构知识库的蛋白质折叠、神经网络蛋白质折叠、基于序列的循环或变换器网络蛋白质折叠、生成对抗网络蛋白质结构生成、马尔可夫链蒙特卡罗蛋白质折叠等等。然后经工程化的多肽设计装置将第二分数集与所述预测分数集进行比较，并且基于所述预测分数集与第二分数集的偏差确定是否需要重新训练机器学习模型。经工程化的多肽设计的方法300任选地包括，在305，作为对确定的响应，基于以下各项来重新训练机器学习模型：(1)重新训练包括第二蓝图记录集的蓝图记录以及(2)重新训练包括所述预测分数集的分数。在一些构造中，经工程化的多肽设计装置可以连接第一蓝图记录集和第二蓝图记录集以生成重新训练的蓝图记录。经工程化的多肽设计装置可以另外连接第一分数集和第二分数集以生成重新训练分数。在一些构造中，蓝图记录的重新训练仅包括第二蓝图记录集，并且重新训练分数仅包括第二分数集。

图4是经工程化的多肽设计的示例性方法400的示意图。经工程化的多肽设计的方法400可以例如通过经工程化的多肽设计装置(类似于如图1所显示和描述的经工程化的多肽设计装置101)来执行。经工程化的多肽设计的方法400包括，在步骤401，基于第一蓝图记录集或其表示以及第一分数集来训练机器学习模型(类似于如图1所显示和描述的机器学习模型107)，来自第一蓝图记录集中的每个蓝图记录与来自第一分数集中的每个分数相关联。所述表示可以使用数据准备模块(类似于如图1所显示和描述的数据准备模块)基于第一蓝图记录集来生成。经工程化的多肽设计的方法400还包括，在步骤402，在训练后执行机器学习模型，以生成具有至少一个期望分数的第二蓝图记录集。经工程化的多肽设计的方法400任选地包括，在步骤403，对第二蓝图记录集执行计算蛋白质建模以生成经工程化的多肽。在一些构造中，经工程化的多肽设计的方法400任选地包括，在步骤404，通过与参考目标结构的表示进行静态结构比较来过滤经工程化的多肽。在一些构造中，经工程化的多肽设计的方法400任选地包括，在步骤405，使用参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟，通过与参考目标结构的表示进行动态结构比较来过滤经工程化的多肽。

图5是为经工程化的多肽设计装置而准备数据的示例性方法的示意图。左侧显示了目标蛋白质的结构的飘带图。预定部分以较深的颜色显示，预定部分的氨基酸残基的侧链以棒图显示。在这个实例中，预定部分是作为抗体的所期望的目标表位的目标蛋白质的一部分。通过生成经工程化的多肽来重现该表位，预期可以获得与目标蛋白质的该部分特异性结合的抗体。

图5的右图显示了蓝图集的示意图。每个圆形表示一个残基位置。支架残基位置是浅灰色的，并且未显示侧链。目标残基位置是深灰色的，并且显示每个位置的侧链。侧链是熟知的天然氨基酸的侧链。在一些情况下，目标残基和/或支架残基是非天然氨基酸。在这个实例中，每个目标残基位置正好对应于目标蛋白质的参考目标结构的预定部分的一个残基。所显示的蓝图集是“按顺序的”，因为在每个图中，目标残差位置的顺序相同。目标残基的顺序不一定与目标蛋白质序列中的残基顺序相同。第一个和最后一个蓝图具有连续的目标残差位置，而其他蓝图是不连续的。至少一个支架残基位置在第一个和最后一个目标残基位置之间。字母N和C表示匹配给定蓝图的多肽的氨基(N)末端和羧基(C)末端。

图5所示的五个蓝图是大量可能的蓝图的成员，以图中线条之间的椭圆形表示。对于具有35个位置的蓝图(与35聚体多肽一致)，假设目标残基是按顺序的，则潜在蓝图的总数由以下公式给出：35！÷(11！×(35-11)！)＝0.42万亿。即使利用可用的最大超级计算服务，罗塞塔重建模器对所有可能的35聚体的计算也需要数年甚至终生的时间。因此，使用目前的计算装置和方法，单独对每个蓝图进行直接计算建模在计算上是难以处理的。

图6是经工程化的多肽设计的示例性方法的示意图。示意图的右侧部分展示了如何将支架蓝图(例如，转换为适合用作输入的蓝图记录，未示出)输入计算蛋白质建模程序(类似于如图1所显示和描述的计算蛋白质建模模块106；包括但不限于罗塞塔重建模器)以生成用作标记的分数。分数通常反映建模程序使用的能量项。就罗塞塔重建模器而言，该分数包括反映从蓝图生成的设计多肽折叠的能量项和反映设计多肽的预测结构与目标蛋白质的参考目标结构的预定部分的已知结构的结构相似性的结构约束匹配项。可以使用其他建模程序和其他评分函数。

示意图的左侧部分展示了蓝图至蓝图的表示的转换。表示可以是适用于机器学习模型(诸如，如图1所显示和描述的机器学习模型107)的任何表示。在此处，表示是矢量。更具体而言，矢量是目标残基位置之间的插入支架残基数量的有序列表。这种表示可以使用是因为在这种表示中目标残基位置的顺序是固定的，因此所述表示不需要鉴定目标残基位置的氨基酸同一性。该信息是隐含的。目标残基位置的顺序不一定与目标结构序列中的顺序相同。矢量的第一个元素8表示在第一目标残基位置之前有八个支架残基位置。矢量的第二个元素1表示在第一目标残基位置之后、第二目标残基位置之前有一个支架残基位置。后续元素0、1、2或3表示没有插入支架残基位置，有一个、两个或三个插入支架残基位置。矢量的最后一个元素4表示蓝图中的最后四个位置是支架残基位置。

蓝图记录的表示的这种变化的一个优点是，除第一个和最后一个元素之外，矢量是帧移恒定的。也就是说，机器学习模型具有与目标残基在蓝图中的位置无关的关于目标残基的相对位置的可用信息。这允许在N-和C-末端设计具有可变的结构化/非结构化区域的类似结构。

图7是用于经工程化的多肽设计的机器学习模型的示例性性能的示意图。散点图展示了机器学习模型(诸如，如图1所显示和描述的机器学习模型107)可以生成/预测一个蓝图记录集的一个预测分数集的准确度。散点图中的每个点表示来自所述蓝图记录集的蓝图记录。横轴表示可以通过数值方法计算的所述蓝图记录集的基准真实分数，所述数值方法例如罗塞塔重建模器、从头开始分子动力学模拟等等。纵轴表示由机器学习模型生成/预测的所述蓝图记录集的预测分数，所述机器学习模型运行速度比数值方法明显更快(例如，快50％、快2倍、快10倍、快100倍、快1000倍、快1,000,000倍、快1,000,000,000倍等等)。在理想情况下，预测分数对应于(例如，等于、近似于)基准真实分数。在预测分数与基准真实分数不对应的情况下，机器学习模型可以通过所述蓝图记录集和基准真实分数重新训练，直到新生成的所述蓝图记录集的新生成的预测分数对应于新生成的所述蓝图记录集的基准真实分数。一般而言，分数可以包括能量项(例如罗塞塔能量函数2015(REF15)和结构约束匹配项(如图6所描述)。分数可以被定义为使得蓝图记录的低分反映蓝图记录的低分子动力学能量和更高的稳定性，如本文图7所示。在一些变型中，分数可以被定义为使得蓝图记录的高分通常反映基于蓝图记录构建的多肽的更高的稳定性。

图8是使用机器学习模型进行经工程化的多肽设计的示例性方法的示意图。如图8所示，包括第一蓝图记录集和第一分数集(例如，表示能量项，诸如罗塞塔能量或分子动力学能量)的初始数据集可以生成，并且通过数据准备模块(诸如如图1所显示和描述的数据准备模块105)进一步准备。机器学习模型(类似于如图1所显示和描述的机器学习模型107)可以基于初始数据集来训练。第二蓝图记录集可以作为输入提供给机器学习模型以生成第二分数集。可以针对基准真实分数来验证具有大于预定值(例如，期望分数)的分数的第二蓝图记录集或第二蓝图记录集的一部分。如果第二分数集足够准确地(例如，具有大于95％的准确度)对应于基准真实分数，则可以将第二蓝图记录集或第二蓝图记录集的一部分呈现给使用者。否则，可以使用第二蓝图记录集或第二蓝图记录集的一部分来重新训练机器学习模型。在一些情况下，可以生成第三蓝图记录集、第四蓝图记录集或更多的蓝图记录迭代，以获得具有期望分数的蓝图。在一些情况下，通过针对新的蓝图集和分数集而迭代重新训练机器学习模型，可以生成达到期望分数的所期望尽可能多的蓝图集。展示训练和使用机器学习模型以生成经工程化的多肽设计的过程的示例性代码片段如下：

training_energies＝Rosetta(training_scaffolds)##罗塞塔能量针对支架的初始训练集而计算

而training_energies尚未收敛：##迭代直到罗塞塔能量停止改进

训练xgboost从training_scaffolds预测training_energies##训练XGBoost从支架的训练集预测罗塞塔能量

Predicted_scaffolds＝来自xgboost的最佳预测支架##使用XGBoost来预测最佳支架

new_energies＝Rosetta(predicted_scaffolds)##针对预测支架而计算罗塞塔能量

将predicted_scaffolds添加到training_scaffolds##将预测支架添加到训练集

将new_energies添加到training_energies##将预测支架能量添加到训练集

图9是用于经工程化的多肽设计的机器学习模型的示例性性能的示意图。如图5所描述，对于具有35个位置的示例性蓝图记录(与35聚体多肽一致)，假设目标残基是按顺序的，则潜在蓝图的总数由以下公式给出：35！÷(11！×(35-11)！)＝0.42万亿。因此，使用目前的计算装置和方法，使用强力发现/优化单独对每个蓝图进行直接计算建模在计算上是难以处理的，并且可能需要数年或数十年的时间。相比之下，使用数据驱动方法(诸如本文所述的机器学习模型)可以减少这种发现/优化的时间(例如，减少至几周、几天、几小时、几分钟等等)。

图10A-D展示了执行分子动力学模拟以验证经工程化的多肽的示例性方法。在机器学习模型(诸如如图1所显示和描述的机器学习模型107)被训练和执行以生成经改进/优化(例如，满足设计标准、具有期望分数等等)的生成的蓝图记录集之后，经工程化的多肽设计装置(如图1所描述和显示)可以验证所述生成的蓝图记录集。

经工程化的多肽设计装置可以对所述生成的蓝图记录集执行计算蛋白质建模(例如，使用如图1所显示和描述的计算设计建模模块106)以生成经工程化的多肽。在一些实施方式中，然后经工程化的多肽设计装置可以通过对参考目标结构的表示进行静态结构比较来过滤掉经工程化的多肽的子集。

在一些实施方式中，然后经工程化的多肽设计装置可以使用参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟，通过与参考目标结构的表示进行动态结构比较来过滤掉经工程化的多肽的子集。例如，经工程化的多肽设计装置可以选择几个(例如，少于10个命中)经工程化的多肽。在一些情况下，MD模拟可以确定在溶液条件下参考目标结构和经工程化的多肽的结构中的每个的表示的动力学，包括模型制备、平衡(例如，温度为100K至300K)和无限制MD模拟的步骤。在一些情况下，MD模拟可以包括将力场参数和溶剂模型参数应用于参考目标结构和经工程化的多肽的结构中的每个的表示。在一些情况下，MD模拟可以进行限制最小化1000个循环(例如，缓解结构冲突)、限制加热(例如，限制加热100皮秒并逐渐升温至环境温度)、放松限制(例如，放松限制100皮秒并逐渐除去骨架限制)。

图11展示了执行分子动力学模拟以验证经工程化的多肽的示例性方法。在一些实施方式中，除如图10所描述的方法之外或作为该方法的替代，MD模拟可以受时间的限制。例如，MD模拟可以执行30ns的无限制动力学。在一些实施方式中，另外地或可替代地，MD模拟可以受构象信息的限制。例如，可以执行MD模拟以获得在任何时间范围内观察到的80％的构象信息，从而获得这种构象信息。在一些实施方式中，确定平衡MD模拟的吞吐量和准确性的模拟时间的指标可以通过参考目标结构和经工程化的多肽的结构中的每个的表示的模拟的余弦相似度分数来计算。

图12是使分子动力学模拟并行执行的示例性方法的示意图。在一些情况下，经工程化的多肽设计可以包括执行多个(例如，100s、1000s、10,000s等等)分子动力学模拟。在这些情况下，经工程化的多肽设计装置的处理器(诸如如图1所显示和描述的经工程化的多肽设计装置101的处理器104)可以包括图形处理单元(GPU)、加速处理单元、和/或任何其他可以并行执行计算的处理单元。GPU可以包括对称的多处理单元(SMP)集。因此，GPU可以被配置为诸如使用所述SMP集并行处理多个(例如，10s、100s等等)分子动力学模拟。在一些变型中，云计算平台(诸如如图1所显示和描述的后端服务平台160)上的多核处理单元可以用于并行处理多个分子动力学模拟。

图13是验证用于经工程化的多肽设计的机器学习模型的示例性方法的示意图。在一些实施方式中，评分方法可以针对参考目标结构的表示的分子动力学(MD)模拟结果和经工程化的多肽中的每个的MD模拟结果而使用，以评估每个经工程化的多肽。评分方法可以涉及使用均方根偏差(RMSD)：

其中N是原子数，X_i是参考目标结构的参考位置矢量，并且Y_i是每个经工程化的多肽的位置矢量。或者，MEM和表位结构动态匹配评分可以使用均方根内积(RMSIP)来执行：

其中按对应的本征值排序-从最高到最低，对于N个预定参考残基，本征矢量ψ和

分别是参考目标结构的本征矢量和经工程化的多肽的本征矢量。本征矢量ψ和

中的每个表示运动的最低频率模式，在这种情况下，使用按对应的本征值排序的前10个本征矢量。参考目标结构的本征矢量和经工程化的多肽的本征矢量可以例如使用主成分分析(PCA)来计算。

出于解释的目的，前述描述使用特定的命名法来提供对本发明的充分理解。然而，对于本领域的技术人员显而易见的是，为了实践本发明不需要具体的细节。因此，本发明的特定实施方案的前述描述是出于说明和描述目的而呈现的。它们并非详尽无遗或将本发明限制为所公开的精确形式；显然，鉴于上述教导，很多修改和变化是可能的。选择和描述实施方案是为了解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够利用本发明和具有适合于预期特定用途的各种修改的各种实施方案。以下权利要求及其等同形式旨在限定本发明的范围。

列举的实施方案：

实施方案I-1.一种方法，所述方法包括：

基于第一多个蓝图记录或其表示以及第一多个分数来训练机器学习模型，来自所述第一多个蓝图记录中的每个蓝图记录与来自所述第一多个分数中的每个分数相关联；以及

在所述训练后执行所述机器学习模型以生成具有至少一个期望分数的第二多个蓝图记录，

所述第二多个蓝图记录被配置为作为计算蛋白质建模中的输入而被接收，以基于所述第二多个蓝图记录来生成经工程化的多肽。

实施方案I-2.如实施方案I-1所述的方法，包括：

接收参考目标的参考目标结构的表示；以及

从所述参考目标结构的预定部分生成所述第一多个蓝图记录，来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置，每个目标残基位置对应于来自多个目标残基中的一个目标残基。

实施方案I-3.如实施方案I-1或I-2所述的方法，其中在至少一个蓝图记录中，所述目标残基位置是不连续的。

实施方案I-4.如实施方案I-1至I-3中任一项所述的方法，其中在至少一个蓝图记录中，目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。

实施方案I-5.如实施方案I-1至I-4中任一项方法的方法，包括：

对于来自所述第一多个蓝图记录中的每个蓝图记录，通过以下步骤来标记所述第一多个蓝图记录：

对所述蓝图记录执行计算蛋白质建模以生成多肽结构，

计算所述多肽结构的分数，以及

将所述分数与所述蓝图记录相关联。

实施方案I-6.如实施方案I-1至I-5中任一项所述的方法，其中所述计算蛋白质建模基于不存在与所述参考目标结构匹配的模板的从头设计。

实施方案I-7.如实施方案I-1至I-6中任一项所述的方法，其中来自所述第一多个分数中的每个分数包括能量项和结构约束匹配项，所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。

实施方案I-8.如实施方案I-1至I-7中任一项所述的方法，包括：

通过计算所述第二多个蓝图记录的第二多个分数来确定是否需要重新训练所述机器学习模型；以及

作为对所述确定的响应，基于以下各项来重新训练所述机器学习模型：(1)重新训练包括所述第二多个蓝图记录的蓝图记录以及(2)重新训练包括所述第二多个分数的分数。

实施方案I-9.如实施方案I-8所述的方法，包括：

在重新训练所述机器学习模型之后连接所述第一多个蓝图记录和所述第二多个蓝图记录以生成重新训练的蓝图记录以及生成重新训练分数，来自所述重新训练的蓝图记录中的每个蓝图记录与来自所述重新训练分数的分数相关联。

实施方案I-10.如实施方案I-1至I-9中任一项所述的方法，其中所述至少一个期望分数是预设值。

实施方案I-11.如实施方案I-1至I-9中任一项所述的方法，其中所述至少一个期望分数是动态确定的。

实施方案I-12.如实施方案I-1至I-10中任一项所述的方法，其中所述机器学习模型是监督机器学习模型。

实施方案I-13.如实施方案I-12所述的方法，其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。

实施方案I-14.如实施方案I-12所述的方法，其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。

实施方案I-15.如实施方案I-1至I-14中任一项所述的方法，其中所述机器学习模型是归纳机器学习模型。

实施方案I-16.如实施方案I-1至I-14中任一项所述的方法，其中所述机器学习模型是生成机器学习模型。

实施方案I-17.如实施方案I-1至I-16中任一项所述的方法，包括对所述第二多个蓝图记录执行计算蛋白质建模以生成所述经工程化的多肽。

实施方案I-18.如实施方案I-1至I-17中任一项所述的方法，包括通过与所述参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。

实施方案I-19.如实施方案I-1至I-18中任一项所述的方法，包括通过使用所述参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。

实施方案I-20.如实施方案I-19所述的方法，其中所述MD模拟使用对称多处理(SMP)来并行执行。

实施方案I-21.如实施方案I-1至I-20中任一项所述的方法，其中所述第二多个蓝图记录中的蓝图记录的数量小于所述第一多个蓝图记录中的蓝图记录的数量。

实施方案I-22.一种非暂时性处理器可读介质，所述介质存储表示将由处理器执行的指令的代码，所述代码包括使所述处理器执行以下操作的代码：

实施方案I-23.如实施方案I-22所述的介质，包括使所述处理器执行以下操作的代码：

接收参考目标结构的表示；以及

从所述参考目标结构的预定部分生成所述第一多个蓝图记录，来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置，来自多个目标残基位置的每个目标残基位置对应于来自多个目标残基中的一个目标残基。

实施方案I-24.如实施方案I-23所述的介质，其中在至少一个蓝图记录中，所述目标残基位置是不连续的。

实施方案I-25.如实施方案I-23或I-24所述的介质，其中在至少一个蓝图记录中，目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。

实施方案I-26.如实施方案I-23至I-25中任一项所述的介质，包括使所述处理器执行以下操作的代码：

通过执行以下步骤来标记所述第一多个蓝图记录：对每个蓝图记录执行计算蛋白质建模以生成多肽结构；计算所述多肽结构的分数；以及将所述分数与所述蓝图记录相关联。

实施方案I-27.如实施方案I-26所述的介质，其中所述计算蛋白质建模基于不存在与所述参考目标结构匹配的模板的从头设计。

实施方案I-28.如实施方案I-26或I-27所述的介质，其中每个分数包括能量项和结构约束匹配项，所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。

实施方案I-29.如实施方案I-22至I-28中任一项所述的介质，包括使所述处理器执行以下操作的代码：

实施方案I-30.如实施方案I-29所述的介质，包括使所述处理器执行以下操作的代码：

实施方案I-31.如实施方案I-22至I-30中任一项所述的介质，其中所述至少一个期望分数是预设值。

实施方案I-32.如实施方案I-22至I-31中任一项所述的介质，其中所述至少一个期望分数是动态确定的。

实施方案I-33.如实施方案I-22至I-32中任一项所述的介质，其中所述机器学习模型是监督机器学习模型。

实施方案I-34.如实施方案I-22至I-33中任一项所述的介质，其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。

实施方案I-35.如实施方案I-33所述的介质，其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。

实施方案I-36.如实施方案I-22至I-35中任一项所述的介质，其中所述机器学习模型是归纳机器学习模型。

实施方案I-37.如实施方案I-22至I-36中任一项所述的介质，其中所述机器学习模型是生成机器学习模型。

实施方案I-38.如实施方案I-22至I-37中任一项所述的介质，包括使所述处理器执行以下操作的代码：

对所述第二多个蓝图记录执行计算蛋白质建模以生成经工程化的多肽。

实施方案I-39.如实施方案I-38所述的介质，包括使所述处理器执行以下操作的代码：

通过与所述参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。

实施方案I-40.如实施方案I-38或I-39所述的介质，包括使所述处理器执行以下操作的代码：

通过使用所述参考目标结构的表示和所述经工程化的多肽中的每个的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。

实施方案I-41.如实施方案I-40所述的介质，其中所述MD模拟使用对称多处理(SMP)来并行执行。

实施方案I-42.如实施方案I-22至I-41中任一项所述的介质，其中所述第二多个蓝图记录中的蓝图记录的数量小于所述第一多个蓝图记录中的蓝图记录的数量。

实施方案I-43.一种选择经工程化的多肽的设备，所述设备包括：

具有处理器和存储器的第一计算装置，所述存储器存储指令，所述指令可由所述处理器执行以：

从远离所述第一计算装置的第二计算装置接收参考目标结构；

从所述参考目标结构的预定部分生成第一多个蓝图记录，来自所述第一多个蓝图记录中的每个蓝图记录包括目标残基位置和支架残基位置，每个目标残基位置对应于来自多个目标残基中的一个目标残基；

实施方案I-44.如实施方案I-43所述的设备，包括使所述处理器执行以下操作的代码：

实施方案I-45.如实施方案I-43或I-44所述的设备，其中所述期望分数是预设值。

实施方案I-46.如实施方案I-43至I-45中任一项所述的设备，其中所述期望分数是动态确定的。

实施方案I-47.如实施方案I-43至I-46中任一项所述的设备，其中所述机器学习模型是监督机器学习模型。

实施方案I-48.如实施方案I-47所述的设备，其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。

实施方案I-49.如实施方案I-47或I-48所述的设备，其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。

实施方案I-50.如实施方案I-43至I-49中任一项所述的设备，其中所述机器学习模型是归纳机器学习模型。

实施方案I-51.如实施方案I-43至I-50中任一项所述的设备，其中所述机器学习模型是生成机器学习模型。

实施方案I-52.如实施方案I-43至I-51中任一项所述的设备，包括使所述处理器执行以下操作的代码：

实施方案I-53.如实施方案I-52所述的设备，包括使所述处理器执行以下操作的代码：

通过与参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。

实施方案I-54.如实施方案I-52或I-53所述的设备，包括使所述处理器执行以下操作的代码：

通过使用所述参考目标结构的表示和所述经工程化的多肽中的每个的分子动力学(MD)模拟与参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。

实施方案I-55.如实施方案I-54所述的设备，其中所述MD模拟使用对称多处理(SMP)来并行执行。

实施方案I-56.一种经工程化的多肽设计，其通过如实施方案I-1至I-21中任一项所述的方法、如实施方案I-22至I-42中任一项所述的介质或如实施方案I-43至I-55中任一项所述的设备来生成。

实施方案I-57.一种经工程化的肽，其中所述经工程化的肽具有在1kDa和10kDa之间的分子质量，并且包含最多50个氨基酸，并且其中所述经工程化的肽包含：

空间相关拓扑约束的组合，其中所述约束中的一个或多个是参考目标导出的约束；并且

其中所述经工程化的肽的10％至98％之间的所述氨基酸满足所述一个或多个参考目标导出的约束，

其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有小于

的骨架均方根偏差(RSMD)结构同源性。

实施方案I-58.如实施方案I-57所述的经工程化的肽，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10％和90％之间的序列同源性。

实施方案I-59.如实施方案I-57或I-58所述的经工程化的肽，其中所述组合包括至少两个参考目标导出的约束。

实施方案I-60.如实施方案I-57至I-59中任一项所述的经工程化的肽，其中所述组合包括能量项和结构约束匹配项，所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。

实施方案I-61.如实施方案I-57至I-60中任一项所述的经工程化的肽，其中所述一个或多个非参考目标导出的约束描述期望的结构特征、动力学特征或它们的任何组合。

实施方案I-62.如实施方案I-57至I-61中任一项所述的经工程化的肽，其中所述参考目标包含一个或多个与生物反应或生物功能相关联的原子，

并且其中与生物反应或生物功能相关联的所述经工程化的肽中的所述一个或多个原子的原子波动和与生物反应或生物功能相关联的所述参考目标中的所述一个或多个原子的原子波动重叠。

实施方案I-63.如实施方案I-62所述的经工程化的肽，其中所述重叠的均方根内积(RMSIP)大于0.25。

实施方案I-64.如实施方案I-62或I-63中任一项所述的经工程化的肽，其中重叠的均方根内积(RMSIP)大于0.75。

实施方案I-65.一种选择经工程化的肽的方法，所述方法包括：

鉴定参考目标的一个或多个拓扑特征；

为每个拓扑特征设计空间相关约束，以生成从所述参考目标导出的空间相关拓扑约束的组合；

将候选肽的空间相关拓扑特征与从所述参考目标导出的空间相关拓扑约束的组合进行比较；以及

选择具有空间相关拓扑特征的候选肽，以生成所述经工程化的肽，所述拓扑特征与从所述参考目标导出的空间相关拓扑约束的组合重叠。

实施方案I-66.如实施方案I-65所述的方法，其中一个或多个约束从每个残基的能量和每个残基的原子距离导出。

实施方案I-67.如实施方案I-65或I-66中任一项所述的方法，其中一个或多个候选肽的特征通过计算机模拟来确定。

实施方案I-68.如实施方案I-67所述的方法，其中所述计算机模拟包括分子动力学模拟、蒙特卡罗模拟、粗粒度模拟、高斯网络模型、机器学习或它们的任何组合。

实施方案I-69.如实施方案I-65至I-68中任一项所述的方法，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10％和90％之间的序列同源性。

实施方案I-70.如实施方案I-65至I-69中任一项所述的方法，其中所述一个或多个非参考目标导出的约束描述期望的结构特征和/或动力学特征。

Claims

1.一种方法，所述方法包括：

2.如权利要求1所述的方法，包括：

接收参考目标的参考目标结构的表示；以及

3.如权利要求2所述的方法，其中在至少一个蓝图记录中，所述目标残基位置是不连续的。

4.如权利要求2所述的方法，其中在至少一个蓝图记录中，目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。

5.如权利要求2所述的方法，包括：

对所述蓝图记录执行计算蛋白质建模以生成多肽结构，

计算所述多肽结构的分数，以及

将所述分数与所述蓝图记录相关联。

6.如权利要求5所述的方法，其中所述计算蛋白质建模基于不存在与所述参考目标结构匹配的模板的从头设计。

7.如权利要求5所述的方法，其中来自所述第一多个分数中的每个分数包括能量项和结构约束匹配项，所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。

8.如权利要求1所述的方法，包括：

9.如权利要求8所述的方法，包括：

10.如权利要求1所述的方法，其中所述至少一个期望分数是预设值。

11.如权利要求1所述的方法，其中所述至少一个期望分数是动态确定的。

12.如权利要求1所述的方法，其中所述机器学习模型是监督机器学习模型。

13.如权利要求12所述的方法，其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。

14.如权利要求12所述的方法，其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。

15.如权利要求1所述的方法，其中所述机器学习模型是归纳机器学习模型。

16.如权利要求1所述的方法，其中所述机器学习模型是生成机器学习模型。

17.如权利要求1所述的方法，包括对所述第二多个蓝图记录执行计算蛋白质建模以生成所述经工程化的多肽。

18.如权利要求17所述的方法，包括通过与所述参考目标结构的表示进行静态结构比较来过滤所述经工程化的多肽。

19.如权利要求17所述的方法，包括通过使用所述参考目标结构和经工程化的多肽的结构中的每个的表示的分子动力学(MD)模拟与所述参考目标结构的表示进行动态结构比较来过滤所述经工程化的多肽。

20.如权利要求19所述的方法，其中所述MD模拟使用对称多处理(SMP)来并行执行。

21.如权利要求1所述的方法，其中所述第二多个蓝图记录中的蓝图记录的数量小于所述第一多个蓝图记录中的蓝图记录的数量。

22.一种非暂时性处理器可读介质，所述介质存储表示将由处理器执行的指令的代码，所述代码包括使所述处理器执行以下操作的代码：

23.如权利要求22所述的介质，包括使所述处理器执行以下操作的代码：

接收参考目标结构的表示；以及

24.如权利要求23所述的方法，其中在至少一个蓝图记录中，所述目标残基位置是不连续的。

25.如权利要求23所述的方法，其中在至少一个蓝图记录中，目标残基位置的顺序不同于参考目标序列中所述目标残基位置的顺序。

26.如权利要求23所述的介质，包括使所述处理器执行以下操作的代码：

27.如权利要求26所述的方法，其中所述计算蛋白质建模基于不存在与所述参考目标结构匹配的模板的从头设计。

28.如权利要求26所述的介质，其中每个分数包括能量项和结构约束匹配项，所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。

29.如权利要求22所述的介质，包括使所述处理器执行以下操作的代码：

30.如权利要求29所述的介质，包括使所述处理器执行以下操作的代码：

31.如权利要求22所述的介质，其中所述至少一个期望分数是预设值。

32.如权利要求22所述的介质，其中所述至少一个期望分数是动态确定的。

33.如权利要求22所述的介质，其中所述机器学习模型是监督机器学习模型。

34.如权利要求33所述的介质，其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。

35.如权利要求33所述的介质，其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。

36.如权利要求22所述的介质，其中所述机器学习模型是归纳机器学习模型。

37.如权利要求22所述的介质，其中所述机器学习模型是生成机器学习模型。

38.如权利要求22所述的介质，包括使所述处理器执行以下操作的代码：

39.如权利要求38所述的介质，包括使所述处理器执行以下操作的代码：

40.如权利要求38所述的介质，包括使所述处理器执行以下操作的代码：

41.如权利要求40所述的介质，其中所述MD模拟使用对称多处理(SMP)来并行执行。

42.如权利要求22所述的介质，其中所述第二多个蓝图记录中的蓝图记录的数量小于所述第一多个蓝图记录中的蓝图记录的数量。

43.一种选择经工程化的多肽的设备，所述设备包括：

44.如权利要求43所述的设备，包括使所述处理器执行以下操作的代码：

45.如权利要求43所述的设备，其中所述期望分数是预设值。

46.如权利要求43所述的设备，其中所述期望分数是动态确定的。

47.如权利要求43所述的设备，其中所述机器学习模型是监督机器学习模型。

48.如权利要求47所述的设备，其中所述监督机器学习模型包括决策树集合、提升决策树算法、极端梯度提升(XGBoost)模型或随机森林。

49.如权利要求47所述的设备，其中所述监督机器学习模型包括支持向量机(SVM)、前馈机器学习模型、循环神经网络(RNN)、卷积神经网络(CNN)、图神经网络(GNN)或变换器神经网络。

50.如权利要求43所述的设备，其中所述机器学习模型是归纳机器学习模型。

51.如权利要求43所述的设备，其中所述机器学习模型是生成机器学习模型。

52.如权利要求43所述的设备，包括使所述处理器执行以下操作的代码：

53.如权利要求52所述的设备，包括使所述处理器执行以下操作的代码：

54.如权利要求52所述的设备，包括使所述处理器执行以下操作的代码：

55.如权利要求54所述的设备，其中所述MD模拟使用对称多处理(SMP)来并行执行。

56.一种经工程化的多肽，其通过如权利要求1-21中任一项所述的方法、如权利要求22-42中任一项所述的介质或如权利要求43-55中任一项所述的设备来生成。

57.一种经工程化的肽，其中所述经工程化的肽具有在1kDa和10kDa之间的分子质量，并且包含最多50个氨基酸，并且其中所述经工程化的肽包含：

空间相关拓扑约束的组合，其中所述约束中的一个或多个是参考目标导出的约束；以及

的骨架均方根偏差(RSMD)结构同源性。

58.如权利要求57所述的经工程化的肽，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10％和90％之间的序列同源性。

59.如权利要求57或权利要求58所述的经工程化的肽，其中所述组合包括至少两个参考目标导出的约束。

60.如权利要求57或权利要求59所述的经工程化的肽，其中所述组合包括至少两个参考目标导出的约束。

61.如权利要求57至60中任一项所述的经工程化的肽，其中所述组合包括能量项和结构约束匹配项，所述结构约束匹配项使用从所述参考目标结构的表示中提取的一个或多个结构约束来确定。

62.如权利要求57至61中任一项所述的经工程化的肽，其中所述一个或多个非参考目标导出的约束描述期望的结构特征、动力学特征或它们的任何组合。

63.如权利要求57至62中任一项所述的经工程化的肽，其中所述参考目标包含一个或多个与生物反应或生物功能相关联的原子，

64.如权利要求63所述的经工程化的肽，其中所述重叠的均方根内积(RMSIP)大于0.25。

65.如权利要求63所述的经工程化的肽，其中所述重叠的均方根内积(RMSIP)大于0.75。

66.一种选择经工程化的肽的方法，所述方法包括：

鉴定参考目标的一个或多个拓扑特征；

67.如权利要求66所述的方法，其中一个或多个约束从每个残基的能量和每个残基的原子距离导出。

68.如权利要求66或权利要求69中任一项所述的方法，其中一个或多个候选肽的特征通过计算机模拟来确定。

69.如权利要求68所述的方法，其中所述计算机模拟包括分子动力学模拟、蒙特卡罗模拟、粗粒度模拟、高斯网络模型、机器学习或它们的任何组合。

70.如权利要求66至69中任一项所述的方法，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10％和90％之间的序列同源性。

71.如权利要求66至70中任一项所述的方法，其中所述一个或多个非参考目标导出的约束描述期望的结构特征和/或动力学特征。