CN113853656A

CN113853656A - 用于对抗体进行分类的系统和方法

Info

Publication number: CN113853656A
Application number: CN202080036250.4A
Authority: CN
Inventors: D·梅森; S·弗利单森; C·韦伯; S·雷迪
Original assignee: Eidgenoessische Technische Hochschule Zurich ETHZ
Current assignee: Eidgenoessische Technische Hochschule Zurich ETHZ
Priority date: 2019-04-09
Filing date: 2020-04-08
Publication date: 2021-12-28
Also published as: CA3132189A1; US20220157403A1; EP3953943A1; IL287025A; AU2020271361A1; WO2020208555A1; JP2022527381A

Abstract

本公开描述了用于作出预测以对如抗体等结合蛋白的一种或多种性质，例如抗体对抗原的亲和力或特异性进行分类的系统和方法。所述系统可以包含一个或多个机器学习模型，所述机器学习模型可以推断氨基酸序列与功能之间的复杂关系。所述系统可以利用通过两步单位点和组合深度突变扫描方法生成的高质量训练数据进行训练。然后，经过训练的模型可以对在计算机中生成的新变体序列进行预测。本公开描述了由所提供的系统和方法生成的氨基酸序列，以及所生成的序列用于产生用于治疗和诊断用途的蛋白质的用途。

Description

用于对抗体进行分类的系统和方法

相关申请的交叉引用

本申请要求于2019年4月9日提交的美国临时专利申请第62/831,663号的优先权，所述美国临时专利申请通过引用以其全文并入本文。

背景技术

在抗体药物发现中，噬菌体或酵母展示文库的筛选是鉴定治疗性抗体的标准实践，并且通常会产生许多潜在的前导变体候选物。然而，与前导候选物优化相关的时间和成本通常占据药物临床前发现和开发周期的大部分。这主要是因为抗体分子的前导优化通常包含并行处理多个参数，包含表达水平、粘度、药代动力学、溶解度和免疫原性。一旦发现前导候选物，通常需要另外的工程化。几乎所有治疗性抗体都需要在哺乳动物细胞中表达为全长IgG，这一事实也意味着剩余的开发和优化步骤必须在此背景下进行。由于哺乳动物细胞缺乏稳定复制质粒的能力，所以此最后一个发展阶段是在低通量下完成的，因为必须实施详尽的克隆、转染和纯化策略来筛选最大范围为约10³个抗体分子的文库。这可能导致仅筛选微小的变化(例如，单点突变)。查询蛋白质序列空间的这么一小部分还意味着解决一个开发问题经常会导致另一个问题的出现或甚至完全降低抗原结合性，从而使多参数优化具有挑战性。

发明内容

本文提供了用于对结合蛋白的氨基酸序列进行分类的系统和方法，所述结合蛋白包含例如与抗原结合的抗体或与配体结合的受体。在一些实施例中，本文提供的方法将定向进化与机器学习相组合以基于输入氨基酸序列开发新蛋白质。在一些实施例中，所提供的方法可以鉴定改善所述结合蛋白的一种或多种性质的氨基酸序列，例如，抗体与抗原或两种或更多种抗原(例如，多特异性)结合的亲和力或特异性的增加。

根据本公开的至少一个方面，一种方法可以包含提供表示结合蛋白的一部分的输入氨基酸序列。在一些实施例中，所述部分是抗体的抗原结合部分。在一些实施例中，所述部分影响所述结合蛋白的一种或多种性质(例如抗原结合亲和力)。所述方法可以包含生成包括第一多个变体序列的第一训练数据集。所述第一多个序列中的每个序列可以在所述结合蛋白(例如，抗体)的所述输入氨基酸序列中包含单位点突变。所述方法可以包含生成包括第二多个序列的第二训练数据集。所述第二多个序列中的每个序列可以在基于包括所述第一多个序列的所述第一训练数据集的富集评分的位置处包含多个变体。所述方法可以包含向包括第一机器学习模型的分类引擎提供所述第二训练数据集以生成用于所述第一机器学习模型的多个参数。所述方法可以包含由所述分类引擎基于用于所述第一机器学习模型的所述多个参数确定提出的氨基酸序列与抗原的第一亲和力结合评分。在一些实施例中，所述参数包括所述第一学习模型的权重和偏差。所述方法可以包含基于满足阈值的所述第一亲和力结合评分选择所述提出的氨基酸序列以用于进一步分析和验证和/或表达。在一些实施例中，所述提出的氨基酸序列的进一步分析和验证基于与所述提出的氨基酸序列的可开发性和/或治疗潜力相关的一个或多个参数。

所述方法可以包含由所述分类引擎使用所述分类引擎的第二机器学习模型确定所述提出的氨基酸序列的第二亲和力结合评分。所述方法可以包含基于满足所述阈值的所述第一亲和力结合评分和所述第二亲和力结合评分选择所述提出的氨基酸序列以用于表达。所述方法可以包含由所述分类引擎确定多个提出的氨基酸序列中的每个氨基酸序列的亲和力结合评分。所述方法可以包含由候选物选择引擎确定用于所述多个提出的氨基酸序列中的每个氨基酸序列的一个或多个参数。所述方法可以包含由所述候选物选择引擎基于所述亲和力结合评分和用于所述多个提出的氨基酸序列中的每个氨基酸序列的所述一个或多个参数从所述多个提出的氨基酸序列中选择候选物变体。所述一个或多个参数可以包含基于蛋白质序列的度量，如莱文斯坦(Levenshtein)距离值、电荷值、疏水性指数值、CamSol评分、最小亲和力等级或平均亲和力等级。所述基于蛋白质序列的度量还可以包含与制造不利因素(manufacturing liability)相关联的序列基序，如n-糖基化位点、脱酰胺位点、异构化位点、甲硫氨酸氧化、色氨酸氧化和配对或未配对的半胱氨酸残基。所述一个或多个参数还可以包含基于蛋白质结构的度量，如溶剂可及表面积(SASA)、贴片正电荷(PPC)、贴片负电荷(PNC)、贴片表面疏水性(PSH)和表面Fv电荷对称参数(SFvCSP)。

所述第一机器学习模型可以包含递归神经网络(RNN)、卷积神经网络(CNN)、标准人工神经网络(ANN)、支持向量机(SVM)、随机森林系综(RF)或逻辑回归(LR)模型。所述输入氨基酸序列可以是所述抗体的互补决定区(CDR)的一部分。所述输入氨基酸序列可以是针对其期望改进所述抗体的一种或多种性质的CDRH1、CDRH2、CDRH3、CDRL1、CDRL2、CDRL3、所述抗体的框架域内的区(例如，FR1、FR2、FR3、FR4)或所述抗体的恒定结构域内的区(例如，CH1、CH2、CH3)或其任何组合。所述输入氨基酸序列可以是全长重链或全长轻链。所述输入氨基酸序列可以是包括抗体的一个或多个部分的重组序列。所述抗体可以是治疗性抗体。所述第一训练数据集可以通过深度突变扫描生成。所述深度突变扫描可以包含生成变体序列的第一文库，其中每个变体序列在相对于所述输入氨基酸序列的单个氨基酸位置处被修饰。所述第一文库可以包含表示所述输入氨基酸序列的每个氨基酸位置的变体序列。

所述第一文库可以包含表示所述输入氨基酸序列的每个位置处的所有20个氨基酸的变体序列。变体序列的所述第一文库可以通过编码所述输入氨基酸序列的核酸序列的诱变生成。变体序列的所述第一文库可以通过诱变和将突变序列引入到合适的表达系统中来生成。诱变方法可以包含任何合适的方法，如易错PCR、重组诱变、丙氨酸扫描诱变、结构引导诱变或同源定向修复(HDR)。所述表达系统可以是例如哺乳动物、酵母、细菌或噬菌体表达系统。变体序列的所述第一文库可以通过哺乳动物细胞中的高通量诱变生成。变体序列的所述第一文库可以通过CRISPR/Cas9介导的同源定向修复(HDR)生成。所述深度突变扫描可以包含生成多种抗体，所述抗体可以包含变体序列的所述第一文库。所述深度突变扫描可以包含筛选所述多个抗体和用于结合到抗原的变体序列的所述第一文库并确定被选择用于结合到所述抗原的变体的序列和频率，从而获得所述第一训练数据集。

所述第二训练数据集可以通过深度突变扫描引导的组合诱变生成。所述深度突变扫描引导的组合诱变可以包含生成变体序列的第二文库，其中每个变体序列基于所述第一训练数据集在两个或更多个氨基酸位置处被修饰。变体序列的所述第二文库可以通过哺乳动物细胞中的高通量诱变生成。变体序列的所述第二文库通过CRISPR/Cas9介导的同源定向修复(HDR)生成。所述深度突变扫描引导的组合诱变可以包含生成包括变体序列的所述第二文库的多个抗体。所述组合深度突变扫描可以包含筛选可以包含用于结合到所述抗原的变体序列的所述第二文库的所述多个抗体并确定被选择用于结合到所述抗原的变体的序列，从而获得所述第二训练数据集。

本文还提供了包括通过本文提供的方法生成的氨基酸序列的蛋白质或肽。在一些实施例中，所生成的氨基酸序列是CDRH3。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽是抗体或其片段。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽是全长抗体。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽是包括抗体的一个或多个部分的融合蛋白。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽是scFv或Fc融合蛋白。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽是嵌合抗原受体。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽是重组蛋白。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽结合到抗原。在一些实施例中，所述抗原与疾病或病状相关。在一些实施例中，所述抗原是肿瘤抗原、炎性抗原、病原性抗原(例如，病毒、细菌、酵母、寄生虫)。在一些实施例中，与包括所述输入氨基酸序列的蛋白质或肽相比，包括本文所生成的氨基酸序列的所述蛋白质或肽具有一种或多种改善的性质。在一些实施例中，与包括所述输入氨基酸序列的蛋白质或肽相比，包括本文所生成的氨基酸序列的所述蛋白质或肽具有改善的对抗原的亲和力。在一些实施例中，与包括所述输入氨基酸序列的蛋白质或肽相比，包括本文所生成的氨基酸序列的所述蛋白质或肽具有改善的用于制造的生物物理性质。在一些实施例中，与包括所述输入氨基酸序列的蛋白质或肽相比，包括本文所生成的氨基酸序列的所述蛋白质或肽具有降低的免疫原性风险。在一些实施例中，可以施用包括本文所生成的氨基酸序列的所述蛋白质或肽以治疗炎性疾病、感染性疾病、癌症、遗传病症、器官移植排斥、自身免疫疾病或免疫病症。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽可以用于制造用于治疗炎性疾病、感染性疾病、癌症、遗传病症、器官移植排斥、自身免疫疾病和免疫病症的药物。本文还提供了包括又一种包括本文所生成的氨基酸序列的蛋白质或肽的细胞。所述细胞可以是哺乳动物细胞、细菌细胞、酵母细胞或可以表达包括本文所生成的氨基酸序列的蛋白质或肽的任何细胞。所述细胞可以是免疫细胞，如T细胞(例如，用于嵌合抗原受体(CAR)T细胞疗法的细胞)。在一些实施例中，包括本文所生成的氨基酸序列的所述蛋白质或肽可以用于检测生物样品中的抗原。

本文还提供了包括图15A-D、23A-O中任一幅图所示的氨基酸序列的蛋白质或肽。在一些实施例中，图15A-D、23A-O中任一幅图所示的所述氨基酸序列是CDRH3。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽是抗体或其片段。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽是全长抗体。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽是包括抗体的一个或多个部分的融合蛋白。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽是scFv或Fc融合蛋白。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽是嵌合抗原受体。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽是重组蛋白。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽结合到HER2(人表皮生长因子受体2)抗原。在一些实施例中，与曲妥珠单抗(trastuzumab)(赫赛汀(Herceptin))抗体相比，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽具有一种或多种改善的性质。在一些实施例中，与曲妥珠单抗(赫赛汀)抗体相比，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽具有改善的对所述HER2抗原的亲和力。在一些实施例中，可以施用包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽来治疗HER2阳性癌症。在一些实施例中，可以施用包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽来治疗HER2阳性乳腺癌。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽可以用于制造用于治疗HER2阳性乳腺癌的药物。在一些实施例中，所述HER2阳性癌症是转移性癌症。本文还提供了包括一种或多种蛋白质或肽的细胞，所述蛋白质或肽包括图15A-D、23A-O中任一幅图所示的氨基酸序列。所述细胞可以是哺乳动物细胞、细菌细胞、酵母细胞或可以表达包括图15A-D、23A-O中任一幅图所示的氨基酸序列的蛋白质或肽的任何细胞。所述细胞可以是免疫细胞，如T细胞(例如，CAR-T细胞)。在一些实施例中，包括图15A-D、23A-O中任一幅图所示的氨基酸序列的所述蛋白质或肽可以用于检测生物样品中的HER2抗原。

上述总体说明和以下附图说明和具体实施方式是示例性和解释性的并且旨在提供对所要求保护的本发明的进一步解释。根据以下附图说明和具体实施方式，其它目的、优点和新颖特征对于本领域技术人员而言将是显而易见的。

附图说明

附图不打算按比例绘制。各附图中的类似附图标记和名称指示类似要素。为了清晰起见，并不是在每个附图中都可能标记每个组件。在附图中：

图1展示了用于选择抗体候选物的示例系统的框图。

图2A展示了可以与图1中展示的示例系统一起使用的示例神经网络。

图2B展示了示例接收器操作特性。

图3A展示了可以与图1中展示的示例系统一起使用的另一个示例神经网络。

图3B展示了示例接收器操作特性。

图4A展示了可以与图1中展示的示例系统一起使用的用于生成训练数据的示例流程。

图4B展示了用于使用图1中展示的示例系统选择候选物变体的示例流程。

图5A展示了(A)曲妥珠单抗(赫赛汀)CDRH3变体序列和(B)在通过同源定向诱变整合叠瓦式突变(tiled mutation)后的流式细胞术谱。

图5B展示了经过3轮富集的抗原特异性变体(C)对预分选(Ab+)和分选后(Ag+)群体进行测序分析后的对应热图。黑色圆圈标记野生型氨基酸。(D)由每个位置的正富集突变生成的所得序列标识图。

图5C展示了(E)与其靶抗原HER2复合的曲妥珠单抗的3D蛋白质结构(Cho等人(2003)《自然(Nature)》421(6924):756–60)。提供了暴露于表面的氨基酸位置的定位：102D、103G、104F和105Y。

图6A展示(A)序列标识图和(B)由合理设计的文库转染产生的流式细胞术图。进行了两轮富集以产生抗原特异性变体的文库。

图6B展示了如何对文库(Ab+)、非结合性变体(Ag-)和1轮和2轮富集后的结合性变体(Ag+1、Ag+2)进行下一代测序(C，D)(C)抗原结合性变体和(D)非结合性变体的氨基酸频率图揭示了几乎无法区分跨所有位置的氨基酸使用。

图7A-E展示了可以与图1中展示的示例系统一起使用的示例过滤策略。直方图示出了在不同过滤阶段的所有预测变体的参数分布。图7A展示了(A)与野生型曲妥珠单抗的莱文斯坦距离；和(B)VH结构域的净电荷。图7B展示了(C)CDRH3疏水性指数；和(D)CamSol固有溶解度评分。图7C展示了(E)所有可能的15聚体的最小NetMHCIIpan等级％；和(F)所有可能的15聚体的平均NetMHCIIpan等级％。图7D展示了(G)具有各种平均netMHC评分的序列的计数；和(H)实验和预测结合物的总体可开发性评分。图7E展示了(I)过滤参数和对应的过滤阶段的序列的数量。

图8展示了使用图1中展示的示例系统鉴定具有抗原亲和力的抗体的示例方法的框图。

图9A-9B展示了用仅gRNA(左下小图)、gRNA+DMS ssODN文库(中下小图)或gRNA+DMS-组合诱变文库(右下小图)转染杂交瘤细胞后的曲妥珠单抗(赫赛汀)CDRH3变体和CDRH3序列和流式细胞术数据。顶部中间小图是转染前曲妥珠单抗CDRH3变体的代表性流式细胞术图。

图10展示了曲妥珠单抗(赫赛汀)CDRH3深度突变扫描的示例性流式细胞术数据。(A)在针对抗体表达性(Ab+)细胞和抗原特异性(Ag+)细胞的FACS后的流式细胞仪图、热图和序列标识图。(B)在针对抗原特异性(Ag+2)细胞的第二轮富集后的流式细胞仪图、热图和序列标识图；降低的抗原浓度用于流式细胞术标记。(C)在针对抗原特异性(Ag+3)细胞的第三轮富集后的流式细胞仪图、热图和序列标识图；使用含有替代偶联荧光团(Alexa Fluor488)的抗原进行流式细胞术标记。所有富集比率(ER)通过将在相应Ag+群体中发现的突变体的频率除以在Ab+群体中发现的突变体的频率来进行计算。

图11展示了用于在哺乳动物细胞中生成抗原特异性文库的示例性工作流程和流式细胞术数据。文库是通过转染含有合理设计的文库的gRNA和ssODN供体模板生成的。通过磁激活细胞分选(MACS)富集抗体表达性细胞(Ab+)。然后，Ab+细胞可以针对抗原特异性变体进行多轮富集。抗原特异性文库是根据DMS研究期间连续轮次抗原富集后计算的富集比率设计的。(A)根据一轮抗原富集(Ag+，图10A)后的DMS数据设计的文库。(B)根据两轮抗原富集(Ag+2，图10B)后的DMS数据设计的文库。(C)根据三轮抗原富集(Ag+3，图10C)后的DMS数据设计的文库。

图12展示了对文库(Ab+)、非结合性变体(Ag-)和1和2轮富集后的结合性变体(Ag+1，Ag+2)进行的NGS所检测到的序列读段、比对和独特序列数量的示例性下一代测序结果。

图13A和13B展示了对组合诱变文库进行的NGS所检测到的序列读段、比对和独特序列数量的示例性下一代测序结果。

图14A和14B展示了基于曲妥珠单抗(赫赛汀)CDRH3 DMS的组合诱变文库的示例性流式细胞术数据。在转染和整合基于DMS的组合诱变文库后，抗原特异性变体的频率可以用于协助模型性能和评估。在提供的实例中，大约10％的抗体变体是抗原特异性的。

图15A到图15D展示了通过计算机选择获得的104个变体的实验验证数据。

图16A-D展示了根据其中公开的方法预测的抗体序列的实验验证数据。图16A描绘了与曲妥珠单抗(最右边)的表达水平相比，各种预测抗体序列的蛋白质表达水平。图16B描绘了预测抗体序列的结合动力学。曲妥珠单抗的结合动力学以纳摩尔范围表示。图16C描绘了与曲妥珠单抗(最右边)的热稳定性相比，预测抗体序列的热稳定性。图16D描绘了与曲妥珠单抗相比，两个预测序列(C和F)的免疫原性风险。

图17A-21B展示了根据未见测试数据对结合物和非结合物进行分类的模型性能曲线。30％的初始数据集被分割成两个测试数据集(每个15％)。一个测试数据集含有训练数据集(测试集A)中存在的相同比率的结合性和非结合性序列，而另一个测试数据集含有大约10/90比率的结合性和非结合性序列(测试集B)，以类似于在图14A-B中展示的数据中观察到的生理频率。(顶部小图)在测试集A中的序列分类上观察到的ROC(接收器操作特性)曲线和PR(精度-召回率)曲线；(底部小图)在测试集B中的序列分类上观察到的ROC曲线和PR曲线；(A)LSTM-RNN(长短期记忆递归神经网络)ROC曲线(左侧小图)、LSTM-RNN PR曲线(右侧小图)；(B)CNN(卷积神经网络)ROC曲线(左侧小图)、CNN PR曲线(右侧小图)。

图22提供了图17-21中所示的模型性能曲线中的每个模型性能曲线的AUC(曲线下面积)、平均PR和预测结合物的数量的总结。

图23A-23O展示了测试变体的流式细胞术分析(左侧)和生物层干涉测量法亲和力分析(右侧)的示例性数据。

图24A展示了用于深度突变扫描研究的流式细胞术标记条件的表。

图24B展示了用于DMS引导的组合诱变文库的流式细胞术标记条件。

图25展示了曲妥珠单抗(赫赛汀)CDRL3深度突变扫描的示例性流式细胞术数据。(A)在针对抗体表达性(Ab+)细胞和抗原特异性(Ag+)细胞的FACS后的流式细胞仪图、热图和序列标识图。(B)在针对抗原特异性(Ag+2)细胞的第二轮富集后的流式细胞仪图、热图和序列标识图；降低的抗原浓度用于流式细胞术标记。(C)在针对抗原特异性(Ag+3)细胞的第三轮富集后的流式细胞仪图、热图和序列标识图；使用含有替代偶联荧光团(Alexa Fluor488)的抗原进行流式细胞术标记。所有富集比率(ER)通过将在相应Ag+群体中发现的突变体的频率除以在Ab+群体中发现的突变体的频率来进行计算。

图26展示了从对CDRL3文库(Ab+)和1和2轮富集后的结合性变体(Ag+1，Ag+2)执行的NGS检测到的序列读段、比对和独特序列数量的示例性下一代测序结果。

图27展示了用于在哺乳动物细胞中在沿着抗体的多个位置(例如，CDRL3和CDRH3)处生成抗原特异性文库的示例性工作流程和流式细胞术数据。初始文库是通过转染gRNA和ssODN供体模板生成的，所述供体模板含有为第一区合理设计的文库。抗体表达性细胞(Ab+)通过荧光激活细胞分选(FACS)进行富集。然后通过转染含有为第二区合理设计的文库的gRNA和ssODN供体模板生成第二区中的文库。抗体表达性细胞(Ab+)通过荧光激活细胞分选(FACS)进行富集。然后，Ab+细胞可以针对抗原特异性变体进行多轮富集。抗原特异性文库是根据DMS研究期间连续轮次抗原富集后计算的富集比率设计的。(A)根据两轮抗原富集(Ag+2，图25C)后的DMS数据设计的CDRL3文库。(B)根据两轮抗原富集(Ag+3，图10C)后的DMS数据设计的CDRH3文库。(C-D)来源于最终CDRL3+CDRH3诱变文库的桑格测序(sangersequencing)实验的实验结果，所述结果验证了引入到两个区中的遗传多样性。(E)展示了用于首先在CDRL3处然后在CDRH3处生成抗原特异性文库的示例性工作流程和流式细胞术数据。

图28展示了阿达木单抗(Adalimumab)(修美乐(Humira))CDRH3深度突变扫描的示例性数据。在针对抗体表达性(Ab+)细胞和抗原特异性(Ag+)细胞的FACS后由文库的深度测序生成的热图和序列标识图；使用含有替代偶联荧光团(Alexa Fluor488)的抗原进行流式细胞术标记。

图29展示了从对阿达木单抗CDRH3文库(Ab+)和1和2轮富集后的结合性变体(Ag+1，Ag+2)执行的NGS检测到的序列读段、比对和独特序列数量的示例性下一代测序结果。

具体实施方式

上文介绍的和下文更详细讨论的各种概念可以以多种方式中的任一种方式实施，因为所描述的概念不限于实施方案的任何特定方式。具体实施方案和应用的实例主要是为了说明性目的而提供的。

噬菌体和酵母展示筛选可用于大型诱变文库(>10⁹)的高通量筛选，然而它们主要仅用于增加对靶抗原的亲和力或特异性。几乎所有治疗性抗体都可能需要在哺乳动物细胞中表达为全长IgG，这意味着初始选择后的开发和优化步骤必须在此背景下进行。由于哺乳动物细胞缺乏稳定复制质粒的能力，所以此最后的开发阶段以非常低的通量完成，因为必须实施详尽的克隆、转染和纯化策略来筛选最大范围为10³种抗体的文库。因此，在此阶段仅筛选微小的变化(例如，点突变)，通常只产生少数优化的前导物。查询蛋白质序列空间的这么一小部分也意味着解决一个开发问题经常会导致另一个问题的出现或甚至完全降低抗原结合性，从而使多参数优化非常具有挑战性。

本文描述的方法包含改进的治疗性抗体开发过程，所述过程采用从合理设计的诱变文库的定向进化与机器学习的有效组合。用于从大量多样性的抗体序列空间中查询和预测抗原特异性的深度学习模型能够生成数千个优化的前导候选物。

在一些方面，使用哺乳动物展示平台，其中使用用于哺乳动物表达的高通量诱变系统，如通过CRISPR/Cas9介导的同源定向修复(HDR)引入合理设计的定点诱变文库。本发明人已经发现，基于所述方法生成的相对较小的文库(例如，约10⁴个)的筛选和深度测序产生了能够训练深度神经网络的高质量数据，所述深度神经网络基于抗体序列以超过80％的精度预测抗原结合性。

一旦根据本文所述的方法进行训练，机器学习模型就可以用于从大得多的计算机生成的文库变体中预测数百万个抗原结合物(例如，当曲妥珠单抗用作输入氨基酸序列，～10⁸种变体通过本文所述的方法生成)。这些变体可以经受多个可开发性过滤器，从而产生数以万计的优化前导候选物。如本文实例中所述，当将本方法应用于示例性抗体、治疗性抗体曲妥珠单抗的重链互补决定区3(CDRH3)时，观察到在被表达并测定抗原结合性的仅30个优化的前导候选物的小子集中，29个被证明是抗原特异性的。因此，几乎所有被选择用于测试的经优化的前导候选物都具有预测的性质。利用其可扩展的吞通量和跨巨大蛋白质序列空间的查询能力，本文所述的方法可以应用于涉及基于抗体和其它蛋白质的治疗的工程和优化的广泛应用。

本公开描述了用于预测蛋白质序列-表型关系的系统和方法，并且可以用于鉴定具有一种或多种期望的参数(如抗原特异性或亲和力)的治疗性抗体。所述系统可以包含一个或多个机器学习模型，所述机器学习模型可以推断蛋白质序列与功能之间的复杂关系。在一些方面，可以利用通过组合了单位点诱变扫描的两步定向进化方法然后通过组合深度突变扫描方法生成的高质量训练数据训练模型。然后，本文描述的训练模型可以作出关于在计算机中生成的新抗体序列的预测。本文描述的系统和方法能够查询比如噬菌体或细菌展示等标准表达系统在物理上可能实现的序列空间大得多的序列空间。例如，对于10个氨基酸的短链段，组合序列多样性会激增到10¹³，这个大小几乎不可能通过实验进行查询。在一些方面，本文所述的系统还可以执行多参数优化以从由模型分类为抗原结合物的变体中鉴定最有可能表现出抗原特异性的抗原结合物分类的变体。

图1展示了用于选择抗体前导候选物的示例系统100的框图。候选物鉴定系统102可以包含一个或多个处理器104和一个或多个存储器106。处理器104可以执行处理器可执行指令以执行本文描述的功能。处理器104可以执行分类引擎108和候选物选择引擎110。存储器106可以存储处理器可执行指令、生成数据和所收集的数据。存储器106可以存储一个或多个分类器权重112和过滤参数114。存储器106还可以存储分类数据116、训练数据118和候选物数据120。

系统100可以包含一个或多个候选物鉴定系统102。候选物鉴定系统102可以包含至少一个逻辑装置，如处理器104。候选物鉴定系统102可以包含至少一个存储器元件106，所述至少一个存储器元件可以存储数据和处理器可执行指令。候选物鉴定系统102可以包含位于至少一个数据中心的多个计算资源或服务器。候选物鉴定系统102可以包含多个逻辑分组的服务器并且促进分布式计算技术。服务器的逻辑组可以被称为数据中心、服务器农场或机器农场。服务器也可以在地理上分散。候选物鉴定系统102可以是任何计算装置。例如，候选物鉴定系统102可以是或可以包含一个或多个膝上型电脑、台式机、平板电脑、智能电话、便携式计算机或其任何组合。

候选物鉴定系统102可以包含一个或多个处理器104。处理器104可以向候选物鉴定系统102提供信息处理能力。处理器104可以包含以下中的一个或多个：数字处理器、模拟处理器、用于处理信息的数字电路、被设计用于处理信息的模拟电路、状态机和/或用于以电子方式处理信息的其它机构。每个处理器104可以包含多个处理单元或处理核心。处理器104可以与存储器106电耦接并且可以执行分类引擎108和候选物选择引擎110。

处理器104可以包含一个或多个微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其组合。处理器104可以是模拟处理器并且可以包含一个或多个电阻网络。电阻网络可以包含多个输入和多个输出。所述多个输入中的每个输入和所述多个输出中的每个输出可以与纳米线耦合。输入的纳米线可以通过存储器元件与输出的纳米线耦合。存储器元件可以包含ReRAM、忆阻器或PCM。处理器104作为模拟处理器，可以使用模拟信号进行矩阵-向量乘法。

候选物鉴定系统102可以包含一个或多个分类引擎108。分类引擎108可以包含一个或多个机器学习算法，所述机器学习算法配置成从数据中提取特征并基于提取的特征对数据进行分类。例如，分类引擎108可以包含以下中的一个或多个：递归神经网络(例如，一种源自前馈神经网络的人工神经网络，其中节点之间的连接沿着时间序列形成有向图以允许时间动态行为)、卷积神经网络(例如，具有节点层的神经网络，所述节点相互连接并在所述层中的至少一层中使用卷积)、标准人工神经网络(例如，基于被配置成基于实例或训练数据学习执行任务的连接的单元或节点的集合的计算系统)、支持向量机(例如，具有分析用于分类和回归分析的数据的相关学习功能的监督学习模型)、随机森林系综(例如，用于分类、回归和其它任务的计算系统学习方法，所述任务通过在训练时构建大量决策树并输出类别是类别的模式或单个树的平均预测来操作)或逻辑回归模型(例如，可以使用逻辑函数对某个类别或事件存在的概率进行建模的统计技术，如二元因变量)。

例如，分类引擎108可以包含人工神经网络。神经网络可以包含输入层、多个隐藏层和输出层。神经网络可以是多层神经网络、卷积神经网络或递归神经网络，包含长短期记忆(LSTM)神经网络。分类引擎108可以包含多个神经网络或分类模型。例如，分类引擎108可以用第一分类模型(例如，卷积神经网络)以及第二分类模型(例如，LSTM神经网络)处理分类数据116。如下文关于候选物选择引擎110所描述的，候选物选择引擎110可以选择候选物抗体作为由第一分类模型和第二分类模型鉴定的抗体。

在训练阶段期间，分类引擎108可以处理训练数据118以生成分类引擎的机器学习模型中的一个或多个机器学习模型的权重和偏差。一旦经过训练，分类引擎108就可以将权重和偏差作为分类器权重112存储在存储器106中。训练数据的生成和分类引擎108的训练将进一步关于存储器106、训练数据118和以下实例进行描述。

分类引擎108可以通过将训练数据118输入到神经网络中并将所得分类与预期分类(如由输入数据的标签所定义)进行比较来生成权重和偏差。例如，在包含各自对应于不同分类的10个输出神经元的示例系统中，分类引擎108可以使用反向传播和梯度下降来最小化成本或预期结果与由分类引擎108确定的结果之间的误差一旦分类引擎108训练了其神经网络，分类引擎108就可以将权重和偏差保存到存储器106作为分类器权重112。分类引擎108的模型(例如，卷积神经网络和LSTM神经网络)将尤其关于图2和3进行进一步描述。

候选物鉴定系统102可以包含候选物选择引擎110。对于给定的蛋白质序列空间(例如，所有可能的蛋白质序列变体)，分类引擎108可以将大量变体分类为抗原结合物。候选物选择引擎110可以从分类为抗原结合物的变体中选择候选物变体用于进一步测试或研究。候选物选择引擎110可以通过对抗原结合物分类的变体应用一种或多种过滤策略来选择候选物变体。过滤策略可以包含各自具有相关联的阈值或其它约束条件的一个或多个过滤参数114。如果抗原结合物分类的变体满足例如相应过滤参数114的阈值，则候选物选择引擎110可以选择抗原结合物分类的变体作为候选物变体。

如果分类引擎108的多于一个模型将变体分类为抗原结合物，则候选物选择引擎110可以选择抗原结合物分类的变体作为候选物变体。例如，分类引擎108可以包含卷积神经网络和LSTM神经网络。分类引擎108可以利用卷积神经网络和LSTM神经网络对变体空间中的每个变体进行分类，以针对每个变体生成两个分类(例如，卷积神经网络的一个分类和LSTM神经网络的第二分类)。当分类引擎108利用多个模型执行分类以针对每个变体生成多个分类时。模型之间的一致性可以是过滤参数114之一。例如，未被卷积神经网络和LSTM神经网络两者分类为抗原结合物分类的变体的变体可以被丢弃而不进行进一步处理。候选物数据120可以包含被卷积神经网络和LSTM神经网络两者分类为抗原结合物分类的变体的变体。

过滤参数114可以包含与已知野生型抗体序列的相似性度量要求。例如，候选物选择引擎110可以计算变体空间中的每个变体与已知野生型序列之间的莱文斯坦距离以确定相应变体与野生型序列之间的相似性。过滤策略可以指示每个候选物变体必须满足与野生型序列的相似性阈值。例如，如果抗原结合物分类的变体具有小于5的莱文斯坦距离，则候选物选择引擎110可以选择抗原结合物分类的变体作为候选物变体以用于存储在候选物数据120中。在一些实例中，候选物选择引擎110可以选择具有大于5的莱文斯坦距离的抗原结合物分类的变体。

过滤参数114可以包含与人抗体库序列的相似性度量。例如，候选物选择引擎110可以计算变体空间中的每个变体与人类抗体序列集合(例如，来自患者B细胞)之间的莱文斯坦距离，以确定相应变体与人类库之间的相似性。基于过滤策略，候选物选择引擎110可以选择满足与人类库序列的相似性阈值的候选物变体。

过滤参数114可以包含蛋白质的任何可开发性属性，包含例如净电荷、疏水性指数、粘度、清除率阈值、溶解度、亲和力、化学稳定性、热稳定性、可表达性、特异性、交叉反应性或其任何组合。候选物选择引擎110可以针对每个抗原结合物分类的变体计算抗原结合物分类的变体的净变化和疏水性。基于净电荷和疏水性，候选物选择引擎110可以计算抗原结合物分类的变体的粘度值和清除率值。例如，粘度会随着可变片段(Fv)净电荷的增加和Fv电荷对称参数(FvCSP)的增加而降低。过滤参数114可以包含基于可变片段(Fv)电荷的清除率值，所述清除率值介于约0与约6.2之间，且CDRL1+CDRL3+CDRH3疏水性指数总和小于4.0。候选物选择引擎110可以鉴定与制造不利因素相关联的蛋白质序列基序，如n-糖基化位点、脱酰胺位点、异构化位点、甲硫氨酸氧化、色氨酸氧化和配对或未配对的半胱氨酸残基。例如，候选物选择引擎110可以选择具有与制造不利因素相关联的零序列基序的抗原结合物分类的变体。候选物选择引擎110可以包含蛋白质溶解度预测器以预测抗原结合物分类的变体中的每种变体的蛋白质溶解度。例如，候选物选择引擎110可以选择溶解度大于1的抗原结合物分类的变体作为候选物变体。在一些实施方案中，候选物选择引擎110可以选择溶解度或其它可开发性属性高于阈值的抗原结合物分类的变体。所述阈值可以是值阈值。所述阈值可以是可变阈值或相对阈值。例如，所述阈值可以是抗原结合物分类的变体的前5％、10％或其它百分比。在另一个实例中，候选物选择引擎110可以选择高于平均值多个标准偏差的抗原结合物分类的变体。

候选物选择引擎110可以计算MHC II类分子的抗原结合物分类的变体中的每种变体的亲和力结合评分，以便过滤掉可能具有免疫原性的候选物肽。例如，候选物选择引擎110可以通过利用如NetMHCIIpan等工具预测变体序列对MHC II类分子的肽结合亲和力，所述工具预测肽与三种人类MHC II类同种型HLA-DR、HLA-DP和HLA-DQ的结合性。CDRH3序列可以在5'和3'末端填充10个氨基酸，然后所有可能的15聚体都可以通过NetMHCIIpan运行。与一组200,000个随机天然肽相比，候选物选择引擎110可以确定抗原结合物分类的变体对MHC II类的百分比等级预测亲和力。候选物选择引擎110可以过滤掉百分比等级小于约20％、15％、10％、5％或2％的抗原结合物分类的变体。百分比等级越低，抗原结合物分类的变体对MHC II类的预测亲和力越高。在一些方面，如果15聚体中的任何一个含有等级％<15，则可以过滤掉序列。可以进一步计算剩余序列的所有15聚体的平均等级％，并且可以过滤掉那些平均等级％<70的序列。对于15聚体中的每一个，可以进一步计算所有MHC II类等位基因的预测结合亲和力的平均值和中值，并且可以过滤掉平均值和/或中值大于定义阈值的那些序列。过滤策略可以指示抗原结合物分类的变体必须满足过滤参数114中的一个或多个过滤参数才能被选择为候选物变体并被存储为候选物数据120。

候选物鉴定系统102可以包含一个或多个存储器106。存储器106可以是或者可以包含存储器元件。存储器106可以存储机器指令，所述机器指令在由处理器104执行时可以使处理器104执行本文描述的操作中的一个或多个操作。存储器106可以包含但不限于能够为处理器104提供指令的电子、光学、磁性或任何其它存储装置。存储器106可以包含软盘、CD-ROM、DVD、磁盘、存储器芯片、ROM、RAM、EEPROM、EPROM、闪速存储器、光学介质或处理器104可以从中读取指令的任何其它合适的存储器。指令可以包含来自任何合适的计算机编程语言的代码，所述计算机编程语言如但不限于C、C++、C#、Java、JavaScript、Perl、HTML、XML、Python和Visual Basic。

候选物鉴定系统102可以将分类器权重112存储在存储器106中。分类器权重112可以是包含定义分类引擎108的神经网络的权重和偏差的数据结构。一旦经过训练，分类引擎108就可以将分类器权重112存储到存储器106以供以后检索和用于对分类数据116进行分类。

候选物数据120可以将过滤参数114存储在存储器106中。如上所述，候选物选择引擎110可以检索用于从抗原结合物分类的变体中选择候选物变体的过滤策略。候选物选择引擎110可以应用过滤策略来鉴定对给定抗原具有相对较高亲和力的更高可能性的抗原结合物分类的变体。过滤参数114可以各自是指示相应过滤参数114的阈值的数据结构。例如，过滤参数可以指示给定抗原结合物分类的变体的抗体应具有介于约0与约6之间的Fv净电荷。每个过滤参数114可以指示特定参数和预定阈值(例如，高于2)、预定范围(例如，介于0与6之间)、自适应阈值(例如，具有抗原结合物分类的变体的前5％之内的预测亲和力)或自适应范围(例如，介于对抗原结合物分类的变体的预测亲和力的约前1％与5％之间)。

候选物鉴定系统102可以将分类数据116存储在存储器106中。分类数据116可以是将由分类引擎108分类的多种变体。分类数据116可以包含给定序列的变体空间中的每种变体。例如，候选物鉴定系统102可以从预定抗体开始并计算抗体的所有可能变体。变体中的每种变体可以作为分类数据116存储在存储器106中。

候选物鉴定系统102可以将训练数据118存储在存储器106中。训练数据118可以包含数据结构，所述数据结构包含对多种变体的指示。训练数据118的每种变体可以单独地(例如，作为单个字符串或向量)或共同地(例如，作为矩阵，其中每一列或行对应于不同的变体)存储。训练数据可以被标记为训练数据118以指示相应变体是结合性变体还是非结合性变体。例如，每种变体可以存储为编码变体序列的二进制文件。二进制文件可以包含可以设置(例如，设置为1)以指示变体是结合性变体或不设置(例如，设置为0)以指示变体是非结合性变体的前导(或尾随)位。

训练数据118可以是通过基于所选参数(例如，抗原结合性)对合理设计的变体文库进行物理筛选来选择的一组变体。例如，在一些实施例中，训练数据包含数值。在一些实施例中，所述数值对应于一组变体的结合动力学值。在一些实施例中，所述数值对应于生物物理测定的数值结果(例如，热稳定性的熔融温度，或溶解度的AC-SINS)。更详细地描述了用于生成训练数据的示例性方法(参见例如图4A)。

可以使用训练数据118来训练分类引擎108。在此实例中，可以训练分类引擎108以预测针对靶抗原的特异性。如下文关于图2和3进一步描述的，训练数据118(如分类数据116)可以被独热编码以输入到分类引擎108中。训练数据118可以被划分为训练数据和测试数据。例如，可以使用训练数据来训练分类引擎108，并且可以保留测试数据来测试经过训练的分类引擎108的准确度和精度，而不是用于分类引擎108的训练。可以标记测试数据以使分类引擎108能够确定测试数据的变体是否被正确分类。在一个实例中，训练数据118的70％可以留出用于训练，并且30％可以用于分类引擎108的测试或评估。测试数据可以分割以包含预定比例的结合物与非结合物变体。例如，测试数据可以分割成大约10/90的结合物/非结合物以类似于生理频率。

候选物选择引擎110可以将候选物变体作为候选物数据120存储在存储器106中。候选物数据120可以是可以指示满足过滤策略的参数的抗原结合物分类的变体中的每种的数据结构。候选物数据120可以是一种数据结构，所述数据结构可以指示在使用过滤策略处理抗原结合物分类的变体之前或在不使用过滤策略处理抗原结合物分类的变体的情况下被分类为抗原结合物的每种变体。数据结构可以是基于文本的文件或指示变体序列的二进制文件。例如，序列可以作为字符串存储在基于文本的文件中。数据结构(或文件)可以包含元数据，如相对于野生型突变了哪些位置和突变的性质。元数据可以包含指示分类引擎108将抗原结合物分类的变体分类为抗原结合物分类的变体的确定性的分类评分。

图2展示了示例神经网络200。神经网络200可以是LSTM神经网络200。参见图2A。LSTM神经网络200可以包含多个节点202，所述节点也可以被称为神经元202。节点202可以以层的形式布置。例如，节点202可以包含节点202的输入层、节点202的一个或多个隐藏层以及节点202的输出层。所述层中的每一层可以包含一个或多个节点202。例如，输入层可以包含10个节点202(例如，输入层中的节点202的数量等于输入向量204的长度)并且输出层可以包含一个节点202。输出层的节点202可以指示输入向量204对应于抗原结合物分类的变体的概率。LSTM神经网络200可以包含两个输出节点202——一个节点202提供变体是抗原结合物分类的变体的概率并且第二节点202提供变体是非抗原结合物分类的变体的概率。

LSTM神经网络200可以包含约2到约10个层、约2到约8个层、约2到约6个层、约2到约4个层或约2到约3个层。每一层可以包含相同数量的节点202或不同数量的节点202。输入层可以包含用于独热编码矩阵输入上的每个值的节点202。例如，对于10×20独热编码矩阵，输入层可以包含200个节点202。输入层中的节点202的数量可以基于输入序列中的值的数量(例如，序列中的氨基酸的数量)乘以每个值的可能值的数量。例如，对于每个位置具有20个可能的氨基酸的长度为10的序列，输入层可以包含10×20＝200个节点202。LSTM神经网络200可以包含多个隐藏层。隐藏层中的每个隐藏层可以包含相同或不同数量的节点202。隐藏层可以包含比输入层少的节点202。例如，隐藏层可以各自包含40个节点202。

层中的每个节点202可以链接到后续层中的每个节点202。每个节点202向其连接的节点202输出节点输入的加权和。节点202可以向加权和添加偏差以偏置输出。节点202可以包含基于加权和确定节点202何时“激发”或输出信号的激活函数(例如，sigmoid函数、整流线性单元(ReLU)或泄漏整流线性单元)。每个链接的权重和每个节点202的偏差可以在训练阶段期间设置并存储为分类器权重112。LSTM神经网络200可以是递归神经网络，并且每个节点202可以提供反馈(或输入)到本身。递归神经网络可以创建内部状态来表现出时间行为。

为了对变体进行分类，分类引擎108将变体的序列转换成输入向量204，其中输入向量204的每个值对应于序列的相应氨基酸。输入向量204的长度等于输入序列的长度。分类引擎108可以对输入向量204进行独热编码以生成矩阵206。输入向量204可以包含变体序列的其它特征。例如，变体序列的生物物理性质可以被编码到输入向量204中。矩阵206的每一行对应于输入向量204的相应值(例如，位置)。矩阵206的每一列对应于不同的可以填充输入向量204的每个相应值的可能氨基酸。在此实例中，由于存在二十个氨基酸，矩阵206包含二十列。矩阵206的每一行在对应于输入向量204的相应值中存在的氨基酸的列中包含1。矩阵206可以被平坦化为向量并且来自向量的每个值可以提供给输入层的节点202之一。矩阵206可以顺序地提供给输入层的节点202。例如，输入层可以包含10个输入节点202，并且矩阵206的列(例如，每列的10个值)可以顺序地提供给输入节点202。

为了对变体进行分类，分类引擎108可以将变体的序列转换成输入向量204，其中输入向量204的每个值对应于序列的相应氨基酸。输入向量204的长度等于输入序列的长度。输入向量的编码也可以基于蛋白质的物理性质进行，因为每个单独的氨基酸都用一组物理性质(例如，电荷、疏水性、体积)表示。

图2B展示了测试数据集上LSTM神经网络200的接收器操作特性(ROC)曲线208和LSTM神经网络200的精度-召回率(PR)曲线210。ROC曲线208和PR曲线210指示LSTM神经网络200的准确度。曲线208和210是通过以50/50分割的结合物与非结合物向LSTM神经网络200提供未见变体的测试数据集来生成的。

图3展示了示例神经网络300。神经网络300可以是卷积神经网络300。参见图3A，卷积神经网络300可以包含多个节点202。卷积神经网络300可以包含多个节点层302。与神经网络200不同，卷积神经网络300中的层302中的每一层可能不是完全连接的。例如，给定层302的节点202可以不连接到后续层302中的每个节点202。卷积神经网络300可以包含多个过滤器。卷积神经网络300可以将矩阵206与多个过滤器中的每个过滤器进行卷积以生成多个特征图。每个过滤器可以被配置成检测矩阵206中的预定模式。过滤器可以是具有扩张率和1步幅大小、内核大小为3的1D卷积过滤器，这可以产生大小为20×3的过滤器。卷积神经网络300可以包含约100到约400个过滤器。过滤器的数量可以通过交叉验证或者将数据分割成训练/验证/测试集并通过随机/网格搜索选择最佳配置来选择。卷积神经网络300可以包含一个或多个最大池化层以减少特征图的空间大小。卷积神经网络300可以包含平坦化层，所述平坦化层将最大池化层平坦化为用于完全连接的节点层的输入向量。平坦化层中的每个值可以充当密集(或完全连接)层中的每个节点202的输入。卷积神经网络300可以在密集层中包含50个节点202。可以基于有限的交叉验证/网格搜索程序来选择节点的数量。与LSTM神经网络200一样，密集层中的每个节点202都可以用作输出节点202的输入。

图3B展示了卷积神经网络300在测试数据集上的ROC曲线308和卷积神经网络300的PR曲线310。ROC曲线308和PR曲线310指示卷积神经网络300的准确度。曲线308和310是通过以50/50分割的结合物与非结合物向卷积神经网络300提供未见变体来生成的。

尤其参考图2和3，LSTM神经网络200和卷积神经网络300架构和超参数是通过对各种参数执行网格搜索来选择的。例如，LSTM神经网络200执行网格搜索以确定每层的节点202、批次大小、定型周期数和优化函数。对于卷积神经网络300，分类引擎108基于数据集的k折交叉验证确定过滤器的数量、内核大小、丢失率、密集层节点中的节点202的数量。

图4A展示了用于生成训练数据118的流程400。训练数据118可以是通过基于所选参数(例如，抗原结合性)对合理设计的变体文库进行物理筛选来选择的一组变体。流程400可以包含使用例如同源定向诱变(HDM)或任何其它合适的诱变方法生成点突变文库。在一些方面，在包含单位点(即，点突变)和组合深度突变扫描(DMS)过程的两步筛选过程中选择变体组，所述两步筛选过程的实例在流程400中展示。抗体的重链互补决定区3(CDRH3)的氨基酸序列是抗原特异性的关键决定因素。因此，可以对此所选区(例如，CDRH3的10个氨基酸)执行两步DMS过程，以解析确定氨基酸位置的特异性。在一些方面，具有变体CDRH3序列(例如，突变的CDRH3序列)使得抗体不再与其抗原结合的突变全长抗体可以用作起始序列。从突变的非结合性变体开始，通过减少原始序列的背景，可以在从文库中选择结合物方面提供优势。在一些替代实施方案中，所述过程可以从仍然与其抗原结合的变体开始。

虽然图4A举例说明了抗体的CDRH3的训练数据，但本文所述的方法不限于此并且可以应用于抗体或如与配体结合的受体等其它结合蛋白中一个或多个感兴趣区的一组变体。例如，所述一组变体可以表示针对其期望改进所述抗体的一种或多种性质的抗体的其它CDR区，如CDRH1、CDRH2、CDRL1、CDRL2、CDRL3、两个或更多个CDR区的组合、抗体的框架结构域内的区(例如，FR1、FR2、FR3、FR4)或抗体的恒定结构域内的区(例如，CH1、CH2、CH3)。在一些方面，所述变体是全长抗体。在一些方面，所述变体是包括抗原结合结构域的重组抗体的抗体片段，如scFv或Fc融合蛋白。在一些方面，训练数据源自结合到配体的如受体等结合蛋白的变体。

在示例性流程400的第一步骤中，对CDRH3序列应用诱变方法以在CDRH3序列的每个位置生成作为单个位点的变体的文库(在本文中称为单位点DMS)。可以采用任何合适的产生单点突变的方法。在一些方面，使用表达全长抗体变体序列的杂交瘤细胞系。变体抗体序列的文库可以通过CRISPR-Cas9介导的同源定向诱变(HDM)生成(参见例如PCT公开第WO2017/174329号，所述PCT公开通过引用以其整体并入)。例如，在整个CDRH3的单个氨基酸位置含有NNK简并密码子的用于Cas9靶向CDRH3的gRNA和呈单链寡核苷酸(ssODN)形式的同源模板库可以用于在抗体的CDRH3的单个位点中引入点突变。可替代地，可以使用任何合适的诱变方法来生成变体，例如易错PCR、重组诱变、丙氨酸扫描诱变、结构引导诱变。在一些方面，可以使用体外技术(例如，PCR)对编码感兴趣的氨基酸序列的核酸序列进行诱变，并且然后将变体核酸引入到哺乳动物细胞中(例如，通过CRISPR-Cas9 HDR)。

然后可以通过合适的方法，如通过荧光激活细胞分选(FACS)筛选表达变体全长抗体的细胞文库以检测抗原结合性。筛选过程的第一步骤的示例性FACS结果在过程400的第一步骤中示出。然后可以对表达抗体并选择结合或不结合抗原的细胞群体进行深度测序，以确定由所选细胞表达的抗体序列。

流程400可以包含深度突变扫描以确定被测定的每个氨基酸位置的富集评分，以确定哪些位置或多或少适合接受突变。例如，通过FACS筛选变体文库，并对表达抗体和结合或不结合抗原的群体进行深度测序。在一些方面，选择结合到两种或更多种抗原的细胞群体(例如，交叉反应性或多特异性抗体)。可以称为富集比率(ER)的富集评分可以是通过FACS富集抗原特异性的变体的克隆频率f_i,Ag₊与原始文库中存在的变体的克隆频率f_i,Ab₊的比率。更具体地说：

在一些实施方案中，最小值-2被指定给log[ER]值小于或等于-2的变体，并且在计算中忽略数据集中不存在的变体。基于CDRH3的特定氨基酸序列定义克隆。然后可以基于筛选过程的第一步骤的富集评分生成热图及其对应的序列标识图。然后可以使用热图和序列标识图来合理设计用于筛选的组合诱变文库。每个位置的简并密码子可以基于其氨基酸频率选择，所述频率最接近在DMS数据分析中发现的富集程度或富集评分。例如，合理文库设计的密码子选择可以基于以下等式。将在DMS分析中鉴定的具有正富集评分(例如，ER>1或log[ER]>0)的氨基酸位置根据其富集比率进行归一化，并转换为理论频率。然后如通过简并密码子与目标频率之间的均方误差计算的，选择最接近反映这些频率的简并密码子方案。

例如，热图和序列标识图指示位置103(图5)对于甘氨酸(G)和丝氨酸(S)残基是高度可接受的，并且在较小程度上可接受丙氨酸(A)。这些残基的富集评分对应于大约66％G、25％S和9％A的归一化频率。然后这些频率是上述最佳密码子等式(例如，等式2)的输入值，并与所有3,375种可能的简并密码子方案比较。在此实例中，选择简并密码子方案“RGY”，因为其表示了具有与由归一化富集评分定义的目标频率最接近的频率(50％G，50％S)的简并密码子方案。跨多个位置组合简并密码子会产生大量的理论蛋白质空间。作为实例，通过取所有位置中的每个位置的所有潜在氨基酸的乘积，为本文提供的实例中描述的曲妥珠单抗抗体生成的组合文库具有6.67×10⁸的理论蛋白质序列空间，这远高于单位点DMS文库多样性为200。然后可以例如通过HDM在杂交瘤细胞中物理生成含有CDRH3变体的组合诱变文库。然后可以通过借助于FACS进行一轮或多轮富集来分离抗原结合细胞，并对结合性或非结合性群体进行深度测序。然后可以将表示来自此第二步骤的结合性或非结合性群体的测序数据用作机器学习模型的训练集。

图4B展示了用于选择候选物变体的过程流程450。过程流程450可以包含用在过程流程400期间生成的训练数据训练本文描述的模型。一旦生成训练数据并且训练分类引擎108，就可以在计算机中生成突变的完整序列空间。完整序列空间可以包含每个可能的突变。完整序列空间中变体的数量可以比分类引擎108所训练的变体的数量大几个数量级。分类引擎108可以处理完整序列空间的变体以将变体分类为抗原结合物分类的变体或非抗原结合物分类的变体。过程流程450可以包含用多参数优化过滤抗原结合物分类的变体的候选物选择引擎110以选择一个或多个候选物变体。候选物选择引擎110可以通过确定抗原结合物分类的变体是否满足过滤策略来过滤抗原结合物分类的变体。过滤策略可以包含参数要求，如模型一致性(例如，LSTM神经网络和卷积神经网络中的每一个是否将变体分类为抗原结合物分类的变体)、粘度值、溶解度值、稳定性值、药代动力学值和免疫原性值。

图5和6展示了应用于示例性抗体曲妥珠单抗的CDRH3的过程流程400和450的示例性数据，所述过程流程在以下实例中进一步详细描述。

图7展示了过滤策略700和多个参数图。如上所述，对于抗原结合物分类的变体中的每种变体，候选物选择引擎110可以计算参数值。系统100可以计算例如每个抗原结合物分类的变体的莱文斯坦距离值、电荷值、疏水性指数值、CamSol评分、最小亲和力等级和平均亲和力等级。系统100还可以在抗原结合物分类的变体中的每种变体中鉴定与制造不利因素相关联的序列基序，如n-糖基化位点、脱酰胺位点、异构化位点、甲硫氨酸氧化、色氨酸氧化和配对或未配对的半胱氨酸残基。

过滤策略700可以包含多个参数要求。候选物选择引擎110可以并行地应用参数要求。例如，候选物选择引擎110可以计算抗原结合物分类的变体中的每种变体的参数值中的每个参数值，并确定抗原结合物分类的变体是否满足过滤策略700的参数要求。候选物选择引擎110可以串联地应用参数要求。例如，候选物选择引擎110可以依次计算抗原结合物分类的变体的参数并确定抗原结合物分类的变体是否满足给定参数所需的参数。系统100然后可以仅计算满足第一参数要求的抗原结合物分类的变体的下一个参数值。当抗原结合物分类的变体不满足参数要求时，候选物选择引擎110可以不计算抗原结合物分类的变体的剩余参数值。这可以减少过滤抗原结合物分类的变体所需的计算资源，因为一旦抗原结合物分类的变体被过滤过程去除，就不会为所述抗原结合物分类的变体计算参数值。因此，通过确定不计算不满足参数要求的抗原结合物分类的变体的参数值，此技术方案可以减少计算资源消耗(例如，处理器利用率、存储器利用率或网络带宽利用率)，同时鉴定最佳变体。

仍然参考图7，候选物选择引擎110可以首先确定由递归神经网络(RNN)和卷积神经网络(CNN)输出的抗原结合物分类的变体。候选物选择引擎110可以仅选择由相应神经网络以预定置信度分类的变体。例如，如图7所示，候选物选择引擎110可以以高于0.75的置信度或概率鉴定由递归神经网络鉴定的4,315,323种抗原结合物分类的变体和由卷积神经网络鉴定的5,218,706种抗原结合物分类的变体。过滤策略700中的下一个过滤器可以包含鉴定由卷积神经网络和递归神经网络鉴定的抗原结合物分类的变体。候选物选择引擎110可以以大于0.75的概率鉴定由卷积神经网络和递归神经网络两者鉴定的3,159,373种抗原结合物分类的变体。候选物选择引擎110然后可以鉴定具有大于6.61的电荷对称参数、小于6.2的净电荷和小于4的疏水性指数的抗原结合物分类的变体，从而返回402,633种抗原结合物分类的变体。候选物选择引擎110然后可以鉴定溶解度评分大于0.5的抗原结合物分类的变体，从而返回14,125种抗原结合物分类的变体。候选物选择引擎110然后可以鉴定具有大于5.5％的NetMHCII最小亲和力等级和大于60.6％的平均亲和力等级的抗原结合物分类的变体，从而返回4,881种抗原结合物分类的变体。此实施例中所有剩余的抗原结合物分类的变体含有的值等于或大于曲妥珠单抗的起始候选物序列的参数。候选物选择引擎110然后可以鉴定具有跨所有参数的最佳总体可开发性的抗原结合物分类的变体，以根据预定百分比返回剩余候选物变体的最高百分比内的抗原结合物分类的变体。系统100还可以鉴定莱文斯坦距离小于5的抗原结合物分类的变体。

图8展示了用于鉴定具有抗原亲和力的抗体的示例方法800的框图。方法800可以包含生成训练数据(ACT 802)。方法800可以包含训练分类模型(ACT 804)。方法800可以包含对变体进行分类(ACT 806)。方法800可以包含过滤变体(ACT 808)。方法800可以包含选择变体(ACT 810)。

如上所述，方法800可以包含生成训练数据(ACT 802)。而且，尤其参考图1，分类引擎108可以使用训练数据118进行训练来确定分类器权重112以对未见变体进行分类。训练数据118可以使用两步过程生成，所述过程包含单位点突变过程，然后是基于DMS的组合过程。

方法800可以包含训练分类模型(ACT 804)。如上所述，分类引擎108可以包含一个或多个分类模型。例如，分类引擎108可以包含递归神经网络或卷积神经网络。分类引擎108可以包含递归神经网络、卷积神经网络、标准人工神经网络(ANN)、支持向量机(SVM)、随机森林系综(RF)或逻辑回归(LR)模型。训练数据118可以被标记并作为独热编码矩阵传递到神经网络。分类引擎108可以使用反向传播和梯度下降来最小化成本或预期结果与由分类引擎108确定的结果之间的误差。一旦分类引擎108训练了其神经网络，分类引擎108就可以将权重和偏差保存到存储器106作为分类器权重112。

方法800可以包含对变体进行分类(ACT 806)。在一些实施方案中，对于给定的抗体，候选物鉴定系统102可以在计算机中为抗体的变体生成完整序列空间。例如，候选物鉴定系统102可以生成给定抗体或其部分的所有可能的序列变体。分类引擎108可以加载分类器权重112。分类引擎108可以将完整序列空间的变体中的每种变体传递到卷积神经网络和递归神经网络的输入层。例如，对于每种变体，分类引擎108可以确定所述变体是抗原结合物分类的变体的概率。分类引擎108可以将概率高于阈值的抗原结合物分类的变体作为抗原结合物分类的变体保存在存储器106中。

方法800可以包含过滤抗原结合物分类的变体(ACT 808)。候选物选择引擎110可以过滤抗原结合物分类的变体以鉴定候选物变体。候选物变体可以是最有可能产生活抗体的抗原结合物分类的变体。候选物选择引擎110可以从存储器106中检索过滤策略。过滤策略可以包含多个参数，抗原结合物分类的变体必须满足所述参数才能被选择为候选物变体。候选物选择引擎110可以计算抗原结合物分类的变体的参数并确定相应抗原结合物分类的变体中的每种变体是否满足过滤策略的参数要求。

方法800可以包含选择变体(ACT 810)。可以选择候选物变体(例如，满足过滤策略参数的抗原结合物分类的变体)用于进一步重组表达以测试变体产生具有抗原特异性结合性的抗体。在一些实施方案中，可以随机选择候选物变体的子部分用于重组表达和测试。

虽然在附图中以特定顺序描述了操作，但是此类操作不需要以所示的特定顺序或以先后顺序执行，并且不需要执行所有展示的操作。本文描述的动作可以以不同的顺序执行。

各种系统组件的分离不需要在所有方案中分离，并且所描述的程序组件可以包含在单个硬件或软件产品中。

I.实例

此实例描述了本文所述的系统和方法对曲妥珠单抗(赫赛汀)抗体的CDRH3的示例性应用，并对结合到对应靶标HER2抗原的抗体进行分类。

A.结果

1)深度突变扫描确定抗原特异性序列景观(landscape)并指导合理的抗体文库设计

由于抗体的CDRH3的氨基酸序列是抗原特异性的关键决定因素，因此对此区进行深度突变扫描(DMS)以解析特异性决定性残基。首先，使用表达不能结合HER2抗原(突变的CDRH3序列)的曲妥珠单抗变体的杂交瘤细胞系(图9)。文库由CRISPR-Cas9介导的同源定向诱变(HDM)生成(Mason等人(2018)《核酸研究(Nucleic Acids Research)》46(14):7436–49)，所述HDM利用用于CDRH3的Cas9靶向的gRNA和呈在跨CDRH3叠瓦的单位点处含有NNK简并密码子的单链寡核苷酸(ssODN)形式的同源模板池(图5A)。然后通过荧光激活细胞分选(FACS)筛选文库，并对表达抗体和结合性或非结合性抗原的群体进行深度测序(IlluminaMiSeq)(图10)。然后使用深度测序数据计算所研究的10个位置的富集评分，所述富集评分揭示六个位置足以适应广泛的突变，另外三个位置勉强接受定义的突变(图5B和5C).尽管残基103102D、103G、104F和105Y似乎是CDRH3环与HER2的主要接触氨基酸(PDB ID：1N8Z，Cho等人(2003)《自然》421(6924):756–60，Rose等人)(2018)《生物信息学(Bioinformatics)》34(21):3755–58.)，105Y是唯一完全固定的残基(图5D)。

由DMS生成的热图及其对应序列标识图用于指导组合诱变文库的合理设计，所述文库由跨所有位置的简并密码子组成(105Y除外)(图11)。基于氨基酸频率选择每个位置的简并密码子，这与DMS数据中发现的富集程度最相似(图5C，等式2)。此组合文库具有6.67×10⁸的理论蛋白质序列空间，这远大于单位点DMS文库多样性为200。理论多样性可以通过取所有位置中的每个位置的所有可能氨基酸的乘积来计算(例如，存在于所有位置处的所有20个氨基酸产生20^X，其中X是位置的数量)。在一些实施方案中，DMS引导的组合诱变文库可以在每个位置具有减少的氨基酸子集，从而引起理论多样性减少。含有CDRH3变体的文库在先前描述的相同非结合性曲妥珠单抗克隆中通过HDM在杂交瘤细胞中再次生成(图6A)。通过借助于FACS进行的两轮富集分离抗原结合细胞，并对结合性/非结合性群体进行深度测序。测序数据分别鉴定了11,300和27,539种独特的结合物和非结合物(NGS统计数据，图13)。这些序列变体仅微不足道地占组合诱变文库的理论蛋白质序列空间的0.0058％。结合性群体与非结合性群体之间每个位置的氨基酸使用量比较相似(图6B)，因此难以开发任何类型的启发式规则或可观察的模式来鉴定结合序列。

2)训练深度神经网络以基于抗体序列对抗原特异性进行分类

在汇编了关于结合性和非结合性CDRH3变体的深度测序数据后，开发和训练了能够预测对靶抗原HER2的特异性的深度学习模型。氨基酸序列通过独热编码转换为输入矩阵，所述独热编码是一种其中每列表示特定残基并且每行对应于序列中的位置的方法，因此这里的10个氨基酸的CDRH3序列产生10×20矩阵。每行将在对应于所述位置处的残基的列中含有单个“1”，由此所有其它列/行都将接收“0”。LSTM-RNN和CNN。LSTM-RNN和CNN都源自标准神经网络，其中信息沿着含有可学习权重和偏差的神经元传递，然而信息的处理方式存在根本差异。LSTM-RNN层含有环路，从而使信息能够从一个步骤保留到下一个步骤，从而使模型能够有效地将顺序与给定输出相关联；另一方面，CNN将可学习过滤器应用于输入数据，从而使其能够有效地识别与给定输出相关联的空间依赖性。通过使用数据集的k折交叉验证跨各种参数(LSTM-RNN：每层节点、批次大小、定型周期数和优化函数；CNN：过滤器的数量、内核大小、丢失率、密集层节点)执行网格搜索来选择模型架构和超参数(图7)。所有模型的建立都是为了评估其从可用测序数据中分类结合物和非结合物的准确度和精度。原始数据集的70％用于训练模型，并且其余30％被分割为两个用于模型评估的测试数据集：一个测试数据集含有用于训练模型的序列的相同类别分割，并且另一个测试数据集含有大约10/90结合物/非结合物的类别分割以类似于生理频率(图6A和14)。LSTM-RNN和CNN的性能通过构建源自对未见测试数据集的预测的接收器操作特性(ROC)曲线和精度-召回率(PR)曲线来评估。基于用于训练分类模型的常规方法，对数据集进行调整，以允许在训练期间实现结合物和非结合物的50/50分割。在这些训练条件下，LSTM-RNN和CNN能够准确地对未见测试数据进行分类(ROC曲线AUC：0.9±0.0，平均精度：0.9±0.0，图17)。

接下来，使用经过训练的LSTM-RNN和CNN模型对来自潜在组合多样性空间的1×10⁵序列的随机样品进行分类。然而，观察到正分类的发生率出乎意料地高(25,318±1,643个序列或25.3±1.6％，图21)。鉴于结合物的生理频率应为大约10-15％，在假设模型受到某一未知分类偏差的影响的情况下调整训练数据的分类分割。然后利用20/80和10/90结合物/非结合物的分类分割以及所有可用数据(大约30/70结合物/非结合物)的分类分割训练另外的模型。序列分类的不平衡导致分类为结合物的序列百分比显著减少，但也导致模型在未见测试数据上的性能下降(图21)。通过此分析，得出的结论是，出于以下原因，用于训练模型的最佳数据集是包含所有已知CDRH3序列的集：1)预测为结合物的序列百分比反映了此生理频率，2)此数据集最大化模型看到的信息，以及3)针对测试数据的模型性能。最终模型架构、参数和评估在图2中示出。

3)通过抗体序列空间的计算机筛选对可开发性进行多参数优化

接下来，完整的3.1×10⁶深度学习预测的抗原特异性序列根据许多参数进行表征，以鉴定与原始曲妥珠单抗序列相比具有高度可开发性的候选物者。作为初步度量，通过计算LD研究了其与原始曲妥珠单抗序列的序列相似性。大多数序列示出LD>4的编辑距离(图7A)。过滤的第一步骤是计算净电荷和疏水性指数，以估计分子的粘度和清除率。根据Sharma等人，粘度随着可变片段(Fv)净电荷的增加和Fv电荷对称参数(FvCSP)的增加而降低；然而，就药物清除率而言，最佳Fv净电荷介于0与6.2之间，其中CDRL1+CDRL3+CDRH3疏水性指数总和(HI总和)<4。基于3.1×10⁶种预测变体中这些参数的广泛范围的值(图7B、C)，过滤掉FvCSP<6.61(曲妥珠单抗FvCSP)的任何序列，或者如果序列含有Fv净电荷>6.2和HI总和>4、<0，则过滤掉所述序列。此过滤标准将序列空间显著降到4.02×10⁵种变体。接下来在5'和3'端用10个氨基酸填充CDRH3序列，并且然后通过CamSol运行这些序列，CamSol是一种由Sormanni等人开发的蛋白质溶解度预测器，所述蛋白质溶解度预测器基于序列变体的理论溶解度对序列变体进行估计和排列。剩余的变体产生了广泛的蛋白质溶解度评分(图7D)，并且评分<0.5(曲妥珠单抗评分)的序列被过滤掉，从而留下14,125个候选物用于进一步分析。作为计算机筛选过程的最后一个步骤，旨在通过利用NetMHCIIpan(一种先前由Jensen等人开发的模型)预测变体序列对MHC II类分子的肽结合亲和力来降低免疫原性。所述模型的一个输出是与一组200,000个随机天然肽相比给定肽的预测亲和力等级％。通常，等级％<2的分子被认为是强结合物，并且等级％<10的分子被认为是与扫描的MHC II类分子的弱结合物。来自填充的CDRH3序列的所有可能的15聚体都通过NetMHCIIpan运行。在预测确定覆盖全球群体32的98％以上的一组26个HLA等位基因的亲和力后，如果15聚体中的任何一个含有等级％<5.5(曲妥珠单抗最低等级％)，则序列被过滤掉(图7E)。还计算了等级％小于10的15聚体的数量以及剩余序列的所有15聚体的平均等级％。具有多于两个等级％<10的15聚体的序列(图7F)和那些平均等级％<60.56(曲妥珠单抗平均等级％)的序列也被过滤掉(图7G)。所有剩余的4,881种变体含有等于或大于原始曲妥珠单抗序列的参数的值。当对11,300个实验确定的结合序列(从训练/测试数据获得)应用此相同的过滤方案时，仅剩下9种变体。最后，为了确定最佳可开发序列，基于每个相关参数的归一化值的平均值计算总体可开发性改善评分(参见材料和方法)，其中曲妥珠单抗的可开发性改善评分等于0。在其余4,881个预测的结合序列中，与9个实验确定的结合序列的最大可开发性评分相比，293种变体被鉴定为具有更高的可开发性评分(图7H)。图7I中提供了用于计算机文库的每个步骤的过滤参数和剩余变体的数量。

4)所选的抗体序列被重组表达并且是抗原特异性的

为了验证经过充分训练的LSTM-RNN和CNN模型的精度，随机选择了30个CDRH3序列的子集，所述序列被预测为是抗原特异性的并在多个可开发性参数中进行了优化。为了进一步证明深度学习鉴定新序列变体的能力，还增加了所选变体与曲妥珠单抗的原始CDRH3序列的最小莱文斯坦编辑距离为5的标准。CRISPR-Cas9介导的HDR用于生成表达不同序列变体的哺乳动物展示细胞系。进行流式细胞术并揭示30种变体中的29种(96.67％)是抗原特异性的(图23A-23O)。对104种抗原结合性变体进行了进一步分析，以通过生物层干涉测量法(FortéBio Octet)更精确地量化结合动力学(图15、图16B、图23A-G)。原始曲妥珠单抗序列经测量对HER2的亲和力为4.0×10^-10M(平衡解离常数，Kd)；并且尽管测试的大多数变体的亲和力略有下降，但75％(78/104)仍处于个位数纳摩尔范围内，16％(17/104)保持亚纳摩尔浓度，并且六种变体(5％)与曲妥珠单抗相比，表现出亲和力增加(Kd＝1.4×10^- ¹⁰M)。

所选变体的可开发性参数也经过实验验证。具体地，将所选变体的表达水平与曲妥珠单抗的表达水平进行比较(图16A)。进一步地，将所选变体的热稳定性与曲妥珠单抗的热稳定性进行比较。(图16C)。还将免疫原性风险与曲妥珠单抗进行了比较，其中每种测试的变体(变体C和F)和曲妥珠单抗各自测试了两次(图16D)。

B.讨论

针对哺乳动物细胞中抗体优化的局限性，已经开发出基于深度学习的方法，所述方法能够以高精度鉴定抗原特异性序列。使用临床批准的抗体曲妥珠单抗，进行单位点DMS，然后进行组合诱变，以确定CDRH3的抗原结合景观。这种基于DMS的诱变策略对于获得富集有抗原结合性变体(在这种情况下为接近10％的所生成的文库)的高质量训练数据很重要(图14)。相比之下，如果采用完全随机的组合诱变策略(即，NNK简并密码子)，则不太可能产生抗原结合变体的任何重要部分。

此研究的一个引人注目的发现是对仅5×10⁴种变体的文库进行实验筛选，这反映了基于DMS的组合诱变文库(6.67×10⁸)的总序列多样性的一小部分(0.0005％)能够训练准确的神经网络。这表明哺乳动物表达系统(或其它表达系统，如噬菌体展示和酵母展示)和深度测序读取深度的物理文库大小限制将不会作为深度学习引导的蛋白质工程的限制。另一个重要结果是，抗原结合群体和非结合群体的深度测序显示，其位置氨基酸使用几乎没有可观察到的差异(图6)，这表明神经网络正在有效地捕捉高维模式。

在当前的研究中，LSTM-RNN和CNN被选择为本发明分类模型的基础，因为所述LSTM-RNN和CNN表示了深度学习中的两种最先进的方法。如k最近邻、随机森林和支持向量机等其它机器学习方法也非常适合从有限的输入数据中鉴定复杂的模式。此外，如变分自编码器等深度生成建模方法也可以用于探索定向进化的诱变序列空间。

大约10⁸种CDRH3变体是在计算机中由基于DMS的组合多样性生成的，并使用经过充分训练的LSTM-RNN和CNN模型将每个序列分类为结合物或非结合物。大约～10⁸种序列变体仅包括潜在序列空间的子集，并被选择以最小化计算工作，但其仍然表示比哺乳动物细胞中实验可实现的大小大几个数量级的文库大小。可以通过脚本优化并在高性能集群上采用并行计算来扩展筛选能力。在分类的所有变体中，LSTM-RNN和CNN预测大约12-13％与靶抗原结合，从而表明与流式细胞术实验观察到的频率非常一致(图14)。除了通过DMS确定的关键残基外，大多数预测的结合物与原始曲妥珠单抗序列相距甚远，其中80％的序列具有至少6个残基的编辑距离。这种高度的序列变异性表明具有广泛的生物分子性质的潜力。

一旦抗体对其靶抗原的亲和力处于有效生物修饰的理想范围内，解决其它生物分子性质就成为抗体开发的重点。随着计算预测的最新进展，可以仅从序列信息中估算出许多这些性质，包含粘度、清除率、稳定性、特异性、溶解度和免疫原性。为了选择具有改善特性的抗体，对预测结合物的文库进行了许多计算机方法，以便为可开发性提供排名结构和过滤策略(图7)。在实施这些方法以去除粘度、清除率或溶解度很可能较差以及具有高免疫原性潜力的变体后，仍保留了大约5,000种多参数优化的抗体变体。还可以应用更严格或另外的过滤器来解决其它可开发性参数(例如，稳定性、特异性、人源化)，以进一步将序列空间缩小到高度可开发的治疗性分子。

最后，为了通过实验验证神经网络预测抗原特异性的准确度，从优化的序列的文库中随机选择并表达了30种变体，其中与曲妥珠单抗的最小编辑距离为5。根据对测试数据集的预测，LSTM-RNN和CNN模型的精度各自估计为～85％(在P>0.75下)。然而，通过模型之间的一致性，实验验证了>96％(29/30)的抗原预测(和可开发性过滤)的序列确实是结合物。这表明都与起始曲妥珠单抗序列明显不同的潜在的数千个优化的前导候选物在治疗相关性范围内保持结合亲和力。

本文提供的方法可以进一步修改以在筛选或研究预测概率与亲和力之间的相关性期间增加选择的严格性，这可以帮助保持高靶标亲和力。这些方法还可以使得能够优化治疗性抗体的其它功能性质，如pH依赖性抗体再循环或pH依赖性抗原结合。另外，将这种方法扩展到跨可变轻链和重链基因的其它区，即其它CDR，可以产生深度神经网络，所述深度神经网络能够捕捉抗体与其靶抗原之间的长程复杂关系。另外，所描述的神经网络预测可以与蛋白质结构建模预测进行比较。

C.方法

1)哺乳动物细胞培养和转染

根据由Mason等人(2018)《核酸研究》46(14):7436–49描述的方案培养和维持杂交瘤细胞。使用SF细胞系

X试剂盒L或X试剂盒S(龙沙(Lonza)，V4XC-2024、V4XC-2032)和程序CQ-104，通过4D-NucleofectorTM系统(龙沙)对杂交瘤细胞进行电穿孔。细胞制备如下：将细胞分离并以125×G离心10分钟，用

I减血清培养基(赛默(Thermo)，31985-062)洗涤，并以相同参数再次离心。将细胞重悬在SF缓冲液中(根据试剂盒制造商指南)，然后添加Alt-R gRNA(IDT)和ssODN供体(IDT)。进行的所有实验都利用来自化脓性链球菌(Streptococcus pyogenes)的Cas9的组成型表达(SpCas9)。1×10⁶和1×10⁷个细胞的转染在100μl的单个NucleocuvettesTM中分别使用0.575或2.88nmol Alt-RgRNA和0.5或2.5nmol ssODN供体进行。在具有115pmol Alt-R gRNA和100pmol ssODN供体的16孔、20ul NucleocuvetteTM条带中进行2×10⁵个细胞的转染。

2)流式细胞术分析和分选

分别使用BD LSR FortessaTM(BD生物科学(BD Biosciences))和Sony SH800S(索尼(Sony))进行基于流式细胞术的分析和细胞分离。当用荧光偶联抗原或抗IgG抗体标记时，细胞首先用PBS洗涤，与标记抗体和/或抗原在冰上温育30分钟，避光，再次用PBS洗涤，并且然后进行分析或分选。标记试剂和工作浓度在图23A和23B中描述。对于不同于10⁶的细胞数，按比例调整抗体/抗原量和温育体积。

3)用于深度测序的样品制备

用于深度测序的样品制备类似于先前描述的引物延伸方法的抗体文库生成方案来进行(Menzel等人(2014)《公共科学图书馆·综合(PloS One)》9(5):e96727)。使用PurelinkTM基因组DNA迷你试剂盒(赛默，K182001)从1-5×10⁶个细胞中提取基因组DNA。对所有提取的基因组DNA进行第一次PCR步骤。使用结合到VH框架区的开头的正向引物和对紧接J区段的3'端的内含子区具有特异性的反向引物进行扩增。使用

高保真DNA聚合酶(NEB，M0491L)在50ml平行反应体积中进行PCR，其中循环条件如下：98℃持续30秒；98℃持续10秒、70℃持续20秒、72℃持续30秒的16次循环；最后延伸，72℃持续1分钟；4℃储存。使用DNA纯化与浓缩试剂盒(DNA Clean and Concentrator)(Zymo，D4013)浓缩PCR产物，然后使用0.8X SPRIselect(贝克曼库尔特(Beckman Coulter)，B22318)进行左侧大小选择。在PCR2步骤中扩增了总PCR1产物，所述步骤将延伸特异性全长Illumina接头序列添加到扩增子文库中。通过从20种不同的索引反向引物中进行选择来对单个样品进行Illumina索引。循环条件如下：98℃持续30秒；98℃持续10秒、40℃持续20秒、72℃持续1分钟的2次循环；98℃持续10秒、65℃持续20秒、72℃持续1分钟的6次循环；72℃持续5分钟；4℃储存。PCR2产物用DNA纯化与浓缩试剂盒再次浓缩，并在1％琼脂糖凝胶上运行。使用ZymocleanTMGel DNARecovery试剂盒(Zymo，D4008)对大小合适(～550bp)的条带进行凝胶纯化。经纯化的文库的浓度由Nanodrop 2000c分光光度计确定，并以在旨在获得最佳读段返回的浓度下池化。使用DNF-473标准灵敏度NGS片段分析试剂盒在片段分析仪(高级分析技术公司(AdvancedAnalytical Technologies))上检验最终测序池的质量。对所有通过质量控制的样品进行测序。使用试剂盒v3(2×300次循环，双端)在10％PhiX对照文库的情况下在IlluminaMiSeq平台上对抗体文库池进行测序。所有样品的碱基检出质量均在34的平均Phred评分的范围内。

4)生物信息学分析和图形

MiXCR v2.0.3程序用于对原始FASTQ文件进行数据预处理(Bolotin等人(2015)《自然方法(Nature Methods)》12(5):380–81)。将序列与含有曲妥珠单抗抗体基因的可变重链的V-基因区和J-基因区的已知序列信息的定制种系基因参考数据库进行比对。CDRH3的克隆型形成和错误校正按照Bolotin等人的描述进行。如果出现以下情况，则丢弃功能性克隆型：1)由MiXCR未纠正的PCR错误引起的重复CDRH3氨基酸序列，或2)克隆计数等于一。使用R v3.2.2(引用R开发核心团队(Cite R Development Core Team)(2008))和Pythonv3.6.5(Van Rossum等人(2011)《Python语言参考手册(The Python Language ReferenceManual)》.网络理论(Network Theory))进行下游分析。图形是使用R包ggplot2(Wilkinson(2011)《生物测定学(Biometrics)》,见于https://doi.org/10.1111/j.1541-0420.2011.01616.x.)、RColorBrewer(Brewer等人(2003)《制图学和地理信息科学(Cartography and Geographic Information Science)》,见于https://doi.org/10.1559/152304003100010929.)和ggseqlogo(Wagih(2017)《生物信息学(Bioinformatics)》33(22):3645–47)。

5)DMS中的富集比率(ER)的计算

根据先前的方法(Fowler等人(2010)《自然方法》7(9):741–46)计算给定变体的ER。根据上述等式1，通过FACS富集抗原特异性的变体的克隆频率f_i,Ag+除以原始文库中存在的变体的克隆频率f_i,Ab+。

最小值-2被指定给log[ER]值小于或等于-2的变体，并且在计算中忽略数据集中不存在的变体。基于CDRH3的确切氨基酸序列定义克隆。

6)在Rosetta中重新设计曲妥珠单抗以实现序列的多样性

Rosetta程序(Leaver-Fay等人)用于重新设计与HER2的胞外结构域(PDB id：1N8Z)(Cho等人)复合的曲妥珠单抗抗体。使曲妥珠单抗的CDRH3环中的十个残基(重链的残基98-108)突变为任何天然氨基酸，同时使所有其它残基改变旋转异构构象。RosettaScript调用PackRotamersMover(一种随机蒙特卡罗(MonteCarlo)算法)，以根据Rosetta能量函数优化针对CDRH3的抗体序列，然后进行骨架最小化。使用Rosetta的ddG过滤器计算能量。运行Rosetta以随机生成5000个序列，并且这产生了48个序列。Rosetta的输出文件使用RS-Toolbox(Bonet等人,2019)进行处理。

7)在Rosetta中进行实验确定序列的分类

在Rosetta中对来自组合文库的11,300个结合性序列和27,539个非结合性序列中的每个序列进行建模。对于每个实验确定的结合性或非结合性序列，使用HER2:曲妥珠单抗复合物的结构作为输入，并且使用RosettaScripts中的PackRotamersMover来使与野生型不同的残基突变(Fleishman等人)。在对序列进行建模以优化链内和链间接触后，使用Rosetta的MinMover最小化主链和侧链。Rosetta的预测界面评分(ddG)用作相对分类评分。

8)合理文库设计的密码子选择

用于合理文库设计的密码子选择基于由Mason等人(2018)《核酸研究》46(14):7436–49,(等式2)提供的等式。将在DMS分析中鉴定为具有正富集(ER>1或log[ER]>0)的残基根据其富集比率进行归一化，并转换为理论频率。然后如通过简并密码子与目标频率之间的均方误差计算的，选择最接近反映这些频率的简并密码子方案。

在某些情况下，如果所选简并密码子不表示期望的氨基酸频率或含有不期望的氨基酸，则选择简并密码子的混合物并将其池化在一起以实现功能序列空间的更佳覆盖。

9)机器学习模型构建

机器学习模型是在Python v3.6.5中构建的。K-最近邻模型和支持向量机模型是使用Scikit-learn文库构建的。人工神经网络、LSTM-RNN和CNN是使用Keras序列模型作为TensorFlow的包装器构建的。通过对给定模型的相关变量执行网格搜索来优化模型架构和超参数。这些变量包含每层节点、激活函数、优化器、损失函数、丢失率、批次大小、定型周期的数量、过滤器的数量、内核大小、步长和池大小。通过对数据集实施k折交叉验证来执行网格搜索。

10)机器学习模型训练和测试

抗体表达性序列、非结合性序列和结合性序列的数据集(测序统计数据：图12和13)被聚合以形成单个结合性/非结合性数据集，其中抗体表达性序列被分类为非结合物，除非在结合性序列中也被鉴定。来自一轮抗原富集的序列被排除在训练数据集之外。然后随机布置完整的聚合数据集，并去除适当的类别标记序列，以实现期望的结合物与非结合物的分类比率(50/50、20/80、10/90和未经调整)。经类别调整的数据集进一步分割为训练集(70％)和两个测试集(每个15％)，其中一个测试集反映训练时观察到的分类比率，并且另一个测试集反映大约10/90的分类比率以类似于结合物的生理预期频率。

11)预测变体的序列相似性和模型归因分析

针对莱文斯坦距离1-6使用igraph R包v1.2.4(Csardi和Nepusz 2006)构建被预测为抗原阳性和抗原阴性的序列的序列相似性网络。对所产生的网络的整体连通性、其最大集群的组成以及类别之间的整体度分布进行了分析。

集成梯度技术(Sundararajan等人2017)用于评估针对最终预测评分的给定输入序列的每个特征的相对属性。首先，通过将输入向量归零来获得基线，并且然后以100的步长来估算梯度从基线到输入向量的路径积分。积分梯度被可视化为序列标识。序列标识是由python模块Logomaker(Tareen和Kinney 2019)创建的。

12)计算机序列分类和序列参数

使用基于DMS的组合诱变文库中存在的氨基酸的所有可能组合来计算7.17×10⁸的总理论序列空间。通过采用在根据针对抗原结合性变体进行三轮富集后的DMS数据设计的组合诱变文库中的每个位置使用的氨基酸的所有可能组合在计算机中生成7.2×10⁷种序列变体；丙氨酸也被选择为包含在位置103处。然后所有的计算机序列被经过训练的LSTM-RNN和CNN模型分类为结合物或非结合物。如果序列在预测概率(P)大于0.75的情况下在两个模型中进行分类，则选择所述序列进行进一步分析。

Fv净电荷和Fv电荷对称参数(FvCSP)按照Sharma等人的描述进行计算。简而言之，通过首先用已知的氨基酸pKa在指定的pH(此处为5.5)下对每个残基求解Henderson-Hasselbalch等式来确定净电荷。然后将VL和VH的所有残基的总和计算为Fv净电荷。FvCSP是通过取VL和VH净电荷的乘积来计算的。疏水性指数(HI)也如Sharma等人所述，根据以下等式计算：HI＝-(∑niEi/∑njEj)。E表示氨基酸的艾森伯格(Eisenberg)值，n是氨基酸的数目，并且i和j分别是疏水性残基和亲水性残基。

通过CamSol方法在pH 7.0下，确定每个全长CDRH3序列(15个氨基酸)在5'和3'末端(35个氨基酸)填充10个氨基酸的蛋白质溶解度评分。

通过NetMHCIIpan 3.2对包含在10个氨基酸填充的CDRH3序列(35个氨基酸)中的每个15聚体确定对26个HLA等位基因的参考集的结合亲和力。输出为每个15聚体提供以nM为单位的预测亲和力和等级％，其反映了15聚体与一组随机天然肽相比的亲和力。等级％度量不受某些分子对更强或更弱亲和力的偏差的影响，并用于将肽分类为针对指定MHC II类等位基因的弱或强结合物。在所有26个HLA等位基因的单个CDRH3序列的所有21个15聚体中计算最小等级％、等级％小于10的15聚体的数量(弱结合物的分类)和平均等级％。

通过首先根据过滤后剩余序列中观察到的值的范围将FvCSP、CamSol评分和平均NetMHCII等级％归一化来确定抗体序列的总体可开发性改善。然后因为其在确定可开发性方面的重要性，将经归一化的CamSol蛋白质溶解度评分以因子2加权。最后，取这三个参数的平均值来产生总体可开发性改善评分。由于使用针对曲妥珠单抗的计算值过滤序列，因此曲妥珠单抗的总体可开发性改善等于0。

13)通过生物层干涉测量法进行的表达和亲和力测量

通过进行单细胞分选来分离单独的变体的单克隆群体。扩增后，收集所有变体的上清液并通过0.20μm过滤器(Sartorius，16534-K)过滤。然后使用以下参数在OctetRED96e(FortéBio)上进行亲和力测量。将抗人捕获传感器(FortéBio，18-5060)在用动力学缓冲液(FortéBio，18-1105)以1比2稀释的条件培养基中水合至少10分钟，然后通过由以下组成的4次再生循环进行调节：在10mM甘氨酸，pH 1.52中温育10秒并且在动力学缓冲液中持续10秒。然后用动力学缓冲液以1比2稀释的0ug/mL(参考传感器)、10ug/mL曲妥珠单抗(参考样品)或杂交瘤上清液(大约20μg/mL)加载经调节的传感器，之后用小鼠IgG(Rockland，010-0102)以50μg/mL在动力学缓冲液中封闭。在封闭后，加载的传感器在动力学缓冲液中平衡，并与5nM或25nM HER2蛋白(西格玛奥德里奇(Sigma-Aldrich)，SRP6405-50UG)一起温育。最后，将传感器在动力学缓冲液中温育以允许抗原解离。在分析软件DataAnalysis HT v11.0.0.50中进行抗体表达和动力学分析。

14)通过荧光进行的热稳定性测量

将单独的变体的单克隆抗体通过蛋白A柱色谱法从其相应的单克隆细胞系的上清液中纯化，并洗脱到200mM磷酸二氢钠、140mM氯化钠，pH 2.5中。在下游分析之前通过SDS-PAGE检验蛋白质纯度。将经纯化的抗体加载到Unchained Lab的UNcle仪器中，并且进行静态光散射(SLS)和荧光测量，同时将抗体以每分钟0.5℃的速率暴露于20℃到95℃的热坡度中。熔融温度(Tm)被鉴定为作为温度函数的重心平均值(BCM)的一阶导数的拐点。

15)通过T细胞增殖测定进行的免疫原性风险评估

通过ProImmune的

T细胞增殖测定评估免疫原性风险。简而言之，合成了指定变体序列的15聚体肽，并将其用于潜在抗原性的体外评估。每个15聚体肽被脉冲到供体抗原呈递细胞中，然后将其与供体的CD4+T细胞共培养。然后通过流式细胞术测量CD4+T细胞增殖。所述测定是通过针对20个健康供体细胞样品测试所述肽来进行的。供体细胞样品在使用前是CD8耗竭的，以消除分析中的CD8+反应。CD4+T细胞增殖的检测是通过用CFSE标记细胞并用抗人CD4抗体共染色来进行的。

在附图、具体实施方式或任何权利要求中的技术特征后跟有附图标记的情况下，已经包含附图标记以增加附图、具体实施方式和权利要求的可理解性。因此，附图标记和其缺失对任何权利要求元素的范围均没有任何限制作用。

本文描述的系统和方法可以在不脱离其特性的情况下以其它具体形式体现。前述实施方案是说明性的而不是对所描述的系统和方法的限制。因此，本文描述的系统和方法的范围由所附权利要求而不是前述描述来指示，并且落入权利要求的等效含义和范围内的变化被包含在其中。

现在已经描述了一些说明性实施方案，很明显，前述内容是说明性的而非限制性的，已经通过实例的方式呈现。具体地，虽然本文呈现的实例中的许多实例涉及方法动作或系统元素的特定组合，但是那些动作和那些元素可以以其它方式组合以实现相同的目标。结合一种实施方案讨论的动作、元素和特征不旨在被排除在其它实施方案或实施方案中的类似角色之外。

本文所使用的措辞和术语是出于说明的目的并且不应该被认为具有限制性。本文使用的“包含”、“包括”、“具有”、“含有”、“涉及”、“特征在于(characterized by、characterized in that)”及其变体意在涵盖其后列出的项目、其等同物和另外的项目以及仅由其后列出的项目组成的替代实施方案。在一种实施方案中，本文描述的系统和方法由所描述的元素、动作或组件中的一个、多于一个的每个组合或全部组成。

如本文所使用的，术语“约”和“基本上”将被本领域普通技术人员理解，并且将根据其所使用的上下文而在一定程度上有所不同。如果所属领域的一般技术人员不清楚此术语的使用，那么考虑到其使用背景，“约”将意味着此特定术语的至多正10％或负10％。

对本文中以单数形式提及的系统和方法的实施方案或元素或动作的任何引用也可以涵盖包含多个这些元素的实施方案，并且对本文中的任何实施方案或元素或动作的任何复数引用也可以涵盖仅包含单个元素的实施方案。单数或复数形式的引用并不旨在将当前公开的系统或方法、其组件、动作或元素限制为单个或多个配置。对基于任何信息、动作或元素的任何动作或元素的引用可以包含其中动作或元素至少部分地基于任何信息、动作或元素的实施方案。

本文公开的任何实施方案可以与任何其它实施方案或实施例组合，并且对“实施方案”、“一些实施方案”、“一种实施方案”等的引用不一定是相互排斥的并且旨在指示结合实施方案描述的特定特征、结构或特性可以包含在至少一种实施方案或至少一个实施例中。本文使用的此类术语不一定都指代相同的实施方案。任何实施方案可以以与本文公开的方面和实施方案一致的任何方式包含性地或排他性地与任何其它实施方案组合。

除非明确作出相反指示，否则如本文在说明书中和权利要求中使用的，不定冠词“一个(a)”和“一种(an)”应当理解为意指“至少一个/种”。

对“或”的引用可以被解释为包含性的，使得使用“或”描述的任何术语可以指示任意的单个、多于一个和所有的所描述的术语。例如，对“‘A’和‘B’中的至少一个”的引用可以包含仅‘A’、仅‘B’以及‘A’和‘B’两者。与“包括”或其它开放术语结合使用的此类引用可以包含另外的项目。

在本文的描述中使用的术语仅用于描述特定实施例的目的，并且不旨在限制本发明。本文所提及的全部出版物、专利申请、专利和其它参考文献通过引用方式完整地并入。

Claims

1.一种方法，其包括：

提供表示抗原结合分子的抗原结合部分的输入氨基酸序列；

生成包括第一多个变体序列的第一训练数据集，所述第一多个变体序列中的每个变体序列在所述抗原结合分子的所述输入氨基酸序列中包括单位点突变；

生成包括第二多个序列的第二训练数据集，所述第二多个序列中的每个序列在基于包括所述第一多个变体序列的所述第一训练数据集的富集评分的位置处包括多个变体；

向包括第一机器学习模型的分类引擎提供所述第二训练数据集，以生成用于所述第一机器学习模型的多个权重和偏差；

由所述分类引擎基于用于所述第一机器学习模型的所述多个权重和偏差来确定提出的氨基酸序列与抗原的第一亲和力结合评分；以及

基于满足阈值的所述第一亲和力结合评分选择所述提出的氨基酸序列以用于表达。

2.根据权利要求1所述的方法，其中所述抗原结合分子包括抗体或其抗原结合片段。

3.根据权利要求1所述的方法，其中所述抗原结合分子包括嵌合抗原受体。

4.根据权利要求1到3中任一项所述的方法，其包括：

由所述分类引擎使用所述分类引擎的第二机器学习模型确定所述提出的氨基酸序列的第二亲和力结合评分；以及

基于满足所述阈值的所述第一亲和力结合评分和所述第二亲和力结合评分选择所述提出的氨基酸序列以用于表达。

5.根据权利要求1到4中任一项所述的方法，其包括：

由所述分类引擎确定多个提出的氨基酸序列中的每个氨基酸序列的亲和力结合评分；

由候选物选择引擎确定用于所述多个提出的氨基酸序列中的每个氨基酸序列的一个或多个参数；以及

由所述候选物选择引擎基于所述亲和力结合评分和用于所述多个提出的氨基酸序列中的每个氨基酸序列的所述一个或多个参数从所述多个提出的氨基酸序列中选择候选物变体。

6.根据权利要求5所述的方法，其中所述候选物选择引擎仅选择以预定置信度或概率水平分类的变体。

7.根据权利要求6所述的方法，其中所述预定置信度或概率水平高于0.5。

8.根据权利要求5到7中任一项所述的方法，其中所述候选物选择引擎基于满足一个或多个另外的参数中的至少一个参数的阈值的所述提出的氨基酸序列来选择变体。

9.根据权利要求5所述的方法，其中所述候选物选择引擎基于满足一个或多个另外的参数中的每个参数的阈值的所述提出的氨基酸序列来选择变体。

10.根据权利要求9所述的方法，其中所述阈值中的一个或多个阈值是值阈值。

11.根据权利要求9或10所述的方法，其中所述阈值中的一个或多个阈值是可变阈值或相对阈值。

12.根据权利要求9到11中任一项所述的方法，其中所述另外的参数中的一个或多个参数的所述阈值是前5％或前10％中的参数值。

13.根据权利要求9到12中任一项所述的方法，其中所述另外的参数中的一个或多个参数的所述阈值基于高于所述一个或多个参数的平均值的多个标准偏差。

14.根据权利要求5到13中任一项所述的方法，其中所述一个或多个参数包括粘度值、溶解度值、稳定性值、药代动力学值和/或免疫原性值。

15.根据权利要求5到14中任一项所述的方法，其中所述一个或多个参数包括莱文斯坦(Levenshtein)距离值。

16.根据权利要求5到15中任一项所述的方法，其中所述一个或多个参数包括电荷值。

17.根据权利要求16所述的方法，其中所述电荷值是可变片段(Fv)电荷值。

18.根据权利要求17所述的方法，其中所述Fv电荷值介于约0与约6.2之间。

19.根据权利要求16所述的方法，其中所述电荷值是可变片段电荷对称参数(FvCSP)值。

20.根据权利要求19所述的方法，其中所述FvCSP值大于0。

21.根据权利要求5到20中任一项所述的方法，其中所述一个或多个参数包括疏水性指数值。

22.根据权利要求21所述的方法，其中所述疏水性指数总和值小于4.0。

23.根据权利要求5到22中任一项所述的方法，其中所述一个或多个参数包括蛋白质溶解度评分。

24.根据权利要求23所述的方法，其中所述蛋白质溶解度评分是CamSol评分。

25.根据权利要求23或24所述的方法，其中所述蛋白质溶解度评分大于0.5。

26.根据权利要求25所述的方法，其中所述蛋白质溶解度评分大于1。

27.根据权利要求5到26中任一项所述的方法，其中所述一个或多个参数包括最小亲和力等级。

28.根据权利要求5到27中任一项所述的方法，其中所述一个或多个参数包括平均亲和力等级。

29.根据权利要求5到28中任一项所述的方法，其中所述一个或多个参数包括与制造不利因素(manufacturing liability)相关联的序列基序。

30.根据权利要求29所述的方法，其中所述一个或多个参数包括n-糖基化位点。

31.根据权利要求29或30所述的方法，其中所述一个或多个参数包括脱酰胺位点。

32.根据权利要求29到31中任一项所述的方法，其中所述一个或多个参数包括异构化位点。

33.根据权利要求29到32中任一项所述的方法，其中所述一个或多个参数包括n-糖基化甲硫氨酸氧化位点。

34.根据权利要求29到33中任一项所述的方法，其中所述一个或多个参数包括色氨酸氧化位点。

35.根据权利要求29到34中任一项所述的方法，其中所述一个或多个参数包括配对或未配对的半胱氨酸残基。

36.根据权利要求5到35中任一项所述的方法，其中所述一个或多个参数包括基于蛋白质结构的度量。

37.根据权利要求36所述的方法，其中所述一个或多个参数包括溶剂可及表面积(SASA)。

38.根据权利要求36或37所述的方法，其中所述一个或多个参数包括贴片正电荷(PPC)。

39.根据权利要求38所述的方法，其中所述PPC值小于1。

40.根据权利要求36到39中任一项所述的方法，其中所述一个或多个参数包括贴片负电荷(PNC)。

41.根据权利要求40所述的方法，其中所述PNC值小于1.5。

42.根据权利要求36到41中任一项所述的方法，其中所述一个或多个参数包括贴片表面疏水性(PSH)。

43.根据权利要求42所述的方法，其中所述PSH值介于约100与约150之间。

44.根据权利要求36到43中任一项所述的方法，其中所述一个或多个参数包括表面Fv电荷对称参数(SFvCSP)。

45.根据权利要求44所述的方法，其中所述SFvCSP值大于0。

46.根据权利要求5到45中任一项所述的方法，其中所述候选物选择引擎计算所述候选物变体与MHCII类分子的结合的亲和力结合评分。

47.根据权利要求46所述的方法，其中所述MHC II类分子包括MHC II类同种型HLA-DR、HLA-DP和HLA-DQ。

48.根据权利要求46或47所述的方法，其中所述候选物变体与MHCII分子结合的亲和力结合等级是NetNHCII等级％。

49.根据权利要求48所述的方法，其中所述NetMHCII等级％的阈值大于10％。

50.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括递归神经网络(RNN)。

51.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括卷积神经网络(CNN)。

52.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括标准人工神经网络(ANN)。

53.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括支持向量机(SVM)。

54.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括随机森林系综(RF)。

55.根据权利要求1到49中任一项所述的方法，其中所述第一机器学习模型包括逻辑回归模型(LR)。

56.根据权利要求2和4到55中任一项所述的方法，其中所述输入氨基酸序列是所述抗体的互补决定区(CDR)的一部分。

57.根据权利要求56所述的方法，其中所述输入氨基酸序列包括CDRH3序列。

58.根据权利要求56或57所述的方法，其中所述输入氨基酸序列包括CDRH1序列。

59.根据权利要求56到58中任一项所述的方法，其中所述输入氨基酸序列包括CDRH2序列。

60.根据权利要求56到59中任一项所述的方法，其中所述输入氨基酸序列包括CDRL1序列。

61.根据权利要求56到60中任一项所述的方法，其中所述输入氨基酸序列包括CDRL2序列。

62.根据权利要求56到61中任一项所述的方法，其中所述输入氨基酸序列包括CDRL3序列。

63.根据权利要求2和4到62中任一项所述的方法，其中所述输入氨基酸序列包括所述抗体的框架结构域或所述框架结构域内的区。

64.根据权利要求63所述的方法，其中所述输入氨基酸序列包括所述抗体的FR1、FR2、FR3或FR4。

65.根据权利要求2和4到64中任一项所述的方法，其中所述输入氨基酸序列包括所述抗体的恒定结构域或具有恒定结构域的区。

66.根据权利要求2和4到65中任一项所述的方法，其中所述输入氨基酸序列包括所述抗体的全长重链序列。

67.根据权利要求2和4到66中任一项所述的方法，其中所述输入氨基酸序列包括所述抗体的全长轻链序列。

68.根据权利要求2和4到67中任一项所述的方法，其中所述抗体是治疗性抗体。

69.根据权利要求68所述的方法，其中所述治疗性抗体选自阿昔单抗(abciximab)(Reopro)；阿达木单抗(adalimumab)(修美乐(Humira)，Amjevita)；阿法赛特(alefacept)(阿密凡夫(Amevive))；阿仑单抗(alemtuzumab)(坎帕斯(Campath))；巴利昔单抗(basiliximab)(舒莱(Simulect))；贝利木单抗(belimumab)(本利斯塔(Benlysta))；贝洛托舒单抗(bezlotoxumab)(Zinplava)；康纳单抗(canakinumab)(易来力(Ilaris))；赛妥珠单抗聚乙二醇(certolizumab pegol)(希敏佳(Cimzia))；西妥昔单抗(cetuximab)(爱必妥(Erbitux))；达利珠单抗(daclizumab)(赛尼哌(Zenapax)，Zinbryta)；狄诺塞麦(denosumab)(普罗利亚(Prolia)，Xgeva)；依法利珠单抗(efalizumab)(瑞体肤(Raptiva))；戈利木单抗(golimumab)(Simponi，Simponi Aria)；inflectra(瑞米凯德(Remicade))；易普利姆玛(ipilimumab)(Yervoy)；伊卡组单抗(ixekizumab)(Taltz)；那他珠单抗(natalizumab)(Tysabri)；纳武单抗(nivolumab)(欧狄沃(Opdivo))；奥拉单抗(olaratumab)(Lartruvo)；奥马珠单抗(omalizumab)(索雷尔(Xolair))；帕利珠单抗(palivizumab)(Synagis)；帕尼单抗(panitumumab)(维克替比(Vectibix))；帕博利珠单抗(pembrolizumab)(可瑞达(Keytruda))利妥昔单抗(rituximab)(瑞图宣(Rituxan))；托珠单抗(tocilizumab)(雅美罗(Actemra))；曲妥珠单抗(trastuzumab)(赫赛汀(Herceptin))；苏金单抗(secukinumab)(Cosentyx)；和优特克单抗(ustekinumab)(喜达诺(Stelara))。

70.根据权利要求1到69中任一项所述的方法，其中所述第一训练数据集是通过深度突变扫描生成的。

71.根据权利要求70所述的方法，其中深度突变扫描包括生成变体序列的第一文库，其中每个变体序列在相对于所述输入氨基酸序列的单个氨基酸位置处被修饰。

72.根据权利要求71所述的方法，其中所述第一文库包括表示所述输入氨基酸序列的每个氨基酸位置的变体序列。

73.根据权利要求71或72所述的方法，其中所述第一文库包括表示所述输入氨基酸序列的每个位置处的所有20个标准氨基酸的变体序列。

74.根据权利要求71到73中任一项所述的方法，其中变体序列的所述第一文库是通过编码所述输入氨基酸序列的核酸的诱变生成的。

75.根据权利要求71到74中任一项所述的方法，其中变体序列的所述第一文库是通过哺乳动物细胞中的高通量诱变生成的。

76.根据权利要求75所述的方法，其中所述高通量诱变包括易错PCR、重组诱变、丙氨酸扫描诱变、结构引导诱变或同源定向修复(HDR)。

77.根据权利要求76所述的方法，其中变体序列的所述第一文库是通过CRISPR/Cas9介导的同源定向修复(HDR)生成的。

78.根据权利要求70到77中任一项所述的方法，其中深度突变扫描包括生成包括变体序列的所述第一文库的多个抗体。

79.根据权利要求78所述的方法，其中深度突变扫描进一步包括筛选包括用于结合到抗原的变体序列的所述第一文库的所述多个抗体并确定被选择用于结合到所述抗原的变体的序列，从而获得所述第一训练数据集。

80.根据权利要求1到79中任一项所述的方法，其中所述第二训练数据集是通过深度突变扫描引导的组合诱变生成的。

81.根据权利要求80所述的方法，其中深度突变扫描引导的组合诱变包括生成变体序列的第二文库，其中每个变体序列基于所述第一训练数据集在两个或更多个氨基酸位置处被修饰。

82.根据权利要求81所述的方法，其中变体序列的所述第二文库是通过诱变编码输入氨基酸序列的所述第一训练数据的核酸生成的。

83.根据权利要求81或82所述的方法，其中变体序列的所述第二文库是通过哺乳动物细胞中的高通量诱变生成的。

84.根据权利要求81到83中任一项所述的方法，其中变体序列的所述第二文库文库是通过CRISPR/Cas9介导的同源定向修复(HDR)生成的。

85.根据权利要求81到84中任一项所述的方法，其中深度突变扫描引导的组合诱变包括生成包括变体序列的所述第二文库的多个抗体。

86.根据权利要求85所述的方法，其中组合深度突变扫描进一步包括筛选包括用于结合到所述抗原的变体序列的所述第二文库的所述多个抗体并确定被选择用于结合到所述抗原的变体的序列，从而获得所述第二训练数据集。

87.根据权利要求5到86中任一项所述的方法，其中所述候选物变体具有一个或多个等于或大于所述输入氨基酸序列的参数值。

88.一种系统，其包括一个或多个处理器和存储处理器可执行指令的存储器，所述一个或多个处理器执行所述处理器可执行指令以：

接收表示抗体的抗原结合部分的输入氨基酸序列；

接收包括第一多个变体序列的第一训练数据集，所述第一多个变体序列中的每个变体序列在所述抗体的所述输入氨基酸序列中包括单位点突变；

接收包括第二多个序列的第二训练数据集，所述第二多个序列中的每个序列在基于包括所述第一多个变体序列的所述第一训练数据集的富集评分的位置处包括多个变体；

基于用于所述第一机器学习模型的所述多个权重和偏差来确定提出的氨基酸序列与抗原的第一亲和力结合评分；并且

89.一种蛋白质或肽，其中所述蛋白质或肽的氨基酸序列是通过根据权利要求1到87中任一项所述的方法或根据权利要求88所述的系统生成的。

90.根据权利要求89所述的蛋白质或肽，其中所述蛋白质或肽与抗原结合。

91.根据权利要求90所述的蛋白质或肽，其中所述蛋白质或肽是嵌合抗原受体。

92.根据权利要求89或90所述的蛋白质或肽，其中所述氨基酸序列包括CDRH3序列。

93.根据权利要求89、90或92所述的蛋白质或肽，其中所述蛋白质或肽包括抗体或其抗原结合片段。

94.根据权利要求93所述的蛋白质或肽，其中所述蛋白质或肽是包括抗体的一个或多个部分的融合蛋白。

95.根据权利要求89到94中任一项所述的蛋白质或肽，其中所述蛋白质或肽包括scFv或Fc融合蛋白。

96.根据权利要求90到95中任一项所述的蛋白质或肽，其中所述抗原与疾病或病状相关。

97.根据权利要求96所述的蛋白质或肽，其中所述抗原是肿瘤抗原。

98.根据权利要求96所述的蛋白质或肽，其中所述抗原是抗炎抗原。

99.根据权利要求96所述的蛋白质或肽，其中所述抗原是寄生虫抗原。

100.根据权利要求89到99中任一项所述的蛋白质或肽，其中所述蛋白质或肽与包括所述输入氨基酸序列的蛋白质或肽相比具有一种或多种改善的性质。

101.根据权利要求89到100中任一项所述的蛋白质或肽，其中所述蛋白质或肽与包括所述输入氨基酸序列的蛋白质或肽相比具有改善的用于制造的生物物理性质。

102.根据权利要求89到101中任一项所述的蛋白质或肽，其中所述蛋白质或肽与包括所述输入氨基酸序列的蛋白质或肽相比具有改善的对抗原的亲和力。

103.根据权利要求89到102中任一项所述的蛋白质或肽，其中所述蛋白质或肽与包括所述输入氨基酸序列的蛋白质或肽相比具有降低的免疫原性风险。

104.一种蛋白质或肽，其包括图15A到15D或图23A到23O中描绘的氨基酸序列。

105.根据权利要求104所述的蛋白质或肽，其中所述蛋白质或肽包括抗体或其抗原结合片段。

106.根据权利要求105所述的蛋白质或肽，其中所述蛋白质或肽包括全长抗体。

107.根据权利要求104或105所述的蛋白质或肽，其中所述蛋白质或肽包括scFv或Fc融合蛋白。

108.根据权利要求104所述的蛋白质或肽，其中所述蛋白质或肽包括嵌合抗原受体。

109.根据权利要求104到108中任一项所述的蛋白质或肽，其中所述蛋白质或肽是融合蛋白。

110.根据权利要求89到109中任一项所述的蛋白质或肽，其中所述蛋白质或肽结合到HER2(人表皮生长因子受体2)。

111.根据权利要求110所述的蛋白质或肽，其中所述蛋白质或肽与所述曲妥珠单抗(赫赛汀)抗体相比具有改善的对所述HER2抗原的亲和力。

112.一种细胞，其包括根据权利要求89到111中任一项所述的蛋白质或肽。

113.一种细胞，其包括编码根据权利要求89到112中任一项所述的蛋白质或肽的核酸序列。

114.根据权利要求112或113所述的细胞，其中所述细胞是哺乳动物细胞、细菌细胞、酵母细胞、昆虫细胞或真核细胞。

115.根据权利要求112到114中任一项所述的细胞，其中所述细胞是免疫细胞。

116.根据权利要求115所述的细胞，其中所述免疫细胞是T细胞。

117.根据权利要求116所述的细胞，其中所述T细胞是CAR-T细胞。

118.根据权利要求89到111中任一项所述的蛋白质或肽或根据权利要求112到117中任一项所述的细胞，其中将所述蛋白质或肽或所述细胞施用于受试者以治疗炎性疾病、感染性疾病、癌症、遗传病症、器官移植排斥、自身免疫疾病或免疫病症。

119.根据权利要求89到111中任一项所述的蛋白质或肽或根据权利要求112到117中任一项所述的细胞，其中将所述蛋白质或肽或所述细胞施用于受试者以治疗HER2阳性癌症。

120.根据权利要求89到111中任一项所述的蛋白质或肽或根据权利要求112到117中任一项所述的细胞，其中所述蛋白质或肽或所述细胞用于制造用于治疗炎性疾病、感染性疾病、癌症、遗传病症、器官移植排斥、自身免疫疾病或免疫病症的药物。

121.根据权利要求89到111中任一项所述的蛋白质或肽或根据权利要求112到117中任一项所述的细胞，其中所述蛋白质或肽或所述细胞用于制造用于治疗HER2阳性癌症的药物。

122.一种根据权利要求89到111中任一项所述的蛋白质或肽用于检测生物样品中的抗原的用途。

123.一种根据权利要求89到111中任一项所述的蛋白质或肽用于体内检测受试者的抗原的用途。