CN114008712A9

CN114008712A9 - 用于蛋白质工程和生产的方法和系统

Info

Publication number: CN114008712A9
Application number: CN202080044514.0A
Authority: CN
Inventors: H·F·里克比; J·E·J·菲尔德; E·V·普廷茨娃; C·科曾斯
Original assignee: Labgenius Ltd
Current assignee: Labgenius Ltd
Priority date: 2019-05-09
Filing date: 2020-05-11
Publication date: 2022-03-22
Also published as: CA3139359A1; WO2020225576A1; JP2022532707A; GB201906566D0; KR20220006116A; EP3966825A1; CN114008712A; US20220064634A1; WO2020225576A9

Abstract

本发明提供了生产具有一个或多个期望特性的蛋白质的方法，该方法包括(a)文库设计步骤，(b)文库测试步骤；和(c)学习步骤，其中至少部分基于文库测试步骤的结果为每个序列变体分配适应度分数，并且机器学习算法使用每个序列变体的适应度分数来训练用于预测新序列变体的适应度分数的模型，并且其中在步骤(c)中训练的机器学习模型用于设计新的序列变体文库。本发明还提供了一种用于生产具有一个或多个期望特性的蛋白质的系统，所述系统适于实施本发明的方法。

Description

用于蛋白质工程和生产的方法和系统

发明领域

本发明考虑用于蛋白质工程和生产的方法和系统，特别是使用高含量核酸文库、高通量测定和人工智能的组合的蛋白质工程的迭代方法。

发明背景

当针对特定功能工程化蛋白质时，主要挑战之一在于呈现给用户的构成可搜索序列空间的可能分子的组合爆炸(combinatorial explosion)，即使使用候选蛋白质作为修饰的起点也是如此。这个问题与缺乏可以在合成生物学过程中常见的设计-构建-测试-学习方法循环中使用高通量方法进行蛋白质工程的选择妥协。可以理解，循环中的任何瓶颈都会限制对序列空间的探索。因此，需要提供能够自动且有效地探索序列可变性的广阔空间以鉴定具有一组特定期望特性的候选蛋白质的方法和系统。根据本文提供的教导，本发明的这些和其他用途、特征和优点对于本领域技术人员来说应该是显而易见的。

发明内容

根据本发明，第一方面提供了一种生产具有一个或多个期望功能的蛋白质的方法，所述方法包括：

(a)文库设计步骤，其中设计包含至少10⁴个序列变体的核酸文库，其中每个序列变体包含蛋白质的编码序列并且每个序列变体包含至少一个恒定区和至少一个可变区，其中一个或多个恒定区是文库内所有序列变体共有的，并且一个或多个可变区不是文库内所有序列变体共有的；

(b)文库测试步骤，其中并行测试序列变体的所述一个或多个期望特性；和

(c)学习步骤，其中至少部分基于文库测试步骤的结果为每个序列变体分配适应度分数，并且机器学习算法使用每个序列变体的适应度分数训练模型以预测新序列变体的适应度分数；

其中在步骤(c)中训练的机器学习模型用于设计具有改进的适应度分数分布的新序列变体文库。

因此，本发明的方法结合了文库设计、高通量测定和人工智能的特定方法，以通过有效探索序列空间的大区域来实现具有一个或多个期望特性的候选蛋白质的工程化和生产。

特别地，恒定和可变部分的使用能够限制序列的区域，其中可变性将被有用地引入，以可选地分别设计和生产这些部分，然后将这些部分与包含在所有变体中的包含诸如启动子和标记等元件的共有恒定部分组装在一起。然后可以容易地在选定的几个具有例如选定标志或启动子的部分之间交换恒定部分，并将其与可变部分文库组合。可变部分可用于有效地探索序列空间。此外，使用机器学习从文库中获得的数据中学习能够为新的设计步骤提供信息，从而产生新的候选变体，这些变体可以改进测试的初始变体集。

在实施方案中，该方法进一步包括(a')文库组装步骤，其包括：(1)提供对应于文库中序列变体的第一可变部分的第一多个核酸分子，其包含一个或多个可变区，并且其中所述第一多个核酸分子包含所述一个或多个可变区的变体；(2)提供：(i)对应于文库中序列变体的至少一个另外的可变部分的至少一个另外的多个核酸分子，其包含至少一个另外的可变区，其中所述至少一个另外的多个核酸分子包含至少一个另外的可变区的变体；和/或(ii)对应于文库中序列变体的至少一个恒定部分的至少一种另外的多个核酸分子，每个恒定部分包含恒定区而没有可变区，其中所述至少一个另外的多个核酸分子基本相同；和(3)组装所述多个第一核酸分子和至少一个另外的核酸分子中的每一个以形成核酸文库，所述文库中的每个变体包含第一可变部分和至少一个另外的部分。

在实施方案中，多个核酸分子中的每一个进一步包含与多个其他核酸分子中的另一个的末端序列相同的末端序列，以便能够产生用于组装核酸分子的突出端。在实施方案中，末端序列的长度为2至20个碱基。在实施方案中，末端序列的长度为4至10个碱基。

在实施方案中，每个序列变体包括至少一个恒定部分和至少一个可变部分。

在实施方案中，每个序列变体包含两个恒定部分：包含启动子序列(例如T7启动子序列)、一个或多个任选标签以及经编码的蛋白质的编码序列的始端(即N端部分)的第一或起始部分；以及包含经编码的蛋白质的编码序列的末端(即C端部分)和一个或多个任选的纯化标签的第二或最后部分。

在实施方案中，每个序列变体包含两个可变部分，每个可变部分包含经编码的蛋白质的编码序列的一部分。

在实施方案中，可以在两个可变部分之间提供另外的恒定部分。

在实施方案中，每个序列变体具有两个可变部分和两个恒定部分。限制为两个可变部分控制了与获得可变部分相关的成本，并且当可变部分包括相似部分(例如重复支架)以降低在文库组装步骤中引入错误的风险时这可能是有用的。

在实施方案中，对应于恒定部分的核酸分子作为双链DNA提供。这有利地意味着该序列可以容易地操作和复制，例如通过PCR或通过将其包含于在细菌中复制的质粒中。

在实施方案中，提供对应于恒定部分的多个核酸分子包括通过聚合酶链反应扩增对应于恒定部分的核酸分子。

在实施方案中，对应于一个或多个可变部分中的每一个的核酸分子作为单链DNA提供，任选地其中提供对应于一个或多个可变部分的变体的多个核酸分子包括通过单引物延伸合成第二条DNA链以形成双链DNA。当使用具有高随机可变性的可变部分的复杂集合时，这可能特别有利，因为它们难以像dsDNA那样高精度地合成。

在实施方案中，提供对应于一个或多个可变部分的变体的多个核酸分子包括通过单引物延伸合成第二条DNA链以形成双链DNA。

有利地，不使用PCR确保了不会在文库中引入错误和扩增偏差。当可变部分设计为具有每个变体的特定概率时，这是特别有利的，因为PCR可能改变这些概率。

在实施方案中，将第一多个核酸分子中的每一个与来自所述另外的多个核酸分子中的每一个的核酸分子组装包括通过USER(尿嘧啶特异性切除试剂)组装来组装核酸分子。不希望受理论束缚，认为USER组装是特别有利的，因为它是无痕的，不依赖于特定识别序列如限制性内切酶，并且导致可编程的突出端。

在实施方案中，恒定部分长达约2000个核苷酸，和/或其中可变部分长达约200个核苷酸。

有利地，恒定部分只需要一次获得并且可以作为dsDNA获得，例如通过将它们包含于在细菌细胞中复制的质粒中可以容易地复制。在实施方案中，可变部分长达约200个核苷酸。这可以使可变序列能够以高精度化学合成，包括要生成可变序列的高度复杂集合之处。

在实施方案中，每个序列变体包括多个恒定部分和/或多个可变部分。

在实施方案中，文库设计步骤(a)包括完全限定一个或多个恒定部分中的每一个的序列。

在实施方案中，文库设计步骤(a)包括设计一个或多个可变区中的至少一个以在至少一个位置包括随机可变性，任选地其中文库设计步骤(a)包括设计一个或多个可变区中的至少一个以在至少一个可变区的一个或多个特定位置包括随机可变性。

在实施方案中，通过为每个碱基(A、C、T、G)提供概率来约束随机可变性。在实施方案中，通过为每个氨基酸提供概率来约束随机可变性。在实施方案中，每个碱基的概率在每个可变位置上可以相同，或者可以取决于可变位置。在实施方案中，至少一个碱基在至少一个位置的概率可以是0。

在实施方案中，文库设计步骤(a)包括设计一个或多个可变部分中的至少一个以在可变部分的一个或多个特定位置包括随机可变性。

特别地，包括随机可变性可以包括将可变性约束为对应于DNA密码子的序列。

在实施方案中，包括随机可变性包括将可变性约束为不对应于终止密码子的序列。这可以排除可编码截短蛋白质的序列，从而将序列空间的探索集中到更有可能具有实际用途的区域。

在实施方案中，文库设计步骤(a)包括：选择编码具有一个或多个期望特性中的至少一种的蛋白质的核酸序列；自动鉴定序列的一个或多个区域，其中预期可变性导致一个或多个期望特性中的至少一种的改善和/或一个或多个期望特性中的至少一种的获得；和将一个或多个可变部分限定为包括序列的一个或多个区域，其中预期可变性导致一个或多个期望特性中的至少一种的改善和/或一个或多个期望特性中的至少一种的获得。

在一些实施方案中，文库设计步骤(a)进一步包括：鉴定序列的一个或多个区域，其中预期可变性对蛋白质的完整性和/或一个或多个期望特性中的至少一种有害；并且将一个或多个恒定区中的一个或多个限定为包括序列的一个或多个区域，其中预期可变性对蛋白质的完整性和/或一个或多个期望特性中的至少一种有害。

在实施方案中，一个或多个恒定区中的至少一个包含选自以下的一个或多个序列：启动子序列、增强子序列、定位信号、标记序列、标志物序列、核糖体结合位点、终止密码子、起始密码子、5'茎环结构、3'茎环培养物、复制起点和选择序列。

在实施方案中，该方法进一步包括产生由每个序列变体编码的蛋白质以获得蛋白质文库的步骤(a)，其中文库测试步骤(b)包括使蛋白质文库经受一种或多种测定以测试一个或多个期望特性。核酸文库可以是DNA文库并且产生蛋白质文库可以包括转录和翻译DNA文库。在实施方案中，转录DNA文库包括用T7 RNA聚合酶温育DNA文库。使用T7 RNA聚合酶可能是有利的，因为该聚合酶具有明确限定的启动子序列和非常低的错误率。

在实施方案中，该方法进一步包括产生由每个序列变体编码的蛋白质以获得蛋白质文库的步骤(a”)，其中文库测试步骤(b)包括使蛋白质文库经受一种或多种测定以测试一个或多个期望特性。核酸文库可以是DNA文库并且产生蛋白质文库可以包括转录和翻译DNA文库。在实施方案中，转录DNA文库包括用T7 RNA聚合酶温育DNA文库。使用T7 RNA聚合酶可能是有利的，因为该聚合酶具有明确限定的启动子序列和非常低的错误率。

在实施方案中，核酸文库是DNA文库并且产生蛋白质文库包括转录和翻译DNA文库，其中翻译文库包括合成RNA-多肽融合分子，每个融合分子包含与其编码的蛋白质结合的RNA序列变体。在实施方案中，这是使用称为“mRNA展示”的技术来完成的。在实施方案中，这是使用称为“噬菌体展示”的技术来完成的。不希望受理论束缚，认为mRNA展示在本发明的背景中是有利的，因为整个过程发生在体外。这消除了将DNA文库转化为细胞的需要，该过程通常是低效率的过程，从而产生瓶颈并可能使文库产生偏差。此外，在mRNA展示中，编码序列与蛋白质共价连接，从而即使在苛刻的测试条件下也能防止两部分分离。这可以使得能够测试大范围的期望特性，包括例如对苛刻条件的耐受性。

在实施方案中，核酸文库是DNA文库并且产生蛋白质文库包括转录和翻译DNA文库，其中翻译文库包括增殖展示外壳蛋白-多肽融合物的噬菌体，其中与外壳蛋白融合的多肽对应于 DNA文库的序列变体。在实施方案中，这是使用称为“噬菌体展示”的技术来完成的。不希望受理论束缚，认为噬菌体展示在本发明的背景中是有利的，因为它允许与mRNA展示相比更有效地展示更大的蛋白质(例如，大于10kDa的蛋白质，例如10-100、10-50、15、30、 40或50kDa)，从而允许更有效地选择文库中的变体。

在实施方案中，所产生的蛋白质文库通过提取蛋白质并进行逆转录定量PCR以量化与蛋白质文库相关的mRNA的量来进行质量控制。

在实施方案中，蛋白质文库完全在体外由核酸文库产生。

在实施方案中，文库测试步骤(b)包括根据一种或多种测定的结果将蛋白质文库分成至少2个样品，并对至少2个样品中的至少一个中存在的核酸进行测序。

在实施方案中，在DNA测序之前，每个样品经历逆转录步骤和提取样品的DNA部分的纯化步骤。

这种方法可以使用下一代测序来鉴定功能不同的蛋白质组。因此，该方法能够以非常高的通量鉴定具有/不具有期望功能的蛋白质(取决于它们在测定中的表现)。在蛋白质水平上识别变体会非常容易出错(例如，质谱蛋白质组学目前仍然比DNA测序噪音大得多)和/或明显更慢。

在实施方案中，该方法进一步包括对至少2个样品中的至少2个中存在的核酸进行条形码编码，并将至少2个经条形码编码的样品一起测序。

在实施方案中，学习步骤(c)包括将测序获得的序列与步骤(a)中设计的序列进行比对，并量化每个序列在每个样品中出现的次数。

在实施方案中，至少一个恒定区包含编码蛋白质纯化标签的序列，任选地其中蛋白质纯化标签是链霉亲和素结合肽。有利地，这可以使链霉亲和素包被的珠子能够用于在翻译后分离蛋白质，进行mRNA展示步骤的质量控制，或进行一些测定例如蛋白酶稳定性测定。

在实施方案中，一个或多个期望特性选自：蛋白质的物理化学特性、活性相关特性、生理相关特性和药代动力学特性。

在实施方案中，物理化学特性可以选自化学稳定性(例如耐受氧化剂、酸等)、溶解性、耐热性、抗干燥和再水合性等。

在实施方案中，活性相关特性可以选自酶活性、任何活性或结合的特异性、脱靶效应(即与主要靶标以外的靶标的活性或结合)、结合亲和力、对所选靶标的结合/解离率、抑制或刺激酶的能力、亲和力(功能亲和力)等；

在实施方案中，生理相关特性可以选自蛋白酶抗性、免疫原性、激活一种或多种免疫效应物的能力、穿过血脑屏障的能力、穿过上皮细胞(例如肠上皮细胞、肺上皮细胞等)的能力、进入细胞的能力、穿过细胞膜/脂质双层的能力、进入特定细胞类型的细胞的能力、穿透实体瘤的能力、器官/细胞类型特异性递送的适用性。

在实施方案中，药代动力学特性可以选自消除半衰期、清除率、毒性、器官特异性药代动力学等。

在实施方案中，至少一个恒定区包含编码蛋白质纯化标签的序列，任选地其中蛋白质纯化标签位于蛋白质的C端，其中一个或多个期望特性之一是蛋白酶抗性，和通过一种或多种测定运行蛋白质文库包括将蛋白质文库暴露于一种或多种蛋白酶、使用蛋白质纯化标签纯化蛋白质和鉴定不被一种或多种蛋白酶切割的序列变体。

在实施方案中，蛋白质纯化标签位于蛋白质的C端。

有利地，当使用mRNA展示时，与每个蛋白质相关的mRNA将位于蛋白质的N端。因此，未被一种或多种蛋白酶切割的序列变体仍将附着在其mRNA上，而被切割的序列变体则不会。因此，当蛋白质被纯化时，被切割变体的mRNA将被洗掉，并且只有蛋白酶抗性变体将被测序。

在实施方案中，一个或多个期望特性之一是与特定靶标结合，并且文库测试步骤(b)包括将蛋白质文库与固定在表面上的特定靶标一起温育并将蛋白质文库分离成结合到表面的样品和未结合到表面的样品。

在实施方案中，该方法进一步包括在温育后洗涤表面以去除非特异性相互作用。在实施方案中，该方法进一步包括将相同的文库暴露于对照条件(例如仅表面而没有固定的靶标)，以滤除假阳性(例如结合到表面而不是靶标的变体)。

在实施方案中，文库测试步骤包括针对多个特性测试变体，并且学习步骤包括为每个测试的变体分配多个适应度分数，其中每个适应度分数对应于多个特性中的一个，其中学习步骤包括训练多个机器学习算法，其中每个机器学习算法被训练以预测新序列变体的多个适应度分数中的至少一个。

在实施方案中，学习步骤包括为测试的每个序列变体分配组合的适应度分数，其中测试的每个序列变体的组合的适应度分数基于序列变体的多个适应度分数。

在实施方案中，与每个序列变体相关联的一个或多个适应度分数取决于每个序列在第一样品中出现的次数和每个序列在第二样品中出现的次数，可选地其中第一样品对应于被认为在一种或多种测定的一种中具有阳性结果的样品，并且第二样品是对照样品。

有利地，这种对序列进行评分的方法能够减少系统中噪声的影响。如果一个序列在选择后只出现一次，这可能只是在文库制备过程中引入的错误，或者是碰巧没有遇到蛋白酶的序列，而不是它实际上增加了稳定性。

在实施方案中，与序列变体相关联的适应度分数是量化特定步骤相对于序列的偏差程度的分数。例如，测试期望功能的测定可以与分数(也称为“偏差”或“偏差分数”)相关联，该分数通过在测定之前和之后在文库上比较测序数据(例如序列计数)量化步骤对文库中每个序列的偏差程度。

在实施方案中，使用贝叶斯方法将分数在0(强负偏差)和1(强正偏差)之间量化。取决于主观置信水平，中间分数可以被视为负偏差、正偏差或“与之前相似”(在某些情况下可能被标记为“成功”)。

在实施方案中，所使用的贝叶斯方法被设计成对于给定序列量化在步骤之后测量y计数的期望(假设是具有未知均值λ的泊松分布)并且在步骤之前测量x计数之后(即p(y|x))。

在实施方案中，p(y|x)可以计算为(N2/N1)^y*((x+y)！/(x！y！(1+(N2/N1))^(x+y+1)))，其中x是从样品大小N1中观察到的，y是从样品大小N2中观察到的。

有利地，这种方法反映了这样的假设，即当在步骤后多次观察序列时，与仅几次观察到变体的情况相比，我们可以对与序列变体相关的步骤的偏差有更高的置信度。

在实施方案中，分数可用于限定“负偏差”的一组序列(例如偏差分数<0.1)、“正偏差”的一组序列(例如偏差分数>0.9)，其余序列被限定为“如预期/无偏差”。这些限定可用于在学习步骤中训练机器学习算法。

在实施方案中，可以使用选择的置信水平CL来设置负偏差或正偏差的序列的阈值。特别地，分数>1-ε的序列可以被标记为“正偏差”，而分数<ε的序列可以被标记为“负偏差”，其中ε计算为(1-CL)/2。在实施方案中，CL为至少0.9975、至少0.955或至少0.683。

在实施方案中，如果序列在第一和第二样品中的每一个中出现至少一个，则仅针对序列变体计算适应度分数。这可有助于排除由于测序过程中的错误而出现的且不是“真实读数”的序列。

在实施方案中，对分数进行过滤以排除在第一样品、第二样品或第一和第二样品的总和中出现少于选定次数的序列变体。例如，可以应用跨越两个样品的最小10个读数的阈值。

在实施方案中，可以为每个序列变体、每个期望功能，计算单独的偏差分数。例如，假设对蛋白质文库进行第一测定以量化对第一靶标的结合亲和力，并进行第二测定以量化对第二靶标的结合亲和力，可以计算两个单独的分数，反映与每个序列变体相关的这些测定中每个的偏差。

在实施方案中，第一样品对应于在一个或多个测定中的一个中被认为具有阳性结果的样品，并且第二样品是对照样品。适当地，对照样品是在一个或多个测定中的一个中被认为具有阴性结果的样品，或在用于将第一样品定性为具有阳性结果的一个或多个测定之前对应于文库的样品。

在实施方案中，机器学习算法是分类器，其中机器学习算法是神经网络。

在实施方案中，机器学习算法是回归算法。例如，该算法可以利用lasso(最小绝对收缩和选择算子)回归、岭回归(也称为Tikhonov正则化)或逻辑回归。换句话说，机器学习算法可以被训练来构建可以预测每个序列的数值(例如连续数值)的模型。不希望受理论束缚，认为当数据表明偏差分数在分数范围的末端附近强烈聚集时(即，大多数序列变体具有接近于0或接近于1的偏差分数)，分类器可能特别合适。

在实施方案中，机器学习算法是神经网络。在特定实施方案中，机器学习算法是卷积神经网络。

在实施方案中，机器学习算法是多分类器系统。也就是说，算法是分类器的集成。例如，集成算法。

在实施方案中，机器学习算法是支持向量机算法。

有利地，分类器能够预测馈入模型的任何新序列的分数。因此，它可用于使用各种优化方法优化序列群。因此，执行优化过程以鉴定与迄今为止已测试的序列相比(例如，与“亲本”文库或群内的序列变体相比)具有改善的适应度(例如，改善的适应度分数分布)的新的序列群。

具有“改善的适应度分数分布”的序列变体的文库或群可以是其中与亲本文库或序列群内的序列变体的一个或多个适应度分数的分布相比，序列变体的一个或多个适应度分数的分布偏向更正值的文库或群。也就是说，优化过程提供了具有平均适应度分数(例如，对应于1、2、 3、4、5、6、7个或更多个期望特性的1、2、3、4、5、6、7或更大的适应度分数)新的序列变体文库或群，该平均适应度分数高于未经过优化过程的序列变体的亲本文库或群(例如，直接在序列变体的新的、优化的文库或群之前的序列变体的亲本文库或群)的平均适应度分数。

在一个实施方案中，具有“改善的适应度分数分布”的序列变体的文库或群是其中与序列变体的亲本文库或群内的一个或多个平均适应度分数相比，序列变体的一个或多个平均适应度分数更高的文库或群。另外地，或替代地，具有改善的适应度的序列变体的文库或群是其中与序列变体的亲本文库或群内的一个或多个中值适应度分数相比，序列变体的一个或多个中值适应度分数更高的文库或群。另外地，或替代地，具有改善的适应度的序列变体的文库或群是其中与亲本文库或群内的序列变体的一个或多个模态(modal)适应度分数相比，序列变体的一个或多个模态适应度分数更高的文库或群。

在另一个实施方案中，具有“改善的适应度分数分布”的序列变体的文库或群是与亲本文库或群相比包含更小比例的非功能序列变体的文库或群。例如，序列变体的文库或群中少于 50％(例如少于50％、40％、30％、20％、15％、10％、7％、5％、2％或少于1％)的变体是非功能序列变体(例如，所述非功能序列变体不展示一种或多种改善的期望特性，例如改善的物理化学特性、改善的活性相关特性和/或改善的生理相关特性)。优选地，文库或群中少于 20％(例如，20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、 8％、7％、6％、5％、4％、3％、2％或少于1％)的变体是非功能性序列变体。更优选地，文库或群中少于10％的变体是非功能性序列变体。

在另一个实施方案中，具有“改善的适应度分数分布”的序列变体的文库或群是与序列变体的亲本文库或群相比包含更高比例的展示一个或多个改善的适应度分数(例如，更高比例的展示一个或多个改善的期望特性，例如改善的物理化学特性、改善的活动相关特性和/或改善的生理相关特性)的变体的文库或群。例如，与亲本文库或群中前至少1％(例如，至少1％、 2％、5％、7％、10％或至少20％)的变体相比，前至少1％(例如，至少1％、2％、5％、7％、 10％或至少20％)的序列变体具有一种或多种改善的期望特性。

在另一个实施方案中，具有“改善的适应度分数分布”的序列变体的文库或群是这样的文库或群，其中与文库或亲本群中具有最高适应度分数的变体相比，在所述文库或群中具有最高适应度分数的变体具有更高适应度分数。也就是说，在优化的文库或群中具有最高适应度分数的变体是与亲本文库或群中具有最高适应度分数的变体相比，展示一个或多个改进的适应度分数(例如，一个或多个改善的期望特性，例如改善的物理化学特性、改善的活动相关特性和/或改善的生理相关特性)的变体。

另外地或可选地，具有“改善的适应度分数分布”的序列变体的文库或群是包含至少一种变体的文库或群，其中相对于亲本文库或群中所有或一部分变体的相应的一个或多个可变区，一个或多个可变区具有小于99％(例如，小于98％、97％、96％、95％、90％、85％、80％、 75％、70％、60％、50％、40％、30％、20％、10％或小于5％)的序列相似性(DNA和/或氨基酸序列)。另外地或可选地，具有“改善的适应度分数分布”的序列变体的文库或群可以是这样的文库或群，其包含至少5％，例如至少10％、15％、20％、25％、30％、35％、40％、 45％、55％、65％、70％、75％、85％、90％、95％或100％的变体具有相对于亲本文库或群中变体的所有或部分的相应一个或多个可变区的序列相似性(DNA和/或氨基酸序列)小于 99％(例如，小于98％、97％、96％、95％、90％、85％、80％、75％、70％、60％、50％、 40％、30％、20％、10％或小于5％)的一个或多个可变区。

在实施方案中，具有“改进的适应度分数分布”的序列变体的文库或群是这样的文库或群，其包含至少一个变体，其中一个或多个可变区具有相对于亲本文库或群中变体的所有或部分的相应一个或多个可变区的序列相似性(DNA和/或氨基酸序列)小于99％(例如，小于98％、 97％、96％、95％、90％、85％、80％、75％、70％、60％、50％、40％、30％、20％、10％或小于5％)的一个或多个可变区，并且与包含在具有最高适应度分数的亲本文库或群中的变体相比，展示一个或多个改进的适应度分数(例如，至少一个变体展示一个或多个改善的期望特性，例如改善的物理化学特性、改善的活动相关特性和/或改善的生理相关特性)。

在实施方案中，具有“改善的适应度分数分布”的序列变体的文库或群是这样的文库或群，其包含至少一个变体，其中一个或多个可变区相对于亲本文库或群内的所有或一部分变体的相应的一个或多个可变区具有小于99％(例如，小于98％、97％、96％、95％、90％、85％、 80％、75％、70％、60％、50％、40％、30％、20％、10％或小于5％)的序列相似性(DNA和/ 或氨基酸序列)，并且其中与由亲本文库或群的所有或一部分变体展示的一个或多个适应度分数相比，具有改善的适应度分数分布的文库或群的所述变体展示一个或多个改善的适应度分数(例如，所述变体展示一个或多个改善的期望特性，例如改善的物理化学特性、改善的活性相关特性和/或改善的生理相关特性)。

在提及文库或群的“所有或一部分的序列变体”的实施方案中，应理解文库或群的“所有序列变体”是指文库或群的基本上所有变体。此外，应当理解，文库或群的“序列变体的一部分” 是指少于文库或群的基本上所有变体，例如文库或群的变体的95％、90％、85％、80％、 75％、70％、60％、50％、40％、30％、20％、10％、5％、2％、1％或少于1％)。

为免生疑问，术语“亲本文库或群”是指与新的序列群相比，经过较少优化的序列变体的文库或群。也就是说，亲本文库或群可以是直接在新的、优化的文库或群之前的文库或群。例如，亲本文库或群与新文库或群相比可能已经经历了至少n-1轮优化(例如，n-1、n-2、n-3或 n-4，其中n是新文库经历的优化轮数)。优选地，与新文库或群相比，亲本文库或群经历了 n-1轮优化(即，亲本文库或群是直接在新的、优化的文库或群之前的文库或群)。更优选地，根据本发明的文库设计步骤(a)制备亲本文库或群。

在实施方案中，在步骤(c)中训练的机器学习模型用于通过在计算机中迭代优化序列变体文库来设计新的序列变体文库，任选地其中使用遗传算法对序列变体文库进行迭代优化。

在机器学习算法是分类器的实施方案中，机器学习算法可用于构建模型，该模型预测其提供的任何新序列的类别，和/或提供表示其提供为属于任何定义的类别的新序列的概率的连续值。在机器学习算法是回归算法的实施方案中，机器学习算法可用于构建可预测其提供的任何新序列的分数的模型。

在实施方案中，机器学习算法可用于预测序列变体的初始群体的类别、分数或属于类别的概率，并且该信息可用于获得要提供给机器学习算法的新群。

在实施方案中，学习阶段包括计算新文库与任何先前生成的文库(例如，任何先前测试的文库和/或任何先前的计算机中文库)之间的距离。在实施方案中，使用Jensen-Shannon发散方法计算序列文库之间的距离。

在针对每个序列变体计算多个适应度分数的实施方案中，可以执行多目标优化，其旨在联合优化每个适应度分数的序列变体文库。

在实施方案中，使用遗传算法迭代优化序列变体文库。

在实施方案中，遗传算法的参数被优化以有利于在优化开始时探索搜索空间。优化的遗传算法的参数可以包括以下一项或多项：交叉策略的选择、交叉率、变异策略、变异率、亲本数、群大小、群中的精英数、选择方法等。

在实施方案中，可以使用马尔可夫链蒙特卡罗(MCMC)方法和/或优化算法例如梯度下降来优化序列变体文库。这样的算法和方法是本领域已知的。

在实施方案中，新的序列变体文库源自步骤(b)中测试的变体的子集。

在实施方案中，库的子集(称为初始群，或第0代)通过分类器运行，并且每个序列被分配适应度分数。然后使用遗传算法对子集进行变异，以获得第一代，并将其反馈到分类器中。重复此过程，直到生成具有足够高适应度的文库，或达到最大迭代次数。这些参数可以由用户预定义或可以分配默认值

在实施方案中，该方法进一步包括用新文库重复步骤(a)至(c)。

在实施方案中，该方法包括用新文库重复步骤(a)至(c)总共最多10次。

在实施方案中，针对文库中至少1个，优选地至少3个、至少5个或至少10个变体，该方法包括重复步骤(a)至(c)直到满足预定标准，例如一个或多个期望特性的特定值。

在实施方案中，步骤(c)包括使用任何先前测试的序列变体的一个或多个适应度分数来训练机器学习算法。

在实施方案中，新文库源自在紧接在前步骤(b)或任何在前步骤(b)中测试的变体的子集。

在实施方案中，新文库包括先前文库中不存在的变体。例如，新文库可包括预测具有高适应度分数的变体。在实施方案中，新文库不包括先前测试的变体。

在实施方案中，新文库包含至少一种编码具有一个或多个期望特性的蛋白质的序列变体。

根据第二方面，提供了一种用于生产具有一个或多个期望特性的蛋白质的系统，该系统包括：(i)处理器，其适于实施本文所述的任何方法，包括根据第一方面的实施方案的任何方法；(ii)实验室自动化设备，其中所述设备由所述处理器控制以至少执行测试步骤。

在实施方案中，实验室自动化设备包括由以下组成的组中的一个或多个：液体操纵和分配设备；容器操纵设备；实验室机器人；温育器；板操纵设备；分光光度计；色谱设备；质谱仪；热循环设备；核酸测序设备；和离心设备。

根据另一方面，本发明涉及使用本文所述方法获得的序列变体文库。

在实施方案中，序列变体文库是核酸文库。在实施方案中，文库是DNA文库。在实施方案中，序列变体的文库是肽或蛋白质文库(例如，肽配体文库、抗体文库、抗体模拟物文库或抗体片段文库，例如单链抗体或单结构域(即VHH结构域)。

在实施方案中，序列变体具有一个或多个可变区，例如至少一个、两个、三个或四个可变区 (例如，3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45或50 个可变区)。

在实施方案中，每个可变区可以独立地为1至200或1至100、1至60个核苷酸长，例如， 1至3、3至6、6至9、9至12、12至15、15至18、18至21、21至24、24至27、27至 30、30至33、33至36、36至39、39至42、42至45、45至48、48至51、51至54、54至 57或57至60个核苷酸长。优选地，1至100、1至60、1至48、3至45或3至30个核苷酸长。可变区可以是单个核苷酸。

在实施方案中，一个或多个可变区可以独立地为1至60或1至20个氨基酸长,例如1、2、 3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个氨基酸长。优选地，1至15或1至10个氨基酸长。可变区可以是单个氨基酸。

根据另一方面，提供了一种包括根据前述方面的文库的容器。

根据又一方面，提供了具有一个或多个期望特性的蛋白质，其中该蛋白质是使用本文所述的方法获得的。

在实施方案中，蛋白质包含一个或多个恒定部分和一个或多个可变部分。在实施方案中，一个或多个恒定部分包括支架结构域。在实施方案中，一个或多个可变部分包括交互介导结构域。

附图说明

图1是根据本发明的一个实施方案的迭代蛋白质工程策略的流程图；

图2示出了根据本发明实施方案的文库结构的实例；

图3示出了根据本发明实施方案的蛋白酶稳定性测定的实例；

图4显示了根据本发明实施方案的结合测定的实例；

图5说明了针对在进行测定以分离出具有期望功能的文库变体之前对于特定变体观察到的读段数的三个不同值(x＝2、x＝20、x＝200)，根据本发明的实施方案计算的作为以下比率的函数的偏差分数：对于测定后文库子集中特定变体观察到的读段数(y)与对于测定前变体观察到的读段数(x)的比率；

图6A-6E显示了根据本发明的实施方案的文库选择过程的实例的结果，其中变体文库使用噬菌体展示进行表达并且使用3轮连续的选择针对蛋白酶抗性和与靶标的结合进行选择，变体群在每轮后测序；特别地，图6A显示了每次测序运行中的原始读段总数(在选择之前，标记为‘前’，在每轮选择之后，标记为‘轮_1’、‘轮_2’和‘轮_3’)，图6B显示了选择前‘前’ 和每轮选择后在群中存在的变体总数，图6C显示了相对于对于相应测序运行的读段总数(参见图6A)在选择前‘前’和在每轮选择后在群中存在的变体数，图6D显示了在选择前‘前’和在每轮选择后在群中存在的变体总数，其不包括在起始文库中不存在的任何变体，图6E显示了频率表，该表示出了在3轮选择(‘轮_1’、‘轮_2’和‘轮_3’)的每轮之前‘前’和之后的各个可变位置的文库组成的变化-不包括那些不在原文库中存在的突变；

图7A和7B显示了根据本发明的实施方案的文库选择过程的实例的结果，其中变体文库使用mRNA展示表达并针对蛋白酶(胰蛋白酶(图7A)和糜蛋白酶(图7B)抗性进行选择，选择后通过qPCR量化变体群；特别地，图7A和7B显示了对于三个文库中的每一个，流过样品(FT)和在珠子上捕获的样品(珠子)的qPCR定量结果(ct值，荧光信号达到高于背景水平的循环数)；

图8A至8C示出了根据本发明实施方案的文库优化过程的实例的结果；特别地，图 8A到8C显示了特定迭代(图8A显示了起始群，图8B显示了第6次迭代的群，图8C显示了第14次迭代的群)，左小图上的当前群的适应度分数分布(连续曲线)和初始群的适应度分数分布(直方图)、当前迭代的文库中的变体分布(中间小图)以及多个文库的帕累托前沿(两个独立参数的最大平均适应度分数)(右小图)；

图9显示序列群的实际适应度和预测适应度之间的Spearman相关性为R＝0.67，这表明该模型能够仅基于氨基酸序列准确预测与感兴趣靶标的结合；和

图10显示了候选分子在基于细胞的效力测定中的活性。如本文所述，使用机器学习预测测试的候选分子是高性能变体。与原始分子相比，模型预测具有改进效力的候选分子中有68％在基于细胞的效力测定中显示出改进的效力。

具体实施方式

本文引用的所有参考文献均通过引用整体并入。除非另有定义，本文使用的所有技术和科学术语与本发明所属领域的普通技术人员通常理解的含义相同。

除非另有说明，本发明的实施采用化学、分子生物学、微生物学、重组DNA技术和化学方法的常规技术，这些在本领域普通技术人员的能力范围内。此类技术也在文献中进行了解释，例如，M.R.Green,J.Sambrook,2012,Molecular Cloning:A Laboratory Manual,第四版,书籍1-3,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,NY；Ausubel,F.M.et al. (1995及定期增刊；Current Protocols in Molecular Biology,第9、13和16章,John Wiley& Sons,New York,N.Y.)；B.Roe,J.Crabtree和A.Kahn,1996,DNAIsolation and Sequencing: Essential Techniques,John Wiley&Sons；J.M.Polak和James O'D.McGee,1990,In Situ Hybridisation:Principles and Practice,Oxford University Press；M.J.Gait(编者),1984, Oligonucleotide Synthesis:A Practical Approach,IRL Press；以及D.M.J.Lilley和J.E.Dahlberg, 1992,Methods of Enzymology:DNAStructure Part A:Synthesis and Physical Analysis ofDNAMethods in Enzymology,Academic Press；Durbin R.,Eddy S.,Krogh A.和Mitchinson G.(1998),Biological sequence analysis,Cambridge University Press；David W.Mount(2004), Bioinformatics,Cold Spring Harbor Laboratory Press。这些一般文本中的每一个都通过引用并入本文。

在阐述本发明之前，提供了一些有助于理解本发明的定义。

如本文所用，术语“包括”是指必须包括所列举的要素中的任何一个，并且也可以任选地包括其他要素。“主要由……组成”是指必须包括任何列举的要素，排除会对所列要素的基本和新颖特征产生实质影响的要素，并且也可以任选地包括其他要素。“由……组成” 是指排除所列以外的所有要素。由这些术语中的每一个定义的实施方案在本发明的范围内。

如本文所用，术语“文库”或“序列变体文库”是指在它们序列的至少一个位置彼此不同的相关核酸或多肽(本文也称为“肽”或“蛋白质”)的集合。因此，核酸文库包含在至少一个碱基上彼此不同的核酸(通常是DNA分子)的集合。在本发明的上下文中，每个核酸序列变体包含蛋白质的编码序列。因此，根据本发明的蛋白质文库包含通过表达核酸文库获得的蛋白质的集合。如技术人员将理解的，由于遗传密码的冗余，此类蛋白质文库可包含在至少一个氨基酸残基上彼此不同的分子，以及彼此没有不同的分子。此外，如技术人员将理解的，包含文库的样品实际上可包含一些或所有的序列变体的多个拷贝。

在实施方案中，核酸文库包含至少10⁴个序列变体，优选至少10⁵个或至少10⁶ 个序列变体。在实施方案中，核酸文库包含至少10⁷、至少10⁸、至少10⁹或至少10¹⁰个序列变体。如下文将进一步描述的，序列变体可以通过在选定的起始序列或相关序列组中引入随机可变性来获得。一组相关序列可以例如包括在某些位置(例如位置p可以是x或y)处灵活限定的单个序列，或对应于例如同源物和/或直向同源物的一组序列。因此，10⁶个序列变体的文库不一定包含10⁶个不同的序列。相反，10⁶个序列变体的文库可以包含这样的10⁶个序列，其每个序列来自序列池的采样，这在为在起始序列中引入可变性而限定的约束内是可能的。在实践中，文库中不同序列的数量可能受到起始序列中引入的可变性以及起始序列长度的限制。在实施方案中，核酸文库中不同序列的总数可为至少约10k、至少约50k、至少约 100k或至少约150k。

在本发明的上下文中，如下文将进一步描述的，核酸文库中的序列变体包含一个或多个恒定区和一个或多个可变区，其中一个或多个恒定区是文库中所有变体共有的，并且一个或多个可变区不是文库中所有变体共有的。序列变体可以作为多个部分提供，这些部分被组装以形成文库中的每个序列变体。当使用多个部分时，每个部分可以是恒定部分(如果它不包含可变区)，或者可变部分(如果它包含至少一个可变区)。当设计核酸文库时，完全限定恒定部分/区，在本文中也称为“固定部分/区”。因此，构成恒定部分/区的核苷酸序列可以被完全限定并且为文库中的所有序列所共有。或者，也可以在一个库中存在多个等效的恒定部分/区，但每个这样的恒定部分/区在文库设计开始时就已完全限定，而不是随机变化。

在本发明的上下文中，术语“高通量”涉及能够并行处理如上所述的核酸文库或相应蛋白质文库的所有变体的测定、过程和方案。

如本文所用，“适应度分数”(也称为“分数”或“偏差”或“偏差分数”)是与蛋白质或核酸文库中的序列变体相关的分数，并且表示变体具有一个或多个期望特性的可能性。

本发明提供了一种新方法，该方法使用大核酸文库设计、高通量测定和机器学习的组合来设计具有期望功能的蛋白质。

图1显示了根据本发明的实施方案用于生产具有一个或多个期望特性的蛋白质的方法的流程图。在高层次上，所示方法包括文库设计步骤10、文库构建步骤20、文库测试步骤 30和学习步骤40，其中学习步骤40的结果用于通知新的文库设计步骤10'，然后可以任选地将其用作构建20、测试30和学习40的新循环的输入。在图示的实施方案中，文库设计步骤10包括通过选择12起始序列或序列组、在起始序列中(或跨越起始序列组)限定14恒定区和可变区并且限定16要在可变区中引入的可变性来设计序列变体的核酸文库。例如，可以选择起始序列，因为它已经具有一个或多个期望特性中的至少一种，或者有可能适合于具有一个或多个期望特性中的至少一种。在图示的实施方案中，文库构建步骤20包括获取22将用于构建文库的物理部分，组装24所述部分以获得核酸文库，以及从核酸文库产生26蛋白质文库。不包含可变区的部分在本文中被称为“恒定部分”。包含至少一个可变区的部分在本文中被称为“可变部分”。核酸文库中的序列变体可以通过多个部分的组装形成，其中至少一个是可变部分。序列变体通常包含至少一个可变部分。取决于可变区和恒定区的相对大小和位置，可以有利地提供附加的可变部分和恒定部分。例如，在存在大的恒定区的情况下，这些可以有利地作为单独的恒定部分提供。相比之下，散布在可变区之间的相对较小的恒定区可以有利地被提供作为可变部分的一部分。在文库测试步骤30中，针对一种或多种特性并行测试32蛋白质文库中的所有序列变体。在学习步骤40中，至少部分地基于文库测试步骤 30的结果，为步骤30中测试的序列变体分配42一个或多个适应度分数。序列变体的适应度分数用于训练44一个或多个模型，该模型使用机器学习算法来预测新序列变体的一个或多个适应度分数。然后使用在步骤44中训练的机器学习模型来设计16具有改进的适应度分数分布的序列变体的新文库。在实施方案中，设计10、10'和学习40步骤在计算机上执行，而构建20和测试30步骤涉及物理部分并且通常在体外执行。然而，取决于在步骤32中执行的测定的性质，一些测试步骤30可以在计算机中执行。例如，可以使用一种或多种计算机分析来分析序列变体以例如预测序列变体具有一个或多个期望特性的可能性。

期望特性可以选自蛋白质的物理化学特性，例如化学稳定性(例如耐氧化剂、酸等)、溶解性、耐热性、抗干燥和再水合性(例如干燥和再合化后保持可接受的活性水平或的其他功能)等；活性相关(例如“功能性”)特性，例如酶活性、任何活性或结合的特异性、脱靶效应 (即与主要靶标以外的靶标的活性或结合)、结合亲和力、所选靶标的结合/解离率(k_on、k_off、 k_D)、抑制或刺激酶的能力、亲和力(功能亲和力)等；生理相关特性，例如蛋白酶抗性、免疫原性、激活一种或多种免疫效应物的能力、穿过血脑屏障的能力、穿过上皮细胞(例如肠上皮细胞、肺上皮细胞等)的能力、进入细胞的能力、穿过细胞膜/脂质双层的能力、进入特定细胞类型的细胞的能力、穿透实体瘤的能力、器官/细胞类型特异性递送的适用性等；药代动力学特性，例如消除半衰期、清除率、毒性、器官特异性药代动力学等。可以在计算机中评估的特性可以包括蛋白质稳定性、免疫原性、结合亲和力或至少部分可从计算机序列分析中得出的任何其他功能。现在将更详细地检查这些步骤中的每一个。

通过指定恒定区和可变区如上所述设计核酸文库能够将蛋白质序列空间的探索限制在特定区域(即由可变部分表示的区域)。这进而简化了蛋白质工程过程，并使其能够专注于例如可变性可能导致与一个或多个期望特性相关的改进的区域。此外，当文库中的变体根据部分在结构上限定时，其中一些可以是恒定部分，其中一些可以是可变部分，这些可以单独获取，然后组装。这可以导致显著的实际和成本效率改进，因为恒定部分只需为文库获取一次，然后可以根据需要进行扩增(例如通过PCR)，并且多个可变部分的获取可以限制为特定的(优选地是短的)序列区域。此外，可以将恒定部分设计为包括功能元件，例如启动子、标记、增强子、定位信号、标志物、充当例如支架的蛋白质序列的部分等，它们是文库中所有序列共有的。此外，可以简单地获得恒定部分的替代版本(例如，包括不同的启动子或标记) 并与可变部分的集合相结合以创建新文库。

图2示出了根据本发明实施方案的文库结构的实例，并说明了上述步骤12、14和16 的结果。在图2所示的实施方案中，每个序列变体包含第一恒定部分200，其包含启动子202 和标记204(例如，纯化标记)，其中整个恒定部分代表序列的恒定区。第一恒定部分200包括编码蛋白质的N端帽206的一部分。每个序列变体进一步包含第二恒定部分208，其包含编码蛋白质的C端帽210的一部分，以及被接头序列214包围的纯化标记212。每个序列变体进一步包括两个可变部分216、218。每个可变部分216、218包括至少一个可变区220，每个可变区包括引入可变性的多个位置的子集。部分200、208、216、218中的每一个还包括与相邻部分的端部序列相同的至少一个短端部序列222a、222b、222c，以允许产生用于组装的突出端。

在实施方案中，短序列(和相应的突出端)可以具有2至20个碱基之间的长度。在实施方案中，短序列(和相应的突出端)可以具有4至10个碱基之间的长度。图2进一步显示了引物224a、224b、224c、224d，它们中的每一个被提供以与部分200、208、216、218之一退火，以便通过引物的PCR延伸从单个DNA部分产生双链DNA部分。在所示出的实施方案中，一些引物包含脱氧尿苷，特别是结合到在相邻部分对之间是相同的短端部序列222a、 222b、222c内的部分的区域的引物224a、224b、224c。这对于组装步骤24可能是有用的，如下文将进一步解释的。简而言之，这些引物中脱氧尿苷的存在将导致在延伸时产生对应于部分200、216和218的双链DNA片段，每个片段的一端含有U，其可以被尿嘧啶特异性切除试剂识别用于创建‘粘性末端’或突出端以便组装。在图2所示的实施方案中，部分216、 218和208含有与短端部序列222a、222b和222c相邻的脱氧尿苷(分别在部分216、218和 208中)。这对于组装步骤24可能是有用的，如上文和下文进一步解释的。在实施方案中，可以提供互补引物以扩增恒定部分200和208。换句话说，尽管图2中仅示出了反向引物 224a、224d，但可以提供相应的正向引物以允许对每个恒定部分使用一对引物对恒定部分进行PCR扩增。类似地，可以提供相应的正向引物来扩增可变部分。这些可以有利地包含脱氧尿苷。不希望受到理论的束缚，相信恒定部分的扩增可能是有利的，以获得用于与各个可变部分组合的恒定部分池。相比之下，可以有利地避免可变部分的扩增，例如以通过用一些序列人为地富集文库来降低在文库中引入偏差的风险。

在实施方案中，恒定部分被设计为长达约2000个核苷酸。如上所述，有利地，恒定部分只需获取一次并且不包含可变性。因此，这些序列可以容易地作为双链DNA(dsDNA)获得，它们可以有利地以低成本复制，例如通过将它们包含在能够在细菌细胞中复制的质粒中。在实施方案中，可变部分被设计为长达约200个核苷酸。这样的长度有利地适合以高精度化学合成。此外，可变部分可以作为单链DNA(ssDNA)获得。这在使用具有高随机可变性的可变部分的复杂集合的情况下可能特别有利，因为使用传统的重叠延伸PCR难以合成这些。

如图2的实施方案所示，可变区通常位于由文库中的变体编码的蛋白质的编码序列内。因此，可变部分通常包含由文库中的变体编码的蛋白质的编码序列的一部分。通常提供至少一个恒定区，其包含启动子序列(例如T7启动子序列)、核糖体结合位点、一个或多个任选的标记和经编码的蛋白质的编码序列的起始(即N端部分)。取决于恒定区的大小，这可以有利地作为恒定部分提供。在实施方案中，可变区可以替代地或另外包含预期具有调节功能的非编码序列。例如，可以提供可变部分，其包含一些或部分启动子序列、核糖体结合位点等。此类实施方案可以有利地用于研究这些区域的可变性是否可以对由文库中的变体编码的蛋白质的编码序列的表达具有期望的影响。此外，可以提供至少一个第二或最终恒定部分，其包含所编码蛋白质的编码序列的末端(即C端部分)和一个或多个任选的纯化标记。在实施方案中，恒定部分可以包括一个或多个编码功能元件的序列，例如：增强子序列、定位信号、标记序列、标志物序列和选择序列。

尽管图2所示的实施方案包括两个可变部分和两个恒定部分，但是应当理解，部分的多种其他组合也是可能的。特别地，可以在两个可变部分之间提供另外的恒定部分。或者，可以不提供恒定部分。例如，所提供的所有部分可以包括一个或多个可变区，其可以是一个或多个恒定区的侧翼/相邻。此外，可以有利地将恒定区划分为不止一个恒定部分。这可能是有利的，例如，当使用非常大的序列时，和/或在恒定部分中提供的功能元件中的模块化可能是有利的。在实施方案中，每个序列变体恰好具有两个可变部分和两个恒定部分。不希望受理论束缚，认为将文库结构限制为两个可变部分控制了与获得可变部分相关的成本，并且当可变部分包括相似部分(例如重复支架)以降低在文库组装步骤中引入错误的风险时这可能是有用的。

在步骤16中，限定了要引入文库中的可变性。在实施方案中，可变区被设计为在至少一个位置包括随机可变性。位置(或多个位置)可以被限定(如在图2的实施方案中所示的位置220的情况下)，或者可以在整个可变区中是随机的(如使用随机诱变的情况)。因此，在实施方案中，可变区被设计为包括可变区的一个或多个特定位置的随机可变性。可以通过为每个碱基(A、C、T、G)提供概率来约束随机可变性(无论其位置是特定的还是随机的)。在使用多个特定可变位置的实施方案中，每个碱基的概率在每个可变位置上可以相同，或者可以取决于可变位置。在实施方案中，至少一个碱基在至少一个位置的概率可以是0(即可以排除一个或多个特定碱基)。在实施方案中，可变性可以被约束以将可变序列限制为序列的每个三联体对应于DNA密码子的序列。在特定实施方案中，可变性可以被约束以排除在可变部分内包括终止密码子的变体，从而去除可能编码截短蛋白质的序列。在实施方案中，可变性可以被约束以使得一些密码子比其他密码子更不可能出现，例如通过为密码子分配权重。例如，可以优选地避免但不正式排除编码某些氨基酸(例如半胱氨酸和脯氨酸)的密码子，例如通过对编码这些氨基酸的密码子应用比对其他密码子更低的权重(例如可以为其分配默认权重)。在实施方案中，可变性可以通过将权重分配给设计为确保出现在由变体编码的蛋白质文库中的氨基酸的比率近似对应于期望比率的密码子来约束。

在实施方案中，可变区可以通过分析选择的蛋白质序列以鉴定一个或多个区域来设计，在这些区域中预期可变性导致至少一种期望特性的改善/获得。在实施方案中，可以通过以下鉴定此类区域：将与所选蛋白质序列相关的蛋白质序列比对以：鉴定保守区域、默认认为是可变的非保守区域和/或鉴定功能区域(有时称为“结构域”)，例如可以改变的交互区域/ 结构域，例如以改变交互伙伴。在实施方案中，此类区域可通过所选蛋白质的结构分析(使用实验或预测的蛋白质结构)来鉴定以鉴定交互区域、暴露区域、弱点等。在实施方案中，此类区域可通过序列分析来鉴定以鉴定潜在的弱点(例如蛋白酶敏感点，如暴露的环)。在实施方案中，可以通过文献分析来鉴定这样的区域。在实施方案中，可以使用通过将机器学习算法应用于与一个或多个先前获得的文库相关联的数据而获得的模型来设计可变区。此类模型可用于鉴定一个或多个区域，其中预期可变性导致至少一种期望特性的改善/获得，并且可以另外用于鉴定在文库中引入可变性时要包括或排除的特定突变或突变组合。如技术人员将理解的，这些方法中的每一种的任何组合可以在一个文库设计过程中组合，该过程可以另外至少部分自动化。相反，在实施方案中，可以通过鉴定所选序列的一个或多个区域来设计恒定区，其中预期可变性对蛋白质的完整性和/或一个或多个期望特性中的至少一种有害。这可以使用上述任何一种方法来执行。

在组装步骤24中，对应于每个恒定部分(如果存在)的核酸分子和对应于一个或多个可变部分的变体的核酸分子——它们在步骤22中分别获取(例如，获取自商业寡核苷酸合成服务)——被物理组装以创建文库的每个核酸序列变体。在组装之前，通过本领域已知的聚合酶链反应(PCR)扩增一个或多个恒定部分中的每一个，可以获得对应于一个或多个恒定部分 (如果使用)中的每一个的多个核酸分子。此外，在组装之前，可以通过单引物延伸合成第二条DNA链，获得对应于一个或多个可变部分的变体的多个双链核酸分子。有利地，通过不使用PCR来产生可变部分确保不会将错误和扩增偏差引入文库中。当可变部分设计为具有每个变体的特定概率时，这是特别有利的，因为PCR的保真度和扩增偏差的正常变化可能改变这些概率。可以使用本领域已知的任何组装方法将恒定部分和可变部分组装成组合的双链核酸序列。

在实施方案中，组装所述部分包括通过USER(尿嘧啶特异性切除试剂)组装来组装所述部分。USER组装的工作原理是将一种称为脱氧尿苷(与尿苷密切相关)的非天然核苷酸碱基整合到文库的特定位置的核酸部分中。因此，在此类实施方案中，核酸部分在其序列中的特定点处包括脱氧尿苷残基。这些可以通过PCR引入和/或可以存在于ssDNA部分和/或用于单引物延伸的引物中。然后由USER酶混合物处理所述部分中的脱氧尿苷，这首先切掉脱氧尿苷的碱基，然后切割脱氧尿苷两侧的DNA主链。这允许分子的短端(例如3'端)解离(由于它们的低解链温度)，留下短的单链区域。这些单链区域然后与相应输入部分上的互补链杂交。最后，使用DNA连接酶(例如T4连接酶)密封DNA骨架。

USER组装是有利的，因为它不依赖限制性内切酶、无疤痕并导致可编程的突出端。限制酶识别DNA中的特定序列基序。当使用高度随机化的文库时，这些基序可能出现在文库的编码序列中，从而破坏了一些变体。此外，许多传统的DNA组装方法会留下“疤痕”，这是在组装区域时总是出现的短固定序列。当疤痕存在于功能序列(例如蛋白质编码序列)中时，这是有问题的。最后，USER组装使用待组装片段末端(称为“粘性末端”)的互补单链 DNA区域，其直接组装。在许多其他方法中也是如此，但是对于USER组装，粘性末端的序列和长度并未内置到过程本身中，并且可以使用单一约束进行设计，即序列必须允许脱氧尿苷残基并入，其中链将被切割以在互补链上产生粘性末端。因此，可以设计组装过程的特异性(包括方向性)和效率。因此，在实施方案中，文库设计步骤10包括设计恒定部分(如果使用)和可变部分以允许稍后并入脱氧尿苷残基以形成用于组装步骤的粘性末端(突出端)。

在实施方案中，步骤24包括使用达尔文组装方法。达尔文组装方法是本领域已知的。例如，Cozens等人，2018(Nucleic Acids Res；46(8)：e51，通过引用并入本文)描述了使用达尔文组装方法组装文库的方案。本发明人已经发现，在本发明的方法中使用达尔文组装允许在DNA文库中有效地添加大数量(例如，多于3个，例如4、5、6、7、8、9、10、11、 12、13、14、15、20、25、30、35、40、45或50)个小可变区(例如，1到15、1到30、1到 50、1到75、1到100或1到200个核苷酸长，优选地小于100个核苷酸长)。此外，本发明人已经发现在本方法中使用达尔文组装减少了文库变体中碱基的非特异性插入或缺失，这减少了移码突变的发生率。本发明人已发现达尔文组装特别适用于在整个结合蛋白中引入可变区，例如抗体框架区和抗体模拟框架/支架区。

在实施方案中，步骤24包括使用反向PCR。反向PCR方法是本领域已知的，例如，参见Ochman等人，1989(Erlich HA(eds)PCR Technology.Palgrave Macmillan,London)。反向 PCR是一种特别简单的技术，其允许快速有效地组装简单的DNA文库，因为它只需要一个 PCR扩增步骤以从模板中引入预期的突变。本发明人已经发现，当文库设计简单时，反向 PCR在本发明的方法中特别有效(即存在可变性的小的区域，例如单个核苷酸，或大约3到 50个核苷酸长的区域，例如3到30个核苷酸长的区域，和/或可变性的小数量的区域，例如少于10个，少于5、4、3个或少于2个，例如单个可变性区域)。

在可以进行文库的期望特性测试之前，在步骤26中从核酸文库获得蛋白质文库。由于核酸文库通常是DNA文库，这包括转录和翻译DNA文库。在实施方案中，至少一个恒定部分被设计为包括T7启动子，并且转录DNA文库包括用T7 RNA聚合酶温育DNA文库。有利地，T7 RNA聚合酶具有明确限定的启动子序列(TAATACGACTCACTATAG(SEQ ID NO:1)，其中转录从G开始，其位于3'端)，并且具有非常低的错误率。

根据本发明，核酸文库优选以维持每个RNA模板与其编码的蛋白质之间的关系的方式进行翻译，即通过使用所谓的“展示技术”。有利地，这意味着蛋白质文库可以进行与步骤 30中的蛋白质功能相关的高通量测定(即，其中平行测试文库的至少重要部分)，同时能够对所鉴定的蛋白质进行高通量鉴定以具有作为测定的结果的一个或多个期望特性。在实施方案中，翻译核酸文库以产生蛋白质文库包括合成RNA-多肽融合分子，每个融合分子包含与其编码的蛋白质结合的RNA序列变体。在实施方案中，这可以使用称为“mRNA展示”的技术来完成。在一个特定的实施方案中，将包含嘌呤霉素(一种小分子抗生素)的修饰寡核苷酸连接到转录的mRNA模板的末端。这是通过将一段DNA与3'嘌呤霉素分子(称为“嘌呤霉素接头”)连接到每个mRNA模板的3'端来进行的。该段DNA包含二级结构，该结构阻止翻译，从而允许嘌呤霉素进入核糖体并与正在合成的肽共价连接。因此，在翻译时，嘌呤霉素将在组装的蛋白质和mRNA之间形成共价键。mRNA的存在可能改变用于测试期望特性的测定的结果，尤其是在蛋白质很小的情况下。然而，与易于鉴定蛋白质变体相关的好处超过了这种潜在的缺点(见下文)。

在实施方案中，可以使用本领域已知的其他展示技术，例如Galan et al.,Mol.BioSyst., 2016,12,2342-2358中综述的任一展示技术，其内容通过引用并入本文。例如，可以使用选自噬菌体展示、CIS展示(基于顺式活性的展示)、cDNA展示、酵母展示、大肠杆菌展示、核糖体展示、共价抗体(CAD)展示、体外区室化、孢子表面展示和SNAP标签展示的任一展示技术。在一个实施方案中，所使用的展示技术选自由mRNA展示或噬菌体展示组成的组。

不希望受理论束缚，认为噬菌体展示在本发明的背景中是有利的，因为它允许与mRNA展示相比有效地展示大的蛋白质(例如，大于10kDa的蛋白质，例如15、30、40或50、10-100 或10-50kDa)，从而允许更有效地选择对应于[a]大蛋白质的文库中的变体。此外，不希望受理论束缚，认为mRNA展示在本发明的背景中是有利的，因为整个过程发生在体外。这消除了将DNA文库转化为细胞的需要，该过程通常是低效率的过程，从而产生瓶颈并可能使文库产生偏差。此外，在mRNA展示中，编码序列与蛋白质共价连接，从而即使在苛刻的测试条件下也能防止两部分分离。这使得能够测试大范围的期望特性，包括例如对苛刻条件的耐受性。在实施方案中，所产生的蛋白质文库可以通过纯化样品中的蛋白质并进行逆转录定量PCR以量化与蛋白质文库相关的mRNA的量来进行质量控制。在这样的实施方案中，至少一个恒定区可以被设计为包含编码蛋白质纯化标签的序列。例如，蛋白质纯化标签可以是链霉亲和素结合肽。如果mRNA展示步骤成功，则该分析应显示蛋白质纯化后蛋白质文库样品中存在RNA。

在使用噬菌体展示作为展示技术的实施方案中，使用一系列选择严格性来进行噬菌体展示选择过程。例如，适用于本发明的选择严格性包括，例如，变化的靶蛋白浓度、变化的蛋白酶浓度(例如胰蛋白酶和/或胰凝乳蛋白酶浓度)、变化的靶蛋白浓度和蛋白酶浓度(例如胰蛋白酶和/或胰凝乳蛋白酶浓度)。

在步骤26获得蛋白质文库后，现在可以运行蛋白质文库通过一种或多种测定以测试一个或多个期望特性。该测定可以将蛋白质文库分成至少2个样品。由于蛋白质文库是以保留核酸序列与其编码蛋白质之间关系的方式获得的(例如使用mRNA展示)，因此可以对这两个样品中的一个或两个样品进行下一代测序。在实施方案中，例如当使用mRNA展示时，这包括逆转录和纯化任何待测序的样品。使用新一代测序来鉴定已使用一种或多种功能性测定表征的样品中的蛋白质能够以非常高的通量鉴定具有/不具有期望功能(取决于它们在测定中的表现)的蛋白质。在蛋白质水平上识别变体会非常容易出错(例如，质谱蛋白质组学目前仍然比DNA测序噪音大得多)和/或明显更慢。在实施方案中，已经分离的两个或更多个样品可以被一起条形码化和测序。在实施方案中，在测序之后，序列读段(也称为“读段”)可以与步骤10(或10'，视情况而定)中设计的核酸文库的序列比对。在实施方案中，读段可以与用于生成文库的序列设计比对，而不是与明确列举文库中部分的所有可能组合的一组序列比对。这可以有利地影响比对过程的计算效率。在此上下文中，“序列设计”可以指文库中每个部分的单独序列(而不是文库中部分的每个可能组合)，和/或是通用序列(或通用序列集)，其允许在比对读段时设计为可变区的任何区域中的可变性(可选地受约束的可变性)。比对后，读段可以合并成连续序列。优选地，使用提供长读段的测序技术，例如大约一到几百个碱基对，或约600个碱基对长。有利地，可以使用双端测序技术。例如，具有一到几百个碱基对长(例如约300个碱基对长)的读段的成对端测序技术可能是有利的。例如，可以使用基于

珠子的测序技术，例如在MiSeq系统中使用的那些。有利地，使用长读段可以增加能够将读段唯一地归因于序列变体的可能性，即使在一些序列变体可能共享可变区的子集时。取决于序列变体和/或所用部分的长度，可以使用提供甚至更长读段的测序技术，例如大约一到5万个碱基对。例如，可以使用单分子实时测序技术，例如来自PacBio的Sequel System中的那些技术。读段和/或合并的序列可以进行一个或多个质量控制步骤，例如通过对与碱基检出过程相关的分数应用过滤器，无论是基于每个位置，还是跨多个位置的平均值 (例如整个读段或滑动窗口)。然后可以对每个序列在每个样品中出现的次数进行计数(也称为 “计数”)。在实施方案中，如下文将进一步描述的，还可以在对文库进行一种或多种测定的步骤之前对文库进行测序。这可以在设计用于选择一个或多个期望特性的测定之前和之后进行文库组成的比较。

在实施方案中，一个或多个期望特性选自：与特定靶标的结合、蛋白酶抗性、在所选物理化学条件下的稳定性等。

图3示出了根据本发明实施方案的蛋白酶稳定性测定的实例。对于根据本发明的实施方案的蛋白酶稳定性测定，设计核酸文库使得经编码的蛋白质300(在图3中显示为“感兴趣的蛋白质”或POI)在其C端包含蛋白质纯化标签302。例如，蛋白质纯化标签可以是链霉亲和素结合肽(例如，“strep标签”)。在mRNA展示之后，与每个蛋白质相关的mRNA模板分子 304将通过嘌呤霉素分子314与蛋白质文库中每个蛋白质300的N端结合。蛋白质文库用一种或多种蛋白酶306消化。在规定的时间段后，使用适当的亲和纯化方法纯化蛋白质。在图 3所示的实施方案中，这是使用以链霉亲和素标记的磁珠308进行的。由于所有蛋白质300 在C端是strep标记的，因此它们结合这些磁珠308。已被蛋白酶切割的蛋白质的C端仍将结合这些珠子，但它们的编码mRNA链304将在固定过程中被洗掉。这样，留在珠子上的任何模板RNA 304都属于蛋白酶稳定变体。然后可以使用引物310对该RNA进行逆转录以获得相应的DNA分子312。然后可以对DNA分子312进行测序以揭示哪些蛋白质是蛋白酶稳定的。在实施方案中，在磁下拉过程中被洗掉的RNA也可以被逆转录和测序以提供阴性数据集以与阳性数据集进行比较。

图4显示了根据本发明实施方案的结合测定的实例。在mRNA展示之后，蛋白质文库可以包含具有结合结构域402a的经编码的蛋白质400(在图4中显示为“感兴趣的蛋白质”或 POI)和具有结合结构域402b的经编码的蛋白质400(在图4中显示为“感兴趣的蛋白质”或 POI)，其中每个蛋白质400通过嘌呤霉素分子414与其mRNA模板404相关联。因此，文库可以与固定在表面上的特定目标306一起温育，在图4所示的实施方案中，该表面是磁珠 408的表面。具有结合靶标306的结合结构域402a的蛋白质可以与具有不结合靶标408的结合结构域403b的蛋白质分离(例如通过拉下磁珠)。然后可以使用引物410逆转录第一个样品中的RNA以获得相应的DNA 412。然后可以对这些进行测序以鉴定与靶标306结合的序列变体。在实施方案中，该方法可以进一步包括在温育之后洗涤表面，以去除非特异性相互作用。在实施方案中，该方法进一步包括将相同的文库暴露于对照条件(例如仅表面而没有固定的靶标)，以滤除假阳性(例如结合到表面而不是靶标的变体)。

在步骤42，一个或多个适应度分数可以与在步骤32中测试的每个变体相关联。特别地，文库测试步骤可以包括针对多个特性测试变体，并且可以将多个适应度分数分配给所测试的每个变体，其中每个适应度分数对应于多个特性中的一个。现在将更详细地描述评分过程。在实施方案中，与每个序列变体相关联的一个或多个适应度分数取决于每个序列在第一样品中出现的次数和每个序列在第二样品中出现的次数，其中通过对每个样品进行下一代测序，可以如上解释的获得该次数。实际上，不希望受理论束缚，以下假设对此进行了强调：序列在某个池中出现的频率越高，该序列真正属于该池的可能性就越大。例如，如果一个序列在蛋白酶选择期间暴露于蛋白酶后出现的频率增加了100倍(与蛋白酶选择前相比)，则它将获得蛋白酶稳定性的高分数，而在选择期间暴露于蛋白酶后出现频率降低了100倍的序列将获得蛋白酶稳定性的低分数。有利地，这种对序列进行评分的方法可以能够减少系统中噪声的影响。如果一个序列在选择后只出现一次，这可能只是在文库制备过程中引入的错误，或者是碰巧没有遇到蛋白酶的序列，而不是它实际上增加了稳定性。

在实施方案中，与序列变体相关联的适应度分数是量化特定步骤相对于序列的偏差程度的分数。这可以例如是概率分数，如下所述。分数可以与方法中的任何步骤相关联，但更常见的是与测试步骤的任何子步骤(例如功能测定)相关联。例如，测试期望功能的测定可以与分数(也称为“偏差”或“偏差分数”)相关联，该分数通过在测定之前和之后在文库上比较测序数据(例如序列计数)量化步骤对文库中每个序列的偏差程度。

在实施方案中将分数在0(强负偏差)和1(强正偏差)之间量化。例如，这可以使用基于简单比率的方法(例如，基于计算计数比率)或贝叶斯方法来执行。使用介于0和1之间的分数可能有利于在许多模型中使用，例如回归模型。在实施方案中，使用贝叶斯方法将分数在 0(强负偏差)和1(强正偏差)之间量化。在实施方案中，0和1之间的连续分数可用于训练模型，如下文将进一步解释的。在实施方案中，例如为了训练分类器的目的，可以为0和1之间的连续分数分配标签。例如，取决于主观置信水平，中间分数可以被视为负偏差、正偏差或“与之前相似”(在某些情况下可能被标记为“成功”)。在实施方案中，可以定义一个或多个置信水平以将分数标记为“低于预期/失败”(例如低于第一阈值)、“高于预期/成功”(例如高于第二阈值)或“在预期内”(例如介于第一和第二阈值之间)。在实施方案中，使用贝叶斯方法来量化得分，该方法被设计成对于给定序列量化在步骤之后测量序列变体的y计数的期望，假设是具有未知均值λ的泊松分布，并且已测量步骤之前序列变体的x计数(即p(y|x))。特别地，如果从中抽取x和y的样品大小相等，则p(y|x)可以计算为(x+y)！/(x！y！2(x+y+1))。如果从中抽取x和y的样品大小不是偶数(x是从样品大小N1中观察到的，y是从样品大小N2中观察到的)，则p(y|x)可以计算为(N2/N1)y*((x+y)！/(x！y！(1+(N2/N1))(x+y+1)))。这些值假设 p(x)和p(y)来自具有未知均值λ的相同泊松分布，其中为λ假设平坦先验。关于这些统计学的更多细节可以在Audic&Claverie(Genome Research 1997,7:986-995)中找到，该文献通过引用并入本文。在实施方案中，可以为λ假设非平坦先验。例如，如Audic&Claverie (Genome Research 1997,7:986-995)中解释的，可以选择λ的有限感兴趣区域而不是0到无穷大(即平坦先验)。

然后可以通过计算所有p(y_i|x)的总和来导出序列变体的分数，其中y_i是子集[0,y]中的任何计数y。这有利地得到介于0和1之间的分数。

图5说明了针对在步骤之前对于特定变体观察到的读段数的三个不同值(x＝2、x＝20、 x＝200)，作为以下比率的函数的N2/N1＝1.02的计算的偏差分数：对于步骤后特定变体观察到的读段数(y)与对于步骤前变体观察到的读段数(x)的比率。从图5中可以看出，这种评分方法使得x的值越大(即在该步骤之前观察到的序列越多)，偏差分数越快渐近到极值(负偏差的为0，正偏差的为1)。有利地，这反映了当在步骤之后40次和步骤之前20次观察序列时，与在步骤之前两次和步骤之后4次观察变体的情况相比，我们可以获得与序列变体相关的步骤的偏差的更高置信度。

在实施方案中，分数可用于限定“负偏差”的一组序列(例如偏差分数<0.1)、“正偏差” 的一组序列(例如偏差分数>0.9)，其余序列被限定为“如预期/无偏差”。这些限定可由机器学习算法在步骤44中使用，如下文将进一步描述的。在实施方案中，可以使用选择的置信水平CL来设置负偏差或正偏差的序列的阈值。特别地，分数>1-ε的序列可以被标记为“正偏差”，而分数<ε的序列可以被标记为“负偏差”，其中ε计算为(1-CL)/2。例如，置信度 CL＝0.9975表示在400次测试中容差为1个错误(1/(1-0.9975)，也称为3∑置信度)。在实施方案中，CL至少0.9975(每400次测试中有1个错误)、至少0.955(每22次测试中有1个错误，也称为2∑置信度)或至少0.683(每3次测试中有1个错误，也称为1∑置信度)。在实施方案中，如果序列在第一和第二样品中出现至少一次，则仅针对序列变体计算适应度分数。这可有助于排除由于测序过程中的错误而出现的且不是“真实读数”的序列。在实施方案中，对分数进行过滤以排除在第一样品、第二样品或第一和第二样品的总和中出现少于选定次数的序列变体。例如，可以应用每个样品中或跨两个样品的最少4、6、8、10、15或20个读段的阈值。

在实施方案中，可以为每个序列变体、每个期望功能，计算单独的偏差分数，如上所述。例如，假设对蛋白质文库进行第一测定以量化对第一靶标的结合亲和力，并进行第二测定以量化对第二靶标的结合亲和力，可以计算两个单独的分数，反映与每个序列变体相关的这些测定中每个的偏差。

在步骤44，训练一种或多种机器算法以使用在步骤42中获得的分数构建预测模型。因此，获得了将变体序列的特征与通过在步骤42中获得的分数测量的适应度相关联的模型。特别地，在为每个变体计算多个适应度分数的情况下，可以为每个变体分配组合的适应度分数并且可以训练单个机器学习算法以基于组合的分数构建预测模型。优选地，可以训练多个机器算法，每个算法基于多个适应度分数之一。换言之，可以训练每个算法以预测与一个期望功能相关的序列的适应度。在实施方案中，可以构建单个(例如多变量)模型来预测多个适应度分数。在实施方案中，变体的序列可以以二维或三维矩阵被编码，并且每个变体的适应度分数(作为一维向量)被用作标签。在实施方案中，变体在氨基酸或核苷酸水平编码。有利地，在氨基酸水平上编码可以比在碱基水平上编码简单得多，并且可适合于捕获与蛋白质序列相关的特性(例如蛋白质本身的任何特性)。在实施方案中，变体对于某些模型(即训练用于预测与某些期望功能相关的适应度分数的模型)在核苷酸水平上编码，以及对于其他模型(即，训练用于预测与其他期望功能相关联的适应度分数的模型)在氨基酸水平上编码。例如，序列可以以二维二进制矩阵编码，也称为(热编码)，其中每列对应于位置和该位置的变体(例如：第1列：位置1-氨基酸1；第2列：位置1-氨基酸2等)并且每行对应于变体(即在位置1具有氨基酸2的变体将在第1列中为0，在第2列中为1)。在实施方案中，序列可以以三维二进制矩阵编码(热编码)，其中第一维(例如列)对应于位置，第二维(例如行)对应于变体，并且第三维(例如‘深')对应于该位置的氨基酸或核苷酸，视情况而定。例如，第一列对应于位置1，第一行对应于变体1，深维度对应于氨基酸(深1＝氨基酸1，深2＝氨基酸2，等等)。在此实例中，在位置1具有氨基酸2的变体将在位置(列1,行1,深1)处为0，在位置 (列11,行1,深2)处为1(并且每隔一个位置(列1,行1,深x)处为0)其中x不是2)。或者，氨基酸或核苷酸(视情况而定)可以被数字编码并包括在矩阵中，其中每列对应于位置，每行对应于变体。在此类实例中，变体将在其行的每列中具有代表相应位置处的氨基酸/核苷酸的数字。

在实施方案中，一种或多种机器学习算法中的一种或多种是分类器。换句话说，可以训练机器学习算法来预测序列更可能属于所选的一组类别中的哪一个。例如，序列的类别可以如上文所解释被定义为具有标记为“正偏差”的分数、标记为“负偏差”的分数和可选地标记为“中性”的分数的那些。然后机器学习算法可以使用分配给每个类别的序列的特征来学习哪些特征与类别相关联(隐含地或明确地)，并预测新序列的类别。在机器学习算法是分类器的实施方案中，机器学习算法可用于预测其提供的任何新序列的类别，和/或预测表示其提供为属于任何定义的类别的新序列的概率的连续值。在机器学习算法是回归算法的实施方案中，机器学习算法可用于预测其提供的任何新序列的分数。在实施方案中，机器学习算法是回归算法。换言之，可以训练机器学习算法来预测每个序列的数值(例如连续数值)。当数据表明偏差分数在分数范围的末端附近强烈聚集时(即，大多数序列变体具有接近于0或接近于1的偏差分数)，分类器可被有利地施用。在机器学习算法是分类器或回归算法的实施方案中，算法可以是决策树集合或支持向量机算法。

在实施方案中，可以使用一种或多种机器学习算法并且可以比较或以其他方式组合多种算法的输出。在实施方案中，机器学习算法可以是深度学习算法。例如，机器学习算法可以选自密集神经网络、卷积神经网络、循环神经网络、自编码器等。

在实施方案中，一种或多种机器学习算法中的一种或多种可以是所谓的“黑盒”算法，例如神经网络分类器，例如卷积神经网络或自动编码器。在实施方案中，一种或多种机器学习算法中的一种或多种可以有利地是可解释模型。机器学习算法用于捕获具有一个或多个期望特性的序列与不具有的序列之间的差异。当机器学习算法是黑盒模型(就像神经网络一样) 时，通常不可能直接从模型本身提取导致分类的潜在序列特征。但是，该模型能够预测馈入模型的任何新序列的分数。此外，即使使用所谓的“黑盒”算法，也可以实施可解释性技术以获得对数据的额外见解。例如，通过分析分配给例如神经网络中的边的权重分布，通过测试特征重要性和/或通过实施注意机制来限制任何时候考虑的因素的数量，可能获得有关对模型进行的预测特别重要的序列特征的一些信息。有利地，‘白盒’或可解释模型可以能够直接提取强调评分行为的模式。直接从模型或使用可解释性技术获得的见解可用于指导设计新文库的步骤，和/或鉴定本发明方法的任何可有利地调整的特征。例如，机器学习模型的见解可能有助于鉴定方法中实验步骤设计中的缺陷或偏差。在实施方案中，一种或多种机器学习算法可用于预测属于序列变体的初始群体的类别的类别、分数或概率。优选地，使用机器学习算法构建的模型能够提供序列变体的预测分数以及预测的置信度度量。在训练多个模型以预测序列的多个特征的实施方案中，模型中包含的一些知识可以在模型之间共享。不希望受理论束缚，据信许多与蛋白质功能相关的特征可源自蛋白质结构的高级特征。因此，可以有利地在模型之间重新使用这种高级知识。这可以有利地有助于降低模型过度拟合任何特定特征的风险和/或提高模型训练过程的效率。特别是，在使用神经网络的实施方案中，模型的一些低级层可以被重新训练，并且可以为预测每个单独特征的每个模型独立构建架构的其余部分。模型或从其衍生的学习可用于获得要提供给机器学习算法进行评分的新群体的分数，最终目标是找到功能改进的序列变体。换句话说，在来自测试步骤30的数据上训练的模型或从中得出的学习可用于对变体进行评分，其可用作在步骤46处搜索如下所述的改进变体的工具。

在步骤46，执行搜索过程以鉴定新序列或序列群，优选地，与迄今为止已测试的序列或序列群相比，该新序列具有改进的适应度(按序列或基于群水平的汇总值)，如在步骤44中建立的预测模型所预测的。搜索过程通常是迭代的，因此在每次新的迭代中，根据前一次迭代的学习设计新的群，评估该新的群并推导出新的学习(例如，改进在步骤44获得的预测模型)，在下一次迭代中使用这些学习(该过程也称为“构建-测试-学习-设计循环”)。

在实施方案中，可以执行两种类型的搜索过程中的一种或两种，其在本文中被称为序列搜索优化和序列文库搜索优化。此外，这些类型的搜索中的每一种都可以作为穷举搜索或作为随机搜索来执行。穷举搜索通常包括在搜索空间中生成和评估所有可能性。随机搜索通常依赖于启发式算法来探索搜索空间并鉴定所述空间中的最优值，如下文将进一步描述的。穷举搜索通常仅适用于相对较小的变体空间，因为在大空间中枚举和评估所有可能的变体在计算上是昂贵的。因此，穷举搜索和随机搜索之间的选择可能取决于要搜索的变量空间的大小以及可用的计算资源。

在序列搜索优化中，将作为序列变体列表的序列群作为输入提供给搜索和优化算法 (见下文)，并提供作为具有改进适应度的序列变体列表的新的序列群作为输出。在实施方案中，序列搜索优化是穷举的。在这样的实施方案中，所有可能的序列变体使用在步骤44生成的预测模型单独评估(即针对每个序列和与预测模型相关联的每个特性预测适应度分数)并且可以选择具有改进的适应度的序列变体的子集。例如，可以根据多目标标准(如下文将进一步描述的)选择序列变体的子集作为排名最高的子集。或者，序列搜索优化可以是随机的，由此通过从一个或多个序列变体的初始集合，迭代探索搜索空间，获得具有改善的适应度的一个或多个序列变体的集合。遗传算法可用于此目的，如下文将进一步解释的。在实施方案中，在步骤44建立一个或多个模型以预测每个感兴趣的特性。例如，可能存在多个模型，它们能够预测具有相似拟合水平的测试文库的适应度分数。因此，可以使用多个模型来预测序列变体的适应度分数，并将这些模型的输出进行聚合以获得汇总值和该汇总值的不确定性度量。例如，由在步骤44训练以预测相同性质的多个模型(例如，在3个和10个之间，优选地在5个和10个之间的模型)为序列变体预测的分数的平均值和标准偏差可以用作序列变体的分数。

在序列-文库搜索优化中，优化过程将频率矩阵作为输入，该矩阵包括按氨基酸或核苷酸(例如A、G、C、T)的列和按可变位置的行，每个单元格包含特定位置处的特定氨基酸/ 核苷酸的频率。因此，对于每一列，频率通常在0和1之间，并且总和为1。如技术人员将理解的，频率矩阵构成序列集的集合表示，矩阵中的频率代表集合中的序列。在优化的早期阶段，使用频率矩阵可能是有利的，因为它们可以更广泛地探索序列空间。当使用穷举搜索时，生成多个序列文库(频率矩阵)、对其评分并相互比较。使用随机搜索，提供一个或多个序列文库(频率矩阵)的列表作为输入，对每个库进行评分，并选择一个或多个改进文库的新列表。然后可以将其用作搜索的新迭代的输入。

为了对序列文库(频率矩阵)进行评分，频率矩阵用于通过采样生成序列子集，该子集被认为代表在频率矩阵中汇总的文库的“代表性子集”。然后使用步骤44中构建的模型，如上所述对子集中的每个序列进行评分。对于一个或多个适应度分数中的每一个(即，对于训练的一个或多个模型中的每一个)，聚合值(也称为“汇总值”)然后可以被计算作为文库的分数。在实施方案中，聚合值是序列子集的分数的算术平均值，或者序列子集的分数的第n个百分位(其中n可以是例如50、60、70、80或90)，如上文关于序列搜索优化所解释的，该过程可以使用在步骤44训练的多个模型重复多次以预测与相同期望特性相关的变体的适应度。因此，可以计算跨每个模型预测的子集聚合值的聚合值，其包括预测的子集聚合值的可变性的量度，并且可以将其用作序列文库的适应度的量度。

优化过程的输入(例如序列集或频率矩阵)可以在核苷酸水平或在氨基酸水平表示。在核苷酸水平进行优化可能是有利的，因为核苷酸和氨基酸(通过密码子)之间存在明确限定的多对一映射。相比之下，反向映射可能不那么简单。

在实施方案中，序列搜索优化和序列文库搜索优化都可以作为步骤46的搜索过程的一部分来执行，例如在搜索过程的不同迭代中。特别地，序列搜索优化和序列文库搜索优化可以连续执行以平衡搜索空间的探索(其中该搜索适合于鼓励对搜索空间的新变体/区域的评估)和通过先前的搜索迭代获得的学习的开发(其中更详细地搜索靠近当前已知最佳区域的搜索空间的区域)。通常，优先在搜索过程开始时探索(在这种情况下，这部分过程可以称为‘探索阶段’)，而优先在搜索过程结束时开发(在这种情况下，这部分过程可以称为‘开发阶段’)。在实施方案中，在开发阶段，在搜索过程的最终迭代中执行序列搜索优化。在实施方案中，序列文库搜索优化在搜索过程开始时、在探索阶段执行。此外，在探索阶段，可以选择已选择的序列或序列文库(作为穷举搜索的输出或作为随机搜索的下一次迭代的输入)，以便对与它们预测分数的高级别不确定性相关的序列/序列文库进行优先排序。相反，在开发阶段，序列或序列文库可以基于较低级别的分数不确定性进行优先排序。

当所有序列(在序列搜索优化中)或所有序列文库/频率矩阵(在序列文库搜索优化中)都被评分时，每个序列/序列文库可以与多个分数相关联，其中每个分数代表与期望特性相关的序列/序列文库的预测适应度。此外，如上所述，每个分数可以与不确定性的度量相关联，例如当分数是由多个模型预测的多个分数的总和时，该多个模型被构建以预测与相同期望特性相关的适应度。因此，选择排名靠前的序列/序列文库的子集的任务(例如在穷举搜索或随机搜索的最后一次迭代的情况下)或选择一组序列/序列文库用于随机搜索算法的后续迭代的任务是一个多目标问题。在这样的实施方案中，可以使用多目标优化算法——其中每个目标可以代表表示序列变体或文库的期望特性的适应度分数。在实施方案中，权重被应用来优先/强调某些目标(适应度分数)而不是其他目标。在实施方案中，可以使用基于帕累托前沿优化的算法来完成多目标优化，例如SPEA2(Zitzler,Laumanns&Thiele,2001,TIK-Report,第 103卷，使用https://www.research-collection.ethz.ch/handle/20.500.11850/145755或者https://doi.org/10.3929/ethz-a-004284029访问，通过引用将其并入本文)或者IBEA(Zitzler, Kunzli,2004,Indicator-Based Selection in Multiobjective Search.:Yao X.et al.(eds)Parallel Problem Solving from Nature-PPSN VIII.PPSN 2004.Lecture Notes in Computer Science,vol 3242.Springer,Berlin,Heidelberg中，使用https://link.springer.com/chapter/10.1007/978-3-540- 30217-9_84或者https://doi.org/10.1007/978-3-540-30217-9_84访问，通过引用将其并入本文)。这类算法可能能够将解决方案的完整帕累托前沿群减少到选定的几个解决方案(序列或序列文库)，同时最大化所选解决方案之间的多样性(最小化重叠)，例如通过考虑目标空间中的密度考虑因素。在实施方案中，如果在不降低一些其他目标(适应度分数)的值的情况下不能提高任何目标(适应度分数)的值，则优化可以被设计为将解决方案排名最高。这样的解决方案代表了帕累托前沿。所使用的优化过程可以有利地设计为优化帕累托前沿，即随着迭代优化的进行，将帕累托前沿移向更高的目标值(适应度分数)。

在实施方案中，随机搜索方法用于搜索序列变体空间。例如，随机搜索可以使用遗传算法。简而言之，基本原理是计算个体群体的适应度(即分数或聚合分数)(在序列搜索优化的情况下，个体可以是序列变体，或在序列文库搜索优化的情况下是序列文库/频率矩阵)，至少部分使用计算的适应度(和可选地使用帕累托前沿算法，如上所述)选择群个体的子集，并对选定的群进行定义的变换以获得新的群，然后对其进行评分等。应用于当前情况，修改一组输入序列或频率矩阵(即进行变换，例如突变和/或与另一个个体交叉，其根据预定义参数随机选择)，以获得序列/矩阵的初始群，称为子代群。使用步骤44中训练的模型对该群进行评分。然后将子代群与输入群汇集在一起，并且选择该组合群的子集，例如通过使用如上所述的帕累托前沿优化算法，其在一些实施方案中可能依赖于使群经受锦标赛式竞争。优选地，使用诸如上述SPEA2的算法，其在帕累托前沿中选择最多样化的个体。该子集成为新的初始群，并像以前一样进行修改以获得随后的世代，同样地对该世代进行评分和选择。重复此过程，直到满足预定义的停止标准。例如，停止标准可以是生成了具有足够高适应度的文库，或者达到了最大迭代次数。停止参数可以由用户预定义或可以分配默认值。在实施方案中，可以应用于群的变换可以选自突变、交叉、复制功能等。

在实施方案中，使用本领域已知的方法优化遗传算法的参数。例如，遗传算法参数，例如群大小、每个子代群中的个体数量、交叉率、突变率等，可以使用基于索引的技术进行优化，例如IBEA(Zitzler,Kunzli,2004,https://link.springer.com/chapter/10.1007/978-3-540- 30217-9_84,，在此引入作为参考)。如上所述，这类算法可以有利地使开发阶段中的适应度不确定性最小化并且在探索阶段中将其最小化。优化的遗传算法的参数可以包括以下一项或多项：交叉策略的选择、交叉率、变异策略、变异率、亲本数、群大小、群中的精英数、选择方法等。在实施方案中，遗传算法的一些参数可以适于将生物学考虑因素考虑在内，例如以解决物理约束或在搜索中包括领域知识。例如，当遗传算法在核苷酸水平上运行时，突变率可适于使密码子的第一个核苷酸中的突变比密码子的第二个和/或第三个核苷酸上的突变更不可能。例如，密码子内突变概率的可能分布可以是：对于每个密码子中的第一个、第二个和第三个核苷酸，分别为10％、30％、60％。在实施方案中，可以选择突变和/或交叉参数以在序列的翻译阶段排除包括终止密码子(例如TAG、TAA、TGA)的任何序列。在实施方案中，可以选择突变和/或交叉参数以排除特定氨基酸(在氨基酸或在相应密码子水平，这取决于优化算法在什么水平上操作)。这种排除可以例如由用户基于先验知识来定义。在实施方案中，当对序列变体/序列文库变体进行交叉时，可以设计交叉点以使得整个密码子在变体之间交换。

在实施方案中，优化步骤可以包括并行运行多个优化并且以间隔或在运行结束时聚合它们的输出。这可以有利地增加所获得的解决方案的多样性。

在实施方案中，计算产生的任何新文库与至少一个先前产生的文库(例如任何先前测试的文库和/或任何先前的计算机化文库)之间的距离。例如，可以在搜索过程中使用新文库和先前生成的库之间的距离来确定搜索空间探索的优先级。计算先前生成的文库之间的距离可以评估文库的多样性，并确保该过程不限于序列空间的特定区域。在实施方案中，使用 Jensen-Shannon发散方法计算序列文库之间的距离。Jensen-Shannon Divergence(JSD)是一种测量两个概率分布之间相似性的方法。特别地，分布可以是离散分布。例如，该方法可用于计算(1)其中在位置p有50％的机会具有氨基酸A1和50％的机会具有氨基酸A2(即概率向量 (A1,A2)等于(50％,50％))的文库以及(2)其中在位置p有(A1,A2,A3)的概率向量等于(40％, 40％,20％)的文库之间的距离。这两个文库的概率分布为P＝(0.5,0.5,0)，Q＝(0.4,0.4,0.2)。 JSD定义为JSD(P||D)＝λD(P||M)+(1-λ)D(Q||M)其中M＝λP+(1-λ)Q和λ是在(0,1)(对于对称情况，λ＝0.5)之间选择的权重，并且D(A||B)是两个分布之间的Kullback-Leibler散度，即 DKL(A||B)＝-∑iA(i)log(B(i)/A(i))。D(A||B)(也称为“相对熵”)是一个概率分布A与基本分布B 之间的差异的度量。例如，基本分布B可以是使用机器学习算法进行优化之前的初始文库，新文库A可以是迭代优化生成的最新文库。对于每个文库中的每个位置p，计算JSD(Ap||Bp) 的值。然后将最终的散度计算为所有位置p的JSD总和。

在实施方案中，考虑从一个氨基酸转变为另一个氨基酸的可能性，序列文库之间的距离与显著性项一起计算。在实施方案中，从一种氨基酸转变为另一种氨基酸的可能性由置换矩阵捕获，例如BLOSUM(块置换矩阵)，特别是BLOSUM62。BLOSUM是一种为蛋白质序列比对而设计的矩阵，并且量化从一种氨基酸转换为另一种氨基酸的概率。例如，与如上计算的发散相关的显著性可以按照Yona和Levitt(J Mol Biol.2002Feb 1；315(5)：1257-75.)中所述计算。特别是，显著性计算为JSP(M||BACKGROUND)，其中M如前定义， BACKGROUND是背景信号。例如，可以选择背景信号作为BLOSUM62的对角线项(即观察每个氨基酸的可能性)。因此，大的显著性意味着P和Q与背景信号非常不同，而小的相似性意味着P和Q与背景信号相似。此外，可以计算出同时考虑散度JSD(P||Q)和显著性 JSD(M||BACKGROUND)的相似项，并且定义为相似度＝0.5*(1-D)*(1+S)，其中D是 JSD(P||Q)，S是JSD(M||BACKGROUND)。因此，相似度是这样的：(i)小D(D→0)和小 S(S→0)值(P和Q相似，与背景相差不大)将导致相似度接近0.5(相似度→0.5)；(ii)小D(D→0) 和大S(S→1)值(P和Q相似，与背景差异很大)将导致相似度接近1(相似度→1)；(iii)大 D(D→1)值(P和Q彼此非常不同)将导致相似度接近0(相似度→0)。

在实施方案中，在步骤16中设计的新文库可以被构建20、测试30并且用于新的学习阶段40。在这样的实施方案中，可以在步骤42使用来自设计-构建-测试过程的当前和先前迭代的数据来训练机器学习算法。在实施方案中，在步骤16中设计的新文库可用于产生预测具有一个或多个期望特性的一组候选蛋白质。

在本发明的特定实施方案中，所描述的方法可以至少部分地通过一个或多个计算机系统来实施。在另一个实施方案中，本发明提供了一种包含程序指令的计算机可读介质，该程序指令用于实施本发明的方法的至少设计10、10'和学习40阶段，和/或控制实验室设备以实施本发明的方法的构建20和测试阶段，其中由计算机系统的一个或多个处理器执行所述程序指令以使所述一个或多个处理器执行如本文所述的步骤。适当地，计算机系统至少包括：输入设备、输出设备、存储介质和微处理器。可能的输入设备包括键盘、计算机鼠标、触摸屏等。输出设备有电脑显示器、液晶显示器(LCD)、发光二极管(LED)电脑显示器、虚拟现实(VR)耳机等。此外，信息可以输出给用户、用户接口设备、计算机可读存储介质或另一台本地或联网计算机。存储介质包括各种类型的存储器，例如硬盘、RAM、闪存和其他磁、光、物理或电子存储设备。微处理器是任何典型的计算机微处理器，用于执行计算并指导其他功能以执行数据的输入、输出、计算和显示。两个或多个计算机系统可以使用有线或无线方式链接，并且可以彼此直接通信或与其他计算机系统通信和/或使用公共可用的网络系统例如因特网通信。计算机联网允许本发明的各个方面在本地和远程站点(包括在云中)执行、存储在一个或多个计算机系统中并在它们之间共享。

本发明的方法可以被配置为与包括液体操纵和分配设备或更先进的实验室机器人系统的自动化实验室设备交互并对其控制。在实施方案中，一个或多个步骤使用高级编程语言完全自动化以产生可再现和可扩展的工作流程，以支持该方法的设计、测试和学习步骤。合适的高级编程语言可以包括C++、Python Java^TM、Visual Basic、Ruby和PHP，以及生物学特定语言Antha^TM(www.antha-lang.org)。

通过以下非限制性实施例进一步说明本发明。

实施例

实施例1–结合特定靶标的支架蛋白的工程化

在该实施例中，基于对特定靶标具有结合亲和力的天然序列生成序列变体文库。基于该文库，生成了与天然序列相比对特定结合靶标具有改进的结合亲和力的蛋白质集合。该实施例展示了本发明用于产生具有期望功能的蛋白质(或在这种情况下为候选蛋白质的集合)的用途。

实施例2–蛋白酶稳定变体的选择

在本实施例中，基于结构信息半合理地设计了序列变体(DNA)文库。这个初始文库的多样性约为3,000个变体。该文库按照WO 2017/046594 A1中的描述进行组装(见下文的材料和方法)。将文库插入本领域已知的噬菌体展示载体中，以在大肠杆菌中转化后展示在M13噬菌体衣壳的外部。将噬菌体群(每个都展示感兴趣的蛋白质变体)暴露于蛋白酶(胰蛋白酶或胰凝乳蛋白酶)，导致至少一些蛋白质变体的裂解。然后将噬菌体(切割的和未切割的)池暴露于固定的靶蛋白，并且洗掉任何未能结合靶标的噬菌体。剩余的噬菌体(称为‘第1轮’噬菌体)用于感染大肠杆菌，产生新的噬菌体群，其中一些用于如上所述的选择(产生称为‘第2轮’噬菌体的噬菌体群)，并且其中一些被保存用于测序。再次重复该过程以获得第三个噬菌体群， ‘第3轮’噬菌体。根据制造商的说明，使用用于Illumina测序的NEBNext Ultra II DNA文库制备试剂盒，从每一轮和选择前的噬菌体群中制备DNA样品，用于下一代测序。然后使用 Illumina iSeq测序仪对样品进行测序。使用Burrows-Wheeler比对算法，将包含正向和反向读段的来自iSeq的序列(Fastq文件)与文库的参考序列比对。然后使用一致序列合并配对末端读段以填充配对末端之间的任何间隙，并修剪所得序列以去除悬垂参考序列的末端并删除未完成参考序列的序列。然后使用Starcode对读段进行聚类以进行纠错(如 https://academic.oup.com/bioinformatics/article/31/12/1913/213875中所述)。

图6A-6E显示了该分析的结果。图6A显示了每次测序运行中的原始读段总数(选择之前，标记为‘前’，每轮选择之后，标记为‘轮_1’、‘轮_2’和‘轮_3’)。图6B显示了选择前(‘前’)和每轮选择后群中存在的变体总数。图6B上的数据显示，第一轮选择显著减少了测序的变体数量 (由于许多变体在选择过程中被洗掉)。第二轮选择进一步细化了群，而第三轮似乎没有显著效果。图6C上的数据显示了相对于相应测序运行的读段总数(参见图6A)，选择前(‘前’)和每轮选择后群中存在的变体数量。数据显示，即使在选择之前，变体也由多个读段表示，并且每个变体的读段数量通过选择进一步增加(无论是进行一轮、两轮还是三轮选择，都在类似的程度上)。图6D显示了选择前(‘前’)和每轮选择后群中存在的变体总数，不包括起始文库中不存在的任何变体。比较图6D和6B上的数据表明了在选择过程中出现随机突变，因为选择后的变体数量(图E，‘轮_1'、‘轮_2'和‘轮_3')高于图6D上的相应数据点，它们被过滤以排除原始文库中不存在的变体。

图6E显示了频率表，显示了在3轮选择(‘轮_1'、‘轮_2'和‘轮_3')之前(‘前’)和每一轮之后不同变量位置的文库组成的变化——不包括那些原始文库中不存在的突变。

该数据证明了本发明的步骤12至32的可行性。

发明人然后使用mRNA展示重复了类似的实验，以证明这种选择的可行性。基于结构信息半合理地设计了三个编码结合蛋白的DNA文库。这些初始文库的多样性约为24,000个变体。所述文库按照WO 2017/046594 A1中的描述进行组装(见下文的材料和方法)。然后通过如下所述的mRNA展示(参见材料和方法)展示这些文库以连接它们的基因型和表型。然后将这个展示的文库与蛋白酶一起温育——在这种情况下是胰蛋白酶和胰凝乳蛋白酶。与蛋白酶温育10分钟和120分钟后，停止反应，并通过N端链霉亲和素结合标签纯化蛋白质。纯化后，全长蛋白质的量通过qPCR进行量化。只有全长、未切割的蛋白质同时包含N端strep标签和C端的mRNA分子。在链霉亲和素珠上捕获的mRNA和未被捕获的mRNA均随后通过 qPCR进行扩增。这允许量化两个样品中存在的材料量。

图7A和7B显示了对于胰蛋白酶(图8A)和胰凝乳蛋白酶(图8B)的这些分析的结果，它们显示了对于三个文库中的每一个，流过样品(FT)和在珠子上捕获的样品(珠子)的qPCR定量结果(ct值，荧光信号达到高于背景水平的循环数)。每个样品的每组条形图从左到右显示数据为：选择前的样品(前)、选择前的样品10分钟后(前10min)、10分钟选择后的样品((糜蛋白酶)胰蛋白酶10min)、选择前的样品120分钟后(前120min)和120分钟选择后的样品((糜蛋白酶)胰蛋白酶120min)。该数据表明，如预期的，当文库与蛋白酶一起温育时，回收序列的数量减少。此外，数据显示所述减少取决于温育时间(在用蛋白酶温育10到120分钟之间所述减少增加)。这表明使用mRNA展示和蛋白酶温育，可以丰富蛋白酶抗性分子的文库。

实施例3–通过迭代优化进行序列文库设计

在本实施例中，使用神经网络分类器对序列文库进行了计算机优化，该分类器已根据从序列变体文库的体外测试获得的数据进行训练。特别地，公开可用的免疫原性数据(来自Dhanda 等人，Front.Immunol.2018年6月，可从https://www.frontiersin.org/articles/10.3389/ fimmu.2018.01369/full获得)用于基于大约6,000个序列训练免疫原性分数的预测模型。使用在体外数据上训练的神经网络分类器设计和评分包含14个序列文库的一组序列文库。此外，计算每个序列文库的多样性并将其用作优化的第二个目标。对于具有50,000个序列的多样性的序列文库，多样性分数计算为1，对于更高和更低的多样性分数，为低于1。换句话说，优化算法的目标之一是设计接近50,000个变体的文库，其中文库中的变体数量是通过计算可变位置的所有可能组合来计算的。例如，具有两个可变位置(每个可变位置可以是两个氨基酸之一)的文库具有4个序列的多样性，具有三个可变位置(每个可变位置可以是两个氨基酸之一)的文库具有8个序列的多样性，等等。随机选择每个序列文库的10,000个序列的子集进行替换，作为遗传算法的起始群，该算法总共运行80次迭代。运行遗传算法，直到达到最大迭代次数(80)，每代有60个子代，交叉率为0.7，突变率为0.3。

图8A到8C中的每一个图示了优化过程的迭代，如所指示的。每个图中的左小图显示了初始群(条形)和最新一代(点和阴影区域，其中点是每个适应度直方图区间内群分数的平均值和阴影区域是平均值左右的2个标准偏差区间)的适应度分数的分布。每个图中的中间小图显示了密码子表示中的序列文库，其中行是氨基酸序列中的位置，列是密码子中的核苷酸(例如，A1是密码子第一个碱基中的核苷酸A，其中T3是密码子第三个碱基中的T核苷酸)。这些值表示每个变体在核苷酸水平上代表的频率(以％为单位)。每个图的右小图显示了许多文库的帕累托前沿(两个独立参数的最大平均适应度分数)。从这些图中可以看出，遗传算法优化过程能够通过关注机器学习算法(例如神经网络)已识别为与高适应度分数相关联的那些变体来获得具有改进适应度分数分布的文库。因此，这个新文库的成员代表了与起始序列相比在测试的期望特性方面得到改进的新序列变体。

实施例4–使用机器学习驱动的定向进化来设计新颖的VHH结构域

在此实施例中，序列变体(DNA)文库是基于与许多相关蛋白酶温育后的VHH结构域的质谱数据半合理地设计的。这个初始文库的多样性约为1x10⁹个变体。如Cozens等人，2018 (Nucleic Acids Res.46(8):e51)所述，该文库通过达尔文组装进行组装。将文库插入本领域已知的噬菌体展示载体中，以在大肠杆菌中转化后展示在M13噬菌体衣壳的外部。将噬菌体群暴露于感兴趣的靶标蛋白质，导致许多与靶标结合的蛋白质变体。任何未能结合靶标的噬菌体颗粒被洗掉。剩余的噬菌体颗粒(称为‘第1轮’噬菌体)用于感染大肠杆菌，产生新的、富集的噬菌体群。然后将该群用于如上所述的选择(产生称为‘第2轮’噬菌体的噬菌体群体)。除了选择的噬菌体颗粒外，还生成了模拟对照样品，这些样品经历了相同的噬菌体展示步骤，但不是针对感兴趣的靶标进行选择的。来自‘第2轮’噬菌体的DNA样品通过两个PCR 反应准备用于下一代测序——添加测序条形码和接头，并根据制造商的说明使用ProNex大小选择性珠进行纯化。然后使用Illumina MiSeq测序仪对这些样品进行测序。

使用Burrows-Wheeler比对算法，将包含正向和反向读段的来自MiSeq测序仪的DNA序列 (FastQ文件)与文库的参考序列比对。然后使用一致序列合并配对末端读段以填充配对末端之间的任何间隙，并修剪所得序列以去除悬垂参考序列的末端并删除未完成参考序列的序列。然后在分析和模型训练之前对读段进行聚类。

处理后的文库中的每个变体都基于其在选择过程中与模拟对照相比的丰富程度进行评分。这些分数与序列信息一起用于生成机器学习模型，该模型将序列与测量的适应度联系起来。该模型的准确性是通过将模型之前未见过的序列的预测适应度与其实际适应度进行比较来评估的。该模型的实际适应度和预测适应度之间的Spearman相关性之间的相关性为0.67，表明该模型能够仅基于氨基酸序列准确预测与感兴趣靶标的结合(见图9)。

实施例5：结合分子的体外验证

在使用机器学习来预测许多高性能变体之后，这些变体是使用外部基因合成供应商从头合成的。这些基因被克隆到表达构建体中并用大肠杆菌底盘表达。表达后，候选分子用亲和标签纯化。然后使用蛋白酶消化，从候选分子上切割亲和标签。

使用基于细胞的效力测定，测量每个分子的性能。在测定之后，模型预测的具有更大效力的分子中有68％最终会这样(见图10)。这表明模型的准确性在纯化的蛋白质测定中以及通过 NGS富集评分中得以保留。

材料和方法

单引物延伸

单引物延伸可用于从单链DNA分子获得双链DNA，例如文库中序列变体的可变部分。为了根据本发明的实施方案进行单引物延伸，将单链DNA模板和与模板3'端互补的短ssDNA序列(称为引物)和与DNA聚合酶一起温育。然后将样品置于以下温育条件下：

-98℃-熔解：此步骤破坏可能在引物和ssDNA模板中形成的任何二级结构；

-55-70℃-引物退火：允许引物与ssDNA模板3'端的引物结合位点退火(结合)。具体温度可取决于引物序列。

-72℃-延伸：DNA聚合酶与引物：模板复合物结合，并将其余的ssDNA转化为 dsDNA

-4℃-储存：一旦延伸反应完成，防止DNA降解。

与聚合酶链反应(见下文)相比，其不同之处在于：模板DNA是单链而非双链；使用单个引物，而不是两个；并且该过程没有循环，所以模板DNA没有被扩增。

单个引物延伸可以手动进行，也可以自动进行，例如使用Antha。特别地，根据本发明的实施方案使用的引物延伸过程可以至少部分自动化并且分成多个步骤，包括设计、平台准备、反应设置、引物延伸、纯化和产量量化。

在引物延伸设计步骤中，限定了所用引物的身份和参数值。这可以包括优化过程，其中进行参数空间的至少一部分的搜索以找到dsDNA产量的最佳参数值。

在平台准备步骤中，准备液体操纵机器人的平台。这可以包括提供进行反应所必需的各个组分部分、制备组分子集的主混合物，以及将主混合物和任何其他组分移液到微量滴定板的预定位置中。

引物延伸反应的核心组成部分可以包括：一个或多个ssDNA模板；一个或多个ssDNA引物；DNA聚合酶，优选具有尿嘧啶通读段的DNA聚合酶，例如Phusion U DNA聚合酶；聚合酶缓冲液；dNTP(脱氧核苷酸三磷酸)。在实施方案中，可以将其他潜在组分添加到引物延伸反应中以优化效率和保真度。例如，可以加入选自甲酰胺、TMAC(偏苯三酸酐氯化物)、海藻糖、CES(组合增强剂溶液，参见http://www.protocol-online.org/prot/Protocols/An- Economic-PCR-Enhancer-for-GC-Rich-PCR-Templates-3469.html)、DMSO(二甲基亚砜)、 PEG(聚乙二醇)、硫酸铵、逆转录酶、叶肉DNA聚合酶、DNA结合蛋白、7-脱氮(deaza)-2'- 脱氧鸟苷5'-三磷酸、非离子去污剂(Triton X-100、Tween 20、NP-40)和BSA(牛血清白蛋白) 的任何组分。

在反应设置步骤中，将引物延伸反应的所有组成成分都混合成混合物，准备在一个或多个多孔板的孔中进行延伸。在实施方案中，这由Gilson PIPETMAX液体操纵机器人执行。该机器人可由Antha工作流程控制。

在引物延伸步骤中，将多孔板放置在PCR机器或能够调节板温度的任何其他装置中。然后将板中的样品置于上述温育条件下以进行延伸反应。

在纯化步骤中，每个样品中的dsDNA分子被分离出来。在实施方案中，这通过将样品和与 dsDNA特异性结合的磁珠一起温育，并用磁板“拉下”磁珠来进行。然后可以手动或自动移出剩余的反应组分。

在产量量化步骤中，所产生的dsDNA的量使用本领域已知的测定进行量化，例如Picogreen 测定和Nanodrop或Tecan读板器。可以将样品在260nm处的吸光度与标准曲线进行比较，以确定样品中dsDNA的量。

聚合酶链反应

聚合酶链反应(PCR)可用于扩增双链DNA，例如文库中序列变体的恒定部分。PCR也可用于在DNA部分的特定位置添加脱氧尿苷残基。这些可用于通过尿嘧啶特异性切除(使用USER 试剂)生成单链突出端。

为了根据本发明的实施方案进行PCR，将双链DNA模板(其可以形成较长序列的一部分)与两个短ssDNA序列(称为引物)以及与DNA聚合酶一起温育，这些短序列与模板的各个链的 3'末端互补。然后将样品置于以下温育条件下：

-98℃-熔解：此步骤破坏DNA模板互补链之间的氢键，从而使引物与其各自的链结合。

-55-70℃-引物退火：允许引物与模板链的3'末端的引物结合位点退火。具体温度可取决于引物序列。

-72℃-延伸：DNA聚合酶与引物：模板复合物结合，并将其余的ssDNA转化为 dsDNA。

重复上述步骤最多35次。

-4℃-储存：一旦延伸反应完成，防止DNA降解。

PCR可以手动进行，也可以自动进行，例如使用Antha。在实施方案中，根据本发明的实施方案使用的PCR过程可以至少部分自动化。

在实施方案中，PCR过程可以分为多个步骤，包括设计、反应准备(可选地包括平台准备和反应设置)、热循环、纯化和产量量化。

在PCR设计步骤中，限定了所用引物的身份和参数值。这可以包括优化过程，其中进行参数空间的至少一部分的搜索以找到靶标dsDNA产量的最佳参数值。

可以优化的一个参数是引物退火温度。不同的引物序列可具有不同的退火温度。这些退火温度可以用生物信息学估计和/或可以通过运行“梯度”退火步骤来阐明。梯度退火步骤在整个热循环仪模块上创建一系列温度，以便并行测试多个不同的退火温度，以确定哪些温度提供了最佳的靶标dsDNA产量。

在反应准备步骤中，将PCR的所有组成成分混合成混合物，为反应做好准备。这可以用手或使用液体操纵机器人来完成。在这样的实施方案中，这可以包括平台准备步骤和反应设置步骤。在平台准备步骤中，准备液体操纵机器人的平台。这可以包括提供进行反应所必需的各个组分部分、制备组分子集的主混合物，以及将主混合物和任何其他组分移液到微量滴定板的预定位置中。在反应设置步骤中，将PCR反应的所有组成成分都混合成混合物，准备在一个或多个多孔板的孔中进行PCR。在实施方案中，这由Gilson PIPETMAX液体操纵机器人执行。该机器人可由Antha工作流程控制。

PCR的核心组成部分可以包括：一个或多个dsDNA模板、一个或多个正向ssDNA引物、一个或多个反向ssDNA引物、热稳定的DNA聚合酶(例如优选具有尿嘧啶通读段的DNA聚合酶，例如Phusion UDNA聚合酶)、聚合酶缓冲液、dNTP(脱氧核苷酸三磷酸)。在实施方案中，可以将其他潜在组分添加到引物延伸反应中以优化效率和保真度。例如，可以加入选自甲酰胺、TMAC(偏苯三酸酐氯化物)、海藻糖、CES(组合增强剂溶液，参见 http://www.protocol-online.org/prot/Protocols/An-Economic-PCR-Enhancer-for-GC-Rich-PCR- Templates-3469.html)、DMSO(二甲基亚砜)、PEG(聚乙二醇)、硫酸铵、逆转录酶、叶肉 DNA聚合酶、DNA结合蛋白、7-脱氮(deaza)-2'-脱氧鸟苷5'-三磷酸、非离子去污剂(Triton X- 100、Tween 20、NP-40)和BSA(牛血清白蛋白)的任何组分。

在热循环步骤中，将含有一个或多个样品的多孔板置于热循环仪或能够控制板中样品温度的任何其他装置(例如任何热循环装置)中。然后将板中的样品置于上述温育条件下以进行 PCR。

可以执行可选的成功验证测试以确保PCR成功。这可包括将样品加载到琼脂糖凝胶上，与包含已知大小的DNA片段的标准梯一起加载，并进行琼脂糖凝胶电泳，由此DNA片段以与其大小成正比的速率在凝胶中迁移。凝胶上出现目标DNA预期大小的条带表明PCR成功。在纯化步骤中，磁珠可用于分离dsDNA，如上所述。这可以根据是否进行验证测试以及测试是否表明样品中存在单个显性dsDNA产品而不同地执行。如果验证测试表明样品中存在单个显性dsDNA产物，则可以使用磁珠从样品的其余部分中分离出dsDNA，如上所述。如果样品中存在不止一种dsDNA产物，则可以使用“大小选择(Size Select)”琼脂糖凝胶，其中在凝胶中预先切割孔并注满水，并且期望的DNA迁移通过凝胶并进入孔中，它可以在此被移出。

组装

从可变部分和恒定部分组装核酸文库如WO 2017/046594中所述进行，其内容通过引用并入本文。

特别地，USER DNA组装可用于组装可变和恒定部分，这些部分将在文库中形成序列变体。

在实施方案中，USER DNA组装可以分为多个步骤，包括设计、反应准备(可选地包括平台准备和反应设置)、温育、纯化和产量量化。

在USER DNA组装设计步骤中，限定了反应混合物和所用参数的值。这可以包括优化过程，其中进行参数空间的至少一部分的搜索以找到靶标dsDNA产量的最佳参数值。

在反应准备步骤中，将用于USER组装的所有组成成分混合成混合物，为反应做好准备。这可以用手或使用液体操纵机器人来完成。在这样的实施方案中，这可以包括平台准备步骤和反应设置步骤。在平台准备步骤中，准备液体操纵机器人的平台。这可以包括提供进行反应所必需的各个组分部分、制备组分子集的主混合物，以及将主混合物和任何其他组分移液到微量滴定板的预定位置中。在反应设置步骤中，将反应的所有组成成分混合成混合物，准备在一个或多个多孔板的孔中温育。在实施方案中，这由Gilson PIPETMAX液体操纵机器人执行。该机器人可由Antha工作流程控制。

USER组装的核心组成部分可以包括：2个或更多个输入部分、USER酶混合物、DNA连接酶(例如T4 DNA连接酶)、反应缓冲液(例如T4 DNA连接酶缓冲液)和ATP。

在温育步骤中，微孔板被放置在热块或任何其他能够控制微孔板中样品温度的装置(例如任何热循环装置)中。温育步骤可包括37℃步骤以允许USER酶执行其功能，然后是21℃步骤以允许突出端退火，以及DNA连接酶以执行其功能。

可以执行可选的成功验证测试以确保组装成功。这可包括将样品加载到琼脂糖凝胶上，与包含已知大小的DNA片段的标准梯一起加载，并进行琼脂糖凝胶电泳，由此DNA片段以与其大小成正比的速率在凝胶中迁移。凝胶上出现目标DNA预期大小的条带表明组装成功。

在纯化步骤中，组装的dsDNA(即反应产物中具有期望大小的dsDNA)与反应产物的其余部分分离。为此可以使用“大小选择(Size Select)”琼脂糖凝胶，其中在凝胶中预先切割孔并注满水，并且期望的DNA迁移通过凝胶并进入孔中，它可以在此被移出。

在产量量化步骤中，样品中的dsDNA的量使用本领域已知的测定进行量化，例如Picogreen 测定和Nanodrop或Tecan读板器。可以将样品在260nm处的吸光度与标准曲线进行比较，以确定样品中dsDNA的量。

达尔文组装

达尔文组装大致包括将突变引入模板序列的3步过程。首先，将双链模板DNA序列转换为单链。这是通过切口核酸内切酶和核酸外切酶的偶联反应，然后是酶的热灭活来实现的。

然后将该单链模板与许多诱变寡核苷酸以及位于感兴趣区域两侧的边界寡核苷酸混合——其中一个用生物素标签进行标记。一旦这些寡核苷酸退火，它们之间的间隙就用热稳定的 DNA聚合酶填充，缺口用热稳定的DNA连接酶密封。组装的产品使用链霉亲和素包被的磁珠进行纯化。然后通过添加“outnest”引物和标准PCR反应从磁珠中扩增该产物。该最终产品可以克隆到质粒中或直接用作体外展示方法中的线性构建体。#

反向PCR

使用诱变寡核苷酸进行反向PCR。这些寡核苷酸与基因‘背对背’内的感兴趣区域退火，其中一个或两个寡核苷酸含有与模板序列不互补的诱变区。在替换的情况下，该诱变区位于诱变寡核苷酸的中心或5'末端。在添加突变的情况下，诱变区位于寡核苷酸的5'末端。

一旦诱变寡核苷酸与环状模板dsDNA和热稳定DNA聚合酶混合，就进行常规PCR反应。首先，将样品加热至>95℃，使dsDNA熔解为ssDNA。然后将样品冷却至引物的退火温度 (通常在55至65℃的范围内)，以使寡核苷酸与模板序列退火。退火后，将样品再次加热至热稳定聚合酶的最佳延伸温度(例如，约72℃)，并在引物延伸时保持在该温度。此过程循环多次以产生足够的产量(15到35次循环)。

PCR反应完成后，使用PCR净化试剂盒或DNA琼脂糖凝胶提取纯化DNA。通过添加DpnI 酶消化模板质粒DNA。然后用DNA连接酶将突变的PCR产物重新环化，准备转化到宿主细胞中。

噬菌体展示

首先，使用电穿孔将噬菌粒载体文库转化到大肠杆菌中。在选择性琼脂平板上生长后，从平板上刮下细胞文库并重新悬浮在液体培养基和甘油中，然后储存。

然后将这些细胞接种到更大体积的液体培养基中并生长至对数中期。一旦达到中期，将辅助噬菌体添加到培养物中。细胞再生长一小时以允许辅助噬菌体感染。

然后通过将细胞沉淀并重新悬浮在诱导培养基(含有IPTG)中来诱导噬菌体表达。然后将细胞生长过夜。

通过离心从细胞中纯化噬菌体。以5,000xg旋转培养物并丢弃沉淀。然后将上清液以11,000 xg离心以沉淀噬菌体。将这些沉淀重新悬浮在储存缓冲液中，并且可以储存在-80℃。

一旦准备好，就可以针对目标选择噬菌体。在选择结合剂时，将噬菌体暴露于固定在固体表面(如磁珠)上的特定浓度的靶分子。阳性分子与这些靶分子结合，而其余变体则不结合。用缓冲液清洗表面以去除任何非特异性结合到表面的变体。经过多次洗涤循环后，结合的噬菌体从靶标上洗脱下来。

洗脱后，一些噬菌体被分离并准备用于下一代测序。其余的被重新感染到大肠杆菌中，这样阳性变体被扩增并可以再次针对靶标进行淘选。

mRNA展示

mRNA展示按照Barendt等人的描述进行(ACS Comb.Sci.2013,15,2,77-81；https://pubs.acs.org/doi/abs/10.1021/co300135r)。简而言之，文库的每个成员都被设计为在编码序列上游包含T7启动子序列。将DNA分子与T7聚合酶、缓冲液和三磷酸核糖核苷酸 (rNTP)混合。T7聚合酶在T7启动子处结合DNA模板并将DNA转录为RNA。继续这样做，直到到达序列3'末端的T7终止子序列，或者到达线性DNA片段的末端。反应完成后，通过凝胶分析验证成功的转录。剩余的反应用DNAse处理以去除DNA模板，然后用

RNA净化柱(New England BioLabs,https://international.neb.com/products/t2030- monarch-rna-cleanup-kit-10-ug#Product％20Information)纯化以去除剩余的盐、酶和rNTP。

然后将每个mRNA连接到嘌呤霉素接头，该接头由短DNA序列组成，在3'末端有嘌呤霉素分子。夹板DNA序列用于将嘌呤霉素接头有效地连接到每个mRNA模板的3'末端。该夹板序列与mRNA的3'端和嘌呤霉素接头的5'端互补。因此，它有效地使mRNA的3'端和嘌呤霉素接头的5'端靠近。一旦实现了这一点，就可以引入连接酶(例如T4连接酶)来将这两个分子连接在一起。连接完成后，使用DNA外切核酸酶去除夹板寡核苷酸，并净化RNA，例如使用

RNA净化试剂盒(New England BioLabs)。

然后可以翻译mRNA-嘌呤霉素融合分子，例如使用翻译系统(New England BioLabs； https://international.neb.com/products/e6850-purexpress-rf123-kit#Product％20Information)。这种无细胞混合物是重组的蛋白质表达系统。表达蛋白质所需的所有各个成分都是在细胞中产生、纯化和混合在一起的。与其他无细胞表达系统相比，该系统的主要优点是它非常干净；含有少量的RNA酶。

一旦翻译完成，就改变反应条件以促进嘌呤霉素融合发生——这涉及冷却样品并增加盐浓度。

然后通过Northern Blot或定量PCR(qPCR)对融合分子进行质量控制。

对于Northern Blot，将样品在RNA凝胶(例如三硼酸盐尿素凝胶)上运行，然后印迹到尼龙膜上。然后将地高辛(DIG)修饰的RNA寡核苷酸与该膜上的RNA杂交。完成后，可以使用DIG 发光检测试剂盒中限定的方案检测DIG标记的mRNA：

(Sigma Aldrich,

https://www.sigmaaldrich.com/catalog/product/ROCHE/11363514910？lang＝en&region＝GB)。

该过程分离了并可视化样品中的mRNA。在成功的mRNA展示中，应该出现3个条带：一个仅用于mRNA，另一个用于mRNA-嘌呤霉素，第三个用于mRNA-嘌呤霉素-蛋白质融合 (这是三个中最大的一个)。

对于qPCR，文库中的变体被设计为包含strep标签序列或链霉亲和素结合肽序列(或其他纯化标签)，以便蛋白质包含纯化标签。然后使用适当的亲和分离方法分离表达的蛋白质，例如链霉亲和素标记的磁珠，任选地通过将样品与封闭剂例如肝素一起温育。然后进行本领域已知的定量逆转录PCR以定量样品中存在的mRNA的量。成功展示mRNA后，与阴性对照相比，样品中存在的RNA量应该高得多。作为阴性对照，可以使用不包含将mRNA连接到蛋白质的嘌呤霉素的蛋白质样品(例如匹配的蛋白质文库)。

逆转录

在对已根据其在一个或多个功能测定中的行为而分成组的序列变体进行测序之前，可以逆转录连接到蛋白质变体的mRNA序列以获得要测序的代表每个组中的变体的DNA样品。这如本领域已知的那样通过将样品与逆转录酶、引物、合适的缓冲液和dNTP一起温育来进行。

下一代测序

根据本发明的实施方案的下一代测序(NGS)是使用Illumina测序仪进行的。因此，可以通过包括DNA接头来制备待测序的样品以用于测序。DNA接头可以包括用于将DNA序列结合到测序芯片的区域、允许引物序列结合到序列的区域、以及任选的允许不同组变体一起测序的条形码序列。

Illumina测序和用于Illumina测序的文库制备是本领域已知的。例如，可以使用NEBNext试剂盒(New England Biolabs)进行测序文库准备，如https://www.neb.com/- /media/nebus/files/brochures/nebnextillumina.pdf(第4页和第5页)中所述。

本发明的实施方案使用Illumina iSeq 100测序仪。该测序仪目前能够在17小时内产生约500 万次2x150读段。

尽管在本文详细公开了本发明的特定实施方案，但这只是作为示例并且仅用于说明的目的而公开。前述实施方案并不旨在限制所附权利要求的范围。发明人考虑在不脱离由权利要求限定的本发明的精神和范围的情况下可以对本发明进行各种替换、改变和修改。

序列表

<110> 天才实验室有限公司（LABGENIUS Ltd）

<120> 用于蛋白质工程和生产的方法和系统

<130> P031546WO

<150> GB 1906566.3

<151> 2019-05-09

<160> 1

<170> PatentIn version 3.5

<210> 1

<211> 18

<212> DNA

<213> 噬菌体T7

<400> 1

taatacgact cactatag 18

Claims

1.一种生产具有一个或多个期望特性的蛋白质的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括：(a')文库组装步骤，其包括：

-提供对应于文库中序列变体的第一可变部分的第一多个核酸分子，其包含一个或多个可变区，并且其中所述第一多个核酸分子包含所述一个或多个可变区的变体；

-提供：

对应于文库中序列变体的至少一个另外的可变部分的至少一个另外的多个核酸分子，其包含至少一个另外的可变区，其中所述至少一个另外的多个核酸分子包含所述至少一个另外的可变区的变体；和/或

对应于文库中序列变体的至少一个恒定部分的至少一个另外的多个核酸分子，每个恒定部分包含恒定区而没有可变区，其中所述至少一个另外的多个核酸分子基本上是相同的；

-组装所述多个第一核酸分子和至少一个另外的核酸分子中的每一个以形成核酸文库，文库中的每个变体包含第一可变部分和至少一个另外的部分。

3.根据权利要求1或2所述的方法，其中文库设计步骤(a)利用USER组装、达尔文组装和/ 或反向PCR。

4.根据权利要求2所述的方法，其中对应于一个或多个可变部分中的每一个的核酸分子作为单链DNA提供，任选地其中提供对应于一个或多个可变部分的变体的多个核酸分子包括通过单引物延伸合成第二条DNA链以形成双链DNA。

5.根据任一前述权利要求所述的方法，其中恒定部分长达约2000个核苷酸，和/或其中可变部分长达约200个核苷酸。

6.根据任一前述权利要求所述的方法，其中每个序列变体包括多个恒定部分和/或多个可变部分。

7.根据任一前述权利要求所述的方法，其中文库设计步骤(a)包括设计一个或多个可变区中的至少一个以在至少一个位置包括随机可变性，任选地其中文库设计步骤(a)包括设计一个或多个可变区中的至少一个以在至少一个可变区的一个或多个特定位置包括随机可变性。

8.根据权利要求7所述的方法，其中包括随机可变性包括将可变性约束为对应于DNA密码子的序列。

9.根据任一前述权利要求所述的方法，其中所述文库设计步骤(a)包括：

-选择编码具有所述一个或多个期望特性中的至少一个的蛋白质的核酸序列；

-自动鉴定序列的一个或多个区域，其中预期可变性导致一个或多个期望特性中的至少一个的改善和/或一个或多个期望特性中的至少一个的获得；和

-将所述一个或多个可变部分限定为包括序列的一个或多个区域，其中预期可变性导致一个或多个期望特性中的至少一个的改善和/或一个或多个期望特性中的至少一个的获得。

10.根据权利要求9所述的方法，其中所述文库设计步骤(a)进一步包括：鉴定序列的一个或多个区域，其中预期可变性对蛋白质的完整性和/或一个或多个期望特性中的至少一种有害；并且将一个或多个恒定区中的一个或多个限定为包括序列的一个或多个区域，其中预期可变性对蛋白质的完整性和/或一个或多个期望特性中的至少一种有害。

11.根据任一前述权利要求所述的方法，其中所述一个或多个恒定区中的至少一个包含选自以下的一个或多个序列：启动子序列、增强子序列、定位信号、标记序列、标志物序列、核糖体结合位点、终止密码子、起始密码子、5'茎环结构、3'茎环培养物、复制起点和选择序列。

12.根据任一前述权利要求所述的方法，其进一步包括产生由所述核酸文库的每个序列变体编码的蛋白质以获得蛋白质文库的步骤(a”)，其中文库测试步骤(b)包括使所述蛋白质文库经受一种或多种测定以测试所述一个或多个期望特性。

13.根据权利要求12所述的方法，其中所述核酸文库是DNA文库并且产生所述蛋白质文库包括转录和翻译所述DNA文库，其中翻译所述文库包括合成RNA-多肽融合分子，每个融合分子包含与其编码的蛋白质结合的RNA序列变体。

14.根据权利要求12所述的方法，其中所述核酸文库是DNA文库并且产生所述蛋白质文库包括转录和翻译所述DNA文库，其中翻译所述文库包括增殖展示外壳蛋白-多肽融合物的噬菌体，其中与外壳蛋白融合的多肽对应于所述DNA文库的序列变体。

15.根据权利要求12或权利要求13或权利要求14所述的方法，其中所述文库测试步骤(b) 包括根据一种或多种测定的结果将蛋白质文库分成至少2个样品，并对所述至少2个样品中的至少一个中存在的核酸进行测序。

16.根据权利要求15所述的方法，其中所述学习步骤(c)包括将测序获得的序列与步骤(a)中设计的序列进行比对，并量化每个序列在每个样品中出现的次数。

17.根据任一前述权利要求所述的方法，其中所述一个或多个期望特性选自：蛋白质的物理化学特性、活性相关特性、生理相关特性和药代动力学特性。

18.根据权利要求17所述的方法，其中至少一个恒定区包含编码蛋白质纯化标签的序列，任选地其中所述蛋白质纯化标签位于蛋白质的C端，其中所述一个或多个期望特性之一是蛋白酶抗性，和通过一种或多种测定运行所述蛋白质文库包括将所述蛋白质文库暴露于一种或多种蛋白酶、使用所述蛋白质纯化标签纯化所述蛋白质和鉴定不被所述一种或多种蛋白酶切割的序列变体。

19.根据权利要求15或从属于权利要求15时的权利要求16至18所述的方法，其中一个或多个期望特性之一是与特定靶标结合，并且文库测试步骤(b)包括将蛋白质文库与固定在表面上的所述特定靶标一起温育并将蛋白质文库分离成结合到表面的样品和未结合到表面的样品。

20.根据任一前述权利要求所述的方法，其中所述文库测试步骤包括针对多个特性测试所述变体，并且所述学习步骤包括为每个测试的变体分配多个适应度分数，其中每个适应度分数对应于多个特性中的一个，其中所述学习步骤包括训练多个机器学习算法，其中每个机器学习算法被训练以预测新序列变体的多个适应度分数中的至少一个。

21.根据权利要求16或从属于权利要求16时的权利要求17至20中任一项所述的方法，其中与每个序列变体相关联的一个或多个适应度分数取决于每个序列在第一样品中出现的次数和每个序列在第二样品中出现的次数，任选地其中第一样品对应于被认为在一种或多种测定的一种中具有阳性结果的样品，并且第二样品是对照样品。

22.根据任一前述权利要求所述的方法，其中所述机器学习算法是分类器，其中所述机器学习算法是神经网络。

23.根据任一前述权利要求所述的方法，其中在步骤(c)中训练的机器学习模型用于通过在计算机中迭代优化序列变体文库来设计新的序列变体文库，任选地其中使用遗传算法对所述序列变体文库进行迭代优化。

24.根据任一前述权利要求所述的方法，还包括对所述新文库重复步骤(a)至(c)。

25.根据任一前述权利要求所述的方法，其中所述新文库包含至少一种编码具有所述一个或多个期望特性的蛋白质的序列变体。

26.根据任一前述权利要求所述的方法，其中具有改进的适应度分数分布的序列变体的新文库是这样的文库，其中相对于步骤(a)中制备的文库内的所有或一部分序列变体的相应一个或多个可变区，至少30％的所述序列变体具有DNA序列相似性小于95％的一个或多个可变区。

27.根据任一前述权利要求所述的方法，其中所述新文库的较高比例的序列变体与步骤(a)中制备的文库中的序列变体相比展示一个或多个改进的期望特性。

28.一种生产具有一个或多个期望特性的蛋白质的系统，所述系统包括：

(i)处理器，其适用于执行权利要求1至27中任一项所述的方法；

(ii)实验室自动化设备，其中所述设备由所述处理器控制以至少执行测试步骤。

29.根据权利要求28中任一项所述的系统，其中所述实验室自动化设备包括由以下组成的组中的一个或多个：液体操纵和分配设备；容器操纵设备；实验室机器人；温育器；板操纵设备；分光光度计；色谱设备；质谱仪；热循环设备；核酸测序设备；和离心设备。