CN114585918A

CN114585918A - 中尺度工程化肽和选择方法

Info

Publication number: CN114585918A
Application number: CN202080050892.XA
Authority: CN
Inventors: M·P·格雷文; K·E·豪瑟; A·莫里; J·R·威利斯
Original assignee: Rubik Therapy Co ltd
Current assignee: Ibio Inc
Priority date: 2019-05-31
Filing date: 2020-05-13
Publication date: 2022-06-03
Also published as: CA3142339A1; EP3976083A1; JP2022535511A; WO2020242766A1; US11545238B2; JP2022535769A; CN114401734A; US20210166788A1; EP3976083A4; US20220081472A1; KR20220041784A; US20230095685A1; EP3977117A4; WO2020242765A1; KR20220039659A; EP3977117A1; CA3142227A1

Abstract

本文提供包含空间相关拓扑约束的组合的工程化肽，其中至少一个约束是从参考目标导出，以及选择所述工程化肽的方法。进一步提供了使用所述工程化肽的方法，包括在筛选结合分子文库的方法中作为正和/或负选择分子。

Description

中尺度工程化肽和选择方法

相关申请的交叉引用

本申请要求2019年5月31日提交且标题为“中尺度工程化肽和选择方法”的美国专利申请第62/855,767号的优先权和权益，所述美国专利申请以全文引用的方式并入本文中。

背景技术

治疗领域的许多基础研究都旨在识别和开发具有理想特性的新分子，例如新的肽治疗剂或新的肽免疫原，从中开发新的治疗性抗体。然而，标准的分子发现范式依赖于使用随机过程的随机取样来识别有前景的功能分子。然后，这些候选分子将通过多轮评估和测试，希望它们将具有特定用途所需的活性、功能、药物动力学和/或其它所需特征。此系统从筛选随机组开始，通常会导致失败，不满足一个或多个所需的特征。因此，需要的是开发并入计算、化学和生物设计元件的工程化肽的方法。

发明内容

在一些方面，本文提供了一种工程化肽，其中所述工程化肽具有介于1kDa与10kDa之间的分子量，包含至多50个氨基酸，并且包含：空间相关拓扑约束的组合，其中一个或多个约束是参考目标导出的约束；并且其中工程化肽的10％至98％的氨基酸满足一个或多个参考目标导出的约束，其中满足一个或多个参考目标导出的约束的氨基酸与参考目标具有小于

的主链均方根偏差(RSMD)结构同源性。

在一些实施例中，满足一个或多个参考目标导出的约束的氨基酸与参考目标具有10％至90％的序列同源性。在一些实施例中，它们与参考的范德华表面积重叠为

至

在某些实施例中，所述组合包含至少两个或至少五个参考目标导出的约束。在一些实施例中，约束的组合包含一个或多个并非从参考目标导出的约束。在一些实施例中，一个或多个非参考目标导出的约束描述了所需的结构、动力学、化学或功能特征，或其任何组合。在更进一步的实施例中，一个或多个约束独立地与生物反应或生物功能相关。在一些实施例中，与生物反应或生物功能相关的工程化肽中的至少一部分原子在拓扑上被约束于参考目标中的二级结构元件，例如β-片层或α螺旋。

在其它方面，本文提供了一种选择工程化肽的方法，其包含：

识别参考目标的一个或多个拓扑特征；

为每个拓扑特征设计空间相关约束，以产生从所述参考目标导出的空间相关拓扑约束的组合；

将候选肽的空间相关拓扑特征与从所述参考目标导出的空间相关拓扑约束的组合进行比较；以及

选择具有空间相关拓扑特征的候选肽，所述特征与从所述参考目标导出的所述空间相关拓扑约束的组合重叠，以产生所述工程化肽。

在一些实施例中，每个特征之间的重叠独立地小于或等于由以下中的一个或多个确定的75％平均百分比误差(MPE)：总拓扑约束距离(TCD)、拓扑聚类系数(TCC)、欧几里得距离(Euclidean distance)、功率距离、索格尔距离(Soergel distance)、堪培拉距离(Canberra distance)、索伦森距离(Sorensen distance)、杰卡德距离(Jaccarddistance)、马氏距离(Mahalanobis distance)、汉明距离(Hamming distance)、相似性定量估计(QEL)或链拓扑参数(CTP)。在某些实施例中，一个或多个约束是从以下各者导出：每个残基能量、每个残基相互作用、每个残基波动、每个残基原子距离、每个残基化学描述符、每个残基溶剂暴露、每个残基氨基酸序列相似性、每个残基生物信息学描述符、每个残基非共价键合倾向、每个残基

角、每个残基范德华半径、每个残基二级结构倾向、每个残基氨基酸邻接或每个残基氨基酸接触。在一些实施例中，一种或多种候选肽的特征通过计算机模拟确定。在更进一步的实施例中，一个或多个约束独立地与生物反应或生物功能相关。在一些实施例中，与生物反应或生物功能相关的工程化肽中的至少一部分原子在拓扑上被约束于参考目标中的二级结构元件，例如β-片层或α螺旋。

在更进一步的方面，本文提供包含两种或更多种选择导向多肽的组合物，其中每一种多肽独立地为包含一种或多种正导向特征的正选择分子，或包含一种或多种负导向特征的负选择分子，其中每个特征类型独立地选自由以下组成的组：氨基酸序列、多肽二级结构、分子动力学、化学特征、生物功能、免疫原性、参考目标多特异性、跨物种参考目标反应性、所需参考目标超过非所需参考目标的选择性、序列和/或结构同源家族内参考目标的选择性、具有相似蛋白质功能的参考目标的选择性、从具有高序列和/或结构同源性的较大非所需目标家族选择不同所需参考目标的选择性、对不同参考目标等位基因或突变的选择性、对不同参考目标残基水平化学修饰的选择性、对细胞类型的选择性、对组织类型的选择性、对组织环境的选择性、对参考目标结构多样性的耐受性、对参考目标序列多样性的耐受性以及对参考目标动力学多样性的耐受性；并且其中两种或更多种多肽中的至少一种是如本文所述的工程化肽。

在一些实施例中，两种或更多种多肽中的至少一种是正选择分子，并且两种或更多种多肽中的至少一种是负选择分子。在一些实施例中，两种或更多种多肽中的至少一种是天然蛋白质。在某些实施例中，至少一对对应的正选择和负选择分子包含至少一种共有特征类型，其中正选择分子包含正特征并且负选择分子包含负特征。

在另外的方面，本文提供了用包含两个或更多个如本文所述的选择导向分子的组合物筛选结合分子文库的方法，所述方法包含使候选结合分子池经受至少一轮选择，其中每轮选择包含：

针对负选择分子筛选所述池的至少一部分的负选择步骤；和

针对正选择分子筛选所述池的至少一部分的正选择步骤；

其中每一轮内的选择步骤的顺序和轮次的顺序导致选择与替代顺序不同的池子集。

在一些实施例中，结合分子文库是噬菌体文库或细胞文库，例如B细胞文库或T细胞文库。在一些实施例中，所述方法包含两轮或更多轮选择，或三轮或更多轮选择。在某些实施例中，每一轮包含不同的选择分子集。在一些实施例中，至少两轮包含相同的负选择分子，或相同的正选择分子，或两者。在一些实施例中，所述方法包含在继续进行下一轮选择之前分析从一轮选择中获得的池子集。

附图说明

专利或申请文件至少包含一张彩图。在请求并支付必要的费用后，将由专利局提供带有彩图的本专利或专利申请公开案的副本。本申请可参考以下描述与附图结合理解。

图1提供了展示三个空间相关拓扑约束的示例性组合的构建的示意图，用于选择如本文所述的工程化肽。

图2提供了确定参考导出的空间相关拓扑约束和其在选择工程化肽(中尺度分子，MEM)中的使用的一些示例性方法中所涉及的步骤的示意图。

图3A-3C提供了展示使用本文所述的方法选择一组工程化肽的示意图。图3A显示了关于参考中感兴趣的界面的空间相关拓扑信息的提取，以及其在定义用于选择工程化肽的拓扑约束中的用途。图3B提供了详细说明计算机模拟筛选步骤的示意图，展示了如何丢弃不匹配的候选物，同时保留与拓扑匹配的候选物。图3C呈现了已鉴定的前12个选定的工程化肽候选物。

图4A-4B提供了第二组示意图，展示了使用本文所述的方法基于不同的参考参数集选择不同组的工程化肽。图4A显示了空间相关拓扑信息的提取和拓扑矩阵的构造。图4B提供了由计算机模拟比较候选物与拓扑约束选择的前8种工程化肽候选物的列表。

图5是提供示例性可编程体外选择的设计概述的示意图，所述选择使用如本文所述的工程化肽，并且还使用天然蛋白质作为正(T)或负(X)选择分子。

图6A-6H提供了五种工程化肽的选择的概述，以及它们在用于噬菌体淘选的可编程体外选择方案中的用途。图6A展示了选择VEGF作为参考目标，以及确定从中导出空间相关拓扑信息并用于构建空间相关拓扑约束的组合的VEGF部分(步骤1)。接着将此组合用于候选工程化肽的计算机模拟筛选以鉴定正选择分子和负选择分子(步骤2)。为了稳定交联选项，经由计算机进一步筛选所选的候选物。一旦获得鉴定的、稳定的工程化肽，它们就被用于构建用于噬菌体淘选的可编程体外选择方案。图6B显示了基于用于选择工程化肽的参考目标(VEGF的一部分)的空间相关拓扑约束的分析和鉴定。图6C、图6D、图6E分别展示了第一、第二和第三候选工程化肽的构建，以及参数的导出以与图6B中开发的约束组合进行比较。图6F列出了每个MEM与参考目标相比的平均百分比误差(MPE)，以及它们基于MPE的排名。图6G显示了如何根据参考目标将额外的约束集添加到组合中。在图6H中，此额外约束集用于评估候选物MEM 1。此比较的MPE为36.6％。

图7A是VEGF的带状图，其中参考部分用于选择所示的工程化肽(R82-H90)。图7B是基于从图7A中的目标参考产生的约束选择的5种候选工程化肽的带状图。表1中列出了序列和均方根RMSIP。图7D显示了描述参考目标中表位的两个最主要运动的两个特征向量，将表位中的十个Cɑ原子的x、y和z分量以及特征向量的特征值制成表；结构显示了表位中每个Ca原子沿特征向量1(箭头)和特征向量2(箭头)的投影。根据定义，特征向量是正交的。图7E是描述参考目标(左)和MEM(右)的表位中最主要运动(模式)的特征向量。叠加在表位上的MEM结构与MEM变体ID和RMSIP一起显示。图7F提供了描述参考目标(左)和MEM(右)的表位中第二主要运动(模式)的特征向量。叠加在表位上的MEM结构与MEM变体ID和RMSIP一起显示。图7G提供了参考目标和MEM的结构，以及沿着三个最主要运动(模式，特征向量1-3)的相关投影，所述运动与它们在用于计算RMSIP的内积矩阵中的位置有关。示出所用的RMSIP方程式仅供参考。

图8显示了从实验数据或计算机模拟生成的参考目标(顶部)和MEM(底部)的结构集合和坐标协方差矩阵。表位是参考目标右上方的较暗部分。

图9概述了体外可编程选择设计，使用四种工程化肽(也称为中尺度工程化分子，或MEM)进行正或负选择。包括MEM的原子运动和拓扑分数以供参考。序列作为SEQ ID NO:1-4提供。

图10A-10D是使用来自图9的针对贝伐单抗的不同工程化肽的结合生物传感器分析的图。

图11描述了八种不同的淘选程序，其中七种包括作为一个或多个选择分子的工程化肽，且第八种程序使用常规天然蛋白质进行选择。每个程序都分别淘选了一个初始HuscFV文库。

图12A和12B是VEGF ELISA反应图，比较了针对使用图11中描述的不同淘选程序选择的结合配偶体的VEGF结合反应。如图12A中所示，MEM程序化体外选择不会显著降低全长目标结合倾向，具有特定的MEM程序输入，但不是所有输入。水平条表示平均值；P12与P7之间的显著差异：p值<0.0001。如图12B中所示，MEM程序化体外选择以统计显著的方式指向推定的表位选择性克隆。水平条表示平均值，P12相对于P6：p值为0.024；P12相对于P9：p值为0.0004；P12相对于P10：p值为0.049。

图13A-13H是展示使用图11中描述的不同淘选程序选择的结合配偶体与sMEM工程化肽相对于VEGF(参考)的结合的图。

图14A-14I是展示使用图11中描述的不同淘选程序选择的结合配偶体在VEGF与贝伐单抗(0nM、67pM、670pM、6.7nM)的剂量反应性竞争的交叉阻断分析中的结合的图。

图15是从图11中概述的不同选择程序中的每一个获得的具有确认的交叉阻断特征的不同克隆的图。

图16是从图11中概述的选择程序产生的所有Fab的结合、交叉阻断、CDR序列和种系使用的总结。

图17和图18是图17中列出的所有Fab的ELISA结合结果。

图19显示了随机克隆相对于选自图11中概述的选择程序的克隆的贝伐单抗阻断倾向分数(0nM、67pM、670pM、6.7nM)。ELISA Z分数(sMEM+VEGF-iMEM)+贝伐单抗阻断Z分数。

图20总结了从图11中描述的淘选程序中随机均匀选择克隆的交叉阻断富集。

图21是显示如何制备所选克隆的下一代测序样本的示意图。使用2×250配对末端测序运行，克隆出表达载体恒定部分的单个重链和轻链序列。然后连接末端并注释读段(例如，使用PyIg)。从使用每个选择程序选择的克隆获得的读段显示在条形图中。

图22展示了不同淘选轮次的克隆性分析(不同抗体的数量)和标准化香农分析(Shannon analysis)。

图23显示了图11中描述的不同筛选程序的克隆性。

图24A-24L是种系使用热图和降维图，分析了第1轮(图24A-24D)、第2轮(图24E-24H)和第3轮(图24I-24L)的不同筛选轮次和程序如何塑造所得选定池的多样性。

图25A-25B总结了从每个选择程序(x轴中的S#)分离的克隆以及其与VEGF和工程化肽sMEM的结合。

图26是从每个程序的每一轮获得的独特mAb命中的富集率的总结，所述命中被证实与VEGF结合并交叉阻断贝伐珠单抗，并且在不使用工程化肽的常规淘选(程序12)中未被鉴定出来。

图27是通过常规淘选程序(12)获得的mAb命中的富集率的总结，所述命中被证实与VEGF结合但不是推定的表位选择性mAb命中。

图28总结了从不同淘选程序获得的不同克隆与sMEM或VEGF的结合。

图29是靶向PD-L1上提议的治疗表位参考位点的第二组示例性程序化体外选择方案的示意图。空间相关拓扑约束从这个推定位点导出，组合并用于经由计算机筛选与约束组合具有重叠特征的工程化肽。接着将这些用于在初始Hu scFv文库的噬菌体淘选中进行数轮选择。

图30提供了根据图29中的示意图选择的三种工程化肽的模型化结构和肽序列。序列作为SEQ ID NO:5-7提供。

图31A-31D是从参考(图31A)以及工程化肽sMEM(图31B)、nMEM(图31C)和iMEM(图31D)导出的原子距离和氨基酸描述符矩阵。与参考拓扑相比时，sMEM、nMEM和iMEM拓扑的平均百分比误差分别为3.58％、0.84％和19.3％。

图31E-31G是生物传感器结合图，展示了图30中描述的工程化肽与阿维鲁单抗(Avelumab)之间的结合。nMEM与阿维鲁单抗结合的KD为43.4μM。

图32A-32C是生物传感器结合图，展示了图30中描述的工程化肽与度伐单抗(Durvalumab)之间的结合。

图33是使用图30中描述的工程化肽中的一种或多种的程序化体外选择淘选程序以及使用天然蛋白质的传统淘选方法(C1)的差异的总结。图30中的工程化肽sMEM、nMEM和iMEM是图33中的sMEM#1、sMEM#5和iMEM。

图34是使用图33中描述的每个淘选程序选择的克隆的PD-L1ELISA结合反应的图和总结。

图35是使用图33中描述的每个淘选程序选择的克隆的针对sMEM#1的ELISA结合反应的图和总结。

图36是使用图33中描述的每个淘选程序选择的克隆的针对nMEM#5的ELISA结合反应的图和总结。

图37是使用图33中描述的每个淘选程序选择的克隆的针对PD-L1和sMEM#1的ELISA表位选择性反应的图和总结。

图38是使用图33中描述的每个淘选程序选择的克隆的针对PD-L1和nMEM#5的ELISA表位选择性反应的图和总结。

图39A-39U是比较图34-38的不同ELISA结合反应的图，展示了使用不同程序选择的结合配偶体的选择性。

图40是总结用于分析从图33中描述的选择程序获得的克隆的抗PD-L1淘选ELISA命中识别标准的表。

图41A-41C是对于使用图33中描述的不同淘选程序选择的结合配偶体比较对sMEM#1和nMEM#5相比于PD-L1(分别为图41A和42B)以及sMEM#1相比于nMEM#5(图41C)的不同ELISA结合反应的图。

图42A-42F是比较图33中描述的所有程序的不同ELISA反应和确认的Tx mAb X-阻断剂的图。

图43总结了来自图33中描述的程序的23个不同的克隆，如从交叉阻断命中和它们的序列中确定。

图44是从图33中描述的每个程序获得的确认的交叉阻断不同克隆的图表。

图45A是从图33中描述的每个程序获得的随机选择的克隆的阻断倾向的图。阻断被评估为通过PD-L1与阿维鲁单抗或度伐单抗结合的克隆的阻断。阻断倾向被评估为ELISAZ分数(sMEM1+sMEM5+PD-L1-iMEM)+MAX(阿维鲁单抗阻断Z分数,度伐单抗阻断Z分数)。

图45B和45C总结了从图45A中评估的不同程序获得的克隆的阻断倾向。图45C中的阴影条目是通过使用天然蛋白质的常规选择方法获得的。

图46是与对照(常规方法)相比，在使用图33中描述的程序获得的克隆池中观察到的交叉阻断富集的总结。

图47是可用于选择如本文所述的工程化肽的拓扑矩阵的实例。

图48是可用于选择如本文所述的工程化肽的拓扑约束化学描述符向量的实例。

图49是可用于选择如本文所述的工程化肽的示例性Lx2

矩阵。

图50是可用于选择如本文所述的工程化肽的二级结构相互作用描述符的示例性SxSxM矩阵。

图51是显示可用于选择如本文所述的工程化肽的示例性工程化肽的簇和TCC向量的示例性图。

图52是可用于选择如本文所述的工程化肽的示例性LxM拓扑约束矩阵。

图53是可用于选择如本文所述的工程化肽的示例性二级结构索引和查找表。

图54是从VEGF淘选程序获得的数据的另一种表示。S1是指抗VEGF淘选程序6，S2是指抗VEGF淘选程序13，且C为常规全长VEGF程序。

图55是图24I中提供的数据的另一种表示。S1是指抗VEGF淘选程序6，S2是指抗VEGF淘选程序13，且C为常规全长VEGF程序。

图56是图26中提供的数据的另一种表示。S1是指抗VEGF淘选程序6，S2是指抗VEGF淘选程序13，且C为常规全长VEGF程序。

图57A-57E是来自程序化体外选择的所选表位上克隆的VEGF(灰色实线)和交叉阻断(虚线)结合数据的图。

图58A-58C是来自全长体外选择的表位外选择的克隆的VEGF结合数据的图。

图59A-59B总结了针对抗VEGF程序化体外选择(红色)和常规体外选择(灰色)的抗体克隆命中CDR环序列多样性。

图60是使用如本文所述的示例性工程化肽，使用本文所述的可编程体外选择方法选择的克隆的序列比对。顶行是在所有程序化的体外选择程序中选择的前五个表位上克隆的重链序列的比对；第二行是使用常规方法，使用VEGF和BSA作为选择分子选择的前五个表位外克隆的重链序列的比对；第三行是在所有程序化体外选择程序中选择的前五个表位上克隆的轻链序列的比对；并且底行是使用常规方法与VEGF和BSA选择的克隆的轻链序列的比对。

图61是工程化多肽设计的示例性方法的示意图。

图62是使用机器学习模型进行工程化多肽设计的示例性方法的示意图。

具体实施方式

本文提供了选择中尺度工程化肽的方法，以及包含所述工程化肽的组合物和使用所述工程化肽的方法。例如，供本文提了在体外抗体选择中使用工程化肽的方法。

本公开的工程化肽在1kDa与10kDa之间，在本文中称为“中尺度”。在一些实施例中，这种尺寸的工程化肽可能具有某些优势，例如蛋白质样功能性、从中选择候选物的大理论空间、细胞渗透性和/或结构和动力学可变性。

本文提供的方法包含识别多个空间相关的拓扑约束，其中一些可能从参考目标导出；构建所述约束的组合；将候选肽与所述组合进行比较；以及选择具有与所述组合重叠的约束的候选物。通过使用空间相关的拓扑约束，可以取决于预期用途、所需功能或另一所需特性将工程化肽的不同方面包括在所述组合中。此外，在一些实施例中，并非所有约束都必须从参考目标导出。通过此类方法，在一些实施例中，选择的工程化肽不是参考目标的简单变体(例如可以通过肽诱变或单个参考的渐进修饰获得)，而是可以具有与参考肽不同的整体结构，同时仍保留所需的功能特征和/或关键子结构。

本文进一步提供了使用所述工程化肽的方法，其包括使用一种或多种工程化肽的可编程体外选择的方法。此类选择可用于例如抗体的识别。

这些方法和工程化肽在下文更详细地描述。

I.选择工程化肽的方法

在一些方面，本文提供选择工程化肽的方法，其包含：

识别参考目标的一个或多个拓扑特征；

为每个拓扑特征设计空间相关约束，以产生参考目标导出的约束的组合；

将候选肽的空间相关拓扑特征与从参考目标导出的组合进行比较；以及

选择具有空间相关拓扑特征的候选肽，所述特征与从参考目标导出的约束的组合重叠。

在一些实施例中，所述组合中包括一个或多个并非从参考目标导出的额外空间相关拓扑约束。

a.空间相关拓扑约束

本文所述的工程化肽是基于它们与空间相关拓扑约束的组合匹配的紧密程度来选择。这种组合也可以使用“张量”的数学概念来描述。在此类组合(或张量)中，每个约束在三维空间中独立描述(例如，空间相关)，并且这些约束在三维空间中的组合提供例如不同所需特征以及它们相对于位置的所需水平(如果适用)的代表性“地图”。在一些实施例中，此地图不基于线性或以其它方式预先确定的氨基酸主链，因此可以允许结构中可以满足所需组合的灵活性，如所描述。例如，在一些实施例中，“地图”包括空间区域，其中规定的约束限制可以被两个相邻的氨基酸充分满足—在一些实施例中，这些氨基酸可以直接结合(例如，两个连续氨基酸)而在其它实施例中，氨基酸彼此不直接结合，而是可以通过肽的折叠在空间中聚集在一起(例如，不是连续氨基酸)。单独的约束本身也不一定基于结构，但可以包括例如化学描述符和/或功能描述符。在一些实施例中，约束包括结构描述符，例如所需的二级结构或氨基酸残基。在某些实施例中，独立地选择每个约束。

例如，图1是展示空间相关拓扑约束的代表性组合的构造的示意图。图1中的三个约束是序列、最近邻距离和原子运动，其中最近邻距离和原子运动组合成一个图形。如图所示，一些约束的映射无关于主链的位置(例如，某些侧链的原子运动)，因此与仅改变参考支架上的一个或多个位置相比，允许尝试多得多种类的结构配置。三种不同的约束和其空间描述被组合成一个矩阵(例如，张量)，且接着可以将一系列候选肽与这种组合进行比较，以识别满足所需标准的新工程化肽。在一些实施例中，组合中还包括一个或多个额外的非参考导出的约束。可以将候选肽与定义的组合进行比较，例如，使用计算机模拟方法来评估每个候选肽对所需组合的约束，并评估候选肽的匹配程度。然后可以使用本领域技术人员已知的标准肽合成方法合成与规定组合具有期望重叠水平的所述候选物，并对其进行评估。

在一些实施例中，约束的组合包含至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、3至12、3至10、3至8、3至6、或3、或4、或5、或6个独立选择的空间相关拓扑约束。一个或多个约束是从参考目标导出。在一些实施例中，每个约束是从参考目标导出。在其它实施例中，至少一个约束是从参考目标导出，而其余约束并非从参考目标导出。例如，在一些实施例中，1至9个约束、1至7个约束、1至5个约束或1至3个约束是从参考目标导出，且1至9个约束、1至7个约束、1至5个约束或1至3个约束并非从参考目标导出。

一旦构建了约束条件的组合，就将一系列候选肽与所述组合进行比较以识别满足所需标准的一个或多个新的工程化肽。在一些实施例中，将至少5、至少10、至少15、至少20、至少25、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少125、至少150、至少175、至少200或至少250个或更多个候选肽与所述组合进行比较以识别满足所需标准的一个或多个新的工程化肽。在一些实施例中，例如比较了超过250个候选肽、超过300个候选肽、超过400个候选肽、超过500个候选肽、超过600个候选肽或超过750个候选肽。在一些实施例中，拓扑特征模拟用于评估候选肽与约束组合相比的拓扑特征重叠(如果有的话)。在一些实施例中，还将一个或多个候选肽与参考目标进行比较，并且评估候选肽拓扑特征与参考目标拓扑特征的重叠(如果有的话)。在一些实施例中，从超过5、超过10、超过20、超过30、超过40、超过50、超过60、超过70、超过80、超过90或超过100个不同的肽和拓扑特征模拟的计算样本中识别工程化肽并选择工程化肽，其中在总取样群体中，与参考目标相比，所选择的工程化肽具有最高的拓扑特征重叠。

用于构建所需组合(例如，所需张量)的空间相关拓扑约束可以各自独立地从广泛的可能特征组中选择。这些可以包括例如描述结构、动力学、化学或功能特征或其任何组合的约束。

结构约束可以包括例如原子距离、氨基酸序列相似性、溶剂暴露、

角、ψ角、二级结构或氨基酸接触，或其任何组合。

动态约束可以包括例如原子波动、原子能、范德华半径、氨基酸邻接或非共价键合倾向。原子能可以包括例如两个原子之间的成对吸引能、两个原子之间的成对排斥能、原子级溶剂化能、两个原子之间的成对带电吸引能、两个原子之间的成对氢键合吸引能或非共价键合能，或其任何组合。

化学特征可以包括例如化学描述符。此类化学描述符可包括例如疏水性、极性、原子体积、原子半径、净电荷、logP、HPLC保留、范德华半径、电荷模式或H键合模式或其任何组合。

功能特征可以包括例如生物信息学描述符、生物反应或生物功能。生物信息学描述符可以包括例如BLOSUM相似性、pKa、zScale、克鲁恰尼特性(Cruciani Properties)、基德拉因子(Kidera Factors)、VHSE量表、ProtFP、MS-WHIM分数、T量表、ST量表、跨膜倾向、蛋白质埋藏面积、螺旋倾向、片层倾向、卷曲倾向、转向倾向、免疫原性倾向、抗体表位出现率和/或蛋白质界面出现率，或其任何组合。

在一些实施例中，设计约束结合关于以下各者的信息：每个残基能量、每个残基相互作用、每个残基波动、每个残基原子距离、每个残基化学描述符、每个残基溶剂暴露、每个残基氨基酸序列相似性、每个残基生物信息学描述符、每个残基非共价键合倾向、每个残基

角、每个残基范德华半径、每个残基二级结构倾向、每个残基氨基酸邻接或每个残基氨基酸接触。在一些实施例中，这些特征用于参考目标中总残基的子集，或约束的总组合的总残基的子集，或其组合。在一些实施例中，一个或多个不同特征用于一个或多个不同残基。即，在一些实施例中，一个或多个特征用于残基子集，并且至少一个不同特征用于不同的残基子集。在一些实施例中，用于设计一个或多个约束的一个或多个所述特征由计算机模拟确定。合适的计算机模拟方法可以包括例如分子动力学模拟、蒙特卡洛模拟(Monte Carlosimulation)、粗粒度模拟、高斯网络模型(Gaussian network model)、机器学习或其任何组合。

在一些实施例中，从一个类别中选择多个约束。例如，在一些实施例中，所述组合包含两个或更多个独立地为一种类型的生物反应的约束。在一些实施例中，两个或更多个约束独立地为一种类型的二级结构。在某些实施例中，两个或更多个约束独立地为一种类型的化学描述符。在其它实施例中，所述组合不包含重叠的约束类别。

在一些实施例中，一个或多个约束独立地与生物反应或生物功能相关。在一些实施例中，所述约束是空间定义的原子级约束，或空间定义的形状/面积/体积级约束(例如可由若干不同原子组成满足的特征形状/面积/体积)，或空间定义的动态级约束(例如可由若干不同的原子组成满足的特征动态或动态集)。

在一些实施例中，一种或多种约束是从与生物功能或生物反应相关的蛋白质结构或肽结构导出。例如，在一些实施例中，一种或多种约束是从细胞外域，例如G蛋白偶联受体(GPCR)细胞外域或离子通道细胞外域导出。在一些实施例中，一种或多种约束是从蛋白质-蛋白质界面连接导出。在一些实施例中，一种或多种约束是从蛋白质-肽界面连接，例如MHC-肽或GPCR-肽界面导出。在某些实施例中，被约束于此类蛋白质或肽结构的原子或氨基酸是与生物功能或生物反应相关的原子或氨基酸。在一些实施例中，被约束于此类蛋白质或肽结构的工程化肽中的原子或氨基酸是从参考目标导出的原子或氨基酸。在一些实施例中，一个或多个约束是从参考目标的多态性区域(例如，个体之间经受等位基因变异的区域)导出。

在一些实施例中，生物反应或生物功能选自由以下组成的组：基因表达、代谢活性、蛋白质表达、细胞增殖、细胞死亡、细胞因子分泌、激酶活性、表观遗传修饰、细胞杀伤活性、炎症信号、趋化性、组织浸润、免疫细胞谱系定型、组织微环境修饰、免疫突触形成、IL-2分泌、IL-10分泌、生长因子分泌、γ干扰素分泌、转化生长因子β分泌、基于免疫受体酪氨酸的激活基序活性、基于免疫受体酪氨酸的抑制基序活性、抗体定向的细胞毒性、补体定向的细胞毒性、生物途径激动作用、生物途径拮抗作用、生物途径重定向、激酶级联修饰、蛋白水解途径修饰、蛋白稳态途径修饰、蛋白质折叠/途径、翻译后修饰途径、代谢途径、基因转录/翻译、mRNA降解途径、基因甲基化/乙酰化途径、组蛋白修饰途径、表观遗传途径、免疫定向清除、调理作用、激素信号传导、整合素途径、膜蛋白信号转导、离子通道通量和g蛋白偶联受体反应。

在一些实施例中，与生物功能或生物反应相关的一个或多个原子选自由以下组成的组：碳、氧、氮、氢、硫、磷、钠、钾、锌、锰、镁、铜、铁、钼和镍。在某些实施例中，原子选自由以下组成的组：氧、氮、硫和氢。

在一些实施例中，其中约束之一是与生物功能或生物反应相关的一种或多种氨基酸，和/或工程化肽包含与生物功能或生物反应相关的一种或多种氨基酸，所述一种或多种氨基酸独立地选自由以下组成的组：20种蛋白型天然存在的氨基酸、非蛋白型天然存在的氨基酸和非天然氨基酸。在一些实施例中，非天然氨基酸是化学合成的。在某些实施例中，一种或多种氨基酸选自20种蛋白型天然存在的氨基酸。在其它实施例中，一种或多种氨基酸选自非蛋白型天然存在的氨基酸。在更进一步的实施例中，一种或多种氨基酸选自非天然氨基酸。在更进一步的实施例中，一种或多种氨基酸选自20种蛋白型天然存在的氨基酸、非蛋白型天然存在的氨基酸和非天然氨基酸的组合。

虽然用于选择如本文所述的工程化肽的约束的组合包含从参考目标导出的至少一个约束，但在一些实施例中，所述组合的一个或多个约束并非从参考目标导出。因此，在某些实施例中，所选的工程化肽包含一种或多种不与参考目标共有的特征。

在一些实施例中，从参考目标导出并在组合中使用的一个或多个约束描述了在参考目标中观察到的特征的逆特征。因此，例如，参考目标可具有一定的正电荷模式，从所述参考目标导出与电荷相关的约束，并且导出的约束描述类似的模式，但具有中性电荷或负电荷。因此，在一些实施例中，一个或多个逆约束是从参考目标导出并且包括在组合中。例如，此类逆约束可例如适用于选择工程化肽作为某些分析或淘选方法的对照分子，或作为本文所述的可编程体外选择方法中的负选择分子。

在一些实施例中，空间定义的拓扑约束的组合包含一个或多个非参考导出的拓扑约束。在一些实施例中，一个或多个非参考导出的拓扑约束加强或稳定一个或多个二级结构元件、加强原子波动、改变肽总疏水性、改变肽溶解度、改变肽总电荷、使得能够在经标记或无标记分析中进行检测、使得能够在体外分析中进行检测、使得能够在体内分析中进行检测、使得能够从复杂混合物中捕获、使得能够进行酶处理、使得细胞膜能够具透性、使得能够与二级目标结合或改变免疫原性。在某些实施例中，一个或多个非参考导出的拓扑约束对从参考目标导出的约束(或随后选择的肽)的组合中的一个或多个原子或氨基酸进行约束。例如，在一些实施例中，约束的组合包括从参考目标导出的二级结构，并且约束的组合还包含稳定二级结构元件的约束(例如，通过额外的氢键合或疏水相互作用，或侧链堆叠，或盐桥，或二硫键)，其中稳定约束不存在于参考目标中。在另一实例中，在一些实施例中，约束(或随后选择的肽)的组合包含一个或多个从参考目标导出的原子或氨基酸，并且约束的组合还包括在从目标参考导出的原子或氨基酸的至少一部分中加强原子波动的约束，其中约束不存在于目标参考中。在一些实施例中，一个或多个非参考导出的约束是逆约束。例如，在一些实施例中，构建约束的两种组合以选择具有逆特征的工程化肽。在一些此类实施例中，约束的第一组合将包含从参考目标导出的一个或多个约束，以及并非从参考目标导出的一个或多个约束；并且约束的第二组合将包含从参考目标导出的相同的一个或多个约束，以及第一组合的一个或多个非参考目标约束的逆约束。

d.参考目标

可以使用任何合适的参考目标来导出一个或多个空间相关的拓扑约束以用于本文提供的方法中。在一些实施例中，参考目标是全长天然蛋白质。在其它实施例中，参考目标是全长天然蛋白质的一部分。在更进一步的实施例中，参考目标是非天然蛋白质或其部分。

例如，在一些实施例中，参考目标是细胞表面受体、或跨膜蛋白、或信号传导蛋白、或多蛋白复合物、或蛋白质-肽复合物、或其部分。在一些实施例中，参考目标是感兴趣蛋白质的一部分，其中感兴趣蛋白质参与生物体，例如人类的疾病过程。在一些实施例中，感兴趣蛋白质参与癌症的生长或转移，或参与发炎性病症，并且参考目标是所述感兴趣蛋白质的作为推定表位的部分。因此，在一些实施例中，本文提供的方法可用于选择一种或多种可用作免疫原的工程化肽，并可用于产生感兴趣蛋白质的抗体。可能感兴趣的蛋白质的实例包括例如PD-1、PD-L1、CD25、IL2、MIF、CXCR4或VEGF。因此，在一些实施例中，参考目标是PD-1、PD-L1、CD25、IL2、MIF、CXCR4或VEGF，或其一部分，例如表位。在一些实施例中，本文提供的方法可用于选择一种或多种作为免疫原的工程化肽，并且可用于产生一种或多种与导出目标参考的蛋白质特异性结合的抗体。在更进一步的实施例中，本文提供的方法可用于选择一种或多种工程化肽，其进而可用于选择感兴趣蛋白质的一种或多种结合配偶体，例如抗体或Fab展示噬菌体。

c.约束的比较

在一些实施例中，一个或多个约束(例如，参考导出的或非参考导出的)通过分子模拟(例如分子动力学)或实验室测量(例如NMR)或其组合来确定。一旦导出并组合了约束，在一些实施例中，使用计算蛋白质设计(例如，Rosetta)生成工程化肽候选物。在一些实施例中，使用其它取样肽空间的方法。然后可以对候选工程化肽进行动力学模拟以获得已选择的约束参数。为参考目标生成原子波动的协方差矩阵，为每个候选工程化肽中的残基生成协方差矩阵，并比较这些协方差矩阵以确定重叠。执行主分量分析以计算每个协方差矩阵的特征向量和特征值-参考目标的一个协方差矩阵和每个候选工程化肽的一个协方差-并且保留那些具有最大特征值的特征向量。

特征向量描述了在一组模拟分子结构中观察到的最主要、第二主要、第三主要、第N主要的运动。不希望受任何理论束缚，如果候选工程化肽像参考目标一样移动，则其特征向量将类似于参考目标的特征向量。特征向量的相似性对应于它们的分量(以每个CA原子为中心的3D向量)对齐，指向相同的方向。参考目标与候选工程化肽之间的示例性特征向量比较展示于图7D-7G中。

在一些实施例中，候选工程化肽与参考目标特征向量之间的这种相似性是使用两个特征向量的内积计算的。如果两个特征向量相互成90度，则内积值为0，或者如果两个特征向量正好指向同一方向，则内积值为1。不希望受理论束缚，因为特征向量的排序是基于它们的特征值，并且由于分子动力学(MD)模拟对两个不同分子的潜在能量景观进行取样的随机性，特征值在那些不同分子之间可能不一定相同，在一些实施例中，需要多个不同等级的特征向量之间的内积(例如工程化肽的特征向量1乘参考目标的特征向量2、3、4等)。此外，分子运动很复杂，并且可能涉及不止一种(或不止几种)主要/主运动模式。因此，在一些实施例中，计算候选工程化肽中的所有特征向量对与参考目标之间的内积。这会产生一个内积矩阵，其维数由所分析的特征向量的数量决定。例如，对于10个特征向量，内积矩阵为10×10。通过计算100个(如果10×10)内积的均方根值，可以将此内积矩阵提炼为单个值。这是均方根内积(RMSIP)。RMSIP的方程式展示于图7G中。从这个比较中，选择与定义的约束组合具有相似性的一种或多种候选工程化肽。

e.额外步骤

在一些实施例中，一种或多种工程化肽的选择包含一个或多个额外步骤。例如，在一些实施例中，基于与空间相关拓扑约束的定义组合的相似性来选择工程化肽候选物，如本文所述，且接着进行一个或多个分析以确定一种或多种额外特征，以及一个或多个结构调整以赋予或加强所述所需特征。例如，在一些实施例中，例如通过分子动力学模拟分析所选候选物以确定分子的整体稳定性和/或特定折叠结构的倾向。在一些实施例中，对工程化肽进行一种或多种修饰以赋予或加强所需的稳定性水平或所需折叠结构的所需倾向。此类修饰可包括例如安装一个或多个交联(例如二硫键)、盐桥、氢键合相互作用或疏水相互作用，或其任何组合。

本文提供的方法可进一步包含针对一种或多种所需特征，例如所需的结合相互作用或活性来分析一种或多种所选工程化肽。可以视需要使用任何合适的分析来测量所需特征。

II.所选工程化肽

在其它方面，本文提供工程化肽，例如通过本文所述的方法选择的工程化肽。在一些实施例中，工程化肽的分子量为1kDa至10kDa，并且包含至多50个氨基酸。在某些实施例中，工程化肽的分子量为2kDa至10kDa、2kDa至10kDa、3kDa至10kDa、4kDa至10kDa、5kDa至10kDa、6kDa至10kDa、7kDa至10kDa、8kDa至10kDa、9kDa至10kDa、1kDa至9kDa、1kDa至8kDa、1kDa至7kDa、1kDa至6kDa、1kDa至5kDa、1kDa至4kDa、1kDa至3kDa或1kDa至2kDa。在某些实施例中，工程化肽包含至多45个氨基酸、至多40个氨基酸、至多35个氨基酸、至多30个氨基酸、至多25个氨基酸、至多20个氨基酸、至少5个氨基酸、至少10个氨基酸、至少15个氨基酸、至少20个氨基酸、至少25个氨基酸、至少30个氨基酸、至少35个氨基酸或至少40个氨基酸。

在某些实施例中，工程化肽包含空间相关拓扑约束的组合，其中一个或多个约束是参考目标导出的约束。在一些实施例中，本文所述的任何约束都可以组合使用。在更进一步的实施例中，工程化肽的10％至98％的氨基酸满足一个或多个参考目标导出的约束(例如，如果工程化肽包含50个氨基酸，则5至49个氨基酸满足一个或多个参考目标导出的约束)。在一些实施例中，工程化肽的20％至98％、30％至98％、40％至98％、50％至98％、60％至98％、70％至98％、80％至98％、90％至98％、10％至90％、10％至80％、10％至70％、10％至60％、10％至50％、10％至40％、10％至30％或10％至20％的氨基酸满足一个或多个参考目标导出的约束。在更进一步的实施例中，满足一个或多个参考目标导出的约束的一种或多种氨基酸与参考目标的主链均方根偏差(RSMD)结构同源性为小于

小于

小于

小于

小于

小于

或小于

在一些实施例中，工程化肽的分子量为1kDa至10kDa；包含至多50个氨基酸；空间相关拓扑约束的组合，其中一个或多个所述约束是参考目标导出的约束；工程化肽的10％至98％的氨基酸满足一个或多个参考目标导出的约束；并且满足一个或多个参考目标导出的约束的氨基酸与参考目标的主链均方根偏差(RSMD)结构同源性为小于

在一些实施例中，满足一个或多个参考目标导出的约束的工程化肽的氨基酸与参考目标具有10％至90％序列同源性、20％至90％序列同源性、30％至90％序列同源性、40％至90％序列同源性、50％至90％序列同源性、60％至90％序列同源性、70％在90％序列同源性或80％至90％序列同源性。在一些实施例中，满足一个或多个参考目标导出的约束的氨基酸与参考的范德华表面积重叠为

至

或

至

或

至

或

至

或

至

或

至

或

至

或

至

或

至

或

至

或

至

或

至

或

至

工程化肽满足的约束的组合可包含两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、或七个或更多个参考目标导出的约束。如本公开的其它地方所述，所述组合可包含一个或多个并非从参考目标导出的约束。这些参考导出的约束和非参考导出的约束(如果存在)可以独立地是本文所述的任何约束，例如本文所述的任何结构、动力学、化学或功能特性，或其任何组合。

在一些实施例中，当与参考目标相比时，工程化肽包含至少一个结构差异。此类结构差异可包括例如序列差异、氨基酸残基数、原子总数、总亲水性、总疏水性、总正电荷、总负电荷、一个或多个二级结构、形状因子、泽尼克描述符(Zernike descriptor)、范德华表面、结构图节点和边、体积表面、静电势表面、疏水势表面、局部直径、局部表面特征、骨架模型、电荷密度、亲水密度、表面积与体积比、两亲密度或表面粗糙度，或其任何组合。在一些实施例中，当与参考目标中适用于特征类型的特征相比时，一种或多种特征(例如本文所述的一种或多种特征)的差异为至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少100％或大于100％。例如，在一些实施例中，差异是原子总数，并且工程化肽具有比参考目标多至少10％、至少20％或至少30％的原子，或比参考目标少至少10％、至少20％或至少30％的原子。在一些实施例中，差异在于总正电荷，并且工程化肽的总正电荷比参考目标大至少10％、至少20％、至少30％、至少40％或至少50％(例如，更正)，而在其它实施例中，工程化肽的总正电荷比参考目标小至少10％、至少20％、至少30％、至少40％或至少50％(例如，更负)。

在一些实施例中，空间定义的拓扑约束的组合包括参考目标中不存在的一个或多个二级结构元件。因此，在一些实施例中，工程化肽包含参考目标中不存在的一个或多个二级结构元件。在一些实施例中，组合和/或工程化肽包含在参考目标中未发现的一个二级结构元件、两个二级结构元件、三个二级结构元件、四个二级结构元件或多于四个二级结构元件。在一些实施例中，每个二级结构元件独立地选自由螺旋、片层、环、转角和卷曲组成的组。在一些实施例中，参考目标中不存在的每个二级结构元件独立地为α-螺旋、β-桥、β-股、3₁₀螺旋、π-螺旋、转角、环或卷曲。

在一些实施例中，工程化肽包含与生物反应或生物功能相关的一个或多个原子、或一个或多个氨基酸、或其组合。在一些实施例中，生物反应或生物功能选自由以下组成的组：基因表达、代谢活性、蛋白质表达、细胞增殖、细胞死亡、细胞因子分泌、激酶活性、表观遗传修饰、细胞杀伤活性、炎症信号、趋化性、组织浸润、免疫细胞谱系定型、组织微环境修饰、免疫突触形成、IL-2分泌、IL-10分泌、生长因子分泌、γ干扰素分泌、转化生长因子β分泌、基于免疫受体酪氨酸的激活基序活性、基于免疫受体酪氨酸的抑制基序活性、抗体定向的细胞毒性、补体定向的细胞毒性、生物途径激动作用、生物途径拮抗作用、生物途径重定向、激酶级联修饰、蛋白水解途径修饰、蛋白稳态途径修饰、蛋白质折叠/途径、翻译后修饰途径、代谢途径、基因转录/翻译、mRNA降解途径、基因甲基化/乙酰化途径、组蛋白修饰途径、表观遗传途径、免疫定向清除、调理作用、激素信号传导、整合素途径、膜蛋白信号转导、离子通道通量和g蛋白偶联受体反应。

在某些实施例中，参考目标包含一个或多个与生物反应或生物功能(例如本文所述的一者)相关的原子；工程化肽包含一个或多个与生物反应或生物功能(例如本文所述的一者)相关的原子；并且工程化肽中的所述原子的原子波动与参考目标中的所述原子的原子波动重叠。因此，例如，在一些实施例中，原子本身是不同的原子，但它们的原子波动重叠。在其它实施例中，原子是相同的原子，并且它们的原子波动重叠。在更进一步的实施例中，原子独立地相同或不同。在一些实施例中，所述重叠为大于0.25的均方根内积(RMSIP)。在一些实施例中，重叠是RMSIP大于0.3、大于0.35、大于0.4、大于0.45、大于0.5、大于0.55、大于0.6、大于0.65、大于0.7、大于0.75、大于0.8、大于0.85、大于0.9或大于0.95。在某些实施例中，RMSIP如下计算：

其中n是工程化肽拓扑约束的特征向量，且v是参考目标拓扑约束的特征向量。

在一些实施例中，工程化肽包含与生物反应或生物功能相关的原子或氨基酸(或其组合)，并且所述原子或氨基酸或组合的至少一部分是从参考目标导出，并且工程化肽中的原子或氨基酸集和参考目标中的原子或氨基酸集的某些约束可以通过矩阵来描述。在一些实施例中，矩阵是LxL矩阵。在其它实施例中，矩阵是SxSxM矩阵。在更进一步的实施例中，矩阵是Lx2

角矩阵。

例如，在一些实施例中，与生物反应或生物功能相关的工程化肽中的原子或氨基酸的原子波动由LxL矩阵描述；所述原子或氨基酸的一部分是从参考目标导出；并且所述部分的参考目标中的原子波动由LxL矩阵描述。在一些实施例中，每个集的邻接(与氨基酸位置相关)由相应的LxL矩阵描述。在某些实施例中，对从参考目标导出的工程化肽的部分，工程化肽LxL原子波动或邻接矩阵的所有矩阵元件(i,j)的平均百分比误差(MPE)相对于参考目标原子波动或邻接矩阵的相应(i,j)元件为小于或等于75％。在一些实施例中，对于从参考目标导出的工程化肽的部分，MPE相对于参考目标矩阵中的相应元件为小于70％、小于65％、小于60％、小于55％、小于50％、小于45％或小于40％。在一些实施例中，其中矩阵表示原子波动，L是氨基酸位置数，并且如果(i,j)原子距离小于或等于

则原子波动矩阵元件中的(i,j)值分别是第i个和第j个氨基酸的分子内原子波动的总和，或者如果(i,j)原子距离大于

或者如果(i,j)在对角线上，则为零。或者，在一些实施例中，原子距离可用作原子波动矩阵元件(i,j)的加权因子而不是0或1乘数。在某些实施例中，第i个和第j个原子波动和距离可以通过分子模拟(例如分子动力学)和/或实验室测量(例如NMR)来确定。在其它实施例中，其中矩阵表示邻接，L是氨基酸位置数，并且如果原子距离小于或等于

则邻接矩阵元件(i,j)中的值分别是第i个与第j个氨基酸之间的分子内原子距离，或者如果原子距离大于

或者如果(i,j)在对角线上，则为零。或者，在一些实施例中，原子距离可用作邻接矩阵元件(i,j)的加权因子而不是0或1乘数。在某些实施例中，第i个和第j个原子距离可以通过分子模拟(例如分子动力学)和/或实验室测量(例如NMR)来确定。

在某些实施例中，对于从参考目标导出的工程化肽的部分，与工程化肽中的反应或功能相关的原子或氨基酸具有拓扑约束化学描述符向量和相对于由相同化学描述符描述的参考小于75％的平均百分比误差(MPE)，其中化学描述符向量中的每个第i元件对应于氨基酸位置索引。在一些实施例中，对于从参考目标导出的工程化肽的部分，MPE相对于由相同化学描述符描述的参考为小于70％、小于65％、小于60％、小于55％、小于50％、小于45％或小于40％。示例性向量呈现在图48中。

在更进一步的实施例中，矩阵是Lx2

角矩阵，并且与工程化肽中的反应或功能相关的原子或氨基酸具有相对于从参考目标导出的工程化肽的部分中的参考

角矩阵小于75％的MPE，其中L是氨基酸位置数，且

ψ值分别在维数(L,1)和(L,2)中。在一些实施例中，相对于从参考目标导出的工程化肽的部分中的参考

角矩阵，MPE为小于70％、小于65％、小于60％、小于55％、小于50％、小于45％或小于40％。在一些实施例中，

值通过分子模拟(例如分子动力学)、基于知识的结构预测或实验室测量(例如NMR)来确定。示例性Lx2

矩阵显示在图49中。

在一些实施例中，矩阵是SxSxM二级结构元件相互作用矩阵，并且相对于从参考目标导出的工程化肽的部分中的参考二级结构元件关系矩阵，与工程化肽中的反应或功能相关的原子或氨基酸具有小于75％的平均百分比误差(MPE)，其中S是二级结构元件的数量，且M是相互作用描述符的数量。在一些实施例中，相对于从参考目标导出的工程化肽的部分中的参考二级结构元件关系矩阵，MPE为小于70％、小于65％、小于60％、小于55％、小于50％、小于45％或小于40％。相互作用描述符可以包括例如氢键合、疏水堆积、范德华相互作用、离子相互作用、共价桥、手性、取向或距离，或其任何组合。在二级结构元件相互作用矩阵索引中，(i,j,m)＝第i个与第j个二级结构元件之间的第m个相互作用描述符值。示例性SxSxM矩阵呈现于图50中。

如本文所述的不同矩阵的平均百分比误差(MPE)可如下计算：

其中n是工程化肽(eng_n)和相应参考(ref_n)的拓扑约束向量或矩阵位置索引，总计为向量或矩阵位置n。拓扑矩阵的示例性实例提供于图47中。

在一些实施例中，相比于参考目标，工程化肽具有小于75％的MPE。在某些实施例中，相比于参考目标，工程化肽具有小于70％、小于65％、小于60％、小于55％、小于50％、小于45％或小于40％的MPE。在一些实施例中，MPE由以下各者确定：总拓扑约束距离(TCD)、拓扑聚类系数(TCC)、欧几里得距离、功率距离、索格尔距离、堪培拉距离、索伦森距离、杰卡德距离、马氏距离、汉明距离、相似性定量估计(QEL)或链拓扑参数(CTP)。

a.二级结构元件

在一些实施例中，工程化肽的至少一部分在拓扑上被约束于一个或多个二级结构元件。在一些实施例中，与工程化肽中的生物反应或生物功能相关的原子或氨基酸在拓扑上被约束于一个或多个二级结构元件。在一些实施例中，二级结构元件独立地为片层、螺旋、转角、环或卷曲。在一些实施例中，二级结构元件独立地为α螺旋、β-桥、β-股、3₁₀螺旋、π-螺旋、转角、环或卷曲。在某些实施例中，至少一部分工程化肽在拓扑上受约束的一种或多种二级结构元件存在于参考目标中。在一些实施例中，工程化肽的至少一部分在拓扑上受约束于二级结构元件的组合，其中每个元件独立地选自由片层、螺旋、转角、环和卷曲组成的组。在更进一步的实施例中，每个元件独立地选自由α-螺旋、β-桥、β-股、3₁₀螺旋、π-螺旋、转角、环和卷曲组成的组。

在一些实施例中，二级结构元件是平行或反平行的片层。在一些实施例中，片层二级结构包含大于或等于2个残基。在一些实施例中，片层二级结构包含小于或等于50个残基。在更进一步的实施例中，片层二级结构包含2至50个残基。片层可以是平行或反平行的。在一些实施例中，平行片层二级结构可被描述为具有平行的两个股i、j(i和j股的N末端相反取向)，以及残基i:j的氢键合模式。在一些实施例中，反平行片层二级结构也可被描述为具有反平行的两个股i、j(i和j股的N末端相同取向)，以及残基i:j-1、i:j+1的氢键合模式。在某些实施例中，可以通过基于知识或分子动力学模拟和/或实验室测量来确定股的取向和氢键合。

在一些实施例中，二级结构元件为螺旋。螺旋可以是右旋或左旋的。在一些实施例中，螺旋具有介于2.5与6.0之间的残基每转角(残基/转角)值和介于

与

之间的间距。在一些实施例中，残基/转角和间距由基于知识或分子动力学模拟和/或实验室测量确定。

在一些实施例中，二级结构元件为转角。在一些实施例中，转角包含2至7个残基和1个或更多个残基间氢键。在一些实施例中，转角包含2、3或4个残基间氢键。在某些实施例中，转弯由基于知识或分子动力学模拟和/或实验室测量确定。

在更进一步的实施例中，二级结构元件为卷曲。在某些实施例中，卷曲包含2至20个残基和零个预测的残基间氢键。在一些实施例中，这些卷曲参数由基于知识或分子动力学模拟和/或实验室测量确定。

在更进一步的实施例中，工程化肽包含一个或多个从参考目标导出的原子或氨基酸，其中所述原子或氨基酸具有二级结构。在一些实施例中，这些原子或氨基酸与生物反应或生物功能相关。在一些实施例中，对于从参考目标导出的工程化肽的部分，工程化肽中的原子或氨基酸的二级结构基序向量相对于参考目标二级结构基序向量具有大于0.25的余弦相似性，其中向量的长度是二级结构基序的数量，且第i个向量位置的值定义了从查找表中导出的二级结构基序(例如螺旋、片层)的身份。在一些实施例中，每个基序包含两个或更多个氨基酸。在某些实施例中，基序包括例如α螺旋、β-桥、β-股、3₁₀螺旋、π-螺旋、转角和环。在一些实施例中，对于从参考目标导出的工程化肽的部分，相对于参考目标二级结构基序向量的余弦相似性为大于0.3、大于0.35、大于0.4、大于0.45或大于0.5。图53中提供了示例性二级结构索引和查找表。余弦相似性可如下计算：

其中A为二级结构基序标识符的肽向量，B为二级结构基序标识符的参考向量，n为二级结构基序向量的长度，且i为第i个二级结构基序。

在一些实施例中，可以使用总拓扑约束距离(TCD)将从参考目标导出的工程化肽的一个或多个原子或氨基酸与相应参考目标原子或氨基酸进行比较。在一些实施例中，所述从参考目标导出的工程化肽原子或氨基酸的总TCD相对于参考目标中的相应原子的TCD距离为+/-75％，其中如果两个分子内拓扑约束的成对距离小于或等于

则它们相互作用。在一些实施例中，被比较的工程化肽中的原子或氨基酸与生物功能或生物反应相关。在一些实施例中，两个原子或氨基酸的第i、第j成对距离可以通过分子模拟(例如分子动力学)和/或实验室测量(例如NMR)来确定。用于计算总拓扑约束距离(TCD)的示例性方程式为：

其中i、j是氨基酸(i,j)的分子内位置索引，S_ij是约束S(i)与S(j)之间的差异，如果氨基酸(i,j)在

相互作用阈值内，则(i,j)＝1，且L是肽或相应参考目标中的氨基酸位置数。或者，在一些实施例中，(i,j)可以用作S_ij差的加权因子而不是0或1乘数。

在一些实施例中，可以使用链拓扑参数(CTP)将从参考目标导出的工程化肽的一个或多个原子或氨基酸与相应参考目标原子或氨基酸进行比较。在一些实施例中，所述工程化肽原子或氨基酸的CTP相对于参考目标中的相应原子或氨基酸的CTP为+/-50％，其中链内拓扑相互作用是小于或等于

的成对距离。在一些实施例中，被比较的工程化肽中的原子或氨基酸与生物功能或生物反应相关。在一些实施例中，第i、第j成对距离可以通过分子模拟(例如分子动力学)和/或实验室测量(例如NMR)来确定。用于评估CTP的示例性方程式为：

其中i、j是氨基酸(i,j)的位置索引，S_ij是拓扑约束S(i)与S(j)之间的差异，如果氨基酸(i,j)在

链拓扑相互作用阈值内，则(i,j)＝1，L是肽或相应参考目标中的氨基酸位置数，且N是工程化肽或参考目标中满足

拓扑相互作用阈值的链内接触总数。或者，在一些实施例中，(i,j)可以用作S_ij差的加权因子而不是0或1乘数。

在一些实施例中，可以使用相似性定量估计(QEL)将从参考目标导出的工程化肽的一个或多个原子或氨基酸与相应参考目标原子或氨基酸进行比较。在一些实施例中，所述工程化肽原子或氨基酸的QEL相对于参考目标中的相应原子或氨基酸的QEL为+/-50％。在一些实施例中，被比较的工程化肽中的原子或氨基酸与生物功能或生物反应相关。用于确定QEL的示例性方程式是：

其中di是第i个氨基酸或原子位置的拓扑约束，或者是组合第i个氨基酸或原子位置的多个拓扑约束的组合函数(例如线性回归函数)，且n是肽或参考目标中的氨基酸或原子位置数。

在一些实施例中，可以使用拓扑聚类系数(TCC)向量和平均百分比误差(MPE)将从参考目标导出的工程化肽的一个或多个原子或氨基酸与相应参考目标原子或氨基酸进行比较。在一些实施例中，TCC向量和MPE相对于参考目标中的相应原子或氨基酸的TCC为小于75％，其中向量的每个元件(i)是第i个氨基酸位置的拓扑聚类系数，分子内簇由小于或等于

的相互作用边缘距离和从第i个氨基酸位置开始的两个边缘i-j、j-l定义。在一些实施例中，被比较的工程化肽中的原子或氨基酸与生物功能或生物反应相关。在一些实施例中，第i、第j和第l边缘距离可以通过分子模拟(例如分子动力学)和/或实验室测量(例如NMR)确定。用于评估第i个位置的拓扑聚类系数的示例性方程式为：

其中如果分子内氨基酸位置(i,j)、(i,l)、(j,l)分别在

相互作用边缘阈值内，则(i,j)＝1，(i,l)＝1，(j,l)＝1，S_ijl是第i、第j和第l个氨基酸的拓扑约束的组合(例如总和)，L是肽向量或相应参考目标向量中的氨基酸位置数，N_c为第i个氨基酸的分子内相互作用氨基酸位置数，满足

边缘阈值和从第i个氨基酸开始的两个边缘i-j、j-l。或者，在一些实施例中，(i,j)、(i,l)和(j,l)可以作为聚类系数向量元件(i)的加权因子而不是0或1乘数。图51中提供了显示示例性工程化肽的簇和TCC向量的示例性图。

在更进一步的实施例中，可以使用以下各者的LxM拓扑约束矩阵和平均百分比误差(MPE)将从参考目标导出的工程化肽的一个或多个原子或氨基酸与相应的参考目标原子或氨基酸进行比较：跨越所有M维的欧几里得距离、功率距离、索格尔距离、堪培拉距离、索伦森距离、杰卡德距离、马氏距离或汉明距离。LxM矩阵元件(l,m)含有第l个氨基酸位置的第m个约束值，其中L是氨基酸位置的数量，且M是不同拓扑约束的数量。在一些实施例中，工程化肽LxM矩阵的MPE相对于相应参考目标原子或氨基酸的矩阵为小于75％。在一些实施例中，MPE为小于70％、小于65％、小于60％、小于55％、小于50％或小于45％。在一些实施例中，被比较的工程化肽中的原子或氨基酸与生物功能或生物反应相关。示例性LxM矩阵提供于图52中。

III.可编程体外选择

在其它方面，本文进一步提供了使用本文所述的工程化肽，使用一系列程序化选择步骤选择结合配偶体的方法，其中至少一个选择步骤包括评估潜在结合配偶体池与工程化肽的相互作用。

在一些实施例中，本文提供了使用两个或更多个选择分子来引导结合分子的选择的方法。在一些实施例中，所述方法包括对候选结合分子池进行至少一轮选择，其中每一轮包含至少一个负选择步骤，其中针对负选择分子筛选所述池的至少一部分，和至少一个正选择步骤，其中针对正选择分子筛选所述池的至少一部分。在一些实施例中，所述方法包含至少两轮、至少三轮、至少四轮、至少五轮、至少六轮、至少七轮、至少八轮、至少九轮、至少十轮或更多轮，其中每一轮独立地包含至少一个负选择步骤和至少一个正选择步骤。在一些实施例中，每一轮独立地包含多于一个负选择步骤，或多于一个正选择步骤，或其组合。图5提供了详述三轮选择的示例性示意图，其中第一轮和第三轮包含多于一个负选择步骤，并且第一轮进一步包含多于一轮正选择。如方案中所示，第一轮使用了两个负选择分子(“诱饵”)，并且第三轮使用了三个负选择分子。此外，第一轮使用了两个正选择分子。

在其中所述方法包含多于一轮的一些实施例中，独立地选择每个负选择分子和正选择分子。在其它实施例中，可以在多于一轮中使用相同的负选择分子，或相同的正选择分子，或其组合。例如，在图5中，在第1轮中使用的相同负选择分子在第3轮中再次使用，另外的第三负选择分子也包括在第3轮中。在某些实施例中，可以在每轮选择中独立地选择负选择步骤和正选择步骤的顺序。因此，例如，在一些实施例中，所述方法包含一轮或多轮选择，其中每一轮首先包含负选择步骤，且接着包含正选择步骤。在其它实施例中，所述方法包含一轮或多轮选择，其中每一轮首先包含正选择步骤，且接着包含负选择步骤。在更进一步的实施例中，所述方法包含一轮或多轮选择，其中每一轮独立地包含负选择步骤和正选择步骤，其中在每一轮中，负选择步骤独立地在正选择步骤之前或在正选择步骤之后。

此类选择方法使用正(+)和负(-)步骤来引导候选结合分子文库朝向和远离某些所需特征，例如结合特异性或结合亲和力。通过对正选择分子和负选择分子使用多个步骤，可以逐步引导候选物池以选择需要的特征和反对不需要的特征。此外，在一些实施例中，每一轮内的每个步骤的顺序以及轮次相对于彼此的顺序可以引导不同方向上的选择。因此，例如，在一些实施例中，与首先是(-)选择接着是(+)选择的情况相比，包含一轮(+)选择接着是(-)选择的方法将产生不同的最终候选物池。将此推断至包含多轮的方法，即使总体上使用相同的正选择分子和负选择分子，选择步骤的顺序也可能导致所选候选物的最终池不同。

在一些实施例中，使用具有另一种选择分子的逆特征的选择分子。这可能适用于例如确保使用正选择分子鉴定(或因负选择分子而被排除)的候选结合配偶体是因为所需性状(或非所需性状)，而不是因为独立的、不相关的结合相互作用而被鉴定(或排除)。为了去除通过不相关相互作用结合的结合配偶体，可以使用与选择分子具有相似或相同结构和特征，不同之处在于传达所需性状(或非所需性状)的残基/结构的逆选择分子。例如，如果需要与正选择分子中的特定电荷模式相互作用，则可以使用逆负选择分子，所述分子已经用不带电残基和/或相反电荷的残基替换了提供所述电荷模式的残基。因此，对于某些选择分子，多个不同的对应逆选择分子可为可能的。

在本文提供的选择方法中，至少一种选择分子是如本文所述的工程化肽。在一些实施例中，使用多于一种工程化肽。在一些实施例中，每个工程化肽独立地是正选择分子或负选择分子。在某些实施例中，在一轮或多轮选择中使用的每个选择分子独立地是工程化肽。在其它实施例中，至少一个不是工程化肽的分子用作选择分子。此类不是工程化肽的选择分子可包含例如天然存在的多肽或其一部分。在其它实施例中，一个或多个不是工程化肽的选择分子可包含例如非天然存在的多肽或其部分。例如，在一些实施例中，一个或多个选择分子(例如，正选择分子或负选择分子)是免疫原、抗体、细胞表面受体、或跨膜蛋白、或信号传导蛋白、或多蛋白复合物，或肽-蛋白质复合物，或其任何部分，或其任何组合。在一些实施例中，一个或多个选择分子是PD-1、PD-L1、CD25、IL2、MIF、CXCR4或VEGF，或这些中的任一个的一部分，或这些中的任一个的抗体(例如贝伐单抗(Bevacizumab)、阿维鲁单抗(Avelumab)或度伐单抗(Durvalumab))。

在每个步骤中选择支持或对抗的正特征和负特征可以选自多种性状，并且可以根据最终获得的一个或多个结合分子的所需特征进行调整。此类所需特征可以取决于例如一种或多种结合分子的预期用途。例如，在一些实施例中，本文提供的方法用于支持一种或多种正特征(例如高特异性)和对抗一种或多种负特征(例如交叉反应性)来筛选候选抗体。应理解，在一个上下文中被认为是正特征的特征在另一上下文中可能是负特征，且反之亦然。因此，在一些实施例中，一个系列的选择轮次中的正选择分子在不同系列的选择轮次时，或在选择不同类型的结合分子时，或选择相同类型的结合分子但出于不同的目的时可以是负选择分子。

在一些实施例中，每个选择特征独立地选自由以下组成的组：氨基酸序列、多肽二级结构、分子动力学、化学特征、生物功能、免疫原性、参考目标多特异性、跨物种参考目标反应性、所需参考目标超过非所需参考目标的选择性、序列和/或结构同源家族内参考目标的选择性、具有相似蛋白质功能的参考目标的选择性、从具有高序列和/或结构同源性的较大非所需目标家族选择不同所需参考目标的选择性、对不同参考目标等位基因或突变的选择性、对不同参考目标残基水平化学修饰的选择性、对细胞类型的选择性、对组织类型的选择性、对组织环境的选择性、对参考目标结构多样性的耐受性、对参考目标序列多样性的耐受性以及对参考目标动力学多样性的耐受性。在一些实施例中，每个选择特征是不同类型的选择特征。在其它实施例中，两个或更多个选择特征是不同特征但属于相同类型。例如，在一些实施例中，两个或多个选择特征是多肽二级结构，其中一个是针对所需多肽二级结构的正选择，且一个是针对非所需多肽二级结构的负选择。在一些实施例中，两个或更多个选择特征是针对细胞类型的选择性，其中正选择特征是针对特定所需细胞类型的选择性，且负选择特征是针对特定非所需细胞类型的选择性。在一些实施例中，两个或更多个、三个或更多个、四个或更多个、五个或更多个或六个或更多个选择特征是相同类型的。

在另一方面，本文提供包含两种或更多种选择导向多肽的组合物，其中每种多肽独立地为包含一种或多种正导向特征的正选择分子，或包含一种或多种负导向特征的负选择分子。在一些实施例中，此类特征可选自由以下组成的组：氨基酸序列、多肽二级结构、分子动力学、化学特征、生物功能、免疫原性、参考目标多特异性、跨物种参考目标反应性、所需参考目标超过非所需参考目标的选择性、序列和/或结构同源家族内参考目标的选择性、具有相似蛋白质功能的参考目标的选择性、从具有高序列和/或结构同源性的较大非所需目标家族选择不同所需参考目标的选择性、对不同参考目标等位基因或突变的选择性、对不同参考目标残基水平化学修饰的选择性、对细胞类型的选择性、对组织类型的选择性、对组织环境的选择性、对参考目标结构多样性的耐受性、对参考目标序列多样性的耐受性以及对参考目标动力学多样性的耐受性。

因此，在另外的方面，本文提供一种用本文所述的选择导向组合物筛选结合分子文库的方法，其中每轮选择包含：针对负选择分子筛选池的至少一部分的负选择步骤；和针对正选择分子筛选所述池的至少一部分的正选择步骤；其中每一轮内的选择步骤的顺序和轮次的顺序导致选择与替代顺序不同的池子集。

在一些实施例中，使用如本文所述的选择导向多肽的组合物或如本文所述的筛选方法评估的结合配偶体是噬菌体文库，例如含有Fab的噬菌体文库；或细胞文库，例如B细胞文库或T细胞文库。

在本文提供的筛选方法的一些实施例中，所述方法包含两轮或更多轮、三轮或更多轮、四轮或更多轮、五轮或更多轮、六轮或更多轮、或七轮或更多轮的选择。在一些实施例中，其中存在多于一轮，每一轮包含不同的选择分子集。在一些实施例中，其中存在多于一轮，至少两轮包含相同的负选择分子、相同的正选择分子或两者。

在筛选方法的一些实施例中，所述方法包含在继续进行下一轮选择之前分析池子集。在某些实施例中，每个子集池分析独立地选自由以下组成的组：肽/蛋白质生物传感器结合、肽/蛋白质ELISA、肽文库结合、细胞提取物结合、细胞表面结合、细胞活性分析、细胞增殖分析、细胞死亡分析、酶活性分析、基因表达谱、蛋白质修饰分析、蛋白质印迹和免疫组织化学。在一些实施例中，基因表达谱包含子集池的全序列库分析，例如下一代测序。在一些实施例中，统计学和/或信息学评分或机器学习训练用于在一轮或多轮选择中评估池的一个或多个子集。

在一些实施例中，通过分析来自一轮选择的子集池来确定用于后一轮的正和/或负选择分子的身份和/或顺序。在一些实施例中，统计学和/或信息学评分或机器学习训练用于在一轮或多轮选择中评估池的一个或多个子集，以确定后一轮(例如下一轮，或程序中更进一步的一轮)的正和/或负选择分子的身份和/或顺序。

在更进一步的实施例中，选择方法包括在进行下一轮选择之前修饰从一轮选择获得的子集池。此类修饰可包括例如子集池的遗传突变、子集池的遗传耗竭(例如，选择子集池的子集以向前推进选择)、子集池的遗传富集(例如，增加池的大小)、至少一部分子集池的化学修饰或至少一部分子集池的酶修饰，或其任何组合。在一些实施例中，统计学和/或信息学评分或机器学习训练用于评估子集池并确定在选择中向前移动修改的子集池之前要进行的一个或多个修改。在某些实施例中，此类统计学和/或信息学评分或机器学习训练还用于确定用于后一轮选择的正和/或负选择分子的身份和/或顺序。

可以使用任何合适的分析来评估每个步骤中结合配偶体池与选择分子的结合。在一些实施例中，直接评估结合，例如通过直接检测结合配偶体上的标记。此类标记可以包括例如荧光标记，例如荧光团或荧光蛋白。在其它实施例中，间接评估结合，例如使用夹心分析。在夹心分析中，结合配偶体与选择分子结合，且接着添加二级标记试剂以标记结合的结合配偶体。接着检测此二级标记试剂。夹心分析组分的实例包括用抗His标签抗体或His标签特异性荧光探针检测到的His标签结合配偶体；用标记的链霉亲和素或标记的亲和素检测的生物素标记的结合配偶体；或使用抗结合配偶体抗体检测到的未标记的结合配偶体。

在一些实施例中，在每个步骤中选择的结合配偶体是基于结合信号或剂量反应，使用任何数量的可用检测方法来鉴定的。这些检测方法可以包括例如成像、荧光激活细胞分选(FACS)、质谱法或生物传感器。在一些实施例中，定义命中阈值(例如中值信号)，并且任何高于所述信号的信号都被标记为推定的命中基序。

IV.使用工程化肽生产抗体

本文提供的并通过本文提供的方法鉴定的工程化肽可用于例如产生一种或多种抗体。在一些实施例中，抗体是单克隆或多克隆抗体。因此，在一些实施例中，本文提供通过用免疫原使动物免疫而产生的抗体，其中免疫原是如本文提供的工程化肽。在一些实施例中，动物是人、兔、小鼠、仓鼠、猴等。在某些实施例中，猴是食蟹猴、猕猴或恒河猴。用工程化肽使动物免疫可包含例如向动物施用至少一剂包含肽和任选的佐剂的组合物。在一些实施例中，从动物产生抗体包含分离表达抗体的B细胞。一些实施例进一步包含将B细胞与骨髓瘤细胞融合以产生表达抗体的杂交瘤。在一些实施例中，使用工程化肽产生的抗体可以与人和猴，例如食蟹猴交叉反应。

本文提供的描述阐述了许多示例性配置、方法、参数等。然而，应认识到，此类描述不打算作为对本公开的范围的限制，而是打算作为示例性实施例的描述提供。

示例性实施例

实施例I-1.一种工程化肽，其中所述工程化肽具有介于1kDa与10kDa之间的分子量并且包含至多50个氨基酸，并且其中所述工程化肽包含：

空间相关拓扑约束的组合，其中一个或多个所述约束是参考目标导出的约束；并且

其中所述工程化肽的10％至98％的所述氨基酸满足一个或多个参考目标导出的约束，

其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标的主链均方根偏差(RSMD)结构同源性为小于

实施例I-2.根据实施例I-1所述的工程化肽，其中满足一个或多个参考目标导出的约束的氨基酸与参考目标具有10％至90％的序列同源性。

实施例I-3.根据实施例I-1或I-2所述的工程化肽，其中满足一个或多个参考目标导出的约束的氨基酸与参考的范德华表面积重叠为

至

实施例I-4.根据实施例I-1至I-3中任一项所述的工程化肽，其中所述组合包含至少两个参考目标导出的约束。

实施例I-5.根据实施例I-1至I-4中任一项所述的工程化肽，其中所述组合包含至少五个参考目标导出的约束。

实施例I-6.根据实施例I-1至I-5中任一项所述的工程化肽，其中所述约束的组合包含一个或多个并非从参考目标导出的约束。

实施例I-7.根据实施例I-6所述的工程化肽，其中所述一个或多个非参考目标导出的约束描述了所需的结构、动力学、化学或功能特征，或其任何组合。

实施例I-8.根据实施例I-1至I-7中任一项所述的工程化肽，其中所述约束独立地选自由以下组成的组：

原子距离；

原子波动；

原子能；

化学描述符；

溶剂暴露；

氨基酸序列相似性；

生物信息学描述符；

非共价键合倾向；

角；

ψ角；

范德华半径；

二级结构倾向；

氨基酸邻接；和

氨基酸接触。

实施例I-9.根据实施例I-1至I-8中任一项所述的工程化肽，其中一个或多个约束独立地为原子波动。

实施例I-10.根据实施例I-1至I-9中任一项所述的工程化肽，其中一个或多个约束独立地为化学描述符。

实施例I-11.根据实施例I-1至I-10中任一项所述的工程化肽，其中一个或多个约束独立地为原子距离。

实施例I-12.根据实施例I-1至I-11中任一项所述的工程化肽，其中一个或多个约束独立地为二级结构。

实施例I-13.根据实施例I-1至I-12中任一项所述的工程化肽，其中一个或多个约束独立地为范德华表面。

实施例I-14.根据实施例I-1至I-13中任一项所述的工程化肽，其中一个或多个约束独立地与生物反应或生物功能相关。

实施例I-15.根据实施例I-1至I-14中任一项所述的工程化肽，其包含一个或多个与生物反应或生物功能相关的原子。

实施例I-16.根据实施例I-1至I-15中任一项所述的工程化肽，其包含一个或多个与生物反应或生物功能相关的氨基酸。

实施例I-17.根据实施例I-14至I-16中任一项所述的工程化肽，其中所述生物反应或生物功能选自由以下组成的组：基因表达、代谢活性、蛋白质表达、细胞增殖、细胞死亡、细胞因子分泌、激酶活性、表观遗传修饰、细胞杀伤活性、炎症信号、趋化性、组织浸润、免疫细胞谱系定型、组织微环境修饰、免疫突触形成、IL-2分泌、IL-10分泌、生长因子分泌、γ干扰素分泌、转化生长因子β分泌、基于免疫受体酪氨酸的激活基序活性、基于免疫受体酪氨酸的抑制基序活性、抗体定向的细胞毒性、补体定向的细胞毒性、生物途径激动作用、生物途径拮抗作用、生物途径重定向、激酶级联修饰、蛋白水解途径修饰、蛋白稳态途径修饰、蛋白质折叠/途径、翻译后修饰途径、代谢途径、基因转录/翻译、mRNA降解途径、基因甲基化/乙酰化途径、组蛋白修饰途径、表观遗传途径、免疫定向清除、调理作用、激素信号传导、整合素途径、膜蛋白信号转导、离子通道通量和g蛋白偶联受体反应。

实施例I-18.根据实施例I-15所述的工程化肽，其中所述参考目标包含一个或多个与生物反应或生物功能相关的原子，

且其中在与生物反应或生物功能相关的所述工程化肽中的所述一个或多个原子的原子波动与在与生物反应或生物功能相关的所述参考目标中的所述一个或多个原子的原子波动重叠。

实施例I-19.根据实施例I-18所述的工程化肽，其中所述重叠为大于0.25的均方根内积(RMSIP)。

实施例I-20.根据实施例I-19所述的工程化肽，其中所述重叠具有大于0.75的均方根内积(RMSIP)。

实施例I-21.根据实施例I-18至I-20中任一项所述的工程化肽，其中与生物反应或生物功能相关的所述工程化肽中的至少一部分所述原子在拓扑上受约束于所述参考目标中的二级结构元件。

实施例I-22.根据实施例I-21所述的工程化肽，其中所述二级结构元件为β-片层。

实施例I-23.根据实施例I-21所述的工程化肽，其中所述二级结构元件为α螺旋。

实施例I-24.根据实施例I-21所述的工程化肽，其中所述二级结构元件为转角，其中所述转角包含2至7个残基，并且包含至少一个残基间氢键。

实施例I-25.根据实施例I-21所述的工程化肽，其中所述二级结构元件为卷曲，其中所述卷曲包含2至20个残基。

实施例I-26.根据实施例I-25所述的工程化肽，其中所述卷曲不包含残基间氢键。

实施例I-27.根据实施例I-21至I-26中任一项所述的工程化肽，其中与生物反应或生物功能相关的所述工程化肽中的至少一部分所述原子在拓扑上受约束于两个或更多个独立地选自以下组成的组的二级结构元件：β-片层、α螺旋、转角和卷曲。

实施例I-28.根据实施例I-1至I-27中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为原子距离。

实施例I-29.根据实施例I-1至I-28中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为原子能。

实施例I-30.根据实施例I-29所述的工程化肽，其中每个原子能独立地为两个原子之间的成对吸引能、两个原子之间的成对排斥能、原子级溶剂化能、两个原子之间的成对带电吸引能、两个原子之间的成对氢键合吸引能或非共价键合能。

实施例I-31.根据实施例I-1至I-30中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为化学描述符。

实施例I-32.根据实施例I-31所述的工程化肽，其中每个化学描述符独立地为疏水性、极性、体积、净电荷、logP、高效液相色谱保留或范德华半径。

实施例I-33.根据实施例I-1至I-32中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为生物信息学描述符。

实施例I-34.根据实施例I-33所述的工程化肽，其中每个生物信息学描述符独立地为BLOSUM相似性、pKa、zScale、克鲁恰尼特性、基德拉因子、VHSE量表、ProtFP、MS-WHIM分数、T量表、ST量表、跨膜倾向、蛋白质埋藏面积、螺旋倾向、片层倾向、卷曲倾向、转向倾向、免疫原性倾向、抗体表位出现率或蛋白质界面出现率。

实施例I-35.根据实施例I-1至I-34中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为溶剂暴露。

实施例I-36.根据实施例I-1至I-35中任一项所述的工程化肽，其中所述一个或多个参考目标导出的约束中的至少一个为GPCR胞外域。

实施例I-37.根据实施例I-1至I-36中任一项所述的工程化肽，其中所述一个或多个参考目标导出的约束中的至少一个为离子通道胞外域。

实施例I-38.根据实施例I-1至I-37中任一项所述的工程化肽，其中所述一个或多个参考目标导出的约束中的至少一个为蛋白质-蛋白质或肽-蛋白质界面连接。

实施例I-39.根据实施例I-1至I-38中任一项所述的工程化肽，其中所述一个或多个参考目标导出的约束中的至少一个是从所述目标的多态性区域导出。

实施例I-40.根据实施例I-1至I-39中任一项所述的工程化肽，其包含一个或多个与生物反应或生物功能相关的原子，其中所述一个或多个原子中的每一个独立地选自由以下组成的组：碳、氧、氮、氢、硫、磷、钠、钾、锌、锰、镁、铜、铁、钼和镍。

实施例I-41.根据实施例I-1至I-40中任一项所述的工程化肽，其包含一个或多个与生物功能或生物反应相关的氨基酸，其中所述一个或多个氨基酸中的每一个独立地为蛋白型天然存在的氨基酸、非蛋白型天然存在的氨基酸或化学合成的非天然氨基酸。

实施例I-42.根据实施例I-1至I-41中任一项所述的工程化肽，其中当与所述参考目标相比时，所述工程化肽具有至少一个结构差异。

实施例I-43.根据实施例I-42所述的工程化肽，其中所述至少一个结构差异独立地选自由以下组成的组：序列、氨基酸残基数、原子总数、总亲水性、总疏水性、总正电荷、总负电荷、一个或多个二级结构、形状因子、泽尼克描述符、范德华表面、结构图节点和边、体积表面、静电势表面、疏水势表面、局部直径、局部表面特征、骨架模型、电荷密度、亲水密度、表面积与体积比、两亲密度和表面粗糙度。

实施例I-44.根据实施例I-16所述的工程化肽，其中所述一个或多个二级结构的差异是与所述参考目标相比，所述工程化肽中存在一个或多个额外的二级结构元件，其中每个额外的二级结构元件独立地选自由α螺旋、β-片层、环、转角和卷曲组成的组。

实施例I-45.根据实施例I-1至I-44中任一项所述的工程化肽，其中10％至90％的所述氨基酸满足一个或多个非参考目标导出的拓扑约束。

实施例I-46.根据实施例I-45所述的工程化肽，其中所述一个或多个非参考目标导出的拓扑约束加强预先指定的功能。

实施例I-47.根据实施例I-46所述的工程化肽，其中所述

非参考导出的拓扑约束加强或稳定所述肽的所述参考导出部分中的二级结构元件；

非参考导出的拓扑约束加强所述肽的所述参考导出部分中的原子波动；

非参考导出的拓扑约束改变肽总疏水性；

非参考导出的拓扑约束改变肽溶解度；

非参考导出的拓扑约束改变肽总电荷；

非参考导出的拓扑约束使得能够在经标记或无标记分析中进行检测；

非参考导出的拓扑约束使得能够在体外分析中进行检测；

非参考导出的拓扑约束使得能够在体内分析中进行检测；

非参考导出的拓扑约束使得能够从复杂混合物中捕获；

非参考导出的拓扑约束使得能够进行酶处理；

非参考导出的拓扑约束使得细胞膜能够具透性；

非参考导出的拓扑约束使得能够与二级目标结合，以及

非参考导出的拓扑约束改变免疫原性。

实施例I-48.一种选择工程化肽的方法，其包含：

识别参考目标的一个或多个拓扑特征；

实施例I-49.根据实施例I-48所述的方法，其中每个特征之间的所述重叠独立地小于或等于由以下中的一个或多个确定的75％平均百分比误差(MPE)：总拓扑约束距离(TCD)、拓扑聚类系数(TCC)、欧几里得距离、功率距离、索格尔距离、堪培拉距离、索伦森距离、杰卡德距离、马氏距离、汉明距离、相似性定量估计(QEL)或链拓扑参数(CTP)。

实施例I-50.根据实施例I-48或I-49所述的方法，其中一个或多个约束是从以下各者导出：每个残基能量、每个残基相互作用、每个残基波动、每个残基原子距离、每个残基化学描述符、每个残基溶剂暴露、每个残基氨基酸序列相似性、每个残基生物信息学描述符、每个残基非共价键合倾向、每个残基

角、每个残基范德华半径、每个残基二级结构倾向、每个残基氨基酸邻接、每个残基氨基酸接触。

实施例I-51.根据实施例I-48至I-50中任一项所述的方法，其中所述一种或多种候选肽的特征通过计算机模拟确定。

实施例I-52.根据实施例I-51所述的方法，其中所述计算机模拟包含分子动力学模拟、蒙特卡洛模拟、粗粒度模拟、高斯网络模型、机器学习或其任何组合。

实施例I-53.根据实施例I-48至I-52中任一项所述的方法，其中所述一种或多种候选肽的特征通过实验表征确定。

实施例I-54.根据实施例I-48至I-53中任一项所述的方法，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10％至90％的序列同源性。

实施例I-55.根据实施例I-48至I-54中任一项所述的方法，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考的范德华表面积重叠为

至

实施例I-56.根据实施例I-48至I-55中任一项所述的方法，其中所述组合包含至少两个参考目标导出的约束。

实施例I-57.根据实施例I-48至I-56中任一项所述的方法，其中所述组合包含至少五个参考目标导出的约束。

实施例I-58.根据实施例I-48至I-57中任一项所述的方法，其中所述约束的组合包含一个或多个并非从参考目标导出的约束。

实施例I-59.根据实施例I-58所述的方法，其中所述一个或多个非参考目标导出的约束描述了所需的结构、动力学、化学或功能特征，或其任何组合。

实施例I-60.根据实施例I-48至I-59中任一项所述的方法，其中所述约束独立地选自由以下组成的组：

原子距离；

原子波动；

原子能；

化学描述符；

溶剂暴露；

氨基酸序列相似性；

生物信息学描述符；

非共价键合倾向；

角；

ψ角；

范德华半径；

二级结构倾向；

氨基酸邻接；和

氨基酸接触。

实施例I-61.根据实施例I-48至I-60中任一项所述的方法，其中一个或多个约束独立地为原子波动。

实施例I-62.根据实施例I-48至I-61中任一项所述的方法，其中一个或多个约束独立地为化学描述符。

实施例I-63.根据实施例I-48至I-62中任一项所述的方法，其中一个或多个约束独立地为原子距离。

实施例I-64.根据实施例I-48至I-63中任一项所述的方法，其中一个或多个约束独立地为二级结构。

实施例I-65.根据实施例I-48至I-64中任一项所述的方法，其中一个或多个约束独立地为范德华表面。

实施例I-66.根据实施例I-48至I-65中任一项所述的方法，其中一个或多个约束独立地与生物反应或生物功能相关。

实施例I-67.根据实施例I-48至I-66中任一项所述的方法，其中所述工程化肽包含一个或多个与生物反应或生物功能相关的原子。

实施例I-68.根据实施例I-48至I-66中任一项所述的方法，其中所述工程化肽包含一个或多个与生物反应或生物功能相关的氨基酸。

实施例I-69.根据实施例I-66至I-68中任一项所述的方法，其中所述生物反应或生物功能选自由以下组成的组：基因表达、代谢活性、蛋白质表达、细胞增殖、细胞死亡、细胞因子分泌、激酶活性、表观遗传修饰、细胞杀伤活性、炎症信号、趋化性、组织浸润、免疫细胞谱系定型、组织微环境修饰、免疫突触形成、IL-2分泌、IL-10分泌、生长因子分泌、γ干扰素分泌、转化生长因子β分泌、基于免疫受体酪氨酸的激活基序活性、基于免疫受体酪氨酸的抑制基序活性、抗体定向的细胞毒性、补体定向的细胞毒性、生物途径激动作用、生物途径拮抗作用、生物途径重定向、激酶级联修饰、蛋白水解途径修饰、蛋白稳态途径修饰、蛋白质折叠/途径、翻译后修饰途径、代谢途径、基因转录/翻译、mRNA降解途径、基因甲基化/乙酰化途径、组蛋白修饰途径、表观遗传途径、免疫定向清除、调理作用、激素信号传导、整合素途径、膜蛋白信号转导、离子通道通量和g蛋白偶联受体反应。

实施例I-70.根据实施例I-66所述的方法，其中所述参考目标包含一个或多个与生物反应或生物功能相关的原子，

实施例I-71.根据实施例I-70所述的方法，其中所述重叠为大于0.25的均方根内积(RMSIP)。

实施例I-72.根据实施例I-71所述的方法，其中所述重叠具有大于0.75的均方根内积(RMSIP)。

实施例I-73.根据实施例I-67至I-69中任一项所述的方法，其中与生物反应或生物功能相关的所述工程化肽中的至少一部分所述原子在拓扑上受限于所述参考目标中的二级结构元件。

实施例I-74.根据实施例I-73所述的方法，其中所述二级结构元件为β-片层。

实施例I-75.根据实施例I-73所述的方法，其中所述二级结构元件为α螺旋。

实施例I-76.根据实施例I-73所述的方法，其中所述二级结构元件为转角，其中所述转角包含2至7个残基，并且包含至少一个残基间氢键。

实施例I-77.根据实施例I-73所述的方法，其中所述二级结构元件为卷曲，其中所述卷曲包含2至20个残基。

实施例I-78.根据实施例I-73所述的方法，其中所述卷曲不包含残基间氢键。

实施例I-79.根据实施例I-67至I-69中任一项所述的方法，其中与生物反应或生物功能相关的所述工程化肽中的至少一部分所述原子在拓扑上受限于两个或更多个独立地选自以下组成的组的二级结构元件：β-片层、α螺旋、转角和卷曲。

实施例I-80.根据实施例I-48至I-79中任一项所述的方法，其中一个或多个空间相关拓扑约束为原子距离。

实施例I-81.根据实施例I-48至I-80中任一项所述的方法，其中一个或多个空间相关拓扑约束为原子能。

实施例I-82.根据实施例I-81所述的方法，其中每个原子能独立地为两个原子之间的成对吸引能、两个原子之间的成对排斥能、原子级溶剂化能、两个原子之间的成对带电吸引能、两个原子之间的成对氢键合吸引能或非共价键合能。

实施例I-83.根据实施例I-48至I-82中任一项所述的方法，其中一个或多个空间相关拓扑约束为化学描述符。

实施例I-84.根据实施例I-83所述的方法，其中每个化学描述符独立地为疏水性、极性、体积、净电荷、logP、高效液相色谱保留或范德华半径。

实施例I-85.根据实施例I-48至I-84中任一项所述的方法，其中一个或多个空间相关拓扑约束为生物信息学描述符。

实施例I-86.根据实施例I-85所述的方法，其中每个生物信息学描述符独立地为BLOSUM相似性、pKa、zScale、克鲁恰尼特性、基德拉因子、VHSE量表、ProtFP、MS-WHIM分数、T量表、ST量表、跨膜倾向、蛋白质埋藏面积、螺旋倾向、片层倾向、卷曲倾向、转向倾向、免疫原性倾向、抗体表位出现率或蛋白质界面出现率。

实施例I-87.根据实施例I-48至I-86中任一项所述的方法，其中一个或多个空间相关拓扑约束为溶剂暴露。

实施例I-88.根据实施例I-48至I-87中任一项所述的方法，其中所述一个或多个参考目标导出的约束中的至少一个为GPCR胞外域。

实施例I-89.根据实施例I-48至I-88中任一项所述的方法，其中所述一个或多个参考目标导出的约束中的至少一个为离子通道胞外域。

实施例I-90.根据实施例I-48至I-89中任一项所述的方法，其中所述一个或多个参考目标导出的约束中的至少一个为蛋白质-蛋白质或蛋白质-肽界面连接。

实施例I-91.根据实施例I-48至I-90中任一项所述的方法，其中所述一个或多个参考目标导出的约束中的至少一个是从所述目标的多态性区域导出。

实施例I-92.根据实施例I-48至I-91中任一项所述的方法，其中所述工程化肽包含一个或多个与生物反应或生物功能相关的原子，其中所述一个或多个原子中的每一个独立地选自由以下组成的组：碳、氧、氮、氢、硫、磷、钠、钾、锌、锰、镁、铜、铁、钼和镍。

实施例I-93.根据实施例I-48至I-92中任一项所述的方法，其中所述工程化肽包含一个或多个与生物功能或生物反应相关的氨基酸，其中所述一个或多个氨基酸中的每一个独立地为蛋白型天然存在的氨基酸、非蛋白型天然存在的氨基酸或化学合成的非天然氨基酸。

实施例I-94.根据实施例I-48至I-93中任一项所述的方法，其中当与所述参考目标相比时，所述工程化肽具有至少一个结构差异。

实施例I-95.根据实施例I-94所述的方法，其中所述至少一个结构差异独立地选自由以下组成的组：序列、氨基酸残基数、原子总数、总亲水性、总疏水性、总正电荷、总负电荷、一个或多个二级结构、形状因子、泽尼克描述符、范德华表面、结构图节点和边、体积表面、静电势表面、疏水势表面、局部直径、局部表面特征、骨架模型、电荷密度、亲水密度、表面积与体积比、两亲密度和表面粗糙度。

实施例I-96.根据实施例I-95所述的方法，其中所述一个或多个二级结构的差异是与所述参考目标相比，所述工程化肽中存在一个或多个额外的二级结构元件，其中每个额外的二级结构元件独立地选自由α螺旋、β-片层、环、转角和卷曲组成的组。

实施例I-97.根据实施例I-48至I-96中任一项所述的方法，其中所述工程化肽的10％至90％的所述氨基酸满足一个或多个非参考目标导出的拓扑约束。

实施例I-98.根据实施例I-97所述的方法，其中所述一个或多个非参考目标导出的拓扑约束加强预先指定的功能。

实施例I-99.根据实施例I-98所述的方法，其中：

非参考导出的拓扑约束改变肽总疏水性；

非参考导出的拓扑约束改变肽溶解度；

非参考导出的拓扑约束改变肽总电荷；

非参考导出的拓扑约束使得能够在体外分析中进行检测；

非参考导出的拓扑约束使得能够在体内分析中进行检测；

非参考导出的拓扑约束使得能够从复杂混合物中捕获；

非参考导出的拓扑约束使得能够进行酶处理；

非参考导出的拓扑约束使得细胞膜能够具透性；

非参考导出的拓扑约束使得能够与二级目标结合，或

非参考导出的拓扑约束改变免疫原性，

或其任何组合。

实施例I-100.一种包含两种或更多种选择导向多肽的组合物，其中每一种多肽独立地为包含一种或多种正导向特征的正选择分子，或包含一种或多种负导向特征的负选择分子，其中每个特征类型独立地选自由以下组成的组：

氨基酸序列，

多肽二级结构，

分子动力学，

化学特征，

生物学功能，

免疫原性，

参考目标多特异性，

跨物种参考目标反应性，

所需参考目标超过非所需参考目标的选择性，

序列和/或结构同源家族内参考目标的选择性，

具有相似蛋白质功能的参考目标的选择性，

从具有高序列和/或结构同源性的较大非所需目标家族选择不同所需参考目标的选择性，

对不同参考目标等位基因或突变的选择性，

对不同参考目标残基水平化学修饰的选择性，

对细胞类型的选择性，

对组织类型的选择性，

对组织环境的选择性，

对参考目标结构多样性的耐受性，

对参考目标序列多样性的耐受性，以及

对参考目标动力学多样性的耐受性；

并且其中两种或更多种多肽中的至少一种是根据实施例I-1所述的工程化肽。

实施例I-101.根据实施例I-100所述的组合物，其中所述两种或更多种多肽中的至少一种是正选择分子，并且所述两种或更多种多肽中的至少一种是负选择分子。

实施例I-102.根据实施例I-100或I-101所述的组合物，其中所述两种或更多种多肽中的至少一种是天然蛋白质。

实施例I-103.根据实施例I-100至I-102中任一项所述的组合物，其包含至少一对对应的正选择和负选择分子，所述分子包含至少一种共有特征类型，其中所述正选择分子包含所述正特征并且所述负选择分子包含所述负特征。

实施例I-104.一种筛选具有根据实施例I-100所述的组合物的结合分子文库的方法，所述方法包含使候选结合分子池经受至少一轮选择，其中每轮选择包含：

针对负选择分子筛选所述池的至少一部分的负选择步骤；和

针对正选择分子筛选所述池的至少一部分的正选择步骤；

实施例I-105.根据实施例I-104所述的方法，其中所述结合分子文库为噬菌体文库。

实施例I-106.根据实施例I-105所述的方法，其中所述结合分子文库为细胞文库。

实施例I-107.根据实施例I-106所述的方法，其中所述结合分子文库为B细胞文库。

实施例I-108.根据实施例I-106所述的方法，其中所述结合分子文库为T细胞文库。

实施例I-109.根据实施例I-104至I-108中任一项所述的方法，其包含两轮或更多轮选择。

实施例I-110.根据实施例I-104至I-109中任一项所述的方法，其包含三轮或更多轮选择。

实施例I-111.根据实施例I-109或I-110所述的方法，其中每一轮包含不同的选择分子集。

实施例I-112.根据实施例I-109或I-110所述的方法，其中至少两轮包含相同的负选择分子，或相同的正选择分子，或两者。

实施例I-113.根据实施例I-109至I-112中任一项所述的方法，其包含在继续进行下一轮选择之前分析从一轮选择中获得的所述池子集。

实施例I-114.根据实施例I-113所述的方法，其中所述子集池分析确定在一轮或多轮后续选择中使用的正和/或负选择分子集。

实施例I-115.根据实施例I-113或I-114所述的方法，其中每个子集池分析独立地选自由以下组成的组：肽/蛋白质生物传感器结合、肽/蛋白质ELISA、肽文库结合、细胞提取物结合、细胞表面结合、细胞活性分析、细胞增殖分析、细胞死亡分析、酶活性分析、基因表达谱、蛋白质修饰分析、蛋白质印迹和免疫组织化学。

实施例I-116.根据实施例I-113至I-115中任一项所述的方法，其中一轮或多轮后续选择中使用的所述正、负或正和负选择分子由子集池分析的统计学/信息学评分或机器学习训练确定。

实施例I-117.根据实施例I-109至I-116中任一项所述的方法，其中在进入下一轮选择之前修饰从一轮选择获得的所述子集池。

实施例I-118.根据实施例I-117所述的方法，其中所述子集池分析确定一轮或多轮后续选择中使用的所述正、负或正和负选择分子；且在进入下一轮选择之前修饰所述子集池。

实施例I-119.根据实施例I-117或I-118所述的方法，其中每个修饰独立地选自选自遗传突变、遗传耗竭、遗传富集、化学修饰和酶修饰的组。

实例

以下实例仅为说明性的且不打算以任何方式限制本公开的任何方面。

实例1：使用VEGF表位作为参考目标来选择工程化肽

如图6A和7A所示，VEGF的推定治疗表位被鉴定为工程化肽选择的参考目标，并且确定了原子距离和氨基酸描述符拓扑结构(图6B)。使用动态模拟获得参考目标的原子距离和氨基酸描述符拓扑，并为参考目标中的表位生成原子波动的协方差矩阵。接下来，使用计算蛋白质设计(例如Rosetta)、对候选物进行的动力学模拟以及确定的原子距离和氨基酸描述符拓扑生成不同的工程化肽候选物(图6C-6E)。比较这些拓扑的这些平均百分比误差(MPE)(图6G-6H)。MPE值为：参考拓扑相对于候选物1拓扑：6.03％；参考拓扑相对于候选物2拓扑：6.00％；以及参考拓扑相对于候选物3拓扑：22.8％。

将额外的约束添加到组合中以评估一种候选工程化肽-原子波动(图6G-6H)。比较此候选物与VEGF导出的参考目标之间更高维的拓扑相似性，MPE为36.6％。

实例2：使用VEGF表位作为参考目标来选择工程化肽

使用在以上实例1中鉴定的相同参考目标，开发了第二组工程化肽。使用计算蛋白质设计(例如Rosetta)或其它取样肽空间的方法生成工程化肽候选物，并对候选物进行动力学模拟。为参考目标表位和对应于参考目标表位中的残基的候选物中的残基生成原子波动的协方差矩阵。

进行主分量分析以计算每个协方差矩阵的特征向量和特征值---参考目标一个协方差矩阵且每个候选物一个协方差---并且只保留那些具有最大特征值的特征向量(图8)。特征向量描述了在一组模拟分子结构中观察到的最主要、第二主要、第三主要、第N主要的运动。如果候选物像参考表位一样移动，则其特征向量将类似于参考目标(表位)的特征向量。特征向量的相似性对应于它们的分量(以每个CA原子为中心的3D向量)对齐---指向相同的方向(图7D-7G)。候选物与参考目标特征向量之间的这种相似性是使用两个特征向量的内积计算的。如果两个特征向量相互成90度，则内积值为0，或者如果两个特征向量正好指向同一方向，则内积值为1。

由于特征向量的排序是基于它们的特征值，并且由于分子动力学模拟对两个不同分子的潜在能量景观进行取样的随机性，特征值在那些不同分子之间可能不一定相同，需要多个不同等级的特征向量之间的内积(例如候选物的特征向量1乘参考目标的特征向量2、3、4等)。此外，不希望受任何理论束缚，分子运动是复杂的并且可能涉及不止一种(或不止几种)主要/主运动模式。

为了解决这两个挑战，计算了候选物和参考目标中的所有特征向量对之间的内积。这产生了一个内积矩阵，其维数由所分析的特征向量的数量决定-对于10个特征向量，内积矩阵为10×10。通过计算内积的均方根值，此内积矩阵被提炼为单个值。这是均方根内积(RMSIP)。

主分量分析(PCA)将3L×3L维数坐标协方差矩阵(L是原子数)简化为特征向量集Φ(参考目标)和Ψ(MEM)，以及特征值Λ。集Φ含有参考目标的N个特征向量

并且集Ψ含有MEM的N个特征向量ψ_j，其中特征向量按其关联的特征值在其各自的集中排序。具有最大特征值的特征向量占总坐标协变的最大部分。计算每个

和ψ_j特征向量的内积，以比较参考目标与MEM之间的运动的相似性。

和ψ_j特征向量的所有内积组合的均方根呈现工程化肽候选物(MEM)与参考目标(RMSIP)的运动的总体相似性(图8)。

表1显示了5种候选工程化肽相对于VEGF参考表位的RMSIP结果。这些数据是从使用Rosetta设计生成的1000个候选物的总模拟中取样的，所述设计具有候选物相对于参考静态结构RMSD截止值。在1000个候选物中，XTR-1000-T0的Rosetta(静态结构)能量最低(越低越有利)，但RMSIP动态匹配中等。候选物XTR-1000-B1和B2具有最高的动态匹配分数(例如，由RMSIP计算的它们的运动与参考目标的运动最匹配)。候选物XTR-1000-W1和W2的动态匹配分数最低，表明在这1000个候选数据集中展示了RMSIP动态范围，RMSIP范围为0.772-0.545。与VEGF参考表位比对的候选物的结构显示在图7B中。

表1

参考表位	QIMRIKPHQGQHIGE
			MEM变体ID	MEM序列	RMSIP
XTR-1000-T0	QQIM<u>C</u>IKPHQGQ<u>C</u>IGEAEEALKITAKA	0.673
			XTR-1000-B1	SQIM<u>C</u>IKPHQGQHIGETSEDCDKAAKS	0.772
XTR-1000-B2	SQI<u>C</u>RIKPHQGQH<u>C</u>GETSEDADKAAKS	0.766
			XTR-1000-W1	QQIM<u>C</u>IKPHQGQ<u>C</u>IGEAEEVYKKRKKS	0.545
XTR-1000-W2	QQIM<u>C</u>IKPHQGQ<u>C</u>IGEAEEYYTKAKRS	0.550

实例3：使用工程化肽进行VEGF推定表位的程序化体外噬菌体选择

在一系列噬菌体淘选程序中使用实例1中描述的三种工程化肽和遵循类似程序开发的另外的第四种工程化肽。这些肽显示在图9中。其中两个肽是正选择分子(uMEM和sMEM)，且两个是负选择分子(iMEM2和iMEM1)。sMEM肽是高拓扑参考匹配，且uMEM是低拓扑参考匹配。两个iMEM肽是零拓扑参考匹配，并作为sMEM和uMEM的逆形式包括在内，用于选择由于除所需结合相互作用以外的原因将与sMEM或uMEM结合的结合配偶体。使用生物传感器分析对生物素结合肽的分析证实了与贝伐单抗的结合，这是通过候选拓扑结构与参考目标的相似性预测的。

Octet/生物传感器筛选：使用单循环动力学分析设计在Octet Red384仪器上评估不同工程化肽的亲和力。肽分别进行评估，并通过生物素连接子固定到生物传感器的链霉亲和素涂布的尖端。剩余的开放链霉亲和素位点用生物胞素封闭。在传感器尖端上洗涤分析物，且记录分析物中的分子与肽的结合。对于此分析，分析物是0.19μM到1.5μM的贝伐单抗连续稀释液。一式两份地运行每一分析。还运行了对照，所述对照仅使用缓冲液(以控制传感器漂移)和来自人ND血清的纯化IgG的单独对照(以控制非特异性IgG结合)。

设计了七个不同的淘选程序，每个程序包含三轮，每一轮包含正选择步骤和负选择步骤(图11)。每个程序都使用至少一种工程化肽作为选择分子。还包括使用常规方法的常规选择(VEGF作为正目标，且BSA作为负目标，针对非特异性结合进行选择)。三轮淘选后，738个克隆被选择用于ELISA反应分析。

淘选方案从人类初始scFv文库开始，且在溶液中进行淘选，选择分子与生物素结合(但仍在溶液中)。对于每一轮，起始池首先在溶液中与负选择分子结合，且接着将链霉亲和素涂布的底物(例如磁珠)施加至混合物以结合负选择分子。因此，池中与负选择分子结合的任何噬菌体也与链霉亲和素涂布的支撑物结合。去除剩余的溶液，且接着将此流过液带入正选择步骤。流过液与正选择分子组合，使其结合，且接着将链霉亲和素涂布的固体底物施加至混合物。在此步骤中，结合的噬菌体被保留，而剩余的未结合的噬菌体被去除。然后洗脱结合的噬菌体。使用30分钟培养用洗脱的噬菌体转染大肠杆菌，将转染的细胞分裂用于下一代测序和DNA分离以进行分析，且接着扩增噬菌体以用于后续的淘选轮次。对于每个淘选程序，在每一轮中首先进行负选择，且然后进行正选择。

然后使用ELISA分析从七个淘选程序加上常规淘选方法中的每一个获得的候选池对VEGF和sMEM正选择分子(iMEM校正)的反应，以评估与全长VEGF和推定表位sMEM的结合。这些ELISA测试的分析显示在图12A-12B和13A-13H中。这些结果表明，使用工程化肽的体外选择程序不会降低全长VEGF结合倾向，并且它们在淘选克隆中产生了推定的表位选择性结合偏倚。还在用于阻断贝伐单抗:VEGF结合的交叉阻断ELISA分析中测试候选池(与0nM、67pM、670pM和6.7nM的贝伐珠单抗的剂量反应竞争)。这些结果显示在图14A-14I和表2中，且从每个程序获得的确认的交叉阻断克隆的总计数总结在图15中。这些证明了使用工程化肽的可编程体外选择程序能够从交叉阻断贝伐单抗的完整克隆文库中分离克隆，贝伐单抗共享用于导出工程化肽的参考目标表位。

表2

通过Sanger测序对表现出交叉阻断行为的克隆进行测序，且发现确认了11个不同的克隆。使用工程化肽从程序化体外选择中获得的那些克隆显示于表3A中。通过用VEGF和BSA进行常规选择获得的那些克隆列于表3B中。图17总结了为进一步测试产生的所有Fab的结合、交叉阻断、CDR序列和种系使用。图17和图18显示了表3A和3B中所列的Fab的ELISA结合结果。这些证明可编程体外选择以不同于常规淘选的方式引导抗体CDR环多样性和Ig种系使用。

表3A

表3B

表4.批准的Tx mAb

使用以下方程式对选择池进行评分：

阻断倾向＝SUM(X-阻断斜率,(sMEM+VEGF)-iMEM)，其中X-阻断斜率、sMEM和VEGF为稳健Z分数。

评分基本原理：如果通过显著的(通过稳健z分数)负斜率观察到阻断反应，则阻断倾向为VEGF结合与X-阻断斜率的z分数的组合。阻断倾向总结于图19中，并总结于下表中。

表6.从不同程序选择方案(S#)获得的克隆和阻断倾向的总结。

还评估了与对照(常规)程序相比的不同选择程序的交叉阻断富集，与常规程序(仅使用VEGF和BSA作为选择分子)相比，使用所有体外选择程序进行均匀随机取样，至少四个使用工程化肽的程序显示富集，总结在图20中。交叉阻断富集的统计检验是如下的Kruskal-Wallis检验：

1.对来自所有淘选程序的96个克隆进行随机均匀取样，测量交叉阻断活动

2.对所有96个克隆的交叉阻断进行排名

3.执行Kruskal-Wallis检验以计算相对于对照的每个程序的平均交叉阻断秩

4.X-阻断富集＝100％*(程序交叉阻断平均秩-对照平均秩)/(对照平均秩)

还对这些克隆进行了下一代测序(NGS)，以在基因组水平上获得有关CDR环的信息。图21提供了NGS样本制备的示意图。简而言之，通过在表达载体的恒定部分克隆出单独的重链和轻链序列来制备样本。使用2×250配对末端测序运行，并使用例如PyIg等工具连接和注释读段。

分析序列以确定两个独特的序列是否实际上是不同的抗体，而不是测序错误，称为“克隆性”。还使用了标准化香农评估，如图22中所示。每个程序的每一轮的克隆性的总结在图23中示出。

虽然仅使用全长蛋白质(VEGF)的经典淘选方法确实聚焦于多样性(程序12)，但工程化肽程序化淘选方法聚焦于库多样性的效率至少提高了2倍。图24A-24L是配对频率比较和维数图，分析了第1轮(图24A-24D)、第2轮(图24E-24H)和第3轮(图24I-24L)的不同筛选轮次如何塑造所得选定池的多样性。

工程化肽(MEM)程序化体外选择分离出不同的抗体克隆型，与第一轮选择中的常规方法相比，种系使用的多样性更高。与全长抗原和uMEM相比，使用基于sMEM的体外选择在第1轮产生更多样化的轻链种系使用。基于MEM的体外选择程序在第2轮相对于全长抗原产生不同的重链种系使用。体外选择程序中使用的MEM的顺序和身份会影响重链种系使用。基于MEM的体外选择程序在第2轮相对于全长抗原产生不同的轻链种系使用。体外选择程序中使用的MEM的顺序和身份会影响轻链种系使用。基于MEM的体外选择程序在第3轮相对于全长抗原产生不同且更多样化的重链种系使用。体外选择程序中使用的MEM的顺序和身份会影响重链种系使用和多样性。基于MEM的体外选择程序在第3轮相对于全长抗原产生不同且更多样化的轻链种系使用。体外选择程序中使用的MEM的顺序和身份会影响轻链种系使用和多样性。

不同噬菌体淘选程序如何聚焦于Fab命中的总结提供于图25A和25B中。

图26中所示的总结每个程序的每轮淘选的表位上(sMEM)VEGF命中频率的图表明工程化肽体外选择方案鉴定了独特的mAb命中，证实与VEGF结合并交叉阻断贝伐单抗，其中许多的这些命中在常规方法中未鉴定。图27总结了每个程序的每轮淘选的表位外VEGF命中频率，证明了常规程序鉴定的mAb命中被证实与VEGF结合，但不是推定的表位选择性mAb命中。图28总结了结合。

实例4：使用工程化肽对PD-L1治疗表位进行程序化体外噬菌体选择

使用PD-L1上的经鉴定治疗表位参考目标位点，通常按照与实例2中所述类似的方案设计一系列工程化肽(MEM)，如图29-31D中所总结。使用生物传感器评估了这三种工程化肽sMEM、nMEM(均为正选择分子)和iMEM(具有逆特征的负选择分子)与两种抗PD-L1阿维鲁单抗和度伐单抗的结合能力(已知两种抗体均与参考目标表位结合)，数据显示于图31A-32C中。设计了一系列使用工程化肽的五个不同的淘选程序，以及使用常规选择分子PD-L1和BSA的对照程序，如图33中所示，并用于筛选展示于噬菌体上的初始人类Ig scFv格式文库。使用了与在上文实例3中所述相似的淘选方案。对于每个淘选程序，在每一轮中首先进行负选择，且然后进行正选择。

使用每个程序选择的所得池对PD-L1和不同工程化肽的ELISA反应总结于图34-38中，且比较不同程序的完整ELISA反应提供于图39A-39U中。还使用具有所需结合行为的不同组合的不同选择过滤标准分析了选择的池，如图40中所总结。下表2A和2B提供了从ELISA结果中选择的不同克隆的总结，所述结果进一步通过交叉阻断分析获得。

表2A.从交叉阻断分析的ELISA结果中选择的抗PD-L1淘选克隆(完整列表：包括ELISA命中和对照)

使用0nM、67pM、670pM和6.7nM的阿维鲁单抗或度伐单抗的剂量反应性PD-L1竞争来分析这些ELISA命中，以鉴定34个推定的交叉阻断克隆命中。阻断倾向计算如下：ELISA Z分数(sMEM1+sMEM5+PD-L1-iMEM)+MAX(阿维鲁单抗阻断Z分数,度伐单抗阻断Z分数)。结果的总结提供于下表3中。

表3.交叉阻断ELISA反应和阻断倾向的总结

ELISA反应提供于图42A-42F中。对从交叉阻断命中鉴定的23个不同克隆进行测序(通过Sanger测序)，并在图43中列出。图44中提供了跨淘选程序的交叉阻断命中的不同克隆计数的总结。

分析这些结果以确定是否有任何体外选择程序产生交叉阻断PD-L1:阿维鲁单抗/度伐单抗的克隆的随机选择富集。基于ELISA和交叉阻断数据，至少两个使用工程化肽的程序显示出富集，所述数据使用与传统程序(仅使用PD-L1和BSA作为选择分子)相比的来自所有体外选择程序的均匀随机取样的克隆。克隆的结果和总结显示在图45A-46中(图45C中的阴影条目来自常规淘选)。分析中使用了以下基本原理：评分基本原理：如果通过显著(通过稳健z分数)负斜率观察到阻断反应，则阻断倾向为PD-L1、MEM结合和X-阻断斜率的z分数的组合，其中使用的X-阻断z分数是阿维鲁单抗相对于度伐单抗的最大z分数，因为这些TxmAb在表面上具有略微不同的表位。

实例5：用于选择工程化肽的机器学习模型

使用参考目标，参考目标(序列)的拓扑特征被识别和编码在支架蓝图中(图61，顶部)。支架蓝图可以约束工程化多肽中的氨基酸序列以匹配参考目标中的氨基酸顺序。序列同源性可以被约束于100％(参考目标中的每个氨基酸对应于蓝图中的一个氨基酸)，或者可以允许序列同源性较低，例如，10至90％同源性。可将支架蓝图转换为向量表示(图61，左侧)并用于生成候选多肽，所述多肽的空间相关拓扑特征与从参考目标导出的空间相关拓扑约束的组合重叠以产生工程化肽，每个支架蓝图都基于重叠的评分分配了一个标签(图61，右侧)。

机器学习(ML)模型可以在训练数据上进行训练，所述训练数据包括支架蓝图的表示和相应的分数。所述表示可以是例如一维数字向量、二维字母数字数据矩阵、三维标准化数字张量。更具体地，在一些情况下，所述表示是包括插入支架残基位置数的有序列表的向量。可以使用此类表示，因为可以从目标结构推断目标残基的顺序，因此所述表示不需要鉴定目标残基位置的氨基酸一致性。可以使用计算蛋白质建模(例如Rosetta remodeler)生成支架蓝图的分数，所述建模确定每个支架蓝图的能量项。然后可以基于计算蛋白质建模生成的能量项来计算分数。

ML模型可以是例如提升决策树算法、决策树的集合、极端梯度提升(XGBoost)模型、随机森林、支持向量机(SVM)等。一旦经过训练，ML模型就会被执行，以从一组支架蓝图生成一组预测分数。如果预测分数高于所需分数，则可以通过计算蛋白质建模来模拟与预测分数对应的支架蓝图，以生成真实分数。可以比较真实分数和预测分数以确定ML模型的再训练。在一些植入中，训练和执行步骤可以如图62中所示进行迭代，直到预测出具有所需分数的最佳/改进的支架蓝图。然后将最佳/改进的支架蓝图转化为工程化肽。

Claims

1.一种工程化肽，其中所述工程化肽具有介于1kDa与10kDa之间的分子量并且包含至多50个氨基酸，并且其中所述工程化肽包含：

2.根据权利要求1所述的工程化肽，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10％至90％的序列同源性。

3.根据权利要求1或2所述的工程化肽，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考的范德华表面积重叠为

至

4.根据权利要求1至3中任一项所述的工程化肽，其中所述组合包含至少两个参考目标导出的约束。

5.根据权利要求1至4中任一项所述的工程化肽，其中所述组合包含至少五个参考目标导出的约束。

6.根据权利要求1至5中任一项所述的工程化肽，其中所述约束的组合包含一个或多个并非从参考目标导出的约束。

7.根据权利要求6所述的工程化肽，其中所述一个或多个非参考目标导出的约束描述了所需的结构、动力学、化学或功能特征，或其任何组合。

8.根据权利要求1至7中任一项所述的工程化肽，其中所述约束独立地选自由以下组成的组：

原子距离；

原子波动；

原子能；

化学描述符；

溶剂暴露；

氨基酸序列相似性；

生物信息学描述符；

非共价键合倾向；

角；

ψ角；

范德华半径；

二级结构倾向；

氨基酸邻接；和

氨基酸接触。

9.根据权利要求1至8中任一项所述的工程化肽，其中一个或多个约束独立地为原子波动。

10.根据权利要求1至9中任一项所述的工程化肽，其中一个或多个约束独立地为化学描述符。

11.根据权利要求1至10中任一项所述的工程化肽，其中一个或多个约束独立地为原子距离。

12.根据权利要求1至11中任一项所述的工程化肽，其中一个或多个约束独立地为二级结构。

13.根据权利要求1至12中任一项所述的工程化肽，其中一个或多个约束独立地为范德华表面。

14.根据权利要求1至13中任一项所述的工程化肽，其中一个或多个约束独立地与生物反应或生物功能相关。

15.根据权利要求1至14中任一项所述的工程化肽，其包含一个或多个与生物反应或生物功能相关的原子。

16.根据权利要求1至15中任一项所述的工程化肽，其包含一个或多个与生物反应或生物功能相关的氨基酸。

17.根据权利要求14至16中任一项所述的工程化肽，其中所述生物反应或生物功能选自由以下组成的组：基因表达、代谢活性、蛋白质表达、细胞增殖、细胞死亡、细胞因子分泌、激酶活性、表观遗传修饰、细胞杀伤活性、炎症信号、趋化性、组织浸润、免疫细胞谱系定型、组织微环境修饰、免疫突触形成、IL-2分泌、IL-10分泌、生长因子分泌、γ干扰素分泌、转化生长因子β分泌、基于免疫受体酪氨酸的激活基序活性、基于免疫受体酪氨酸的抑制基序活性、抗体定向的细胞毒性、补体定向的细胞毒性、生物途径激动作用、生物途径拮抗作用、生物途径重定向、激酶级联修饰、蛋白水解途径修饰、蛋白稳态途径修饰、蛋白质折叠/途径、翻译后修饰途径、代谢途径、基因转录/翻译、mRNA降解途径、基因甲基化/乙酰化途径、组蛋白修饰途径、表观遗传途径、免疫定向清除、调理作用、激素信号传导、整合素途径、膜蛋白信号转导、离子通道通量和g蛋白偶联受体反应。

18.根据权利要求15所述的工程化肽，其中所述参考目标包含一个或多个与生物反应或生物功能相关的原子，

19.根据权利要求18所述的工程化肽，其中所述重叠为大于0.25的均方根内积(RMSIP)。

20.根据权利要求19所述的工程化肽，其中所述重叠具有大于0.75的均方根内积(RMSIP)。

21.根据权利要求18至20中任一项所述的工程化肽，其中与生物反应或生物功能相关的所述工程化肽中的至少一部分所述原子在拓扑上受限于所述参考目标中的二级结构元件。

22.根据权利要求21所述的工程化肽，其中所述二级结构元件为β-片层。

23.根据权利要求21所述的工程化肽，其中所述二级结构元件为α螺旋。

24.根据权利要求21所述的工程化肽，其中所述二级结构元件为转角，其中所述转角包含2至7个残基，并且包含至少一个残基间氢键。

25.根据权利要求21所述的工程化肽，其中所述二级结构元件为卷曲，其中所述卷曲包含2至20个残基。

26.根据权利要求25所述的工程化肽，其中所述卷曲不包含残基间氢键。

27.根据权利要求21至26中任一项所述的工程化肽，其中与生物反应或生物功能相关的所述工程化肽中的至少一部分所述原子在拓扑上受限于两个或更多个独立地选自以下组成的组的二级结构元件：β-片层、α螺旋、转角和卷曲。

28.根据权利要求1至27中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为原子距离。

29.根据权利要求1至28中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为原子能。

30.根据权利要求29所述的工程化肽，其中每个原子能独立地为两个原子之间的成对吸引能、两个原子之间的成对排斥能、原子级溶剂化能、两个原子之间的成对带电吸引能、两个原子之间的成对氢键合吸引能或非共价键合能。

31.根据权利要求1至30中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为化学描述符。

32.根据权利要求31所述的工程化肽，其中每个化学描述符独立地为疏水性、极性、体积、净电荷、logP、高效液相色谱保留或范德华半径。

33.根据权利要求1至32中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为生物信息学描述符。

34.根据权利要求33所述的工程化肽，其中每个生物信息学描述符独立地为BLOSUM相似性、pKa、zScale、克鲁恰尼特性(Cruciani Properties)、基德拉因子(Kidera Factors)、VHSE量表、ProtFP、MS-WHIM分数、T量表、ST量表、跨膜倾向、蛋白质埋藏面积、螺旋倾向、片层倾向、卷曲倾向、转向倾向、免疫原性倾向、抗体表位出现率或蛋白质界面出现率。

35.根据权利要求1至34中任一项所述的工程化肽，其中一个或多个空间相关拓扑约束为溶剂暴露。

36.根据权利要求1至35中任一项所述的工程化肽，其中所述一个或多个参考目标导出的约束中的至少一个为GPCR胞外域。

37.根据权利要求1至36中任一项所述的工程化肽，其中所述一个或多个参考目标导出的约束中的至少一个为离子通道胞外域。

38.根据权利要求1至37中任一项所述的工程化肽，其中所述一个或多个参考目标导出的约束中的至少一个为蛋白质-蛋白质或肽-蛋白质界面连接。

39.根据权利要求1至38中任一项所述的工程化肽，其中所述一个或多个参考目标导出的约束中的至少一个是从所述目标的多态性区域导出。

40.根据权利要求1至39中任一项所述的工程化肽，其包含一个或多个与生物反应或生物功能相关的原子，其中所述一个或多个原子中的每一个独立地选自由以下组成的组：碳、氧、氮、氢、硫、磷、钠、钾、锌、锰、镁、铜、铁、钼和镍。

41.根据权利要求1至40中任一项所述的工程化肽，其包含一个或多个与生物功能或生物反应相关的氨基酸，其中所述一个或多个氨基酸中的每一个独立地为蛋白型天然存在的氨基酸、非蛋白型天然存在的氨基酸或化学合成的非天然氨基酸。

42.根据权利要求1至41中任一项所述的工程化肽，其中当与所述参考目标相比时，所述工程化肽具有至少一个结构差异。

43.根据权利要求42所述的工程化肽，其中所述至少一个结构差异独立地选自由以下组成的组：序列、氨基酸残基数、原子总数、总亲水性、总疏水性、总正电荷、总负电荷、一个或多个二级结构、形状因子、泽尼克描述符、范德华表面、结构图节点和边、体积表面、静电势表面、疏水势表面、局部直径、局部表面特征、骨架模型、电荷密度、亲水密度、表面积与体积比、两亲密度和表面粗糙度。

44.根据权利要求16所述的工程化肽，其中所述一个或多个二级结构的差异是与所述参考目标相比，所述工程化肽中存在一个或多个额外的二级结构元件，其中每个额外的二级结构元件独立地选自由α螺旋、β-片层、环、转角和卷曲组成的组。

45.根据权利要求1至44中任一项所述的工程化肽，其中10％至90％的所述氨基酸满足一个或多个非参考目标导出的拓扑约束。

46.根据权利要求45所述的工程化肽，其中所述一个或多个非参考目标导出的拓扑约束加强预先指定的功能。

47.根据权利要求46所述的工程化肽，其中所述

非参考导出的拓扑约束改变肽总疏水性；

非参考导出的拓扑约束改变肽溶解度；

非参考导出的拓扑约束改变肽总电荷；

非参考导出的拓扑约束使得能够在体外分析中进行检测；

非参考导出的拓扑约束使得能够在体内分析中进行检测；

非参考导出的拓扑约束使得能够从复杂混合物中捕获；

非参考导出的拓扑约束使得能够进行酶处理；

非参考导出的拓扑约束使得细胞膜能够具透性；

非参考导出的拓扑约束使得能够与二级目标结合；和/或

非参考导出的拓扑约束改变免疫原性。

48.一种选择工程化肽的方法，其包含：

识别参考目标的一个或多个拓扑特征；

49.根据权利要求48所述的方法，其中每个特征之间的重叠独立地小于或等于由以下中的一个或多个确定的75％平均百分比误差(MPE)：总拓扑约束距离(TCD)、拓扑聚类系数(TCC)、欧几里得距离(Euclidean distance)、功率距离、索格尔距离(Soergel distance)、堪培拉距离(Canberra distance)、索伦森距离(Sorensen distance)、杰卡德距离(Jaccard distance)、马氏距离(Mahalanobis distance)、汉明距离(Hamming distance)、相似性定量估计(QEL)或链拓扑参数(CTP)。

50.根据权利要求48或49所述的方法，其中一个或多个约束是从以下各者导出：每个残基能量、每个残基相互作用、每个残基波动、每个残基原子距离、每个残基化学描述符、每个残基溶剂暴露、每个残基氨基酸序列相似性、每个残基生物信息学描述符、每个残基非共价键合倾向、每个残基

51.根据权利要求48至50中任一项所述的方法，其中所述一种或多种候选肽的特征通过计算机模拟确定。

52.根据权利要求51所述的方法，其中所述计算机模拟包含分子动力学模拟、蒙特卡洛模拟(Monte Carlo simulation)、粗粒度模拟、高斯网络模型(Gaussian network model)、机器学习或其任何组合。

53.根据权利要求48至52中任一项所述的方法，其中所述一种或多种候选肽的特征通过实验表征确定。

54.根据权利要求48至53中任一项所述的方法，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考目标具有10％至90％的序列同源性。

55.根据权利要求48至54中任一项所述的方法，其中满足所述一个或多个参考目标导出的约束的所述氨基酸与所述参考的范德华表面积重叠为

至

56.根据权利要求48至55中任一项所述的方法，其中所述组合包含至少两个参考目标导出的约束。

57.根据权利要求48至56中任一项所述的方法，其中所述组合包含至少五个参考目标导出的约束。

58.根据权利要求48至57中任一项所述的方法，其中所述约束的组合包含一个或多个并非从参考目标导出的约束。

59.根据权利要求58所述的方法，其中所述一个或多个非参考目标导出的约束描述了所需的结构、动力学、化学或功能特征，或其任何组合。

60.根据权利要求48至59中任一项所述的方法，其中所述约束独立地选自由以下组成的组：

原子距离；

原子波动；

原子能；

化学描述符；

溶剂暴露；

氨基酸序列相似性；

生物信息学描述符；

非共价键合倾向；

角；

ψ角；

范德华半径；

二级结构倾向；

氨基酸邻接；和

氨基酸接触。

61.根据权利要求48至60中任一项所述的方法，其中一个或多个约束独立地为原子波动。

62.根据权利要求48至61中任一项所述的方法，其中一个或多个约束独立地为化学描述符。

63.根据权利要求48至62中任一项所述的方法，其中一个或多个约束独立地为原子距离。

64.根据权利要求48至63中任一项所述的方法，其中一个或多个约束独立地为二级结构。

65.根据权利要求48至64中任一项所述的方法，其中一个或多个约束独立地为范德华表面。

66.根据权利要求48至65中任一项所述的方法，其中一个或多个约束独立地与生物反应或生物功能相关。

67.根据权利要求48至66中任一项所述的方法，其中所述工程化肽包含一个或多个与生物反应或生物功能相关的原子。

68.根据权利要求48至66中任一项所述的方法，其中所述工程化肽包含一个或多个与生物反应或生物功能相关的氨基酸。

69.根据权利要求66至68中任一项所述的方法，其中所述生物反应或生物功能选自由以下组成的组：基因表达、代谢活性、蛋白质表达、细胞增殖、细胞死亡、细胞因子分泌、激酶活性、表观遗传修饰、细胞杀伤活性、炎症信号、趋化性、组织浸润、免疫细胞谱系定型、组织微环境修饰、免疫突触形成、IL-2分泌、IL-10分泌、生长因子分泌、γ干扰素分泌、转化生长因子β分泌、基于免疫受体酪氨酸的激活基序活性、基于免疫受体酪氨酸的抑制基序活性、抗体定向的细胞毒性、补体定向的细胞毒性、生物途径激动作用、生物途径拮抗作用、生物途径重定向、激酶级联修饰、蛋白水解途径修饰、蛋白稳态途径修饰、蛋白质折叠/途径、翻译后修饰途径、代谢途径、基因转录/翻译、mRNA降解途径、基因甲基化/乙酰化途径、组蛋白修饰途径、表观遗传途径、免疫定向清除、调理作用、激素信号传导、整合素途径、膜蛋白信号转导、离子通道通量和g蛋白偶联受体反应。

70.根据权利要求66所述的方法，其中所述参考目标包含一个或多个与生物反应或生物功能相关的原子，

71.根据权利要求70所述的方法，其中所述重叠为大于0.25的均方根内积(RMSIP)。

72.根据权利要求71所述的方法，其中所述重叠具有大于0.75的均方根内积(RMSIP)。

73.根据权利要求67至69中任一项所述的方法，其中与生物反应或生物功能相关的所述工程化肽中的至少一部分所述原子在拓扑上受限于所述参考目标中的二级结构元件。

74.根据权利要求73所述的方法，其中所述二级结构元件为β-片层。

75.根据权利要求73所述的方法，其中所述二级结构元件为α螺旋。

76.根据权利要求73所述的方法，其中所述二级结构元件为转角，其中所述转角包含2至7个残基，并且包含至少一个残基间氢键。

77.根据权利要求73所述的方法，其中所述二级结构元件为卷曲，其中所述卷曲包含2至20个残基。

78.根据权利要求73所述的方法，其中所述卷曲不包含残基间氢键。

79.根据权利要求67至69中任一项所述的方法，其中与生物反应或生物功能相关的所述工程化肽中的至少一部分所述原子在拓扑上受限于两个或更多个独立地选自以下组成的组的二级结构元件：β-片层、α螺旋、转角和卷曲。

80.根据权利要求48至79中任一项所述的方法，其中一个或多个空间相关拓扑约束为原子距离。

81.根据权利要求48至80中任一项所述的方法，其中一个或多个空间相关拓扑约束为原子能。

82.根据权利要求81所述的方法，其中每个原子能独立地为两个原子之间的成对吸引能、两个原子之间的成对排斥能、原子级溶剂化能、两个原子之间的成对带电吸引能、两个原子之间的成对氢键合吸引能或非共价键合能。

83.根据权利要求48至82中任一项所述的方法，其中一个或多个空间相关拓扑约束为化学描述符。

84.根据权利要求83所述的方法，其中每个化学描述符独立地为疏水性、极性、体积、净电荷、logP、高效液相色谱保留或范德华半径。

85.根据权利要求48至84中任一项所述的方法，其中一个或多个空间相关拓扑约束为生物信息学描述符。

86.根据权利要求85所述的方法，其中每个生物信息学描述符独立地为BLOSUM相似性、pKa、zScale、克鲁恰尼特性、基德拉因子、VHSE量表、ProtFP、MS-WHIM分数、T量表、ST量表、跨膜倾向、蛋白质埋藏面积、螺旋倾向、片层倾向、卷曲倾向、转向倾向、免疫原性倾向、抗体表位出现率或蛋白质界面出现率。

87.根据权利要求48至86中任一项所述的方法，其中一个或多个空间相关拓扑约束为溶剂暴露。

88.根据权利要求48至87中任一项所述的方法，其中所述一个或多个参考目标导出的约束中的至少一个为GPCR胞外域。

89.根据权利要求48至88中任一项所述的方法，其中所述一个或多个参考目标导出的约束中的至少一个为离子通道胞外域。

90.根据权利要求48至89中任一项所述的方法，其中所述一个或多个参考目标导出的约束中的至少一个为蛋白质-蛋白质或蛋白质-肽界面连接。

91.根据权利要求48至90中任一项所述的方法，其中所述一个或多个参考目标导出的约束中的至少一个是从所述目标的多态性区域导出。

92.根据权利要求48至91中任一项所述的方法，其中所述工程化肽包含一个或多个与生物反应或生物功能相关的原子，其中所述一个或多个原子中的每一个独立地选自由以下组成的组：碳、氧、氮、氢、硫、磷、钠、钾、锌、锰、镁、铜、铁、钼和镍。

93.根据权利要求48至92中任一项所述的方法，其中所述工程化肽包含一个或多个与生物功能或生物反应相关的氨基酸，其中所述一个或多个氨基酸中的每一个独立地为蛋白型天然存在的氨基酸、非蛋白型天然存在的氨基酸或化学合成的非天然氨基酸。

94.根据权利要求48至93中任一项所述的方法，其中当与所述参考目标相比时，所述工程化肽具有至少一个结构差异。

95.根据权利要求94所述的方法，其中所述至少一个结构差异独立地选自由以下组成的组：序列、氨基酸残基数、原子总数、总亲水性、总疏水性、总正电荷、总负电荷、一个或多个二级结构、形状因子、泽尼克描述符、范德华表面、结构图节点和边、体积表面、静电势表面、疏水势表面、局部直径、局部表面特征、骨架模型、电荷密度、亲水密度、表面积与体积比、两亲密度和表面粗糙度。

96.根据权利要求95所述的方法，其中所述一个或多个二级结构的差异是与所述参考目标相比，所述工程化肽中存在一个或多个额外的二级结构元件，其中每个额外的二级结构元件独立地选自由α螺旋、β-片层、环、转角和卷曲组成的组。

97.根据权利要求48至96中任一项所述的方法，其中所述工程化肽的10％至90％的所述氨基酸满足一个或多个非参考目标导出的拓扑约束。

98.根据权利要求97所述的方法，其中所述一个或多个非参考目标导出的拓扑约束加强预先指定的功能。

99.根据权利要求98所述的方法，其中：

非参考导出的拓扑约束改变肽总疏水性；

非参考导出的拓扑约束改变肽溶解度；

非参考导出的拓扑约束改变肽总电荷；

非参考导出的拓扑约束使得能够在体外分析中进行检测；

非参考导出的拓扑约束使得能够在体内分析中进行检测；

非参考导出的拓扑约束使得能够从复杂混合物中捕获；

非参考导出的拓扑约束使得能够进行酶处理；

非参考导出的拓扑约束使得细胞膜能够具透性；

非参考导出的拓扑约束使得能够与二级目标结合，或

非参考导出的拓扑约束改变免疫原性，

或其任何组合。

100.一种包含两种或更多种选择导向多肽的组合物，其中每一种多肽独立地为包含一种或多种正导向特征的正选择分子，或包含一种或多种负导向特征的负选择分子，其中每个特征类型独立地选自由以下组成的组：

氨基酸序列，

多肽二级结构，

分子动力学，

化学特征，

生物学功能，

免疫原性，

参考目标多特异性，

跨物种参考目标反应性，

所需参考目标超过非所需参考目标的选择性，

序列和/或结构同源家族内参考目标的选择性，

具有相似蛋白质功能的参考目标的选择性，

对不同参考目标等位基因或突变的选择性，

对不同参考目标残基水平化学修饰的选择性，

对细胞类型的选择性，

对组织类型的选择性，

对组织环境的选择性，

对参考目标结构多样性的耐受性，

对参考目标序列多样性的耐受性，以及

对参考目标动力学多样性的耐受性；

并且其中所述两种或更多种多肽中的至少一种是根据权利要求1所述的工程化肽。

101.根据权利要求100所述的组合物，其中所述两种或更多种多肽中的至少一种是正选择分子，并且所述两种或更多种多肽中的至少一种是负选择分子。

102.根据权利要求100或101所述的组合物，其中所述两种或更多种多肽中的至少一种是天然蛋白质。

103.根据权利要求100至102中任一项所述的组合物，其包含至少一对对应的正选择和负选择分子，所述分子包含至少一种共有特征类型，其中所述正选择分子包含所述正特征并且所述负选择分子包含所述负特征。

104.一种筛选具有根据权利要求100所述的组合物的结合分子文库的方法，所述方法包含使候选结合分子池经受至少一轮选择，其中每轮选择包含：

针对负选择分子筛选所述池的至少一部分的负选择步骤；和

针对正选择分子筛选所述池的至少一部分的正选择步骤；

105.根据权利要求104所述的方法，其中所述结合分子文库为噬菌体文库。

106.根据权利要求105所述的方法，其中所述结合分子文库为细胞文库。

107.根据权利要求106所述的方法，其中所述结合分子文库为B细胞文库。

108.根据权利要求106所述的方法，其中所述结合分子文库为T细胞文库。

109.根据权利要求104至108中任一项所述的方法，其包含两轮或更多轮选择。

110.根据权利要求104至109中任一项所述的方法，其包含三轮或更多轮选择。

111.根据权利要求109或110所述的方法，其中每一轮包含不同的选择分子集。

112.根据权利要求109或110所述的方法，其中至少两轮包含相同的负选择分子，或相同的正选择分子，或两者。

113.根据权利要求109至112中任一项所述的方法，其包含在继续进行下一轮选择之前分析从一轮选择中获得的所述池子集。

114.根据权利要求113所述的方法，其中所述子集池分析确定在一轮或多轮后续选择中使用的正和/或负选择分子集。

115.根据权利要求113或114所述的方法，其中每个子集池分析独立地选自由以下组成的组：肽/蛋白质生物传感器结合、肽/蛋白质ELISA、肽文库结合、细胞提取物结合、细胞表面结合、细胞活性分析、细胞增殖分析、细胞死亡分析、酶活性分析、基因表达谱、蛋白质修饰分析、蛋白质印迹和免疫组织化学。

116.根据权利要求113至115中任一项所述的方法，其中一轮或多轮后续选择中使用的所述正、负或正和负选择分子由子集池分析的统计学/信息学评分或机器学习训练确定。

117.根据权利要求109至116中任一项所述的方法，其中在进入下一轮选择之前修饰从一轮选择获得的所述子集池。

118.根据权利要求117所述的方法，其中所述子集池分析确定一轮或多轮后续选择中使用的所述正、负或正和负选择分子；且在进入下一轮选择之前修饰所述子集池。

119.根据权利要求117或118所述的方法，其中每个修饰独立地选自选自遗传突变、遗传耗竭、遗传富集、化学修饰和酶修饰的组。