CN105247118A

CN105247118A - 支架化肽文库以及其制备和筛选方法

Info

Publication number: CN105247118A
Application number: CN201480014317.9A
Authority: CN
Inventors: 马鲁蒂·阿帕拉帕提; 萨契戴夫·S.·西德胡; 亚伦·科曼
Original assignee: University of Toronto
Current assignee: University of Toronto
Priority date: 2013-03-14
Filing date: 2014-03-14
Publication date: 2016-01-13
Also published as: WO2014140882A3; US20150376604A1; AU2014229549B2; CA2902789A1; HK1218534A1; US10093921B2; EP2971290A2; AU2014229549A1; EP2971290A4; WO2014140882A8; WO2014140882A2

Abstract

提供了支架化肽文库以及针对与靶蛋白的特异性结合筛选所述支架化肽文库的方法。每个文库包含不同的肽化合物，所述肽化合物包含支架结构域和不同的可变结构域。提供了多种文库，其中每种文库基于作为基础的具有结构基序的肽支架。在一些实施方案中，所述肽支架是具有蛋白质-蛋白质相互作用表面的小蛋白。提供了编码多种肽化合物的多核苷酸的文库。这些文库用于需要与靶分子(例如靶蛋白)特异性结合的多种应用。还提供了制备所述文库的方法以及针对与靶标的结合筛选所述文库的方法。

Description

支架化肽文库以及其制备和筛选方法

(相关申请的交叉引用)

根据35U.S.C.§119(e)，本申请要求2013年3月14日提交的美国临时申请No.61/784,077和2013年3月25日提交的美国临时申请No.61/804,982的优先权，所述申请通过引用并入本文。

背景技术

基本上所有的生物过程依赖于蛋白质介导的分子识别。操纵这种蛋白质的相互作用的能力对于基础生物学研究以及治疗和诊断的开发均是有意义的。

可以例如通过操纵免疫系统或者经化学合成(从其可以选择与靶分子的结合特异性)制备多肽的文库。对于具有大量氨基酸的可能序列组合的多肽而言，可从其选择特异性的分子多样性是很大的。此外，蛋白质可以形成大的结合表面，其具有产生高度特异且高亲和的结合事件的与靶分子的多处接触。例如，抗体为对多种靶抗原产生高度特异和紧密结合的配体的一类蛋白。

由于感兴趣的靶分子的多样性，并且由于蛋白质的结合特性，肽文库以及筛选肽文库来鉴定具有有用功能的分子的方法是有意义的。

发明内容

提供了支架化肽文库以及针对与靶蛋白的特异性结合筛选所述支架化肽文库的方法。每个文库包含不同的肽化合物，所述肽化合物包含作为基础的支架结构域和不同的可变结构域。提供了多种文库，其中每种文库基于具有结构基序的肽支架。在一些实施方案中，所述肽支架是具有适于蛋白质-蛋白质相互作用的表面的小蛋白。提供了编码多种肽化合物的多核苷酸的文库。这些文库用于需要与靶分子(例如靶蛋白)特异性结合的多种应用。还提供了制备所述文库的方法以及针对与靶标的结合筛选所述文库的方法。

附图说明

图1-31示出了感兴趣的一些支架结构域(包括感兴趣的突变位置)的结构基序和序列。对于每个支架结构域，示出了两种可替换的结构视图，其中加深的结构区域表示基于所述支架的文库的一个实施方案的可变结构域，其对应于在下方序列中示出的突变位置。显示了多肽序列，其可被用于制备基于所述支架肽文库的一个实施方案，其中加深的、高亮的和灰色的残基表示可以被随机化的感兴趣的突变位置(例如，用噬菌体展示文库中的B1(HT)、WTK或NTT密码子)。

图1：SCF2,DGCR8(DiGeorge综合征关键区域8)二聚体化结构域(SEQIDNO:1)。

图2:SCF3,Get5C-末端结构域(SEQIDNO:2)。

图3:SCF4,H-NS结构域，来自E.coli(SEQIDNO:3)。

图4:SCF7,KorBc-末端二聚体化结构域(SEQIDNO:4)。

图5:SCF8,Lsr2二聚体化结构域(SEQIDNO:5)。头6个残基可以被截短。

图6:SCF15,Symfoil4P三聚体(命名为β-三叶肽)(SEQIDNO:10)。

图7:SCF23,EphA2SAM结构域(SEQIDNO:12)。

图8:SCF24-1,高尔基体蛋白245的GRIP结构域，亚文库1(SEQIDNO:13)。

图9:SCF24-2,高尔基体蛋白245的GRIP结构域，亚文库2(SEQIDNO:13)。

图10:SCF27,SpoOB-螺旋发夹结构域(SEQIDNO:14)。

图11:SCF28,Ku的C-末端结构域(SEQIDNO:15)。

图12:SCF29,Cue2蛋白的CUE结构域(SEQIDNO:16)。

图13:SCF32,蛋白G的GA结构域(SEQIDNO:18)。

图14:SCF37,PEM-1样蛋白(SEQIDNO:22)。

图15:SCF38,成束蛋白-2(Fasciculin-2)(SEQIDNO:23)。

图16:SCF40,核苷酸交换因子C-末端结构域(SEQIDNO:25)。

图17:SCF42,转录抗终止蛋白NusG(SEQIDNO:27)。

图18:SCF44,与ThiF复合的ThiS蛋白(SEQIDNO:29)。

图19:SCF47,CD2bp2的GYF结构域(SEQIDNO:32)。

图20:SCF53,RhodninKazal抑制子(SEQIDNO:38)。

图21:SCF55,抗-TRAP(SEQIDNO:40)。

图22:SCF56-1,TNF受体17(BCMA),亚文库1(SEQIDNO:41)。

图23:SCF56-2,TNF受体17(BCMA),亚文库2(SEQIDNO:41)。

图24:SCF63,FynSH3结构域(Fynomers)(SEQIDNO:46)。

图25:SCF64,E3泛素蛋白连接酶UBR5(SEQIDNO:47)。

图26:SCF65,DNA修复核酸内切酶XPF(SEQIDNO:48)。

图27:SCF66,Rad23同系物B,xpcb结构域(SEQIDNO:49)。

图28:SCF70,伊默菌素的LEM结构域(SEQIDNO:51)。

图29:SCF75,GspC(SEQIDNO:55)。

图30:SCF95,蛋白Z(SEQIDNO:70)。

图31和32显示了所有感兴趣的支架1-70的表，并且显示了基于这些支架的各文库的一个实施方案。对于每个支架化文库，突变的感兴趣的位置由残基四周的黑方框示出。图31显示了支架1-70的第1-25位氨基酸，图32显示了之后的第26位氨基酸。

图33和34显示了包含支架的亚组(即在图1-30中示出的那些)的表。对于每个支架化文库，突变的感兴趣的位置由特定残基周围的黑色(例如可以用(B1)HT密码子随机化)或灰色方框(例如可以用WTK或NTT密码子随机化)示出。图31显示了支架1-70的第1-25位氨基酸，图32显示了之后的第26位氨基酸。

图35显示了包含支架的亚组(即在图1-30中示出的那些)的表，其中列除了感兴趣的突变的位置。

具体实施方式

定义

本文所用术语“肽”指的是由氨基酸残基构成的部分(moiety)。术语“肽”包括天然存在氨基酸的化合物或文库，以及其中常规骨架已经被非天然存在(例如合成)的骨架替代的化合物或文库，以及其中一个或更多个天然存在氨基酸已经被一个或更多个非天然存在(例如合成)的氨基酸或D-氨基酸替代的肽。本文所用术语“合成的氨基酸”是指非天然存在的氨基酸。本文出现的任何对序列的描述(例如使用单字母或三字母代码)可代表序列的L-氨基酸版本或D-氨基酸版本(例如为了简便，在本领域中使用的大写和小写字母代码指代L-和D-氨基酸残基的惯例不严格应用于本文中)。在一些情况下，本发明肽文库和肽化合物为L-肽。应理解，在另一些情况下，本发明肽文库和肽化合物为D-肽，并因而具有这样的结构基序，即，为天然的作为基础的L-肽支架结构基序的镜像结构。

本文所用术语“多肽”和“蛋白质”可互换使用。术语“多肽”也包括翻译后修饰的多肽或蛋白质。术语“多肽”包括其中天然存在骨架的一个或更多个残基单元已经被具有非天然(即合成的)骨架的一个或更多个残基替代的多肽。在主题多肽中可以使用多种拟肽骨架和侧链。在一些实例中，多肽是肽。在一些实例中，多肽可以为任何长度，例如2或更多个氨基酸、4或更多个氨基酸、10或更多个氨基酸、20或更多个氨基酸、25或更多个氨基酸、30或更多个氨基酸、35或更多个氨基酸、40或更多个氨基酸、45或更多个氨基酸、50或更多个氨基酸、55或更多个氨基酸、60或更多个氨基酸、100或更多个氨基酸、300或更多个氨基酸、500或更多个氨基酸或者1000或更多个氨基酸。

本文所用术语“残基的不连续序列”指的是相对于肽化合物的一级序列不连续的残基的序列。肽化合物可以折叠以形成二级或三级结构，其中残基的不连续序列的氨基酸在空间上彼此临近，即连续。本文所用术语“残基的连续序列”指的是对于肽化合物的一级序列连续的残基序列。

本文所用术语“连接序列”指的是连接两个肽基序的氨基酸残基的连续序列。

本文所用术语“噬菌体展示”指的是一种技术，通过这种技术变体肽化合物作为与外壳蛋白的融合蛋白展示在噬菌体(例如丝状噬菌体颗粒)的表面。术语“噬菌粒”指的是具有细菌复制起点(例如ColE1)和细菌噬菌体的基因间区域的拷贝的质粒载体。噬菌粒可以基于任何已知细菌噬菌体，包括丝状细菌噬菌体。在一些实例中，质粒还将含有抗生素抗性的可选择标记。克隆进这些载体的DNA区段可以作为质粒增殖。当为具有这些载体的细胞提供所有生产噬菌体颗粒所需的基因时，质粒的复制模式改变为滚环复制以产生质粒DNA的单链拷贝，并包装噬菌体颗粒。噬菌粒可以形成感染或非感染噬菌体颗粒。该术语包括这样的噬菌粒，其含有作为基因融合物与异源多肽基因连接的噬菌体外壳蛋白基因或其片段，从而所述异源蛋白被展示在噬菌体颗粒的表面上。

本文所用术语“噬菌体载体”指的是含有异源基因并且能够复制的细菌噬菌体的双链复制形式。噬菌体载体具有噬菌体复制起点，其允许噬菌体复制和噬菌体颗粒形成。在一些情况下，所述噬菌体是丝状细菌噬菌体，例如M13，f1，fd，Pf3或其衍生物，λ形噬菌体，例如λ，phi80，phi81，82，424，434等，或其衍生物，杆状病毒或其衍生物，T4噬菌体或其衍生物，T7噬菌体病毒或其衍生物。

本文所用术语“稳定”指的是这样的化合物，其在特定温度(例如25℃或37℃)下在生理条件下能够保持折叠状态，从而其保有至少一种其正常功能活性，例如与靶蛋白的结合。可以使用标准方法测定所述化合物的稳定性。例如，化合物的“热稳定性”可以通过测量热熔解(“Tm”)温度来测量。Tm是以摄氏度表示的未折叠或变性与结构稳定之间的转化中间温度的温度。通常，Tm越高，化合物约稳定。

主题文库的化合物可以含有一个或更多个不对称中心，并且可因而产生对映异构体、非对映异构体和其他根据绝对立体化学可以定义为氨基酸和肽的(R)-或(S)-或者(D)-或(L)-其他立体异构形式。本发明旨在包括所有这些可能的异构体以及其消旋和光学纯形式。当本文所述的化合物含有烯双键或其他几何异构中心时，除非另有说明，意图是所述化合物包括E和Z二种几何异构体。同样，也旨在包括所有互变异构形式。

详细描述

提供了支架化肽文库和筛选所述支架化肽文库来鉴定与靶蛋白特异性结合的化合物的方法。本文库各包含多种肽化合物，其中每种肽化合物具有相同结构基序的支架结构域作为感兴趣的文库的基础亲本支架。所述支架化肽文库被设计为包含多种位置的突变，例如在亲本支架结构域内位置处的变体氨基酸。突变的数目和类型限定了文库的大小和多样性。在一些实施方案中，支架化肽文库的肽化合物包含非核心位置的突变，例如在亲本支架结构域内的并非结构的疏水核心的一部分的位置处的变体氨基酸。感兴趣的支架结构域的结构基序示于图1-30。感兴趣的支架的序列示于图31-34。

提供了多种肽化合物的支架化肽文库。对于文库多样性而言，突变的位置以及支架的不同位置中每一个的突变的性质均可以变化。在一些实例中，突变包括在非核心位置，尽管核心位置处的突变也包括在内。突变可以对所得的肽化合物赋予不同功能，例如对靶分子的特异性结合。突变可以被选择在感兴趣的支架结构域中暴露于溶剂的位置，从而这些位置处的变体氨基酸可以形成潜在的靶分子结合表面的一部分，尽管也可以包括在所选核心和/或边界位置处的突变。在一个主题文库中，突变可以集中在限定基础支架结构域的几个不同潜在结合表面之一的可变结构域处。提供了包括集中在结构基序的潜在结合表面处的突变的不同突变排布不同肽化合物的文库，例如如图1-30所示。在一些实施方案中，肽支架是具有适合于蛋白质-蛋白质相互作用的表面的小蛋白。在一些情况下，支架的蛋白质-蛋白质相互作用表面是大小约500平方埃或更大(例如约500至约1800平方埃)的连续表面区域。主题文库可以包含通过位于基础支架结构域的潜在靶标结合位点处的可变结构域与靶分子特异性结合的化合物。突变可以被包括在潜在的结合表面以提供与靶分子的特异性结合而不显著干扰基础支架化肽结构。

在本方法中，支架化肽文库与靶分子接触来筛选以高亲和力与靶标特异性结合的文库化合物。主题方法和文库用于多种应用，包括筛选应用。

在更详细地描述一些实施方案之前，应理解，本发明不限于所描述的某些实施方案，因为实施方案当然可以变化。还应理解的是，本文所用的术语是仅为了描述一些实施方案，而不旨在限制，因为本发明的范围将仅由所附权利要求限制。

当提供数值范围时，应理解，该范围上界限和下界限之间的每个中间值(除非上下文清楚指出相反情况，至下界限最小整数的十分之一)以及所述范围中任何其他指出的或中间值涵盖在本发明中。这些更小范围的上界限和下界限可以独立地包括在更小范围内并且也涵盖在本发明中，除去在所述范围中的任何特定排除的界限。当所述范围包括界限中的一个或两个时，排除这些包括的界限中的一个或两个的范围也包括在本发明中。

除非另外指出，否则本文所用的所有技术和科学术语具有与本发明所述领域普通技术人员通常理解的相同的含义。尽管与本文所述的那些相似或等价的任何方法和材料可用于实施或测试本发明，下面将描述典型的示例性方法和材料。

在本说明书中引用的所有出版物和专利通过引用并入本文，如同指出每个单独的出版物或专利被特别地和单独地通过引入并入一样，并且在本说明书中引用的所有出版物和专利被通过引用并入本文以公开和描述与所引用出版物相关的方法和/或材料。对任何出版物的引用是其在申请日前的公开，并不应当解释为承认本权利要求无权凭借着在先发明早于这种出版物。此外，所提供的公开日期可不同于实际公开日期，其可需要独立确认。

应注意，当在本文和所附权利要求中使用时，除非上下文明确指出相反情况，否则不使用数量词时涵盖复数的指代物。还应注意，权利要求可撰写成排除任何任选元素。因此，该陈述旨在作为使用与权利要求要素的引述相联系的这些排他性术语如“仅仅”、“仅”等或使用“否定性”限制的在先基础。

本文描述的和示例的每个单独的实施方案有分离的组成和特征，其可以容易地与任何其它几种实施方案的特征分开或组合而不脱离本教导的范围或精神。任何记载的方法可以以记载的事件顺序进行或逻辑上可行的任何其它顺序进行。

在进一步描述本发明的多个方面时，首先更详细地描述多种文库的成员的结构和序列，然后描述使用所述文库的筛选和应用方法。

支架化肽文库

如以上所概述的，本发明的方面包括支架化肽化合物的文库，其中每种肽化合物具有相同结构基序的支架结构域作为感兴趣的文库的基础亲本支架。主题支架化文库的肽化合物可以包括结构基序的不同位置的突变，例如在感兴趣的支架结构域内非核心位置处的变体氨基酸。结构基序和感兴趣的支架结构域的序列示于图1-34中。

本文所用术语“支架”、“支架化”和“支架结构域”可互换使用，指的是化合物文库由其产生并且所述化合物能够针对其进行比较(例如使用序列比对和共有序列分析)的基础肽框架(例如共有序列或基序)。当由支架内不同位置的氨基酸突变产生化合物文库时，这些位置处的氨基酸被称为“变体氨基酸”。基础支架序列包括为“固定氨基酸”(例如，非变体氨基酸)的那些残基。这种变体氨基酸可以赋予所得的肽化合物不同的功能，例如与靶蛋白的特异性结合。本文所用术语“支架结构域”、“支架化”和“支架”可以用于感兴趣的蛋白质(例如图1-34的蛋白质)来指肽文库或化合物。支架化肽文库及其化合物可以具有与感兴趣的基础蛋白支架(例如，图1-34的蛋白质)相似的结构基序。这种结构基序可以作为特定的二级和三级结构元件(例如α螺旋、β折叠、混合的α和β，以及单体、二聚体、三聚体)或者作为可比较的氨基酸残基的一级序列来进行表征和结构上的比较。感兴趣的支架结构域的结构基序示于图1-30中。可在本文中用作支架结构域的感兴趣的支架结构域的氨基酸序列(例如图1-30的序列和图31-34的支架1-70的序列)还可以在蛋白质数据银行数据库(ProteinDataBankdatabase(www.rcsb.org))或NCBI的蛋白质数据库中找到。感兴趣的支架结构域序列包括在图1-34中描述的那些感兴趣的蛋白，感兴趣的这些蛋白的相关家族成员的天然蛋白质序列，包含有限数目的(例如，10个或更少，例如1、2、3、4、5、6、7、8、9或10个不对结构基序产生不利影响的残基修饰)预先存在的氨基酸序列修饰(例如添加、缺失和/或替换)的这些感兴趣的蛋白的经修饰序列，或其片段，或其类似物。支架结构域可以是L-肽、D-肽或者L-和D-氨基酸残基的混合物。

在一些实例中，所述文库是噬菌体展示文库，其可针对与任何合适靶标(例如L-靶蛋白和D-靶蛋白)的结合被筛选。在另一些实例中，所述文库由D-肽化合物(例如化学合成的化合物)构成。这种D-肽化合物可以针对与任何合适靶标(例如L-蛋白质靶标)的结合被筛选。

在一些情况下，“支架结构域”被称为“亲本氨基酸序列”。本文所用属于“亲本氨基酸序列”、“亲本支架”和“亲本多肽”指的是这样的多肽，其包含由其产生变体肽化合物并将变体肽化合物针对其进行比较的氨基酸序列。在一些情况下，亲本多肽中不存在本文公开的一种或更多种修饰，并且在于本文公开的变体肽化合物比较时在功能上有差异。亲本多肽可以包含天然蛋白质序列或具有预先存在的氨基酸序列修饰(例如添加、缺失和/或替换)的其他支架序列。

支架结构域可以是包含天然存在或合成的感兴趣的亲本支架的结构基序的任何合适多肽或其片段。感兴趣的支架结构域包括：DiGeorge综合征关键区域8(DGCR8)二聚体化结构域；Get5C-末端结构域；来自E.coli的H-NS结构域；KorBc-末端二聚体化结构域；Lsr2二聚体化结构域；PKA-RIα二聚体化/停靠结构域(牛)；p62的UBA结构域；SpoVT的N-末端结构域；胶原XI三聚体化结构域；Symfoil4P三聚体(被称为β-三叶肽)；RNA聚合酶α亚基的C-末端结构域；EphA2SAM结构域；高尔基体蛋白245的GRIP结构域；SpoOB-螺旋发夹结构域；Ku的C-末端结构域；Cue2蛋白的CUE结构域；DNA解旋酶RuvA结构域；蛋白G的GA结构域；Hirustasin；凝血调节蛋白(EGF型结构域)；凝集因子VIIa；PEM-1样蛋白；成束蛋白-2；CD46细胞外结构域；核苷酸交换因子C-末端结构域；TDRD3的Tudor结构域；转录抗终止蛋白NusG；CCL2趋化因子；与ThiF复合的ThiS蛋白；胰凝乳蛋白酶抑制子；羧肽酶抑制子；CD2bp2的GYF结构域；Cdk调节亚基1；CN2毒素；CHD4–PHD指结构域；GATA型锌指；Leech衍生类胰蛋白酶抑制子；RhodninKazal抑制子；MHCII型p41片段；抗TRAP；TNF受体17(BCMA)；NZF锌指结构域；Amaranthα淀粉酶抑制子；Sac7d(Nanofitins)；APPIKunitz结构域；FynSH3结构域(Fynomers)；E3泛素蛋白连接酶UBR5；DNA修复核酸内切酶XPF；链B:rad23hom.B,xpcb结构域；链B:dsk2-uba结构域；链C:LEM结构域/伊默菌素；链A:蛋白YBL047CUBA结构域；链A/B:PKA停靠/二聚体化结构域；链C:GspC；链A:噬菌体IF1附接蛋白G3P；链A:cd2apsh3；链B:微线蛋白6,EGF-样结构域；链B:大肠杆菌素-A；链B:玉红氧还蛋白2；链E:LDLR的EGF结构域；链I:工程化蛋白酶抑制子,SGPI支架；链B:工程化hcksh3；N-末端片段:NTL9；植物甜蛋白(Brazzein)；胰岛素生长因子结合蛋白(IGFBP)；火鸡卵类粘蛋白,第三结构域(OMTKY3)；粘霉素A1；染色盒蛋白同系物5；绒毛蛋白头部亚结构域,蛋白Z结构域；及其对映异构体；及其片段；及其模拟物。

在一些实施方案中，支架化肽文库包括图31-32中1-70号支架之一作为支架结构域。在某些实施方案中，支架化肽文库包括图33-34中第1、2、3、4、5、10、12、13、14、15、16、18、22、23、25、27、29、32、38、40、41、46、47、48、49、51、55和70号支架之一作为支架结构域。

在某些实施方案中，支架结构域包含与图1-34的序列之一所示的相应氨基酸序列有60％或更高氨基酸序列同一性，例如70％或更高、80％或更高、85％或更高、90％或更高、95％或更高或者98％或更高氨基酸序列同一性的基础序列(例如固定氨基酸残基的共有序列)。相比于天然亲本蛋白质序列，支架结构域序列可以包括1个或更多个，例如2个或更多个、3个或更多个、4个或更多个、5个或更多个、10个或更多个、15个或更多个或甚至20或更多个额外肽残基，例如以N-末端或C-末端延伸序列的形式或者以插入突变的形式。在一些情况下，在支架结构域序列中包括30个或更少的额外肽残基，例如1-20个残基、2-10个残基或甚至2-5个额外肽残基。或者，与天然亲本多肽序列相比，支架结构域序列可以例如通过在N-末端和/或C-末端具有缺失或者在不对结构基序产生不利影响的序列位置处的修饰包括更少(例如1、2、3、4、5、6、7、8、9或10个甚至更少残基)的肽残基。

支架结构域中的突变可以在任何合适位置处包含氨基酸残基的缺失、插入或替换，以产生不同于参照支架结构域序列的序列。本文所用术语“突变”是相对于参照序列或基序(例如支架序列或基序)的氨基酸残基或核苷酸残基的缺失、插入或替换。

本文所用术语“可变区域”指的是包含一个或更多个变体氨基酸的残基的连续序列。可变区域还可以包含固定位置处的一个或更多个保守氨基酸。本文所用术语“固定区域”指的是不包含任何突变或变体氨基酸的残基的连续序列，并且其在化合物文库中是保守的。

本文所用术语“可变结构域”指的是包含所有特定支架的所有变体氨基酸的结构域。可变结构域可以包括一个或更多个可变区域，并且可以涵盖连续或不连续的残基序列。可变结构域可以为支架结构域的一部分。

在一些实施方案中，可变结构域位于能够参与蛋白质-蛋白质相互作用的支架结构域的一个表面。本文所用术语“蛋白质-蛋白质相互作用区域”指的是形成能够参与蛋白质-蛋白质相互作用的连续表面的支架结构域的区域。在一些实例中，连续表面具有约500或更大平方埃的表面积。在某些实例中，所述“蛋白质-蛋白质相互作用区域”位于在天然支架蛋白质复合体中与蛋白配体接触的支架结构域的区域。

本文所用术语“核心突变”指的是位于结构中残基侧链不暴露于溶剂且是结构疏水核心的一部分的位置处的肽化合物的氨基酸突变。在一些情况下，这种残基可以被称为“埋住”的残基。肽化合物疏水核心的氨基酸残基并不显著地暴露于溶剂而是倾向于形成分子内疏水接触。本文所用术语“非核心突变”指的是位于结构中并非结构的疏水核心的一部分的位置处的肽化合物的氨基酸突变。在一些实例中，“表面突变”和“边界突变”为“非核心突变”。

本文所用术语“表面突变”指的是位于支架结构中暴露于溶剂的位置处的感兴趣的支架中的氨基酸突变。这种位于肽化合物的表面位置的变体氨基酸残基能够与靶分子直接相互作用，无论这种相互作用是否发生。

本文所用术语“边界突变”值得是位于支架结构中疏水核心与暴露于溶剂的表面之间的边界位置处的感兴趣的支架的氨基酸突变。这种肽化合物的边界位置处的变体氨基酸残基可以部分接触疏水核心残基和/或部分暴露于溶剂并且能够与靶分子有一些相互作用，无论这种相互作用是否存在。在一些情况下，这种残基可以被称为“部分埋住”的残基。描述肽结构的核心、表面和边界残基的一个标准描述于Mayo等，NatureStructuralBiology,5(6),1998,470-475。可以改变这种方法和标准以用于感兴趣的支架结构域。

感兴趣的蛋白质支架的任何合适位置可以被选择用于任何合适数目的突变(例如1、2、3、4、5或更多突变)。突变可以是非核心突变或核心突变，或者其混合。非核心突变可以包括表面突变和/或边界突变。在一些情况下，5个或更多个突变是非核心突变。在某些情况下，5个或更多个突变是表面突变。在一些实施方案中，感兴趣的支架结构域(例如，本文所述的)包括位于图1-34所述的5个或更多个位置处的5个或更多个突变。在图1-34中，在多种感兴趣的支架结构域中示出(例如以红色、蓝色、橘色、黄色和洋红色)多个感兴趣的变体氨基酸的序列和结构位置。可以在所示变体氨基酸位置的任何合适5个或更多个处引入5个或更多个突变。

在一些情况下，主题文库的每个化合物包含5个或更多个不同的非核心突变。在某些情况下，主题文库的每个化合物还包含一个或更多个(例如1、2、3、4、5或甚至更多个)核心位置处的突变。在一些情况下，这种核心突变可以被包括以补偿对结构基序稳定性的破坏。

在一些实例中，主题文库每个化合物包括在例如选自图1-34的支架化文库中所示位置的位置处的5个或更多个突变，例如6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个突变。在某些实例中，主题文库的每个化合物包括在例如选自图1-34的支架化文库中所示位置的位置处的5个或更多个突变，例如5、6、7、8、9、10、11、12、13、14、15、16、16、18个突变。在某些情况下，所述5个或更多个突变为非核心突变。在一些实例中，所述5个或更多个突变是表面突变。在另一些实例中，所述5个或更多个突变中的1个或更多个(例如1、2、3、4或5个)为核心突变。

主题文库可以包括图31-32所示任意支架。对于任何这些支架，突变可以选择在任何合适位置。在一些情况下，感兴趣的突变选自图31-32的黑或灰框中所示的那些突变。在一些情况下，感兴趣的突变选自图33-34中的黑或灰框中所示的那些突变。在一些情况下，在主题文库中包括所有所示突变。在某些情况下，主题文库中包括5个或更多个(例如6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个)所示突变。在某些情况下，主题文库包括8个或更多个所示突变。在某些情况下，主题文库包括10个或更多个所示突变。

在一些实施方案中，所述文库包括支架SCF2,DGCR8(DiGeorge综合征关键区域8)二聚体化结构域。在某些实施方案中，SCF2文库包括来自图1所示那些突变的5个或更多个突变。在某些实施方案中，SCF2文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF2文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF3,Get5C-末端结构域。在某些实施方案中，SCF3文库包括来自图2所示那些突变的5个或更多个突变。在某些实施方案中，SCF3文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF3文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF4,来自E.coli的H-NS结构域。在某些实施方案中，SCF4文库包括来自图3所示那些突变的5个或更多个突变。在某些实施方案中，SCF4文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF4文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF7,KorBc-末端二聚体化结构域。在某些实施方案中，SCF7文库包括来自图4所示那些突变的5个或更多个突变。在某些实施方案中，SCF7文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF7文库包括来自图33-34所示那些突变的5个或更多个突变。在某些实例中，SCF7文库包括选自H13、Y36和F43位的一个或更多个(例如，1、2或3个)突变。在一些情况下，H13、Y36和/或F43残基突变为疏水残基(例如Y、F、L和H)。

在一些实施方案中，所述文库包括支架SCF8,Lsr2二聚体化结构域。在一些实例中，所述支架的头6个残基可以被截短。在某些实施方案中，SCF8文库包括来自图5所示那些突变的5个或更多个突变。在某些实施方案中，SCF8文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF8文库包括来自图33-34所示那些突变的5个或更多个突变。在某些实例中，SCF8文库包括F10位的突变。在一些情况下，F10残基突变为疏水残基(例如Y、F、L和H)。

在一些实施方案中，所述文库包括支架SCF15,Symfoil4P三聚体(被称为β-三叶肽)。在某些实施方案中，SCF15文库包括来自图6所示那些突变的5个或更多个突变。在某些实施方案中，SCF15文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF15文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF23,EphA2SAM结构域。在某些实施方案中，SCF23文库包括来自图7所示那些突变的5个或更多个突变。在某些实施方案中，SCF23文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF23文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF24,高尔基体245的GRIP结构域。在某些实施方案中，SCF24文库包括来自图8(例如SCF24-1)或图9(例如SCF24-2)所示那些突变的5个或更多个突变。在某些实施方案中，SCF24-1文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF24-1文库包括来自图33-34所示那些突变的5个或更多个突变。在某些实施方案中，SCF24-2文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF24-2文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF27,SpoOB-螺旋发夹结构域。在某些实施方案中，SCF27文库包括来自图10所示那些突变的5个或更多个突变。在某些实施方案中，SCF27文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF27文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF28,Ku的C-末端结构域。在某些实施方案中，SCF28文库包括来自图11所示那些突变的5个或更多个突变。在某些实施方案中，SCF28文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF28文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF29,Cue2蛋白的CUE结构域。在某些实施方案中，SCF29文库包括来自图12所示那些突变的5个或更多个突变。在某些实施方案中，SCF29文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF29文库包括来自图33-34所示那些突变的5个或更多个突变。在某些实例中，SCF29文库包括I10位的突变。在一些情况下，I10残基突变为疏水残基(例如Y、I、L和V)。

在一些实施方案中，所述文库包括支架SCF32,蛋白G的GA结构域。在某些实施方案中，SCF32文库包括来自图13所示那些突变的5个或更多个突变。在某些实施方案中，SCF32文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF32文库包括来自图33-34所示那些突变的5个或更多个突变。

图1-30中所述的任何文库可以被描述为包括图35中列出的标号位置(其对应于图1-30的序列)处的一个或更多个突变。每种文库可以包含任意5个或更多个图35中列出的标号位置的混合突变。例如，在某些实例中，SCF32文库包含第25、27、28、31、34、36、37、39、40、43和44位的5个或更多个突变。例如，在某些实例中，SCF32文库包含第25、27、28、31、34、36、37、39、40、43和44位的8个或更多个突变。例如，在某些实例中，SCF32文库包含第25、27、28、31、34、36、37、39、40、43和44位的10个或更多个突变。例如，在某些实例中，SCF32文库包含所有第25、27、28、31、34、36、37、39、40、43和44位的突变。在某些实例中，SCF32文库包含在第25、27、28、31和34位的突变。在某些实例中，SCF32文库包含在第39、40、43、44和47位的突变。在某些实例中，SCF32文库包含在第31、34、36、37和39位的突变。

在一些实施方案中，所述文库包括支架SCF37,PEM-1样蛋白。在某些实施方案中，SCF37文库包括来自图14所示那些突变的5个或更多个突变。在某些实施方案中，SCF37文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF37文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF38,成束蛋白-2。在某些实施方案中，SCF38文库包括来自图15所示那些突变的5个或更多个突变。在某些实施方案中，SCF38文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF38文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF40,核苷酸交换因子C-末端结构域。在某些实施方案中，SCF40文库包括来自图16所示那些突变的5个或更多个突变。在某些实施方案中，SCF40文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF40文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF42,转录抗终止蛋白NusG。在某些实施方案中，SCF42文库包括来自图17所示那些突变的5个或更多个突变。在某些实施方案中，SCF42文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF42文库包括来自图33-34所示那些突变的5个或更多个突变。在某些实例中，SCF42文库包括F19位的突变。在一些情况下，F19残基突变为疏水残基(例如Y、F、L和H)。在一些情况下，F19残基突变为疏水残基(例如Y和F)。

在一些实施方案中，所述文库包括支架SCF44,与ThiF复合的ThiF蛋白。在某些实施方案中，SCF44文库包括来自图18所示那些突变的5个或更多个突变。在某些实施方案中，SCF44文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF44文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF47,CD2bp2的GYF结构域。在某些实施方案中，SCF47文库包括来自图19所示那些突变的5个或更多个突变。在某些实施方案中，SCF47文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF47文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF53,RhodninKazal抑制子。在某些实施方案中，SCF53文库包括来自图20所示那些突变的5个或更多个突变。在某些实施方案中，SCF53文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF53文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF55,抗-TRAP。在某些实施方案中，SCF55文库包括来自图21所示那些突变的5个或更多个突变。在某些实施方案中，SCF55文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF55文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF56,TNF受体17(BCMA)。在某些实施方案中，SCF56文库包括来自图22(例如亚文库1)或图23(例如亚文库2)所示那些突变的5个或更多个突变。在某些实施方案中，SCF56文库是SCF56-1且包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF56文库是SCF56-1且包括来自图33-34所示那些突变的5个或更多个突变。在某些实施方案中，SCF56文库是SCF56-2且包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF56文库是SCF56-2且包括来自图33-34所示那些突变的5个或更多个突变。在某些实例中，SCF56-1文库包括选自Y6和I15位的一个或更多个(例如1或2个)突变。在一些情况下，Y6和/或I15位残基突变为疏水残基(例如F、I、L或V)。

在一些实施方案中，所述文库包括支架SCF63,FynSH3结构域(Fynomers)。在某些实施方案中，SCF63文库包括来自图24所示那些突变的5个或更多个突变。在某些实施方案中，SCF63文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF63文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF64,泛素蛋白连接酶UBR5。在某些实施方案中，SCF64文库包括来自图25所示那些突变的5个或更多个突变。在某些实施方案中，SCF64文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF64文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF65,DNA修复核酸内切酶XPF。在某些实施方案中，SCF65文库包括来自图26所示那些突变的5个或更多个突变。在某些实施方案中，SCF65文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF65文库包括来自图33-34所示那些突变的5个或更多个突变。在某些实例中，SCF65文库包括选自M9和I55位的一个或更多个(例如1或2个)突变。在一些情况下，M9和/或I55残基突变为包括疏水残基(例如F、I、L、M或V)。在一些情况下，M9残基突变为包括F、I、L和M。在一些情况下，I55残基突变为包括F、I、L和V。

在一些实施方案中，所述文库包括支架SCF66,Rad23同系物B，xpcb结构域。在某些实施方案中，SCF66文库包括来自图27所示那些突变的5个或更多个突变。在某些实施方案中，SCF66文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF66文库包括来自图33-34所示那些突变的5个或更多个突变。在某些实例中，SCF56-1文库包括M16位的突变。在一些情况下，M16残基突变为包括疏水残基(例如F、I、L和M)。

在一些实施方案中，所述文库包括支架SCF70,伊默菌素的LEM结构域。在某些实施方案中，SCF70文库包括来自图28所示那些突变的5个或更多个突变。在某些实施方案中，SCF70文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF70文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF75,GspC。在某些实施方案中，SCF75文库包括来自图29所示那些突变的5个或更多个突变。在某些实施方案中，SCF75文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF75文库包括来自图33-34所示那些突变的5个或更多个突变。

在一些实施方案中，所述文库包括支架SCF95,蛋白Z。在某些实施方案中，SCF95文库包括来自图30所示那些突变的5个或更多个突变。在某些实施方案中，SCF95文库包括来自图31-32所示那些突变的5个或更多个突变。在某些实施方案中，SCF95文库包括来自图33-34所示那些突变的5个或更多个突变。

对于上述以及在图1-30中示出的任何文库，感兴趣的文库可以包括图中示出的6个或更多个突变。对于上述以及在图1-30中示出的任何文库，感兴趣的文库可以包括图中示出的7个或更多个突变。对于上述以及在图1-30中示出的任何文库，感兴趣的文库可以包括图中示出的8个或更多个突变。对于上述以及在图1-30中示出的任何文库，感兴趣的文库可以包括图中示出的9个或更多个突变。对于上述以及在图1-30中示出的任何文库，感兴趣的文库可以包括图中示出的10个或更多个突变。对于上述以及在图1-30中示出的任何文库，感兴趣的文库可以包括图中示出的11个或更多个突变。对于上述以及在图1-30中示出的任何文库，感兴趣的文库可以包括图中示出的12个或更多个突变。对于上述以及在图1-30中示出的任何文库，感兴趣的文库可以包括图中示出的所有突变。图35包括对应于图1-30的文库的感兴趣的突变位点编号的编辑表。

主题文库的多样性被设计为将多样性最大化同时将对感兴趣的支架结构域的结构干扰最小化。待突变的位置被选择为确保主题文库的肽化合物能够在生理条件下保持折叠状态。在主题文库中产生多样性的另一方面是选择待被突变的氨基酸位置以使氨基酸可以形成支架结构域中的潜在结合表面，无论残基是否实际接触靶蛋白。可以使用任何合适的方法来确定氨基酸位置是否是潜在结合表面的一部分。

可以在感兴趣的支架结构域中氨基酸残基至少部分暴露于溶剂的位置存在突变。暴露于溶剂的位置可以使用适于蛋白质建模的软件和从晶体结构获得的三维结构信息来确定。感兴趣的支架结构域的突变可以集中在支架结构域的几个不同潜在结合表面之一中。在一些实例中，大多数突变在感兴趣的支架结构域的非核心位置(例如暴露于溶剂或在边界位置)，然而在一些情况下，一个或更多个突变可以位于疏水核心位置。在某些实施方案中，可以承受疏水核心位置的突变而不显著破坏支架结构基序或支架结构。

在某些实施方案中，还可以耐受边界位置的突变而不显著破坏感兴趣的支架结构。在这种位置的突变可以赋予所得的肽化合物变体期望的特性，例如稳定性，某结构特性或与靶分子的特异性结合。

可以通过参照结构基序或区域或者通过参照支架结构域的一级序列的位置编号来在本文中描述感兴趣的支架结构域中的突变的位置。图1-34示出了相对于本发明某些文库的突变的支架结构域位置编号图的比对。可以使用任何合适的序列比对方法将合适的替代性支架结构域序列替换蛋白质家族中的已有支架序列，限定主题文库的突变位置可以从一个支架转移到另一个。基于结构基序例如β-链和α-螺旋比对方法也可用于将替代性支架结构域序列置于图1-34所示感兴趣的支架之一的位置编号图的框架中。

主题文库的多样性的另一方面是文库的大小，即文库中不同化合物的数目。在一些实施方案中，主题文库包含5种或更多种不同化合物(例如具有不同氨基酸序列)，例如10种或更多种、20种或更多种、50种或更多种、100种或更多种、300种或更多种、1x10³种或更多种、1x10⁴种或更多种、1x10⁵种或更多种、1x10⁶种或更多种、1x10⁷种或更多种、1x10⁸种或更多种、1x10⁹种或更多种、1x10¹⁰种或更多种、1x10¹¹种或更多种或者1x10¹²种或更多种不同的化合物。在某些实施方案中，主题文库包含约50至约1x10⁵种不同化合物，例如约50至约1x10⁴种、约50至约1x10³种、约50至约300种不同化合物。在某些实施方案中，主题文库包含约1x10³至约1x10¹²种不同化合物，例如约1x10⁴至约1x10¹²种、约1x10⁵至约1x10¹²种、约1x10⁶至约1x10¹²种、约1x10⁷至约1x10¹²种、约1x10⁸至约1x10¹²种、约1x10⁹至约1x10¹²种、约1x10¹⁰至约1x10¹²种不同化合物。在某些实施方案中，主题文库是具有1x10³至1x10¹²不同化合物的理论多样性的噬菌体展示文库。

主题文库的化合物的肽序列可以是任何合适长度。肽序列的长度可以通过支架结构域自身的长度限定(例如涵盖支架的结构基序的最小共有序列)，即使文库化合物的核心肽序列是更长序列的一部分(例如与噬菌体外壳蛋白融合或与N或C末端肽标签缀合)。在某些实施方案中，主题文库的每个化合物包含25至150个残基，例如25至120个残基、25至100个残基、25至90个残基、25至80个残基、25至70个残基、25至60个残基、25至50个残基、30至120个残基、30至100个残基、30至90个残基、30至80个残基、30至70个残基、30至60个残基、30至50个残基、50至150个残基、50至120个残基、50至100个残基、50至90个残基、50至80个残基、40至70个残基、40至60个残基、60至100个残基、70至100个残基、100至150个残基的肽序列。应理解，主题文库的每个成员中包含残基的数目可以根据基础支架、延伸序列、所包含的突变等而变化。

在某些实施方案中，主题文库的每个化合物包含支架结构域和可变结构域。可变结构域可以是支架结构域的一部分并且可以是连续或不连续的残基序列。由不连续的残基序列限定的可变结构域可以包括在化合物的结构中相对于彼此在空间上接近排布的位置处的连续变体氨基酸。可变结构域可以形成化合物的潜在结合界面。可变结构域可以限定用于形成蛋白质-蛋白质相互作用的合适大小的结合表面积。可变结构域可以包括500至1800例如约500至约1600约500至约1400约500至约1200约500至约1000约500至约800约500至约700约600至约1600约600至约1400约600至约1200约600至约1000约600至约800约800至约1600约800至约1400约800至约1200约800至约1000约1000至约1600约1000至约1400约1000至约1200的表面积。应理解，可变结构域的表面积根据多种因素(例如所选的支架、蛋白质-蛋白质相互作用面、突变数等)而改变。在一些实施方案中，文库成员包含位于支架结构域的蛋白质-蛋白质相互作用区域中的5个或更多个不同突变(例如核心或非核心突变，如本文所述)。

在一些实例中，所述文库包含位于蛋白质-蛋白质相互作用区域的包含约500至约1800的表面积的可变结构域。

任何一个主题文库的成员的单独序列可以如下测定。本文所述任何支架(例如图1-34的支架)可以被选择作为主题文库的支架。感兴趣的支架结构域中的突变位置可以如本文所述选择，例如如图1-34所示。每个变体氨基酸位置的突变的性质可以被选择，例如用任何天然存在的氨基酸替换，或用提供生理化学特性(例如疏水性、亲水性、大小、溶解度)的合理多样性的有限数目的典型氨基酸替换。某些变体氨基酸位置可以被选择为突变可以包括氨基酸的插入或缺失的位置，例如插入1或2个氨基酸，其中变体氨基酸位置存在于支架的环或转角区域。在某些实施方案中，突变可以包括一个或更多个位置处的氨基酸插入(例如如图1-34所述的突变)。在选择支架后，可以确定变体氨基酸位置的选择，每个位置突变性质的选择，文库中成员的各个序列。

在一些实施方案中，2个或更多个，例如3个或更多个、4个或更多个、5个或更多个、10个或更多个、20个或更多个，多达所有的主题文库可以被组合以产生更大的文库。可以选择任何2个或更多个合适的支架文库以包含入组合文库。

在一些实施方案中，主题文库在文库的肽化合物具有两个潜在结合表面的意义上是双功能的。可以筛选这种文库以鉴定具有对两种靶分子的特异性结合特性的化合物。在某些实施方案中，所述化合物可以包含对第一靶分子的第一潜在结合表面以及对第二靶分子的第二潜在结合表面。在某些实施方案中，第二潜在结合表面是支架对第二靶分子的固有结合表面。可以将变体氨基酸引入支架的第二潜在结合表面的位置处(例如使用本文所述的方法)以筛选与第二靶分子的期望结合特性。在某些实施方案中，第一靶分子是治疗性靶蛋白，第二靶分子是能够在募集后调节肽化合物的药物动力学特性(例如体内半衰期)的內源蛋白或受体(例如IgG、FcRn或血清白蛋白)。在一些实施方案中，可以选择任何适合的內源蛋白靶标作为待筛选的靶标之一。在某些实施方案中，文库的化合物包含对同一靶分子的两个潜在结合表面，其中可以通过亲和作用调节化合物的整体结合亲和力。

在一些实施方案中，感兴趣的支架结构域的固有结合特性被用于提供主题双功能文库的一个潜在结合表面。在某些实施方案中，所述双功能文库包含具有特异性结合內源人蛋白的第二结合表面的化合物。

可以使用潜在结合表面的任何合适组合来产生主题双功能文库。在一些情况下，双功能文库的两个潜在结合表面被选择为使得第一和第二靶分子之间的潜在空间相互作用最小化，例如，通过将靶标结合在支架的相对侧。主题双功能文库可以包含在文库的每个潜在结合表面上的一个或更多个可变结构域。在一些实施方案中，主题双功能文库在第一表面的可变结构域中包含3个或更多个突变，例如4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、10个或更多个、12个或更多个、14个或更多个，以及在第二表面的可变结构域中包含3个或更多个突变，例如4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、10个或更多个、12个或更多个、14个或更多个。可以选择可变结构域中的任何合适突变。

可以使用多种策略针对与第一和第二靶分子的特异性结合筛选主题的双功能文库。例如，可以使用同时筛选、连续筛选或汇聚筛选策略来针对于第一和第二靶分子的结合筛选所述文库。在一些实施方案中，同时针对第一和第二靶标分别与第一和第二表面的结合筛选所述双功能文库。在一些实施方案中，针对第一靶标与第一表面的结合筛选第一文库，以产生基于与第一靶标结合的支架的第二代文库。在某些实施方案中，第一靶蛋白与第一表面的这种结合是支架中固有的，并且不需要筛选，尽管可以进行与第一靶标结合的亲和力成熟最优化。然后，针对第二靶标与第二表面的结合筛选基于与第一靶标的结合的支架的第二代文库。在一些实施方案中，使用汇聚筛选策略，其中针对与第一靶标的结合筛选第一文库，并且针对与第二靶标的结合筛选第二文库。使用这些筛选的结果，然后将第一和第二结合表面整合至同一支架以产生双功能肽化合物。可以通过亲和力成熟最优化这种双功能化合物和文库。

还提供了亲和力成熟文库，例如基于与某靶分子结合的亲本肽化合物的第二代支架化肽文库，可以筛选所述文库以最优化结合亲和力和特异性或任何期望特性，例如蛋白质折叠、蛋白酶稳定性、热稳定性、与药物制剂的相容性等等。

在一些实施方案中，亲和力成熟文库是可以针对与D-靶标或L-靶标蛋白的结合进行筛选的噬菌体展示文库。在另一些实施方案中，亲和力成熟文库是化学合成化合物的D-肽文库。可以针对与L-靶蛋白的结合筛选这种D-肽文库。在某些实施方案中，所述D-肽文库具有对应于L-肽化合物的序列的支架结构域，所述L-肽化合物通过针对与D-靶蛋白的结合筛选L-肽噬菌体展示文库鉴定。

在一些实施方案中，亲和力成熟文库是本文所述的支架化肽文库，除了一部分变体氨基酸位置被保持为固定位置而剩余的变体氨基酸位置限定新文库。限定所述亲和力成熟文库的这些变体氨基酸的突变可以包括所有20种天然存在的氨基酸的替换。被保持为固定的变体氨基酸成为新的支架结构域的一部分。在某些实施方案中，所述亲和力成熟文库是本文所述的支架化肽文库，其中70％或更多的变体氨基酸例如75％或更多、80％或更多或85％或更多被保持为固定。在某些实施方案中，所述亲和力成熟文库是本文所述的支架化肽文库，其中8个或更多的变体氨基酸例如9个或更多、10个或更多、11个或更多或12个或更多被保持为固定。在一些情况下，亲和力成熟文库包括6个或更少例如5个或更少、4个或更少或3个或更少的变体氨基酸。在某些实施方案中，所述亲和力成熟文库包括4个剩余的变体氨基酸。在某些实施方案中，所述剩余的变体氨基酸是连续的。在某些实施方案中，所述剩余的变体氨基酸在感兴趣的支架结构域中形成残基的连续序列。在某些实施方案中，所述亲和力成熟文库基于图1-34所述的支架化肽文库之一，其中一部分变体氨基酸位置被保持为固定位置而剩余的变体氨基酸位置限定新文库。

在一些实例中，可以选择这样的肽化合物作为亲和力成熟文库的支架，所述肽化合物在针对与某靶分子的结合初步筛选主题支架化肽文库后被鉴定。可以使用亲和力成熟的任何合适方法。在一些情况下，制备在有限亚组的可能变体位置处(例如，在12或更多个可变位置中突变4个位置)包含突变而剩余的变体位置被保持为固定位置的多种亲和力成熟文库。突变位置可以在支架序列上平铺(tiled)以产生一系列文库，从而每个变体位置均被示出并且每个位置替换为多样化范围的氨基酸(例如全部20种天然存在的氨基酸)。也可以在所述亲和力成熟文库的变体位置中包含包括一个或更多个氨基酸的缺失或插入的突变。可以使用任何合适方法制备和筛选亲和力成熟文库，例如噬菌体展示文库，以鉴定具有改进特性的文库成员，所述改进特性例如对靶分子增强的结合亲和力、蛋白质折叠、蛋白酶稳定性、热稳定性、与药物制剂的相容性等等。

在一些实施方案中，在亲和力成熟文库中，亲本肽化合物可变区域中大部分或所有的变体氨基酸位置被保持为固定位置，并且在这些可变区域附近的位置引入连续突变。可以在亲本肽化合物的这样的位置引入这种突变，所述位置之前在原始亲本支架结构域中被认为是固定位置。可以使用这种突变来最优化肽化合物变体的任何期望特性，例如蛋白质折叠、蛋白酶稳定性、热稳定性、与药物制剂的相容性等等。

包含感兴趣的肽化合物的融合多肽可以以多种形式和多价形式展示在细胞或病毒的表面上。在一个实施方案中，使用二价部分(例如来自Fab模板的铰链和二聚体化序列，抗-MBP(麦芽糖结合蛋白)Fab支架)来将肽化合物变体展示在噬菌体颗粒的表面上。任选地，可以将编码用于纯化或检测的多肽标签(例如FLAG标签)的其他序列融合在编码感兴趣的肽化合物的核酸序列的3’末端。

多核苷酸文库

还提供了编码上述肽化合物文库的多核苷酸文库。在一些实施方案中，文库的每个多核苷酸编码在支架结构域区域中非核心位置包含3个或更多个，例如4个或更多个或者5个或更多个突变的不同肽化合物。

在一些实施方案中，文库的每个多核苷酸编码包含20个或更多个，例如30个或更多个、40个或更多个、50个或更多个、60个或更多个、70个或更多个、80个或更多个、90个或更多个或甚至100个或更多个氨基酸的肽化合物。在一些实施方案中，文库的每个多核苷酸编码包含150个或更少，例如120个或更少、100个或更少、80个或更少、60个或更少、50个或更少、40个或更少氨基酸残基的肽化合物。在某些实施方案中，文库的每个多核苷酸编码包含20-150个氨基酸残基，例如20-40、20-50、30-60、40-60、40-50、50-60、60-90、60-100或100-150个氨基酸的肽化合物。应理解，在主题文库的每个成员中包含的残基数目可以根据基础支架、延伸序列、所含突变等等而变化。在一些实施方案中，文库的每个多核苷酸编码这样的肽化合物，其中所述化合物包含非核心位置处的3个或更多个变体氨基酸，并且其中每个变体氨基酸由随机密码子编码。在某些实施方案中个，所述随机密码子选自：B1(HT)(例如如本文所述)、WTK(例如如本文所述)、NTT(例如如本文所述)、TWT(例如如本文所述),NNK(其中N＝A、G、C和T,以及K＝G和T)以及KHT(其中K＝G和T,以及H＝A、C和T)。

在某些实施方案中，多核苷酸的主题文库是包含编码基因融合物的核酸序列的可复制表达载体的文库，其中所述基因融合物编码包含与所有或部分病毒外壳蛋白融合的感兴趣的肽化合物的融合蛋白。还包括含有多种基因融合物的多样性可复制表达载体的文库，所述基因融合物编码多种不同的融合蛋白，所述融合蛋白包含用上述多样性序列产生的多种可变结构域。所述载体可以包含多种组分并且可以被构建成允许感兴趣的支架结构域在不同的载体之间移动和/或提供不同形式的融合蛋白展示。载体的实例包括噬菌体载体和核糖体展示载体。噬菌体载体具有允许噬菌体复制和噬菌体颗粒形成的噬菌体复制起点。在某些实施方案中，噬菌体是丝状细菌噬菌体，例如M13、f1、fd、Pf3噬菌体或其衍生物，或λ形噬菌体，例如λ、21,phi80、phi81、82、424、434等等或其衍生物。

可以使用任何合适的展示方法来展示由多核苷酸的主题文库编码的肽化合物，例如基于细胞的展示技术和无细胞的展示技术。在某些实施方案中，基于细胞的展示技术包括噬菌体展示、细菌展示、酵母展示和哺乳动物细胞展示。在某些实施方案中，无细胞展示技术包括mRNA展示盒核糖体展示。

在某些实施方案中，多核苷酸的文库是编码50种或更多种不同肽化合物，例如100种或更多种、300种或更多种、1x10³种或更多种、1x10⁴种或更多种、1x10⁵种或更多种、1x10⁶种或更多种、1x10⁷种或更多种、1x10⁸种或更多种、1x10⁹种或更多种、1x10¹⁰种或更多种、1x10¹¹种或更多种或者1x10¹²种或更多种不同化合物的文库，其中文库的每个多核苷酸编码包含3个或更多个，例如4个或更多个或者5个或更多个不同非核心突变的感兴趣的肽化合物。在某些实施方案中，多核苷酸的文库是可复制表达载体的文库。

在一些实施方案中，文库的每个多核苷酸编码包含在非核心位置的5个或更多个(例如5、6、7、8、9、10、11、12、13、14、15、16、17或18个)变体氨基酸的肽化合物，其中每个变体氨基酸由随机密码子编码，在某些实施方案中，所述随机密码子选自(B1)HT、WTK、NNT、TWT、NNK和KHT。在一些情况下，所述密码子是(B1)HT。

噬菌体展示文库

主题文库可以使用任何合适方法(例如用于制备肽化合物文库的方法，例如噬菌体展示方法)来制备。

在一些实施方案中，主题文库是噬菌体展示文库。噬菌体展示文库的一个应用是随机化蛋白质变体的大文库可用于快速和有效地分选与靶蛋白结合的那些序列。多肽文库在噬菌体上的展示可以用于筛选具有特异性结合特性的多肽。多价噬菌体展示方法可以通过与丝状噬菌体的基因III或基因VIII的融合物用于展示多肽。Wells和Lowman(1992)Curr.Opin.Struct.BiolB:355-362以及其中引用的参考文献。在单价噬菌体展示中，将多肽文库融合至基因III或其部分并在野生型基因III蛋白的存在下以低水平表达，从而噬菌体颗粒展示一拷贝的融合蛋白或者不展示融合蛋白。相对于多价噬菌体亲和作用被降低，从而分选基于固有的配体亲和力，以及使用噬菌粒载体，其简化了DNA操作。Lowman和Wells(1991)Methods:AcompaniontoMethodsinEnzymology3:205-216。在噬菌体展示中，噬菌体颗粒的表型(包括展示的多肽)对应于噬菌体颗粒内的基因型，由噬菌体外壳蛋白包封的DNA。

在一些实施方案中，感兴趣的主题文库的每个肽化合物与病毒外壳蛋白的至少一部分融合。病毒外壳蛋白的实例包括感染性蛋白PIII,主要外壳蛋白PVIII,p3,Soc,Hoc,gpD(细菌噬菌体λ的),主要细菌噬菌体外壳蛋白6(pVI)(丝状噬菌体；J.Immunol.Methods,1999,231(1-2):39-51),M13细菌噬菌体主要外壳蛋白的变体(P8)(ProteinSci2000April；9(4):647-54)。融合蛋白可以展示在噬菌体的表面，合适的噬菌体系统包括M13KO7辅助噬菌体,M13R408,M13-VCS,和PhiX174,pJuFo噬菌体系统(J.Virol.2001August；75(15):7107-13),超级噬菌体(Nat.Biotechnol.2001January；19(1):75-8)。在某些实施方案中，辅助噬菌体是M13KO7，外壳蛋白是M13噬菌体基因III外壳蛋白。在某些实施方案中，宿主是E.coli或E.coli的蛋白酶缺陷菌株。载体例如fth1载体(NucleicAcidsRes.2001May15；29(10):E50-0)可用于表达融合蛋白。

融合多肽的展示

可以使用任何合适的用于在细菌噬菌体的表面上展示融合多肽(包括支架化肽化合物)的方法。例如在专利公开号WO92/01047；WO92/20791；WO93/06213；WO93/11236和WO93/19172中描述的方法。

表达载体还可以具有与编码各支架化肽化合物的DNA融合的分泌信号序列。该序列可以紧邻编码融合蛋白的DNA的5’，并且从而将被转录在融合蛋白的氨基端。然而，在某些实例中，已证明信号序列位于除待分泌蛋白编码基因的5’之外的位置。该序列指导其连接的蛋白质穿过细菌细胞的内膜。编码信号序列的DNA可以从任何编码具有信号序列的蛋白的基因作为限制核酸内切酶片段获得。合适的原核信号序列可以获得自编码例如LamB或OmpF(Wong等,Gene,68:1931(1983)、MalE、PhoA和其他基因的基因。用于实施本发明的一个原核信号序列是由Chang等,Gene55:189(1987)描述的E.coli热稳定外毒素II(STII)信号序列和malE。在一些情况下，用于融合蛋白的分泌信号可以通过StII信号序列(secB途径)或TorA信号序列(TAT途径)达成(参见例如Muller等“EfficientphagedisplayofintracellularlyfoldedproteinsmediatedbytheTATpathway,”ProteinEngineering,Design&Selectionvol.24no.6pp.473–484,2011)。

载体还可以包含启动子以驱动融合蛋白的表达。在原核载体中最经常使用的启动子包括lacZ启动子系统、碱性磷酸酶phoA启动子、细菌噬菌体γ-_PL启动子(温度敏感型启动子)、tac启动子(由lac抑制子调控的杂合trp-lac启动子)、色氨酸启动子和细菌噬菌体T7启动子。尽管这些是最经常使用的启动子，也可以使用其他合适的微生物启动子。

所述载体还可以包括其他核酸序列，例如编码gD标签、c-Myc表位、FLAG标签、多组氨酸标签、荧光蛋白(例如GFP)或β-半乳糖苷酶蛋白的序列，它们可用于检测或纯化在噬菌体或细胞表面上表达的融合蛋白。编码例如gD标签的核酸序列还提供表达所述融合蛋白的细胞或病毒的阳性或阴性选择。在一些实施方案中，将gD标签融合至支架化肽化合物，其不与病毒外壳蛋白融合。编码例如聚组氨酸标签的核酸序列用于使用免疫组织化学鉴定包含与特定靶标结合的感兴趣的肽化合物的融合蛋白。用于检测靶标结合的标签可以融合至未融合病毒外壳蛋白的感兴趣的肽化合物或者融合至病毒外壳蛋白的感兴趣的肽化合物。

用于实施本发明的载体的另一有用组件是表型选择基因。所述表型选择基因是编码赋予宿主细胞抗生素抗性的蛋白的那些基因。例如，氨苄青霉素抗性基因(ampr)和四环素抗性基因(tetr)容易地用于该目的。

所述载体还可以包含含有独特限制位点和可抑制型终止密码子的核酸序列。独特的限制位点用于在不同载体和表达系统之间移动肽化合物和感兴趣的文库。可抑制型终止密码子用于控制融合蛋白的表达水平并且便于纯化感兴趣的肽化合物。例如，amber终止密码子在supE宿主中可读作Gln以进行噬菌体展示，而在非supE宿主中其读作终止密码子以产生不与噬菌体外壳蛋白融合的感兴趣的可溶性肽化合物。这些合成的序列可以融合载体中的感兴趣的肽化合物。

在一些情况下，可以使用允许编码感兴趣的肽化合物的核酸被容易地从载体系统中移出并置于另一载体系统中的载体系统。例如，可以将合适的限制位点工程化改造入载体系统中以便于编码感兴趣的肽化合物的核酸序列的移除。通常选择在载体中独特的限制序列以便于有效地切除并连接入新的载体。然后，没有外来融合序列(例如病毒外壳蛋白或其他序列标签)感兴趣的肽化合物结构域可以从载体中表达。

在编码感兴趣的肽化合物的核酸(基因1)和编码病毒外壳蛋白的核酸(基因2)之间，可以插入编码终止密码子的DNA，这种终止密码子包括UAG(amber)、UAA(ocher)和UGA(opel)。(Microbiology,Davis等,Harper&Row,NewYork,1980,pp.237,245-47和374)。在野生型宿主细胞中表达的终止密码子使得基因1蛋白产物在不连接基因2蛋白产物的情况下被合成。然而，在抑制子宿主细胞中生长导致合成可检测量的融合蛋白。这种抑制子宿主细胞是公知的并且被描述，例如E.coli抑制子菌株(Bullock等,BioTechniques5:376-379(1987))。可以使用任何可接受的方法将这种终止密码子放置在编码融合多肽的mRNA中。

可以将抑制型密码子插入到编码感兴趣的肽化合物的第一基因和编码至少部分噬菌体外壳蛋白的第二基因之间。或者，可以通过替换抗体可变结构域中的最后一个氨基酸三联体或者噬菌体外壳蛋白中的第一氨基酸将抑制型终止密码子插入为邻接融合位点。当含有抑制型密码子的质粒在抑制子宿主细胞中生长时，其导致含有多肽和外壳蛋白的融合多肽的可检测生产。当所述质粒在非抑制子宿主细胞中生长时，由于在所插入的抑制型三联体UAG、UAA或UGA处终止，感兴趣的肽化合物结构域在基本不融合至噬菌体外壳蛋白的情况下被合成。在非抑制子细胞中，由于不存在融合的噬菌体外壳蛋白(否则将其锚定到宿主膜上)，感兴趣的肽化合物结构域被合成并从宿主细胞分泌。筛选方法

还提供了针对与靶蛋白的结合筛选例如如上文所述的化合物的支架化肽文库的方法。此外，可以针对对某靶分子的改进的结合亲和力(例如如上所述)来选择所述文库用于制备和筛选亲和力成熟文库。所述靶蛋白可以包括在研究或治疗应用的任何类型的感兴趣的蛋白质。这些筛选方法的方面可以包括确定主题文库的化合物是否与感兴趣的靶蛋白特异性结合。筛选方法可以包括针对对生物活性的抑制进行筛选。这种方法可以包括：(i)将含有靶蛋白的样品与本发明的文库相接触，和(ii)确定所述文库的化合物是否与所述靶蛋白特异性结合。

所述确定步骤可以通过用于表征特异性结合或对结合的抑制的多种方案中的任何一个或更多个进行。

例如，筛选可以是基于细胞的测定，酶测定、ELISA测定或用于评价特异性结合或者对结合的抑制的其他相关生物测定，并且适于在这种测定中应用的确定或评价步骤是公知的且包括常规方案。

筛选还可以包括计算机方法，其中将感兴趣的文库中化合物的一个或更多个物理和/或化学特征表示为计算机可读形式，并且通过多种分子建模和/或分析程序以及适于该目的的算法中的任何一种或更多种来进行评价。在一些实施方案中，计算机方法包括：输入与靶蛋白(例如D-或L-靶蛋白)相关一个或更多个参数，例如但不限于靶蛋白的已知X射线晶体结构的三维坐标。在一些实施方案中，计算机方法包括：输入与肽文库的化合物相关的一个或更多个参数，例如但不限于文库的亲本支架结构域的已知X射线晶体结构的三维坐标。在一些实例中，计算机方法包括对肽文库中的每个化合物产生计算机可读形式的一个或更多个参数，并且评价化合物与靶蛋白特异性结合的能力。所述计算机方法包括但不限于分子建模研究、生物分子停靠实验和分子结构和/或过程的虚拟呈现，例如分子相互作用。所述计算机方法可以作为预筛选(例如，在制备L-肽文库和进行体外筛选之前)或作为在体外筛选之后鉴定的结合化合物的确认来进行。

因此，本发明的筛选方法可以在体内或体外进行。例如，当化合物在细胞中时，细胞可以在体内或体外，确定化合物是否能够与细胞中的靶蛋白特异性结合包括：(i)将所述细胞与本发明的文库接触；以及(ii)评价文库的化合物是否与靶蛋白特异性结合。

因此，可以通过任何数量的方法以及其组合确定感兴趣的主题文库的肽化合物是否能够与靶蛋白特异性结合。

在一些实施方案中，主题方法包括：

(a)将靶蛋白与不同肽化合物的支架文库接触，其中所述文库的每种化合物包含不同的可变结构域和肽支架结构域，其中所述肽支架结构域选自：DiGeorge综合征关键区域8(DGCR8)二聚体化结构域；Get5C-末端结构域；来自E.coli的H-NS结构域；KorBc-末端二聚体化结构域；Lsr2二聚体化结构域；PKA-RIα二聚体化/停靠结构域(牛)；p62的UBA结构域；SpoVT的N-末端结构域；胶原XI三聚体化结构域；Symfoil4P三聚体(被称为β-三叶肽)；RNA聚合酶α亚基的C-末端结构域；EphA2SAM结构域；高尔基体蛋白245的GRIP结构域；SpoOB-螺旋发夹结构域；Ku的C-末端结构域；Cue2蛋白的CUE结构域；DNA解旋酶RuvA结构域；蛋白G的GA结构域；Hirustasin；凝血调节蛋白(EGF型结构域)；凝集因子VIIa；PEM-1样蛋白；成束蛋白-2；CD46细胞外结构域；核苷酸交换因子C-末端结构域；TDRD3的Tudor结构域；转录抗终止蛋白NusG；CCL2趋化因子；与ThiF复合的ThiS蛋白；胰凝乳蛋白酶抑制子；羧肽酶抑制子；CD2bp2的GYF结构域；Cdk调节亚基1；CN2毒素；CHD4–PHD指结构域；GATA型锌指；Leech衍生类胰蛋白酶抑制子；RhodninKazal抑制子；MHCII型p41片段；抗TRAP；TNF受体17(BCMA)；NZF锌指结构域；Amaranthα淀粉酶抑制子；Sac7d(Nanofitins)；APPIKunitz结构域；FynSH3结构域(Fynomers)；E3泛素蛋白连接酶UBR5；DNA修复核酸内切酶XPF；链B:rad23hom.B,xpcb结构域；链B:dsk2-uba结构域；链C:LEM结构域/伊默菌素；链A:蛋白YBL047CUBA结构域；链A/B:PKA停靠/二聚体化结构域；链C:GspC；链A:噬菌体IF1附接蛋白G3P；链A:cd2apsh3；链B:微线蛋白6,EGF-样结构域；链B:大肠杆菌素-A；链B:玉红氧还蛋白2；链E:LDLR的EGF结构域；链I:工程化蛋白酶抑制子,SGPI支架；链B:工程化hcksh3；N-末端片段:NTL9；植物甜蛋白(Brazzein)；胰岛素生长因子结合蛋白(IGFBP)；火鸡卵类粘蛋白,第三结构域(OMTKY3)；粘霉素A1；染色盒蛋白同系物5；蛋白Z；和绒毛蛋白头部亚结构域；和

(b)鉴定与所述靶蛋白特异性结合文库化合物。

在一些实施方案中，在主题方法中，所述靶蛋白是D-蛋白。在一些实施方案中，在主题方法中，所述靶蛋白是L-蛋白。

噬菌体展示筛选方法

针对包含感兴趣的主题文库的肽化合物的融合多肽与靶分子结合的能力进行筛选还可以在溶液相中进行。例如，可以将靶蛋白与可检测部分例如生物素连接。可以通过与可检测部分(例如链霉亲和蛋白包被珠，其中生物素是可检测部分)结合的分子将溶液中与靶分子结合的噬菌体与未结合的噬菌体分开。可以使用任何合适的式或标准，基于所使用靶蛋白的浓度确定结合物(例如与靶蛋白结合的肽化合物融合物)的亲和力。

在一些实施方案中，可以将靶蛋白与合适的基质例如琼脂糖珠、丙烯酰胺珠、玻璃珠、纤维素、多种丙烯酸共聚物、羟烷基甲基丙烯酸凝胶、聚丙烯酸和聚甲基丙烯酸共聚物、尼龙、中性和离子载体等连接。可以通过任何合适的方法进行靶蛋白与基质的连接，例如MethodsinEnzymology,44(1976)中描述的方法。在将靶蛋白与基质连接后，将固定化的靶标与表达含有感兴趣的肽化合物的融合多肽的文库在适于使得至少部分噬菌体颗粒与固定化靶标结合的条件下接触。在一些实例中，包括pH、离子强度、温度等的所述条件将模拟生理条件。通过洗涤将与固定化靶标结合的颗粒(“结合物”)与未与靶标结合的那些颗粒分开。可以调整洗涤条件以导致去除除较高亲和力结合物外的所有。可以通过多种方法将结合物与固定化的靶标解离。这些方法包括使用野生型配体的竞争性解离、改变pH和/或离子强度以及本领域已知的方法。结合物的选择可以涉及用配体从亲和基质洗脱。用浓度增高的配体洗脱应该洗脱具有增强的亲和力的所展示的结合肽化合物。

可以分离结合物然后在宿主细胞中再扩增或表达并针对与靶分子的结合进行另一轮筛选。可以使用任何数目的选择或分选轮次。一种选择或分选方案可以涉及分离与多肽标签的抗体(例如gD蛋白质、FLAG或聚组氨酸标签的抗体)结合的结合物。另一选择或分选方案可以涉及多轮针对稳定性的分选，例如与靶蛋白的结合，所述靶蛋白与含感兴趣的折叠肽化合物的多肽特异性结合但不与未折叠的多肽结合，然后针对与靶蛋白的结合选择或分选稳定结合物。

在一些情况下，用编码结合物或辅助噬菌体的基因转染合适的宿主I型报，在适于噬菌粒颗粒扩增的条件下培养所述宿主细胞。然后收集噬菌粒颗粒，重复选择过程一次或更多次直至选择到对靶分子具有期望的亲和力的结合物。在某些实施方案中，进行两轮或更多轮选择。

通过与靶蛋白的结合鉴定结合物之后，可以提取核酸。然后将提取的DNA直接用于转化大肠杆菌宿主细胞，或者可以扩增编码序列，例如使用合适的引物通过PCR，然后插入载体中表达。

可以使用任何合适的策略来选择与靶蛋白的高亲和力结合物。在某些实施方案中，通过自动化系统进行筛选过程以允许高通量筛选文库候选物。

在某些实施方案中，主题肽文库的化合物以高亲和力与靶分子结合，例如，如通过SPR结合测定或ELISA测定所确定的。主题肽文库的化合物可以展示对靶蛋白的1uM或更小，例如300nM或更小、100nM或更小、30nM或更小、10nM或更小、5nM或更小、2nM或更小、1nM或更小、300pM或更小、100pM或更小、30pM或更小、10pM或更小或甚至更小的亲和力。主题肽文库的化合物可以对靶蛋白展示这样的亲和力，例如通过将化合物与靶蛋白的亲和力与参照蛋白(例如白蛋白)与靶蛋白的亲和力相比，为5:1或更高、10:1或更高，例如30:1或更高、100:1或更高、300:1或更高、1000:1或更高或甚至更高。

靶分子

一旦制备了主题文库，可以针对与一种或更多种靶分子的结合选择和/或筛选主题文库。此外，可以针对与某靶分子的改进的结合亲和力来选择所述文库。所述靶分子可以是任何类型的蛋白质结合或抗原性分子，例如蛋白质、核酸、碳水化合物或小分子。在某些实施方案中，所述靶分子是治疗性靶分子或诊断性靶分子，或其片段，或其模拟物。

本文所用术语“靶蛋白”指的是靶标家族的全部成员，及其片段和对映异构体及其蛋白模拟物。本文所述的感兴趣的靶蛋白旨在包括靶标家族的全部成员，及其片段和对映异构体及其蛋白模拟物，除非明确指出相反情况。靶蛋白可以是任何感兴趣的蛋白，例如治疗或诊断性靶标，包括但不限于激素、生长因子、受体、酶、细胞因子、骨诱导性因子、集落刺激因子和免疫球蛋白。术语“靶蛋白”旨在包括重组和合成的分子，其可以使用任何合适的重组表达方法或使用任何合适的合成方法制备，或者可以商购；以及含靶分子的融合蛋白；以及合成的L-或D-蛋白。

本文所用术语“蛋白模拟物”指的是模拟感兴趣的蛋白例如靶蛋白的结合特性的肽化合物。一般而言，靶蛋白模拟物包含形成潜在结合表面所需要的原始靶蛋白的关键部分(例如表位或其关键残基)，从而使得靶蛋白模拟物和原始靶蛋白各自能够与感兴趣的结合部分(例如抗体或D-肽化合物)特异性结合。在一些实施方案中，将对于结合关键原始靶蛋白的部分展示在支架上，从而模拟原始靶蛋白的潜在结合表面。可以使用用于展示靶蛋白的最小关键部分的任何合适支架，包括但不限于抗体支架、scFv、抗运载蛋白、非抗体支架、蛋白质二级和三级结构的模拟物。在一些实施方案中，靶蛋白模拟物包括整合入蛋白支架的原始靶蛋白的残基或片段，其中支架模拟靶蛋白的结构基序。例如，通过将靶蛋白的残基整合入合适支架的期望位置，蛋白模拟物可以呈现模拟原始靶蛋白的潜在结合表面的潜在结合表面。在一些实施方案中，使用构象约束法保留原始靶蛋白的片段的天然结构。可以使用在构象上约束肽化合物的任何合适方法，例如但不限于生物缀合、二聚体化(例如通过连接子)、多聚体化或环化。

在某些实施方案中，所述靶分子是激素、生长因子、受体、酶、细胞因子、骨诱导性因子、集落刺激因子或免疫球蛋白。

在某些实施方案中，所述靶分子可以是以下的一个或更多个：生长激素、牛生长激素、胰岛素样生长因子、人生长激素包括n-甲二磺酰基人生长激素、甲状旁腺激素、甲状腺素、胰岛素、胰岛素原、胰淀素、松弛素、松弛素原、糖蛋白激素例如促卵泡激素(FSH)、促黄体生成激素(LH)、造血生长因子、Her-2、成纤维细胞生长因子、催乳素、胎盘催乳素、肿瘤坏死因子、苗勒抑制物质、鼠标促性腺激素相关多肽、抑制素、激活素、血管内皮生长因子、整合素、神经生长因子例如NGF-β、胰岛素样生长因子-I和II、促红细胞生成素、成骨因子、干扰素、集落刺激因子、白细胞介素(例如，IL-4,IL-8,IL-1-a,IL-6,IL-12,IL-13,IL-17或IL-23蛋白)、生长因子阻滞因子(VEGF-A、-D、PDGF-B)，双特异性阻滞因子(如VEGF-A+PDGF-B)、受体激动剂(例如，Robo4)、骨形态发生蛋白、LIF、SCF、FLT-3配体、kit-配体、SH3结构域、凋亡蛋白、肝细胞生长因子、肝细胞生长因子受体、中性亲和素、麦芽糖结合蛋白、血管抑素、aFGF、bFGF、TGF-α、TGF-β、HGF、TNF-α、血管生长素、IL-8、血小板反应素、催乳素16k道尔顿N-末端片段和内皮抑素。

在某些实施方案中，所述靶分子可以是结构信息已知的治疗性靶分子，例如但不限于：Raf激酶(治疗黑素瘤的靶标)、Rho激酶(预防心血管疾病的发病的靶标)、核因子κB(NF-κB，治疗多发性骨髓瘤的靶标)、血管内皮生长因子(VEGF)受体激酶(抗血管生成药物作用的靶标)、Janus激酶3(JAK-3，治疗类风湿性关节炎的靶标)、细胞周期蛋白依赖性激酶(CDK)2(CDK2，预防中风的靶标)、FMS-样酪氨酸激酶(FLT)3(FLT-3，治疗急性髓细胞性白血病(AML)的靶标)、表皮生长因子受体(EGFR)激酶(用于治疗癌症的靶标)、蛋白激酶A(PKA，用于预防心血管疾病的靶标)、p21-活化激酶(用于治疗乳腺癌的靶标)、有丝分裂源活化蛋白激酶(MAPK，用于治疗癌症和关节炎的靶标)、c-JunNH.sub.2-末端激酶(JNK，用于治疗糖尿病的靶标)、AMP-活化激酶(AMPK,预防和治疗胰岛素抵抗的靶标)、lck激酶(免疫抑制的靶标)、磷酸二酯酶PDE4(治疗炎性疾病例如类风湿性关节炎和哮喘的靶标)、Abl激酶(治疗慢性髓细胞性白血病(CML)的靶标)、磷酸二酯酶PDE5(治疗勃起功能障碍的靶标)、解聚素和金属蛋白酶33(ADAM33,治疗哮喘的靶标)、人免疫缺陷病毒(HIV)-1蛋白酶和HIV整合酶(治疗HIV感染的靶标)、呼吸合胞体病毒(RSV)整合酶(治疗RSV感染的靶标)、凋亡的X-连接抑制因子(XIAP,治疗神经退行性疾病和缺血性损伤的靶标)、凝血酶(治疗和预防血栓性疾病的治疗靶标)、组织型纤溶酶原激活子(在中枢神经系统损伤之后预防神经元死亡的靶标)、基质金属蛋白酶(防止血管生成的抗癌剂的靶标)、β分泌酶(治疗阿尔兹海默病的靶标)、src激酶(治疗癌症的靶标)、fyn激酶、lyn激酶、zeta链相关蛋白70(ZAP-70)蛋白酪氨酸激酶、细胞外信号调节激酶1(ERK-1)、p38MAPK、CDK4、CDK5、糖原合酶激酶3(GSK-3)、KIT酪氨酸激酶、FLT-1、FLT-4、激酶插入结构域包含受体(KDR)激酶和癌症大阪甲状腺(COT)激酶。

在某些实施方案中，所述靶分子是选自以下的靶蛋白：VEGF蛋白(例如VEGF-A,VEGF-C或VEGF-D)、RANKL蛋白、NGF蛋白、TNF-α蛋白、含SH2结构域蛋白、含SH3结构域蛋白、IgE蛋白BLyS蛋白(Oren等,“StructuralbasisofBLySreceptorrecognition”,NatureStructuralBiology9,288–292,2002、PCSK9蛋白(Ni等,“Aproproteinconvertasesubtilisin-like/kexintype9(PCSK9)C-terminaldomainantibodyantigen-bindingfragmentinhibitsPCSK9internalizationandrestoreslowdensitylipoproteinuptake”,J.Biol.Chem.2010Apr23；285(17):12882-91)、DLL4蛋白(Garber,“TargetingVesselAbnormalizationinCancer“,JNCIJournaloftheNationalCancerInstitute200799(17):1284-1285)、Ang2(血管生成素-2)蛋白、艰难梭菌毒素A或B蛋白(例如，Ho等,“Crystalstructureofreceptor-bindingC-terminalrepeatsfromClostridiumdifficiletoxinA”,(2005)Proc.Natl.Acad.Sci.Usa102:18373-18378)、CTLA4蛋白(细胞毒性T-淋巴细胞抗原4)及其片段。在某些实施方案中，所述靶蛋白是VEGF蛋白。在某些实施方案中，所述靶蛋白是含SH2结构域蛋白(例如3BP2蛋白)或含SH3结构域蛋白(例如ABL或Src蛋白)。

在一些实例中，所述靶分子选自PDGF-B、Robo4、Htra1、血球凝集素、Nav1.7、CD5、CD19、CD38、CD40、IGF-1R、GM-CSF、PCSK9、BlyS、Ang2、EGFR、HER2、Robo4、Htra1、CXCL5、硬化蛋白、R-脊椎蛋白、MD-2、流感HA血凝素蛋白或其卷曲螺旋模拟物、HCV、HIV蛋白。

用途

本发明的文库(例如以上所述的)用于多种应用。感兴趣的应用包括但不限于筛选应用和研究应用。

所述筛选方法(例如如以上所述的)用于多种应用，包括在大范围的研究和治疗应用中选择和/或筛选主题文库，例如治疗先导物鉴定和亲和力成熟、鉴定诊断试剂、开发高通量筛选测定、开发用于递送毒素或其他治疗部分的药物递送系统。主题筛选方法还可以在多种环境中被利用。

在一些情况下，主题文库可用作分析感兴趣的蛋白在调节多种生物过程(例如血管生成、炎症、细胞生长、代谢、转录调节和磷酸化调节)中的作用的研究工具。例如，抗体文库已经是许多这种生物研究中的有用工具，并且导致了有效治疗剂的开发。参见Sidhu和Fellhouse,“Synthetictherapeuticantibodies,”NatureChemicalBiology,2006,2(12),682-688。

主题文库还可以用作临床诊断开发中的研究工具，例如体外诊断(例如，用于靶向多种生物标志物)或体内肿瘤成像剂。筛选结合分子(例如适配体和抗体)的文库可用于开发这种临床诊断剂，参见例如Jayasena,“Aptamers:AnEmergingClassofMoleculesThatRivalAntibodiesinDiagnostics,”ClinicalChemistry.1999；45:1628-1650。

通过示例而非限制的方式提供以下实施例。

实验

实施例1

A制备支架化肽文库

1.克隆和在M13丝状噬菌体上展示支架

可以使用secB输出途径用于噬菌体展示，其中蛋白质以非折叠形式输出到周质中并且在周质中发生折叠。这种形式的展示对于需要用于折叠的氧化条件的蛋白质是方便的(即，具有二硫键的蛋白)。或者可以使用TAT途径输出蛋白，其在细胞质中良好折叠并且具有除去错误折叠和凝聚蛋白的质控机制(Waraho-Zhmayev等,“Amicrobialsensorfordiscoveringstructuralprobesofproteinmisfoldingandaggregation,”Prion7；DeLisa等(2003)“Foldingqualitycontrolintheexportofproteinsbythebacterialtwin-argininetranslocationpathway,”ProcNatlAcadSciUSA100,6115-20)。

展示肽支架的形式包括支架与噬菌体外壳蛋白p3或p8的N-末端融合物。此外，融合蛋白的分泌信号不同，采用StII信号序列(secB途径)或TorA信号序列(TAT途径)。基于具有氨苄青霉素抗性、LaqIq抑制子和ptac启动子的标准噬菌粒构建了4个载体。以下示出了开放阅读框。

以下的序列示出了开放阅读框以及克隆入感兴趣的支架用于噬菌体展示的p3-StII和p8-StII载体。支架被合成为具有N-末端的FLAG标签以及其后的BamHI切割位点和基因序列，并且使用NsiI和SacI切割位点克隆入。

P3-StII载体

P8-StII载体

P3-TorA载体

P8-TorA载体

以上显示的是用于将感兴趣的支架克隆入p3-TorA和p8-TorA载体用于噬菌体展示的系统。TAT分泌途径的质控机制负向地选择错误折叠盒凝聚的蛋白质。感兴趣的非二硫键化的支架使用NsiI和SacI切割位点被克隆入p3-TorA和p8-TorA载体，其具有所示ORF。

这些载体设计有相同的限制位点(NsiI和SacI)以允许将支架和肽化合物容易地转移至其他展示形式和表达载体。对于TorA信号序列载体，来自TorA蛋白的4个额外残基(ATDA)被添加到N-末端，因为切割位点附近的残基对于TAT途径输出的特异性是重要的(Tullman-Ercek等(2007).ExportpathwayselectivityofEscherichiacolitwinargininetranslocationsignalpeptides.JBiolChem282,8309-16)。对于p3载体，使用来自抗体片段的二聚体化序列来改进选择期间的噬菌体回收。

支架的基因是针对细菌表达而密码子优化的，合成有N-末端FLAG标签，使用NsiI和SacI位点克隆入p3-StII和p8-StII载体。以下显示示例性阅读开放阅读框架(ORF)：

将BamHI限制位点包括在FLAG标签和支架之间以便于将蛋白转移至表达载体而没有FLAG标签。

没有二硫键的支架被转移到p3-TorA和p8-TorA展示载体。使用以下引物从p3-StII载体扩增支架DNA：

正向引物(退火至信号序列)

GCTACAAATGCCTATGCATCC(SEQIDNO:263)

反向引物(退火至二聚体化序列)

GTTTTGTCTCCAGAGCTCCC(SEQIDNO:264)

用NsiI和SacI消化PCR片段，纯化并连接入靶载体。

所有质粒被转化入化学感受态的OmniMaxT1R细胞。从单个集落开始，使用之前描述的方案在96孔盒中制备噬菌体上清液(Fellouse&Sidhu(2007)Makingantibodiesinbacteria.Makingandusingantibodies(Howard,G.C.&Kaser,M.R.编),CRCPress,BocaRaton,FL)。然后将支架的展示水平用抗FLAGELISA中的信号比较。N-末端FLAG标签的存在确保全长蛋白质被展示在噬菌体上。根据之前描述的方案进行ELISA(Fellouse,F.A.&Sidhu,S.S.(2007).Makingantibodiesinbacteria.Makingandusingantibodies(Howard,G.C.&Kaser,M.R.,Eds.),CRCPress,BocaRaton,FL.；Sidhu等(2007).Identifyingspecificityprofilesforpeptiderecognitionmodulesfromphage-displayedpeptidelibraries.NatProtoc2,1368-86)，并简要在以下描述：

1.将噬菌体上清液在PBT缓冲液中稀释3倍并添加到ELISA板(NuncMaxisorp板，包被有3ug/ml抗FLAG抗体(Sigma-Aldrich)并用BSA封闭)，在室温下结合1小时。

2.将板用PT缓冲液洗涤3遍，用PBT缓冲液中的1:5000稀释的抗M13HRP抗体(GEHealthcare)孵育30分钟。

3.将板用PT缓冲液洗涤3遍，并用TMB底物(KPLBiosciences)显色。

文库设计和随机化

以下方案是一个示例性方法，其可以被适用于生产主题文库。选择感兴趣的支架的一组变体残基(例如8-16个残基)用于突变。一个合适的策略是，在随机化位置允许所有20种氨基酸(例如使用简并密码子NNK)。在一些情况下，序列空间的理论多样性大大超出使用方便方案能够产生的实验多样性。一个替代性方案是限制和偏好变体氨基酸残基的随机化(例如在蛋白质-蛋白质相互作用中倾向于主导的残基)，从而使得文库中序列空间的更佳取样。以下是使用氨基酸的限制组并且针对感兴趣的残基产生偏好的一个感兴趣的编码：

X编码(三聚体亚磷酰胺的订制混合物(GlenResearch,Inc))

25％Y,15％R,15％W,10％V,10％S,10％A,5％F,5％H。

用于氨基酸的限制组的感兴趣的残基包括但不限于芳香族残基(例如Tyr、Trp)、Arg、小残基(例如Ser、Ala)和Asp等。

针对靶蛋白的文库选择和用BSA的负向选择

在之前的方案中描述的选择过程(Fellhouse&Sidhu,2007)可以被适用于筛选主题文库。尽管以下的方法针对L-VEGF描述，但是所述方法可以被改造为这对与任何靶标的结合进行筛选。

1.在室温下用100μl的L-VEGF(5μg/ml，在PBS中)包被NUNCMaxisorp板孔2小时。包被5个孔用于选择，1个孔用于噬菌体合并ELISA。

2.去除包被溶液并用200μlPBS,0.2％BSA封闭1小时。同时，封闭未包被的孔作为阴性对照用于合并ELISA。还封闭7个孔用于在单独的板上预孵育文库。

3.从预孵育板上去除封闭溶液并用PT缓冲液洗涤4次。

4.添加100μl文库噬菌体溶液(在PBT缓冲液中沉淀和重悬)到各经封闭的孔。在室温下孵育1小时伴随温和震荡。

5.从选择板去除封闭溶液并用PT缓冲液洗涤4次。

6.将文库噬菌体溶液从预孵育板转移至选择板(5个选择孔+2个对照孔用于合并ELISA)。

7.去除噬菌体溶液并用PT缓冲液洗涤8-10次(根据来自之前轮次的合并ELISA信号增加)。

8.为了从选择孔洗脱结合噬菌体，添加100μl100mMHCl。在室温下孵育5分钟。将HCl溶液转移至1.5ml的微离心管。用11μl的1.0MTris-HCl,pH11.0调整至中性pH。

9.同时，向对照孔添加100μl抗M13HRP缀合物(在PBT缓冲液中1:5000稀释)，孵育30分钟。

10.用PT缓冲液洗涤对照孔4次。添加100μl新鲜制备的TMB底物。显色5-10分钟。

11.用100μl1.0MH₃PO₄终止反应，在微孔板读板器上读出450nm处的吸光度。可以将富集比计算为来自包被孔的信号相比于来自未包被孔的信号。

12.向2.5ml在2YT/tet培养基中活跃生长的E.coliXL1-Blue(OD₆₀₀<0.8)中添加250μl洗脱的噬菌体溶液。在37摄氏度孵育20分钟，伴随200rpm的震荡。

13.添加M13KO7辅助噬菌体至终浓度为10¹⁰噬菌体/ml。在37摄氏度孵育45分钟，伴随200rpm的震荡。

14.将来自抗原包被孔的培养物转移至25体积的2YT/carb/kan培养基并在37摄氏度孵育过夜，伴随200rpm的震荡。

15.通过用PEG/NaCl溶液沉淀分离噬菌体，在1.0ml的PBT缓冲液中重悬。

16.重复所述选择循环4轮。

用GST标签化的蛋白负向选择

如下是更严格的负向选择条件。选择过程基本与以上所述的相同，除了以下：

i)对于第1和2轮，在GST包被(10μg/ml，在PBS中)上预孵育文库并封闭孔。

ii)对于第3和4轮，在转移至选择孔前，用0.2mg/ml溶液中的GST预孵育文库1小时。

iii)用于合并ELISA的对照孔用GST(5μg/ml，在PBS中)包被。

针对抗FLAG选择文库

错误折叠的蛋白在周质中降解，并且不在噬菌体上展示(Missiakas&Raina,“ProteinmisfoldinginthecellenvelopeofEscherichiacoli:newsignalingpathways,”TrendsinBiochemicalSciences,1997,22,59-63)。TAT途径分泌信号允许将错误折叠的蛋白排除在噬菌体展示之外。因而稳定折叠的蛋白可以被选择用于展示N末端FLAG标签。

通过与以上所述的类似的方法进行选择，除了将文库直接添加至用抗FLAG抗体(5μg/ml，稀释在PBT中)包被的选择孔中，并且没有预孵育步骤。

通过直接结合ELISA分析单克隆

以下方案是之前的方案(Fellouse&Sidhu2007；Tonikian等,“Identifyingspecificityprofilesforpeptiderecognitionmodulesfromphage-displayedpeptidelibraries,”Nat.Protoc.,2007,2,1368-86)的修改版本。

1.将450μl等份的2YT/carb/KO7培养基和具有噬菌粒的单集落在96孔微管中孵育，在37摄氏度下生长21小时，在200rpm下震荡。

2.在4000rpm离心10分钟，并将噬菌体上清液转移至新鲜管。

3.分别用2μg/ml的L-VEGF,、中性亲和素、Erbin-GST，每克隆包被384孔NUNCmaxisorb板的3个孔，留下1个孔不包被。在室温下孵育2小时，封闭板(所有4个孔)。

4.用PT缓冲液洗涤板4次。

5.将30μl噬菌体上清液转移至每个孔并在室温下孵育2小时，伴随轻柔搅拌。

6.用PT缓冲液洗涤4次。

7.添加30μl抗M13-HRP缀合物(在PBT缓冲液中1:5000稀释)。孵育30分钟，伴随轻柔搅拌。

8.用PT缓冲液洗涤4次。

9.添加30μl新鲜制备的TMB底物。显色5-10分钟。

用100μl1.0MH₃PO₄终止反应，在微孔板读板器上在450nm处读出吸光度。

实施例2

A克隆和展示支架

选择小蛋白支架的多种组。将支架的基因针对细菌表达进行密码子优化，并合成有N-末端FLAG标签，使用NsiI和SacI位点通过供应商(BiobasicInc.,Markham,ON,Canada)克隆入噬菌粒载体p8-StII(附载体序列)。以下显示典型的ORF：

通过与抗FLAG的结合确定支架在噬菌体颗粒上的展示。根据常规方案进行ELISA(参见例如Fellouse,F.A.&Sidhu,S.S.(2007).Makingantibodiesinbacteria.Makingandusingantibodies(Howard,G.C.&Kaser,M.R.,Eds.),CRCPress,BocaRaton,FL.；和Tonikian,R.,Zhang,Y.,Boone,C.&Sidhu,S.S.(2007).Identifyingspecificityprofilesforpeptiderecognitionmodulesfromphage-displayedpeptidelibraries.NatProtoc2,1368-86)，并简要描述如下：

1.将噬菌体上清液在PBT缓冲液中稀释3倍并添加到ELISA板(NuncMaxisorp板，包被有3ug/ml抗FLAG抗体(Sigma-Aldrich,Cat#F1804)并用BSA封闭)，在室温下结合1小时。

2.将板用PT缓冲液洗涤3遍，用PBT缓冲液中的1:5000稀释的抗M13HRP抗体(GEHealthcare,Cat#)孵育30分钟。

3.将板用PT缓冲液洗涤3遍，并用TMB底物(KPL)显色。

B文库设计

使用GETarea在线软件产生支架中各个残基的溶剂暴露表面积(SASA)分析(参见例如Fraczkiewicz,R.&Braun,W.(1998).Exactandefficientanalyticalcalculationoftheaccessiblesurfaceareasandtheirgradientsformacromolecules.JournalofComputationalChemistry19,319-333)。选择在支架上形成连续表面区域的表面暴露残基的组进行突变。

一般而言，

i.为了产生高亲和力的结合界面，选择8-16个残基产生大于500A^o2的结合界面。

ii.当支架与相互作用伴侣的复合体的晶体结构可得时，使用SASA分析结合和游离形式来鉴定界面残基。

尽管可以使用在随机化位置允许所有20种氨基酸(使用简并密码子NNK)的策略，在一些情况下，该策略不是最佳的，因为序列空间的理论多样性可超出使用方便方案能够产生的实验多样性。一个替代性方案是限制和偏好随机化为在蛋白质-蛋白质相互作用中通常富集的那些残基，从而使得文库中序列空间的更佳取样。对于这些文库，使用以下编码进行随机化(除非另外指明)：

(B1)HT编码16.6％Y,16.6％S,16.6％F,8.3％L,8.3％P,8.3％H,8.3％V,8.3％A,8.3％D；

其中B1是25％C,25％G和50％T的订制混合物，H是A/C/T的简并混合物。

C文库构建和质控

根据常规方案构建文库(参见例如Fellouse,F.A.&Sidhu,S.S.(2007).Makingantibodiesinbacteria.Makingandusingantibodies(Howard,G.C.&Kaser,M.R.,Eds.),CRCPress,BocaRaton,FL.；和Tonikian,R.,Zhang,Y.,Boone,C.&Sidhu,S.S.(2007).Identifyingspecificityprofilesforpeptiderecognitionmodulesfromphage-displayedpeptidelibraries.NatProtoc2,1368-86)。用于各文库的寡核苷酸的列表示出于图38-42。对于每个文库进行多达4次电穿孔并合并在一起以提高文库的多样性。

将来自各文库的12-24个随机克隆铺板，如在A部分中所述进行抗FLAGELISA。测序相同的克隆以估计独特序列的百分比。

表1概括了文库构建和表征的数据。电穿孔后获得的转化体的数目是文库中序列多样性的一个指示。通过将转化体的数目乘以具有期望突变的序列的比例来估计序列多样性。FLAG阳性变体被限定为来自ELISA信号为背景的至少5倍的与抗FLAG抗体结合的文库的克隆。通过将FLAG阳性变体的比例乘以序列多样性来获得功能多样性，其是噬菌体上多样克隆的表达的估计。

表1：概括所选文库的质控数据

D对D-VEGFA的文库淘选

将8个文库的亚组合并在一起并且使用以下淘选方案：

1.将100ul5ug/mlD-VEGFA(在PBS缓冲液中)添加到NuncMaxisorp96孔板的6个孔中，在摇板器上在室温下孵育2小时。

2.用200ulBSA(2mg/ml，在PBS缓冲液中)封闭抗原包被的板以及6个未包被的孔用于负向选择。在室温下孵育板1小时。

3.将100ul文库添加到负向选择板上，孵育1小时以针对非特异性结合物进行筛选。

4.然后将文库转移到选择板上，在室温下孵育2小时。

5.在结合后，用PT缓冲液(1xPBSbuffer,0.05％Tween20)洗涤板8-12次，用100ul100mMHCl洗脱孔，并用11ul的1MTris-HClpH11.0中和。

6.中和后，再将洗脱的噬菌体添加到BSA封闭的Maxisorp板，来进一步筛选出非特异性的结合物。将洗脱的噬菌体在室温下孵育1小时。

7.将300ul澄清的洗脱液添加到3ml的O.D.0.6的OmniMax细胞，在37摄氏度下孵育30分钟，在200rpm下震荡。将3ulM13Ko7(1x1013cfu/ml)添加到培养物中，在37摄氏度下伴随震荡孵育45分钟。

8.将培养物转移到30ml2YT/carb/kan培养基并在37摄氏度下过夜生长。

9.对于第二轮选择，收集来自过夜培养物的噬菌体，悬浮在1ml的PBT缓冲液中，重复步骤1-8。

10.由于洗脱液中的高噬菌体滴度，对于第3和4轮选择，将过夜噬菌体上清液在用10xPBSpH7.4调整pH后直接加入到选择孔中。

使用ELISA监控在D-VEGFA的特异性结合物的筛选期间的噬菌体合并物的富集。来自第4轮噬菌体合并物的单个克隆被针对与D-VEGFA的特异性结合进行筛选并测序。E所选克隆的亲和力成熟

构建所选克隆的亲和力成熟文库，并以与如上所述类似的方式进行淘选。由于无法得到晶体结构，在本源文库中被突变的相同残基被再突变，其使用偏好性编码，以允许在该位置的目前的氨基酸有50％的可能性保持相同，同时允许出现所有其他10种氨基酸。

尽管为了清楚理解的目的，通过说明和示例的方式以一定详细度描述了一些具体实施方案，但是容易地显而易见的是，根据本发明的教导，可以对其进行一些改变和修饰而不背离所附权利要求的精神或范围。

因此，以上仅仅说明了本发明的原则。可以设计多种安排，尽管这些安排未在本文中明确描述或显示，其也体现本发明的原则并包括在其精神和范围中。此外，本文所述的所有实例和条件性语言主要是指在帮助读者理解本发明的原则和本发明人对现有技术贡献的概念，并且应被理解为不应限制为这种具体给出的实例和条件。此外，本文中述及原则、方面和本发明的实施方案的所有陈述以及其具体实例旨在涵盖其结构和功能等价物二者。此外，意图是这种等价物包括目前已知的等价物以及未来开发的等价物(即执行相同功能的所开发的任何要素，无论结构为何)二者。因此，本发明的范围不旨在被限制为本文示出和描述的示例性实施方案。相反，本发明的范围和精神由所附权利要求体现。

Claims

1.不同肽化合物的文库，其中

所述文库的每个化合物包含不同的可变结构域以及肽支架结构域，其中所述肽支架结构域选自：DiGeorge综合征关键区域8(DGCR8)二聚体化结构域；Get5C-末端结构域；来自E.coli的H-NS结构域；KorBc-末端二聚体化结构域；Lsr2二聚体化结构域；PKA-RIα二聚体化/停靠结构域(牛)；p62的UBA结构域；SpoVT的N-末端结构域；胶原XI三聚体化结构域；Symfoil4P三聚体(被称为β-三叶肽)；RNA聚合酶α亚基的C-末端结构域；EphA2SAM结构域；高尔基体蛋白245的GRIP结构域；SpoOB-螺旋发夹结构域；Ku的C-末端结构域；Cue2蛋白的CUE结构域；DNA解旋酶RuvA结构域；蛋白G的GA结构域；Hirustasin；凝血调节蛋白(EGF型结构域)；凝集因子VIIa；PEM-1样蛋白；成束蛋白-2；CD46细胞外结构域；核苷酸交换因子C-末端结构域；TDRD3的Tudor结构域；转录抗终止蛋白NusG；CCL2趋化因子；与ThiF复合的ThiS蛋白；胰凝乳蛋白酶抑制子；羧肽酶抑制子；CD2bp2的GYF结构域；Cdk调节亚基1；CN2毒素；CHD4–PHD指结构域；GATA型锌指；Leech衍生类胰蛋白酶抑制子；RhodninKazal抑制子；MHCII型p41片段；抗TRAP；TNF受体17(BCMA)；NZF锌指结构域；Amaranthα淀粉酶抑制子；Sac7d(Nanofitins)；APPIKunitz结构域；FynSH3结构域(Fynomers)；E3泛素蛋白连接酶UBR5；DNA修复核酸内切酶XPF；链B:rad23hom.B,xpcb结构域；链B:dsk2-uba结构域；链C:LEM结构域/伊默菌素；链A:蛋白YBL047CUBA结构域；链A/B:PKA停靠/二聚体化结构域；链C:GspC；链A:噬菌体IF1附接蛋白G3P；链A:cd2apsh3；链B:微线蛋白6,EGF-样结构域；链B:大肠杆菌素-A；链B:玉红氧还蛋白2；链E:LDLR的EGF结构域；链I:工程化蛋白酶抑制子,SGPI支架；链B:工程化hcksh3；N-末端片段:NTL9；植物甜蛋白；胰岛素生长因子结合蛋白(IGFBP)；火鸡卵类粘蛋白,第三结构域(OMTKY3)；粘霉素A1；染色盒蛋白同系物5；绒毛蛋白头部亚结构域；和蛋白Z结构域。

2.权利要求1所述的文库，其中所述肽支架结构域选自图33至34中的支架1、2、3、4、5、10、12、13、14、15、16、18、22、23、25、27、29、32、38、40、41、46、47、48、49、51、55和70。

3.权利要求2所述的文库，其中所述文库的每个化合物包含5个或更多个不同的突变。

4.权利要求3所述的文库，其中所述5个或更多个不同的突变是位于所述支架结构域的蛋白质-蛋白质相互作用区域中的非核心突变。

5.根据权利要求1所述的文库，其中所述文库包含50种或更多种不同的化合物。

6.根据权利要求3所述的文库，其中所述5个或更多个不同的非核心突变选择自图1-30和35中所述的那些。

7.根据权利要求3所述的文库，其中所述可变结构域位于所述蛋白质-蛋白质相互作用区域并且包含约500至约的表面积。

8.根据权利要求1所述的文库，其中所述文库是噬菌体展示文库，并且所述文库的每个化合物与至少部分病毒外壳蛋白融合。

9.根据权利要求15所述的文库，其中所述病毒外壳蛋白选自蛋白pIII、主要外壳蛋白pVIII、Soc、Hoc、gpD、pv1及其变体。

10.编码不同的肽化合物的多核苷酸的文库，其中每个多核苷酸编码肽化合物，所述肽化合物包含不同的可变结构域以及肽支架结构域，其中所述肽支架结构域选自：DiGeorge综合征关键区域8(DGCR8)二聚体化结构域；Get5C-末端结构域；来自E.coli的H-NS结构域；KorBc-末端二聚体化结构域；Lsr2二聚体化结构域；PKA-RIα二聚体化/停靠结构域(牛)；p62的UBA结构域；SpoVT的N-末端结构域；胶原XI三聚体化结构域；Symfoil4P三聚体(被称为β-三叶肽)；RNA聚合酶α亚基的C-末端结构域；EphA2SAM结构域；高尔基体蛋白245的GRIP结构域；SpoOB-螺旋发夹结构域；Ku的C-末端结构域；Cue2蛋白的CUE结构域；DNA解旋酶RuvA结构域；蛋白G的GA结构域；Hirustasin；凝血调节蛋白(EGF型结构域)；凝集因子VIIa；PEM-1样蛋白；成束蛋白-2；CD46细胞外结构域；核苷酸交换因子C-末端结构域；TDRD3的Tudor结构域；转录抗终止蛋白NusG；CCL2趋化因子；与ThiF复合的ThiS蛋白；胰凝乳蛋白酶抑制子；羧肽酶抑制子；CD2bp2的GYF结构域；Cdk调节亚基1；CN2毒素；CHD4–PHD指结构域；GATA型锌指；Leech衍生类胰蛋白酶抑制子；RhodninKazal抑制子；MHCII型p41片段；抗TRAP；TNF受体17(BCMA)；NZF锌指结构域；Amaranthα淀粉酶抑制子；Sac7d(Nanofitins)；APPIKunitz结构域；FynSH3结构域(Fynomers)；E3泛素蛋白连接酶UBR5；DNA修复核酸内切酶XPF；链B:rad23hom.B,xpcb结构域；链B:dsk2-uba结构域；链C:LEM结构域/伊默菌素；链A:蛋白YBL047CUBA结构域；链A/B:PKA停靠/二聚体化结构域；链C:GspC；链A:噬菌体IF1附接蛋白G3P；链A:cd2apsh3；链B:微线蛋白6,EGF-样结构域；链B:大肠杆菌素-A；链B:玉红氧还蛋白2；链E:LDLR的EGF结构域；链I:工程化蛋白酶抑制子,SGPI支架；链B:工程化hcksh3；N-末端片段:NTL9；植物甜蛋白；胰岛素生长因子结合蛋白(IGFBP)；火鸡卵类粘蛋白,第三结构域(OMTKY3)；粘霉素A1；染色盒蛋白同系物5；绒毛蛋白头部亚结构域；和蛋白Z结构域。

11.根据权利要求17所述的文库，其中所述文库是可复制表达载体的文库。

12.根据权利要求11所述的文库，其中所述文库编码选择自以下序列之一的突变的支架结构域：图33至34中所示的支架1、2、3、4、5、10、12、13、14、15、16、18、22、23、25、27、29、32、38、40、41、46、47、48、49、51、55和70。

13.根据权利要求10所述的文库，其中每个多核苷酸编码包含30个或更多个氨基酸的支架结构域的肽化合物。

14.根据权利要求12所述的文库，其中每个多核苷酸编码包含5个或更多个变体氨基酸的肽化合物，其中每个变体氨基酸由随机密码子编码。

15.一种方法，其包括：

将靶蛋白与包含不同肽化合物的文库接触，其中所述文库的每个化合物包含不同的可变结构域以及肽支架结构域，其中所述肽支架结构域选自：DiGeorge综合征关键区域8(DGCR8)二聚体化结构域；Get5C-末端结构域；来自E.coli的H-NS结构域；KorBc-末端二聚体化结构域；Lsr2二聚体化结构域；PKA-RIα二聚体化/停靠结构域(牛)；p62的UBA结构域；SpoVT的N-末端结构域；胶原XI三聚体化结构域；Symfoil4P三聚体(被称为β-三叶肽)；RNA聚合酶α亚基的C-末端结构域；EphA2SAM结构域；高尔基体蛋白245的GRIP结构域；SpoOB-螺旋发夹结构域；Ku的C-末端结构域；Cue2蛋白的CUE结构域；DNA解旋酶RuvA结构域；蛋白G的GA结构域；Hirustasin；凝血调节蛋白(EGF型结构域)；凝集因子VIIa；PEM-1样蛋白；成束蛋白-2；CD46细胞外结构域；核苷酸交换因子C-末端结构域；TDRD3的Tudor结构域；转录抗终止蛋白NusG；CCL2趋化因子；与ThiF复合的ThiS蛋白；胰凝乳蛋白酶抑制子；羧肽酶抑制子；CD2bp2的GYF结构域；Cdk调节亚基1；CN2毒素；CHD4–PHD指结构域；GATA型锌指；Leech衍生类胰蛋白酶抑制子；RhodninKazal抑制子；MHCII型p41片段；抗TRAP；TNF受体17(BCMA)；NZF锌指结构域；Amaranthα淀粉酶抑制子；Sac7d(Nanofitins)；APPIKunitz结构域；FynSH3结构域(Fynomers)；E3泛素蛋白连接酶UBR5；DNA修复核酸内切酶XPF；链B:rad23hom.B,xpcb结构域；链B:dsk2-uba结构域；链C:LEM结构域/伊默菌素；链A:蛋白YBL047CUBA结构域；链A/B:PKA停靠/二聚体化结构域；链C:GspC；链A:噬菌体IF1附接蛋白G3P；链A:cd2apsh3；链B:微线蛋白6,EGF-样结构域；链B:大肠杆菌素-A；链B:玉红氧还蛋白2；链E:LDLR的EGF结构域；链I:工程化蛋白酶抑制子,SGPI支架；链B:工程化hcksh3；N-末端片段:NTL9；植物甜蛋白；胰岛素生长因子结合蛋白(IGFBP)；火鸡卵类粘蛋白,第三结构域(OMTKY3)；粘霉素A1；染色盒蛋白同系物5；绒毛蛋白头部亚结构域；和蛋白Z结构域；以及

鉴定与所述靶蛋白特异性结合的所述文库的化合物。

16.根据权利要求15所述的方法，其中所述靶蛋白选自激素、生长因子、受体、酶、细胞因子、骨诱导性因子、集落刺激因子或免疫球蛋白。

17.根据权利要求16所述的方法，其中所述靶蛋白选自VEGF蛋白、RANKL蛋白、NGF蛋白、TNF-α蛋白、含SH2结构域蛋白、含SH3结构域蛋白、BLyS蛋白、PCSK9蛋白、DLL4蛋白、Ang2蛋白、CTLA-4蛋白和艰难梭菌毒素A或B蛋白、PDGF-B蛋白、Robo4蛋白、Htra1蛋白、血凝素蛋白、Nav1.7蛋白、CD5蛋白、CD19蛋白、CD38蛋白、CD40蛋白、IGF-1R蛋白、GM-CSF蛋白、PCSK9蛋白、BlyS蛋白、Ang2蛋白、EGFR蛋白、HER2蛋白、Robo4蛋白、Htra1蛋白、CXCL5蛋白、硬化蛋白、R-脊椎蛋白、MD-2蛋白、流感HA血凝素蛋白或其卷曲螺旋模拟物、HCV蛋白和HIV蛋白。

18.根据权利要求17所述的方法，其中所述靶蛋白是L-蛋白。

19.根据权利要求17所述的方法，其中所述靶蛋白是D-蛋白。