CN1672160A

CN1672160A - 在计算机上产生和筛选蛋白质文库

Info

Publication number: CN1672160A
Application number: CNA038173603A
Authority: CN
Inventors: 罗培志; 马克·赫斯荷; 钟苹羽; 王才郦; 曹亦成; 刘盛疆
Original assignee: Abmaxis Inc
Current assignee: Abmaxis Inc
Priority date: 2002-05-20
Filing date: 2003-05-20
Publication date: 2005-09-21
Anticipated expiration: 2023-05-20
Also published as: SG135053A1; WO2003099999A2; WO2003099999A3; AU2003248548B2; CN1672160B; EP1514216A4; CA2485732A1; EP1514216A2; AU2003248548A1; JP2005526518A

Abstract

本发明提供有效产生和筛选蛋白质文库最优蛋白质的方法，所述最优蛋白质具有期望生物学功能，如对在生物学和/或在治疗学上重要的靶分子的改善的结合亲和力。该方法通过挖掘不断膨胀的所有生物、特别是人类的蛋白质序列数据库，以高通量的方式在计算机上进行。在一个实施方案中，一种构建设计蛋白质文库的方法，包含以下步骤：提供来源于前导蛋白质的氨基酸序列，该氨基酸序列称为前导序列；将前导序列与多个试验蛋白质序列比较；和从多个试验蛋白质序列中选择至少两个与前导序列具有至少15％序列同一性的肽片段，所选肽片段形成选中文库；通过用选中文库替代前导序列形成设计的蛋白质的文库。设计的蛋白质的文库可以在体外或体内表达以产生重组蛋白质文库，其可以筛选相对于前导蛋白质如针对在治疗学上重要的靶目标的抗体的新的或改进功能。

Description

在计算机上产生和筛选蛋白质文库

发明背景

对相关申请的交叉引用：

本申请是在2002年5月20日提交的标题为“抗体文库基于结构的选择和亲和力成熟”的美国申请号10/153,159的部分继续申请，也是在2002年5月20日提交的标题为“在计算机上(in Silico)产生亲和力成熟的抗体文库”的申请号10/153,176的部分继续申请，上述两者是在2002年4月17日提交的标题为“基于结构构建人抗体库”的美国专利申请序列号10/125,687的部分继续申请，美国专利申请序列号10/125,687要求在2001年4月17日提交的标题为“基于结构构建人抗体库”的美国临时申请序列号60/284,407的利益。

发明领域

本发明通常涉及具有与靶分子的结合亲和力的蛋白质的计算机辅助设计，更具体地，涉及通过结合计算预测和实验筛选抗体偏爱文库(biasedlibrary)，筛选和鉴定具有不同序列和与靶抗原的高亲和力的抗体(或免疫球蛋白)的方法。

相关技术描述

抗体是由脊椎动物响应各种内部和外部刺激(抗原)制成。专门由B细胞合成，抗体以数百万种形式生成，每种具有不同的氨基酸序列和不同的抗原结合位点。总称为免疫球蛋白(缩写为Ig)，它们是血液中最丰富的蛋白质成分之一，构成总血浆蛋白质重量的约20％。

天然存在的抗体分子由两条相同的“轻”(L)蛋白质链和两条相同的“重”(H)蛋白质链组成，所有链通过氢键和精确定位的二硫键结合在一起。Chothia等(1985)J.Mol.Biol.186：651-663；和Novotny和Haber(1985)Proc.Natl.Acad.Sci.USA 82：4592-4596。L和H链的N-末端区域一起形成各个抗体的抗原识别位点。

哺乳动物免疫系统已经进化独特的遗传机制，能够使其通过在它们转录之前将分开的基因片段连接在一起，以非常经济的方式产生几乎无限数量的不同轻链和重链。对于每种类型的Ig链-κ轻链，λ轻链，和重链-存在从中最终合成单一肽链的分开的基因片段库。每个库在不同染色体上并且通常包含大量编码Ig链V区的基因片段和少量编码C区的基因片段。在B细胞发育期间，通过位点特异性遗传重组，将完整的V区编码序列和C区编码序列组合在一起装配合成的两条Ig链各自完整的编码序列。另外，轻链的V区是由两个基因片段-V基因片段和短的连接或J基因片段装配的DNA序列编码。重链的V区是由三个基因片段-V基因片段，J基因片段和不同或D片段装配的DNA序列编码。

编码Ig链可用的大量遗传的V，J和D基因片段其本身为抗体多样性作出重要贡献，而这些片段的组合连接大大地增加了这个贡献。另外，基因片段不精确的连接和在前B细胞阶段V-D-J片段连接期间引入的体细胞突变极大增加了V区的多样性。

在对抗原免疫后，哺乳动物经历一个称为亲和力成熟的过程以产生具有更高抗原亲和力的抗体。该抗原驱动的对给定抗原的体细胞高变精调抗体应答，可能是由于特别是在重链和轻链V区编码序列中的点突变的累积和承载高亲和力抗体的B细胞克隆的选择扩展。

在结构上，抗体的各种功能局限于分离的蛋白质结构域(区域)。识别和结合抗原的位点由位于两条H链和两条L链的N-末端可变(V_H和V_L)区内的三个高变或互补性决定区(CDR)组成。恒定区不直接参与抗体与抗原的结合，但涉及各种效应子功能，如抗体参与依赖抗体的细胞的细胞毒性。

天然轻链和重链的结构域具有相同的通用结构，各个结构域包含由三个CDR连接的序列稍微保守的四个构架区。四个构架区主要采取β-折叠构象和CDR形成连接β-折叠和有时形成β-折叠的一部分的环。各条链的CDR通过构架区与其它链的CDR保持紧密，有助于抗原结合位点的形成。

通常所有抗体采取特征的“免疫球蛋白折叠”。具体地，抗原结合片段的可变区和恒定区(Fab，由轻链的V_L和C_L和重链的V_H和C_H1组成)由形成β-夹层结构的两个扭型反平行β-折叠组成。恒定区具有以Greek钥匙状基序排列的三条和四条链的β-折叠，而可变区具有另外两条短的β链，产生五链β-折叠。

V_L和V_H结构域通过五链β-折叠相互作用以形成半径约8.4的九链β桶，结构域界面上的链彼此倾斜约50°。结构域配对使得CDR环紧密邻近。CDR本身形成大约25％的V_L/V_H结构域界面。

在β桶构架上支撑六个CDR，(对于轻链CDR-L1，-L2和-L3，对于重链CDR-H1，-H2和-H3)，形成抗原结合位点。尽管与其余的免疫球蛋白结构相比，它们的序列高变，一些环显示较高程度的序列和结构保守。特别是，CDR-L2和CDR-H1构象高度保守。

Chothia和同事通过分析保守的关键残基已经显示六个CDR环的五个(除了CDR-H3以外所有)采取不连续的、有限数量的主链构象(称为CDR的正则结构)。Chothia和Lesk(1987)J.Mol.Biol.196：901-917；Chothia等(1989)Nature(伦敦)342：877；和Chothia等(1998)J.Mol.Biol.278：457-479。采取的结构取决于CDR长度和某些关键氨基酸残基的同一性，这些关键氨基酸残基位于CDR中和接触构架中，参与其包装(packing)。通过用作结构决定子的这些关键残基的特定包装，氢键相互作用，和立体化学约束测定正则构象。

已经开发各种方法模拟(modeling)抗体的抗原结合位点的三维结构。除了x-射线晶体学以外，核磁共振(NMR)波谱学已经与计算机模拟结合使用来研究抗体-配体相互作用的原子细节。Dwek等(1975)Eur.J.Biochem.53：25-39。Dwek和同事使用自旋标记的半抗原来推断MoPC 315骨髓瘤蛋白关于二硝基苯基的结合位点。还使用抗自旋标记的单克隆抗体(Anglister等(1987)Biochem.26：6958-6064)和对抗-2-苯基噁唑酮Fv片段(McManus和Riechmann(1991)Biochem.30：5851-5857)进行类似分析。

计算机实现的抗体结合位点(或抗原结合位点)的分析和模拟是基于比较目标抗体序列和在现有数据库(例如Brookhaven蛋白质数据库)中已知结构或结构基序的抗体序列的同源性分析。通过使用该基于同源性模拟的方法，构建目标抗体近似的三维结构。早期抗体模拟是基于具有相同长度和不同序列的CDR环可能采取类似构象的假设。Kabat和Wu(1972)Proc.Natl.Acad.Sci.USA 69：960-964。典型的区段匹配算法如下：给定一个环序列，可以搜索蛋白质数据库中短的同源主链片段(例如三肽)，其然后装配和用计算机精制(refine)成新的结合位点模型。

新近，正则环概念已经结合到计算机实现的抗体结合位点的结构模拟中。在其最常规的形式中，正则结构概念假定(1)除了正则位点以外的序列变化与环构象无关，(2)正则环构象基本上与环-环相互作用无关，和(3)仅有限数量的正则基序存在并且这些在当前已知的抗体晶体结构数据库中充分体现。基于这个概念，Chothia预测溶菌酶结合抗体D1.3中的所有六个CDR环构象和其它四个抗体中的五个正则环构象。Chothia(1989)，上文。通过将基于同源性的模拟和构象搜索方法结合还可能改进抗体结构的CDR模拟。Martin，A.C.R.(1989)PNAS 86，9268-72。

除了模拟特定抗体结构以外，已经努力产生人工(或合成)抗体库，将其针对特定目标抗原筛选。基于模块共有区构架和三核苷酸随机化的CDR已经设计完全合成的组合抗体文库。Knappik等(2000)J.Mol.Biol.296：57-86。在本研究中，分析人抗体集合(repertoire)的结构，氨基酸序列多样性和种系使用。具有七个V_H和七个V_L的模块共有区构架序列衍生覆盖95％的可变种系家族并最适于在大肠杆菌中表达。在将所有49种组合的基因克隆到噬菌粒载体中，产生一组抗体噬菌体展示文库，文库中总共2×10⁹个成员。

通过利用噬菌体在其表面上表达和展示生物功能蛋白质分子的能力，噬菌体展示技术已经广泛用于产生大的抗体片段文库。在噬菌体λ表达系统中已经产生抗体组合文库，其可以作为噬菌体斑或作为溶原体菌落筛选(Huse等(1989)Science 246：1275；Caton和Koprowski(1990)Proc.Natl.Acad.Sci.(U.S.A.)87：6450；Mullinax等(1990)Proc.Natl.Acad.Sci.(U.S.A.)87：8095；Persson等(1991)Proc.Natl.Acad.Sci.(U.S.A.)88：2432)。已经描述噬菌体抗体展示文库和λ噬菌体表达文库的各种实施方案(Kang等(1991)Proc.Natl.Acad.Sci.(U.S.A.)88：4363；Clackson等(1991)Nature 352：624；McCafferty等(1990)Nature 348：552；Burton等(1991)Proc.Natl.Acad.Sci.(U.S.A.)88：10134；Hoogenboom等(1991)Nucleic Acids Res.19：4133；Chang等(1991)J.Immunol.147：3610；Breitling等(1991)Gene 104：147；Marks等(1991)J.Mol.Biol.222：581；Barbas等(1992)Proc.Natl.Acad.Sci.(U.S.A.)89：4457；Hawkins和Winter(1992)J.Immunol.22：867；Marks等(1992)Biotechnology 10：779；Marks等(1992)J.Biol.Chem.267：16007；Lowman等(1991)Biochemistry 30：10832；Lerner等(1992)Science258：1313)。还参见Rader，C.和Barbas，C.F.(1997)的综述，“Phage displayof combinatorial antibody libraries”Curr.Opin.Biotechnol.8：503-508。

通常，通过将随机寡核苷酸文库或编码抗体片段如V_L和V_H的cDNA文库插入M13或fb噬菌体的基因3中产生噬菌体文库。每个插入基因在基因3产物(噬菌体的较小外壳蛋白)的N-末端表达。结果，可以构建包含不同肽的肽文库。然后针对固定化目标靶分子(如抗原)亲和筛选噬菌体文库，回收特异性结合的噬菌体颗粒并通过感染到大肠杆菌宿主细胞中扩增。典型地，目标靶分子如受体(例如多肽，糖，糖蛋白，核酸)通过共价键固定到色谱树脂以通过亲和层析富集反应性噬菌体颗粒和/或标记筛选噬菌斑或菌落转移。该方法称为生物淘洗(biopanning)。最后，可以扩增并测序高亲和力噬菌体克隆以推断具体的肽序列。

Queen等美国专利No.5,693,762也已经开发了通过使用计算机模拟人源化抗体的方法。基于计算机模拟预测非人的、供体抗体(例如鼠单克隆抗体)的结构，预测构架中的关键氨基酸为保持形状和因此CDR的结合特异性所需。在几个确定种类中基于它们的位置和特征选择这几个关键鼠供体氨基酸并与供体CDR一起替代到人受体抗体构架中。例如，种类1：氨基酸位置在CDR中，如Kabat等Kabat和Wu(1972)Proc.Natl.Acad.Sci.USA 69：960-964所定义。种类2：如果人受体免疫球蛋白的构架中的氨基酸稀有，和如果在那位置的供体氨基酸对于人序列是典型的，那么可以选择供体氨基酸代替受体。种类3：在紧邻人源化免疫球蛋白链的初级序列的3个CDR中一个或多个的位置，可以选择供体氨基酸代替受体氨基酸。基于这些标准，构建一系列精心选择的来自供体抗体的单个氨基酸。获得的人源化抗体通常包括约90％的人序列。检验通过计算机模拟设计的人源化的抗体与抗原的结合。实验结果如结合亲和力反馈至计算机模拟程序以精调人源化抗体的结构。重设计的抗体然后可以检验其改善的生物功能。该重复的精调过程可以是劳动密集型的和不可预测的。

发明概述

本发明提供一种创新的方法，用于有效产生和筛选蛋白质文库中最优蛋白质的方法，所述最优蛋白质具有期望生物学功能，如改善的对在生物学和/或在治疗学上重要的靶分子的结合亲和力。该方法通过挖掘不断膨胀的所有生物、特别是人类的蛋白质序列数据库，以高通量的方式在计算机上进行。蛋白质进化数据被用于扩展用于体外或体内功能筛选的蛋白质文库的序列和结构空间(space)。通过使用该创造性方法，基于在计算机上极其多样的蛋白质序列和功能相关结构的计算机评估，可以构建扩展的然而功能上有偏爱的蛋白质如抗体的文库。

在本发明的一方面，提供设计和选择具有期望功能的蛋白质的方法。该方法优选通过基于前导蛋白质的目标结构/功能基序或结构域的氨基酸序列(以下称为“前导序列”)计算机选择蛋白质序列而在计算机中实现。前导序列用于搜索蛋白质序列数据库。数据库的选择取决于设计的基序的具体功能要求。例如，如果前导蛋白质是酶和目标基序包括酶的活性位点，可以使用各种搜索标准查询特定来源、生物、物种或其组合的蛋白质/肽数据库以产生选中序列表(hit list of sequences)，其可以替代前导蛋白质中的目标基序。可以使用类似的方法用于设计前导蛋白质的其它基序或结构域。可以组合每个单独基序/结构域的设计序列以产生设计的蛋白质的文库。另外，为了降低设计的蛋白质对于人类应用如治疗或诊断的免疫原性，优选搜索人源蛋白质或人源化的蛋白质的数据库以产生选中序列表，特别是对于源于在结构上或在功能上不是关键性的前导蛋白质位点的基序。可以用实验检验设计蛋白质的文库以产生相对于前导蛋白质具有改善生物学功能的蛋白质。

在一个实施方案中，方法包含以下步骤：

提供来源于前导蛋白质的氨基酸序列，将该氨基酸序列称为前导序列；

将前导序列与多个试验蛋白质序列比较；和

从多个试验蛋白质序列中选择至少两个与前导序列具有至少15％序列同一性的肽片段，所选肽片段形成选中文库(hit library)；和

通过用选中文库替代前导序列形成设计的蛋白质的文库。

任选地，该方法另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱(profile)；

组合选中文库中的氨基酸变体以产生形成选中变体文库的选中变体组合；和从选中变体文库中选择具有期望功能的蛋白质。

还任选地，该方法另外包含以下步骤：

通过使用得分函数(score function)确定选中文库或选中变体文库的成员与前导序列或前导蛋白质的三维结构是否在结构上相容；和

选择得分等于或好于前导序列或前导蛋白质的成员。

还任选地，该方法另外包含以下步骤：

构建包含编码选中文库、选中变体文库或基于上述结构评估所选成员的氨基酸序列的DNA片段的核酸文库；

表达核酸文库以产生重组蛋白质文库；和

从重组蛋白质文库中选择具有所需功能的蛋白质。

还任选地，该方法另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

通过将氨基酸位置变体反翻译成它们相应的遗传密码，将选中文库的氨基酸位置变体图谱转变成核酸位置变体图谱；

通过以组合方式组合核酸位置变体构建DNA片段的简并核酸文库；

表达所述简并核酸文库以产生重组蛋白质文库；和

从重组蛋白质文库中选择具有期望功能的蛋白质。

任选地，遗传密码可以是优选在特定生物的细胞(如哺乳动物细胞，昆虫，植物，酵母，或细菌)中表达的遗传密码。任选地，遗传密码可以是能够减小所选大小的遗传密码，其使得DNA片段的简并核酸文库的多样性属于在实验上无需过度实验努力可覆盖的多样性范围内，例如，低于1×10⁷，优选低于1×10⁶。

前导蛋白质可以是期望功能改善或改变的蛋白质，所述功能优选为体外或体内生物学功能。前导蛋白质可以是全长蛋白质，寡肽或肽，并且也可以是非天然蛋白质或肽。任选地，前导蛋白质可以是已知蛋白质的片段或结构域，包括但不限于结构和/或功能结构域如酶促结构域，结合结构域，和较小片段或基序，如转角，螺旋和环。另外，可以使用蛋白质变体，即非天然存在的蛋白质类似物结构。

前导蛋白质优选是用于工业，治疗和/或诊断的蛋白质。前导蛋白质的类型可以是配体，细胞表面受体，抗原，抗体，细胞因子，激素，转录因子，信号组件(signaling module)，细胞骨架蛋白和酶。

具体种类的酶包括但不限于，水解酶如蛋白酶，糖酶，脂酶；异构酶如消旋酶，差向异构酶，互变异构酶，或变位酶；转移酶，激酶，氧化还原酶，和磷酸酶。酶的具体实例在Swiss-Prot酶数据库中列出。

前导蛋白质细胞因子的其它实例包括但不限于，IL-1，IL-2，IL-3，IL-4，IL-5，IL6，IL-8，IL-10，IFN-β，INF-γ，IFN-α-2a；IFNα-2B，TNF-α；CD40配体(chk)，人肥胖蛋白质瘦素(Leptin)，粒细胞-巨噬细胞集落刺激因子(GMCSF)，骨形成蛋白-7，睫状神经营养因子，粒细胞-巨噬细胞集落刺激因子，单核细胞趋化蛋白1，巨噬细胞游走抑制因子，人糖基化抑制因子，人Rantes，人巨噬细胞炎症蛋白1β，人生长激素，白血病抑制因子，人黑素瘤生长刺激活性，嗜中性白细胞活化肽-2，Cc-趋化因子Mcp-3，血小板因子M2，嗜中性白细胞活化肽-2，Eotaxin，基质细胞衍生因子-1，胰岛素，类胰岛素生长因子I，类胰岛素生长因子II，转化生长因子B1，转化生长因子B2，转化生长因子B3，转化生长因子A，血管内皮生长因子(VEGF)，酸性成纤维细胞生长因子，碱性成纤维细胞生长因子，内皮生长因子，神经生长因子，脑衍生神经营养因子，睫状神经营养因子，血小板衍生生长因子，人肝细胞生长因子，神经胶质细胞衍生神经营养因子，促红细胞生成素；凝固因子(coaguation factors)，包括但不限于TPA和因子VIIa；受体，包括但不限于Gp130人组织因子细胞因子结合区域的胞外区域，G-CSF受体，促红细胞生成素受体，成纤维细胞生长因子受体，TNF受体，IL-1受体，IL-1受体/IL 1ra复合体，IL4受体，INF-γ，受体α链，I类MHC，II类MHC，T细胞受体，胰岛素受体，胰岛素受体酪氨酸激酶和人生长激素受体。

在本发明还有另一方面，提供基于前导结构模板在计算机上设计和选择蛋白质序列的方法。具有基本上类似结构模板的结构的不同序列的集合可以用作前导序列来搜索蛋白质结构数据库的前导序列的远同源物，其具有低序列同一性但在结构上类似。通过使用该方法，可以构建不同蛋白质序列的文库并根据体外或体内实验筛选具有改善或期望功能的蛋白质变体。

在本发明一个具体方面，本发明方法在设计序列不同然而功能彼此相关的抗体中实现。基于设计的抗体序列，可以构建抗体文库以高通量方式在非人抗体的互补决定区(CDR)和/或人源化构架(FR)中包括不同序列。可以针对广泛多样的靶分子筛选该抗体文库新的或改善的功能。

在本发明的还有另一方面，提供基于前导抗体中一个区域的氨基酸序列(以下称为“前导序列”)在计算机上选择抗体序列的方法。使用前导序列来搜索蛋白质序列数据库。数据库的选择取决于设计的基序的特定功能要求。例如：为了针对治疗应用设计可变链的构架区，除了一些结构关键位点以外，应当使用进化上相关蛋白质序列如完整的人免疫球蛋白序列和人种系免疫球蛋白序列的集合。通过在该高度保守区域(对于构架区)引入尽可能少的外源突变体而保留序列来源，这将减小免疫原应答。在另一方面，不同序列的数据库如各种物种的免疫球蛋白序列或甚至genbank中的不相关序列可以用于设计CDR以便改善该高变区与抗原的结合亲和力。通过使用该方法，可以用体外或体内实验构建和筛选不同抗体序列文库的具有改善或期望功能的抗体变体。

在一个实施方案中，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)可变区的氨基酸序列；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区的CDR中的一个；

提供包含所选CDR中至少3个连续氨基酸残基的氨基酸序列，所选氨基酸序列是前导序列；

将前导序列与多个试验蛋白质序列比较；和

从所述多个试验蛋白质序列中选择至少两个与所述前导序列具有至少15％序列同一性的肽片段，所选肽片段形成选中文库。

该方法可以另外包含以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸文库。

任选地，该方法可以另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

通过以组合的方式组合核酸位置变体构建DNA片段的简并核酸文库。

任选地，遗传密码可以是优选在细菌中表达的遗传密码。任选地，遗传密码可以是能够减小所选大小的遗传密码，其使得DNA片段的简并核酸文库的多样性属于在实验上无需过度实验努力可覆盖的多样性范围内，例如，低于1×10⁷，优选低于1×10⁶。

在另一实施方案中，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)可变区的氨基酸序列；

鉴定前导抗体的CDR和FR中的氨基酸序列；

选择前导抗体V_H或V_L区的CDR中的一个；

提供包含所选CDR中至少3个连续氨基酸残基的第一个氨基酸序列，所选氨基酸序列是CDR前导序列；

将CDR前导序列与多个CDR试验蛋白质序列比较；

从所述多个CDR试验蛋白质序列中选择至少两个与所述CDR前导序列具有至少15％序列同一性的肽片段，所选肽片段形成CDR选中文库；

选择前导抗体的V_H或V_L区中FR之一；

提供包含所选FR中至少3个连续氨基酸残基的第二个氨基酸序列，所选氨基酸序列是FR前导序列；

将FR前导序列与多个FR试验蛋白质序列比较；

从所述多个FR试验蛋白质序列中选择至少两个与所述FR前导序列具有至少15％序列同一性的肽片段，所选肽片段形成FR选中文库；和

合并CDR选中文库和FR选中文库以形成选中文库。

按照该方法，多个CDR试验蛋白质序列可以包含人或非人抗体的氨基酸序列。

还按照该方法，多个FR试验蛋白质序列可以包含人源氨基酸序列，优选人或人源化抗体(例如在V_H或V_L中至少50％人序列，优选至少70％人序列，更优选至少90％人序列，和最优选至少95％人序列的抗体)，更优选完全的人抗体，最优选人种系抗体。

还按照该方法，多个CDR试验蛋白质序列中的至少一个不同于多个FR试验蛋白质序列。

还按照该方法，多个CDR试验蛋白质序列是人或非人抗体序列，多个FR试验蛋白质序列是人抗体序列，优选人种系抗体序列。

该方法可另外包含以下步骤：

构建包含编码选中文库的氨基酸序列的DNA片段的核酸文库。

任选地，该方法可以另外包含以下步骤：

构建CDR选中文库的氨基酸位置变体图谱；

通过将氨基酸位置变体反翻译成它们相应的遗传密码，将CDR选中文库的氨基酸位置变体图谱转变成第一个核酸位置变体图谱；和

通过以组合的方式组合核酸位置变体构建DNA片段的简并CDR核酸文库。

任选地，遗传密码可以是优选用于在细菌中表达的遗传密码。任选地，遗传密码可以是能够减小所选大小的遗传密码，其使得DNA片段的简并核酸文库的多样性属于在实验上无需过度实验努力可覆盖的多样性范围内，如低于1×10⁷，优选低于1×10⁶的多样性。

在还有另一实施方案中，方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)的可变区的氨基酸序列；

鉴定前导抗体的FR中的氨基酸序列；

选择前导抗体V_H或V_L区中的FR之一；

提供包含所选FR中的至少3个连续氨基酸残基的第一个氨基酸序列，所选氨基酸序列是第一个FR前导序列；

将第一个前导FR序列与多个FR试验蛋白质序列比较；和

从多个FR试验蛋白质序列中选择至少两个与第一个FR前导序列具有至少15％序列同一性的肽片段，所选肽片段形成第一个FR选中文库。

该方法可另外包含以下步骤

提供含有不同于所选FR的FR中至少3个连续氨基酸残基的第二个氨基酸序列的步骤，所选氨基酸序列是第二个FR前导序列；

将第二FR前导序列与多个FR试验蛋白质序列比较；和

从多个FR试验蛋白质序列中选择至少两个与第二个FR前导序列具有至少15％序列同一性的肽片段，所选肽片段形成第二个FR选中文库；和

合并第一FR选中文库和第二FR选中文库以形成选中文库。

按照该方法，前导CDR序列可以包含所选CDR中的至少5个连续氨基酸残基。所选CDR可选自由前导抗体的V_H CDR1，V_H CDR2，V_H CDR3，V_L CDR1，V_L CDR2，和V_L CDR3组成的组。

还按照该方法，前导FR序列可包含所选FR中至少5个连续的氨基酸残基。所选FR可以选自由前导抗体的V_H FR1，V_H FR2，V_H FR3，V_H FR4，V_LFR1，V_L FR2，V_L FR3和V_L FR4组成的组。

该方法可另外包含以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸或简并核酸文库。

在本发明的另一方面，提供基于前导抗体中一个区域的氨基酸序列(即“前导序列”)及其3D结构，在计算机上选择抗体序列的方法。将前导序列的结构用于搜索蛋白质结构数据库中具有类似3D结构的片段。将这些片段对比以产生序列图谱，以下称为“前导序列图谱”。将前导序列图谱用于搜索蛋白质序列数据库中前导序列的远同源物，其具有低序列同一性然而结构类似。通过使用该方法，可以构建不同抗体序列的文库和用体外或体内实验筛选具有改善或所需功能的抗体突变体。

在一个实施方案中，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)的可变区的氨基酸序列；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

提供包含所选CDR中的至少3个连续氨基酸残基的氨基酸序列，所选氨基酸序列是前导序列；

提供该前导序列的三维结构；

基于前导序列的结构构建前导序列图谱；

将前导序列图谱与多个试验蛋白质序列比较；和

从多个试验蛋白质序列中选择至少两个与前导序列具有至少10％序列同一性的肽片段，所选肽片段形成选中文库。

按照该方法，前导序列的三维结构可以是衍生于X-晶体学、核磁共振(NMR)波谱学或理论结构模拟的结构。

按照该方法，构建前导序列图谱的步骤可以包括：

将前导序列的结构与多个试验蛋白质片段的结构比较；

测定前导序列和试验蛋白质片段的主链构象的均方根差；

选择主链构象的均方根差小于5，优选小于4，更优选小于3和最优选小于2的试验蛋白质片段；和

将所选试验蛋白质片段的氨基酸序列与前导序列对比以构建前导序列图谱。

任选地，从蛋白质数据库中检索多个试验蛋白质片段的结构。

任选地，构建前导序列图谱的步骤可以包括：

比较前导序列的结构和多个试验蛋白质片段的结构；

测定前导序列和试验蛋白质片段的主链构象的Z-分数(score)；

选择Z-分数高于2、优选高于3、更优选高于4和最优选高于5的试验蛋白质片段中的片段；和

任选地，构建前导序列图谱的步骤可以通过选自由CE，MAPS，蒙特卡罗(Monte Carlo)和3D聚类算法(clustering algorithm)组成的组的算法实现。

该方法可以另外包含以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸文库。

任选地，方法可另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

通过将氨基酸位置变体反翻译成它们相应的三核苷酸密码子，将选中文库的氨基酸位置变体图谱转变成核酸位置变体图谱；和

以上方法中任何一种可以另外包含以下步骤：

将核酸或简并核酸文库中的DNA片段导入宿主生物的细胞中；

在宿主细胞中表达DNA片段以便在宿主生物的细胞中生产含有选中文库氨基酸序列的重组抗体；和

选择与靶抗原结合亲和力高于10⁶M^-1，优选10⁷M^-1，更优选10⁸M^-1，和最优选10⁹M^-1的重组抗体。

在本发明的还有另一方面，提供基于前导抗体的3D结构，在计算机上选择抗体序列的方法。将来自前导抗体特定区域的前导序列或序列图谱用于搜索蛋白质序列数据库中前导序列的远同源物，其具有低序列同一性然而结构类似。这些远同源物形成选中文库。将选中文库中的序列进行评估它们与前导抗体3D结构的结构相容性，此后称为“前导结构模板”。选择选中文库中与前导结构模板结构相容的序列并用体外或体内实验筛选具有改善或所需功能的抗体突变体。

在一个实施方案中，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)的可变区的氨基酸序列，具有已知三维结构的前导序列被定义为前导结构模板；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的FR之一；

将前导序列图谱与多个试验蛋白质序列比较；

从多个试验蛋白质序列中选择至少两个与前导序列具有至少10％序列同一性的肽片段，所选肽片段形成选中文库；

使用得分函数确定选中文库中是否有成员与前导结构模板在结构上相容；和

选择得分等于或好于或等于前导序列的选中文库成员。

按照该方法，得分函数是选自以下各项的能量得分函数：静电相互作用，范德瓦耳斯相互作用，静电溶剂化能，溶剂可及表面溶剂化能，和构象熵。

任选地，得分函数是结合选自以下各项力场(forcefield)的函数：Amber力场，Charmm力场，Discover cvff力场，ECEPP力场，GROMOS力场，OPLS力场，MMFF94力场，Tripos力场，MM3力场，Dreiding力场，和UNRES力场，以及其它基于知识的统计学力场(均场)和基于结构的热力学势函数。

还按照该方法，选择选中文库成员的步骤包括选择比基于以下公式计算的前导序列总能量低或与其相等的选中文库的成员：

ΔE_总＝E_vdw+E_键+E_angel+E_静电+E_溶剂化

还按照该方法，选择选中文库成员的步骤包括选择具有比前导序列结合自由能低的选中文库的成员，使用精确的(refined)得分函数将所述结合自由能计算为结合与未结合状态之间的差，

ΔG_b＝ΔG_MM+ΔG_sol-TΔS_ss

其中

ΔG_MM＝ΔG_ele+ΔG_vdw(1)

ΔG_sol＝ΔG_ele-sol+ΔG_ASA(2)

该方法可以进一步包括以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸文库。

任选地，该方法可以另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

在本发明还有另一方面，提供基于前导抗体的3D结构或结构集合(ensemble)或多个抗体的结构集合(以下总称为前导结构模板)，在计算机上选择抗体序列的方法。前导抗体特定区域的前导序列或序列图谱被用于搜索蛋白质序列数据库中前导序列的远同源物，其具有低序列同一性然而结构类似。这些远同源物形成选中文库。基于在前导序列每个位置上的氨基酸变体频率，构建选中文库的氨基酸位置变体图谱(AA-PVP)。基于AA-PVP，通过以组合的方式组合前导序列每个位置的氨基酸变体并且切除或不去除低频率变体来构建选中变体文库。将选中变体文库的序列进行评估它们与前导结构模板的结构相容性。选择选中文库中与前导结构模板结构相容的序列并用体内或体外实验筛选具有改善或期望功能的抗体变体。

在一个实施方案中，该方法包含以下步骤：

提供前导抗体的重链(V_H)或轻链(V_L)可变区的氨基酸序列，前导抗体具有已知的三维结构，定义为前导结构模板；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

将前导序列与多个试验蛋白质序列比较；

基于在前导序列每个位置出现的氨基酸变体频率，构建选中文库的氨基酸位置变体图谱；

组合选中文库中的氨基酸变体以产生形成选中变体文库的选中变体的组合；

使用得分函数确定选中变体文库的成员是否在结构上与前导结构模板相容；和

选择分数等于或好于前导序列的选中变体文库成员。

按照该方法，组合选中文库中氨基酸变体的步骤包括：

选择出现频率高4倍、优选6倍、更优选8倍和最优选10倍的氨基酸变体(2％-10％和优选5％的频率截止值，于是如果它们在截止后丢失包括来自前导序列的一些氨基酸)；和

组合选中文库中选择的氨基酸变体以产生形成选中变体文库的选中变体的组合。

任选地，得分函数是结合选自以下各项的力场的函数：Amber力场，Charmm力场，Discover cvff力场，ECEPP力场，GROMOS力场，OPLS力场，MMFF94力场，Tripos力场，MM3力场，Dreiding力场，和UNRES力场，以及其它基于知识的统计学力场(均场)和基于结构的热力学势函数。

该方法可以另外含有以下步骤：

构建包含编码选中变体文库所选成员的氨基酸序列的DNA片段的核酸文库。

任选地，该方法可以另外包含以下步骤：

将选中变体所选文库成员划分和解析成至少两个选中变体子文库；

选择选中变体子文库；

构建所选选中变体子文库的氨基酸位置变体图谱；

通过将氨基酸位置变体反翻译成它们相应的三核苷酸密码子，将所选选中变体子文库的氨基酸位置变体图谱转变成核酸位置变体图谱；和

解析选中变体文库的步骤可包括：

随机选择10-30个分数等于或好于前导序列的选中变体文库成员，所选成员形成变体子文库。

任选地，解析选中变体文库的步骤可以包括：

构建选中变体文库的氨基酸位置变体图谱，产生选中变体图谱；

基于前导序列的结构或结构集合的Cα或Cβ或重原子在特定距离截止值(8-4.5)范围内的接触图谱，将选中变体图谱解析成子变体图谱的片段。结构模型或前导结构模板在4.5，优选5，更优选6，和最优选8的距离内。

在另一实施方案中，该方法包含以下步骤：

提供前导抗体的重链(V_H)或轻链(V_L)可变区的氨基酸序列，前导抗体具有已知的三维结构；

提供V_H或V_L区序列不同于前导抗体的一个或多个抗体的3D结构；

通过组合前导抗体和一个或多个抗体的结构形成结构集合；将结构集合定义为前导结构模板；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

将前导序列与多个试验蛋白质序列比较；

选择分数等于或好于前导序列的选中变体文库成员。

[路线VII要求如图2B所示使用前导序列从序列至结构至功能空间的顺序步骤]

在具体实施方案中，该方法包含以下步骤：

a)提供前导抗体的重链(V_H)或轻链(V_L)可变区的氨基酸序列，前导抗体具有已知的三维结构；

b)鉴定前导抗体的CDR中的氨基酸序列；

c)选择前导抗体V_H或V_L区中的CDR之一；

d)提供包含所选CDR中至少3个连续氨基酸残基的氨基酸序列，将所选氨基酸序列定义为前导序列；

e)将前导序列与多个试验蛋白质序列比较；

f)从多个试验蛋白质序列中选择至少两个与前导序列具有至少10％序列同一性的肽片段，所选肽片段形成选中文库；

g)基于在前导序列每个位置出现的氨基酸变体频率，构建选中文库的氨基酸位置变体文库；

h)组合选中文库中的氨基酸变体以产生形成选中变体文库的选中变体的组合；

i)使用得分函数确定选中变体文库的成员是否在结构上与前导结构模板相容；

j)选择分数等于或好于前导序列的选中变体文库成员；

k)构建包含编码选中变体文库所选成员的氨基酸序列的DNA片段的简并核酸文库；

l)测定核酸文库的多样性，如果多样性高于1×10⁶，重复步骤j)至l)直至核酸文库的多样性等于或低于1×10⁶；

m)将简并核酸文库中的DNA片段导入宿主生物体细胞；

n)在所述宿主细胞中表达DNA片段以使在宿主生物体细胞中生产含有选中文库的氨基酸序列的重组抗体；

o)选择以高于10⁶M^-1的亲和力结合靶抗原的重组抗体；和

p)如果未发现以高于10⁶M^-1的亲和力结合靶抗原的重组抗体，重复步骤e)至o)。

在另一具体实施方案中，该方法包含以下步骤：

a)提供前导抗体的重链(V_H)或轻链(V_L)可变区的氨基酸序列，前导抗体具有已知的三维结构，定义为前导结构模板；

b)鉴定前导抗体的CDR中的氨基酸序列；

c)选择前导抗体V_H或V_L区中的CDR之一；

d)提供包含所选CDR中至少3个连续氨基酸残基的氨基酸序列，所选氨基酸序列定义为前导序列；

e)通过用一个或多个不同的氨基酸残基替代前导序列的一个或多个氨基酸残基突变前导序列，产生前导序列突变文库；

f)使用第一个得分函数确定前导序列突变文库的成员是否与前导结构模板结构相容；

g)选择分数等于或好于前导序列的前导序列突变体；

h)将前导序列与多个试验蛋白质序列比较；

i)从多个试验蛋白质序列中选择至少两个与前导序列具有至少10％序列同一性的肽片段，所选肽片段形成选中文库；

j)基于在前导序列每个位置出现的氨基酸变体频率，构建选中文库的氨基酸位置变体图谱；

k)组合选中文库中的氨基酸变体以产生选中变体的组合；

l)结合所选前导序列突变体和选中变体的组合以产生选中变体文库；

m)使用第二得分函数确定选中变体文库的成员是否在结构上与前导结构模板相容；

n)选择分数等于或好于前导序列的选中变体文库成员；

o)构建包含编码选中变体文库所选成员的氨基酸序列的DNA片段的简并核酸文库；

p)测定核酸文库的多样性，如果多样性高于1×10⁶，重复步骤n)至p)直至核酸文库的多样性等于或低于1×10⁶；

q)将简并核酸文库中的DNA片段导入宿主生物体细胞；

r)在宿主细胞中表达DNA片段以使在宿主生物体细胞中生产含有选中文库的氨基酸序列的重组抗体；

s)选择以高于10⁶M^-1的亲和力结合靶抗原的重组抗体；和

t)如果未发现以高于10⁶M^-1的亲和力结合靶抗原的重组抗体，重复步骤e)至s)。

在本发明的还有另一方面，提供基于前导抗体构建突变抗体文库的计算机实现的方法。在一个实施方案中，该方法包含：

将包含前导抗体CDR区域中至少3个连续氨基酸残基的氨基酸序列作为输入，所述氨基酸序列为前导序列；

利用计算机可执行的逻辑比较前导序列和多个试验蛋白质序列；

从多个试验蛋白质序列中选择至少两个与前导序列具有至少15％序列同一性的肽片段；和

产生作为输出的形成选中文库的所选肽片段。

按照上述方法中任何一种，前导序列的长度优选为5-100aa，更优选6-80aa，最优选8-50aa。

按照上述方法中任何一种，通过使用Kabat标准或Chothia标准进行鉴定CDR中氨基酸序列的步骤。

还按照上述方法中任何一种，前导序列可包含来自前导抗体V_H或V_L中特定区域，CDR1，CDR2或CDR3，或来自CDR和FR组合，如CDR1-FR2，FR2-CDR2-FR3，和全长V_H或V_L序列的氨基酸序列。前导序列优选包含所选CDR中至少6个连续氨基酸残基，更优选所选CDR中至少7个连续氨基酸残基，最优选所选CDR中所有氨基酸残基。

还按照上述方法中任何一种，前导序列可另外包含至少一个紧邻所选CDR的氨基酸残基。

还按照上述方法中任何一种，前导序列可另外包含至少一个侧邻所选CDR的FR。

还按照上述方法中任何一种，前导序列可另外包含一个或多个邻近所选CDR的C-末端或N-末端的CDR或FR。

还按照上述方法中任何一种，前导结构模板可以是全组装前导抗体或前导抗体重链或轻链可变区(例如CDR，FR及其组合)的3D结构。

还按照上述方法中任何一种，多个试验蛋白质序列包括优选抗体序列，更优选人抗体序列，和最优选人种系抗体序列(V-数据库)，特别是关于构架区。

还按照上述方法中任何一种，从NIH的genbank或SwissProt数据库或关于抗体CDR的Kabat数据库中检索多个试验蛋白质序列。

还按照上述方法中任何一种，比较前导序列与多个试验蛋白质序列的步骤是通过选自由BLAST，PSI-BLAST，图谱HMM，和COBLATH组成的组的算法来实现。

还按照上述方法中任何一种，选中文库中所选肽片段与前导序列的序列同一性优选至少25％，优选至少35％，最优选至少45％。

还按照上述方法中任何一种，该方法另外包含下列步骤：

将核酸或简并核酸文库中的DNA片段导入宿主生物体细胞中；

在宿主细胞中表达DNA片段以使含有由核酸或简并核酸文库编码的选中文库的氨基酸序列的重组抗体在宿主生物体细胞中生产；和

选择以高于10⁶M^-1，优选10⁷M^-1，更优选10⁸M^-1，最优选10⁹M^-1的亲和力结合靶抗原的重组抗体。

重组抗体可以是完全组装的抗体，Fab片段，Fv片段，或单链抗体。

宿主生物包括能够表达转移的外源基因序列的任何生物或其细胞系，包括但不限于细菌，酵母，植物，昆虫，和哺乳动物。

重组抗体可以是完全组装的抗体，Fab片段，Fv片段，或单链抗体。例如重组抗体可以在细菌细胞中表达和在噬菌体颗粒的表面上展示。在噬菌体颗粒上展示的重组抗体可以是在V_H和V_L之间形成的双链杂二聚体。通过分别与V_H和V_L链融合的两条非抗体多肽链之间形成的杂二聚体可促进V_H和V_L链的杂二聚体化。例如，这两个非抗体多肽可以分别来源于杂二聚体的受体GABA_B R1(GR1)和R2(GR2)。

备选地，在噬菌体颗粒上展示的重组抗体可以是含有通过肽接头连接的V_H和V_L的单链抗体。通过单链抗体与GR1的融合和噬菌体pIII衣壳蛋白与GR2的融合之间形成的杂二聚体可以促进噬菌体颗粒表面上单链抗体的展示。

筛选针对的靶抗原包括小分子和大分子如蛋白质，肽，核酸和多糖。

在本发明的还有另一方面，提供计算机可读介质。该计算机介质包括基于前导抗体构建突变抗体文库的逻辑，所述逻辑包含以下的逻辑：

将包含前导抗体的CDR中至少3个连续氨基酸残基的氨基酸序列作为输入，该氨基酸序列为前导序列；

将前导序列与多个试验蛋白质序列比较；

产生作为输出的形成选中文库的所选肽片段。

在本发明还有的另一方面，提供能够以高于10⁶M^-1的结合亲和力结合人血管内皮生长因子(VEGF)的单克隆抗体。单克隆抗体可以是完全组装的抗体，Fab片段，Fv片段或单链抗体(scFv)。

在一个实施方案中，单克隆抗体的重链CDR3包含选自由SEQ ID Nos：36-48和63-125组成的组的氨基酸序列。

在另一实施方案中，单克隆抗体的重链CDR1包含选自由SEQ ID Nos：19-30组成的组的氨基酸序列。

在还有的另一个实施方案中，单克隆抗体的CDR2包含选自由SEQ IDNos：31-35组成的组的氨基酸序列。

任选地，单克隆抗体的重链CDR3包含选自由SEQ ID Nos：36-48和63-125组成的组的氨基酸序列，单克隆抗体的重链CDR1包含选自由SEQID Nos：19-30组成的组的氨基酸序列。

还任选地，单克隆抗体的重链CDR3包含选自由SEQ ID Nos：36-48和63-125组成的组的氨基酸序列，单克隆抗体的重链CDR2包含选自由SEQ ID Nos：31-35组成的组的氨基酸序列。

还任选地，单克隆抗体的重链CDR1包含选自由SEQ ID Nos：19-30组成的组的氨基酸序列，单克隆抗体的重链CDR2包含选自由SEQ ID Nos：31-35组成的组的氨基酸序列。

在另一实施方案中，针对VEGF的单克隆抗体的重链可变区(V_H)包含SEQ ID No：126的氨基酸序列，针对VEGF的单克隆抗体的轻链可变区(V_L)包含SEQ ID No：127的氨基酸序列。

在还有另一个实施方案中，针对VEGF的单克隆抗体的重链可变区(V_H)包含选自由SEQ ID Nos：126，128，129，130，和131组成的组的氨基酸序列，针对VEGF的单克隆抗体的轻链可变区(V_L)包含SEQ ID No：127的氨基酸序列。

通过使用本发明的方法设计的抗体可以用于诊断或治疗性处理各种疾病，包括但不限于癌症，自身免疫病如多发性硬化，类风湿性关节炎，系统性红斑狼疮，I型糖尿病，和重症肌无力，移植物抗宿主疾病，心血管疾病，病毒感染如HIV，肝炎病毒，和单纯疱疹病毒，细菌感染，变态反应，II型糖尿病，血液病如贫血症。抗体也可以用作与诊断或治疗部分连接的偶联物，或与化学治疗剂或生物制剂联合。抗体可以配制成通过各种各样的给药途径传递。例如，抗体可以口服，局部，肠胃外，腹膜内，静脉内，动脉内，透皮，舌下，肌内，直肠，透颊，鼻内，经吸入，阴道，眼内，经局部传递(例如通过导管或支架)，皮下，intraadiposally，关节内，或鞘内施用或共同施用。

按照上述实施方案中的任何一种，可以合成或在任何生物体的细胞中表达设计的蛋白质(例如抗体)，所述生物包括但不限于细菌，酵母，植物，昆虫，和哺乳动物。具体类型的细胞包括但不限于果绳(Drosophilamelanogaster)细胞，酿酒酵母(Saccharomyces cerevisiae)和其它酵母，大肠杆菌(E.coli)，枯草芽孢杆菌(Bacillus subtilis)，SF9细胞，C129细胞，293细胞，脉孢菌(Neurospora)，BHK，CHO，COS，和HeLa细胞，成纤维细胞，Schwanoma细胞系，无限增殖哺乳动物骨髓和淋巴细胞系，Jurkat细胞，肥大细胞和其它内分泌和外分泌细胞，和神经元细胞。哺乳动物细胞的实例包括但不限于，所有类型的肿瘤细胞(特别是黑素瘤，骨髓性白血病，肺癌，乳腺癌，卵巢癌，结肠癌，肾癌，前列腺癌，胰腺癌和睾丸癌)，心肌细胞，内皮细胞，上皮细胞，淋巴细胞(T-细胞和B-细胞)，肥大细胞，嗜酸性粒细胞，血管内皮细胞(vascular intimal cell)，肝细胞，白细胞，包括单核白细胞，干细胞如造血干细胞，神经干细胞，皮肤干细胞，肺干细胞，肾干细胞，肝干细胞和肌干细胞，破骨细胞，软骨细胞和其它结缔组织细胞，角质细胞，黑素细胞，肝细胞，肾细胞，和脂肪细胞。

优选地，按照本领域技术人员已知的方法在表达后纯化或分离设计的蛋白质。纯化方法的实例包括电泳，分子免疫学和层析技术，包括离子交换，疏水，亲和和反相HPLC层析法，和层析聚焦。所需纯化程度将取决于设计的蛋白质的应用。在一些情形中，不需要纯化。

还按照上述实施方案中的任何一种，可以筛选设计的蛋白质的期望功能，优选生物学功能如它们与已知结合配体的结合，生理活性，稳定性图谱(pH，热，缓冲液条件)，底物特异性，免疫原性，毒性等。

在使用基于细胞的测定的筛选中，基于改变的细胞表型，优选以某一可检测和/或可测量的方式，可以选择设计的蛋白质。表型改变的实例包括但不限于，总物理变化如细胞形态、细胞生长、细胞生存力，与基质或其它细胞的粘附、和细胞密度的变化；一种或多种RNA、蛋白质、脂质、激素、细胞因子或其它分子的表达变化；平衡状态(即半衰期)或一种或多种RNA、蛋白质、脂质、激素、细胞因子、或其它分子的变化；一种或多种RNA、蛋白质、脂质、激素、细胞因子、或其它分子的定位变化；一种或多种RNA、蛋白质、脂质，激素、细胞因子、受体、或其它分子的生物活性或特异活性的变化；离子、细胞因子、激素、生长因子、或其它分子的分泌变化；细胞膜电势、极化、完整性或转运的变化；病毒和细菌病原体的感染性、敏感性、潜伏期、粘附、和摄取的变化。

按照上述实施方案中任何一种，可以合成或作为与标记蛋白质或肽的融合蛋白表达设计的蛋白质(例如抗体)。标记蛋白质或肽可以用于设计蛋白质的鉴定、分离、信号、稳定、柔性增加、降解增加、分泌增加、转运或胞内保留或表达增加。

附图简述

图1A-D举例说明了可以用于本发明选择具有期望功能的蛋白质的方法的四种实施方案。图1A-D中的前导可以是前导序列或来自多个基于结构的对比的序列图谱。选中文库，选中变体文库I和II在定义部分定义。

图1E-H举例说明了四种可能用于本发明筛选具有期望功能的蛋白质的方法的实施方案。这里前导是指结构或结构模型或结构集合或图谱(多个重叠结构)，来自前导结构或结构集合(ensemble)的相应的序列或序列图谱于是可以用于筛选关于基于结构筛选选中序列文库的所有可能的序列或随机组合。获得的选中变体文库可以用于直接实验筛选或与来源于相应的前导序列或序列图谱的序列选中图谱比较(参见图2A-C)。结构模板是指来自实验测定和/或模拟的结构、结构集合(多于2个结构)。

图2A是本发明提供的计算机蛋白质进化系统的示意性概述。显示序列、结构和功能空间之间的三角关系来举例说明通过序列、结构和功能空间从前导结构/前导结构图谱或前导序列/前导序列图谱至候选序列的可能路线。

在序列空间中，前导序列或图谱用于搜索特定的数据库中进化相关的序列。基于前导结构的结构对比的序列图谱可以用于搜索前导序列的远同源物。选中文库的变体图谱描述了氨基酸序列的位置频率和熵。可以在给定截止值下将变体图谱过滤和重新作图以提供进化优选的变体图谱。可以使用各种搜索方法对相关序列数据库重复该程序。

在结构空间中，使用基于结构的筛选随机或进化富集的序列文库，产生计算机上的变体图谱。可以过滤和改进变体图谱以提供在结构上优化的变体图谱。该程序可以用更好的得分函数和代表性的结构集合重复和改进。

使用基于进化或结构的方法产生的变体图谱可以以顺序(2B：从序列至结构至功能空间；2C：从结构至序列至功能空间)或平行方式(从序列空间至功能空间和从结构空间至功能空间)使用，以提供氨基酸的总变体图谱或文库。通过使用优选或优化的密码子，将获得的氨基酸变体图谱反翻译成核酸文库。该程序可以使用不同的过滤和划分方法重复，以将文库大小调整到实验易管理的范围内。

为了在功能空间中选择功能突变体，通过转化和功能表达或例如在噬菌体颗粒上展示，将合成的核酸文库导入载体。进行数轮针对固定化抗原选择和富集。可以重复和改进整个或部分程序直至用实验选择所需候选物。

图2B.在本发明中对于抗体文库设计提供的方法实施方案的示意图。顺序方法从序列首先移动至结构再至功能空间。设计从前导序列或前导图谱(来自基于结构对比的多个对比的序列)开始。通过搜索序列数据库产生选中文库。在特定截止值下选中文库提供的选中图谱将产生选中变体文库。使用前导结构或结构集合作为模板结构，可以在计算机上筛选选中文库或选中变体文库。基于它们与模板结构或结构集合的相容性将获得的序列文库排序。选择分数好于或等于前导序列的序列并作图以产生核酸(NA)文库。评估计算机NA文库大小，如果文库大小可以接受，继续寡核苷酸合成。否则，将选中变体文库重新划分成较小部分和产生较小的NA文库。在功能空间，用实验筛选核酸文库，将阳性序列反馈到计算循环中进行文库改进。强阳性克隆继续进一步评估和潜在治疗开发。如果在实验筛选中无选中出现，针对靶系统选择前导或其新的前导图谱和重复方法。

图2C.本发明提供的用于抗体文库设计的方法的另一实施方案的示意图。一个备选的顺序方法从结构首先移至序列和至功能空间。设计从前导结构或结构集合开始。对于它们与结构模板的相容性，在计算机上筛选靶位点随机突变的组合。产生得分好于或等于前导序列的序列的变体图谱。该变体图谱可以与通过搜索序列数据库提供的那些比较和/或结合。基于序列和结构空间中显示的共有频率可以包括或排除新的突变体以产生核酸文库。剩余步骤类似于在图2B中所述的那些。该方法强调通过基于结构的计算机筛选而不依赖进化序列信息来发现新突变体的重要性。来自搜索数据库的序列图谱将帮助评估从计算机筛选获得的变体图谱，该计算机筛选依赖于得分函数的准确性以及所用采样算法。

图3举例说明了在计算机上通过使用单个前导或基于结构对比的前导图谱的数据库搜索构建选中文库的方法。将搜索结果分类并去除冗余序列(即使背景不同)以产生选中文库中的单一序列表。前导序列/序列图谱、序列搜索方法和不同数据库的影响在图4-6中显示。

图4举例说明了基于来自选中文库的变体图谱构建选中变体文库I的方法，该选中文库用于分析氨基酸的进化位置优选。通过基于选择标准过滤衍生出改进的变体图谱，该选择标准包括在每个位置氨基酸变体的频率、变化熵和能量分数。选中变体文库II是用计算机从改进的变体图谱中计算出来的。

图5举例说明了用于结构评估和选择选中变体文库I或II来产生结构筛选型式(version)的选中变体文库II的方法。计算机选择使用简单的以及定制能量函数(custom energy function)来对应用于前导结构模板的选中变体文库I或II序列评分和排列。对于每个序列，使用依赖于主链的旋转异构体文库产生侧链，针对模板背景将侧链和主链能量最小化以缓解任何局部应变。使用简单以及定制的能量函数将选中变体文库I和II在模板结构中的适应度记分并排列。选择几个“最佳”序列的集合来构建新的用于翻译成核酸(NA)文库的选中变体文库II。选择标准可以包括序列聚簇(clustering)，结构因素或功能因素。对氨基酸序列的集合重新作图以产生实验上易处理的限度内的核酸文库(图6)。

图6举例说明了通过从选中变体文库II反翻译构建核酸(NA)文库的方法。意欲氨基酸至核酸的反翻译将核酸文库的大小保持在实验易处理的限度内，同时优化偏爱密码子使用。计算核酸文库的大小并保持在实验范围内或者通过减小变体数量或分成更短片段改进选中变体图谱。通过使用结构相关的片段或系列重叠的序列相关片段完成划分。

图7是在几个适应度景观(landscape)区对文库取样的策略综述。如果组合氨基酸或其简并核酸文库可以设计来采样较大功能空间，所选肽序列的适应度景观可以被扩展而覆盖更大的适应度景观。从设计文库中策略取样导致重叠和扩展的多样性，其可以包括功能空间适应度景观中显著的进化跳跃。

图8显示用于抗体工程的典型文库质粒的模块元件。可以分别或重复组合设计构架和CDR序列的文库。FR＝构架区。CDR＝互补性决定区。RE＝限制酶位点。

图9A是V_H CDR中亲代和成熟抗-VEGF抗体之间的序列比较。“c”表示抗原-抗体复合体的原子在X-射线结构中在4.5A范围内接触。粗体字突出了亲代和成熟抗体之间在V_H CDR(CDR1和CDR3)中的氨基酸的差别。V_H CDR的编号遵循kabat惯例和顺序方案(100，101而不是100，100a等)。

图9B是亲代和成熟抗-VEGF抗体之间在V_H CDR3及它的相邻区域的序列比较。来自亲代抗体的序列(SEQ ID NO：5)是用于搜索数据库的前导序列。V_H CDR的编号也是此处使用的Kabat和顺序方案。

图10A是显示选中文库频率分布对它们相对于亲代抗-VEGF抗体V_HCDR3前导序列的序列同一性(以％表示)的曲线图。前导序列在图9B中表示，图谱HMM(HAMMER2.1.1)用于搜索Kabat数据库(Johnson，G和Wu，TT(2001)Nucleic Acids Research，29，205-206)。

图10B举例说明了在图10A中表示的选中文库序列的进化系统树，以便显示图10A中数据库搜索产生的选中文库的系统发生多态性。

图11显示基于亲代抗-VEGF抗体的V_H CDR3前导序列产生的选中文库的107个序列的变体图谱。上部显示列出在前导序列的每个位置20种氨基酸的氨基酸频率的表。底部的变体图谱显示了氨基酸位置多样性。组合文库的完整列举而不选择性控制氨基酸多样性(在图左下部显示)将要求10¹⁹数量级的文库大小。图的右下部显示通过使用10的截止频率获得的过滤的变体图谱。过滤选中表的107个成员中出现10次或10次以下的所有位置氨基酸。如果仅使用抗体结构，该过滤的变体图谱可以进一步用计算机筛选以反映结构相容性的等级次序，或如果使用抗体和抗原之间的复合体结构可以反映与抗原的结合亲和力。变体图谱未显示与如图9A所示抗原和抗体之间的接触位点的关联。

图12A和12B显示使用在CONGEN中执行的Amber94力场总能量的得分函数，在缺乏(A)和存在VEGF抗原(B)下，分别在亲代(1bj1)和成熟(lcz8)抗体结构中抗-VEGF抗体变体文库的典型得分曲线图。成熟(M)和亲代(P)序列的分数用箭头标注。在两个模板结构中均缺乏和存在抗原的条件下，成熟序列得分好于亲代序列。图12C显示在缺乏和存在抗原下变体文库的分数之间的关联。

图12D和E显示本文所用简单得分函数也通常与使用成熟抗体(lcz8)的模板结构的选中文库改进的得分函数相关联(图10&11)，尽管相关性曲线中的一些分散提示涉及溶剂化等的一些术语应当添加至简单得分函数中以改善相关性。

图13A显示本发明的方法如何可以从计算机筛选的抗-VEGF V_HCDR3选中变体文库中选择最优的10个序列用于实验筛选，以证明可以选择不同于亲代或成熟序列的多样的功能序列。列出了氨基酸变体图谱和相应的简并核酸中的变体文库。在图右上部分的能量图从左至右显示计算机筛选的10个所选序列的能量分布，它们的变体氨基酸组合文库，核酸组合文库和选自体外实验筛选的阳性克隆。用箭头表示对应于在能量图中表示的序列库中每一个的序列文库。图13B&C分别显示计算机对V_H CDR1和CDR2筛选变体文库的最优10个序列，关于抗-VEGF抗体的V_H CDR1和CDR2文库的氨基酸变体图谱和简并核酸的对应的变体文库。

图14A显示UV读取ELISA阳性克隆，其是在使用设计的核酸文库编码的V_H CDR3的第1轮和第3轮选择功能抗-VEFG ccFv抗体中鉴定的(图13A)。底部数字表示96-孔(8×12)ELISA板的列号。不同的条纹表示不同的行。

图14B显示通过图13A所示核酸文库的噬菌体展示，来自第1轮和第3轮选择的阳性克隆的V_H CDR3序列。清楚的是选择到许多不同的序列，其在几个位置具有不同于亲代和成熟抗-VEGF抗体的V_H CDR3(图9A&B)的很大变化。

图14C举例说明了阳性克隆的进化系统树，显示筛选的序列的多样性。来自图14 A&B所示V_H CDR3的所选阳性克隆的序列同一性相对于亲代V_H CDR3序列为57-73％，包括N-末端CAK和C-末端WG残基(参见图9B)。

图15A-B是显示将在第1和第3轮中筛选的序列的来源分类成3组的饼分图：设计的氨基酸序列，来自设计序列的组合的氨基酸序列，和由合成的简并核酸文库编码的新组合氨基酸序列。A：用来自3个文库的阳性克隆的实验选择的序列分布进行第1轮体外筛选的V_H CDR3克隆。B：用来自3个文库的阳性克隆的实验选择的序列分布进行第3轮体外筛选的V_H CDR3克隆。因为仅选择来自每轮的有限数量的阳性克隆用于序列分析，数字仅用于举例说明来自设计的、它的组合氨基酸和核酸文库的所选序列的大致百分比。

图16A是列出来自图13A-C所示简并核酸的V_H CDR1，CDR2和CDR3文库的实验选择的氨基酸序列的表。图16B显示从V_H CDR1，CDR2和CDR3文库中选择的序列分别相对于抗-VEGF V_H CDR 1，2，和3的对应亲代序列的序列同一性分布。清楚的是可以用实验选择不同于对应亲代序列的功能性多样序列。

图17A显示4种不同文库(设计的氨基酸序列，设计序列的氨基酸变体组合文库，和编码单一氨基酸序列的组合简并核酸文库和整个简并核酸文库)之间的图解关系和X所示实验选择的阳性克隆的分布。最里面的(加条纹的)环表示例如基于选中变体文库的能量分数选择的设计氨基酸序列文库。划阴影的环表示从计算机筛选选中变体文库中选择的序列的组合氨基酸文库。第3(打点的)环表示编码单一组合氨基酸文库的组合氨基酸文库。最外面的环表示来源于反翻译氨基酸文库的所有氨基酸序列的简并核酸文库。最外面的对第3个(打点环)的相对大小取决于从氨基酸至核酸序列的反翻译步骤的效率，还考虑其它因素如密码子使用。“X”表示实验选择的序列。例如，来自第3轮的抗-VEGF V_H CDR3文库在此处显示(参见图17B中的表)。不同文库之间的分布取决于选择条件，文库设计的有效性，所选克隆对文库的相对大小或测序克隆的数量等。

图17B显示描绘4种文库(图17A)之间关系和对于抗-VEGF V_H CDR1，2，和3文库实验选择阳性克隆的序列的分布的表。“AA_Seq/Comb”列表示通过计算机筛选的所选氨基酸序列(设计文库I)的数量和所选序列的重组序列(变体文库II)的数量。“NN_seq/肽_seq”列表示简并核酸文库的核酸序列的数量，和由简并核酸文库编码的单一氨基酸序列。“exp_seq”列表示实验选择的来自阳性克隆的单一序列数量。“所选序列的分布”列表示来自设计的氨基酸序列的单一序列、它们的氨基酸变体的组合文库和编码单一肽序列的简并核酸的组合文库的数量。

图18显示关于抗-VEGF V_H CDR3文库在方法的不同阶段，序列适应度分数的进化，从左至右：前导序列，选中文库，选中变体文库I，从计算机筛选中选择的序列(阴影条带)，所选序列的组合文库(选中变体文库II)，编码组合氨基酸序列的组合核酸文库，和实验选择的序列。将前导序列用于从序列数据库中鉴定进化选中文库。基于选中文库的多样性设计计算机上的组合文库。分数好于前导序列的计算机筛选的序列的子集被用于产生组合氨基酸文库。使用简并核酸合成策略产生编码组合氨基酸文库的简并核酸文库以扩展多样性。实验筛选文库导致具有可能改善功能的序列。

图19A显示从基于结构的多重序列对比产生的前导序列图谱。将前导序列的结构基序用于搜索蛋白质结构数据库(PDB数据库)中在特定距离截止值范围内的类似结构。使用V_H CDR3的C_α原子重叠5种结构。每种结构和V_H CDR3结构基序(品红色)之间的平均均方根差(RMSD)约为2。在右边显示相应的多重序列对比，以及它们的PDB ID和对应的颜色。

图19B显示选中文库的251个单一序列的变体图谱，所述选中文库是基于亲代抗-VEGF抗体的V_H CDR3的前导序列图谱产生的。上部显示列出了在前导序列的每个位置20种氨基酸的氨基酸频率的表。图下部显示通过使用5％的频率截止值或在该情形中为12获得的过滤的变体图谱。去除选中表251个成员之间出现12次或12次以下的所有位置的氨基酸。该过滤的变体图谱可以使用结构集合进一步用计算机筛选。

图19C显示来自选中文库的序列相对于亲代V_H CDR3序列(图9B)的分布。环表示使用HMM搜索的单一亲代序列可以鉴定高达36％的序列同一性。三角形表示使用来自基于结构的多重序列对比的前导序列图谱可以发现可达～20％的甚至更低的序列同一性。此处所用的序列搜索策略可以发现与前导序列具有远同源性的(低至20％)多种选中序列。

图19D显示产生位于序列、结构和功能空间的交集内的聚焦(focused)文库的常规策略。如图19A-C所示，通过使用基于结构的多重对比增加选中序列的多样性。可以扩增序列和结构空间的多样性，在所有3个空间的交集中可以鉴定好的选中序列。

图20是描述不同抗原结合单元(Abu)构型的图示。注意用于本发明方法的两种新展示系统：ccFv系统，在GR1和GR2之间具有二硫键的杂二聚体卷曲螺旋型稳定的Fv，和GMCT系统，接头介导的scFv展示系统。

图21描述用于构建本发明ccFv Abu的GABA_b受体1和2的核苷酸和氨基酸序列。卷曲螺旋序列来源于人GABA_b-R1和GABA_b-R2受体。来自GABA_b受体的编码氨基酸序列写成粗体字。将柔性GlyGlyGlyGly间隔臂加至R1和R2杂二聚化序列的氨基末端以帮助功能性Fv杂二聚体形成。为了进一步稳定杂二聚体，我们引入ValGlyGlyCys间隔臂以通过二硫键锁定杂二聚体卷曲螺旋对。GGGG间隔臂的N-末端的另外的SerArg编码序列为GR1和GR2结构域分别与V_H和V_L片段的羧基末端的融合提供XbaI或XhoI位点。

图22 A-B分别描述抗-VEGF ccFv抗体AM2的V_H和V_L的核苷酸和氨基酸序列。

图23A是噬菌粒载体pABMD 12的图示。

图23B描述pABMD 12载体的序列。

图24描述噬菌体展示的AM2 ccFv和scFv与固定化的VEGF抗原结合能力的比较。结果显示ccFv可以被组装和在噬菌体颗粒上展示。

图25A描述使用来自模型文库淘洗的AM2-ccFv噬菌体的ELISA的结果。结果显示在模型文库的淘洗中展示AM2-ccFv抗体的噬菌体的富集。

图25B显示来自1/10⁷模型文库淘洗的PCR结果，其显示可以从模型文库中选择试验序列。

图26描述使用来自文库淘洗的噬菌体的ELISA的结果。结果显示从V_H CDR1，CDR2文库中选择出VEGF-结合的噬菌体(对于V_H CDR3参见图14A)。

图27(同图16A)是列出实验选择的设计编码抗-VEGF V_H CDR1，CDR2和CDR3文库的克隆的氨基酸序列的表(参见图13A-C)。

图28A显示复合的抗-VEGF V_H CDR3文库的序列文库。因为文库大小太大而不能被一个或几个简并核酸文库覆盖，将变体图谱划分成3个部分，它们的变体图谱在图28A中显示。基于在图28A右侧所示的在8范围内C_α原子的接触图划分部分。图28A还显示抗-VEGF V_H CDR3的带状图以及8范围内C_α原子之间的接触距离。该方法提供基于结构拓扑学将大的变体图谱分成较小部分的常规途径。低分辨率的结构或结构模型可以用于本文目的，因为对于序列分割仅需要拓扑学特征的结构约束以便捕获在初级序列如N-和C-末端残基较远而在环中接近的共变(covariant)。

图28B包括可以含有成对变体(1-3)的N-和C-末端。列出了氨基酸文库和核酸文库的变体图谱，以及文库和最后合成的简并寡核苷酸的组合大小。图28C包含部分(4)和图28D包含另一部分(5)。所有三个部分被大小小于10⁶的核酸文库所覆盖：3个简并核酸文库靶向图28B中的(1-3)，而一个分开的简并核酸文库靶向图28 C-D中的(4)和(5)。

图29总结了用于淘洗ccFv文库L14的方法和条件以及每次淘洗的富集因子。通过将图28B-D所示的所有5个简并寡核苷酸合并在图28A-D中构建L14文库。

图30显示选自使用ccFv展示平台的文库L14的第5和7次淘洗的V_HCDR3变体的氨基酸序列。注意在第5次淘洗以后，所有变体位于位置101。在第7轮后仅选择两个变体，S101R和S101T。

图31显示来自淘洗V_H CDR3文库L14的HR(H97，S101R)噬菌体的富集。突出了HR和亲代抗体WT(还参见图9B)在第0，5和7轮的富集。

图32显示对于单链抗体文库的新的卷曲螺旋结构域相互作用介导的展示(CDIM)接头定向的展示系统的简图。仅表达载体pGDH1在大肠杆菌细菌中的转化感染允许在细菌周质间隙表达和生产与GR1融合的可溶性蛋白。另外用表达与GR2和其它噬菌体蛋白质融合的工程外壳蛋白的Ultra辅助噬菌体载体超感染相同细菌允许在丝状噬菌体表面上展示抗体片段(或其它蛋白质)，接着在细菌的周质间隙合成噬菌体颗粒。

图33A显示GMCT-Ultra辅助噬菌体质粒的图谱。构建体包含编码另一拷贝的工程基因III的核苷酸序列和邻近野生型基因III序列的核糖体结合序列-OmpA前导序列，所述工程基因III与KO7kpn噬菌体载体中的接头GR2和myc蛋白质标签融合。图33B显示遗传修饰的KO7Kpn区域，用于在核苷酸和氨基酸序列水平上生产GMCT-Ultra辅助噬菌体。

图34A&B显示pABMX14的蛋白质表达载体图谱(A)和完整的核苷酸序列(B)，其包括用于抗生素选择的氨苄青霉素抗性基因(Amp)，质粒复制起点(ColE1 ori)，f1噬菌体复制起点(f1 ori)，lac启动子/lac O1控制蛋白质表达盒(plac-RBS-pelB-GR1-DH)，还显示限制性内切核酸酶位点。可以使用NcoI/XbaI或NcoI/NotI或XbaI/NotI限制位点插入编码目的蛋白质的核苷酸序列。

图35A总结了用于淘洗scFv文库L17的方法和条件，以及每轮的富集因子(A)。V_H CDR3区域中L17文库的序列完全与L14的序列相同(参见图28A-D)。图35B显示淘洗方法的流程图。

图36显示使用接头介导的噬菌体展示系统，通过分别从两个平行步骤4和5中脱离速率(off-rate)淘洗的选自文库L17的V_H CDR3变体的氨基酸序列。注意在脱离速率淘洗4中，用位于位置97和/或101(在Kabat命名法中为100a)的变体选择序列。在脱离速率淘洗5中，用位于101(100a)和/或102(100b)和/或103(100c)的变体选择序列。分别从淘洗4和淘洗5中选择成熟序列中两个重要突变体YS(H97Y-S101)和HT(H97-S101T或H97-S100aT)。这两个位置的变体组合可以提供V_H CDR3中的成熟序列H97Y和S100aT(图9B)。但在划分的部分中有意避免该组合(参见图28A-D)。此外，注意HR(H97-S 100aR)的出现频率(3/1)再次高于HT(H97-S100aT)，成熟序列(图9B)，与在图30中的淘洗7的类似观察(7/3)一致。

图37显示含有抗-VEGF抗体的V_H CDR3(FR123)的4种抗体的亲和力数据，这些抗体是通过ccFv展示形式使用BIAcore生物传感器从设计文库中选择的。在25℃下纯化的抗体与其固定在CM5生物芯片上的抗原(VEGF)结合时，通过测量SPR单位(y-轴)对时间(x-轴)的变化来完成测量。使用1∶1 Langmuir结合模型从数据拟合(data fitting)中测定结合速率和脱离速率的变化。X50是ccFv形式并且包含图22A和22B所示V_H和V_L的亲代序列。X63含有V_H CDR3中的H97Y和S101T，Kd提高6.3倍(参见图9B)，剩余部分与X50相同。X64含有V_H CDR3中的S101R突变体，相对于对照X50提高2.5倍；提高几乎完全来自结合速率(on-rate)的增加。X65含有H97Y和S101R，在相同条件下使用ccFv形式显示相对于X50的10倍的提高，其结合亲和力比最好的报导的亲和力成熟V_H CDR3序列的突变组合X63(H97Y和S101T)(参见Chen等上文(1999)J.Mol Biol 293，865-881)要强。

图38A显示基于Kabat命名法定义的重链可变区的构架区FR123，以及用于比较的报导的(Baca等上文，1997)人源化的随机文库。在图9B中显示以A4.6.1表示的鼠抗-VEGF VH构架FR123序列。用作本文亲代和对照构架fr123的人源化抗体(以下称为“人源化抗-VEGF抗体”)在文献中报导(参见Presta等上文，1997)。在FR123序列上面注释的序列号是基于kabat命名法(kabataa)和包括它的连续顺序和它CDR中的氨基酸。图38B显示对选中文库重做图(reprofiled)的变体图谱，该选中文库是使用基于鼠抗-VEGF抗体的V_H FR123前导序列的人VH种系序列产生的。底部的变体图谱显示氨基酸位置多样性。图的下部显示分别使用5和13的截止频率获得的过滤的变体图谱。过滤掉在选中表成员之中出现5次或更少次或(13次或更少次)的所有位置氨基酸。图38B-续显示对选中文库作图的变体图谱，该选中文库是在未截止下使用基于鼠抗-VEGF抗体的V_H FR123前导序列的人VH种系序列产生的，但每个位置的变体使用总能量和范德瓦耳斯能量，基于其与抗体结构的结构相容性排序。该排序突出出现频率低的某些氨基酸在结构上在稳定构架支架、保持优化是重要的。图38C显示选中文库的变体图谱，该选中文库是使用基于鼠抗-VEGF抗体的V_H FR123前导序列的Kabat-衍生的人VH序列，使用截止值为19的过滤变体图谱产生的。鼠VHFR123序列在虚线上作为对照列出，使用连续数字注释位置。所有氨基酸变体在虚线以下列出。变体中的点表示与对照相同的氨基酸。图38D显示使用来自截止值为5的人VH种系序列的过滤的变体图谱的设计者文库(参见图38B)。在FR123序列上面注释的序列号是基于kabat命名法(kabataa)和包含其的连续顺序和它CDR中的氨基酸。如果仅使用抗体结构，该过滤的变体图谱可以进一步用计算机筛选以反映结构相容性的排列次序。还包括在截止值5下从过滤的变体图谱中遗漏的两个氨基酸，F70(F69)和L72(L71)，因为它们是这些位置上基于结构得分最优选的氨基酸。对于来自基于结构的筛选的100个最佳排名的序列，最终提交的文库还包括F70(F69)，L72(L71)，S77(S76)和K98(K94)(括号中的数字表示基于kabat命名法的序列号)，因为一些氨基酸如R在计算中对于L72(L71)和K98(K94)过度预测，如先前对于VH CDR3亲和力成熟中K94R所讨论的。

图39A描述使用人VH种系序列的鼠抗-VEGF的VH构架fr123选中序列的得分图的分布，见x-轴中第1列较密分布的蓝条，以及鼠和人源化的构架fr123(参见Presta等上文)序列和广泛使用的人VH种系DP47的得分图的分布，见x-轴中第0列较稀分布的蓝条，它们使用1bj1(上图)和lez8(下图)作为模板结构，在缺乏(最左列)和存在(中间列)VEGF抗原的条件下进行。将存在和缺乏抗原的条件下序列的分数关联(在最右列)，显示用于构架优化的抗体结构对于大多数构架优化足够，因为它们具有与抗原的最小的接触。组合序列文库的得分图未在此显示。

图39B在左图中描述了基于文库序列和对照鼠VH FR123序列之间差异的等级得分，和在x-轴中的种系发生间距(将它们与对照连接的距离(还参见图14C)，鼠VH FR123，报导的人源化VH FR123(Presta等，上文1997和Chen等上文1999)和排名最佳的200个设计者序列和包括广泛使用的称为DP47的VH人种系的人VH3种系。在种系发生分析中来自基于结构筛选一个人种系变体图谱(AA-PVP)的排名最佳的200个序列与人VH3种系家族聚簇(红色环)，而前导鼠抗体构架离设计序列(当仅包括出现频率高的人种系VH序列和来自1bi1的人源化序列(参见Presta等，上文))的种系发生间距在遗传学上较远，尽管通过包括具有较低出现频率的氨基酸如F70(F69)和K98(K94)种系发生间距将稍微变化(参见图42C和D)。y-轴显示大多数设计的构架VH fr123相对于鼠对照和人源化构架VH fr123具有与结构良好的结构相容性，接近DP47。这些支持对于本文所述本发明方法构架优化的类似人的特征，其部分由它所用数据库确定。

图40A&B显示重叠的用于文库组装的寡聚物，抗-VEGF的重链可变区(VH)文库的核酸和氨基酸序列。DNA序列的简并位置分别用S(C或G)，R(A或G)，M(A或C)，Y(C或T)，K(G或T)，W(A或T)表示；编码的相应氨基酸残基用“X”标记。CDR区域以粗体字表示。HindIII和StyI分别是文库的上游和下游克隆位点。

图41关于抗-VEGF VH的噬菌体展示文库的淘洗总结。P1至P8表示第1至第8轮淘洗。用于包被的VEGF浓度和文库噬菌体的量(输入)随着淘洗的进展而减小。所有洗涤条件从在PBST中简单漂洗10次开始，，以在PBS中简单漂洗10次结束，之后进行结合的噬菌体的洗脱。在所有情形中在37℃下进行温育2小时。在第8次淘洗中，将文库与竞争性噬菌体以5的比率混和温育。

图42A来自抗-VEGF VH噬菌体展示文库淘洗的选中克隆的全长序列。测序数据获自分别分离自第7次和第8次噬菌体展示文库淘洗的克隆。CDR区域(CDR1，2，和3)采用的序列保持与如本文所述文库构建中的鼠抗-VEGF抗体序列(参见图9B)相同。选中率是特定克隆在指定淘洗阶段中的出现率。

图42B来自抗-VEGF VH噬菌体展示文库淘洗的选中位置的总结。字母表示特定位置(用字母后的数字表示，其是基于在注释的连续和kabat命名法中如图38A所示抗-VEGF重链可变区的氨基酸序列的线性顺序)的氨基酸残基。公开的抗-VEGF VH鼠序列及其相应的人源化形式分别在左边第一和第二列列出，与人免疫球蛋白家族III相同位置的优势残基(dominant residues)对比。测序数据获自分别分离自第5次，第6次，第7次，和第8次噬菌体展示文库淘洗的克隆。字母前面的数字表示取样中特定残基的选中率(％)(^*通过PCR差错产生)。

图42C如所注释，来自抗-VEGF噬菌体展示文库的淘洗的最佳选中VH序列，以及人种系VH3家族，鼠抗-VEGF VH构架FR123和人源化VH构架fr123的种系发生分析。如图42C所示，如所期望的，人种系VH3家族在种系发生间距方面聚簇在一起。所选优化的VH构架还与人源化的VH序列(参见注释)聚簇在一起，在种系发生间距上非常接近人种系VH3家族，而鼠VH构架非常远离优化的VH构架和人种系。这支持以下结论：本发明方法在设计优化的具有完全人的或类似人的优化抗体序列的构架中，取决于人类似性和与结构模板或来自集合结构或结构平均的模板的相容性之间的精确平衡。图42B显示这些序列在另外的树图中的种系发生间距，对一些良好表征的序列D36，D40和D42和相关序列做注释。D36在其种系发生间距方面与报导的人源化序列同样人源化或稍好一点。

图43A显示使用ccFv噬菌体展示系统(参见以上图23-25的描述)从设计者VH优化文库中选择的抗-VEGF抗体的优化VH构架(FR123)的序列。D36，D40和D42的VH fr123，以及原有鼠抗体VH FR123和人源化序列(Presta等上文)具有来自鼠抗体的相同CDR。下图中的点表示氨基酸与对照相同(鼠VH构架fr123)。

图43B显示5种抗体的亲和力数据，这5种抗体是亲代抗体(X50)和抗-VEGF抗体的优化构架(D36，D40，D41和D42)，其使用BIAcore生物传感器选自设计者文库(关于它们的序列参见图43A和图43B中的注释)。在25℃下纯化的抗体与其固定在CM5生物芯片上的抗原(VEGF)结合时，通过测量SPR单位(y-轴)对时间(x-轴)的变化来完成测量。使用1∶1 Langmuir结合模型从数据拟合中测定结合速率和脱离速率的变化。2种人源化构架D36和D40经构架优化后在结合亲和力(ccFv形式)方面比亲代/对照抗-VEGF抗体序列高约4倍(参见关于文献((Presta LG，Chen H，O′Connor SJ，Chisholm V， Meng YG，Krummen L，Winkler M，Ferrara N(1997)Cancer Res.57，4593-4599)中报导的人源化抗-VEGF抗体构架的图22A&B)，而D42差不多与对照抗体相同。因为报导的人源化抗-VEGF抗体(图22A&B)比它相应的鼠抗体弱约2倍，这两种人源化抗体应当在人源化以后具有比对应的鼠抗体高约2倍的结合亲和力。

图44显示优化的VH构架(D36和D40)增加的稳定性。y-轴显示在纯化抗体在4，37和42℃温育17小时后，亲代X50和优化构架(D36和D40)在25℃下保持与使用BIAcore的固定化VEGF抗原结合活性的抗体百分比。显示优化的构架比报导的人源化VH构架(Presta等上文，1997)具有更高的稳定性。

图45显示优化的VH构架提高的表达。优化的构架(D36，D40和D42)还显示相对于亲代/野生型抗体(X50)的提高的表达，如通过SDS-PAGE/考马斯兰染色检测的产率表达所示。

图46显示所选针对人VEGF的抗体的VH和VL的氨基酸序列。

定义

结构簇：一组基于某些经验选择(empirically chosen)的均方根差(RMSD)截止值(例如对比的残基的C_α原子)和统计学显著性(Z-分数)聚簇成家族的结构。这些值是在目的结构之间的总体比较以后经验决定的。几个程序可以用于搜索结构簇。对于CE(组合扩展)算法(ShindyalovIN，Bourne PE(1998)Protein Engineering 11，739-747)，所用标准是RMSD＜2和Z-分数＞4。MAPS(多重蛋白质结构对比)是多个蛋白质结构比较的自动化程序。该程序可以自动将常规结构类似性的3d模型重叠，检测哪个残基在所有结构之间结构等价和提供残基对残基的对比。按照所有蛋白质的主链和侧链原子的近似位置确定结构等价的残基。按照结构相似性，该程序计算结构多样性分数，其可以用于构建进化系统树(Lu，G.(1998)″An Approach for Multiple Alignment of Protein Structures″)。在结构聚簇中，分析结构簇中的成员以理解关于家族内所有结构模板分布和结构家族内对它们的序列或序列图谱的约束的一些共有信息。

集合结构：众所周知在NMR(核磁共振)结构测定中，结构集合而不是单个结构，可能全部符合NMR数据和保持良好立体化学的几个成员，在蛋白质数据库中存放。该集合中模型之间的比较在通过NMR约束如何充分测定蛋白质构象方面提供一些信息。应当指出所有对应于NMR-测定的集合结构的序列具有相同序列(具有可变构象的一种蛋白质)。除了如来自NMR测定或来自分子动力学模拟，具有相同序列但由于天然形状波动而结构不同的那些结构以外，结构集合在此另外是指具有序列和/或长度变化但具有类似主链构象的不同蛋白质。

集合序列：统计学定义靶蛋白某一性质如稳定性或结合亲和力的序列群体。

集合平均或代表性结构：如果结构簇内的所有成员具有相同长度的氨基酸，将所有结构的主链原子的原子位置平均，然后将平均模型调整以符合正常的键距和角度(“约束最小化”)，类似于NMR-测定的平均结构。如果结构簇中的所有成员氨基酸的长度不同，将选择一个成员作为代表性的结构，该成员代表簇内所有其它成员的平均特性。

正则结构：高变区常规出现的主链构象。

结构库(repertoire)：一类蛋白质具有的所有结构的集合，如对于抗体构架和CDR观察到的模块结构和正则结构。

序列库：蛋白质家族序列的集合。

功能库：蛋白质执行的所有功能的集合，其在此处例如对于抗体是指能够结合各种抗原的不同功能的CDR。

种系基因片段：是指来自种系(单倍体配子和形成它们的那些二倍体细胞)的基因。种系DNA含有编码单个免疫球蛋白重链或轻链的多个基因片段。这些基因片段在生殖细胞中携带但直至它们排列成功能基因，不能转录和翻译成重链和轻链。在骨髓B-细胞分化过程中，这些基因片段通过能够产生多于108种特异性的动态遗传系统随机改组(shuffle)。这些基因片段序列的大多数可以从种系数据库中获得。称为V-基因数据库的可变重链和轻链基于序列同源性分成亚族。

重排免疫球蛋白序列：在B-细胞分化和成熟过程中通过转录和翻译种系基因片段产生的重链和轻链中的功能性免疫球蛋白基因序列。此处所用的大多数重排免疫球蛋白序列来自Kabat-Wu数据库。

BLSAT：用于成对序列分析的基本的局部对比搜索工具。Blast使用具有独立于位置的得分参数的启发式算法来检测两个序列之间的相似性，使用的缺省参数为：期望(Expect)10，代码大小3得分矩阵BLOSUM62(Word Size 3 Scoring matrix BLOSUM62)，对于存在11和延伸1的差额成本(Gap costs for existence 11 and extension 1)。

PSI-BLAST：位置特异的迭代BLAST，或PSI-BLAST程序进行迭代搜索，其中在一轮搜索中发现的序列用于构建用于下一轮搜索的得分模型。在PSI-BLAST中算法不依赖于特定的得分矩阵。传统上，它已经使用AxA替代矩阵实现，其中A是字母大小。PSI-BLAST然而使用QxA矩阵，其中Q是查询序列的长度；在每个位置字母的成本取决于关于查询的位置和本序列的字母。已经调整两个PSI-BLAST参数：假计算(pseudocount)常数缺省值已经从10变至7，包括PSI-BLAST模型中匹配的E-值阈值已经从0.001变至0.002。

能量景观(landscape)：其中峰和井定义分子集合状态的能量分布。认为能量景观可以提供折叠过程的完整描述以及局部结构状态的描述，而常规优化或最小化结构仅描述局部能量最小中许多可能状态的集合中单一的结构种类。

适应度/适应度分数：实验可观察到的分子性质如稳定性、活性和亲和力的度量。

适应度景观：由分子其它内在参数如序列定义的适应度分数的分布。

序列空间：参见序列库。

结构空间：参见结构库。

功能空间：参见功能库。

前导序列：用于搜索序列数据库的序列。

变体图谱/序列图谱/位置变体图谱(PVP)：一组肽序列每个位置的氨基酸熵的描述。这包括氨基酸(AA-PVP)或核酸(NA-PVP)的范围和频率。

选中文库/选中表：通过使用前导序列或序列图谱搜索序列数据库发现的序列集合。

选中变体文库I/文库I：计算机上的氨基酸序列文库，其衍生于选中文库的变体图谱的组合列举。

选中变体文库II/文库II/设计的氨基酸文库/改进的氨基酸文库：计算机上的氨基酸序列文库，其作为重作图(re-profiling)或特定设计的结果衍生于选中变体文库I。变体的重作图可以通过以下步骤完成：1)基于能量等级用特定的截止值选择序列簇或含有关键氨基酸残基的一个窗口(awindow of)的序列，2)包括通过功能性筛选鉴定的特定位置的残基，和/或3)包括或排除残基或序列簇，如通过本领域技术人员使用进行该测定可获得的其它任何方法所测定的。

选中变体文库III/文库III：由用于功能筛选的简并寡核苷酸文库(以下)体外表达的氨基酸序列文库。由于反翻译，优化密码子使用，核苷酸水平上的重组和表达获得的组合核酸文库，文库III扩展了文库II的序列空间。

简并核酸/寡核苷酸文库：用于靶向对应于设计氨基酸文库(以上文库II)的氨基酸变体图谱的混和寡核苷酸文库。它来源于对应的核酸位置变体图谱的组合列举，该核酸位置变体图谱由文库II的氨基酸位置变体图谱使用优化密码子反翻译而来。

组合氨基酸/肽文库：由氨基酸位置变体图谱的完全组合列举产生的文库。文库I和II是这种文库。

组合核酸/寡核苷酸文库：由核酸位置变体图谱的完整组合列举产生的文库。

DNA改组：一种从亲代序列混合物中通过多次重复寡核苷酸片段化和同源重组产生重组寡核苷酸的方法(Stemmer WP(1994)Nature 370，389-391)。

计算机上合理文库设计：一种设计数字氨基酸或核酸文库的方法，其结合进化、结构和功能数据以便定义和有效取样序列和结构空间中的集合以便鉴定具有所需适应度的那些。

图谱隐马尔可夫模型(Profile Hidden Markov Model)(图谱HMM)：一种基于蛋白质序列图谱的序列家族初级结构保守的统计学模型。它对于氨基酸和对于断开和扩展插入和缺失使用位置特异的分数，以基于多重序列对比的共有序列的统计学描述检测远的序列同源物。通过多重序列对比程序如Clustal W或通过结构聚簇提供基于结构的多重序列对比来提供多重序列对比。

穿线法(Threading)：一种通过使用得分函数将其序列穿线至可能的结构模板文库来指定蛋白质折叠的方法，该得分函数结合序列以及局部参数如二级结构和溶剂暴露。穿线方法从预测氨基酸序列的二级结构和查询序列的每个残基的溶剂可及性开始。将得到的预测结构的一维(1D)图谱穿线成已知3D结构文库的每个成员。使用动态编程获得对每个序列-结构对优化的穿线法。总体最好的序列-结构对构成对于查询序列的预测的3D结构。

反穿线法：一种通过将它们穿线在给定靶结构和/或结构簇上从序列数据库中搜索最优序列的方法。可以使用各种得分函数来从包含具有不同长度的蛋白质序列的文库中选择最优序列。

侧链旋转异构体：以侧链的二面角或χ角定义的氨基酸侧链的构象。

旋转异构体文库：对于来源于蛋白质结构数据库中侧链构象分析的所有氨基酸的侧链旋转异构体的分布，其基于称为主链依赖型旋转异构体文库的主链二面角φ(phi)Ψ(psi)或独立于称为主链非依赖型旋转异构体文库的主链二面角。

参见Dunbrack RL和Karplus M(1993)JMB 230，543-574。

发明详述

本发明提供有效产生和筛选蛋白质文库中具有改善生物学功能的优化蛋白质的系统和方法，所述功能如对生物学和/或治疗学上重要的靶分子的改善的结合亲和力。该方法通过挖掘不断膨胀的所有生物、特别是人类的蛋白质序列数据库，以高通量的方式在计算机上进行。结合数据库挖掘来自天然的进化序列和计算机设计的天然序列的结构相关变体，本发明的方法代表从蛋白质文库的计算机设计和功能筛选的其它方法的明显背离。

通过使用该创新方法，基于对极其多样的蛋白质序列和功能相关结构的计算机评估在计算机上可以构建蛋白质如抗体的偏爱文库。该基于集合的在计算机上文库构建和筛选的统计学方法绘制出蛋白质序列和结构空间的适应度和能量景观的分布，该目标对于体外或体内筛选几乎不能实现。在计算机上筛选后，构建基于编码所选蛋白质的序列的扩展的核酸文库，导入表达系统和体外或体内筛选具有改善或新的功能的蛋白质。

图1是一系列概括本发明方法的各种实施方案的流程图。基于具有已知序列和/或结构的前导序列，根据图1所示的至少四种不同路线(路线I-IV)可以构建蛋白质文库和筛选具有期望功能的候选物。

在一个实施方案中，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)可变区的氨基酸序列；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区的CDR中的一个；

将前导序列与多个试验蛋白质序列比较；和

该方法可以另外包含以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸文库。

图1A的路线I用示意图表示了该实施方案。按照该实施方案，提供具有已知序列和结构的前导蛋白质(例如抗体)。筛选丰富的蛋白质序列库(例如人抗体库)与前导蛋白质所选片段(以下称为“前导序列”)的不同同一性。从该筛选中，使用序列对比方法如隐马尔可夫模型或HMM可以选择一列具有不同程度同源性的蛋白质序列(以下称为“选中文库”)。然后将选中文库的氨基酸序列对前导序列作图以显示前导序列的每个位置氨基酸残基的变化。如在以下部分7中更详细地描述，选择一些或所有作图的选中文库序列并反翻译成用于体外或体内功能性筛选的核酸文库。

任选地，该方法可以另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

通过将氨基酸位置变体反翻译成它们相应的遗传密码子，将选中文库的氨基酸位置变体图谱转变成核酸位置变体图谱；

图1B中的路线II用示意图表示了该实施方案。按照该实施方案，在将选中文库的氨基酸序列对前导序列作图以后，基于每个残基位置的氨基酸频率(也称为氨基酸位置变体图谱或AA-PVP)构建组合文库(以下称为“选中变体文库I”或“文库I”)。使用该方法选中变体文库I实质上大于选中文库。通过改进(例如过滤)AA-PVP以偏向每个位置优选的突变体，基于更高频率观察到的那些，显示进化偏爱，产生减小的变体图谱，它的组合列举导致选中变体文库II。将选中变体文库II图谱反翻译成用于体外或体内功能筛选的核酸文库。

任选地，遗传密码子可以是优选在细菌中表达的遗传密码子。任选地，遗传密码子可以是能够减小所选大小的遗传密码子，其使得DNA片段的简并核酸文库的多样性在实验上无需过度实验努力可覆盖的多样性范围内，优选低于1×10⁷，优选低于1×10⁶。

在另一实施方案中，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)可变区的氨基酸序列；

鉴定前导抗体的CDR和FR中的氨基酸序列；

选择前导抗体V_H或V_L区的CDR中的一个；

将CDR前导序列与多个CDR试验蛋白质序列比较；

选择前导抗体的V_H或V_L区中FR之一；

将FR前导序列与多个FR试验蛋白质序列比较；和

合并CDR选中文库和FR选中文库以形成选中文库。

该方法可另外包含以下步骤：

构建包含编码选中文库的氨基酸序列的DNA片段的核酸文库。

任选地，该方法可以另外包含以下步骤：

构建CDR选中文库的氨基酸位置变体图谱；

通过将氨基酸位置变体反翻译成它们相应的遗传密码子，将CDR选中文库的氨基酸位置变体图谱转变成第一个核酸位置变体图谱；和

任选地，遗传密码子可以是优选用于在细菌中表达的遗传密码子。任选地，遗传密码子可以是能够减小所选大小的遗传密码子，其使得DNA片段的简并核酸文库的多样性在实验上无需过度实验努力可覆盖的多样性范围(＜10⁶或10⁷)内，低于1×10⁷，优选低于1×10⁶。

在还有另一实施方案中，方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)的可变区的氨基酸序列；

鉴定前导抗体的FR中的氨基酸序列；

选择前导抗体V_H或V_L区中的FR之一；

将第一个前导FR序列与多个FR试验蛋白质序列比较；和

该方法可以另外包含以下步骤：

提供含有不同于所选FR的FR中至少3个连续氨基酸残基的第二个氨基酸序列，所选氨基酸序列是第二个FR前导序列；

将第二FR前导序列与多个FR试验蛋白质序列比较；和

合并第一FR选中文库和第二FR选中文库以形成选中文库。

还按照该方法，前导FR序列可包含所选FR中至少5个连续的氨基酸序列。所选FR可以选自由前导抗体的V_H FR1，V_H FR2，V_H FR3，V_H FR4，V_LFR1，V_L FR2，V_L FR3和V_L FR4组成的组。

该方法可另外包含以下步骤：

在一个实施方案中，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)的可变区的氨基酸序列；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的FR之一；

提供前导序列的三维结构；

基于前导序列的结构构建前导序列图谱；

将前导序列图谱与多个试验蛋白质序列比较；和

按照该方法，构建前导序列图谱的步骤可以包括：

将前导序列的结构与多个试验蛋白质片段的结构比较；

测定前导序列和试验蛋白质片段的主链构象的均方根差；

任选地，构建前导序列图谱的步骤可以包括：

比较前导序列的结构和多个试验蛋白质片段的结构；

测定前导序列和试验蛋白质片段的主链构象的Z-分数(score)；

该方法可以另外包含以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸文库。

任选地，方法可另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

以上方法中任何一种可以另外包含以下步骤：

将核酸或简并核酸文库中的DNA片段导入宿主生物的细胞中；

在一个实施方案中，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)的可变区的氨基酸序列，具有已知三维结构的前导抗体被定义为前导结构模板；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

将前导序列图谱与多个试验蛋白质序列比较；和

选择得分等于或好于或等于前导序列的选中文库成员。

按照该方法，得分函数是选自以下各项的能量得分函数：静电相互作用，范德瓦耳斯相互作用，静电溶剂化能，溶剂可及表面溶剂化能，或构象熵。

任选地，得分函数是结合选自以下各项力场的函数：Amber力场，Charmm力场，Discover cvff力场，ECEPP力场，GROMOS力场，OPLS力场，MMFF94力场，Tripos力场，MM3力场，Dreiding力场，和UNRES力场，以及其它基于知识的统计学力场(均场)和基于结构的热力学势函数。

ΔE_总＝E_vdw+E_键+E_angel+E_静电+E_溶剂化

还按照该方法，选择选中文库成员的步骤包括选择具有比前导序列结合自由能低的选中文库的成员，使用改进的得分函数所述结合自由能计算为结合和未结合状态之间的差，

ΔG_b＝ΔG_MM+ΔG_sol-TΔS_ss

其中

ΔG_MM＝ΔG_ele+ΔG_vdw(1)

ΔG_sol＝ΔG_ele-sol+ΔG_ASA(2)

该方法可以进一步包括以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸文库。

图1C中的路线III用示意图表示该实施方案。按照该实施方案，通过替代来自旋转异构体数据库的侧链将选中文库的序列构建至前导蛋白质的3D结构中，对它们与前导蛋白质的3D结构(以下称为“前导结构模板”)的结构相容性记分。基于结构评估，通过按照能量函数的分数排名对选中文库重作图。选择选中文库中具有理想能量函数的一些序列并反翻译成用于体外或体内功能筛选的核酸文库。在该实施方案中没有氨基酸序列组合步骤。

任选地，该方法可以另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

在还有另一个实施方案中，该方法包含：

在一个实施方案中，该方法包括以下步骤：

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

将前导序列与多个试验蛋白质序列比较；

选择分数等于或好于前导序列的选中变体文库成员。

按照该方法，组合选中文库中氨基酸变体的步骤包括：

该方法可以另外含有以下步骤：

图1D中的路线IV用示意图表示了该实施方案。按照该实施方案，在将选中文库的氨基酸序列针对前导序列作图以后，选中变体的组合文库，即选中变体文库I。基于每个残基位置上氨基酸出现的频率构建选中变体文库II(如路线III)。通过替代旋转异构体数据库的侧链将选中变体文库II的序列构建至模板蛋白质的3D结构中，并对它们与前导结构模板的结构相容性记分。基于结构评估，通过按照能量函数的分数排名对选中变体文库II重作图。选择重作图的选中变体文库II中具有理想能量函数的一些序列并反翻译成用于体外或体内功能筛选的核酸文库。基于本领域技术人员测定的其它选择因素，可以施加对文库II变体图谱的另外改进。因此文库II是基于进化、结构、和/或功能数据设计的文库。

基于在计算机上产生的所选选中表或选中变体文库II的序列，可以在实验室中构建抗体的合成文库，并针对靶抗原筛选。可以将各种各样的生物学测定用于高通量筛选，如噬菌体展示(Smith和Scott(1993)MethodEnzymol.217：228-257)，核糖体展示(Hanes和Pluckthun(1997)Proc.Natl.Acad.Sci.USA 94：4937-4942)，酵母展示(Kieke等(1997)Protein Eng.10：1303-1310)，和其它胞外或胞内表达系统。

在另一个实施方案中，该方法包含以下步骤：

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

将前导序列与多个试验蛋白质序列比较；

基于在前导序列每个位置出现的氨基酸变体频率，构建选中文库的氨基酸位置变体文库；

选择分数等于或好于前导序列的选中变体文库成员。

该方法，即计算机预测数字抗体文库和实验筛选合成抗体文库，可以重复以改善所选抗体的结合亲和力。在第一轮筛选后，可以在计算机上模拟所选一个抗体或多个抗体的三维结构。此外，通过扩展序列和构象空间和将它进行靶抗原的软停靠(soft docking)以产生第二代数字抗体文库，可以改进结构。第二代数字抗体文库然后可以用实验筛选以选择具有比第一代所选抗体亲和力高的抗体。这种结构改进和针对抗原筛选的重复过程有效模拟脊椎动物中抗体成熟的天然过程。

本发明的概念框架和实际应用在下列部分中详细描述。

1.本发明的概念框架

本发明提供对分子生物学领域、特别是蛋白质折叠和设计方面长期存在的问题的创造性解决方案。本发明人开发的方法将蛋白质折叠和设计最好的思想结合成有效的综合系统，其可以以高通量和有效成本的方式开发用于实际应用的新蛋白质产品。

本发明人认为分子生物学的中心问题是制定生物聚合物如蛋白质、RNA和DNA分子在它们序列和结构方面的功能库。生物聚合物的功能库由进化期间选择压力的复杂相互作用和对折叠的物理约束和在各种环境条件下生物聚合物的稳定性决定。天然生物聚合物和随机聚合物之间的差别是什么？探索天然存在的生物聚合物的功能、序列和结构空间的丰富多样性以产生具有稳定结构和适当生物学功能的新的生物聚合物的最佳策略是什么？对这些问题的回答是在分子设计和进化、特别是发现具有增强结合和催化活性的新蛋白质中的根本目的。

本发明在下列三个步骤中论述这些问题：1)讨论构成蛋白质折叠和进化基础的一般概念框架以提供理解本发明所需的基本知识；2)描述当前用于蛋白质折叠和设计的实验和理论方法和关于这些方法的问题；和3)概述解决蛋白质设计和工程中一些长期存在的问题的本发明方法。

1)蛋白质折叠和进化

蛋白质是履行多种生物学功能的基本分子。蛋白质通过将它们的线性序列折叠成独特的三维结构获得它们的生物学功能。从序列预测蛋白质结构仍然是一个未解决的问题。然而，特别是随着折叠途径中中间体和过渡态集合的统计学解释的到来，在理解蛋白质折叠的机理方面已经获得重要进展。

在实验和理论研究中已经很好地记录了溶液中蛋白质构象的动力学性质。蛋白质构象的动态波动可能对于履行它们的某些生物学功能是关键性的，所述生物学功能如蛋白质-蛋白质和蛋白质-核酸相互作用中的变构调节(Monod，J.，Wyman，J.，和Changeux，J.P.(1965)J.Mol.Biol.，12：88-118)，和酶促活性中的构象控制(gating)(Zhou，H-X，Wlodek，S.T.，McCammon，J.A.(1998)PNAS 95，9280-9283.)。

对于描述蛋白质折叠机理，连续集合法优于传统的离散态方法，因为它不仅提供与静态x-射线结构相比更逼真的生物聚合物视图，而且提供描述增长量的实验室观察结果的一般框架，否则这些观察结果将难以解释(Hong Qian(2002)Protein Science 11，1-5)。该视图强调在理解大分子生物学功能方面使用在能量景观上构象集合连续分布的统计学性质的重要性(Baldwin RL(1995)5，103-109 J Biomol.NMR；Pande VJ etc(1998)Curr.Opin.Struct.Biol.，8，68-79)。

用于研究杂聚物凝固和设计的随机能量模型(REM)为蛋白质折叠和设计提供极好的近似物理模型(参见Vijay S.Pande，Alexander Yu.Grosberg，和Toyoichi Tanaka，Review of Modern Physics，Vol.72，No.1,2000和其中的参考文献)。基于杂聚物凝固过渡的统计学性质，已经从蛋白质折叠和设计的简单模型的定量研究中了解到很多。与集中(populating)一组严格定义的能井(energy well)的一些离散态的传统视图相比，在连续能量谱中分布的集合构象状态间的相变提供了蛋白质折叠和结合性质的更逼真的描述。REM景观提示任何设计的序列折叠成动力学可及和热力学稳定的构象的必要和充分条件是在上部显示连续能量谱和在下部显示明显的能量最小值的能量分布(参见Vijay S.Pande，Alexander Yu.Grosberg，和Toyoichi Tanaka，Review of Modern Physics，Vol.72，No.1,2000和其中的参考文献；Shakhnovich和Gutin，1993 PNAS，90，7195-7199)。因此，序列应当设计成扩大设计序列的基态和REM连续能量谱的底部之间的能隙。通过降低序列天然构象的能量(对稳定性正设计)或提高序列交替构象的能量(对特异性负设计)来扩大能隙。

在最近重新(de novo)计算机蛋白质设计中严格遵照衍生于该蛋白质折叠简单模型的一般规则：保持氨基酸的组成不变同时最小化能量(KoehlP&Levitt M(1999)J Mol Biol 293，1161-1181)。据认为确定与给定结构相容的序列的集合特征比发现特定的最佳序列更重要(Koehl P&Levitt M(1999)J Mol Biol 293，1183-1193)。设计的序列的多重对比定义一个序列空间，其通过信息熵测量；该序列空间的子集在大小方面类似于来源于天然观察到的相同结构对比的序列空间(Koehl P；Levitt M(2001)PNAS 1-6)。该工作显示拓扑学和稳定性定义给定折叠的序列空间，而可以通过功能适应度定义序列空间的子集。然而，该方法通过保持氨基酸的组成不变而对每个位置的氨基酸的选择造成了太多限制。

理论和进化生物学家已经积极地探求蛋白质进化的动态性质(Maynard-Smith，J(1970)Nature，225，563-564)。将序列(基因型)绘制成测量适应度景观的值是进化生物学的核心问题。尽管基因型和表型之间的关系太复杂而通常不能通过定量方法分析，然而该关系可以简化至序列(基因型)和结构(表型)之间的关系，因此，适应度值可以如下所述用于对给定形状的生物聚合物的序列适应度记分：

基因型(序列)←适应度分数→表型(结构)

天然观察到的蛋白质已经在选择压力下进化而履行特定功能。有趣地，已经绘制功能蛋白质的适应度景观并使用类似蛋白质折叠领域的工具模拟。在序列空间中绘制出适应度景观以便定义将增强蛋白质功能性质的突变体集合。序列集合的统计学性质已经用于描述靶蛋白质序列空间中的中性网络(neutral network)(Stadler P F.Journal of MolecularStructure(Theochem)463，7-19(1999)；J Theor Biol 2001，212，35-46)。

景观理论中内含三个基本要素：一组构型；分配给各种构型的适应度函数(fitness function)；和定义构型之间距离或关系的构型之间的连通性。适应度函数可以广泛地定义为蛋白质的性质如两个蛋白质(受体和配体；抗原和抗体)之间的结合亲和力，酶的催化活性，或目的支架的结构稳定性。

从进化角度来看，产生自绘制天然RNA和蛋白质的序列-结构关系的适应度景观预测在部分相关景观下进化的序列空间中中性网络的存在，提供向新的适应度函数适应进化的有效途径。相反，在无中性邻点的崎岖适应度景观下进化的随机序列被捕获于局部优化，在序列空间中导致局部群体。天然序列在选择压力下已经通过爬山(mountain climbing)过程进行进化优化。经序列改变达到新适应度函数的有效途径是遵照序列空间中的中性网络而不是通过随机突变(Stadler P F.Journal of Molecular Structure(Theochem)463，7-19(1999)；J Theor Biol 2001，212，35-46；AderonkeBabajide etc(1997)Folding8z；Design 2，261-269)。使用REM以及基于杂聚物的模型可以模拟和比较通过点突变搜索适应度景观对蛋白质空间中基因重组的相对效率(Bogarad L，Deem MW(1999)PNAS 96，2591-2595；Cui Y，Wong WH，Bornberg-Bauer E，Chan HS(2002)99，809-814)。

上述使用简化模型的蛋白质折叠和进化的理论研究已经提供对折叠和进化期间蛋白质结构和序列的集合状态的统计学性质的一些认识。本发明人认为结合分子生物学、自旋玻璃物理学和杂聚物物理学的理论将提供生物聚合物动力学性质的统一框架。问题现在变成如何将这种基于蛋白质模型的概念框架转变成实际方法来绘制序列和结构空间中蛋白质的功能景观。

2)当前本领域用于蛋白质序列设计的实验和理论方法和其中存在的问题

蛋白质工程的一个主要目标是产生具有新的或改善功能的蛋白质。为此，已经使用两种备选方法来获得具有所需性质的蛋白质，主要是酶：体外定向分子进化和基于结构的计算机设计。体外定向进化的方法利用同源序列，随机诱变和基因改组来产生不同序列的文库。以高通量筛选选择具有期望性质的突变体并重新改组。重复该方法直至获得期望水平的功能增强。

定向进化的第一定律声明，“你获得你要筛选的，”强调筛选方法在评估蛋白质文库功能适应度中的重要性(Wintrode，P&Arnold，FH(2000)AdvProtein Chem.55，161-226)。高通量酶促筛选的可用性和改善的灵敏度已导致定向进化的一些成功。与理性工程(rational engineering)相比，定向进化要求很少或不要求另外的信息如靶酶的结构，并且可以在确定的选择压力下从大分子库中直接筛选生物学活性。

对筛选能力的依赖性对产生的组合文库的大小和因此取样功能空间的大小造成上限。因为通过使用易错PCR的随机诱变是有偏向的和效率低的产生多种文库的方法，通过任何单个随机突变导致显著功能改善的概率小并且对于多重同时随机突变迅速降低。还难以同时在核酸水平上在单个密码子位置产生几个突变体。

此外，DNA改组对具有高同源性(＞70％)的序列的同源重组的依赖性限制了可以跨越获得文库的序列空间。结果，每次连续的重复改组和筛选导致在收缩的局部序列空间中取样。这可能对于鉴定新的具有增强性能的同源序列足够，但可能对于鉴定真正新的具有潜在更大功能改进的序列而言不充分。

尽管如此，通过结合随机诱变产生和鉴定了有益的氨基酸替代。累积的有益点突变已经成功地用于进化和筛选许多重要的具有期望性能的酶。除了简单的随机诱变策略以外，通过DNA改组的基因重组，包括组合来自相同或不同种类的多个亲代基因的族改组方法，产生高度改善的生物催化剂(Ness J E Del Cardayre，SB Minshull，J&Stemmer，WPC(2000)AdvProtein Chem 55，261-292)。

作为与蛋白质折叠紧密相关的问题，蛋白质设计被认为是反向折叠问题(Drexler，KE(1981)PNAS 78，5275-5278；Pabo，C.(1983)Nature 301，200)：发现产生靶结构的序列。设计将产生靶支架的蛋白质序列被认为是改造具有改善的广泛应用性能的蛋白质的一个重要步骤。

与反向折叠方案相关的主要问题是需要保持刚性蛋白质主链。因为需要取样的构象空间巨大，由于实际原因，蛋白质的静态X-射线结构仍广泛用作合理基于结构的蛋白质或药物设计的起点。反向蛋白质折叠方法尝试基于描述氨基酸之间相互作用的半经验性所有原子的能量函数，计算与蛋白质结构相容的最优序列。尽管已知天然蛋白质容忍强构象适应的小扰动，然而刚性蛋白质主链的计算基态不足以适应蛋白质主链或侧链旋转异构体的小扰动而提供稳定性的准确度量。

已经进行主链参数化的一些努力以通过调整规则二级结构之间的相对定向来解决这些问题(Harbury，PB，Tidor B.&Kim，PS(1995)ProteinScience 92，8408-8412；Su A&Mayo SL(1997)Prot Sci.6，1701-1707；Harbury PB，Plecs JJ，Tidor B，Alber T，Kim PS(1998)Science 282，1462-1467)。发明人认为对于本发明所示的任何结构类型的蛋白质，对于不规则和主链移动难以一般参数化的蛋白质环，缓解局部约束的一种简单但有效的解决方案是包括主链和侧链的能量最小化(Keating AE，Malashkevich VN，Tidor B，Kim PS(2001)PNAS 98，14825-30)。

除了规则二级结构的一些情形以外(参见下面)，大多数蛋白质设计策略严格遵照序列选择的反向折叠方案，以便减少极大的搜索构象空间的任务。尽管在固定主链下，需要强大的搜索算法，包括随机Monte Carlo或遗传算法和确定性的终端(dead end)消除来搜索经验能量函数的最佳解决方案，所述经验能量函数结合稳定由蛋白质侧链旋转异构体文库组装的蛋白质的各种因素(Ponder，J.W.&Richards，F.M.(1983)J.Mol.Biol.193，775-791；Hellinga，H.W.，Richards，F.M.(1994)PNAS 91，5803-5807；Desjarlais，J.R.&Handel，T.M.(1995)Prot Sci.4，2006-2018；Dahiyat，B.I.&Mayo，S.L.(1996)Prot.Sci.5，895-903)。

对于暴露在表面上的氨基酸，进化压力可能在确定序列选择方面比在核心区域中发挥更大作用，在核心区域中堆积约束导致保守的氨基酸选择。但在表面上具有较少物理约束和高变电荷和极性溶剂化相互作用对暴露的侧链提出挑战性的设计问题。该限制将大多数蛋白质设计方法局限于蛋白质核心，因为空间约束是设计这些位置中的氨基酸的主要决定因素。

一些算法尝试将蛋白质分成不连续区域如核心，边界和表面残基以便使蛋白质结构的不同位点具有不同的得分函数(Dahiyat，B.I.&Mayo，S.L.(1996)Prot.Sci.5，895-903)。然而，对于蛋白质-蛋白质相互作用，重要的残基位于蛋白质表面上，最可能在蛋白质环上，最难或不规则结构类别的蛋白质。在蛋白质之间相互作用以后，一些相互作用的残基变得隐蔽或半暴露，使得难以像蛋白质不连续区域的特定类别的残基那样模拟它们的相互作用。本发明人认为尽管蛋白质环广泛参与介导蛋白质-蛋白质相互作用如抗体的CDR和抗原或细胞因子和它们的受体之间的相互作用，除非结合良好的同源性模型和数据库信息，仅通过使用基于力场的方法，本领域存在的方法仍远不能够高准确度地预测蛋白质环结构的相互作用(vanVlijmen HW，Karplus M(1997)J Mol Biol 267，975-1001)。

考虑到当前力场不能预测蛋白质折叠，蛋白质折叠和设计中的一个永久问题是开发捕获已知有助于蛋白质稳定性的所有因素的能量函数，其预测相比优于实验数据。无论该方法可能多精细，计算蛋白质折叠和未折叠状态的两个大量稳定性之间的小差别在本质上是困难和易错的。如果目的区域位于具有极性和电荷残基的两个蛋白质之间的界面上该困难甚至变得更大，极性和电荷残基的力场参数仍然处于对准确评估的积极研究中。得分函数还可能过拟合(overfit)来自特定试验系统的实验反馈。简而言之，与填充在蛋白质内部的核心相比，准确计算由极性和带电残基占优的蛋白质之间相互作用仍然是本领域困难的任务。本发明人认为在填充蛋白质疏水核心中如此有效的侧链定位算法可能不提供对该现有问题的有效解决方案。

本发明人强调在反向折叠方案中使用固定主链也过分限制侧链旋转异构体的定位和它们之间的空间排斥。这种对侧链旋转异构体的刚性约束是不符合事实的。真实的蛋白质将容许通过溶液中的动力学波动的侧链突变或旋转异构体，其暗示构象状态改变的集合。应当注意规则二级结构元件之间的参数表示法已经用于驱动蛋白质主链的系统折叠(Harbury，P.B.，Tidor，B.&Kim，P.S(1995)；Su&Mayo(1997)Prot Sci.；Harbury P.B.etc(1999)Science 282，1462-1467)。然而，仍然难以在非规则二级结构元件如环上使用这种方法来说明变动的集合态。

考虑到计算方法的限制，不耐烦的进化蛋白质设计者已经选择完全避免理性基于结构的方法和发明一套强大的实验工具。但是无论如何强大，通过随机诱变产生不同文库和通过实验筛选它们是高度无效的方法。在另一方面，通过DNA改组的同源基因重组仅允许序列和结构空间的有限采样。

本发明人认为没有先验物理限制的计算方法可以搜索大得多的序列空间。另外，理性方法的关键优势和主要驱动力量是在实验筛选之前的每步设计和控制序列文库的能力。这允许蛋白质设计者在采样更大距离的蛋白质序列空间中进行更大的虚拟跳跃(virtual jumps)，其可导致发现与起始序列具有很小或无同源性的新序列和结构。另外，可以按照实验反馈控制这些“跳跃”的虚拟大小(virtual size)和方向以沿着功能景观至新的峰值。期望该能力随着提高的计算能力和发展新算法和新软件工具而显著提高。

明显地，计算能力单独不能进行优于体外蛋白质进化实验方法的计算机蛋白质设计，除非可以理解和捕获产生自定向进化的细微但重要的结构扰动。例如，已经显示有益的突变通常不位于催化位点，而是分布在大部分具有扰动蛋白质主链的蛋白质中(Spiller B，Gershenson A，Arnold FH，Stevens R.(1999)PNAS 96，12305-12310)。

在现有技术中，对生物学活性的实验筛选仍然是唯一可靠的可供评估在实验条件下受复杂的竞争因素控制的分子的生物学功能的方法。极其难以在计算方法中同时正确地捕获所有细节和不经过大规模的实验测试鉴别答案。另外，大多数得分函数仅能够计算稳定性而不是活性或特异性。

已经开发一些基于统计学的方法，这有助于说明进化序列设计。使用类似于蛋白质折叠中随机能量模型的简化模型，Bogarad和Deem已经显示具有低能量结构的非同源DNA片段的DNA交换在搜索蛋白质空间中适应度景观方面比通过DNA改组的同源DNA基因重组有效得多，通过DNA改组的同源DNA基因重组又比点突变更好(Bogarad L，Deem MW(1999)PNAS 96，2591-2595)。最近，基于杂聚合物的模型已经用于基于结构的进化方法中明确绘制适应度景观中的序列-结构关系(Cui Y，Wong WH，Bornberg-Bauer E，Chan HS(2002)99，809-814)。发现点突变导致在进化景观上的扩散行走，其中交叉可以穿过减小的适应度的壁垒。能量或适应度景观的平滑度以及交叉和点突变率之间的比率，决定交叉在采样蛋白质序列和结构空间中的有效性。因此，本发明人认为进化序列设计应当不限于点突变和同源基因重组。

实验反馈对于显示任何期望的蛋白质性能改善和改善理论预测和实验测试之间的一致也是关键的(Desjarlais，J.R.&Handel，T.M.(1995)Prot Sci.4，2006-2018；Dahiyat，B.I.&Mayo，S.L.(1996)Prot.Sci.5，895-903；Keating AE，Malashkevich VN，Tidor B，Kim PS(2001)PNAS 98，14825-30)。因此，本发明人认为除非证实(KeatingAE，Malashkevich VN，Tidor B，KimPS(2001)PNAS 98，14825-30)和广泛证明实验和计算值之间的一致，包括不同种类蛋白质的不同区域的极性和带电荷的残基，实验文库应当不限于来自计算的整体最优化或次优化解决方案周围的序列。代之以，应当构建实验文库以包括广泛范围的得分与前导序列一样好或好于前导序列的能量景观分布。

已经开始体外定向进化和计算机序列设计之间的一些会聚。例如，基于结构的重新设计酶通常不是非常有活性(Benson，DE，Wisz，MS&Hellinga HW(2000)PNAS 97，6292-6297；Bolon DN，Mayo SL(2001)PNAS 98，14274-14279)。但这些在不同支架中序列的重新设计可以用作起点和进行活性改善的定向进化(Altamirano，MM，Blackburn，JM，Aguayo C，FershtAR(2000)Nature 403，617-622)。相反，基于结构的计算机方法可以用于鉴定进化设计中集中点突变的潜在位点以便减少定向进化中的搜索空间，尽管发现这些位点不同于来自序列作图的那些。(Voigt CA，Mayo S，Arnold，FH&Wang Z-G(2001)PNAS 98，3778-3783)。

然而，本发明人认为在开始繁重的实验工作之前，应当分析和定量测量用于定向进化的策略。已经采取一些步骤在计算机上模拟DNA改组以优化可能的实验条件和可能的增强限制(Moore，GL，Maranas CD，Lutz S，Benkovic S(2001)PNAS 98，3226-3231)。考虑到可以通过各种方法搜索的巨大的蛋白质空间，重要的是比较每种实验或计算机方法的效率和内在限制以便确定对于手头特定问题的最佳路线。

本发明人还认为，对于基于结构的蛋白质设计，问题的核心在于对于具有不实际假设的复杂问题的确定性方法。众所周知稳定蛋白质的相互作用非常复杂。用于设计的静态结构是在溶液中观察到的动态波动的集合平均，该动态波动可以在与另一蛋白质或配体相互作用后改变。因此，寻找对目标功能最优溶液的思想是有趣的理论挑战，但对于实际的生物学问题可能兴趣不大或实际相关性很小。能量函数的缺陷或使用刚性主链的严格限制或两者将污染对设计问题的“最优解决方案”。因此，再次，本发明人认为实验文库不应当限于来自计算的总体最优或次优解决方案周围的序列，该计算可能由于用于计算的假设和参数导致有偏向。代之以，应当将覆盖优选范围如得分好于或等于前导序列的序列用于实验筛选。

对于进化蛋白质设计，当前设计蛋白质为生物催化剂(例如酶)的方法仍然是一门技术而不是科学。但是一些方法足够强大而足以直接用于解决商业催化剂设计中的现实世界的问题。尽管通过DNA改组和随机诱变的DNA重组已经为功能筛选提供多种蛋白质文库，应当开发更有效的文库产生方法，该方法应当变成可预测的和常规的而不是专门依赖于最终筛选结果。目前，定向进化已经最成功地应用于解决生物催化剂设计，因为较易对酶促活性进行高通量筛选，其中化学反应可以容易地检测。

然而，本发明人认为使用分布在整个蛋白质序列中的突变的定向进化提供的意外解决方案也对进化某些药学感兴趣的蛋白质提出问题。在治疗性抗体设计中，需要限制于特定区域如CDR的突变和对先前惰性构架区的改变可导致可能免疫原性的蛋白质。必须通过乏味的回交程序最小化或减少这些在实验改组期间不希望有的突变体；希望去除这些免疫原突变体将不否定通过艰苦实验努力获得的活性改善。

理性基于结构的蛋白质设计在其发展中已经经受快速演化和已经开始传递一些给人深刻印象的结果。这些年来，在计算机设计具有靶支架的(Dahiyat，B.I.&Mayo，S.L.(1997)Science 278，82-87)和通过改装疏水核显著改善热稳定性的(Malakauskas，S.M.&Mayo，S.L.(1998)Nature Struct.Biol.5，470-475)蛋白质变体和发现自然中还未发现的新支架方面(HarburyP.B.etc(1998)Science 282，1462-1467)已经取得令人激动的进展。对于生物学活性和亲和力设计，已经取得一些有趣的进展，通过设计三种不同构象状态中结合位点周围的残基，扩展该理性方法来影响结合亲和力，三种不同构象状态：开放的、apo-和闭合的配体-结合状态可以通过对结合位点的变构效应来调节结合活性(Marvin，J.S.&Hellinga H.W.(2001)Nat StructBiol 8，795-798.)。然而，对于大多数有生物学和医学兴趣的蛋白质，这种设计所需的结构信息仍不能获得或者分辨率低不足以满足这种设计，尽管结构基因组计划有希望以加速步伐增加结构信息。

3)本发明的方法

本发明提供一种革新的方法来通过使用基于集合的统计学方法有效地绘制出蛋白质序列和结构空间中适应度分布和能量景观。

考虑到不完全的构成蛋白质折叠和设计基础的原理知识，对蛋白质组合文库的基于集合的统计学方法寻求设计与给定结构或结构家族相容的序列集合，其覆盖分数好于前导序列的能量景观的分布。它是统计学的，因为是序列或结构的分布而不是设计的针对给定固定结构的特定最佳解决方案。它是基于集合的，因为它是核酸文库而不是特定序列或结构靶向的结构/序列集合。

本发明人认为将能量分布函数划分成序列空间中的不同集合状态允许通过随后的实验方法有效取样。该绘制所选蛋白质序列的功能空间的统计学方法提供在上述适应度景观范围内选择真正有生物学兴趣的蛋白质序列的方法。通过限定集合统计学性质而不是单个优化序列或一组次优化序列，蛋白质设计者更可能避免受限于有偏向的解决方案或在当前计算方法内在的限制导致的错误的方向上移动。

基于本发明对与本领域存在的方法相关问题的理解，通过结合从蛋白质折叠和进化的简单模型的理论研究中收集的认识，开发本发明的方法。通过研究和勤奋的实验，本发明人已经开发对蛋白质折叠、工程和设计，特别是在抗体工程令人兴奋的领域中的问题的实用解决方案。

图2A用示意图概述了本发明人开发的计算机生物聚合物进化系统。还在图2A-C中显示，从开始的目标生物聚合物(例如蛋白质)至最终具有期望功能的候选序列的路线穿过三个生物学重要的空间：序列，结构和功能空间。

在序列空间中，将前导序列用于搜索数据库中进化相关的序列。注意当使用结构对比时，该搜索可以应用于结构空间来获得更远的序列。选中文库的变体图谱描述每个位置的氨基酸频率和变体。

在结构空间中，基于减小的变体图谱和划分(图1C，1D和2A-C)或完整的序列文库或它们的随机组合(参见图1E-H，2A和C)，在计算机上产生选中变体文库。使用结构模板对该选中变体文库或随机/完全序列文库记分，选择优选序列集合并重作图以在计算机产生扩展的核酸(NA)文库。评估计算机NA文库的大小并且如果文库大小可接受继续用于核苷酸合成。否则，将选中变体文库重划分成较小部分，用重叠序列产生较小的NA文库以保持获得的文库之间的序列和结构相关(参见以下实施例部分和图28A-C)。

在功能空间中，用实验筛选NA文库，将阳性序列输回到计算循环中改进文库。强阳性克隆继续进一步评估和潜在的治疗开发。如果在实验筛选中未出现选中，为靶系统选择基于结构的记分和/或变体图谱中的新的前导序列集合并重新开始处理。

如从图2A中的描述中可以理解，此处所述的方法与计算和进化序列设计领域中的其它方法之间的一个重要区别是本发明结合两个世界中最好的来更有效地探索序列和结构空间中的适应度景观。我们的方法结合蛋白质序列数据库中的进化信息和物理约束如序列与蛋白质3D结构的相容性。通过在满足序列空间中的进化选择和结构空间中的物理约束的有限序列集合中取样，可以计算评估蛋白质的生物学功能。

在本发明方法的具体应用中，将抗体用作实验和计算试验的模型系统。抗体广泛用于研究、诊断和医学应用。抗体可以以良好的特异性和亲和力结合各种各样的靶目标。还开发催化抗体来催化化学反应。

在更具体的应用中，以抗体高变环或互补决定区(CDRs)以及构架区(FRs)为目标。CDR决定抗体-抗原结合和特异性，而构架区提供CDR对于生物学功能正确定位的支架。抗体分子很适合改造，因为它的模块结构具有在序列上和在结构上界限分明的CDR和构架区。

如在图1A(路线1)中概述，在计算机上针对待优化的前导抗体的特定区域(例如V_H CDR3)筛选表达蛋白质数据库中的肽片段，选择序列模式与前导抗体匹配的那些。所选序列形成选中文库。

此外，如在图1B(路线II)中概述，通过从选中文库中列出每个序列位置上的氨基酸变体和在选中文库中出现的编号可以产生变体图谱。该图谱的组合列举表示选中变体文库I。该变体图谱可以通过包括来自前导序列或序列图谱的在从选中文库遗漏的相应位置的氨基酸或通过排除出现频率低于某一截止值的氨基酸变体或两者来编辑。得到的变体图谱定义选中变体文库II，设计的文库。

如在图1C和1D中概述，如果可用，将选中变体文库I或II的每个成员“嫁接(grafted)”到前导抗体模板结构或模型的相应区域上，并使用得分函数选择与3D结构的剩余部分结构相容的那些。任选地，可以在存在或缺少靶抗原下评估选中变体文库。选择具有有利分数的抗体并在实验室中用实验筛选它们对抗原的实际结合亲和力。如在实施例部分显示，使用该方法选择大量抗人血管内皮生长因子(VEGF)的抗体，并证明能够与靶抗原VEGF结合。它们中的一些显示高于前导抗体的亲和力(参见图30&36)。

如随着以下部分的进一步公开将变得明显的，本发明提供的方法不仅在概念上区别于现有技术的那些，而且具有抗体工程中的许多实际优点。

通过开采汇编在蛋白质数据库中的表达蛋白质序列，本方法不仅在计算机上有效模拟亲和力成熟的自然过程，而且可以潜在地大大加速具有改善结合亲和力的蛋白质的进化。例如，来自各种物种的任何氨基酸序列集合，包括但不限于免疫学感兴趣的序列，可以用于最大化用于针对前导序列关于CDR亲和力成熟作图的文库的多样性。然而，人种系和/或来源的序列应当用于针对前导序列关于构架区人源化或构架设计作图，以便最小化潜在的免疫原性。因此，基于它们的应用、大小和物种来源如人，小鼠等，或所有可用物种，数据库的选择允许灵活性和对设计蛋白质的控制。

此外，如果可获得复合体结构或模型，方法任选地包括在靶分子(例如前导抗体的抗原)的存在下模拟蛋白质突变体(例如前导抗体的突变体)。通过在计算中包括抗体和抗原之间的相互作用，作为抗原定向的方法，筛选方法更紧密地模拟亲和力成熟的天然过程，计算的结合亲和力可以与实验值更好地相关。

此外，本发明的方法结合抗体文库的计算预测和文库的实验筛选来选择与抗原具有高结合亲和力的那些，如果可获得复合体结合或结构模型的话，所述计算预测偏向特定靶分子或抗原。该方法可以被重复来改善所选抗体的结合亲和力。考虑高亲和力复合体结构作为模板的可用性，选中变体文库可以是用计算机预筛选以减小文库大小，然而与通过前导抗体每个位置的氨基酸的完全随机化产生的常规文库相比仍保持功能高度集中。通过在计算机预测和构建选中变体文库，可以加速整个蛋白质进化过程，以高通量的方式有效模拟抗体亲和力成熟的天然过程。

在优选实施方案中，前导蛋白质是抗体或免疫球蛋白，靶分子是与模板抗体结合的抗原。应当注意前导蛋白质可以是任何蛋白质，优选具有已知三维结构的蛋白质，该三维结构可以使用X-射线晶体学或核磁共振谱解析。备选地，通过使用本领域已知的算法计算机模拟可以提供模板蛋白质的3D结构或结构集合(ensemble)。

4)本发明方法与抗体选择和工程中其它方法的比较

应当理解从高度多样的文库中选择抗体允许广泛覆盖范围的序列，由此最大化发现最优序列的概率。然而，对于来源于前导抗体例如在CDR中随机诱变的抗体序列，并非所有随机化的CDR结构与前导序列的3D结构相容。与来自随机诱变的那些相比，通过使用表达的蛋白质序列和使用本发明的方法过滤掉不相容的序列，选择较少数量的序列。结果，筛选的抗体的序列空间大小减小而未丢失可能与突变抗体的亲和力结合成熟和稳定高度相关的序列。

相反，本领域用于构建抗体文库的当前方法涉及体外从免疫的人抗体基因库，天然B-细胞Ig库(repertoire)，或特定的种系序列中分离cDNA文库。Barbas和Burton(1996)，上文；De Haard等(1999)，上文；和Griffiths等(1994)，上文。这些文库非常大并且在抗体序列方面极其多样。这种常规方法尝试产生尽可能大和多样的抗体文库来模拟体内对抗原的免疫应答。典型地，这些大的抗体文库在噬菌体表面上展示并筛选与靶分子具有高结合亲和力的抗体。这种“大池塘捕鱼”或“海底捞针”的方法是基于序列库大小的简单增加应当使得更可能寻找出可以以高亲和力与靶抗原结合的抗体的假设，但实际上，由于不充分的取样、不足够的多样性和不确定的文库组成不足以亲和力成熟。

本发明认为存在与这种常规方法有关的几个问题。序列文库大小的简单增加可能不一定与功能多样性有效增加相关。此外，由于制备极大实验文库的物理限制，可能极难在体外构建多样性大于10¹¹的文库。实际上用实验筛选的文库可能仅代表理论预测大小的序列库的一部分。另外，存在合理的考虑，由于与体外极大文库的处理和操作相关的困难和以下表示的问题，可能在努力尝试增加文库大小而未显著提高功能多样性方面损失时间和金钱。

现有技术中存在的另一种方法是用计算机设计人工抗体文库和然后构建在细菌中表达的合成抗体文库。Knappik等，上文。按照种系家族基于重链和轻链序列每个亚类的共有序列来设计人工抗体文库。按照使用频率自动权衡共有序列。通过针对重排序列的汇编搜索来鉴定每个共有序列最同源的重排序列，检查共有序列不同于该最近重排序列的所有位置。此外，构架7个V_H和7个V_L共有序列的模型并根据它们的结构性质分析。

然而，就所选抗体的治疗应用而言，关于该方法存在一些问题。共有序列的定义可能太任意，这些定义的人工序列可能不代表天然的功能结构，尽管实验测试和结构分析可以消除一些不利的氨基酸组合。尽管可以设计共有序列来主要覆盖高度用于重排人序列的那些人种系序列，它可能将共有序列库偏向有限数量的迄今在进化期间暴露于人类的抗原。尽管这些文库构建方法主要集中在从大的抗体文库中发现亲和力成熟的前导抗体或选中文库，大多数上述方法对于抗体亲和力成熟仍然非常有限。更常规的方法如CDR行走，随机诱变，或在CDR每个位置的逐步饱和诱变等用于抗体亲和力成熟。本发明特别适合于设计关于亲和力成熟的偏爱文库。

本发明认为通过绘制来自不同物种的结构取样功能空间覆盖抗体文库中更广范围的功能CDR，并且将扩展它可以结合的抗原范围。该方法在设计针对目标新抗原的抗体文库中非常重要。本发明的方法典型地依赖于来源于抗体或其它天然源的结构约束。按照本发明，所有可获蛋白质，优选抗体，包括来自人和其它物种的那些的完整序列空间可以通过将每个文库序列组装到前导抗体的3D结构构架中分析。

基于该分析，获得的突变体抗体不仅序列新而且具有比前导抗体更高的亲和力。如以下实施例部分所示，使用本发明方法选择大量的突变体抗体，实验证明以类似于或高于前导抗-VEGF抗体的亲和力与人VEGF结合。

2.用于执行本发明蛋白质设计策略的方法的一般描述

本方法涉及探索序列、结构和功能空间和评估它们之间的关系(图1A-D，1E-H，2A-C)。起点可以是前导结构或前导序列或两者，如果可以获得的话。该方法系统地研究序列空间和结构空间以便鉴定优化的用于功能筛选的变体图谱。存在三种信息交换模式：i)分开评估序列和/或结构空间中的信息和然后结合，ii)从序列到结构，或从结构到序列连续评估，或iii)仅从序列或结构。尽管可以分开研究序列和结构空间中的序列设计(两个分开的循环)，可以比较并结合来自这两个分开循环的变体图谱以便获得最佳总变体图谱，其具有良好的共有序列变体图谱，可能产生功能筛选中的强候选物。

两个起点在操作上交叉，因为序列图谱可以作为将靶序列与同源序列比较的结果或通过已知同源结构的结构对比获得。序列图谱还可以来源于提示功能或结构信息的突变数据。通过分子动态模拟可以产生类似的结构集合，但还可以来源于已知结构的序列对比或基于同源性的模拟。

序列和结构空间中的两个过滤和改进循环在过滤和评估步骤中进一步连接，因为通过每个循环获得的变体图谱被比较和/或进行其它循环进一步改进。对于序列衍生的变体图谱，在结构空间中的已知模板上进行结构评估以便排列和改进变体图谱。相反，如果它们属于选中或变体文库相同的超家族，结构衍生的变体图谱可以传递到序列空间来评估或比较和划分来控制最终的文库大小。

1)序列空间

在序列空间中，目标是确定对目标功能优化的变体图谱。循环从通过数据库序列搜索和使用序列图谱对比鉴定选中文库开始。这可以是简单的BLAST搜索或概率方法(probabilistic approach)如图谱HMM(profileHMM)。基于选中文库中的变异，可以过滤和划分序列。这通过评估每个位置的氨基酸频率和分布完成。通常，在每个位置具有最高频率的残基以及来自靶序列的残基被包括在变体图谱中。，取决于变化频率的分布，截止值，如5％或更高，或在每个位置排序较高的氨基酸可以包括在变体图谱中。

可能需要划分来设定寡核苷酸文库最终大小的实际范围。作为各种变体图谱片段的简并核酸文库的函数，通过计算寡核苷酸文库的大小可以确定划分。因此，可以划分高变变体图谱以便获得的寡核苷酸文库的大小可以设定在有效和高效的实验合成、转化和筛选范围内。

备选的划分方案是利用结构相关信息。因为三维肽折叠在序列上远隔的片段之间相互作用，结构模板或模型可以用于指定用于划分的结构相关序列。例如，环的末端可能相关而其顶点本身相对不与末端相互作用。在该情形中，变体图谱可以划分成至少两个图谱：一个关于两个末端和一个关于顶点。

两种方法之一或两者可以用于划分高度变化的图谱。当划分时，在片段之间应当存在至少2个，优选3个或更多残基重叠以使相邻片段之间保持一些结构相关。两种方法之一或两者可以用于在操作上实现优化的寡核苷酸文库大小。

一旦确定序列变体图谱，使用已知结构模板或基于同源性的模型和得分函数(见以下)用计算机筛选它的文库。通过鉴定有利的变体同时过滤掉不利的变体，将该排序用于过滤和减少变体图谱，由此同时富集并减少实验文库的大小。

2)结构空间

在结构空间中，目标也是确定针对目标功能优化的变体图谱，但是从一个结构或结构集合开始，然后基于结构集合的平均值对序列评分。循环从可以用计算机筛选和使用得分函数评估的一组结构和相关序列开始。

对于说明所有物理化学变量的理论的理想得分函数，能量分数排序将与功能排序完美相关。这是不可能的，在计算上也不实际，必须使用粗糙地将结构或序列与功能相关的不完善的得分函数。因为设计方案的目标是鉴定一组可能的具有期望功能的序列，可以使用不完善然而将序列和结构与功能相关的得分函数。

这种得分函数可以包括任何计算术语的组合，该术语将函数值关联或变换至序列或结构值。简单的情形是将疏水填充函数与含有适当密度的脂族或芳香族侧链的序列相关联的范德瓦耳斯能量。另一个可能是酶促水解活性，其与序列特定位置的亲核侧链基团的存在相关。

通常，得分函数将基于结合一些或所有与蛋白质结构稳定性和功能相关的起作用(contributing)术语的热力学能量总和。最通常，这些将包括静电溶剂化能，非极性溶剂化能和侧链和主链熵。MM-PBSA或MM-GBSA是这样一种方法，其结合使用分子力学(MM)场计算的标准术语和包括使用连续溶剂模型的静电溶剂化的溶剂化术语，其通过求解泊松-玻尔兹曼(BP)方程或使用广义Born(GB)近似值计算，和溶剂可及溶剂化术语，其基于对表面积(SA)的比例，以及来自包括主链和侧链的构象熵的贡献。已经报道实验值和基于来自分子动态模拟的集合结构的MM-PBSA计算值之间的良好相关性(Wang W，Donini O，Reyes CM，Kollman PA.(2001)Annu Rev Biophys Biomol Struct 30，211-43)。将基于MM-PBSA的改进得分函数用于评估基于CONGEN中执行的Amber94力场总能量的简单得分函数，其用于对于其与模板结构的相容性而扫描序列文库(参见例如图12)。此处使用的简单得分函数和使用一种模板结构(lcz8)的前导序列的选中文库的改进得分函数之间的比较(图12D&E)提示，简单得分函数与改进的得分函数相关，尽管相关图中的显著散射提示可以进行简单得分函数中的一些改进来改善其与改进得分函数的一致。

与用于蛋白质和药物设计的其它得分函数相比，MM-PBSA或MM-GBSA是更好的记分物理模型，将在统一的基础上处理各种问题，尽管它在计算上花费更高，因为需要来自外在水(explicit water)中分子动态模拟的多轨道来计算系统的集合平均。该方法有效用于研究一些超出简单记分方法的困难的突变体，并且可以用作验证用于高通量计算筛选的方法的对照。

3)优化的变体图谱

设计方案的第一个结果是优化变体图谱。它体现了序列和结构评估的结果以便将进化和结构偏爱结合到设计中。随后在功能空间中的步骤旨在评估和改进该图谱，如果需要，改进较早的步骤，以使在设计方案的不同步骤可以完成获得文库的循环富集。

在优选实施方案中，该方法包含：

该方法包含以下步骤：

b)鉴定前导抗体的CDR中的氨基酸序列；

c)选择前导抗体V_H或V_L区中的CDR之一；

d)提供包含所选CDR中至少3个连续氨基酸残基的氨基酸序列，所选氨基酸序列是前导序列；

e)将前导序列与多个试验蛋白质序列比较；

j)选择分数等于或好于前导序列的选中变体文库成员；

k)构建包含编码所选选中变体文库成员的氨基酸序列的DNA片段的简并核酸文库；

l)测定核酸文库的多样性，如果多样性高于1×10⁶，重复步骤j)至1)直至核酸文库的多样性等于或低于1×10⁶；

m)将简并核酸文库中的DNA片段导入宿主生物体细胞；

o)选择以高于10⁶M^-1的亲和力结合靶抗原的重组抗体；和

如图2B所示，该方法从靶序列或基于基于结构的多重对比的序列图谱开始执行，基于进化富集的序列数据库搜索变体图谱，和然后评估它们与结构模板或集合的相容性，和然后选择可以用实验靶向的序列集合。该方法已经在我们的实施例中例举。首先，它利用了在序列或它们的组合中编码的进化信息，包括表达，折叠等，这些还未在理论计算中捕获。第二，在去除很多不相关的随机序列以后，对于获得的文库的基于结构筛选可经受改进的计算机筛选。而且改进的计算记分如MM-PBSA可以应用于使用集合结构的它们中的一些。本发明人认为该方法倾向于为实验筛选提供高度改进的序列文库，显著节约时间和成本。

图2C举例说明了本方法的另一实施方案。该方法包含以下步骤：

b)鉴定前导抗体的CDR中的氨基酸序列；

c)选择前导抗体V_H或V_L区中的CDR之一；

g)选择分数等于或好于前导序列的前导序列突变体；

h)将前导序列与多个试验蛋白质序列比较；

j)基于在前导序列每个位置出现的氨基酸变体频率，构建选中文库的氨基酸位置变体文库；

k)组合选中文库中的氨基酸变体以产生选中变体的组合；

n)选择分数等于或好于前导序列的选中变体文库成员；

q)将简并核酸文库中的DNA片段导入宿主生物体细胞；

r)在所述宿主细胞中表达DNA片段以使在宿主生物体细胞中生产含有选中文库的氨基酸序列的重组抗体；

s)选择以高于10⁶M^-1的亲和力结合靶抗原的重组抗体；和

4)功能空间

在功能空间中，目标是表达和筛选来源于优化变体图谱的文库。存在两个包含功能循环的元件(component)。一个可能不直接影响功能但在蛋白质表达中重要的操作元件是寡核苷酸的优化。对寡核苷酸文库大小的实际范围的确定被用作序列划分和变体重作图的指导。

另一元件是直接反映所有先前步骤结果的功能筛选和是设计策略最终评估部分。实验功能筛选的结果确定文库候选者是否可以继续进一步评估或用于富集和改进来自先前步骤的文库。例如，一组显示不同水平的功能的序列可以用于缩小变体图谱或赋予指定位置上不同残基的权重(weight)。另外，通过使用简并寡核苷酸设计的序列空间跳跃可导致新的功能变体的鉴定，该功能变体可以用于进一步富集优化的变体图谱。备选地，具体一组氨基酸的频率可能反映表达偏爱的功能偏爱。在后者选择中，低表达的然而显示良好功能的序列可促进密码子使用的改进，其可以提高表达水平同时保持功能。重要的是选择一些第二或第三“级(tier)”变体，其可以以较低频率出现，因为仅选择最高频率的变体仅导致更接近共有序列和可能导致“平均”功能序列。可能的是异常的变体可能来自自然中未观察到的组合。尽管我们使用自然进化模式作为我们的指导，我们寻找自然中未观察到的组合，因为它们在进化时标中不利但可能对于我们更即时的应用有用，或者可能因为自然还未将它们提炼。在这点上，基于结构筛选随机突变体或它们的组合将可能产生还未在自然中发现但是在结构上优选的那些突变体，尽管这对结构的准确度和潜在功能以及计算速度提出严格的要求。

5)重复，改进，和富集

按照评估的不同空间划分设计方案，但所有操作循环相互关联和整合以使信息可以交换和从任何空间来回自由循环以便基于优化的变体图谱连续改进和富集文库。结果，从靶序列或结构至候选序列的路线不是单一路线而是三个循环之间的一系列振荡，每个循环改善最优变体图谱中的选择。

另外，至少对于所检查的序列和结构而言，设计方案的功能评估和重复的性质不仅帮助改善变体选择，而且帮助提高得分函数的准确性。错漏的预测可能显示不相容的模板。它可能还显示特定贡献可能需要赋予更大权重，例如在功能筛选中甘氨酸偏爱情形中的主链熵。在V_H CDR3中相对于Lys可能偏爱具体带电的残基如Arg，因为它在定位特定构象中的作用(参见以下实施例部分)。

6)按照分数和排序将序列重作图

如上所述，可以基于在存在和缺少抗原条件下它们与前导抗体的结构相容性评估选中变体文库中的序列。按照从结构评估中获得的分数和排序，将选中变体文库中的序列重作图以优化序列和结构空间对于功能序列的取样。该步骤包含选择选中变体文库中分数好于前导序列的亚群(sub-population)和将它们重作图以产生优化文库。一种选择是将所有分数好于前导序列的序列重作图。然而，这可能导致对于实验筛选而言太大的文库。优选方法是选择某一低能量窗中的序列子集或几个这种子集(图7)。这将减小实验核酸文库的最终大小，如将在以下部分中描述和在图6中概述。当与理性选择和设计结合时，该步骤将在文库中富集得分更好的序列。

图谱的改进和优化必须考虑物理核酸文库的最终大小(图6)。一种策略是将选中变体文库的得分最好10-20％重作图以将位置变体的数量限制在可以在实验中容易靶向的特定范围内(对于简并核酸文库优选＜10⁶)。类似地，我们可以选择一组在某些位置含有期望氨基酸的低能量序列。

7)序列划分成片段

另一种大小控制策略是基于结构空间中结构相关和不相关的片段来划分序列。这些分解的具有较小变体图谱的序列可以用于产生几个较小的文库。其原理在于，对于一次近似，结构上远离的片段经常不相关以致可以独立地处理广泛分开的突变，而那些空间彼此偶联的片段应当通过组合的核酸文库同时靶向。在环的情形中，由于环闭合，形成环基的序列通常相关，但是顶点通常与环基不相关。在该情形中，将氨基酸序列变体图谱分成三个片段，第一和第三片段(环基)用于一个图谱和文库设计和第二片段(环顶点)用于第二个图谱和文库设计。在片段之间应当存在2个或3个位置重叠以在获得的文库之间保持低水平的结构相关性。以类似方式，较长图谱可以被分成一串跨越序列长度的重叠片段和产生相应的文库。可以检验简单的标准如C_α或C_β距离矩阵来鉴定相关片段(图28A)。任选地，可以绘制出更详细的相互作用矩阵来探索相互作用的数目和类型，但是构成基础的原理与鉴定相关片段相同。

基于观察到的实验或结构标准可以进一步改进和增强获得的重作图。这些可以包括改变具有已知与另外的极性氨基酸的氢键的位置，与庞大脂族或芳族基团高范德瓦耳斯接触的区域，或可能受益于甘氨酸增加的灵活性的区域。在实验反馈中，基于来自作为随后设计改进基础的较早筛选的测定结果可以增加变体。更复杂的分析可以考虑氨基酸基团的偶联如序列内的盐桥或氢键。另外的设计约束可以包括蛋白质非极性基团的溶剂可及表面积。

使用改进和优化的图谱，我们产生新的氨基酸序列文库，称为“选中变体文库II”或一组文库(选中变体文库IIA，IIB，IIC等)，并使用相同的能量函数将这些评分。能量分布应当扩展超过原有的能量窗，因为变体重组和图谱改进意欲扩展覆盖的序列和结构空间(图7，13A，17A，&18)。

如下详细描述本发明方法的各种实施方案。

3.计算机构建选中抗体文库

如图1A所示，基于来自前导抗体区域的前导序列，在计算机上可以构建选中文库。通过使用各种序列对比算法，基于它们与前导序列的对比，搜索来自蛋白质序列数据库，如NIH的genbank或抗体CDR的Kabat数据库的序列。

图3举例说明构建选中文库的例举性方法，其从搜索蛋白质序列数据库与前导序列或序列图谱的不同同一性开始。通过将相同结构基序家族内的序列对比产生前导序列图谱。该前导序列图谱可以用于构建HMM以搜索序列数据库中与前导序列远同源性的选中文库。采取该方法来发现丰富的多样选中序列(即选中文库)以确保包括所有从数据库中可获得的前导序列变体。

针对前导序列筛选的数据库优选包括表达蛋白质序列，包括所有生物的序列。更优选地，如果以构架为目标，蛋白质序列来源于包括人类和啮齿类的哺乳动物。任选地，蛋白质序列可以来源于特定物种或相同物种的特定种群。例如，从人免疫球蛋白序列数据库中收集的蛋白质序列可以用于构建多肽片段文库。与使用完全随机蛋白质序列的常规构建文库的方法相比，本发明的这种方法利用来源于蛋白质进化的序列信息的优势，因此更紧密地模拟抗体产生和亲和力成熟的自然过程。

取决于设计的蛋白质的区域/结构域，可以探索具有不同进化来源的蛋白质数据库。例如，为了降低设计抗体的人免疫原性，人源序列，更优选种系序列被用于设计目的。在另一方面，为了增加CDR中的多样性，广泛的序列搜索和从广泛范围的数据库中选择和/或基于结构的设计方法可以用于增加结构和/或功能多样性。尽管该序列和基于结构的选择，序列的稀有重组可以在CDR中发现，而构架区中的序列保持尽可能与人序列家族接近。

另外，一些氨基酸残基组合可能在抗体的某些区域如CDR和构架之间的边界上优选，所述氨基酸残基来自不同物种的序列，这些物种包括人或其它非人物种，包括但不限于小鼠，兔子等。可以采用该方法以便保持或优化各种基序之间的相对定位。

许多序列对比方法可以用于将来自数据库的序列与前导序列(或前导序列图谱)对比，序列同一性从高到低。已经开发许多基于序列的对比程序，包括但不限于Smith-Waterman算法，Needleman-Wunsch算法，Fasta，Blast，Psi-Blast，Clustalx，和图谱隐马尔可夫模型。

任选地，简单的序列搜索方法如BLAST(基本的局部对比搜索工具)可以用于搜索密切相关的序列(例如＞50％的序列同源性)。BLAST使用具有不依赖于位置的得分参数的启发式算法(例如BLOSUM62等)来检测两个序列之间的相似性，广泛用于常规序列对比中(Altschul SF，Gish W，Miller W，Myers EW，Lipman DJ(1990)J Mol Biol 215，403-410)。然而，BLAST分析可能太局限而不能检测前导序列的远同源物。可以使用更先进的序列对比工具来搜索前导序列的远同源物。

基于图谱的序列对比方法可以用于搜索前导序列的变体，如PSI-BLAST(位置特异性的重复BLAST)和HMM。这些基于图谱的序列对比方法可以检测前导序列更远的同源物(Altschul，SF，Madden，TL，SchafferAA，Zhang J，Zhang Z，Milcer W，Lipman DJ(1997)Nucleic Acids Res25，3389-3402；Krogh，A，Brown M，Mian SI，Sjolander Km Haussler D(1994)J.Mol.Biol 235，1501-1531)。

PSI-BLAST是属于基于图谱的序列搜索方法的新一代BLAST程序(Altschul，SF，Madden，TL，Schaffer AA，Zhang J，Zhang Z，Miller W，LipmanDJ(1997)Nucleic Acids Res 25，3389-3402)。PSI-BLAST将BLAST产生的统计学显著的对比自动组合为位置特异的矩阵，对数据库中的序列对比评分。将新搜索的序列结合到位置特异的得分矩阵中开始另一轮数据库搜索。重复该方法直至未发现新的选中或满足预先设定的标准。尽管PSI-BLAST可能不如图谱隐马尔可夫模型(HMM)灵敏，但它可以用于本发明，因为在缺少预先构建的基序图谱时它的速度和容易操作。

图谱隐马尔可夫模型或HMM是给定序列或序列对比家族的初级序列共有序列的统计学模型。序列家族定义为多重序列对比，产生自相应的多个序列和/或结构对比。构成HMM基础的形式概率基础使得可以使用Bayesian概率理论来基于对比序列图谱指导得分参数的设定。该相同特征还允许HMM使用一致方法，使用位置依赖性分数，对氨基酸和缺口两者的对比评分。与常规启发式方法相比，这些HMM中的特征使其成为搜索远同源物的有力方法(Eddy S.R(1996)Curr Opin Struct.Biol 6，361-365)。通过模式识别算法可以检测初级序列中的模式和因此可以用于搜索出更多与靶序列(当使用一个序列时)或序列图谱(当使用多重序列对比时)有关的成员。为了捕获序列中更高级别的相关性，或者三维空间中氨基酸之间的相互作用，由多重结构对比产生的多重序列对比是用于本发明产生选中文库的优选方法。

任选地，可以使用基于结构的序列对比来搜索高度多样的选中文库。该方法是有利的，因为它是可以用于在缺少任何可检测的序列同源性下比较不同多重序列对比的黄金标准(Sauder JM，Arthur JW，Dunbrack RL Jr(2000)Proteins 40，6-22)。多重结构对比可以直接产生相应的多重序列对比。备选地，这些紧密相关的结构可以用作序列穿线(threading)产生多重序列对比图谱的结构模板(Jones DT(1999)J Mol Biol 1999，797-815)。已经报导结合多重序列和结构对比的方法来注解已知蛋白质序列的结构和功能性质(Al-Lazikani B，Sheinerman FB，Honig B(2001)PNAS 98，14796-14801)。

还任选地，可以使用反向穿线方法来搜索高度多样的选中文库。反向穿线方法是穿线法的相反部分。穿线法是一种通过使用得分函数，将其序列(即查询序列)穿线至潜在的结构模板文库中指定蛋白质折叠的方法，所述得分函数结合序列侧链相互作用以及局部参数如二级结构和溶剂暴露。穿线方法从预测氨基酸序列的二级结构和查询序列的每个残基的溶剂可及性开始。将产生的预测结构的一维(1D)图谱穿线至已知3D结构文库的每个成员中。使用动态编程获得每个序列-结构对的最优穿线。总体最佳的序列-结构对构成对于查询序列的预测3D结构。

相反，反向穿线法是通过将它们穿线到给定靶结构或靶结构的结构簇集合，从序列数据库中搜索最优序列的方法。各种得分函数可以用于从包含具有不同长度的蛋白质序列的文库中选择最佳序列。

例如，可以将来自人种系免疫球蛋白数据库的氨基酸序列穿线至前导抗体的3D结构上以搜索具有可接受分数的序列。所选序列构成选中文库。反向穿线方法与穿线法相反，因为前者尝试发现适合靶结构模板的最佳序列，而后者发现适合靶结构图谱的最佳的3D结构。

另外，可以以组合的方法在每个位置反向穿线多个氨基酸，将对于前导抗体发现的最佳选中序列作图，选择与前导抗体的3D结构相容的最佳“共有序列”组合序列。这种对于共有序列的搜索方法不同于Knappik等(2000)所述的在每个位点使用简单序列平均值的方法。基于检索序列，使用利用所有可能的在每个位点上允许的氨基酸组合的基于结构的反向工程方法产生按照本发明的共有序列，并通过对它们与结构模板的相容性评分来优化。

除了用于序列对比的方法以外，用于序列对比的序列基序和相应的数据库在本发明方法中也是至关重要的。基于对抗体区域如抗原结合的CDR基序(CDR1，CDR2和CDR3)和支持抗体支架的构架区(FR1，FR2，FR3和FR4)的蛋白质功能的结构分析，定义此处所用的序列或序列图谱。作为实例，可以将Genbank和Kabat数据库用于搜索来自各种物种的序列选中，以增加与抗体CDR匹配的选中文库的多样性，以便最大化设计抗体的结合亲和力。在另一方面，将人或甚至人种系序列数据库优选用于搜索构架设计的序列选中，以便减小在设计构架中产生非人源的免疫原性表位的概率。该序列选择步骤允许最大的灵活性和控制设计用的序列来源，特别是当考虑设计抗体最终的治疗应用时。

通过消除冗余的序列可以进一步改进选中文库，并重作图以获得更准确的HMM或PSI-BLAST图谱。如在实施例部分中详细描述，按照Kabat分类，将在N-或C-末端有或没有一些侧邻它们的残基的人源化抗-VEGF抗体的V_H CDR3序列(和还有结构基序)用作前导序列。具有缺省设置的HMMER 2.1.1软件包中的应用程序(Eddy S， http：//hmmer.wustl. eduhttp：//hmmer.wustl.edu)被用于构建HMM模型，针对合成的随机序列校准HMM模型，搜索数据库中的选中序列和将它们对比。仅将与前导序列具有相同长度的选中序列用于对比和变体图谱。对比序列中的插入或缺失还可以用于在对比位置将变体作图。

还在图3中显示，当将抗-VEGF抗体的V_H CDR3序列的单个前导序列用作HMM来搜索Kabat数据库时，发现108个单一序列，相对于前导序列的序列同一性为40％至100％(图10A&19C)。当将该前导序列的多重对比序列图谱用作HMM来搜索相同Kabat数据库时，发现251个单一序列，相对于前导序列的序列同一性为15％至100％(图19C)。这些结果显示图谱HMM可以发现与前导序列具有远同源性的序列。因此，来源于多重结果对比的序列图谱将扩展选中文库的多样性。

选中文库的序列还取决于所用数据库。例如，通过在上面用Genpept替代Kabat数据库，当将单个前导序列用作HMM或当将基于结构的序列图谱用作HMM时发现不同于Kabat数据库中那些的选中。

可以分析通过搜索数据库构建的选中文库中的序列(例如通过基于每个氨基酸残基的位置频率作图)和直接用于体外或体内筛选期望功能。参见图1A中的路线I和图3。

任选地，将选中文库中的序列作图并用于构建选中变体文库I，其然后在体外或体内筛选期望功能。参见图1B中的路线II和图4。

还任选地，使用诸如反向穿线或基于力场的全原子表示方法，基于将它们与前导结构模板的相容性评分，过滤选中文库。基于获得的分数排名，选择选中变体文库II用于体外或体内筛选期望功能。参见图1C中的路线III和图5。

还任选地，使用诸如穿线法或基于力场的全原子表示方法，基于它们与前导结构模板的相容性评分过滤选中变体文库I。基于选中的相对排名，选择多重对比序列的子集来产生选中变体文库II并在体外或体内筛选期望功能。参见图1D中的路线IV和图5。

4.选中变体文库的构建

为了进一步探索蛋白质结构和序列空间中编码的丰富多样性，将基于序列对比选择的选中在序列的每个氨基酸位置作图以产生变体图谱。使用该变体图谱组合列举选中变体文库。图4举例说明了构建选中变体文库的例举性方法。基于在选中序列的每个位置出现的氨基酸的频率，列出从选中文库产生的变体图谱(即序列选中或过滤的序列选中)(图11&19B)。作图的变体提供极好的构建组合文库的起点。

一些基于频率(例如高于5％或更高的频率)的截止值或每个位置的氨基酸的优选变体，和/或组合结果可以用于减小该选中变体文库的大小(参见图11下部分选中总数10％的截止值；图19B使用5％)。基于在每个位置上这些高度优选氨基酸残基的变体应当提供良好的重组序列库以摸索出具有高亲和力或其它期望功能的序列。

基于每个位置的变体频率计算的信息序列熵，提供定量方法以测量在对比序列中的残基同一性偏离氨基酸残基的随机分布多么显著。相对熵可以用于本发明以考虑涉及蛋白质变体的序列的高变诱变概率(Plaxco KW，Larson S，Ruczinski，Riddle DS，Thayer EC，Buchwitz B，Davidson AR，BakerD(2000)J Mol Biol 298，303-312)。本发明人认为相对位点熵为应当靶向组合和实验筛选的位置和突变体提供良好的指导，因为它们是基于来自表达蛋白质数据库的真实进化数据。

相对位点熵测量在进化期间累积的每个氨基酸残基位置的多样性，同时保持选中序列的结构和功能。选择这些位点重组进行计算机和实验筛选。因为获得的组合选中变体文库的大小比通过在每个位点随机组合所有20种氨基酸产生的文库小得多，可以进行更准确和详细的计算机乃至直接实验筛选。

使用基于力场的计算方法，由本发明选中文库产生的序列熵与位点熵不相关，位点熵在本领域中已经用于测量对于氨基酸替代的结构耐受性(Voigt CA，Mayo SL，Arnold FH，Wang ZG(2001)PNAS 98，3778-3783)。尽管基于力场的方法将提供一些还未被进化采样的新突变体，来源于进化序列的位点熵(即序列熵)应当对每个位置的变异和优选突变体提供更有意义的统计，结合包括结构、动力学、表达和生物活性的所有信息。这可能对于靶向困难结构如抗体中的环区域重要，这些结构还未通过基于力场的方法完全理解或预测，但是它们可以使用本发明基于数据库的方法以一定把握模拟。基于同源性的依赖于进化信息的方法仍然是最可靠的模拟可以用基于力场的模拟扩充的环结构的方法之一。

如在实施例部分详细描述，通过使用几种不同方法搜索抗-VEGF抗体(前导抗体)的变体图谱。基于该前导抗体的V_H CDR3序列，列出了来自Kabat，genpept和非冗余数据库，组合Kabat，genpept，imgt及其它的选中表的变体图谱。其他在来自该抗体的亲和力成熟的序列中观察到的重要突变体也在使用本发明方法搜索的变体图谱中高频率出现。例如，认为单一最重要的突变体是前导序列中被成熟序列的Y97替代的H97(图9B)，在氨基酸变体中在该位置几乎是50％(图11)。本发明的上述方法在蛋白质设计和工程中具有几个优势。在任何重组文库中，多样性必定被筛选能力所限制，这意味着多样性的分配和因此设计是产生功能相关文库的重要因素。本发明方法是蛋白质、特别是抗体的计算机理性设计。它以从表达蛋白质数据库中选择功能类似“天然”多肽片段形成选中文库开始。“天然”存在肽片段的特定位置变异分析产生关于优选残基和位置的进化数据-变体图谱。变体的临界分析可以鉴定重要残基和组合。减小的选择变体集合的组合列举导致选中变体文库的产生，该选中变体文库集中于功能相关序列。

从变体图谱开始，基于功能和结构数据，本发明计算机理性文库设计产生蛋白质片段的聚焦(focused)文库或多个文库。在某种程度上，计算机重组在原理上类似于同源序列家族的DNA改组。但是本发明方法是对于具有广泛分布序列同源性的蛋白质序列家族的高度有效的序列重组方法。另外，在本发明中，重组发生在氨基酸水平上，并且可以定位于特定功能区域以产生其成员是设计的而不是随机重组的文库。它不受同源性要求约束和可以按照结构或实验数据选择性改进。例如，选中文库中的序列具有相对于前导序列100至20或甚至更低的序列同一性，其取决于所用搜索方法和数据库。相比之下，DNA改组是紧密相关序列同源物之间的DNA重组方法，对重组核酸序列之间的序列同源性有严格要求；DNA改组在产生有益的突变体重组方面效率低，在实验重组期间它倾向于随机突变。

5.抗体变体文库基于结构的评估

选中文库或选中变体文库，其来源于如上所述的选中文库的变体图谱重组，可以基于它们与前导蛋白质的结构相容性评估。对于抗体变体文库基于结构的评估，本发明论述下列问题：(i)如何在与抗体形成蛋白质复合体的抗原存在下模拟非正则环的构象；(ii)如何放置CDR环主链上的侧链以最佳配合抗体和/或抗原结构；和(iii)如何组合CDR环和最佳构架模型使得形成具有高亲和力的稳定的抗体-抗原复合体。如下详细描述实施步骤。

1)抗体结构和结构模型

可以从X-射线或NMR结构直接获得前导抗体的结构模板或使用下述结构计算引擎模拟前导受体的结构模板。如实施例部分所示，从PDB数据库中获得抗-VEGF抗体的结构模板，对于亲代抗体为1BJ1，对于成熟抗体为1CZ8。两个模板都在存在和缺少抗原VEGF下使用。在实施例中列出的分数是在存在抗原VEGF条件下来自1CZ8。

2)基于前导抗体结构模板的评估

作为实例，具有已知3D结构的抗体用作前导蛋白质。这种对于充分定义的结构(如通过X-射线晶体学获得的结构)的要求不是绝对的，因为备选技术，如基于同源性的模拟，可以应用产生对于改造的靶蛋白质合理定义的模板结构。选中变体文库的产生要求确定，改进和优化氨基酸位置变体图谱。按照前导抗体的3D结构将选中文库和选中变体文库中的一个和多个前导序列评分，以获得这些序列的排名分布。应当注意，尽管实施例部分中的得分是基于经验的全部原子(all-atom)能量函数，任何计算机易处理的评分或适应度函数可以用于在结构上评估这些序列。

图5举例说明用于结构评估来自前导、选中文库和选中变体文库的序列的例举性方法。对于评分和排名，通过替代主链依赖型/独立型旋转异构体文库的侧链将这些序列构建到前导结构模板中(Dunbrack RL Jr，KarplusM(1993)J Mol Biol 230：543-574)。然后将取代片段的侧链和主链局部能量最小化以缓解局部应力。使用常规能量函数对每种结构评分，该函数测量在前导结构模板中序列的相对稳定性。

来自前导、选中文库和选中变体文库的序列的能量比较表示各种序列与前导结构模板的结构相容性程度。合理获得非常广泛的分布，许多序列得分好于或差于前导序列。焦点在于不是鉴定特定序列(尽管允许)而是鉴定平均分数等于或好于前导序列的序列群体或序列集合和在可以使用简并核酸文库同时靶向的序列中共享集合性质。氨基酸序列集合表示可能显示良好结构相容性的序列空间，具有比单个特定序列更好的表位识别结合位点和定向。应当实验靶向分布在统计学集合平均值周围的序列集合的组合文库以便提高发现具有改善亲和力的良好候选物的概率。

3)基于在其配体存在下的前导结构模板的评估

任选地，基于在其配体或抗原存在下的前导结构模板，例如，与VEGF复合的前导抗-VEGF抗体，可以评估来自前导、选中文库和选中变体文库的序列。当前导蛋白质及其配体形成的复合体的结构已知或容易确定时，该方法有用。

在抗原的存在下，在计算中可以包括抗体和抗原之间复合体形成完整的热力学循环。基于来自其具有优选侧链旋转异构体的正则家族的单个CDR环构象和CDR环之间的相互作用，可以模拟抗体特别是结合位点中的构象。可以取样广泛范围的构象，包括氨基酸残基侧链的那些和抗原结合位点中的CDR环的那些，并整合到抗体的主要构架(或支架)中。当抗原存在时，使用物理化学力场以及半经验和基于知识的参数，这种构象模拟确保得分较高的物理相关性，和更好的代表体内抗体生产和成熟的天然过程。

4)在存在和缺少抗原下抗体序列分数的相关性

期望具有抗原及其抗体之间的复杂结构以便将抗体文库集中于具有良好结合抗原的概率的序列。不幸地，对于有生物医学兴趣的大部分抗体，还不能获得抗体和抗原之间的复杂结构。

本发明人发现许多有利于稳定靶抗体支架的序列也是可以稳定特定抗体-抗原复合体的所选候选物，即使对于直接参与结合抗原的V_H CDR3而言。相关分析显示在存在和缺少抗原下抗体序列的分数中存在一般的相关趋势(图12C)。另外，所选具有好分数的大序列群有利于稳定结合基序的支架，如对于此处使用的抗-VEGF的V_H CDR3。

应当注意，没有复合体结构时，仅抗体结构仍可以提供稳定靶支架同时具有抗原正确结合位点的序列群。尽管已经观察到抗原结合时的构象变化，不清楚构象变化是否是抗原抗体相互作用的许多可能方案之一或者是绝对要求。目标是鉴定可能形成功能蛋白质的序列集合，因此不要求结合结构，只要它不经历重大的构象位移。基于可获得的结合和未结合状态的抗体结构，这是一个良好的假设。至少，在这里采用的方法中允许一些结构波动(见19A)，只要它们属于相同的集合结构家族。

备选地，如果不能获得前导抗体的结构，通过模拟可以产生模板。抗体结构或结构基序属于最好的已知蛋白质实例中的一些，对于这些蛋白质可以产生结构模型，其使用同源模拟，置信度较高。因此，不使用前导结构模板，仍可以将序列文库靶向前导序列。如将在实施例部分显示，可以合成覆盖靶基序的序列文库的序列并用于筛选具有高亲和力的抗体，而不依赖于前导抗体的结构。

5)结构计算引擎

关于针对前导结构模板模拟文库和评估可以获得许多程序。例如，可以将分子力学软件(molecular mechanics software(用于这些目的，其实例包括但不限于CONGEN，SCWRL，UHBD，GENPOL和AMBER。

CONGEN(构象生成器(CONformation GENerator))是用于对蛋白质片段进行构象搜索的程序(R.E.Bruccoleri(1993)Molecular Simulations 10，151-174(1993)；R.E.Bruccoleri，E.Haber，J.Novotny，(1988)Nature 335，564-568(1988)；R.Bruccoleri，M.Karplus.(1987)Biopolymers 26，137-168。它最适合需要在已知结构中构建未确定的环或片段的问题，即同源模拟。该程序是CHARMM版本16的改进，具有CHARMM版本(Brooks BR，Bruccoleri BE，Olafson BD，States DJ，Swaminathan S，Karplus M.(1983)J.Comput.Chem.4，187-217)的大部分性能。

所用基本能量函数包括关于键、角、扭转角、不规则角、范德瓦耳斯和具有距离依赖性介电常数的静电相互作用的术语，使用可以使用CONGEN测定的Amber94力场。(参见实施例部分)。

CONGEN程序用于搜索低能量构象异构体，其接近或对应于天然出现的具有最低自由能的结构(Bruccoleri和Karplus(1987)Biopolymers 26：137-168；和Bruccoleri和Novotny(1992)Immunomethods 96-106)。考虑到准确的Gibbs函数和短环序列，可以产生环的所有立体化学可接受的结构并计算它们的能量。选择具有较低能量的结构。

该程序可以用于使用基本或改进得分函数进行构象搜索和结构评估。给定立体约束，该程序可以计算分子的其它性质如溶剂可及表面和构象熵。这些性质中的每一个结合下述其它性质可以用于将数字文库评分。

按照本发明，除了V_H CDR3以外，定义五个CDR(V_L CDR1，2，和3，和V_H CDR1，和2)的正则结构。已知V_H CDR3在其长度和构象方面显示大的变化，尽管随着增加数量的抗体结构可以在PDB(蛋白质数据库)数据库中获得，在其构象模拟方面已经取得进展。如果不可获得正则结构，CONGEN可以用于产生环区域(例如V_H CDR3)的构象，用靶氨基酸对应的侧链旋转异构体代替模板序列的侧链。第三，通过能量最小化或分子动态模拟或其它工具来缓解结构模型中的立体碰撞和约束，可以进一步优化模型。

SCWRL是侧链安置程序，使用主链依赖性旋转异构体文库，该程序可以用于产生侧链旋转异构体和旋转异构体组合(Dunbrack RL Jr，KarplusM(1993)J Mol Biol 230：543-574；Bower，MJ，Cohen FE，Dunbrack RL(1997)J Mol Biol 267，1268-1282)。文库提供chi1-chi2-chi3-chi4值和它们对于给定phi-psi值的残基的相对概率的列表。该程序可以进一步研究这些构象来最小化侧链-主链碰撞和侧链-侧链碰撞。一旦最小化立体碰撞，取代片段的侧链和主链可以使用CONGEN能量最小化来缓解局部应变(Bruccoleri和Karplus(1987)Biopolymers 26：137-168)。

特别为构建抗体结构开发的几个自动程序可以用于本发明中的抗体结构模拟。ABGEN程序是用于获得抗体片段结构模型的自动抗体结构产生算法。Mandal等(1996)Nature Biotech.14：323-328。ABGEN利用基于支架技术(scaffolding technique)的同源性和包括使用不变量和严格保守的残基，已知Fab的结构基序，高变环的正则特征，残基替代的扭转约束和关键的残基间相互作用。特别是，ABGEN算法由两个主要模块组成，ABalign和ABbuild。ABalign是提供抗体序列与所有结构已知的抗体V-区域序列对比的程序，计算机对比记分得分。认为得分最高的文库序列是最适合试验序列。ABbuild然后使用由ABalign输出的该最佳配合模型来产生三维结构和提供期望抗体序列的直角坐标。

WAM(Whitelegg NRJ和Rees，AR(2000)Protein Engineering 13，819-824)是ABM的改善版本，其使用组合算法(Martin，ACR，Cheetham，JC，和Rees AR(1989)PNAS 86，9268-9272)模拟CDR构象，使用来自x-射线PDB数据库的CDR环的正则构象和使用CONGEN产生的环构象。简而言之，抗体结构的模块性质使得可以使用蛋白质同源模拟和结构预测的组合来模拟结构。

在优选实施方案中，将使用下列方法来模拟抗体结构。因为抗体是序列和结构最保守的蛋白质之一，抗体的同源模拟相对简单，除了现有正则结构中还未测定的某些CDR环或具有插入或缺失的那些以外。然而，可以使用结合同源模拟和构象搜索(例如CONGEN可以用于该目的)的算法模拟这些环。

使用对于五个CDR(L1，2，3和H1，2)定义的正则结构。已知高变重链中的H3(即V_H CDR3)在其长度和构象方面显示大的变化，尽管由于可获得更多的抗体结构已经在其构象模拟方面取得进展。模拟方法包括蛋白质结构预测方法如穿线法，和比较模拟，其基于相似性模拟序列，将未知结构的序列与至少一种已知结构对比。重新或从头方法也显示在仅从序列预测结构方面增加的希望。如果不能获得正则结构，可以使用CONGEN取样未知的环构象(Bruccoleri RE，Haber E，Novotny J(1988)Nature 355，564-568)。备选地，从头方法，包括但不限于Rosetta从头方法，可以用于预测抗体CDR结构(Bonneau R，Tsai J，Ruczinski I，Chivian D，RohlC，Strauss CE，Baker D(2001)Proteins Suppl 5，119-126)而不依赖于模拟序列和任何已知结构之间在折叠水平上的相似性。使用现有技术明确的溶剂分子动力学和隐含的溶剂自由能计算的更准确的方法可以用于从CONGEN或Rossetta从头方法产生的模型中改进和选择类天然结构(LeeMR，Tsai J，Baker D，Kollman PA(2001)J Mol Biol 313，417-430)。

本文所用的X-射线结构(1BJ1和/或1CZ8)或如上所述模拟的结构可以用作设计以下所述实验筛选的抗体文库的结构模板。

6)结构评估的得分函数

在本发明的一个实施方案中，将计算机分析用于从以上部分3和4中所述序列评估方法中选择的序列的结构评估。结构评估是基于经验和参数化得分函数，意欲减小随后体外筛选所需的数目。

该方法使用现有的结构模板来对产生的所有氨基酸文库评分。使用已知结构作为模板来评估抗体-抗原相互作用假设：(i)抗体和抗原分子的结构在结合和游离态之间不显著改变，(ii)CDR中的突变不显著改变总体以及局部结构和(iii)由于CDR中的突变导致的积极作用是局部的和可以记分来评估与突变直接相关的功能。将已知结构作为模板的优势是它可以用作设计改善的良好起点，而不是与使用模拟结构的更挑战性的方法比较。这些序列选中的能量分布应当显示在它们与靶目标的结构相容性方面它们如何充分覆盖靶支架的适应度函数。

因为由于突变体结构的不确定性上述假设必定引入误差，如果突变体已经改变结构，可能复杂的得分函数仍不能提供有意义的预测。将一般的但充分验证过的力场(见下文)用于抗-VEGF抗体的模型系统中的初始计算，如实施例部分所示。如果可以通过取样用实验实现的集合序列研究适应度景观的优选区域，它一般可以避免构建到特定系统中的偏向。然而，本发明不排除使用更复杂的关于结构评估的得分函数。

许多能量函数可以用于对序列和结构之间的相容性评分。典型地，可以使用四种类型的能量函数：(1)经验物理化学力场如下面讨论的标准分子力学力场，其来源于简单模型化合物；(2)获自蛋白质结构的基于知识的统计学力场，所谓的平均力位势(potential of mean force，PMF)或来自基于结构的序列作图的穿线分数；(3)通过使用实验模型系统拟合力场参数而参数化的力场；(4)(1)至(3)中一个或几个术语的组合，每个术语具有不同权重因子。

下面是可以用于或结合到得分函数中的一些充分验证过的物理-化学力场。例如在以下实施例中将amber 94力场用于CONGEN中对序列-结构相容性评分。力场包括但不限于本领域技术人员广泛使用的下列力场：Amber 94(Cornell，WD，Cieplak P，Bayly CI，Gould IR，Merz KM Jr，Ferguson DM，Spellmeyer DC，FoxT，Caldwell JW和Kollman PA.JACS(1995)117，5179-5197(1995)；CHARMM(Brooks，B.R.，Bruccoleri，R.E.，Olafson，B.D.，States，D.J.，Swaminathan，S.，Karplus，M.(1983)J.Comp.Chem.4，187-217.；MacKerell，A D；Bashford，D；Bellott，M；Dunbrack，R L；Eva seck，J D；Field，M J；Fischer，S；Gao，J；Guo，H；Ha，S；JosephMcCarthy，D；Kuc nir，L；Kuczera，K；Lau，F T K；Mattos，C；Michnick，S；Ngo，T；Nguyen，D T；Pro hom，B；Reiher，W E；Roux，B；Schlenkrich，M；Smith，J C；Stote，R；Straub，J；Watanabe，M；WiorkiewiczKuczera，J；Yin，D；Karplus，M(1998)J.Phys.Chem.，B 102，3586-3617)；Discover CVFF(Dauber-Osguthorpe，P.；Roberts，V.A.；Osguthorpe，D.J.；Wolff，J.；Genest，M.；Hagler，A.T.(1988)Proteins：Structure，Function and Genetics，4，31-47.)；ECEPP(Momany，F.A.，McGuire，R.F.，，Burgess，A.W.，&Scheraga，H.A.，(1975)J.Phys.Chem.79，2361-2381.；Nemethy，G.，Pottle，M.S.，&Scheraga，H.A.，(1983)J.Phys.Chem.87，1883-1887.)；GROMOS(Hermans，J.，Berendsen，H.J.C.，van Gunsteren，W.F.，&Postma，J.P.M.，(1984)Biopolymers 23，1)；MMFF94(Halgren，T.A.(1992)J.Am.Chem.Soc.114，7827-7843.；Halgren，T.A.(1996)J.Comp.Chem 17，490-519.；Halgren，T.A.(1996)J.Comp.Chem.17，520-552.；Halgren，T.A.(1996)J.Comp.Chem.17，553-586.；Halgren，T.A.，and Nachbar，R.B.(1996)J.Comp.Chem.17，587-615.；Halgren，T.A.(1996)J.Comp.Chem.17，616-641.)；OPLS(参见Jorgensen，W.L.，&Tirado-Rives，J.，(1 988)J.Am.Chem.Soc.110，1657-1666.；Damm，W.，A.Frontera，J.Tirado-Rives and W.L.Jorgensen(1997)J.Comp.Chem.18，1955-1970.)；Tripos，(Clark，M.，Cramer III，R.D.，van Opdenhosch，N.，(1989)Validation of the General Purpose Tripose 5.2Force Field，J.Comp.Chem.10，982-1012.)；MM3(Lii，J-H.，&Allinger，N.L.(1991)J.Comp.Chem.12，186-199)。还可以使用其它一般力场如Dreiding(Mayo SL，Olafson BD，Goddard(1990)J Phy Chem 94，8897-8909)或用于蛋白质折叠或模拟的特定力场如UNRES(United Residue Forcefield；Liwo等，(1993)Protein Science 2，1697-1714；Liwo等，(1993)Protein Science2，1715-1731；Liwo等，(1997)J.Comp.Chem.18，849-873；Liwo等，(1997)J.Comp.Chem.18：874-884；Liwo等，(1998)J.Comp.Chem.19：259-276.)。

来源于蛋白质结构的统计学位势(potential)也可以用于评估使用的序列和蛋白质结构之间的相容性。这些位势包括但不限于残基对位势(Miyazawa S，Jernigan R(1985)Macromolecules 18，534-552；Jernigan RL，Bahar，I(1996)Curr.Opin.Struc.Biol.6，195-209)。平均力位势(Hendlich等，(1990)J.Mol.Biol.216，167-180)已经用于计算蛋白质的构象集合(Sippl M(1990)J Mol Biol.213，859-883)。然而，还讨论这些力场的一些限制(Thomas PD，Dill KA(1996)J Mol Biol 257，457-469；Ben-Naim A(1997)J Chem Phys 107，3698-3706)。

对序列和结构之间的相容性评分的另一种方法是使用序列作图(BowieJU，Luthy R，Eisenbery DA(1991)Science 253，164-170)或穿线分数(JonesDT，Taylor WR，Thornton JM(1992)Nature 358，86-89；Bryant，SH，Lawrence，CE(1993)Proteins 16，92-112；Rost B，Schneider R，Sander C(1997)J Mol Biol 270，471-480；Xu Y，Xu D(2000)Proteins 40，343-354)。将这些基于准化学近似或玻尔兹曼统计或Bayes定理的统计学力场(Simons KT，Kooperberg C，Huang E，Baker D(1997)J Mol Biol 268，209-225)用于评估序列和结构之间的适合度或蛋白质设计(DimaRI，Banavar J R，Maritan A(2000)Protein Science 9，812-819)。

此外，基于结构的涉及蛋白质结构热力学稳定性的热力学参数也可以用于评估序列和结构之间的适合度。在基于结构的热力学方法中，使用来自模型化合物或蛋白质量热学研究的热力学数据，可以基于蛋白质的结构计算热力学量如热容、焓、熵来解释热伸展的温度依赖性(Spolar RS，Livingstone JR，Record MT(1992)Biochemistry 31，3947-3955；Spolar RS，Record MT(1994)Science 263，777-784；Murphy KP，Freire E(1992)AdvProtein Chem 43，313-361；Privalov PL，Makhatadze GI(1993)J Mol Biol232，660-679；Makhatadze GI，Privalov PL(1993)J Mol Biol 232，639-659)。使用基于集合的统计热力学方法，基于结构的热力学参数可以用于计算突变体序列的结构稳定性和氢交换保护系数(hydrogen exchange protectionfactors)(Hilser VJ，Dowdy D，Oas TG，Freire E(1998)PNAS 95，9903-9908)。已经使用实验模型系统测定与蛋白质二级结构形成的统计热力学模型相关的热力学参数，预测和实验数据之间非常一致(Rohl CA，Baldwin RL(1998)Methods Enzymol 295，1-26；Serrano L(2000)Adv Protein Chem 53，49-85)。

来自分子力学力场的各种术语的组合加上一些特定成分已经用于大多数蛋白质设计程序。在优选实施方案中，力场由一个或多个术语如vdw，氢键合和来自标准分子力学力场如Amber，Charmm，OPLS，cvff，ECEPP的静电相互作用，加上一个或几个认为控制蛋白质稳定性的术语组成。

为了改善得分函数，在后面步骤中包括另外的能量术语，其允许将得分函数调整以更好地解决与实验结果的偏离和目的特定抗体-抗原相互作用的影响。例如，一个能量术语可以使精氨酸突变处于不利位置以减小它由于预测其侧链构象的不确定性对总分的贡献和补偿偏爱精氨酸的当前得分函数的偏差。另一个能量术语可以基于表面积计算对带电和极性基团的溶剂暴露评分，以便按照暴露的表面积惩罚导致电荷屏蔽的突变。

实际上，存在许多可以用来对序列与模板结构或结构集合的相容性评分的得分函数。改经的得分函数由几个术语组成，包括静电和范德瓦耳斯相互作用的贡献，使用分子力学力场计算的ΔGMM，包括静电溶剂化和溶剂可及表面的溶剂化的贡献，ΔG_sol，和构象熵的贡献(Sharp KA.(1998)Proteins 33，39-48；Novotny J，Bruccoleri RE，Davis M，Sharp KA(1997)JMol Biol 268，401-411)。

一种简单快速的计算机筛选方法是使用全体或组合的能量术语，使用包括来自分子力学力场如Amber94的术语的基本得分函数，如CONGEN中实现，计算序列的结构稳定性。

ΔE_总＝E_键+E_angel+E_dihed+E_impr+E_vdw+E_电+E_溶剂化+E_其它

或备选地，使用精确的得分函数(refined scoring function)作为结合和未结合状态之间的差异计算结合自由能：

ΔG_b＝ΔG_MM+ΔG_sol-TΔS_ss

其中

ΔG_MM＝ΔG_ele+ΔG_vdw(1)

ΔG_sol＝ΔG_ele-sol+ΔG_ASA(2)

对于ΔG_MM，使用在CONGEN执行的Amber94参数计算ΔG_ele和ΔG_vdw静电和范德瓦耳斯相互作用能，而ΔG_ele-sol是将无介电边界的蛋白质中不均匀分布的电荷移动至具有由蛋白质形状限定的介电边界的水相中所需的静电溶剂化能。这通过解决关于对照和突变结构的静电势的泊松-玻尔兹曼方程来计算。ΔG_ASA，非极性能是将非极性溶质基团移动至水性溶剂中导致溶剂分子重组的能量消耗。这已经显示与分子的溶剂可及表面积线性相关(Sitkoff D，Sharp，KA，Honig B(1994)J Phys Chem 98，1978-1988；Pascual-Ahir&Silla(1990)J Comp Chem 11，1047-1060)。

侧链熵(ΔS_ss)的变化是对特别是在结合界面上的局部侧链构象空间影响的量度。这从允许的结合和未结合状态的侧链构象的数量比率计算。对于一般得分目的，将独立的侧链近似值应用于突变的侧链以便避免在各种主链构象中取样多个侧链构象空间强加的巨大计算需求。

评估选中文库或选中变体文库中的序列与靶结构的结构相容性，并在靶折叠的能量景观上绘制出来。对于抗-VEGF抗体，存在和缺少抗原下的抗体序列分数在一般趋势上相关，因为大量的变体能够稳定抗体支架(参见图12C)。其中，有显著部分的序列能够结合靶表位。如实施例部分所示，基于模板抗体-抗原复合体(1CZ8)的相对稳定性，基于它们的适应度分数将CDR文库序列排序，并鉴定用实验选择的序列(图13A)。

如果可能，有利的是确定抗原结合和未结合状态的分数，以消除任何在两种状态下非常不利的序列。如此，我们可以避免将结合态和未结合态之间的差异准确评分的需要，同时仍有效地减小搜索空间。

将得分函数用于将选中文库、选中变体文库I或选中变体文库II中的序列评分，任选地，计算前导序列或前导结构模板序列和文库序列之间的差异以完成热力学循环。因此，可以选择序列用于进一步实验筛选，其基于任一下列标准：1)选择在稳定抗体结构方面得分好于前导序列的序列；2)选择在稳定抗体-抗原复合体结构方面得分好于前导序列的序列；3)结合和未结合态之间的分数差异好于前导序列，条件是得分函数足够敏感而鉴别大数之间的小差异。仅当可获得高度改进的得分函数或基于高质量集合的得分函数时使用最后的标准，优选使用其中可以获得高质量突变体数据用于计算得分函数的系统。

分析得分好于前导序列的序列并分类成不同簇。簇组合应当覆盖足够的序列和结构空间，其覆盖适应度景观中的期望区域(图7)。这种通过聚簇序列选择得分窗的方法被当作减小物理文库大小的努力。聚簇方法的另一益处是来自几个不连接的得分窗的连续核酸文库(例如核酸文库I，II，III等，图7)的组合仍可以覆盖得分好于前导序列的序列和结构空间的一大部分。该聚簇方法的理想结果是因为这些序列簇的每一个要求比组合文库小得多的物理文库大小，编码每个簇的核酸文库对于体外或体内详尽筛选足够小。

在本发明的一个实施方案中，将选中变体文库的得分用于选择优化期望功能的序列群，和为选中变体文库II确定起始设计。获得的选中变体文库II的得分用于确定对变体图谱的改进和设计增强的效果。也将来源于核酸文库(在下面部分7中详述)的选中变体文库III评分以确定文库的适应度和评估得分函数在将序列和结构空间映射到分子靶的适应度景观上的有效性。

在具体实施方案中，来自MM术语的标准术语已经与溶剂化术语结合，该溶剂化术语包括使用静电溶剂化的连续溶剂模型计算的静电溶剂化和溶剂可及溶剂化术语；这些MM-PBSA或MM-GBSA方法，以及来自包括主链和侧链的构象熵的贡献，已经显示实验和计算的自由能改变值之间的良好相关性(Wang W，Kollman P(2000)J Mol Biol 303，567-582)。与用于蛋白质和药物设计的其它得分函数相比，MM-PBSA或MM-GBSA是更好的得分物理模型和将用统一的方法处理各种问题，尽管它在计算上花费多，因为需要来自外显水的分子动力学模拟的多个轨道来计算系统的集合平均值和连续溶剂模型在计算上仍然慢。这些准确的方法将为校准用于文库筛选的简单得分函数或为研究逃避简单计算的一些挑战性的突变提供基准。

7)蛋白质设计的力场实例

通过试验列举的允许的旋转异构体序列，将蛋白质核心内的相互作用(范德瓦耳斯(vdw)相互作用)正确包装评分的重要相互作用，被用于设计蛋白质核心序列(Ponder JW，Richards FM(1987)J Mol Biol 193，775-791。使用随机算法的模拟进化在势函数下可以选择一组序列；蛋白质疏水核中残基的所选序列的能量排位次序与它们的生物学活性相关性良好(Hellinga HW，Richards FM(1994)PNAS 91，5803-5807)。

类似的方法也被用于使用随机算法设计蛋白质(Desjarlais J，Handel T，(1995)Protein Science 4，2006-2018；Kono H，Doi J(1994)Proteins，19，244-255)。通过在保持氨基酸序列组成不变的自动化蛋白质设计方法中包括范德瓦耳斯、静电学、和表面依赖的半经验环境自由能或术语组合，评估势函数对设计的靶支架序列的影响。已经显示每个额外的能量函数术语逐渐增加设计的序列的性能，对于包装为vdw，对于折叠特异性为静电学，和对于疏水残基掩蔽和对于亲水残基暴露的环境溶剂化术语(Koehl P，Levitt M(1999)J Mol Biol 293，116l-1181)。

将自身相容(self-consistent)的均场方法用于对能量表面取样以便发现最优解决方案，(Delarue M，Koehl.(1997)Pac.Symp.Biocomput.109-121；Koehl P，Delarue M，(1994)J.Mol.Biol.239，249-275；Koehl P，Delarue M(1995)Nat.Struct.Biol.2，163-170；Koehl P，Delarue M(1996)Curr.Opin.Struct.Biol.6：222-226；Lee J.(1994)Mol.Biol.236，918-939；Vasquez(1995)Biopolymers 36，53-70)。来自分子力场、基于知识的统计学力场和其它经验矫正的术语的组合也已经用于设计与靶支架的天然序列接近的蛋白质序列(Kuhlman B，Baker D(2000)PNAS 97，10383-10388)。除了蛋白质核设计中的空间排斥以外包括基于结构的热力学术语(Jiang X，Farid H，Pistor E，Farid RS(2000)Protein Science 9，403-416)。基于知识的位势已经用于设计蛋白质(Rossi A，Micheletti C，Seno F，Maritan A(2001)BiophysicalJournal 80，480-490)。

对于蛋白质设计目的也已经结合终端消除算法来特别优化力场(Dahiyat BI，Mayo SL(1996)Protein Science 5，895-903)。将能量函数分解成成对函数形式，结合分子力学能量术语和特定溶剂化术语，用于核、边界和表面位置上的残基；将终端消除算法用于吸取(sip)整个巨量的组合旋转异构体序列。力场的严格性和用于蛋白质设计的固定主链的刚性反向折叠方案不可避免地导致显著比率的假阴性：许多如果允许适度能量函数(soft energy function)或灵活的主链可能可以接受的序列被排斥。此外，用于蛋白质设计的能量函数完全不同于对于研究蛋白质折叠或稳定性广泛使用和检验的常规力场如Amber或Charmm(Gordon DB，Marshall SA，Mayo SL(1999)Curr Opin Stru Biol 9，509-5 13)。必须小心将使用特定方案设计的序列与来自备选方法的其它相比，因为由于蛋白质设计方案中涉及的假阴性问题它们之间的直接比较也许不可能。

本发明人认为，尽管蛋白质设计中的高假阴性率对于设计具有较少限制的蛋白质不是问题，这将给设计用于药物应用的蛋白质带来严重问题，对于这些蛋白质仅允许小限制区域改变序列来改善蛋白质功能。例如，许多变体对于V_H CDR3可接受，即使VEGF抗体的V_H CDR3中仅一个或两个残基实际上将改善它的结合亲和力，但对于构架区，仅可以容忍少量突变体被人源化。因此，对于功能改善以便鉴定靶区域中的那些较少突变体，最重要的是组合筛选的准确度而不是范围或速度。

任选地，分子动力学或其它计算方法可以用于产生结构集合，该集合平均分用于将序列排名(Kollman PA，MassovaI，Reyes C，Kuhn B，Huo SH，Chong LT，Lee M，Lee TS，Duan Y，Wang W，Donini O，Cieplak P，Srinivasan P，Case DA，和Cheatham TE(2000)Acc.Chem Res.33，889-897)。从集合结构计算的平均性能显示与来自实验测量的相应数据的更好的相关性。

6.基于前导结构模板构建突变体抗体文库

备选地，基于前导抗体的3D结构可以直接构建突变体抗体文库，然后体外或体内筛选期望功能。通过避免构建选中变体文库和直接评估来自通过筛选蛋白质数据库构建的选中文库的序列，该方法采取捷径。该方法如图1C中的路线III或1E-H所示。

如部分3中详述，存在几种构建选中文库的方法。一种构建选中文库的方法是在蛋白质数据库中搜索以发现在序列模式上与要突变的区域(例如前导抗体的重链的CDR3(CDR H3))的氨基酸序列匹配的那些片段。可以使用常规的BLAST分析以搜索与CDR H3序列高度同源的序列。

任选地，PSI-BLAST可以用于搜索模板抗体的CDR H3序列的序列同源物。

还任选地，单个靶序列和/或多重序列对比可以用于构建图谱隐马尔可夫模型(HMM)。该HMM然后用于从蛋白质序列数据库如蛋白质Kabat数据库和人种系免疫球蛋白构架数据库中搜索近和远的人同源物。来自各种物种的有免疫学兴趣的蛋白质的Kabat数据库可以用于设计不同的CDR序列。

通过使用任一上述用于序列对比的方法选择的选中文库中的序列或其组合可以被作图以比较氨基酸的类型和它在模板抗体相应区域(例如CDRH3)的每个位置上出现的频率。

将该选中文库的每个成员嫁接到模板抗体的相应区域(例如CDR H3)中并通过使用上面部分5中描述的得分函数来检验它与抗体剩余部分的结构相容性。

使用类似方法，可以基于来自前导抗体不同区域(如重链和轻链的CDR1，CDR2)的前导序列构建选中文库，并检验与前导抗体剩余部分的结构相容性。这些文库可以组合以允许同时对前导抗体的不同区域突变，由此增加突变抗体文库的多样性。

将在这些方法中选择的所有突变抗体序列合并和在体外或体内筛选与靶抗原结合的高亲和力。

7.用于实验筛选的核酸文库的构建

为了促进体外或体内功能筛选，构建核酸文库以编码通过使用本发明上述方法选择的氨基酸序列。核酸文库的大小可能根据选择和作图氨基酸序列的具体方法而变化。例如，如果选择和重组太多氨基酸序列，核酸的大小可以达到＞10⁶。可以进行氨基酸序列的划分和重作图以减小核酸文库的大小，促进有效和彻底的实验筛选。如上面部分5所述，例如用于产生选中变体文库II的图谱也用于确定体外或体内实验筛选的核酸文库的大小。

图6举例说明了构建核酸文库的例举性的方法，该文库编码所选氨基酸变体的氨基酸序列，例如选中变体文库II(图4&5)。为了构建核酸文库，通过考虑文库大小和密码子使用，将氨基酸图谱中的变体反翻译成相应的核酸(图6)。

例如，为了获得最简单和最小的覆盖给定氨基酸文库多样性的核酸文库，仅选择用于表达系统(例如大肠杆菌)的优选密码子来编码氨基酸文库。由AA-PVP的反翻译获得相应的核苷酸位置变体图谱(NT-PVP)，从核苷酸组合列举确定核酸文库的大小。参见图13A-C中的实例。如果该大小小于10⁶，进行一个或多个核酸文库(例如核酸文库I，II，III，等，图7)的合成和然后进行实验筛选。如果大小大于10⁶，将选中变体文库II分成较短的文库或重新取样得分分布以产生新的AA-PVP，产生较小的文库大小，如序列空间或图谱下部分2中所述。

通过使用NT-PVP，可以构建简并核酸文库而不单独地合成所选核酸序列中的每一个。该方法减少成本和时间，因为通过用对于每个位置不同的核苷酸混合物对自动化核苷酸合成仪编程，对于每个文库(例如核酸I，II，III等，图7)核酸文库的合成可以一次完成。结果，简并核酸文库的序列空间显著扩展，多样性增加。尽管核酸文库(作为选中变体文库III翻译)的大小大于忠实地编码设计的氨基酸序列的文库(例如选中变体文库II)，这种简并文库构建的方法不仅保证包括设计的序列，而且有希望增加发现具有与原有设计序列相比具有相等或更好功能的新序列的概率。

为了再确认，将通过使用NT-PVP产生的核酸文库反翻译成氨基酸序列文库以产生选中变体文库III，并使用能量函数评分以评估选中变体文库II覆盖的序列和结构空间和文库的适应度(图13A)。最终的比较需要实验选择数据来证实文库的适应度和得分函数在将序列和结构空间映射到适应度景观上的有效性。

8.无结构可利用的突变文库的构建

通过将序列文库分成较小部分可以构建突变文库。当仅低分辨率结构可利用或无结构可利用时这是有利的。通过将序列分成重叠的连续序列片段设计组合文库。用简并核酸文库可以靶向每个片段。应当注意即使可以获得低分辨率结构模型或其它结构信息，应当使用简并核酸文库同时靶向确定结构偶联相关的变体(参见以下实施例)。该思想已经在部分2的7)中描述和在以下实施例中举例说明(对于设计参见图28A-D，对于实验结果参见图30和36)。

简而言之，可以如下将序列变体文库分成较小片段：在结构上远隔的片段经常不相关，因此可以独立地处理广泛分开的突变，而在空间中彼此偶联的那些片段应当通过组合核酸文库同时靶向。应当注意在这种情形中结构信息是理想的但不是绝对必需。(参见以下实施例和图28A-D中的详情)。

本发明的优点

通过对大的氨基酸序列和结构基序的组合空间取样并对蛋白质之间的分子间相互作用评分，可以用计算机筛选氨基酸序列文库。对于此处使用的特定抗体-抗原复合体，分别仅基于前导序列、抗体结构和抗体和抗原之间的复合体结构设计和构建几种抗体文库。所有文库偏向前导抗体，它的序列和/或结构；它们中的一些针对复合体中的特定抗原。因此，抗体文库比来自cDNA文库或来自特定前导抗体的随机诱变的抗体集合更集中和相关。用实验筛选这些文库与特定抗原的亲和力成熟。选择不同于前导抗体CDR中序列的各种序列(参见图16A和27)。一些所选序列显示比前导抗体(或亲代抗体)较慢的解离速率(提示较高亲和力)。其中，两个突变体(参见图30&36)与在文献中报导的亲和力成熟的V_H CDR3序列的关键突变体如(H97Y和/或S101T)相同，而通过两个独立的实验系统测定，发现一个新突变体(S101R)甚至在解离速率淘洗中比文献中报导的S101T(Chen Y，Wiesmann C，Fuh G，Li B，Christinger HW，McKay P，deVos AM(1999)J Mol Biol 293，865-881)更好。

本发明人认为在几个方面有利。首先，本方法利用蛋白质的进化数据来扩展选中文库的序列和结构空间。序列搜索方法，从简单的BLSAT到愈加有力的基于图谱的方法，如PSI-BLAST和/或HAMMER，被用于从进化富集的序列数据库中搜索接近以及遥远的前导序列的同源物。基于可获前导结构的多重结构对比的序列图谱的使用允许比通过常规、多重序列对比方法更大的序列空间取样。因此，此处使用的方法增加多样性以及发现新选中或具有增强结合亲和力的突变体组合的概率。

第二，序列空间中的取样还强调适于特定目的的序列数据库的选择。例如，应当在设计免疫原性是重要问题的药用蛋白质中开发多样序列数据库在设计CDR中的应用和人种系或人源序列在构架区中的应用。

第三，使用来自各种数据库的现有序列的序列设计是简单的和高效的，因为仅使用进化富集的序列或它们的组合。一种改进的然而在计算上花费的得分函数可以用于对获得的易处理大小的序列库评分，其隐含地结合涉及折叠和表达的信息。

第四，结构模板和优化得分函数的实现可以在任何实验筛选之前，有效过滤和减小组合选中变体文库的大小。因此，可以在计算机上对大的虚拟序列空间取样和随后选择有利序列的集合可以指导覆盖多样序列空间的几个小文库的实验合成。

第五，文库大小(对于核酸文库通常约10³-10⁷)的控制可以使得更易于在实验上实现直接功能筛选。因为直接功能筛选是对计算机方法的有效性和准确性的最终检验，可以用实验检验一些与计算机筛选中的得分函数和结构模板相关的内在限制。

第六，与划分长序列的简单结构相关的应用允许控制文库大小，以使它在实验上易管理而不显著损失多样性。还使得可以对具有极少可利用结构信息的前导序列设计序列文库。

最后，得分函数的适应性和参数化允许用每个实验循环改进。实验筛选的克隆表示可以用作通过改进不同得分术语改进得分函数的反馈的图谱中实际的位置变体。

总之，通过在实验范围内在靶蛋白质的序列和结构空间中结合直接实验筛选和间接计算机筛选开发功能空间是一种蛋白质工程和设计的有力方法，如我们在此对于抗体所示。

实施例

本发明的方法用于在计算机上构建抗体文库。将血管内皮生长因子(VEGF)选作本发明原理证明实验的抗原以便在抗体设计中证明本发明。对于VEGF和它的受体(Muller YA，Christinger HW，Keyt BA，de Vos AM(1997)Structure 5，1325-1338；Wiesmann C，Fuh G，Christinger HW，Eigenbrot C，Wells JA，de Vos AM(1997)Cell 91，695-704)，VEGF和它人源化的抗体之间的复合体(Muller YA，Christinger HW，Li B，Cunningham BC，Lowman HB，de Vos AM(1998)Structure 6，1153-1167，和VEGF和它的成熟抗体之间的复合体(Chen Y，Wiesmann C，Fuh G，Li B，Christinger HW，McKay P，de Vos AM(1999)J Mol Biol 293，865-881)，可以获得序列和结构信息的丰富收集。这些提供检验本发明方法的良好平台。通过使用本发明提供的方法，通过使用来自抗体序列、抗体结构、抗体及其抗原之间的复合体结构的增加的丰富信息，在计算机上设计抗-VEGF抗体的几个数字文库。通过两个独立的新噬菌体展示系统，使用单链或双链的抗体结合单位，在体外筛选抗体文库群与VEGF的高亲和力结合。

1.计算机设计抗-VEGF抗体文库

VEGF是发育中关键的血管生成因子和通过刺激内皮细胞生长涉及实体瘤的生长。发现鼠单克隆抗体阻碍VEGF-依赖性的细胞增殖和减慢体内肿瘤生长(Kim KJ，Li B，Winer J，Armanini M，Gillett N，Phillips HS，FerraraN(1993)Nature 362，841-844)。该鼠抗体被人源化(Presta LG，Chen H，O′Connor SJ，Chisholm V，Meng YG，Krummen L，Winkler M，Ferrara N(1997)Cancer Res.57，4593-4599；Baca M，Presta LG，O′Connor SJ，Wells JA(1997)J Biol Chem272，10678-10684)和通过使用噬菌体展示和解离速率选择亲和力成熟化(Chen Y，Wiesmann C，Fuh G，Li B，Christinger HW，McKayP，de Vos AM(1999)J Mol Biol 293，865-881)。报导了VEGF和亲代抗体之间形成的复合体的X-射线结构(Muller YA，Chen Y，Christinger HW，Li B，Cunningham，BC，Lowman HB，de Vos AM(1998)Structure6，1153-1167.)，以及VEGF和成熟抗体之间形成的复合体的X-射线结构(Chen Y，WiesmannC，Fuh G，Li B，Christinger HW，McKay P，de Vos AM，Lowman HB(1999)J.Mol Biol 293，865-881)。

图9A显示人源化抗-VEGF抗体(下文称为“亲代抗-VEGF抗体”)可变区的氨基酸序列和从人源化抗-VEGF抗体成熟的抗体亲和力(以下称为“成熟的抗-VEGF抗体”)。观察到与抗原接触的V_H CDR中的每个氨基酸残基在下面被标记为“c”。图9B是亲代和成熟抗-VEGF抗体的V_H CDR的对比。按照Kabat标准(Kabat EA，Redi-Miller M，Perry HM，Gottesman KS(1987)Sequences of Proteins of Immunological Interest 4th edit，NationalInstitutes of Health，Bethesda，MD)设计构架和CDR。氨基酸残基的差异用黑体字母突出。如图9B所示，成熟抗体仅具有两个在V_H CDR1(T28D和N3 1H)和V_H CDR3(H97Y和S100aT)中不同于亲代抗体的氨基酸残基。在亲和力成熟后CDR2中没有变化。

成熟抗-VEGF抗体与VEGF的结合亲和力比亲代抗体高135倍，在V_H链中有4个突变(T28D，N31H，H97Y，和S100aT)。V_H CDR3中的两个突变分别将结合亲和力相对于亲代抗体提高14-倍(来自H97Y)和2-倍(来自S100aT)(参见Chen Y，Wiesmann C，Fuh G，Li B，Christinger HW，McKay P，de Vos AM，Lowman HB(1999)J.Mol Biol 293，865-881的表6)。在V_H CDR3中仅通过H97Y的14-倍的亲和力提高使得其成为单个最重要的亲和力成熟突变，这与在x-射线复合体结构中的观察一致，H97Y突变体在抗原和抗体之间制造两个另外的H-键。

按照本发明，使用模块计算机进化设计方法，可以靶向每个基序如抗体的CDR和构架。该模块设计在图8中描述。已经理解对于每个CDR仅存在有限数量的构象(称为正则结构)。抗体的这些结构特征通过使用抗体不同区域的结构基序，如V_L&V_H中的CDR1，CDR2，和CDR3以及来自抗体结构广泛分析的构架区而提供极好的检验进化序列设计的系统。在不同物种之间观察到这些结构和序列保守。实际上，抗体支架，或免疫球蛋白折叠，是在自然中观察到的最丰富的结构之一并且在各种抗体和相关分子之间高度保守。

本发明人认为上述亲代抗-VEGF抗体可以在模型系统中用作前导蛋白质，使用本发明的方法定向抗体亲和力成熟。成熟抗-VEGF抗体(Chen等，上文)可以用作参考或阳性对照来证实通过使用本发明方法获得的结果。

另外，结构叠加显示在VEGF和亲代抗体之间形成的复合体的结构几乎与VEGF和成熟抗体之间形成的复合体的结构重叠。因为亲和力成熟之前和之后的抗体结构保持基本上相同，将亲代和成熟抗体的结构都用于使用本发明方法的抗-VEGF抗体的数字文库设计。使用基于序列的方法或包含诱导的结构变化的结构集合，本发明方法还可以用于设计在抗原结合后具有诱导配合的抗体。

将亲代抗-VEGF抗体用作前导蛋白质和将它的V_H CDR3用作前导序列，通过进行图1D路线IV和图2中图表概述的方法构建V_H CDR3的数字文库。

前导序列包括亲代抗-VEGF抗体的V_H CDR3和一些来自相邻构架区的氨基酸残基(图9B)。作为概述，通过搜索和选择与V_H CDR3具有远同源性的选中氨基酸序列来构建选中文库。基于选中文库构建变体图谱以列出在每个位置上的所有变体并用某一截止值过滤减小获得的选中变体文库的大小至计算或实验的范围内。还构建变体图谱以便促进i)对覆盖适应度景观中优选区域的序列空间的取样；ii)划分和合成靶向优选肽集合序列的简并核酸文库；iii)实验筛选抗体文库的期望功能；和iv)用反馈分析实验结果以进一步设计和优化。

前导结构模板获自可获得的VEGF和抗-VEGF抗体之间形成的复合体的X-射线结构。VEGF和亲代抗-VEGF抗体的复合体结构称为1BJ1，VEGF和成熟抗-VEGF抗体之间形成的复合体结构称为1CZ8。在扫描序列的相对排序上来自1CZ8结构模板的结果类似于来自1BJ1的那些。

1)前导序列

对于V_H CDR3的前导序列取自按照Kabat分类的亲代抗-VEGF抗体和来自分别在N-和C-末端侧邻V_H CDR3序列的相邻构架区的氨基酸残基CAK和WG(图9B)。如图9B所示，亲代和成熟抗体的V_H CDR3仅在两个氨基酸位置上有差别。仅亲代抗体的V_H CDR3序列被用于构建搜索蛋白质数据库的HMM。

2)选中文库和变体图谱

将使用单个前导序列，SEQ ID NO：5(图9B)构建的HMM校准和用于搜索Kabat数据库(Johnson，G和Wu，TT(2001)Nucleic Acids Research，29，205-206)。列出在期望值或E-值以上的所有序列选中并使用HAMMER2.1.1包对比。在从选中表中去除冗余和成熟序列以后(即通过假设不能获得成熟序列的SEQ ID NO：6)，对于前导HMM剩余的107选中序列形成选中文库。

如图10A所示，该107选中具有来自Kabat数据库的前导序列35-95％的序列同一性。通过使用程序Tree Viewl.6.5( http：//taxonomy.zoology.gla.ac. uk/rod/rod.html)，选中之间的进化距离在图10B中的进化系统树(phylogram)中显示。使用ClustalW 1.81(Thompson JD，Higgins DG，GibsonTJ(1994)Nucleic Acids Research 22，4673-4680)中的邻近-连接法(Saitou N，Nei M(1987)Mol Biol Evol 4，406-425)分析进化系统树。

每个位置的变体图谱在图11中显示。图11中的AA-PVP表提供在每个位置每种氨基酸残基出现的数目。在表下的变体图谱以每个位置上递减的出现率的顺序列出从数据库中发现的所有变体，前导序列作为对照序列。点表示在那个位置发现与对照相同的氨基酸。

来自选中文库的107选中序列的多样性可以在AA-PVP表中看见，该表显示在每个位置上氨基酸的频率和变异性。比较亲代和成熟抗-VEGF抗体的V_H CDR3序列的差异，两个不同的氨基酸(使用Kabat系统编号的H97Y和S100aT)被包括在每个位置列出的变体中。报道为最重要的增加成熟序列的结合亲和力的突变体H97Y(Chen Y，WiesmannC，Fuh G，Li B，Christinger HW，McKay P，de Vos AM，Lowman HB(1999)J.Mol Biol 293，865-881)容易鉴定为在该位置上最频繁的残基(～27％)。S100aT占在该位置鉴定的～5％的变体。图11的右下部分显示在过滤出现等于或小于10的截止频率的变体后的变体图谱。在过滤后，变得清楚的是在序列的每个位置仅允许有限量的变体；然而一些重要的突变体如成熟序列中的S100aT可能在该截止值下遗漏，尽管能量得分将保留它。

来自进化序列库的变体图谱提供信息数据来鉴定前导序列中可以变化或固定的位置。位点可以分成三类：i)结构保守的位点在进化中仍然保守。高频率的残基可以用于保持这些位点上靶基序的支架；ii)聚焦诱变应当以可变功能热点为目标；iii)结合i)和ii)以稳定靶支架而同时提供功能热点的变异性。

按照它们在变体图谱中的频率，一组来自功能变体的氨基酸应当包括在功能热点，因为它们是进化选择或优化的。而且，每个位置上的变体可以被过滤或优先考虑以包括其它可能有益的突变体或排除可能不希望有的突变体，以满足计算和实验约束条件。

3)基于结构评估选中文库的组合序列

尽管变体图谱提供关于每个位置的优选氨基酸残基和优选顺序的特定突变体的信息，未改变的，它体现了巨大的数量的重组体。一些使用频率截止值的过滤可以减少需要通过计算筛选评估或通过实验文库直接靶向的组合序列。即使将截止应用于变体图谱，仍有大量的需要评分和在最终实验筛选的序列中评估的组合序列(如图13A-C和28A-D所示)。

将基于结构的评分用于筛选选中文库和形成选中变体文库的它的组合序列。亲代抗-VEGF抗体的V_H CDR3的侧链被来自每个残基位置的选中变体文库的对应氨基酸变体的旋转异构体替代。构建旋转异构体的构象并通过使用主链依赖的旋转异构体文库(Bower MJ，Cohen FE，Dunbrack RL(1997)JMB267，1268-82)，使用程序SCWRL(版本2.1)优化。

在存在和缺少抗原VEGF的结构下，通过使用CONGEN[Bruccoleri和Karplus(1987)Biopolymers 26：137-168]中的Amber94力场的100个步骤，通过搜索最优旋转异构体和最小化能量完成评分。图12A&B分别显示使用亲代(1bi1)和成熟(1cz8)抗-VEGF抗体结构，有和/没有VEGF抗原，基于用CONGEN计算的总能量，抗-VEGF变体文库的能量分数。亲代和成熟序列的分数在图12A和B中标注。在有/没有抗原的两种结构中，成熟序列得分好于亲代序列，提示成熟序列的突变体稳定抗体结构以及其与VEGF抗原的复合体。图12C显示在存在和缺少抗原下序列的得分通常相关，这提示仅基于抗体结构的筛选序列也将提供具有与其抗原的良好结合亲和力的良好候选序列。

如图12A和12B所示，对于得分高于亲代和成熟序列的各种变体文库，存在大量序列。对于10个来自V_H CDR3的选中变体文库的所选序列，它的组合肽，简并核苷酸文库的组合文库，和实验所选序列，能量得分在能量图中的分布在图13A中显示。得分显示成熟序列中的Y97得分总是好于H97，与实验观察一致(Chen Y，Wiesmann C，Fuh G，Li B，Christinger HW，McKay P，de Vos AM，Lowman HB(1999)J.Mol Biol 293，865-881)。T100a比S100a优选，如在成熟序列中发现，而T和S在100b位置同等优选。因此，基于结构的能量得分提供了对选中变体文库在每个位置上变体出现重作图的另一个独立途径，该作图原来是基于选自蛋白质数据库的进化序列的作图构建。

为了测量使用在CONGEN中实现的简单能量函数的得分函数的准确度，使用改进的定制得分函数(custom scoring function)计算随机选择的序列组的能量，该得分函数包括侧链熵，非极性溶剂化能和静电溶剂化能。计算三个能量术语：侧链熵，非极性溶剂化能和静电溶剂化能。存在另外的选项来计算环的主链熵。使用CONGEN中的构象搜索命令CGEN计算侧链熵。确定CGEN下的选项以进行单个的侧链构象树搜索，其使用每个键(节点)上的扭转空间来扩展树。这些包括对于每个侧链的SEARCHDEPTH和SIDE选项，SGRID参数设定为AUTO以便每个扭转角在不连续的间隔上旋转。具体地，AUTO设定对于具有旋转对称性的键使用30度的扭转格子(grid)角，如在苯基，酪氨酰基，羧基，和氨基中，对于所有其它使用10度。MIN选项设定旋转取样以开始对每个特定的扭转局部能量最小化。还包括VAVOID选项以转向(turn on)范德瓦耳斯排斥避免。将MAXEVDW参数设定较高100kcal/mol，以便松弛范德瓦耳斯排斥，导致列举中更高数量的构象异构体。

对每个突变体残基侧链重复该侧链构象搜索。编码输出在构象空间中树搜索达到的“底叶(botton leaves)数量”，这是完全树搜索的数量。作为近似，侧链构象搜索独立地处理每个残基，以便可以最小化计算时间。对于彼此不接触的残基，这是一种良好的近似。对于可能可以彼此接触的残基，构象列举将倾向于过度估计构象数量。因为我们使用较高范德瓦耳斯斥力以便获得较大取样，由于残基接触导致的误差将在构象空间的这种人工测量中减少。此外，由于残基接触的误差显著性随着构象数量更大将倾向于消除，因为熵的相对变化是突变体和对照结构中构象数量的对数差。

使非静电溶剂化能与分子表面成比例，如通过GEPOL93算法计算，比例尺常数为70cal/mol/A²(Tunon I，Silla E，Pascual-Ahuir JL(1992)ProtEng 5，715-716)，使用如在CONGEN.NDIV中实现的GEPOL(Pascual-AhuirJL，Silla E(1993)J Comput Chem 11，1047-1060)命令，其将表面上三角形的划分水平规定为3。数值范围为1-5，5提供最高的准确度，但CPU时间要求显著增加。将RGRID设定为2.5A，并描述用于发现邻居的空间格子。

使用如在UHBD程序(Davis ME，Madura JD，Luty BA，McCammon JA(1991)Comput Phys Commun 62，187-197)中实现的有限差PB(FDPB)方法计算静电溶剂化能。聚焦法被用于突变周围区域。自动方案产生三个格子：粗糙的，精细的，和焦点格子。格子单位分别是1.5，0.5，和0.25埃。聚焦格子是跨越由突变残基占有的笛卡儿体积的立方格子。精细格子是跨越整个蛋白质或复合体体积的立方格子。粗糙格子是设定为每个轴中精细格子大约两倍大小的立方格子，并覆盖约8倍体积的精细格子。粗糙格子用于说明长范围的溶剂效应和设定精细格子的边界条件。类似地，精细格子说明蛋白质内部的静电贡献和设定焦点格子的边界条件。焦点格子说明由于突变导致的局部效应的更细微的细节。将蛋白质内部和外部的介电常数分别设定为4和78。温度设定为300开尔文和离子强度设定为150mM。最大重复设定为200。用统一的电介质重复计算以使内部和外部电介质设定为4，计算两个能量之间的差异。后者计算代表由于将电荷带到格子中导致的能量。

显示定制得分函数或使用CONGEN中的Amber94力场加上来自本文所用UHBD中PB的溶剂化术语的分子力学能量类似于MM-PBSA或MM-GBSA。能量函数显示与实验数据更好的一致(Sharp KA.(1998)Proteins 33，39-48；Novotny J，Bruccoleri RE，Davis M，Sharp KA(1997)JMol Biol 268，401-411)，特别是当通过分子动力学计算的结构集合用于提供更准确的基于能量函数集合平均值对序列和它的变体评分的方法(Kollman PA，Massova I，Reyes C，Kuhn B，Huo SH，Chong LT，Lee M，LeeTS，Duan Y，Wang W，Donini O，Cieplak P，Srinivasan P，Case DA，和Cheatham TE(2000)Acc.Chem Res.33，889-897)。

4)选中变体文库的变体图谱的减少

过滤来自如上所述的选中变体文库的变体图谱，以便减小潜在文库大小而同时保持大多数优选残基。图13A的上部分显示减少的10个所选序列的变体图谱，这10个序列来自在消除出现率小于截止值和基于结构评估的氨基酸以后的选中变体文库的最高排名。将该表选作盲检来证实本方法选择能够与靶抗原结合的多样序列。在来自一个计算机筛选的变体文库的10个所选序列之间存在一些共享的共同特征：R94，Y97和R100a始终发现好于K94，H97和S100a的对应的残基，例如对于在存在或缺少VEGF抗原下使用1bj1或1cz8作为模板结构的排名最高的200个序列。如在后面的实验选择中所示，H97Y确实是亲和力成熟的良好突变体。然而，如K94R和S100aR突变成精氨酸是有趣的情形：在另一方面，K94R不是亲和力成熟的良好突变体，尽管按照Kabat分类K94R位于CDR和构架间的边界上和对于人构架序列优选进化。如本发明的实验选择所示(图30&36)，K94优于R94，与文献中的观察即R94K突变增加抗-VEGF抗体的结合亲和力(Baca M，Presta LG，O′Connor SJ，Wells JA(1997)J Biol Chem272，10678-10684)一致。在另一方面，S100aR证明是对于VHCDR3成熟的最重要的单个突变之一，如在文献中报导，它优于S100aT，在噬菌体展示中在苛刻的洗涤条件下持续许多轮的淘洗(参见图30&36)。

为了避免遗漏变体图谱中一些重要的突变体，可以包括一些来自野生型的残基如赖氨酸(如K94R)，即使它们低于用于过滤选中文库的截止值或者因为与涉及具有长侧链带电残基或构象变化等的计算中的假设有关的问题，它们由于某种原因得分不如精氨酸好。因此，对于具有长侧链的带电残基，如精氨酸和赖氨酸，在相同位置的预测的残基以及野生型残基可以包括在设计文库中。减少的变体图谱可以用于列举选中变体文库II，作为对本文所用的本发明方法的盲检，用于设计具有来自前导序列的多样序列的功能文库。

5)选中变体文库II-由得分选择和优化设计的氨基酸文库

基于有利分数和/或可能参与有利相互作用的残基的存在选择最佳序列的策略被用于鉴定一个或多个用于核酸文库设计的氨基酸序列簇(图7)。如上所述，选择图13A-C中分别对于V_HCDR3，CDR1和CDR2的来自计算机评估的序列簇(例如10个序列)用于进一步体外实验测试。在图13A的左上部列出每个位置上的肽序列和变体。基于过滤的变体图谱产生组合文库，形成选中变体文库II。对于抗-VEGF的V_H CDR3(图13A)，基于分数好于前导序列的所选最佳10个序列(在所用变体文库中排名前10的序列)的变体图谱，选中变体文库II的大小是72。对于V_H CDR1和CDR2，参见图13B和C。

6)基于选中变体文库II构建简并核酸文库

单个简并核酸文库靶向上述构建的选中变体文库。图13A的下部显示核酸序列图谱，其产生自使用优化大肠杆菌密码子对V_H CDR3的反翻译。基于该图谱，通过将碱基混合物结合到每个简并位置来合成简并核酸文库。作为合成组合效应的结果，该简并核酸文库编码扩展的氨基酸文库(称为“选中变体文库III”)，大小为4608。对于V_H CDR1和CDR2，参见图13B和C。

将上面构建的简并核酸文库克隆到噬菌体展示系统中并且基于它们与包被在96-孔板上的固定化VEGF的结合选择噬菌体-展示的抗体(ccFv)。如将在以下部分2中更详细地描述，对于小核酸文库大小，进行1-3轮洗涤和选择(即淘洗)，选择显示阳性ELISA反应的克隆并测序，如在图14B中对于V_H CDR3所示。阳性克隆在将简并密码子结合到核酸文库的靶向位置显示不同变体图谱。

在图14-18中分析相对实验筛选的抗体序列设计的结果。简而言之，基于上述对于V_H CDR3详述的本发明方法，已设计关于V_H CDR1，2，3的序列。在图13A-C中分别显示选自对于V_H CDR3，CDR2和CDR2的计算机筛选文库的排名前10的序列和它们的变体图谱。图16A是列举从图13A-C所示简并核酸的V_H CDR1，CDR2和CDR3文库中实验选择的氨基酸序列的列表。图16B显示从V_H CDR1，CDR2和CDR3文库中选择的序列分别相对于抗-VEGF V_H CDR1，2，3的对应的亲代序列的序列同一性分布。图17A显示4个不同文库(设计的氨基酸文库，设计序列的氨基酸变体的组合文库，和编码单一氨基酸序列的组合简并核酸文库和整个简并核酸文库)之间的关系和在X中显示的实验选择的阳性克隆的分布，使用来自第3轮的抗-VEGF V_H CDR3文库作为实施例(参见表17B中的表格)。不同文库之间的分布取决于选择条件，文库设计的有效性，所选克隆相对于测序克隆的文库或数量的相对大小等。图17B显示描绘4个文库(图17A)之间关系的表和对于抗-VEGF V_H CDR1，2，3文库阳性克隆实验选择的序列的分布。

以下讨论V_H CDR3的详细分析。图14A显示在用设计核酸文库(图13A)编码的V_H CDR3选择功能抗-VEGF ccFv抗体的第1轮和第3轮中鉴定的ELISA阳性克隆的UV读数。图14B显示来自通过噬菌体展示图13A所示核酸文库的第1轮和第3轮选择的阳性克隆的V_H CDR3序列。明显的是选择许多不同序列，在几个位置具有不同于亲代和成熟抗-VEGF抗体的V_H CDR3(图9B&C)的大的变异。图14C举例说明了显示筛选序列多样性的阳性克隆的进化系统树。来自图14B中所示V_H CDR3的选择的阳性克隆的序列鉴定相对于亲代V_H CDR3序列范围为57-73％。图15A-B是显示将第1轮和第3轮中筛选的序列的来源分成三组的饼分图：设计的氨基酸序列，来自设计序列的组合氨基酸序列，和由合成的简并核酸文库编码的单一组合氨基酸序列。因为仅选择有限量的来自每轮的阳性克隆用于序列分析，图仅用于举例说明从设计的、它的组合氨基酸和核酸文库中选择的序列的百分比。

这些实验证明通过使用本发明的方法，可以选择抗体，其不仅具有不同序列和系统发生距离，而且具有相关生物学功能，例如结合靶抗原如VEGF的能力。

图18总结序列设计的渐进化，其使用在每个阶段氨基酸序列的得分结果，以V_H CDR3为例。从左到右，图表显示前导序列、从数据库搜索产生的选中文库、在选中变体文库I中计算机筛选的组合序列、选择的设计氨基酸序列组(选中变体文库II)、来源于文库II图谱的简并核酸文库、和实验筛选的阳性克隆和序列的能量谱。使用实验反馈可以重复该方法，直至用实验选择具有增强或期望性质的序列。

图19A-D显示基于前导序列或来源于多重基于结构的对比的前导序列的序列同源性分布的比较。图19A显示从基于结构的多重序列对比产生的前导图谱。将前导序列的结构基序用于搜索蛋白质结构数据库(PDB数据库)中在特定距离截止值内的类似结构。使用V_H CDR3的C_α原子重叠五个结构。每个结构和V_H CDR3结构基序(洋红色)之间的平均均方根差(RMSD)在2内。对应的多重序列对比在图19A的右边显示，以及它们对应结构的PDB ID和颜色。

图19B显示选中文库的251个单一序列的变体图谱，该选中文库基于亲代抗-VEGF抗体的V_H CDR3的前导序列图谱产生。图下部显示过滤的变体图谱，其通过使用5％的截止频率或在该情形中为12获得。有趣地，重要的突变体(H97Y和S100aR或S100aT，参见图30&36)也在由前导序列图谱产生的变体图谱中观察到。

图19C显示来自选中文库的序列相对于亲代V_H CDR3序列的分布。这些环显示对于HMM搜索使用单个亲代序列可以鉴定可达36％的序列同一性。三角形表示使用来自基于结构的多重序列对比的前导序列图谱可以发现甚至更低的可达～20％的序列同一性。此处使用的序列搜索策略可以发现与前导序列具有远同源性(低至20％)的不同选中。

图19D显示此处用于在序列、结构和功能空间中搜索有希望的候选物的本发明方法的概念进化。此处的基本思想是在序列和结构空间中扩展选中和变体文库的多样性以便发现在功能空间中具有改善功能的候选物。尽管通过例如发现前导序列或序列图谱的远同源物增加选中和变体文库的多样性和/或大小(如图19A所示)，序列、结构和功能空间之间的交集可以集中在较小区域，发现具有增强功能的序列的概率增加。

明显的是使用基于结构的多重序列对比作为图谱来构建HMM模型，使得可以发现前导序列的远同源物(查询序列20％序列同一性)。随着可获序列和结构信息的增加和得分函数准确度的改进，此处描述的本发明方法对于设计抗体CDR文库将变得更有力。

2.设计的抗体文库的体外功能筛选

通过使用上述方法，通过使用新的噬菌体展示系统，检验基于亲代抗-VEGF抗体的前导序列的计算机设计的抗体文库它们与抗原，VEGF结合的能力。亲代抗体或成熟抗体的结构将被用于基于结构的计算机筛选。与流行的采取单链抗体形式(scFv)的筛选抗体的方法(参见图20&32中显示的另一种新方法)相反，在噬菌体表面上表达和展示双链抗体文库。通过杂二聚体化V_H和V_L形成双链抗体以在功能上模拟抗体的Fab。该双链抗体称为“ccFv”。基于编码如上所述在计算机上设计的抗体序列的简并核酸文库构建该ccFv文库。

以下详述的是设计ccFv，构建和表达ccFv文库，和功能筛选ccFv文库的基本原理。

1)ccFv-杂二聚体卷曲螺旋稳定化的抗体

抗体Fv片段是最小的含有整个抗原结合位点的抗体片段。Fv片段具有它们两个V_H和V_L片段之间极低的相互作用能，经常对于许多生理条件下的应用太不稳定。天然地，V_H和V_L区域通过位于恒定区，C_H1和C_L中的链间二硫键连接以形成Fab片段。已经显示V_H和V_L片段还可以通过一个片段的羧基末端和另一个片段的氨基末端之间的短肽接头人工保持在一起以形成单链Fv抗体片段(scFv)。

本发明提供稳定V_H和V_L杂二聚体的新策略。设计独特的杂二聚体化序列对并用于产生类Fab的，功能性人工Fv片段ccFv(图20)。杂二聚体序列对的每个分别来源于杂二聚体受体GABA_B R1和R2。该序列对特异地形成卷曲螺旋结构和介导GABA_B-R1和GABA_B-R2受体的功能性杂二聚体化。为了改造抗体V_H和V_L杂二聚体的目的，将GABA_B-R1和GABA_B-R2卷曲螺旋结构域(分别GR1和GR2)分别与V_H和V_L片段的羧基末端融合。因此，V_H和V_L的功能配对，ccFv(卷曲螺旋Fv)，由GRI和GR2的特异杂二聚体化介导。此外，通过增加柔性间隔臂或flexon(“SerArgGlyGlyGlyGly”)[SEQ ID NO：7](或“GlyGlyGlyGlySer”[SEQ IDNO：18])修饰GR1和GR2结构域的羧基末端。为了进一步稳定杂二聚体的ccFv，通过在GR1和GR2卷曲螺旋的C-末端增加“ValGlyGlyCys”[SEQID NO：8]间隔臂引入一对半胱氨酸残基，以便卷曲螺旋的GR1&GR2介导的杂二聚体可以通过二硫键共价连接(图20-21)。ccFv在大肠杆菌中表达，分子量为35kDa。

2)抗-VEGF(AM2-ccFv)和它在噬菌体表面上的展示

在图22A-B中显示抗-VEGF抗体AM2的V_H和V_L序列。这是通过修饰亲代抗-VEGF抗体设计的抗体。在亲代抗-VEGF抗体的V_H和V_L基因中引入单一限制酶位点以促进设计的CDR序列文库的有效克隆。将AM2V_H和V_L基因克隆到噬菌粒载体中来构建噬菌体展示载体pABMD12。图23A和23B分别显示载体图谱和序列[SEQ ID NO：17]。该载体将表达两个融合蛋白：V_H-GR1和V_L-GR2-pIII融合。表达的V_H-GR1和V_L-GR2-pIII融合分泌至周质空间中，在那它们通过卷曲螺旋结构域杂二聚体化形成稳定的ccFv抗体(称为“AM2-ccFv”)。

为了在噬菌体上展示Am2-ccFv，将pABMD12载体转化到细菌TG1细胞中。携带pABMD12载体的TG1细胞进一步用KO7辅助噬菌体超感染。在2xYT/Amp/Kan中在30℃下过夜培养感染的TG1细胞。通过PEG/NaCl从培养物上清液中沉淀噬菌粒颗粒，并重悬浮在PBS中针对固定化VEGF文库选择。在结合2小时后，洗去未结合的噬菌体，洗脱结合的噬菌体并扩增用于下一轮淘洗。

通过噬菌体ELISA，通过抗原结合活性检测展示在噬菌体颗粒上的ccFv的结合。简短地，首先将抗原(例如VEGF)包被到ELISA板上。在用5％牛奶/PBS封闭后，将噬菌体溶液加入ELISA板。通过与针对噬菌体外壳蛋白pVIII的HRP-偶联的抗-M13抗体温育，检测与固定化抗原结合的噬菌体。将底物ABTS[2，2’-连氮基-双-(3-乙基苯并噻唑啉-6-磺酸)]用于测量HRP活性。显示测定对于AM2高度特异。

还制备单链AM2抗体(AM2-scFv)噬菌体用于与上述噬菌体ELISA中的AM2-ccFv比较。如图24所示，AM2-ccFv噬菌体与固定化VEGF的表观结合亲和力几乎比AM2-scFv噬菌体高一个数量级。因此，得出结论在展示在噬菌体颗粒上时AM2-ccFv和AM2-scFv均是有功能的。

3)来自模型抗体文库的ccFv噬菌体的富集

为了证明AM2-ccFv展示噬菌体可以从背景噬菌体中富集，我们进行淘洗实验来从“模型文库”中选择AM2-ccFv噬菌体。通过以1∶10⁶或1∶10⁷的比率混和AM2-ccFv噬菌体和不相关的AM 1-ccFv展示噬菌体来制备模型文库。进行对固定化VEGF抗原的两轮淘洗。将100μl 2μg/ml VEGF包被在96-孔平板的每孔上。在用5％牛奶的PBS封闭后，向孔中加入2％牛奶/PBS中的1×10¹²文库噬菌体，在室温下温育2小时。丢弃噬菌体溶液并用PBST(PBS中0.05％Tween-20)洗涤5次，用PBS洗涤5次。用100mM三乙胺洗脱结合的噬菌体，加入到TG1培养物感染。将从感染的TG1细胞制备的噬菌体用于下一轮淘洗和上述的噬菌体ELISA。在每轮淘洗后，还通过PCR分析感染的TG1克隆测定回收的AM2-ccFv噬菌体对AM1-ccFv噬菌体的比率。由于AM2-ccFv基因和AM1-ccFv基因序列的差异，设计一对引物以仅特异性扩增AM2-ccFv基因，而不扩增AM1-ccFv。如图25A所示，来自第二轮淘洗的噬菌体产生极高的ELISA读数，提示在2轮淘洗后从1∶10⁶和1∶10⁷文库中获得AM2-ccFv噬菌体的高度富集。PCR分析证实在第一轮淘洗后从1∶10⁷文库中AM2-ccFv噬菌体的出现率是4.4％，在第二轮淘洗后为100％(图25B)。

4)构建和淘洗设计的ccFv抗体的噬菌体文库

如图8所示，将一种模块，进化方法用于构建计算机和实验筛选的抗体文库。合成并通过PCR扩增编码设计CDR序列的文库的寡聚物。用于扩增的引物包含将合成CDR序列克隆到pABMD12载体中的限制酶位点。分别使用用于插入CDR1，CDR2和CDR3的限制酶位点NheI和XmaI，XmaI和spelI，和PstI和StyI，对AM2-ccFv制备V_H文库。在连接后，将DNA转化到TG1细胞中。通过KO7辅助噬菌体感染，从TG1细胞中制备噬菌体。如下所述进行三轮针对固定化VEGF的淘洗。首先将100μl 2μg/ml VEGF包被在96-孔平板的每孔上。在用PBS中的5％牛奶封闭后，向孔中加入2％牛奶/PBS中的1×10¹²文库噬菌体，在室温下温育2小时。然后丢弃噬菌体溶液并用PBST(PBS中0.05％Tween-20)洗涤5次，用PBS洗涤5次。用100mM三乙胺最后洗脱结合的噬菌体，加入到TG1培养物感染。从而将从感染的TG1细胞制备的噬菌体用于下一轮淘洗。对于每轮淘洗，挑取94-376个克隆用于噬菌体ELISA(图26A和B)。通过PCR扩增来自噬菌体ELISA的阳性克隆并测序。然后将DNA序列翻译成氨基酸序列。在图27的表中列出来自三个文库的编码氨基酸序列。

5)在有和没有来自三级结构或结构模型的约束条件下基于序列的文库设计

另一设计CDR文库的策略是将CDR序列在结构空间中分成不相关和相关的片段，以便检测在结构相关位置上如CDR环的N-和C-末端区域的共变突变体(在大多数情形中低分辨率结构应当足够)。例如，图28A显示对于抗-VEGF抗体的V_H CDR3的组合变体图谱，其通过组合V_H CDR3的过滤变体图谱和来自实验筛选的其它变体获得。我们将证明来自不同来源的变体可以组合以产生用于文库构建的组合变体图谱。将该变体图谱分成几个较小变体图谱片段以便确保每个较小变体图谱可以被多样性约为10⁶-10⁷的核酸文库覆盖。注意，在划分的片段文库中故意避免V_H CDR3成熟序列与H97Y和S101T(Kabat中的S100aT)的组合(参见图28A-D)。

图28A-D显示抗-VEGF V_H CDR3的序列文库。将文库分成3片段：图28B覆盖可能包含偶联变体的N-和C-末端(1-3)，图28C含有片段(4)和图28D包含另一片段(5)。所有三个片段被大小约为10⁶的核酸文库覆盖：图28B中的(1-3)被3个简并核酸文库靶向，而图28C-D中的(4)和(5)被分开的简并核酸文库靶向。

设计这些片段文库的原理如下。结构远离的片段经常不相关，使得广泛分离在空间中的突变可以独立地处理。对于CDR3环，将序列分成三个片段：第一和第三片段(环基)形成文库设计的一个图谱，而环的顶部被分成用于文库设计的两个图谱，简并核酸文库大小为10⁶。如图28B所示，在空间中彼此偶联的N-和C-末端的片段(由于环闭合形成环基的序列通常相关)应当同时为仅具有三个简并寡核苷酸的组合核酸文库(1-3)靶向。可以检查简单的标准如C_α或C_β距离矩阵以鉴定相关片段(关于8内C_α原子之间的结构和距离接触矩阵参见图28A)。任选地，可以绘制出更详细的相互作用矩阵以研究相互作用的数目和类型，但是基础原理与鉴定相关片段相同。

对于顶点的文库，如图28C和28D中的(4)和(5)，经常不相关。它们经常被简并寡核苷酸文库沿着初级序列以连续方式靶向，只要每个文库限制在可以通过实验易处理的大小范围(在图28C-D中＜10⁶)。在片段之间应当有位置重叠以在获得的文库之间保持低水平的局部相关。以类似方式，可以将较长片段分成重叠片段以跨越序列长度和可以产生相应文库。

基于观察的实验或结构或计算标准，可以进一步改进和增强获得的重作图。这些可以包括改变具有已知与另外的极性氨基酸的氢键的位置，与庞大脂族或芳族基团高范德瓦耳斯接触的区域，或可能受益于以甘氨酸增加的灵活性的区域。在实验反馈中，如图28A中变体图谱所示，基于来自作为随后设计改进基础的较早筛选的测定结果可以增加变体。更复杂的分析可以考虑氨基酸基团的偶联如序列内的盐桥或氢键。

6)解离速率淘洗ccFv文库L14

为了选择高亲和力抗体，进行解离速率淘洗程序来选择文库L14(参见图28A-D)。通过它们相互作用亲和力测量噬菌体表面上的抗体片段与固定化抗原之间相互作用的强度，该相互作用亲和力通过它的附着速率(结合速率)和解离速率(离解速率)测定。按照先前研究，高亲和力的抗体通常具有缓慢的解离速率，而低亲和力的抗体经常具有快速的解离速率，而它们的结合速率类似。设计解离速率淘洗以促进具有较低亲和力的那些抗体随着洗涤条件的严格性(严谨)逐渐提高从固定化抗原上解离。通过使用增加严谨性的洗涤，将洗去具有较低亲和力的噬菌体，留下具有增加的较高亲和力的噬菌体(即较低解离速率)。因此，增加的严格洗涤条件残存的那些噬菌体应当具有较高亲和力，出现占优势的那些一定具有比低出现率的那些更高的亲和力。我们还使用两个独立的展示平台(图20和32)，在各种淘洗条件下(图29和35A-B)，在噬菌体水平上证明可比较的解离速率淘洗。得到的阳性克隆或来自噬菌体淘洗的克隆的共有序列强烈提示一些序列或变体应当具有相对于亲代序列增强的与抗原的亲和力。

通过将V_H CDR3序列分成短的重叠片段制备作为抗-VEGF V_H CDR3文库的L14(参见图28A-D)。为了鉴别慢解离速率，控制许多淘洗条件。在首先两轮淘洗中，简短地用PBST和PBS洗涤孔6次以去除具有较低亲和力的噬菌体。从淘洗3开始，进一步洗涤结合的噬菌体增加的小时，以去除具有较快解离速率(离解)的那些。这种离解期间的持续时间和严格性随着淘洗数而增加(图29)，以便允许越来越多的噬菌体离解和被去除；相反，具有慢解离速率(较高亲和力)的那些将保持结合和最终被富集。如图29所列，在37℃下在PBS中将淘洗3进行1小时(每10分钟更换PBS，之间施加简短洗涤以去除解离噬菌体)；在37℃下在PBS中将淘洗4进行2小时；在室温下在PBST中将淘洗5进行1小时，接着在37℃下在PBS中淘洗2小时；淘洗6在室温下在大量(20ml)PBS中施加过夜洗涤；淘洗7进一步增加洗涤的温度(30℃)，体积(50ml)，和持续时间(24小时)。如图29所示，除了改变上述洗涤严格性以外，通过降低抗原浓度，噬菌体输入浓度，和增加结合期间的温度，进一步增强解离。随机挑取来自淘洗的残存克隆，并在噬菌体ELISA中测定以证实它们结合VEGF的能力。从淘洗5和7中的克隆获得100％ELISA阳性率，提示在淘洗5后，所有残存的噬菌体能够结合VEGF，因此，洗去的噬菌体具有较快的解离速率。在噬菌体ELISA阳性的克隆中，随机挑取来自淘洗5的20个克隆和来自淘洗7的10个克隆用于DNA测序。在图30中总结V_H CDR3的编码氨基酸序列。在淘洗5中野生型抗-VEGF抗体的频率是20％。在另外2轮高严格的解离速率淘洗后，野生型序列的频率在淘洗7中降低至0。相反，HR(H97，R101或Kabat的R100a)突变体连续富集，从淘洗5的35％至淘洗7的70％(图30)，其最终变成唯一占优势的克隆。HT(H97，T101或Kabat的T100a)突变体的存在(30％)在淘洗5和7中保持不变。HR突变体从P0至P7的富集在图31中显示。这些数据提示HR和HT突变体具有比野生型抗体更高的亲和力。HR突变体的亲和力应当高于HT突变体，其在位置101(和Kabat中的100a)具有苏氨酸而不是精氨酸，如关于成熟序列所报导的(Chen Y，Wiesmann C，Fuh G，Li B，ChristingerHW，McKay P，de Vos AM，Lowman HB(1999)J.Mol Biol 293，865-881)。

8)通过接头介导的噬菌体展示系统淘洗单链(scFv)抗-VEGF抗体文库

如下所述使用独立的系统进一步检验解离速率淘洗策略。

在常规噬菌体展示系统中，将目的蛋白融合到噬菌体衣壳蛋白如pIII，以便在噬菌体表面上展示。该融合蛋白将用辅助噬菌体如KO7提供的野生型噬菌体蛋白组装成噬菌体颗粒。我们已经开发新的噬菌体展示系统，称为“接头-定向展示系统”。通常，通过特异性形成杂二聚体的一对接头，一个与表达载体的展示蛋白质融合，另一个与辅助载体中的噬菌体衣壳蛋白融合，将目的蛋白携带至噬菌体颗粒表面。本发明接头对的实施例是GR1和GR2，如上所述。如图32所示，目的蛋白(scFv抗-VEGF)表达为与接头(GR1)的融合物以在表达载体中形成scFv-GR1的构建体(图33A和B)。将GR2插入辅助噬菌体的基因组中以形成与pIII衣壳蛋白的融合物(pIII的GR2-CT，图33A和B)。结果，于是将具有修饰基因组的辅助噬菌体称为GMCT Ultra-Helper噬菌体(图34A和B)。在TG1细胞中，表达载体表达scFv-GR1，其然后分泌到细菌周质空间中。细胞进一步用GMCT Ultra-Helper噬菌体感染，所述噬菌体表达pIII的GR2-CT，其也分泌到噬菌体周质空间。因此，pIII的scFv-GR1和GR2-CT通过GR1和GR2之间的卷曲螺旋相互作用，特异地形成杂二聚体，其最终将scFv组装到噬菌体的表面上。

使用该系统，我们构建抗-VEGF scFv文库L17，相当于上述ccFv文库L14(抗-VEGF CDR3 V_H合成文库)。类似于文库L14的选择，应用解离速率淘洗。将文库DNA转化到TG1细胞中，然后用GMCT Ultra-Helper噬菌体拯救。根据标准方案制备噬菌体并检验与96-孔板中固定化VEGF的结合。如图35A所示，首先在室温下用PBST洗涤来自淘洗1和2的孔10次，然后用PBS洗涤10次，接着在室温下在PBST进行1小时的离解时间(每10分钟更换PBST，之间施加简短洗涤以去除离解的噬菌体)；在淘洗3中将离解时间增加到2小时。使用从淘洗3中回收的噬菌体，进行两次平行淘洗(图35B)，淘洗4和淘洗5，以便进一步增强较低亲和力的噬菌体的离解：150ml PBST 18小时，对于淘洗4为25℃，对于淘洗5为37℃。随机挑取来自淘洗4的10个ELISA阳性克隆和来自淘洗5的8个克隆用于测序。数据在图36中显示。在淘洗4中，WT序列的存在是10％。HT突变体(30％)和HA突变体(30％)的频率相等。注意在10个分析的克隆中在位置101(Kabat的100a)没有精氨酸残基出现(图36)，提示在该阶段它的低出现率。相反，通过提高淘洗5中的离解严谨性，在位置101(100a Kabat)中精氨酸的出现率增加至50％(8个克隆中的4个)并在淘洗5中变得占优势。相比之下，HT突变体从30％降低至12.5％，WT从10％降低至0，与图30中的观察一致。该结果强烈提示HR突变体具有比HT突变体或WT更高的亲和力。

9)文库设计，多样性和亲和力成熟的总结

在图30和36中显示的结果提示本文所用两个独立新噬菌体展示系统的解离速率淘洗能够选择出新突变体，HR(H97，R101或R100a Kabat)。HR突变体具有比报导的成熟序列中对应的HT(H97，T101或T100a Kabat)突变体更高的结合亲和力(图9B)。此外，HR突变体与抗原的结合好于YS(Y97，S101或S101a Kabat)突变体(参见图36的淘洗4)。先前报导YS突变体相对于WT提高结合亲和力14倍，并被认为是成熟抗-VEGF抗体的V_H CDR3中单个最重要的突变体(图9B和参见Chen Y，WiesmannC，Fuh G，Li B，Christinger HW，McKay P，de Vos AM(1999)J Mol Biol 293，865-881)。该突变体H97Y还发现在通过数据库搜索(图11)和计算机筛选(图13A)的设计文库中是重要的。

K94是有趣的例子和值得一些讨论。严格地说，按照Kabat命名法，K94不属于V_H CDR3。然而，V_H CDR3的N-末端的序列CAK包括在构建HMM基序中，因为该序列对序列基序的边界施加了强限制。因为CAK是构架和V_H CDR3之间的边界区域，我们在此考虑检验该区域中的突变对结合亲和力的影响。尽管发现R94在数据库搜索和计算机筛选中有利(图11和13A)，在实验筛选中K94比R94结合更紧(图30和36)。当K94和R94都包括在文库中时仅选择K94(图28B，30和36)，尽管R94仍具有结合VEGF的活性(参见图13A和14B)。为此的原因可能是连接区域的R94通过与抗体的其它区域相互作用将改变V_H CDR3结合抗原的定向，由此使用于计算机筛选的原有K94 x-射线结构(成熟抗体)无效。据报道在人源化期间R94将抗-VEGF抗体的结合亲和力降低约5倍(PrestaLG，O′Connor SJ，Wells JA(1997)J Biol Chem 272，10678-10684)。可以使用几种方法避免该问题：(1)如果仅应当设计CDR，避免设计边界残基；(2)在实验文库中结合亲代和优选残基(例如在94位的K和R)。在该情形中这些应当是合理的和直接的，因为R和K是在数据库搜索中该位置优选的两个重要残基(对于R94约90％，对于K94约10％)(参见图11)；(3)通过分子动力学模拟用计算机对R94取样该位置的构象，看看改变的结构或结构集合是否应当与R94使用。

总之，已经发现抗-VEGF抗体的V_H CDR3区域周围的3个重要位点对VEGF的抗体的结合亲和力具有直接影响。发现三个位置(K94，H97和S101)中的两个突变(Y97和R101或R100a Kabat)对于在存在和/或缺少抗原下使用亲代或成熟抗体结构，改善与抗原的结合是重要的，而因为由连接区域的突变诱导的可能结构变化，R94没有被正确预测。已知Y97是对于亲和力改善的重要突变，如在我们自己的实验筛选中所示。R101(R100a Kabat)是通过两个独立的噬菌体展示系统证实的新突变体和可能赋予比Y97更高的亲和力。

包括R94，Y97和R101的这些突变体中的大部分是选中变体图谱中最主要的突变体(参见图11)(＞5％)。因此简单的序列搜索将从选中变体文库中发现它们。在基于结构的变体文库筛选中，在图13A所示的所选序列图谱中这些突变体也排名较高。从集合序列得分的角度，得分高于亲代序列的序列的合并和重作图也在94(88％R，12％K)，97(60％Y，17％H)和101(60％R，17％T，13％S)的观察到的变体中排名靠前。除了与R94有关的问题以外，在我们设计中明显的是对Y97和R101或T101的统计偏爱。使用序列搜索和/或基于结构的得分产生变体图谱，我们已经证明我们的文库设计。使用两个独立的新噬菌体展示系统，实验筛选或选择已经显示此处描述的本发明方法在设计VH不同于亲代序列的序列中的有效性。在此发现的一些变体，如Y97和/或R101或T101，具有高于亲代序列至少10倍的亲和力(Y97据报道是亲和力提高14倍的原因，而R101在我们的实验中显示具有更高的亲和力(参见图36))。通过外推，突变体如Y97和R101的组合可能具有比对于成熟序列报导的更高的亲和力。

使用SPR(表面等离子共振)仪器(BIAcore)，如图37所示将VEGF固定在生物传感器芯片上，测定亲和力成熟的V_H CDR3的结合亲和力。表达和纯化蛋白质。X50是ccFv形式，含有图22A和22B中显示的V_H和V_L的参考序列。X63在V_H CDR3中含有H97Y和S101T，与文献中报导的Fab形式14-倍的提高相比，Kd提高6.3倍(参见Chen Y，Wiesmann C，Fuh G，Li B，Christinger HW，McKay P，de Vos AM，Lowman HB(1999)J.Mol Biol 293，865-881的表6)。X64在V_H CDR3中含有S101R突变体，相对于参考提高2.5倍；提高几乎完全来自结合速率的提高。该新突变体对于结合速率提高的重要性未被报导，尽管在该位置已经进行详尽的诱变。此外，它在数据库中在该位置上的频率低。这证明此处采取的方法能够发现亲和力提高的重要突变体。X65含有H97Y和S101R，使用ccFv形式在相同条件下显示10倍提高，其在结合亲和力方面强于亲和力成熟V_H CDR3序列的X63最好的突变体组合(H97Y和S101T)(Chen Y，Wiesmann C，Fuh G，Li B，Christinger HW，McKay P，de Vos AM，LowmanHB(1999)J.Mol Biol 293，865-881)。

实施例2用于构架优化的抗-VEGF抗体文库的产生

VEGF是发育中关键的血管生成因子和通过刺激内皮细胞涉及实体瘤的生长。发现鼠单克隆抗体阻碍VEGF-依赖性的细胞增殖和减慢体内肿瘤生长(Kim KJ，Li B，Winer J，Armanini M，Gillett N，Phillips HS，Ferrara N(1993)Nature 362，841-844)。在嫁接抗原结合环以后，在一些关键构架位置使用随机诱变将该鼠抗体人源化(Presta LG，Chen H，O′Connor SJ，Chisholm V，Meng YG，Krummen L，Winkler M，Ferrara N(1997)Cancer Res.57，4593-4599；Baca M，Presta LG，O′Connor SJ，Wells JA(1997)J BiolChem272，10678-10684)。典型地，在几轮定点诱变和选择后，通过在某些预先测定的关键位置用来自亲代非人抗体的非人氨基酸替代人或共有人构架，产生人源化抗体。这些人源化抗体将通常与其亲代抗体的同源抗原结合，与其亲代抗体相比亲和力降低(相对于其亲代鼠抗体，人源化抗-VEGF大约弱6-倍，参见Baca M，Presta LG，O′Connor SJ，Wells JA(1997)JBiol Chem 272，10678-10684，对于另一种形式的人源化抗-VEGF弱2-倍，参见Presta LG，Chen H，O′Connor SJ，Chisholm V，Meng YG，Krummen L，Winkler M，Ferrara N(1997)Cancer Res.57，4593-4599；Baca M，Presta LG，O′Connor SJ，Wells JA(1997)J Biol Chem 272，10678-10684)。这种结合亲和力的损失将通过在CDR中使用亲和力成熟恢复(Chen Y，Wiesmann C，Fuh G，Li B，Christinger HW，McKay P，de Vos AM，Lowman HB(1999)J.Mol Biol 293，865-881)。

使用所述本发明方法，我们已经发现在构架优化后结合亲和力(ccFv形式)比亲代/对照抗-VEGF抗体序列高4倍的2个人源化构架(对于文献(Presta LG，Chen H，O′Connor SJ，Chisholm V，Meng YG，Krummen L，Winkler M，Ferrara N(1997)Cancer Res.57，4593-4599)中报导的人源化抗-VEGF抗体构架，参见图22A&B)。因为报导的人源化抗-VEGF抗体(图22 A&B)比它对应的鼠抗体弱2-倍，这两个人源化抗体应当在人源化后结合亲和力比对应的鼠抗体高～2倍。

1.计算机设计抗-VEGF抗体构架文库

图38A上图显示鼠抗-VEGF抗体(下文称为“鼠抗-VEGF抗体或A4.6.1”)、选自文库和用于在V_H和V_L关键位置人源化的氨基酸(参见BacaM，Presta LG，O′Connor SJ，Wells JA(1997)J Biol Chem 272，10678-10684)的人源化抗体(HU2.0和HU2.10)的构架fr123区域的氨基酸序列。按照Kabat标准(Kabat EA，Redi-Miller M，Perry HM，Gottesman KS(1987)Sequences of Proteins of Immunological Interest 4th edit，National Institutes ofHealth，Bethesda，MD)设计构架和CDR，尽管也可以使用其它分类。图38A下图显示鼠抗-VEGF抗体(下文称为“鼠抗-VEGF抗体”)和在文献中报道的(参见Presta LG，Chen H，O′Connor SJ，Chisholm V，Meng YG，Krummen L，Winkler M，Ferrara N(1997)Cancer Res.57，4593-4599)在此用作亲代和参考构架的人源化抗体(以下称为“人源化抗-VEGF抗体”)的构架fr123区域的氨基酸序列。不设计构架4，因为它相对不变。但如果需要可以使用相同方法设计它。此外，可以单独地设计构架FR1或FR2或FR3和FR4的分开片段，如果需要粘连在一起。通过使用本发明所述方法设计每个片段或片段组合，可以同时设计CDR和FR的组合。使用箭头显示CDR1和CDR2的位置，但不在图中列出。CDR与来自鼠抗-VEGF的图9B中相同。图38B显示基于鼠抗-VEGF抗体的V_H FR123的前导序列，使用人V_H种系序列产生的选中文库的变体图谱。底部的变体图谱显示氨基酸位置的多样性。图的下部显示通过分别使用5和13的截止频率获得的过滤的变体图谱。过滤在选中列表的成员中在所有位置出现5次或更少次或(13次或更少次)的氨基酸。图38B-续显示选中文库的重作图的变体图谱，该选中文库基于鼠抗-VEGF抗体的V_H FR123的前导序列，使用人VH种系序列产生，无截止值，但是使用总能量或范德瓦耳斯能，每个位置的变体基于其与抗体结构的结构相容性排序。基于它们的总能量或特定包装，发现一些参考氨基酸在某些位置上有利，尽管它们出现频率极低(参见例如，使用箭头注释的4个位置(F68(F67)，L72(L71)，S77(S76)和K98(K94))。例如F68和L72包括在文库中用于选择。图38C显示选中文库的变体图谱，该选中文库基于鼠抗-VEGF抗体的V_H FR123的前导序列，用截止值为19的过滤变体图谱，使用来源于Kabat的人V_H序列产生的。图谱强调了某些氨基酸的重要性，这些氨基酸出现频率低但在支架中重要。将鼠的V_H FR123序列列作虚线上的参考，位置使用连续号码注释。所有氨基酸变体在虚线下列出。变体中的点表示与参考中相同的氨基酸。图38D显示设计者文库，其使用在截止值5下来自人V_H种系序列的过滤的变体图谱(参见图38B)。在FR123序列上注释的序列号是基于kabat命名(kabataa)和包括它的连续顺序和在它CDR中的氨基酸。如果仅使用抗体结构，该过滤的变体图谱可以进一步用计算机筛选以反映结构相容性的排列顺序。还包括从截止值为5的过滤变体图谱中遗漏的两个氨基酸，F70(F69)和L72(L71)，因为它们属于在基于结构得分的基础上这些位置上最优选的氨基酸。对于来自基于结构的筛选的排名最靠前的100个序列最终提交的文库还包括F70(F69)，L72(L71)，S77(S76)和K98(K94)(括号中的数字表示基于kabat命名法的序列号)，因为一些氨基酸如R在对于L72(L71)和K98(K94)的计算中过度预测，如先前在V_H CDR3亲和力成熟中对于K94R所讨论的。

图38D下图显示具有用于VH fr123人源化的氨基酸的设计者文库。如图38D所示，尽管人与非人序列在VH的整条链的许多位置上不同，用于其它方法的氨基酸文库集中在几个关键位置上，而基于对于起始抗体的设计者文库，本发明靶向在那些位置具有一些突变体的VH和VL链的不同位置。

按照本发明，每个基序如构架FR1，FR2，FR3和FR4在图8中描述，每个构架基序或其组合如抗体的FR123可以在计算机进化设计方法中使用模块靶向。已经理解对于每个基序或其组合仅存在有限数量的构象(称为正则结构)。抗体的这些结构特征为基于抗体结构的详尽分析，通过在抗体的不同区域使用结构基序检验进化序列设计提供极好系统。这些结构和序列保守在不同物种中观察到。实际上，抗体的构架，或免疫球蛋白折叠，是在自然中观察到的最丰富的结构之一并且在各种抗体和相关分子之间高度保守。

本发明人认为上述亲代抗-VEGF抗体可以在模型系统中用作前导蛋白质，在使用本发明的方法的治疗和其它应用中用于定向抗体优化。人源化的抗-VEGF抗体(Baca等，上文；Presta等，上文)可以用作参考或阳性对照来证实通过使用本发明方法获得的结果。

另外，结构重叠显示在VEGF和亲代抗体之间形成的复合体结构几乎与VEGF和成熟抗体之间形成的复合体结构重叠。因为抗体结构，特别是构架区保持基本上相同，将亲代和成熟抗体的结构用于设计使用本发明方法的抗-VEGF抗体的数字文库。使用基于序列的方法或在CDR中含有诱导的结构变化的结构集合，本发明方法还可以用于设计抗体构架。

使用鼠抗-VEGF抗体构架作为前导蛋白质和其V_H FR123作为前导序列，通过根据图1D中的路线IV和图2中图表概述的方法构建V_H FR123的数字文库。

作为概述，通过搜索和选择与V_H FR123具有远同源性的选中氨基酸序列构建选中文库。基于选中文库构建变体图谱以列出每个位置上的所有变体，并用特定截止值过滤以将获得的选中变体文库的大小降低到计算或实验范围内。还构建变体图谱以便促进i)对覆盖适应度景观中优选区域的序列空间取样；ii)划分和合成靶向优选肽集合序列的简并核酸文库；iii)实验筛选抗体文库的期望功能；和iv)分析实验结果，将反馈用于进一步设计和优化。

前导结构模板获自VEGF和抗-VEGF抗体之间形成的复合体的可获X-射线结构。VEGF和亲代抗-VEGF抗体的复合体结构称为1BJ1，VEGF和成熟抗-VEGF抗体之间形成的复合体结构称为1CZ8。在扫描序列的相对排名顺序方面，来自1CZ8结构模板的结果类似于来自1BJ1的那些。模拟的结构或结构集合或集合平均也可以用于筛选序列。

1)前导序列

按照Kabat分类，V_H FR123的前导序列取自鼠抗-VEGF抗体(图38B)。

2)选中文库和变体图谱

校准使用单个前导序列A4.6.1(图38A)构建的HMM并用于搜索人重链种系序列数据库和/或来源于Kabat数据库(Johnson，G和Wu，TT(2001)Nucleic Acids Research，29，205-206)的人序列数据库(包括人种系和人源化序列)。列出高于期望值或E-值的所有序列选中并使用HAMMER 2.1.1软件包对比。在从选中表中去除冗余序列后，关于前导HMM的剩余选中序列形成选中文库。

来自人VH种系的选中序列的序列同一性范围为前导序列的40-68％，而从来源于Kabat数据库(数据库分成fr123片段以便增加搜索和它们的相对排名的敏感性)(如果包含人源免疫球蛋白序列，将使用其它数据库)的人免疫球蛋白序列的选中序列的相应序列同一性范围约为30-75％。通过使用程序TreeView 1.6.5( http：//taxonomy.zoology.gla.ac.uk/rod/rod.html)可以分析选中序列之间的进化距离。使用ClustalW 1.81(Thompson JD，Higgins DG，Gibson TJ(1994)Nucleic Acids Research 22，4673-4680)中的邻近-连接法(Saitou N，Nei M(1987)Mol Biol Evol 4，406-425)分析进化系统树。

图38B&D中的AA-PVP表提供在每个位置上每种氨基酸残基出现的数目。为了降低每个位置上的出现率，表下的变体图谱列出从数据库中发现的所有变体，以前导序列为对照序列。点表示在该位置发现与对照相同的氨基酸。比较人VH种系和来源于Kabat的人VH序列之间的选中序列同一性差异，AA-PVP的差异是明显的：尽管每个位置的所有突变体对于来自人种系序列的AA-PVP是人源的，AA-PVP还包含非人源或出现频率低的氨基酸，其可能来自起始非人抗体序列或在进化期间在结构上对稳定靶抗体的支架等重要的氨基酸。例如，在来自VH3种系家族的AA-PVP上未鉴定图42B中的F70和L72(参见图42，在人VH3种系的这两个位置仅允许I和R)。但在另一方面，在人VH种系序列中允许以极低频率出现的F75和L77。这些氨基酸F70和L72在来自Kabat衍生的人序列的AA-PVP中出现频率相对较高。所有氨基酸变体在虚线下列出。变体中的点表示与对照相同的氨基酸。图38D显示使用来自人VH种系序列的截止值为5的过滤变体图谱(参见图38B)的设计者文库。在FR123序列上注释的序列号是基于kabat命名法(kabataa)和包括它的连续顺序和在它CDR中的氨基酸。如果仅使用抗体结构，该过滤的变体图谱可以进一步用计算机筛选以反映结构相容性的排列顺序。还包括从截止值为5的过滤变体图谱中遗漏的两个氨基酸，F70(F69)和L72(L71)，因为它们属于在基于结构得分的基础上这些位置上最优选的氨基酸。对于来自基于结构的筛选的排名最靠前的100个序列最终提交的文库还包括F70(F69)，L72(L71)，S77(S76)和K98(K94)(括号中的数字表示基于kabat命名法的序列号)，因为一些氨基酸如R在对于L72(L71)和K98(K94)的计算中被过度预测，如先前在V_H CDR3亲和力成熟中对于K94R所讨论的。

图42还显示可以从淘洗中从该位置鉴定F和I，而在该位置仅可以鉴定占优势的L72。简而言之，使用用于构架优化的不同人源数据库将提供不同但有力的关于构架优化的氨基酸选择，包括改善的结合亲和力和稳定性的人源化。随着我们开发治疗抗体的知识的增加，将积累越来越多的抗体序列数据和使用本发明指导我们的设计。无需在先假设来推测关键位置和与那些位置有关的氨基酸。因为使用本发明方法该信息自动显示，随着更多的数据积累，它们在数据库中出现率的提高，它们将变得更确定。使用基于结构的标准，可以将变体重作图或优化以包括其它可能有益的突变体(参见图38B-续)。

3)基于结构评估选中文库的组合序列

尽管变体图谱提供关于每个位置的优选氨基酸残基和优选顺序的特定突变体的信息，未改变的，它体现了巨大数量的重组体。得分显示F70和L72应当保持在图谱中，因为它们在基于结构的得分中有利，尽管它们的出现频率低于用于来源于数据库搜索的图谱的截止值(图38B-续)。因此，基于结构的能量得分提供将选中变体文库每个位置的变体出现率重作图的另一种途径，该选中变体文库原来基于对选自蛋白质数据库的进化序列作图来构建。一些使用频率截止值的过滤可以减少需要通过组合筛选评估或通过实验文库直接靶向的组合序列。即使使用应用于变体图谱的截止，仍有大量的需要评分和在最终实验筛选的序列中评估的组合序列(如图38D下图所示)。

将基于结构的评分用于筛选选中文库和形成选中变体文库的它的组合序列。1CZ8或1BJ1中抗-VEGF抗体的V_H FR123的侧链被来自每个残基位置的选中变体文库的对应氨基酸变体的旋转异构体替代。构建旋转异构体的构象并通过使用主链依赖的旋转异构体文库(Bower MJ，Cohen FE，Dunbrack RL(1997)JMB267，1268-82)，使用程序SCWRL(版本2.1)优化。

在存在和缺少抗原VEGF的结构下，通过使用CONGEN[Bruccoleri和Karplus(1987)Biopolymers 26：137-168]中的Amber94力场的100个步骤，通过搜索最优旋转异构体和最小化能量完成评分。

图39A描述使用人VH种系序列的鼠抗-VEGF的VH构架fr123选中序列的得分图的分布，见x-轴中第1列较密分布的蓝条，以及鼠和人源化的构架fr123(参见Presta等上文)序列和广泛使用的人VH种系DP47，见x-轴中第0列较稀分布的蓝条，使用1bj1(上图)和lcz8(下图)作为模板结构，缺乏(最左列)和存在(中间列)VEGF抗原。将存在和缺乏抗原条件下的序列的分数关联(在最右列)，显示用于构架优化的抗体结构对于大多数构架优化足够，因为它们具有与抗原的最小的接触。组合序列文库的得分图未在此显示。

图39B在左图中描述了基于文库序列和对照鼠VH FR123序列之间差异的等级得分，和在x-轴中的种系发生间距(将它们与对照连接的距离(还参见图14C)，鼠VH FR123，报导的人源化VH FR123(Presta等，上文1997和Chen等上文1999)和排名最佳的200个设计者序列和包括广泛使用的称为DP47的VH人种系的人VH3种系。来自基于结构筛选一个人种系变体图谱(AA-PVP)的排名最佳的200个序列与人VH3种系家族在种系发生分析中聚簇(红色环)，而前导鼠抗体构架离设计序列的种系发生间距在遗传学上较远(当仅包括出现频率高的人种系VH序列和来自1bj1的人源化序列(参见Presta等，上文))，尽管通过包括具有较低出现频率的氨基酸如F70(F69)和K98(K94)种系发生间距将稍微变化(参见图42C和D)。y-轴显示大多数设计的构架VH fr123相对于鼠对照和人源化构架VH fr123具有与结构良好的结构相容性，接近DP47。这些支持对于本文所述本发明方法构架优化的类似人的特征，其部分由它所用数据库确定。

4)选中变体文库的变体图谱的减少

过滤来自如上所述的选中变体文库的变体图谱，以便减小潜在文库大小而同时保持大多数如图38B所示的优选残基，其获自在消除出现率低于截止值的氨基酸和/或通过基于它们与结构支架的相容性筛选序列之后的选中变体文库。例如，可能包括变体图谱中的一些重要突变体，如来自野生型的F70和L72，即使它们低于用于过滤选中文库的截止值。它们使用基于结构的作图评估和在噬菌体展示中持续许多轮的严格洗涤条件下的淘洗(参见图42)。使用来自基于结构的得分前100的序列，以及来自原有图谱的基于结构的作图的F70和L72。

5)基于选中变体文库II构建简并核酸文库

用如图40A所示的简并寡核苷酸靶向以上构建的选中变体文库。将以上构建的简并核酸文库克隆到噬菌体展示系统中，基于它们与包被在96-孔平板上的固定化VEGF的结合，选择噬菌体展示的抗体(ccFv)。图40A中显示最终设计的人源化的VH抗-VEGF序列。对于抗-VEGF的VH的大约120个氨基酸残基，作为计算机设计的结果改变34个氨基酸：它们中18个固定(黑体和加下划线)和16个作为使用所述ccFv系统的噬菌体展示文库筛选的测定结果放置(以“X”标记)。因此，产生对应于16个位置的DNA序列的简并，以便在筛选期间产生优选氨基酸残基的多重选择。文库的理论多样性约为2.6×10⁵。将文库安装到噬菌体展示载体pABMD 12中，其中抗-VEGF的VH被文库替代。结果，从文库中产生的VL和多个VH将配对形成抗-VEGF的功能性ccFv。噬菌体展示文库然后用于进一步针对固定化VEGF蛋白质抗原淘洗。

为了产生可以覆盖这样广泛范围的简并位置散布的文库，在设计文库的位点合成具有简并位置的多个重叠的简并DNA寡聚物。组装方法由两个PCR反应组成，组装(assembly)PCR，和扩增PCR。设计组装寡聚物，具有35-40链节，被15-20个碱基重叠，平均熔点约60℃。关于设计产物的最后扩增，产生另外一对扩增寡聚引物(Amp93和Amp94)。因此，组装PCR包括：等量组装寡聚引物，终总浓度为8μM，dNTP 0.8μM，1xpfu缓冲液(Strategene)，2.5单位pfu turbo(Strategene)。如下进行热循环：94℃×45”，58℃×45”，72℃×45”，30个循环，最后在72℃延伸10分钟。将PCR产物混合物稀释10倍并用作扩增PCR模板，在扩增PCR中除了加入终浓度为1μM的扩增引物以外所有试剂保持相同。如下进行热循环：94℃×45”，60℃×45”，72℃×45”，30个循环，最后在72℃延伸20分钟。纯化终产物(VH文库)，用HindIII和StyI消化(图26)，最后亚克隆到载体pABMD12中来替代原有的鼠VH。将文库用于电转化(电穿孔)TG1感受态细胞，其又通过辅助噬菌体KO7(Amersham)扩增和拯救，随后按照标准方法在30℃下过夜生产文库噬菌体。

6)抗-VEGF的人源化VH的噬菌体展示文库的淘洗

为了筛选在以上实施例中描述构建的文库，将纯化的同型二聚体VEGF蛋白(Calbiochem)以指定浓度稀释在包被缓冲液(0.05M NaHCO₃，pH9.6)中并固定在Maxisorb孔(Nunc)上4℃过夜。然后在5％牛奶中将包被的孔37℃封闭1小时，之后将稀释在PBS中的噬菌体文库用于孔中在37℃温育2小时。温育混合物还常规含有2％牛奶以最小化非特异性结合。在温育结束时，洗涤孔和随后用1.4％三乙胺洗脱结合的噬菌体，之后感染TG1细胞，接着通过KO7辅助噬菌体拯救扩增。为了扩增噬菌体，然后在carbenicilline和卡那霉素存在下将感染和拯救的TG1细胞在30℃培养过夜，之后收获噬菌体文库。将扩增的噬菌体用作下一轮淘洗的输入文库。淘洗方法在图41中总结。同时，将来自第5轮等的单个克隆随机取样用于噬菌体ELISA，其中将证实与固定化VEGF的特异结合，和证实来自第5轮和第7轮淘洗的100％阳性。最后，从第5轮淘洗(P5)开始，对在2xYT/carbenicilline(100ug/ml)/卡那霉素(70ug/ml)的平板上生长的分离克隆取样测序，以便确定针对设计的选中位置和选中序列。

在图42A中举例说明来自以上文库淘洗的选中的序列分析的总结，其中氨基酸残基的比较在设计文库，以及人种系家族III的VH的决定残基和来自文库淘洗的选中的位置进行。如所示，在设计通过噬菌体展示文库筛选确定的16个位置之中，在连续编号的位置1，11，17，24，70，72，74，77，78，79，98上的特定氨基酸残基(图42B)从P5(第5次淘洗)至最后(第8次)的淘洗保持或变得占优势，而剩余的位置显示优势残基的一些变动。最终16个位置中的9个(图42B中阴影)上残基的最终选择与在人免疫球蛋白VH的家族III的相当位置上的残基显著一致，其使得所选种类很可能属于家族III。

如所注释，图42C显示来自抗-VEGF噬菌体展示文库的淘洗的最佳选中VH序列，以及人种系VH3家族，鼠抗-VEGF VH构架FR123和人源化VH构架fr123的种系发生分析。如图42C所示，如所期望的，人种系VH3家族在种系发生间距方面聚簇在一起。所选优化的VH构架还与人源化的VH序列(参见注释)聚簇在一起，在种系发生间距上非常接近人种系VH3家族，而鼠VH构架非常远离优化的VH构架和人种系。针对整个人免疫球蛋白VH库的选中序列种系发生分析提示，它们确实与家族III最紧密相关。种系发生分析还证明与鼠源抗-VEGF序列相比(Y，Chen等，1999)，最终选中序列与人免疫球蛋白家族III紧密相关得多。总之，结果显示对于34个位置中的大部分成功确定人源氨基酸残基。

此外，五个位置，即连续编号中的位置6，72，77，79，98(图42B)，在选择后未结束于优选人残基，而连续编号中的位置70和74(图42B)设法挑选人源残基的少数群体。尽管仍然少数，这些群体始终幸免于连续的严格洗涤和多重淘洗，证明它们的确具有对抗原的高亲和力。那些位置不选择人源优势残基。在另一方面，人源残基的少数群体的存在(连续编号中的位置70和74(图42B))提示人源化这些位置可能可行。

这支持以下结论：本发明方法设计具有完全人或类人优化抗体序列的优化构架，其取决于类人和与结构模板或来自集合结构或结构平均的模板的相容性之间的精细平衡。图42B显示这些序列在另外的树图中的种系发生间距，对一些鉴定清楚的序列D36，D40和D42和相关序列做注释。D36在其种系发生间距方面与报导的人源化序列同样人源化或稍好一点。

在图42A中列出来自抗-VEGF VH文库淘洗的最佳选中(来自最后两次淘洗，第7次和第8次淘洗的最佳选中)的全长序列，以及鼠抗-VEGFVH(Y.Chen等，1999)和人免疫球蛋白VH的家族III的决定序列。

7)选择具有高亲和力的抗-VEGF的人源化VH

为了增加洗涤的严谨性以选择高亲和力的结合物，如图41所总结，实行应用延长时间的洗涤，增加洗涤体积，降低包被的VEGF浓度，减少输入文库噬菌体等程序。所有这些措施将倾向于促进相对较低亲和力的那些相互作用的离解，和选择性地有利于高亲和力的那些的残留。从该淘洗中残留的噬菌体的克隆然后被取样用于测序。来自该淘洗的最佳选中的全长抗-VEGF VH序列在图42A中列出。使用我们的所述本发明方法，在构架优化后(参见图43A&B)，我们已经发现3种(D36，D40和D42)ccFv形式的具有比亲代或对照抗-VEGF抗体序列更高结合亲和力的人源化构架(对于人源化抗-VEGF抗体构架参见图22A&B(Presta LG，Chen H，O′Connor SJ，Chisholm V，Meng YG，Krummen L，Winkler M，Ferrara N(1997)Cancer Res.57，4593-4599)。这些改善主要来自仅通过构架人源化的结合速率的较大提高和解离速率的小的降低。图43A显示使用ccFv噬菌体展示系统(参见以上图23-25的描述)从设计者VH优化文库中选择的抗-VEGF抗体的优化VH构架(FR123)的序列。D36，D40和D42的VHfr123，以及原有鼠抗体VH FR123和人源化序列(Presta等上文)具有来自鼠抗体的相同CDR。下图中的点表示氨基酸与对照相同(鼠VH构架fr123)。

图43B显示5种抗体的亲和力数据，这5种抗体是亲代抗体(X50)和抗-VEGF抗体的优化构架(D36，D40，D41和D42)，其使用BIAcore生物传感器选自设计者文库(关于它们的序列参见图43A和图43B中的注释)。在25℃下纯化的抗体与其固定在CM5生物芯片上的抗原(VEGF)结合时，通过测量SPR单位(y-轴)对时间(x-轴)的变化来完成测量。从使用1∶1 Langmuir结合模型的数据拟合测定结合速率和解离速率的变化。2种人源化构架D36和D40经构架优化后在结合亲和力(ccFv形式)方面比亲代/对照抗-VEGF抗体序列高约4倍(关于文献((Presta LG，ChenH，O′Connor SJ，Chisholm V，Meng YG，Krummen L，Winkler M，FerraraN(1997)Cancer Res.57，4593-4599)中报导的人源化抗-VEGF抗体构架参见图22A&B)，而D42差不多与对照抗体相同。因为报导的人源化抗-VEGF抗体(图22A&B)比它相应的鼠抗体弱约2倍，，这两种人源化抗体应当在人源化以后具有比对应的鼠抗体高约2倍的结合亲和力。

图44显示优化的VH构架(D36和D40)增加的稳定性。y-轴显示在纯化抗体在4，37和42℃温育17小时后，使用BIAcore，亲代X50和优化构架(D36和D40)在25℃下保持与固定化VEGF抗原结合活性的抗体百分比。显示优化的构架比报导的人源化VH构架(Presta等上文，1997)具有更高的稳定性。

应当注意通过使用本发明方法设计的抗体文库不仅能够在噬菌体系统中，而且可以在其它生物体的细胞中表达和筛选，这些生物体包括但不限于酵母，昆虫，植物，和哺乳动物细胞。设计的抗体，包括抗原结合片段和其它抗体形式，可以通过多种重组DNA或其它技术生产。例如，编码设计的抗体的DNA片段可以克隆到表达载体中并通过公知方法转移到宿主细胞中，这些方法随细胞宿主的类型而变化，包括但不限于氯化钙转染，电穿孔，脂转染和病毒转染。根据本领域标准方法可以纯化抗体，这些标准方法包括但不限于硫酸铵沉淀，亲和柱，柱层析，凝胶电泳等。对于本领域技术人员在不背离后附权利要求限定的本发明精神和范围下可以进行各种改进。

通过使用本发明方法设计的抗体可以用于诊断或治疗处理各种疾病，包括但不限于，癌症，自身免疫疾病如多发性硬化，类风湿性关节炎，系统性红斑狼疮，I型糖尿病，和重症肌无力，移植物抗宿主疾病，心血管疾病，病毒感染如HIV，肝炎病毒，和单纯疱疹病毒，细菌感染，变态反应，II型糖尿病，血液病如贫血症。

抗体也可以用作与诊断或治疗部分连接的偶联物，或与化学治疗剂或生物制剂联合。也可以配制抗体以通过各种各样的给药途径传递。例如，抗体可以口服，局部，肠胃外，腹膜内，静脉内，动脉内，透皮，舌下，肌内，直肠，透颊，鼻内，经吸入，阴道，眼内，经局部传递(例如通过导管或支架)，皮下，intraadiposally，关节内，或鞘内施用或共同施用。

本发明计算机设计蛋白质文库的方法可以在各种配置中在任何计算系统中实现，包括但不限于超级计算机，个人计算机，个人数字助手(PDA)，网络计算机，在互联网或其它微处理机系统上分布的分布式计算机。上文所述方法和系统可以在各种类型的除了存储器如随机存取存储器(RAM)以外的可执行介质上执行。可以使用其它类型的可执行介质，包括但不限于计算机可读存储介质，其可以是任何存储器，光盘，zip盘或软盘。

以上引用的专利，专利申请和出版物通过参考完整地结合于此。

序列表

<110>罗培志

马克·赫斯荷

钟苹羽

王才鹏

曹亦成

刘盛疆

<120>在计算机上产生和筛选蛋白质文库

<130>26050-710

<150>US 10/153,176

<151>2002-05-20

<150>US 10/153,159

<151>2002-05-20

<160>131

<170>PatentIn version 3.1

<210>1

<211>123

<212>PRT

<213>人工序列

<220>

<223>亲代抗-VEGF抗体的VH

<400>1

Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Tyr Thr Phe Thr Asn Tyr

20 25 30

Gly Met Asn Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Gly Trp Ile Asn Thr Tyr Thr Gly Glu Pro Thr Tyr Ala Ala Asp Phe

50 55 60

Lys Arg Arg Phe Thr Phe Ser Leu Asp Thr Ser Lys Ser Thr Ala Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Lys Tyr Pro His Tyr Tyr Gly Ser Ser His Trp Tyr Phe Asp Val

100 105 110

Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser

115 120

<210>2

<211>108

<212>PRT

<213>人工序列

<220>

<223>亲代抗-VEGF抗体的VL

<400>2

Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Ser Ala Ser Gln Asp Ile Ser Asn Tyr

20 25 30

Leu Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Val Leu Ile

35 40 45

Tyr Phe Thr Ser Ser Leu His Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Gln Gln Tyr Ser Thr Val Pro Trp

85 90 95

Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys Arg

100 105

<210>3

<211>123

<212>PRT

<213>人工序列

<220>

<223>成熟的抗-VEGF抗体的VH

<400>3

Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Tyr Asp Phe Thr His Tyr

20 25 30

Gly Met Asn Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Gly Trp Ile Asn Thr Tyr Thr Gly Glu Pro Thr Tyr Ala Ala Asp Phe

50 55 60

Lys Arg Arg Phe Thr Phe Ser Leu Asp Thr Ser Lys Ser Thr Ala Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Lys Tyr Pro Tyr Tyr Tyr Gly Thr Ser His Trp Tyr Phe Asp Val

100 105 110

Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser

115 120

<210>4

<211>108

<212>PRT

<213>人工序列

<220>

<223>成熟的抗-VEGF抗体的VL

<400>4

Asp Ile Gln Leu Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Ser Ala Ser Gln Asp Ile Ser Asn Tyr

20 25 30

Leu Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Val Leu Ile

35 40 45

Tyr Phe Thr Ser Ser Leu His Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Gln Gln Tyr Ser Thr Val Pro Trp

85 90 95

Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys Arg

100 105

<210>5

<211>19

<212>PRT

<213>人工序列

<220>

<223>亲代抗-VEGF抗体的VH CDR3

<400>5

Cys Ala Lys Tyr Pro His Tyr Tyr Gly Ser Ser His Trp Tyr Phe Asp

1 5 10 15

Val Trp Gly

<210>6

<211>19

<212>PRT

<213>人工序列

<220>

<223>成熟的抗-VEGF抗体的VH CDR3

<400>6

Cys Ala Lys Tyr Pro Tyr Tyr Tyr Gly Thr Ser His Trp Tyr Phe Asp

1 5 10 15

Val Trp Gly

<210>7

<211>6

<212>PRT

<213>人工序列

<220>

<223>Flexon序列

<400>7

Ser Arg Gly Gly Gly Gly

1 5

<210>8

<211>4

<212>PRT

<213>人工序列

<220>

<223>间隔臂

<400>8

Val Gly Gly Cys

1

<210>9

<211>146

<212>DNA

<213>人工序列

<220>

<223>GR1结构域

<400>9

tctagaggtg gaggaggtga ggagaagtcc cggctgttgg agaaggagaa ccgtgaactg 60

gaaaagatca ttgctgagaa agaggagcgt gtctctgaac tgcgccatca actccagtct 120

gtaggaggtt gttaataggg cgcgcc 146

<210>10

<211>44

<212>PRT

<213>人工序列

<220>

<223>GR1结构域

<400>10

Ser Arg Gly Gly Gly Gly Glu Glu Lys Ser Arg Leu Leu Glu Lys Glu

1 5 10 15

Asn Arg Glu Leu Glu Lys Ile Ile Ala Glu Lys Glu Glu Arg Val Ser

20 25 30

Glu Leu Arg His Gln Leu Gln Ser Val Gly Gly Cys

35 40

<210>11

<211>141

<212>DNA

<213>人工序列

<220>

<223>GR2结构域

<400>11

tctcgaggag gtggtggaac atcccgcctg gagggcctac agtcagaaaa ccatcgcctg 60

cgaatgaaga tcacagagct ggataaagac ttggaagaag tcaccatgca gctgcaagac 120

gttggcggtt gcgcggccgc t 141

<210>12

<211>47

<212>PRT

<213>人工序列

<220>

<223>GR2结构域

<400>12

Ser Arg Gly Gly Gly Gly Thr Ser Arg Leu Glu Gly Leu Gln Ser Glu

1 5 10 15

Asn His Arg Leu Arg Met Lys Ile Thr Glu Leu Asp Lys Asp Leu Glu

20 25 30

Glu Val Thr Met Gln Leu Gln Asp Val Gly Gly Cys Ala Ala Ala

35 40 45

<210>13

<211>369

<212>DNA

<213>人工序列

<220>

<223>AM2-ccFv的VH

<400>13

gaggtgcagc tggtggagtc tgggggaggc ctggtccagc ctggggggtc cctgagactc 60

tcctgtgcag ctagcggcta caccttcact aactatggca tgaactgggt ccgccaggct 120

cccgggaagg ggctggagtg ggttggctgg ataaacacat atactggaga gccaacttat 180

gcagctgact tcaaaagacg attcaccttt tccctcgaca ctagtaagtc cacggcatat 240

ctgcaaatga acagcctgag agccgaggac actgcagtgt attactgtgc gaagtaccct 300

cactactacg gtagttccca ctggtacttc gacgtctggg gccaagggac ccttgtcacc 360

gtctcctca 369

<210>14

<211>123

<212>PRT

<213>人工序列

<220>

<223>AM2-ccFv的VH

<400>14

Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Tyr Thr Phe Thr Asn Tyr

20 25 30

Gly Met Asn Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Gly Trp Ile Asn Thr Tyr Thr Gly Glu Pro Thr Tyr Ala Ala Asp Phe

50 55 60

Lys Arg Arg Phe Thr Phe Ser Leu Asp Thr Ser Lys Ser Thr Ala Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Lys Tyr Pro His Tyr Tyr Gly Ser Ser His Trp Tyr Phe Asp Val

100 105 110

Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser

115 120

<210>15

<211>324

<212>DNA

<213>人工序列

<220>

<223>AM2-ccFv的VL

<400>15

gacatccaga tgacacagtc tccatcctcc ctgtctgcat ctgtaggaga cagggtcacc 60

atcacttgca gcgcaagtca ggacattagt aactatttaa attggtatca gcagaaacca 120

ggtaaggcgc ctaaggtcct gatctatttc acatccagtt tgcactccgg agtcccatca 180

aggttcagtg gcagtggatc tgggacagat ttcactctca ccatcagcag tctgcaaccc 240

gaagactttg caacttacta ctgtcaacag tacagtactg tcccctggac tttcggtcag 300

ggtaccaaag tggagatcaa acgt 324

<210>16

<211>108

<212>PRT

<213>人工序列

<220>

<223>AM2-ccFv的VL

<400>16

Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Ser Ala 5er Gln Asp Ile Ser Asn Tyr

20 25 30

Leu Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Val Leu Ile

35 40 45

Tyr Phe Thr Ser Ser Leu His Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Gln Gln Tyr Ser Thr Val Pro Trp

85 90 95

Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys Arg

100 105

<210>17

<211>5251

<212>DNA

<213>人工序列

<220>

<223>pABMD12载体

<400>17

gcgcaacgca attaatgtga gttagctcac tcattaggca ccccaggctt tacactttat 60

gcttccggct cgtatgttgt gtggaattgt gagcggataa caatttaccg gttcttttaa 120

ctttagtaag gaggaattaa aaaatgaaaa agtctttagt cctcaaagcc tccgtagccg 180

ttgctaccct cgttccgatg ctaagcttcg ctgaggtgca gctggtggag tctgggggag 240

gcctggtcca gcctgggggg tccctgagac tctcctgtgc agctagcggc tacaccttca 300

ctaactatgg catgaactgg gtccgccagg ctcccgggaa ggggctggag tgggttggct 360

ggataaacac atatactgga gagccaactt atgcagctga cttcaaaaga cgattcacct 420

tttccctcga cactagtaag tccacggcat atctgcaaat gaacagcctg agagccgagg 480

acactgcagt gtattactgt gcgaagtacc ctcactacta cggtagttcc cactggtact 540

tcgacgtctg gggccaaggg acccttgtca ccgtctcctc atctagaggt ggaggaggtg 600

aggagaagtc ccggctgttg gagaaggaga accgtgaact ggaaaagatc attgctgaga 660

aagaggagcg tgtctctgaa ctgcgccatc aactccagtc tgtaggaggt tgttaatagg 720

gcgcgccaca atttcacagt aaggaggttt aacttatgaa aaaattatta ttcgcaattc 780

ctttagttgt tcctttctat tctcactccg ctacgcgtga catccagatg acacagtctc 840

catcctccct gtctgcatct gtaggagaca gggtcaccat cacttgcagc gcaagtcagg 900

acattagtaa ctatttaaat tggtatcagc agaaaccagg taaggcgcct aaggtcctga 960

tctatttcac atccagtttg cactccggag tcccatcaag gttcagtggc agtggatctg 1020

ggacagattt cactctcacc atcagcagtc tgcaacccga agactttgca acttactact 1080

gtcaacagta cagtactgtc ccctggactt tcggtcaggg taccaaagtg gagatcaaac 1140

gttctcgagg aggtggtgga acatcccgcc tggagggcct acagtcagaa aaccatcgcc 1200

tgcgaatgaa gatcacagag ctggataaag acttggaaga agtcaccatg cagctgcaag 1260

acgttggcgg ttgcgcggcc gcttatccat acgacgtacc agactacgca ggaggtcatc 1320

accatcatca ccattagaga tctggaggcg gtactgttga aagttgttta gcaaaacctc 1380

atacagaaaa ttcatttact aacgtctgga aagacgacaa aactttagat cgttacgcta 1440

actatgaggg ctgtctgtgg aatgctacag gcgttgtggt ttgtactggt gacgaaactc 1500

agtgttacgg tacatgggtt cctattgggc ttgctatccc tgaaaatgag ggtggtggct 1560

ctgagggtgg cggttctgag ggtggcggtt ctgagggtgg cggtactaaa cctcctgagt 1620

acggtgatac acctattccg ggctatactt atatcaaccc tctcgacggc acttatccgc 1680

ctggtactga gcaaaacccc gctaatccta atccttctct tgaggagtct cagcctctta 1740

atactttcat gtttcagaat aataggttcc gaaataggca gggtgcatta actgtttata 1800

cgggcactgt tactcaaggc actgaccccg ttaaaactta ttaccagtac actcctgtat 1860

catcaaaagc catgtatgac gcttactgga acggtaaatt cagagactgc gctttccatt 1920

ctggctttaa tgaggatcca ttcgtttgtg aatatcaagg ccaatcgtct gacctgcctc 1980

aacctcctgt caatgctggc ggcggctctg gtggtggttc tggtggcggc tctgagggtg 2040

gcggctctga gggtggcggt tctgagggtg gcggctctga gggtggcggt tccggtggcg 2100

gctccggttc cggtgatttt gattatgaaa aaatggcaaa cgctaataag ggggctatga 2160

ccgaaaatgc cgatgaaaac gcgctacagt ctgacgctaa aggcaaactt gattctgtcg 2220

ctactgatta cggtgctgct atcgatggtt tcattggtga cgtttccggc cttgctaatg 2280

gtaatggtgc tactggtgat tttgctggct ctaattccca aatggctcaa gtcggtgacg 2340

gtgataattc acctttaatg aataatttcc gtcaatattt accttccctc cctcaatcgg 2400

ttgaatgtcg cccttttgtc tttagcgctg gtaaaccata tgaattttct attgattgtg 2460

acaaaataaa cttattccgt ggtgtctttg cgtttctttt atatgttgcc acctttatgt 2520

atgtattttc tacgtttgct aacatactgc gtaataagga gtcttaagtc gacctcgacc 2580

aattcgccct atagtgagtc gtattacaat tcactggccg tcgttttaca acgtcgtgac 2640

tgggaaaacc ctggcgttac ccaacttaat cgccttgcag cacatccccc tttcgccagc 2700

tggcgtaata gcgaagaggc ccgcaccgat cgcccttccc aacagttgcg cagcctgaat 2760

ggcgaatggg acgcgccctg tagcggcgca ttaagcgcgg cgggtgtggt ggttacgcgc 2820

agcgtgaccg ctacacttgc cagcgcccta gcgcccgctc ctttcgcttt cttcccttcc 2880

tttctcgcca cgttcgccgg ctttccccgt caagctctaa atcgggggct ccctttaggg 2940

ttccgattta gtgctttacg gcacctcgac cccaaaaaac ttgattaggg tgatggttca 3000

cgtagtgggc catcgccctg atagacggtt tttcgccctt tgacgttgga gtccacgttc 3060

tttaatagtg gactcttgtt ccaaactgga acaacactca accctatctc ggtctattct 3120

tttgatttat aagggatttt gccgatttcg gcctattggt taaaaaatga gctgatttaa 3180

caaaaattta acgcgaattt taacaaaata ttaacgctta caatttaggt ggcacttttc 3240

ggggaaatgt gcgcggaacc cctatttgtt tatttttcta aatacattca aatatgtatc 3300

cgctcatgag acaataaccc tgataaatgc ttcaataata ttgaaaaagg aagagtatga 3360

gtattcaaca tttccgtgtc gcccttattc ccttttttgc ggcattttgc cttcctgttt 3420

ttgctcaccc agaaacgctg gtgaaagtaa aagatgctga agatcagttg ggtgcacgag 3480

tgggttacat cgaactggat ctcaacagcg gtaagatcct tgagagtttt cgccccgaag 3540

aacgttttcc aatgatgagc acttttaaag ttctgctatg tggcgcggta ttatcccgta 3600

ttgacgccgg gcaagagcaa ctcggtcgcc gcatacacta ttctcagaat gacttggttg 3660

agtactcacc agtcacagaa aagcatctta cggatggcat gacagtaaga gaattatgca 3720

gtgctgccat aaccatgagt gataacactg cggccaactt acttctgaca acgatcggag 3780

gaccgaagga gctaaccgct tttttgcaca acatggggga tcatgtaact cgccttgatc 3840

gttgggaacc ggagctgaat gaagccatac caaacgacga gcgtgacacc acgatgcctg 3900

tagcaatggc aacaacgttg cgcaaactat taactggcga actacttact ctagcttccc 3960

ggcaacaatt aatagactgg atggaggcgg ataaagttgc aggaccactt ctgcgctcgg 4020

cccttccggc tggctggttt attgctgata aatctggagc cggtgagcgt gggtctcgcg 4080

gtatcattgc agcactgggg ccagatggta agccctcccg tatcgtagtt atctacacga 4140

cggggagtca ggcaactatg gatgaacgaa atagacagat cgctgagata ggtgcctcac 4200

tgattaagca ttggtaactg tcagaccaag tttactcata tatactttag attgatttaa 4260

aacttcattt ttaatttaaa aggatctagg tgaagatcct ttttgataat ctcatgacca 4320

aaatccctta acgtgagttt tcgttccact gagcgtcaga ccccgtagaa aagatcaaag 4380

gatcttcttg agatcctttt tttctgcgcg taatctgctg cttgcaaaca aaaaaaccac 4440

cgctaccagc ggtggtttgt ttgccggatc aagagctacc aactcttttt ccgaaggtaa 4500

ctggcttcag cagagcgcag ataccaaata ctgtccttct agtgtagccg tagttaggcc 4560

accacttcaa gaactctgta gcaccgccta catacctcgc tctgctaatc ctgttaccag 4620

tggctgctgc cagtggcgat aagtcgtgtc ttaccgggtt ggactcaaga cgatagttac 4680

cggataaggc gcagcggtcg ggctgaacgg ggggttcgtg cacacagccc agcttggagc 4740

gaacgaccta caccgaactg agatacctac agcgtgagct atgagaaagc gccacgcttc 4800

ccgaagggag aaaggcggac aggtatccgg taagcggcag ggtcggaaca ggagagcgca 4860

cgagggagct tccaggggga aacgcctggt atctttatag tcctgtcggg tttcgccacc 4920

tctgacttga gcgtcgattt ttgtgatgct cgtcaggggg gcggagccta tggaaaaacg 4980

ccagcaacgc ggccttttta cggttcctgg ccttttgctg gccttttgct cacatgttct 5040

ttcctgcgtt atcccctgat tctgtggata accgtattac cgcctttgag tgagctgata 5100

ccgctcgccg cagccgaacg accgagcgca gcgagtcagt gagcgaggaa gcggaagagc 5160

gcccaatacg caaaccgcct ctccccgcgc gttggccgat tcattaatgc agctggcacg 5220

acaggtttcc cgactggaaa gcgggcagtg a 5251

<210>18

<211>5

<212>PRT

<213>人工序列

<220>

<223>Flexon

<400>18

Gly Gly Gly Gly Ser

1 5

<210>19

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>19

Gly Tyr Asn Phe Thr Arg Tyr Gly Ile

1 5

<210>20

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>20

Gly Tyr Asn Phe Thr Arg Tyr Gly Met

1 5

<210>21

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>21

Gly Tyr Asn Phe Asn Arg Tyr Gly Ile

1 5

<210>22

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>22

Gly Tyr Asp Phe Thr Arg Tyr Gly Val

1 5

<210>23

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>23

Gly Tyr Asp Phe Thr Arg Tyr Gly Met

1 5

<210>24

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>24

Gly Tyr Asp Phe Asn Arg Tyr Gly Ile

1 5

<210>25

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>25

Gly Tyr Asp Phe Asp Arg Tyr Gly Met

1 5

<210>26

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>26

Gly Tyr Asp Phe Asp Arg Tyr Gly Ile

1 5

<210>27

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>27

Gly Tyr Asp Phe Asp Arg Tyr Gly Val

1 5

<210>28

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>28

Gly Tyr Thr Phe Asn Arg Tyr Gly Ile

1 5

<210>29

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>29

Gly Tyr Ala Phe Asn Arg Tyr Gly Ile

1 5

<210>30

<211>9

<212>PRT

<213>人工序列

<220>

<223>VH CDR1变体

<400>30

Gly Tyr Ala Phe Asn Arg Tyr Gly Met

1 5

<210>31

<211>17

<212>PRT

<213>人工序列

<220>

<223>VH CDR2变体

<400>31

Trp Ile Asn Thr Asn Asn Gly Glu Ser Thr Tyr Ala Gln Gly Phe Thr

1 5 10 15

Arg

<210>32

<211>17

<212>PRT

<213>人工序列

<220>

<223>VH CDR2变体

<400>32

Trp Ile Asn Thr Asn Asn Gly Asp Thr Thr Tyr Ala Gln Glu Phe Thr

1 5 10 15

Arg

<210>33

<211>17

<212>PRT

<213>人工序列

<220>

<223>VH CDR2变体

<400>33

Trp Ile Asn Thr Asn Asn Gly Asn Ser Thr Tyr Ala Gln Glu Phe Thr

1 5 10 15

Arg

<210>34

<211>17

<212>PRT

<213>人工序列

<220>

<223>VH CDR2变体

<400>34

Trp Ile Asn Thr Asn Asn Gly Asp Thr Thr Tyr Val Gln Asp Phe Thr

1 5 10 15

Arg

<210>35

<211>16

<212>PRT

<213>人工序列

<220>

<223>VH CDR2变体

<400>35

Trp Val Asn Thr Asn Asn Gly Asp Ser Thr Tyr Ala Gln Gly Phe Thr

1 5 10 15

<210>36

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>36

Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser Ser Trp Tyr Phe Asp Leu

1 5 10 15

<210>37

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>37

Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser Asn Trp Tyr Phe Asp Leu

1 5 10 15

<210>38

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>38

Arg Tyr Pro Tyr Tyr Tyr Gly Arg Ser Asn Trp Tyr Phe Asp Leu

1 5 10 15

<210>39

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>39

Arg Tyr Pro Tyr Tyr Tyr Gly Arg Ser Ser Trp Tyr Phe Asp Leu

1 5 10 15

<210>40

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>40

Arg Tyr Pro Tyr Tyr Tyr Gly Arg Thr Ser Trp Tyr Phe Asp Leu

1 5 10 15

<210>41

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>41

Arg Tyr Pro Tyr Tyr Tyr Ser Arg Thr Ser Trp Tyr Phe Asp Leu

1 5 10 15

<210>42

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>42

Arg Tyr Pro Tyr Tyr Ser Gly Arg Ser Ser Trp Tyr Phe Asp Leu

1 5 10 15

<210>43

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>43

Arg Ala Pro Tyr Tyr Cys Gly Arg Ser Cys Trp Tyr Phe Asp Leu

1 5 10 15

<210>44

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>44

Arg Tyr Pro Tyr Tyr Asp Gly Arg Ser Asn Trp Tyr Phe Asp Leu

1 5 10 15

<210>45

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>45

Arg Tyr Pro Tyr Tyr Cys Gly Arg Ser Asn Trp Tyr Phe Asp Leu

1 5 10 15

<210>46

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>46

Arg Asp Pro Tyr Tyr Cys Ser Arg Ser Cys Trp Tyr Phe Asp Leu

1 5 10 15

<210>47

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>47

Arg Tyr Pro Tyr Tyr Ser Gly Arg Ser Tyr Trp Tyr Phe Asp Leu

1 5 10 15

<210>48

<211>15

<212>PRT

<213>人工序列

<220>

<223>VH CDR3变体

<400>48

Arg Pro Pro Tyr Tyr Tyr Gly Ser Ser His Trp Tyr Phe Asp Val

1 5 10 15

<210>49

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #61

<400>49

Cys Ala Arg Asp Pro Tyr Tyr Tyr Gly Arg Ser Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>50

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #181

<400>50

Cys Ala Arg Asp Pro Tyr Tyr Tyr Ser Arg Ser Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>51

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #19501

<400>51

Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Ser Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>52

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #13165

<400>52

Cys Ala Arg Thr Pro Tyr Tyr Tyr Ser Arg Thr Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>53

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #19525

<400>53

Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Thr Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>54

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #13021

<400>54

Cys Ala Arg Thr Pro Tyr Tyr Tyr Gly Arg Ser Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>55

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #19647

<400>55

Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Thr Ser Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>56

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #20005

<400>56

Cys Ala Arg Tyr Pro Tyr Tyr Ser Gly Arg Thr Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>57

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #301

<400>57

Cys Ala Arg Asp Pro Tyr Tyr Gly Gly Arg Ser Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>58

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体 #541

<400>58

Cys Ala Arg Asp Pro Tyr Tyr Ser Gly Arg Ser Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>59

<211>19

<212>PRT

<213>人工序列

<220>

<223>变体图谱前导序列

<400>59

Cys Ala Arg Asp Pro Tyr Tyr Tyr Gly Arg Ser Tyr Trp Tyr Phe Asp

1 5 10 15

Leu Trp Gly

<210>60

<211>57

<212>DNA

<213>人工序列

<220>

<223>编码变体图谱前导序列的DNA

<400>60

tgcgcgcgta acccgtacta caacggtcgt agctactggt acttcgatct gtggggt 57

<210>61

<211>57

<212>DNA

<213>人工序列

<220>

<223>简并核酸序列

<400>61

tgcgcgcgtd myccgtacta cdryrgycgt ascwrctggt acttcgatct gtggggc 57

<210>62

<211>26

<212>PRT

<213>人工序列

<220>

<223>成熟的 VH CDR3

<400>62

Thr Ala Val Tyr Tyr Cys Ala Lys Tyr Pro Tyr Tyr Tyr Gly Thr Ser

1 5 10 15

His Trp Tyr Phe Asp Val Trp Gly Gln Gly

20 25

<210>63

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1B8

<400>63

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>64

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1D7

<400>64

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>65

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2A6

<400>65

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>66

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3D10

<400>66

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>67

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2A12

<400>67

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>68

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1F8

<400>68

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>69

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3B5

<400>69

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>70

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1C4

<400>70

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Ser Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>71

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3F1

<400>71

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Ser Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>72

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2F7

<400>72

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>73

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3B11

<400>73

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Gly Ser Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>74

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3B10

<400>74

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Ser Gly Arg Ser

1 5 10 15

Tyr Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>75

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1A11

<400>75

Thr Ala Val Tyr Tyr Cys Ala Arg Asp Pro Tyr Tyr Asp Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>76

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2A1

<400>76

Thr Ala Val Tyr Tyr Cys Ala Arg Asp Pro Tyr Tyr Asp Ser Arg Ser

1 5 10 15

Tyr Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>77

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3A6

<400>77

Thr Ala Val Tyr Tyr Cys Ala Arg Asp Pro Tyr Tyr Gly Gly Arg Ser

1 5 10 15

Tyr Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>78

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2G8

<400>78

Thr Ala Val Tyr Tyr Cys Ala Arg Asp Pro Tyr Tyr Gly Gly Arg Thr

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>79

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3B8

<400>79

Thr Ala Val Tyr Tyr Cys Ala Arg Asp Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>80

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1B7

<400>80

Thr Ala Val Ser Tyr Cys Ala Arg Asp Pro Tyr Tyr Tyr Gly Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>81

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3H3

<400>81

Thr Ala Val Tyr Tyr Cys Ala Arg Asp Pro Tyr Tyr Tyr Gly Arg Thr

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>82

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1D2

<400>82

Thr Ala Val Tyr Tyr Cys Ala Arg Ala Pro Tyr Tyr Cys Ser Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>83

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2A2

<400>83

Thr Ala Val Tyr Tyr Cys Ala Arg Ala Pro Tyr Tyr Cys Ser Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>84

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2A11

<400>84

Thr Ala Val Tyr Tyr Cys Ala Arg Ala Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>85

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3A12

<400>85

Thr Ala Val Tyr Tyr Cys Ala Arg Ala Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>86

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1C2

<400>86

Thr Ala Val Tyr Tyr Tyr Ala Arg Ala Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Tyr Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>87

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-1B12

<400>87

Thr Ala Val Tyr Tyr Tyr Ala Arg Ala Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Tyr Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>88

<211>26

<212>PRT

<213>人工序列

<220>

<223>DVGD9-1-2A3

<400>88

Thr Ala Val Tyr Tyr Cys Ala Arg Ser Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>89

<211>26

<212>PRT

<213>人工序列

<22D>

<223>pVGD9-1-2G5

<400>89

Thr Ala Val Tyr Tyr Cys Ala Arg Ser Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>90

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2A8

<400>90

Thr Ala Val Tyr Tyr Cys Ala Arg Ser Pro Tyr Tyr Cys Ser Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>91

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3A7

<400>91

Thr Ala Val Tyr Tyr Cys Ala Arg Ser Pro Tyr Tyr Gly Gly Arg Ser

1 5 10 15

Tyr Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>92

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2B7

<400>92

Thr Ala Val Tyr Tyr Cys Ala Arg Asn Pro Tyr Tyr Cys Gly Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>93

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-2G6

<400>93

Thr Ala Val Tyr Tyr Cys Ala Arg Asn Pro Tyr Tyr Cys Gly Arg Thr

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>94

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3A11

<400>94

Thr Ala Val Tyr Tyr Cys Ala Arg Thr Pro Tyr Tyr Gly Gly Arg Thr

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>95

<211>26

<212>PRT

<213>人工序列

<220>

<223>pVGD9-1-3H2

<400>95

Thr Ala Val Tyr Tyr Cys Ala Arg Thr Pro Tyr Tyr Tyr Gly Arg Thr

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>96

<211>26

<212>PRT

<213>人工序列

<220>

<223>文库9

<220>

<221>MISC_FEATURE

<222>(9)..(9)

<223>X＝Y，D，A，S，N，或T

<220>

<221>MISC_FEATURE

<222>(13)..(13)

<223>X＝Y，C，G，S，或D.

<220>

<221>MISC_FEATURE

<222>(14)..(14)

<223>X＝G或S.

<220>

<221>MISC_FEATURE

<222>(16)..(16)

<223>X＝S或T.

<220>

<221>MISC_FEATURE

<222>(17)..(17)

<223>X＝H，C，N，Y，或S.

<400>96

Thr Ala Val Tyr Tyr Cys Ala Arg Xaa Pro Tyr Tyr Xaa Xaa Arg Xaa

1 5 10 15

Xaa Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>97

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1G6

<400>97

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>98

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2A1

<400>98

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>99

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1D3

<400>99

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>100

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1D5

<400>100

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>101

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1G4

<400>101

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>102

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2E1

<400>102

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>103

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1E5

<400>103

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>104

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1A5

<400>104

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>105

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1A10

<400>105

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>106

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2E6

<400>106

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>107

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1B10

<400>107

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>108

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1D6

<400>108

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>109

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2F4

<400>109

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>110

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1E3

<400>110

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>111

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2A2

<400>111

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>112

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1G7

<400>112

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>113

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1E2

<400>113

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>114

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2B12

<400>114

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Thr

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>115

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2D6

<400>115

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Gly Arg Thr

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>116

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2F2

<400>116

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Ser Gly Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>117

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1D1

<400>117

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Ser Gly Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>118

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1A11

<400>118

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Ser Gly Arg Ser

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>119

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1E7

<400>119

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Tyr Ser Arg Thr

1 5 10 15

Ser Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>120

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1C10

<400>120

Thr Ala Val Tyr Tyr Cys Ala Arg Ala Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>121

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1F9

<400>121

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>122

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-1F8

<400>122

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Asp Gly Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>123

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2G5

<400>123

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Cys Gly Arg Ser

1 5 10 15

Asn Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>124

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2B11

<400>124

Thr Ala Val Tyr Tyr Cys Ala Arg Asp Pro Tyr Tyr Cys Ser Arg Ser

1 5 10 15

Cys Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>125

<211>26

<212>PRT

<213>人工序列

<220>

<223>PVG9-3-2G9

<400>125

Thr Ala Val Tyr Tyr Cys Ala Arg Tyr Pro Tyr Tyr Ser Gly Arg Ser

1 5 10 15

Tyr Trp Tyr Phe Asp Leu Trp Gly Gln Gly

20 25

<210>126

<211>123

<212>PRT

<213>人工序列

<220>

<223>抗体X64的VH

<400>126

Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Tyr Thr Phe Thr Asn Tyr

20 25 30

Gly Met Asn Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Gly Trp Ile Asn Thr Tyr Thr Gly Glu Pro Thr Tyr Ala Ala Asp Phe

50 55 60

Lys Arg Arg Phe Thr Phe Ser Leu Asp Thr Ser Lys Ser Thr Ala Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Lys Tyr Pro His Tyr Tyr Gly Arg Ser His Trp Tyr Phe Asp Val

100 105 110

Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser

115 120

<210>127

<211>108

<212>PRT

<213>人工序列

<220>

<223>抗体X64，X65，D36，D40和D42的VL

<400>127

Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Ser Ala Ser Gln Asp Ile Ser Asn Tyr

20 25 30

Leu Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Val Leu Ile

35 40 45

Tyr Phe Thr Ser Ser Leu His Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Gln Gln Tyr Ser Thr Val Pro Trp

85 90 95

Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys Arg

100 105

<210>128

<211>123

<212>PRT

<213>人工序列

<220>

<223>抗体x65的VH

<400>128

Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Tyr Thr Phe Thr Asn Tyr

20 25 30

Gly Met Asn Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Gly Trp Ile Asn Thr Tyr Thr Gly Glu Pro Thr Tyr Ala Ala Asp Phe

50 55 60

Lys Arg Arg Phe Thr Phe Ser Leu Asp Thr Ser Lys Ser Thr Ala Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Lys Tyr Pro Tyr Tyr Tyr Gly Arg Ser His Trp Tyr Phe Asp Val

100 105 110

Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser

115 120

<210>129

<211>123

<212>PRT

<213>人工序列

<220>

<223>抗体D36的VH

<400>129

Glu Val Gln Leu Val Gln Ser Gly Gly Gly Val Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Tyr Thr Phe Thr Asn Tyr

20 25 30

Gly Met Asn Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Gly Trp Ile Asn Thr Tyr Thr Gly Glu Pro Thr Tyr Ala Ala Asp Phe

50 55 60

Lys Arg Arg Phe Thr Phe Ser Leu Asp Thr Ser Lys Ser Thr Ala Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Lys Tyr Pro His Tyr Tyr Gly Ser Ser His Trp Tyr Phe Asp Val

100 105 110

Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser

115 120

<210>130

<211>123

<212>PRT

<213>人工序列

<220>

<223>抗体D40的VH

<400>130

Glu Val Gln Leu Val Gln Ser Gly Gly Gly Val Val Gln Pro Gly Gly

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Tyr Thr Phe Thr Asn Tyr

20 25 30

Gly Met Asn Trp Ile Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Gly Trp Ile Asn Thr Tyr Thr Gly Glu Pro Thr Tyr Ala Ala Asp Phe

50 55 60

Lys Arg Arg Val Thr Phe Ser Leu Asp Thr Ser Lys Ser Thr Ala Tyr

65 70 75 80

Leu Gln Leu Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Lys Tyr Pro His Tyr Tyr Gly Ser Ser His Trp Tyr Phe Asp Val

100 105 110

Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser

115 120

<210>131

<211>123

<212>PRT

<213>人工序列

<220>

<223>抗体D42的VH

<400>131

Glu Val Gln Leu Val Gln Ser Gly Gly Gly Val Val Gln Pro Gly Gly

1 5 10 15

Thr Leu Arg Leu Thr Cys Ala Ala Ser Gly Tyr Thr Phe Thr Asn Tyr

20 25 30

Gly Met Asn Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Gly Trp Ile Asn Thr Tyr Thr Gly Glu Pro Thr Tyr Ala Ala Asp Phe

50 55 60

Lys Arg Arg Val Thr Phe Ser Leu Asp Thr Ser Lys Ser Thr Ala Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Lys Tyr Pro His Tyr Tyr Gly Ser Ser His Trp Tyr Phe Asp Val

100 105 110

Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser

115 120

Claims

1.一种构建抗体序列文库的方法，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)可变区的氨基酸序列；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区的CDR中的一个；

将前导序列与多个试验蛋白质序列比较；和

2.权利要求1的方法，其中所述前导序列的长度为5-100aa。

3.权利要求1的方法，其中所述前导序列的长度为6-80aa。

4.权利要求1的方法，其中所述前导序列的长度为8-50aa。

5.权利要求1的方法，其中使用Kabat标准或Chothia标准进行鉴定所述CDR中的氨基酸序列的步骤。

6.权利要求1的方法，其中所述前导序列包含来自所述前导抗体V_H或V_L内的区域的氨基酸序列，所述区域选自由CDR1，CDR2，CDR3，FR1-CDR1，CDR1-FR2，FR2-CDR2，CDR2-FR3，FR3-CDR3，CDR3-FR4，FR1-CDR1-FR2，FR2-CDR2-FR3，和FR3-CDR3-FR4组成的组。

7.权利要求1的方法，其中所述前导序列包含所选CDR中至少6个连续的氨基酸残基。

8.权利要求1的方法，其中所述前导序列包含所选CDR中至少7个连续的氨基酸残基。

9.权利要求1的方法，其中所述前导序列包含所选CDR中的所有氨基酸残基。

10.权利要求1的方法，其中所述前导序列另外包含至少一个紧邻所选CDR的氨基酸残基。

11.权利要求1的方法，其中所述前导序列另外包含至少一个侧邻所选CDR的FR中的氨基酸残基。

12.权利要求1的方法，其中所述前导序列另外包含邻近所选CDR的C-末端或N-末端的一个或多个CDR或FR。

13.权利要求1的方法，其中所述多个试验蛋白质序列包含抗体序列。

14.权利要求1的方法，其中所述多个试验蛋白质序列包含人抗体序列。

15.权利要求1的方法，其中所述多个试验蛋白质序列包含人源化抗体序列，每个人源化抗体序列在V_H或V_L中具有至少70％的人序列。

16.权利要求1的方法，其中所述多个试验蛋白质序列包含人种系抗体序列。

17.权利要求1的方法，其中从数据库中检索所述多个试验蛋白质序列，所述数据库由NIH的genbank、Swiss-Prot数据库和抗体CDR的Kabat数据库组成。

18.权利要求1的方法，其中比较前导序列与多个试验蛋白质序列的步骤是通过选自由BLAST，PSI-BLAST，图谱HMM和COBLATH组成的组的算法实现。

19.权利要求1的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少25％。

20.权利要求1的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少35％。

21.权利要求1的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少45％。

22.权利要求1的方法，其另外包含下列步骤：

构建包含编码所述选中文库的氨基酸序列的DNA片段的核酸文库。

23.权利要求1的方法，其另外包含下列步骤：

构建所述选中文库的氨基酸位置变体图谱；

通过将氨基酸位置变体反翻译成它们相应的遗传密码子，将所述选中文库的氨基酸位置变体图谱转变成核酸位置变体图谱；和

通过以组合的方式组合所述核酸位置变体构建DNA片段的简并核酸文库。

24.权利要求23的方法，其中所述遗传密码子是优选用于细菌表达的遗传密码子。

25.权利要求23的方法，其中选择所述遗传密码子以使DNA片段的简并核酸文库的多样性低于1×10⁷。

26.权利要求23的方法，其中选择所述遗传密码子以使DNA片段的简并核酸文库的多样性低于1×10⁶。

27.权利要求23的方法，其另外包含以下步骤：

将所述简并核酸文库中的DNA片段导入宿主生物的细胞中；

在宿主细胞中表达DNA片段以便在宿主生物的细胞中生产含有由所述简并核酸文库编码的选中文库氨基酸序列的重组抗体；和

选择以高于10⁶M^-1的亲和力与靶抗原结合的重组抗体。

28.权利要求27的方法，其中所选重组抗体的亲和力高于10⁸M^-1。

29.权利要求27的方法，其中所选重组抗体的亲和力高于10⁹M^-1。

30.权利要求27的方法，其中所述宿主生物选自由细菌，酵母，植物，昆虫和哺乳动物组成的组。

31.权利要求27的方法，其中所述重组抗体选自由完全组装的抗体，Fab片段，Fv片段，和单链抗体组成的组。

32.权利要求27的方法，其中所述重组抗体在噬菌体颗粒的表面上展示。

33.权利要求32的方法，其中展示在噬菌体颗粒表面上的重组抗体是V_H和V_L之间形成的双链杂二聚体。

34.权利要求33的方法，其中通过分别与V_H和V_L链融合的两条非抗体多肽链之间形成的杂二聚体促进V_H和V_L链的杂二聚化。

35.权利要求34的方法，其中所述非抗体多肽链分别来源于杂二聚受体GABA_BR1(GR1)和R2(GR2)。

36.权利要求32的方法，其中展示在噬菌体颗粒表面上的重组抗体是含有通过肽接头连接的V_H和V_L的单链抗体。

37.权利要求36的方法，其中通过所述单链抗体与GR1的融合物和噬菌体pIII衣壳蛋白与GR2的融合物之间形成的杂二聚体促进噬菌体颗粒表面上单链抗体的展示。

38.权利要求27的方法，其中所述靶抗原选自由小有机分子，蛋白质，肽，核酸，和多糖组成的组。

39.一种用于构建抗体序列文库的方法，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)可变区的氨基酸序列；

鉴定前导抗体的CDR和FR中的氨基酸序列；

选择前导抗体V_H或V_L区的CDR中的一个；

将CDR前导序列与多个CDR试验蛋白质序列比较；

选择前导抗体的V_H或V_L区中FR之一；

将FR前导序列与多个FR试验蛋白质序列比较；

合并CDR选中文库和FR选中文库以形成选中文库。

40.权利要求39的方法，其中所述多个CDR试验蛋白质序列包含人或非人抗体的氨基酸序列。

41.权利要求39的方法，其中所述多个FR试验蛋白质序列包含人抗体的氨基酸序列。

42.权利要求39的方法，其中所述多个FR试验蛋白质序列包含在V_H或V_L中具有至少70％的人序列的人源化抗体序列。

43.权利要求39的方法，其中所述多个FR试验蛋白质序列包含人种系抗体序列。

44.权利要求39的方法，其中所述多个CDR试验蛋白质序列中的至少一个不同于所述多个FR试验蛋白质序列。

45.权利要求39的方法，其中所述多个CDR试验蛋白质序列是人或非人抗体序列和所述多个FR试验蛋白质序列是人抗体序列。

46.权利要求39的方法，其另外包含以下步骤：

47.权利要求39的方法，其另外包含以下步骤：

构建CDR选中文库的氨基酸位置变体图谱；

48.一种构建文库抗体序列的方法，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)的可变区的氨基酸序列；

鉴定前导抗体的FR中的氨基酸序列；

选择前导抗体V_H或V_L区中的FR中至少一个；

将第一个前导FR序列与多个FR试验蛋白质序列比较；和

49.权利要求48的方法，其另外包含以下步骤：

将第二FR前导序列与多个FR试验蛋白质序列比较；和

合并第一FR选中文库和第二FR选中文库以形成选中文库。

50.权利要求48的方法，其中所述前导FR序列包含所选FR中的至少5个连续氨基酸残基，所选FR选自由前导抗体的V_HFR1，V_HFR2，V_HFR3，V_HFR4，V_LFR1，V_LFR2，V_LFR3和V_LFR4组成的组。

51.权利要求48的方法，其另外包含以下步骤：

52.权利要求48的方法，其中所述多个FR试验蛋白质序列包含缺失CDR的抗体序列。

53.权利要求48的方法，其中所述多个FR试验蛋白质序列包含缺失CDR的人抗体序列。

54.一种基于前导序列图谱构建抗体序列文库的方法，该方法包含以下步骤：

提供前导抗体重链(V_H)或轻链(V_L)的可变区的氨基酸序列；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

提供所述前导序列的三维结构；

基于前导序列的结构构建前导序列图谱；

将前导序列图谱与多个试验蛋白质序列比较；和

55.权利要求54的方法，其中所述前导序列的三维结构是衍生于X-晶体学，核磁共振(NMR)波谱学或理论结构模拟的结构。

56.权利要求54的方法，其中所述构建前导序列图谱的步骤包含以下步骤：

将前导序列的结构与多个试验蛋白质片段的结构比较；

测定前导序列和试验蛋白质片段的主链构象的均方根差；

选择主链构象的均方根差小于5的试验蛋白质片段；和

57.权利要求56的方法，其中所述主链构象的均方根差小于4。

58.权利要求56的方法，其中所述主链构象的均方根差小于2。

59.权利要求54的方法，其中所述构建前导序列图谱的步骤包含以下步骤：

比较前导序列的结构和多个试验蛋白质片段的结构；

测定前导序列和试验蛋白质片段的主链构象的Z-分数；

60.权利要求54的方法，其中所述构建前导序列图谱的步骤通过选自由CE，MAPS，蒙特卡罗和3D聚类算法组成的组的算法实现。

61.权利要求54的方法，其另外包含以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸文库。

62.权利要求54的方法，其另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

63.一种基于前导抗体的构建突变抗体文库的计算机实现的方法，该方法包含以下步骤：

将包含前导抗体CDR区域中至少3个连续氨基酸残基的氨基酸序列作为输入，该氨基酸序列为前导序列；

产生作为输出的形成选中文库的所选肽片段。

64.一种计算机可读介质，其包括基于前导抗体构建突变抗体文库的逻辑，所述逻辑包含：

将前导序列与多个试验蛋白质序列比较；

产生作为输出的形成选中文库的所选肽片段。

65.一种基于前导抗体的结构来构建抗体文库的方法，该方法包含：

提供前导抗体的重链(V_H)或轻链(V_L)可变区的氨基酸序列，前导抗体具有定义为前导结构模板的已知的三维结构；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

将前导序列与多个试验蛋白质序列比较；

使用得分函数，确定选中文库的成员是否在结构上与前导结构模板相容；和

选择分数等于或好于前导序列的选中文库成员。

66.权利要求65的方法，其中所述前导序列的长度为5-100aa。

67.权利要求65的方法，其中所述前导序列的长度为6-80aa。

68.权利要求65的方法，其中所述前导序列的长度为8-50aa。

69.权利要求65的方法，其中通过使用Kabat标准或Chothia标准进行所述鉴定CDR中的氨基酸序列的步骤。

70.权利要求65的方法，其中所述前导序列包含来自前导抗体V_H或V_L内的区域的氨基酸序列，所述区域选自由CDR1，CDR2，CDR3，FR1-CDR1，CDR1-FR2，FR2-CDR2，CDR2-FR3，FR3-CDR3，CDR3-FR4，FR1-CDR1-FR2，FR2-CDR2-FR3，和FR3-CDR3-FR4组成的组。

71.权利要求65的方法，其中所述前导序列包含所选CDR中至少6个连续的氨基酸残基。

72.权利要求65的方法，其中所述前导序列包含所选CDR中至少7个连续的氨基酸残基。

73.权利要求65的方法，其中所述前导序列包含所选CDR中的所有氨基酸残基。

74.权利要求65的方法，其中所述前导序列另外包含至少一个紧邻所选CDR的氨基酸残基。

75.权利要求65的方法，其中所述前导序列另外包含至少一个侧邻所选CDR的FR中的氨基酸残基。

76.权利要求65的方法，其中所述前导序列另外包含邻近所选CDR的C-末端或N-末端的一个或多个CDR或FR。

77.权利要求65的方法，其中所述多个试验蛋白质序列包含抗体序列。

78.权利要求65的方法，其中所述多个试验蛋白质序列包含人抗体序列。

79.权利要求65的方法，其中所述多个试验蛋白质序列包含在V_H或V_L中具有至少70％的人序列的人源化抗体序列。

80.权利要求65的方法，其中所述多个试验蛋白质序列包含人种系抗体序列。

81.权利要求65的方法，其中从数据库中检索所述多个试验蛋白质序列，所述数据库由NIH的genbank、Swiss-Prot数据库和抗体CDR的Kabat数据库组成。

82.权利要求65的方法，其中比较前导序列与多个试验蛋白质序列的步骤是通过选自由BLAST、PSI-BLAST、图谱HMM和COBLATH组成的组的算法实现。

83.权利要求65的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少25％。

84.权利要求65的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少35％。

85.权利要求65的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少45％。

86.权利要求65的方法，其中所述得分函数是能量得分函数，所述能量得分函数选自由静电相互作用，范德瓦耳斯相互作用，静电溶剂化能，溶剂可及表面溶剂化能，和构象熵组成的组。

87.权利要求65的方法，其中所述得分函数是结合力场的得分函数，所述力场选自由Amber力场，Charmm力场，Discover cvff力场，ECEPP力场，GROMOS力场，OPLS力场，MMFF94力场，Tripos力场，MM3力场，Dreiding力场，和UNRES力场组成的组。

88.权利要求65的方法，其中所述选择选中文库成员的步骤包括选择比基于以下公式计算的前导序列总能量低或与其相等的选中文库的成员：

ΔE_总＝E_vdw+E_键+E_angel+E_静电+E_溶剂化。

89.权利要求65的方法，其中所述选择选中文库成员的步骤包括选择具有比前导序列结合自由能低的选中文库的成员，使用改进的得分函数，所述结合自由能计算为结合和未结合状态之间的差，

ΔG_b＝ΔG_MM+ΔG_sol-TΔS_ss

其中

ΔG_MM＝ΔG_ele+ΔG_vdw(1)

ΔG_sol＝ΔG_ele-sol+ΔG_ASA(2)。

90.权利要求65的方法，其中所述前导结构模板是完全组装的前导抗体的3D结构。

91.权利要求65的方法，其中所述前导结构模板是前导抗体的V_H或V_L的3D结构。

92.权利要求65的方法，其中所述前导结构模板是前导抗体的CDR或FR的3D结构，或其组合。

93.权利要求65的方法，其中所述前导结构模板是衍生于X-晶体学、核磁共振(NMR)波谱学或理论结构模拟的结构。

94.权利要求65的方法，其另外包含以下步骤：

95.权利要求65的方法，其另外包含下列步骤：

构建所述选中文库的氨基酸位置变体图谱；

96.权利要求95的方法，其中所述遗传密码子是优选用于细菌表达的遗传密码子。

97.权利要求95的方法，其中选择所述遗传密码子使得DNA片段的简并核酸文库的多样性低于1×10⁷。

98.权利要求95的方法，其中选择所述遗传密码子使得DNA片段的简并核酸文库的多样性低于1×10⁶。

99.权利要求95的方法，其另外包含以下步骤：

将所述简并核酸文库中的DNA片段导入宿主生物的细胞中；

在宿主细胞中表达DNA片段使得在宿主生物的细胞中生产含有由所述简并核酸文库编码的选中文库氨基酸序列的重组抗体；和

选择以高于10⁶M^-1的亲和力结合靶抗原的重组抗体。

100.权利要求99的方法，其中所选重组抗体的亲和力高于10⁸M^-1。

101.权利要求99的方法，其中所选重组抗体的亲和力高于10⁹M^-1。

102.权利要求99的方法，其中所述宿主生物选自由细菌，酵母，植物，昆虫和哺乳动物组成的组。

103.权利要求99的方法，其中所述重组抗体选自由完全组装的抗体，Fab片段，Fv片段，和单链抗体组成的组。

104.权利要求99的方法，其中所述重组抗体在噬菌体颗粒的表面上展示。

105.权利要求104的方法，其中展示在噬菌体颗粒表面上的重组抗体是V_H和V_L之间形成的双链杂二聚体。

106.权利要求105的方法，其中通过分别与V_H和V_L链融合的两条非抗体多肽链之间形成的杂二聚体促进V_H和V_L链的杂二聚化。

107.权利要求106的方法，其中所述非抗体多肽链分别来源于杂二聚受体GABA_BR1(GR1)和R2(GR2)。

108.权利要求104的方法，其中展示在噬菌体颗粒表面上的重组抗体是含有通过肽接头连接的V_H和V_L的单链抗体。

109.权利要求108的方法，其中通过所述单链抗体与GR1的融合物和噬菌体pIII衣壳蛋白与GR2的融合物之间形成的杂二聚体促进噬菌体颗粒表面上单链抗体的展示。

110.权利要求99的方法，其中所述靶抗原选自由小有机分子，蛋白质，肽，核酸，和多糖组成的组。

111.一种构建抗体序列文库的方法，该方法包含以下步骤：

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

将前导序列与多个试验蛋白质序列比较；

选择分数等于或好于前导序列的选中变体文库成员。

112.权利要求111的方法，其中所述组合选中文库中氨基酸变体的步骤包括选择出现频率高4倍的氨基酸变体的步骤。

113.权利要求111的方法，其中所述组合选中文库中氨基酸变体的步骤包括选择出现频率高6倍的氨基酸变体的步骤。

114.权利要求111的方法，其中所述组合选中文库中氨基酸变体的步骤包括选择在每个位置上的全部变体中出现频率高于5％的氨基酸变体的步骤。

115.权利要求111的方法，其中所述组合选中文库中氨基酸变体的步骤包含以下步骤：

选择在每个位置上的全部变体中出现频率高于10％的氨基酸变体；和

组合选中文库中的所选氨基酸变体以产生形成选中变体文库的选中变体组合。

116.权利要求111的方法，其中所述组合选中文库中氨基酸变体的步骤包含以下步骤：

选择在每个位置上的全部变体中出现频率高于5％的氨基酸变体；

如果在每个位置上的全部变体中其出现频率等于或低于5％，选择所述前导序列的氨基酸；和

117.权利要求111的方法，其中所述得分函数是能量得分函数，所述能量得分函数选自由静电相互作用，范德瓦耳斯相互作用，静电溶剂化能，溶剂可及表面溶剂化能，和构象熵组成的组。

118.权利要求111的方法，其中所述得分函数是结合力场的得分函数，所述力场选自由Amber力场，Charmm力场，Discover cvff力场，ECEPP力场，GROMOS力场，OPLS力场，MMFF94力场，Tripos力场，MM3力场，Dreiding力场，和UNRES力场组成的组。

119.权利要求111的方法，其另外包含以下步骤：

120.权利要求111的方法，其另外包含以下步骤：

将选中变体文库所选成员划分成至少两个选中变体子文库；

选择选中变体子文库；

构建所选选中变体子文库的氨基酸位置变体图谱；

121.权利要求120的方法，其中所述划分选中变体文库的步骤包含以下步骤：

122.权利要求120的方法，其中所述划分选中变体文库的步骤包括以下步骤：

构建选中变体文库的氨基酸位置变体图谱，产生选中变体图谱；和

通过使用4.5-8的距离截止值，基于前导结构模板的Cα，Cβ或重原子的接触图谱，将选中变体图谱划分成子变体图谱的片段。

123.权利要求120的方法，其中所述划分选中变体文库的步骤包括以下步骤：

通过使用6-8的距离截止值，基于前导结构模板的Cα，Cβ或重原子的接触图谱，将选中变体图谱划分成子变体图谱的片段。

124.一种基于多个抗体的结构集合构建抗体文库的方法，该方法包含以下步骤：

通过组合前导抗体和一个或多个抗体的结构形成结构集合，将结构集合定义为前导结构模板；

鉴定前导抗体的CDR中的氨基酸序列；

选择前导抗体V_H或V_L区中的CDR之一；

将前导序列与多个试验蛋白质序列比较；

选择分数等于或好于前导序列的选中变体文库成员。

125.一种基于前导抗体的结构来构建抗体文库的方法，该方法包含以下步骤：

b)鉴定前导抗体的CDR中的氨基酸序列；

c)选择前导抗体V_H或V_L区中的CDR之一；

d)提供包含所选CDR中至少3个连续氨基酸残基的氨基酸序列，所选氨基酸序列被定义为前导序列；

e)将前导序列与多个试验蛋白质序列比较；

j)选择分数等于或好于前导序列的选中变体文库成员；

l)测定核酸文库的多样性，如果多样性高于1×10⁶，重复步骤j)至l)直至核酸文库的多样性的多样性等于或低于1×10⁶；

m)将简并核酸文库中的DNA片段导入宿主生物体细胞；

o)选择以高于10⁶M^-1的亲和力结合靶抗原的重组抗体；和

126.一种基于前导抗体的结构来构建抗体文库的方法，该方法包含以下步骤：

a)提供前导抗体的重链(V_H)或轻链(V_L)可变区的氨基酸序列，前导抗体具有定义为前导结构模板的已知的三维结构；

b)鉴定前导抗体的CDR中的氨基酸序列；

c)选择前导抗体V_H或V_L区中的CDR之一；

f)使用第一个得分函数确定前导序列突变文库的成员是否与前导结构模板在结构上相容；

g)选择分数等于或好于前导序列的前导序列突变体；

h)将前导序列与多个试验蛋白质序列比较；

k)组合选中文库中的氨基酸变体以产生选中变体的组合；

n)选择分数等于或好于前导序列的选中变体文库成员；

p)测定核酸文库的多样性，如果多样性高于1×10⁶，重复步骤n)至p)直至核酸文库的多样性的多样性等于或低于1×10⁶；

q)将简并核酸文库中的DNA片段导入宿主生物体细胞；

s)选择以高于10⁶M^-1的亲和力结合靶抗原的重组抗体；和

127.一种构建设计的蛋白质的文库的方法，其包含以下步骤：

提供来源于前导蛋白质的氨基酸序列，该氨基酸序列被称为前导序列；

比较前导序列和多个试验蛋白质序列；和

从多个试验蛋白质序列中选择至少两个与前导序列具有至少15％序列同一性的肽片段，所选肽片段形成选中文库；和

通过用选中文库替代前导序列形成设计的蛋白质的文库。

128.权利要求127的方法，其中所述前导序列的长度为5-100aa。

129.权利要求127的方法，其中所述前导序列的长度为6-80aa。

130.权利要求127的方法，其中所述前导序列的长度为8-50aa。

131.权利要求127的方法，其中所述前导蛋白质是一类选自由酶受体、细胞因子、肿瘤抑制剂、趋化因子、抗体和生长因子的蛋白质组成的组。

132.权利要求127的方法，其中所述多个试验蛋白质序列包含人蛋白质序列。

133.权利要求127的方法，其中所述多个试验蛋白质序列包含每个具有至少70％的人序列的人源化蛋白质序列。

134.权利要求127的方法，其中从Genbank或Swiss-Prot数据库中的蛋白质数据库中检索所述多个试验蛋白质序列。

135.权利要求127的方法，其中比较前导序列与多个试验蛋白质序列的步骤是通过选自由BLAST，PSI-BLAST，图谱HMM和COBLATH组成的组的算法实现。

136.权利要求127的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少25％。

137.权利要求127的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少35％。

138.权利要求127的方法，其中所述选中文库中的所选肽片段与所述前导序列的序列同一性是至少45％。

139.权利要求127的方法，其另外包含以下步骤：

从设计的蛋白质的文库中选择具有期望功能的蛋白质。

140.权利要求139的方法，其中所述期望功能是前导蛋白质改善的生物学功能。

141.权利要求140的方法，其中所述改善的生物学功能选自由增强的稳定性，增强的酶促活性，增强的与前导序列的同源配体的结合亲和力，和在预定生物体中增强的表达组成的组。

142.权利要求127的方法，其另外包含以下步骤：

构建包含编码选中文库氨基酸序列的DNA片段的核酸文库。

143.权利要求127的方法，其另外包含以下步骤：

构建选中文库的氨基酸位置变体图谱；

组合选中文库中的氨基酸变体以产生形成选中变体文库的选中变体组合；和

从所述选中变体文库中选择具有期望功能的蛋白质。

144.权利要求143的方法，其另外包含以下步骤：

通过使用得分函数确定所述选中变体文库的成员是否在结构上与前导序列或前导蛋白质的三维结构相容；和

选择得分等于或好于前导序列或前导蛋白质的成员。

145.权利要求144的方法，其中所述前导序列或前导蛋白质的三维结构是衍生于X-晶体学、核磁共振(NMR)波谱学或理论结构模拟的结构。

146.权利要求144的方法，其中所述得分函数是能量得分函数，所述能量得分函数选自由静电相互作用，范德瓦耳斯相互作用，静电溶剂化能，溶剂可及表面溶剂化能，和构象熵组成的组。

147.权利要求127的方法，其中所述得分函数是结合力场的得分函数，所述力场选自由Amber力场，Charmm力场，Discover cvff力场，ECEPP力场，GROMOS力场，OPLS力场，MMFF94力场，Tripos力场，MM3力场，Dreiding力场，和UNRES力场组成的组。

148.权利要求143的方法，其中所述选择成员的步骤包括选择比基于以下公式计算的前导序列或前导蛋白质总能量低或与其相等的成员：

ΔE_总＝E_vdw+E_键+E_angel+E_静电+E_溶剂化。

149.权利要求143的方法，其中所述选择成员的步骤包括选择具有比前导序列或前导蛋白质结合自由能低的成员，使用改进的得分函数，所述结合自由能计算为结合和未结合状态之间的差，

ΔG_b＝ΔG_MM+ΔG_sol-TΔS_ss

其中

ΔG_MM＝ΔG_ele+ΔG_vdw(1)

ΔG_sol＝ΔG_ele-sol+ΔG_ASA(2)。

150.权利要求127的方法，其另外包含以下步骤：

构建包含编码设计的蛋白质文库的氨基酸序列的DNA片段的核酸文库；

表达核酸文库以产生重组蛋白质文库；和

从重组蛋白质文库中选择具有期望功能的蛋白质。

151.权利要求127的方法，其另外包含以下步骤：

构建所述选中文库的氨基酸位置变体图谱；

通过将氨基酸位置变体反翻译成它们相应的遗传密码子，将所述选中文库的氨基酸位置变体图谱转变成核酸位置变体图谱；

通过以组合的方式组合所述核酸位置变体构建DNA片段的简并核酸文库；

表达所述简并核酸文库以产生重组蛋白质文库；和

从重组蛋白质文库中选择具有期望功能的蛋白质。

152.一种针对人血管内皮生长因子(VEGF)的抗体，其中所述抗体与VEGF的结合亲和力高于10⁶M^-1，单克隆抗体的重链CDR3包含选自由SEQ ID No：36-48或63-125组成的组的氨基酸序列。

153.权利要求152的抗体，其中所述抗体的重链CDR1包含选自由SEQ ID No：19-30组成的组的氨基酸序列。

154.权利要求152的抗体，其中所述单克隆抗体的重链CDR2包含选自SEQ ID No：31-35的氨基酸序列。

155.权利要求152的抗体，其中所述抗体是单克隆抗体，Fab，Fv，或单链抗体。

156.一种针对人血管内皮生长因子(VEGF)的抗体，其中所述抗体与VEGF的结合亲和力高于10⁶M^-1，所述抗体的重链可变区(V_H)包含选自由SEQ ID No：126，128，129，130，和131组成的组的氨基酸序列，所述抗体的轻链可变区(V_L)包含SEQ ID No：127的氨基酸序列。