CN102099809B

CN102099809B - 识别蛋白质中大分子结合区域和易聚集区域的方法及其用途

Info

Publication number: CN102099809B
Application number: CN200980128287.3A
Authority: CN
Inventors: N·陈纳姆塞蒂; B·海尔克; B·垂奥特; V·卡瑟尔; V·沃诺夫
Original assignee: Novartis AG; Massachusetts Institute of Technology
Current assignee: Novartis AG; Massachusetts Institute of Technology
Priority date: 2008-06-20
Filing date: 2009-06-19
Publication date: 2014-05-07
Anticipated expiration: 2029-06-19
Also published as: ES2417781T3; US9922164B2; RU2571217C2; CN102099809A; US20110257104A1; JP5694150B2; AU2009259906A1; EP2310970B1; KR101854724B1; AU2009259906B2; PL2310970T3; CA2727936C; KR20110052580A; RU2011101997A; JP2011526382A; MX2010014062A; EP2310970A1; CA2727936A1; BRPI0915414A2; US20160364521A1

Abstract

本发明提供至少部分基于计算机模拟的方法和计算工具，其识别蛋白质的大分子结合区域和易聚集区域。然后可在这些易聚集区域进行替代以设计具有增强的稳定性和/或降低的聚集倾向的蛋白质。相似地，然后可在这些大分子结合区域进行替代以设计具有改变的对大分子的结合亲合力的蛋白质。

Description

识别蛋白质中大分子结合区域和易聚集区域的方法及其用途

发明背景

了解和控制蛋白质稳定性已成为生物学家、化学家和工程师渴望的努力。氨基酸取代和疾病之间的第一个联系(Ingram.Nature.1957，180(4581)：326-8.)提供了健康和疾病中对蛋白质稳定性的新的和重要的看法。基于蛋白质的药物的近来巨大增长已产生了新的挑战。将治疗用蛋白质在非常高的浓度下以液体贮藏几个月。非单体种类的百分比随着时间增加。随着聚集体形成，不但产品的效能降低，而且副作用诸如对给药的免疫应答可发生。保证蛋白质药物的稳定性对于产品的贮存期限是必要的。

由于抗体在各种疾病治疗中的潜能，抗体目前构成人类治疗学中增长最快速的种类(Carter.Nature Reviews Immunology.2006，6(5)，343)。自从2001年，抗体市场一直在以35％的平均年增长率——所有种类生物技术药物之中最高的速率——增长(S.Aggarwal，Nature.BioTech.2007，25(10)1097)。

如疾病治疗所需要的，治疗用抗体以高浓度在水溶液中制备和贮藏。然而，这些抗体在这些条件下在热力学上是不稳定的，并由于聚集而降解。这种聚集进而导致抗体活性的降低，使药物无效，甚至能产生免疫应答。像这样，存在迫切的需要来开发这些抗体，实际上一般而言是蛋白质，如何聚集的机制了解，以发现蛋白质的什么区域参与聚集和发展阻止聚集的策略。

这些作用对抗体治疗学特别重要。抗体稳定的一个方法是将授予抗原结合特异性的CDR环移植到更稳定的框架上(Ewert，Honegger，and Pluckthun，Biochemistry.2003，42(6)：1517-28.)。只有在CDR环中的氨基酸序列不是驱动聚集力的情况下，以及在将CDR环移植到更稳定的框架不改变抗原结合特异性的情况下，该方法才起作用。

可将与预测蛋白质易聚集区域相关的技术分成两类，1)唯象模型(Phenomenological models)和2)分子模拟技术。唯象模型主要是基于使用性质诸如疏水性、β-折叠倾向等预测来自蛋白质一级序列的聚集‘热点’，而分子模拟技术使用蛋白质的三维结构和动力学来定位易聚集区域。这些技术中的大部分已指向了解淀粉样蛋白原纤维形成和其它小蛋白的聚集，其中β-折叠形成是主要的。

已基于理化性质诸如疏水性、β-折叠倾向等发展了唯象模型以预测来自蛋白质一级序列的易聚集区域(Caflisch，Current Opinion in Chemical Biology.2006，10，437-444；Chiti and Dobson.Annu.Rev.Biochem.2006，75：333-366)。一个最初的唯象模型是基于小的球状蛋白质‘人肌肉酰基磷酸酶(AcP)’连同其它的非结构化肽(unstructured peptides)和天然未折叠的蛋白质的聚集的动力学突变研究(Chiti，etal.Nature.2003，424p.805-808；U.S.Pat.No.7379824]。该研究显示聚集与理化性质诸如β-折叠倾向、疏水性和电荷之间的简单关联。这些研究是在蛋白质主要是非结构化的条件下进行的。因此发展了将序列与聚集倾向联系的三参数经验模型(Chiti，et al.Nature.2003，424，805-808)。该模型还用于提示32个残基的肽类激素降钙素的变体以降低其聚集倾向(Fowler，et al.Proc Natl Acad Sci USA.2005，102，10105-10110.)。DuBay和同事已将三参数方程(Chiti，et al.Nature.2003，424，805-808)扩展到包括多肽链的内在性质和与环境相关的外在因素诸如肽浓度、溶液的pH值和离子强度的七参数公式(Dubay，et al.J Mol Biol.2004，341，1317-1326)。使用该模型，他们能再现宽范围的非结构化肽和蛋白质的体外聚集率。然而，该七参数模型的主要限制是给予序列中的所有残基相同的相对重要性。这与实验和模拟观察结果不一致，实验和模拟观察结果显示根据它们的二级结构倾向，某些区域较其它区域更重要。最近，将该分析进一步扩展，包括保护因子以描述结构化多肽链的聚集(Tartaglia，G.G.，Pawar，A.P.，Campioni，S，Dobson，C.M.，Chiti，F.，and Vendruscolo，M.J Mol Biol(2008)in press)。预测的位点中的一些与蛋白质诸如溶菌酶、肌红蛋白等的已知易聚集位点一致。发展了无自由参数的唯象模型(Tartaglia，et al.Protein Sci.2004，13，1939-1941；Tartaglia et al.ProteinSci.2005，14，2723-2734)以预测突变后聚集原纤维的延伸率的变化和识别易聚集区段。使用的理化性质是突变后β倾向的变化、芳香族残基数目的变化和总电荷的变化。此外，如果野生型和突变侧链都是极性的或都是非极性的，考虑可及表面区域的比率，而在非极性到极性(或极性到非极性)突变的情况下使用极性侧链的偶极矩。该模型再现了一组26个七肽序列的相对聚集倾向，预测其偏爱全符合状态(in-register)平行β-折叠排列。

已改进了DuBay和同事的模型(Dubay et al.J Mol Biol.2004，341，1317-1326)，其中包含α-螺旋倾向和疏水图案，和比较给定的氨基酸序列的聚集倾向得分与为一组相似长度的序列计算的平均倾向(Pawar，et al.，J Mol Biol.2005，350，379-392)。已在三个天然未折叠的多肽链：Aβ42、α突触核蛋白和tau蛋白的易聚集区段上验证了该模型。

发展了另一个称作TANGO的算法(Fernandez-Escamilla，et al.，Nat Biotechnol.2004，22，1302-1306)，其平衡相同的理化参数，附带有氨基酸以聚集的状态被完全埋入的假设。这是基于二级结构倾向和去溶剂化处罚的估计以预测蛋白序列的β聚集区域以及突变作用。与较早讨论的模型相反，通过使用FOLD-X力场，TANGO考虑了天然状态稳定性。尽管，不可能用TANGO计算绝对聚集率，但是它提供了序列显著不同的肽或蛋白质之间的定性比较。Serrano和同事(Linding，et al.，J MolBiol.2004，342，345-353)已使用TANGO分析一组具有40％序列同一性上限的非冗余球状蛋白质的β聚集倾向。

最近，通过为在β-折叠内互相面对的残基编辑配对能量函数而引入了另外的算法，淀粉样蛋白结构聚集的预测(Prediction of Amyloid StrucTure Aggregation)(PASTA)(Trovato，et al.，Protein Engineering，Design&Selection.2007，20(10)，521-523；Trovato，et al.，PLoS Comput.Biol.2006，2，1608-1618；Trovato et al.，J.Phys.：Condens.Matter.200719，285221)。以三级接触的数目为条件，Yoon和Welsh(Yoonand Welsh，Protein Sci.2004，13：2149-2160)已发展了用于检测蛋白区段β聚集倾向的基于结构的方法。使用滑动的七残基窗，提示在紧密包装的环境中具有强β-折叠倾向的区段(即具有大量的三级接触)为原纤维形成的局部介质。

虽然上面描述的唯象模型显示对小肽和变性蛋白进行良好，但是聚集倾向对球状蛋白质诸如抗体可不同，其中天然状态的三级结构和稳定性是非常重要的。

用于预测易聚集区域和研究聚集机制的分子模拟技术已大部分利用较简单的模拟模型(Ma and Nussinov.Curr.Opin.Chem.Biol.2006，10，445-452；Cellmer，et al.，TRENDS in Biotechnology 2007，25(6)，254)。利用的模拟模型中最不详细的是点阵模型，其中将每个残基表示为占据三维点阵上单一位点的珠子。更详细的模型，诸如中间体分辨率模型随之产生但遭受相同的不能准确地代表蛋白质二级和三级结构。

与较简单的模型不同，原子论模型包括所有的原子论细节诸如氢键合，并因此较点阵或中间体分辨率模型更准确。这样的原子论模型已与显式溶剂或隐式溶剂一起使用，其中将溶剂处理为连续体。显式模型更准确但在计算上也要求多。后来发展了分子动力学模拟方案以获得关于淀粉样多肽(amyloidogenicpolypeptide)的有序β聚集的结构信息(Cecchini et al.，J Mol Biol.2006，357，1306-1321.)。然而，因为这样的程序在计算上要求非常多，尤其对于大蛋白诸如抗体，其看起来不是文献中全部抗体原子论模拟。虽然如此，已有小部分抗体的原子论模拟，大部分是针对Fab片段(Noon，et al.，，PNAS.2002，99，6466；Sinha andSmith-Gill，Cell Biochemistry and Biophysics.2005，43，253)。

用于阻止抗体聚集的许多现存的方法利用蛋白制剂中的添加剂的使用。这与本文描述的直接方法不同，在该直接方法中抗体本身基于从分子模拟预测的易聚集区域被修饰。在抗体稳定中通常使用的添加剂是含氮碱基的盐诸如精氨酸、胍或咪唑(EP0025275)。用于稳定的其它合适的添加剂是聚醚(EPA0018609)、甘油、白蛋白和硫酸葡聚糖(美国专利号4808705)、去垢剂和表面活性剂诸如基于聚山梨酯80的表面活性剂(公布文本DA2652636和公布文本GB2175906(英国专利申请号GB8514349))、蛋白伴侣诸如GroEL(Mendoza，Biotechnol.Tech.1991，(10)535-540)、柠檬酸盐缓冲剂(WO9322335)或螯合剂(WO9115509)。尽管这些添加剂在一定程度上使蛋白在溶液中变得稳定，但是它们遭受到某些缺点诸如用于添加剂去除的另外处理的必要性。因此，需要新方法来了解涉及蛋白聚集的机制和识别介导该现象的蛋白区域。这样的方法在许多诊断和治疗区域将是有用的，并将允许蛋白组合物，诸如抗体治疗，成为直接稳定的，不需要添加剂的使用。

发明概述

本发明提供至少部分基于计算机模拟的方法和计算工具，其识别蛋白质的易聚集区域。然后可在这些易聚集区域进行替代以设计具有增强的稳定性和/或降低的聚集倾向的蛋白。

此外，本发明提供至少部分基于计算机模拟的方法和计算工具，其识别蛋白质的大分子结合区域。然后可在这些大分子结合区域进行替代和缺失以设计具有改变的对大分子的结合亲合力的蛋白。

一方面，本发明提供针对蛋白质中的特定原子计算空间聚集倾向(Spatial-Aggregation-Propensity)(SAP)的方法，包括(a)识别代表蛋白质的结构模型中的一个或多个原子，其中一个或多个原子位于集中于特定原子上或其附近的限定空间区域内；(b)针对限定空间区域中的一个或多个原子，计算原子的溶剂可及面积(SAA)与完全暴露的同一残基中的原子的SAA的比；(c)用一个或多个原子的原子疏水性乘以每个比；和(d)合计步骤(c)的乘积；借此该和是针对特定原子的SAP。

在相关的实施方式中，针对蛋白质中的特定原子计算空间聚集倾向(SAP)的方法包括(a)识别代表蛋白质的结构模型中的一个或多个氨基酸残基，其中一个或多个氨基酸残基具有集中于特定原子上或其附近的限定空间区域内的至少一个原子；(b)针对限定空间区域中的原子，计算原子的溶剂可及面积(SAA)与完全暴露的同一残基中的原子的SAA的比；(c)用如通过氨基酸疏水性标度所测定的一个或多个氨基酸残基的疏水性乘以每个比；和(d)合计步骤(c)的乘积；借此该和是针对特定原子的SAP。

应当理解在特定的实施方式中，限定的空间区域是任何3维体积或区域。在具体的实施方式中，限定的空间区域选自球体、立方体、圆柱体、锥体和椭圆的球状体。在一些实施方式中，限定的空间区域是具有与具有

之间或更大半径的球体相等的体积的区域。在一些实施方式中，该半径可以是

或更大。在一些优选实施方式中限定的空间区域的半径是或

在优选实施方式中，限定的空间区域是具有

半径的球体。在一些实施方式中将该球体集中在特定的原子上，而在其它的实施方式中，将限定的空间区域或球体集中在化学键中或集中在空间上接近将在其上计算SAP的原子的点上。

在一些实施方式将限定的空间区域集中在空间上距特定原子

内的点上，或在一些优选实施方式中将限定的空间区域集中在空间上距特定原子

内、

内、

内、

内的点上。

在一些实施方式中，限定的空间区域内的一个或多个原子是一个或多个氨基酸的侧链中的原子。

在另外的实施方式中，结构模型中选择的半径内的一个或多个原子可以位于或需要位于一个或多个氨基酸的侧链中。可选地，结构模型中选择的半径内的一个或多个原子可以是或需要是一个或多个氨基酸的主链原子。

在一些实施方式中，可只在氨基酸侧链的原子上计算溶剂可及面积(SolventAccessibleArea)(SAA)，其是SAP计算的部分，或在一些实施方式中只在主链原子上。主链原子可包括或可不包括附着的氢原子。

在一些特别优选的实施方式中，在SAP的计算之前，例如通过进行分子动力学模拟处理蛋白质结构模型，该模拟任选地包括溶剂。该溶剂可以是水、本领域已知的另一溶剂，或可缺少该溶剂。在一些特别优选的实施方式中，在SAP的计算之前，例如通过进行Monte Carlo模拟处理蛋白质结构模型。

在另一个方面，SAP的计算可进一步包括进行分子动力学模拟和求SAP值的平均数，该值是通过分子动力学模拟中的多个时间步骤计算的。例如可通过在上面的步骤(a)之前进行分子动力学模拟和重复步骤(a)-(d)，每次以许多时间步骤进行进一步的分子动力学模拟，由此产生如步骤(d)中的多个和，和计算这些和的平均数来计算针对特定原子的SAP；借此该计算的平均数是针对特定原子的SAP。在其它的实施例中，Monte Carlo模拟可替代分子动力学模拟使用或与分子动力学模拟组合使用。

在另外的实施方式中，可合计多个氨基酸的SAP得分，例如在蛋白结构模型上的易聚集区域或表面补丁中的1和50个氨基酸之间进行合计。在特别优选的实施方式中，合计1-20个氨基酸、1-15个氨基酸、1-10个氨基酸、1-5个氨基酸、1-3个氨基酸的SAP，或可合计跨2个相邻氨基酸的SAP。在一些实施方式中，可合计相邻氨基酸，其可沿着蛋白质序列连续地相邻或在蛋白质结构中空间地相邻。

在这些方法需要分子动力学模拟的时候，可使用选自包括ABINIT、AMBER、Ascalaph、CASTEP、CPMD、CHARMM、DL_POLY、FIREBALL、GROMACS、GROMOS、LAMMPS、MDynaMix、MOLDY、MOSCITO、NAMD、Newton-X、ProtoMol、PWscf、SIESTA、VASP、TINKER、YASARA、ORAC和XMD的集合或由它们构成的集合的模拟程序包进行模拟。在特别优选的实施方式中，模拟程序包是CHARMM模拟程序包。在其它的优选实施方式中，模拟程序包是NAMD模拟程序包。

在这些方法需要针对侧链、残基或蛋白质内的一个或多个原子进行计算(例如，针对一个或多个原子计算SAA)的时候，熟练的技术人员应当理解计算可针对空间区域、侧链、残基、蛋白质等中的原子、原子对、原子的组合或组、原子的部分，或针对空间区域、侧链、残基、蛋白质等中的每个原子或所有原子。当进行以本发明的方法学为特征的计算时，熟练的技术人员还应当理解也能针对包括原子、原子组等的氨基酸残基、侧链等进行计算(例如SAA计算)。

在另外的优选实施方式中，结构模型是蛋白质或其部分的X射线晶体结构模型；或结构模型可以是蛋白质或其部分的理论蛋白结构模型。在相关的实施方式中，理论结构模型是蛋白质或其部分的同源模型。在其它的实施方式中，理论结构模型是蛋白质或其部分的从头开始蛋白结构模型。

在另一个方面，本发明提供识别蛋白上的易聚集区域的方法。在一个实施方式中，识别蛋白上的易聚集区域的方法包括(a)将如根据本文描述的任何方法所计算的针对蛋白质中原子的SAP绘制到结构模型上；和(b)识别具有SAP＞0的许多原子的蛋白质内区域；其中易聚集区域包括包含所述许多原子的氨基酸。在一些实施方式中，该方法可包括识别一个或多个氨基酸，该氨基酸含有一个或多个具有大于所选阈值的SAP的原子，其中根据本文描述的任何方法计算SAP，且其中易聚集区域包括识别的氨基酸。

在另一个实施方式中，识别蛋白上的易聚集区域的方法包括绘制如根据本文描述的任何方法所计算的SAP值，进一步为图中的峰计算曲线下面积(AUC)和识别一个或多个具有正的AUC的蛋白区域，其中易聚集区域包括识别的蛋白区域。

在另一个方面，本发明提供制备显示降低的聚集倾向的蛋白质变体的方法。在一个优选实施方式中，制备显示降低的聚集倾向的蛋白质变体的方法包括替代或缺失蛋白质中易聚集区域内的至少一个氨基酸残基，其中使用根据本文描述的任何方法计算的SAP得分识别易聚集区域；以及其中，如果替代氨基酸残基，则用更亲水的氨基酸残基替代它，这样变体的聚集倾向降低了。在一些特定实施方式中替代至少一个残基并缺失至少一个残基。

在另一个实施方式中，制备显示降低的聚集倾向的蛋白质变体的方法包括(a)在每个变体中通过替代蛋白质中易聚集区域内的至少一个残基而产生许多蛋白质变体，其中使用根据本文描述的任何方法计算的SAP得分识别易聚集区域，其中在每个变体中，将一个或多个不同残基或不同的残基组合进行替代；其中用更亲水的残基替代至少一个残基；和(b)选择如(a)中制备的显示降低的聚集倾向的蛋白质变体。

在一些实施方式中，选择的用于替代的氨基酸是易聚集区域中最疏水的氨基酸(如通过领域公认的疏水性标度所测定的)。在具体的实施方式中，选择的用于替代的氨基酸是Phe、Leu、Ile、Tyr、Trp、Val、Met、Pro、Cys、Ala或Gly。在这样具体的实施方式中，被替代进蛋白质中的更亲水的氨基酸可选自Thr、Ser、Lys、Gln、Asn、His、Glu、Asp和Arg。通常，用于测定哪些残基较其它的更亲水或疏水或更不亲水或疏水的优选疏水性标度是Black和Mould疏水性标度。

在一些实施方式中替代易聚集区域内的至少两个氨基酸残基。在相关的实施方式中替代易聚集区域内的至少三个氨基酸残基。同样，在相似的实施方式中替代蛋白质内超过一个易聚集区域内的至少一个残基。

在优选实施方式中，将本文描述的方法应用于选自抗体、Fab片段、Fab’片段、Fd片段、Fv片段、F(ab′)₂片段和Fc片段的蛋白质。

在其它的优选实施方式中，将本文描述的方法应用于选自细胞因子、趋化因子、脂因子(lipokine)、肌因子(myokine)、神经递质、神经营养蛋白、白细胞介素或干扰素的蛋白。在一些具体实施方式中，蛋白可以是激素或生长因子、受体或受体域、或神经递质或神经营养蛋白。在一些实施方式中蛋白是拟肽(peptidomimetic)、修饰的蛋白、包含非天然氨基酸的蛋白或包含稀有氨基酸的蛋白。

在另一个方面，本发明还提供计算针对蛋白质中氨基酸残基的有效SAA的方法。优选的计算针对蛋白质中氨基酸残基的有效SAA的方法包括(a)针对氨基酸计算氨基酸中原子的溶剂可及面积(SAA)与完全暴露的同一残基中原子的SAA的比；(b)用如通过氨基酸疏水性标度所测定的氨基酸残基的疏水性乘以该比；借此该乘积是氨基酸的有效SAA。此外，可通过进一步包括合计3个氨基酸的有效SAA的方法计算蛋白质中氨基酸残基的有效SAA，或在一些实施方式中2、4、5或6个氨基酸，这些氨基酸在蛋白序列中是相邻的。

在另一个方面，本发明还包括识别蛋白质上的大分子结合区域的方法，包括(a)将如根据先前方面中的任何一个所计算的蛋白质中原子的SAP绘制到蛋白质的结构模型上；和(b)识别具有SAP＞0的许多原子的蛋白质内区域；其中大分子结合区域包括，包含所述许多原子的氨基酸。

在另一个方面，本发明包括识别蛋白质上的大分子结合区域的方法，包括识别一个或多个氨基酸，该氨基酸含有一个或多个具有大于所选阈值的SAP的原子；其中根据先前方面中的任何一个的方法计算SAP，且其中大分子结合区域包括识别的氨基酸。

在另一个方面，本发明包括识别蛋白质上的大分子结合区域的方法，包括绘制如先前方面中的任何一个所计算的SAP值，为图中的峰计算曲线下面积(AUC)和识别一个或多个具有正的AUC的蛋白区域，其中大分子结合区域包括识别的蛋白区域。

在另一个方面，本发明包括制备显示对大分子降低的结合亲和力的蛋白质变体的方法，包括替代或缺失针对蛋白质中大分子的大分子结合区域内的至少一个氨基酸残基，其中使用根据先前方面中的任何一个计算的SAP得分识别大分子结合区域；并且其中，如果替代氨基酸残基，则用更亲水的氨基酸残基替代它，这样降低了变体的大分子结合亲和力。在某些实施方式中替代至少一个残基并缺失至少一个残基。在另一个方面，本发明还包括制备显示对大分子改变的结合亲和力的蛋白质变体的方法，包括(a)在每个变体中通过替代针对蛋白质中大分子的大分子结合区域内的至少一个残基，产生许多蛋白质变体，其中使用根据先前方面中的任何一个所计算的SAP得分识别大分子结合区域，其中在每个变体中，替代一个或不同残基或不同的残基组合；和(b)选择如(a)中所制备的显示对大分子改变的结合亲和力的蛋白质变体。在某些实施方式中，大分子结合区域内的至少一个氨基酸残基是大分子结合区域中的最疏水的残基。在某些实施方式中，易聚集区域内的至少一个氨基酸残基是Phe、Leu、Ile、Tyr、Trp、Val、Met、Pro、Cys、Ala或Gly。在某些实施方式中，更亲水的氨基酸残基选自Thr、Ser、Lys、Gln、Asn、His、Glu、Asp和Arg。在某些实施方式中，更亲水的氨基酸残基是稀有的、非天然的或修饰的氨基酸。在某些实施方式中，根据Black和Mould的疏水性标度测定更亲水的氨基酸残基。在某些实施方式中替代大分子结合区域内的至少两个氨基酸残基。在某些实施方式中替代大分子结合区域内的至少三个氨基酸残基。在某些实施方式中替代蛋白质内超过一个易聚集区域内的至少一个残基。在某些实施方式中，为了识别蛋白质上的易聚集区域，根据先前方面中的任何一个的方法识别易聚集区域。在可与先前的实施方式结合的某些实施方式中，大分子是另一个蛋白、多核苷酸或多糖。在可与先前的实施方式结合的某些实施方式中，蛋白选自抗体、Fab片段、Fab’片段、Fd片段、Fv片段、F(ab′)₂片段和Fc片段。在可与先前的实施方式结合的某些实施方式中，蛋白是细胞因子、趋化因子、脂因子、肌因子、神经递质、神经营养蛋白、白细胞介素或干扰素。在可与先前的实施方式结合的某些实施方式中，蛋白是激素或生长因子。在某些实施方式中，大分子是激素受体或生长因子受体。在某些实施方式中，蛋白是受体或受体域。在某些实施方式中，大分子是受体或受体域的受体激动剂或受体拮抗剂。在可与先前的实施方式结合的某些实施方式中，蛋白是神经递质或神经营养蛋白。在某些实施方式中，大分子是神经递质受体或神经营养蛋白受体。

在另一个方面，本发明还包括制备包含蛋白质变体的药物组合物的方法，该蛋白质变体显示改变的与结合配偶体相互作用的倾向，该方法包括配制根据先前方面中的任何的方法获得的蛋白质变体以及药学上可接受的载体、佐剂和/或赋形剂。

发明详述

本发明解决更深地了解蛋白质聚集的机制和识别参与聚集的蛋白区域的未满足的需要。本发明至少部分提供模拟技术，该技术能同时地与本文描述的实验方法使用以改进潜在地所有抗聚集的治疗用蛋白的稳定性。鉴于基于抗体的治疗正以所有种类的人类治疗中最高的速度增长，该技术显示巨大的科学和商业潜能。聚集是抗体药物开发的大多数阶段遇到的常见问题，阻碍潜在的抗体药物候选物的快速商业化。因此使用本文描述方法的聚集阻止会对蛋白药物开发具有显著的影响。

此外，本发明解决准确地识别参与与其它大分子结合的蛋白区域的未满足的需要，这种结合常常至少部分是通过大的疏水补丁(patch)介导的，使用本文描述的方法能容易地识别这些补丁。本发明至少部分提供模拟技术，该技术能同时地与本文描述的实验方法使用以改变潜在地所有蛋白质-分子相互作用的结合亲和力，该结合亲和力至少部分是通过大的疏水补丁介导的。鉴于基于蛋白的治疗正以所有种类的人类治疗中最高的速度增长，该技术显示巨大的科学和商业潜能。改变针对一个或多个大分子的蛋白治疗的结合亲和力的能力能用于提高效率和降低或除去通过不需要的第二大分子结合区域介导的活性。

本发明另外提供减少或阻止蛋白质聚集或改变针对大分子的结合亲和力的方法。特别地，提供识别蛋白质结构上的疏水区域的方法，该区域可参与蛋白质相互作用、蛋白质-大分子相互作用或蛋白质聚集。提供的方法是基于本文公开的如“空间聚集倾向”或“SAP”的新技术。该SAP工具还正确地识别易于与其它蛋白结合的抗体区域。除了抗体，该工具能广泛地应用于所有蛋白质，用于识别易聚集区域或结合其它蛋白或配体的区域。本发明的方法可应用于任何蛋白质，其三维结构是可利用的或者其三维结构可使用同源建模、分子建模或从头开始结构测定产生。一般而言，可用多种方式计算“SAP”，其使用本文描述的方程和方法学，例如，可在蛋白质结构模型上计算SAP，或可将SAP计算为结构模型的分子动力学模拟的多个时间步骤的平均数。尽管特定的计算方法和获得的结果可变化，如本文所描述的，但是潜在的原理是基于SAP是一个计量单位的事实，其不但说明蛋白质中的残基的疏水性，而且说明蛋白质三维结构和折叠的蛋白质结构中的氨基酸残基的接近度。

“蛋白质”指两个或多个氨基酸的任何序列，(本文也被称为“氨基酸残基”或“残基”)通过相邻氨基酸的羧基和氨基之间的肽键连接在一起，不管长度、翻译后修饰、化学修饰或功能。“多肽”、“肽”和“蛋白质”在本文可交换地使用。在优选实施方式中，本发明的方法应用于具有足够长度以折叠成三维结构的蛋白质。在一些实施方式中，蛋白质是天然存在的蛋白质。在一些实施方式中，蛋白质是化学合成的。在一些实施方式中，蛋白质是重组蛋白质，例如，杂合蛋白或嵌合蛋白。在一些实施方式中，蛋白是复合蛋白，(例如复合的相互作用蛋白)。蛋白质能被分离(例如，从天然来源或化学环境中)。在一些实施方式中，蛋白质可以是修饰的蛋白质或拟肽。在一些实施方式中，蛋白可以是衍生的蛋白，例如化学共轭蛋白质(包括但并不限于聚合物共轭蛋白质(例如聚乙二醇化蛋白质)。如本文所用，术语“蛋白质”也意欲包括蛋白质片段。示例性的蛋白质包括抗体(包括但并不限于其片段、变体和衍生物)。

实际上，预见本发明的方法可应用于任何基于氨基酸的分子，其结构模型是可利用的或可被产生的。例如，本文描述的方法可应用于如本文所描述的修饰的蛋白质或掺入稀有的或非天然氨基酸的蛋白质。在一些实施方式中，可将稀有的、非天然的或修饰的氨基酸的结构计算地替代或插入到结构模型，用于本文描述的方法的应用。实验上设计肽类似物、衍生物和拟态的方法是本领域已知的。例如，参见Farmer，P.S.in Drug Design(E.J.Ariens，ed.)Academic Press，New York，1980，vol.10，pp.119-143；Ball.J.B.and Alewood，P.F.(1990)J.Mol.Recognition 3：55；Morgan，B.A.and Gainor，J.A.(1989)Ann.Rep.Med.Chem.24：243；和Freidinger，R.M.(1989)Trends Pharmacol.Sci.10：270。还参见Sawyer，T.K.(1995)″Peptidomimetic Design and Chemical Approaches to Peptide Metabolism″in Taylor，MD.and Amidon，G.L.(eds.)Peptide-Based Drug Design：Controlling Transport andMetabolism，Chapter 17；Smith，A.B.3rd，et al.(1995)J.Am.Chem.Soc.117：11113-11123；Smith，A.B.3rd，et al.(1994)J.Am.Chem.Soc.116：9947-9962和Hirschman，R.，et al.(1993)J.Am.Chem.Soc.115：12550-12568。

大量和各种肽、多肽和蛋白治疗制剂是本领域已知的，并期望从本发明的方法受益。这些治疗制剂包括几个非常宽的种类，包括激素、蛋白质、抗原、免疫球蛋白、抑制剂/激活剂、酶、细胞因子、趋化因子、肌因子、脂因子、生长因子、受体、受体域、神经递质、神经营养蛋白、白细胞介素和干扰素等。

能在本发明的范围内使用的合适的激素包括蛋白质激素，诸如调节血糖的胰岛素和胰高血糖素。如具有本领域普通技术的人所理解的，著名的激素典型地用于包括癌症、代谢病、心血管疾病、垂体状况和绝经在内的各种状况和疾病的治疗。

最初，人们认为只有一些蛋白质形成原纤维或聚集体。更近的证据表明更多超过期望的蛋白质具有易聚集区域(Fandrich，M.，Fletcher，M.A.，and Dobson，C.M.(2001)Nature 410，165-166)。实际上，据记录短至4个残基的肽能形成原纤维(J.Biol.Chem.，Vol.277，Issue 45，43243-43246，Nov.8，2002)。

蛋白治疗代表了治疗市场的增长的份额。例如，胰岛素和胰高血糖素是调节血糖的重要蛋白治疗，可从本文描述的方法受益。胰岛淀粉样多肽(Islet AmyloidPolypeptide)(IAPP)是由胰腺分泌的另外的激素，其用于糖尿病的治疗。另一个感兴趣的蛋白是粒细胞集落刺激因子或G-CSF，它是可用于增加血细胞产生的血液生长因子。组织纤溶酶原激活剂是中风或心脏病发作的治疗中使用的凝块破裂剂。另外，红细胞生成素是肾产生的激素，它可用于AIDS、贫血、肾衰竭和其它状况的治疗。最后，降钙素是已被发现在高钙血症、佩吉特病(Paget disease)和某些类型的骨质疏松症的治疗中有效的肽。

期望从本文描述的方法获益的蛋白的另外例子包括，而没有限制，ACTH、支链淀粉、血管紧张素、血管生成素、抗炎肽、BNP、内啡肽、内皮素、GLIP、生长激素释放因子(GRF)、水蛭素、胰岛素调理素、神经肽Y、PTH、VIP、生长激素释放激素(GHRH)、奥曲肽、垂体激素(例如hGH)、ANF、生长因子、bMSH、生长抑素、血小板衍生的生长因子释放因子、人绒毛膜促性腺素、水蛭肽、干扰素α、干扰素β、干扰素γ、白细胞介素、粒细胞巨噬细胞集落刺激因子(GM-CSF)、粒细胞集落刺激因子(G-CSF)、尿促性素(尿促卵泡素(FSH)和LH))、链激酶、尿激酶、ANF、ANP、ANP清除抑制剂、抗利尿激素激动剂、降钙素基因相关肽(CGRP)、IGF-1、喷替吉肽、蛋白C、蛋白S、胸腺素α-1、加压素拮抗剂类似物、显性负性TNF-α、α-MSH、VEGF、PYY、和衍生自上述蛋白的多肽、片段、多肽类似物和衍生物。

在特别优选的实施方式中，蛋白是抗体或免疫球蛋白。术语“抗体”以最宽的意义使用，并且具体地覆盖单克隆抗体(包括全长单克隆抗体)、多克隆抗体、多特异性抗体(例如双特异性抗体)、单链抗体、嵌合抗体、重组抗体、和抗体片段。全长抗体是包含由二硫键相互连接的至少两个重(H)链和两个轻(L)链的糖蛋白。C_H2中的Asn-297残基是N-糖基化的。每个重链由重链可变区(本文缩写为V_H)和重链恒定区组成。重链恒定区由三个结构域C_H1、C_H2和C_H3组成。Fc受体在较低的C_H2铰链区结合并介导效应子作用诸如抗体依赖的细胞介导的细胞毒性(ADCC)。蛋白A结合在Fc的C_H2-C_H3的连接处，在完全抗体的纯化中广泛使用。每个轻链由轻链可变区(本文缩写为V_L)和轻链恒定区组成。轻链恒定区由一个结构域C_L组成。V_H和V_L区能被进一步细分成称作互补决定区(CDR)的高度可变区，点缀着称作框架区(FR)的更保守的区域。每个V_H和V_L由三个CDR和四个FR组成，以下面的顺序从氨基末端至羧基末端排列：FR1、CDR1、FR2、CDR2、FR3、CDR3、FR4。重链和轻链的可变区含有与抗原相互作用的结合结构域。因此，术语“抗体”将包括各种抗体同种型或亚类，例如IgA、IgD、IgE、IgG和IgM，或IgG1、IgG2、IgG3和IgG4。进一步包括的是Fab片段，它是由V_L、V_H、C_L和C_H1结构域组成的一价片段；F(ab′)₂片段，它是包含由二硫键在铰链区连接的两个Fab片段的二价片段；Fab’片段，它是本质上具有铰链区部分的Fab(参见FUNDAMENTALIMMUNOLOGY(Paul ed.，3rd ed.1993)；由V_H和C_H1结构域组成的Fd片段；由抗体单臂的V_L和V_H结构域组成的Fv片段，dAb片段(Ward et al.，(1989)Nature341：544-546)，其由V_H结构域组成；分离的互补决定区(CDR)；和纳米抗体(nanobody)，其为含有单个可变域和两个恒定域的重链可变区。

如本文所用蛋白质“结构模型”是蛋白质三维的二级、三级和/或四级结构的表示。结构模型包括X射线晶体结构、NMR结构、理论蛋白质结构、从同源建模产生的结构、蛋白质断层照相模型和从电子微观研究建立的原子论模型。典型地，“结构模型”将不仅包括蛋白质的一级氨基酸序列，还将为蛋白质中的原子提供三维空间中的坐标，因此显示蛋白折叠和氨基酸残基位置。在优选的实施方式中，分析的结构模型是X射线晶体结构，例如从蛋白质数据库(PDB，rcsb.org/pdb/home/home.do)获得的结构或在相似蛋白质的已知结构之上建立的同源模型。在优选的实施方式中，结构模型将在应用本发明的方法之前被预处理。例如，可通过分子动力学模拟提出结构模型以允许蛋白质侧链达到更自然的构象，或可允许结构模型与溶剂例如水在分子动力学模拟中相互作用。预处理不限于分子动力学模拟并能使用任何本领域公认的手段完成预处理以测定溶液中蛋白质的运动。示例性的可选的模拟技术是Monte Carlo模拟。能使用模拟程序包或任何其它可接受的计算方法进行模拟。在某些实施方式中，能在结构模型上进行搜索、探查或取样蛋白质构象空间的模拟以测定蛋白质的运动。

“理论蛋白质结构”是使用计算的方法，通常没有蛋白质天然结构的任何直接的实验测量结果而产生的三维蛋白结构模型。“理论蛋白质结构”包括通过从头开始法和同源建模产生的结构模型。“同源模型”是由同源建模产生的三维蛋白结构模型，其典型地包括比较蛋白质的一级序列与相似蛋白质的已知三维结构。同源建模在本领域是众所周知的，并且被描述在Kolinski et al.Proteins.1999；37(4)：592-610；Rost et al.，B，Potein Sci.1996；5(8)：1704-1718，和美国专利号7212924；6256647和6125331中，本文通过引用将其并入。特别地，Xiang.(CurrProteinPept Sci.2006Jun；7(3)：217-27，本文通过引用并入)提供了同源建模技术的极好的描述和综述，该同源建模技术可用于产生对本发明的方法有用的结构。实际上，根据本发明的方法可使用本领域已知的任何同源建模软件，例如MODELLER(Eswar，et al.，Comparative Protein Structure Modeling With MODELLER.Current Protocols inBioinformatics，John Wiley&Sons，Inc.，Supplement 15，5.6.1-5.6.30，200.)、SEGMOD/ENCAD(Levitt M.JMolBiol 1992；226：507-533)、SWISS-MODEL(Schwede T，Kopp J，Guex N，Peitsch MC.Nucleic Acids Research2003；31：3381-3385.)、3D-JIGSAW(Bates et al.，Proteins：Structure，Function andGenetics，Suppl 2001；5：39-46)、NEST(Xiang.Curr Protein Pept Sci.2006June；7(3)：217-227)和BUILDER(Koehl and Delarue.Curr Opin Struct Biol1996；6(2)：222-226.)。对于抗体，特别地，能使用规范的结构方法(Chothia C and LeskAM，J.Mol.Biol.1987，196，901；Chothia C et al.，Nature 1989，342，877)准确地获得抗体可变区的结构。

在特定的实施方式中，可使用同源建模以从已知结构片段装配完整蛋白质，诸如当将抗体Fab片段模建到Fc片段上时，或当Fab片段作为理论蛋白质结构产生并模建到Fc片段晶体结构上时。熟练的技术人员将了解存在各种可能性。在一个特定的实施方式中，可将Fab片段做模型到不同种类或同种型的各种抗体Fc结构上。

也可在本发明的方法中使用从头开始模型。“从头开始蛋白结构模型”是通过使用物理化学中已知的方程模拟蛋白质折叠过程从蛋白质一级序列直接产生的蛋白结构模型(Bonneau and Baker.Annual Review of Biophysics and BiomolecularStructure.2001，Vol.30，Pages 173-189；Lesk Proteins 1997；1：151-166.Suppl；Zemla，et al..Proteins 1997；1：140-150.Suppl；Ingwall，et al.Biopolymers 1968；6：331-368；和美国专利号6832162；5878373；5436850；6512981；7158891；6377893；和美国专利申请号9/788,006；11/890,863和10/113,219，本文通过应用将其全部并入)。由于在模拟新形成蛋白质折叠中的困难在某些情况下可导致不精确的蛋白结构模型，典型地，以实验测定的结构(例如X射线晶体结构)和同源模型对从头开始模型是优选的。

应理解，根据本发明，产生理论蛋白质结构的本领域已知的任何方法可以是有用的。除了上面描述的方法，一些方法诸如在会议、用于蛋白质结构预测的技术的关键评估(CASP)中描述的那些方法可在本方法学中使用。在CASP的学报中，例如在与7th Community Wide Experiment on the Critical Assessment of Techniquesfor Protein Structure Prediction Asilomar Conference Center，Pacific Grove，CANovember 26-30，2006相关的出版物中和在CASP6学报.Proteins：Structure，Function，and Bioinformatics.2005.61(S7)：1-236；CASP5学报.Proteins：Structure，Function，and Genetics.2003，53(S6)：333-595；CASP4学报.Proteins：Structure，Function，and Genetics.2001，45(S5)：1-199；CASP3学报Proteins：Structure，Function，and Genetics，1999，37(S3)：1-237(1999)中描述了各种例子。

本发明还提供了制备显示降低的聚集倾向的蛋白质变体的方法。如本文所用，“聚集倾向”是蛋白质形成簇或块的倾向。这样的簇或块可含有两个、或更常常是3个、或更多的蛋白质，蛋白质典型地是相同类型。相应地，显示“降低的聚集倾向”的蛋白质是与未修饰或未处理的相同蛋白质相比，当被修饰或处理时，形成较少聚集体或形成较小聚集体的蛋白质。

术语“抑制”指传达现象中的可测量的减少，本文常常参考蛋白质结合相互作用或聚集而使用它。

本文常常将蛋白质表面上的氨基酸残基、残基簇、蛋白质区域、肽或补丁描述为亲水的或疏水的。根据本发明的方法，空间聚集倾向描述了疏水性，并部分地使用本领域已知的氨基酸疏水性标度计算空间聚集倾向。在优选的实施方式中，氨基酸疏水性标度是Black和Mould，Anal.Biochem.1991，193，72-82(本文通过引用并入)中提出的标度。一般而言，根据Black和Mould，氨基酸疏水性进展如下(从最疏水的残基开始)：Phe＞Leu＝Ile＞Tyr≈Trp＞Val＞Met＞Pro＞Cys＞Ala＞Gly＞Thr＞Ser＞Lys＞Gln＞Asn＞His＞Glu＞Asp＞Arg。如Black和Mould所报道的，疏水性的标度值显示在下面的表1中。

表1

Ala	0.616
		Cys	0.68
Asp	0.028
		Glu	0.043

Phe	1
		Gly	0.501
His	0.165
		Ile	0.943
Lys	0.283
		Leu	0.943
Met	0.738
		Asn	0.236
Pro	0.711
		Gln	0.251
Arg	0
		Ser	0.359
Thr	0.45
		Val	0.825
Trp	0.878
		Tyr	0.88
Asx	0.132
		Glx	0.147

因此，当通过本发明的方法(例如通过具有高SAP得分或被鉴定位于易聚集区域中)选择代替氨基酸时，它将被在疏水性标度上较低的另一个氨基酸代替。例如，如果选择代替氨基酸甲硫氨酸时，它将被更不疏水的任何氨基酸代替，例如Pro、Cys、Ala、Gly等。在特别优选的实施方式中，用Lys代替疏水的氨基酸。在进一步优选的实施方式中，用Glu、Gln、Asp、Thr或Ser代替疏水的氨基酸。因此，当一个残基被描述为“更疏水的”、“更亲水的”、“最疏水的”或“最亲水的”时，是根据本领域已知的任何疏水性标度，例如优选的Black和Mould的标度，进行疏水性/亲水性的测定。

在实践中，本发明的方法可使用任何技术公认的氨基酸疏水性的标度。因此，尽管在空间聚集倾向的计算过程中可使用表1中描述的标度，但是可以替代本领域已知的其它标度。Biswas等最近的综述(J.Chromatogr.A 1000(2003)637-655；本文通过引用并入)描述了根据本发明可使用的许多种疏水性标度。

除了氨基酸疏水性，本文描述的方法可对蛋白质或蛋白结构模型内的原子分配疏水性。在一个实施方式中，“原子疏水性”是包含该原子的氨基酸的疏水性和氨基酸中的原子数或更优选地氨基酸侧链中的原子数的比率。在相似的实施方式中，“原子疏水性”可以是残基疏水性的一部分，其与正在谈论的原子的大小、表面积或体积成比例。例如，如果氧原子占氨基酸残基体积的5％，氧原子的原子疏水性将是氨基酸残基疏水性的5％。在另一个实施方式中，原子疏水性可以是残基疏水性的一部分，其与构成氨基酸残基的原子表面积的部分相等或成比例。在相关的实施方式中，分配给原子的疏水性重量(即残基疏水性的部分)可反映残基中原子占的体积的部分、残基中原子的质量重量、原子对疏水性的贡献等。如上面所描述的，根据本领域已知的疏水性标度测定氨基酸疏水性。

如本文所讨论的，术语“易聚集区域”是蛋白质结构上的区域，其具有结合到其它蛋白质的倾向，因此增加聚集体形成的可能性。易聚集区域显示如本文描述的SAP得分所鉴定的疏水特性。在另一个实施方式中，易聚集区域是较周围区域更疏水的区域。在具体的实施方式中，易聚集区域可以是三维的、限定的空间区域，例如半径R的球面(或可选地至少一个原子在半径R内部的所有氨基酸残基)，包围原子，其中疏水特性是SAP得分。在另外的实施方式中，“易聚集区域”包括显示如通过SAP得分所计算的疏水特性的残基或原子的任何簇或集团。可选地，“易聚集区域”可包括具有高于一些阈值的SAP得分例如＞-0.5、＞0、＞0.5等的附近原子或残基，或在相似的实施方式中，它可包括具有高于一些阈值的计算的曲线下面积(在如下面所描述的SAP得分的曲线中)例如＞-0.5、＞0、＞0.5、＞1、＞1.5、＞2、＞2.5等的那些原子或残基。

在一个方面，本发明的方法使用分子模拟技术来预处理蛋白结构模型和/或识别蛋白质中的易聚集区域。例如，在计算SAP或SAA之前可使用分子动力学模拟。在实践中，可根据本文描述的方法使用从构象空间取样的任何模拟技术/程序包。优选的分子模拟的模式是分子动力学模拟(MDS)。MDS是数学模拟，其中允许分子结构中的原子根据物理学定律运动和相互作用，例如可允许蛋白质内的化学键如化学和物理学定律所允许的折曲、旋转、弯曲或振动。也可将相互作用诸如静电力、疏水力、范德华氏相互作用、与溶剂和其它的相互作用在MDS模拟中模建。这样的模拟允许本领域的技术人员观察当成溶剂化物时可能呈现的蛋白质结构，或通过使模拟期间在各个点的多个测量结果平均化而对蛋白质结构进行更准确的测量。在优选的实施方式中，使用CHARMM模拟程序包(Brooks et al.J.Comput.Chem.，1983，4，187)进行分子模拟。在另一个优选的实施方式中，使用NAMD程序包(Phillips et al.Journal of Computational Chemistry.2005，26，1781)进行分子模拟。本领域的技术人员将理解可使用多个程序包，例如可使用CHARMM程序包用于建立或预处理蛋白结构模型、使结构溶剂化等，可使用NAMD程序包用于模拟，该模拟成为空间聚集倾向计算的部分。根据本发明可使用进行MDS模拟的本领域已知的众多方法学中的任何一个。本文通过引用并入的以下的出版物描述了可使用的多个方法学：Guvench and MacKerell.Methods Mol Biol.2008；443：63-88；Norberg and Nilsson.Q Rev Biophys.2003Aug；36(3)：257-306；美国专利号5424963；7096167和美国专利申请号11/520,588和10/723，594。特别地，可使用以下的软件平台用于分子动力学模拟：ABINIT(Gonze et al.Comput.Mat.Science.2002，25，478；Gonze et al.Kristallogr.2005，220，558；abinit.org/)；AMBER(Duan et al.Journal of Computational Chemistry.2003，24(16)：1999-2012；amber.scripps.edu)；Ascalaph(agilemolecule.com/Products.html，June 19，2008)；CASTEP(Segall，et al.J.Phys.：Cond.Matt.2002，14(11)：2717-2743；Clark et al.Zeitschrift für Kristallographie.2005，220(5-6)pp.567-570；castep.org)；CPMD(CMPD manual for CMPD version3.11.0，March 29，2006；cpmd.org/manual.pdf)；CHARMM(Brooks et al.J CompChem.1983，4：187-217；charmm.org)；DL_POLY(Todorov&Smith，THE DL POLY3 USER MANUAL.STFC Daresbury Laboratory.Version 3.09.3，February 2008；cse.scitech.ac.uk/ccg/software/DL_POLY/MANUALS/USRMAN3.09.pdf)；FIREBALL(fireball.phys.wvu.edu/LewisGroup/fireballHome.html)；GROMACS(Van Der Spoel，et al.，J Comput Chem.2005，26(16)：1701-18.Hess，et al，JChem Theory Comput.2008，4(2)：435；gromacs.org)；GROMOS(Schuler，Daura，van Gunsteren.Journal of Computational Chemistry.2001，22(11)：1205-1218；igc.ethz.ch/GROMOS/index)；LAMMPS(Plimpton，J Comp Phys.1995，117，1-19；lammps.sandia.gov)；MDynaMix(Lyubartsev and Laaksonen.Computer PhysicsCommunications.2000，128，565-589；fos.su.se/～sasha/mdynamix/)；MOLDY(Moldy：a portable molecular dynamics simulation program for serial and parallelcomputers.，Computer Physics Communications.2000，126(3)：309-328；earth.ox.ac.uk/～keithr/moldy.html)；MOSCITO(Dietmar Paschek and Alfons Geiger.User’s Guide and Manual，MOSCITO 4，Performing Molecular DynamicsSimulations，April 7，2003，ganter.chemie.uni-dortmund.de/MOSCITO/manual4.pdf)；NAMD(Kumar，et al.IBM Journal of Research and Development.2007，Volume 52，No.1/2；Phillips et al.，Proceedings of SC 2002；charm.cs.uiuc.edu/research/moldyn/)；Newton-X(M.Barbatti，G.Granucci，M.Ruckenbauer，M.Persico，H.Lischka，Newton-X：a package for Newtonian dynamicsclose to the crossing seam，version 0.15b，2007；univie.ac.at/newtonx；Barbatti，et al.，J.Photochem.Photobio.A 190，228(2007))；ProtoMol(Matthey，et al.ACM Trans.Math.Softw.，2004，30(3)：237-265；protomol.sourceforge.net/)；PWscf(User’s Guidefor Quantum-ESPRESSO version 3.2，pwscf.org/guide/3.2.3/users-guide-3.2.3.pdf)；SIESTA(Sole r，et al.Journal of Physics：Condensed Matter.2002，14：2745-2779；uam.es/departamentos/ciencias/fismateriac/siesta/)；VASP(Georg Kresse and JürgenFurthmüller，VASP the GUIDE，Institut für Materialphysik，

Wien，Sensengasse 8，A-1130 Austria，Vienna，March 1，2007；cms.mpi.univie.ac.at/vasp/)；TINKER(Ren and Ponder.J.Phys.Chem.B.2003，107，5933-5947；dasher.wustl.edu/tinker/)；YASARA(Krieger E，Koraimann G，VriendG.Proteins.200247(3)：393-402.)；ORAC(Procacci，et al.，Phys.Chem.1996，10010464-10469；chim.unifi.it/orac/)；XMD(XMD online manual，XMD-MolecularDynamics Program Jon Rifkin，v2.5.30 20 Jan 2002)。

如本文所用，术语“氨基酸”和“氨基酸残基”和“残基”在一些实施方式中可同义地使用来指当它以分离的状态例如在溶液中存在时的氨基酸，其具有未结合的氨基和羧基末端基团，或当它在蛋白质中存在时的氨基酸，例如通过肽键共价地连接到至少一个其它氨基酸的氨基酸残基。本领域的技术人员将理解预期的蛋白质化学。

如本文所用，“非天然氨基酸”不是已知自然存在的氨基酸。术语“非天然氨基酸包括氨基酸类似物。它可进一步包括天然氨基酸的衍生物，其包括选自包含烷基、芳基、酰基、叠氮基、氰基、卤基、肼基、酰肼基、羟基、链烯基、炔基、醚基、巯基、磺酰基、硒基、酯基、硫羰酸基、硼酸酯基、硼酸酯基(boronate group)、磷酸基、膦酰基、膦基、杂环基、烯酮基、亚胺基、醛基、羟氨基、酮基、糖基、α羟基、环丙基、环丁基、环戊基、2-硝基苄基、3，5-二甲氧基-2-硝基苄基、3，5-二甲氧基-2-硝基藜芦醚氨基甲酸酯基(nitroveratrole carbamate group)、硝基苄基、3，5-二甲氧基-2-硝基苄基、和氨基的集合的取代或添加。

例如，非天然氨基酸可以是，没有限制，以下氨基酸中的任何一个：羟基甲硫氨酸、正缬氨酸、O-甲基丝氨酸、巴豆基甘氨酸、羟基亮氨酸、别异亮氨酸、正亮氨酸、α-氨基丁酸、叔丁基丙氨酸、羟基甘氨酸、羟基丝氨酸、F-丙氨酸、羟基酪氨酸、同型酪氨酸、2-F-酪氨酸、3-F-酪氨酸、4-甲基-苯丙氨酸、4-甲氧基-苯丙氨酸、3-羟基-苯丙氨酸、4-NH₂-苯丙氨酸、3-甲氧基-苯丙氨酸、2-F-苯丙氨酸、3-F-苯丙氨酸、4-F-苯丙氨酸、2-Br-苯丙氨酸、3-Br-苯丙氨酸、4-Br-苯丙氨酸、2-Cl-苯丙氨酸、3-Cl-苯丙氨酸、4-Cl-苯丙氨酸、4-CN-苯丙氨酸、2，3-F₂-苯丙氨酸、2，4-F₂-苯丙氨酸、2，5-F₂-苯丙氨酸、2，6-F₂-苯丙氨酸、3，4-F₂-苯丙氨酸、3，5-F₂-苯丙氨酸、2，3-Br₂-苯丙氨酸、2，4-Br₂-苯丙氨酸、2，5-Br₂-苯丙氨酸、2，6-Br₂-苯丙氨酸、3，4-Br₂-苯丙氨酸、3，5-Br₂-苯丙氨酸、2，3-Cl₂-苯丙氨酸、2，4-Cl₂-苯丙氨酸、2，5-Cl₂-苯丙氨酸、2，6-Cl₂-苯丙氨酸、3，4-Cl₂-苯丙氨酸、2，3，4-F₃-苯丙氨酸、2，3，5-F₃-苯丙氨酸、2，3，6-F₃-苯丙氨酸、2，4，6-F₃-苯丙氨酸、3，4，5-F₃-苯丙氨酸、2，3，4-Br₃-苯丙氨酸、2，3，5-Br₃-苯丙氨酸、2，3，6-Br₃-苯丙氨酸、2，4，6-Br₃-苯丙氨酸、3，4，5-Br₃-苯丙氨酸、2，3，4-Cl₃-苯丙氨酸、2，3，5-Cl₃-苯丙氨酸、2，3，6-Cl₃-苯丙氨酸、2，4，6-Cl₃-苯丙氨酸、3，4，5-Cl₃-苯丙氨酸、2，3，4，5-F₄-苯丙氨酸、2，3，4，5-Br₄-苯丙氨酸、2，3，4，5-Cl₄-苯丙氨酸、2，3，4，5，6-F₅-苯丙氨酸、2，3，4，5，6-Br₅-苯丙氨酸、2，3，4，5，6-Cl₅-苯丙氨酸、丙氨酸环己酯、六氢酪氨酸、环己醇-丙氨酸、羟基丙氨酸、羟基苯丙氨酸、羟基缬氨酸、羟基异亮氨酸、羟基谷氨酰胺、噻吩丙氨酸、吡咯丙氨酸、N_T-甲基-组氨酸、2-氨基-5-羰基己酸(oxohexanoic acid)、正缬氨酸、正亮氨酸、3，5-F₂-苯丙氨酸、丙氨酸环己酯、4-Cl-苯丙氨酸、对-叠氮基-苯丙氨酸、邻-叠氮基-苯丙氨酸、0-4-烯丙基-L-酪氨酸、2-氨基-4-戊酸和2-氨基-5-羰基己酸。期望，至少对于上面列出的非天然氨基酸和对于通过Ambrx ReCODE^TM技术(ambrx.com/wt/page/technology)使用的那些非天然氨基酸，非天然氨基酸将遵循与常见的20个氨基酸相似的疏水性标度，例如，如Black和Mould中所描述的。可选地，可通过本领域熟知的各种技术诸如Biswaset al.(J.Chromatogr.A1000(2003)637-655)中评述和参考的那些技术测定任何非天然或稀有氨基酸的疏水性。

术语“氨基酸类似物”指这样的氨基酸，其中C-末端羧基、N-末端氨基或侧链官能团已被化学修饰成另一个官能团。例如，天冬氨酸-(β-甲酯)是天冬氨酸的氨基酸类似物；N-乙基甘氨酸是甘氨酸的氨基酸类似物；或丙氨酸氨甲酰是丙氨酸的氨基酸类似物。

术语“稀有氨基酸”指稀有的或另外不是最常见的氨基酸之中的那些天然氨基酸，其中常见的氨基酸是硒代胱氨酸、丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、色氨酸、酪氨酸和缬氨酸。

根据本发明的方法可被取代进蛋白质的修饰的、稀有的(即稀有的(rare))、非天然的、或类似物氨基酸的另外非限制的例子是：O-甲基-L-酪氨酸、L-3-(2-萘基)-丙氨酸、3-甲基-L-苯丙氨酸、氟化苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、对-碘代-L-苯丙氨酸、对-溴代-L-苯丙氨酸、对-氨基-L-苯丙氨酸、3，4-二羟基-L-苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-乙酰基-L-苯丙氨酸、间-乙酰基-L-苯丙氨酸、4-(2-氧代-丙氧基)-L-苯丙氨酸和本文通过引用全部并入的美国专利号7,083,970；7,045,337；美国专利申请号10/126,931；11/002,387；11/254,170；11/009,635；11/670,354；11/284,259；10/563,686；11/326,970；10/563,656；10/563,655；11/715,672；11/671,036；11/255,601；11/580,223；11/137,850；11/233,508；10/575,991；11/232,425；世界知识产权组织出版物WO/2007/094916；WO/2007/130453；和出版物Liao J.Biotechnol Prog.2007 Jan-Feb；23(1)：28-31；Rajesh，and Iqbal.Curr PharmBiotechnol.2006 Aug；7(4)：247-59.Cardillo et al.Mini Rev Med Chem.2006Mar；6(3)：293-304；Wang et al.Annu Rev Biophys Biomol Struct.2006；35：225-49；Chakraborty et al.，Glycoconj J.2005 Mar；22(3)：83-93中描述的氨基酸(和并入其的方法)。非天然氨基酸的另外的例子能在例如下面的美国专利出版物中找到，本文通过引用并入其内容：2003-0082575、2005-0250183、2003-0108885、2005-0208536和2005-0009049。

I.空间聚集倾向

本发明涉及识别蛋白质表面上的易聚集区域的方法、阻止或减少蛋白质聚集的方法、以及识别蛋白质上的大分子结合区域的方法。本文的方法显示了在计算的方法识别蛋白质区域的能力中的推进，该蛋白质区域可被修饰以减少蛋白质聚集的倾向或减少蛋白质对大分子的结合亲和力。特别地，这些方法至少部分基于SAA(溶剂可及面积)的计算，其用于表征蛋白质的表面是本领域已知的。SAA给出与溶剂接触的每个氨基酸或蛋白质结构的表面积。当探针球在蛋白质表面，即蛋白结构模型的表面上翻滚时，可典型地通过计算探针球体的中心轨迹计算SAA。探针球体具有与水分子相同的半径，

下面描述的计算SAA的可选方法是本领域已知的并与本文描述的方法一致。尽管SAA对表征蛋白质的表面非常有用，但是由于下面的缺点，发现它不足以表征蛋白质表面上潜在的易聚集的疏水补丁，

1.SAA不区分疏水和亲水区域

2.SAA与残基的疏水性不成正比(例如，MET具有较LEU更多的表面面积，但是较不疏水)

3.SAA没有表明几个疏水残基是否是邻近的，并因此能增强某一区域的疏水性。这些残基在一级序列或三级结构——即使它们在一级序列上很远——可为邻近的。不管怎样，它们能增强抗体表面上某一补丁的疏水性。

通过根据下面的公式计算暴露的氨基酸部分的疏水性产生本文描述的一个测量，有效SAA：

有效SAA的另外实施方式进一步包括合计在一级蛋白质序列中相邻的至少两个、至少三个、至少四个、至少五个或至少六个(例如，二个、三个、四个、五个、六个等)氨基酸残基的有效SAA。尽管有效SAA代表超过基本SAA的提高，但是它还是缺乏完全地说明折叠的蛋白质结构和说明在蛋白质序列中不相邻的氨基酸可以是在蛋白质折叠的二级、三级或四级结构中互相靠近的事实的能力。这样的蛋白质折叠可形成易聚集区域，其不单独出现在一级结构中，或只可通过更坚定地分析折叠的蛋白质结构而被检测。

本发明提供新的、更先进的称作空间聚集倾向的测量，其将突出蛋白质表面上的某一补丁或区域的有效疏水性。针对在蛋白结构模型的原子上或附近的限定的空间区域计算空间聚集倾向。

在该上下文中，“限定的空间区域”是选择的用以在蛋白质结构上或附近捕获局部物理结构和/或化学环境的三维空间或体积。在特别优选的实施方式中，针对集中在蛋白质中的原子(例如蛋白结构模型中的原子)上的具有半径R的球形区域计算空间聚集倾向。还可针对集中在化学键或定位在接近结构模型的空间中的具有半径R的球形区域计算空间聚集倾向。相应地，在另一个优选的实施方式中，可针对集中在原子附近，例如集中在空间上距特定原子或化学键的中心之间，更优选地之间，更优选地

之间的点上的限定的空间区域计算SAP。

在优选的实施方式中，选择的半径R在

之间，更优选地在

之间。在特定的实施方式中，选择的半径是至少

至少

至少

至

至少

至少至少至少

至少

至少

至少

至少至少

至少

或至少

在特别优选的实施方式中，选择的半径在

和

之间，更优选地在

和之间，更优选地在和

之间。在特定的实施方式中，选择的半径是

或

在另外的实施方式中，空间聚集倾向计算针对的区域不是球形的。该区域的可能的形状可进一步包括立方体、圆柱体、圆锥体、椭圆的球状体、锥体、半球或可用于封闭空间部分的任何其它形状。在这样的实施方式中，可使用除了半径外的测量，例如从形状的中心到面或顶点的距离选择区域的大小。

在优选的实施方式中，可使用SAP选择蛋白质中可被取代的残基，因此增加蛋白质的稳定性。在先前的研究中稳定体外蛋白质的两个主要方法已是：(1)设计蛋白质序列自身，和(2)包括液体制剂中的添加剂。已研究了这两个方法，并已获得了显著性结果。第一个方法已依赖经由电脑模拟(in silico)或以实验筛选随机变体的广泛文库。在第二个方法中，针对稳定添加剂的高通量的筛选以及添加剂的合理设计允许用于治疗用蛋白质的最佳制剂的鉴别。

本发明期望通过计算地识别存在的聚集热点和在实验上分析具有那些位点的取代的变体来使稳定性增强的过程有效率。

因此，一般地说，针对蛋白质中的特定原子计算空间聚集倾向的方法包括(a)识别代表该蛋白质的结构模型中的一个或多个原子，其中一个或多个原子位于集中于特定原子上或其附近的限定空间区域内；(b)针对限定空间区域中的一个或多个原子中的每一个，计算原子的溶剂可及面积(SAA)与完全暴露的同一残基中原子的SAA的比；(c)用一个或多个原子的原子疏水性乘以每个比；和(d)合计步骤(c)的乘积；借此该和是针对特定原子的SAP。

在相关的实施方式中，根据一种不同的方法可计算SAP，所述方法包括(a)识别代表蛋白质的结构模型中的一个或多个氨基酸残基，其中一个或多个氨基酸残基具有集中于特定原子上或其附近的限定空间区域内的至少一个原子；(b)针对识别的一个或多个氨基酸残基中的每一个，计算氨基酸中原子的溶剂可及面积(SAA)与完全暴露的同一残基中原子的SAA的比；(c)用如通过氨基酸疏水性标度所测定的一个或多个氨基酸残基的疏水性乘以每个比；和(d)合计步骤(c)的乘积；借此该和是针对特定原子的SAP。在优选的实施方式中，在步骤(a)之前通过允许结构模型与分子动力学模拟中的溶剂相互作用处理结构模型。当氨基酸被识别为具有限定的空间区域内的至少一个原子时，可能需要至少一个原子是氨基酸侧链中专有的原子。可选地它可以是需要成为主链原子的原子。

在其它实施方式中，该方法可进一步包括任选地在步骤(a)之前进行分子动力学模拟和重复步骤(a)-(d)，每次在许多时间步骤进行进一步的分子动力学模拟，由此产生多个如步骤(d)中的和，和计算这些和的平均数；借此该计算的平均数是针对特定原子的SAP。

在其它优选的实施方式中，SAP可用于选择蛋白质中的残基，其可被替代，因此降低蛋白质对大分子的结合亲和力。

本领域的技术人员将理解使用分子动力学模拟计算的值的平均数的本发明实施方式将是计算上更强化的。这样的实施方式在某些情况下也将提供空间聚集倾向的更精确或高度分辨的图。然而，本文讨论的实验已显示当不使用分子动力学平均技术时，该方法仍然是高度准确的。在一种优选的实施方式中，可针对数据库例如蛋白质数据库(PDB)中的所有蛋白质结构计算空间聚集倾向值，由此很快识别所有已知蛋白质结构上的疏水残基和补丁。该方法允许大批蛋白质的快速筛选以识别潜在的易聚集区域和/或蛋白质相互作用位点。

在优选的应用中，用下面的公式描述空间聚集倾向：

1)在每个模拟快照上计算半径R内侧链原子的SAA。优选地通过计算当在蛋白质表面上翻滚时探针球体中心的轨迹而在模拟模型中计算SAA。探针球体具有与水分子相同的半径，

本领域的技术人员将理解计算SAA的其它方法将与这里描述的计算SAP的方法一致。例如，可只在氨基酸侧链原子上计算SAA。也可只在氨基酸主链原子(即肽主链的那些原子和结合的氢)上计算SAA。可选地，可只在氨基酸主链原子上计算SAA，排除结合的氢；

2)在优选的实施方式中，通过计算完全伸展的三肽‘Ala-X-Ala’构象中中间残基的侧链SAA，获得完全暴露的残基(说的是氨基酸‘X’)的侧链SAA；和

3)如上所述使用Black和Mould(Black and Mould，Anal.Biochem.1991，193，72-82)的疏水性标度获得原子疏水性。

“完全暴露的”残基是三肽Ala-X-Ala的完全伸展构象中的残基X。本领域的技术人员将理解该排列被设计，以至于在这样的残基X上的SAA的计算将产生可利用的最大溶剂可及面积。相应地，考虑可在计算中使用除丙氨酸外的其它残基而没有完全破坏或改变结果。

如上面所描述的，可将本发明的方法应用于任何蛋白结构模型。相应地可提出如下只是基于X射线结构的SAP：

相似地，如果得不到X射线结构，能将相同的空间聚集倾向参数应用到通过同源建模产生的结构，因此可提出如下SAP参数：

在优选的实施方式中，针对蛋白结构模型中的所有原子计算空间聚集倾向。在一些实施方式中，可对每个单个蛋白质残基或小群体残基进行原子论空间聚集倾向值平均化。

II.发明的用途

一方面，本发明可如上面所描述的用于识别蛋白质中疏水的氨基酸残基、区域或补丁。没有想保持特定的阈值，认为具有空间聚集倾向＞0的原子或氨基酸残基是疏水的或位于易聚集区域中。根据蛋白质的类型、特定的结构和其存在的溶剂，可期望使用稍微低于零的截止值，例如通过选择具有大于-0.1、-0.15、-0.2等的空间聚集倾向的原子或残基，识别原子或残基。可选地，为了选择最强的疏水的原子、残基或补丁，可期望使用更严格的截止值，例如0、0.05、0.1、0.15、0.2等。在另一个实施方式中，只是选择具有大于连续地(即沿着蛋白质序列)或在优选实施方式中，空间上(即在三维结构中)附近的原子或残基的空间聚集倾向的原子或残基可以是有利的。选择疏水补丁中的原子或残基的一个优选的方法是将计算的空间聚集倾向值，例如使用彩色编码或数字编码，绘制到它们所来源的蛋白结构模型上，因此使跨过蛋白质表面的空间聚集倾向中的差别可视化，并因此允许疏水补丁或残基容易选择。在特别优选的实施方式中，使用选择的用于半径的两个值分开进行空间聚集倾向的计算，这两个值一个具有较高的分辨率，例如5A，一个具有较低的分辨率，例如10A。在这样的实施方式中，可在具有较低分辨率的图的蛋白质结构上看到较大或较宽的疏水补丁。一旦在低分辨率图上选择感兴趣的疏水补丁，可在较高分辨率的图中更详细地观察那些补丁，这可在一些实施方式中允许本领域的技术人员更容易地或更准确地选择残基以突变或修饰。例如，当在较高分辨率的图中观察疏水补丁时，可期望为突变选择具有最高SAP得分的残基或是最疏水的残基(例如根据Black和Mould，Anal.Biochem.1991，193，72-82的标度，补丁中最疏水的残基)。

在具体的实施方式中，识别蛋白上的易聚集区域的方法包括：(a)将如根据本文描述的方法中的任何一个所计算的针对蛋白质中原子的SAP绘制到结构模型上；和(b)识别具有SAP＞0的许多原子的蛋白质内的区域；其中易聚集区域包括，包含所述许多原子的氨基酸。在这样的实施方式中，可针对蛋白质中的所有原子或部分原子计算SAP。考虑一个人可只针对感兴趣的特定残基或许多组残基计算SAP。

在相似的实施方式中，绘制原子的SAP得分(或者在氨基酸残基上进行平均的SAP得分)可以是有教益的。这种显示沿着蛋白质的原子或残基的SAP得分的绘图允许峰容易识别，这可表明用于代替的候选物。在特别优选的实施方式中，将沿着蛋白质中的原子或残基的SAP得分绘制在曲线图中，针对图中的峰计算曲线下面积(AUC)。在这样的实施方式中，具有较大AUC的峰代表较大或较疏水的易聚集区域。在特定的实施方式中，将期望选择用于替代的一个或多个残基，该残基被识别为存在于峰中，或更优选地在具有大AUC的峰中。

在特定的实施方式中，本发明可用于制备显示减少的聚集倾向的蛋白质变体，这是通过用较被替代的残基更亲水的氨基酸残基替代通过本文描述的方法中的任何一个识别的蛋白质中易聚集区域内至少一个氨基酸残基，以至于减少了变体的聚集倾向。如本文所用，当氨基酸残基被称为“更”亲水或疏水或“更不”亲水或疏水时，熟练的技术人员应理解这表示根据本领域已知的疏水性(亲水性)的测量，例如Black和Mould的疏水性标度与另一个氨基酸相比更疏水或更不疏水。

在相似的实施方式中，本发明可用于制备显示减少的聚集倾向的蛋白质变体，这是通过替代每个变体中蛋白质中易聚集区域内至少一个氨基酸残基产生多个蛋白质变体，其中使用根据本文描述的任何方法计算的SAP得分识别易聚集区域，其中在每个变体中替代一个或不同的残基或残基的不同组合，其中用更亲水的残基替代至少一个残基；和(b)选择如(a)中所制备的显示减少的聚集倾向的蛋白质变体。

此外，可缺失而不是替代易聚集区域中的氨基酸残基。在多个氨基酸残基被选择用于替代的一些蛋白质中，可替代一些残基，同时缺失其它的残基。

在另外的实施方式中，通过上面描述的方法(例如通过使用空间聚集倾向截止值——在其之上，残基被选择)可在最初的蛋白质中识别多个易聚集区域或残基。随后，通过用更亲水的氨基酸残基替代所述最初的蛋白质中一个或多个选择的氨基酸残基(或落进选择的补丁中的一个或多个残基)可产生许多蛋白质变体，这样产生了代表许多种不同的氨基酸替代的许多蛋白质变体。然后可筛选该群体以选择具有减少的聚集倾向的一个或多个蛋白质变体。本领域的技术人员将理解可识别多个易聚集区域，可在一个或多个易聚集区域进行一个或多个替代和/或缺失。通过上面描述的Black和Mould的疏水性标度可测定氨基酸的相对疏水性。在特定的实施方式中，将被替代的氨基酸选自包括Phe、Leu、Ile、Tyr、Trp、Val、Met、Pro、Cys、Ala或Gly的集合或由其构成的集合。在相关的实施方式中，将被替代进蛋白质中的更亲水的氨基酸将选自包括Thr、Ser、Lys、Gln、Asn、His、Glu、Asp和Arg的集合或由其构成的集合。

可通过本领域已知的任何方法制备蛋白质变体，包括位点定向诱变和其它的重组DNA技术，例如参见本文通过引用并入的美国专利号5284760；5556747；5789166；6878531；5932419和6391548。

在特定的实施方式中，本发明可用于制备显示减少的聚集倾向的蛋白质变体，这是通过用较被替代的残基更亲水的天然氨基酸残基、修饰的氨基酸残基、稀有的氨基酸残基、非天然氨基酸残基或氨基酸类似物或衍生物替代通过本文描述的方法中的任何一个识别的蛋白质中易聚集区域内至少一个氨基酸残基，这样减少了变体的聚集倾向。

非天然氨基酸的合成是本领域技术人员已知的，并进一步在，例如美国专利公布号2003-0082575中被描述。一般而言，可使用将非天然的、修饰的或稀有的氨基酸合成或掺入进蛋白质的本领域已知的任何方法，包括但并不限于本文通过引用并入的出版物Liao J.Biotechnol Prog.2007 Jan-Feb；23(1)：28-31；Rajesh，andIqbal.Curr Pharm Biotechnol.2006Aug；7(4)：247-59；Cardillo et al.Mini Rev MedChem.2006 Mar；6(3)：293-304；Wang et al.Annu Rev Biophys Biomol Struct.2006；35：225-49；Chakraborty et al.，and Glycoconj J.2005 Mar；22(3)：83-93中描述或引用的那些方法。作为进一步的例子，可使用Ambrx ReCODE^TM技术来如本文描述的方法所示将非天然氨基酸或稀有氨基酸形成和掺入到蛋白质中。

根据本发明的蛋白质变体能显示，例如，如通过加速的稳定性研究所测定的提高的或改进的稳定性。示例性的加速的稳定性研究包括但并不限于以增加的贮存温度为特征的研究。与野生型或最初的蛋白质相比，观察到的针对蛋白质变体的聚集体形成的降低表明增加的稳定性。还可通过测量与野生型或最初的蛋白质相比变体的熔化温度转换的变化测试蛋白质变体的稳定性。在这样的实施方式中，当变体中的熔化温度转换增加时，增加的稳定性将是明显的。在通过引用并入本文的美国专利申请号10/176,809中描述了测量蛋白质聚集的另外的方法。

在本发明的另一个方面，计算的空间聚集倾向可用于识别蛋白质结构表面上的蛋白质-蛋白质相互作用位点。蛋白质相互作用位点常常含有疏水残基或疏水补丁，这是本领域已知的。期望本文描述的方法在通过识别疏水补丁定位结合位点中将是有用的。这样的疏水补丁然后将是蛋白质-蛋白质或蛋白质-配体识别位点的候选物。

在另一个方面，本发明还包括识别蛋白质上的大分子结合区域的方法，包括(a)将如根据先前方面中的任何一个所计算的针对蛋白质中原子的SAP绘制到蛋白结构模型上；和(b)识别具有SAP＞0的许多原子的蛋白质内的区域；其中大分子结合区域包括包含所述许多原子的氨基酸。

在另一个方面，本发明包括识别蛋白质上的大分子结合区域的方法，包括识别一个或多个氨基酸，该氨基酸含有具有大于所选阈值的SAP的一个或多个原子；其中根据先前方面中的任何一个的方法计算SAP，且其中大分子结合区域包括识别的氨基酸。

在另一个方面，本发明包括识别蛋白质上的大分子结合区域的方法，包括绘制如根据先前方面中的任何一个所计算的SAP值，针对图中的峰计算曲线下面积(AUC)和识别一个或多个具有正的AUC的蛋白区域，其中大分子结合区域包括识别的蛋白区域。

在另一个方面，本发明可用于制备显示对大分子降低的结合亲和力的蛋白质变体，包括替代或缺失针对蛋白质中大分子的大分子结合区域内的至少一个氨基酸残基，其中使用根据先前方面中的任何一个计算的SAP得分识别大分子结合区域；其中，如果氨基酸残基被替代，它被更亲水的氨基酸残基替代，这样降低针对变体的大分子的结合亲和力。在某些实施方式中，替代至少一个残基并缺失至少一个残基。在另一个方面，本发明还包括制备显示对大分子改变的结合亲和力的蛋白质变体的方法，包括(a)通过替代每个变体中针对蛋白质中大分子的大分子结合区域内的至少一个残基，产生许多蛋白质变体，其中使用根据先前方面中的任何一个计算的SAP得分识别大分子结合区域，其中在每个变体中，将一个或不同残基或不同的残基组合替代；和(b)选择如(a)中制备的显示对大分子改变的结合亲和力的蛋白质变体。在某些实施方式中，大分子结合区域内的至少一个氨基酸残基是大分子结合区域中最疏水的残基。在某些实施方式中，易聚集区域内的至少一个氨基酸残基是Phe、Leu、Ile、Tyr、Trp、Val、Met、Pro、Cys、Ala或Gly。在某些实施方式中，更亲水的氨基酸残基选自Thr、Ser、Lys、Gln、Asn、His、Glu、Asp和Arg。在某些实施方式中，更亲水的氨基酸残基是稀有的、非天然的或修饰的氨基酸。在某些实施方式中，根据Black和Mould的疏水性标度测定更亲水的氨基酸残基。在某些实施方式中替代大分子结合区域内的至少两个氨基酸残基。在某些实施方式中替代大分子结合区域内的至少三个氨基酸残基。在某些实施方式中替代蛋白质内超过一个易聚集区域内的至少一个残基。在某些实施方式中，根据先前方面中的任何一个用于识别蛋白质上的易聚集区域的方法识别易聚集区域。在可与先前的实施方式结合的某些实施方式中，大分子是另一个蛋白、多核苷酸或多糖。在可与先前的实施方式结合的某些实施方式中，蛋白选自抗体、Fab片段、Fab’片段、Fd片段、Fv片段、F(ab′)₂片段和Fc片段。在可与先前的实施方式结合的某些实施方式中，蛋白是细胞因子、趋化因子、脂因子、肌因子、神经递质、神经营养蛋白、白细胞介素或干扰素。在可与先前的实施方式结合的某些实施方式中，蛋白是激素或生长因子。在某些实施方式中，大分子是激素受体或生长因子受体。在某些实施方式中，蛋白是受体或受体域。在某些实施方式中，大分子是受体或受体域的受体激动剂或受体拮抗剂。在可与先前的实施方式结合的某些实施方式中，蛋白是神经递质或神经营养蛋白。在某些实施方式中，大分子是神经递质受体或神经营养蛋白受体。

在一些实施方式中，本发明进一步涉及用于根据本发明方法测定SAP的计算机编码。在其它的实施方式中，本发明涉及致力于执行本发明的方法的计算机、超级计算机或计算机集群。在另一个方面，本发明提供用于测定蛋白质上的易聚集区域的基于网络的、基于服务器的或基于互联网的服务，该服务包括接收来自用户(例如通过互联网)的关于蛋白质(例如蛋白结构模型)的数据或从数据库取回这样的数据，这样该服务供给者能产生、取回或存取蛋白质的静态结构，任选地包括蛋白质的分子动力学建模以提供蛋白质的动态结构，基于这样产生的静态或动态结构测定针对蛋白质的原子或残基的SAP，和将SAP数据，例如，作为服务供给者用所述SAP数据绘制的结构模型，返回给用户。在一些实施方式中，用户是人。在其它的实施方式中，用户是计算机系统或自动化的计算机算法。

在一些实施方式中，本发明提供SAP计算系统，包括：用于将用于计算SAP的网络服务通过互联网提供给用户终端的网络服务器；用于贮存关于计算方法、氨基酸疏水性等一般信息的数据库和用于基于数据库中的信息和用户通过互联网提供或传输的信息执行SAP计算的计算服务器。

在一些实施方式中，网络服务器和计算服务器是相同的计算机系统。在一些实施方式中，计算机系统是超级计算机、集群计算机或单个的工作站或服务器。

在相关的实施方式中，SAP计算系统的网络服务器进一步包括用于控制全部操作的控制器、用于连接互联网的网络连接单元和用于将用于计算SAP的网络服务通过互联网提供给用户终端的网络服务器单元。

此外，本发明的实施方式进一步涉及具有计算机可读介质的计算机存储器产品，该产品含有用于执行各种计算机执行的操作的程序编码，所述计算机执行的操作例如计算针对结构模型的SAP、计算SAA、计算有效SAA、操纵结构模型、实现分子动力学模拟、组织和储存相关数据、或执行本文描述的其它操作。计算机可读介质是能储存数据的任何数据存储设备，该数据此后能被计算机系统读取。计算机可读介质的例子包括但并不限于硬盘、软盘、闪存驱动器、光盘(例如CD、DVD、HD-DVD、蓝光光盘等)和专门配置的硬件装置诸如特定用途集成电路(ASICs)或可编程逻辑器件(PLDs)。还能将计算机可读介质分布为包括在遍及偶联的计算机系统网络的载波中的数据信号，以便使计算机可读代码以分布的形式储存和执行。本领域的技术人员将理解上面描述的硬件和软件组件是具有标准设计和构造的。上面描述的计算机、互联网、服务器和服务相关的实施方式可进一步应用到SAA和有效SAA以及SAP。

III.含有本发明的肽和肽变体的药物组合物

在另一个方面，本发明提供一种组合物，例如药物组合物，其含有与药学上可接受的载体一起配制的、通过本发明的方法产生的一种或多种蛋白质变体。本发明的药物组合物还能在联合治疗中施用，例如与其它药剂结合。例如，联合治疗能包括与至少一种其它抗癌药剂结合的本发明的蛋白质。

如本文所用，“药学上可接受的载体”包括生理学上相容的任何和所有溶剂、分散介质、包衣、抗菌剂和抗真菌剂、等渗的和吸收延迟剂等。优选地，载体适于静脉内、肌肉内、皮下、肠胃外、脊椎或表皮施用(例如，通过注射或输注)。根据给药途径，可将活性化合物，即本发明的蛋白质或其变体，包在材料中以保护化合物免受酸的作用和可使化合物失活的其它天然条件。

本发明的药物化合物可包括一种或多种药学上可接受的盐。“药学上可接受的盐”指保留母体化合物的期望生物学活性和不赋予任何不期望的毒理学作用的盐(参见，例如Berge，S.M.，et al.(1977)J.Pharm.Sci.66：1-19)。这样的盐的例子包括酸加成盐和碱加成盐。酸加成盐包括来自无毒的无机酸，诸如盐酸、硝酸、磷酸、硫酸、氢溴酸、氢碘酸、亚磷酸等，以及来自无毒的有机酸诸如脂肪族的一羧酸和二羧酸、苯基取代的链烷酸、羟基链烷酸、芳香酸、脂肪族和芳香族的磺酸等的那些盐。碱加成盐包括来自碱土金属，诸如钠、钾、镁、钙等，以及来自无毒的有机胺，诸如N，N′-二苄乙烯二胺、N-甲基葡糖胺、氯普鲁卡因、胆碱、二乙醇胺、乙二胺、普鲁卡因等的那些盐。

本发明的药物组合物还可包括药学上可接受的抗氧化剂。药学上可接受的抗氧化剂包括：(1)水溶性抗氧化剂，诸如抗坏血酸、盐酸半胱氨酸、硫酸氢钠、焦亚硫酸钠、亚硫酸钠等；(2)油溶的抗氧化剂，诸如棕榈酸抗坏血酸酯、丁基化羟基苯甲醚(BHA)、丁化羟基甲苯(BHT)、卵磷脂、棓酸丙酯、α生育酚等；和(3)金属螯合剂，诸如柠檬酸、乙二胺四乙酸(EDTA)、山梨醇、酒石酸、磷酸等。

可在本发明的药物组合物中使用的合适的水性和非水性载体的实例包括水、乙醇、多元醇(诸如甘油、丙二醇、聚乙二醇等)及其合适的混合物、植物油，诸如橄榄油，和可注射的有机酯，诸如油酸乙酯。例如，通过包衣材料，诸如卵磷脂的使用，通过分散的情况下需要的粒度的维持和通过表面活性剂的使用能维持适当的流动性。

这些组合物还可含有佐剂诸如防腐剂、湿润剂、乳化剂和分散剂。可通过灭菌操作和通过包含各种抗菌剂和抗真菌剂，例如对羟苯甲酸酯、氯代丁醇、苯酚山梨酸等确保阻止微生物的存在。还可期望将等渗剂，诸如糖、氯化钠等包括进组合物。此外，通过包含延迟吸收的药剂诸如单硬脂酸铝和明胶可带来可注射的药物形式的延长的吸收。

药学上可接受的载体包括无菌的水溶液或分散体和用于无菌可注射的溶液或分散体的临时制备的无菌粉剂。用于药学上有活性的物质的这样的介质和药剂的使用是本领域已知的。除了在任何常规的介质或药剂与活性化合物不相容的情况下，考虑其在本发明的药物组合物中的使用。也能将补充的活性化合物掺入进组合物。

示例性的制剂包括至少一种本发明的蛋白质变体和能包括较低浓度的稳定(或解聚)剂，除了本文公开的方法，其能用于阻止或减少蛋白质的聚集。相应地，在含有通过本发明的方法产生的蛋白质变体的药物组合物的开发中可使用用于阻止聚集的常规方法。例如，许多种稳定或解聚化合物可根据它们的预期的用途和它们的生物学毒性包括在本发明的药物组合物中。这样的稳定化合物可包括，例如环糊精及其衍生物(美国专利号5730969)、烷基葡糖苷组合物(美国专利申请号11/474,049)、蛋白伴侣分子的使用(例如LEA(Goyal et al.，Biochem J.2005，388(Pt 1)：151-7；美国专利号5688651的方法)、甜菜碱化合物(Xiao，Burn，Tolbert，Bioconjug Chem.2008 May 23)、表面活性剂(例如Pluronic F127、Pluronic F68、Tween 20(Wei et al.International Journal of Pharmaceutics.2007，338(1-2)：125-132))和美国专利号5696090、5688651和6420122中描述的方法，本文通过引用将其并入。

示例性的制剂还包括本发明的蛋白质变体和药学上可接受的载体、佐剂和/或赋形剂，该蛋白质变体显示与结合配偶体相互作用的改变的倾向。

此外，使用不同种类的赋形剂的组合在制剂中稳定蛋白质，特别是抗体，例如(1)二糖(例如蔗糖、海藻糖)或多元醇(例如山梨醇、甘露醇)通过优先的排除充当稳定剂并且还能在冻干期间充当冷冻保护剂，(2)表面活性剂(例如Polysorbat 80、Polysorbat 20)通过最小化界面象液体/冰、液体/材料表面和/或液体/气体界面上蛋白质的相互作用起作用，和(3)缓冲液(例如磷酸盐-、柠檬酸盐-、组氨酸)有助于控制和维持制剂pH。因此，除了本发明的方法外可以使用这样的二糖多元醇、表面活性剂和缓冲液以进一步稳定蛋白质和防止它们的聚集。

治疗组合物典型地在制造和贮存条件下必须是无菌的和稳定的。能将组合物配制为溶液、微乳剂、脂质体或适于高药物浓度的其它规则结构。载体可以是含有，例如水、乙醇、多元醇(例如甘油、丙二醇、和液态聚乙二醇等)及其合适的混合物的溶剂或分散介质。例如，通过包衣诸如卵磷脂的使用、通过分散的情况下需要的粒度的维持和通过表面活性剂的使用能维持适当的流动性。在许多情况下，在组合物中包括等渗剂，例如糖，多元醇诸如甘露醇、山梨醇，或氯化钠将是优选的。通过将延迟吸收的药剂，例如单硬脂酸盐和明胶包括在组合物中能带来可注射的药物形式的延长的吸收。

能通过将活性化合物以需要的量掺入到具有如所需要的、上面列举的一个成分或成分组合的适当溶剂，接下来通过灭菌微滤来制备无菌可注射的溶液。一般地，通过将活性化合物掺入进含有基本的分散介质和需要的来自上面列举的那些其它成分的无菌载体中制备分散体。在用于无菌可注射的溶液制备的无菌粉剂的情况下，制备的优选方法是真空干燥和冷冻干燥(冻干)，其生产活性成分加上任何另外期望的来自其先前无菌过滤的溶液的成分的粉末。

能与载体材料结合以产生单个剂量形式的活性成分的量将根据被治疗的受试者和施用的特定方式而变化。能与载体材料结合以产生单个剂量形式的活性成分的量将通常是产生疗效的组合物的量。一般地，100％中，这个量的范围将是约0.01％至约99％的活性成分，优选地约0.1％至约70％，最优选地约1％至约30％的与药学上可接受的载体结合的活性成分。

调节剂量方案以提供最佳期望的反应(例如治疗反应)。例如，可施用单个大丸剂，可随着时间施用几个分次剂量或可如治疗情形的紧急所指示的按比例地减少或增加剂量。配制以剂量单位形式的胃肠外组合物用于使施用容易和剂量均匀是尤其有利的。如本文所用的剂量单位形式指适合用作用于将被治疗的受试者的单一剂量的物理离散单位；每个单位含有计算的预定数量的活性化合物以与需要的药物载体联合地产生期望的疗效。针对本发明的剂量单位形式的说明受指示于并直接依赖于：(a)活性化合物的独特特性和将要达到的特定疗效，和(b)在组合这样的活性化合物进行治疗的领域中固有的、个体中灵敏度的限制。

对于蛋白质的施用，剂量范围是每kg宿主体重约0.0001至100mg，更通常地0.01至5mg。例如剂量可以是0.3mg/kg体重、1mg/kg体重、3mg/kg体重、5mg/kg体重或10mg/kg体重或1-10mg/kg范围内。示例性的治疗方案需要每周一次、每两周一次、每三周一次、每四周一次、一个月一次、每3个月一次或每3至6个月一次施用。用于本发明的蛋白质的优选剂量方案包括通过静脉内施用1mg/kg体重或3mg/kg体重，其中采用以下的给药方案之一给予抗体：(i)每四周，进行六个剂量，然后每三个月；(ii)每三周；(iii)3mg/kg体重一次，接下来每三周1mg/kg体重。

可选地，本发明的蛋白质作为持续释放制剂施用，在这种情况下需要较少频率的施用。剂量和频率可根据患者中施用的物质的半衰期而变化。一般而言，人类抗体显示最长的半衰期，接下来是人源化抗体、嵌合抗体和非人类抗体。剂量和频率可根据治疗是否是预防的或治疗的而变化。在预防应用中，在长时期内以相对不频繁的间隔施用相对低的剂量。一些患者连续接受治疗持续他们生命的剩余部分。在治疗应用中，有时需要以相对短的间隔的相对高的剂量直到疾病的进展被降低或终止，优选地直至患者显示疾病症状的部分或完全改善。之后，可给患者施用预防方案。

本发明的药物组合物中的活性成分的实际剂量水平可变化以获得活性成分的量，该量对达到针对特定患者、组合物和施用方式的期望的治疗反应是有效的，对患者没有毒性。选择的剂量水平将依赖许多种药物代谢动力学因素，包括使用的本发明的特定组合物、或其酯、盐或酰胺的活性、施用途径、施用时间、正在使用的特定化合物的排泄速度、治疗的持续时间、与使用的特定组合物结合使用的其它药物、化合物和/或材料、正被治疗的患者的年龄、性别、体重、状况、一般健康状态和以前的病史、和医学领域中众所周知的相似因素。

本发明的蛋白质的“治疗上有效的剂量”优选地导致疾病症状严重性的降低、无疾病症状周期的频率和持续时间的增加、或由于疾病折磨的损害或残疾的阻止。例如，对于肿瘤的治疗，相对于未治疗的受试者，“治疗上有效的剂量”优选地抑制细胞生长或肿瘤生长至少约20％，更优选地至少约40％，甚至更优选地至少约60％，更优选地至少约80％。能在预示人类肿瘤中效能的动物模型系统中评价化合物抑制肿瘤生长的能力。可选地，能通过熟练的实施者所知的试验检查化合物抑制例如体外抑制的能力来评价组合物的这种性质。治疗化合物的治疗有效量能减小肿瘤大小或另外改善受试者中的症状。本领域的普通技术人员将能基于诸如受试者的大小、受试者症状的严重性和特定的组合物或选择的施用途径这样的因素测定这样的量。

能使用本领域已知的许多种方法中的一个或多个通过一个或多个施用途径施用本发明的组合物。如熟练的技术人员所将理解的，施用的途径和/或方式将根据期望的结果而变化。用于本发明的结合部分的优选的施用途径包括静脉内的、肌肉内的、真皮内的、腹膜内的、皮下的、脊椎的或其它肠胃外的施用途径，例如通过注射或输注。短语“胃肠外施用”如本文所用指除了肠的和局部施用的施用方式，通常通过注射，并且包括，没有限制，静脉内的、肌肉内的、动脉内的、鞘内的、囊内的、眶内的、心内的、真皮内的、腹膜内的、经气管的、皮下的、表皮下的、关节内的、囊下的、蛛网膜下的、脊柱内的、硬膜外的和胸骨内的注射和输注。

可选地，能通过非胃肠外途径诸如局部的、表皮的或粘膜的施用途径施用本发明的蛋白质，例如鼻内地、经口地、阴道地、直肠地、舌下地或局部地。

能将活性化合物与载体一起制备，该载体将保护该化合物抵抗快速释放，诸如控制释放制剂，包括埋植剂、透皮贴片和微型胶囊递送系统。能施用可生物降解的、生物相容的聚合物，诸如乙烯乙酸乙烯酯、聚酐、聚乙醇酸、胶原、聚原酸酯(polyorthoesters)和聚乳酸。这样的制剂的制备的许多方法是取得专利权的或通常是本领域的技术人员已知的。参见，例如Sustained and Controlled ReleaseDrug Delivery Systems，J.R.Robinson，ed.，Marcel Dekker，Inc.，New York，1978。

治疗组合物能与本领域已知的医疗器材一起施用。例如，在优选的实施方式中，本发明的治疗组合物能与无针皮下注射装置，诸如美国专利号5,399,163；5,383,851；5,312,335；5,064,413；4,941,880；4,790,824或4,596,556中公开的装置一起施用。众所周知的埋植剂和在本发明中有用的模块的例子包括：美国专利号4,487,603，其公开了用于以控制的速度分配药的可植入的微量输注泵；美国专利号4,486,194，其公开了用于通过皮肤施用药物的治疗装置；美国专利号4,447,233，其公开了用于以精确的输注速度递送药物的药物输注泵；美国专利号4,447,224，其公开了用于连续的药物递送的变速流可植入的输液器；美国专利号4,439,196，其公开了具有多腔小室的渗透性药物递送系统；和美国专利号4,475,196，其公开了渗透性药物递送系统。本文通过引用并入这些专利。许多其它这样的埋植剂、递送系统和模块是本领域的技术人员已知的。

实施例

实施例的介绍

用于预测易聚集区域和研究聚集机制的分子模拟技术已主要使用比较简单的模拟模型(Ma and Nussinov.Curr.Opin.Chem.Biol.2006，10，445-452；Cellmer，et al.，TRENDS in Biotechnology 2007，25(6)，254)，其与可在本发明中使用的详细的原子论模型不同。使用的最不详细的模拟模型是点阵模型，其在为数众多的蛋白质聚集研究中使用(Harrison et al.J.MoL Biol.1999，286，593-606；Dima and Thirumalai.Protein Sci.2002，11，1036-1049；Leonhard et al.Protein Sci.2004，13，358-369；Patroand Przybycien.Biophys.J.1994，66，1274-1289；Patro and Przybycien.Biophys.J.1996，70，2888-2902；Broglia et al.Proc.Natl.Acad.Sci.U.S.A.1998，95，12930-12933；Istrail et al.Comput.Biol.1999，6，143-162；Giugliarelli et al.Chem.Phys.2000，113，5072-5077；Bratko et al.J.Chem.Phys.2001，114，561-569；Bratko and Blanch J.Chem.Phys.2003，118，5185-5194；Combe and Frenkel Chem.Phys.2003，118，9015-9022；Toma and Toma.Biomacromolecules 2000，1，232-238；Gupta et al.Protein Sci.1998，7，2642-2652；和Nguyen and Hall Biotechnol.Bioeng.2002，80，823-834)。这里每个残基被表示为在三维点阵中占据单一位点的珠子。由于其简单性，点阵模型是计算上要求较少的，并已用于模拟针对长期规模的大系统。尽管这些点阵模型提供蛋白聚集之下的基本物理学的洞察，但是它们未准确地表示二级和三级结构，并不能充分地解释不同原子论水平的相互作用诸如氢键合。

与点阵模型相比更详细的模型是中间分辨率模型，其中通常将几个原子结合进单个珠子中，有时引入假键以保持主链键角和异构化状态(Smith and Hall，Mol.Biol.2001，312，187-202；Smith and Hall.Proteins：Struct.，Funct.，Genet.2001，44，344-360；Smith and Hall.Proteins：Struct.，Funct.，Genet.2001，44，376-391；Nguyen，et al.，Protein Sci.2004，13，2909-2924；Nguyen and Hall，Proc.Natl.Acad.Sci.U.SA.，2004，101(46)，16180-16185；Nguyen and Hall.J.Am.Chem.Soc.，2006，128，1890-1901；Jang，et al.，Biophys.J.2004，86，31-49；Jang，et al.，Protein Sci.2004，13，40-53)。该模型被成功地用于从任意的状态开始从含有12和96个之间的聚丙氨酸肽(每个16个残基)的系统模拟原纤维的形成(Nguyen and Hall，Proc.Natl.Acad.Sci.U.S.A.，2004，101(46)，16180-16185；Nguyen and Hall，J.Am.Chem.Soc.，2006，128，1890-1901)。Dokholyan和同事应用这样的模型来通过八个模型Src SH3结构域蛋白(Ding，et al.，Mol.Biol.2002，324，851-857)或通过28个模型Aβ(1-40)肽(Peng，et al.，Phys.ReV.E：Stat.PhInterdiscip.Top.2004，69，41908-41914.)研究原纤维的β-折叠结构的形成。

与较简单的模型不同，原子论模型包括所有的原子论细节诸如氢键合，因此较点阵模型或中间分辨率模型更准确。这样的原子论模型已与显式溶剂或隐式溶剂一起使用，其中将溶剂处理为连续体。显式模型比隐式模型更准确但在计算上也要求更多。将这样的具有隐式溶剂的原子论模型用于七肽GNNQQNY(SEQ IDNO：1)聚集的早期阶段的研究，该肽是酵母蛋白Sup35的一部分(Gsponer，et al.，Proc.Natl.Acad.Sci.U.S.A.2003，100，5154-5159.)。将相似的模型用于Ab16-22淀粉状肽(KLVFFAE(SEQ ID NO：2))聚集成反向平行的b片层(Klimov andThirumalai，Structure 2003，11，295-307)。Dokholyan和同事(Khare，et al.，Proteins.2005，61，617-632.)使用显式原子论模型来研究沿着酶Cu、Zn超氧化物歧化酶(SOD1)序列的规则聚集倾向。他们已将SOD1序列分解成重叠的七肽并进行了单体、二聚体和四聚体区段的大量显式水分子动力学模拟(每个0.5ns)。用这个他们识别了在SOD1序列中淀粉状蛋白生成的区域是：两个末端，β链4和7，和两个交叉环。

发展了相似的分子动力学模拟方案以获得关于淀粉状蛋白生成多肽的规则β聚集的结构信息(Cecchini et al.，J Mol Biol.2006，357，1306-1321.)。该方法是基于多肽链分解成重叠的区段和小拷贝数的每个区段的平衡分子动力学(MD)模拟。发现沿着阿尔茨海默尔的Aβ(1-42)肽序列的β-聚集倾向是高度异源的，其中最大值在区段V₁₂HHQKLVFFAA₂₂(SEQ ID NO：3)和最小值在四个转角样二肽。使用该技术，使用硫代黄素T结合试验体外检验酵母朊病毒Ura2p的N末端结构域的双点突变体的聚集倾向的预测改变。由于它们的巨大尺寸，将多肽链分解成重叠区段的这样的方法对系统诸如抗体将是非常具有挑战性的。由于抗体的巨大尺寸，甚至显式溶剂中的单个完全抗体的原子论模拟在计算上也要求多。因此，在文献中似乎没有完全抗体的原子论模拟。

然而，已有抗体的小部分的原子论模拟，大部分是针对Fab片段(Noon，et al.，，PNAS.2002，99，6466；Sinha and Smith-Gill，Cell Biochemistry and Biophysics.2005，43，253)。在目前的工作中，用显式溶剂进行完全抗体分子的原子论模拟。基于这些模拟，使用本文描述的‘空间聚集倾向’参数识别抗体上的易聚集区域。然后将这些易聚集区域突变以设计具有增加的稳定性的抗体。本文描述的实施例参考本发明的特定实施方式。

实施例1：分子动力学模拟方法学

使用所有原子模型针对完全抗体进行分子动力学模拟。从单独的Fab和Fc片段的X射线结构获得用于针对完全抗体的模拟的最初结构。选择概念验证(proof-of-concept)(POC)Fab片段的X射线结构用于在从IgG1抗体1HZH获得的Fc的X射线结构上做模型(Saphire et al.，Science.2001，293，1155)。由于对于完全抗体，X射线结构是已知的，并且由于Fc结构对抗体的所有IgG1类是相同的，所以选择1HZH。然后通过使用1HZH结构作为模型模板校准Fab和Fc片段而获得完全POC抗体的结构。为了在正确的距离和方向校准片段，将片段的共同CYS残基和完全抗体模板(1HZH)之间的RMSD(均方根偏差)减到最小。选择CYS残基是因为每个抗体亚域(cH1、cH2等)含有二硫键，以及因此CYS残基广泛分布于整个抗体结构。然后将所得的完全抗体结构用于进行针对30ns的显式原子模拟。由于G0糖基化模型是在抗体中观察到的最普通的糖基化模型，所以将其用于模拟。

CHARMM模拟程序包(Brooks et al.J.Comput.Chem.，1983，4，187)用于建立和分析，NAMD程序包(Phillips et al.Journal of Computational Chemistry.2005，26，1781)用于进行模拟。CHARMM完全地原子论力场(MacKerell et al.J.PhysChem.B.1998，102，3586)用于针对水的蛋白质和TIP3P(Jorgensen et al.J.Chem.Phys.，1983，79，926)溶剂模型。在NPT系综中的298K和1atm进行模拟。取得针对参与Fc片段糖基化的糖基的参数，与CHARMM力场一致，接下来来自CSFF力场(Kuttel et al.J.Comput.Chem.，2002，23，1236)。基于电负性基团的空间接近度，选择在pH-7的组氨酸残基的质子化状态。将完全抗体在正交晶系盒中形成溶剂化物，由于这使需要的水分子数目减到最小，因此使计算时间减到最少。在所有3个方向使用周期边界条件。在正交晶系盒的每个方向使用

的水溶剂化层。所得的总系统大小是202130个原子。加入足够的离子以中和系统的总电荷。用以计算系统中静电相互作用的贡献的Ewald求和技术需要电中性。

将抗体形成溶剂化之后，通过固定蛋白以允许水在蛋白质周围松弛，用SD(最速下降)使能量最初减到最小。然后去除限制，用SD和ABNR(牛顿-拉菲森法(Adopted Basis Newton-Raphson))将结构进一步减小。然后使用较少的时间步骤每0.5ps 5℃的增加量将系统缓慢地加热到室温。然后在计算来自模拟的感兴趣的性质之前将该系统平衡1ns。模拟期间每0.1ps保存构型用于进一步的统计学分析。

实施例2：空间聚集倾向(SAP)的计算

为了克服SAA的缺点，将新的参数定义，称作如上面所描述的‘空间聚集倾向’。

在这个实施例中，为集中在实施例1描述的抗体中的每个原子上的具有半径R的球形区域计算‘空间聚集倾向’。因此用针对抗体的Fc片段的30ns模拟平均数对两个不同的补丁半径

评价空间聚集倾向的值(本领域的技术人员将理解根据可用的计算资源和期望的结果分辨率可选择用于模拟的各个时间步骤)。在两种情况下，注意到多个数值是负的，表示最暴露的区域是亲水的。这如同所期望的，由于多数暴露的蛋白质表面通常是亲水的。还观察到有具有针对空间聚集倾向的正峰的几个区域，其表示高暴露的疏水性。从补丁的较低的半径

进行到较高的半径

除去一些峰，而提高了一些其它的峰。除去了一些峰因为在这些区域中亲水补丁包围着小的疏水补丁(具有小于

的半径)；因此，将超过

的平均化导致针对该区域的疏水性有效的降低。而在一些其它区域，由于包围相似的疏水补丁的疏水补丁，在的空间聚集倾向提高了。

在上面，在30ns模拟运行期间将空间聚集倾向计算为平均数。然后将使用模拟计算的结果与仅仅X射线结构空间聚集倾向比较，而没有分子模拟。空间聚集倾向(X射线)与平均化的模拟值的空间聚集倾向相似，在相同的位置具有峰，但是在峰的大小上有差别。在补丁的较大半径，

这些差别更高。这可能是因为当看大的补丁大小时，差别是累积的。由于动力学模拟运行中残基的不断改变的表面暴露，这些差别出现了。尽管如此，该比较显示从X射线结构本身能获得空间聚集倾向的好的最初评价，尤其是针对补丁R的低半径。

将来自模拟的针对

的空间聚集倾向值绘制到抗体结构上。在两种情况下，根据空间聚集倾向的值给抗体表面涂颜色。空间聚集倾向的正值(疏水的)以灰色或黑色显示，而负值(亲水的)以较浅的灰色或白色显示。颜色的强度与SES的量级成比例。因此高度暴露的疏水补丁将是深黑色，相似地，高度暴露的亲水补丁将是较亮的白色。同时抗体的结构表示是基于每个残基的溶剂可及面积。在空间聚集倾向的计算中使用的两个半径

下观察到，表面主要是白色，表明表面主要是亲水的。这再次如所期望的，由于多数蛋白质表面通常是亲水的。然而，几个黑色区域是令人注目的，表示暴露的疏水区域。黑色和白色区域之间的对比在SAP的计算中使用的补丁的较高半径，

更显著。这些黑色(疏水的)区域与已知与其它蛋白质相互作用的抗体的区域具有极好的相关性：铰链区中的深黑色区域是Fc-受体相互作用的地方，Fc片段中的黑色区域是蛋白A和蛋白G相互作用的地方，在Fab片段末端的黑色补丁是抗体结合抗原的地方。

分别绘制空间聚集倾向，其中可观察到峰与相互作用区域的相同的相关性。从蛋白复合体，PDB条目1T89、1FC2和1FCC的X射线结构获得蛋白质相互作用位点(Radaev，J.Biol.Chem.2001，276(19)16469；Deisenhofer et al.Hoppe-Seyler′s Z Physiol Chem.1978.359，975-985；Deisenhofer，J.Biochemistry.1981，20，2361-2370；Sauer-Eriksson et al.Structure.1995，3，265)。疏水的相互作用与正峰相关联非常好，亲水的相互作用与负峰相关联好。因此，同样能将空间聚集倾向参数用于预测蛋白质的结合位点。在几乎没有的例外中，其中具有低的空间聚集倾向(即接近零，正的或负的)的残基也相互作用，观察到相互作用实际上是与主骨架链自身的原子，而不是与侧链。

除了已显示与其它蛋白质相互作用的黑色补丁，还识别了抗体表面上另外的黑色补丁。在Fc底部的一个补丁是显著疏水的，但是它被稍微埋在内部，亲水区域在其边缘上。相似地，两个补丁是疏水的和溶剂暴露的，但是它们正面对抗体的内部。如果由于抗体的显著的构象变化或解折叠，这些补丁被暴露，它们仍然能潜在地参与与其它蛋白质的相互作用。还能在较小的补丁半径

下观察到所有的疏水补丁，尽管与较高的补丁半径

相比具有较小的差异。

也将基于仅仅X射线结构的空间聚集倾向(X射线)值绘制到抗体表面上以比较它们与模拟平均值。黑色的疏水易聚集区域补丁在通过模拟或使用仅仅X射线结构计算的空间聚集倾向之间非常相似。当然存在一些差别，诸如在蛋白A和蛋白G相互作用的区域中的补丁的强度。尽管如此，这种比较显示基于仅仅X射线结构的空间聚集倾向(X射线)能用于获得表面上疏水补丁分布的良好描述。这是重要的，由于完全抗体的原子论模拟在计算上要求多。对于缺少X射线结构模型的蛋白，能将相同的空间聚集倾向参数应用于通过同源建模或从头开始的结构预测产生的结构。观察到同源结构与X射线结构非常相似，其空间聚集倾向值也与X射线结构相似。

因此空间聚集倾向识别抗体表面上的疏水补丁。这些补丁能固有地暴露或由于抗体的动态波动或局部的解折叠而暴露。这些疏水补丁中的一些也与同其它蛋白质相互作用的区域良好地相关联。为了检测通过空间聚集倾向预测的这些疏水补丁是否同样参与聚集，在这些具体区域中进行突变以将疏水的残基改变成亲水的残基。所得的抗体显示较少的聚集行为和提高的稳定性。除了识别易聚集残基，还观察到SAP方法正确地识别易于与其它蛋白质结合的抗体区域。因此，该方法能广阔地应用于所有蛋白质以识别易聚集区域或与其它蛋白质的结合区域。

实施例3：用于稳定性工程的抗体位点的选择

在SAP参数的基础上选择为增加的抗体稳定性而要设计的的位点。该空间参数说明(1)每个残基的溶剂可及面积(SAA)，(2)残基的疏水性，和(3)一定半径内所有残基的空间贡献。在这个实施例中，将相当于CH2中正峰的疏水残基改变成非疏水的残基。期望这将提高总的蛋白稳定性。两个选择的位点(A1和A2)对应于两个非常疏水的残基。对这些残基用赖氨酸的替代进行分析，赖氨酸是具有带有正电荷的侧链的非常亲水的氨基酸。通过单个氨基的替代，变体A1和变体A2与野生型不同。

实施例4：抗体变体的表达和纯化

通过位点定向诱变产生抗体变体。用DNA序列测定证实所有的构建物。将在mg规模的质粒DNA从细菌培养物中纯化并瞬时转染进HEK 293细胞。将抗体野生型和变体从蛋白A柱上的组织培养上清液中纯化并通过Q琼脂糖柱以去除带负电荷的杂质。在pH 7.0和以下，抗体带正电荷并保留在穿透液中，而带负电荷的杂质结合到Q琼脂糖柱的带负电荷的基质。将具有纯化的抗体的溶液浓缩并用pH 6.5的20mM His缓冲液缓冲液更换到150mg/ml的终浓度。

作为质量控制，通过SDS-PAGE和圆二色性分析纯化并浓缩的样品的等分试样。还原和非还原状态都用于蛋白质凝胶。我们还通过圆二色性比较了野生型抗体和变体A1的二级结构。

实施例5：生物物理学表征

在加速聚集实验中将变体A1的稳定性与野生型比较。将pH 6.5的20mM His缓冲液中150mg/ml的样品在58℃温育达24小时。通过用pH 6.5的15mM K-磷酸盐缓冲液稀释样品至10mg/ml而终止温育，用SEC-HPLC测定聚集的百分比。将聚集计算为所有非单体峰的面积总和除以所有峰的总面积。显示每个时间点的2-4个样品的平均值。针对变体A1的聚集体低达针对野生型的聚集体的80％。因此，单个点突变降低聚集体形成达20％。

用差示扫描微量量热法(DSC，Microcal)比较野生型和变体A1。完全抗体是多结构域蛋白。DSC分析表明针对不同结构域的不同的熔解温度(Ionescu，R.M.，etal.，J Pharm Sci.2008，97(4)：p.1414-26；Mimura，Y.，et al.，J Biol Chem.2001，276(49)：p.45539-47.)。人IgG1 Fc的恒定的CH2和CH3结构域在中性pH下分别具有70℃和82℃附近的熔解温度(Ionescu，R.M.，et al.，J Pharm Sci.2008，97(4)：p.1414-26；Mimura，Y.，et al.，Role of oligosaccharide residues of IgG1-Fc in Fcgamma RIIb binding.J Biol Chem，2001.276(49)：p.45539-47.)。依赖抗体可变结构域的序列，关于CH2和CH3，Fab片段可具有不同的熔解温度。抗体C含有具有解折叠转换的Fab结构域，其在CH2和CH3的转换之间下降。因此，CH2是具有最低熔解温度的抗体结构域。

以在pH 6.5的15mM His缓冲液中2mg/ml的浓度和每分钟1.5度的加热速度分析野生型和变体A1。通过参考数据的减去、标准化到蛋白浓度和DSC细胞体积，和立方基线的插入而分析样本数据。热图的比较显示，相对于野生型，变体A1中CH2熔解转换的增加。

也是基于空间聚集倾向值为了稳定性而设计的变体A2的分析，概括了针对变体A1的发现结果。

综上所述，工程抗体变体的生物物理学分析显示降低的聚集和增加的稳定性。设计的位点、变体稳定性和DSC分布之间强的相关性是用于稳定治疗蛋白的方法学的有效性的证据。

实施例6：有效SAA

已观察到有效SAA(3残基总和)中的峰可与蛋白结构中的易聚集区域相关联。相应地，有效SAA可被用作分开的、虽然不那么强大的识别蛋白质的易聚集区域的方法。高的有效SAA(3残基总和)值表示最疏水的区域，低的值表示最亲水的区域。从1.2ns(折叠的)和1ns(错折叠的)的短分子模拟获得关于具有聚集体形成倾向的测试蛋白的数据。为蛋白质的残基将有效SAA绘图，观察到有效SAA峰和蛋白质结构的键合网络中的错配之间有良好的相关性。这表明有效SAA正准确地识别促进蛋白错折叠或聚集的蛋白质结构的残基。制备了测试蛋白质的几个突变体，至少一个在保留适当折叠的蛋白质结构中显示有希望的结果。

实施例7：使用SAP的蛋白结合区域的预测

SAP方法用于预测蛋白结合位点。对两个不同的蛋白：IgG1抗体和EGFR预测结合区域。众所周知，IgG1抗体与蛋白诸如Fc受体、蛋白A和蛋白G结合。EGFR与表皮生长因子(EGF)、转化生长因子(TGFα)结合并还与自身结合以形成二聚体。将针对IgG1抗体和EGFR的这些结合区域用作模型以显示SAP工具在预测结合区域中的能力。

分子模拟方法

使用具有显式溶剂的总原子模型针对完全IgG1抗体进行分子动力学模拟。通过附上抗体单独的Fab和Fc片段的X射线结构获得用于模拟的起始结构。从Novartis PharmaAG获得Fab片段的X射线结构。从相似序列的另一个IgG1抗体，1HZH获得Fc片段的X射线结构(Saphire et al.，Science.2001，293，1155)。然后通过用1HZH结构作为模型模板校准Fab和Fc片段而获得完全抗体的结构。将该抗体结构称作抗体A。为了在正确的距离和方向校准这些片段，将在片段的共同CYS残基和完全抗体模板(1HZH)之间的RMSD(均方根偏差)最小化。然后将该结构用于进行外在原子模拟30ns。所得的抗体A中的CYS残基都参与二硫键，包括铰链区中的二硫键。由于G0糖基化模式是抗体中观察到的最通常的糖基化模式之一，所以将其用于模拟。

CHARMM模拟程序包(Brooks et al.J.Comput.Chem.，1983，4，187)用于建立和分析，NAMD程序包(Phillips et al.Journal of Computational Chemistry.，2005，26，1781)用于进行模拟。CHARMM完全的原子论力场(Phillips et al.Journal ofComputational Chemistry.2005，26，1781)用于针对水的蛋白质和TIP3P(Jorgensen etal.J.Chem.Phys.，1983，79，926)溶剂模型。在NPT系综中在298K和1atm进行模拟。取得参与Fc片段糖基化中的糖基的参数，与CHARMM力场一致，接下来来自CSFF力场(Kuttel et al.J.Comput.Chem.，2002，23，1236)。基于电负性基团的空间接近度决定在pH-7的组氨酸残基的质子化状态。在正交晶系盒中完全抗体被溶剂化，由于这使需要的水分子数目减到最小，因此使需要的计算时间减到最少。在所有3个方向使用周期边界条件。在正交晶系盒的每个方向使用

的溶剂化层。所得的总的系统大小是202，130个原子。观察到正交晶系盒在30ns模拟期间保持稳定，而在所有三个轴上盒的尺寸没有任何变化。最初的盒的尺寸分别是

和

它们在30ns模拟期间变化非常小，结束时分别是161.2

抗体在30ns模拟期间没有显著地旋转，由此保持抗体和其周期的图像之间超过

的最小距离。加入足够的离子以中和系统的总电荷。用于计算归功于静电相互作用的贡献的Ewald求和技术需要电中性。

将抗体溶剂化之后，通过固定蛋白以允许水在蛋白质周围松弛，用SD(最陡下降)使能量最初减到最小。然后去除限制，用SD和ABNR(牛顿-拉菲森法(Adopted Basis Newton-Raphson))将结构进一步减小。然后使用1fs时间步骤以每0.5ps 5℃的增加量将系统缓慢地加热到室温。然后在开始计算来自模拟的各种性质之前将该系统平衡1ns。模拟期间每0.1ps保存构型用于进一步的统计学分析。

预测IgG1抗体的结合区域的SAP工具

将SAP工具应用于从分子模拟获得的蛋白质构造。为了在高通量应用中更快的预测，还能将SAP工具应用于蛋白质X射线结构或同源衍生的结构，具有可导致准确性丧失的警告。可将针对蛋白质中每个原子的SAP值定义如下，

这里，

1)在每个模拟快照上计算半径R内的侧链原子的SAA。

2)通过计算完全伸展的三肽‘Ala-X-Ala’构象中中间残基的侧链SAA，获得完全暴露的残基(说的是氨基酸‘X’)的侧链SAA。

3)从Black和Mould的疏水性标度(Black and Mould，Anal.Biochem.1991，193，72-82)获得残基疏水性。将该标度标准化，这样甘氨酸具有零的疏水性。因此，在疏水的标度上，较甘氨酸更疏水的氨基酸是正的，较甘氨酸更不疏水的是负的。

SAP产生集中在蛋白质表面上给定原子的某一补丁的动态暴露的疏水性。为集中在蛋白质每个原子上具有半径R的球形区域计算SAP。这产生针对每个原子的独特的SAP值。然后通过将残基的所有组成原子的SAP平均化而获得残基的SAP。因此使用为IgG1抗体评价SAP值，使用色度将该值绘制到抗体表面以表示-0.5至+0.5内的SAP值。通过平均化超过30ns的完全抗体原子论模拟而计算这些SAP值。注意在每个残基的SAP值产生集中在那个残基上的补丁的全部暴露的疏水性，不是仅仅针对单个残基的疏水性。还将疏水性标度(S.D.Black andD.R.Mould，Anal.Biochem.193，72(1991))直接绘制到表面上用于比较。当观察疏水图时，疏水区似乎是遍及表面随机分布，而挑选某一个与其它区域相比更占主导的疏水区域将是困难的。然而，检查相同结构的SAP图之后，发现表示动态地暴露的疏水区域的高SAP区域是容易的。由于这些补丁的疏水性质，它们暴露于水是热动力学上不利的。因此，为了减少它们的溶剂暴露，它们将参与蛋白结合。将这些高SAP区域识别为‘1’至‘6’。补丁‘1’和‘6’位于Fab片段，补丁‘2’至‘5’位于Fc片段。补丁‘1’至‘3’是公开地暴露的，因此，能容易地与其它蛋白质相互作用。另一方面，补丁‘4’至‘6’是溶剂可及的，但正对着蛋白质，使它们与其它蛋白质相互作用困难，除非由于解折叠，它们被更公开地暴露。

接下来，检测高SAP区域的相关性，该区域表示具有蛋白结合区域的暴露的疏水补丁。将抗体与Fc受体、蛋白A和蛋白G的结合区域绘制到SAP值的顶端。从蛋白复合体，PDB条目1T89、1FC2和1FCC的X射线结构获得蛋白结合位点(S.Radaev，et al.，J.Biol.Chem，276(19)16469(2001)；Deisenhofer，J.，et al.Hoppe-Seyler′s Z.Physiol.Chem.359，975-985(1978)；Deisenhofer，J，Biochemistry20，2361-2370(1981)；Sauer-Eriksson A.E.et al，Structure，3，265(1995))。在通过SAP识别的疏水补丁和蛋白结合区域之间发现强的相关性。抗原与标记为SAP补丁‘1’的CDR环形区域结合，Fc受体与SAP补丁‘2’结合，蛋白A和蛋白G与SAP补丁‘3’结合。此外，DeLano等(DeLano W.L，et al.，Science 287，1279(2000))显示蛋白A和蛋白G结合的区域(SAP补丁‘3’)是一致的结合区域，其对于结合针对高亲和力体外选择的随机肽是主导的。还认为补丁‘3’与类风湿因子和新生的Fc受体结合。因此，如通过SAP所表明的补丁‘3’的疏水可及性使它成为与为数众多的蛋白结合的有利区域。非常值得注意地，所有的3个公开地暴露的补丁(SAP补丁‘1’至‘3’)参与结合。补丁的核心参与疏水的相互作用，而边缘参与极性的相互作用。

分析

的SAP以发现参与与其它蛋白质的结合的宽广的疏水补丁。使用较高的分辨率下的SAP，即在SAP计算中使用的较低的半径R下，能更详细地探究这些补丁。因此，在

为抗体计算SAP值。将这些SAP值绘制到抗体表面上。这里，正的SAP值表示动态地暴露的疏水补丁，而负的SAP值表示动态地暴露的亲水补丁。还识别与Fc受体、蛋白A和蛋白G结合的区域。与SAP在R＝10

的结果相似，在

下的SAP也显示蛋白结合区域与SAP值中的峰之间强的相关性。疏水的结合区域与正峰相关联良好，亲水的(极性的)结合区域与负峰相关联良好。在几乎没有的例外中，其中具有低的SAP(即接近零，正的或负的)的残基也相互作用，我们观察到相互作用实际上是与主骨架链自身的原子，而不是与侧链。

SAP预测结合区域和易聚集区域

已证明SAP中的峰还对应于易于蛋白质自我聚集的区域(Chennamsetty，N.，etal.Design of therapeutic antibodies with enhanced stability(Submitted))。聚集是治疗蛋白的主要降解途径，导致它们活性的丧失和潜在的免疫原性。在SAP的峰上设计的突变导致具有较小聚集倾向的稳定抗体(Chennamsetty，N.，et al.Design oftherapeutic antibodies with enhanced stability(Submitted))。通过将SAP峰中的疏水残基改变为亲水残基而产生的8个突变体是A1(L235K)、A2(I253K)、A3(L309K)、A4(L235K L309K)、A5(L234K L235K)、A6(L235S)、A7(V282K)和A8(L235KV282K L309K)。然后使用加速聚集实验在150mg/ml热应力下检测这些突变体的聚集行为。SEC-HPLC(体积排阻高效液相色谱法)结果显示单体从野生型的91％增加到变体的92-97％，表明突变体的较小的聚集倾向。因此，具有高SAP的位点也代表高聚集倾向的区域。

SAP工具因此预测蛋白结合区域和易聚集区域。可能的解释是蛋白聚集也是蛋白-蛋白结合的形式，纵使在相同种类的蛋白内。而且，显示在一些易聚集区域和蛋白结合区域之间有重叠。该重叠从参与蛋白结合和聚集的残基L235和I253来看是明显的。在显示易聚集区域与蛋白结合区域重叠的另一个IgG1抗体上进行相似的SAP分析和蛋白质工程(Chennamsetty，N.，et al.Design of therapeuticantibodies with enhanced stability(Submitted))。在这种情况下，在抗体结合抗原的CDR区进行突变。在CDR区的所得的突变体显示较小的聚集倾向，但不能结合抗原并丧失它们的活性。因此，对于蛋白结合和易聚集区域有共同的特性。这与从序列进行的其它计算的预测一致，蛋白结合和易聚集区域重叠(Wang，X.et al.，mAbs，1，1-14(2009))。因此，通过SAP识别的动态暴露的疏水补丁参与蛋白结合和蛋白自我聚集。

然而蛋白结合位点和易聚集位点之间的重叠提出治疗蛋白设计的一个新挑战，因为当保留对其功能必需的蛋白结合时需要阻止聚集。为了解决该挑战，能将在较高分辨率

下的SAP分析用于定位和修饰结合区域周围的易聚集位点，而不干扰蛋白结合。例如，在IgG1抗体上使用SAP分析，测得位点I253、L309和V282都是参与聚集的宽广补丁(SAP区域‘3’)的部分(Chennamsetty，N.，et al.Design of therapeutic antibodies with enhanced stability(Submitted))。设计包括位点L309和V282{A3(L309K)、A4(L235K L309K)、A7(V282K)和A8(L235KV282K L309K)}的突变体，遗漏参与结合蛋白A的位点I253。所得的突变体显示较小的聚集倾向同时仍结合蛋白A。因此，能将SAP技术有效地用于设计具有较小的聚集倾向同时保留结合蛋白能力的蛋白。

SAP预测EGFR的结合区域

除了抗体，在另一个称作表皮生长因子受体(EGFR)的蛋白上进行SAP分析以预测其结合区域。EGFR是通过包括表皮生长因子受体(EGF)和转化生长因子β(TGFβ)在内的特定配体的结合而活化的细胞表面受体。EGFR过量表达或过度活动已与许多癌症诸如肺癌和脑癌相关。EGFR也与自身结合以形成二聚体。在EGFR上进行SAP分析以看看预测的结合区域是否与EGF、TGFα以及二聚体形式中的另一个EGFR的结合区域一致。

将对EGFR在

下评价的SAP值绘制到EGFR表面上。通过对从PDB条目1IVO获得的EGFR的X射线结构直接地进行分析而计算这些SAP值(Ogiso，H.et al.，Cell，110：775-787(2002))。也将疏水性标度(S.D.Black and D.R.Mould，Anal.Biochem.193，72(1991))绘制到EGFR表面上用于比较。如较早地在抗体的情况下所看到的，针对EGFR的疏水残基遍及表面分布，而分离潜在地参与结合的残基将是困难的。然而，发现表示空间上暴露的疏水区域的高SAP区域是相对容易的。识别两个这样的主要补丁，标记为‘1’和‘2’。

将EGFR与EGF、TGFα、以及与二聚体形式中的另一个EGFR的已知结合区域绘制到SAP值的顶部。从蛋白复合体，PDB条目1T89、1FC2和1FCC的X射线结构获得这些蛋白结合位点(Ogiso，H.，et al.Cell，110：775-787(2002)；Garrett，T.P.J.，et al.Cell，110：763-773(2002))。该绘图表明在通过SAP识别的疏水补丁和蛋白结合区域之间强的相关性。EGFR与EGF和TGFα在SAP补丁‘1’和另一个较小的补丁中结合。它也与另一个EGFR在SAP补丁‘2’中结合。因此，这两个主要的SAP补丁都参与结合。再次如在抗体的情况下，补丁的核心参与疏水的相互作用，而边缘参与极性的相互作用。因此，SAP准确地预测EGFR的结合区域。

结论

已描述了称作SAP的计算工具，其提供了疏水补丁的动态暴露的测量，能将该测量用于预测蛋白结合区域。使用两个模型蛋白，IgG1抗体和EGFR，显示SAP准确地预测蛋白结合区域。在IgG1抗体的情况下，与Fc受体、蛋白A和蛋白G的结合区域与SAP峰相关联良好。对于EGFR，与EGF、TGFβ、以及与另一个EGFR的结合区域与SAP峰相关联良好。因此，显示SAP在预测结合区域中是准确的，证明了用于蛋白-蛋白结合的疏水暴露的补丁的重要性。在其它蛋白上也能进行相同的SAP分析以预测它们的结合区域。此外，已显示一些蛋白结合区域与易聚集区域重叠。这对治疗蛋白设计提出一个挑战，因为当保留对其功能必需的蛋白结合时必需阻止不利的聚集。已显示能使用SAP分析，接下来通过蛋白质工程克服该挑战。使用SAP，能检测和修饰参与聚集的、接近结合位点的位点，以减少聚集倾向同时保留结合。这用IgG1抗体证明，在IgG1抗体上，将接近蛋白A结合位点的易聚集区域修饰以降低聚集同时保留结合能力。能在接近抗原结合区域进行基于SAP的相似的蛋白质工程以减少聚集倾向同时保留活性。因此，能将这里描述的SAP工具用于设计稳定的治疗蛋白，而同时保留它们的结合位点。还能将SAP工具用于为来自结构基因组学启动的众多蛋白测定仍然未知的结合位点，由此为它们的功能提供重要的线索。

等价形式

本领域的技术人员将使用不超过常规的试验识别或能确定本文所述发明的特定实施方式的许多等价形式。所附的权利要求试图包括这样的等价形式。

Claims

1.识别蛋白质上的易聚集区域的方法，包括：

(a)将空间聚集倾向SAP绘制到所述蛋白质的结构模型上，所述SAP如下计算：

(i)识别代表所述蛋白质的结构模型中的一个或多个原子或一个或多个氨基酸残基，其中所述一个或多个原子位于集中于特定原子上或其附近的限定空间区域内，或者所述一个或多个氨基酸残基具有集中于所述特定原子上或其附近的限定空间区域内的至少一个原子；

(ii)针对所述限定空间区域中的所述一个或多个原子或一个或多个氨基酸残基，计算所述原子的溶剂可及面积SAA与完全暴露的同一残基中的原子的SAA的比；

(iii)用所述一个或多个原子的原子疏水度或用通过氨基酸疏水性标度所测定的所述一个或多个氨基酸残基的疏水度乘以每个比；和

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；和

(b)识别具有SAP>0的多个原子的所述蛋白质内的区域；

其中所述易聚集区域包括包含所述多个原子的氨基酸。

2.权利要求1的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

3.识别蛋白质上的易聚集区域的方法，包括：

识别一个或多个氨基酸，所述氨基酸含有一个或多个具有大于所选阈值的空间聚集倾向SAP的原子，

其中所述SAP如下计算：

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；

并且其中所述易聚集区域包括所述识别的氨基酸。

4.权利要求3的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

5.识别蛋白质上的易聚集区域的方法，包括：

绘制空间聚集倾向SAP值的图，所述SAP值如下计算：

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；和

为所述图中的峰计算曲线下面积AUC；和

识别一个或多个具有正的AUC的蛋白质区域，

其中所述易聚集区域包括所述识别的蛋白质区域。

6.权利要求5的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

7.制备显示降低的聚集倾向的蛋白质变体的方法，包括：

替代或缺失所述蛋白质中易聚集区域内的至少一个氨基酸残基，

其中使用空间聚集倾向SAP得分识别所述易聚集区域，所述SAP得分如下计算：

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；和

其中，如果替代所述氨基酸残基，用更亲水的氨基酸残基替代它，这样所述变体的所述聚集倾向降低了。

8.权利要求7的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

9.权利要求7的方法，其中替代至少一个残基和缺失至少一个残基。

10.制备显示降低的聚集倾向的蛋白质变体的方法，包括：

(a)通过在每个变体中替代所述蛋白质中易聚集区域内的至少一个残基而产生多个蛋白质变体，

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；和

其中在每个变体中，替代一个或不同残基或不同的残基组合；

其中用更亲水的氨基酸残基替代所述至少一个残基；和

(b)选择如(a)中制备的显示降低的聚集倾向的蛋白质变体。

11.权利要求10的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

12.权利要求7至权利要求11中任一项的方法，其中易聚集区域内所述至少一个氨基酸残基是所述易聚集区域中最疏水的残基。

13.权利要求7至权利要求11中任一项的方法，其中易聚集区域内所述至少一个氨基酸残基是Phe、Leu、Ile、Tyr、Trp、Val、Met、Pro、Cys、Ala或Gly。

14.权利要求7至权利要求11中任一项的方法，其中所述更亲水的氨基酸残基选自Thr、Ser、Lys、Gln、Asn、His、Glu、Asp和Arg。

15.权利要求7至权利要求11中任一项的方法，其中所述更亲水的氨基酸残基是稀有的、非天然的或修饰的氨基酸。

16.权利要求7至权利要求11中任一项的方法，其中根据Black和Mould的疏水性标度确定所述更亲水的氨基酸残基。

17.权利要求7至权利要求11中任一项的方法，其中替代所述易聚集区域内的至少两个氨基酸残基。

18.权利要求7至权利要求11中任一项的方法，其中替代所述易聚集区域内的至少三个氨基酸残基。

19.权利要求7至权利要求11中任一项的方法，其中替代所述蛋白质内超过一个易聚集区域内的至少一个残基。

20.权利要求7至权利要求11中任一项的方法，其中根据权利要求1至权利要求6中任一项所述的方法识别所述易聚集区域。

21.权利要求1-8或10-11中任一项的方法，其中所述蛋白质选自抗体、Fab片段、Fab’片段、Fd片段、Fv片段、F(ab')₂片段和Fc片段。

22.权利要求1-8或10-11中任一项的方法，其中所述蛋白质是细胞因子、趋化因子、脂因子、肌因子、神经递质、神经营养蛋白、白细胞介素或干扰素。

23.权利要求1-8或10-11中任一项的方法，其中所述蛋白质是激素或生长因子。

24.权利要求1-8或10-11中任一项的方法，其中所述蛋白质是受体或受体域。

25.权利要求1-8或10-11中任一项的方法，其中所述蛋白质是神经递质或神经营养蛋白。

26.权利要求1-8或10-11中任一项的方法，其中所述蛋白质是拟肽，包含非天然氨基酸的蛋白质或包含稀有氨基酸的蛋白质。

27.制备包括蛋白质变体的药物组合物的方法，所述蛋白质变体显示减小的聚集倾向，所述方法包括将根据权利要求7、8、10或11的方法获得的蛋白质变体与药学上可接受的载体、佐剂和/或赋形剂配制在一起。

28.识别蛋白质上的大分子结合区域的方法，包括：

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；和

(b)识别具有SAP>0的多个原子的所述蛋白质内的区域；

其中所述大分子结合区域包括包含所述多个原子的氨基酸。

29.权利要求28的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

30.识别蛋白质上的大分子结合区域的方法，包括：

识别一个或多个氨基酸，所述氨基酸含有一个或多个具有大于所选阈值的空间聚集倾向SAP的原子；

其中所述SAP如下计算：

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；

并且其中所述大分子结合区域包括所述识别的氨基酸。

31.权利要求30的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

32.识别蛋白质上的大分子结合区域的方法，包括：

绘制空间聚集倾向SAP值的图，所述SAP值如下计算：

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；

为所述图中的峰计算曲线下面积AUC，和

识别一个或多个具有正的AUC的蛋白质区域，

其中所述大分子结合区域包括所述识别的蛋白质区域。

33.权利要求32的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

34.制备显示对大分子降低的结合亲和力的蛋白质变体的方法，包括：

替代或缺失针对所述蛋白质中的所述大分子的大分子结合区域内的至少一个氨基酸残基，

其中使用空间聚集倾向SAP得分识别所述大分子结合区域，所述SAP得分如下计算：

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；和

其中，如果替代所述氨基酸残基，用更亲水的氨基酸残基替代它，这样降低了所述变体对所述大分子的所述结合亲和力。

35.权利要求34的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

36.权利要求34的方法，其中替代至少一个残基和缺失至少一个残基。

37.制备显示针对大分子的改变的结合亲和力的蛋白质变体的方法，包括：

(a)通过在每个变体中替代针对所述蛋白质中所述大分子的大分子结合区域内的至少一个残基，产生多个蛋白质变体，

(iv)对步骤(iii)的乘积求和；

借此该和是针对所述特定原子的SAP；和

其中在每个变体中，替代一个或不同残基或不同的残基组合；和

(b)选择如(a)中所制备的显示对所述大分子改变的结合亲和力的蛋白质变体。

38.权利要求37的方法，其中通过在步骤(i)之前进行分子动力学模拟和重复步骤(i)-(iv)计算针对所述特定原子的SAP，每次以多个时间步骤进行进一步的分子动力学模拟，由此如在步骤(iv)中产生多个和，和计算所述多个和的平均值；借此所述计算的平均值是针对所述特定原子的SAP。

39.权利要求34至权利要求38中任一项的方法，其中所述大分子结合区域内的至少一个氨基酸残基是所述大分子结合区域中最疏水的残基。

40.权利要求34至权利要求38中任一项的方法，其中易聚集区域内所述至少一个氨基酸残基是Phe、Leu、Ile、Tyr、Trp、Val、Met、Pro、Cys、Ala或Gly。

41.权利要求34至权利要求36中任一项的方法，其中所述更亲水的氨基酸残基选自Thr、Ser、Lys、Gln、Asn、His、Glu、Asp和Arg。

42.权利要求34或35的方法，其中所述更亲水的氨基酸残基是稀有的、非天然的或修饰的氨基酸。

43.权利要求34或35的方法，其中根据Black和Mould的疏水性标度确定所述更亲水的氨基酸残基。

44.权利要求34至权利要求38中任一项的方法，其中替代所述大分子结合区域内的至少两个氨基酸残基。

45.权利要求34至权利要求38中任一项的方法，其中替代大分子结合区域内的至少三个氨基酸残基。

46.权利要求34至权利要求38中任一项的方法，其中替代所述蛋白质内超过一个大分子结合区域内的至少一个残基。

47.权利要求34至权利要求38中任一项的方法，其中根据权利要求28至权利要求33中任一项所述的方法识别所述大分子结合区域。

48.权利要求34至权利要求38中任一项的方法，其中所述大分子是另一个蛋白质、多核苷酸或多糖。

49.权利要求34至权利要求38中任一项的方法，其中所述蛋白质选自抗体、Fab片段、Fab’片段、Fd片段、Fv片段、F(ab')₂片段和Fc片段。

50.权利要求34至权利要求38中任一项的方法，其中所述蛋白质是细胞因子、趋化因子、脂因子、肌因子、神经递质、神经营养蛋白、白细胞介素或干扰素。

51.权利要求34至权利要求38中任一项的方法，其中所述蛋白质是激素或生长因子。

52.权利要求51的方法，其中所述大分子是激素受体或生长因子受体。

53.权利要求34至权利要求38中任一项的方法，其中所述蛋白质是受体或受体域。

54.权利要求53的方法，其中所述大分子是所述受体或受体域的受体激动剂或受体拮抗剂。

55.权利要求34至权利要求38中任一项的方法，其中所述蛋白质是神经递质或神经营养蛋白。

56.权利要求55的方法，其中所述大分子是神经递质受体或神经营养蛋白受体。

57.制备包括蛋白质变体的药物组合物的方法，所述蛋白质变体显示改变的与结合配偶体相互作用的倾向，所述方法包括将根据权利要求34、35、37或38的方法获得的蛋白质变体与药学上可接受的载体、佐剂和/或赋形剂配制在一起。