CN103014880B

CN103014880B - 基于蛋白a亲和模型构建免疫球蛋白g的亲和配基多肽库及设计方法的应用

Info

Publication number: CN103014880B
Application number: CN201210561815.8A
Authority: CN
Inventors: 孙彦; 赵韦韦; 刘夫锋; 史清洪
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2015-06-24
Anticipated expiration: 2032-12-20
Also published as: US10001489B2; US20150355192A1; WO2014094444A1; CN103014880A

Abstract

本发明公开了一种基于蛋白A亲和模型构建免疫球蛋白G的新型亲和配基多肽库及设计方法的应用。根据分子力学/泊松-波尔兹曼溶剂可及表面积方法，在已有的人IgG-蛋白A复合物结构的基础上解析获得与人IgG具有较高亲和作用的蛋白A的关键残基，并构建了蛋白A简化亲和模型，在此基础上构建了IgG的亲和多肽分子库。在肽库的基础上，进一步利用氨基酸定位方法，确定X所代表的氨基酸种类。然后，应用分子对接和分子动力学模拟手段逐步筛选候选多肽。最后，通过亲和色谱实验方法，确定能有效分离纯化IgG的多肽亲和配基。

Description

基于蛋白A亲和模型构建免疫球蛋白G的亲和配基多肽库及设计方法的应用

技术领域

本发明涉及利用分子模拟仿生设计目标蛋白质的亲和配基技术，以及利用亲和色谱技术纯化目标蛋白质，属于生物技术中的计算机模拟和蛋白质分离纯化技术领域。

背景技术

抗体(免疫球蛋白，Ig)是位于动物血液和组织液中，由B淋巴细胞在对抗原的免疫应答中产生的一类糖蛋白。抗体与抗原具有的高亲和性使其广泛应用于生物学研究和临床治疗领域。特别是随着基因技术和克隆技术的逐渐成熟，单克隆抗体已成为治疗炎症、肿瘤和传染类疾病的有效药物。目前，已有大约20种单克隆抗体药物被FDA批准上市，至少300个还在研发之中，2006年单克隆抗体类药物的产值达到了206亿美元。抗体在医疗领域中日益显现的重要性亟需高效、稳定和低廉的生产工艺。由于抗体表达的复杂性以及对医用抗体的高质量要求，抗体纯化已成为整个生产过程的关键步骤。其中IgG是血清中主要的抗体成分，约占血清Ig的75％，也是需求量最大的一类抗体。

抗体纯化通常采用盐析、凝胶过滤色谱、疏水作用色谱、离子交换色谱和亲和色谱等分离手段进行多步纯化。其中亲和色谱因能对目标分子进行高效特异性纯化已成为抗体纯化后期最常用的色谱方法之一。亲和色谱是利用亲和配基能与目标分子特异且可逆结合的特性，从复杂的生物样品中分离纯化目标分子，具有选择性强，纯化效率高的优点。亲和色谱法的纯化效果取决于目标分子与配基之间的亲和性。因此，针对特定的目标分子，开发合适的亲和配基是构建一个亲和色谱体系所首要解决的问题。

金黄色葡萄球菌蛋白A(SpA)、蛋白G和蛋白L作为亲和配基已广泛用于制备高纯度抗体。这类配基的优点在于特异性高，而缺陷是过高的亲和力需要较苛刻的洗脱条件，容易导致目标蛋白变性和配基脱落，吸附容量较低；此外这类配基的制备也比较困难，价格昂贵，蛋白经固定化后一般会失去部分活性。这些弱点使得上述蛋白类配基的应用受到限制。

亲和肽配基的研究始于1986年Geysen对合成肽库的研究，他提出：含有关键残基的短肽能够模拟蛋白质上的决定簇。而且在多数情况下，几个关键残基与对应目标分子间的非共价作用构成了复合物结合的主要作用力。这两个观点奠定了亲和肽配基的理论基础。肽配基通常仅由很少的氨基酸组成，不会在产品使用时引起免疫中毒反应。而且其分子量小，即使从固定相上脱落、掺入产品中也很容易从终产物中除去。此外肽配基与蛋白质的作用条件温和，有利于控制分离条件，避免目标蛋白的变性。和蛋白类等具有高亲和力的配基相比，亲和肽配基也具有足够高的亲和力结合目标蛋白。肽配基的构象和理化性质更稳定，能承受分离操作中较强的酸碱洗脱和再生条件，可实现在GMP条件下大规模无菌生产。近些年来涌现出的一批肽配基都对抗体具有较好的分离纯化效果，如TG19318、Peptide H、A1P、A2P、8/7、线性肽配基(HWRGWV等)。

尽管多肽作为亲和配基具有如此多的优越性，但自然界中与目标蛋白有亲和力的多肽数量十分有限。上述所讨论的小分子配基虽然在抗体纯化研究中显现出了很大优势，但与SpA亲和介质相比，也存在着不足，如特异性和亲和力较差等。因此在亲和色谱的实际应用中，配基的筛选和设计至关重要。如何选择合适的多肽序列作为亲和配基，以及如何提高多肽的亲和力和选择性的问题，已成为影响多肽亲和色谱应用的关键。现有的筛选和设计方法主要分为实验筛选和理性设计两类方法。实验筛选是基于组合库技术进行高通量实验筛选，根据构建多肽文库方法的不同，亲和配基的筛选技术主要分为：组合化学合成肽库筛选，如上述提到的TG19318/D-TG19318、Peptide H、MAbSorbent A1P、A2P和8/7；噬菌体展示肽库筛选，如HWRGWV、HYFKFD和HFRRHL；核糖体展示肽库筛选这三类。理性设计主要是基于目标蛋白或已有配基的结构和性质设计新配基。随着计算机技术、计算化学和药物化学的发展，亲和配基的设计已进入以计算机辅助设计为主导的理性设计阶段。计算机辅助配基设计的各种虚拟设计方法包括分子对接，3D-QSAR，药效团模型，分子动力学(molecular dynamics,MD)模拟和从头设计等。

分子对接是两个分子之间通过几何匹配和能量匹配而相互识别的过程。分子对接计算是把配基分子放在目标蛋白结合位点的位置，然后按照几何互补、能量互补和化学环境互补的原则来实时评价配基与目标蛋白结合的好坏，并找到两个分子之间最佳的结合构象。由于分子对接考虑了目标蛋白与配基相互作用的信息，因此从原理上讲，分子对接是一种基于受体的直接设计方法。近年来随着蛋白晶体结构信息的快速增长以及小分子数据库的不断更新，分子对接已经成为基于结构设计中的最为重要的方法。常用软件有DOCK，Autodock和FlexX等。

分子动力学是建立在牛顿力学基础上的一种分子模拟方法，用于研究多粒子体系中各粒子的运动过程。MD模拟的基本步骤可以分为如下四步：(1)初始化；(2)计算原子受力；(3)更新原子坐标和速度。根据上一步的原子坐标、速度和受力，即可得到原子在下一时刻的坐标和速度。不断循环进行(2)和(3)步得到体系状态随模拟时间的变化情况；(4)分析轨迹。常用的分子动力学模拟软件主要有GROMACS、NAMD、AMBER和CHARMM等。通过分析MD模拟轨迹可以获得模拟体系的各种性质，包括构象、能量、动力学性质以及配基-目标蛋白质之间的相互作用力等。

采用多种理性设计方法，通过设计合理的组合策略可以实现降低成本和更高精度的配基设计。在前期采用一些计算速度快但精度有限的方法以富集可能的候选分子，如分子对接法。随后再采用MD模拟等计算量大但更精确的方法进一步挑选最佳的配基分子。在后期阶段则采用比较耗时和高成本的实验方法做最后验证。

发明内容

本发明的目的在于提出一种基于蛋白A亲和模型构建免疫球蛋白G的新型亲和配基多肽库及设计方法的应用。本发明所述的抗体亲和短肽配基的仿生设计方法是首次建立的，并经验证是有效的。

本发明基于蛋白A亲和模型构建免疫球蛋白G的新型亲和配基多肽库，其依据为6个SpA关键残基：F132、Y133、H137、E143、R146和K154。为了配基的固定，在多肽序列中间位置添加一个半胱氨酸。该肽库共有以下8种序列：

FYCHXXXE、FYXHCXXE、FYCHXXR、FYXHCXR、FYXCRXE、YFXCRXE、HXYFCXR和HXYFCXK；

其中X代表除去半胱氨酸以外的19种氨基酸。

本发明的新型的亲和多肽设计方法的应用，是在上述肽库的基础上，进一步利用氨基酸定位方法，确定X所代表的氨基酸种类。

X所代表的氨基酸种类如下表所示：

具体的短肽序列如表5所示。

将多肽库进行分子对接筛选、均方根偏差比较以及分子动力学模拟复筛，获得与hIgG具有较高亲和性的多肽配基：FYWHCLDE、FYFCRWE、FYIHCLPE、FYYHCKKE、FYCHWALE、FYCHWQDE、FYCHTIDE、FYRHCQRE、FYCHHKTE、FYCHLQKE、FYCHRKAE、FYCHNQDE、FYCHRQEE和FYNHCASE。

需要强调的是，上述仿生肽库中包含的所有多肽分子(2173条)，理论上都有可能是hIgG的亲和肽配基；而进行分子对接筛选以及分子动力学模拟复筛，是为了富集与hIgG有较高亲和性的多肽分子，有效缩小候选多肽数量便于进行后续实验验证；经过依次筛选最后得到的14个多肽分子，是与hIgG具有较高亲和性的概率最大的多肽分子。虽然计算机模拟技术发展至今不断趋于成熟和完善，但对生物分子间的相互作用的预测还不能达到与实际情况完全一致的水平，因此分子模拟软件就不可避免地具有各种局限性(如利用不同的分子模拟软件或采用不同的参数就可能会产生不同的结果)，只能做到与实际情况尽可能地趋于接近。所以应用分子模拟软件进行筛选时，会出现两种情况：一是筛选得到的多肽分子是hIgG的亲和肽配基的命中率随筛选次数不断增大；二是漏筛的、排除掉的可作为hIgG的亲和肽配基的多肽分子也会随筛选次数增多。所以，不排除多肽库中其余的2161条多肽分子也可能是hIgG的多肽亲和配基。

本发明利用分子模拟和实验手段获得IgG亲和短肽配基的方法如下1-5步：

1.应用分子力学/泊松-波尔兹曼溶剂可及表面积(molecularmechanics-Poisson-Boltzmann surface area,MM/PBSA)自由能计算和自由能分解方法计算得到蛋白A与hIgG1结合(图1)的关键残基，得到蛋白A简化的亲和结合模型(图2)：首先使用MM/PBSA方法计算了SpA和hIgG1复合物的绝对结合自由能。然后，采用一种基于MM/PBSA的自由能分解方法解析SpA和hIgG1的高亲和性分子机理并分析SpA-hIgG1复合物的结合表面的残基对结合自由能的贡献。根据每个残基的自由能贡献和残基作用对的分析确定SpA和hIgG1相互作用的热点残基。

2.根据亲和结合模型中6个离散的热点残基的构象和相对位置，应用Autodock vina(简称vina)分子对接软件计算出多肽序列的长度和需要插入的氨基酸残基种类；在多肽序列中间位置加入一个半胱氨酸(Cys)，便于方便地、有选择性地将多肽固定到色谱介质—Thiopropyl(硫丙基)Sepharose 6B上，从而使多肽两端的热点残基有充分的自由度，使其能与hIgG发挥关键的亲和作用，不至于在多肽固定到介质上后而减弱其与hIgG的亲和作用。最后得到包含一系列七肽和八肽序列的多肽库。

具体操作是从hIgG1-SpA复合物的晶体结构(PDB ID:1FC2)中分别选取Fc片段和SpA的B结构域的三维坐标文件；从SpA B结构域的坐标文件中再单独取出6个热点残基(F132，Y133，H137，E143，R146和K154)的坐标结构，计算两两热点残基之间相应C和N端之间的距离，根据插入氨基酸数目的原则，计算热点残基之间应插入的氨基酸残基个数，确定多肽序列模式，见表1；然后将多肽序列中间位置的氨基酸确定为Cys，见表2；之后选取两两热点残基之间对应的Fc片段，使其包含在vina对接软件的格栅盒子之中。选择好盒子之后，将19种氨基酸(除去Cys)依次与盒子包含的Fc片段进行对接，选择打分最高的前20个构象。按照氨基酸选取的基本原则进行筛选：1)构象合适，即氨基酸残基对接构象的C和N末端必须与相应热点氨基酸残基的N和C端首尾相接形成肽键；2)亲和结合自由能<-2.0kcal/mol。结果：得到多肽中未知氨基酸残基(X)的种类，见表3。利用perl脚本调用charmm构建多肽库，其共包含2173条序列，见表5，每条序列都包含4个热点残基。

3.利用vina和Rosetta Flexpepdock(简称Flexpepdock)分子对接软件将多肽库中的多肽分子依次与hIgG1的Fc片段进行对接，然后根据打分排名获得与Fc片段具有较高结合能的多肽分子。这里需要说明的是，1)打分的分数标准是根据打分分布人为设定的，是根据经验值选择的最有可能富集有效分子的数值；2)利用分子对接软件进行筛选是为了富集与hIgG具有亲和性的多肽分子的数目，剔除可能性较低的分子，从而节省后续验证实验的操作成本；而不是将未通过筛选标准的多肽分子作为非hIgG亲和肽配基摒弃掉，这些多肽分子只是不符合本次研究设定的标准。相关技术人员可根据实际需要，适当地提高或降低这一分数标准，虽然会改变筛选得到的分子数目(提高或降低筛选标准会使进入下一轮筛选的候选分子数目相应地减少或增加，后者会减少漏筛的可能性，但另一方面也会增加整个研究过程的复杂性。最佳情况是能找到一个平衡点，使得既不会漏筛掉过多的潜在分子，也不会使最后得到的多肽库中无效或效果弱的分子较多)，但这与本发明目的一致，也符合本发明精神。vina对接盒子恰好包含Fc和SpA的结合区域—CH2和CH3之间的“一致性结合位点(consensus-binding site，CBC)”，固定好盒子后，依次将多肽库里的多肽分子与vina盒子包含的Fc片段进行对接。选取结合自由能(打分分数)低于-6.5kcal/mol的多肽分子，共计754个多肽。在这里值得注意的是，配基筛选采用的是打分分数低于-6.5kcal/mol的标准，选取这一标准的理由会在下文中有详细说明。利用GROMACS分子模拟软件自带的g_rms程序计算vina对接得到的754条多肽序列与SpA中相应的热点残基之间的均方根偏差(rmsd)，据此比较vina对接后多肽中的热点残基与SpA中的热点残基构象之间的差异。选择Encad全原子力场，对除去氢原子之外的热点残基计算rmsd值。rmsd值越小，表示多肽包含的热点残基的对接构象与SpA中热点残基构象越接近。结果表明，rmsd值主要分布在0.2～0.6nm之间，选择rmsd<0.4nm的150个多肽进行下一步的研究。在这里值得注意的是，筛选肽配基的rmsd值标准也是可根据实际情况进行适当更改的，相关技术人员在相似的研究背景和情况下，可参照本发明设置合适的rmsd值标准使得筛选得到的多肽分子数目适中又不至于漏筛掉过多的潜在分子。将vina对接得到的多肽-Fc复合物构象作为初始构象，利用Flexpepdock对上一轮筛选得到150个多肽与Fc进行逐个对接。Flexpepdock对接参数为flexpepdock.flags：

-pep_refine

-use_input_sc

-ex1

-ex2aro

-ignore_unrecognized_res

-nstruct 1

-out:suffix pepdock

-lowres_preoptimize

-scorefile flexpepdock.sc

进行两次平行分子对接，以减少只进行一次对接的结果的随机性。结果发现只有少数几个多肽不能与Fc结合，大部分多肽序列都能结合到Fc上。对接打分分数(结合界面能量分数，I_sc)分布在-4～-22之间，其中I_sc在-14～-16之间的分布最多，选取I_sc≤-16为筛选标准，这样既可使候选多肽数目不太多从而避免计算资源浪费(考虑到下一轮分子动力学模拟复筛比较消耗计算机资源，速度慢)，又不至于漏筛掉过多的潜在分子。当然相关技术人员可根据自己研究的实际情况更改为更适合自己研究的I_sc筛选标准。共有15个多肽分子与hIgG1的Fc片段之间的I_sc在两次平行分子对接中均小于-16，挑选这15条多肽分子进行下一轮筛选。

4.将步骤3中筛选得到的15条多肽分子与hIgG1的Fc片段进行MD模拟，再次筛选多肽配基，得到在模拟时间尺度内能与Fc片段稳定结合的多肽分子，即这些多肽分子有可能与hIgG具有较高的亲和作用。将步骤3中利用Flexpepdock对接获得的多肽-hIgG1复合物的构象作为初始构象，利用GROMACS 4.5.3软件包，选择G53a6力场，将15个候选多肽的pdb坐标结构利用pdb2gmx命令转化为GROMACS专用的gro结构；利用editconf命令将多肽-蛋白复合物置于矩形水盒子中心，使它们距离盒子边缘最小为0.9nm；然后用genbox命令来向模拟盒子中添加水分子，水分子采用SPC216水模型；然后用grompp命令将mdp文件中标明的参数整合为结构和拓扑文件从而生成tpr文件，以及应用genion命令加入平衡系统净电荷所需的离子种类和数量；之后进行能量最小化，去除体系中的原子间的碰撞和不正确的几何构型；接下来用mdrun命令依次进行100ps的正则(NVT)系综和等温等压(NPT)系综下的限制动力学平衡，最后仍然利用mdrun命令进行20ns的无限制MD模拟。相关技术人员可根据自己研究的实际情况更改相应参数，使其更适合特定的、不同的研究情况。

5.合成筛选得到的多肽分子，将其固定到Thiopropyl Sepharose 6B色谱介质上制成亲和介质并装柱，进行亲和色谱实验验证。研究脉冲进样hIgG溶液以及对人血清中hIgG的分离和电泳情况。

本方法首先利用MM/PBSA自由能计算和自由能分解方法获得与人IgG具有高亲和性的蛋白A的热点残基，并以此为基础构建蛋白A与hIgG结合的亲和结合模型。然后利用氨基酸定位、分子对接、均方根偏差比较以及在多肽序列中间位置添加一个半胱氨酸的方法，构建多肽库，之后将多肽库进行分子对接筛选以及分子动力学模拟复筛，获得与hIgG具有较高亲和性的多肽配基，已经确定的能有效分离纯化hIgG的多肽分子有两个，分别是FYWHCLDE和FYCHWALE。并应用亲和色谱、聚丙烯酰胺凝胶电泳(SDS-PAGE)和分光光度法等一系列实验手段进行了IgG的分离纯化及其表征的研究。

值得提出的是，多肽库中的全部2173条多肽分子理论上都有可能是hIgG的亲和配基，但由于分子模拟自身的局限性，不可能完全模拟实际情况，而只能是与实际情况尽可能地趋于接近，所以最终需要实验进行实际情况的验证。由于时间人力物力的限制，本发明不可能将全部多肽依次进行实验验证。本发明只在最终筛选得到的14条多肽中随机挑选两个进行实验表征，主要目的在于阐述如何用实验方法进行多肽作为hIgG亲和配基有效性的验证，而不是指只有本发明提到的两个多肽有效。相关技术人员可根据本发明所述的实验方法对多肽库中其它多肽进行验证。

附图说明

图1为蛋白A与hIgG1Fc片段复合物的三维结构；helix I和helix II是蛋白A的B结构域的两个螺旋结构，它们与Fc片段的CH2和CH3铰链区结合，结合位点称为“一致性结合位点(CBC)”

图2为蛋白A的简化亲和结合模型；helix I包含三个热点残基(F132、Y133和H137)；helixII包含三个热点残基(E143、R146和K154)

图3是氨基酸插入图示；虚线框内表示插入的氨基酸残基

图4为多肽分子与Fc的vina对接打分数值分布；结合自由能数值越负表示配基与Fc之间的亲和性越高

图5为SpA的热点残基与多肽对接构象的相对应的热点残基之间的均方根偏差数值分布，数值越小，表示两者的构象越接近

图6为肽分子与Fc片段的第一次Flexpepdock对接打分数值分布；结合界面能量分数数值越负，表示结合越牢固

图7是肽配基亲和柱分离纯化人血清样品中的IgG。平衡缓冲液：20mM磷酸钠盐缓冲液，pH 6.0；再生缓冲液：0.1M Gly-HCl缓冲液，pH 2.4。A图表示偶联有肽配基FYWHCLDE的亲和柱对人血清样品中IgG的分离，洗脱缓冲液：50mM柠檬酸钠盐缓冲液，pH 3.0；B图表示偶联有肽配基FYCHWALE的亲和柱对人血清样品中IgG的分离，洗脱缓冲液：平衡缓冲液，包含0.2M NaCl，pH 6.0

图8亲和色谱洗脱结果的SDS-PAGE分析，从左至右电泳条带依次为标准蛋白Marker(30-120kDa)，人血清样品(feedstock)，流出峰(F-T)和洗脱峰(Elution)组分。A图为FYWHCLDE的电泳图，B图为FYCHWALE的电泳图

具体实施方式

下面结合附图对本发明作进一步详细地描述，该实施例是用于解释、而不以任何方式限制本发明。

实施例1 获得SpA的简化亲和结合模型

首先使用MM/PBSA方法计算金黄色葡萄球菌蛋白SpA和hIgG1复合物的绝对结合自由能。然后，采用一种基于MM/PBSA的自由能分解方法解析SpA和hIgG1高亲和性的分子机理并分析SpA-hIgG1复合物的结合表面的残基对结合自由能的贡献。根据每个残基的自由能贡献和对残基作用对的分析确定SpA和hIgG1相互作用的热点残基。最后，基于以上解析获得的分子机理和热点残基构建了SpA的亲和结合模型。

SpA-hIgG1复合物分子体系被用于分子动力学模拟。每个复合物模型包含一条Fc片段的单链和SpA的B结构域。SpA-hIgG1的模型结构取自蛋白质数据库(PDB ID:1FC2)(图1)。分子动力学模拟使用CHARMM软件以及CHARMM27全原子力场完成。首先采用TIP3P水分子模型将SpA-hIgG1复合物溶解于长方体盒子中(100×80×)。添加Na⁺或Cl^-作为反离子以中和体系电荷。体系经能量最小化后，采用NPT系综平衡200ps，最后采用NVT系综继续模拟15ns。体系的温度设为298K，并采用Nose-Hoover法维持恒温。所有的模拟都应用周期性边界条件。计算非键作用时采用的距离截断，应用Particle MeshEwald(PME)计算长程静电作用。SHAKE用于限制所有氢原子，时间步长设为2fs。由于该体系只包含Fc片段的一条单链，故在Fc片段的两个终端残基上施加一个距离约束以限制CH2和CH3域的弯曲。最后从平衡阶段的最后3ns轨迹中以40ps为间隔均匀取样，共得到75帧构象供后续分析。

采用MM/PBSA方法计算SpA-hIgG1复合物的结合自由能(ΔGbind)。ΔGbind为气相作用能(ΔGgas)、溶剂化作用能(ΔGsol)和熵作用项(-TS)的总和。

ΔGbind＝<ΔGgas>+<ΔGsol>–<TΔS>

括号<…>表示所有模拟得到的能量项的平均值。T代表绝对温度，S是溶质熵。

Ggas包含分子间静电作用项(Gelec)，范德华作用(vdw)项(Gvdw)和内能项(Ginter)。

由于本研究采用“相同轨道方法”进行取样分析，因此内能项(Ginter)为0。故ΔGgas对结合自由能的贡献是ΔGelec和ΔGvdw的总和。

ΔGgas＝ΔGelec+ΔGvdw

溶剂化作用能包括以下两部分：静电溶剂化能(GPB)和非极性溶剂化能(Gnp)。

Gsol＝GPB+Gnp

GPB是使用CHARMM程序的PBEQ模块求解线性泊松-玻尔兹曼方程(PB)得到的。在所有的PB计算中，溶质和溶剂介电常数分别设为1和80。离子强度为0，溶剂分子半径设为Gnp是溶剂空穴作用项和溶质-溶剂范德华作用项之和，Gnp＝γ×SASA+b，常数γ和b分别设为0.00542kcal/和0.92kcal/mol。SASA代表溶剂可及表面积。

溶质熵(S)可分解为平动熵(Strans)、转动熵(Srot)和振动熵(Svib)。这三项由统计力学计算得到。Strans和Srot分别是分子的质量和转动惯量的函数。振动熵(Svib)是使用CHARMM程序的VIBRAN模块做标准模式分析(normal mode analysis，NMA)得到。

每个残基的自由能贡献分解为极性(Gpolar)和非极性作用(Gnonpolar)。

其中每一项继续分解为两个能量项之和。在接下来的分析中，Gpolar被认为是残基的静电作用贡献，Gnonpolar可认为是疏水作用贡献。需要注意的是，Gresidue只是分解为Gpolar和Gnonpolar(即不包含熵)。Gresidue＝Gpolar+Gnonpolar，Gpolar＝Gelec+GPB，Gnonpolar＝Gvdw+Gnp。每个残基的静电作用能(Gpolar)等于分子间静电作用能(Gelec)和溶剂化静电作用能(GPB)之和。线性PB方程允许将静电溶剂化能分解为每个原子的贡献。SpA上每个残基的范德华作用能贡献等于该残基与Fc片段之间范德华作用能的一半，对于Fc片段上每个残基的范德华作用能反之亦然。每个残基的非极性溶剂化作用能与该残基的溶剂可及表面积的损失成比例。通过以上分析即可计算得到SpA-hIgG1复合物的结合自由能(ΔGbind)以及每个残基的自由能贡献，进而得到SpA与hIgG1相互作用的热点残基。

在SpA-hIgG1复合物中，与Fc片段接触的SpA残基离散地分布于螺旋I(K126至H137)、螺旋II(E144至D155)和不规则卷曲(L138至E143)上。在本研究中，热点残基被定义为对结合自由能贡献较大的残基以及参与形成重要的分子间作用以补偿不利的溶剂化作用的残基。采用±2.5kcal/mol的标准来识别对自由能贡献较大的残基。为了识别复合物中的重要残基来指导亲和配基的理性设计，本研究所采用的标准高于其他文献中常用的±2.0kcal/mol的标准。SpA中只有F132,Y133,H137,R146和K154这5个残基对结合自由能贡献较大。SpA的E143残基虽然只有较小的能量贡献(-1.2kcal/mol)，但其自由能偏差却高达±6.7kcal/mol。此外，E143的侧链带有一个带负电荷的羧基，主要提供静电作用。因此，E143的自由能贡献对残基的构象十分敏感。SpA的E143与hIgG1的K317之间有很强的分子间静电吸引作用(-24.0kcal/mol)。相反，它与hIgG1的D280和D315残基有较弱的静电排斥作用。因此，虽然SpA的E143没有直接贡献较多的结合自由能，但却为hIgG1的K317创造了一个有利的局部结合环境。故E143也被认为是SpA的热点残基之一。

螺旋I与Fc片段通过疏水作用结合。特别是螺旋I的热点残基F132和Y133提供了大部分的疏水作用。MD模拟结果表明F132和Y133的芳香侧链紧密结合在Fc片段疏水性口袋的浅槽。相反，螺旋II通过静电作用与Fc片段结合。螺旋II包含3个极性热点残基(E143，R146和K154)，与分布在结合位点的疏水区域周围的极性残基(H310，Q311，D315，K317和K338)有很强的静电吸引作用。因此，为开发新的拟蛋白A亲和配基，在理性设计过程中需要综合考虑疏水作用和特殊的静电作用。根据SpA与hIgG1的亲和机理和SpA的热点残基分布，构造了一个SpA的简化的结合模型，6个SpA关键残基为F132,Y133,H137,E143，R146和K154，见图2。此模型可以作为IgG的拟蛋白A亲和配基理性设计的起始点。

实施例2 多肽库的构建

1.确定多肽序列的长度

已知：

肽键的长度≈

氨基酸主链长度≈

插入一个氨基酸残基需2个肽键长度和一个氨基酸的主链长度≈2×1.33+2.78＝

插入两个氨基酸残基需3个肽键长度和两个氨基酸主链长度≈3×1.33+2×2.78＝

图3为插入一个氨基酸的示例(虚线框内线条代表增添的键)。若两个热点残基之间的C和N端之间的距离(insertion distance)<时，就可以插入一个氨基酸残基；若≤insertion distance<则考虑插入两个氨基酸残基；若insertion distance> 则需要插入三个或以上的氨基酸残基。

根据SpA两个热点残基相应的N和C端之间的距离(利用Visual Molecular Dynamics，VMD软件计算得到)，确定需插入的氨基酸个数。最终确定的多肽构建模式如表1所示：

表1

其中，一种模式是八肽，其余都是七肽。考虑到多肽配基的N和C两末端都由热点残基组成，它们和IgG均具有较高的亲和作用。为使配基在固定化后仍然保持其与抗体之间的高亲和性，考虑在配基的中间位置插入Cys，这样就可将多肽通过二硫键偶联在Thiopropyl Sepharose 6B介质上。因此，在多肽序列的中间位置插入一个Cys以便于多肽的固定化。这样就可保证多肽固定于介质上后，其两端的关键残基具有充分的自由度，能够充分发挥两端关键残基的亲和作用，从而保持其与IgG Fc片段之间的亲和作用力。据此，根据SpA热点残基以及残基之间需插入的残基个数，我们最终得到八种多肽的构建模式(见表2)。

表2

2.确定热点残基空隙处插入的氨基酸残基种类

利用片段定位法(fragment location method)，片段定位法是利用分子模拟方法来确定特定原子或片段在结合腔中的最佳位置的一种模拟方法。首先确定结合腔中不同的作用区域，如：静电区域、疏水区域、氢键供体区和氢键受体区。再根据化学环境匹配的原则，在结合腔内放置与之化学特征匹配的配体分子。例如，受体疏水区附近放置的配体分子片段也是疏水性基团，如苯环、脂肪疏水链等；受体上的正/负电区域应该与配体的负/正电区域匹配。首先选择与蛋白A的六个热点残基之间的空缺位置所对应的Fc片段区域，利用分子对接软件vina将19种氨基酸(除去Cys，便于之后的多肽配基固定化)与Fc片段区域依次进行对接，得到与该空缺位置具有较高亲和性的氨基酸种类，再将这些氨基酸残基与热点残基按顺序连接起来得到候选多肽配基。

利用氨基酸定位法确定热点残基之间应插入氨基酸的种类，以此为基础构建多肽库。

选取氨基酸的基本原则如下：1)构象合适，即氨基酸残基对接构象的C和N末端必须与其它氨基酸残基的相应N、C端首尾相接；2)亲和结合自由能<-2.0kcal/mol。表3所示为确定的多肽中未知氨基酸残基(X)的种类。

表3

利用perl脚本调用Charmm软件得到多肽库，总共包含2173条序列，每条序列都包含4个热点残基。

实施例3 多肽分子与Fc片段的对接

1.多肽与Fc片段的vina对接

由于单个残基与Fc有较强的亲和作用不一定代表由残基组成的多肽与Fc有较强的相互作用，因此继续用vina将多肽库中的全部多肽与Fc片段的CBC依次对接。对接结果显示所有多肽都能与Fc片段结合，且所有多肽的预测结合自由能在-4.5～-8.2kcal/mol之间，此范围符合亲和配基的适中亲和力要求(结合常数在10⁴～10⁸M^-1之间)。其中结合自由能在-6.5kcal/mol左右的多肽分布最多。筛选时为避免漏选，选取结合自由能低于-6.5kcal/mol的多肽分子，共计754个多肽。对接打分数值的分布见图4。

为了能够充分发挥热点残基与IgG之间的亲和作用，要尽量寻找多肽中的热点残基的对接构象与SpA中相应的热点残基构象一致的多肽序列，这样的多肽序列能够仿效SpA与Fc片段形成高效的亲和结合作用。为了分析短肽配基中热点残基与SpA中相应残基之间构象的差别，本研究利用GROMACS分子模拟软件自带的g_rms程序计算vina对接得到的754条多肽序列与SpA中相应的热点残基之间的rmsd。选择Encad全原子力场，对除去氢原子之外的关键氨基酸残基计算rmsd值。rmsd值越小，表示多肽包含的热点残基的对接构象与SpA中相应热点残基的构象越接近。结果表明，rmsd值分布在0.2～0.6nm之间(图5)。选择rmsd<0.4nm的150个多肽序列进行下一步的研究。

2.FlexPepDock复筛多肽分子

一般的分子对接软件如Autodock，DOCK，PatchDock，ParDock，MEDdock等只适用于含有一定数目的可旋转键的小分子的对接，由于多肽侧链较多，比小分子含有更多的自由度，因此以上对接软件在用于多肽与蛋白质之间的分子对接筛选时有一定的限制。Flexpepdock是一种针对研究多肽与目标蛋白对接的新型软件，该软件采用蒙特卡洛最小化方法，充分考虑多肽的主、侧链柔性以及受体蛋白的侧链柔性。只需知道结合位点以及多肽-蛋白的大致结合模型，就能够利用该软件高精度地预测多肽-受体蛋白质之间的结合构象。FlexPepDock的打分函数是一种全原子能量函数，包括Lennard-Jones全原子吸引和排斥项，Lazaridis-Jarplus溶剂项以及氢键等。大量研究证实评价多肽-蛋白结合的强弱主要是看结合界面能量分数(I_sc)。

利用Flexpepdock对上一轮筛选得到150个多肽与Fc进行逐个对接。结果发现只有少数几个多肽不能与Fc结合，大部分多肽序列都能结合到Fc上。这些待选多肽的I_sc在-5～-22之间，分数越负，表示结合作用越强。挑选I_sc<-16的待选多肽序列，共进行了两次平行对接，第一次对接结果中有34个多肽序列的I_sc的绝对值大于16(图6)。第二次对接结果中，有38个多肽序列的I_sc的绝对值大于16。在这两次Flexpepdock对接结果中，I_sc绝对值均大于16的多肽序列有15条。表4中vina_score表示vina对接的打分，I_sc-1表示第一次Flexpepdock对接的打分，I_sc-2表示第二次平行Flexpepdock对接的打分分数。

表4

因此，我们挑选这15条多肽分子做进一步的分子动力学模拟分析其与IgG之间的亲和性。

实施例4 分子动力学(MD)模拟

MD模拟是研究蛋白动力学行为的非常有效的工具，蛋白快速的内部运动、较慢的构象变化以及折叠过程都可以应用MD模拟进行研究。为了进一步验证IgG—多肽配基复合物之间的亲和作用力，不仅要考虑其静态结构(利用分子对接)，也要研究其动态行为。接下来就利用MD模拟来研究上述15条候选多肽分子与IgG的Fc片段结合的动态信息。

所有的MD模拟都是用GROMACS 4.5.3软件包进行的，选择GROMOS9653a6力场，将多肽-蛋白复合物置于矩形水盒子中心，距离盒子边缘至少0.9nm，库仑力和Lennard-Jones作用的截断值均为0.9nm，PME方法用于计算长程静电相互作用，其网格间距和内插级数分别为0.12nm和4，应用v-rescale恒温器和Parrinello-Rahman恒压器分别控制体系温度(300K)和压力(1bar)。积分步长为2fs，应用LINCS算法限制所有的共价键。先进行50,000步最陡下降法将体系进行能量最小化，然后依次进行100ps的NVT和NPT系综下的限制动力学平衡，最后进行20ns的无限制动力学模拟。每500ps保存一帧构象，共进行20ns的MD模拟，最后得到40个不同模拟时间的构象。所有的MD模拟都是在Dawning A620r-F服务器上进行。

首先利用VMD软件计算多肽与Fc片段之间的相互作用和相对位置的变化，发现15个多肽分子当中只有FYTHCAKE从Fc片段上解离下来，并在MD模拟过程中逐渐远离对方。分析FYTHCAKE和Fc作用时发现C_α原子的rmsd值随模拟时间的变化，发现在整个20ns的模拟过程中，多肽和Fc的C_α的rmsd值剧烈波动，一直没有达到稳定状态。将其最终构象与初始构象(Flexpepdock对接构象)相比，其C_α原子的rmsd值达到0.45nm。并分析FYTHCAKE与Fc原子之间的接触数和最小距离随模拟时间的变化，发现在15ns左右，多肽与Fc开始发生脱离，接触数从600开始急剧下降，相应地最小距离迅速增大，在18ns左右两者已经完全脱离。说明FYTHCAKE和IgG之间的亲和作用不高。相反，在整个分子动力学模拟过程中其他多肽分子均能与Fc保持结合状态，说明这14个多肽分子可能是IgG的有效亲和配基，分别是FYWHCLDE、FYFCRWE、FYIHCLPE、FYYHCKKE、FYCHWALE、FYCHWQDE、FYCHTIDE、FYRHCQRE、FYCHHKTE、FYCHLQKE、FYCHRKAE、FYCHNQDE、FYCHRQEE和FYNHCASE。

实施例5 亲和色谱实验验证

1.肽配基的固定和亲和柱的制备

多肽分子委托吉尔生化有限公司(上海)进行合成，产品经高效液相色谱(HPLC)纯化，纯度为96.36％。称取1g干介质(Thiopropyl Sepharose 6B购自GE Healthcare)，用大约200mL过膜水在布氏漏斗中清洗15min，滤除水分后从中分别称取1g湿介质加入到两个25mL锥形瓶中，然后分别加入6mL和10.7mL交联缓冲液(0.1M Tris-HC1,pH 7.5,0.5M NaCl,1mM EDTA)使介质充分预平衡。从分子动力学模拟得到的14条多肽中随机挑选多肽分子(FYWHCLE和FYCHWALE)，分别称取上述肽粉，溶于500μL 50％乙二醇溶液中。将肽溶液和对应的锥形瓶中的介质充分混合，使得肽溶液初始浓度为1.0mg/mL，25℃170rpm水浴摇床反应2小时。每隔1h离心取500μL反应上清液，用于反相高压液相色谱(RP-HPLC)检测反应液中剩余的肽含量。待反应上清液中肽含量不再变化后，加入8mg Cys继续反应0.5h，封闭介质上的未反应基团以免干扰蛋白与配基的亲和作用。反应完毕后，离心，移去上清液，然后将介质用清洗缓冲液(10mM磷酸盐缓冲液，pH7.2，150mM NaCl)在布氏漏斗中反复清洗多次，洗去未固定的多肽。最后将介质用平衡缓冲液(20mM柠檬酸钠盐缓冲液，pH 5.0～5.5；或20mM磷酸钠盐缓冲液，pH 5.5～6.0)悬浮为l mL，脱气后缓慢灌入玻璃柱内(Tricorn型色谱柱，Tricorn 5×5，GE公司)，先用平衡缓冲液以流速0.1mL/min冲洗柱子，待柱压稳定后将流速升高至0.2mL/min，按此操作直至流速升高至l.0mL/min，观察凝胶柱高度不再下降时，将高度调节器旋至凝胶柱上表面，即可。

2.溶液中肽含量的检测

反应液中肽含量的检测采用反相高压液相色谱法，具体检测参数如下：流动相A，含0.1％三氟乙酸的水溶液；流动相B，含0.1％三氟乙酸的乙腈；上样量：10μL；流速：0.5mL/min；检测波长：220nm。其中多肽FYWHCLDE几乎能全部固定到介质上，FYCHWALE的固定化率为93.7％。

3.亲和色谱实验

(1)平衡：用平衡缓冲液冲洗直至基线走平，流速0.5mL/min，继续冲洗5倍柱体积开始上样。

(2)上样：除非特别声明，蛋白样品均以平衡缓冲液配制，每次上样后用5-10倍柱体积的平衡缓冲液(20mM柠檬酸钠盐buffer，pH≤5.5；20mM磷酸钠盐buffer，pH≥5.5)进行平衡。上样体积为100μL，蛋白样品浓度为1.0mg/mL，流速：0.5mL/min。

(3)洗脱：用洗脱缓冲液冲洗5-10个柱体积，流速：0.8mL/min。

(4)保存：先用10倍柱体积的纯水冲洗柱子，然后再用10倍柱体积的20％乙醇溶液冲洗柱子，并将其保存于该溶液中。所有缓冲液均要过膜脱气。

在pH 5.0～6.0时，FYWHCLDE肽配基对hIgG有较强吸吸附作用。相反，对BSA只有在pH 5.5时才有较大吸附。FYWHCLDE肽配基与hIgG之间的亲和作用主要涉及特异性静电相互作用。在pH 5.5～7.0时，配基FYCHWALE对hIgG都有较大吸附，但在pH 6.0时几乎能吸附全部的hIgG。因此磷酸钠盐缓冲液(20mM，pH 6.0)为FYCHWALE吸附hIgG的最佳吸附条件。肽配基与hIgG之间的亲和作用主要涉及静电相互作用，因此吸附体系的离子强度要适宜，不能太高，以免引起肽配基对抗体蛋白的吸附力减弱。FYCHWALE在pH 5.5时能吸附大约一半的BSA，pH 6.0时吸附1/3的BSA，pH 6.5时只吸附很少量的BSA。以上结果说明两条多肽在pH 6.0时对hIgG都有特异性吸附。

4.蛋白含量测定

混合蛋白溶液中蛋白总量的测定均采用Bradford法，操作如下：配制一系列浓度为15、30、45、60、75和90μg/mL的BSA溶液各1mL，空白对照为1mL蒸馏水。测定每个数据点时，向蛋白溶液和对照溶液中各加入考马斯亮蓝G-250溶液3mL，充分混和，1-2分钟内于595nm下测定吸光值，蛋白浓度对吸光值作图即可得到蛋白含量标准曲线。为了制作IgG浓度的标准曲线，分别配制0～2.0mg/mL浓度的hIgG溶液，用紫外分光光度法测280nm下的吸收值，然后绘制标准曲线。IgG标准曲线用于测定只含有IgG的纯蛋白溶液。测定色谱各组分中蛋白在280nm和595nm下的吸光值，然后根据标准曲线计算其中的蛋白含量。

5.对血清样品中IgG的色谱分离纯化

亲和介质经平衡缓冲液(20mM磷酸钠盐缓冲液，pH 6.0或6.5)充分平衡后，即各项指标基线都达到平衡，将人血清与吸附缓冲液按1:9混合得到血清样品，进样500μL。继续用平衡缓冲液冲洗5个柱体积，然后用含有0.5或0.2M NaCl的平衡缓冲液进行洗脱；或是50mM柠檬酸钠盐缓冲液(pH 3.0)进行洗脱。待洗脱峰完全分离后，用0.1M Gly-HCl缓冲液(pH 2.4)进行亲和介质再生。分离结果如图7所示。

6.十二烷基硫酸钠—聚丙烯酰胺凝胶电泳(SDS-PAGE)

主要溶液：

1).10％的分离胶，4mL：1330μL的30％的凝胶(丙烯酰胺：甲叉双丙＝29:1)；1670μL的去离子水；1000μL的1.5M的Low Tris缓冲液；40μL的10％过硫酸胺(APS)；10μL的TEMED。

2).Low Tris缓冲液：称取Tris 18.17g，2.5mL浓HCl，SDS 0.4g，加水溶解，定容至100mL，调pH至8.8。

3).10％过硫酸胺：称取APS 0.1g，加水溶解，定容至1mL。

4).Upp Tris缓冲液：称取Tris 3.03g，2mL浓HCl，SDS 0.2g，加水溶解，定容至50mL，调pH至6.8。

5).5％的浓缩胶，4mL：665μL的30％的凝胶；2335μL的去离子水；1000μL的1.0M的Upp Tris；40μL的10％APS；16μL的TEMED。

6).非还原型电泳样品缓冲液(Non-reducing Sample buffer)：取Upp Tris 5.5mL，甘油8.8mL，再称取SDS 2g，溴酚蓝5-10mg，加水溶解，定容至50mL。

7).PAGE电泳染色液：称取考马斯亮蓝(R-250)0.625g，甲醇250mL和乙酸50mL混合，定容至500mL。

8).PAGE电泳脱色液：取甲醇150mL和乙酸50mL混合，定容至500mL。

9).电泳缓冲液(PAGE buffer)：称取Tris 7.5g，十二烷基硫酸钠(SDS)1.0g和甘氨酸36g，溶于水中，定容500mL，调节pH 8.3。使用方法：每次取100mL，用水稀释5倍；电泳缓冲液要没过平台，并在电泳结束后回收。

样品准备：取25μL的原样品溶液和25μL的样品buffer混合均匀。Maker进样5μL，样品进样10μL。取SDS-PAGE的分离胶加到SE/250型垂直板电泳槽中，分离胶加入量要控制在距玻璃板1.5cm处，然后轻轻在分离胶上覆盖一层水，待分离胶凝固后，倒出水，加入浓缩胶并插入梳子。待浓缩胶凝固后拔出梳子，用微量进样器向梳子孔内加入待测样品。样品中蛋白质含量以10μg为宜。选择在10mA的电流下运行，直到指示带迁移到浓缩胶底部，然后再将电流调至25mA，直到指示带迁移到凝胶底部，结束电泳。电泳结束后，采用考马斯亮蓝(R-250)染色法，该方法灵敏度高，最低检测极限为0.3～1.0μg。将凝胶浸入染色液中，室温染色4h，这样可以同时达到固定和染色的目的。再利用脱色液脱色，直到凝胶背景接近无色为止。所得凝胶经凝胶成像仪照相，用Gel-Pro分析软件对凝胶结果进行分析。

对分离人血清得到的流出峰和洗脱峰组分进行电泳，电泳图如图8所示。用Gel-Pro分析软件计算得到IgG纯度，用Bradford法计算回收率。人血清中IgG含量为18.07％，FYWHCLDE纯化的洗脱峰组分中IgG含量88.86％，回收率65.5％。FYCHWALE纯化的洗脱峰组分中IgG含量分别为89.6％(pH 6.5吸附体系)和88.5％(pH 6.0吸附体系)，IgG得率达71％(pH 6.0吸附体系)。和报导中提到的其他hIgG亲和配基的分离纯化效果相比，本发明利用的肽配基纯化得到的hIgG的纯度以及得率都较高，因此是hIgG的有效亲和配基。

本发明所介绍的分子模拟设计人IgG亲和肽配基的方法与其它的构建新型肽配基的方法如组合化学合成肽库筛选、噬菌体展示肽库筛选以及核糖体展示肽库筛选相比，有如下优点：第一，不需要复杂昂贵的原材料，比实验手段操作简单，成本低廉；第二，可以构建数量庞大的候选分子库，实现真正意义上的大规模高通量筛选。筛选得到的多肽分子不仅是人IgG的亲和配基，也适用于其他物质，如也能对猪和羊IgG等进行有效地分离纯化。本发明所使用的分子对接筛选、分子动力学模拟复筛和最后的实验验证，对多肽库中的所有多肽分子都是适用的，由于各种限制因素，不能将肽库中的全部多肽分子都进行实验验证，只能通过各种筛选方法进行有效候选多肽分子的富集。但有一点值得肯定的是，除了最终得到的14条多肽序列，散布在多肽库中的其他多肽分子也可能是IgG的亲和肽配基，相关技术人员如有需要可挑选并进行实验验证。但根据已取得的实验数据，表明肽库中的多肽分子是人IgG的有效候选亲和肽配基，希望有效果较佳的肽配基能够得到商业化，进而造福人类。

表5

Claims

1.基于蛋白A亲和模型构建免疫球蛋白G的亲和配基多肽；所述多肽为FYWHCLDE和FYCHWALE，构建方法具体如下：

(1)以蛋白质数据库所描述的SpA-hIgG1复合物结构为基础模型，根据SpA与hIgG1的亲和机理，利用生物信息学分析方法，获得6个SpA关键残基；根据这6个关键残基的分布，构造了一个SpA亲和模型；所述的6个SpA关键残基为F132，Y133，H137，E143，R146和K154；

(2)用VMD软件计算6个关键残基之间的距离，在这6个关键残基之间插入合适数量的未知氨基酸(X)，未知氨基酸(X)的种类由分子对接软件vina进行选择；将关键残基和插入的氨基酸(X)连接起来组成多肽序列，并在多肽中间插入Cys构建了八种7肽或8肽的结构通式，根据多肽结构通式调用Charmm软件得到包含2173条序列的多肽库；

(3)将多肽库中的多肽序列与Fc片段利用vina软件进行对接，得到150个多肽序列，再用FlexPepDock软件将所述150个多肽序列与Fc片段进行对接，得到15个多肽序列；

(4)将所述的15个多肽序列用GROMACS4.5.3软件包进行分子动力学模拟，排除FYTHCAKE序列，得到14个多肽序列；

(5)合成多肽FYWHCLDE和FYCHWALE，将其制备为多肽介质填充柱子，用hIgG1和血清样品进样，证实多肽FYWHCLDE和FYCHWALE是hIgG1的有效亲和配基。