CN103122486A

CN103122486A - 肽微阵列及使用方法

Info

Publication number: CN103122486A
Application number: CN2012104273780A
Authority: CN
Inventors: 王巍; 许峥
Original assignee: University of California
Current assignee: University of California
Priority date: 2011-11-04
Filing date: 2012-10-31
Publication date: 2013-05-29
Anticipated expiration: 2032-10-31
Also published as: US8728980B2; US20130116146A1; CN103122486B

Abstract

一种包含多种预测的独特结合肽的肽微阵列，所述独特结合肽通过与目标蛋白质或其结构域相互作用的计算预测而被选出。所选出的独特结合肽被预合成，随后被印刷和/或经由N端用接头固定在固体载体表面上。还提供使用本发明肽微阵列用于蛋白质-肽相互作用、表位定位以及药物筛选的定量测定的方法。

Description

肽微阵列及使用方法

相关政府声明

本发明在美国国立卫生研究院(NIH)授予的批准号GM085188下受到政府支持。政府在本发明中具有一定权利。

发明领域

本发明涉及用于鉴定蛋白质-蛋白质相互作用的肽微阵列及其使用方法。

发明背景

肽微阵列(一般也称为肽芯片或肽表位微阵列)是陈列在通常为玻璃或塑料芯片的固体表面上的肽的集合。科学家在生物学、医学以及药理学中使用肽芯片来总体上研究蛋白质-蛋白质相互作用的结合性质和功能以及动力学。在基础研究中，肽微阵列常常被用来剖析酶(如激酶、磷酸酶、蛋白酶、乙酰转移酶、组蛋白脱乙酰基酶等)、定位抗体表位或找到蛋白质结合的关键残基。实际应用包括发现血清标记、剖析个别患者在疾病恶化期间的变化的体液免疫反应、监测治疗干预、患者分层以及诊断工具和疫苗的开发。

肽微阵列的测定准则类似于酶联免疫吸附测定(ELISA)方案。所述肽(数以千计的几种副本)被连接至玻璃芯片的表面。这个肽芯片可以直接用各种不同的生物样品来培育，所述生物样品如纯化的酶或抗体、患者或动物血清、细胞溶解物等。在一些清洗步骤之后，采用有所需要的特异性(例如，人/小鼠抗IgG或抗磷酸酪氨酸或抗myc)的二级抗体。典型地，用能够被荧光扫描仪检测到的荧光标签来标记所述二级抗体。其它检测方法包括化学发光法或放射自显影法。

因此，肽微阵列是上面散布有肽或表面上直接组装有肽的平面载玻片。虽然用当前技术散布肽可能在散布之前经受质量控制并且由单一合成批料产生，但是在所述表面上直接合成的肽可能受到不同批料之间的变化和有限的质量控制选择方案的影响。然而，现在将肽散布在载体表面上仍具有明显的限制。一个限制是所需要的肽阵列的大尺寸，所述大尺寸约束所述肽阵列用于蛋白质组测量的被成比例扩大的能力。第二个限制是肽散布输出常常是定性而不是定量的。第三个限制是肽合成的高成本和缺乏必要的仪器，这妨碍作为常规技术来实施所述肽微阵列。在当前技术中存在其它限制。

因此，需要开发出一种改善先前技术的肽微阵列技术。

发明概述

本发明提供一种包括固体载体表面和多种预测的独特结合肽的肽微阵列，所述结合肽被预合成并且通过接头固定在所述固体载体表面上，其中所述预测的独特结合肽通过与目标蛋白质或其结构域相互作用的计算预测而被选出以用于所述微阵列。在某些实施方案中，本发明的所述肽微阵列含有固定在所述固体载体表面上的10个至10,000个、50个至5,000个、100个至1,000个、200个至900个、300个至个800个，或400个至700个之间，包括之间的任何数量的预测的独特结合肽或其结构域。在某些实施方案中，所述目标肽或其结构域或所述预测的结合肽被修饰，所述修饰包括但不限于甲基化或乙酰化。在某些实施方案中，各预测的独特结合肽的多个副本被固定在所述固体载体上。

在某些实施方案中，用于将肽固定在所述微阵列的所述固体载体表面上的附接至所述预测的结合肽的接头包括但不限于氨基己酸(Ahx)或聚乙二醇(PEG)。在某些实施方案中，所述预测的结合肽在每一端用丙氨酸加帽。本发明涵盖本技术领域现在已知或以后开发的用于任何类型的微阵列技术的任何合适的接头或加帽分子。

本发明提供通过计算预测来选择用于微阵列的所述预测的独特结合肽。在某些实施方案中，所述计算预测包括至少三种分析途径的组合，所述分析途径选自由以下组成的组：结构信息、所述肽-蛋白质相互作用的能量模式(例如，范德华(van der Waals)、静电和反溶剂能量)、分子动力学模拟、进化过程中的保守、突变、亚细胞定位、功能性过滤过程、蛋白质组扫描以及质谱证据。在某些实施方案中，所述计算预测包括本技术领域现在已知或以后开发的用于选择预测的结合肽的至少四种、五种、六种、七种、八种、九种、十种或更多种结构性和/或功能性计算途径的组合。

本发明进一步提供一种鉴定与目标蛋白质或其结构域相互作用的一种或多种结合肽的方法，所述方法包括以下步骤：a)为针对所述目标蛋白质或其结构域的结合肽提供计算预测；b)基于所述计算预测选择多种所述预测的独特结合肽；c)产生包括所述多种预测的独特结合肽的肽微阵列，所述结合肽被预合成并且通过接头固定在固体载体表面上；d)将所述微阵列暴露于所述目标蛋白质或其结构域中；以及_e)在所述微阵列上检测一种或多种预测的独特结合肽与所述目标蛋白质或其结构域的相互作用，从而鉴定与目标蛋白质或其结构域相互作用的一种或多种结合肽。

在某些实施方案中，当所述结合肽和/或所述目标蛋白质或其结构域未被修饰或被修饰(所述修饰包括但不限于甲基化或乙酰化)时，本发明的方法能够鉴定结合肽-蛋白质相互作用。因此，本发明提供一种肽微阵列结合计算预测用于鉴定未修饰和/或修饰的结合肽、目标蛋白质或其结构域或基序的用途。在某些实施方案中，所述修饰的结合肽、目标蛋白质或其结构域或基序包括调节赖氨酸甲基化的翻译后修饰(PTM)蛋白质。

在其它实施方案中，本发明的方法也能够鉴定和/或检测并且量化结合肽与目标蛋白质或其结构域之间的瞬时相互作用。在某些实施方案中，所述结合肽与所述目标蛋白质或其结构域之间的相互作用经由荧光信号被检测到，所述荧光信号与结合亲和性相关并且提供所述结合肽与目标蛋白质或其结构域之间的相互作用的定量测量。本发明也涵盖本技术领域现在已知或以后开发的用于任何类型的微阵列技术的任何其它检测方法。也提供作为非限制性实例的用于表位定位和药物筛选或疫苗开发的本发明的肽微阵列的用途。

附图简述

图1示出用于鉴定人类蛋白质组中Abl1SH3结构域的潜在结合肽的计算预测分析的示例性流程图。右侧的数字指示在左侧的步骤之后残余的肽的数量。(1)用含有人类蛋白质组中的PxxP基序的69,404个肽开始。所有的肽按文献(8)中确定的PSSM来排序。这个PSSM是通过将在各位置的肽残基突变成所有其它19种氨基酸来产生。计算出野生型与突变的肽之间的结合自由能量差来表示在特定的肽的位置的氨基酸的优先性。用所述PSSM排序的前10,000个肽被选择用于进一步分析。(2)因为所述Abl1SH3结构域在7个物种中被完全保守，所以所述结合肽也有可能被保守。采用保守过滤程序来鉴定Abl1的最稳定的相互作用配偶体并且4,981个肽通过这个过滤程序。(3)连续采用一种称为MIEC-SVM的分类模型来删除假阳性(falsepositive)。在先前研究(12)中，这个MIEC-SVM模型基于SH3-肽相互作用界面的能量表征并且在18SH3结构域上培养。所述MIEC-SVM模型预测1,394个肽为结合剂。(4)所述1,394个肽中的前700个(用所述PSSM排序)被合成并且被印刷/固定在微阵列上。237个肽显示出明显的结合强度并且被认为是所述Abl1SH3结构域的潜在结合配偶体。

图2示出将所述Abl1SH3结构域结合至所述微阵列上的十个测试肽。十个肽包括4个已知的结合剂和6个非结合剂(所述6个非结合剂包括4个结合至其它SH3结构域但不是Abl1的肽，以及2个没有PxxP基序的肽)。左上图示出两个微阵列上的受测试肽的荧光信号，所述两个微阵列上有两种印刷量的肽。左下图示出所述微阵列上的所述肽位置(黑色：小印刷点；红灰色范围：大印刷点)。在所述微阵列上测到两种印刷尺寸的肽并且在这些附接至所述玻璃表面(右图)的肽的N端测到两种接头(氨基己酸Ahx和聚乙二醇PEG)。图2以出现的顺序分别公开SEQ ID NOS 107至126。

图3示出所述Abl SH3结构域与100个对照(50个阳性和50个阴性)肽和所述前700个预测的结合剂的结合。各肽被印刷在所述微阵列上三次。

图4提供肽微阵列实验中荧光强度的分布的建模。左侧和右侧：在所述微阵列上的高和低印刷量的肽。

图5示出所述100个对照肽的微阵列结合测量。X轴是实验上确定的K_d并且单位是μM。Y轴是微阵列的荧光强度。前38个结合肽的K_d是已知的。剩下的12个已知结合肽不具有测量过的K_d。为达到图示目的，这12个结合剂和所述50个非结合剂的Kd分别被人工指定为180μM和200μM。这些肽的荧光强度是三次高印刷浓度的平均数。

图6提供所述700个肽中的所述结合剂和非结合剂的PSSM评分的分布。

图7提供多梳(Polycomb)/H3K27me3复合体。(a，正视图；b，后视图)只显示出多梳中对结合至H3重要的残基。疏水残基以灰度级显示为褐色，酸性残基呈橙色，碱性残基呈蓝绿色，并且极性残基呈紫罗兰色。多梳的残余物的主链显示为绿色带状，并且H3显示为甘草模型。H3R26显示呈红色，H3K27me3呈橙色，H3S28呈黄色，H3A24和H3A25呈品红色，并且H3L20至H3K23呈淡蓝色。(c)多梳/H3K27me3复合体的正交图。通过分子表面渲染来显示所述多梳蛋白质，并且除了灰度级分别为石灰绿、海绿色以及橄榄绿的Tyr26、Trp47以及Trp50，所有残基呈绿色。H3显示为甘草模型；H3R26呈橙色而H3K27me3呈黄色，并且剩余的H3呈灰色。通过VMD⁶⁶产生图像。图7公开“Asp23至Glu29”为SEQ ID NO：127。

图8示出结合至组蛋白H3/H4肽的多梳蛋白质染色质结构域的微阵列数据的混合高斯拟合(gaussian fit)(黑色；总体；蓝色：非结合背景分布；红色：结合分布)。颜色以灰度级显示。

图9示出针对多梳结合和非多梳结合组蛋白肽的ROC曲线。

图10示出蛋白质组扫描流程图。图10公开“L20至R26”为SEQID NO：130。

发明详述

本发明提供一种包括固体载体表面的肽微阵列，所述表面上通过接头固定有多种预测的独特结合肽。所述预测的独特结合肽已通过与目标蛋白质或其结构域相互作用的计算预测被预先选出以用于微阵列。在所述计算预测选择之后，在被固定在所述微阵列的所述固体载体表面上之前合成所述预测的独特结合肽。本发明涵盖现在已知或以后开发的能够用于任何类型的微阵列技术的任何合适的固体载体表面。在某些实施方案中，所述肽微阵列的所述固体载体表面是玻璃表面。如本文所使用，术语“微阵列”和/或“肽微阵列”(或“肽芯片”)在本技术领域中众所周知，并且是指陈列在通常为玻璃或塑料芯片的固体表面上的肽的集合，并且总体上被用于研究蛋白质-蛋白质相互作用的结合性质和功能性以及动力学。

有预合成并且然后印刷在玻璃表面上的预测的独特结合肽的本发明的肽微阵列明显减小阵列的尺寸。由于计算预测分析，本发明的肽微阵列比传统肽微阵列需要更少的肽。使用本发明的所述肽微阵列，也需要很少量的蛋白质用于分析，这在患者样品的量通常是有限的疾病诊断中特别有用。本发明的肽微阵列及其使用方法明显降低生产和采用肽微阵列的成本。

在某些实施方案中，本发明的所述肽微阵列含有固定在所述固体载体表面上的10个至10,000个、50个至5,000个、100个至1,000个、200个至900个、300个至800个，或个400至700个，包括之间的任何数量的预测的独特结合肽或其结构域。在某些实施方案中，所述微阵列含有少于1,000个独特预测的结合肽。在某些实施方案中，所述预测的结合肽或其结构域被修饰，所述修饰包括但不限于甲基化或乙酰化。如本文所使用，术语“肽”和/或“蛋白质”可以交换使用，通常是指用肽键连接的氨基酸单体的短聚合物链，所述肽键是在一个分子的羧基与另一个分子的氨基发生反应时，在两个分子之间形成的共价化学键。术语“肽”通常是指典型地含有少于50个单体单位的较短的链，而“蛋白质”通常是指典型地含有超过数百个氨基酸单体的较长的链。

如本文所使用，“肽”或“多肽”包括两个或更多个亚单位氨基酸、氨基酸类似物或拟肽物的化合物。所述亚单位可以用肽键连接。在另一个实施方案中，所述亚单位可以用例如酯、醚等的其它键来连接。如本文所使用，术语“氨基酸”包括天然和/或非天然或合成氨基酸(包括D或L光学异构体)以及氨基酸类似物和拟肽物。本文所提及的“蛋白质”通常在长度上为50个氨基酸或更长。本发明的所述肽可以在长度上从大于2个和少于50个氨基酸之间变化，或在3个至30个、4个至20个、5个至15个之间或为6个、7个、8个、9个、10个、11个或12个氨基酸。

如本文所使用，蛋白质和/或结合肽可以包含修饰的氨基酸，所述修饰的氨基酸包括但不限于甲基化或乙酰化氨基酸和/或氨基酸类似物。如果存在氨基酸结构的修饰，可以在聚合物的组装之前或之后使氨基酸结构修饰。氨基酸的序列可以用非氨基酸组分来中断。可以在聚合反应之后使肽链进一步修饰，如通过与标签组分、接头和/或位于C端和N端的一端或两端的加帽分子共轭。本发明的蛋白质和/或结合肽可以是天然存在的、合成的、重组的、嵌合的或其任何组合。本发明涵盖来自任何物种或资源，包括但不限于人、哺乳动物、动物、植物、细菌、真菌、病毒等的蛋白质和/或结合肽。本技术领域众所周知隔离和纯化蛋白质或肽的方法以及合成或制造重组和/或嵌合蛋白质的方法。

如本文所使用，术语“结构域”或“基序”可以交换使用，并且是指可以独立于所述蛋白质链的其余部分进行进化、起作用并且存在的给定蛋白质序列和结构的结构性或功能性片段或部分。“结构域”或“基序”或“片段”的长度可以发生变化并且在长度上通常在约25个氨基酸达500个氨基酸之间。

所述预测的独特结合肽在被固定在所述微阵列中的固体载体表面上之前，被原位合成并且然后被附接至用于稳定所述固定的接头。在某些实施方案中，所述附接至所述预测的结合肽的接头包括但不限于氨基己酸(Ahx)或聚乙二醇(PEG)。在某些实施方案中，所述预测的结合肽的每一端也用丙氨酸加帽。本发明涵盖本技术领域现在已知或以后开发的可以用于任何类型的微阵列技术的任何合适的接头或加帽分子。

整篇本说明书引用包括专利、公布的申请、技术论文以及学术期刊的各种公布。这些引用的公布中的每一个以引用的方式整体并入本文。

本发明提供通过计算预测而选出以用于微阵列的所述预测的独特结合肽，所述计算预测如Hou等的(2006年的公共科学图书馆计算生物学(PLoSComput.Biol.)：0046-005和2009年的分子细胞蛋白质组学(Mol.Cell Proteomics)8：639-649)(各自的整体内容以引用的方式并入本文)所讨论。如本文所使用，术语“计算预测”是指利用计算机的中央处理器的任何方法和/或分析途径，所述中央处理器能够测定一级、二级以及三级蛋白质结构和功能以及蛋白质-蛋白质相互作用。在某些实施方案中，所述计算预测包括至少三种分析途径的组合，所述分析途径选自由以下组成的组：结构信息、所述肽-蛋白质相互作用的能量模式(例如，范德华、静电和反溶剂能量)、分子动力学模拟、进化过程中的保守、突变、亚细胞定位、功能性过滤过程、蛋白质组扫描以及质谱证据。在某些实施方案中，所述计算预测包括本技术领域现在已知或以后开发的用于选择预测的结合肽的至少四种或更多种结构性和/或功能性途径的组合。例如，可以从PRIDE(Vizcaino等，蛋白质组鉴定数据库蛋白质组数据存储库指南(A guide to theProteomics Identifications Database proteomics data repository)，Proteomics 2009，9，4276-4283)和肽数据集(Peptide Atlas)(Deutsch等人，肽数据集：用于新兴定向蛋白质组工作流程的定向选择的资源(Peptide Atlas：a resource for target selection for emerging targetedproteomics workflows)，EMBO Rep 2008，9，429-434)的数据库中下载质谱数据并且可以使用软件X！TANDEM(Craig和Beavis，串联：用串联式质谱图匹配蛋白质(TANDEM：matching proteins with tandemmass spectra)，Bioinformatics，2004，20，1466-1467)和INSPECT(Tanner等，检验：鉴定来自串联式质谱图的翻译后修饰肽(InsPecT：identification of posttranslationally modified peptides from tandem massspectra)，Anal Chem 2005，77，4626-4639)来执行分析，可以用PSI-PRED3.0(Jones，基于位置特异性评分矩阵的蛋白质二级结构预测(Protein secondary structure prediction based on position-specificscoring matrices)，JMol Biol 1999，292，195-202)和SSpro4.0(Chenget等，划痕：蛋白质结构和结构特点预测服务器(SCRATCH：a proteinstructure and structural feature prediction server)，Nucleic AcidsRes 2005，33，W72-76)来预测二级结构；可以使用DSSP(Kabsch和Sander，蛋白质二级结构词典：氢键和几何特点的图式识别(Dictionary ofproteinsecondary structure：pattern recognition of hydrogen-bonded andgeometrical features)，Biopolymers 1983，22，2577-2637)来计算溶剂可达表面面积(SASA)；可以用BLAST(Altschul等，基础局部比对搜索工具(Basic local alignment search tool)，JMol Biol 1990，215，403-410)和CLUSTALW2(Larkin等，数据模式W和数据模式X版本2.0(ClustalW and Clustal X version 2.0)，Bioinformatics 2007，23，2947-2948)来评估多序列比对和保守。

本发明进一步提供一种鉴定与目标蛋白质或其结构域相互作用的一种或多种结合肽的方法，所述方法包括以下步骤：a)为针对所述目标蛋白质或其结构域的结合肽提供计算预测；b)基于所述计算预测选择多种所述预测的独特结合肽；c)产生包含所述多种预测的独特结合肽的肽微阵列，所述结合肽被预合成并且通过接头固定在固体载体表面上；d)将所述微阵列暴露于所述目标蛋白质或其结构域中；以及e)在所述微阵列上检测一种或多种预测的独特结合肽与所述目标蛋白质或其结构域的相互作用，从而鉴定与目标蛋白质或其结构域相互作用的一种或多种结合肽。

一方面，本发明提供涉及化学合成肽和在具有DNA微阵列尺寸的玻璃载片上印刷肽的肽微阵列技术。用目标蛋白质，随后通过识别所述蛋白质的一级抗体并且然后通过有荧光标签的二级抗体来培育所述载玻片。用标准DNA微阵列扫描仪扫描所述载玻片并且测量每个肽点的荧光强度。将蛋白质结合至肽产生荧光信号并且所述信号强度与它们的结合亲和性相关，这提供蛋白质-肽相互作用的定量测量。在其它实施方案中，本发明的方法也能够鉴定和/或检测结合肽与所述目标蛋白质或其结构域之间的瞬时相互作用。本发明也涵盖本技术领域现在已知或以后开发的用于任何类型的微阵列技术的任何其它检测方法。

在一个实施方案中，本发明提供如融合至GST的c-Abl的SH3结构域的重组蛋白质以及一组测试肽。这个SH3结构域的已知肽结合剂显示荧光信号，而其它SH3结构域的不规则肽和肽结合剂没有信号。实施例1进一步提供最优化肽微阵列技术和测定条件，以及荧光信号的强度和蛋白质-肽结合亲和性是否显示线性相关的测定。

在另外的实施方案中，本发明提供将计算机建模与肽微阵列技术结合以鉴定人类蛋白质组中酪氨酸激酶Abl1的SH3结构域的结合肽的系统途径。本发明提供针对Abl1蛋白质的候选相互作用配偶体的综合列表，其中许多甲基转移酶和RNA切片蛋白质的存在可以表明Abl1在染色质重塑和RNA加工中的新功能。本发明的这个实施方案示出将计算和实验方法结合的有力途径，所述计算和实验方法使用肽微阵列技术来检测由结构域-肽识别介导的蛋白质相互作用。

本发明进一步提供肽微阵列和本发明的方法结合计算预测能够被用于在所述结合肽和/或所述目标蛋白质或其结构域或基序未被修饰或被修饰(所述修饰包括但不限于甲基化或乙酰化)时鉴定结合肽-蛋白质相互作用。在某些实施方案中，所述修饰的结合肽、目标蛋白质或其结构域或基序是包括但不限于调节赖氨酸甲基化的翻译后修饰修饰(PTM)蛋白质的甲基化的或乙酰化的肽或蛋白质。

一方面，本发明提供将计算预测与肽微阵列结合的系统途径来用多梳染色质域蛋白质识别甲基化肽，并且鉴定来自苍蝇蛋白质组的含有甲基赖氨酸的肽，所述计算预测包括生物信息管道证据，如保守、亚细胞定位以及质谱数据。下文的实施例2提供这些实施方案的更详细的讨论。

因此，本发明提供一种能够定量测定微阵列上的肽与目标蛋白质的结合亲和性的肽微阵列技术，并且因此，提供进行蛋白质组的测量的定量、高通量以及划算的方法。通过在微阵列上印刷不同组的肽，本发明的肽微阵列技术能够用于定义蛋白质结合特异性、示出蛋白质-蛋白质相互作用、测定抗体识别的表位以及鉴定各种酶的底物。本发明的肽微阵列技术的商业应用还包括但不限于：1)以定量的方式同时研究一种或多种目标蛋白质与上千种肽的相互作用的研究用途，和2)用于疾病诊断(例如，自身免疫疾病和过敏)和药物筛选(例如，疫苗开发)的表位定位。

以下实施例进一步说明本发明，所述以下实施例不以任何方式被解释为对本发明的范围施加限制。本领域技术人员显而易见各种修改和变化是有可能的并且涵盖于本发明的范围内。

实施例

实施例1

通过将计算预测与肽微阵列结合来对Abl1SH3

结合肽进行全蛋白质组检测

引言

人类酪氨酸激酶Abl1在信号转导中起着重要作用并且与多种细胞蛋白质(1，2)相互作用。断裂点簇集区(BCR)与ABL基因的融合形成致癌BCR-ABL，其会导致某些人类白血病(3)。Abl1蛋白由几个模块化结构域组成，包括形成分子内和分子间相互作用以便调节其激酶活性(1，2)的一个SH3结构域以及一个SH2结构域。虽然已报告Abl1的许多相互作用配偶体，如Abi1、Abi2以及Rin1(2)，由弱及瞬时SH3肽相互作用介导的配偶体的全蛋白质组鉴定仍是不完全的并且仍是具有挑战性的问题。

高通量技术如酵母双杂交以及蛋白复合物纯化连同质谱分析法极大地促进了蛋白质-蛋白质相互作用的鉴定。然而，因为它们未进行优化设计以便检测弱及瞬时结构域-肽相互作用，此类相互作用经常在蛋白质组学筛选(4，5)中未被充分代表。另一方面，经常使用体外结合测定如噬菌体展示、肽阵列以及蛋白质阵列以便确定模块化结构域的结合特异性。这些技术各具有优点以及局限性。噬菌体展示与肽阵列是互补技术：前者可以针对给定域测试大量随机肽的结合而后者可以确定一组特定目标肽的结合。与这两种技术相比，蛋白质阵列经常在表面存在相对较小数量的蛋白质以便测试合成肽或纯化蛋白质的结合。计算分析对于这些体内或体外实验测量是至关重要的，因为它1)去除体内数据的假阳性并且恢复体内数据的假阴性；2)基于由体外实验确定的结合基序预测全蛋白质组相互作用配偶体以便指导进一步实验研究。

在此提出综合法以便鉴定人类蛋白质组中Abl1的相互作用配偶体：计算预测通过结合多种来源的数据进行，包括结构信息、SH3-肽相互作用的能量模式以及在进化过程中的保守性；然后使用肽微阵列技术测试所预测的相互作用。不同于在纤维素膜上合成肽(6)的普及SPOT技术，预合成以及质量控制肽被印刷并且固定在玻璃表面上以便与纯化的Abl1SH3结构域杂交，这样证实了237个预测相互作用。由SH3-肽相互作用介导的Abl1的推定相互作用配偶体的全蛋白质组鉴定揭示Abl1在染色质重塑以及RNA加工中的新功能。它也极大地增强了对Abl1调节机制的了解。

方法

I. Abl SH3结合肽的计算预测

1.使用源于自由能计算的位置特异性评分矩阵(PSSM)筛选数据库

使用我们在之前的研究(8)中开发的PSSM对UniProt数据库(7)中的所有10个残基长度的肽进行评分。所述PSSM是10x20矩阵，其表示突变肽与模板肽之间的结合自由能的差异(详见(8))。简单来说，使用MM/PBSA基于晶体结构(PDB项1bbz)计算所述模板肽的结合自由能。然后将所述肽中对于其它19个氨基酸的各残基进行突变并且计算结合自由能的变化。这一变化反映了在各肽残基上的氨基酸的优先性并且在10x20矩阵中进行编码以便用作PSSM来评分肽序列。所述肽评分如下计算：

其中M_s，i为氨基酸S在PSSM中第i个位置的评分并且S_i为在所述肽的第i个位置的氨基酸。前10,000个具有PxxP基序的肽(x表示任何氨基酸)被保存用于进一步分析。

2.七个物种之间的保守性分析

对七个物种进行保守性分析：智人(Homo sapiens)(人类)、黑猩猩(Pan troglodytes)(黑猩猩(chimpanzee))、猕猴(Macaca mulatta)(猕猴(rhesus macaque))、小家鼠(Mus musculus)(小鼠)、褐家鼠(Rattusnorvegicus)(大鼠)、家犬(Canis familiaris)(犬)以及牛(Bos taurus)(母牛)。这七个物种的蛋白质序列是取自NCBI BLAST服务器中的非冗余蛋白质序列数据库。对于含有推定结合肽的各蛋白质，如果其E值＜10^-10，由PSI-BLAST(33)在各物种中发现的最佳匹配被视为同系物；否则，则视为非同系物。然后使用ClustalW 1.7(34)比对所述人类蛋白质以及其同系物。接着，对于所述10个残基长度的推定结合肽，计算成对相似性评分：其中S_AiBi是PAM500变异矩阵中人类肽中的第i个位置上的残基A与其它物种中的第i个位置上的残基B之间的氨基酸相似性评分。如果在任何物种的相应肽中发现间隙，则此肽不被视为同系物。如果未发现同系物，则所述保守性分析不具有信息性并且序列相似性被设置为1.0。只有成对相似性等于或大于0.9，该肽才是保守的。此外，只有人类肽在至少四种其它物种中是保守的情况下，它才会包括于列表中。

3.使用MIEC-SVM模型区分结合剂与非结合剂

考虑到在自由能计算中的噪声可能会影响所述PSSM的精确度，在之前研究(12)中开发的MIEC-SVM模型被用于将所有保守肽分为结合剂组与非结合剂组。

(1)模拟所有保守肽的复合物。在复合物中具有所述Abl SH3结构域(PDB项1bbz)的肽APSYSPPPPP(SEQ ID NO：1)的晶体结构被用作初始模板以便模拟含有其它肽的复合物。使用scap程序(35)将所述模板中的肽系统地突变成另一种肽。由于在研究中大量的肽，在AMBER9.0力场(36)以及AMBER03力场(37)中使用sander程序最小化仅各模拟结构。考虑到溶剂效应，使用在sander(38)中实现的广义波恩(GB)模型(igb＝2)。最小化步骤的最大数量被设置为4,000并且用于能量梯度的笛卡尔要素的均方根(rms)的收敛准则为

前500个步骤用最陡下降算法进行并且剩下的步骤用共轭梯度算法进行。

(2)计算各肽(11，12)的分子相互作用力场(MIEC)。使用MM/GB方案计算各残基-残基对的MIEC。这些MIEC包括：(a)静电(库伦)相互作用ΔG_GB，(b)范德华相互作用AE_vdw，以及(c)去溶剂化自由能的极性贡献AGg_b。计算ΔE_vdw和

的截断被设置为

与距离无关的内部介电常数1被用于计算ΔE_ele。GB计算中使用的电荷取自AMBER03力场(37)并且其它GB参数取自AMBER03力场(39)。GB计算中的内部介电常数以及外部介电常数的值分别被设置为1和80。此外，10个残基长度的肽中紧邻残基之间的9个残基对的MIEC也被计算以便考虑所述肽的构象优先性。使用AMBER10(40)中的gleap程序自动进行分子相互作用组分计算，包括SH3/肽复合物的读入、GB计算中原子类型的定义以及力场参数的分配。

(3)使用MIEC-SVM模型预测结合肽。最后，使用MIEC-SVM模型将各肽分为结合剂类以及非结合剂类。LIBSVM程序(41)被用于所述预测中。

II肽微阵列测量以及分析

1.肽微阵列筛选

如前所述(12)纯化GST标记的Abl SH3结构域融合蛋白。使用Bradford测定法(Bio-Rad)来确定蛋白质浓度。通过SDS-PAGE电泳以及考马斯(coomassie)亮蓝染色法检测所述融合蛋白的纯度。所述融合蛋白还经受SDS-PAGE凝胶电泳，随后使用辣根过氧化酶共轭抗GST抗体(Santa Cruz Biotechnology)以及SuperSignal West化学发光底物(Pierce)进行蛋白质印迹分析。

所有肽由西格玛—奥德里奇公司(Sigma-Aldrich)合成。所述肽由ArrayIt公司被重复三次印刷至载玻片上。缓冲空白以及Cy3标记也被重复三次印刷。使用封闭缓冲溶液(5％脱脂干奶粉、TBS pH 8.0、0.05％吐温20)在室温下封闭所述肽阵列一小时。接着，在4℃条件下使用最终浓度为5μM的于所述封闭缓冲液中的纯化的GST-AblSH3隔夜培养所述肽阵列。在使用TBST缓冲液(TBS pH8.0、0.05％吐温20)持续十分钟洗涤三次之后，抗GST抗体(Santa CruzBiotechnology)在室温下被加入封闭缓冲液中至最终浓度为0.2μg/ml持续一小时。然后使用所述TBST缓冲液持续十分钟洗涤所述阵列三次。最后，使用二级抗体Cy3共轭羊抗小鼠IgG(H+L)(JacksonImmunoResearch)在室温下培养所述阵列持续一小时，随后使用所述TBST缓冲液持续十分钟洗涤所述阵列三次。作为对照，单独使用抗GST抗体以及二级抗体培养所述阵列。

2.肽微阵列结果分析

使用Inno Scan 710激光扫描仪(ArrayIt Corporation)处理所述肽微阵列。使用532nm激光在3um分辨率下检测Cy-3荧光。使用微阵列图像处理软件Mapix2.8.2(ArrayIt Corporation)分析所得微阵列图像。微阵列点样的荧光强度被定义为它自己的强度减去它周围的背景强度，如从扫描图像所测定。

结果

预测人类蛋白质组中的蛋白质-肽相互作用的流程

为了全面鉴定Abl1蛋白的相互作用配偶体，利用了系统的搜索策略(图1)。首先使用评分矩阵对UniProt数据库(7)中的所有69,404个人类蛋白质组中的含有PxxP基序的肽进行评分。使用前面开发的虚拟诱变方法(详见(8))产生此评分矩阵。简单来说，将所述肽的各氨基酸突变为其它19个氨基酸并且使用2ns分子动力学模拟来优化所述突变的复合物结构。使用MM/PBSA方法(9，10)计算野生型肽和突变肽之间的SH3-肽结合自由能的差异以便表示氨基酸在各肽位置上的优先程度。

接着，分析由所述评分矩阵排序的前10,000个肽并且使用保守信息来去除假阳性。由于功能上的限制，与非结合肽相比，Abl1SH3结构域的结合肽在物种之间更具保守性。对于包含至少一种推定结合剂的各蛋白质，七种蛋白质组之间产生多重序列比对，包括智人(人类)、黑猩猩(黑猩猩(chimpanzee))、猕猴(猕猴(rhesus macaque))、小家鼠(小鼠)、褐家鼠(大鼠)、家犬(犬)以及牛(母牛)。因为人类Abl1SH3结构域在这七种物种之间是完全保守的，可以合理的假设其相互作用配偶体也是高度保守的。因此，那些非保守肽被从候选列表中去除。在施用保守性过滤程序之后，约一半的所述肽被去除并且4981个肽被留下用于进一步分析。

目标是找到Abl1SH3结构域最确信的相互作用配偶体并且以下步骤被用于进一步去除假阳性。如之前的研究所说明(11，12)，模拟复合物中具有Abl1SH3结构域的各4981个肽并且计算能反映结合的能量特性的分子相互作用能量组分(MIEC)。使用之前在18SH3结构域(12)上训练的MIEC-SVM，将各肽分为结合剂类或非结合剂类。在这一轮过滤之后，714种蛋白质中的1394个肽被预测为所述Abl1SH3结构域的结合剂。

表1.前10种预测的所述Abl1SH3结构域的结合剂(SEQ ID NOS

2-11，分别按照出现的顺序)

^a已知EVL肽与Abl SH3结构域(粗体)(2)相互作用；已知WASF1、WBP7、SHAN3以及WASP蛋白质与Abl蛋白(黑斜体)(42)相互作用。^b评分是基于我们之前研究中报告的PSSM进行计算(8)。此PSSM是通过在各位置将所述肽残基突变为所有其它19种氨基酸产生的。计算野生型肽与突变肽之间的结合自由能的差异以便表示在具体肽位置的氨基酸的优先性。所述肽的总评分是在各肽位置的评分的总和。

在表1示出的前10种预测肽中，五种是来自已知与Abl1SH3结构域(粗体)相互作用的蛋白质，包括结合至Abl1的SH3结构域的EVL。考虑到此全蛋白质组预测的难度，鉴定已知相互作用配偶体的50％(5/10)比率表现出了我们方法的良好性能。另一方面，剩下的肽可能是还未报告的新结合剂。为了进一步细化所述预测，对所述预测结合肽进行肽微阵列实验以便发现所述Abl1SH3结构域的最可靠的结合剂。

肽微阵列的设计以及对照实验

为了印刷肽微阵列，需要决定将所述肽固定在玻璃表面的方法以及所印刷的肽的量。因此，首先选择10个肽以便测试条件。这些肽包括所述Abl1SH3结构域(13，14)的4种已知结合剂以及6种非结合剂(包括4个结合至其它SH3结构域，但不是Abl1(13，14)的肽，以及2个不具有PxxP基序的随机肽)。与之前的研究(12)相同，各肽为10个氨基酸长度并且在各端加入两个丙氨酸。在N-端加入接头，所述接头为氨基己酸(Ahx)或聚乙二醇(PEG)。所述肽经由N-端被固定在玻璃表面上。分别测试两个点尺寸，直径150um以及600um，其对应于分配至所述矩阵的1nl以及5nl的0.3mg/ml肽溶液。各印刷量以及接头进行重复三次测试。为了更好地定量测量信号强度，使用荧光以及激光扫描仪来检测所述SH3结构域与所述肽的结合，而不使用之前研究(12)中的化学发光以及薄膜。简单来说，如前所描述(12)纯化以及特征化GST-Abl SH3融合蛋白(数据未示出)。纯化的蛋白被覆盖至所述矩阵上，随后使用抗GST抗体培养并且然后使用Cy3共轭二级抗体培养。GST-Abl SH3结合至肽产生的Cy3荧光信号被记录在激光扫描仪中。各肽的荧光强度是三次的平均值。

图2示出所述肽微阵列正确地区分结合剂与非结合剂。通过量化各点样的信号，发现使用任一接头信号强度没有差异。正如所预期的，大点样产生的整体信号比小点样强得多。然而，小点样中的信号强度比大点样中的更均匀并且小点样中的三次信号的变化比大点样中少。因此选择较低成本的Ahx接头以及150um点样用于剩下的实验。作为对照，使用抗GST探测所述阵列并且只记录二级抗体以及荧光的基础水平(数据未示出)，表明这些抗体与所述阵列不存在非特异结合。

所述肽微阵列数据分析

在产生操作中，受合成成本限制，合成并且印刷了前700个预测结合肽。50个结合剂(包括38个具有之前测量的Kd’s(13))以及50个非结合剂也被包括于所述阵列上分别作为阳性对照和阴性对照。所述非结合剂是随机地选自所述蛋白质组，其不太可能与所述Abl1SH3结构域相互作用。在两种浓度下(1mg/ml和0.5mg/ml)重复三次印刷各肽。以与测试操作相同的方式探测产生矩阵(图3)。同样地，仅使用所述抗体进行对照试验并且仅检测荧光的基础水平(数据未示出)。

为了分析所述微阵列数据，首先去除被标记为噪声的点样。对于所述高(1mg/ml)以及低(0.5mg/ml)印刷浓度，分别剩下724个以及767个(在800个中)点样用于后面的分析。接着，使用Gamma分布通过模拟背景强度分布确定显著荧光信号的统计截断(图4)。所述点样基于荧光强度入仓。为了获得更好的曲线拟合，表示强结合肽的直方图的长尾被去除并且仅保留所述高浓度以及低浓度的强度分别低于900以及1500的仓。使用R进行模型拟合以及P值计算并且0.05的P值被用作截断。

建立参数后，首先检查100个对照肽并且发现50个阳性对照中的40个表现出强信号并且50个阴性对照中的48个显示仅基础信号(图5)。因此，具有0.80(＝40/50)灵敏度以及0.96(＝48/50)特异性的产生阵列显示出令人满意的性能。值得注意的是合成两次10个假阴性肽，并且使用点样杂交法测试其与Abl1SH3结构域的结合，这10个肽中只有一个显示出信号(数据未示出)。虽然报告称这10个肽是结合剂，实验无法证实这一结论并且所述肽微阵列的真实灵敏度可以是0.98(＝40/41)。

然后检查所述700个预测的肽并且158个蛋白质中的237个非冗余肽被鉴定为推定结合剂，包括分别自高浓度以及低浓度的220个和175个。当检查所述237个结合肽以及剩下的非结合肽的PSSM评分时，发现虽然两者的分布之间存在显著重叠，结合剂具有比非结合剂更有利(小)的PSSM评分(图6)。此图说明PSSM在一定程度上提供了结合剂与非结合剂的分离。

在所鉴定的结合肽中，发现了Abl1SH3结构域的13个已知结合配偶体以及已知结合配偶体(2)的两个横向同源物(表2)。在(2)中列出的通过SH3-肽相互作用与Abl1相互作用的蛋白质有52个并且获得25％(13/52)或29％(15/52)的所述Abl1SH3结构域的这些人工精选的相互作用配偶体。有趣的是，它们中的6个也是已知的Abl1激酶的底物：ENAH、INPPL1、RAPH1、RIN1、WASF2及WASL。此外，所鉴定的结合蛋白质也包括另一个之前测定的未包括在(2)中的SH3结构域的相互作用配偶体SHIP2(15)以及Abl1的已知底物和相互作用配偶体WASF3(16)。Abl1与其底物之间的相互作用经常由SH3结构域介导(如上面提到的所述6个底物的情况下)。也已知WASF家族蛋白质与Abl1之间的相互作用是由SH3结构域介导(16)。因此，WASF3很可能是Abl1SH3结构域的真实相互作用配偶体。值得注意的是存在大量描述Abl1SH3结构域的许多配偶体的的数据库，但是在(2)中精选列表仅用作已知相互作用配偶体的金标准，该金标准可能会错过许多真实阳性(如SHIP2)。考虑到结构域-肽相互作用的全蛋白质组鉴定所面临的挑战，这项研究中获得所精选的相互作用配偶体的8.2％(13/158)率是相当令人满意的，而其它证实的肽很可能是未知的结合剂。

表2.本研究中鉴定的已知结合配偶体(SEQ ID NOS 12-33，分别按照出现的顺序)。

注意CBLB和WASL分别是CBL和WAS的横向同源物，它们是Abl1SH3结构域的已知结合蛋白质。以如表1中同样的方式计算PSSM评分。

也将本肽微阵列方法与另一种用于检测所述Abl1SH3结构域的已知结合肽的基于肽阵列(SPOT阵列)的方法进行比较：在Wu等人的研究(17)中发现了(2)中列出的仅两个已知相互作用配偶体(M4K1、DYN2)、三个已知相互作用配偶体的横向同源物(SOS2、ABR以及EFS)以及一个已知底物(SYNJ2)(2.5％＝2/81回收率)。本肽微阵列方法的优异性能显示了在鉴定人类蛋白质组中结构域-蛋白质相互作用中将计算预测与肽微阵列结合的效能。

Abl1在染色质修饰以及RNA加工中的推定新功能

所鉴定的Abl1结合肽来自158个蛋白质。为了说明它们的功能，使用具有缺省参数的DAVID软件包(19)进行其基因本体论(GO)(18)注解的富集分析(表3)。不足为奇，许多蛋白质与肌动蛋白细胞骨架功能有关，其中众所周知Abl1也涉及在内。意外地，也发现了涉及于染色质修饰、RNA加工、转录调控以及细胞凋亡的推定结合配偶体(表3)。与这些蛋白质的相互作用表明Abl1的可能的新功能。在表4中高亮显示了Abl1的推定相互作用配偶体的几个目标组。

表3.Abl1的推定相互作用蛋白的的功能

(P值截断设置为1.0E.3)

表4.涉及于染色质重塑以及转录调控的Abl1的推定相互作用蛋白

(SEQ ID NOS 34-60，分别按照出现的顺序)。

基于蛋白质的功能将蛋白质分类：染色质修饰(粗体)、与甲基化DNA结合(青色高亮显示)、细胞凋亡(绿色高亮显示)以及转录和剪接(黄色高亮显示)。颜色以灰度示出。

(1)染色质重塑酶

几种甲基转移酶对于转录至关重要，例如，SET1A、SET1B以及WBP7甲基化组蛋白H3的Lys4。H3K4的单甲基化、二甲基化以及三甲基化(分别表示为H3K4me1、H3K4me2以及H3K4me3)对于标记活性启动子以及增强子是已知的(20)。除了研究之外，在(17)中也发现WBP7与Abl1SH3结构域相互作用，虽然这一相互作用的功能尚不清楚。

分析揭示了Abl1与SETD2的结合，SETD2是甲基化H3K36的组蛋白甲基转移酶，该酶是转录延伸以及剪接的标记(20)。SETD2肽(氨基酸185-194以及187-196)位于脯氨酸富集区。由于此区域不包含任何鉴定的结构域，很可能该肽对于SH3结合是可及的。已知SETD2与超磷酸化POLR2A、RNA聚合酶II(Pol II)大亚单位相互作用，该RNA聚合酶II大亚单位也是Abl1的底物。观察结果暗示Abl1可能通过SETD2向Pol II复合物邻近募集并且从而调节转录。

Abl1SH3结构域的另一个鉴定的相互作用配偶体DOT1是甲基化H3K79的组蛋白甲基化转移酶。H3K79me2是转录区域(20)的组蛋白修饰标记。DOT1也与MLLT10、髓系白血病/淋巴性白血病或混合血系白血病蛋白质相互作用。需要证实Abl1与MLLT10之间的相互作用并且说明其功能重要性。

分析也揭示Abl1在JMJD3以及EP300中识别肽，所述JMJD3是使H3K27me3(20)的抑制性组蛋白标记脱甲基的脱甲基酶，所述EP300是常位于增强子(20)中的辅助因子的乙酰基转移酶。其它鉴定的涉及于染色质结构重塑中的相互作用配偶体包括推定多梳家族蛋白ASXL3(21)以及染色质修饰基因CHD8(22)。

此外，发现Abl1与两个含有甲基-CpG结合结构域的蛋白质MBD5以及MBD6相互作用。这两个蛋白质的功能在很大程度上仍是未知的。考虑到Abl1在染色质结构的修饰中的潜在功能，由于组蛋白修饰与DNA甲基化之间存在相互作用，它可以在DNA甲基化中发挥作用(23，24)。

(2)转录以及剪接复合物

除了Abl1与染色质修饰酶之间的这些推定相互作用，此研究显示Abl1SH3结构域也直接与转录机制相互作用，所述转录机制包括TAF1(TFIID基础转录因子复合物的最大组分(25))以及MED19(涉及于几乎所有Pol II依赖性基因的转录调节中的介体复合物和共活化子的组分(26))。另一个推定Abl1结合剂是ACINU，其为沉积在mRNA(27，28)上的剪接点的剪接依赖性多蛋白外显子连接复合物(EJC)的组分。也鉴定出许多涉及于RNA剪接以及mRNA加工中的蛋白质(表3)，其表明Abl1在转录以及剪接调节中的新功能。

(3)涉及细胞凋亡的蛋白质

已知Abl1的两个潜在相互作用蛋白质涉及于细胞凋亡中：PDCD7在过度表达时促进细胞凋亡(29)；ASPP2通过增强体内p53对于促凋亡基因的启动子的DNA结合以及转录激活功能来调节p53(30)。此外，上面提到的染色质修饰基因以及推定Abl结合剂CHD8能够通过募集组蛋白H1以及阻止p53转录激活活性来抑制p53介导的细胞凋亡(31)。

讨论以及结论

酪氨酸激酶Abl1是造血系统恶性肿瘤的重要治疗目标。在此提出将计算预测与肽微阵列结合的系统方法以便鉴定人类蛋白质组中经由SH3-肽识别结合至Abl1的蛋白质。与所记录的Abl1相互作用蛋白的对比显示本方法的令人满意的性能。考虑到人体中蛋白质相互作用的复杂性以及确定此类相互作用用于治疗进展的重要性，本方法对任何疾病相关的蛋白质的结合配偶体的全蛋白质组搜索提供了巨大希望。更令人兴奋的是，如所展示的，这种全蛋白质组搜索揭示这些蛋白质的未知功能。发现了Abl1与大量染色质重塑酶以及RNA加工蛋白质之间的推定相互作用，表明Abl1在染色质修饰以及RNA调节中的新功能。

本计算方法提供了将计算模拟与生物信息学分析结合以便提供减少假阳性的补充信息的研究工具。虚拟诱变以及MIEC-SVM计算考虑到SH3-肽相互作用的构象易变性以及能量特性，而保守性分析使用演化信息以便在计算机模拟中去除噪声。因此，本方法比单纯的仅基于序列的生物信息学分析更好地俘获蛋白质识别的结构以及能量特点。

由于瞬时以及弱结构域肽相互作用对于免疫沉淀反应以及质谱分析是困难的，体外结合测定如肽(微)阵列经常是用于鉴定候选肽的首要步骤。由于肽合成的成本仍然非常高，太昂贵而不能在(微)阵列中包括所有可能的肽。计算方法越准确，在后续实验中能够鉴定的结构域-肽相互作用越多，如与不含计算要素的方法相比，由本研究产生的(2)中列出的Abl1SH3结构域的已知相互作用配偶体的更高获得率所反映。

在本研究中，使用将肽印刷至玻璃表面上的肽微阵列平台。此技术使用(大约微微摩尔)比普及的SPOT阵列(大约毫微摩尔)少得多的肽。因此，它也比SPOT阵列需要更少的蛋白质、抗体以及其它试剂。此外，微阵列上的肽点样(直径150um)比那些在SPOT阵列上的点样(直径约3mm)在尺寸上小得多，这样允许在很小的表面高密度印刷。因此筛选可以在多个复制品中以综合规模以及系统方式进行。在所述阵列中使用DNA/RNA寡核苷酸微阵列载片也允许通过微阵列成像仪定量测定。

可以使用荧光、化学发光或放射性同位素检测肽微阵列上的信号，而在SPOT阵列中由于合成阵列显示一些背景荧光，荧光染料在某种程度上存在问题(32)。肽的质量控制合成减少由点样上缺乏或低质量肽所产生的假阴性的数量，所述假阴性可能发生在SPOT阵列中。只要存在需求，同批次的预合成肽可以用于成千上万的微阵列实验以及在各种不断变化的测定中。这不仅节省成本而且在数据解释中去掉一个变量。通过在测试操作中使用10个肽并且在产生操作中使用100个对照肽首先在验证性实验中展示我们的肽微阵列在检测弱SH3-肽结合中的效能。这一结果通过Abl SH3结构域所鉴定的结合剂与所记录的已知结合剂的令人满意的相关性进一步得到证明。此外，测量荧光强度提供定量信号，该定量信号可以使用统计测试进行分析以便确定结合肽。

参考文献：

1.Hantschel，O.，和Superti-Furga，G.(2004)Regulation of the c-Abland Bcr-Abl tyrosine kinases.Nat Rev MolCellBiol5，33-44.

2.Colicelli，J.(2010)ABL tyrosine kinases：evolution of function，regulation，and specificity.Sci Signal3，re6.

3.Wong，S.，和Witte，O.N.(2004)The BCR-ABL story：bench tobedside and back.AnnuRev Immunol22，247-306.

4.Neduva，V.，和Russell，R.B.(2006)Peptides mediating interactionnetworks：new leads at last.Curr Opin Biotechnol17，465-471.

5.Perkins，J.R.，Diboun，I.，Dessailly，B.H.，Lees，J.G.，和Orengo，C.(2010)Transient protein-protein interactions：structural，functional，and network properties.Structure 18，1233-1243.

6.Hilpert，K.，Winkler，D.F.，和Hancock，R.E.(2007)Peptidearrays on cellulose support：SPOT synthesis，a time and cost efficientmethod for synthesis of large numbers of peptides in a parallel andaddressable fashion.NatProtoc 2，1333-1349.

7.UniProt，C.(2010)The Universal Protein Resource(UniProt)in2010.NucleicAcidsRes 38，D142-148.

8.Hou，T.，Chen，K.，McLaughlin，W.A.，Lu，B.，和Wang，W.(2006)Computational analysis and prediction of the binding motif and proteininteracting partners of the Abl SH3domain.PLoS Comput Biol2，e1.

9.Kollman，P.A.，Massova，I.，Reyes，C.M.，Kuhn，B.，Huo，S.，Chong，L.T.，Lee，M.R.，Lee，T.S.，Duan，Y.，Wang，W.，Donini，O.，Cieplak，P.，Srinivasan，J.，Case，D.A.，和Cheatham，T.E.(2000)Calculating structures and free energies of complex molecules：combining molecular mechanics and continuum models.Accounts ofChemicalResearch33，889-897.

10.Wang，W.，Donini，O.，Reyes，C.M.，和Kollman，P.A.(2001)Biomolecular simulations：recent developments in force fields，simulations of enzyme catalysis，protein-ligand，protein-protein，andprotein-nueleic acid noncovalent interactions.Annu Rev Biophys BiomolStruct 30，211-243.

11.Hou，T.，Zhang，W.，Case，D.A.，和Wang，W.(2008)Characterization of domain-peptide interaction interface：a case study onthe amphiphysin-1SH3domain.JMol Biol376，1201-1214.

12.Hou，T.，Xu，Z.，Zhang，W.，McLaughlin，W.A.，Case，D.A.，Xu，Y.，和Wang，W.(2009)Characterization of domain-peptideinteraction interface：a generic structure-based model to decipher thebinding specificity of SH3domains.Mol Cell Proteomics 8，639-649.

13.Pisabarro，M.T.，和Serrano，L.(1996)Rational design ofspecific high-affinity peptide ligands for the Abl-SH3domain.Biochemistry 35，10634-10640.

14.Sparks，A.B.，Rider，J.E.，Hoffman，N.G.，Fowlkes，D.M.，Quillam，L.A.，和Kay，B.K.(1996)Distinct ligand preferences of Srchomology 3domains from Src，Yes，Abl，Cortactin，p53bp2，PLCgamma，Crk，and Grb2.Proc Natl AcadSci U S A 93，1540-1544.

15.Wisniewski，D.，Strife，A.，Swendeman，S.，Erdjument-Bromage，H.，Geromanos，S.，Kavanaugh，W.M.，Tempst，P.，和Clarkson，B.(1999)A novel SH2-containing phosphatidylinositol3，4，5-trisphosphate 5-phosphatase(SHIP2)is constitutively tyrosinephosphorylated and associated with src homologous and collagen gene(SHC)in chronic myelogenous leukemia progenitor cells.Blood 93，2707-2720.

16.Sossey-Alaoui，K.，Li，X.，和Cowell，J.K.(2007)c-Abl-mediated phosphorylation of WAVE3 is required for lamellipodiaformation and cell migration.J Biol Chem 282，26257-26265.

17.Wu，C.，Ma，M.H.，Brown，K.R.，Geisler，M.，Li，L.，Tzeng，E.，Jia，C.Y.，Jurisica，I.，和Li，S.S.(2007)Systematic identification ofSH3domain-mediated human protein-protein interactions by peptidearray target screening.Proteomics 7，1775-1785.

18.Ashburner，M.，Ball，C.A.，Blake，J.A.，Botstein，D.，Butler，H.，Cherry，J.M.，Davis，A.P.，Dolinski，K.，Dwight，S.S.，Eppig，J.T.，Harris，M.A.，Hill，D.P.，Issel-Tarver，L.，Kasarskis，A.，Lewis，S.，Matese，J.C.，Richardson，J.E.，Ringwald，M.，Rubin，G.M.，和Sherlock，G.(2000)Gene ontology：tool for the unification of biology.The GeneOntology Consortium.Nat Genet 25，25-29.

19.Huang da，W.，Sherman，B.T.，和Lempicki，R.A.(2009)Systematic and integrative analysis of large gene lists using DAVIDbioinformatics resources.NatProtoc 4，44-57.

20.Li，B.，Carey，M.，和Workman，J.L.(2007)The role ofchromatin during transcription.Cell128，707-719.

21.Schwartz，Y.B.，和Pirrotta，V.(2007)Polycomb silencingmechanisms and the management of genomic programmes.Nat RevGenet 8，9-22.

22.Ho，L.，和Crabtree，G.R.(2010)Chromatin remodellingduring development.Nature 463，474-484.

23.Edwards，J.R.，O’Donnell，A.H.，Rollins，R.A.，Peckham，H.E.，Lee，C.，Milekic，M.H.，Chanrion，B.，Fu，Y.，Su，T.，Hibshoosh，H.，Gingrich，J.A.，Haghighi，F.，Nutter，R.，和Bestor，T.H.(2010)Chromatinand sequence features that define the fine and gross structure of genomicmethylation patterns.Genome Res20，972-980.

24.Bartke，T.，Vermeulen，M.，Xhemalce，B.，Robson，S.C.，Mann，M.，和Kouzarides，T.(2010)Nucleosome-interacting proteinsregulated by DNA and histone methylation.Cell143，470-484.

25.Goodrich，J.A.，和Tjian，R.(2010)Unexpected roles for corepromoter recognition factors in cell-type-specific transcription and generegulation.NatRev Genet 11，549-558.

26.Malik，S.，和Roeder，R.G.(2010)The metazoan Mediatorco-activator complex as an integrative hub for transcriptional regulation.NatRev Genet 11，761-772.

27.Tange，T.O.，Shibuya，T.，Jurica，M.S.，和Moore，M.J.(2005)Biochemical analysis of the EJC reveals two new factors and a stabletetrameric protein core.RNA 11，1869-1883.

28.Rigou，P.，Piddubnyak，V.，Faye，A.，Rain，J.C.，Michel，L.，Calvo，F.，和Poyet，J.L.(2009)The antiapoptotic protein AAC-11interacts with and regulates Acinus-mediated DNA fragmentation.EMBOJ28，1576-1588.

29.Park，E.J.，Kim，J.H.，Seong，R.H.，Kim，C.G.，Park，S.D.，和Hong，S.H.(1999)Characterization of a novel mouse cDNA，ES18，involved in apoptotic cell death of T-cells.Nucleic AcidsRes 27，1524-1530.

30.Kampa，K.M.，Bonin，M.，和Lopez，C.D.(2009)Newinsights into the expanding complexity of the tumor suppressor ASPP2.Cell Cycle8，2871-2876.

31.Nishiyama，M.，Oshikawa，K.，Tsukada，Y.，Nakagawa，T.，Iemura，S.，Natsume，T.，Fan，Y.，Kikuchi，A.，Skoultchi，A.I.，和Nakayama，K.I.(2009)CHD8suppresses p53-mediated apoptosisthrough histone H1recruitment during early embryogenesis.Nat CellBiol11，172-182.

32.Frank，R.(2002)The SPOT-synthesis technique.Syntheticpeptide arrays on membrane supports-principles and applications.JImmunol Methods 267，13-26.

33.Altschul，S.F.，Madden，T.L.，Schaffer，A.A.，Zhang，J.，Zhang，Z.，Miller，W.，和Lipman，D.J.(1997)Gapped BLAST andPSI-BLAST：a new generation of protein database search programs.NucleicAcidsRes 25，3389-3402.

34.Chenna，R.，Sugawara，H.，Koike，T.，Lopez，R.，Gibson，T.J.，Higgins，D.G.，和Thompson，J.D.(2003)Multiple sequence alignmentwith the Clustal series ofprograms.Nucleic Acids Res 31，3497-3500.

35.Xiang，Z.X.，和Honig，B.(2001)Extending the accuracylimits of prediction for side-chain conformations.Journalof MolecularBiology 311，421-430.

36.Case，D.A.，Cheatham，T.E.，Darden，T.，Gohlke，H.，Luo，R.，Merz，K.M.，Onufriev，A.，Simmerling，C.，Wang，B.，和Woods，R.J.(2005)The Amber biomolecular simulation programs.Journal ofComputational Chemistry 26，1668-1688.

37.Duan，Y.，Wu，C.，Chowdhury，S.，Lee，M.C.，Xiong，G.M.，Zhang，W.，Yang，R.，Cieplak，P.，Luo，R.，Lee，T.，Caldwell，J.，Wang，J.M.，和Kollman，P.(2003)A point-charge force field for molecularmechanics simulations of proteins based on condensed-phase quantummechanical calculations.Journal of Computational Chemistry 24，1999-2012.

38.Hawkins，G.D.，Cramer，C.J.，和Truhlar，D.G.(1996)Parametrized models of aqueous free energies of solvation based onpairwise descreening of solute atomic charges from a dielectric medium.Journal ofPhysical Chemistry 100，19824-19839.

39.Tsui，V，和Case，D.A.(2000)Molecular dynamicssimulations of nucleic acids with a generalized born solvation model.Journal ofthe American Chemical Society122，2489-2498.

40.Zhang，W.，Hou，T.J.，Qiao，X.B.，和Xu，X.J.(2004)Somebasic data structures and algorithms for chemical generic programming.Journal of Chemical Information and Computer Sciences 44，1571-1575.

41.Chang，C.C.，和Lin，C.J.(2001)LIBSVM：a library forsupport vector machine.软件可商购自http://www.csie.ntu.edu.tw/～cjlin/libsvm.

42.Zanzoni，A.，Montecchi-Palazzi，L.，Quondam，M.，Ausiello，G.，Helmer-Citterich，M.，和Cesareni，G.(2002)MINT：a MolecularINTeraction database.FEBSLett513，135-140.

实施例2

黑腹果蝇多梳染色质域对甲基化肽的识别

摘要

赖氨酸甲基化为一种调控蛋白质功能的重要翻译后修饰(PTM)。迄今为止，由于在质谱实验中缺乏有效富集方法，对这个PTM的蛋白质组鉴定仍然是一个挑战。为处理这个挑战，这里提供一种系统方法来预测其中赖氨酸残基可经甲基化以介导蛋白质-蛋白质相互作用的肽。黑腹果蝇中的多梳蛋白质的染色质域用作说明这个方法的成功的模型系统。对与多梳染色质域复合的组蛋白肽起始分子动力学模拟和自由能分析以了解如何实现结合特异性。其次，进行虚拟诱变以定量各域和肽残基对域-肽识别的贡献，这一定量过程是基于所开发的用以评估任何含赖氨酸的肽被甲基化及由染色质域识别的可能性的评分方案来进行的。对一组保守组蛋白肽进行的肽微阵列实验显示评分方案具有令人满意的预测准确性。此外，实施将包括保守、亚细胞定位和质谱数据的多种证据线索加以结合的生物信息学流程以扫描苍蝇蛋白质组来对可能的含甲基赖氨酸的肽进行系统鉴定。这些推定的染色质域结合肽表明重要调控剂多梳蛋白质的未知功能且为后续研究提供一列候选甲基化事件。

引言

蛋白质可在其与甲基化赖氨酸结合方面展现特异性-黑腹果蝇多梳蛋白质(调控染色质结构且涉及遗传抑制¹的蛋白质的染色质域家族的一个成员)强烈结合组蛋白H3的三甲基化Lys27(H3K27me3)，但仅微弱结合三甲基化H3K9^2，3。翻译后甲基化也已在除组蛋白肽以外的蛋白质上被发现。例如涉及于肿瘤抑制中的短暂蛋白质p53的表达受由修饰蛋白质(writer protein)Set9⁴实现的赖氨酸甲基化调控。此外，与组蛋白相互作用的蛋白质本身可由赖氨酸甲基化标记，此可影响其与组蛋白肽的相互作用⁵。尽管关于染色质域蛋白质识别非组蛋白肽上的甲基化赖氨酸的能力所知甚少，但已观察到多梳家族蛋白质(PcG)Pc2与通过连接小泛素样修饰物(SUMO)加以修饰的赖氨酸残基相互作用^6，7。这个现象表明除通过经修饰组蛋白识别进行遗传调控之外，PcG也可具有当前未知的相关功能。

质谱实验可检测许多类型的翻译后修饰(PTM)和操纵其的蛋白质，但由于在光谱中的峰差异狭窄，其在特定甲基化情况下的使用受限制。在理论上，结合测定实验可确定蛋白质对广泛多种甲基化赖氨酸肽的结合亲和力，但实验数据尚且不足。通过组合计算研究与对果蝇蛋白质组的扫描，可与甲基化赖氨酸相互作用的蛋白质的总类别与可由PcG蛋白质识别的甲基化赖氨酸肽两者均得以鉴定，且获得对这组蛋白质的更完全了解。

结果

I.总体程序

对与来自组蛋白H3的肽复合的黑腹果蝇多梳蛋白质进行分子动力学(MD)模拟。首先，通过模拟和自由能计算确定野生型多梳蛋白质对未经修饰H3和H3K27me1、H3K27me2及H3K27me3的结合亲和力。模型源于晶体结构；多梳蛋白质-H3复合物的结构展示于图7中。通过能量分解分析(参见材料和方法)获得多梳蛋白质与H3两者中的各个别残基对结合相互作用的贡献，从而导致发现最关键多梳蛋白质残基。其次，形成多梳蛋白质与H3两者的突变矩阵以估计对结合关键的各残基中的点突变的影响。随后，肽微阵列结合数据用于验证对与苍蝇组蛋白肽上的多梳蛋白质结合的预测，此说明H3突变矩阵的令人满意的预测能力。最后，对果蝇蛋白质组进行扫描以发现具有甲基化赖氨酸的其它肽且通过使用突变矩阵估计其相对于野生型H3肽的结合亲和力。通过对来自保守、亚细胞定位和质谱证据的数据进行组合分析来进行进一步细化。可能的多梳蛋白质结合剂的最后列表提供对可与多梳蛋白质相互作用的蛋白质的量和特征的了解。

II.模拟结果

A.多梳蛋白质中对结合H3关键的残基

在已确定ε＝4.0为用于以这个模型获得准确结合能的最佳介电常数(参见材料和方法，D小节)下，对多梳蛋白质/H3K27me3复合物进行针对这个值的残基分解⁸。这个计算的结果在表I中给出。

表I.多梳蛋白质-H3结合自由能残基分解。包括残基Lys48，因为尽管其净贡献仅为-0.13kcal/mol，但那个贡献的范德华分量在-0.71kcal/mol下相对较高。

表I将“H3L20至H3S28”公开为SEQ ID NO：88，将“Asp23至Ala28”公开为SEQ ID NO：128且将“Asn62至Asp65”公开为SEQ IDNO：129

多梳蛋白质中对结合相互作用最重要的两个残基为Tyr26(-4.82kcal/mol)和Trp47(-5.08kcal/mol)，其为形成用于对H3K27me3进行范德华吸引的疏水性笼的三个庞大疏水性残基中的两者。笼的第三个残基Trp50在关键残基列表上也较高(-2.36kcal/mol)。多梳蛋白质中对相互作用关键的其它疏水性残基为Leu24(-2.57kcal/mol)、Val25(-3.29kcal/mol)、Leu64(-2.84kcal/mol)和Leu68(-2.26kcal/mol)，而最重要的带电荷多梳蛋白质残基为Asp23(-1.82kcal/mol)、Glu29(-1.22kcal/mol)、Glu58(-1.18kcal/mol)、Asp65(-2.59kcal/mol)和Arg67(-1.95kcal/mol)。一个关键中性极性残基为Asn62(-3.15kcal/mol)。除H3K27me3(-13.69kcal/mol)之外，H3中对结合相互作用最重要的残基为H3R26(-8.41kcal/mol)、H3K23(-6.66kcal/mol)、H3A25(-5.41kcal/mol)、H3A24(-4.27kcal/mol)、H3S28(-2.09kcal/mol)和H3T22(-1.78kcal/mol)。根据对轨迹的目测，多梳蛋白质/H3复合物中的最重要静电相互作用为Asp23与H3R26；Glu29与H3K23；Glu58与H3S28；和Asp65与H3K23。

B.多梳蛋白质突变矩阵

提供与H3K27me3复合的多梳蛋白质的突变矩阵。关于突变矩阵中的趋势可进行下列观察。首先，多梳蛋白质中对结合相互作用最重要的8或9个残基(Tyr26、Trp47、Val25、Asn62、Leu64、Asp65、Leu24、Trp50和可能Arg67)的突变通常使结合亲和力削弱，尤其在Trp47的情况下。其次，矩阵下半部中的突变(对结合较不关键的残基)倾向于使与H3K27me3的相互作用更有利，Glu58除外。第三，突变成带正电荷的氨基酸(赖氨酸和精氨酸)以及甘氨酸、脯氨酸和在较小程度上丙氨酸倾向于使结合相互作用更不利。最后，突变成带负电荷的残基(天冬氨酸和谷氨酸)倾向于使结合相互作用更有利。

C.组蛋白H3肽突变矩阵

这个问题的三个方面特别值得研究；首先，发现除组蛋白以外的含有甲基化赖氨酸的多肽；其次，了解染色质域蛋白质识别含有甲基化赖氨酸残基的肽所依的机制，及最后，获得尽可能多的关于结合染色质域蛋白质的多肽的功能信息。因此，在另一组模拟中，依次对H3肽的残基进行点突变(位置20至28，保持保守的H3K27me3除外)，而多梳蛋白质保持为野生型。一般而言，肽残基的突变倾向于比多梳蛋白质残基(尤其对结合H3最重要的那些残基)的突变对结合相互作用具有更有利的影响。由突变矩阵数据显而易见若干趋势：首先，H3R26的突变倾向于对结合亲和力具有削弱作用；其次，H3A25的突变倾向于使结合相互作用更有利；第三，H3残基突变成Gly、Asp、Asn和Pro使结合能更不利，尤其在H3K27me3的接近附近；及第四，H3残基突变成酪氨酸和色氨酸对结合相互作用具有强化作用。

III.理论预测的实验验证

A.结合剂的实验鉴定

存在总计46个具有单一赖氨酸三甲基化位点的组蛋白肽序列(长9个氨基酸)，其在人H2、H3和H4蛋白质与果蝇H2、H3和H4蛋白质之间保守(表II)。通过肽微阵列针对多梳蛋白质染色质域结合筛选这些序列。各肽序列重复三次加以筛选，且在通过ImageJ⁹个别地对阵列图像的各点样加以本底扣除的情况下对荧光强度进行定量且全数据集相对于混合高斯分布(Gaussian distribution)模型加以拟合(图8，表III)。

表II

表III.多梳蛋白质染色质域结合H3和H4肽的微阵列数据的混合高斯拟合参数

当三个微阵列点样中至少有两者展现使与混合模型中的本底高斯分布的p值截断为0.001的荧光强度时，序列被鉴定为阳性结合剂。在这些准则下，46个序列中有12者被鉴定为阳性结合剂。这些微阵列鉴定的结合剂中的十者也在独立预测中产生高突变矩阵评分(表IV)。

表IV.多梳蛋白质染色质域的鉴定的组蛋白结合剂

B.多梳蛋白质突变矩阵关于苍蝇组蛋白肽的预测性能

为彻底和严格评估突变矩阵的预测性能，微阵列用于测试多梳蛋白质与预测会结合的28个组蛋白肽以及预测不会结合的18个肽之间的结合。通过进行此举，真阳性物与真阴性物两者均可被鉴定且对预测性能进行综合分析是可行的。

微阵列结果以p值截断0.001将12个肽鉴定为阵列阳性且将34个肽鉴定为阵列阴性。预测突变矩阵评分等于野生型H3肽或比野生型H3肽更有利的肽具有多梳蛋白质结合性。在12个真性结合剂之中，10个根据突变矩阵评分被预测为结合剂；在34个真性非结合剂之中，突变矩阵预测16个为非结合剂，从而产生灵敏性和准确性分别为10/12＝0.833和(10+16)/46＝0.565及接受者操作曲线(ROC)下面积0.66。考虑到未处理任何复杂特征结构且一个单一评分用于区别结合剂与非结合剂(图9)，结果是令人满意的。为进一步证明突变评分的预测能力，也计算其针对结合剂与非结合剂两者的平均值。对于12个结合剂，平均评分为-5.48，标准偏差为8.31；对于34个非结合剂，平均评分为0.16，标准偏差为10.72。使用R软件包，两个分布之间的t检验的p值为0.037，此证明根据突变矩阵评分，在结合剂与非结合剂之间存在强烈区别趋势。

IV.模拟数据与蛋白质组扫描的组合

A.多梳蛋白质结合肽(PBP)和蛋白质组扫描策略

基于突变矩阵的预测与实验数据之间令人鼓舞的一致性，模拟可在扫描蛋白质组以获得多梳蛋白质结合肽中用作工具。因为不存在系统方法来以高通量方式鉴定甲基化赖氨酸，所以本计算预测提供一列用以充当实验性研究的起始点的候选推定甲基化。

目标在于发现苍蝇蛋白质组中含有可由多梳染色质域识别的甲基化赖氨酸残基的肽。这些肽可称为多梳蛋白质结合肽(PBP)。模板肽H3K27me3的长度为9个氨基酸且具有序列LATKAARKS(SEQ IDNO：88)，其第二个赖氨酸为H3K27。因此，搜寻长度为9个氨基酸，在第八个残基上具有赖氨酸，显示结合类似于或优于H3(H3K27me3)的结合的肽。出于这个目的，实施三阶段策略来以逐步方式缩窄搜寻空间。除了去除突变评分劣于H3K27me3肽的肽之外，实施序列保守、亚细胞定位和质谱证据的过滤程序以进一步降低假阳性物(细节参见下文)。

B.蛋白质组扫描和过滤程序

搜寻黑腹果蝇蛋白质组中的候选PBP。总方案展示于图10中。首先鉴定103,524个候选肽，其各自为具有9个氨基酸，第八个残基为赖氨酸的序列。计算所有肽的突变评分且保留58,131个具有有利结合能的肽(突变评分不高于零)。

如果肽结合多梳染色质域，那么预期其通过进化得以保守，因为突变可破坏功能性相互作用。因此，合理的是去除在所有9个氨基酸处或在甲基化赖氨酸(第八)位置处不保守的肽。通过考虑整个肽和赖氨酸位点的保守评分，保留9,919个肽以进一步分析。

因为多梳蛋白质位于核中且充当染色质修饰的读取物，所以集中于鉴定其也被分隔至核中的相互作用配偶体。对于未注解其亚细胞定位的蛋白质，其被保留，因为预测的其与多梳蛋白质的相互作用可能阐明其功能性作用。因此，来自在Uniprot的一般性注解^10，11中亚细胞定位被注解为“核”或“未知”的蛋白质的5,792个肽通过这个过滤程序。

因为由多梳蛋白质识别需要赖氨酸残基被甲基化，所以赖氨酸甲基化肽的质谱证据可为PBP鉴定提供支持信息。收集所有公开可用的质谱且对黑腹果蝇蛋白质组进行扫描以鉴定赖氨酸甲基化。尽管质谱实验未设计成检测甲基赖氨酸，但所述其它证据可有助于鉴定多梳染色质域的最可能的结合肽。发现由质谱信号PBP所表明，在5,792个肽之中，有539个肽显示甲基可能添加至赖氨酸中。

V. GO聚类分析

为发现多梳蛋白质的未知功能，使用DAVID¹²对357个含有539个经过滤肽的蛋白质进行GO聚类分析。发现GO术语“调控转录”和“组蛋白修饰”最丰富，从而解释六分之五的最丰富GO簇。此外，列表中包括若干重要蛋白质，诸如介体亚单位23和31，其涉及RNA聚合酶II向启动子区域的导致转录起始的募集；额外性梳(sex combsextra，Sce)，其为在甲基化H3K9和H3K27的情形下调控基因抑制的PRC1复合物的亚单位。此外，在列表中发现若干组蛋白相关的甲基转移酶、脱甲基转移酶和乙酰基转移酶，诸如Art4、Jhd1、Kdm4B和Tip60。

A.染色质修饰

多梳蛋白质的已知功能与H3K9me3/H3K27me3介导的由PRC1实现的基因抑制相关。根据这个分析，发现多梳蛋白质也可通过用若干其它蛋白质(包括组蛋白甲基转移酶、乙酰基转移酶、脱甲基转移酶和若干核小体重塑蛋白质)进行染色质修饰而涉及于基因调控中。

ASH1、CARM1、MOF和KDM4B通过添加组蛋白标记或去除标记而与基因调控相关。ASH1和CARM1为两种甲基转移酶。ASH1特异性使H3K4(一种活化标记)三甲基化，且防止在发育期间多梳蛋白质使重要基因不当沉默^13，14。CARM1使H3R17甲基化且通过染色质重塑来活化转录¹⁵。MOF为一种可能的针对雄性X染色体上的H4K16以平衡雄性与雌性之间的基因表达的组蛋白乙酰基转移酶¹⁶。KDM4B为一种可能的使甲基化H3K9和H3K36脱甲基的脱甲基转移酶。所有这些蛋白质都与添加活化标记H3K4me3(ASH1)、H3R17me2(CARM1)和H4K16ac(MOF)、去除抑制标记H3K9me3(KDM4B)或去除活化标记H3K36me3(KDM4B)相关。所有这些研究结果都指示多梳蛋白质可涉及于与染色质修饰相关的比迄今我们已经所知的基因调控网络更加复杂的基因调控网络中。

RING1和CAF1(多梳蛋白质的两个其它推定结合靶标)分别为PRCl¹⁷和PRC2^l8的组分。有趣的是多梳蛋白质本身也为PRC1的组分。与RING1的结合与募集多梳蛋白质以形成PRC1复合物相关且与CAF1的结合与使PRC1募集至PRC2相关。

CAF1也为染色质装配因子1(CAF-1)、核小体重塑和脱乙酰基酶复合物(NuRD)、核小体重塑因子(NuRF)的组分^19-23。IPYR(NuRF的另一组分^21，24)也包括在推定结合剂列表中。这些相互作用表明多梳蛋白质在染色质修饰相关的基因调控中可具有其它功能。

B.转录调控

惊人地发现潜在多梳蛋白质结合剂包括若干转录调控蛋白质。这些蛋白质中的大多数涉及于果蝇发育或基因转录中。在发育中具有功能性的推定多梳蛋白质结合剂包括同源异型基因(TSH)²⁵、眼发育(SRC42和BARH1)^26，27、神经发育(SOS和PNT1)^28，29和其它发育相关的基因(VAV、DORS、EAF、CIC和APTE)^30-34。涉及转录的推定多梳蛋白质结合剂包括TAF³⁵，其为TFIID基础转录因子复合物的最大组分；MED23和MED31，其为几乎所有Pol II依赖性基因的介体复合物和共活化子的组分；RPA2，其为RNA聚合酶I的第二大组分；RPB2和RPB9，其为RNA聚合酶II的组分；和RPC6，其为RNA聚合酶III的组分。直到现在，关于多梳蛋白质的相互作用在转录调控中的功能尚所知甚少。尽管多梳蛋白质可通过结合这些重要蛋白质因子来调控基因转录过程，但更需要探索多梳蛋白质及其调控功能的未揭示领域。

结论

使用分子动力学(MD)研究多梳蛋白质-组蛋白H3复合物。通过规定计算结合自由能时的介电系数，能够重复多梳蛋白质对H3K27me3、H3K27me2、H3K27me1和未修饰H3的相对结合亲和力，包括染色质域对单甲基化时的H3K27的结合比对二甲基化时的H3K27的结合更强烈的反直觉现象。进行残基分解以鉴定多梳蛋白质中对结合H3K27me3最关键的残基、以及H3残基对结合相互作用的相对贡献。这些残基形成突变矩阵的基础，其中分析使这些残基中的任何单一残基突变成其它氨基酸的影响。

在估计使多梳蛋白质-H3K27me3复合物中的既定残基突变的影响下，扫描黑腹果蝇蛋白质组以发现除组蛋白之外的含有可潜在地由多梳染色质域识别的甲基化赖氨酸的肽。联同包括保守、亚细胞定位和质谱数据的其它准则，鉴定一组可能与由染色质域-甲基赖氨酸识别介导的多梳蛋白质相互作用的非组蛋白肽。考虑到缺乏用以确定甲基化赖氨酸的蛋白质组方法，本方法不仅为多梳蛋白质配偶体蛋白质中的甲基化的生物重要性的后续研究提供用以表明候选物的有希望的替代方案而且也揭示重要转录调控剂的未知功能。

如在此所论述，开发计算方法以鉴定由诸如SH3域(Xu等，通过将计算预测与肽微阵列结合来对Abl1SH3结合肽进行全蛋白质组检测。(Proteome-wide detection of Abl 1SH3-binding peptides byintegrating computational prediction and peptide microarray.)Mol CellProteomics 2012，11，O111010389；Hou，等，结构域-肽相互作用界面的表征：通过基于基因结构的模型来预测SH3结构域介导的蛋白质-蛋白质相互作用网络。(Characterization of Domain-Peptide InteractionInterface：Prediction of SH3Domain-Mediated Protein-ProteinInteraction Network in Yeast by Generic Structure-Based Models.)Jroteome Res 2012，11，2982-2995)或蛋白质激酶A(PKA)³⁸的调控亚单位³⁸识别的未修饰肽。这个本研究进行显著扩展以在蛋白质组中搜寻甲基-赖氨酸介导的蛋白质-蛋白质相互作用。更重要的是本方法可易于应用于鉴定任何PTM且表明其可能的相互作用性配偶体，所述方法打开一条说明特定PTM如何调控细胞功能的机制的新途径。

材料和方法

A.模型化程序

自蛋白质数据库(PDB)获得多梳蛋白质-H3K27me3复合物结构³⁹。其PDB条目码为1PDQ。通过自PDB中的结构数据依次人工去除甲基碳来形成其它甲基化状态。AMBER 9.0⁴⁰软件包中的LEAP的模块用于制备用于分子动力学模拟的模型。甲基化赖氨酸残基不由LEAP的标准残基库识别，且被处理成非标准残基。使用HF/6-31G*基本集用Gaussian03⁴¹计算所有非标准残基的电荷，且随后用RESP⁴²拟合。如用Gaussian03和RESP计算的所有非标准残基原子上的部分电荷列于表V中。非标准残基全部用Gaussian03个别地加以处理且用ACE和NME残基加帽⁴³以使其可被处理成完全分子。FF03力场⁴⁴用于模型中的所有原子，H3K27的甲基化ξ氮除外，对其使用GAFF力场⁴⁵的参数。将各多梳蛋白质-组蛋白复合物置于TIP3P水分子的矩形周期性盒⁴⁶中。盒的大小在所有面上都延伸超过溶质系统

必要时，添加Cl-相对离子以中和各模型的系统。

表V.甲基化赖氨酸的部分电荷

原子	电荷(Kme1)	电荷(Kme2)	电荷(Kme3)
				N	-0.359144	-0.463809	-0.491982
H	+0.227761	+0.293639	+0.294816
				C	+0.433568	+0.573691	+0.560647
O	-0.565598	-0.513864	-0.510015
				C_α	+0.338323	+0.161325	+0.201354
H_α	+0.043801	-0.004430	-0.013975
				C_β	-0.136320	+0.001790	+0.044461
H_β	+0.045217	+0.014588	-0.004926
				C_γ	-0.106174	-0.109808	-0.147774
H_γ	+0.039519	+0.030730	+0.028426
				C_δ	+0.030859	+0.168799	+0.297319
H_δ	+0.027544	+0.009260	-0.020336

C_ε	-0.057268	-0.137314	-0.151834
				H_ε	+0.111273	+0.095569	+0.089085
N_ζ	-0.035504	+0.130253	+0.263965
				H_ζ	+0.267532	+0.221474	N/A
甲基C	-0.262843	-0.200001	-0.381536
				甲基H	+0.155456	+0.129660	+0.179236

B.分子动力学模拟

各系统以两阶段最小化；在第一阶段中，松驰水分子和相对离子而有机分子由谐和力约束。在第二阶段中，释放约束且使整个系统最小化。各阶段由400个最陡下降步骤、随后1600个共轭梯度最小化步骤组成。在最小化阶段之后，历经30ps使系统自0K加热至300K。温度300K和压力1atm用Berendsen恒温器和恒压器在耦合时间⁴⁷0.2ps下维持。SHAKE算法用于约束涉及氢的所有键⁴⁸。在加热操作开始时根据麦克斯韦-玻尔兹曼分布(Maxwell-Boltzmann distribution)随机分配初始温度。接着平衡系统200ps，随后持续4ns进行产生操作。在平衡和产生操作期间，多梳蛋白质中的重原子由谐和力约束以确保复合物稳定性。

C.轨迹在中等操作时长下最稳定

为确定轨迹内的用于计算结合自由能的最佳间隔，计算复合物、H3肽和多梳蛋白质历经平衡和产生操作的均方根差(RMSD)。残基的α-碳原子的坐标为用于计算RMSD值的数据。对于蛋白质，如所预期(由于谐波约束)，历经整个4.2ns轨迹RMSD保持在0.20以下。因此，复合物的RMSD的实际上所有波动都是由于不受约束的H3肽的移动。因为RMSD似乎在产生操作中在介于1.0ns与2.0ns之间的间隔下最稳定，所以选择这个间隔进行结合自由能计算分析。为显示肽构象的稳定性不受多梳蛋白质中的点突变显著影响，也提供针对蛋白质突变Y26G的复合物的RMSD。

D.确定最佳介电常数ε

与多梳蛋白质复合的H3K27的四个甲基化状态的计算结合自由能在表VI中给出。

表VI.多梳蛋白质-H3复合物结合自由能

在计算中提供三个不同内部介电常数(1.0、2.0和4.0)。当模拟结合自由能相对于实验解离常数的对数(ln K_d)绘图时，ε＝1.0、2.0和4.0的相关系数分别为0.8009、0.9375和0.9851。因此，对于这个系统，结合自由能最密切地与介电常数4.0的实验一致，包括H3K27me2与多梳蛋白质的结合比H3K27me1与多梳蛋白质的结合更微弱的颠倒现象。惊人地，对于H3K27me2而言，相互作用的范德华分量比H3K27me1弱1.21kcal/mol。这个现象可能是由于二甲基化阳离子在能量方面比单甲基化阳离子更稳定，且因此结合染色质域的疏水性袋的倾向较小。所有H3K27甲基化状态的结合自由能的相互作用分量的完全列表在表VII中给出。

表VII.针对e＝4.0的结合自由能和分子相互作用分量。结合自由能以kcal/mol计

E.突变矩阵程序

通过根据表I鉴定多梳蛋白质中对结合H3K27me3最关键的21个结合残基来形成突变矩阵。这些残基的各者被突变成所有其它19种天然存在的氨基酸。此举产生21×19＝399个单独模型，各自具有多梳蛋白质与组蛋白H3之间的野生型复合物的点突变。在单独操作中，保留蛋白质的序列且在模型中起重要作用的各H3残基(H3K27除外)被突变成其它19种氨基酸的各者。此举产生另一8×19＝152个单独模型。软件程序SCAP⁴⁹用于进行点突变。对各模型进行标准最小化、加热和平衡程序(参见B小节)，随后进行2ns产生操作。从各模型的产生操作的后半时(1.0-2.0ns间隔)计算结合自由能。

F.轨迹分析和自由能计算

用AMBER程序包⁴⁰中的ptraj模块计算在MD的平衡和产生操作阶段期间各系统的RMSD。作为一代表性样本，多梳蛋白质/H3K27me3野生型的RMSD展示于图13中。基于在约1000ps之后RMSD的稳定化，为各产生操作的下半时选择用于结合自由能计算的间隔在1.0ns与2.0ns之间。MM-GBSA^50-52用于根据[8]和[53]中给出的一般性程序，使用AMBER 9.0中的mmpbsa模块计算各多梳蛋白质-组蛋白复合物的结合自由能。由在产生操作轨迹的1.0ns标记与2.0ns标记之间的相等间隔下进行的100次快照计算结合自由能ΔG_结 _合。根据以下计算ΔG_结合：

ΔG_结合＝<G_复合物>-(<G_蛋白质>+<G_肽>)

此处，<G_复合物>、<G_蛋白质>和<G_肽>为复合物、蛋白质和肽的相应个别自由能，且各项是通过将来自静电势能E_静电、范德华势能E_范得华和溶合自由能G_溶合的贡献加和来计算。反过来，G_溶合为对溶合自由能的极性贡献G_极性和非极性贡献G_非极性的加和：

G(_{复合物/蛋白质/肽})＝E_静电+E_范德华+G_溶合

G_溶合＝G_极性+G_非极性

通过将IGB的值设置成2，激活Onufriev等⁵⁴的广义博恩参数(generalized Born parameter)来计算G_极性。G_非极性被估计为0.0072乘以如通过LCPO方法⁵⁵测量的溶剂可及表面积(SASA)。栅格尺寸

用于解析泊松-玻尔兹曼方程(Poisson-Boltzmann equation)，且探测半径⁵⁶被设置成

三个不同值(1.0、2.0和4.0)在单独自由能计算中用于内部介电常数ε，而外部介电常数始终给予为80.0。

为研究识别特异性的分子基础，进行结合自由能的分量分解。对结合自由能的贡献也针对个别残基加以分解，且根据各复合物的分量(范德华、静电和溶合)加以分解。通过调用AMBER内的MM-GBSA程序中的DECOMP模块来进行分解。各H3或多梳蛋白质残基都根据其对结合相互作用的总贡献加以评估。

G.蛋白质组扫描

自Uniprot/Swissprot(2009-06-16)下载黑腹果蝇蛋白质组数据(The Universal Protein Resource(UniProt)in 2010.Nucleic Acids Res2010，38，D142-148；Jain等生命科学的基础设施：设计和实施UniProt网站。(Infrastructure for the life sciences：design and implementation ofthe UniProt website.)BMC Bioinformatics 2009，10，136)。总计，存在3047个蛋白质序列，自其提取所有长度为9个氨基酸的在自N末端开始的第八位置处含有赖氨酸的肽。

H.突变评分

对于各候选肽，突变评分计算为：

其中i为肽上的氨基酸位置(忽略赖氨酸的位置8)，M为由虚拟诱变分析产生的突变矩阵，A_i为候选肽上的第i个氨基酸。

I.保守评分

保守评分考虑整个肽与甲基赖氨酸位点两者的保守。下载来自果蝇数据库(flybase)⁵⁷的12个苍蝇蛋白质组中的所有蛋白质序列。

对于含有候选肽的各黑腹果蝇蛋白质，使用NCBI BLAST⁵⁸找到其在另外11个苍蝇蛋白质组中的同源蛋白质。接着使用CLUSTALW2⁵⁹产生12个同源蛋白质的多序列比对且总保守评分计算为：其中m为11个果蝇蛋白质组的指数，i为候选肽中的氨基酸位置，BLOSUM为BLOSUM62突变矩阵⁶⁰，A_i为候选肽中的第i个氨基酸，且

为第m个果蝇蛋白质组的同源物中的第i个氨基酸。甲基赖氨酸位点的保守评分定义为在多序列比对中出现在位置8处的赖氨酸的数目。在过滤过程中使用任意保守评分截断值500。

J.质谱证据

收集来自PRIDE数据库⁶¹的817,332个黑腹果蝇质谱。当用三种方法X！TANDEM⁶²、OMSSA⁶³和INSPECT⁶⁴中的任一者扫描可能的甲基赖氨酸时，Uniprot/Swissprot中的所有黑腹果蝇蛋白质都用作参照数据库。对于扫描参数，母体质量误差被设置成1道尔顿，片段质量误差被设置成0.2道尔顿，且所考虑的修饰包括单甲基化、二甲基化和三甲基化。如果赖氨酸由三个程序中的任一者鉴定为甲基化，那么肽被考虑为潜在甲基化以使其保留在分析中。总计，在黑腹果蝇蛋白质组中发现10,838个可能的甲基赖氨酸。

K.肽微阵列测量和分析

多梳蛋白质的染色质域(氨基酸1-90)被表达成具有GST标记的融合蛋白质且如[65]中所述加以纯化。蛋白质的纯度通过SDS-PAGE电泳，随后进行考马斯染色(Coomassie staining)与使用抗GST-HRP偶联物(Santa Cruz Biotechnology)的蛋白质印迹两者来检查。通过BCA测定(Amresco)来确定纯化蛋白质的浓度。由Sigma Aldrich合成总计46个三甲基化组蛋白肽(脱盐、经质谱检查)。肽接着重复三次连同Cy3标记和作为参照的抗GST(小鼠单克隆)抗体(Thermo)一起印刷于玻璃载片(ArrayIt)上。

肽微阵列用TBST缓冲液(25mM Tris、125mM NaCl、0.05％吐温20，pH 8)冲洗，随后用含5％无脂奶的TBST阻断(室温1小时或4℃过夜)。载片接着在4℃下与于5％无脂奶/TBST中的最终浓度为5mM的多梳蛋白质-GST融合蛋白质一起培育6小时。在各次用TBST持续10分钟洗涤三次之后，载片与于5％无脂奶/TBST中的最终浓度为1μg/mL的抗GST小鼠单克隆IgG抗体(Thermo)一起培育且在室温下温和振荡1小时。在用TBST洗涤另外三个10分钟循环之后，添加二次抗小鼠IgG Dylight-488偶联抗体(Thermo)至最终浓度0.1μg/mL。载片在室温下振荡1小时且用TBST洗涤三次。

使用Hamamatsu NanoZoomer 2.0HT载片扫描系统(NeuroscienceLight Microscopy Facility，UCSD)扫描干燥微阵列载片。使用微阵列处理软件ImageJ⁹进行数据定量，其中微阵列点样的荧光强度定义为其自身强度减去所扫描图像上其周围的本底强度。

参考文献

1.Paro，R.和Hogness，D.S.(1991).The Polycomb protein shares ahomologous domain with a heterochromatin-associated protein ofDrosophila.Proc.Nat.Acad.Sci.88，263-267.

2.Fischle，W.等(2003).Molecular basis for the discrimination ofrepressive methyl-lysine marks in histone H3by Polycomb and HP1chromodomains.Genes Dev.17，1870-1881.

3.Min，J.，Zhang，Y.和Xu，R.M.(2003).Structural basis forspecific binding of Polycomb chromodomain to histone H3 methylated atLys 27.Genes Dev.17，1823-1828.

4.Chuikov，S.和Kurash，J.K.等(2004).Regulation of p53 activitythrough lysine methylation.Nature 432，353-360.

5.Rathert，P.和Dhayalan，A.等(2008).Protein lysinemethyltransferase G9a acts on non-histone targets.Nature Chem.Biol.4，344-346.

6.Colby，T.，Matthai，A.，Boeckelmann，A.和Stuible，H.-P.(2006).SUMO-Conjugating and SUMO-Deconjugating Enzymes fromArabidopsis.Plant Physiol.142，318-332.

7.Miura，K.，Jin，J.B.，和Hasegawa，P.M.(2007).Sumoylation，apost-translational regulatory process in plants.Curr.Opin.In Plant Biol.10，495-502.

8.Hou，T.，Chen，K.，McLaughlin，W.A.，Lu，B.，和Wang，W(2006).Computational analysis and prediction of the binding motif and proteininteracting partners of the Abl SH3domain.PLoSComput.Biol.2，0046-0055.

9.Rasband，W.S.，ImageJ，US National Institutes of Health，Bethesda，Maryland，USA，http://rsbweb.nih.gov/ij/.

10.The Universal Protein Resource(UniProt)in 2010.NucleicAcids Res.38，D142-148.

11.Jain，E.，Bairoch，A.，Duvaud，S.，Phan，I.，Redaschi，N.，Suzek，B.E.，Martin，M.J.，McGarvey，P.，和Gasteiger，E.(2009).Infrastructurefor the life sciences：design and implementation of the UniProt website.BMC Bioinformatics 10，136.

12.Nature Protocols 2009；4(1)：44&Nucleic Acids Res.2009；37(1)：1

13.Beisel，C.等(2002).Histone methylation by the Drosophilaepigenetic transcriptional regulator Ash1.Nature 419，857-862.

14.Klymenko，T.等(2004).The histone methyltransferases Trithoraxand Ash1 prevent transcriptional silencing by Polycomb group proteins.EMBO Rep.5，373-377.

15.Cakouros，D.等(2004).An arginine-histone methyltransferase，CARMER，coordinates ecdysone-mediated apoptosis in Drosophila cells.J.Biol.Chem.279，18467-18471.

16.Hilfiker，A.等(1997).Mof，a putative acetyl transferase generelated to the Tip60 and MOZ human genes and to the SAS genes of yeast，is required for dosage compensation in Drosophila.EMBO J.16，2054-2060.

17.Francis，N.J.等(2004).Chromatin compaction by a Polycombgroup protein complex.Science 306，1574-1577.

18.Tie，F.等(2001).The Drosophila Polycomb group proteins ESCand E(Z)are present in a complex containing the histone-binding proteinp55and the histone deacetylase RPD3.Development 128，275-286.

19.Tyler，J.K.等(1996).The p55subunit of Drosophila chromatinassembly factor 1 is homologous to a histone deacetylase-associatedprotein.Mol.Cell.Biol.16，6149-6159.

20.Martinez-Balbas，M.A.等(1998).Drosophila NURF-55，a WDrepeat protein involved in histone metabolism.PNAS 95，132-137.

21.Gdula，D.A.等(1998).Inorganic pyrophosphatase is a componentof the Drosophilla nucleosome remodeling factor complex.Genes Dev.12，3206-3216.

22.Beall，E.L.等(2002).Role for a Drosophila Myb-containingprotein complex in site-specific DNA replication.Nature 420，833-837.

23.Taylor-Harding，B.等(2004).p55，the Drosophila ortholog ofRbAp46/RbAp48，is required for the repression of dE2F2/RBF-regulatedgenes.Mol.Cell.Biol.24，9124-9136.

24.Tsukiyama，T.等(1995).Purification and properties of anATP-dependent nucleosome remodeling factor.Cell 83，1011-1020.

25.Fasano，L.等(1991).The gene teashirt is required for thedevelopment of Drosophilla embryonic trunk segments and encodes aprotein with widely spaced zinc finger motifs.Cell 64，63-79.

26.Takahashi，F.等(1996).Regulation of cell-cell contacts indeveloping Drosophila eyes by Dsrc41，a new，close relative of vertebratec-src.Genes Dev，10，1645-1656.

27.Saigo，K.等(1991).Identification of a different-type homeoboxgene，BarH1，possibly causing Bar(B)and Om(1D)mutations inDrosophila.PNAS 88，4343-4347.

28.Bonfini，L.等(1992).The Son of sevenless gene product：aputative activator of Ras.Science 255，603-606.

29.Klaembt，C.等(1993).The Drosophila gene pointed encodes twoETS-like proteins which are involved in the development of the midlineglial cells.Development 117，163-176.

30.Dekel，I.等(2000).Identification of the Drosophila melanogasterhomologue of the mammalian signal transducer protein，Vav.FEB S Lett.472，99-104.

31.Gross，I.等(1999).Dorsal-B，a splice variant of the Drosophilafactor Dorsal，is a novel Rel/NF-kappaB transcriptional activator.Gene228，233-242.

32.Smith，E.R.等(2008).Regulation of the transcriptional activity ofpoised RNA polymerase II by the elongation factor ELL.PNAS 105，8575-8579.

33.Goff，D.J.等(2001).Establishment of dorsal-ventral polarity ofthe Drosophila egg requires capicua action in ovarian follicle cells.Development 128，4553-4562.

34.Cohen，B.等(1992).Apterous，a gene required for imaginal discdevelopment in Drosophila encodes a member of the LIM family ofdevelopmental regulatory proteins.Genes Dev.6，715-729.

35.Kokubo，T.等(1993).Drosophila230-kD TFIID subunit，afunctional homolog of the human cell cycle gene product，negativelyregulates DNA binding of the TATA box-binding subunit of TFIID.GenesDev.7，1033-1046.

36.Xu，Z.，Hou，T.，Li，N.，Xu，Y.，和Wang，W.(2012).Proteome-wide detection of Abl1SH3-binding peptides by integratingcomputational prediction and peptide microarray.Mol.Cell Proteomics11(1)：O111010389.

37.Hou，T.，Li，N.，Li，Y.，和Wang，W.(2012).Characterization ofDomain-Peptide Interaction Interface：Prediction of SH3Domain-Mediated Protein-Protein Interaction Network in Yeast byGeneric Structure-Based Models.J.Proteome Res.11(5)：2982-2995.

38.Hou，T.，Li，Y.，和Wang，W.(2011).Prediction of peptidesbinding to the PKA RIIalpha subunit using a hierarchical strategy.Bioinformatics 27(13)：1814-1821.

39.Berman，H.M.，Westbrook，J.D.，Feng，Z.，Gilliand，G.L，Bhat，T.N.，Weissig，H.，Shindyalov，I.N.和Bourne，P.E.(2000).The ProteinData Bank.Nucleic Acids Res.28，235-242.

40.Case，D.A.，Cheatham，T.E.，Darden，T.，Gohlke，H.，Luo，R.，Merz，K.M.，Onufriev，A.，Simmerling，C.，Wang，B.和Woods，R.J.(2005).The Amber biomolecular simulation programs.J.Comput.Chem.26，1668-1688.

41.Gaussian 03，Revision C.02，M.J.Frisch和J.A.Pople etal.，Gaussian Inc.

42.Bayly，C.I.，Cieplak，P.，Cornell，W.D.和Kollman，P.A.(1993).A well-behaved electrostatic potential based method using chargerestraints for deriving atomic charges-the Resp model.J.Phys.Chem.97，10269-10280.

43.Cieplak，P.，Cornell，W.D.，Bayly，C.和Kollman，P.A.(1995).Application of the Multimolecule and Multiconformational RESPMethodology to Biopolymers：Charge Derivation for DNA，RNA，andProteins.J.Comp.Chem.16，1357-1377.

44.Duan，Y.，Wu，C.，Chowdhury，S.，Lee，M.C.，Xiong，G.等(2003).A point-charge force field for molecular mechanics simulations ofproteins.J.Comp.Chem.24，1999-2012.

45.Wang，J.M.，Wolf，R.M.，Caldwell，J.W.，Kollman，P.A.和Case，D.A.(2004).Development and testing of a general amber force field.J.Comp.Chem.25，1157-1174.

46.Jorgensen，W.L.，Chandrasekhar，J.，Madura，J.D.，Impey，R.W.和Klein，M.L.(1983).Comparison of simple potential functions forsimulating liquid water.J.Chem.Phys.79，926-935.

47.Berendsen，H.J.C.，Postma，J.P.M.，Vangunsteren，W.F.，Dinola，A.和Haak，J.R.(1984).Molecular-dynamics with coupling to anexternal bath.J.Chem.Phys.81，3684-3690.

48.Ryckaert，J.，Ciccotti，G.和Berendsen，H.J.C.(1977).Numerical-integration of cartesian equations of motion of a system withconstraints：Molecular-dynamics of n-alkanes.J.Comp.Phys.23，327-341.

49.Xiang，Z.和Honig，B.(2001).Extending the accuracy limits ofprediction for side-chain conformations.J.Mol.Biol.311，421-430.

50.Qiu，D.，Shenkin，P.S.，Hollinger，F.P.和Still，W.C.(1997).TheGB/SA continuum model for solvation，a fast analytical method for thecalculation of approximate Born radii J.Phys.Chem.A 101，3005-3014.

51.Kollman，P.A.，Massova，I.，Reyes，C.M.，Kuhn，B.，Huo，S.等(2000).Calculating structures and free energies of complex molecules：combining molecular mechanics and continuum models.Accounts ofChemical Research 33，889-897.

52.Wang，W.，Donini，O.，Reyes，C.M.和Kollman，P.A.(2001).Biomolecular simulations：recent developments in force fields，simulations of enzyme catalysis，protein-ligand，protein-protein，andprotein-nucleic acid noncovalent interactions.Annu.Rev.Biophys.Biomol.Struct.30，211-243.

53.Hou，T.，McLaughlin，W.A.和Wang，W.(2008).Evaluating thepotency of HIV-1protease drugs to combat resistance.Proteins 71，1163-1174.

54.Onufriev，A.，Bashford，D.和Case，D.A.(2000).Modification ofthe generalized Born model suitable for macromolecules.J.Phys.Chem.B 104，3712-3720.

55.Weiser，J.，Shenkin，P.S.和Still，W.C.(1999).Approximatesolvent-accessible surface areas from tetrahedrally directed neighbordensities.Biopolymers 50，373-380.

56.Pellegrini，E.和Field，M.J.(2002).A Generalized-BornSolvation Model for Macromolecular Hybrid-Potential Calculations.J.Phys.Chem.A 106，1316-1326.

57.Tweedie，S.，Ashburner，M.，Falls，K.，Leyland，P.，McQuilton，P.，Marygold，S.，Millburn，G.，Osumi-Sutherland，D.，Schroeder，A.，Seal，R.和Zhang，H.(2009).FlyBase ：enhancing Drosophila Gene Ontologyannotations.NucleicAcidsRes.37，D555-559.

58.Altschul，S.F.，Gish，W.，Miller，W.，Myers，E.W.和Lipman，D.J.(1990).Basic local alignment search tool.J.Mol.Biol.215，403-410.

59.Chenna，R.，Sugawara，H.，Koike，T.，Lopez，R.，Gibson，T.J.，Higgins，D.G.和Thompson，J.D.(2003).Multiple sequence alignmentwith the Clustal series ofprograms.Nucleic Acids Res.31，3497-3500.

60.Henikoff，J.G.Amino acid substitution matrices from proteinblocks.Proc.Nat.Acad.Sci.USA 89，10915-10919(1992).

61.Vizcaino，J.A.，Cote，R.，Reisinger，F.，Foster，J.M.，Mueller，M.，Rameseder，J.，Hermjakob，H.和Martens，L.(2009).A guide to theProteomics Identifications Database proteomics data repository.Proteomics 9，4276-4283.

62.Craig，R.和Beavis，R.C.(2004).TANDEM：matching proteinswith tandem mass spectra.Bioinformatics 20，1466-1467.

63.Geer，L.Y.，Markey，S.P.，Kowalak，J.A.，Wagner，L.，Xu，M.，Maynard，D.M.，Yang，X.，Shi，W.和Bryant，S.H.(2004).Open massspectrometry search algorithm.J.ProteomeRes.3，958-964.

64.Tanner，S.，Shu，H.，Frank，A.，Wang，L.C.，Zandi，E.，Mumby，M.，Pevzner，P.A.和Bafna，V.(2005).InsPecT：identification ofpost-translationally modified peptides from tandem mass spectra.Anal.Chem.77，4626-4639.

65.Hou，T.，Xu，Z.，Zhang，W.，McLaughlin，W.A.，Case，D.A.，Xu，Y.，和Wang，W.(2009).Characterization of domain-peptide interactioninterface：a generic structure-based model to decipher the bindingspecificity of SH3 domains.Mol.Cell Proteomics 8，639-649.

66.Theoretical and Computation Biophysics Group，Univ.of Illinoisat Urbana-Champaign.