CN107111691B

CN107111691B - 识别配体-蛋白质结合位点的方法和系统

Info

Publication number: CN107111691B
Application number: CN201580058788.4A
Authority: CN
Inventors: 高欣; H·纳维德
Original assignee: King Abdullah University of Science and Technology KAUST
Current assignee: King Abdullah University of Science and Technology KAUST
Priority date: 2014-10-27
Filing date: 2015-10-27
Publication date: 2021-01-26
Anticipated expiration: 2035-10-27
Also published as: EP4177899A1; CN107111691A; EP3839061B1; WO2016067094A2; EP3213240B1; EP3839061A1; EP3213240A2; WO2016067094A3; US20170316147A1

Abstract

本发明提供一种基于集成结构和系统的药物靶点预测新方法，所述方法可以大规模发现现有药物的新靶点。本发明还提供新型计算机可读存储介质和计算机系统。本发明的方法和系统采用新型序列次序‑无关结构比对法、分裂层次聚类法及概率序列相似性方法，构建甚至能够捕捉已知靶点上药物不同结合位点混杂结构特征的概率口袋集合(PPE)。药物的PPE与近似药物释放曲线相结合，方便大规模预测新型药物‑蛋白质的相互作用，应用于生物研究和药物研发。

Description

识别配体-蛋白质结合位点的方法和系统

技术领域

本发明提供一种基于集成结构和系统的配体(例如药物)靶点预测新方法，所述方法可以大规模发现现有药物的新靶点。本发明还提供新型计算机可读存储介质和计算机系统。

本发明的方法和系统采用新型序列次序-无关结构比对法、分裂层次聚类法及概率序列相似性方法，构建甚至能够捕捉已知靶点上药物不同结合位点混杂结构特征的概率口袋集合(PPE)。配体(如药物)的PPE与近似药物释放曲线相结合，实现大规模预测新型药物-蛋白质的相互作用，应用于生物研究和药物研发。

在交叉验证研究中，本发明的示例方法预测了11种药物的已知靶点，敏感性是63％，特异性是81％。采用这些新方法，预测了这些药物的新靶点，并通过体外结合实验，对药学上很感兴趣的两个靶点(核受体PPARγ和致癌基因Bcl-2)进行了验证。

背景技术

大多数代谢物和药物与不止一种蛋白质结合[1]，得到由许多分子(副)作用组成的表型。对制药工业来说，预测和最大限度地降低脱靶效应非常重要，因为脱靶会导致低功效和高毒性，导致新药临床试验失败率较高[2-4]。据最新研究估计，每种药物平均与至少六个已知靶点结合，还有许多靶点仍然未被人们发现[5、6]。因此，了解脱靶效应有助于降低药物抗性，提供多靶点药物研发机会[7]。此外，给定结合位点的脱靶配体可能引发“药物重新定位”，重新引导已经批准用于一种症状的药物用于治疗另一种疾病，从而克服与临床试验和药物批准有关的延迟和成本[8]。因此，预测脱靶结合位点、全面了解药物的副作用、探索药物研发/重新定位机会对快速、高效经济地研发药物非常重要。

除药物研发之外，识别给定生物辅因子、代谢物或其它小分子的所有细胞靶点对了解细胞功能和机能障碍(如代谢组-靶点相互作用和相关疾病)非常重要。最后，识别环境污染物的可能靶点可能有助于了解和避免排放化学物质的健康危害。

因此，预测现有内源小分子化合物新靶点或服用小分子化合物新靶点的计算方法具有较高的生物学和药物学价值。(为了简单起见，我们在本发明中将所有这些化合物统称为“药物”，其意思是“对生物系统有影响的小分子化学物质”)。这些方法可分为三大类：结构类、表达类和配体类。

结构类方法采用结合位点相似性或分子对接[9-12]，利用药物靶点信息；表达类方法探索药物活性导致的分子活性扰动标签[13-19]；配体类方法利用药物的化学性质和结构性质[20-22]发现新靶点。除这些方法之外，还利用副作用相似性[23]、全基因组关联分析[24]和医学遗传学[25]预测现有药物的新靶点。此外，还有其它并不指定药物靶点，而是利用药物-药物和疾病-疾病相似性，将药物直接与疾病相联系的方法[26]。

最近，人们已经建立了将多个来源信息结合的方法，这些方法未来可能更成功[27]。但是，这些方法中的大多数方法并不预测已知药物靶点，对其表现进行评价(敏感性分析)，仅Chang等[11]和Li等[12]报告了真阳性预测率，但真阳性预测率仍然相对较低(分别是29％和49％)。此外，仍然没有出现基于结构信息的高通量框架，目前的方法无法满意地捕捉药物的结构灵活性，这些结构导致与不同靶点之间存在构象上不同的几种相互作用。

因此，需要预测脱靶结合位点的方法，从而全面了解药物的副作用、探索药物研发/重新定位机会，这些对快速、高效经济的药物研发非常重要。

发明内容

我们发现了一种基于集成结构和系统的配体(例如药物)靶点预测新方法(iDTP)，所述方法可以大规模发现现有药物的新靶点。我们的新方法集成了小分子化合物的结构标签及其组织释药曲线。如果可以提供需要的结构信息，iDTP可应用于所有类型的小分子，包括代谢物、辅因子和批准药物或实验药物。

本发明方法利用序列次序-无关结构比对法、分裂层次聚类法及概率序列相似性方法来建立药物的结构标签，这使得我们请求保护的方法能够捕捉与药物混杂靶点作用及结构灵活性有关的特征。对所有已知蛋白质靶点的mRNA表达进行平均，近似得到药物释放曲线。正如计算和实验验证支持的那样，通过组合这些正交信息源，iDTP能够大规模计算预测新的药物靶点。采用iDTP使我们能够提出辅酶A(CoA)新的细胞靶点，及提供似乎真实的Trolox抑制CYP2El的机理信息。辅酶A是Bcl-2的新型可成药口袋和先导化合物。

在一个实施例中，本发明提供一种识别蛋白质配体结合位点的方法，所述方法包括以下步骤：

(a)通过(1)识别蛋白质结构数据库中的信息，所述信息与已知蛋白质标签口袋对应，并至少表明蛋白质标签口袋的原子坐标和构象；(2)在识别的蛋白质标签口袋信息上执行两两序列次序-无关结构比对、分裂层次聚类及概率序列相似性运算，以选择代表推定配体-蛋白质结合位点的随机数值基组，概率序列相似性运算包括距离函数求解，距离函数由推定配体-蛋白质结合位点与已知蛋白质标签口袋的结构相似性和可能的序列相似性定义；从而产生代表推定配体-蛋白质结合位点的随机数值基组。

(b)产生代表药物已知靶点基因核苷酸表达水平的数值基组；

(c)从步骤(a)和(b)产生的基组中选择重叠值，作为至少与一个或多个配体-蛋白质结合位点的原子序列和构象有关的信息；及

(d)通过测定一个或多个配体-蛋白质结合位点的配体亲和力，验证步骤(c)中确定的一个或多个配体-蛋白质结合位点。

在本发明中，词语“基组”的意思与Dundas等[29]描述的一样，即“标签口袋基组，代表蛋白质功能家族不同取样构象的集合。由于标签基组能够代表形状和化学结构的多种可能变化，因此，可以代表具有复杂结合活性的酶功能结构特点，还可用于准确预测酶的功能。”参看本发明的具体实施方式。正如Dundas[29]阐明的那样，在分层树中选择数值时，“通过提高或降低相似度阈值，可以在不同的结构相似性水平产生不同的标签口袋基组。低阈值产生的标签口袋将更多。当阈值提高时，产生的标签口袋将更少。原则上，可以通过提高阈值，产生单个标签口袋代表全面的表面标签口袋数据集。”线性代数基组的使用在很多资料(包括：Http://mathworld.wolfram.com/VectorSpaceBasis.html)中都有解释。

在优选的实施例中，“基因的核苷酸表达水平”是基因的mRNA表达水平，样本是组织样本，及：

(1)由推定配体-蛋白质结合位点与已知蛋白质标签口袋的结构相似性和可能的序列相似性定义的距离函数由下式表示：

分数＝结构相似性+α*(1-序列相似性)

序列分数＝∑_i(AtomFreq_i+Re sFreq_i)

最佳序列分数＝∑_i(MaxAtomFreq_i+Max Re sFreq_i)

式中α是1.2，RMSD是比对后的均方根距离，N是比对位置的数量，AtomFreqi/ResFreqi是位置i处比对原子/残基的频率，MaxAtomFreqi/MaxResFreqi是位置i处任意原子/残基的最高频率，总和是所有比对位置的和；及

(2)由推定配体-蛋白质结合位点和已知蛋白质标签口袋结构相似性和可能的序列相似性以及预定数量组织中相对组织mRNA表达水平定义的距离函数由下式表示：

分数＝结构相似性+α*(1-序列相似性)+β*组织表达

式中α、结构相似性和序列相似性如上文所定义，β是0.1-0.9之间的值。

CASTp预计算数据库是有关蛋白质表面口袋和空隙优选信息来源的一个实例。优选采用每个配体超过30个载脂蛋白结构来构建概率口袋集，已知配体-蛋白质结合位点通过识别蛋白质三维结构第一条链最大的三个口袋来确定。

优选推定配体-蛋白质结合位点的原子数是大约10–500，更优选是20、30、40或50至100、200、300或400，更优选是大约50至大约100，与预定数量组织中已知配体-蛋白质结合位点相关联的基因mRNA表达水平是平均值，已知配体-蛋白质结合位点映射一个以上基因。平均mRNA表达水平可以利用Uniprot ID映射测定，在优选方法中，预测配体-蛋白质结合位点的配体亲和力通过荧光各向异性法测定。

在另一个实施例中，本发明提供一种识别新配体蛋白质结合位点的方法，所述方法包括以下步骤：

(a)对新配体与一个或多个已知蛋白质结合位点的结合进行评估，选择与新配体结合的选择性处于规定范围内的蛋白质结合位点，并识别(优选采用X射线结晶法)与配体结合的选择性处于规定范围内的蛋白质标签口袋；

(b)通过(1)识别蛋白质结构数据库中的信息，所述信息与步骤(a)中识别的蛋白质标签口袋对应，并至少表明蛋白质标签口袋原子坐标和构象；(2)在识别的蛋白质标签口袋信息上执行两两序列次序-无关结构比对、分裂层次聚类及概率序列相似性运算，以选择代表推定配体-蛋白质结合位点的随机数值基组，概率序列相似性运算包括距离函数求解，距离函数由推定配体-蛋白质结合位点与步骤(a)中识别的蛋白质标签口袋的结构相似性和可能的序列相似性定义；从而产生代表推定配体-蛋白质结合位点的随机数值基组；

(c)通过将已知配体-蛋白质结合位点信息映射到基因名称，识别代表与基因对应的核苷酸(优选mRNA)表达水平的基因-样本表达数据库信息，产生代表与预定数量生物样本(优选组织或细胞)中已知配体-蛋白质结合位点相关联的基因核苷酸(优选mRNA)表达水平的随机数值基组；

(d)从步骤(b)和(c)产生的基组中选择重叠值，作为至少与一个或多个配体-蛋白质结合位点的原子序列和构象有关的信息；及

(e)通过测定一个或多个配体-蛋白质结合位点的配体亲和力，验证步骤(d)中确定的一个或多个配体-蛋白质结合位点。

在上述识别新配体蛋白质结合位点的方法的优选实施例中，样本是组织样本，“基因的核苷酸表达水平”是基因的mRNA表达水平，及：

(1)由推定配体-蛋白质结合位点与步骤(a)中识别的蛋白质标签口袋的结构相似性和可能的序列相似性定义的距离函数由下式表示：

分数＝结构相似性+α*(1-序列相似性)

序列分数＝∑_i(AtomFreq_i+Re sFreq_i)

最佳序列分数＝∑_i(MaxAtomFreq_i+Max Re sFreq_i)

式中α是1.2，RMSD是比对后的均方根距离，N是比对位置的数量，AtomFreqi/ResFreqi是位置i处比对原子/残基的频率，MaxAtomFreqi/MaxResFreqi是位置i处任何原子/残基的最高频率，总和是所有比对位置的和；及

(2)由推定配体-蛋白质结合位点与步骤(a)中识别的蛋白质标签口袋的结构相似性和可能的序列相似性以及预定数量组织中相对组织mRNA表达水平定义的距离函数由下式表示：

分数＝结构相似性+α*(1-序列相似性)+β*组织表达

在其它优选方法中，配体选自由小分子或核酸组成的群组，所述方法的至少一个步骤是通过计算机完成的。

本发明还提供其上存储可执行程序的非暂时性计算机可读存储介质，及包括处理器、存储器和非暂时性计算机可读介质的计算机系统，以执行本发明的方法。

在另一个实施例中，本发明提供一种识别蛋白质配体结合位点的网络系统，所述网络系统包括：

(a)计算机系统，包括处理器、存储器和存储指令的非暂时性计算机可读存储介质，处理器执行指令，使系统：

(1)通过(i)识别蛋白质结构数据库中的信息，所述信息与已知蛋白质标签口袋对应，并至少表明蛋白质标签口袋原子坐标和构象；(ii)在识别的蛋白质标签口袋信息上执行两两序列次序-无关结构比对、分裂层次聚类及概率序列相似性运算，以选择代表推定配体-蛋白质结合位点的随机数值基组，概率序列相似性运算包括距离函数求解，距离函数由推定配体-蛋白质结合位点与已知蛋白质标签口袋的结构相似性和可能的序列相似性定义；从而产生代表推定配体-蛋白质结合位点的随机数值基组。

(2)通过将已知配体-蛋白质结合位点信息映射到基因名称，识别代表与基因对应的核苷酸表达水平的基因-生物样本表达数据库信息，产生代表与预定数量生物样本(优选组织或细胞)中已知配体-蛋白质结合位点相关联的基因核苷酸表达水平的随机数值基组；

(3)从步骤(1)和(2)产生的基组中选择重叠值，作为至少与一个或多个配体-蛋白质结合位点的原子坐标和构象有关的信息；及

(b)一种与计算机系统联网的高通量分析法，用于传输代表验证配体-蛋白质结合位点的信息。通过测定预测配体-蛋白质结合位点的配体亲和力，验证这些配体-蛋白质的结合位点。

在另一个实施例中，本发明提供一种识别新配体蛋白质结合位点的网络系统，所述网络系统包括：

(a)一种高通量分析法，所述方法对新配体与一个或多个已知蛋白质结合位点的结合进行评估，选择与新配体结合的选择性处于规定范围内的蛋白质结合位点，并至少识别代表与配体结合的选择性处于规定范围内的蛋白质标签口袋的原子坐标和构象的信息；

(b)一种计算机系统，所述计算机系统与高通量分析法联网，用于接收至少代表与配体结合的选择性处于规定范围内的蛋白质标签口袋的原子坐标和构象的信息，所述计算机系统包括处理器、存储器和存储指令的非暂时性计算机可读存储介质，指令由处理器执行，使系统：

(1)通过在识别的蛋白质标签口袋信息上执行两两序列次序-无关结构比对、分裂层次聚类及概率序列相似性运算，以选择代表推定配体-蛋白质结合位点的随机数值基组，概率序列相似性运算包括距离函数求解，距离函数由推定配体-蛋白质结合位点与识别蛋白质标签口袋的结构相似性和可能的序列相似性定义；从而产生代表推定配体-蛋白质结合位点的随机数值基组；

(2)通过将已知配体-蛋白质结合位点信息映射到基因名称，识别代表与基因对应的核苷酸表达水平的基因-生物样本表达数据库信息，产生代表与预定数量生物样本中已知配体-蛋白质结合位点相关联的基因核苷酸表达水平的随机数值基组；

(3)从步骤(b)和(c)产生的基组中选择重叠值，作为至少与一个或多个配体-蛋白质结合位点的原子坐标和构象有关的信息；及

(c)一种与计算机系统联网的高通量分析法，用于传输代表配体-蛋白质结合位点亲和力的信息，通过测定一个或多个配体-蛋白质结合位点的配体亲和力，验证步骤(b)(2)中确定的一个或多个配体-蛋白质结合位点。

除显示小分子(配体、辅因子或代谢物)和细胞蛋白质之间的生物相关作用之外，本发明的方法和系统可以建立代谢物-蛋白质对，用于大规模代谢分析，或预测化学小分子污染物(如双酚)的可能靶点。药物发现应用识别可能的先导化合物和新型可成药蛋白质结合口袋，并用于了解其中药物：靶点复合物结构尚未确定的已知药物的结合机理。

这些方面和其它方面将在本发明的具体实施方式中进一步说明。

附图说明

图1：甲酸、β-D-葡萄糖和磷氨基膦酸-腺苷酸酯的PPE(俯视图：a-c，侧视图：d-f)。每个位置由最高频率原子标签表示。原子灰度编码为C：浅灰；O：中灰；N：深灰。

图2(a):hPPARγ-LBD的热转移分析。在不同摩尔过量罗格列酮(Rosiglitazone)或辅酶A存在下，根据hPPARγ-LBD的热变性曲线计算熔解温度(Tm)。罗格列酮显示出热变性保护效应(Tm升高)，与此相反，辅酶A显示出不稳定效应(Tm降低)。

图2(b):预测的CoA结合位点与hPPARγ-LBD上的配体结合位点重叠。该图基于与罗格列酮(颜色更深的灰环；PDB id 4EMA)结合的hPPARγ-LBD的晶体结构(浅灰和中灰)。预测的CoA结合口袋是圆形中心区。

图3：hPPARγ-LBD的荧光各向异性。在无配体存在条件下或在存在(A)10mol过量配体，及(B、C、D)罗格列酮、辅酶A或CD5477摩尔过量数不断增加的条件下，荧光素标记的PGC1-NR2或N-CORNR2(NCoR RID2)或S-CORNR2(SMRT RID2)肽与hPPARγ-LBD之间采用荧光各向异性滴定法测定的解离常数(Kd)。

图4(a):通过配体存在下Bcl-2聚焦温度的变化测定的不同浓度CoA、Bax-BH3肽(作为阳性对照)和乱序LD4肽(作为阴性对照)存在条件下Bcl-2热稳定性的变化。图4(b):存在和不存在CoA条件下测定的Bcl-2的热稳定性，聚集温度△T_agg的变化相对CoA浓度作图。采用单个结合位点模型测定的K_d值是0.32±0.13mM。图4(c):不同浓度CoA、Bax-BH3肽和乱序LD4肽的色氮酸荧光猝灭对比。0.25mM CoA在猝灭色氨酸荧光方面有效，而400nMBax-BH3肽在猝灭色氨酸荧光方面有效。图4(d):CoA浓度不断增加时Bcl-2的色氨酸相对荧光。采用单结合位点模型计算的K_d是0.38±0.08mM。

图5(a):荧光素标记Bax-BH3肽的各向异性随Bcl-2浓度增加而增加的图形。将数据与单结合位点模型拟合，得到Kd值，大约是127.90±21.02nM。图5(b):预测CoA结合位点(深灰)处于Bcl-2(浅灰)上Bax-BH3(中灰)结合位点附近。Bax-BH3肽在最大口袋(灰度最深)中结合。该图根据晶体结构2XA0绘制。

图6(a):2'-单磷酸腺苷5'-二磷酸核糖的PPE与驱动蛋白-样蛋白质KIF11(pdbid:2Q2Z,中灰)和胶原酶3-抑制剂24f复合物(pdb id:3ELM，深灰)的结构比对；图6(b)2'-单磷酸腺苷5'-二磷酸核糖的PPE与驱动蛋白-样蛋白质KIF11(中灰)和胶原酶3-嘧啶二碳酰胺复合物(pdb id:lXUC，深灰)的结构比对；图6(c)2'-单磷酸腺苷5'-二磷酸核糖的PPE与驱动蛋白-样蛋白质KIF11(中灰)和C-C基序趋化因子4(pdb id:1JE4，深灰)的结构比对。这表明了预测新靶点空间上与PPE的不同部分比对。

图7：在400nM Bcl-2存在下，相对浓度不断增加的CoA进行滴定而得到的20nMBax-BH3的荧光偏振。数据表明，正如Bcl-2上CoA和Bax-BH3结合位点未重叠表明的那样及我们的模型所预测的那样，CoA不能从Bcl-2置换Bax-BH3。

图8：本发明方法确定的验证靶点和结构。

图9：本发明方法确定的其它验证靶点和结构。

图10(a):本研究调查的11种药物的aDDP。图10(b):CoA(1XVT)的aDDP和四种已知CoA靶点(ACAT2、HMGCR、KAT2B、CRAT)的mRNA表达谱，CoA的aDDP与其已知靶点的皮尔逊相关系数是0.56。图10(c):b-D-葡萄糖(1PIG)的aDDP和5种已知b-D-葡萄糖靶点(ASPA、GNDPA、PYGM、NUDT9、PYGL)的mRNA表达谱。图10(d):在79种组织中，其中65种组织的RGS10的mRNA表达谱与CoA的aDDP相匹配，而在79种组织中，其中46种组织的AMD1的mRNA表达谱与CoA的aDDP相匹配。正如CoA预测靶点所示，在这种情况下，RGS10优于AMD1。灰度编码：深灰(低表达)，浅灰(中表达)，中灰(高表达)。Y-轴有79个人体组织。

具体实施方式

本专利说明书中采用下述词语来描述本发明。若本发明中未对一个词语专门进行定义，则该词语应理解为其使用方式与熟悉本领域技术人员的使用方式一致。

当给出数值范围时，除非上下文另外清楚地指出，应理解为该范围上下限之间的每个中间值(到下限单位的十分之一)，以及在此所述范围内的任何其它声明值或插入值均包括在本发明中。这些较小范围的上限和下限可以独立地包括在较小范围内并且也包括在本公开中，受限于所指出范围内任何明确的排除限制。若声明范围包括其中一个限值或全部两个限值，则排除这两个限值中任一个限值或两个限值的范围也包括在本发明中。在取代基可能是一个或多个马库什基团时，应理解为只能使用那些形成稳定键的取代基。

除非特别规定，本发明使用的所有技术名词和科学术语的意义与本发明所属领域技术人员通常理解的相同。虽然本发明实践或试验中也可以使用与此处所述类似或相当的任何方法和材料，但是，现在描述的是优选的方法和材料。

必须指出的是，除非上下文明确指明，否则，正如本专利说明书和权利要求书中所使用的那样，单数形式“一种”、“一个”和“这个(该)”包括复数意义。

此外，下述词语应具有下述规定定义。

此处使用下述缩略语。iDTP：基于集成结构和系统的药物靶点预测方法；PPE：概率口袋集合；aDDP：近似药物释放曲线；NR：核受体；PPARγ：过氧化物酶体增殖物－激活受体γ；Bcl-2：B－细胞淋巴瘤2；和CoA：辅酶A。

说明书中使用的词语“患者”或“受试者”用于描述接受治疗，包括预防性治疗(预防)的动物，通常是哺乳动物，特别是包括驯养动物，优选是人。治疗那些对特定动物(如人类患者)来说特定的感染、症状或疾病时，词语患者指的是该特定动物。在大多数情况下，患者或受试者是任一性别或两个性别的人类患者。

除非特别声明，此处使用的词语“有效的”用于描述使用一定数量的化合物或组分，产生或得到指定结果，不管该结果是否与预防和/或治疗感染和/或疾病或此处描述的其它情况是否有关。词语有效的包括本申请中另外描述或使用的所有其它有效数量或有效浓度词语(包括词语“治疗有效”)。

此处使用的词语“化合物”用于描述此处公开的任何特定化合物或生物活性剂，包括任何和所有立体异构物(包括非对映异构体)、单个光学异构体(对映异构体)或外消旋混合物、药学上可接受的盐和前体药物形式。此处使用的词语化合物指的是稳定的化合物。正如本发明另外描述的那样，在上下文其使用范围内，词语化合物可能指的是单一化合物或化合物的混合物。

根据本发明，可能采用本领域熟悉的传统分子生物学、微生物学，及重组DNA方法。这些方法在文献中进行了全面的解释。参见，例如，Sambrook等，2001，“分子克隆：实验室手册(Molecular Cloning:A Laboratory Manual)”；Ausubel,ed.,1994，“分子生物学实验室指南(Current Protocols in Molecular Biology)”I-III卷；Celis,ed.,1994,“细胞生物学：实验室手册(Cell Biology:A Laboratory Handbook)”I-III卷；Coligan,ed.,1994,“免疫学实验室指南(Current Protocols in Immunology)”I-III卷；Gait ed.,1984,“寡核苷酸合成(Oligonucleotide Synthesis)”；Hames&Higgins eds.,1985，“核酸杂化(Nucleic Acid Hybridization)”；Hames&Higgins,eds.,1984，“转录和翻译(Transcription And Translation)”；Freshney,ed.,1986，“动物细胞培养(Animal CellCulture)”；IRL Press,1986，“固定化细胞和酶(Immobilized Cells And Enzymes)”；Perbal,1984，“分子克隆实践指南(A Practical Guide To Molecular Cloning)”。

“生物样本”可以是组织样本或细胞样本。

“基组”如上文定义，并将在下文进一步讨论。

正如本发明使用的那样，词语“核苷酸”和“多核苷酸”分别指的是任何长度的核苷酸(核糖核苷酸或脱氧核苷酸)的单体或聚合物形式，包括双链和单链DNA和RNA。核苷酸或多核苷酸可以包括具有不同功能，如编码区，和非编码区，如调控序列(如启动子或转录终止子)的核苷酸序列。多核苷酸可以直接从天然来源得到，或者可以借助重组、酶催化或化学方法制备。核苷酸或多核苷酸的拓扑学结构可以是线性或环状。核苷酸或多核苷酸可以是，例如，载体(如表达或克隆载体)的一部分，或片段。

本发明使用的词语“多肽”广义上指的是通过肽键连接在一起的两个或多个氨基酸的聚合物。词语“多肽”还包括一个以上多肽分子，其中所述多肽通过二硫键连接在一起，或包括包含共价或非共价连接在一起的多聚体(如二聚体、四聚体)形式的多肽复合物分子。因此，词语肽、低聚肽和蛋白质都包括在多肽的定义之内，这些词语可以互换使用。应该理解的是，这些词语并非指特定长度的氨基酸聚合物，它们也并不暗示或区分多肽是否是采用重组法、化学法或酶催化法合成制备的或天然产生的。

“配体”可以是任何天然或合成单元，包括但不限于与细胞结合，优选在细胞表面上的受体(结合位点)处结合的小分子、抗体、核酸、氨基酸、蛋白质(如酶)或激素。因此，词语“配体”包括与细胞上、细胞内或与细胞缔合的单元(优选受体)结合的任何靶向活性种(化合物或单元，如抗原)。在一些实施例中，除与靶向细胞结合的种类之外，配体是肽、包括抗体或抗体片段的多肽、适配子或碳水化合物。

此处使用的“结合位点”并不限于与配体直接相互作用的受体蛋白质表面区，还包括任何配体结合中(通过影响构象或其它方式)暗示的原子序列，不管其是否在受体表面上。采用本发明方法和系统可以识别的纯粹示例性结合位点名单包括跨膜受体(包括：G-蛋白-偶联受体(GPCR；如毒蕈碱型乙酰胆碱受体、腺苷酸受体、肾上腺素能受体、GABA受体、血管紧缩素受体、大麻素受体、缩胆囊素受体、多巴胺受体、胰高血糖素受体、亲代谢性谷氨酸盐受体、组织胺受体、嗅觉受体、阿片受体、红景天素受体、分泌素受体、血清素受体、生长抑素受体、钙敏感受体、趋化因子受体、1-磷酸鞘氨醇(S1P)受体、酪氨酸激酶受体(如红细胞生成素受体、胰岛素受体、类胰岛素生长因子1受体、Eph受体)；鸟苷酸环化酶受体(如钠尿肽受体、鸟苷素受体)；及离子型受体(如乙酰胆碱受体、甘氨酸受体、5-HT受体、P2X受体)。

“测定一个或多个配体-蛋白质结合位点的配体亲和力”可以采用本领域技术人员熟悉的任何方法测定，包括但不限于荧光检测法(后文将更详细地说明)、NMR方法、X-射线结晶法、热力学结合法和全细胞-配体结合法。优选采用荧光检测法。通常，受体(蛋白质)的结合位点由蛋白质的三级结构区定义，这些三级结构区赋予配体-蛋白质特异性和亲和力，并且包括通过静电作用、疏水作用、氢键或范德华作用与配体相互作用的原子序列。一个或多个配体-蛋白质结合位点的亲和力代表蛋白质与配体之间的非-共价吸引力。

正如美国专利申请文件No.20130280238所阐释的那样，“缔合和解缔在配体和结合位点之间反应，并由反映平衡时配体和结合位点之间解缔程度的所谓“解缔常数”表征。解缔常数通常以浓度单位表示，浓度越低，反映蛋白质和配体之间的亲和力越高，亦可描述为结合越紧。另一种描述亲和力的方法是采用结合位点的饱和度，或每单位时间配体占据的结合位点总数来描述亲和力。与亲和力低的配体相比，亲和力高的配体在结合位点停留的时间更长。

测量和描述蛋白质及其配体之间结合亲和力的方法各种各样。例如，可以根据一系列初始浓度配体形成的复合物的数量，测定解缔常数。在生物医药领域，特定配体生物活性的测定通常用于取代结合亲和力的测定。例如，如果配体抑制特定的生物反应，可以采用50％抑制浓度，即IC₅₀。对酶来说，通常采用米氏常数，即K_m作为酶活性位点底物亲和力的量度。应该理解的是，本发明的方法并不受任何特定结合亲和力量度方式的限制，可以采用各种结合亲和力的量度方式。结合亲和力特定量度方式的选择取决于本发明的特定应用、蛋白质和/或配体的类型、可以提供的及可能提供的实验数据和其它因素。”

因此，在“选择与新配体结合的选择性处于规定范围内的蛋白质结合位点”时，规定选择性可以是任何与蛋白质-配体亲和力测定方式一致的数值。

正如美国专利申请文件No.20140275487中所阐释，蛋白质的“构象”或“构象状态”通常指的是蛋白质任何瞬间可能采用的结构范围。熟悉本领域的技术人员将认识到构象或构象状态的决定性因素包括反映在蛋白质氨基酸序列(包括修饰氨基酸)中的蛋白质的一级结构和蛋白质周围的环境。蛋白质的构象或构象状态还涉及结构特征，如蛋白质二级结构(如α-螺旋、β-折叠等)、三级结构(如多肽链三维折叠)，及四级结构(如多肽链与其它蛋白质亚单位的相互作用)。”

“原子坐标”代表分子结构内原子的一组三维坐标，这些坐标通过X-射线结晶法或本领域技术人员熟悉的其它方法确定。

“蛋白质标签口袋”通过蛋白质结构家族功能口袋的序列-次序无关表面比对确定，正如Dundas等“次序-无关表面比对酶结合口袋的结构标签：金属内肽酶和NAD结合蛋白质研究(Structural Signatures of Enzyme Binding Pockets from Order-IndependentSurface Alignment:A Study of Metalloendopeptidase and NAD Binding Proteins)”，J Mol Biol.Mar 11,2011；406(5):713-729(“Dundas et al.”)[29]所述，并识别功能上相关的蛋白质结构家族中结构上保存完好的原子。正如Dundas等所述，“由于单个功能类别可能得到一个以上标签口袋，标签口袋可以组织到该功能家族的口袋基组内。然后，结合表面的这些标签口袋可用于扫描蛋白质结构库，进行功能推理。”

在“组学时代蛋白质功能预测(Protein Function Prediction for Omics Era)”(D.Kihara ed.；Springer Science&Business Media,Apr 19,2011)中，Dundas在以下段落中更详细地描述了“蛋白质标签口袋”的测定。在相关上下文中，该摘录也解释了“基组”的概念及“两两序列次序-无关结构比对法”、“分层聚类法”及非-随机“序列相似性运算”的相关应用。

“标签口袋来源于预计算表面口袋按序列-次序-无关比对法得到的最佳比对，其中原子和残基根据获得最大相似性时其空间对应进行比对，不管它们在所属一级序列中的次序如何。我们的方法并不要求标签口袋原子存在于所有成员结构中。相反，标签口袋可以在不同部分结构相似性程度时建立，并可以在不同结合表面相似性水平分层组织。

标签口袋算法的输入是一组来自于表面口袋及蛋白质空隙预计算数据库的功能口袋，如CASTp数据库中包括的那些。该算法通过在输入功能表面口袋上执行所有vs所有两两序列次序无关结构比对开始。记录功能口袋每个比对两两序列的距离分数，该分数是结构比对配对原子RMSD和化学性质的函数。然后，得到的距离矩阵被凝聚聚类方法使用，产生层次树。然后，在层次树之后，采用递归过程，计算功能口袋的标签。该过程通过寻找两个最近的家族成员(口袋S_A和S_B)，并将它们组合到单个表面口袋结构S_AB中。由于这种算法的递归性质，组合的这两个结构中的任一个结构本身可能已经是几个结构的组合。当组合这两个结构时，我们遵照下面列出的标准：

1.如果两个原子被认为在结构比对上相当，在新结构中建立单坐标来表示这两个原子。对目前两个待平均坐标表示的所有基础原子的坐标进行平均，计算新坐标。

2.如果在结构比对期间发现一个原子不相当，则该原子的坐标直接转到新口袋结构内。在组合两个表面口袋的每个步骤期间，记录位置i处原子在口袋基础组存在的次数，然后，除以构成口袋的数量。这就是保存比r(i)。比对原子的坐标距离其几何中心的平均距离记为位置变差υ。在每步结束时，新结构S_AB代替层次树中的两个结构S_A和S_B，在更新的层次树上重复该过程。在层次树的特定高度，通过选择r阈值，可以建立具有不同结构保存度的不同标签口袋。标签口袋算法可在其遍历层次树期间的任何点终止。

通常甚至进一步提高阈值，可以产生代表数据集内所有表面口袋的单标签口袋。由于层次树的聚类代表某一阈值内相似的一组表面口袋，如果选择终止阈值，从而在层次树内存在多个聚类，将为每个聚类建立一个标签口袋。不同聚类的标签口袋集共同构成标签口袋基组，代表蛋白质功能家族不同取样构象的集合。由于标签基组能够代表形状和化学结构的多种可能变化，因此，可以代表具有复杂结合活性的酶功能结构特点，还可用于准确预测酶的功能。”

正如本发明实例中进一步解释的那样，本发明方法的“两两序列-次序无关结构比对、分裂层次聚类及概率序列相似性运算”步骤将前文Dundas等提到的数据挖掘-优化运算的某些方面与证明更适合新配体-蛋白质结合位点计算机识别的新方法相结合。例如，Dundas等的方法要求高质量、手工审核酶结合位点，并不适合高通量研究。我们修改了Dundas等描述的方法，并采用最少手工审核结合位点(大多数情况下是一个)，构建每种药物的概率口袋集合。为了从结合口袋集提取共同的结构特征，理想的情况是需要采用多结构比对法。但是，目前不存在可以处理我们数据集的此类方法。因此，按照Dundas等所述，我们采用表面口袋的两两序列次序-无关结构比对法和分层聚类法来提取共同的结构特征[29]。

Dundas等构建了与层次树预定特殊水平处不同配体/配体结合位点构象对应的几种结构标签。在大多数情况下，识别这种界限值并非没有价值，并且需要掌握有关配体/配体结合位点不同构象的专业知识。相反，我们在树的根部构建了结构标签。因此，结构标签(或“概率序列相似性”)是一个以上独特口袋(与层次树中不同分支对应)的集合。PPE中每个位置的保存比(特定原子在口袋基础组存在的次数[29])至少是0.5。为了实现极简集合和减少计算时间，如果PPE中原子数大于110，我们将保存比界限值提高到0.6。

“将已知配体-蛋白质结构映射到基因名称”这一步骤可采用UniProtKnowledgebase(UniProtKB)(包括子部分Swiss-Prot和TrEMBL、UniParc、UniRef和UniMes)(欧洲生物信息学研究所)及PubMed、UniProt、ChemAbstracts、PDB、InterPro和GenBank(www.ncbi.nlm.nih.gov)数据库，还可以采用蛋白质域数据库Pfam、SMART、PROSITE、Propom、PRINTS、TIGRFAMs、PIR-SuperFamily或SUPERFAMILY。

一个有用的“基因-样本表达数据库”的范例是Su,A等在下面文献中描述的数据库：小鼠和人类蛋白质-编码转录组基因图谱(A gene atlas of the mouse and humanprotein-encoding transcriptomes.Proc Natl.Acad.Sci.USA 101,6062-6067(2004)[36]。人类蛋白质图谱(Human Protein Atlas)，参见www.proteinatlas.org，以及表达图谱(Expression Atlas)(http://www.ebi.ac.uk/gxa)是本发明方法可以使用的其它基因-组织表达数据库实例。还可以使用

(international ImMunoGeneTics information

http://www.imgt.org)数据库。

其它有用的基因-样本表达数据库包括(但不限于)下面列出的数据库或美国专利申请文件No.20110274692:“受体酪胺酸激活酶受体(receptor tyrosine kinasereceptors)(Grassot等,2003，“RTKdb：受体酪胺酸激活酶数据库(RTKdb:database ofreceptor tyrosine kinase)”，Nucleic Acids Res 31:353-358)，G蛋白质-偶联受体(Gprotein-coupled receptors)(Horn等,2003,"GPCRDB information system for Gprotein-coupled receptors"Nucleic Acids Res 31:294-297)，嗅觉受体(olfactoryreceptors)(Skoufos等,2000，“嗅觉受体数据库：感觉化学受体资源(Olfactory receptordatabase:a sensory chemoreceptor resource)”Nucleic Acids Res 28:341-343)，促甲状腺激素受体突变(thyrotropin receptor mutations(Fuhrer等,2003“促甲状腺激素受体突变数据库：2003更新(The thyrotropin receptor mutation database:update2003)”Thyroid 13:1123-1126)，核受体(Patterson等,1994“雄激素受体基因突变数据库(The androgen receptor gene mutations database)”Nucleic Acids Res 22:3560-3562；Gottlieb等,1998，“雄激素受体基因突变数据库(The androgen receptor genemutations database)”Nucleic Acids Res 26:234-238)，及内分泌干扰物受体(Nakata等,1999，“受体数据库的发展(RDB)：应用于内分泌干扰物问题(Development of thereceptor database(RDB):application to the endocrine disruptor problem)”Bioinformatics 15:544-552)....加州大学洛杉矶分校一个小组维护的配体-受体合作伙伴数据库(http://dip.doe-mbi.ucla.edu/dip/DLRP.cgi)包含趋化因子、TNF、成纤维细胞生长因子(FGF)和TGFB配体的受体亚组；……细胞信号传导联盟数据库包括有关许多信号传导基因的大量资料；出版物和数据库的每个条目……反应组学数据库(Joshi-Tope等,2005“反应组学：生物路径数据库(Reactome:a knowledgebase of biologicalpathways)”Nucleic Acids Res 33:D428-D432)及人类蛋白质参考数据库(Peri等,2003，“人类蛋白质参考数据库作为人类接管系统生物学初步平台的发展(Development ofhuman protein reference database as an initial platform for approachingsystems biology in humans)”，Genome Res 13:2363-2371)。

步骤“识别蛋白质结构数据库中与已知蛋白质签名口袋对应的信息，所述信息至少代表蛋白质签名口袋原子序列和构象”可以按照上文Dundas，“组学时代蛋白质功能预测(Protein Function Prediction for Omics Era)”(D.Kihara ed.；Springer Science&Business Media,Apr 19,2011)所述执行。CAST_P数据库((http://cast.engr.uic.edu))(蛋白质表面拓扑学计算机图谱(Computer Atlas of Surface Topology of Proteins))是此类数据库的一个实例。CAST_P可与POLYVIEW-3D服务器结合，更好地识别和定义蛋白质表面口袋和空隙。Porollo等“采用POLYVIEW-3D，蛋白质复合物通用注解和出版物质量可视化(Versatile annotation and publication quality visualization of proteincomplexes using POLYVIEW-3D)”，BMC Bioinformatics,2007；8:316。其它有用的数据库包括但不限于SURFNET、LIGSITEcsc、ConCavity、APROPOS、DEPTH、fpocket和SiteMap。

“荧光各向异性”用于表征光学各向同性样本光选择作用导致的荧光发射的线性偏振程度。“溶液中荧光各向异性的测定：方法和参考材料(Fluorescence anisotropymeasurements in solution:Methods and reference materials)(IUPAC TechnicalReport)",Pure Appl.Chem.,Vol.85,No.3,pp.589-608,2013。除荧光各向异性之外，检测代表颜色、荧光、消失性、表面等离子共振、电导率或电荷分离、紫外光、可见光或红外吸收、发光性、化学发光性、电化学发光性、荧光强度、荧光寿命、荧光偏振、荧光能量转移、分子量、电子自旋共振、核磁共振、流体力学体积或半径、比重、闪烁、场效应电阻、电阻抗、声阻抗、量子消失性、共振散热、荧光猝灭、荧光相关光谱、声负载、声剪切波速、结合力或界面应力信号的任何方法都可以用于测定预测配体-蛋白质结合位点的配体亲和力。参见美国专利申请文件No.20140316116。此外，在荧光检测法中，除荧光素之外，也可以采用若丹明、德克萨斯红、花青染料和镀金纳米金颗粒。

示例性高通量分析法系统包括但不限于美国应用生物系统公司(AppliedBiosystems)的板-阅读仪系统(利用任何孔数的板，包括但不限于96-孔板、384孔板、768孔板、1536孔板、3456孔板、6144孔板及具有30000或更多孔的孔板)、ABI 7900Micro FluidicCard系统(采用任何孔数的卡，包括但不限于384孔卡)，其它探索使用TaqMan探针的微流体系统(包括但不限于WO 04083443Al中描述的系统，及美国专利申请Nos.2003-0138829 Al和2003-0008308 Al公开的系统)，其它微型卡系统(包括但不限于WO04067175 Al中描述的系统，美国专利申请Nos.2004-083443 Al、2004-0110275 Al和2004-0121364 Al公开的系统)，Invader.RTM.系统(Third Wave Technologies)，OpenArray.TM.system(Biotrove)，包括集成流体通路的系统(Fluidigm)，及本领域熟悉的其它分析系统。

实施本发明方法可以采用的计算机系统包括人们熟悉的各种计算机硬件系统和相关软件操作系统，包括手持计算器。有用的硬件系统包括那些配备任何合适类型数据处理器的系统，及也可以使用采用

和

等操作系统的连接的个人计算机。也可以使用Sun Microsystems和SiliconGraphics operating

操作系统，如

或

计算机的其它实例包括那些执行操作系统精简版控制调度程序的计算机，及拥有与存储器有关的数据处理器的任何类型设备。

某些实施例采用计算机可执行指令，这些指令由个人计算机上运行的计算机程序执行。还可以使用执行特定任务或实施特定抽象数据类型的程序模块，程序模块包括例行程序、程序、部件和数据结构。熟悉本领域的技术人员将认识到，本发明的方法和系统可以采用任何数量的计算机系统配置，包括手持式设备、多-处理器系统、基于微处理器的或可编程的消费者电子产品、微型计算机、大型计算机等。本发明还可在分布式计算环境中使用，其中任务由通过通信网络连接的远程处理设备执行。在分布式计算环境中，程序模块可位于现场和远程存储器存储设备中。

在一些实施例中，本发明的方法通过网络(如互联网)提供信息。例如，系统部件可通过任何合适的手段(包括网络)互连。处理器可以是个人用户可以携带的便携式处理设备，如笔记本电脑，数据可以传输到任何设备，如服务器、笔记本电脑、台式电脑、PDA、能够接收数据的手机、

等或从这些设备接收。在本发明的一些实施例中，系统和处理器可集成到单一装置中。在另一个实例中，可采用无线设备通过电信网络接收信息和将信息传输到另一台处理器，如文本消息或多媒体消息。

处理器的功能不需要在单台处理设备上完成。相反，它们可以分布在可能通过网络互连的几个处理器上。此外，信息在通过网络或远程用户传输之前，可以采用加密法(如SSL)编码。解码试验对象编码图像所需的信息可以存储在同一网络或不同网络用户可以访问的数据库中。

在一些实施例中，数据保存在数据存储设备上，并可以通过网站访问。授权用户可以登陆到网站，上传扫描图像，在其浏览器上即时接收结果。结果也可以存储在数据库内供将来查看。

在一些实施例中，采用接口和数据表示标准，如

和

可以实施基于网络的服务，使第三方将其信息服务和软件与数据连接。这种方法将在不同平台和软件应用之间实现无缝数据请求/响应流程。

我们的代表性计算机系统包括联网的大型计算机或个人计算机，这些计算机包括处理单元、系统存储器和系统总线，系统总线将各种系统部件(包括系统存储器)与处理单元连接。系统总线可以是采用任何传统总线架构，如PCI、VESA、MicroChannel、ISA和EISA的几种总线结构类型中的任一种类型，包括存储器总线或存储器控制器、外围总线，及局部总线。系统存储器包含只读存储器(ROM)和随机存取存储器(RAM)，ROM存储基本输入/输出系统(BIOS)，包含有助于在个人计算机内各元件之间传输信息的基本例行程序。

“非暂时性计算机-可读存储介质”可以包括硬盘驱动器、从可移动盘读取或写入可移动盘的磁盘驱动器，及光盘驱动器，例如，用于读取CD-ROM盘或从其它光学介质读取或写入其它光学介质。硬盘驱动器、磁盘驱动器和光盘驱动器可通过硬盘驱动器接口、磁盘驱动器接口及光盘驱动器接口与系统总线连接。这些驱动器及其相关计算机可读介质提供数据、数据结构和计算机可执行指令的非暂时性存储。除硬盘外，还可以使用可移动磁盘和CD、磁带、闪存卡、数码影碟和伯努利盒式磁带。

存储在RAM中的程序模块可以包括操作系统、应用程序、其它程序模块和程序数据。可通过人们熟悉的任何数量的输入设备输入命令，在一些实施例中，输入设备通过与系统总线连接的串行接口，或通过并行接口、游戏接口或通用串行总线(USB)与处理单元连接。显示器或显示设备可通过接口与系统总线连接，可以使用外围输出设备。

计算机可以利用逻辑连接与一台或多台远程计算机联网，如服务器、路由器、对等设备或其它通信网络节点。逻辑连接包括局域网(LAN)和广域网(WAN)。当采用局域网联网环境时，计算机可通过网络接口或适配器与局域网连接。当在WAN联网环境中使用时，计算机可以包括调制解调器或其它设备，通过广域网，如互联网建立通信。调制解调器可以是内部或外部调制解调器，可以通过串行接口与系统总线连接。在联网环境中，相对计算机或其部分描述的程序模块可以存储在远程存储设备中。

在一个实例中，本发明的方法和系统采用拥有至少8MB主存储器和1GB硬盘驱动器的IBM兼容个人计算机，采用Microsoft Windows作为用户界面，并采用各种数据库管理软件(包括Paradox)。执行预测功能的应用软件可以用任何语言编写，包括但不限于C++，并存储在本发明定义的计算机可读介质上。

本发明优选采用存储在计算机可读介质上的数据结构，数据结构由微处理器读取，包括至少一个独特识别此处公开公式变量的代码。计算机可读介质包括非易失性硬编码类型介质，如只读存储器(ROM)或电可擦可编程只读存储器(EEPROM)、可录类型介质，如软盘、硬盘驱动器和CD-ROM，及传输类型介质，如数字和模拟通信连接。

本发明使用的数据结构包括相关数据要素集合，以及反映这些要素之间关系的一组运算。数据结构可视为反映设备(如计算机)内的数据组织及其存储分配。数据结构包括通常是存储器内的信息组织，如队列、堆栈、链表、堆、字典和树，或概念统一体，用于改进算法效率，并且可以包括冗余信息，如子树的列表长度或节点数量。数据结构可以是外部数据结构或可以是只能由外部线程或过程更改的被动数据结构。主动或功能数据结构拥有执行内部运算的相关线程或过程，从而赋予另一个(通常更普通的)数据结构的外部行为。数据结构还可以是保存其旧版本的永久数据结构，即除最新版本外，以前的版本也可查询。数据结构可以是部分由更小或更简单的同一数据结构实例组成的递归数据结构。数据结构还可以是抽象数据类型，即与任何特定实施无关的精确规定的数据组和相关运算。

在一个实施例中，本发明使用的计算机系统包括500台以上并行联网且采用Perl(如Perl 5)或C语言(如C++)编程的计算机。

为了计算药物的PPE或结构签名，我们优选采用高性能计算机(存储器和CPU要求高)；科学工作站识别70个已知靶点药物的PPE需要大约一周的时间。针对药物PPE，搜索数据库可以使用一组计算机。在某些情况下，针对特定的PPE，500台计算机搜索75000种蛋白质结构需要3或4天。

本发明的计算机系统可以多线程并行操作，其中处理器自动产生多个同时指令流，共享单个存储器的多个处理器执行这些指令流，或由其中处理器运行多个独立计算的分布式计算执行，或通过显式并行执行，其中拥有独立存储器的两个或多个处理器同时执行存储在非暂时性计算机可读存储介质上的指令。

本发明的这些方面和其它方面在下述实例中进一步阐明。

实例1

基于集成结构和系统的代谢物和已知药物新靶点识别框架

构建概率口袋集合(PPE)

本质混杂的药物可能与具有各种特征的不同蛋白质口袋结合，从而很难建立药物可能结合位点的通用描述。为了捕捉混杂药物基本的结合位点特征，我们建立了一种构建这种药物PPE的方法。PPE代表的是可能与药物几种构象结合的单个口袋的统一集合。PPE中的每个位置可以由来自不同残基的多个原子组成。记录每个位置处原子和残基的频率，并用于构建最大可能序列相似性评分函数。这种概率评分方法适当地考虑了药物可以与几个口袋结合及口袋可以与几种药物结合的事实[28]。甲酸、β-D-葡萄糖和和磷氨基膦酸-腺苷酸酯的PPE如图1所示，其中PPE中的每个位置由该位置处最高频率的原子表示。

PPE和概率评分函数的评估

为了研究PPE检索结构上类似药物结合口袋的能力，我们采用序列-次序无关比对法及序列次序有关比对法将2'-单磷酸腺苷5'-二磷酸核糖结合的蛋白质口袋与该化合物前10个预测靶点的预测结合口袋进行比较。我们的结果表明，在识别新药物靶点方面，最简PPE与序列次序-无关比对的组合比完全结合口袋与序列次序-相关结构比对的组合更有用。此外，为了确定概率序列相似性函数的有效性，我们将概率函数与Dundas等[29]采用的确定性相似性函数进行比较，发现PPE能够提取捕捉与几个位点结合的药物及与几种药物结合的位点这些混杂过程必须的有价值的序列和结构标签。

大多数预测的新靶点空间上与各药物PPE的不同部分对齐(参见图6a-c)，表明PPE确实是几个口袋的集合，从而也许能够适应每种药物的不同构象异构体。这些结果表明，与以前的研究[29,30]相比，多种结构标签也许并非捕捉药物不同构象的最佳方法，正如本研究所示，这个问题可通过在结构标签中纳入概率评分函数有效地解决。此外，我们的方法并不需要掌握有关结合构象数量及从而掌握结构标签数量的专业知识。

接下来，我们采用交叉验证对每种药物的PPE是否捕捉到药物-蛋白质相互作用的基本特征进行了评估。我们能够预测药物与其已知靶点的相互作用，平均敏感性是63％(表1)。我们还构建了负面数据集用于评价本方法的特异性。由于药物、其结合位点的固有混杂性及对药物靶点的了解不全面，构建负面数据集并非没有价值。我们发现，本方法的平均特异性是81％(表1)。

表1数据集我们数据集中的药物及其2D结构、药物-蛋白质复合物的PDB ID、拥有已解答(载脂蛋白)结构的已知靶点的数量、交叉验证正确预测的已知靶点百分数(敏感性)，及负面数据集中正确预测的非相关蛋白质的百分数(特异性)。

集成药物释放曲线，减少假阳性

为了采用我们的方法识别新的药物靶点，我们下载了由75000种蛋白质结构及其口袋组成的完整的CASTp数据库[31]。我们从这些蛋白质结构的每种结构中提取三个最大的口袋，因为它们占蛋白质-小分子结合位点的80％以上[32-34]。利用序列次序-无关结构比对，我们将每种蛋白质结构最大的三个口袋与我们数据集中每种药物的PPE(采用所有已知药物靶点构建)进行比对。匹配片段的数量是几千个，该数量与其它药物重新定位研究[20]类似。事实上，虽然我们的方法对审核数据集具有较高的敏感性，但是，由于我们的极简模板能够随机与几种不相关蛋白质表面匹配，预期其在普通数据库中搜索时假阳性率更高。

为了降低我们方法的假阳性率，我们纳入了近似药物释放曲线作为结构-无关信息的正交源。由于通常无法提供实际的药物组织释放曲线，我们通过将79个人体组织中所有已知药物靶点的mRNA表达谱进行平均[36]，近似得到这种释放曲线。其原理是给定药物的细胞内释放曲线应与其建立靶点的mRNA表达谱相配。mRNA表达谱不仅提供有关蛋白质定位的信息，而且还提供有关蛋白质：蛋白质相互作用和路径的信息[37]。因此，已知药物靶点平均组织表达谱与新候选者表达谱的比较预期将反映这些组织中药物靶点相互作用的可能性，因此，可代表药物释放曲线(此处以aDDP表示近似药物释放曲线)。

接下来，我们采用文本挖掘研究aDDP预测药物:靶点相互作用的能力。共引指数[38]通过将两个词语在PubMed所保存研究的摘要中出现的次数进行比较，正如将两个随机词语进行比较一样，发现两个词语(此时是药物和基因名称)之间的关系。我们发现，与单独采用aDDP相比，采用aDDP与PPE组合时，拥有统计学上显著共引指数的预测次数高2-4倍。

实际上，采用组合方法时，β-D-葡萄糖前10个预测靶点(与任何已知药物靶点<60％序列相似性)与β-D-葡萄糖的PPE的匹配情况非常好(SI表2)。数据集中所有药物都观察到类似结果(参见支持信息文件PredTargets)。此外，前10个预测中的6个预测拥有统计学上显著的共引指数(p-值<0.05)。辅酶A的情况类似，其中三个预测具有统计学上显著的共引指数。

我们发现，我们数据集中所有药物共34个预测靶点拥有统计学上显著(p-值<0.05)的共引指数。对数据集中所有药物的前10个预测靶点来说，平均序列相似性分数的范围是80-87％，平均RMSD的范围是

79个组织中，mRNA表达谱的平均匹配数是72-76，最终平均分数是0.45-0.56。这些结果表明，我们的方法可以识别与已知药物靶点具有较高结构(结合位点)和系统水平相似性的新型蛋白质。

体外结合实验验证

为了提供iDTP性能的实验评价，我们选择对辅酶A(CoA)的预测靶点进行试验，因为在我们的数据集中，这种化合物的已知结合蛋白质数量最少，从而定义好的PPE(表1)最少。我们采用多个体外结合实验来试验iDTP预测的前两个匹配片段的结合位点和亲和力，即过氧化物酶体增殖物激活受体γ(PPARγ)和B-细胞淋巴瘤2(Bcl-2)。

PPARγ是调节许多生物功能，包括脂肪形成和细胞分化的核激素受体。其调节异常会引发糖尿病和肥胖症[39]。人PPARγ配体结合阈(LBD)(hPPARγ-LBD)与CoA的相互作用是我们最具前景的预测之一，因为这种相互作用拥有较高iDTP分数和统计学上显著的共引指数(SI表3)。iDTP预测与CoA结合的口袋与该受体的已知配体结合位点重叠。为了体外试验这种预测，我们首先采用差示扫描荧光法(DSF)来测定hPPARγ-LBD在CoA或罗格列酮不存在或存在情况下的熔解温度(Tm)，罗格列酮是一种抗糖尿病药物，已知作为hPPARγ-LBD的配体(图2(a)和SI表4)。7摩尔过量罗格列酮表现出具有保护作用，因为与载脂蛋白相比，它将hPPARγ-LBD的Tm提高了2℃。相反，同样用量的CoA表现出不稳定效应，与载脂蛋白相比，它将hPPARγ-LBD的Tm降低了0.8℃，表明其与hPPARγ-LBD之间具有直接相互作用。

接下来，我们采用荧光各向异性(FA)来表征hPPARγ-LBD及其天然同类蛋白质与CoA结合的相互作用。我们测定了hPPARγ-LBD和荧光素标记肽之间的解缔常数(Kd)，荧光素标记肽源自辅激活蛋白(PGC1)和两种辅阻遏蛋白(NCoR和SMRT)。这些实验在没有CoA存在下或不断增加的摩尔过量CoA存在下或参考hPPARγ-LBD激动剂罗格列酮存在下或拮抗剂CD5477存在下进行[40]。如果配体的摩尔过量数不断增加对荧光标记辅激活剂/辅阻遏物Kd的影响不断增加，则我们能够推断出配体结合，因为配体干扰与辅激活剂或辅阻遏物的结合。还可以推断出配体-hPPARγ-LBD相互作用的性质：激动剂配体将增强与辅激活剂的结合，并降低与辅阻遏物的结合；反向激动剂将相反；中性拮抗剂将降低辅激活剂的结合及辅阻遏物的结合。因此，加入2至10摩尔过量激动剂罗格列酮hPPARγ-LBD提高了hPPARγ-LBD与辅激活剂PGC1的亲和力(图3(a)和(b)，SI表5)。相反，2摩尔过量拮抗剂CD5577降低了hPPARγ-LBD与辅激活剂PGC1的亲和力(图3(a)和(b)，SI表5)。加入2至10摩尔过量CoA降低了hPPARγ-LBD与辅激活剂PGC1的亲和力(图2(b))及与辅阻遏物NCoR和SMRT的亲和力(图3(c)和(d)，SI表5)。总的来说，我们的实验确认了CoA和hPPARγ-LBD之间的直接作用，其中CoA表现为中性拮抗剂。从其与已知配体的竞争效力来看，及从hPPARγ-LBD的剂量-相关稳定化来看，我们估计Kd小于500uM。

我们还试验了CoA与重组Bcl-2的直接结合情况(参见支持信息文件PredTargets)。Bcl-2是调节细胞死亡的调节蛋白Bcl-2家族最早发现的成员，是一种非常重要的抗凋亡蛋白，并被归为致癌基因。采用差示静态光散射(DSLS)，我们观察到0.5mg/mlapo-Bcl-2的聚集温度T_agg是～57℃。400nM已知配体Bax-BH3将T_agg大幅提高到67℃，而1uM乱序LD4肽(作为阴性对照)并不会改变T_agg。CoA浓度提高会将Bcl-2的T_agg提高到62℃，表明具有直接作用(图4(a)和(b)，SI表6)。然后，我们通过在CoA浓度不断增加的条件下测定Bcl-2的固有色氨酸荧光猝灭，确定CoA:Bcl-2相互作用的K_d是0.38mM(图4(c)和(d))。相比之下，Bax-BH3肽，而不是乱序LD4肽，在猝灭Bcl-2荧光方面的效果强烈得多(图4(d))。事实上，在使用条件下，采用FA，荧光标记Bax-BH3肽的Bcl-2亲和力是128±21nM(图5(a))。采用iDTP预测的CoA结合口袋位于Bax-BH结合位点附近，不存在明显重叠(图5(b))。因此，预期CoA的存在并不会置换结合Bax-BH3。事实上，在400nM Bcl-2存在下，即使4.7mM CoA也并不会降低Bax-BH3的FA(浓度是20nM，比CoA低235000倍)，表明这两种配体都占据了非-重叠结合位点(图7)。因此，我们的体外结合实验有力地支持了我们的计算结合预测。

讨论

在此项研究中，我们建立了从蛋白质药物结合位点提取隐含结构标签的计算方法，用于构建PPE。我们证明，PPE能够可靠地识别几种药物的已知靶点。PPE与作为结构－相关信息正交源的aDDP结合。得到的方法，iDTP，能够大规模预测这些药物的新靶点。我们表明，可以采用药物：蛋白质复合物少达一种结构和其它已知药物-结合蛋白质的一组载脂蛋白结构来构建PPE。利用序列次序-无关比对，构建药物结合位点的结构标签，并利用概率评分函数建立药物-蛋白质相互作用模型，允许保存弱但明显的模式出现和对其进行定量。

我们的集成方法的预测能力得到了计算交叉验证和文本挖掘的支持。此外，我们通过体外实验对我们的两种预测相互作用进行了验证。首先，我们表明，CoA确实与hPPARγ-LBD结合，表观Kd小于500uM。据预测，hPPARγ-LBD上的CoA结合位点是受体的配体结合口袋，该结合口袋还与罗格列酮和CD5477结合。事实上，我们观察到CoA具有中性拮抗剂的特点，强烈表明正如预测的那样，CoA与配体结合口袋结合。因此，CoA可以引发构象变化，破坏或扰乱辅激活剂/辅阻遏物的结合表面，解释了药物的中性拮抗剂性质。当然，我们目前的数据无法严格排除CoA与辅激活剂/辅阻遏物通常结合的表面结合，在该结合位点形成竞争。

但是，hPPARγ的配体-结合口袋是核受体蛋白家族中最大的口袋之一[41]，允许hPPARγ与各种配体结合，进一步支持了预测的作用方式。CoA是普遍存在的辅因子，根据细胞类型和亚细胞定位，它在真核生物中的浓度可以达到很高(动物胞液、过氧化物酶体和线粒体中CoA的浓度分别是～0.14、0.7和5mM[42])。因此，这种预测的相互作用在脂肪酸信号传导和代谢中起着目前人们未认识到的生物作用，这是可能的。

其次，我们表明，正如预测的那样，CoA还与重组Bcl-2体外结合，Kd是大约350uM。据预测，Bcl-2上的CoA结合口袋位于Bax-BH3已知结合位点附近。事实上，我们可以表明，CoA与Bcl-2结合，并没有置换Bax-BH3，推断其为非-竞争性结合。对药物设计目的来说，CoA独特的预测结合口袋非常有趣，因为它位于研究充分的Bax-BH3结合口袋附近[43]，因此，可能提供具有协同效应的替代靶点。

除验证我们的计算预测之外，我们的体外实验还表明了iDTP在各种应用中的作用：CoA：hPPARγ的情况表明iDTP可以如何用于显示小分子(配体、辅因子或代谢物)与细胞蛋白质之间的生物相关作用。因此，我们的方法可以帮助建立大规模代谢分析的代谢物-蛋白质对，或预测化学小分子污染物(如双酚)的可能靶点。CoA:Bcl-2的情况可能表明，通过表明可能的先导化合物和新型可成药蛋白质结合口袋，iDTP可用于药物发现。

例如，我们的结果表明(支持信息文件PredTargets)，甲酸与CYP2E1结合(采用甲酸的PPE，序列相似性81％，RMSD为0.65°A，79个组织中，75个组织的mRNA表达匹配，总分数0.53)。CYP2E1是一种酶，已知与70多种小药物和外源化合物作用[44]。已经表明，加入CYP2E1会在小鼠模型中导致氧化应激和醇诱导的肝损伤[45,46]。水溶性维生素E(Trolox)[6-羟基-2,5,7,8-四甲基苯并二氢吡喃-2-羧酸]是一种包含甲酸结构的药物，已经表明，它可以降低上面提到的毒性[47,48]。因此，我们的结果表明了水溶性维生素E的甲酸单元与CYP2E1之间的直接作用，导致毒性降低。

为了进一步评价iDTP在药物用途方面的作用，我们利用OMIM[49]和HGMD[50]数据库，识别了与每种药物预测靶点蛋白质有关的遗传疾病。对17种预测的药物：靶点(包括CoA：hPPARγ)配对来说，我们发现，这些分子之间具有统计学上显著性高(p-值<0.005)的共引指数，预测靶点与人类重大疾病，如癌症、心脏功能障碍、代谢紊乱(SI表3)有关，表明了采用这些结果作为药物发现和药物重新定位的机会。但是，从严格意义上说，因为构建高置信度PPE需要相对较大的已知靶点3D结构集，因此，目前iDTP用于药物重新定位仍然受到限制。

计算机识别新药物-靶点对的挑战吸引了计算机社区的浓厚兴趣。据我们所知，之前没有任何研究利用了序列次序-无关比对和概率评分函数组合来构建药物-蛋白质相互作用模型或采用近似药物释放曲线来筛选出假阳性预测。

在之前大多数研究中，人们并未对其预测药物已知靶点的方法的表现进行评价，而且为了成功率，采用的是明显不同的数据集和定义。因此，无法对这些方法直接进行比较。但是，可以对其方法的优点和局限性进行评论。

现有方法具有以下一种或多种局限性：(i)据人们所知，它们的药物规格、复杂性及药物结合位点的扩展性很差[51]。(ii)这些方法并不能合适地解释药物和结合位点残基的不同构象，(iii)由于很难获得药物治疗前和/或后不同组织的分子活性曲线，因此，它们受到阻碍。我们的方法从一组结合位点而非单个结合位点构建结构标签，并且采用概率序列相似性函数，从而可以解释药物和结合位点残基的不同构象(与两两比对相比，这一点与多序列比对预期的改进类似)，消除了这些方法的大多数缺点。我们的方法还集成了近似药物释放曲线，从而能够识别相关新靶点。

我们的方法可能导致对现有药物重新定位，用于治疗新疾病，从而加快药物发现过程及大幅降低其成本。由于我们的方法能够识别脱靶结合位点，我们预期我们的方法还将帮助更好地了解目前药物引起的副作用和毒性。采用现有图形方法，脱靶结合可映射每种药物的副作用。更全面地了解副作用将帮助我们鉴定安全的药物组合。

材料和方法

数据集

我们从3版Drugbank数据库提取批准药物和实验药物。在此研究中，我们采用药物:蛋白质复合物拥有至少一个3D结构、已知药物靶点超过40个且药物靶点拥有已揭示载脂蛋白结构的所有药物。

但是，原则上，30种载脂蛋白结构和一种复合结构应该足够了。我们预期我们的方法可用于公共数据库内没有其信息的数量更多的药物。

蛋白质结构平均拥有30多个口袋(有些结构拥有>100个口袋)，大多数蛋白质-小分子相互作用发生在最大的三个口袋内[32-34]。参与蛋白质-小分子相互作用的典型口袋(亦称为可成药口袋)具有特色溶剂可接近口袋表面积

[28]和口袋体积

[53]。我们假设拥有最少数量非-可成药口袋和没有可成药口袋的蛋白质结构不可能与药物相互作用。在此项研究中，我们从CASTp数据库内提取口袋少于3个的蛋白质结构来构成负面数据集。采用PISCES网络服务器开展冗余缩减之后[54](<60％两两序列同源性)，清除NMR结构、拥有共结晶DNA、RNA或配体的结构(排除Zn²⁺、Cl^-离子等)，及拥有可成药口袋的结构，我们采用POPS方法，提取了剩余蛋白质结构的表面残基(>70％溶剂可接近表面积)。将这些表面残基与数据集中所有药物的PPE进行比对，测定其特异性。我们的负面数据集共含63种蛋白质结构(PDB id的详细名单可在支持信息文件NegDataset中找到)。

构建随机口袋集合

识别数据集中每种药物的药物：靶点复合结构之后，我们利用CASTp网络服务器，提取了蛋白质结构中与药物结合的口袋。我们将其称为“结合口袋”。为了识别已知药物靶点载脂蛋白结构中药物的结合位点，我们从其各自3D结构的第一条链提取最大的三个口袋。我们利用序列次序-无关比对，选择与“结合口袋”最相似的口袋。

Dundas等已经建立了一种构建酶结合口袋结构标签的方法[29]。他们的方法要求高质量、手工审核酶结合位点，并不适合高通量研究。我们修改了Dundas等描述的方法，并采用最少手工审核结合位点(大多数情况下是一个)，构建每种药物的概率口袋集合。为了从结合口袋集提取共同的结构特征，理想的情况是需要采用多结构比对法。但是，目前不存在可以处理我们数据集的此类方法。

因此，按照Dundas等所述，我们采用表面口袋的两两序列次序-无关结构比对法和分层聚类法来提取共同的结构特征[29]。但是，Dundas等构建了与层次树预定特殊水平处不同配体/配体结合位点构象对应的几种结构标签。在大多数情况下，识别这种界限值并非没有价值，并且需要掌握有关配体/配体结合位点不同构象的专业知识。相反，我们在树的根部构建了结构标签。因此，结构标签(或“概率序列相似性”)是一个以上独特口袋(与层次树中不同分支对应)的集合。PPE中每个位置的保存比(特定原子在口袋基础组存在的次数[29])至少是0.5。为了实现极简集合和减少计算时间，如果PPE中原子数大于110，我们将保存比界限值提高到0.6。

为了目前实施的iDTP，每种药物采用大约30种载脂蛋白-结构来计算高置信度PPE。但是，一方面，将来方法改进预期将会大幅减少这一数量。例如，目前建立PPE涉及从口袋之间的两两序列相似性得到树。采用广泛接受的方法，这种树可以用系统树代替，应该可以大幅减少所需载脂蛋白结构的数量[29]。另一方面，由于越来越多的制药公司发布其数据供公开访问(http://www.forbes.com/sites/danmunro/2014/04/08/big-pharma- opens-new-chapter-on-big-data-collaboration/)，科学界提供的3D结构和结合数据不断增加，预期越来越多的药物满足iDTP的要求。对特定的药物来说，很容易将各药物结合/作用必须的更严格的原子保存比纳入到我们的方法中。

计算概率口袋集合的距离

结构标签中的每个位置可能被不止一种类型的原子(残基)占据。因此，我们制定了概率距离函数来纳入这种性质。该距离函数拥有结构分量和序列分量。结构分量遵照Dundas等的方法，而序列分量基于最大可能性。

分数＝结构相似性+α*(1-序列相似性)

序列分数＝∑_i(AtomFreq_i+Re sFreq_i)

最佳序列分数＝∑_i(MaxAtomFreq_i+Max Re sFreq_i)

其中按照Dundas等所述[29]，α值设定为1.2，RMSD是比对后的均方根距离，N是比对位置数量，AtomFreq_i/ResFreq_i是位置i处比对原子/残基的频率，MaxAtomFreq_i/MaxResFreq_i是位置i处任何原子/残基的最高频率，求和是针对所有比对位置求和。例如，如果由C、C、C、O、N原子和A、A、Y、Y、Y残基组成的结构标签位置与原子C和残基A比对，则序列分数将是1(0.6+0.4＝1)，最佳序列分数将是1.2(0.6+0.6＝1.2)，序列相似性是0.83(1/1.2)。在此研究中，针对12-15个原子的序列次序-无关比对，采用的经验距离界限值是0.85，映射RMSD是

序列相似性是60％。比对还应包含至少5个原子。

PPE的交叉验证

我们采用交叉验证(已知靶点数小于100的药物采用5-倍交叉验证，已知靶点数大于100的药物采用3-倍交叉验证)来评价每种药物的PPE是否捕捉到药物-蛋白质作用的基本特征。每种药物的已知靶点随机分成5个(或3个)等集。4(或2)个集用于建立PPE，并对第5(或第3)个集进行预测。每种药物重复此程序5次(或3次)。

集成近似药物释放曲线(aDDP)

将Su等[36]提出的79种人体组织已知药物靶点的mRNA表达进行平均，近似得到每种药物的aDDP。利用Uniprot ID映射服务[56]，我们将每种药物靶点结构与基因名称对应。然后，在Su等[36]编辑的组织表达数据集中搜索该基因。在蛋白质结构映射不止一种基因时，采用所有映射基因的平均表达。我们根据mRNA表达的经验界限值(<300、<1000、≥1000)，将79种人类组织中的表达归为三类(低、中和高)。如下文所述，在距离函数中包括药物靶点组织表达，对新的药物靶点名单重新排序：

分数＝结构相似性+α*(1-序列相似性)+β*组织表达

式中β根据经验设定为0.4。如果Su等编辑的数据集中不存在该基因，我们将β*组织表达设定为0.2。由于前10个预测靶点在其mRNA表达谱和估计药物释放曲线之间几乎完美匹配，我们的方法对具体β值并不敏感。

蛋白质表达和纯化

之前已经有人对人PPARγ(氨基酸Glul96-Tyr477)配体结合域(LBD)的表达和纯化进行了描述。嵌合人Bcl-2(内环51-91被删除，残基35-50被小鼠Bcl-X_L的残基33-48代替)的序列、制备和纯化如[43]中所述。

配体和肽

用于hPPARγ结合试验的BRL49653(罗格列酮)和辅酶A购自西格玛奥德里奇公司(Sigma-Aldrich)(法国St Quentin Fallavier)。分别与PGC1-NR2、NCoR-RID2和SMRT-RID2对应的荧光标记肽FITC-EEPSLLKKLLLAPA、FITC-DPASNLGLEDIIRKALMGSFD和FITC-TNMGLEAIIRKALMGKYDQWEE购自EZbiolab公司(美国印第安那州Westfield)。为了研究Bcl-2的作用，与Bax-BH3(Bcl-2的已知配体)对应的荧光-标记肽QDASTKKLSECLRRIGDELDSNMELQRMIAD，及乱序LD4肽(LSDAMETSSLRDALE，Bcl-2配体LD4的乱序版本，[58])购自GenscriptUSA公司。辅酶A(CoA)购自Calbiochem公司(英国VWR)。

差示扫描荧光法(DSF；

)

该方法根据变性形式蛋白质的荧光检测，测定蛋白质的去折叠[59]。在96-孔PCR板的孔内，加入15uL含5uM hPPARγLBD、不同摩尔过量配体(罗格列酮、辅酶A或CD5477)的溶液，加入50mM Tris pH 8.0中的IX

Orange，及200mM NaCl。最终DMSO的浓度不超过5％，且对数据没有任何影响。用光学密封带(Bio-Rad)将多孔板密封好，并在Mx3005P Q-PCR系统(Stratagene)中以1℃间隔从25℃加热到95℃。采用光电倍增管，监测孔内荧光变化。激发波长和发射波长分别是545nm和568nm。利用GraphPad Prism软件，将荧光数据与Boltzmann模型拟合，得到熔解温度Tm。报告的数据是各实验的平均值，误差条对应标准偏差。

差示静态光散射(DSLS)

Stargazer系统(Harbinger Biotechnology and Engineering Corporation,Markham,加拿大)测定的DSLS用于评价不存在或存在CoA条件下Bcl-2及对照配体的热稳定性。DSLS测定特异性聚集温度T_agg，在此温度下，因加热变性，蛋白质聚集。因此，DSLS提供蛋白质的热稳定性数据，预期这种热稳定性在配体存在时会发生变化。将0.5mg/mL Bcl-2用矿物油覆盖，放在透明底384-孔黑板(Corning)上，以1℃/min从20℃加热到85℃，采用CCD相机，每隔0.5℃检测无CoA或不同浓度CoA存在时的光散热，得到特定CoA浓度时载脂蛋白Bcl-2的聚集温度差△T_agg。将数据进行归一化，并将△T_agg对照CoA浓度作图，计算Kd值。得到的数据采用结合饱和单位点模型(GraphPad)拟合。

荧光各向异性测定

采用Safire2酶标仪(TECAN)，在配体存在或不存在条件下测定hPPARγLBD的荧光肽结合亲和力。对于荧光标记肽来说，激发波长设定在470nm，在530nm测定发射。报告的数据是各实验的平均值，误差条对应标准偏差。试验用缓冲溶液是20mM Tris-HCl pH 7.5、150mM NaCl、1mM EDTA、5mM二硫苏糖醇和10％(v/v)甘油。测定在40uM蛋白质开始，然后用缓冲溶液按因数2连续稀释样品，直到最低蛋白质浓度达到9.7nM。将荧光肽加入到4nM蛋白质样品中，建立滴定曲线。加入配体的最终浓度是80uM。采用美国Photon TechnologiesInternational的荧光分光计测定荧光标记Bax-BH3肽与Bcl-2的结合亲和力。荧光标记肽的激发波长是490nm，发射在520nm测定。该肽的Kd值采用单结合位点模型拟合。

采用20nM Bax-BH3肽和400nM Bcl-2开展竞争性实验。监测浓度5mM以下CoA的荧光各向异性。

固有色氨酸荧光猝灭结合分析

Bcl-2色氨酸在280nM激发，在320nM测定发射强度。测定之前，采用CoA不同稀释液培养10μM Bcl-210分钟。采用96孔板PheraStar荧光酶标仪，监测发射的荧光。当其与配体结合时，蛋白质构象发生变化，导致色氨酸荧光发生变化，记录和分析荧光强度之差。对数据进行归一化，并采用GraphPad，与结合-饱和单位点模型拟合，计算Kd值。

致谢

此项研究得到阿卜杜拉国王科技大学资助(KAUST)。

本发明背景技术、具体实施方式和实例1的参考文献

1.Reddy，A.&Zhang，S.Polypharmacology：drug discovery for thefuture.Expert Rev.Clin.Pharmacol.6，41-47(2013).

2.Arrowsmith，J.Trial watch：phase III and submission failures：2007-2010.Nat.Rev.Drug Discov.10，87(2011).

3.Arrowsmith，J.Trial watch：Phase II failures：2008-2010.Nat.Rev.DrugDiscov.10，328-329(2011).

4.Liebler，D.&Guengerich，F.Elucidating mechanisms of drug-inducedtoxicity.Nat.Rev.Drug Discov.4，410-420(2005).

5.Mestres，J.，Gregori-Puigjane，E.，Valverde，S.&Sole R.The topology ofdrug-target interaction networks：implicit dependence on drug properties andtarget families.Mol.Biosyst.5，1051-1057(2009).

6.Lounkine，E.et al.Large-scale prediction and testing of drugactivity on side-effect targets.Nature 486，361-367(2012).

7.Peters，J.Polypharmacology-foe or friend？J.Med.Chem.56，g955-8971(2013).

8.Ashbum，T.&Thor，K.Drug repositioning：identifying and developing newuses for existing drugs.Nat.Rev.Drug Discov.3，673-683(2004).

9.Kinnings，S.et al.Drug discovery using chemical systems biology：repositioning the safe medicine comtan to treat multi-drug and extensivelydrug resistant tuberculosis.PLoS Comput.Biol.5，e1000423(2009).

10.Engin，H.，Keskin，O.，Nussinov，R.&Gursoy，A.A strategy based onprotein-protein interface motifs may help in identifying drug off-targets.J.Chem.Inf.Model.52，2273-2286(2012).

11.Chang，R.，Xie，L.，Xie，L.,Bourne，P.&Palsson，B.Drug off-target effectspredicted using structural analysis in the context of a metabolic networkmodel.PLoS Comput.Biol.6，e1000938(2010).

12.Li，Y.Y.，An，J.&Jones，S.J.M.A computational approach to findingnovel targets for existing drugs.PLoS Comput.Biol.7(9)，e1002139(2011).

13.Iorio，F.et al.Discovery of drug mode of action and drugrepositioning from transcriptional responses.Proc.Natl.Acad.Sci U S A 107，14621-14626(2010).

14.Wei，G.et al.Gene expression-based chemical genomics identifiesrapamycin as a modulator of MCL1 and glucocorticoid resistance.Cancer Cell10，331-342(2006).

15.Chen，B.，Wild，D.&Guha，R.Pubchem as a source of polypharmacology.J.Chem.Inf.Model.49，2044-2055(2009).

16.Hu，G.&Agarwal，P.Human disease-drug network based on genomicexpression profiles.PLoS One 4，e6536(2009).

17.Suthram，S.et al.Network-based elucidation of human diseasesimilarities reveals common functional modules enriched for pluripotent drugtargets.PLoS Comput.Biol.6，e1000662(2010).

18.Emig，D.et al.Drug target prediction and repositioning using anintegrated network-based approach.PLoS One 8(4)，e60618(2013).

19.Lamb，J.et al.The connectivity map：using gene-expression signaturesto connect small molecules，genes，and disease.Science 313，1929-1935(2006).

20.Keiser，M.et al.Predicting new molecular targets for knowndrugs.Nature 462，175-181(2009).

21.Noeske，T.et al.Predicting compound selectivity by self-organizingmaps：cross-activities ofmetabotropic glutamate receptorantagonists.ChemMedChem 1，1066-1068(2006).

22.Qu，X.，Gudivada，R.，Jegga，A.，Neumann，E.&Aronow，B.Inferring noveldisease indications for known drugs by semantically linking drug action anddisease mechanism relationships.BMC Bioinformatics 10，Suppl 5：S4(2009).

23.Campillos，M.，Kuhn，M.，Gavin，A.，Jensen，L.&Bork，P.Drug targetidentification using side-effect similarity.Science 321，263-266(2008).

24.Sanseau，P.et al.Use of genome-wide association studies for drugrepositioning.Nat.Biotechnol.30，317-320(2012).

25.Wang，Z.&Zhang，H.Rational drug repositioning by medicalgenetics.Nat.Biotechnol.31，1080-1082(2013).

26.Gottlieb，A.，Stein，G.Y.，Ruppin，E.&Sharan，R.PREDICT：a method forinferring novel drug indications with application to personalizedmedicine.Mol.Sys.Biol.7，496(2011).

27.Napolitano，F.et al.Drug repositioning：a machine-learning approachthrough data integration.J.Cheminform.5，30(2013).

28.Gao，M.&Skolnick，J.A comprehensive survey of small-molecule bindingpockets in proteins.PLoS Comput.Biol.9，e1003302(2013).

29.Dundas，J.，Adamian，L.&Liang，J.Structural signatures of enzymebinding pockets from order-independent surface alignment:a study ofmetalloendopeptidase and NAD binding proteins.J.Mol.Biol.406，713-729(2011).

30.Tseng，Y.&Liang，J.Estimation of amino acid residue substitutionrates at local spatial regions and application in protein function inference：a bayesian monte carlo approach.Mol.Biol.Evol.23，421-436(2006).

31.Dundas，J.et al.CASTp：computed atlas of surface topography ofproteins with structural and topographicalmapping of functionally annotatedresidues.Nucleic Acids Res.34，W116-8(2006).

32.Huang，B.D.&Schroeder，M.LIGSITEcsc：predicting ligand binding sitesusing the Connolly surface and degree of conservation.BMC Struct.Biol.6，19(2006).

33.Brady，G.Jr&Stouten，P.Fast prediction and visualization of proteinbinding pockets with PASS.J.Comput.Aided Mol.Des.14，383-401(2000).

34.Peters，K.，Fauck，J.&Frommel，C.The automatic search for ligandbinding sites in proteins of known three-dimensional structure using onlygeometric criteria.J.Mol.Biol.256，201-213(1996).

35.Watson，J.，Laskowski，R.&Thornton，J.Predicting protein function fromsequence and structural data.Curr.Opin.Struct.Biol.15，275-284(2005).

36.Su，A.et al.A gene atlas of the mouse and human protein-encodingtranscriptomes.Proc Natl.Acad.Sci.USA 101，6062-6067(2004).

37.Jansen，R.，Greenbaum，D.&Gerstein，M.Relating whole-genome expressiondata with protein-protein interactions.Genome Res.12，37-46(2002).

38.Qiao，N.，Huang，Y.，Naveed，H.，Green，C.，Han，J.Cociter：an efficienttool to infer gene function by assessing the significance of literature co-citation.PLoS One 8：e74074(2013).

39.Swedenborg，E.，Ruegg，J.，Makela，S.&Pongratz，I.Endocrine disruptivechemicals：mechanisms of action and involvement in metabolic disorders，J.Mol.Endocrinol.43(1)，1-10(2009).

40.Le Maire et al.Activation of RXR-PPAR heterodimers by organotinenvironmental endocrine disruptors.EMBO Rep.10(4)，367-73(2009).

41.Li，Y.，Lambert，M.H.&Xu，H.E.Activation of nuclear receptors:aperspective from structural genomics.Structure 11(7)，741-6(2003).

42.Leonardi，R.，Zhang，Y-M.，Rock，C.O.&Jackowski，S.Coenzyme A：Back inaction.Progress in Lipid Res.44(2-3)，125-153(2005).

43.Ku，B.，Liang，C.，Jung，J.U.&Oh，B.H.Evidence that inhibition of BAXactivation by BCL-2 involves its tight and preferential interaction with theBH3 domain of BAX.Cell Res.21，627-641(2011).

44.Ogu，C.&Maxa，J.Drug interactions due to cytochrome p450.Proc.(Bayl.Univ.Med.Cent.)13，421-423(2000).

45.McGehee，R.Jr，Ronis，M.，Cowherd，R.，Ingelman-Sundberg，M.&Badger，T.Characterization of cytochrome p450 2e1 induction in a rat hepatoma FGC-4cell model by ethanol.Biochem.Pharmacol.48，1823-1833(1994).

46.Nanji，A.et al.Markedly enhanced cytochrome p450 2e1 induction andlipid peroxidation is associated with severe liver injury in fish oil-ethanol-fed rats.Alcohol Clin.Exp.Res.18，1280-1285(1994).

47.Wu，D.&Cederbaum，A.Ethanol and arachidonic acid produce toxicity inhepatocytes from pyrazole-treated rats with high levels of CYP2E1.Mol.CellBiochem.204，157-167(2000).

48.Wu，D.&Cederbaum，A.Cyclosporine a protects against arachidonic acidtoxicity in rat hepatocytes:role of CYP2E1 and mitochondria.Hepatology 35，1420-1430(2002).

49.Hamosh，A.，Scott，A.，Amberger，J.，Valle，D.&McKusick，V.Onlinemendelian inheritance in man(OMIM).Hum.Mutat.15，57-61(2000).

50.Stenson，P.et al.The human gene mutation database:building acomprehensive mutation repository for clinical and molecular genetics,diagnostic testing and personalized genomic medicine.Hum.Genet.133，1-9(2014).

51.Diller，D.&Li，R.Kinases，homology models，and high throughputdocking，J.Meal.Chem.46，4638-4647(2003).

52.Knox，C.et al.Drugbank 3.0：a comprehensive resource for’omics’research on drugs.Nucleic Acids Res.39，D1035-41(2011).

53.Pérot，S.，Sperandio，O.，Miteva，M.A.，Camproux，A.C.&Villoutreix，B.O.Druggable pockets and binding site centric chemical space：a paradigmshift in drug discovery.Drug Disc.Today 15，656-667(2010).

54.Wang，G.&Dunbrack，R.Jr.PISCES：a protein sequence cullingserver.Bioinformatics 19，1589-1591(2003).

55.Cavallo，L.，Kleinjung，J.&Fraternali，F.POPS：A fast algorithm forsolvent accessible surface areas at atomic and residue level.Nucleic AcidsRes.31，3364-3366(2003).

56.Wu，C.et al.The universal protein resource(uniprot)：an expandinguniverse of protein information.Nucleic Acids Res.34，D187-91(2006).

57.Riu，A.et al.Peroxisome proliferator-activated receptorγis atarget for halogenated analogs ofbisphenol A.Environ.Health Perspect.119(9)，1227-32(2011).

58.Sheibani，N.，Tang，Y.&Sorenson，C.M.Paxillin’s LD4motif interactswith bcl-2.J.Cell.Physiol.214，655-661(2008).

59.Pantoliano，M.W.et al.High-Density Miniaturized Thermal ShiftAssays as a General Strategy for Drug Discovery.J.Biomol.Screen.6(6)，429-440(2001).

实例2

PPE和概率评分函数的评估

为了研究PPE检索结构上类似药物结合口袋的能力，我们对2′-单磷酸腺苷5′-二磷酸核糖结合的蛋白质口袋与该化合物前10个预测靶点的预测结合口袋进行比较。我们的序列次序-无关比对与这10个预测靶点重叠，该构建药物PPE的平均归一化RMSD是

(比对包含＞4个原子)。相反，采用序列次序-相关结构比对，仅2个预测口袋(PDB id 2BXP和3ELM内)与建立的药物口袋一致，平均归一化RMSD是

同样，采用序列次序-有关比对，前10个靶点平均与建立药物口袋的9.5个原子对齐，平均RMSD是

相比之下，采用PPE，平均对齐长度是12.4个原子，平均RMSD是

该结果表明，在识别新药物靶点方面，最简PPE与序列次序-无关比对的组合比完全结合口袋与序列次序-相关结构比对的组合更有用。

此外，为了确定概率序列相似性函数的有效性，我们将概率函数与Dundas等[29]采用的确定性相似性函数进行比较，发现采用确定性函数，2'-单磷酸腺苷5'-二磷酸核糖前10个预测新靶点的平均序列相似性是55％，相比之下，采用概率函数时是82％。这些观察结果表明，PPE能够提取捕捉与几个位点结合的药物及与几种药物结合的位点这些混杂过程(如Gao和Skolnick[28]所述)必须的有价值的序列和结构标签。大多数预测的新靶点空间上与各药物PPE的不同部分对齐(参见图6a-c)，表明PPE确实是几个口袋的集合，从而也许能够适应每种药物的不同构象异构体。这些结果表明，与以前的研究[29,30]相比，多种结构标签也许并非捕捉药物不同构象的最佳方法，正如本研究所示，这个问题可通过在结构标签中纳入概率评分函数有效地解决。此外，我们的方法并不需要掌握有关结合构象数量及从而掌握结构标签数量的专业知识。

2.集成药物释放曲线，减少假阳性

我们提取了mRNA组织表达谱与β-D-葡萄糖靶点的aDDP匹配的所有基因。我们发现其中99种基因满足上述标准。我们将99个基因分成3组，第一组由与β-D-葡萄糖的PPE比对时获得最佳序列和结构相似性分数的10个基因组成，第二组由与β-D-葡萄糖的PPE比对时获得最差序列和结构相似性分数的10个基因组成，第三组由前面两组及5个随机选择的基因组成。采用共引指数及其p-值，我们将前两组与β-D-葡萄糖iDTP做出的前10个预测进行比较，第三组与采用集成序列、结构和组织表达分数得到的β-D-葡萄糖前25个预测进行比较(SI表1)。我们发现，按照我们的标准，仅aDDP已经实现了可能靶点10-12％的富集，强有力地证明了其是有价值的鉴别方法。当aDDP与PPE结合时，具有统计学上显著共引指数的预测数高2-4倍(36-40％富集)。事实上，采用这种组合方法，β-D-葡萄糖前10个预测靶点(与任何已知药物靶点的序列相似性<60％)与β-D-葡萄糖的PPE非常匹配(SI表2)，正如平均序列相似性分数82％、RMSD为

79个组织中共有74个组织的mRNA表达谱匹配及总体最终平均分数0.51所反映的那样(与界限值0.85相比)。

实例2的参考文献

60.Dundas，J.，Adamian，L.&Liang，J.Structural signatures of enzymebinding pockets from order-independent surface alignment：a study ofmetalloendopeptidase and NAD binding proteins.J.Mol.Biol.406，713-729(2011).

61.Gao，M.&Skolnick，J.A comprehensive survey of small-molecule bindingpockets in proteins.PLoS Comput.Biol.9，e1003302(2013).

62.Tseng，Y.&Liang，J.Estimation of amino acid residue substitutionrates at local spatial regions and application in protein function inference：a bayesian monte carlo approach.Mol.Biol.Evol.23，421-436(2006).

SI表1.仅利用组织表达数据开展预测及利用序列、结构和表达数据开展预测的共引对比。我们将mRNA组织表达谱与β-D-葡萄糖靶点的aDDP准确匹配的99个基因分成3组，第一组由与β-D-葡萄糖的PPE比对时获得最佳序列和结构相似性分数的10个基因组成，第二组由与β-D-葡萄糖的PPE比对时获得最差序列和结构相似性分数的10个基因组成，第三组由前面两组及5个随机选择的基因组成。根据共引，我们发现仅aDDP已经实现了可能靶点10-20％的富集，强有力地证明了其是有价值的鉴别方法。当aDDP与PPE结合时，具有统计学上显著共引指数的预测数高2-4倍(36-40％富集)。

SI表2β-D-葡萄糖前10个预测靶点基因。β-D-葡萄糖的前10个预测靶点基因、其PDB ID、其序列相似性分数、结构相似性分数(RMSD)、表达相似性分数、组合距离分数、共引指数、相关p-值、摘要中同时有药物和基因名称的研究论文的数量。

SI表3.药物-预测靶点–疾病关系发现共引指数统计学上显著的(p-值<0.005)预测靶点、与这些基因相关的疾病及用于发现药物和预测基因之间关系的关键词。

SI表4.hPPARγ-LBD的熔解温度(Tm)在不同摩尔过量罗格列酮(Rosiglitazone)或辅酶A存在下，根据hPPARγ-LBD的热变性曲线计算熔解温度(Tm)。罗格列酮显示出热变性保护效应(Tm升高)，辅酶A与此相反，Tm降低。

实例3

全新药物发现

对于新药物，可以遵照下述协议使用我们的方法。

1.可以从通常观察的蛋白质靶点名单中识别潜在结合配偶体(binding partner)(例如，Nature Reviews Drug Discovery 5,821-834(October 2006))。

2.为了测试可溶药物与重组获得足够数量的初始名单蛋白质的结合，我们可以利用等温滴定量热法实验或表面等离子共振。对于不容易获得的蛋白质，或需要特殊溶剂(如DMSO)的药物，我们可以采用微量热泳动或差示扫描荧光法。许多已知蛋白质药物靶点很容易通过商业途径获得，许多表达质粒可以在非盈利性ADDGENE数据库中获得。

3.为了获得新药物与上述其中一种蛋白质的结合位点(拥有足够高的相互作用强度)，我们可以开展x-射线结晶研究。

4.一旦可以从x-射线晶体获取结合位点的信息及从步骤2了解了蛋白质靶点初始集，我们可以运行我们的算法，发现其它蛋白质靶点。

实例4

方法

数据集

我们从Drugbank(3版)数据库提取批准药物/实验药物。本研究选择使用11种药物，这些药物的药物-蛋白质复合物拥有至少一个3D结构、已知药物靶点超过40个且药物靶点拥有已揭示的载脂蛋白结构(表1)。在我们方法的计算机验证期间，在每种药物的已知靶点上开展5-倍交叉验证，以评价我们的方法在重新找到已知靶点方面效果有多好。例如，对于拥有40个已知靶点的药物来说，每个倍数仅32个结构用于构建PPE。当我们的方法用于预测新靶点时，所有已知靶点都用于构建药物PPE。因此，在此研究中，因为我们的实验涉及5-倍交叉验证，因此，我们的数据集包含拥有40个或40个以上已知靶点的药物。

在我们方法的实际使用中，30个已知靶点即足够。我们预期这一数值将来可以进一步减少。我们预期我们的方法也适合公共数据库中未详细列出的专有研究更大的药物集。

蛋白质结构平均拥有30多个口袋(有些结构拥有>100个口袋)，大多数蛋白质-小分子相互作用发生在最大的三个口袋内[32]。参与蛋白质-小分子相互作用的典型口袋(亦称为可成药口袋)具有特色溶剂可接近口袋表面积

[28]和口袋体积

[53]。我们假设拥有最少数量(即小于3个)非-可成药口袋和没有可成药口袋的蛋白质结构不可能与药物相互作用。我们从CASTp数据库内提取口袋少于3个的蛋白质结构来构成负面数据集[31]。采用PISCES网络服务器开展冗余缩减之后[55；54](<60％两两序列同源性)，我们采用POPS，提取了这些蛋白质结构的表面残基(>70％溶剂可接近表面积)。我们进一步删除NMR结构、拥有共结晶DNA、RNA或配体的结构(排除Zn²⁺、Cl^-离子等)，及拥有可成药口袋的结构。我们的负面数据集共包含63种蛋白质结构(PDB ID的详细名单在补充文件NEG数据集—SI表8中可以找到)。请注意，我们的负面数据集仍然包含口袋数小于3个的蛋白质结构。但是，如果这样的话，这些口袋没有一个可以成药。采用CPalign，将负面数据集中各结构的表面残基与该数据集中所有药物的PPE进行比对。然后，利用本发明定义的评分函数对这些比对进行评分。

理想的情况是，这些比对中的每个比对应具有差分(即高分)，因此，它们不会被预测为药物靶点。反之，当我们评价我们方法的特异性时，这些预测被计为假-阳性预测。

构建PPE

识别数据集中每种药物的药物-靶点复合物之后，我们利用CASTp网络服务器[31]，提取了蛋白质结构中与药物结合的口袋，我们称为“结合口袋”。为了识别已知药物靶点载脂蛋白结构中药物-结合位点，我们从其各自3D结构的第一条链提取最大的三个口袋。我们利用序列次序-无关比对，选择与结合口袋最相似的口袋[64；29]。Dundas等[29]已经建立了一种构建酶结合口袋结构标签的方法，所述方法要求高质量、手工审核酶结合位点，因此，并不适合高通量研究。但是，(除烟酰胺-腺嘌呤-二核苷酸，我们采用能够得到的两种结合结构之外)我们仅仅利用一个手工审核口袋，并预测其载脂蛋白(未结合)结构剩余靶点的结合口袋，从而构建每种药物的PPE，降低了这些要求。相反，Dundas等手动搜索了文献，查找对相互作用很重要的残基，并将它们映射到载脂蛋白结构上。PPE代表的是可能与药物几种构象结合的单个口袋的统一集合。

采用多结构比对法从结合口袋集提取共同的结构特征非常理想。但是，目前不存在可以处置我们数据集的此类方法，因此，我们按照Dundas等[29]所述，首先采用表面口袋的两两序列次序-无关结构比对法，然后，根据两序列相似性，采用分层聚类法。Dundas等构建了与层次树预定特殊水平处不同配体/配体结合位点构象对应的几种结构标签。在大多数情况下，识别这种界限值并非没有价值，并且需要掌握有关配体/配体结合位点不同构象的专业知识。相反，我们在树的根部构建了结构标签。层次树作为指南，沿从叶节点至根部的路径递归组合家族口袋。标签口袋计算为两个子(标签)口袋的平均值，两个源子节点用层次树上新的单个叶节点代替。

因此，结构标签是一个以上独特口袋(与层次树中不同分支对应)的集合。PPE中每个位置的保存比(特定原子在口袋基础组存在的次数)[29]至少是0.5。(在该位置比对后，每个原子至少在一半存在原子的结构中存在)。为了实现极简集合和减少计算时间，如果PPE中原子数大于110，我们将保存比界限值提高到0.6。对特定的药物来说，很容易将各药物结合作用必须的更严格的原子保存比纳入到我们的方法中。

计算PPE的距离

结构标签中的每个位置可能被不止一种类型的原子(残基)占据。因此，我们制定了概率距离函数来纳入这种性质。疑问蛋白质距已构建PPE的距离函数拥有结构分量和序列分量。结构分量遵照Dundas等的方法，而序列分量基于最大可能性。

iDTP:集成药物靶点预测方法

分数＝结构分数+α*序列分数

结构分数＝RMSD*N^(-1/3)

序列分数＝1-(序列相似性/最佳序列相似性)

序列相似性＝∑_i(AtomFreq_i+Re sFreq_i)

最佳序列相似性＝∑_i(MaxAtomFreq_i+Max Re sFreq_i)

其中按照Dundas等所述(2011)[29]，α值设定为1.2，RMSD是比对后的均方根距离，N是比对位置数量，AtomFreq_i/ResFreq_i是位置i处比对原子/残基的频率，MaxAtomFreq_i/MaxResFreq_i是位置i处任何原子/残基的最高频率，求和是针对所有比对位置求和。

在此研究中，针对12-15个原子的序列次序-无关比对，采用的经验距离界限值是0.85，映射RMSD是

口袋序列相似性是60％。比对还应包含至少5个原子。

集成aDDP

我们包括DDP近似值作为结构-无关信息的正交源。将Su等[36]提出的79种人体组织已知药物靶点的mRNA表达进行平均，计算每种药物的aDDP。利用Uniprot ID映射服务[56]，我们将每种药物靶点结构与基因名称对应，然后，在Su等[36]编辑的组织表达数据集中搜索基因。由于蛋白质结构映射不止一种基因，采用所有映射基因的平均表达。我们根据mRNA表达的经验界限值(分别是<300、<1000、＞1000)，将79种人类组织中的表达归为三类(低、中和高)。如下文所述，在距离函数中包括药物靶点组织表达，对新的药物靶点名单重新排序：

分数＝结构相似性+α*(1-序列相似性)+β*组织表达

组织表达＝1-(拥有匹配表达的组织数量/组织总数量)

式中β根据经验设定为0.4。如果Su等编辑的数据集中不存在该基因，我们将β*组织表达设定为0.2。我们的方法对0.3-0.5范围内β的具体数值并不敏感。β在区分真靶点和假靶点，及区分前景最佳和前景最差的靶点中起着十分重要的作用。但是，由于前10个预测靶点在其mRNA表达谱和估计药物释放曲线之间几乎完美匹配，β值在给前10靶点排名方面通常并不起重要作用。

体外实验设置

有关蛋白质表达和纯化的详细部分；配体和肽；差示扫描荧光法；差示静态光散热；荧光各向异性(FA)测定；及固有色氨酸荧光猝灭结合试验可在下面找到。

结果

概率口袋集合

本质混杂的药物可能与具有各种特征的不同蛋白质口袋结合，从而很难建立药物可能结合位点的通用描述。为了捕捉混杂药物基本的结合位点特征，我们建立了一种构建这种药物PPE的方法。PPE代表的是可能与药物几种构象结合的单个口袋的统一集合。PPE中的每个位置可以由来自不同残基的多个原子组成。记录每个位置处原子和残基的频率，并用于构建最大可能序列相似性评分函数。这种概率评分方法适当地考虑了药物可以与几个口袋结合及口袋可以与几种药物结合的事实[28]。甲酸、b-D-葡萄糖和和磷氨基膦酸-腺苷酸酯的PPE如图1所示，其中PPE中的每个位置由该最高频率原子标记。PPE代表的是可能与药物几种构象结合的单个口袋的统一集合。

PPE和概率评分函数的评估

为了研究PPE检索结构上类似药物-结合口袋的能力，我们采用序列-次序无关比对法及序列次序有关比对法将20-单磷酸腺苷50-二磷酸核糖结合的蛋白质口袋与该化合物前10个预测靶点的预测结合口袋进行比较。我们的结果表明，在识别新药物靶点方面，最简PPE与序列次序-无关比对的组合比完全结合口袋与序列次序-相关结构比对的组合更有用。此外，我们证明了概率相似性函数比Dundas等(2011)[29]采用的确定性相似性函数表现更好。PPE能够提取捕捉与几个位点结合的药物及与几种药物结合的位点这些混杂过程必须的有价值的序列和结构标签。大多数预测的靶点空间上与各药物PPE的不同部分对齐(参见图6a-c)，表明PPE确实是几个口袋的集合，从而也许能够适应每种药物的不同构象异构体。

这些结果表明，与以前的研究[29,30]相比，多种结构标签也许并非捕捉药物不同构象的最佳方法，但是，这个问题可通过在结构标签中纳入概率评分函数有效地解决。此外，我们的方法并不需要掌握有关结合构象数量或结构标签数量的专业知识。

接下来，我们采用交叉验证对每种药物PPE预测的靶点空间上是否与各药物PPE的不同部分对齐进行评价(参见图6a-c)，表明PPE确实是几种口袋的集合，因此，可以适应每种药物的不同构象。这些结果表明，与以前的研究[29,30]相比，多种结构标签也许并非捕捉药物不同构象的最佳方法，但是，这个问题可通过在结构标签中纳入概率评分函数有效地解决。此外，我们的方法并不需要掌握有关结合构象数量或结构标签数量的专业知识。

接下来，我们采用交叉验证来评价PPE是否适用于每种药物。

集成DDP，减少假阳性

为了识别新的药物靶点，我们下载了由75000种蛋白质结构及其口袋组成的CASTp数据库(Dundas等，2006)。我们从这些蛋白质结构的每种结构中提取三个最大的口袋，据报道，它们占蛋白质-小分子结合位点的80％以上(32；67；69；34)。利用序列次序-无关结构比对，我们将每种蛋白质结构的口袋与我们数据集中每种药物的PPE(采用所有已知药物靶点构建)进行比对。匹配片段的数量是几千个，该数量与其它药物重新定位研究[20]类似。虽然我们的方法对审核数据集具有较高的特异性，但是，由于我们PPE的构建非常简单，因此能够随机与几种不相关蛋白质表面匹配[29,35]，预期其在普通数据库中搜索时假阳性率更高。

为了降低我们方法的假阳性率，我们纳入了近似药物释放曲线(aDDP)作为结构-无关信息的正交源。由于通常无法提供具体药物的实际组织药物释放曲线，因此，我们推断这种药物的细胞内释放曲线应与其建立靶点的mRNA表达谱匹配。换句话说，蛋白质只能是给定药物的靶点，如果该药物被释放到蛋白质以显著水平表达的组织内(或在组织内产生)。因此，针对每种候选药物，我们通过将79个人体组织中所有已知药物靶点的mRNA表达谱进行平均[36]，近似得到其释放曲线。

对于试验药物，如图2所示，已知靶点蛋白质的mRNA表达谱与相同的药物类似(例如，CoA的aDDP与其已知靶点的aDDP的皮尔逊相关系数是0.56)，但是，不同的药物之间是不同的(例如，CoA的aDDP与其它药物的aDDP的皮尔逊相关系数是0.44)。mRNA表达谱不仅提供有关蛋白质定位的信息，而且还提供有关蛋白质：蛋白质相互作用和路径的信息[37]。因此，已知药物靶点的平均组织表达谱与预测靶点表达谱的比较预期将反映特定组织中药物靶点相互作用的可能性，因此，可代表药物释放曲线。

计算机实验验证

我们采用文本挖掘研究aDDP预测药物:靶点相互作用的能力。共引指数通过将两个词语在PubMed库内研究的摘要中出现的次数进行比较，正如将两个随机词语进行比较一样，发现两个词语(此时是药物和基因名称)之间的关系。我们发现，与单独采用aDDP相比，采用aDDP与PPE组合时，拥有统计学上显著共引指数的预测次数高2-4倍。采用组合方法时，b-D-葡萄糖前10个预测靶点(与任何已知药物靶点<60％序列相似性)与b-D-葡萄糖的PPE的匹配情况非常好(SI表2)。数据集中所有药物都观察到类似结果(SI表7和表8)。此外，b-D-葡萄糖前10个预测中的6个预测及CoA的4个预测拥有统计学上显著的共引指数(p-值<0.05)。我们发现，我们数据集中所有药物共34个预测靶点拥有统计学上显著(p-值<0.05)的共引指数。对数据集中所有药物的前10个预测靶点来说，PPE和靶点预测口袋之间的平均序列相似性分数的范围是80-87％，平均RMSD的范围是

79个组织中，mRNA表达谱的平均匹配数是72-76，最终平均分数是0.45-0.56(与我们交叉验证研究的界限值0.85相比)。这些结果表明，在iDTP中组合PPE和aDDP可以识别与已知药物靶点具有较高结构(结合位点)和系统水平相似性的新型蛋白质。

体外结合实验验证

为了提供iDTP性能的实验评价，我们选择对辅酶A(CoA)的预测靶点进行试验，因为在我们的数据集中，辅酶A的已知结合蛋白质数量最少，从而定义好的PPE最少。我们采用多个体外结合实验来试验iDTP预测的前两个匹配片段的结合位点和亲和力，即过氧化物酶体增殖物激活受体γ(PPARc)和B-细胞淋巴瘤2(Bcl-2)。

PPARc是调节许多生物功能，包括脂肪形成和细胞分化的核激素受体。其调节异常会引发糖尿病和肥胖症[39]。人PPARc配体结合阈(LBD)(hPPARc-LBD)与CoA的相互作用是我们最具前景的预测之一，因为这种相互作用拥有较高iDTP分数和统计学上显著的共引指数(SI表3)。iDTP预测与CoA结合的口袋与该受体的已知配体结合位点重叠。为了体外试验这种预测，我们采用差示扫描荧光法来测定hPPARc-LBD在CoA或罗格列酮不存在或存在情况下的熔解温度(Tm)，罗格列酮是一种抗糖尿病药物，已知作为hPPARc-LBD的配体(图2(a)和SI表4)。7摩尔过量罗格列酮表现出具有保护作用，因为与载脂蛋白相比，它将hPPARc-LBD的Tm提高了2℃，而CoA显示出不稳定效应，Tm从载脂蛋白降低0.8℃，表明与hPPARc-LBD的直接作用。接下来，我们采用荧光各向异性(FA)来表征hPPARc-LBD及其天然同类蛋白质与CoA结合的相互作用。我们测定了hPPARc-LBD和荧光素标记肽之间的Kd，荧光素标记肽源自辅激活蛋白(PGC1)和两种辅阻遏蛋白(NCoR和SMRT)。这些实验在没有CoA存在下或不断增加的摩尔过量CoA存在下或参考hPPARc-LBD激动剂罗格列酮存在下或拮抗剂CD5477存在下进行[68]。如果配体的摩尔过量数不断增加对荧光标记辅激活剂/辅阻遏物Kd的影响不断增加，则我们能够推断出配体结合，因为配体干扰与辅激活剂或辅阻遏物的结合。还可以推断出配体-hPPARc-LBD相互作用的性质：激动剂配体将增强与辅激活剂的结合，并降低与辅阻遏物的结合；反向激动剂将相反；中性拮抗剂将降低辅激活剂的结合及辅阻遏物的结合。因此，加入2-10M过量激动剂罗格列酮hPPARc-LBD提高了hPPARc-LBD与辅激活剂PGC1的亲和力(图3a和b，SI表5)。相反，2摩尔过量拮抗剂CD5577降低了hPPARγ-LBD与辅激活剂PGC1的亲和力(图3a和b，SI表5)，加入2-10M过量CoA降低了hPPARγ-LBD与辅激活剂PGC1的亲和力(图2(b))及与辅阻遏物NCoR和SMRT的亲和力(图3c和d，SI表5)。总的来说，我们的实验确认了CoA和hPPARc-LBD之间的直接作用，其中CoA表现为中性拮抗剂。从其与已知配体的竞争效力来看，及从hPPARc-LBD的剂量-相关稳定化来看，我们估计Kd小于500mM。

我们还测试了CoA与重组Bcl-2的直接结合情况(SI表7和表8)。Bcl-2是调节细胞死亡的蛋白Bcl-2家族最早发现的成员，是一种非常重要的抗凋亡蛋白，并被归为致癌基因。采用差示静态光散射，我们观察到0.5mg/ml apo-Bcl-2的聚集温度T_agg是rv57℃。400nM已知配体Bax-BH3将T_agg大幅提高到67℃，而1uM乱序LD4肽(作为阴性对照)并不会改变T_agg。CoA浓度提高会将Bcl-2的T_agg提高到62℃，表明具有直接作用(图4a和b，SI表6)。我们通过在CoA浓度不断增加的条件下测定Bcl-2的固有色氨酸荧光猝灭，确定CoA:Bcl-2相互作用的Kd是0.38mM(图4c和d)，而荧光标记Bax-BH3肽的Kd是128±21nM(图2a)。根据iDTP，CoA结合口袋位于Bax-BH结合位点附近，不存在明显重叠(图2b)。与此一致的是，甚至4.7mM CoA也并不会降低Bax-BH3的FA(浓度是20nM，比CoA低235000倍)，支持CoA和Bax-BH的结合位点不重叠的预测(图3)。因此，我们的体外结合实验有力地支持了我们的计算预测。

讨论

我们已经建立了一种从药物结合蛋白质的结构集合中提取该药物结合位点隐含结构标签的计算方法。我们表明，可以采用药物:蛋白质复合物少达一种结构和其它已知药物-结合蛋白质的一组载脂蛋白结构来构建此类PPE。利用序列次序-无关比对和概率评分函数，构建给定药物的PPE，允许保存弱但明显的模式出现和对其进行定量。因此，我们的PPE能够编码与药物混杂靶点作用及结构灵活性有关的特征。通过阐明11种PPE可靠地识别各种药物的已知靶点，证明了这11种PPE的有效性。我们发现，通过将PPE与aDDP组合，作为结构-无关信息的正交源，得到的方法iDTP能够大规模预测新型药物靶点。计算机识别新药物-靶点对的挑战吸引了计算机社区的浓厚兴趣。但是，与其它算法相比，iDTP包括前所未有的特征，因为之前没有任何研究利用了序列次序-无关比对和概率评分函数组合来构建药物-蛋白质相互作用模型，它们也没有采用近似aDDP来筛选出假阳性预测。在之前大多数研究中，人们并未象我们此处这样来验证PPE的成功率，它们并未通过探索药物已知靶点对其方法的表现进行评价。由于其它研究采用的数据集完全不同，而且也无法公开获得它们的程序，因此，遗憾的是不可能对这些方法进行直接比较。但是，与iDTP相比，其它包括传统对接或基于结构虚拟筛选的现有方法都具有下述一种或多种局限性：(i)据人们所知，它们的药物规格、复杂性及药物结合位点的扩展性很差[51]及(ii)这些算法并不能合适地解释药物和结合位点残基的不同构象。我们的方法从一组结合位点而非单个结合位点构建结构标签，并且采用概率序列相似性函数，从而可以解释药物和结合位点残基的不同构象，消除了这些方法的大多数缺点。(与两两比对相比，这种方法的改进预期与多序列比对类似)。我们还集成aDDP用于鉴定相关新靶点。

iDTP的预测能力得到了计算交叉验证和文本挖掘的支持。此外，我们通过体外实验对我们的两种预测相互作用进行了验证。首先，我们表明，CoA与hPPARc-LBD结合，表观Kd小于500mM，表明具有中性拮抗剂的特点。CoA是普遍存在的辅因子，根据细胞类型和亚细胞定位，它在真核生物中的浓度可以达到很高(动物胞液、过氧化物酶体和线粒体中CoA的浓度分别是rv0.14、0.7和5mM[42])。因此，这种预测的相互作用在脂肪酸信号传导和代谢中起着目前人们未认识到的生物作用，这是可能的。iDTP预测hPPARc-LBD上的CoA结合位点是受体的配体结合口袋，还结合罗格列酮和CD5477。事实上，hPPARc的配体-结合口袋是核受体蛋白家族最大的口袋之一[41]，允许hPPARc与各种配体结合。因此，CoA可以引发构象变化，破坏或扰乱辅激活剂/辅阻遏物的结合表面，产生中性拮抗剂的特点。当然，我们无法严格排除CoA与辅激活剂/辅阻遏物通常结合的表面结合，在该结合位点形成竞争。

其次，我们通过表明CoA与重组Bcl-2体外结合，Kd是rv350 1M，验证了iDTP预测的另一种CoA相互作用。据预测，Bcl-2上的CoA结合口袋位于Bax-BH3已知结合位点附近。由于我们可以表明，CoA与Bcl-2结合，并没有置换Bax-BH3，因此，我们可以真正推断其为非-竞争性结合。对药物设计目的来说，CoA的预测结合口袋非常有趣，因为它位于研究充分的Bax-BH3结合口袋附近[43]，因此，可能提供具有协同效应的替代靶点。

除验证我们的计算预测之外，我们的体外实验还表明了iDTP在各种应用中的作用：CoA-hPPARc的情况表明iDTP可以如何用于显示小分子(配体、辅因子或代谢物)与细胞蛋白质之间的生物相关作用。因此，我们的方法可以帮助建立大规模代谢分析的代谢物-蛋白质对，或预测化学小分子污染物(如双酚)的可能靶点。CoA与Bcl-2之间的相互作用阐明，通过表明可能的先导化合物和新型可成药蛋白质结合口袋，iDTP可用于药物发现。此外，iDTP可以洞悉药物-靶点复合物未确定的已知药物的结合机制。例如，我们的结果表明，甲酸与CYP2E1结合(SI表7和表8)。CYP2E1是一种酶，已知与70多种小药物和外源化合物作用[Ogu和Maxa，2000]。已经表明，加入CYP2E1会在小鼠模型中导致氧化应激和醇诱导的肝损伤[45,46]；但是，水溶性维生素E(Trolox)[6-羟基-2,5,7,8-四甲基苯并二氢吡喃-2-羧酸]是一种包含甲酸结构的药物，已经表明，它可以降低上面提到的毒性[47；48]。因此，我们的结果表明了水溶性维生素E的甲酸单元与CYP2E1之间的直接作用，导致毒性降低。

为了进一步评价iDTP在药物用途方面的作用，我们利用以下数据库-在线人类孟德尔遗传数据库[49]和人类基因突变数据库[50]，识别了与每种药物预测靶点蛋白质有关的遗传疾病。我们发现，16种预测药物-靶点对(包括CoA-hPPARc)拥有统计学上显著性高的共引指数(P<0.005)。这些预测药物靶点与人类重大疾病，如癌症、心脏问题、代谢紊乱(SI表3)有关，表明了采用这些结果作为药物发现和药物重新定位的潜在宝贵基础。但是，因为构建高置信度PPE需要相对较大的已知靶点3D结构集，就严格意义上的重复使用FDA批准的化合物来说，目前iDTP用于药物重新定位仍然受到限制。实验测定蛋白质结构的快速发展未来将减少这种限制。

实例4的其它参考文献

63.Alam，T.et al.(2014)How to find a leucine in a haystack？Structure，ligand recognition and regulation of Leucine-Aspartic acid(LD)motifs.Biochem.J.，460，317-329.

64.Cui，X.et al.(2015)Finding optimal interaction interface alignmentsbetween biological complexes.Bioinformatics，31(12):i133-i141.

65.Dundas，J.et al.(2007)Topology independent protein structuralalignment BMC Bioinformatics，8，388.

66.Dundas，J.et al.(2011)Structural signatures of enzyme bindingpockets from order-independent surface alignment：a study ofmetalloendopeptidase and NAD binding proteins.J.Mol.Biol.，406，713-729.

67.Laskowski，R.A.(1995)SURFNET：A program for visualizing molecularsurfaces，cavities，and intermolecular interactions.J.Mol.Graph.，13，323-330.

68.LeMaire，A.et al.(2009)Activation of RXR-PPAR heterodimers byorganotin environmental endocrine disruptors.EMBO Rep.，10，367-373.

69.Liang，J.et al.(1998)Anatomy of protein pockets and cavities:Measurement of binding site geometry and implications for liganddesign.Prot.Sci.，7，1884-1897.

70.Peters，J.(2013)Polypharmacology-foe or friend？J.Med.Chem.，56，8955-8971.

71.Wang，G.and Dunbrack，R.Jr(2003)PISCES：a protein sequence cullingserver.Bioinformatics，19，1589-1591.

72.Wu，C.et al.(2006)The universal protein resource(uniprot)：anexpanding universe of protein information.Nucleic Acids Res.，34，D187-91.

补充信息

1.PPE和概率评分函数的评估

为了研究PPE检索结构上类似药物结合口袋的能力，我们对2′-单磷酸腺苷5′-二磷酸核糖结合的蛋白质口袋与该化合物前10个预测靶点的预测结合口袋进行比较。我们的序列次序-无关比对与这前10个预测靶点重叠，该构建药物PPE的平均归一化RMSD是

(比对包含＞4个原子)。相反，采用序列次序-相关结构比对，仅3个预测口袋(PDB ID-1EM2、2BXP和3ELM内)重叠，平均归一化RMSD是

同样，采用序列次序-有关比对，11种药物110个预测口袋仅20个预测口袋与2′-单磷酸腺苷5′-二磷酸核糖结合口袋重叠，平均归一化RMSD是

(平均对齐长度是8.35)，相比之下，采用序列次序-无关比对，110个预测口袋重叠，平均归一化RMSD是

(平均对齐长度是12.11)，构建药物PPE。我们的结果表明，在识别新药物靶点方面，最简PPE与序列次序-无关比对的组合比完全结合口袋与序列次序-相关结构比对的组合更有用。此外，为了确定概率序列相似性函数的有效性，我们将概率函数与Dundas等[29]采用的确定性相似性函数进行比较。我们发现，确定性函数和概率函数2'-单磷酸腺苷5'-二磷酸核糖前10个预测新靶点的平均序列相似性分别是55％和82％。数据集中的11种药物都具有这种趋势(采用确定性函数，平均序列相似性是54％，采用概率函数，平均序列相似性是82％)。这些观察结果表明，PPE能够提取捕捉与几个位点结合的药物及与几种药物结合的位点这些混杂过程(如Gao和Skolnick[28]所述)必须的有价值的序列和结构标签。大多数预测的新靶点空间上与各药物PPE的不同部分对齐，表明PPE确实是几个口袋的集合，从而也许能够适应每种药物的不同构象异构体。这些结果表明，与以前的研究[1；3]相比，多种结构标签也许并非捕捉药物不同构象的最佳方法；相反，这个问题可通过在结构标签中纳入概率评分函数有效地解决。

此外，我们的方法并不需要深入了解结合构象数量或之后的结构标签。

2.集成药物释放曲线，减少假阳性

我们提取了mRNA组织表达谱与β-D-葡萄糖靶点的aDDP匹配的所有基因。我们发现其中99种基因满足上述标准，我们将这99个基因分成3组。第一组由与β-D-葡萄糖的PPE比对时获得最佳序列和结构相似性分数的10个基因组成，第二组由与β-D-葡萄糖的PPE比对时获得最差序列和结构相似性分数的10个基因组成，第三组由前面两组及5个随机选择的基因组成。采用共引指数及其p-值，我们将前两组与β-D-葡萄糖iDTP做出的前10个预测进行比较，第三组与采用集成序列、结构和组织表达分数得到的β-D-葡萄糖前25个预测进行比较(SI表1)。按照我们的标准，仅aDDP已经实现了可能靶点10-12％的富集，强有力地证明了其是有价值的鉴别方法。当aDDP与PPE结合时，具有统计学上显著共引指数的预测数高2-4倍(36-40％富集)。采用这种组合方法，β-D-葡萄糖前10个预测靶点(与任何已知药物靶点的序列相似性<60％)与β-D-葡萄糖的PPE非常匹配(SI表3)，正如平均序列相似性分数82％、RMSD为

3.PPE的交叉验证

4.负面数据集讨论

另一种药物的已知靶点也可以是我们数据集中药物的靶点。由于文献中通常并不公开负面结果，因此，我们不可能建立更全面的负面数据集。更全面的负面数据集甚至可能帮助改进评分函数，但由于缺乏可利用的数据，我们选择目前的负面数据集。我们计划从现有文献手工审核负面数据集，构建数据集中每种药物更全面的负面数据集。

5.体外实验设置

蛋白质表达和纯化之前已经有人对人PPARγ(氨基酸Glul96-Tyr477)配体结合域(LBD)的表达和纯化进行了描述[57]。Ku等描述了嵌合人Bcl-2(内环51-91被删除，残基35-50被小鼠Bcl-X_L的残基33-48代替)的序列、制备和纯化[43]。

配体和肽用于hPPARγ结合试验的BRL49653(罗格列酮)和辅酶A购自西格玛奥德里奇公司(Sigma-Aldrich)(法国St Quentin Fallavier)。分别与PGC1-NR2、NCoR-RID2和SMRT-RID2对应的荧光标记肽FITC-EEPSLLKKLLLAPA、FITC-DPASNLGLEDIIRKALMGSFD和FITC-TNMGLEAIIRKALMGKYDQWEE购自EZbiolab公司(美国印第安那州Westfield)。为了研究Bcl-2的作用，与Bax-BH3(Bcl-2的已知配体)对应的荧光-标记肽QDASTKKLSECLRRIGDELDSNMELQRMIAD，及乱序LD4肽(LSDAMETSSLRDALE，Bcl-2配体LD4的乱序版本，[58])购自Genscript USA公司。辅酶A(CoA)购自Calbiochem公司(英国VWR)。

差示扫描荧光法(DSF或Thermofluor)该方法根据变性形式蛋白质的荧光检测，测定蛋白质的去折叠(Pantoliano等，2001)。在96-孔PCR板的孔内，加入15uL含5uM hPPARγLBD、不同摩尔过量配体(罗格列酮、辅酶A或CD5477)的溶液，加入50mM Tris pH 8.0中的IXSypro Orange，及200mM NaCl。最终DMSO的浓度不超过5％，且对数据没有任何影响。用光学密封带(Bio-Rad)将多孔板密封好，并在Mx3005P Q-PCR系统(Stratagene)中以1℃间隔从25℃加热到95℃。采用光电倍增管，监测孔内荧光变化。激发和发射波长分别是545nm和568nm。利用GraphPad Prism软件，将荧光数据与Boltzmann模型拟合，得到熔解温度Tm。此处报告的数据是各实验的平均值，误差条对应标准偏差。

差示静态光散射(DSLS)Stargazer系统(Harbinger Biotechnology andEngineering Corporation,Markham,加拿大)测定的DSLS用于评价CoA不存在或存在条件下Bcl-2的热稳定性及评价对照配体的热稳定性。DSLS测定蛋白质热变性而聚集的特定聚集温度Tagg。因此，DSLS提供蛋白质的热稳定性数据，预期这种热稳定性在配体存在时会发生变化。将0.5mg/mL Bcl-2用矿物油覆盖，放在透明底384-孔黑板(Corning)上，以1℃/min从20℃加热到85℃，采用CCD相机，每隔0.5℃检测无CoA或不同浓度CoA存在时的光散热，得到特定CoA浓度时载脂蛋白Bcl-2的聚集温度差△T_agg。将数据进行归一化，并将△T_agg对照CoA浓度作图，计算Kd值。得到的数据采用结合-饱和单-位点模型拟合(GraphPad)。

荧光各向异性测定采用Safire2酶标仪(TECAN)，在配体存在或不存在条件下测定hPPARγLBD的荧光肽结合亲和力。采用激发波长470nm测定荧光标记肽；在530nm测定发射。报告的数据是各实验的平均值，误差条对应标准偏差。试验的缓冲溶液是20mM Tris-HClpH 7.5，150mM NaCl，1mM EDTA，5mM二硫苏糖醇和10％(v/v)甘油。测定在40uM蛋白质开始，然后用缓冲溶液按因数2连续稀释样品，直到最低蛋白质浓度达到9.7nM。将荧光肽加入到4nM蛋白质样品中，建立滴定曲线。加入配体的最终浓度是80uM。采用美国PhotonTechnologies International的荧光分光计测定荧光标记Bax-BH3肽与Bcl-2的结合亲和力。荧光标记肽的激发波长是490nm，发射在520nm测定。

肽的Kd值采用单结合位点模型拟合。采用20nM Bax-BH3肽和400nM Bcl-2开展竞争性实验。监测浓度5mM以下CoA的荧光各向异性。

固有色氨酸荧光猝灭结合分析Bcl-2色氨酸在280nM激发，在320nM测定发射强度。测定之前，采用CoA不同稀释液培养10μM Bcl-2 10分钟。采用PheraStar荧光酶标仪，监测96孔板内发射的荧光。当其与配体结合时，蛋白质构象发生变化，导致色氨酸荧光发生变化，记录和分析荧光强度之差。对数据进行归一化，并采用GraphPad，与结合-饱和单-位点模型拟合，计算Kd值。

SI表5.荧光各向异性法测定的hPPARγ-LBD的解缔常数在不存在配体或不断增加罗格列酮、辅酶A或CD5477摩尔过量数的条件下，利用荧光各向异性滴定法，测定荧光标记PGC1-NR2或N-CORNR2或S-CORNR2肽与hPPARγLBD之间的平均解缔常数(Kd)和标准偏差(SD)。

SI表6：Bax-BH3肽提高聚集温度，是Bcl-2的强作用伙伴，稳定蛋白质，根据Tagg值，辅酶A也被发现提高了Bcl-2的热稳定性。

SI表7：包含执行此处所述方法可用信息的预测靶点表

辅酶A(1XVT)

甲酸(1B93)

β-D-葡萄糖(1PIG)

NAD(1OG3，2BGL)

血红素(1GGE)

腺苷-5′-二磷酸(1UC9)

黄素腺嘌呤二核苷酸(1FNB)

柠檬酸(1HTO)

2′-单磷酸腺苷5′-二磷酸核糖(1DJL)

核黄素一磷酸盐(1SZF)

磷氨基膦酸-腺苷酸酯(1TQM)

SI表8

负面数据集

Claims

1.一种识别配体的新的蛋白质靶点的方法，所述方法包括以下步骤：

(a)产生代表结构特征的结构标签，所述结构特征是预定配体的已知蛋白质靶点的一组结合口袋所共有的，通过：

(1)提取基于配体蛋白质复合物的预定配体的已知结合位点和已知蛋白质靶点的载脂蛋白结构的第一条链的三个最大的表面口袋的氨基酸残基和原子的位置；

(2)通过使用两两序列次序-无关结构比对将已知结合位点的氨基酸残基和原子的位置与每个蛋白质表面口袋比对，选择与已知结合位点最相似的每个已知靶点的表面口袋；

(3)使用基于比对的原子的成对相似性的分裂层次聚类对所选择的表面口袋进行分组，其中结构标签中的每个原子位置的保存比至少为0.5，其中结构标签对应于层次树中的不同分支；

(b)通过将每个疑问蛋白质表面口袋的氨基酸残基和原子的位置与结构标签比对并计算每个疑问蛋白质表面口袋的原子和氨基酸残基位置与产生的结构标签的距离，识别至少一种疑问蛋白质上预定配体的多个推定结合靶点，其中距离函数分数由下式定义：

分数＝结构相似性+α*(1-序列相似性)

序列分数＝∑_i(AtomFreq_i+Re sFreq_i)

最佳序列分数＝∑_i(MaxAtomFreq_i+Max Re sFreq_i)

式中α是1.2，RMSD是所比对结构之间的均方根距离，N是比对的氨基酸残基和原子的位置的数量，AtomFreqi是位置i处比对原子的频率，ResFreqi是位置i处比对残基的频率，MaxAtomFreqi是位置i处任意原子的最高频率，MaxResFreqi是位置i处任意残基的最高频率，总和是所有比对位置的和，其中比对至少五个原子；

(c)如下式所示基于预定数量组织中相对组织mRNA表达水平重新排序推定的结合靶点：

分数＝结构相似性+α*(1-序列相似性)+β*组织表达

式中α，结构相似性术语和序列相似性术语如(b)中所定义，且β是0.1-0.9之间的数值；及

(d)在体外测量配体对重新排序的推定的结合靶点的亲和力。

2.根据权利要求1所述的方法，其中蛋白质结构数据库是CAST_P数据库。

3.根据权利要求1所述的方法，其中配体的一个或多个已知的蛋白质靶点包括每个配体20至40个载脂蛋白结构。

4.根据权利要求1所述的方法，其中配体的已知蛋白质靶点的最大的三个口袋包括蛋白质三维结构第一条链。

5.根据权利要求1所述的方法，其中在产生的结构标签中的原子数是50至100。

6.根据权利要求1所述的方法，其中一个或多个配体-蛋白质结合位点的配体亲和力通过荧光各向异性法测定。

7.根据权利要求1所述的方法，其中所述预定配体选自由小分子或核酸组成的群组。

8.根据权利要求1所述的方法，其中至少一个步骤是由计算机完成的。

9.一种其上存储用于识别配体的新的蛋白质靶点的可执行程序的非暂时性计算机可读存储介质，其中所述程序引导微处理器执行下述步骤：

(1)接收基于配体蛋白质复合物的预定配体的已知结合位点和已知蛋白质靶点的载脂蛋白结构的第一条链的三个最大的表面口袋的氨基酸残基和原子的位置；

(2)通过使用两两序列次序-无关结构比对将已知结合位点的氨基酸残基和原子与每个蛋白质表面口袋比对，选择与已知结合位点最相似的每个已知蛋白质靶点的表面口袋；

(3)使用基于每个比对结构的成对相似性的分裂层次聚类对所选择的表面口袋进行分组，其中结构标签中的每个原子位置在比对结构中的保存比至少为0.5，其中结构标签对应于层次树中的不同分支；

(b)通过将每个疑问蛋白质表面口袋的氨基酸残基和原子的位置与结构标签比对并计算每个疑问蛋白质表面口袋的原子和氨基酸残基位置与产生的结构标签的距离，产生至少一种疑问蛋白质上预定配体的一系列推定结合靶点，其中距离函数分数由下式定义：

分数＝结构相似性+α*(1-序列相似性)

序列分数＝∑_i(AtomFreq_i+Re sFreq_i)

最佳序列分数＝∑_i(MaxAtomFreq_i+Max Re sFreq_i)

分数＝结构相似性+α*(1-序列相似性)+β*组织表达

式中α，结构相似性术语和序列相似性术语如(b)中所定义，并且β是0.1-0.9之间的数值；及

(d)提供重新排序的推定的结合靶点的输出。

10.一种用于识别配体的新的蛋白质靶点的计算机系统，包括处理器、存储器和存储指令的非暂时性计算机可读存储介质，处理器执行指令，使系统：

分数＝结构相似性+α*(1-序列相似性)

序列分数＝∑_i(AtomFreq_i+Re sFreq_i)

最佳序列分数＝∑_i(MaxAtomFreq_i+Max Re sFreq_i)

分数＝结构相似性+α*(1-序列相似性)+β*组织表达

(d)提供重新排序的推定的结合靶点的输出。

11.根据权利要求10所述的计算机系统，其中所述系统包括显示器，所述处理器是微处理器。

12.根据权利要求10所述的计算机系统，其中所述系统包括并行计算集群。

13.根据权利要求10所述的计算机系统，其中所述系统可以多线程并行操作，其中处理器自动产生多个同时指令流，共享单个存储器的多个处理器执行这些指令流；或由其中处理器运行多个独立计算的分布式计算执行；或通过显式并行执行，其中拥有独立存储器的两个或多个处理器同时执行存储在非暂时性计算机可读存储介质上的指令。

14.一种识别配体的新的蛋白质靶点的网络系统，所述网络系统包括：

(1)产生代表结构特征的结构标签，所述结构特征是预定配体的已知蛋白质靶点的一组结合口袋所共有的，通过：

(i)接收基于配体蛋白质复合物的预定配体的已知结合位点和已知蛋白质靶点的载脂蛋白结构的第一条链的三个最大的表面口袋的氨基酸残基和原子的位置；

(ii)通过使用两两序列次序-无关结构比对将已知结合位点的氨基酸残基和原子与每个蛋白质表面口袋比对，选择与已知结合位点最相似的每个已知蛋白质靶点的表面口袋；

(iii)使用基于每个比对结构的成对相似性的分裂层次聚类对所选择的表面口袋进行分组，其中结构标签中的每个原子位置在比对结构中的保存比至少为0.5，其中结构标签对应于层次树中的不同分支；

(2)通过将每个疑问蛋白质表面口袋的氨基酸残基和原子的位置与结构标签比对并计算每个疑问蛋白质表面口袋的原子和氨基酸残基位置与产生的结构标签的距离，产生至少一种疑问蛋白质上预定配体的一系列推定结合靶点，其中距离函数分数由下式定义：

分数＝结构相似性+α*(1-序列相似性)

序列分数＝∑_i(AtomFreq_i+Re sFreq_i)

最佳序列分数＝∑_i(MaxAtomFreq_i+Max Re sFreq_i)

(3)如下式所示基于预定数量组织中相对组织mRNA表达水平重新排序推定的结合靶点：

分数＝结构相似性+α*(1-序列相似性)+β*组织表达

式中α，结构相似性术语和序列相似性术语如(2)中所定义，并且β是0.1-0.9之间的数值；及

(4)提供重新排序的推定的结合靶点的输出；

(B)一种与计算机系统联网的高通量分析系统，用于传输代表预定配体亲和力的信息，所述信息用于重新排序推定的结合靶点。

15.根据权利要求14所述的网络系统，其中所述系统可以多线程并行操作，其中处理器自动产生多个同时指令流，共享单个存储器的多个处理器执行这些指令流；或由其中处理器运行多个独立计算的分布式计算执行；或通过显式并行执行，其中拥有独立存储器的两个或多个处理器同时执行存储在非暂时性计算机可读存储介质上的指令。

16.根据权利要求14所述的网络系统，其中所述非暂时性计算机可读存储介质存储C⁺⁺指令，所述系统包括10个或更多个处理器。