CN102663214B

CN102663214B - 一种集成药物靶标预测系统的构建和预测方法

Info

Publication number: CN102663214B
Application number: CN 201210140708
Authority: CN
Inventors: 杨胜勇; 李国菠; 李琳丽; 魏于全
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2012-05-09
Filing date: 2012-05-09
Publication date: 2013-11-06
Anticipated expiration: 2032-05-09
Also published as: CN102663214A

Abstract

本发明公开了一种集成药物靶标预测系统的构建和预测方法。分析蛋白质晶体结构数据库，选取已与类药性配体小分子结合的蛋白质，或具有与小分子配体结合潜能的蛋白质作为靶点，建立靶标的晶体结构数据库，针对这些靶标，收集其与疾病的相关信息、生物学类别以及活性小分子配体信息，集成由活性位点数据库、药效团数据库、小分子化合物数据库以及靶标基本信息数据库组成的综合型靶标筛选数据库。在综合型靶标筛选数据库基础上，通过脚本程序或PipelinePilot流程实现集成药物靶标预测系统的构建，给出该方法的靶标预测准确度的概率。本发明发挥上述三项技术优势，给出靶标预测的概率，为进行进一步实验验证提供了有效的依据。

Description

一种集成药物靶标预测系统的构建和预测方法

技术领域

本发明涉及计算机辅助药物分子设计领域，特别涉及一种结合分子对接技术、药效团模型和小分子结构相似性进行药物靶标预测的新方法。

背景技术

药物靶标鉴定是指通过某种方法发现已知药物或活性化合物的作用靶标。药物靶标鉴定在老药新用、药物的毒副作用预测等方面具有非常重要的作用。近年来，众多制药公司和科研机构都投入了大量的人力和财力开展药物靶标鉴定方法研究。蛋白组学的方法是目前使用较普遍的方法，该方法通过对比加入待测药物和不加药物的情况下蛋白表达谱的变化，判断该药物可能作用的靶标或通路。亲和力色谱法是另外一种常用的方法，采用了“钓鱼”的思想，通过将待测药物固定在生物芯片上去捕获与其紧密结合的蛋白，然后通过生物大分子质谱确定该药物的作用靶标。这些实验手段虽然可行，但十分耗时，费用高昂并且实施困难。

计算机辅助药物靶标预测或筛选方法具有速度快、费用低、实施容易等特点，近年来已成为药物靶标鉴定的一种重要方法受到越来越多的重视。目前已发展了三种主要的计算机辅助药物靶标预测方法，即基于分子对接的药物靶标预测方法、基于药效团模型的靶标预测方法和基于小分子结构相似性的靶标预测方法。其中，基于分子对接的预测方法，利用分子对接的原理，将待测药物或活性化合物分子自动对接到构建的靶标数据库中的每个靶蛋白的活性位点，通过比较对接打分值进行靶标的预测。该方法具有原理简单、充分考虑了靶标的三维结构信息等优点，但分子对接方法本身还存在一些至今尚无有效解决办法的问题，包括靶蛋白的柔性、打分函数的精度和溶剂水分子等，这些问题导致基于分子对接的靶标预测方法的预测准确度较低。基于药效团模型的方法，首先建立靶标配体分子的药效团模型数据库，通过将药物或活性化合物分子与药效团模型数据库中的药效团进行比较叠合，从而推测可能的作用靶标。该方法避免了分子对接中存在的问题，但基于药效团模型的虚拟筛选方法本身还存在假阳性率高等缺点。例外，目前已知的药效团模型的质量也参差不齐。基于小分子结构相似性的方法是最近发展起来的快速简单的方法，其中以基于二维指纹图谱的小分子相似性方法最为常见。但这类方法只考虑了小分子化合物的结构信息，未能考虑靶标的信息。总之，这些已有的计算机辅助靶标预测方法，虽然均具有一些优点，但也存在该方法本身难以克服的缺点，导致这些方法单独使用时对靶标的预测准确率低。而将这些方法（包括基于分子对接的靶标预测方法、基于药效团模型的靶标预测方法和基于小分子结构相似性的靶标预测方法）进行整合，发展集成的靶标预测方法，可以发挥它们各自的优势，并且克服单个方法使用时的缺陷，从而提高药物靶标的预测准确度。另外，目前的计算机辅助靶标预测方法均不能给出靶标预测的概率，使得人们在挑选预测的靶标进行实验验证时，缺乏有效依据。

发明内容

本发明的目的是建立全面而准确的药物靶标数据库，构建集成的基于分子对接、药效团模型和小分子结构相似性的集成药物靶标预测系统和方法，并给出预测靶标的概率。

本发明的基本思路是：首先通过蛋白质晶体结构数据库收集所有靶标的晶体结构，排除那些明显不能与小分子化合物结合的蛋白质晶体结构（即不具有活性口袋的蛋白质晶体结构），对于同一个靶标，如有多个晶体结构则选取分辨率较高的1个或多个拷贝（如这些结构差异较小，则只选取分辨率最高者，否则选取多个），建立靶标的晶体结构数据库。同时收集这些靶标的相关疾病、生物学类别以及活性小分子配体等信息。在此基础上建立靶标活性位点数据库、靶标配体的药效团模型数据库、活性小分子配体数据库以及靶标基本信息数据库；在进行药物或活性化合物的靶标预测时，分别采用基于分子对接的方法、基于药效团模型的方法和基于小分子结构相似性的方法进行靶标预测，并给出每种方法预测正确的概率以及三种方法的综合预测总概率。这种思路的基本理论是基于：1）在靶标数据库中，排除了那些明显不能与化学小分子结合的蛋白质，为后续正确的靶标筛选奠定了基础；2）将基于分子对接的方法、基于药效团模型的方法和基于小分子结构相似性的方法相结合，可以发挥了三种方法在靶标预测方面的优势，克服单个方法由于自身局限导致的靶标预测准确度较低的问题；3）在计算三种预测方法的综合预测正确的概率时，采用了基于置信理论的概率统计方法。

本发明的目的是这样达到的：分析蛋白质晶体结构数据库，选取已与类药性配体小分子结合的蛋白质，或具有与小分子配体结合潜能的蛋白质作为靶点，建立靶标的晶体结构数据库，对于同一个靶标，如有多个晶体结构则选取分辨率较高的1个或多个晶体结构拷贝（如这些结构差异较小，则只选取分辨率最高者，否则选取多个）。并针对这些靶标，收集其与疾病的相关信息、生物学类别以及活性小分子配体等信息，组建由活性位点数据库、药效团数据库、小分子化合物数据库以及靶标基本信息数据库组成的综合型靶标筛选数据库；在综合型靶标筛选数据库基础上，通过脚本程序或Pipeline Pilot流程实现集成分子对接技术、药效团模型和小分子结构相似性三项靶标预测系统的构建，采用基于概率统计的集成方法联合这三项技术实现药物靶标综合预测，并给出该方法的靶标预测准确度的概率。步骤是：

（1）收集药物靶标的晶体结构：

分析蛋白质晶体结构数据库PDB （Protein Data Bank），选取已与类药性配体小分子结合的蛋白质，或具有与小分子配体结合潜能的蛋白质作为靶点。对于同一个靶标，如有多个晶体结构则选取分辨率较高的1个或多个晶体结构拷贝（如这些结构差异较小，则只选取分辨率最高者，否则选取多个）。

（2）组建综合型靶标筛选数据库：

对上述收集的药物靶标，建立靶标活性位点数据库，为基于分子对接的靶标预测提供基础；针对收集的靶标晶体结构，采用基于受体的药效团建模方法建立药效团模型数据库，为基于药效团模型的靶标预测方法提供基础；收集药物靶标的活性小分子配体，建立小分子配体数据库，为基于小分子结构相似性的靶标预测方法提供基础；收集药物靶标结构名称、生物功能类别、相关疾病以及药物研发信息，建立药物靶标基本信息数据库，为靶标预测提供相关信息。

（3）建立基于分子对接、药效团模型和小分子结构相似性的靶标预测系统：

在Linux系统下构建脚本程序，自动调用GOLD对接软件实现一个给定药物分子或活性化合物与靶标数据库的靶标活性位点对接，同时输出打分函数Chemscore和Goldscore的打分值，实现基于分子对接的靶标预测；通过在Linux系统下构建脚本程序，利用Catalyst软件实现一个药物分子或活性化合物与药效团模型数据库所有药效团自动匹配，并输出相应的匹配值Fitvalue，实现基于药效团模型的靶标预测；通过使用Pipeline Pilot 8.5软件构建流程，基于小分子结构指纹图谱ECFP_4，计算一个给定药物分子或活性化合物与靶标小分子配体数据库中的化合物的Tanimoto系数，实现基于小分子相似性的靶标预测。

（4）活性分子概率分布曲线的建立：

首先，通过挑选若干个不同类型的靶标，针对每个靶标分别构建活性化合物集合和非活性化合物集合Decoys，组成训练集。利用分子对接、药效团、小分子结构相似性三种方法针对各个靶标及相应训练集进行筛选。集中所有训练集的化合物以及各自评分，包括分子对接打分函数Chemscore的打分值和打分函数Goldscore的打分值、药效团匹配值Fitvalue、小分子化合物与靶标已知活性配体相似性比较系数Tanimoto，分别统计其不同评分分数段活性分子的概率，利用最小二乘法拟合评分与评分分数段的概率之间的关系，得到各自评分的活性分子概率分布曲线。

（5）集成的药物靶标预测方法：

在进行药物或活性化合物的靶标预测时，分别采用基于分子对接的方法、基于药效团模型的方法和基于小分子结构相似性的方法进行靶标预测，将各评分通过相应的活性分子概率曲线转化为该评分预测正确的概率，然后采用置信理论Belief Theory计算三种方法的综合预测正确的总概率，根据总概率对靶标数据库所有靶标进行排序，排名靠前为预测化合物潜在作用靶标。集成药物靶标预测方法的具体步骤是：

1）通过已建立的基于分子对接、药效团模型和小分子结构相似性的靶标预测系统，分别实现待测药物或活性化合物与靶标活性位点数据进行对接并输出打分函数Chemscore和打分函数Goldscore的打分值，与靶标药效团数据库进行匹配并输出匹配值Fitvalue，与靶标活性配体数据库进行基于二维指纹图谱的相似性比对并输出相似度量值Tanimoto系数。

2）将与靶标活性位点数据进行对接的打分函数Chemscore和打分函数Goldscore的打分值、与靶标药效团数据的匹配值Fitvalue值、与靶标小分子配体数据基于二维指纹图谱的相似性比对相似度量值Tanimoto系数，分别通过各自相应的活性分子概率分布曲线转化为其预测正确的概率。

3）每个靶标不同评分预测正确的概率，通过置信理论公式计算三种方法综合预测正确的总概率，置信理论公式（1）为：

Figure 2012101407088100002DEST_PATH_IMAGE002

（1）

公式（1）中，P_i表示某靶标不同评分预测正确的概率。例如，T1靶标的总概率 P₁计算公式为：P₁ = 1 – (1 – P_f1)×(1 – P_c1)×(1 – P_g1)×(1 – P_t1)，其中，P_f1代表待测药物与T1靶标对应药效团匹配Fitvalue值预测正确的概率，P_c1表示待测药物与T1靶标对应的活性位点打分函数Chemscore的打分值预测正确的概率、P_g1 表示待测药物与T1靶标对应的活性位点打分函数值Goldscore的打分值预测正确的概率，P_t1表示待测药物与T1靶标对应的小分子化合物数据库进行基于二维指纹图谱的相似性量值Tanimoto系数预测正确的概率。

4）按照总概率大小进行靶标排序，总概率值越大代表相应药物靶标成为待测药物的靶标可能性越大，并结合靶标基本信息数据库，最终给出待测药物的潜在作用靶标列表。

所述通过挑选若干个不同类型的靶标，针对每个靶标分别构建活性化合物集合和非活性化合物集合Decoys，组成训练集。利用分子对接、药效团、小分子结构相似性三种方法针对各个靶标及相应训练集进行筛选。这些靶标必须具有至少一个可用的晶体结构且在其结合位点处包含一个配体，针对这些蛋白质靶标，分别根据各个靶标的小分子活性化合物选定相应的非活性化合物集合Decoys。非活性化合物集合Decoys的选定条件为：具有与活性化合物相似的物理性质，但在化学结构上有一定的差异。定义或Ki值小于1μM的小分子化合物为活性分子；所有靶标的活性分子及其相应的非活性化合物集Decoys形成相应的训练集。

所述利用最小二乘法拟合评分与评分分数段的概率之间的关系，得到各自评分的活性分子概率分布曲线的步骤如下：

1）数据的预处理：集中所有训练集的化合物以及各自评分，包括对接的打分函数Chemscore和Goldscore的打分值、药效团Fitvalue匹配值、小分子配体基于二维指纹图谱的相似性比对的相似度量值Tanimoto系数；分别将各个评分所在的区间按照某个给定的间隔划分为若干个小的区间，分别统计出落入每个小区间中的活性分子数目和总的分子数目，总分子数目是指活性分子和非活性化合物集合Decoys数目的总和，统计活性分子数目和总的分子数目的比值，将该比值视为的活性分子的概率。

2）活性分子概率分布曲线的拟合公式：对经过预处理的数据，我们选择修正后S型曲线公式（2）对各个评分及其分数段的概率之间的关系进行拟合，公式（2）为：

Figure 2012101407088100002DEST_PATH_IMAGE004

（2）

公式（2）其中x _i代表评分值；Pi代表该评分值下的活性分子的概率；Fmax代表最大概率，Fmin代表最小概率，SC ₅₀代表二分之一最大概率对应的评分分数，与IC ₅₀值的意义相当；Slope代表了曲线的坡度。

3）活性分子概率分布曲线的拟合：采用参数估值和模型拟合相结合的方法，对公式（2）中的最大概率参数Fmax和最小概率Fmin进行估值，将Fmax和Fmin视为常数，从而将公式（2）转化为线性模型，用最小二乘法进行拟合，进而求出SC ₅₀和Slope的值。对最大概率参数Fmax和最小概率Fmin估值时，我们分别采用穷举法对最小概率参数Fmin取值，采用黄金分割法对最大概率参数Fmax进行优选取值。

所述在对活性分子概率分布曲线的拟合中，对最小概率参数Fmin穷举取值，对最大概率参数Fmax采取黄金分割法优选取值，然后再转化线性模型，用最小二乘法进行拟合，具体步骤如下：

步骤一：根据实际情况对最小概率Fmin赋初值，该值比Fmin实际值小，

步骤二：确定最大概率参数Fmax的搜索区间

Figure 2012101407088100002DEST_PATH_IMAGE006

，这个区间亦由Fmax的实际意义来确定，为了确定Fmax的值，通过缩小搜索区间的方法实现，首先按照黄金分割法估算Fmax的两个值A ₁和A ₂：

，

，

则有

，并分别以A ₁和A ₂作为最大概率参数Fmax的估计值；

步骤三：将修正公式（2）转化为线性模型公式（3），公式（3）为：

（3）

公式（3）中，x代表评分值，P代表该评分值下的概率，利用最小二乘法可求出参数SC ₅₀和slope的值来，当三个未知参数的值全都估计出来后，求出每组参数值下所对应的残差平方和Q1和Q2；

步骤四：缩小最大概率参数Fmax的搜索区间，若Q1 < Q2，参数Fmax搜索区间缩小为，反之缩小为

，若最大概率参数Fmax在

内，最大概率参数Fmax的第三个估计值取为

；按照同样步骤求出参数SC ₅₀和slope，并进一步计算出第三个残差平方和Q3的值；若Q3 < Q1，最大概率参数Fmax的搜索区间为

，反之为

，以后每次搜索区间中均含有三个点，利用区间两头点相加减去中间保留点的办法确定出新的点，进而进行再次缩小确定出新的搜索区间，如此步骤反复地搜索下去，直到最新得到的搜索区间满足预先设定的精度要求为止，经过这样次的搜索后，搜索区间长度缩小为；由此，以预先给定的精度来确定需要搜索的次数，并最终确定最大概率参数Fmax、二分之一最大概率对应的评分分数SC ₅₀和曲线的坡度slope；

步骤五：根据初步确定的最大概率参数Fmax、最小概率Fmin、二分之一最大概率对应的评分分数SC ₅₀和曲线的坡度slope，计算出数据与初步拟合曲线的相关系数R²值；R²计算公式为R²= 1 - (SSE/SSI)，其中SSE为残差平方和，SSI为数据与平均数之差的平方和；

步骤六：确定下一步搜索的最小概率Fmin值，重复步骤二到五，直至相关系数R²值最大，此时，最大概率Fmax、最小概率Fmin、二分之一最大概率对应的评分分数SC ₅₀和曲线的坡度slope确定的曲线为最佳活性分子概率分布曲线。

本发明的积极效果是：建立全面而准确的药物靶标数据库，构建基于分子对接、药效团模型和小分子结构相似性的集成药物靶标预测系统，采用置信理论Belief Theory实现了三种靶标预测方法的对靶标的综合预测，并给出预测正确的概率。一方面，将基于分子对接的方法、基于药效团模型的方法和基于小分子结构相似性的靶标预测方法相结合，可以发挥了三种方法在靶标预测方面的优势，克服单个方法由于自身局限导致的靶标预测准确度较低的问题；另一方面，该方法最终给出了靶标预测的概率，为进行进一步实验验证提供了有效的依据。

附图说明

图1 集成药物靶标预测系统的工作流程图。

图2 靶标活性位点数据进行对接的打分函数Chemscore打分值的活性分子概率分布曲线图。

图3靶标活性位点数据进行对接的打分函数Goldscore打分值的活性分子概率分布曲线图。

图4靶标的药效团匹配值Fitvalue值的活性分子概率分布曲线图。

图5小分子化合物基于二维指纹图谱的相似性比对相似度量值Tanimoto系数的活性分子概率分布曲线图。

具体实施方式

附图1描述了集成药物靶标预测系统的工作流程图。输入待测药物的化学结构式，该化学结构式为进行了优化后的三维结构。使用构建的脚本程序或Pipeline Pilot流程，分别实现与靶标活性位点数据进行对接并输出打分函数Chemscore的打分值和打分函数Goldscore的打分值，与靶标药效团数据库进行匹配并输出匹配值Fitvalue，与小分子化合物数据库进行基于二维指纹图谱的相似性比对并输出相似度量系数Tanimoto。每个靶标按T1，T2，…命名，每个靶标的Fitvalue值、Chemscore值、Goldscore值和Tanimoto系数值，分别通过各自相应的拟合后的活性分子概率分布曲线图转化为概率。设定P_f1表示待测药物与T1靶标对应药效团匹配Fitvalue值转化后的概率，P_c1表示待测药物与T1靶标对应的活性位点打分函数Chemscore值、P_g1 表示待测药物与T1靶标对应的活性位点打分函数值Goldscore值，P_t1表示待测药物与T1靶标对应的小分子化合物数据库进行基于二维指纹图谱的相似性量值系数。

每个靶标不同方法获得的概率，通过置信理论公式（1）（

）计算总概率P。T1靶标的总概率为P₁ = 1 – (1 – P_f1)×(1 – P_c1)×(1 – P_g1)×(1 – P_t1)。按照总概率P大小进行靶标排序，并结合靶标基本信息数据库中的有关信息最终给出待测药物的潜在作用靶标列表，图1中，用T_x、T_y、T_z、…表示靶标列表。

集成药物靶标预测系统以及集成预测方法的具体实现步骤如下：

（1）收集药物靶标的晶体结构：

分析蛋白质晶体结构数据库PDB(Protein Data Bank)，选取已与类药性配体小分子结合的蛋白质，或具有与小分子配体结合潜能的蛋白质作为靶点。选取类药性配体的条件包括：1）属于有机化合物分子，而非离子型分子；2）氢键供体数目不超过5个；3）氢键受体数目不超过10个；4）分子量在200-700道尔顿之间；5）重原子数目大于6个；6）氮原子数目与氧原子数目之和大于等于1个；7）硫原子数目不超过1个；8）不含磷原子。然后，从加拿大蛋白质结构数据库PDB中导出这些配体对应的蛋白质晶体结构文件（这里包括PDB文件和CIF文件），从CIF文件中提取蛋白质晶体结构的信息，包括蛋白质结构名称、解析精度、生物学功能类别以及复合物中小分子的名称等，并从数据库Pubmed、数据库TTD、数据库DrugBank、数据库ClinicalTrail中收集整理这些蛋白结构的相关疾病、药物研发情况等信息。综合分析这些信息，最终收集了1088个药物靶标。

（2）组建综合药物靶标筛选数据库：

对步骤（1）中收集的1088个药物靶标，组建综合药物靶标筛选数据库。对于同一个靶标，如有多个晶体结构，具体采用如下规则对晶体结构进行挑选：1）对于已经有上市或临床药物的靶标，选择3到5个带有重要配体的晶体结构，含已上市药物或临床药物或结合常数高的化合物；2）对于正在研究的药物靶标，仅选择1个晶体结构；3）选择的晶体结构活性中心周围残基无突变，且无缺失；4）同等情况下，选择精度高的晶体结构。然后，对选取的晶体结构，利用Discovery Studio 3.1软件包分析，建立适合GOLD筛选的靶标活性位点数据库，所有的结构加Charmm力场；使用Catalyst软件分析靶标与配体相互作用，建立基于蛋白-配体相互作用药效团数据库。另外，整理重要的药物靶标结构名称、生物功能类别、相关疾病以及药物研发等信息，建立药物靶标基本信息数据库；并分别收集重要靶标的小分子化合物，建立小分子化合物数据库。

（3）建立基于分子对接、药效团模型和小分子结构相似性的靶标预测系统：基于药效团的靶标预测方法，是通过在Linux系统下构建脚本程序，利用Catalyst软件实现一个小分子化合物与药效团数据库所有药效团自动匹配，并给出相应的匹配值Fitvalue，小分子化合物与药效团自动匹配时参数设置为：1）小分子化合物产生最多250个构象，构象能量不超过20 kcal/mol；2）采用柔性匹配方式；3）忽略匹配的药效团个数项设置为“-1”。基于分子对接的靶标预测方法，同样是通过在Linux系统下构建脚本程序，利用GOLD对接软件实现一个小分子化合物与靶标活性位点数据库靶标活性位点自动对接，给出GOLD对接软件两个重要的打分函数Chemscore和Goldscore的打分值，对接时所有蛋白结构均加Charmm力场。Chemscore和Goldscore两个打分函数为GOLD内置。基于小分子相似性的靶标预测方法，是通过使用Pipeline Pilot 8.5软件构建流程，实现一个化合物与靶标小分子化合物数据库的基于小分子结构指纹图谱ECFP_4相似性比较，并给出相应的Tanimoto系数。

（4）活性分子概率分布曲线的建立：活性分子概率分布曲线的构建是集成药物靶标预测系统构建的最重要环节，是表征分子对接、药效团以及小分子相似性各自评分的预测能力，是为集成这三种方法作铺垫。具体步骤如下：

1）训练集的靶标、活性分子以及非活性分子Decoys的选取。本实施例采用挑选20个不同类型靶标，这20个靶标必须具有至少一个可用的晶体结构且在其结合位点处包含一个配体。定义或Ki值小于1μm的小分子化合物为活性分子，针对这20个蛋白质靶标，分别收集所有活性分子，并分别根据各个靶标的小分子活性化合物集合构建相应的非活性化合物集合Decoys。非活性化合物集合Decoys的选定条件为：具有与活性化合物相似的物理性质，但在化学结构上有一定的差异。所有20个靶标的活性分子及其相应的非活性化合物集合Decoys形成20个训练集。训练集20个靶标具体信息如表1。

表1

靶标	生物类别	PDB 号	精度(?)	药效团特征
					A2aAR	GPCR	3eml	2.6	DHHR
AChE	Hydrolase	1eve	2.5	HPRR
					ADA	Hydrolase	1ndw	2.0	DDHR
ALR2	Oxidoreductase	1ah3	2.3	HHNR
					AR	Nuclear receptor	2ao6	1.9	AAHH
AR-beta2	GPCR	2rh1	2.4	AHHP
					CDK2	Transferase	1ckp	2.0	ADHH
COX-2	Oxidoreductase	1cx2	3.0	AHHHH
					DHFR	Oxidoreductase	3dfr	1.7	DDHNN
fXa	Hydrolase	1z6e	1.8	ADHHHR
					GR	Nuclear receptor	1m2z	2.5	AADDHHHH
HIV-1 RT	Transferase	2zd1	1.8	ADHHHH
					HMGA	Oxidoreductase	1hw8	2.1	AAHHHHHN
HSP90	Chaperone	1uy6	1.9	AAHR
					PARP-1	Transferase	3gn7	2.5	ADHH
PDE5	Hydrolase	1xp0	1.8	ADHHHH
					PNP	Transferase	1b8o	1.5	AAADDD
PPARgamma	Nuclear receptor	3lmp	1.9	AHHH
					Thrombin	Hydrolase	2bdy	1.6	ADHHHHP
VEGFR2	Transferase	2xir	1.5	AAHHH

2）针对20个训练集，分别利用药效团、分子对接和小分子结构相似性三种方法进行筛选，这里采用的方法及其参数，与后续进行靶标预测时一致。例如，使用A2aAR训练集对A2aAR靶标分别使用这三种方法进行筛选。

3）数据的预处理。

集中所有训练集的化合物以及各自评分，包括与靶标活性位点数据进行对接并输出打分函数Chemscore的打分值和打分函数Goldscore的打分值，靶标药效团数据库进行匹配并输出匹配值Fitvalue，与小分子化合物数据库进行基于二维指纹图谱的相似性比对并输出相似度量系数Tanimoto。分别将各个评分所在的区间按照某个给定的间隔划分为若干个小的区间，分别统计出落入每个小区间中的活性分子数目和总的分子数目。总分子数目包括活性分子和非活性化合物集Decoys数目的总和，两数相比的比值即定义为落入这个小区间的活性分子的概率。以基于二维指纹图谱的相似性比对并输出相似度量系数Tanimoto为例，Tanimoto系数值的范围为0到1之间，将此范围分为10个小的区间，然后统计每个小区间内活性分子所占比例，即为活性分子数与活性分子数与非活性化合物集Decoys数之和的比值，这个比值被定义为区间活性分子的概率。

4）活性分子概率分布曲线的拟合公式。

得到预处理的数据后，接下来就对各个评分及其分数段的概率之间的关系进行拟合，即为活性分子概率分布曲线的拟合。根据分数段的概率的大致分布，这里的分布类似于求IC₅₀值的S型曲线，采用改进的S型曲线公式（2）

来进行拟合。公式（2）中，Fmax代表活性分子的最大概率；Fmin代表活性分子的最小概率；SC ₅₀代表二分之一最大概率对应的评分分数，与IC ₅₀值的意义相当；Slope代表了曲线的坡度；x _i代表评分值；Pi代表该评分值下的概率。

5）活性分子概率分布曲线的拟合。

采用参数估值和模型拟合相结合的方法，对如上述改进后的S型曲线公式（2）中的最大概率参数Fmax和最小概率Fmin进行估值，将Fmax和Fmin视为常数，从而将公式（2）转化为线性模型，用最小二乘法进行拟合，进而求出SC ₅₀和Slope的值。对最大概率参数Fmax和最小概率Fmin估值时，我们分别采用穷举法对最小概率参数Fmin取值，采用黄金分割法对最大概率参数Fmax进行优选取值。步骤如下：

步骤一：根据实际情况对最小概率参数Fmin赋初值，该值应当比最小概率参数Fmin实际值小，但不亦太小，节约拟合时间，这里的最小概率参数Fmin由实际意义来确定，它代表的是最小概率。

步骤二：确定最大概率参数Fmax的搜索区间

，

，

则有

，并分别以A ₁和A ₂作为最大概率参数Fmax的估计值。

（3）

步骤四：缩小最大概率参数Fmax的搜索区间，若Q1 < Q2，参数Fmax搜索区间缩小为

，反之缩小为，若最大概率参数Fmax在

内，最大概率参数Fmax的第三个估计值取为

，反之为

通过上述步骤我们分别构建与靶标活性位点数据进行对接打分函数Chemscore和打分函数Goldscore的打分值，小分子化合物与靶标药效团数据库进行匹配的匹配值Fitvalue以及与小分子化合物数据库进行基于二维指纹图谱的相似性比对相似度量值Tanimoto系数的拟合后的活性分子概率分布曲线。这些活性分子概率分布曲线为基于概率的集成策略的实现提供了条件，为集成药物靶标预测系统作了铺垫。

图2—图5分别给出了拟合后的靶标活性位点数据进行对接的打分函数Chemscore打分值的活性分子概率分布曲线图、靶标活性位点数据进行对接的打分函数Goldscore打分值的活性分子概率分布曲线图、靶标的药效团匹配值Fitvalue值的活性分子概率分布曲线图和小分子化合物基于二维指纹图谱的相似性比对相似度量值Tanimoto系数的活性分子概率分布曲线图。各个拟合后的活性分子概率分布曲线参数如表2所示。

表2

（5）集成的药物靶标预测方法：

集成药物靶标预测系统是在全面准确的综合型药物靶标数据库基础之上，采用了基于概率的集成方法实现了综合分子对接、药效团模型和小分子结构相似性三种药物靶标预测方法。本发明采用基于置信理论的统计方法，是将评分通过其概率分布曲线转化为概率，计算各个评分综合总概率，相当于为不同方法的评分赋予了权重，更好地发挥各方法的优势，提高靶标预测能力。

通过如下步骤完成药物靶标预测：

1）在进行靶标预测时，使用构建的脚本程序或Pipeline Pilot流程，分别实现待测药物或小分子化合物与靶标活性位点数据进行对接并输出打分函数Chemscore的打分值和打分函数Goldscore的打分值，与靶标药效团数据库进行匹配并输出匹配值Fitvalue，与小分子化合物数据库进行基于二维指纹图谱的相似性比对并输出相似度量值系数Tanimoto。

2）定义T1，T2，…为综合型靶标数据库中的每个药物靶标，将每个药物靶标Fitvalue值、Chemscore值、Goldscore值和Tanimoto系数值，分别通过相应的活性分子概率分布曲线转化为概率：P_f1代表待测药物与T1靶标对应药效团匹配Fitvalue值转化后的概率，P_c1表示待测药物与T1靶标对应的活性位点打分函数Chemscore值、P_g1 表示待测药物与T1靶标对应的活性位点打分函数值Goldscore值，P_t1表示待测药物与T1靶标对应的小分子化合物数据库进行基于二维指纹图谱的相似性量值系数。

3）每个靶标不同评分获得的概率，通过置信理论公式（1）计算总概率，例如T1靶标的总概率为P₁ = 1 – (1 – P_f1)×(1 – P_c1)×(1 – P_g1)×(1 – P_t1)。

4）按照总概率大小进行靶标排序，总概率值越大代表相应药物靶标成为待测药物的靶标可能性越大，并结合靶标基本信息数据库，最终给出待测药物的潜在作用靶标列表。如图1中T_x、T_y、T_z、… 所示。

Claims

1.一种集成药物靶标预测系统的构建和预测方法，其特征在于：分析蛋白质晶体结构数据库，选取已与类药性配体小分子结合的蛋白质，或具有与小分子配体结合潜能的蛋白质作为靶点，建立靶标的晶体结构数据库，对于同一个靶标，如有多个晶体结构则选取分辨率较高的1个或多个晶体结构拷贝，针对这些靶标，收集其与疾病的相关信息、生物学类别以及活性小分子配体信息，组建由活性位点数据库、药效团数据库、小分子化合物数据库以及靶标基本信息数据库组成的综合型靶标筛选数据库；在综合型靶标筛选数据库基础上，通过脚本程序或Pipeline Pilot流程实现集成分子对接技术、药效团模型和小分子结构相似性三项靶标预测系统的构建，采用基于概率统计的集成方法联合这三项技术实现药物靶标综合预测，并给出该方法的靶标预测准确度的概率；步骤是：

（1）收集药物靶标的晶体结构：

分析蛋白质晶体结构数据库PDB，选取已与类药性配体小分子结合的蛋白质，或具有与小分子配体结合潜能的蛋白质作为靶点，对于同一个靶标，如有多个晶体结构则选取分辨率较高的1个或多个晶体结构拷贝；

（2）组建综合型靶标筛选数据库：

对上述收集的药物靶标，建立靶标活性位点数据库，为基于分子对接的靶标预测提供基础；针对收集的靶标晶体结构，采用基于受体的药效团建模方法建立药效团模型数据库，为基于药效团模型的靶标预测方法提供基础；收集药物靶标的活性小分子配体，建立小分子配体数据库，为基于小分子结构相似性的靶标预测方法提供基础；收集药物靶标结构名称、生物功能类别、相关疾病以及药物研发信息，建立药物靶标基本信息数据库，为靶标预测提供相关信息；

在Linux系统下构建脚本程序，自动调用GOLD对接软件实现一个给定药物分子或活性化合物与靶标数据库的靶标活性位点对接，同时输出打分函数Chemscore和Goldscore的打分值，实现基于分子对接的靶标预测；通过在Linux系统下构建脚本程序，利用Catalyst软件实现一个药物分子或活性化合物与药效团模型数据库所有药效团自动匹配，并输出相应的匹配值Fitvalue，实现基于药效团模型的靶标预测；通过使用Pipeline Pilot8.5软件构建流程，基于小分子结构指纹图谱ECFP_4，计算一个给定药物分子或活性化合物与靶标小分子配体数据库中的化合物的Tanimoto系数，实现基于小分子相似性的靶标预测；

（4）活性分子概率分布曲线的建立：

首先，通过挑选若干个不同类型的靶标，针对每个靶标分别构建活性化合物集合和非活性化合物集合Decoys，组成训练集，利用分子对接、药效团、小分子结构相似性三种方法针对各个靶标及相应训练集进行筛选；集中所有训练集的化合物以及各自评分，包括分子对接打分函数Chemscore的打分值和打分函数Goldscore的打分值、药效团匹配值Fitvalue、小分子化合物与靶标已知活性配体相似性比较系数Tanimoto，分别统计其不同评分分数段活性分子的概率，利用最小二乘法拟合评分与评分分数段的概率之间的关系，得到各自评分的活性分子概率分布曲线；

（5）集成的药物靶标预测：

在进行药物或活性化合物的靶标预测时，分别采用基于分子对接的方法、基于药效团模型的方法和基于小分子结构相似性的方法进行靶标预测，将各评分通过相应的活性分子概率曲线转化为该评分预测正确的概率，然后采用置信理论Belief Theory计算三种方法的综合预测正确的总概率，根据总概率对靶标数据库所有靶标进行排序，排名靠前为预测化合物潜在作用靶标；

集成的药物靶标预测的具体步骤是：

1）通过已建立的基于分子对接、药效团模型和小分子结构相似性的靶标预测系统，分别实现待测药物或活性化合物与靶标活性位点数据进行对接并输出打分函数Chemscore和打分函数Goldscore的打分值，与靶标药效团数据库进行匹配并输出匹配值Fitvalue，与靶标活性配体数据库进行基于二维指纹图谱的相似性比对并输出相似度量值Tanimoto系数；

2）将与靶标活性位点数据进行对接的打分函数Chemscore和打分函数Goldscore的打分值、与靶标药效团数据的匹配值Fitvalue值、与靶标小分子配体数据基于二维指纹图谱的相似性比对相似度量值Tanimoto系数，分别通过各自相应的活性分子概率分布曲线转化为其预测正确的概率；

式中，P表示总概率，P_i表示某靶标不同评分预测正确的概率；

2.如权利要求1所述的集成药物靶标预测系统的构建和预测方法，其特征在于：所述利用最小二乘法拟合评分与评分分数段的概率之间的关系，得到各自评分的活性分子概率分布曲线的步骤如下：

1）数据的预处理：集中所有训练集的化合物以及各自评分，包括对接的打分函数Chemscore和Goldscore的打分值、药效团Fitvalue匹配值、小分子配体基于二维指纹图谱的相似性比对的相似度量值Tanimoto系数；分别将各个评分所在的区间按照某个给定的间隔划分为若干个小的区间，分别统计出落入每个小区间中的活性分子数目和总的分子数目，总分子数目是指活性分子和非活性化合物集合Decoys数目的总和，统计活性分子数目和总的分子数目的比值，将该比值视为的活性分子的概率；

2）活性分子概率分布曲线的拟合公式：对经过预处理的数据，选择修正后S型曲线公式（2）对各个评分及其分数段的概率之间的关系进行拟合，公式（2）为：

式中x_i代表评分值；P_i代表该评分值下的活性分子的概率；Fmax代表最大概率，Fmin代表最小概率，SC₅₀代表二分之一最大概率对应的评分分数，Slope代表了曲线的坡度；

3）活性分子概率分布曲线的拟合：采用参数估值和模型拟合相结合的方法，对公式（2）中的最大概率参数Fmax和最小概率Fmin进行估值，将Fmax和Fmin视为常数，从而将公式（2）转化为线性模型，用最小二乘法进行拟合，进而求出SC₅₀和Slope的值，对最大概率参数Fmax和最小概率Fmin估值时，分别采用穷举法对最小概率参数Fmin取值，采用黄金分割法对最大概率参数Fmax进行优选取值。

3.如权利要求2所述的集成药物靶标预测系统的构建和预测方法，其特征在于：所述在对活性分子概率分布曲线的拟合中，对最小概率参数Fmin穷举取值，对最大概率参数Fmax采取黄金分割法优选取值，然后再转化线性模型，用最小二乘法进行拟合，具体步骤如下：

步骤一：根据实际情况对最小概率Fmin赋初值，该值比Fmin实际值小；

步骤二：确定最大概率参数Fmax的搜索区间[a₀，b₀]，这个区间亦由Fmax的实际意义来确定，为了确定Fmax的值，通过缩小搜索区间的方法实现，首先按照黄金分割法估算Fmax的两个值A₁和A₂：A₁＝a₀+0.382*(b₀-a₀)，A₂＝a₀+0.618*(b₀-a₀)，

则有a₀＜A₁＜A₂＜b₀，并分别以A₁和A₂作为最大概率参数Fmax的估计值；

公式（3）中，x代表评分值，P代表该评分值下的概率，利用最小二乘法可求出参数SC₅₀和 slope的值来，当三个未知参数的值全都估计出来后，求出每组参数值下所对应的残差平方和Q1和Q2；

步骤四：缩小最大概率参数Fmax的搜索区间，若Q1<Q2，参数Fmax搜索区间缩小为，[a₀，A₂]，反之，若Q1>Q2参数Fmax搜索区间缩小为[A₁，b₀];若最大概率参数Fmax在[a₀，A₂]内，最大概率参数Fmax的第三个估计值取为A₃＝a₀+A₂-A₁;按照同样步骤求出参数SC₅₀和slope，并进一步计算出第三个残差平方和Q3的值；若Q3<Q1，最大概率参数Fmax的搜索区间为[a₀，A₁]，反之，若Q3>Q1,最大概率参数Fmax的搜索区间为[A₃，A₂]，以后每次搜索区间中均含有三个点，利用区间两头点相加减去中间保留点的办法确定出新的点，进而进行再次缩小确定出新的搜索区间，如此步骤反复地搜索下去，直到最新得到的搜索区间满足预先设定的精度要求为止，经过这样m次的搜索后，搜索区间长度缩小为Δ＝(0.618)^m *(b₀-a₀)，m为搜索次数；由此，以预先给定的精度来确定需要搜索的次数，并最终确定最大概率参数Fmax、二分之一最大概率对应的评分分数SC₅₀和曲线的坡度slope；

步骤五：根据初步确定的最大概率参数Fmax、最小概率Fmin、二分之一最大概率对应的评分分数SC₅₀和曲线的坡度slope，计算出数据与初步拟合曲线的相关系数R²值；R²计算公式为R²=1-(SSE/SSI)，其中SSE为残差平方和，SSI为数据与平均数之差的平方和；

步骤六：确定下一步搜索的最小概率Fmin值，重复步骤二到五，直至相关系数R²值最大，此时，最大概率Fmax、最小概率Fmin、二分之一最大概率对应的评分分数SC₅₀和曲线的坡度slope确定的曲线为最佳活性分子概率分布曲线。

4.如权利要求1所述的集成药物靶标预测系统的构建和预测方法，其特征在于：所述选取已与类药性配体小分子结合的蛋白质，或具有与小分子配体结合潜能的蛋白质作为靶点，其选取类药性配体的条件包括：1）属于有机化合物分子，而非离子型分子；2）氢键供体数目不超过5个；3）氢键受体数目不超过10个；4）分子量在200-700道尔顿之间；5）重原子数目大于6个；6）氮原子数目与氧原子数目之和大于等于1个；7）硫原子数目不超过1个；8）不含磷原子。

5.如权利要求1所述的集成药物靶标预测系统的构建和预测方法，其特征在于：所述组建综合型靶标筛选数据库，对于同一个靶标，如有多个晶体结构，具体采用如下规则对晶体结构进行挑选：1）对于已经有上市或临床药物的靶标，选择3到5个带有重要配体的晶体结构，含已上市药物或临床药物或结合常数高的化合物；2）对于正在研究的药物靶标，仅选择1个晶体结构；3）选择的晶体结构活性中心周围残基无突变，且无缺失；4）同等情况下，选择精度高的晶体结构。

6.如权利要求1所述的集成药物靶标预测系统的构建和预测方法，其特征在于：所述在收集与疾病的相关信息、生物学类别以及活性小分子配体等信息，组建由活性位点数据库、药效团数据库、小分子化合物数据库以及靶标基本信息数据库组成的综合型靶标筛选数据库中最后确定的药物靶标是1088个。

7.如权利要求1所述的集成药物靶标预测系统的构建和预测方法，其特征在于：所述每个靶标不同评分预测正确的概率，通过置信理论公式计算三种方法综合预测正确的总概率，T1靶标的总概率P₁计算公式为：P₁=1–(1–P_f1)×(1–P_c1)×(1–P_g1)×(1–P_t1)，其中，P_f1代表待测药物与T1靶标对应药效团匹配Fitvalue值预测正确的概率，P_c1表示待测药物与T1靶标对应的活性位点打分函数Chemscore的打分值预测正确的概率、P_g1表示待测药物与T1靶标对应的活性位点打分函数值Goldscore的打分值预测正确的概率，P_t1表示待测药物与T1靶标对应的小分子化合物数据库进行基于二维指纹图谱的相似性量值Tanimoto系数预测正确的概率。

8.如权利要求1所述的集成药物靶标预测系统的构建和预测方法，其特征在于：所述分析蛋白质晶体结构数据库PDB，选取已与类药性配体小分子结合的蛋白质，或具有与小分子配体结合潜能的蛋白质作为靶点，对于同一个靶标，如有多个晶体结构则选取分辨率较高的1个或多个晶体结构拷贝是指如这些结构差异较小，则只选取1个分辨率最高者，否则选取多个晶体结构拷贝。

9.如权利要求1所述的集成药物靶标预测系统的构建和预测方法，其特征在于：所述在活性分子概率分布曲线的建立中通过挑选若干个不同类型的靶标，针对每个靶标分别构建活性化合物集合和非活性化合物集合Decoys，组成训练集，是挑选20个不同类型靶标，这20个靶标必须具有至少一个可用的晶体结构且在其结合位点处包含一个配体。