CN102222178A

CN102222178A - 一种筛选和/或设计针对多靶标的药物的方法

Info

Publication number: CN102222178A
Application number: CN2011101747600A
Authority: CN
Inventors: 蒋宇扬; 陈宇综; 马晓华
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2011-03-31
Filing date: 2011-06-27
Publication date: 2011-10-19
Anticipated expiration: 2031-06-27
Also published as: CN102222178B

Abstract

本发明公开了一种筛选和/或设计针对多靶标的药物的方法。本发明方法包括如下步骤：针对k个靶标，分别记作靶标1、靶标2、…、靶标K，搜寻阳性训练集和阴性训练集；分别基于阳性训练集和阴性训练集，得到多靶标特征；基于所述多靶标特征，用SVM法构建目的筛选模型；用所述目的筛选模型判断待筛选物质是否为同时靶向作用于若干个靶标的药物先导物。本发明方法筛选效率高，在药物的开发设计领域具有广阔的应用前景。

Description

一种筛选和/或设计针对多靶标的药物的方法

技术领域

本发明涉及一种筛选和/或设计针对多靶标的药物的方法。

背景技术

目前，已有许多计算方法用于针对单一靶点的药物分子设计，一些已经广泛应用于单靶点药物先导化合物的发现。其中，最常见的计算方法包括分子对接，药效团方法，构效关系(SAR)，定量构效关系(QSAR)，相似性搜索，机器学习以及以上几种方法的联合应用。最近，主要在基于片段拼接方式和组合方法方式的基础上，以上一些计算方法被发展用于多靶点先导化合物的发现。基于片段拼接的方式是把分别靶向于不同靶点的两个分子的骨架键连起来，组成一个单一分子，但仍保留对原有各自靶点的活性。而组合方法方式则是通过平行应用某一计算方法筛选作用于单靶标的分子，从中选出那些能同时靶向于多靶点的活性先导物。

不过，以上几个方法所采用的参数或训练集都不是专门用于筛选多靶点分子的，它们主要是针对单一靶点的计算机虚拟筛选方法。例如，分子对接的方法主要基于单分子对单分子之间的力场、统计得出的单分子对单分子之间相互作用以及分子间的结合函数。分子对接可以测试分子对单一靶点的活性而不能确定它们对多个靶点可能存在的活性。同样，定量构效关系模型，药效团模型，机器学习回归分析以及分类模型等方法，则是通过把对单一靶点具有活性的分子分成训练集和测试集，虽已被证实对单一靶点有效果，但依然不能确定对多个靶点是否具有活性。对选定的多个靶点均具有活性的多靶点分子数量不足单一靶点活性分子数量的十分之一。因此，在训练集和测试集中单一靶点活性分子占据着绝对的多数。那些用于建立虚拟筛选模型的参数与特征以及模型的预测能力都被证实对训练集的分子组成相当敏感。因此，有必要利用已知多靶点分子对选定靶点的一些特征来开发用于筛选和发现多靶活性分子虚拟筛选的模型，可以显著提高多靶点药物发现的成功率。

发明内容

本发明的一个目的是提供一种筛选同时靶向作用于若干个靶标的药物先导物的方法。

本发明所提供的筛选同时靶向作用于若干个靶标的药物先导物的方法，包括如下步骤：

1)构建训练集：

针对k个靶标，分别记作靶标1、靶标2、…、靶标K，搜寻阳性训练集和阴性训练集，K至少为2，具体如下：

在现有技术中的数据中搜寻能同时作用于所述k个靶标的物质，将这一类物质归为阳性训练集，记作训练集A；

在现有技术中的数据中，分别搜寻只作用于靶标1、靶标2、…或靶标K的物质，将针对靶标1、靶标2、…或靶标K的物质分别归为阴性训练集，阴性训练集B1对应靶标1，阴性训练集B2对应靶标2，…阴性训练集Bk对应靶标k；

在现有技术中的数据中，搜寻不能作用于靶标1的物质，这一类物质记作训练集C1；

在现有技术中的数据中，分别搜寻不能作用于靶标1、靶标2、…或靶标K的物质，将针对靶标1、靶标2、…或靶标K的物质分别归为训练集C1、训练集C2、……或训练集CK；

2)选择特征群1、特征群2、......、特征群k、特征群1-k

I、选择特征群1

第一步：建立训练集

寻找训练集A针对训练集B1的多靶点特征，训练集A和B1表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集A或B1中的样本的特征矢量，y_i表示类标，y_i＝1表示训练集A中的样本，y_i＝-1表示训练集B1中的样本，p表示特征矢量的维数，R^P表示位数为P的实数空间。

第二步：建立SVM模型：

SVM首先通过核函数Φ(x)将训练样本投影到一个高维空间，并计算决策函数f(x)＝<w，Φ(x)>+b。w是超平面的标准向量。

对于线性可分的样本集，采用线性核函数，并使得：y_i[(w·x_i)+b]-1≥0，i＝1，...，N，

在约束条件下最下化目标泛涵。

第三步：建立RFE-SVM特征群选择数学模型：

考虑第i个特征对目标函数J的影响，由泰勒展开可得：

ΔJ (i) = \frac{&PartialD; J}{&PartialD; w_{i}} {Δw}_{i} + \frac{{&PartialD;}^{2} J}{{&PartialD; w}_{i}^{2}} {({Δw}_{i})}^{2} + . . .

在目标函数J的最优点上，一阶项为零，因此只考虑二阶项，同时假设样本集线性可分，可得：ΔJ(i)＝(Δw_i)²当移除第i个特征时，Δw_i＝w_i，因此第i个特征对目标函数的影响大小为：c_i＝(w_i)²。根据ci权值计算特征矢量x_i中的所有特征量的排列准则，去除影响最小的特征量.重复以上步骤，通过循环运算得到余下的特征量即为适用于筛选与靶标1有关的、同时作用于K个靶标的特征群，记作特征群1；

特征群1包括最终选出的排在前1％-10％的对区别训练集A和训练集B1有最大贡献的特征量；所述影响最小的特征量为排在最后10％的特征量；

II、选择特征群2

将训练集B1替换成训练集B2，其余方法与步骤I中所述相同；得到特征群2；用于筛选与靶标2有关的、同时作用于K个靶标的特征群，记作特征群2；

……

K、选择特征群K

将训练集B1替换成训练集Bk，其余方法与步骤I中所述相同；得到特征群2k；

用于筛选与靶标K有关的、同时作用于K个靶标的特征群，记作特征群K；

K+1、选择特征群1-k

特征群1、特征群2、……和特征群K共有的特征即为特征群1-k；

3)建立筛选模型

第一步：

训练集A和B1合为训练集AB1，作为阳性训练集；训练集C1作为阴性训练集；以所述特征群1来建立训练集AB1和C1中的样本的特征矢量，训练集AB1和C1可表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集AB1或C1中的样本的特征群1所组成的特征矢量，y_i表示类标，标类y_i＝1表示表示训练集AB1中的样本，y_i＝-1表示表示训练集C1中的样本；建立作用于靶标1的SVM筛选模型，记作SVM筛选模型1；

第二至第K步：用第一步中的方法以此类推建立作用于靶标2、靶标3、...、靶标K的SVM筛选模型，依次记作SVM筛选模型2、SVM筛选模型3、…、SVM筛选模型K；

第K+1步：训练集A作为阳性训练集，训练集B1，B2，B3，...和Bk合为训练集B1-K，作为阴性训练集，以特征群1-k来建立训练集A和B1-K中的样本的特征矢量，训练集A和B1-K可表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集A或B1-K中的样本的特征群1-k所组成的特征矢量，y_i表示类标，标类y_i＝1表示表示训练集A中的样本，y_i＝-1表示表示训练集B1-K中的样本；建立同时作用于所述K个靶标的SVM筛选模型，记作SVM筛选模型K+1；

4)用所述目的筛选模型判断待筛选物质是否为同时靶向作用于若干个靶标的药物先导物：

第一步：

对于每一个待筛选的分子，特征群1，特征群2，...，特征群K，特征群1-k作为其特征矢量，

将所述待筛选的分子的特征群1代入SVM筛选模型1，进行计算；若结果符合如下条件i，则确认该待筛选分子为靶向作用于靶标1的药物先导物；若结果符合如下条件ii，则确认该待筛选分子不是靶向作用于靶标1的药物先导物；

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

其中，xi是特征群1中的特征向量，yi是分组指数，w是超平面的标准向量，|b|/||w||是原点到超平面的垂直距离，||w||是w的欧式距离；w和b的值由如下公式确定：

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

第二步：

将所述待筛选的分子的特征群2代入SVM筛选模型2，进行计算；若结果符合如下条件i，则确认该待筛选分子为靶向作用于靶标2的药物先导物；若结果符合如下条件ii，则确认该待筛选分子不是靶向作用于靶标2的药物先导物；

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

其中，xi是特征群2中的特征向量，yi是分组指数，w是超平面的标准向量，|b|/||w||是原点到超平面的垂直距离，||w||是w的欧式距离；w和b的值由如下公式确定：

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

……；

第K步：

将所述待筛选的分子的特征群K代入SVM筛选模型K，进行计算；若结果符合如下条件i，则确认该待筛选分子为靶向作用于靶标K的药物先导物；若结果符合如下条件ii，则确认该待筛选分子不是靶向作用于靶标K的药物先导物；

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

其中，xi是特征群K中的特征向量，yi是分组指数，w是超平面的标准向量，|b|/||w||是原点到超平面的垂直距离，||w||是w的欧式距离；w和b的值由如下公式确定：

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

第K+1步：

如果所述待筛选的分子为同时靶向作用于靶标1、靶标2、…和靶标K的药物先导物，将所述待筛选的分子的特征群1-k代入SVM筛选模型K+1，进行计算；若结果符合如下条件i，则确认该待筛选分子为目的多靶点药物先导物；

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

若所述待筛选分子为靶向作用于靶标1、靶标2、…和靶标K的药物先导物，则确认所述为候选的同时靶向作用于所述K个靶标的药物先导物。

本发明的另一个目的是提供一种筛选和/或设计同时靶向作用于若干个靶标的药物的方法。

本发明所提供的筛选和/或设计同时靶向作用于若干个靶标的药物的方法，包括如下步骤：

1)按照上述方法筛选得到同时靶向作用于若干个靶标的药物先导物的集合，记作药物先导物群I；

2)利用分子对接方法、药效团模型方法、定量构效模型方法和/或机器学习方法从所述药物先导物群I中筛选和/或设计出同时靶向作用于所述若干个靶标的药物先导物；

3)制备得到步骤2)中所述药物先导物；

4)将步骤3)所述药物先导物进行生物学检测，通过生物学检测的药物先导物即为目的同时靶向作用于所述若干个靶标的药物。

这项发明涉及发现选择多靶点特征并整合到虚拟筛选工具中，以此来进行多靶点药物的搜索和发现。

针对一组蛋白和核酸的多靶点药物设计为例，需要收集到3组训练集：第一组训练集是多靶点活性的分子(A组)，第二组是针对各自单靶点有活性的分子，(B1对应靶点1，B2对应靶点2，…Bk对应靶点k)，第三组是对已知的多靶点没有活性的分子(C组)。通过把A组设为阳性训练集，把B1组，B2组，…Bk组和各组的组合sets＝setB1+setB2+…setBk，分别作为阴性训练集，多靶点特征和单靶点特征就可以被区分出来。关于多靶点分子对无活性的分子的多靶点特征能够用A组数据作为阳性数据集，C组数据作为阴性数据集推出。

每个阳性和阴性数据集被随机分成一个训练集对(包含一半的数据)和一个相应的测试数据集对(包含另一半数据)。通过反复使用随机抽样，多重训练测试集对，每对包含一个专有的样品组合。然后基于两类或者多类的一致打分分类系统，每个训练-测试集被用来发现选择多靶点特征。首选的分类方法是监督机器学习方法。监督机器学习方法一般可以得到较好的分类结果，对于小数据量体系结果更稳定。支持向量机(SVM)是一个特别的机器学习方法，除了具有突出的分类表现、样品冗余受惩罚较少外，能降低过度拟合带来的风险。

对于训练和测试集对中的每个分子，计算下面的一个或者多个的组合特征集：

特征集1：使用分子对接工具得到分子力作用的能量项

特征集2：统计得到相互作用函数来打分一些分子对接工具中的分子结合力

特征集3：由药效团构建工具得到和已经应用的药效团特征

特征集4：由QSAR(定量构效关系)模建工具得到和应用的拓扑性质、量子化学性质和物理化学特征

特征集5：由相似性搜索工具得到和已经应用的分子指纹特征

特征集6：得到拓扑性质、量子化学性质、物理化学特征，并用于机器学习模建工具

特征集7：特征集1，2，3，4，5，6的任意组合

利用一个或者多个组合的特征集表征每个分子的特征向量。通过典型的特征选择方法如包装法之一的支持向量机递归特征消除法(RFE-SVM)，从训练-测试集对的特征向量中选择相应的单靶点特征或者非活性分子的多靶点特征。包装法通过分类差异化系统中的特征排序函数，逐步消除非多靶点特征，从而选择多靶点特征。包装法通常比其它特征选择方法表现更好，而RFE-SVM法是包装法中表现最好的方法，应用非常广泛，而且可以快速的从上千的特征中进行特征选择。

首先，SVM通过一个核心函数

把特征向量投影到一个高维度的特征空间。线性的SVM程序可以应用在这个特征空间的特征向量。它构建了一个超平面，最大限度的区分两类不同的特征向量。构建这个超平面通过寻找向量w和变量b使||w||²最小化，符合如下条件：

w·xi+b≥+1，yi＝+1(阳性样品)

w·xi+b≤-1，yi＝-1(阴性样品).

其中，xi是特征向量，yi是分组指数，w是超平面的标准向量，|b|/||w||是原点到超平面的垂直距离，||w||是w的欧式距离。w和b确定后，已知向量x通过符号[(w·x)+b]来分类，得到的向量x的正负值表征样品的阳性、阴性类别。

RFE-SVM的排序标准是基于消除每个特征后目标函数的变化。为了提高训练的效率，目标函数由消耗函数J来代表，消耗函数仅利用训练集数据来计算kth特征。当给定特征被去除或其加权w_k减少到0时，消耗函数J(k)的变化规定为

Dw_k＝w_k-0，相当于特征k的消除。消耗函数的变化能由DJ(k)＝(1/2)α^THα-(1/2)α^TH(-k)α来估算，这里矩阵H的元素是使用同样的方法计算出矩阵H(-k)，正如矩阵H而非其消除的kth。消耗函数的变化显示特征对判定函数的贡献和指示基因排序位置。

由于弱信号或特征向量的噪音，在常规RFE程序之上实施了额外的特征排序一致性评价步骤，以消除多靶点特征错误消除的几率。

步骤1，对于每个测试的数据集对，挑选出了排列于底部(比如从10％到40％)特征的子集和组合分数低于第一但少数被认为最佳的特征，以致这些特征的组合贡献将较少可能超过排序更高的特征。

步骤2，对于每个测试的数据集对，我们进一步评估了步骤1的筛选出来的特征，选择那些在前一轮中没有被排列在靠前的部分(比如前50％)，以保证这些特征能一致的保持较低的排序。

步骤3，一个统一的打分组合应用于步骤2所挑选的特征，以保证只消除那些在多重测试数据集对中一直排序较低的特征。

我们揭示的特征选择方法选择出的多靶点特征可以整合进虚拟筛选工具，具体的虚拟筛选方法阐释如下：

分子对接：分子对接是一种广泛使用的计算方法，它是通过几何学原理将小分子对接到一个预先选择靶标位置的有三维结构的蛋白质来识别药物先导化合物，然后基于化学互补和分子相互作用来优化结合构型和评价结合的可行性。

这种方法不需要结构特征和活性化合物分子骨架的相关知识，但有时这种方法由于有一些局限性也可能限制了某些能力，即不能完全揭示靶点结构柔性、某些对药物结合(如多靶点药物结合的)重要的物理化学特征。我们将多靶点特征整合进分子对接的打分过程，如下：从特征集1(在分子对接工具中产生和使用的分子力相互作用能)和特征集2(统计得到的分子相互结合能，在某些分子对接工具中打分分子结合力)中发现的多靶点特征能被直接用于构建打分函数，像常规的打分函数一样用于排列对接分子。这种排序方法与那些通过传统打分函数相结合，可以用来选择那些基于多靶点特征的打分函数打分较高的多靶点特征分子，也能非常合理根据排序找到潜在的多靶点药物先导化合物。

药效团：药效团方法被广泛地应用于识别先导化合物，通过匹配分子和一系列立体和电子特征以确保与靶点有最佳相互作用，可以触发(或阻止)靶点的生物反应。药效团特征可以由基于配体的方法或基于结构的方法得到。基于配体的方法通过叠加一系列活性分子，随后提取出它们共同的，对结合活性重要的化学特征。基于结构的方法是通过探测靶点和配体之间可能的相互作用点来获取药效团特征。经由特征集3得出的多靶点特征(药效团特征的产生并用于药效模型工具)，连同那些由常规方法得出的单个靶点的关键特征可以直接作为药效团特征，用于构建药效团模型。

定量构效关系：另一种流行的计算方法即定量构效关系的方法，是在分子结构和活性统计数据的显著关系基础上定量评估靶点活性来确定先导化合物。分子结构通过分子的拓扑性质，量子化学性质、理化性质、它们的取代基或者与结合能力密切相关的相互作用能等典型特征来描述。经由特征集4得出的多靶点特征(通过定量构效关系得出的拓扑性质、量化性质、理化性质以及由传统方法得出的单个靶点的关键特征，可直接作为分子的描述符用于构造定量构效关系模型)。

机器学习方法：最近，机器学习方法已被开发成药物先导化合物发现的工具。这些方法是通过在已知活性和非活性化合物的结构和理化性质基础上，统计分析分子结构与活性之间的本质关系来确定先导药物。回归方法可以被整合到这些方法中用于估计预测活性水平。机器学习方法利用非线性监督学习算法而不是用传统的定量构效关系模型来提高统计模型能力，以预测发现更加多样化的分子结构和理化性质，这种方法特别适用于筛选特别大的化合物库以及确定新的骨架结构，也可以很好地作为其他常规先导药物发现工具的辅助工具。已开发的机器学习方法包括逻辑回归分析，线性判别分析，k-近邻法，二进制内判别，朴素贝叶斯算法，决策树，随机森林，人工神经网络(包括多层感知器，径向基函数和概率神经网络)以及支持向量机方法。经由特征集6得出的多靶点特征(包括通过机器学习建模工具产生和使用的拓扑性质，量子化学和理化性质)和特征集7(特征集1，特征集2，...，特征集6的任意组合)以及由常规法产生的关键的单靶点特征可直接用作输入特征向量，用来建立那些用于识别多靶点分子的机器学习回归方法或者分类模型。

本发明涉及多靶点特征的发现选择和整合多靶点特征到虚拟筛选工具中，以此来搜寻和发现靶向于多靶蛋白和核酸的多靶活性小分子药物的方法。这一领域被称为“计算机辅助分子设计”(CAMD)。当将其用于药物发现时，这个领域被称为“计算机辅助药物设计”(CADD)。

计算机选择分子的多靶点特征及整合多靶点特征到虚拟筛选工具的可行性分析：

计算机选择出多靶点分子特征的可行性依赖两个条件：1)对足够数量的靶点组合有足够多样化的多靶点分子集合；2)需要足够准确和快速的特征选择计算方法，可以从上千个的分子特征中找出多靶点分子的特征。下面将叙述如何满足以上两个条件。

最近，对11个激酶组合的双重激酶抑制剂分析表明，他们有大约30-100个双重激酶抑制剂。类似数量的双重抑制剂也被发现在其他的一些靶点组合中，例如羟色胺和去甲肾上腺素的重吸收，5HT1和羟色胺的重吸收，H3和羟色胺的重吸收，Cox2和5Lox以及其他一些靶点组合。一般以16-100个的活性化合物作为训练集就可以用来开发出虚拟筛选工具。因此，对许多靶点组合而言，有足够数量的多靶点分子可用于发现选择多靶点的特征并开发出合适的虚拟筛选工具。而且，特征选择方法如支持向量机的递归特征消除法(RFE-SVM)在大量应用中已显示出很好的特征选择性，并能快速地从上千个的分子特征中识别多靶点的分子特征。

本发明方法筛选效率高，在药物的开发设计领域具有广阔的应用前景。

具体实施方式

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、本发明筛选方法——针对激酶组合Abl-FGFR的药物先导物筛选

一、构建训练集

对于激酶组合Abl-FGFR，一个靶标是Abl(记作靶标K1)，另一个靶标是FGFR(记作靶标K2)；

在现有技术中的数据中，搜寻能同时作用于K1和K2的物质，这一类物质即为双重抑制剂，将这一类物质归为阳性训练集，记作训练集A；

在现有技术中的数据中，搜寻能只作用于K1的物质，这一类物质即为抑制K1而不抑制K2的抑制剂，将这一类物质归为阴性训练集，记作训练集B1；

在现有技术中的数据中，搜寻能只作用于K2的物质，这一类物质即为抑制K2而不抑制K1的抑制剂，将这一类物质归为阴性训练集，记作训练集B2；

在现有技术中的数据中，搜寻不能作用于K1的物质，这一类物质记作训练集C1；

在现有技术中的数据中，搜寻不能作用于K2的物质，这一类物质记作训练集C2；

二、选择多靶特征

(一)寻找训练集A针对训练集B1的Abl-FGFR的多靶点特征

第一步：建立训练集

寻找训练集A针对训练集B1的Abl-FGFR的多靶点特征，训练集A和B1可表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集A或B1中的样本的特征矢量(本实例x_i为分子描述符或指纹图谱，分子描述符包括(1)分子整体特征如分子量和可旋转化学键个数等，(2)分子的几何和拓扑特征，(3)分子内部原子连接方式，(4)物化特征如疏水性面积等，(5)电子特征如带电量和诱导电极化率等，(6)量化特征如分子轨道能量电子能量等，指纹图谱包含各种分子子结构的结构信息)，y_i表示类标，y_i＝1表示训练集A中的样本，y_i＝-1表示训练集B1中的样本，p表示特征矢量的维数(本实例p为分子描述符或指纹图谱分量的个数，如果使用分子描述符p的数值通常为100-3000，如果使用指纹图谱p的数值通常为700-2000)，R^P表示位数为P的实数空间。

第二步：建立SVM模型：

在约束条件下最下化目标泛涵。

第三步：建立RFE-SVM特征群选择数学模型：

考虑第i个特征对目标函数J的影响，由泰勒展开可得：

ΔJ (i) = \frac{&PartialD; J}{&PartialD; w_{i}} {Δw}_{i} + \frac{{&PartialD;}^{2} J}{{&PartialD; w}_{i}^{2}} {({Δw}_{i})}^{2} + . . .

在目标函数J的最优点上，一阶项为零，因此只考虑二阶项，同时假设样本集线性可分，可得：ΔJ(i)＝(Δw_i)²当移除第i个特征时，Δw_i＝w_i，因此第i个特征对目标函数的影响大小为：c_i＝(w_i)²。根据ci权值计算特征矢量x_i中的所有特征量的排列准则，去除影响最小的特征量(比如排在最后10％的特征量).重复以上步骤，通过循环运算得到余下的特征量即为适用于筛选与靶标k1有关的、同时作用于k1和k2的特征群，记作特征群1。特征群1通常包括最终选出的排在前1％-10％的对区别训练集A和训练集B1有最大贡献的特征量。

(二)寻找训练集A针对训练集B2的Abl-FGFR的多靶点特征

方法与实验(一)中基本相同，不同的是将训练集B1替换成训练集B2。得到适用于筛选与靶标k2有关的、同时作用于k1和k2的特征群，记作特征群2。特征群2通常包括最终选出的排在前1％-10％的对区别训练集A和训练集B2有最大贡献的特征量。

(三)选择特征群1和特征群2共同的特征

选择并分析步骤(一)和步骤(二)找出的两组多靶点特征中的特征得到激酶K1和K2的双重抑制剂的多靶特征(即步骤(一)和步骤(二)中共有的多靶特征)，记作特征群3。

三、建立筛选模型

(一)建立激酶K1抑制剂的SVM筛选模型；

第一步：建立训练集

训练集A和B1合为训练集AB1(靶标1的单靶和多靶抑制剂和集，作为阳性训练集)，训练集C1为靶标1非抑制剂，作为阴性训练集。以步骤二中步骤(一)选出的特征群1来建立训练集AB1和C1中的样本的特征矢量，训练集AB1和C1可表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集AB1或C1中的样本的特征群1所组成的特征矢量，y_i表示类标，y_i＝1表示表示训练集AB1中的样本，y_i＝-1表示表示训练集C1中的样本；

第二步：建立靶标1抑制剂的SVM筛选模型；将建立的SVM筛选模型记作SVM筛选模型1.

(二)建立激酶K1抑制剂的SVM筛选模型；

第一步：建立训练集

训练集A和B2合为训练集AB2(靶标2的单靶和多靶抑制剂和集，作为阳性训练集)，训练集C2为靶标2非抑制剂，作为阴性训练集。以步骤二中步骤(二)选出的特征群2来建立训练集AB2和C2中的样本的特征矢量，训练集AB2和C2可表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集AB2或C2中的样本的特征群2所组成的特征矢量，y_i表示类标，标类y_i＝1表示表示训练集AB2中的样本，y_i＝-1表示表示训练集C2中的样本；

第二步：建立靶标2抑制剂的SVM筛选模型；将建立的SVM筛选模型记作SVM筛选模型2.

(三)建立从激酶K1抑制剂和激酶K2抑制剂中分离出靶标1和2多靶点抑制剂的SVM筛选模型；

第一步：建立训练集

训练集A(靶标1和2的多靶抑制剂和集)作为阳性训练集，训练集B1和B2合为训练集B1B2，作为阴性训练集。以步骤二中步骤(三)选出的特征群3来建立训练集A和B1B2中的样本的特征矢量，训练集A和B1B2可表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集A或B1B2中的样本的特征群3所组成的特征矢量，y_i表示类标，标类y_i＝1表示表示训练集A中的样本，y_i＝-1表示表示训练集B1B2中的样本；

第二步：建立从激酶K1抑制剂和激酶K2抑制剂中分离出靶标1和2多靶点抑制剂的SVM筛选模型，将建立的SVM筛选模型记作SVM筛选模型3.

四、检测每个待筛选分子

对于每一个待筛选的分子，将特征群1，特征群2，和特征群3作为其特征向量，分别代入步骤三得到的各个筛选模型，如果该待筛选分子通过SVM筛选模型1和SVM筛选模型2，即被认为是激酶K1和K2的双重抑制剂，如果该待筛选分子进一步通过SVM筛选模型3，即被认为是同激酶K1和K2单靶点的抑制剂有极大差异的双重抑制剂，如果该待筛选分子仅通过SVM模型1或模型2即被认为是激酶K1或激酶K2的单靶抑制剂。

对于靶标n(n＝1，2)的SVM，若结果符合如下条件i，则确认所筛选物质为靶向作用于所述靶标n的药物先导物；若结果符合如下条件ii，则确认所筛选物质不是靶向作用于靶标n的药物先导物；

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

其中，xi是特征向量，yi是分组指数，w是超平面的标准向量，|b|/||w||是原点到超平面的垂直距离，||w||是w的欧式距离；对于一个待筛选的分子来讲，再用靶标n的SVM筛选模型检验时，xi是特征描述符特征群n，w和b的值由如下公式确定：

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

具体步骤如下：

1、将待筛选分子的特征描述符特征群1代入SVM筛选模型1，进行计算，若结果符合如下条件i，则确认该待筛选分子为靶向作用于k1的药物先导物；若结果符合如下条件ii，则确认该待筛选分子不是靶向作用于k1的药物先导物；

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

其中，xi是特征向量，yi是分组指数，w是超平面的标准向量，|b|/||w||是原点到超平面的垂直距离，||w||是w的欧式距离；w和b的值由如下公式确定：

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

2、按照步骤1同样的方法，判断该待筛选分子是否是靶向作用于k2的药物先导物。

3、按照步骤1同样的方法，判断该待筛选分子是否是靶向作用于k1和k2的药物先导物。

五、筛选结果：如表3所示。

实施例2、用没有做多靶点特征选择而建立的SVM模型进行筛选

(一)SVM模型的构建步骤

步骤I：

步骤II：

训练集A和B1合为训练集AB1(激酶K1的单靶和多靶抑制剂和集)，训练集C1为激酶K1非抑制剂，以分子描述符或指纹图谱来建立训练集AB1和C1中的样本的特征矢量，训练集AB1和C1可表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集AB1或C1中的样本的特征矢量(在本实例中为分子描述符或指纹图谱)，y_i表示类标，标类y_i＝1表示表示训练集AB1中的样本，y_i＝-1表示表示训练集C1中的样本；建立激酶K1抑制剂的SVM筛选模型；

步骤III：

训练集A和B2合为训练集AB2(激酶K2的单靶和多靶抑制剂和集)，训练集C2为激酶K2非抑制剂，以分子描述符或指纹图谱来建立训练集AB2和C2中的样本的特征矢量，训练集AB2和C2可表述为{x_i，y_i}∈R^p×{-1，+1}，其中x_i表示训练集AB2或C2中的样本的特征矢量(在本实例中分子描述符或指纹图谱)，y_i表示类标，标类y_i＝1表示表示训练集AB2中的样本，y_i＝-1表示表示训练集C2中的样本；建立激酶K2抑制剂的SVM筛选模型；

模型如下：

SVM模型：

对于线性可分的样本集，采用线性核函数，并使得：在约

J = \frac{1}{2} {| | w | |}^{2}

束条件下最下化目标泛涵

如果样本集不是线性完全可分的，约束条件变为y_i[(w·x_i)+b]-1+ξ_i≥0，i＝1，...，N，同时优化的目标为其中常数C＞0，控制错分样本的惩

罚程度。

(二)、用模型进行筛选

对于每一个待筛选的分子，以分子描述符或指纹图谱来建立其特征矢量，再分别用步骤II所建立激酶K1抑制剂的SVM筛选模型和步骤III所建立激酶K2抑制剂的SVM筛选模型检验其是否为K1抑制剂和K2抑制剂.如果待筛选的分子通过两个SVM，即被认为是激酶K1和K2的双重抑制剂，如果待筛选的分子通过一个SVM即被认为是激酶K1或激酶K2的单靶抑制剂

(三)筛选结果：如表3所示。

表3、两种模型的效果比较

两种方法的预测准确度，用总预测精度和马修斯(Matthews)相关系数表示。

总预测精度Q＝(TP+TN)/(TP+TN+FP+FN)；

马修斯(Matthews)相关系数

C = \frac{TP \times TN - FN \times FP}{\sqrt{(TP + FN) (TP + FP) (TN + FN) (TN + FP)}}

比较结果表明，在保持同样好的单靶点抑制剂预测效能情况下，多靶点特征筛选显著提高了～13％的双靶点抑制剂的预测能力。所以本发明的多靶点特征筛选方法以及将筛选得到多靶点特征整合进虚拟筛选工具的方法，在多靶点药物先导化合物的研发和优化中是极其有用的。

Claims

1.一种筛选同时靶向作用于若干个靶标的药物先导物的方法，包括如下步骤：

1)构建训练集：

2)选择特征群1、特征群2、......、特征群k、特征群1-k

I、选择特征群1

第一步：建立训练集

第二步：建立SVM模型：

在约束条件下最下化目标泛涵。

第三步：建立RFE-SVM特征群选择数学模型：

考虑第i个特征对目标函数J的影响，由泰勒展开可得：

ΔJ (i) = \frac{&PartialD; J}{&PartialD; w_{i}} {Δw}_{i} + \frac{{&PartialD;}^{2} J}{{&PartialD; w}_{i}^{2}} {({Δw}_{i})}^{2} + . . .

II、选择特征群2

……

K、选择特征群K

K+1、选择特征群1-k

3)建立筛选模型

第一步：

第K+1步：训练集A作为阳性训练集，训练集B1，B2，B3，...和Bk合为训练集B1-K，作为阴性训练集，以特征群1-k来建立训练集A和B1-K中的样本的特征矢量，训练集A和B1-K可表述为{x_i，y_i}∈R^p×{-1，+1}，其中xi表示训练集A或B1-K中的样本的特征群1-k所组成的特征矢量，y_i表示类标，标类y_i＝1表示表示训练集A中的样本，y_i＝-1表示表示训练集B1-K中的样本；建立同时作用于所述K个靶标的SVM筛选模型，记作SVM筛选模型K+1；

第一步：

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

第二步：

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

……；

第K步：

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

第K+1步：

i：w·xi+b≥+1，yi＝+1

ii：w·xi+b≤-1，yi＝-1

w = Σ_{i = 1}^{n} α_{i} c_{i} x_{i};

b = \frac{1}{N_{SV}} Σ_{i = 1}^{N_{SV}} (w \cdot x_{i} - c_{i})

2.一种筛选和/或设计同时靶向作用于若干个靶标的药物的方法，包括如下步骤：

1)按照权利要求1所述方法筛选得到同时靶向作用于若干个靶标的药物先导物的集合，记作药物先导物群I；

3)制备得到步骤2)中所述药物先导物；