CN105447322A

CN105447322A - 一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法

Info

Publication number: CN105447322A
Application number: CN201510919482.5A
Authority: CN
Inventors: 谭建军; 韩晓丁; 李春华; 张小轶; 王存新
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2016-03-30

Abstract

一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法，属于生物信息学领域。发明内容包括获取抗病毒类药物的分子描述符数据集，通过医学统计软件SPSS及偏最小二乘法组合遗传算法(GA-PLS)对数据集进行筛选，将已筛选好的数据集输入到Matlab中，利用支持向量机的方法建立回归模型。本发明利用药物的分子描述符和对应的K_off值建立了回归预测模型，用简单实用的方法实现了K_off值的预测，本发明可以推动化学结构与结合动力学关系的研究进程，提高药物研发的研发效率，从而降低研发成本。

Description

一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法

技术领域

本发明涉及一种基于支持向量机(SupportVectorMachine，SVM)对抗病毒类抑制剂离解速率(K_off)值的进行预测的方法，属于生物信息学领域。

背景技术

近年来，在新药的创制和研究过程中，药物和靶标之间的动力学性质越来越受到人们的关注。动力学性质是一种与体内药效和安全性密切相关的活性特征。在新药的研制过程中，化合物的离解常数(K_d)或IC₅₀值是在封闭系统的平衡状态下测定的，而药物在体内处于开放系统，浓度和环境在不断的变化，K_d或IC₅₀值不能够完全反映体内药物与靶标结合的实际状态。所以，我们并不能把K_d和IC₅₀值作为筛选药物的唯一标准。而复合物的K_off不受游离药物浓度的影响，具有慢离解速率即长驻留时间的药物与药物作用的持续时间、选择性作用和安全性有重要关联性。所以，复合物的K_off成为筛选新药的一个重要指标。

上市药物中已经发现了由于复合物的结合动力学不佳而导致药效不佳的药物。如2012年被美国FDA(FoodandDrugAdministration)批准上市的噻托溴铵(tiotropiumbromide)，该药呈吸入性粉末状，用于治疗慢性阻塞性肺病，患者只需每天吸入1次，每次用量在18μg，药效可持续作用24h。而同类治疗药异丙托溴铵(ipratropiumbromide)患者每日需吸入4-6次，而且每次剂量都在40-80μg。这两种药物同属于莨菪醇酯的季铵类乙酰胆碱毒蕈碱M3型受体的选择性拮抗剂，用法上存在了很大的差别。同样，沙格列汀(saxagliptin)和维格列汀(vildagliptin)同属于二肽基肽酶IV(DPP-4)抑制剂，可提高内源性胰高血糖素样肽-1(glucagon-likepeptide-1，GLP-1)和葡萄糖依赖性促胰岛素释放多肽(glucose-dependentinsulinotropic，peptide，GIP)水平，从而调节血糖，治疗2型糖尿病。沙格列汀和维格列汀与DPP-4形成复合物的半衰期分别为5.1和11.7min，相差26倍，沙格列汀的降糖作用和持续时间明显强于维格列汀，患者每日仅需口服沙格列汀5mg，而需要口服维格列汀50mg。由上面两例而知复合物的离解速率K_off越慢，意味着化合物占据受体的时间越长，维持体内的药理作用的时间也就越长，药效就会更好。

当前，化合物结构与结合-离解速率之间关系的研究仍然处于起步阶段。化合物和受体结合和离解动力学的过程比较复杂，由于诱导契合和构象选择，蛋白发生基团取向的变化、肽链的移动或结合腔穴的变化等，单靠配体的化学结构难以预测和揭示规律性。捕捉瞬间的动态变化比处理平衡状态下的热力学结果在方法学上要复杂的多。Miller等对2000余个GPCR和激酶抑制剂的动力学数据进行了分析，将离解速率常数分为了3类：①快速离解(t_1/2(DR)<15min)。②慢速离解(t_1/2(DR)>2h)。③中速离解速率。归纳出以下要点：①随着相对分子质量增大，慢速和中速离解的化合物较多，例如Ⅱ型激酶抑制剂多为线型分子，相对分子质量较大，结合于铰链区，并使用DEF环套移动出结合腔，因而大多为慢速离解性化合物。②高疏水性化合物(clogP>5)多属于慢速或中速离解，clogP<1的慢速离解化合物主要是含季铵基团的M3受体拮抗剂。③旋转性键多的化合物趋于慢速或中速离解。④可离解性。弱酸或弱碱在生理pH环境中部分离解，表现在对结合动力学上为弱酸类化合物多呈现慢速或中速离解速率，弱碱性物质减少慢速离解。

支持向量机是一种无监督的机器学习方法，广泛运用于分类和回归。支持向量机在生物信息学中的应用范围广泛，包括药物设计(如区分配体和非配体，抑制剂与非抑制剂等)，定量构效关系，如支持向量机回归可以用于预测化合物浓度等，以及文本挖掘(文献信息的自动识别)。支持向量机算法由Vapnik和lerner建立，并作为非线性模型的一种延伸。它是基于统计学习理论和Vapnik-Chervonenkis(VC)维理论，并以结构风险最小化为原则。其中，线性支持向量机分类是支持向量机算法中最常见的一种，它的目的在于建立一个决策超平面以使分类边缘最大化，即超平面到每一类中最近的向量之间的距离最大化。这种方法建立了一个分类器公式用于约束优化问题。最重要的是，这种目标函数与神经网络不同之处在于其单向性，因而可以有效的优化以达到全局最优化。

在早期新药研发的过程中，由于没有考虑复合物的结合动力学，单单只靠化合物的K_d或IC₅₀值作为筛选药物的标准，很有可能淘汰了很多亲和力稍微逊色但是离解速率慢的化合物，造成药物研发中的损失。所以，将分子结构与其离解速率的研究尽快应用到新药研发中来显得尤为迫切。

参考文献

[1]PANAC,BORHANIDW,DRORRO,etal.Moleculardeterminantsofdrug-receptorbindingkinetics[J].DrugDiscovToday,2013,18(13-14):667-673.

[2]COPELANDRA.Conformationaladaptationindrug-targetinteractionsandresidencetime[J].FutureMedChem,2014,3(12):1491-1501.

[3]BAIF,XUYC,CHENJ,etal.FreeenergylandscapeforthebingdingprocessofhuperzineAtoacetycholinesterase[J].ProcNatAcadSciUSA,2013,110(11):4273-4278.

[4]BAIF,XUYC,CHENj,etal.FreeenergylandscapeforthebindingprocessofhuperzineAtoacetylcholinesterase[J].ProcNatAcadSciUSA,2013,110(11):4273-4278.

[5]DRORRO,PANAC,ARLOWDH,etal.PathwayandmechanismofdrugbindingtoG-protein-coupledreceptors[J].ProcNatlAcadSciUSA,2015,108(32):13118-13123.

[6]BELOUSOVAI,VERZAKOVSA,FRESEJV.Aflexibleclassificationapproachwithoptimalgeneralizationperformance:supportvectormachines[J].ChemomIntellLabSyst,2012,64(1):15-25.

[7]ZHUJ,LuW,LiuL,GuT,NiuB.ClassificationofSrckinaseinhibitorsbasedonsupportvectormachine[J].QSARCombSci,2014,28:719-727

[8]VAPNIKV.Thenatureofstatisticallearningtheory[M].NewYork:Springer-Verlag,2012.

[9]PLACHPA.Onthestateoftheartinmachinelearning:apersonalreview[J].ArtificialIntelligence,2013,131(1):199-222.

[10]HuX,YanA.Insilicopredictionofrhabdomyolysisofcompoundsbyself-organizingmapandsupportvectormachine[J].ToxicolinVirtro,2011,25:2017-2024

[11]MEIHU,LIANGGui-zhao,ZHOUYuanetal.Modelingresearchonquantitativestructureandactivityrelationshipusingsupportvectormachine[J].ChineseScienceBulletin,2013,50(16):1703-1708.

[12]Klibanov,O.M.et,al.Boveprevir.anovelNS3/4proteaseinhibitorforthetreatmentofhepatitisC.Pharmacotherapy,2012,32,173-190.

[13]FENGLI-ping,GUOZheng-yuan,LIANGjing,etal.ResearchprogressandapplicationintheseveralQSARmodelingmethod[J].JournalofAgro-EnvironmentScience,2013,26(S):651-655.

[14]Geitmann,M.etal.MechanisticandkineticcharacterizationofhepatitisCvirusNS3proteininteractionwithNS4Aandproteaseinhibitors.[J].Mol.Recognit,2014,24,60-70.

[15]ResearchprogressinHIVintegraseinhibitors[J].ChineseJournalofOrganicChemistry,2010,30(4):477-485.

发明内容

本发明公开了一种基于支持向量机(SupportVectorMachine，SVM)对抗病毒类抑制剂离解速率(K_off)值进行预测的方法，同时涉及到抗病毒类抑制剂分子结构描述符的计算，筛选等问题。

本发明的目的可以通过下述技术方案解决，包括如下步骤：

(1)获取分子描述符，通过分子描述符计算程序(如Dragon、Molconn-Z、PreADME、JOELib，MODEL等)获得抗病毒类抑制剂分子的描述符，将计算出来的描述符进行分类整理(如几何描述符、拓扑描述符等)，由此获得分子描述符数据集；再对抗病毒类抑制剂的分子描述符数据对应的离解速率K_off进行取对数处理，得到logK_off值；

(2)将步骤(1)中的分子描述符进行初步筛选，去除明显冗长的描述符：步骤①移除在90％的样本分子中具有相同数据的描述符；②对步骤①所得分子描述符，移除相对标准偏差小于0.05的描述符；③对步骤②所得分子描述符，对于Pearson相关系数超过0.95的一对描述符，留下与生物活性相关性比较高的描述符，剔除另外一个；

(3)遗传算法和偏最小二乘法相结合进一步筛选，并得到筛选后的描述符和logK_off值之间对应关系的数据集；将步骤(2)得到的分子描述符数据集用基于MatlabR2014a软件编写的GA-PLS程序进行筛选，算法代码参见现有技术或见附页，具体步骤如下：

(3-1)测试步骤(2)得到的分子描述符数据集：根据GA-PLS程序中函数GAPLSOPT(dataset，1)对样本数据集进行测试，输出结果在0到5之间，那么使用GA-PLS方法对数据集进行筛选是安全稳定的；

(3-2)确定最优评价参数(thenumberofevaluation)：为了避免GA-PLS方法在训练过程中产生过拟合，运用GAPLSOPT(dataset，2)函数计算最优评价参数；

(3-3)确定需要选择的描述符个数：一般分子描述符数量最多不超过样本容量的1/5，如1个分子数量为20-60的样本容量，描述符数量应该在3-10之间；根据此标准可以选择合适的描述符的个数；

(4)训练集与测试集的选取：在步骤(3)得出描述符和logK_off值之间对应关系的数据集中随机挑选测试集和训练集，测试集个数取总样本的10％到20％之间；

(5)建立支持向量机SVM回归预测模型：将步骤(4)中挑选出的训练集运用基于MatlabR2014a软件编写好的回归预测算法，将训练集进行训练。SVM回归预测算法代码见附页，具体步骤如下：

(5-1)提取数据；

(5-2)对数据进行归一化；

(5-3)对步骤(5-2)所得数据集进行转置，以符合libsvm工具箱的数据格式要求；

(5-4)通过Matlab子函数SVMcgForRegress粗略选择回归预测分析最佳的SVM参数c&g(-ccost：设置C-SVC；-ggama：核函数中的gamma函数设置，针对多项式/rbf/sigmoid核函数，默认1/k)；

(5-5)根据步骤(5-4)中粗略选择的结果再进行精细选择，得到最佳参数Bestc，bestg；

(5-6)利用svmtrain函数回归预测分析最佳的参数进行SVM网络训练，得到回归预测模型；

(5-7)再将步骤(4)训练集中的分子描述符带入到步骤(5-6)所获得的回归预测模型中，便可得到相应的预测值logK_off，与实际的进行比较，验证结果可行性。

将其他得离散的分子描述符带入回归预测模型即可得到logK_off。

步骤(1)中抗病毒类抑制剂样本为120个，分子描述符是通过Dragon1.1获取，将描述符分为20大类。

步骤(2)对描述符进行初步筛选所选用的软件为SPSS，并且获得55个主要的分子描述符。

步骤(3)中将最终筛选的描述符个数定为8个。

步骤(5)基于支持向量机(SVM)方法进行建模进行离解速率K_off值的预测。

本发明通过应用支持向量机方法对离解速率进行预测，可以找到更多分子结构与离解速率之间的关系，为药物的研发提供指导作用。

附图说明

图1是本发明的预测方法流程图。

图2是GA-PLS的流程图。

图3是SVM建立回归预测模型的流程图。

图4是训练集预测值和实验值相关性分析图。

图5是测试集预测值和实验值相关性分析图。

具体实施方式

下面结合附图1、附图2、附图3和实施例对本发明做进一步的说明，但本发明并不仅限于以下实施例。

实施例1

以抗病毒类抑制剂结构对离解速率的影响为例，来具体说明本发明的实施过程：

(1)获取分子描述符。本实验所选用的分子描述符计算软件为Dragon1.1。将所收集好的抗病毒类抑制剂分子输入到Dragon中，计算软件将计算出20大类总数超过1600多个的描述符。再对抗病毒类抑制剂K_off值进行取对数处理，由此建立一个logK_off与相应抑制剂描述符一一对应的数据集，如表1所示(见附页表1)。

(2)将数据集初筛。我们选用的初步筛选工具为SPSS软件。将步骤(1)中数据导入到SPSS中，对数据集进行初步筛选。具体筛选步骤如下：

(2-1)移除在90％的样本分子中具有相同数据的描述符；

(2-2)移除相对标准偏差小于0.05的描述符；

(2-3)对于Pearson相关系数超过0.95的一对描述符，留下与生物活性相关性比较高的描述符，剔除另外一个。依次经过以上三个步骤的操作，我们将得到55个主要的描述符。由于我们的样本只有120个，所以我们还要进一步对55个描述符进行筛选。

(3)遗传算法组合偏最小二乘法(GA-PLS)进一步筛选。将步骤(2)得到的分子描述符数据集用基于MatlabR2014a软件编写的GA-PLS程序进行筛选，算法代码见附页或现有技术，具体步骤如下：

(3-1)对数据集进行测试：如果根据GA-PLS程序中函数GAPLSOPT(dataset，1)对样本数据集进行测试输出结果在0到5之间，那么使用GA-PLS方法对数据集进行筛选是安全稳定的。本工作选取的55个抗病毒类抑制剂中，GAPLSOPT(dataset，1)函数输出了对应的50个分子描述符样本数据集，样本数据的随机测试结果在0-1.2965之间，说明GA-PLS方法对该数据集进行特征选取可靠。

(3-2)最优评价参数(thenumberofevaluation)的确定：我们将运用Mtalab中自带函数GAPLSOPT(dataset，2)计算最优评价参数。GAPLSOPT(dataset，2)的差异曲线在评价次数111处有全局最大值，因此，本实验评价次数被置为111作为GAPLS函数的最优控制参数。

(3-3)确定需要选择的描述符个数：一般分子描述符数量最多不超过样本容量的1/5，如1个分子数量为20-60的训练集，变量的数目应该在3-10之间。根据此标准可以选择合适的描述符的个数。利用GAPLS函数对55个描述符进行再次筛选，最终获得8个分子描述符。如下表2列出筛选出的8个分子描述符，并得到8个分子描述符与原来对应的logK_off的数据集。

(4)训练集与测试集的选取：将步骤(3)中得到的数据集随机挑选，挑选出在步骤(3)得出数据集中随机挑选99个抑制剂作为训练集，21个抑制剂作为测试集。

(5)建立支持向量机SVM回归预测模型：将步骤(5)中挑选出的训练集和测试集运用基于MatlabR2014a软件编写好的回归预测算法，将训练集进行训练，并通过测试集进行回归预测。SVM回归预测算法代码见附页，具体步骤如下：

(5-1)提取数据；将训练集和测试集导入到MatlabR2014a中，生成train.m和test.m文件。

(5-2)对数据进行归一化，选取的区间为(0,1)；

(5-3)对数据集进行转置，以符合libsvm工具箱的数据格式要求；

(5-5)根据(6-4)中粗略选择的结果再进行精细选择，得到最佳参数Bestc，bestg；实验中得到的Bestc＝0.5，bestg＝4。

(5-6)利用svmtrain函数回归预测分析最佳的参数进行SVM网络训练，得到回归预测模型；在svmtrain函数中，本实验选择的参数类型为：svm类型为e-SVR(s＝3)，核函数选用RBF函数(t＝2)，e-SVR中损失函数为默认值(p＝0)。训练集得到交叉验证相关系数R²＝0.82，如图4。

(5-7)再将训练集中的分子描述符带入到步骤(5-6)所获得的回归预测模型中，便可得到相应的预测值。测试集得到交叉验证相关系数平方R²＝0.71，如图5。

表1抗病毒类描述符与logKoff值的数据集

表2抗病毒类药物最优描述符集

模型验证

为了验证模型的预测能力，我们引入独立的外部数据集-测试集来判断模型的预测能力。测试集化合物的非交叉验证相关系数r²和r₀ ²(r²相对于零点的截断值)用来描述测试集的线性回归参数的值(式1、2和3)。

r²＝1-∑(y_obs-y_pred)²/∑(y_pred-y_mean)²(1)

r₀ ²＝1-∑(y_obs-k×y_pred)²/∑(y_pred-y_mean)²(2)

k＝∑(y_obsy_pred)/(y_pred)²(3)

式中，y_obs是测试集中分子的K_off值，y_pred表示根据模型进行预测得到的K_off值，y_mean表示测试集所有分子K_off值的均值。

据Roy等人研究发现，r_m ²是在r²和r₀ ²的基础上计算得到的，它也是一个应该考虑的外部预测指示值。r_m ²值可由式4计算得到：

r_m ²＝r²[1-(r²-r₀ ²)^1/2](4)

一个良好的模型应该充分满足一下所有条件(式5到8)：

r²>0.6(5)

[(r²-r₀ ²)/r²]<0.1(6)

0.85≤k≤1.1(7)

r_m ²>0.5(8)

这里r²是交叉测试集交叉验证的相关系数。k是通过原点的回归直线斜率。如下表3为模型评测结果。

表3模型的统计学结果

以下为支持向量机回归预测基于Matlab的代码：

Claims

1.一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法，其特征在于，包括如下步骤：

(1)获取分子描述符，通过分子描述符计算程序获得抗病毒类抑制剂分子的描述符，将计算出来的描述符进行分类整理，由此获得分子描述符数据集；再对抗病毒类抑制剂的分子描述符数据对应的离解速率K_off进行取对数处理，得到logK_off值；

(3-2)确定最优评价参数：为了避免GA-PLS方法在训练过程中产生过拟合，运用GAPLSOPT(dataset，2)函数计算最优评价参数；

(3-3)确定需要选择的描述符个数：分子描述符数量最多不超过样本容量的1/5，根据此标准可以选择合适的描述符的个数；

(5)建立支持向量机SVM回归预测模型：将步骤(4)中挑选出的训练集运用基于MatlabR2014a软件编写好的回归预测算法，将训练集进行训练；具体步骤如下：

(5-1)提取数据；

(5-2)对数据进行归一化；

(5-4)通过Matlab子函数SVMcgForRegress粗略选择回归预测分析最佳的SVM参数c&g；

2.按照权利要求1所述的一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法，其特征在于，步骤(1)中抗病毒类抑制剂样本为120个，分子描述符是通过Dragon1.1获取，将描述符分为20大类。

3.按照权利要求2所述的一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法，其特征在于，步骤(2)对描述符进行初步筛选所选用的软件为SPSS，并且获得55个主要的分子描述符。

4.按照权利要求3所述的一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法，其特征在于，步骤(3)中将最终筛选的描述符个数定为8个。

5.按照权利要求1所述的一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法，其特征在于，步骤(5)基于支持向量机(SVM)方法进行建模进行离解速率K_off值的预测。

6.按照权利要求1所述的一种基于支持向量机对抗病毒类抑制剂离解速率常数的预测方法，其特征在于，将其他得离散的分子描述符带入回归预测模型即可得到logK_off。