CN106446607A - 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 - Google Patents
基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 Download PDFInfo
- Publication number
- CN106446607A CN106446607A CN201610852817.0A CN201610852817A CN106446607A CN 106446607 A CN106446607 A CN 106446607A CN 201610852817 A CN201610852817 A CN 201610852817A CN 106446607 A CN106446607 A CN 106446607A
- Authority
- CN
- China
- Prior art keywords
- atom
- molecule
- interaction
- small molecule
- virtual screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003041 virtual screening Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000010801 machine learning Methods 0.000 title claims abstract description 14
- 239000003596 drug target Substances 0.000 title claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 title abstract 3
- 230000003993 interaction Effects 0.000 claims abstract description 53
- 238000003032 molecular docking Methods 0.000 claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims abstract description 11
- 150000003384 small molecules Chemical class 0.000 claims description 48
- 125000004429 atom Chemical group 0.000 claims description 40
- 230000000975 bioactive effect Effects 0.000 claims description 30
- 229910052739 hydrogen Inorganic materials 0.000 claims description 24
- 239000001257 hydrogen Substances 0.000 claims description 24
- 238000002790 cross-validation Methods 0.000 claims description 17
- 125000000539 amino acid group Chemical group 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000002209 hydrophobic effect Effects 0.000 claims description 9
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 150000001413 amino acids Chemical class 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000011701 zinc Substances 0.000 claims description 3
- 230000037396 body weight Effects 0.000 claims description 2
- 125000004435 hydrogen atom Chemical group [H]* 0.000 claims description 2
- 108010001515 Galectin 4 Proteins 0.000 claims 3
- 102100039556 Galectin-4 Human genes 0.000 claims 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims 3
- 102000004169 proteins and genes Human genes 0.000 abstract description 7
- 108090000623 proteins and genes Proteins 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 2
- 230000001808 coupling effect Effects 0.000 abstract 1
- 235000018102 proteins Nutrition 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical group N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 3
- 239000002253 acid Substances 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000003033 structure based virtual screening Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 150000002632 lipids Chemical class 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法,该方法在传统的分子对接的基础上,通过机器学习对已知活性及非活性小分子与靶标蛋白的相互作用指纹进行训练得出靶标的筛选模型,利用所得模型进行虚拟筛选。本发明针对具体靶标进行专项训练,充分考虑每种靶标的特异性,避免了传统打分函数拟合不足的缺陷;计算每个小分子与结合口袋中每个残基的相互作用能,有利于发现有效的结合位点或结合方式;利用机器学习进行非线性拟合,相较于线性拟合更有利于处理各个相互作用能之间的关联或耦合作用;利用本发明,更有利于活性分子的富集。
Description
技术领域
本发明涉及药物虚拟筛选技术领域。尤其是一种基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法,该方法在传统的分子对接的基础上,通过机器学习对已知活性及非活性小分子与靶标蛋白的相互作用指纹进行训练得出靶标的筛选模型。
背景技术
在新药发现过程中,虚拟筛选的应用可以提高活性分子的富集,降低筛选的成本。近年来已引起科研机构和制药公司的高度重视。常用的虚拟筛选方法可以分为基于结构的虚拟筛选(SBVS)和基于配体的虚拟筛选(LBVS)。基于配体的虚拟筛选的主要科研精力放在各种分子描述符的产生、相似性的比较。基于配体的虚拟筛选的优势在于速度更快,一般可作为虚拟筛选的最初阶段,劣势在于很难找到不同于已知分子的新的骨架。基于结构的虚拟筛选虽然速度有所下降,但是可以利用靶标的信息,从而有利于全新药物的发现。
分子对接是常用的基于结构的虚拟筛选方法。常用的分子对接软件有:GOLD,FlexX,Glide,Fred,AutoDock,Dock等。分子对接可以分为两步,第一步小分子以不同构象结合到结合口袋,第二步,利用打分函数进行打分。很多研究证明大部分情况下小分子可以找到合适的结合方式,但是打分函数却存在各种问题。按照建立的顺序,常用的打分函数包括:PLP,ChemScore,X-Score,and GlideScore。对接软件中的打分函数,是根据很多已知结合能的蛋白结构利用各种相互作用拟合得到的。
机器学习已经被广泛的应用于药物设计的各个领域,包括靶标预测、毒性预测、药物相似性预测、药物活性预测等。常用的机器学习方法包括支持向量机、决策树、贝叶斯、K邻近和人工神经网络等。
一方面,现有的打分函数很难考虑到不同相互作用之间的耦合作用由于数据集的局限性,另一方面对于特定蛋白来说不具有针对性。最终导致在虚拟筛选中假阳性的概率很高。因此,本领域迫切需要针对特定蛋白的筛选方法,以期提高活性分子的富集程度,提高虚拟筛选的成功率,降低虚拟筛选的成本。
发明内容
本发明的目的在于提供一种基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法,以弥补现有技术的不足。
本发明的目的是这样实现的:
一种基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法,该方法包括以下具体步骤:
步骤1:从CHEMBL、BindingDB或DUD-E数据库或文献中提取靶标的活性数据;
步骤2:对活性分子和非活性分子进行相似性分析,以保证活性与非活性数据的多样性;
步骤3:分子对接,利用薛定谔分子对接软件进行分子对接,每个小分子只保留打分最好的构象;
步骤4:计算找出结合口袋附近的氨基酸残基;
步骤5:计算每个小分子与结合口袋中的氨基酸残基的相互作用能,形成相互作用能矩阵;
步骤6:统计相互作用能矩阵中每个元素出现的概率,去除出现次数较少的元素,形成相互作用指纹;
步骤7:生成支持向量机输入文件,利用网格搜索和交叉验证寻找最优参数;
步骤8:利用步骤7得到的最优参数,交叉验证评估模型;
步骤9:利用步骤7得到的最优参数,训练全部样本,得到筛选模型;
步骤10:利用筛选模型进行虚拟筛选。
所述的步骤1中,提取靶标的活性数据:要求活性小分子的IC50、Kd、Ki值小于10μM,非活性小分子从ZINC数据库中提取。
所述的步骤2中,对活性分子和非活性分子进行相似性分析:要求活性小分子间的ECFP4相似性小于0.8;非活性小分子是以活性小分子为模板挑选的,要求两者物理上相似但化学性质上不相似;以每个活性分子为模板,寻找与活性小分子的分子质量之差不大于20,总的重原子数之差小于2,可旋转键的数目之差不大于1,氢键供体的数目之差不大于1,氢键受体的数目之差不大于2,脂水分配系数之差不大于1的小分子;非活性小分子间的相似性小于0.4,非活性小分子与每个活性小分子的ECFP4相似性小于0.6;最后得到的活性小分子的数目大于100,非活性小分子的数目是活性小分子数目的50倍。
所述的步骤4中,找出结合口袋附近的氨基酸残基:选定靶标PDB自身配体周围范围内的残基作为候选残基,以保证可以包围绝大部分的小分子。
所述的步骤5中,计算每个小分子与结合口袋中的氨基酸残基的相互作用,具体是指计算对接后每个小分子与氨基酸残基的范德华、氢键和疏水相互作用;三种相互作用的定义如下:
1>范德华相互作用为:
其中,i代表结合口袋中的第i个残基,j代表配体小分子中的原子,k代表蛋白质氨基酸残基中的原子,d0代表j原子与k原子的半径之和,djk代表j原子与k原子的实际距离,这里采用了8-4形式的范德华相互作用形式;
2>疏水相互作用为:
其中
其中,i代表结合口袋中的第i个残基,j代表配体小分子中的原子,k代表蛋白质氨基酸残基中的原子,d0代表j原子与k原子的半径之和,djk代表j原子与k原子的实际距离;
3>氢键相互作用为:
要求氢键的供体与受体重原子之间的距离小于供体重原子、供体氢原子、受体重原子三者之间的夹角小于120度;氢键的大小由氢键供体和受体重原子之间的距离确定;
其中,i代表结合口袋中的第i个残基,j代表配体小分子中的原子,k代表蛋白质氨基酸残基中的原子,j与k表示氢键受体或供体中的重原子,djk代表j原子与k原子的实际距离。
所述的步骤5中,形成相互作用矩阵:将结合口袋中氨基酸按照从小到大的方式重新编号,每个氨基酸有范德华、疏水和氢键三种相互作用;形成下表所示的相互作用矩阵。
所述的步骤6中,统计相互作用能矩阵中每个元素出现的频率:如果相互作用矩阵中某一元素出现的频率小于0.1那么去除该维元素。
所述的步骤7中,生成支持向量机输入文件,利用网格搜索和交叉验证寻找最优参数:首先需要将支持向量机软件(libsvm)中的评价指标改为受试者工作特征曲线下面的面积(AUC),其次考虑到数据的不平衡性,在搜索过程中w1参数设定为50,再次,设定SVM训练的核函数为径向基核函数(RBF)。在此基础上利用网格搜索和交叉验证寻找最优参数,需要搜索的参数为(C,γ),设定以下C与γ的参数组合方式:
C=2-5,2-4.5,2-4,......,215;
γ=2-15,2-14.5,2-14,......,25;
其中,C为惩罚因子,γ为RBF核参数;如果多种(C,γ)组合方式都可以使评价指标达到最优,选取C值最小的组合。
所述的步骤8中,利用交叉验证评估模型:利用富集因子和受试者工作特征曲线通过5折的交叉验证对模型进行评估;具体为:
富集因子由以下公式得出
其中,As代表设定的百分位下活性分子的数目,Ds代表选定的百分位下非活性分子的数目,At代表活性分子总体的数目,Dt代表非活性分子的总体数目;公式(4)中,分子计算的是在选定的百分位中活性分子所占的比例,分母计算的是背景分布中活性分子所占的比例。
在实际计算中,分为以下三步:
1>计算理想情况下的富集分布。最理想的情况即全部的活性分子都排在非活性分子之前,按照此分布进行计算。
2>计算分子对接得到的结果。首先对所有对接结果进行排序,然后按照公式(4)进行计算。
3>计算SVM模型预测出来的结果。首先按照预测出来的可能性进行排序,然后按照公式(4)进行计算。
受试者工作特征曲线,根据不同的分界值,以真阳性率为纵坐标,假阳性率为横坐标绘制曲线。其中真阳性率为活性分子被预测为活性分子的比例,假阳性率为非活性分子被预测为活性分子的比例。定义AUC值为受试者工作特征曲线的面积。该值越高表明假阳性的概率越低。
本发明充分利用已知活性和非活性的小分子的相互作用指纹,借助机器学习,构建了一种更加高效的虚拟筛选方法。
本发明的有益效果
相比于传统的方法,本发明的有益效果为:
(1)针对具体靶标进行专项训练,可以充分考虑每种靶标的特异性,避免了传统打分函数拟合不足的缺陷。
(2)计算每个小分子与结合口袋中每个残基的相互作用能,有利于发现有效的结合位点或结合方式。
(3)利用机器学习进行非线性拟合,相较于线性拟合更有利于处理各个相互作用能之间的关联或耦合作用。
(4)结果表明利用本发明,更有利于活性分子的富集。
附图说明
图1为本发明流程图;
图2为本发明针对靶标VGFR2的Glide与本发明结果的ROC评估图;其中深色实线为本发明对应的受试者工作特征曲线;浅色实线为由Glide分子对接得到的受试者工作特征曲线;
图3为本发明针对靶标VGFR2的Glide与PLEIC-SVM结果的EF评估图;其中虚线为理想的富集曲线,浅色实线为Glide的结果得到的富集曲线,深色实线为利用本发明得到的富集曲线。
具体实施方式
本发明的具体步骤:
(1)从CHEMBL、BindingDB、DUD-E等数据库中提取特定靶标的活性数据。要求活性小分子的IC50、Kd、Ki等活性数据小于10μM,非活性小分子从ZINC数据库中提取。
(2)对活性分子和非活性分子进行相似性分析,以保证活性与非活性数据的多样性。要求活性小分子间的ECFP4相似性小于0.8。非活性小分子是以活性小分子为模板挑选的,要求两者物理上相似但化学性质上不相似。以每个活性分子为模板,寻找与每个活性小分子的分子质量之差不大于20,总的重原子数之差小于2,可旋转键的数目之差不大于1,氢键供体的数目之差不大于1,氢键受体的数目之差不大于2,脂水分配系数之差不大于1的小分子。非活性小分子间的相似性小于0.4,非活性小分子与活性小分子的ECFP4相似性小于0.6。最后得到的活性小分子的数目大于100,非活性小分子的数目是活性小分子数目的50倍。
(3)分子对接。利用薛定谔分子对接软件进行分子对接,每个小分子只保留打分最好的构象。
(4)计算找出结合口袋附近的氨基酸残基。选定靶标PDB自身配体周围范围内的残基作为候选残基,以保证可以包围绝大部分的小分子。
(5)计算每个小分子与结合口袋中的氨基酸残基的相互作用能,形成相互作用能矩阵。计算对接后每个小分子与氨基酸残基的范德华、氢键和疏水相互作用。
(6)统计相互作用能矩阵中每个元素出现的概率,去除出现次数较少的元素,形成相互作用指纹。如果相互作用矩阵中某一元素出现的频率小于0.1那么去除该元素。
(7)生成支持向量机输入文件,利用网格搜索和交叉验证寻找最优参数。
(8)利用(7)中得到的最优参数,交叉验证评估模型。在此利用富集因子和受试者工作特征曲线对模型进行评估。
(9)利用(7)中得到的最优参数,训练全部样本,得到筛选模型。
(10)利用筛选模型进行虚拟筛选。
实施例
结合附图以建立VGFR2靶标的筛选模型为例对本发明进行详细说明。
参阅图1,首先要做的是,更改SVM软件libsvm中的评价指标。从libsvm官方网站下载eval.cpp,eval.h,重新编译,将网格搜索和交叉验证的评估标准改为AUC。
(1)从DUD-E库中收集VGFR2的活性数据,其中包含409个活性小分子,24950个非活性小分子。PDB文件为2P2I。
(2)计算2P2I中自身配体的中心坐标,(38,35,12)。
(3)利用薛定谔分子对接软件Glide进行分子对接。
(4)对接后的每个分子只取GlideScore分数最低的构象。利用glide_ensemble_merge和glide_sort工具实现这一目的。
(5)将分子对接得到的小分子分开,放到文件夹mols里面。
(6)计算找出参考分子以内的氨基酸残基。一共包含60个残基。
(7)对结合口袋的氨基酸残基原子进行归类,氢键供体、氢键受体、疏水原子。计算mols文件夹中每个小分子的原子特征,并计算每个小分子与氨基酸残基的相互作用能,范德华相互作用能、氢键相互作用能、疏水相互作用能。所有的相互作用能信息以每个分子一行的形式追到文件fingers.dat中。
(8)统计不同相互作用能元素出现的频率,删除出现频率较小的元素。生成PLIEIC相互作用能指纹信息,存放到svm.dat中。最终保留了88维信息。
(9)生成支持向量机输入文件,利用libsvm软件工具包中的grid.py工具进行5折的交叉验证和网格搜索。在本实施例中取C等于8,gamma等于1。
(10)利用(9)中得到的最优参数,利用受试者工作特征曲线通过交叉验证评估模型。结果如图2所示,其中黑色的实线表示本发明对应的受试者工作特征曲线,灰色的线表示由Glide分子对接得到的受试者工作特征曲线。由图可以看出,本发明对应的结果得到的受试者工作曲线下的面积(AUC)大于由Glide分子对接得到的AUC值,由此可以得出本发明可以降低假阳性率。
(11)利用(9)中得到的最优参数,利用富集因子通过交叉验证评估模型。首先,根据富集因子的定义,得出理想的EF曲线;然后,对Glide得到的结果进行排序,得到Glide的EF曲线;最后对SVM得出的“可能性”(probability)进行排序,得到本发明对应的EF曲线。结果如图3所示。其中黑色的虚线表示理想的富集曲线,灰色的实线代表Glide的结果得到的富集曲线,黑色的实线代表利用本发明得到的富集曲线。从图中可以看出,利用PLEIC-SVM得到的曲线更接近于理想的富集曲线,即更有利于活性分子的富集。如果以占数据集百分之一的比例为截断,理想结果的富集因子为52,Glide的结果对应的富集因子为22,本发明的结果对应的富集因子为47,结果表明本发明可以使活性分子排在比较靠前的位置,提高活性分子的富集。
Claims (9)
1.一种基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法,其特征在于,该方法包括以下具体步骤:
步骤1:从CHEMBL、BindingDB或DUD-E数据库或文献中提取靶标的活性数据;
步骤2:对活性分子和非活性分子进行相似性分析,以保证活性与非活性数据的多样性;
步骤3:分子对接,利用薛定谔分子对接软件进行分子对接,每个小分子只保留打分最好的构象;
步骤4:计算找出结合口袋附近的氨基酸残基;
步骤5:计算每个小分子与结合口袋中的氨基酸残基的相互作用能,形成相互作用能矩阵;
步骤6:统计相互作用能矩阵中每个元素出现的概率,去除出现次数较少的元素,形成相互作用指纹;
步骤7:生成支持向量机输入文件,利用网格搜索和交叉验证寻找最优参数;
步骤8:利用步骤7得到的最优参数,交叉验证评估模型;
步骤9:利用步骤7得到的最优参数,训练全部样本,得到筛选模型;
步骤10:利用筛选模型进行虚拟筛选。
2.根据权利要求1所述的虚拟筛选方法,其特征在于,所述的步骤1中,提取靶标的活性数据:要求活性小分子的IC50、Kd、Ki值小于10μM,非活性小分子从ZINC数据库中提取。
3.根据权利要求1所述的虚拟筛选方法,其特征在于,所述的步骤2中,对活性分子和非活性分子进行相似性分析:要求活性小分子间的ECFP4相似性小于0.8;非活性小分子是以活性小分子为模板挑选的,要求两者物理上相似但化学性质上不相似;以每个活性分子为模板,寻找与活性小分子的分子质量之差不大于20,总的重原子数之差小于2,可旋转键的数目之差不大于1,氢键供体的数目之差不大于1,氢键受体的数目之差不大于2,脂水分配系数之差不大于1的小分子;非活性小分子间的相似性小于0.4,非活性小分子与每个活性小分子的ECFP4相似性小于0.6;最后得到的活性小分子的数目大于100,非活性小分子的数目是活性小分子数目的50倍。
4.根据权利要求1所述的虚拟筛选方法,其特征在于,所述的步骤4中,找出结合口袋附近的氨基酸残基:选定靶标PDB自身配体周围范围内的残基作为候选残基,以保证可以包围绝大部分的小分子。
5.根据权利要求1所述的虚拟筛选方法,其特征在于,所述的步骤5中,计算每个小分子与结合口袋中的氨基酸残基的相互作用,具体是指计算对接后每个小分子与氨基酸残基的范德华、氢键和疏水相互作用;三种相互作用的定义如下:
1>范德华相互作用为:
其中,i代表结合口袋中的第i个残基,j代表配体小分子中的原子,k代表蛋白质氨基酸残基中的原子,d0代表j原子与k原子的半径之和,djk代表j原子与k原子的实际距离,这里采用了8-4形式的范德华相互作用形式;
2>疏水相互作用为:
其中
其中,i代表结合口袋中的第i个残基,j代表配体小分子中的原子,k代表蛋白质氨基酸残基中的原子,d0代表j原子与k原子的半径之和,djk代表j原子与k原子的实际距离;3>氢键相互作用为:
要求氢键的供体与受体重原子之间的距离小于供体重原子、供体氢原子、受体重原子三者之间的夹角小于120度;氢键的大小由氢键供体和受体重原子之间的距离确定;
其中,i代表结合口袋中的第i个残基,j代表配体小分子中的原子,k代表蛋白质氨基酸残基中的原子,j与k表示氢键受体或供体中的重原子,djk代表j原子与k原子的实际距离。
6.根据权利要求1所述的虚拟筛选方法,其特征在于,所述的步骤5中,形成相互作用矩阵:将结合口袋中氨基酸按照从小到大的方式重新编号,每个氨基酸有范德华、疏水和氢键三种相互作用,形成相互作用矩阵。
7.根据权利要求1所述的虚拟筛选方法,其特征在于,所述的步骤6中,统计相互作用能矩阵中每个元素出现的频率:如果相互作用矩阵中某一元素出现的频率小于0.1那么去除该维元素。
8.根据权利要求1所述的虚拟筛选方法,其特征在于,所述的步骤7中,生成支持向量机输入文件,利用网格搜索和交叉验证寻找最优参数:首先需要将支持向量机中的评价指标改为受试者工作特征曲线下面的面积,其次考虑到数据的不平衡性,在搜索过程中w1参数设定为50,再次,设定SVM训练的核函数为径向基核函数;在此基础上利用网格搜索和交叉验证寻找最优参数,需要搜索的参数为(C,γ),设定以下C与γ的参数组合方式:
C=2-5,2-4.5,2-4,......,215;
γ=2-15,2-14.5,2-14,......,25;
其中,C为惩罚因子,γ为RBF核参数;如果多种(C,γ)组合方式都可以使评价指标达到最优,选取C值最小的组合。
9.根据权利要求1所述的虚拟筛选方法,其特征在于,所述的步骤8中,利用交叉验证评估模型:利用富集因子和受试者工作特征曲线通过5折的交叉验证对模型进行评估;具体为:
富集因子由以下公式得出
其中,As代表设定的百分位下活性分子的数目,Ds代表选定的百分位下非活性分子的数目,At代表活性分子总体的数目,Dt代表非活性分子的总体数目;公式(4)中,分子计算的是在选定的百分位中活性分子所占的比例,分母计算的是背景分布中活性分子所占的比例;
受试者工作特征曲线,根据不同的分界值,以真阳性率为纵坐标,假阳性率为横坐标绘制曲线;其中真阳性率为活性分子被预测为活性分子的比例,假阳性率为非活性分子被预测为活性分子的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610852817.0A CN106446607B (zh) | 2016-09-26 | 2016-09-26 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610852817.0A CN106446607B (zh) | 2016-09-26 | 2016-09-26 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446607A true CN106446607A (zh) | 2017-02-22 |
CN106446607B CN106446607B (zh) | 2018-11-09 |
Family
ID=58169700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610852817.0A Expired - Fee Related CN106446607B (zh) | 2016-09-26 | 2016-09-26 | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446607B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038348A (zh) * | 2017-05-04 | 2017-08-11 | 四川大学 | 基于蛋白‑配体相互作用指纹图谱的药物靶标预测方法 |
CN107862173A (zh) * | 2017-11-15 | 2018-03-30 | 南京邮电大学 | 一种先导化合物虚拟筛选方法和装置 |
CN108509765A (zh) * | 2018-03-26 | 2018-09-07 | 中山大学 | 一种基于fm-n-dnn的药物靶标相互作用预测方法 |
CN109036580A (zh) * | 2018-07-06 | 2018-12-18 | 华东师范大学 | 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 |
CN110010199A (zh) * | 2019-03-27 | 2019-07-12 | 华中师范大学 | 一种分析识别蛋白质特异性药物结合口袋的方法 |
CN110232954A (zh) * | 2019-05-10 | 2019-09-13 | 江苏理工学院 | 基于迁移学习的分子对接方法和系统 |
CN110444250A (zh) * | 2019-03-26 | 2019-11-12 | 广东省微生物研究所(广东省微生物分析检测中心) | 基于分子指纹和深度学习的高通量药物虚拟筛选系统 |
CN111326218A (zh) * | 2020-03-06 | 2020-06-23 | 华东师范大学 | 一种基于蛋白环境描述小分子片段属性的指纹设计方法 |
CN111402967A (zh) * | 2020-03-12 | 2020-07-10 | 中南大学 | 一种基于机器学习算法提升对接软件虚拟筛选能力的方法 |
CN111462833A (zh) * | 2019-01-20 | 2020-07-28 | 深圳智药信息科技有限公司 | 一种虚拟药物筛选方法、装置、计算设备及存储介质 |
CN111540404A (zh) * | 2020-04-16 | 2020-08-14 | 华东师范大学 | 一种提高脯氨酰内肽酶催化效率的分子改造设计方法 |
CN112289371A (zh) * | 2020-09-23 | 2021-01-29 | 北京望石智慧科技有限公司 | 蛋白质与小分子样本生成及结合能、结合构象预测方法 |
CN112599187A (zh) * | 2020-12-18 | 2021-04-02 | 武汉大学 | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 |
CN113066525A (zh) * | 2021-03-30 | 2021-07-02 | 中山大学 | 一种基于集成学习与混合神经网络的多靶标药物筛选方法 |
CN113348514A (zh) * | 2018-09-13 | 2021-09-03 | 思科利康有限公司 | 预测化学结构性质的方法和系统 |
CN113450881A (zh) * | 2021-07-22 | 2021-09-28 | 北京中大唯信科技有限公司 | 一种用于药物虚拟筛选的分子三维相似度的打分方法 |
CN113808683A (zh) * | 2021-09-02 | 2021-12-17 | 深圳市绿航星际太空科技研究院 | 基于受体和配体的药物虚拟筛选的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102798708A (zh) * | 2012-08-23 | 2012-11-28 | 中国科学院长春应用化学研究所 | 一种检测配体与靶标结合特异性的方法及药物筛选方法 |
CN104504301A (zh) * | 2014-12-31 | 2015-04-08 | 贵州大学 | 一种以烟草花叶病毒rna解旋酶为靶标的抗病毒药物虚拟筛选方法 |
-
2016
- 2016-09-26 CN CN201610852817.0A patent/CN106446607B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102798708A (zh) * | 2012-08-23 | 2012-11-28 | 中国科学院长春应用化学研究所 | 一种检测配体与靶标结合特异性的方法及药物筛选方法 |
CN104504301A (zh) * | 2014-12-31 | 2015-04-08 | 贵州大学 | 一种以烟草花叶病毒rna解旋酶为靶标的抗病毒药物虚拟筛选方法 |
Non-Patent Citations (3)
Title |
---|
BEINING CHEN ET AL.: "Evaluation of machine-learning methods for ligand-based virtual screening", 《J COMPUT AIDED MOL DES》 * |
C. DA ET AL.: "Structural Protein-Ligand Interaction Fingerprints (SPLIF) for Structure-Based Virtual Screening: Method and Benchmark Study", 《JOURNAL OF CHEMICAL INFORMATION AND MODELING》 * |
黄琦 等: "基于配体、受体和复合物指纹的虚拟筛选方法比较", 《化学学报》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038348A (zh) * | 2017-05-04 | 2017-08-11 | 四川大学 | 基于蛋白‑配体相互作用指纹图谱的药物靶标预测方法 |
CN107038348B (zh) * | 2017-05-04 | 2020-03-10 | 四川大学 | 基于蛋白-配体相互作用指纹图谱的药物靶标预测方法 |
CN107862173A (zh) * | 2017-11-15 | 2018-03-30 | 南京邮电大学 | 一种先导化合物虚拟筛选方法和装置 |
CN107862173B (zh) * | 2017-11-15 | 2021-04-27 | 南京邮电大学 | 一种先导化合物虚拟筛选方法和装置 |
CN108509765A (zh) * | 2018-03-26 | 2018-09-07 | 中山大学 | 一种基于fm-n-dnn的药物靶标相互作用预测方法 |
CN109036580A (zh) * | 2018-07-06 | 2018-12-18 | 华东师范大学 | 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 |
CN109036580B (zh) * | 2018-07-06 | 2021-08-20 | 华东师范大学 | 基于相互作用能项和机器学习的蛋白-配体亲和力预测方法 |
CN113348514B (zh) * | 2018-09-13 | 2024-03-08 | 思科利康有限公司 | 预测化学结构性质的方法和系统 |
CN113348514A (zh) * | 2018-09-13 | 2021-09-03 | 思科利康有限公司 | 预测化学结构性质的方法和系统 |
CN111462833A (zh) * | 2019-01-20 | 2020-07-28 | 深圳智药信息科技有限公司 | 一种虚拟药物筛选方法、装置、计算设备及存储介质 |
CN111462833B (zh) * | 2019-01-20 | 2023-05-23 | 深圳智药信息科技有限公司 | 一种虚拟药物筛选方法、装置、计算设备及存储介质 |
CN110444250A (zh) * | 2019-03-26 | 2019-11-12 | 广东省微生物研究所(广东省微生物分析检测中心) | 基于分子指纹和深度学习的高通量药物虚拟筛选系统 |
WO2020125812A1 (zh) * | 2019-03-26 | 2020-06-25 | 广东省微生物研究所(广东省微生物分析检测中心) | 基于分子指纹和深度学习的高通量药物虚拟筛选系统 |
US11581061B2 (en) | 2019-03-26 | 2023-02-14 | Guangdong Institute Of Microbiology (Guangdong Detection Center Of Microbiology) | High-throughput virtual drug screening system based on molecular fingerprints and deep learning |
CN110010199A (zh) * | 2019-03-27 | 2019-07-12 | 华中师范大学 | 一种分析识别蛋白质特异性药物结合口袋的方法 |
CN110232954A (zh) * | 2019-05-10 | 2019-09-13 | 江苏理工学院 | 基于迁移学习的分子对接方法和系统 |
CN111326218A (zh) * | 2020-03-06 | 2020-06-23 | 华东师范大学 | 一种基于蛋白环境描述小分子片段属性的指纹设计方法 |
CN111326218B (zh) * | 2020-03-06 | 2022-08-05 | 华东师范大学 | 一种基于蛋白环境描述小分子片段属性的指纹设计方法 |
CN111402967A (zh) * | 2020-03-12 | 2020-07-10 | 中南大学 | 一种基于机器学习算法提升对接软件虚拟筛选能力的方法 |
CN111402967B (zh) * | 2020-03-12 | 2023-04-07 | 中南大学 | 一种基于机器学习算法提升对接软件虚拟筛选能力的方法 |
CN111540404A (zh) * | 2020-04-16 | 2020-08-14 | 华东师范大学 | 一种提高脯氨酰内肽酶催化效率的分子改造设计方法 |
CN112289371A (zh) * | 2020-09-23 | 2021-01-29 | 北京望石智慧科技有限公司 | 蛋白质与小分子样本生成及结合能、结合构象预测方法 |
CN112599187A (zh) * | 2020-12-18 | 2021-04-02 | 武汉大学 | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 |
CN112599187B (zh) * | 2020-12-18 | 2022-03-15 | 武汉大学 | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 |
CN113066525A (zh) * | 2021-03-30 | 2021-07-02 | 中山大学 | 一种基于集成学习与混合神经网络的多靶标药物筛选方法 |
CN113450881A (zh) * | 2021-07-22 | 2021-09-28 | 北京中大唯信科技有限公司 | 一种用于药物虚拟筛选的分子三维相似度的打分方法 |
CN113450881B (zh) * | 2021-07-22 | 2024-02-13 | 北京中大唯信科技有限公司 | 一种用于药物虚拟筛选的分子三维相似度的打分方法 |
CN113808683A (zh) * | 2021-09-02 | 2021-12-17 | 深圳市绿航星际太空科技研究院 | 基于受体和配体的药物虚拟筛选的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106446607B (zh) | 2018-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446607A (zh) | 基于相互作用指纹和机器学习的药物靶标的虚拟筛选方法 | |
Paule et al. | On fine-grained geolocalisation of tweets and real-time traffic incident detection | |
Gupta et al. | Stacking ensemble-based intelligent machine learning model for predicting post-COVID-19 complications | |
Hjelle et al. | Estimating pollen productivity and relevant source area of pollen using lake sediments in Norway: how does lake size variation affect the estimates? | |
CN103617157B (zh) | 基于语义的文本相似度计算方法 | |
Gupta et al. | Performance analysis of various data mining classification techniques on healthcare data | |
CN105868583B (zh) | 一种基于序列使用代价敏感集成和聚类预测表位的方法 | |
CN107194207A (zh) | 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法 | |
Aldhaln et al. | Improving knowledge extraction of Hadith classifier using decision tree algorithm | |
Sarvari et al. | Unsupervised boosting-based autoencoder ensembles for outlier detection | |
CN104572877A (zh) | 游戏舆情的检测方法及系统 | |
CN102043813A (zh) | 医疗信息处理服务器及医疗信息处理的方法 | |
Mredula et al. | A review on the trends in event detection by analyzing social media platforms’ data | |
Pettit et al. | Big bicycle data processing: From personal data to urban applications | |
Rao et al. | Multimodal imputation-based stacked ensemble for prediction and classification of air quality index in Indian cities | |
Ma et al. | Fine classification method for massive microseismic signals based on short-time Fourier transform and deep learning | |
Wei et al. | [Retracted] Analysis and Risk Assessment of Corporate Financial Leverage Using Mobile Payment in the Era of Digital Technology in a Complex Environment | |
Mukherjee et al. | Predictive framework for crime data analysis using a hybrid logistic regression—support vector machine based ensemble classifier powered by CART (LR-SVM CART) | |
Lamothe | Factors Influencing Usage of an Electronic Journal Collection at a Medium-Size University: An Eleven-Year Study. | |
Charif et al. | A method and a tool for geocoding and record linkage | |
Liu et al. | Research on post-match score mechanism of players based on artificial intelligence and clustering regression model | |
Yang et al. | A few-shot link prediction framework to drug repurposing using multi-level attention network | |
Jin et al. | Software fault prediction model based on adaptive dynamical and median particle swarm optimization | |
Su et al. | Triple-O for SHL recognition challenge: An ensemble framework for multi-class imbalance and training-testing distribution inconsistency by OvO binarization with confidence weight of one-class Classification | |
Eimani | Regional balanced development future studies based on scenario planning (Case Study: Ardabil Province) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181109 |
|
CF01 | Termination of patent right due to non-payment of annual fee |