CN104636619A - 一种快速虚拟筛选人体小肠易吸收药物的方法 - Google Patents

一种快速虚拟筛选人体小肠易吸收药物的方法 Download PDF

Info

Publication number
CN104636619A
CN104636619A CN201510069837.6A CN201510069837A CN104636619A CN 104636619 A CN104636619 A CN 104636619A CN 201510069837 A CN201510069837 A CN 201510069837A CN 104636619 A CN104636619 A CN 104636619A
Authority
CN
China
Prior art keywords
compound
descriptor
intestinal absorption
absorption rate
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510069837.6A
Other languages
English (en)
Other versions
CN104636619B (zh
Inventor
朱祥伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Agricultural University
Original Assignee
Qingdao Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Agricultural University filed Critical Qingdao Agricultural University
Priority to CN201510069837.6A priority Critical patent/CN104636619B/zh
Publication of CN104636619A publication Critical patent/CN104636619A/zh
Application granted granted Critical
Publication of CN104636619B publication Critical patent/CN104636619B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种快速虚拟筛选人体小肠易吸收药物的方法,包括以下步骤一、化合物小肠吸收数据库的优化;二、变量预处理;三、重量变量筛选及构建线性模型;四、新型化合物小肠吸收率预测。本发明依据上述重要结构参数,建立人体小肠内药物吸收的线性统计预测模型,将新型化合物的结构参数代入模型中,计算候选药物小分子的人体小肠吸收率,判断新型分子是否适合作为临床上口服药物使用,相比复杂的机器学习模型,本发明建立的线性统计模型原理简单,方便使用,计算工作量少,适合做前导药物小分子的大规模筛选。

Description

一种快速虚拟筛选人体小肠易吸收药物的方法
技术领域
本发明涉及一种快速虚拟筛选人体小肠易吸收药物的方法,属于药物代谢动力学研究领域。
背景技术
经口途径是药物类分子进入人体的主要方式,有多种因素会影响口服药物的吸收,主要包括与个体生化生理相关的生物学因素与和与分子结构相关的物理化学因素。具体有药物的溶解度、药物在小肠内滞留时间、肠道内pH值及分子转运载体等(Bois et al.,2010)【Bois,F.Y.,Jamei,M.,Clewell,H.J.,2010.PBPK modelling of inter-individual variability in the pharmacokinetics of environmentalchemicals.Toxicology 278,256-267.】。药物在小肠道内的吸收是口服给药产生体内活性的先决条件,是评价外源分子能否进入人体的重要药代动力学参数之一,它决定着药物的分布、代谢和排泄。小肠是药物吸收的主要部位,因而尽早了解药物在小肠的吸收性能,对于新药的研发具有指导意义。并非所有分子的物理化学性质适合口服药物要求,临床研发中的许多药物经常因小肠吸收能力差而被迫终止。了解药物前导化合物的小肠吸收性能,可以提早筛选最优药物分子及剂型和给药方式设计,有巨大的经济价值。
现有的实验室测定药物分子的小肠吸收常用方法有肠灌注法、门静脉或腔静脉取血法、外翻肠囊法(李冰et al.,2014)【李冰,杨秀丽,杨滨,郑艳,2014.格列吡嗪小肠吸收机制的研究,中南药学751-755】等。上述实验方法容易受到各种因素影响。如肠灌注法需要大量的重复性动物实验进行统计分析、费用高、所需的药物量多。门静脉或腔静脉取血法容易受所研究药物在体内分解代谢的影响,外翻肠囊法容易导致组织死亡,翻转小肠时易造成形态学破坏,导致错误的结果(翁榕安and李小曼,2009)【翁榕安,李小曼,2009.药物小肠吸收的常用方法比较。医学综述269-270】。除此之外,针对大批量的药物前导化合物进行实验测定要耗用大量的费用、人员与时间。随着组合化学、基于结构信息的药物设计和高通量药物筛选等新技术的应用,药物研发初期过程的前导化合物数目成倍的增长(Gunturi andNarayanan,2007)【Gunturi,S.B.,Narayanan,R.,2007.In silico ADME modeling 3:computationalmodels to predict human intestinal absorption using sphere exclusion and kNN QSAR methods。QsarComb.Sci.26,653-668】。因此,需要快捷方法对前导化合物进行初期筛选,确保药物临床研究的成功率。
定量构效关系(QSAR)作为高效的工具被广泛应用于新型污染物毒性预测及化合物数据库虚拟筛选等研究,QSAR这一概念首次由Hansch博士提出(Hansch and Steward,1964)【Hansch,C.,Steward,A.R.,1964.The Use of Substituent Constants in the Analysis of the Structure-Activity Relationshipin Penicillin Derivatives.J.Med.Chem.7,691-694】,其理论基础是化学结构类似的分子具有相似的活性,可以定义为利用数值分析与统计方法定量描述分子的化学结构与其物理化学性质或生物活性之间的关系,其目的是建立分子结构描述符分布趋势与分子活性大小间的统计关联,可以简单由下面公式描述(Tropsha,2010)【Tropsha,A.,2010.Best practices for QSAR model development,validation,and exploitation.Mol.Inform.29,476-488】:P1=f(D1,D2,…,Dn),其中P1表示分子的生物活性(或其它终点效应),D1,D2,…,Dn为理论(或实验测定)的化合物结构信息(描述符),f为连接描述符与分子活性的数学转换方程。其中f最为直观简易的形式为线性方程,利用QSAR这一技术,研究人员开发出了大量受知识产权保护的算法、数据库、专利、程序软件等。
关于小分子在人体小肠内吸收的QSAR预测模型如,Turner等(Turner et al。,2004)【Turner,J.V,Maddalena,D.J.,Agatonovic-Kustrin,S.,2004。Bioavailability prediction based on molecularstructure for a diverse series of drugs。Pharm。Res。21,68-82。】利用人工神经网络研究建议预测模型,其中训练集(137个分子)、检验集(15个分子)和15个分子组成的外部验证集确定系数(R2)分别为0。74、0。90和0。68。Suenderhauf等(Suenderhauf et al。,2011)【Suenderhauf,C.,Hammann,F.,Maunz,A.,Helma,C.,Huwyler,J.,2011.Combinatorial QSAR Modeling of HumanIntestinal Absorption。Mol.Pharm.8,213-224.】利用分类树、SVM、Bayes分类、随机森林、kNN等一系列方法对FDA批准的458个类药化合物分别建立了回归模型与分类模型。回归模型的整体预测确定系数在0。60左右,而分类模型的预测准确率达到88%。Moda等(Moda and Andricopulo,2012)【Moda,T。L。,Andricopulo,A。D。,2012。Consensus hologram QSAR modeling for the prediction of humanintestinal absorption。Bioorg。Med。Chem。Lett。22,2889-2893】利用638个分子的全息QSAR模型,其中510分子为训练集,利用SYBYL软件中的2D与3D描述符建立模型,对剩余128验证集分子预测的R2在0。69与0。85之间。然而,该研究中训练集中共有115对顺反构型对映异构体分子的小肠吸收率大小完全一致。例如顺式Acebutolol与反式Acebutolol的小肠吸收率同为85%。国内有研究从药物的三维分子结构预测人体小肠吸收(胡桂香et al.,2004)【胡桂香,俞庆森,邹建卫,蒋勇军,王艳花,2004。从药物的三维分子结构预测人体小肠吸收。物理化学学报20,512-517】。然而,上述构建的模型有如下两个缺陷:1)构建模型的算法较为复杂,涉及到大量机器学习和人工智能算法,导致模型没有具体的表达形式,很难让非专业操作人员理解且使用;2)大量具有相同小肠吸收率的立体构型的顺反异构化合物的存在,仅利用二维描述符建模,顺反构型的对映异构体分子由于描述符一样被视为重复分子,会降低模型稳健能力与预测能力,若使用三维的描述符,顺反构型的对映异构体分子的结构差异则没有在小肠吸收率里面体现。
综上所述可见,现有技术存在1)化合物人小肠结合率数据重复、冗杂;2)前人构建复杂机器学习模型直观性不强、理解困难、不易操作使用等技术问题。
发明内容
为解决现有技术中存在的上述问题,本发明的目的在于提供一种快速虚拟筛选人体小肠易吸收药物的方法,基于优化的化合物小肠吸收数据库结合的直观线性模型,用于快速预测新型药物前导分子的小肠吸收率。
为解决上述技术问题,本发明所采用的技术方案如下:一种快速虚拟筛选人体小肠易吸收药物的方法,其特征在于,包括以下步骤:
一、化合物小肠吸收数据库的优化:将已有的化合物分子结构及其小肠吸收率数值收集形成化合物小肠吸收数据库,对化合物数据的结构与活性进行优化,得到具有准确小肠吸收率的单一化合物,这些化合物的分子量集中在50~500之间;
二、描述符计算与变量预处理:将步骤一中得到的文件内容输入,利用不同的化合物描述符计算软件,计算不同类型的描述符,计算后描述符中存在大量的常量或共线性高的变量,首先对化学描述符归一化处理xs=(x1-xmin)/(xmax-xmin),其中,xs为归一化后描述符的值,xi为描述符原始值,xmax与xmin分别表示最大与最小的描述符值,通过上述公式将描述符值归一到0到1之间,同时记录每个描述符的最小值xmin和最大值xmax,删除标准偏差小于0.001的描述符,若两个描述符的相关性大于0.90,则删除其中一个;
三、重要变量筛选及线性模型构建:基于步骤一中得到的化合物活性数据和步骤二中计算的结构描述符数据利用变量筛选方法,对每个类型描述符变量依重要性大小进行排序,挑选部分重要描述符,以化合物的小肠吸收率为因变量,采用多元线性回归方法构建的预测化合物小肠吸收率的线性方程模型,对于每种类型的描述符,构建一组多元线性回归方程;
四、预测新型化合物的人小肠吸收率:新型化合物分子结构按照步骤一中的结构优化方法优化,按步骤二中的软件计算新型化合物的化学结构描述符,依据步骤二中记录每种描述符的最小值xmin和最大值xmax,对新型化合物的描述符进行归一化处理,最终依步骤三选取的重要描述符,将新化合物中对应描述符的数值代入步骤三构建的多元线性回归方程,计算出活性,即该新型化合物的人小肠吸收率预测值,同时,将不同线性方程的预测值平均,即是新型化合物分子的最终小肠吸收预测值。
进一步的,所述步骤一中对数据库进行优化是指:剔除有机金属化合物、混合物,消除顺反异构,消除化合物结构手性碳结构,将剩余的所有化合物结构都标准化,经过排序,对于小肠吸收率相同的重复化合物保留一个,对于吸收率数值不同的重复化合物,根据其重复个数,若重复数目为2,计算两重复化合物小肠吸收率的平均值M,若|S1-M|/M>0.20,则表示活性值差异大,舍弃该化合物,若|S1-M|/M在0.20以内,则以平均值M为该化合物实际小肠吸收率;若重复化合物数目为3个或超过3个,则采用狄克逊Dixon检验法,剔出异常值后,对剩余小肠吸收值取平均值代表该化合物实际的小肠吸收率,S1表示两化合物中一个的吸收率。
进一步的,所述不同类型的描述符是指:各种依据有机化合物的分子结构计算其相关参数的结构描述符,包括一维、二维、三维的化学结构描述符。
进一步的,所述数据筛选方法包括简单的逐步回归到复杂的机器学习方法,可以针对所有描述符的重要性进行定量化,并排序的变量筛选方法。
进一步的,所述挑选部分重要描述符是指:依据描述符重要性排序,从最重要描述符进行始挑选,其最终用于构建多元线性回归模型的描述符整数数量不超过建模化合物数目的10%。
进一步的,所述步骤二经预处理后,得到388个具有准确小肠吸收率的单一化合物。
进一步的,所述步骤二中采用Dragon和CDK两种描述符计算软件,所述步骤三中利用随机森林法进行经变量筛选,选取10个重要的Dragon描述符为自变量,以化合物的小肠吸收率为因变量,构建线性方程模型,公式1:y=1.126(±0.0743)+1.145(±0.196)*TPSA(Tot)-0.339(±0.143)*Hy-0.338(±0.0936)*F03[N-0]+0.00850(±0.176)*n0-0.0624(±0.0935)*ALOGP-0.326(±0.0920)*0-057+0.330(±0.315)*nROH+0.741(±0.274)*T(N..0)+0.495(±0.252)*T(0..0)-0.803(±0.299)*0-056,拟合误差为0.163,
选取10个重要的CDK描述符为自变量,以化合物的小肠吸收率为因变量,构建线性模型,公式2:y=1.070(±0.0521)*-1.090(±0.293)*TopoPSA-0.800(±0.186)*nHBDon-0.742(±0.111)*MDEO-11+0.515(±0.211)*nHBAcc-0.0570(±0.151)*khs.sOH+1.118(±0.268)*WTPT-4-0.0434(±0.0820)*XLogP-1.390(±0.356)*ATSc1-0.0401(±0.0413)*khs.aaNH+0.388(±0.296)*WTPT-3。
本发明的有益效果是:利用上述线性方程式预测新型化合物的小肠吸收率,简单直观,容易理解及操作,同时作为构建模型的数据库,经过了化合物结构与活性的双重优化,构建的模型稳健性强、预测能力高;依据上述重要结构参数,建立人体小肠内药物吸收的线性统计预测模型,将新型化合物的结构参数代入模型中,计算候选药物小分子的人体小肠吸收率,判断新型分子是否适合作为临床上口服药物使用,相比复杂的机器学习模型,本申请线性统计模型原理简单,方便使用,计算工作量少,适合做前导药物小分子的大规模筛选。
附图说明
下面通过附图和实施例对本发明作进一步详细说明。
图1为本发明利用388个化合物的人小肠吸收率实验值(Experimental HIA%)及利用Dragon描述符代入方程式1预测值(Predicted HIA%)的散点图;
图2为本发明利用388个化合物的人小肠吸收率实验值(Experimental HIA%)及利用CDK描述符采用方程式2预测值(Predicted HIA%)的散点图。
具体实施方式
实施例1
一种快速虚拟筛选人体小肠易吸收药物的方法,包括以下步骤:
一、在网络文献中收集专有数据库共812个化合物分子结构及其小肠吸收率数值,是目前已知最大的关于化合物小肠吸收率的数据库。通过以下步骤对现有数据库进行优化:
1.1剔除有机金属化合物、混合物,约有50个化合物被排除;
1.2消除顺反异构,消除化合物结构手性碳结构([CH]、[C]、[C]H和[C]),共有115对顺反异构体被消除;
1.3经过以上两步骤后,所有化合物结构都被标准化,经过排序,容易发现数据库中大量的重复化合物,对于重复化合物小肠吸收率或者相同或者不相同,对于小肠吸收率相同的重复化合物,直接保留其中一个,对于吸收率数值不同的重复化合物,根据其重复个数,采用以下方法:i)若重复数目为2,假设两化合物吸收率分别为S1和S2,计算两重复化合物小肠吸收率的平均值M,若|S1-M|/M>0.20,则表示活性值差异大,舍弃该化合物.若|S1-M|/M在0.20以内,则以平均值M为该化合物实际小肠吸收率;ii)若重复化合物数目为3个或超过3个,则采用狄克逊Dixon检验法,剔出异常值后,对剩余小肠吸收值取平均值代表该化合物实际的小肠吸收率.
经过上述三步处理后,共有388个具有准确小肠吸收率的单-化合物,这些化合物的分子量集中在50~500之间,多数分子的辛醇-水分配系数分布在-3~8之间,小肠吸收率在80%以上。将上述文件保存成SMILES格式文件。
二、变量预处理
利用Dragon和CDK二种描述符计算软件,输入(1)中处理后的包含388个分子的SMILES文件,计算二种不同类型的描述符。计算后描述符中存在大量的常量或共线性高变量。采取以下方法处理:首先对化学描述符归一化处理xs=(xi-xmin)/(xmax-xmin),其中,xs为归一化后描述符的值,xi为描述符原始值,xmax与xmin分别表示最大与最小的描述符值.利用以上方法,将描述符值归一到0到1之间,同时记录每个描述符的最小值xmin和最大值xmax。随后,删除信息含量低(标准偏差<0.001)的描述符。若两个描述符的相关性大于0.90,则随机删除其中一个,经预处理后,分别得到121个CDK描述符、722个Dragon描述符。
三、重量变量筛选及构建线性模型
通过R软件中的随机森林方法,对上述二组数据构建初步模型。随机森林方法对建模数据中变量的重要性进行排名。取占化合物个数的10%以内的数字作为提取重要描述符个数的上限。例如本数据集中有388个化合物,提取的描述符变量个数不应该超过39个(388×10%=38.8经四舍五入后的值),此处取重要度排名前10的描述符做示例说明。
3.1利用随机森林法对Dragon描述符的重要性排序,前10名最重要描述符及相应重要度数值如表1所不。
表1基于Dragon描述符的重要度排名前10位变量及性质
以上述10个描述符为自变量,以化合物的小肠吸收率为因变量,构建的线性模型表达式(公式1)如下:y=1.126(±0.0743)+1.145(±0.196)*TPSA(Tot)-0.339(±0.143)*Hy-0.338(±0.0936)*F03[N-0]+0.00850(±0.176)*n0-0.0624(±0.0935)*ALOGP-0.326(±0.0920)*0-057+0.330(±0.315)*nROH+0.741(±0.274)*T(N..0)+0。495(±0.252)*T(0..0)-0.803(±0.299)*0-056,线性方程自由度为377,拟合误差为0.163,相关系数达到0.787。化合物小肠吸收实验值与预测值关系如附图1所示。
3.2利用随机森林法对CDK描述符的重要性排序,前10名最重要描述符及相应重要度数值如表2所示。
表2基于CDK描述符的重要度排名前10位变量及性质
CDK 重要度 Property
TopoPSA 17.32 拓扑极性表面积
nHBDon 16.88 氢键供体数目
MDEO-11 13.61 C,N与O的分子距离指数
nHBAcc 9.82 氢键受体数目
khs。sOH 9.31 E-state碎片数目
WTPT-4 8.04 Randic路径加权指数
XLogP 6.81 基于原子类型计算的辛醇-水分配系数
ATSc1 6.78 -
Khs.aaNH 6.67 -
WTPT-3 5.50 Randic路径指数
以上述10个描述符为自变量,以化合物的小肠吸收率为因变量,构建的线性模型表达式(公式2)如下:y=1.070(±0.0521)*-1.090(±0.293)*TopoPSA-0.800(±0.186)*nHBDon-0.742(±0.111)*MDEO-11+0.515(±0.211)*nHBAcc-0.0570(±0.151)*khs.sOH+1.118(±0.268)*WTPT-4-0.0434(±0.0820)*XLogP-1.390(±0.356)*ATSc1-0.0401(±0.0413)*khs.aaNH+0.388(±0.296)*WTPT-3
线性方程自由度为377,拟合误差为0.160,相关系数达到0.795。
化合物小肠吸收实验值与预测值关系如附图2所示。
四、新型化合物小肠吸收率预测
4.1利用Dragon软件计算并提取尼古丁的如表2所示中10个重要化学结构参数,依据步骤二中记录每个Dragon描述符的最小值xmin和最大值xmax,对步骤三的表1中10个重要变量进行归一化处理。将处理后相应变量值代入步骤三中公式2,计算y值,即为该化合物公式2的预测值。
4.2利用CDK软件计算并提取尼古丁的如表2所示中10个重要化学结构参数,依据步骤二中记录每个CDK描述符的最小值xmin和最大值xmax,对步骤三的表2中10个重要变量进行归一化处理。将处理后相应变量值代入步骤三中公式3,计算y值,即为该化合物公式3的预测值。
4.3将过程4.2及4.3中利用Dragon和CDK描述符预测新型化合物的小肠吸收率值进行平均。该平均值为新型化合物分子的最终小肠吸收预测值。
实施例2
用本发明预测尼古丁(Nicotine)的小肠吸收率,包括以下步骤:
利用Dragon软件计算并提取尼古丁的如表2所示中10个重要化学结构参数(表4),依据步骤二中记录每个Dragon描述符的最小值xmin和最大值xmax(表3),对步骤三的表1中10个重要变量进行归一化处理(表3)。将处理后相应变量值代入步骤三中公式2,计算得到小肠吸收率为105.8%。
表3尼古丁的小肠吸收率计算中的Dragon描述符的关键数值
利用CDK软件计算并提取尼古丁的如表3所示中10个重要化学结构参数(表4),依据步骤二中记录每个Dragon描述符的最小值xmin和最大值xmax(表4,对步骤三的表1中10个重要变量进行归一化处理(表4)。将处理后相应变量值代入步骤三中公式2,计算得到小肠吸收率为101.0%。
表4尼古丁的小肠吸收率计算中CDK描述符的关键数值
尼古丁是烟草中的一种有害人体健康的化学成分,化学式为C10H14N2。其实验的人小肠吸收率为100.0%,采用本发明的两个线性模型预测尼古丁的人小肠吸收率的平均值为103.4%。众所周知任何化学物质的小肠吸收率不会超过100%,排除可能的模型预测误差,可以认为本发明的预测模型对尼古丁的人小肠吸收率预测准确度极高。
实施例3
用本发明预测可待因(Codeine)的小肠吸收率,包括以下步骤:
利用Dragon软件计算并提取可待因的如表2所示中10个重要化学结构参数(表5),依据步骤二中记录每个Dragon描述符的最小值xmin和最大值xmax(表5),对步骤三的表1中10个重要变量进行归一化处理(表5)。将处理后相应变量值代入步骤三中公式2,计算得到小肠吸收率为94.8%。
表5可待因的小肠吸收率计算中Dragon描述符的关键数值
利用CDK软件计算并提取尼古丁的如表3所示中10个重要化学结构参数(表6),依据步骤二中记录每个Dragon描述符的最小值xmin和最大值xmax(表6),对步骤三的表1中10个重要变量进行归一化处理(表6)。将处理后相应变量值代入步骤三中公式2,计算得到小肠吸收率为94.9%。
表6可待因的小肠吸收率计算中CDK描述符的关键数值
可待因(Codeine),化学式为C18H21NO3,是一种鸦片类药物,有止痛、止咳和止泻的药效,它的硫酸盐或磷酸盐常用于药品中。其实验的人小肠吸收率为95.0%,采用本发明的两个线性模型预测可待因的人小肠吸收率的平均值为94.85%,排除可能的模型预测误差,可以认为本发明的预测模型对可待因的人小肠吸收率预测准确度极高。
本发明对已有化合物分子的小肠吸收率数据进行进一步筛选与优化,计算Dragon和CDK类型的描述符。得用随机森林变量筛选方法对每种类型描述符筛选最重要的10个化学结构参数,并且构建三组小肠吸收率预测的线性,用于新型化合物小肠吸收率的预测。具有原理简单、形式直观、使用方便、计算工作量少的优点。适合作为药物前导化合物的筛选模型。文献检索结果表明:在本发明之前,检索未发现利用重要化学结构参数构建人小肠吸收率线性模型的专利。
上述对实施例的描述是为了便于该技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于这里的实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims (7)

1.一种快速虚拟筛选人体小肠易吸收药物的方法,其特征在于,包括以下步骤:
一、化合物小肠吸收数据库的优化;将已有的化合物分子结构及其小肠吸收率数值收集形成化合物小肠吸收数据库,对化合物数据的结构与活性进行优化,得到具有准确小肠吸收率的单一化合物,这些化合物的分子量集中在50~500之间;
二、描述符计算与变量预处理:将步骤一中得到的文件内容输入,利用不同的化合物描述符计算软件,计算不同类型的描述符,计算后描述符中存在大量的常量或共线性高的变量,首先对化学描述符归一化处理xs=(xi-xmin)/(xmax-xmin),其中,xs为归一化后描述符的值,xi为描述符原始值,xmax与xmin分别表示最大与最小的描述符值,通过上述公式将描述符值归一到0到1之间,同时记录每个描述符的最小值xmin和最大值xmax,删除标准偏差小于0.001的描述符,若两个描述符的相关性大于0.90,则删除其中一个;
三、重要变量筛选及线性模型构建:基于步骤一中得到的化合物活性数据和步骤二中计算的结构描述符数据利用变量筛选方法,对每个类型描述符变量依重要性大小进行排序,挑选部分重要描述符,以化合物的小肠吸收率为因变量,采用多元线性回归方法构建的预测化合物小肠吸收率的线性方程模型,对于每种类型的描述符,构建一组多元线性回归方程;
四、预测新型化合物的人小肠吸收率:新型化合物分子结构按照步骤一中的结构优化方法优化,按步骤二中的软件计算新型化合物的化学结构描述符,依据步骤二中记录每种描述符的最小值xmin和最大值xmax,对新型化合物的描述符进行归一化处理,最终依步骤三选取的重要描述符,将新化合物中对应描述符的数值代入步骤三构建的多元线性回归方程,计算出活性,即该新型化合物的人小肠吸收率预测值,同时,将不同线性方程的预测值平均,即是新型化合物分子的最终小肠吸收预测值。
2.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述步骤一中对化合物数据的结构与活性进行优化是指:剔除有机金属化合物、混合物,消除顺反异构,消除化合物结构手性碳结构,将剩余的所有化合物结构都标准化,经过排序,对于小肠吸收率相同的重复化合物保留一个,对于吸收率数值不同的重复化合物,根据其重复个数,若重复数目为2,计算两重复化合物小肠吸收率的平均值M,若|S1-M|/M>0.20,则表示活性值差异大,舍弃该化合物,若|S1-M|/M在0.20以内,则以平均值M为该化合物实际小肠吸收率;若重复化合物数目为3个或超过3个,则采用狄克逊Dixon检验法,剔出异常值后,对剩余小肠吸收值取平均值代表该化合物实际的小肠吸收率,S1表示两化合物中一个的吸收率。
3.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述不同类型的描述符是指:各种依据有机化合物的分子结构计算其相关参数的结构描述符,包括一维、二维、三维的化学结构描述符。
4.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述变量筛选方法包括简单的逐步回归到复杂的机器学习方法,可以针对所有描述符的重要性进行定量化排序的变量筛选方法。
5.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述挑选部分重要描述符是指:依据描述符重要性排序,从最重要描述符进行始挑选,其最终用于构建多元线性回归模型的描述符个数不超过建模化合物数目的10%。
6.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述步骤二经预处理后,得到388个具有准确小肠吸收率的单一化合物。
7.根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所述步骤二中采用Dragon和CDK两种描述符计算软件,所述步骤三中利用随机森林法进行经变量筛选,选取10个重要的Dragon描述符为自变量,以化合物的小肠吸收率为因变量,构建线性方程模型,公式1:y=1.126(±0.0743)+1.145(±0.196)*TPSA(Tot)-0.339(±0.143)*Hy-0.338(±0.0936)*F03[N-0]+0.00850(±0.176)*n0-0.0624(±0.0935)*ALOGP-0.326(±0.0920)*0-057+0.330(±0.315)*nROH+0.741(±0.274)*T(N..0)+0.495(±0.252)*T(0..0)-0.803(±0.299)*0-056,拟合误差为0.163,选取10个重要的CDK描述符为自变量,以化合物的小肠吸收率为因变量,构建线性模型,公式2:y=1.070(±0.0521)*-1.090(±0.293)*TopoPSA-0.800(±0.186)*nHBDon-0.742(±0.111)*MDEO-11+0.515(±0.211)*nHBAcc-0.0570(±0.151)*khs.sOH+1.118(±0.268)*WTPT-4-0.0434(±0.0820)*XLogP-1.390(±0.356)*ATSc1-0.0401(±0.0413)*khs.aaNH+0.388(±0.296)*WTPT-3。
CN201510069837.6A 2015-02-10 2015-02-10 一种快速虚拟筛选人体小肠易吸收药物的方法 Expired - Fee Related CN104636619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510069837.6A CN104636619B (zh) 2015-02-10 2015-02-10 一种快速虚拟筛选人体小肠易吸收药物的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510069837.6A CN104636619B (zh) 2015-02-10 2015-02-10 一种快速虚拟筛选人体小肠易吸收药物的方法

Publications (2)

Publication Number Publication Date
CN104636619A true CN104636619A (zh) 2015-05-20
CN104636619B CN104636619B (zh) 2017-11-14

Family

ID=53215360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510069837.6A Expired - Fee Related CN104636619B (zh) 2015-02-10 2015-02-10 一种快速虚拟筛选人体小肠易吸收药物的方法

Country Status (1)

Country Link
CN (1) CN104636619B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862173A (zh) * 2017-11-15 2018-03-30 南京邮电大学 一种先导化合物虚拟筛选方法和装置
CN114360661A (zh) * 2022-01-06 2022-04-15 中国人民解放军国防科技大学 基于群体智能优化模型的分子结构预测方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028330A1 (en) * 2001-07-13 2003-02-06 Ailan Cheng System and method for aqueous solubility prediction
US20070294068A1 (en) * 2006-05-24 2007-12-20 Jones Jeffrey P Line-walking recursive partitioning method for evaluating molecular interactions and questions relating to test objects
CN102930113A (zh) * 2012-11-14 2013-02-13 华南农业大学 用于预测化合物活性的两级拟合qsar模型的构建方法
CN103678951A (zh) * 2013-12-11 2014-03-26 陕西科技大学 分子表面随机采样分析法对抗艾滋病药物活性的预测

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028330A1 (en) * 2001-07-13 2003-02-06 Ailan Cheng System and method for aqueous solubility prediction
US20070294068A1 (en) * 2006-05-24 2007-12-20 Jones Jeffrey P Line-walking recursive partitioning method for evaluating molecular interactions and questions relating to test objects
CN102930113A (zh) * 2012-11-14 2013-02-13 华南农业大学 用于预测化合物活性的两级拟合qsar模型的构建方法
CN103678951A (zh) * 2013-12-11 2014-03-26 陕西科技大学 分子表面随机采样分析法对抗艾滋病药物活性的预测

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALEXANDER TROPSHA,ET AL.: "Prediction of binding affinity and efficacy of thyroid hormone receptor ligands using QSAR and structure-based modeling methods", 《TOXICOLOGY AND APPLIED PHARMACOLOGY》 *
TIAGO L. MODA,ET AL.: "Consensus hologram QSAR modeling for the prediction of human intestinal absorption", 《BIOORGANIC & MEDICINAL CHEMISTRY LETTERS》 *
XIANG-WEI ZHU,ET AL.: "Hybrid in silico models for drug-induced liver injury using chemical descriptors and in vitro cell-imaging information", 《JOURNAL OF APPLIED TOXICOLOGY》 *
朱祥伟,等: "三氯生对青海弧菌Q67和人乳腺癌细胞MCF-7的时间毒性", 《生态毒理学报》 *
李兰婷,等: "基于分子参数的药物小肠吸收预测模型", 《分子科学学报》 *
胡桂香,等: "从药物的三维分子结构预测人体小肠吸收", 《物理化学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862173A (zh) * 2017-11-15 2018-03-30 南京邮电大学 一种先导化合物虚拟筛选方法和装置
CN107862173B (zh) * 2017-11-15 2021-04-27 南京邮电大学 一种先导化合物虚拟筛选方法和装置
CN114360661A (zh) * 2022-01-06 2022-04-15 中国人民解放军国防科技大学 基于群体智能优化模型的分子结构预测方法及相关设备
CN114360661B (zh) * 2022-01-06 2022-11-22 中国人民解放军国防科技大学 基于群体智能优化模型的分子结构预测方法及相关设备

Also Published As

Publication number Publication date
CN104636619B (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
CN111613289B (zh) 个体化药物剂量预测方法、装置、电子设备及存储介质
Chu et al. Quantitative knowledge presentation models of traditional Chinese medicine (TCM): A review
CN105653846A (zh) 基于集成的相似性度量和双向随机游走的药物重定位方法
Vassiliev et al. Consensus drug design using IT microcosm
AU2011238099A1 (en) Computer based system for predicting treatment outcomes
CN105718732A (zh) 一种医疗数据采集分析方法及系统
CN102930113A (zh) 用于预测化合物活性的两级拟合qsar模型的构建方法
CN114328975A (zh) 一种药学知识图谱构建方法和装置
CN111477295B (zh) 一种基于隐语义模型的中医组方推荐方法及系统
CN104636619A (zh) 一种快速虚拟筛选人体小肠易吸收药物的方法
Rani et al. Artificial intelligence techniques for prediction of drug synergy in malignant diseases: Past, present, and future
Mirzajani Prediction and diagnosis of diabetes by using data mining techniques
Li et al. FG-BERT: a generalized and self-supervised functional group-based molecular representation learning framework for properties prediction
Fang et al. A study on specialist or special disease clinics based on big data
CN116129988B (zh) 一种模型构建方法、装置、设备和介质
Zhao et al. Drug–drug interaction prediction: databases, web servers and computational models
CN113506592A (zh) 一种治疗慢性支气管炎中药的机理分析方法
CN110534153B (zh) 基于深度学习的靶标预测系统及其方法
Luo et al. Drug-drug interactions prediction based on deep learning and knowledge graph: A review
CN110689919B (zh) 一种基于结构和等级分类的药物蛋白结合率预测方法及系统
Carpio et al. Pattern recognition in data as a diagnosis tool
Vannozzi et al. Knowledge discovery in databases of biomechanical variables: application to the sit to stand motor task
Gyuk et al. Diabetes lifestyle support with improved glycemia prediction algorithm
CN112863692B (zh) 一种围术期药物不良反应评估模型构建方法
Thirunavukkarasu et al. Sequential virtual screening collaborated with machine-learning strategies for the discovery of precise medicine against non-small cell lung cancer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171114

Termination date: 20180210

CF01 Termination of patent right due to non-payment of annual fee