CN113689916B - 一种预测有机化合物性能的通用模型及预测方法 - Google Patents
一种预测有机化合物性能的通用模型及预测方法 Download PDFInfo
- Publication number
- CN113689916B CN113689916B CN202111028085.0A CN202111028085A CN113689916B CN 113689916 B CN113689916 B CN 113689916B CN 202111028085 A CN202111028085 A CN 202111028085A CN 113689916 B CN113689916 B CN 113689916B
- Authority
- CN
- China
- Prior art keywords
- organic compound
- model
- logp
- compound
- hbd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000002894 organic compounds Chemical class 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000000126 substance Substances 0.000 claims abstract description 26
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 17
- 150000002632 lipids Chemical class 0.000 claims abstract description 14
- 230000035502 ADME Effects 0.000 claims abstract description 10
- 150000001875 compounds Chemical class 0.000 claims description 54
- 210000004556 brain Anatomy 0.000 claims description 27
- 239000012855 volatile organic compound Substances 0.000 claims description 25
- 238000005192 partition Methods 0.000 claims description 22
- PAYRUJLWNCNPSJ-UHFFFAOYSA-N Aniline Chemical compound NC1=CC=CC=C1 PAYRUJLWNCNPSJ-UHFFFAOYSA-N 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 12
- 238000012417 linear regression Methods 0.000 claims description 12
- 229910052739 hydrogen Inorganic materials 0.000 claims description 9
- 125000004429 atom Chemical group 0.000 claims description 8
- KBPLFHHGFOOTCA-UHFFFAOYSA-N caprylic alcohol Natural products CCCCCCCCO KBPLFHHGFOOTCA-UHFFFAOYSA-N 0.000 claims description 8
- 239000001257 hydrogen Substances 0.000 claims description 7
- 125000004432 carbon atom Chemical group C* 0.000 claims description 6
- 230000035515 penetration Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- DCAYPVUWAIABOU-UHFFFAOYSA-N hexadecane Chemical compound CCCCCCCCCCCCCCCC DCAYPVUWAIABOU-UHFFFAOYSA-N 0.000 claims description 5
- 239000012074 organic phase Substances 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 239000008346 aqueous phase Substances 0.000 claims description 3
- 238000006664 bond formation reaction Methods 0.000 claims description 3
- TVMXDCGIABBOFY-UHFFFAOYSA-N n-Octanol Natural products CCCCCCCC TVMXDCGIABBOFY-UHFFFAOYSA-N 0.000 claims description 3
- 238000012549 training Methods 0.000 description 5
- 238000012067 mathematical method Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 229940000406 drug candidate Drugs 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- DCAYPVUWAIABOU-NJFSPNSNSA-N hexadecane Chemical group CCCCCCCCCCCCCCC[14CH3] DCAYPVUWAIABOU-NJFSPNSNSA-N 0.000 description 1
- 238000004770 highest occupied molecular orbital Methods 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 238000004768 lowest unoccupied molecular orbital Methods 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 231100000245 skin permeability Toxicity 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C10/00—Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
Landscapes
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
本发明涉及一种预测有机化合物性能的通用模型及预测方法,所述通用模型能够准确预测有机化合物的物理化学性能以及ADME/Tox性能;这是由于有机化合物的物理化学性能以及ADME/Tox性能取决于与性能有关的自由能的变化,因此利用化学热力学的方法,推导出预测有机化合物性能的线性自由能关系模型—LFER模型,所述线性自由能关系模型(LFER模型)利用脂水分配系数预测有机化合物性能的通用公式如式Ⅰ所示,预测有机化合物性能的准确率高,并能有效解决现有技术中QSPR模型存在的不确定性大、预测精度差、预测能力不好、需要专业人员运用的问题。
Description
技术领域
本发明属于计算化学技术领域,具体涉及一种预测有机化合物性能的通用模型及预测方法。
背景技术
随着化学化工领域的快速发展和新有机化合物的快速增长,通过计算方法预测有机化合物(包括候选药物)的物理化学性能和药物代谢动力学性质变得越来越重要。例如在合成候选药物前,准确预测其吸收、分布、代谢、排泄和毒性(ADME/Tox)可显著降低药物开发的成本和时间,提高成功率。
目前预测有机化合物性能常用的方法是通过数学和统计方法建立结构-活性定量关系模型(QSPRS),再利用QSPRS模型来预测其他化合物的性能。几十年来发展了很多以数学和统计为基础建立QSPRS模型的方法,如人工神经网络和偏最小二乘法。这些方法都是根据一系列已知化合物某一性能的数据(一般为实验数据)和这些化合物的结构建立模型,再根据需要预测性能的化合物的结构计算这些化合物的这一性能。其工作原理具体为:QSPRS模型的本质是化合物结构与化合物性能的定量关系模型,而化合物结构在QSPRS模型中是以分子结构描述符(molecular Descriptor)表示。目前已发展了上万个可用于建立QSPRS模型的分子结构描述符,如辛醇/水分配系数(logPoct)、分子量、最低空轨道能量LUMO、前线轨道能量HOMO等。QSPRS模型中的分子结构描述符是根据一系列已知性能的化合物(即训练集),利用数学和统计方法从几千甚至上万个分子结构描述符中选出可用于建模的几个分子结构描述符。分子结构描述符选好后,用统计工具如多元线性回归法、偏最小二乘法、主成分回归法、人工神经网络法、遗传算法和支持向量机法等建立QSPRS模型。
然而,现有技术中利用QSPRS模型来预测化合物的性能存在以下几个方面的问题,具体为:(1)模型的不确定性,由于模型中分子结构描述符是从几千个分子结构描述符中利用数学和统计方法选出,最后得到的模型在很大程度上取决于用于训练集中的化合物、数据质量和所采用的建模方法。(2)模型只能预测其应用域(Applicability domain)内的化合物,但是模型的应用域难以确定。QSPRS模型通常仅适用于其应用域内的化合物,而对于其他化合物的预测精度不高。(3)过度拟合,很多模型对于训练集来说有很好的统计结果,但这些模型对用来测试模型的化合物的预测能力不好。而且统计结果越好,预测能力越差,导致这一现象的重要原因是模型中有些分子描述符只适用于训练集中的化合物。(4)非专业人员难以熟炼运用QSPRS模型来预测化合物的性能,需要受过专门训练才能建立QSPRS模型和利用QSPRS模型预测化合物的性能。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种利用化学热力学推导出来且能够准确预测有机化合物性能的线性自由能关系模型—LFER模型。
本发明还提供一种基于所述LFER模型来预测化合物性能的预测方法。
本发明所采用的技术方案为:
一种预测有机化合物性能的通用模型,所述模型为利用脂水分配系统预测化合物性能的通用公式:
Y=b1 logP+b2 Sm+b3 HM_HBD+b4 Flex+c (Ⅰ);
式Ⅰ中,Y代表物理化学性能或者ADME/Tox性能;
logP为脂水分配系数,表示化合物在水相与有机相之间分配系数的对数值;
Sm为一个与化合物大小有关的参数;
HM_HBD为分子中氢键供体的氢键形成能力之和;
Flex为分子的柔性,根据化合物中可旋转键和旋转键旋转时是否改变化合物的构象确定;
b1、b2、b3、b4和c为方程常数。
所述脂水分配系数logP为logPoct、logP16中的任意一种,所述logPoct的有机相为正辛醇,所述logP16的有机相为正十六烷。
所述脂水分配系数logP值为实验数据或计算数据。
所述脂水分配系数Sm值、HM_HBD、Flex均为根据化合物的结构计算得到。
当化合物的分子式为CcHhOoNnSsFfClclBrbrIi,则该化合物的Sm值为c+0.3h+o+n+2s+0.6f+1.8cl+2.2br+2.6i–0.2Nc3–0.6Nc4;其中Nc3为连接三个重原子的sp3碳原子数,Nc4为连接四个重原子的sp3碳原子数。
所述重原子不含氟化物。
一种基于所述模型对有机化合物性能进行预测的方法,包括以下步骤:
(1)提供至少12个已知有机化合物,所述已知有机化合物的性能Y值已知,所述已知有机化合物的化学结构式已知;
(2)实验检测或根据所述已知有机化合物的结构式获得所述已知有机化合物的logPoct、HM_HBD、Sm和Flex;
(3)以所述已知有机化合物的Y为因变量,logP、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;
(4)提供待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)根据待测有机化合物的结构式获得待测有机化合物的logP、HM_HBD、Sm和Flex,之后再结合步骤(3)得到的常数b1、b2、b3、b4和c,代入式(Ⅰ)中,计算得到待测有机化合物的性能Y值。
一种基于所述模型对有机化合物人体皮肤渗透性能进行预测的方法,包括以下步骤:
(1)提供32个已知有机化合物,所述已知有机化合物的人体皮肤渗透性能logKp已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logPoct,并根据所述已知有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知有机化合物的logKp为因变量,logPoct、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646 (Ⅱ);
(4)提供19个待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)获得待测有机化合物的logPoct的实验数据,并根据待测有机化合物的结构式获得待测有机化合物的HM_HBD、Sm和Flex,代入式(Ⅱ)中,计算得到待测有机化合物的性能logKp值。
一种基于所述模型对挥发性有机化合物在空气和人脑之间分配性能进行预测的方法,包括以下步骤:
(1)提供34个已知挥发性有机化合物,所述已知挥发性有机化合物在空气和人脑之间分配系数的对数logKbrain已知,所述已知挥发性有机化合物的化学结构式已知;
(2)实验检测得到所述已知挥发性有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知挥发性有机化合物的logKbrain为因变量,logP16、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKbrain=-0.5129logP16+0.5006Sm+0.1009HM_HBD-0.1893Flex-1.64(Ⅲ);
(4)通过留一法交互检验法验证模型的预测能力,用34个化合物中的33个建模,根据模型和另外一个化合物的HM_HBD、Sm和Flex预测这个化合物的logKbrain值;如此这样重复34次,直至计算得到所有34个有机化合物的性能logKbrain值。
一种基于所述模型对有机化合物在苯胺和水之间分配系数进行预测的方法,包括以下步骤:
(1)提供已知有机化合物,所述已知有机化合物在苯胺和水之间分配系数的对数logPaln已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知有机化合物的Sm;
(3)以所述已知有机化合物的logPaln为因变量,logP16和Sm为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2;得到如下模型:
logPaln=0.4695logP16+0.1506Sm+0.10 (Ⅳ);
(4)所有已知有机化合物当成待测有机化合物验证模型;
(5)将这些化合物的logP16和Sm代入式(Ⅳ)中,计算得到待测有机化合物的性能logPaln值。
本发明的有益效果为:
本发明所述的预测有机化合物性能的通用模型,能够准确预测有机化合物的物理化学性能以及ADME/Tox性能;这是由于有机化合物的物理化学性能以及ADME/Tox性能取决于与性能有关的自由能的变化,因此利用化学热力学的方法,推导出预测有机化合物性能的线性自由能关系模型—LFER模型,所述线性自由能关系模型(LFER模型)利用脂水分配系数预测有机化合物性能的通用公式如式Ⅰ所示,预测有机化合物性能的准确率高,并能有效解决现有技术中QSPR模型存在的不确定性大、预测精度差、预测能力不好、需要专业人员运用的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例1中待测有机化合物的logKp的计算值与实验值的对比图;
图2为实施例2中待测挥发性有机化合物的logKbrain的计算值与实验值的对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
本发明提供一种预测有机化合物性能的通用模型,所述模型为利用脂水分配系统预测化合物性能的通用公式:
Y=b1 logP+b2 Sm+b3 HM_HBD+b4 Flex+c (Ⅰ)。
式Ⅰ中,Y代表物理化学性能或者ADME/Tox性能;
logP为脂水分配系数,表示化合物在水相与有机相之间分配系数的对数值;所述脂水分配系数logP为logPoct(有机相为正辛醇)、logP16(有机相为十六烷)中的任意一种。
Sm为一个与化合物大小有关的参数;根据化合物的化学结构式计算Sm。当化合物的分子式为CcHhOoNnSsFfClclBrbrIi,则该化合物的Sm值为c+0.3h+o+n+2s+0.6*f+1.8cl+2.2br+2.6i–0.2Nc3–0.6Nc4;其中Nc3为连接三个重原子(不含氟化物)的sp3碳原子数,Nc4为连接四个重原子(不含氟化物)的sp3碳原子数。
HM_HBD为分子中氢键供体的氢键形成能力之和;计算方法详见已经公开的文章:D.Chen N.Oezguen,P.Urvil,C.Ferguson,S.M.Dann,T.C.Savidge,Regulation ofprotein-ligand binding affinity by hydrogen bond pairing.Sci.Adv.2,e1501240(2016)。
Flex为分子的柔性,根据化合物中可旋转键和旋转键旋转时是否改变化合物的构象确定。
b1、b2、b3、b4和c为方程常数。
实施例1
本实施例提供一种利用所述LFER模型对人体皮肤渗透性能进行预测的方法,包括以下步骤:
(1)提供32个已知有机化合物,所述已知有机化合物的人体皮肤渗透性能logKp(Kp为渗透速度,单位cm/s)已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logPoct,并根据所述已知有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;如表1所示;
表1
$logKp的计算值通过以下模型计算得到:logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646
(3)以所述已知有机化合物的logKp为因变量,logPoct、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646 (Ⅱ);
式(Ⅱ)所述模型具有很好的统计结果:N=32,R2=0.953,SD=0.178,F=136.7;
(4)提供19个待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)检测待测有机化合物的logPoct,并根据待测有机化合物的结构式获得待测有机化合物的HM_HBD、Sm和Flex,代入公式(Ⅱ)中,计算得到待测有机化合物的性能logKp值,结果如表2所示。
表2
$logKp的计算值通过以下模型计算得到:logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646
如图1所示为待测有机化合物的logKp的计算值与实验值的对比图,从图1中可以看出,logKp的计算值[logKp(calc)]与实验值[logKp(obs)]有很好的相关性,从而说明可以通过公式(Ⅱ)准确预测有机化合物的人体皮肤渗透性能。
实施例2
本实施例提供一种利用所述LFER模型对挥发性有机化合物在空气和人脑之间分配性能进行预测的方法,包括以下步骤:
(1)提供34个已知挥发性有机化合物,所述已知挥发性有机化合物在空气和人脑之间分配系数的对数logKbrain已知,所述已知挥发性有机化合物的化学结构式已知;
(2)实验检测得到所述挥发性已知有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知挥发性有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知挥发性有机化合物的logKbrain为因变量,logP16、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKbrain=-0.5129logPoct+0.5006Sm+0.1009HM_HBD-0.1893Flex-1.64(Ⅲ);
式(Ⅲ)所述模型具有很好的统计结果:N=34,R2=0.964,SD=0.265,F=195.7;
(4)通过内部验证法(留一法交互检验,LOO-CV)验证模型的预测能力;用34个化合物中的33个建模,根据模型和另外一个化合物的HM_HBD、Sm和Flex预测这个化合物的logKbrain值;如此这样重复34次,直至计算得到所有34个有机化合物的性能logKbrain值。
挥发性有机化合物在空气和人脑之间分配性能(用logKbrain表示)的实验数据,以及建模预测模型用的参数结果如表3所示。
表3
通过内部验证法(留一法交互检验,LOO-CV)得到logKbrain的计算值。如图2所示为通过LOO-VCV法得到的挥发性有机化合物的logKbrain的计算值与实验值的对比图。可以看出,logKbrain的计算值[logKbrain(calc)]与实验值[logKbrain(obs)]有很好的相关性,从而说明公式(Ⅲ)能够准确预测挥发性有机化合物在空气和人脑之间分配性能。
实施例3
本实施例提供一种利用所述LFER模型对有机化合物在苯胺和水之间分配系数进行预测的方法,包括以下步骤:
(1)提供已知有机化合物,所述已知有机化合物在苯胺和水之间分配系数的对数logPaln已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知有机化合物的Sm;
(3)以所述已知有机化合物的logPaln为因变量,logP16和Sm为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2;b3、b4为零;得到如下模型:
logPaln=0.4695logP16+0.1506Sm+0.10 (Ⅳ);
式(Ⅳ)所述模型具有很好的统计结果:N=54,R2=0.975,SD=0.208;
(4)将所有已知有机化合物当成待测有机化合物验证模型;
(5)将这些化合物的logP16和Sm代入式(Ⅳ)中,计算得到待测有机化合物的性能logPaln值。
有机化合物在苯胺和水之间分配系数(用logPaln表示)实验值,计算机值以及建模用参数如表4所示。
表4
$logPaln的计算值通过以下模型计算得到:logPaln=0.4695logP16+0.1506Sm+0.010
本发明所述的预测有机化合物性能的通用模型,能够准确预测有机化合物的物理化学性能以及ADME/Tox性能;这是由于有机化合物的物理化学性能以及ADME/Tox性能取决于与性能有关的自由能的变化,因此利用化学热力学的方法,推导出预测有机化合物性能的线性自由能关系模型—LFER模型,所述线性自由能关系模型(LFER模型)利用脂水分配系数预测有机化合物性能的通用公式如式Ⅰ所示,预测有机化合物性能的准确率高,并能有效解决现有技术中QSPR模型存在的不确定性大、预测精度差、预测能力不好、需要专业人员运用的问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种预测有机化合物性能的通用模型,其特征在于,所述模型为利用脂水分配系统预测化合物性能的通用公式:
Y=b1logP+b2Sm+b3HM_HBD+b4Flex+c (Ⅰ);
式 (Ⅰ)中,Y代表物理化学性能或者ADME/Tox性能;
logP为脂水分配系数,表示化合物在水相与有机相之间分配系数的对数值;
Sm为一个与化合物大小有关的参数;
HM_HBD为分子中氢键供体的氢键形成能力之和;
Flex为分子的柔性,根据化合物中可旋转键和旋转键旋转时是否改变化合物的构象确定;
b1、b2、b3、b4和c为方程常数;
当化合物的分子式为CcHhOoNnSsFfClclBrbrIi,则该化合物的Sm值为c+0.3h+o+n+2s+0.6f+1.8cl+2.2br+2.6i-0.2Nc3-0.6Nc4;其中Nc3为连接三个重原子的sp3碳原子数,Nc4为连接四个重原子的sp3碳原子数。
2.根据权利要求1所述的预测有机化合物性能的通用模型,其特征在于,所述脂水分配系数logP为logPoct、logP16中的任意一种,所述logPoct的有机相为正辛醇,所述logP16的有机相为正十六烷。
3.根据权利要求2所述的预测有机化合物性能的通用模型,其特征在于,所述脂水分配系数logP值为实验数据或计算数据。
4.根据权利要求2所述的预测有机化合物性能的通用模型,其特征在于,所述脂水分配系数Sm值、HM_HBD、Flex均为根据化合物的结构计算得到。
5.根据权利要求1所述的预测有机化合物性能的通用模型,其特征在于,所述重原子不含氟化物。
6.一种基于权利要求1-5任一项所述模型对有机化合物性能进行预测的方法,其特征在于,包括以下步骤:
(1)提供至少12个已知有机化合物,所述已知有机化合物的性能Y值已知,所述已知有机化合物的化学结构式已知;
(2)实验检测或根据所述已知有机化合物的结构计算获得所述已知有机化合物的logP、HM_HBD、Sm和Flex;
(3)以所述已知有机化合物的Y为因变量,logP、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式(Ⅰ)中的常数b1、b2、b3、b4和c;
(4)提供待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)根据待测有机化合物的结构式获得待测有机化合物的logP、HM_HBD、Sm和Flex,之后再结合步骤(3)得到的常数b1、b2、b3、b4和c,代入式(Ⅰ)中,计算得到待测有机化合物的性能Y值。
7.一种基于权利要求1-5任一项所述模型对有机化合物人体皮肤渗透性能进行预测的方法,其特征在于,包括以下步骤:
(1)提供32个已知有机化合物,所述已知有机化合物的人体皮肤渗透性能logKp已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logPoct,并根据所述已知有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知有机化合物的logKp为因变量,logPoct、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式(Ⅰ)中的常数b1、b2、b3、b4和c;得到如下模型:
logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646 (Ⅱ);
(4)提供19个待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)获得待测有机化合物的logPoct的实验数据,并根据待测有机化合物的结构式获得待测有机化合物的HM_HBD、Sm和Flex,代入式(Ⅱ)中,计算得到待测有机化合物的性能logKp值。
8.一种基于权利要求1-5任一项所述模型对挥发性有机化合物在空气和人脑之间分配性能进行预测的方法,其特征在于,包括以下步骤:
(1)提供34个已知挥发性有机化合物,所述已知挥发性有机化合物在空气和人脑之间分配系数的对数logKbrain已知,所述已知挥发性有机化合物的化学结构式已知;
(2)实验检测得到所述已知挥发性有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知挥发性有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知挥发性有机化合物的logKbrain为因变量,logP16、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式(Ⅰ)中的常数b1、b2、b3、b4和c;得到如下模型:
logKbrain=-0.5129logP16+0.5006Sm+0.1009HM_HBD-0.1893Flex-1.64
(Ⅲ);
(4)通过留一法交互检验法验证模型的预测能力,用34个化合物中的33个建模,根据模型和另外一个化合物的HM_HBD、Sm和Flex预测这个化合物的logKbrain值;如此这样重复34次,直至计算得到所有34个有机化合物的性能logKbrain值。
9.一种基于权利要求1-5任一项所述模型对有机化合物在苯胺和水之间分配系数进行预测的方法,其特征在于,包括以下步骤:
(1)提供已知有机化合物,所述已知有机化合物在苯胺和水之间分配系数的对数logPaln已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logP16,并根据所述已知有机化合物的结构式获得所述已知有机化合物的Sm;
(3)以所述已知有机化合物的logPaln为因变量,logP16和Sm为自变量,用多元线性回归的方法计算出式 (Ⅰ)中的常数b1、b2;得到如下模型:
logPaln=0.4695logP16+0.1506Sm+0.10 (Ⅳ);
(4)将所有已知有机化合物当成待测有机化合物验证模型;
(5)代入式(Ⅳ)中,计算得到待测有机化合物的性能logPaln值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111028085.0A CN113689916B (zh) | 2021-09-02 | 2021-09-02 | 一种预测有机化合物性能的通用模型及预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111028085.0A CN113689916B (zh) | 2021-09-02 | 2021-09-02 | 一种预测有机化合物性能的通用模型及预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113689916A CN113689916A (zh) | 2021-11-23 |
CN113689916B true CN113689916B (zh) | 2024-04-16 |
Family
ID=78585117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111028085.0A Active CN113689916B (zh) | 2021-09-02 | 2021-09-02 | 一种预测有机化合物性能的通用模型及预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113689916B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101089245A (zh) * | 2006-12-30 | 2007-12-19 | 中国医学科学院放射医学研究所 | 一种中药复方药效物质基础的虚拟筛选方法 |
CN101419214A (zh) * | 2007-10-23 | 2009-04-29 | 中国科学院上海药物研究所 | 基于分层原子加和模型的分子酸碱解离常数的预测方法 |
CN109493923A (zh) * | 2018-12-18 | 2019-03-19 | 赣南师范大学 | 计算化合物在水和任意溶剂中分配常数的方法 |
CN109979541A (zh) * | 2019-03-20 | 2019-07-05 | 四川大学 | 基于胶囊网络的药物分子药代动力学性质和毒性预测方法 |
CN110534163A (zh) * | 2019-08-22 | 2019-12-03 | 大连理工大学 | 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1239280A3 (en) * | 2001-02-26 | 2004-03-31 | Pfizer Products Inc. | ElogDoct:A tool for lipophilicity determination in drug discovery basic and neutral compounds |
-
2021
- 2021-09-02 CN CN202111028085.0A patent/CN113689916B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101089245A (zh) * | 2006-12-30 | 2007-12-19 | 中国医学科学院放射医学研究所 | 一种中药复方药效物质基础的虚拟筛选方法 |
CN101419214A (zh) * | 2007-10-23 | 2009-04-29 | 中国科学院上海药物研究所 | 基于分层原子加和模型的分子酸碱解离常数的预测方法 |
CN109493923A (zh) * | 2018-12-18 | 2019-03-19 | 赣南师范大学 | 计算化合物在水和任意溶剂中分配常数的方法 |
CN109979541A (zh) * | 2019-03-20 | 2019-07-05 | 四川大学 | 基于胶囊网络的药物分子药代动力学性质和毒性预测方法 |
CN110534163A (zh) * | 2019-08-22 | 2019-12-03 | 大连理工大学 | 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法 |
Non-Patent Citations (1)
Title |
---|
有机化合物脂水分配系数和溶解度的计算方法:;王艳玲 等;物理化学学报;1742-1754 * |
Also Published As
Publication number | Publication date |
---|---|
CN113689916A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Breindl et al. | Prediction of the n-octanol/water partition coefficient, logP, using a combination of semiempirical MO-calculations and a neural network | |
Sodeifian et al. | A comprehensive comparison among four different approaches for predicting the solubility of pharmaceutical solid compounds in supercritical carbon dioxide | |
Zhao et al. | Prediction of viscosity of imidazolium-based ionic liquids using MLR and SVM algorithms | |
Gront et al. | Comparison of three Monte Carlo conformational search strategies for a proteinlike homopolymer model: Folding thermodynamics and identification of low-energy structures | |
Redžepović et al. | Predictive potential of eigenvalue-based topological molecular descriptors | |
Simm et al. | Error assessment of computational models in chemistry | |
Tielker et al. | The SAMPL5 challenge for embedded-cluster integral equation theory: solvation free energies, aqueous p K a, and cyclohexane–water log D | |
Fatehi et al. | Estimation of viscosities of pure ionic liquids using an artificial neural network based on only structural characteristics | |
Lazzús | Estimation of density as a function of temperature and pressure for imidazolium-based ionic liquids using a multilayer net with particle swarm optimization | |
Umer et al. | PC-SAFT parameters from ab initio calculations | |
Das et al. | Multilayered variable selection in QSPR: a case study of modeling melting point of bromide ionic liquids | |
Polishuk et al. | Comparison of SAFT-VR-Mie and CP-PC-SAFT in predicting phase behavior of associating systems I. Ammonia–water, methanol, ethanol and hydrazine | |
CN113689916B (zh) | 一种预测有机化合物性能的通用模型及预测方法 | |
Xu et al. | Viscosity estimation of ternary mixtures containing ionic liquid from their binary subsystems: a comparison of three viscosity equations | |
Solov’Ev et al. | QSPR ensemble modelling of alkaline-earth metal complexation | |
Saali et al. | Thermodynamic Consistency Test of Vapor–liquid Equilibrium Data of Binary Systems Including Carbon Dioxide (CO 2) and Ionic Liquids Using the Generic Redlich–Kwong Equation of State | |
Burger et al. | Free energy calculations in molecular design: predictions by theory and reality by experiment with enantioselective podand ionophores | |
de Riggi et al. | Restricted rotation and NOE transfer: a conformational study of some substituted (9-anthryl) carbinol derivatives | |
Dijkman et al. | Learning Neural Free-Energy Functionals with Pair-Correlation Matching | |
Zhou et al. | QSAR study of angiotensin II antagonists using robust boosting partial least squares regression | |
Preiss et al. | Temperature‐Dependent Prediction of the Liquid Entropy of Ionic Liquids | |
Barycki et al. | ILPC: simple chemometric tool supporting the design of ionic liquids | |
Verevkin et al. | Molecular liquids versus ionic liquids: Thermodynamic insights into the interplay between inter-molecular and intra-molecular hydrogen bonding | |
CN113723686B (zh) | 有机硅单体分馏过程能耗的多任务灰箱预测方法及系统 | |
Shen et al. | Variable selection by an evolution algorithm using modified Cp based on MLR and PLS modeling: QSAR studies of carcinogenicity of aromatic amines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |