CN113689916A - 一种预测有机化合物性能的通用模型及预测方法 - Google Patents

一种预测有机化合物性能的通用模型及预测方法 Download PDF

Info

Publication number
CN113689916A
CN113689916A CN202111028085.0A CN202111028085A CN113689916A CN 113689916 A CN113689916 A CN 113689916A CN 202111028085 A CN202111028085 A CN 202111028085A CN 113689916 A CN113689916 A CN 113689916A
Authority
CN
China
Prior art keywords
organic compound
logp
model
compound
predicting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111028085.0A
Other languages
English (en)
Other versions
CN113689916B (zh
Inventor
陈德良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gannan Normal University
Original Assignee
Gannan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gannan Normal University filed Critical Gannan Normal University
Priority to CN202111028085.0A priority Critical patent/CN113689916B/zh
Publication of CN113689916A publication Critical patent/CN113689916A/zh
Application granted granted Critical
Publication of CN113689916B publication Critical patent/CN113689916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

本发明涉及一种预测有机化合物性能的通用模型及预测方法,所述通用模型能够准确预测有机化合物的物理化学性能以及ADME/Tox性能;这是由于有机化合物的物理化学性能以及ADME/Tox性能取决于与性能有关的自由能的变化,因此利用化学热力学的方法,推导出预测有机化合物性能的线性自由能关系模型—LFER模型,所述线性自由能关系模型(LFER模型)利用脂水分配系数预测有机化合物性能的通用公式如式Ⅰ所示,预测有机化合物性能的准确率高,并能有效解决现有技术中QSPR模型存在的不确定性大、预测精度差、预测能力不好、需要专业人员运用的问题。

Description

一种预测有机化合物性能的通用模型及预测方法
技术领域
本发明属于计算化学技术领域,具体涉及一种预测有机化合物性能的通用模型及预测方法。
背景技术
随着化学化工领域的快速发展和新有机化合物的快速增长,通过计算方法预测有机化合物(包括候选药物)的物理化学性能和药物代谢动力学性质变得越来越重要。例如在合成候选药物前,准确预测其吸收、分布、代谢、排泄和毒性(ADME/Tox)可显著降低药物开发的成本和时间,提高成功率。
目前预测有机化合物性能常用的方法是通过数学和统计方法建立结构-活性定量关系模型(QSPRS),再利用QSPRS模型来预测其他化合物的性能。几十年来发展了很多以数学和统计为基础建立QSPRS模型的方法,如人工神经网络和偏最小二乘法。这些方法都是根据一系列已知化合物某一性能的数据(一般为实验数据)和这些化合物的结构建立模型,再根据需要预测性能的化合物的结构计算这些化合物的这一性能。其工作原理具体为:QSPRS模型的本质是化合物结构与化合物性能的定量关系模型,而化合物结构在QSPRS模型中是以分子结构描述符(molecular Descriptor)表示。目前已发展了上万个可用于建立QSPRS模型的分子结构描述符,如辛醇/水分配系数(logPoct)、分子量、最低空轨道能量LUMO、前线轨道能量HOMO等。QSPRS模型中的分子结构描述符是根据一系列已知性能的化合物(即训练集),利用数学和统计方法从几千甚至上万个分子结构描述符中选出可用于建模的几个分子结构描述符。分子结构描述符选好后,用统计工具如多元线性回归法、偏最小二乘法、主成分回归法、人工神经网络法、遗传算法和支持向量机法等建立QSPRS模型。
然而,现有技术中利用QSPRS模型来预测化合物的性能存在以下几个方面的问题,具体为:(1)模型的不确定性,由于模型中分子结构描述符是从几千个分子结构描述符中利用数学和统计方法选出,最后得到的模型在很大程度上取决于用于训练集中的化合物、数据质量和所采用的建模方法。(2)模型只能预测其应用域(Applicability domain)内的化合物,但是模型的应用域难以确定。QSPRS模型通常仅适用于其应用域内的化合物,而对于其他化合物的预测精度不高。(3)过度拟合,很多模型对于训练集来说有很好的统计结果,但这些模型对用来测试模型的化合物的预测能力不好。而且统计结果越好,预测能力越差,导致这一现象的重要原因是模型中有些分子描述符只适用于训练集中的化合物。(4)非专业人员难以熟炼运用QSPRS模型来预测化合物的性能,需要受过专门训练才能建立QSPRS模型和利用QSPRS模型预测化合物的性能。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种利用化学热力学推导出来且能够准确预测有机化合物性能的线性自由能关系模型—LFER模型。
本发明还提供一种基于所述LFER模型来预测化合物性能的预测方法。
本发明所采用的技术方案为:
一种预测有机化合物性能的通用模型,所述模型为利用脂水分配系统预测化合物性能的通用公式:
Y=b1 logP+b2 Sm+b3 HM_HBD+b4 Flex+c (Ⅰ);
式Ⅰ中,Y代表物理化学性能或者ADME/Tox性能;
logP为脂水分配系数,表示化合物在水相与有机相之间分配系数的对数值;
Sm为一个与化合物大小有关的参数;
HM_HBD为分子中氢键供体的氢键形成能力之和;
Flex为分子的柔性,根据化合物中可旋转键和旋转键旋转时是否改变化合物的构象确定;
b1、b2、b3、b4和c为方程常数。
所述脂水分配系数logP为logPoct、logP16中的任意一种,所述logPoct的有机相为正辛醇,所述logP16的有机相为正十六烷。
所述脂水分配系数logP值为实验数据或计算数据。
所述脂水分配系数Sm值、HM_HBD、Flex均为根据化合物的结构计算得到。
当化合物的分子式为CcHhOoNnSsFfClclBrbrIi,则该化合物的Sm值为c+0.3h+o+n+2s+0.6f+1.8cl+2.2br+2.6i–0.2Nc3–0.6Nc4;其中Nc3为连接三个重原子的sp3碳原子数,Nc4为连接四个重原子的sp3碳原子数。
所述重原子不含氟化物。
一种基于所述模型对有机化合物性能进行预测的方法,包括以下步骤:
(1)提供至少12个已知有机化合物,所述已知有机化合物的性能Y值已知,所述已知有机化合物的化学结构式已知;
(2)实验检测或根据所述已知有机化合物的结构式获得所述已知有机化合物的logPoct、HM_HBD、Sm和Flex;
(3)以所述已知有机化合物的Y为因变量,logP、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;
(4)提供待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)根据待测有机化合物的结构式获得待测有机化合物的logP、HM_HBD、Sm和Flex,之后再结合步骤(3)得到的常数b1、b2、b3、b4和c,代入式(Ⅰ)中,计算得到待测有机化合物的性能Y值。
一种基于所述模型对有机化合物人体皮肤渗透性能进行预测的方法,包括以下步骤:
(1)提供32个已知有机化合物,所述已知有机化合物的人体皮肤渗透性能logKp已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logPoct,并根据所述已知有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知有机化合物的logKp为因变量,logPoct、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646 (Ⅱ);
(4)提供19个待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)获得待测有机化合物的logPoct的实验数据,并根据待测有机化合物的结构式获得待测有机化合物的HM_HBD、Sm和Flex,代入式(Ⅱ)中,计算得到待测有机化合物的性能logKp值。
一种基于所述模型对挥发性有机化合物在空气和人脑之间分配性能进行预测的方法,包括以下步骤:
(1)提供34个已知挥发性有机化合物,所述已知挥发性有机化合物在空气和人脑之间分配系数的对数logKbrain已知,所述已知挥发性有机化合物的化学结构式已知;
(2)实验检测得到所述已知挥发性有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知挥发性有机化合物的logKbrain为因变量,logP16、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKbrain=-0.5129logP16+0.5006Sm+0.1009HM_HBD-0.1893Flex-1.64(Ⅲ);
(4)通过留一法交互检验法验证模型的预测能力,用34个化合物中的33个建模,根据模型和另外一个化合物的HM_HBD、Sm和Flex预测这个化合物的logKbrain值;如此这样重复34次,直至计算得到所有34个有机化合物的性能logKbrain值。
一种基于所述模型对有机化合物在苯胺和水之间分配系数进行预测的方法,包括以下步骤:
(1)提供已知有机化合物,所述已知有机化合物在苯胺和水之间分配系数的对数logPaln已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知有机化合物的Sm
(3)以所述已知有机化合物的logPaln为因变量,logP16和Sm为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2;得到如下模型:
logPaln=0.4695logP16+0.1506Sm+0.10 (Ⅳ);
(4)所有已知有机化合物当成待测有机化合物验证模型;
(5)将这些化合物的logP16和Sm代入式(Ⅳ)中,计算得到待测有机化合物的性能logPaln值。
本发明的有益效果为:
本发明所述的预测有机化合物性能的通用模型,能够准确预测有机化合物的物理化学性能以及ADME/Tox性能;这是由于有机化合物的物理化学性能以及ADME/Tox性能取决于与性能有关的自由能的变化,因此利用化学热力学的方法,推导出预测有机化合物性能的线性自由能关系模型—LFER模型,所述线性自由能关系模型(LFER模型)利用脂水分配系数预测有机化合物性能的通用公式如式Ⅰ所示,预测有机化合物性能的准确率高,并能有效解决现有技术中QSPR模型存在的不确定性大、预测精度差、预测能力不好、需要专业人员运用的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例1中待测有机化合物的logKp的计算值与实验值的对比图;
图2为实施例2中待测挥发性有机化合物的logKbrain的计算值与实验值的对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
本发明提供一种预测有机化合物性能的通用模型,所述模型为利用脂水分配系统预测化合物性能的通用公式:
Y=b1 logP+b2 Sm+b3 HM_HBD+b4 Flex+c (Ⅰ)。
式Ⅰ中,Y代表物理化学性能或者ADME/Tox性能;
logP为脂水分配系数,表示化合物在水相与有机相之间分配系数的对数值;所述脂水分配系数logP为logPoct(有机相为正辛醇)、logP16(有机相为十六烷)中的任意一种。
Sm为一个与化合物大小有关的参数;根据化合物的化学结构式计算Sm。当化合物的分子式为CcHhOoNnSsFfClclBrbrIi,则该化合物的Sm值为c+0.3h+o+n+2s+0.6*f+1.8cl+2.2br+2.6i–0.2Nc3–0.6Nc4;其中Nc3为连接三个重原子(不含氟化物)的sp3碳原子数,Nc4为连接四个重原子(不含氟化物)的sp3碳原子数。
HM_HBD为分子中氢键供体的氢键形成能力之和;计算方法详见已经公开的文章:D.Chen N.Oezguen,P.Urvil,C.Ferguson,S.M.Dann,T.C.Savidge,Regulation ofprotein-ligand binding affinity by hydrogen bond pairing.Sci.Adv.2,e1501240(2016)。
Flex为分子的柔性,根据化合物中可旋转键和旋转键旋转时是否改变化合物的构象确定。
b1、b2、b3、b4和c为方程常数。
实施例1
本实施例提供一种利用所述LFER模型对人体皮肤渗透性能进行预测的方法,包括以下步骤:
(1)提供32个已知有机化合物,所述已知有机化合物的人体皮肤渗透性能logKp(Kp为渗透速度,单位cm/s)已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logPoct,并根据所述已知有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;如表1所示;
表1
Figure BDA0003244084750000071
Figure BDA0003244084750000081
$logKp的计算值通过以下模型计算得到:logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646
(3)以所述已知有机化合物的logKp为因变量,logPoct、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646 (Ⅱ);
式(Ⅱ)所述模型具有很好的统计结果:N=32,R2=0.953,SD=0.178,F=136.7;
(4)提供19个待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)检测待测有机化合物的logPoct,并根据待测有机化合物的结构式获得待测有机化合物的HM_HBD、Sm和Flex,代入公式(Ⅱ)中,计算得到待测有机化合物的性能logKp值,结果如表2所示。
表2
Figure BDA0003244084750000082
Figure BDA0003244084750000091
$logKp的计算值通过以下模型计算得到:logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646
如图1所示为待测有机化合物的logKp的计算值与实验值的对比图,从图1中可以看出,logKp的计算值[logKp(calc)]与实验值[logKp(obs)]有很好的相关性,从而说明可以通过公式(Ⅱ)准确预测有机化合物的人体皮肤渗透性能。
实施例2
本实施例提供一种利用所述LFER模型对挥发性有机化合物在空气和人脑之间分配性能进行预测的方法,包括以下步骤:
(1)提供34个已知挥发性有机化合物,所述已知挥发性有机化合物在空气和人脑之间分配系数的对数logKbrain已知,所述已知挥发性有机化合物的化学结构式已知;
(2)实验检测得到所述挥发性已知有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知挥发性有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知挥发性有机化合物的logKbrain为因变量,logP16、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKbrain=-0.5129logPoct+0.5006Sm+0.1009HM_HBD-0.1893Flex-1.64(Ⅲ);
式(Ⅲ)所述模型具有很好的统计结果:N=34,R2=0.964,SD=0.265,F=195.7;
(4)通过内部验证法(留一法交互检验,LOO-CV)验证模型的预测能力;用34个化合物中的33个建模,根据模型和另外一个化合物的HM_HBD、Sm和Flex预测这个化合物的logKbrain值;如此这样重复34次,直至计算得到所有34个有机化合物的性能logKbrain值。
挥发性有机化合物在空气和人脑之间分配性能(用logKbrain表示)的实验数据,以及建模预测模型用的参数结果如表3所示。
表3
Figure BDA0003244084750000101
Figure BDA0003244084750000111
通过内部验证法(留一法交互检验,LOO-CV)得到logKbrain的计算值。如图2所示为通过LOO-VCV法得到的挥发性有机化合物的logKbrain的计算值与实验值的对比图。可以看出,logKbrain的计算值[logKbrain(calc)]与实验值[logKbrain(obs)]有很好的相关性,从而说明公式(Ⅲ)能够准确预测挥发性有机化合物在空气和人脑之间分配性能。
实施例3
本实施例提供一种利用所述LFER模型对有机化合物在苯胺和水之间分配系数进行预测的方法,包括以下步骤:
(1)提供已知有机化合物,所述已知有机化合物在苯胺和水之间分配系数的对数logPaln已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知有机化合物的Sm
(3)以所述已知有机化合物的logPaln为因变量,logP16和Sm为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2;b3、b4为零;得到如下模型:
logPaln=0.4695logP16+0.1506Sm+0.10 (Ⅳ);
式(Ⅳ)所述模型具有很好的统计结果:N=54,R2=0.975,SD=0.208;
(4)将所有已知有机化合物当成待测有机化合物验证模型;
(5)将这些化合物的logP16和Sm代入式(Ⅳ)中,计算得到待测有机化合物的性能logPaln值。
有机化合物在苯胺和水之间分配系数(用logPaln表示)实验值,计算机值以及建模用参数如表4所示。
表4
Figure BDA0003244084750000121
Figure BDA0003244084750000131
$logPaln的计算值通过以下模型计算得到:logPaln=0.4695logP16+0.1506Sm+0.010
本发明所述的预测有机化合物性能的通用模型,能够准确预测有机化合物的物理化学性能以及ADME/Tox性能;这是由于有机化合物的物理化学性能以及ADME/Tox性能取决于与性能有关的自由能的变化,因此利用化学热力学的方法,推导出预测有机化合物性能的线性自由能关系模型—LFER模型,所述线性自由能关系模型(LFER模型)利用脂水分配系数预测有机化合物性能的通用公式如式Ⅰ所示,预测有机化合物性能的准确率高,并能有效解决现有技术中QSPR模型存在的不确定性大、预测精度差、预测能力不好、需要专业人员运用的问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种预测有机化合物性能的通用模型,其特征在于,所述模型为利用脂水分配系统预测化合物性能的通用公式:
Y=b1logP+b2Sm+b3HM_HBD+b4Flex+c (Ⅰ);
式Ⅰ中,Y代表物理化学性能或者ADME/Tox性能;
logP为脂水分配系数,表示化合物在水相与有机相之间分配系数的对数值;
Sm为一个与化合物大小有关的参数;
HM_HBD为分子中氢键供体的氢键形成能力之和;
Flex为分子的柔性,根据化合物中可旋转键和旋转键旋转时是否改变化合物的构象确定;
b1、b2、b3、b4和c为方程常数。
2.根据权利要求1所述的预测有机化合物性能的通用模型,其特征在于,所述脂水分配系数logP为logPoct、logP16中的任意一种,所述logPoct的有机相为正辛醇,所述logP16的有机相为正十六烷。
3.根据权利要求2所述的预测有机化合物性能的通用模型,其特征在于,所述脂水分配系数logP值为实验数据或计算数据。
4.根据权利要求2所述的预测有机化合物性能的通用模型,其特征在于,所述脂水分配系数Sm值、HM_HBD、Flex均为根据化合物的结构计算得到。
5.根据权利要求4所述的预测有机化合物性能的通用模型,其特征在于,当化合物的分子式为CcHhOoNnSsFfClclBrbrIi,则该化合物的Sm值为c+0.3h+o+n+2s+0.6f+1.8cl+2.2br+2.6i–0.2Nc3–0.6Nc4;其中Nc3为连接三个重原子的sp3碳原子数,Nc4为连接四个重原子的sp3碳原子数。
6.根据权利要求5所述的预测有机化合物性能的通用模型,其特征在于,所述重原子不含氟化物。
7.一种基于权利要求1-6所述模型对有机化合物性能进行预测的方法,其特征在于,包括以下步骤:
(1)提供至少12个已知有机化合物,所述已知有机化合物的性能Y值已知,所述已知有机化合物的化学结构式已知;
(2)实验检测或根据所述已知有机化合物的结构计算获得所述已知有机化合物的logP、HM_HBD、Sm和Flex;
(3)以所述已知有机化合物的Y为因变量,logP、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;
(4)提供待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)根据待测有机化合物的结构式获得待测有机化合物的logP、HM_HBD、Sm和Flex,之后再结合步骤(3)得到的常数b1、b2、b3、b4和c,代入式(Ⅰ)中,计算得到待测有机化合物的性能Y值。
8.一种基于权利要求1-6所述模型对有机化合物人体皮肤渗透性能进行预测的方法,其特征在于,包括以下步骤:
(1)提供32个已知有机化合物,所述已知有机化合物的人体皮肤渗透性能logKp已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logPoct,并根据所述已知有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知有机化合物的logKp为因变量,logPoct、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKp=0.6157logPoct+0.0156Sm-0.0626HM_HBD-0.0988Flex-5.646 (Ⅱ);
(4)提供19个待测有机化合物,所述待测有机化合物的化学结构式已知;
(5)获得待测有机化合物的logPoct的实验数据,并根据待测有机化合物的结构式获得待测有机化合物的HM_HBD、Sm和Flex,代入式(Ⅱ)中,计算得到待测有机化合物的性能logKp值。
9.一种基于权利要求1-6所述模型对挥发性有机化合物在空气和人脑之间分配性能进行预测的方法,其特征在于,包括以下步骤:
(1)提供34个已知挥发性有机化合物,所述已知挥发性有机化合物在空气和人脑之间分配系数的对数logKbrain已知,所述已知挥发性有机化合物的化学结构式已知;
(2)实验检测得到所述已知挥发性有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知有机化合物的HM_HBD、Sm和Flex;
(3)以所述已知挥发性有机化合物的logKbrain为因变量,logP16、HM_HBD、Sm和Flex为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2、b3、b4和c;得到如下模型:
logKbrain=-0.5129logP16+0.5006Sm+0.1009HM_HBD-0.1893Flex-1.64 (Ⅲ);
(4)通过留一法交互检验法验证模型的预测能力,用34个化合物中的33个建模,根据模型和另外一个化合物的HM_HBD、Sm和Flex预测这个化合物的logKbrain值;如此这样重复34次,直至计算得到所有34个有机化合物的性能logKbrain值。
10.一种基于权利要求1-6所述模型对有机化合物在苯胺和水之间分配系数进行预测的方法,其特征在于,包括以下步骤:
(1)提供已知有机化合物,所述已知有机化合物在苯胺和水之间分配系数的对数logPaln已知,所述已知有机化合物的化学结构式已知;
(2)实验检测得到所述已知有机化合物的logP16,并根据所述已知挥发性有机化合物的结构式获得所述已知有机化合物的Sm
(3)以所述已知有机化合物的logPaln为因变量,logP16和Sm为自变量,用多元线性回归的方法计算出式Ⅰ中的常数b1、b2;得到如下模型:
logPaln=0.4695logP16+0.1506Sm+0.10 (Ⅳ);
(4)将所有已知有机化合物当成待测有机化合物验证模型;
(5)代入式(Ⅳ)中,计算得到待测有机化合物的性能logPaln值。
CN202111028085.0A 2021-09-02 2021-09-02 一种预测有机化合物性能的通用模型及预测方法 Active CN113689916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111028085.0A CN113689916B (zh) 2021-09-02 2021-09-02 一种预测有机化合物性能的通用模型及预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111028085.0A CN113689916B (zh) 2021-09-02 2021-09-02 一种预测有机化合物性能的通用模型及预测方法

Publications (2)

Publication Number Publication Date
CN113689916A true CN113689916A (zh) 2021-11-23
CN113689916B CN113689916B (zh) 2024-04-16

Family

ID=78585117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111028085.0A Active CN113689916B (zh) 2021-09-02 2021-09-02 一种预测有机化合物性能的通用模型及预测方法

Country Status (1)

Country Link
CN (1) CN113689916B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161528A1 (en) * 2001-02-26 2002-10-31 Pfizer Inc. Tool for lipophilicity determination in drug discovery basic and neutral compounds
CN101089245A (zh) * 2006-12-30 2007-12-19 中国医学科学院放射医学研究所 一种中药复方药效物质基础的虚拟筛选方法
CN101419214A (zh) * 2007-10-23 2009-04-29 中国科学院上海药物研究所 基于分层原子加和模型的分子酸碱解离常数的预测方法
CN109493923A (zh) * 2018-12-18 2019-03-19 赣南师范大学 计算化合物在水和任意溶剂中分配常数的方法
CN109979541A (zh) * 2019-03-20 2019-07-05 四川大学 基于胶囊网络的药物分子药代动力学性质和毒性预测方法
CN110534163A (zh) * 2019-08-22 2019-12-03 大连理工大学 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161528A1 (en) * 2001-02-26 2002-10-31 Pfizer Inc. Tool for lipophilicity determination in drug discovery basic and neutral compounds
CN101089245A (zh) * 2006-12-30 2007-12-19 中国医学科学院放射医学研究所 一种中药复方药效物质基础的虚拟筛选方法
CN101419214A (zh) * 2007-10-23 2009-04-29 中国科学院上海药物研究所 基于分层原子加和模型的分子酸碱解离常数的预测方法
CN109493923A (zh) * 2018-12-18 2019-03-19 赣南师范大学 计算化合物在水和任意溶剂中分配常数的方法
CN109979541A (zh) * 2019-03-20 2019-07-05 四川大学 基于胶囊网络的药物分子药代动力学性质和毒性预测方法
CN110534163A (zh) * 2019-08-22 2019-12-03 大连理工大学 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王艳玲 等: "有机化合物脂水分配系数和溶解度的计算方法:", 物理化学学报, pages 1742 - 1754 *

Also Published As

Publication number Publication date
CN113689916B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Sodeifian et al. A comprehensive comparison among four different approaches for predicting the solubility of pharmaceutical solid compounds in supercritical carbon dioxide
Kalibaeva et al. Constant pressure-constant temperature molecular dynamics: A correct constrained NPT ensemble using the molecular virial
CN108804869B (zh) 基于神经网络的分子结构和化学反应能量函数构建方法
CN112989711B (zh) 基于半监督集成学习的金霉素发酵过程软测量建模方法
Madzhidov et al. Structure–reactivity relationship in bimolecular elimination reactions based on the condensed graph of a reaction
CN113807598A (zh) 基于pso-woa混合优化的svm稠油管道腐蚀速率预测方法
CN110600085A (zh) 一种基于Tree-LSTM的有机物物理化学性质预测方法
Afkhamipour et al. A modeling-optimization framework for assessment of CO2 absorption capacity by novel amine solutions: 1DMA2P, 1DEA2P, DEEA, and DEAB
Hoffmann et al. Controlled exploration of chemical space by machine learning of coarse-grained representations
Jin et al. QSPR study on normal boiling point of acyclic oxygen containing organic compounds by radial basis function artificial neural network
Polishuk et al. Comparison of SAFT-VR-Mie and CP-PC-SAFT in predicting phase behavior of associating systems I. Ammonia–water, methanol, ethanol and hydrazine
CN113689916A (zh) 一种预测有机化合物性能的通用模型及预测方法
Husain et al. Modelling, simulation, optimization and control of multistage flashing (MSF) desalination plants Part I: Modelling and simulation
Zhou et al. QSAR study of angiotensin II antagonists using robust boosting partial least squares regression
CN117198417A (zh) 基于机器学习和目标优化的稳定晶体结构预测方法及系统
CN108959787A (zh) 考虑实际工况的宏宏双驱动系统的热变形预测方法及系统
MEZEY Local-shape analysis of macromolecular electron densities
Mezei et al. Monte Carlo studies on water in the dCpG/proflavin crystal hydrate
CN113723686B (zh) 有机硅单体分馏过程能耗的多任务灰箱预测方法及系统
CN110909492A (zh) 一种基于极端梯度提升算法的污水处理过程软测量方法
Zhang et al. Matrix-variate Dirichlet process mixture models
CN112184037B (zh) 一种基于加权svdd的多模态过程故障检测方法
CN115631804A (zh) 基于数据协调的蒸发过程铝酸钠溶液出口浓度预测方法
Szántai-Kis et al. Validation subset selections for extrapolation oriented QSPAR models
CN111428420B (zh) 海表流流速预测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant