CN107563133B - 采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法 - Google Patents

采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法 Download PDF

Info

Publication number
CN107563133B
CN107563133B CN201710764713.9A CN201710764713A CN107563133B CN 107563133 B CN107563133 B CN 107563133B CN 201710764713 A CN201710764713 A CN 201710764713A CN 107563133 B CN107563133 B CN 107563133B
Authority
CN
China
Prior art keywords
organic
model
descriptors
organic compound
quantum chemical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710764713.9A
Other languages
English (en)
Other versions
CN107563133A (zh
Inventor
谢宏彬
张勇虔
李雪花
陈景文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710764713.9A priority Critical patent/CN107563133B/zh
Publication of CN107563133A publication Critical patent/CN107563133A/zh
Application granted granted Critical
Publication of CN107563133B publication Critical patent/CN107563133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

本发明公开了采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法。仅通过有机化学品的基本分子结构信息,计算出具有结构特征的量子化学描述符,并采用所构建的QSAR预测模型,即可快捷、高效的预测有机化学品的kCl值。该方法遵循经济合作与发展组织(OECD)颁布的QSAR模型构建及验证导则:采用遗传算法‑多元线性逐步回归分析联用法(GA‑MLR)和支持向量机‑多元线性逐步回归分析联用法(SVM‑MLR),透明度高且便于应用;GA‑MLR模型均采用量子化学描述符,因此描述符物理意义清晰;具有明确的应用域,适用的有机物种类丰富;具有良好的拟合优度、稳健性以及预测能力,易于程序化,能为有机化学品的环境风险评价与管理提供重要的数据支持。

Description

采用定量结构-活性关系模型预测有机化学品的氯自由基反 应速率常数的方法
技术领域
本发明属于生态风险评价测试策略领域,涉及一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法。
背景技术
有机化学品在大气中的氯自由基反应速率常数(kCl)是评估化学品大气持久性的重要参数,对于表征化学品生态环境风险和环境归趋具有重要意义。大气氯自由基(·Cl)对有机污染物具有强的化学反应活性,它与大多数有机污染物的反应速率常数比大气中最重要的自由基(羟基自由基)高出一个到多个数量级。但由于过去一直认为·Cl主要存在海洋及沿海地带,且其浓度比羟基自由基低(为其浓度的1-10%),导致以前评估的·Cl对大气有机污染物转化的贡献低于羟基自由基。然而,氮氧化物与无机氯化物反应这一巨大的·Cl内陆来源的突破性发现,使得·Cl的大气产生总量得以大幅提升,并且打破了·Cl对大气有机污染物转化的地域性限制。因此,·Cl在转化大气有机污染物方面起着比以前更为重要的作用,kCl必将成为有机化学品环境风险评价必不可少的参数。
通常,可以通过实验方法如脉冲激光光解-激光诱导荧光(PLP-LIF)、激光闪光光解-共振荧光(LFP-RF)技术、超低压反应器-四级杆质谱串联法(VLPR-QMS)等测得有机物的kCl值。截止目前,仅有五百多种有机化学品具有气相kCl实验数据。然而,人类日常使用的有机化学品已突破14万种,美国化学文摘社(Chemical Abstracts Service,CAS)登记数据库已包含近一亿三千万种有机和无机化合物,并以每年500~1000种的速度增长,数量十分巨大。如果仅靠实验测定,不仅需要耗费大量的时间、人力和财力,而且时间上存在滞后性,难以满足化学品的“预先防范原则”。因此,有必要发展一种科学、高效、快捷的预测方法。
QSAR技术有助于实现有毒有害化学品管理的“预先防范原则”,具有弥补实验数据缺失、克服较高消耗以及减少动物实验等优点,美国、欧洲等发达国家很早就开始运用QSAR技术在有毒有害化学品生态风险评价与管理方面进行研究。美国环境保护署(EPA)基于QSAR技术开发了快速预测软件EPI Suite,已可以预测KOW、KOC、BCF、生物降解性、空气中的氧化速率(kOH,kO3)、水解速率、污水处理厂去除效率等多种环境行为参数。经济合作与发展组织(OECD)于2007年颁布了QSAR模型建立与使用的指导文件,提出以下五点原则:(a)包含定义明确的环境指标;(b)采用清晰的数学算法;(c)定义模型的应用域;(d)适当的拟合优度、稳健性及预测能力评价;(e)尽可能的机理解释。
截至目前,已有多个有机化学品kCl预测模型,模型可分为以下五类:(1)对比模型。文献“Atmos.Environ.,2014,99:159-167.”将logkCl和logkOH相对比,以logkOH为变量建立了logkCl的预测模型。尽管模型具有良好的拟合效果(R2=0.89),但模型只包含了20种不饱和有机化合物,应用域较窄,并且不能解释反应机理。(2)广义拓扑指数模型。文献“J.Chem.Inf.Model.,2007,47(3):794-804.”和“Atmos.Chem.Phys.,2007,7(13):3559-3569.”采用广义拓扑指数作为描述符,建立了有机化学品的气相logkCl预测模型。该类模型虽然在机理解释方面有所提升,但仍然不够清晰,并且应用域较窄。(3)碎片系数模型。文献“Chem.Phys.Lett.,2010,488:135-139.”,“Chem.Phys.Lett.,2009,479:25-29.”,“J.Phys.Chem.,1992,96,10837-10842.”,“Environ.Sci.Pollut.R.,2015,22(7):4820-4832.”,“Int.J.Chem.Kinet.,2012:52-57.”采用不同的基础公式,针对不同类别的有机化合物分别设定不同的基准系数和取代系数,构建了适用于不同种类有机化合物的小型logkCl预测模型。该类模型虽然在一定程度上反应了取代基对有机化合物logkCl值的影响,机理解释方面有所提升,但仍然不够清晰彻底,并且受公式框架的限制导致应用域较窄。(4)分子轨道模型。文献“Atmos.Environ.,2014,90:133-145.”,“Atmos.Environ.,2009,43(38):5996-6002.”和“Phys.Chem.Chem.Phys.,2001,3:3981-3986”采用分子轨道描述符EHOMO分别构建了适用于不同类别有机化合物的小型logkCl预测模型。该类模型已经可以在一定程度上反映有机化学品的反应机理。但由于描述符数量只有一个且涵盖的化学品数量小,导致模型适用的应用域仍然较窄。(5)其他量子化学模型。文献“Chemosphere.2007,67(10):2028-2034.”采用偏最小二乘(PLS)分析方法,使用多种易于解释的量子化学描述符构建了包含13种芳香族有机物的气相logkCl预测模型。虽然模型具有良好的拟合效果,而且描述符意义清晰、解释性强。但是模型的应用域同样较窄。文献“J.Phys.Chem.A.2013,117(30):6433-6449.”采用多元线性回归(MLR)分析方法建立了适用于82种有机化学品的logkCl预测模型。该模型应用域提升较大,并且模型具有一定的解释性。但只适用于单一的H提取反应途径,忽略了Cl加成反应途径。
总的来说,目前已有的所有·Cl模型都存在应用域狭窄的问题,多数模型机理解释性差,并且没有遵循OECD颁布的QSAR模型构建和验证导则。因此,有必要建立一个机理解释清晰、适用有机物种类丰富、反应途径全面的QSAR预测模型。并且,依照OECD导则的要求进行模型的验证与应用域的表征。
发明内容
本发明目的是发展一种科学、高效、快捷、应用域广泛、机理解释清晰的有机化学品氯自由基反应速率常数的预测方法。该方法可直接根据有机化学品的分子结构特征预测kCl值,进而预测和评价其环境归趋,为有机化学品的生态风险评价与管理提供必要的基础数据。
本说明书中的“有机化学品”侧重于化学品环境风险评价与管理角度,“有机化合物”侧重于化学品的分子结构角度。
本发明提供一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法,包括如下步骤,
(1)从大量文献、书籍著作中搜集得到有机化合物的室温(298K)kCl值,如果一种有机化合物含有多个来源的kCl值,则对其取平均值。最终得到温度为298K条件下的506种有机化合物的kCl值。
(2)对于步骤(1)中收集得到的506种有机化合物,使用量子化学计算软件进行电子结构优化。采用B3LYP方法,其中C,O,H,Cl,S,F,Br,Se和N原子,采用6-311+G(d,p)基组;Si,I原子,采用LANL2DZ基组。使用随机数据分割法将有机化合物以4:1的比例划分为训练集和验证集,训练集有403种有机化合物,验证集有103种有机化合物。训练集中的有机化合物用于构建模型,验证集中的有机化合物用于外部验证。
(3)遗传算法-多元线性逐步回归分析(GA-MLR)模型中描述符的计算:基于步骤(2)优化得到的有机化合物电子结构(对上述506种有机化合物的电子结构进行优化),计算出首次同时使用的、物理意义清晰的量子化学描述65种,其中,基础量子化学描述符17种,四元素描述符18种、符合型量子化学描述符(数学形式变换如(ELUMO-EHOMO)2、(ELUMO+EHOMO)2)21种,并特别加以首次开发使用的量子化学描述符9种进行模型的构建,这9种描述符为qHave,qOave,#nonHatom:C,#X:C,#F:C,#Cl:C,#Br:C,#I:C,#S:C。与本模型没有采用的、传统上不利于机理解释的DRAGON描述符相比,本发明的量子化学描述符不仅具有十分清晰的物理意义,同时对有机化合物的kCl具有很好的描述效果,破除了大型QSAR模型中描述符物理意义清晰、描述效果好不可兼得的难题。由此,本发明完全使用量子化学描述符所构建的模型,不仅机理解释程度及清晰度得到较大幅度提升,同时实现了很好的拟合效果。
(4)支持向量机-多元线性逐步回归分析(SVM-MLR)模型中描述符的计算:基于步骤(2)优化得到的有机化合物电子结构(对上述506种有机化合物的电子结构进行优化),计算描述符1490种,包括DRAGON描述符1489种,量子化学描述符EHOMO1种。
(5)将步骤(1)中收集得到的506种有机化合物的kCl值进行对数变换,获得logkCl形式的数值用于后续模型的构建。
(6)将步骤(3)和(5)中计算得到的物理意义清晰、描述效果好的量子化学描述符和训练集的有机化合物logkCl数值整合,首先使用机器学习方法遗传算法(GA)从65种量子化学描述符中变量选择降维,随后采用多元线性逐步回归分析(MLR)方法去除描述符的多重共线性并构建模型(GA-MLR),模型见式1。将步骤(4)和(5)中计算得到的描述符和训练集的有机化合物logkCl数值整合,使用支持向量机(SVM)从1490个描述符中选择出平均影响值(MIV)高的前60种描述符,随后采用多元线性逐步回归分析(MLR)方法去除描述符的多重共线性并构建模型(SVM-MLR),模型见式2。其中平均影响值MIV用于评价各个描述符对于logkCl影响的重要性大小,符号代表相关方向,绝对值大小代表影响的相对重要性。
两种模型的线性关系式如下:
模型一:GA-MLR方法联用的kCl QSAR模型:
logkCl=3.516+14.33EHOMO–0.1380#X:C–8.950qHave–0.8520qCave
-31.17(ELUMO-EHOMO)2–0.5160#nonHatom:C–2.219S–0.6360s- max
+0.0530#H (1)
模型二:SVM-MLR方法联用的kCl QSAR模型。
logkCl=-5.923+15.66EHOMO+0.2660SsssCH–1.010JGI1+0.3280R3i
–1.137R2e+0.9320R2u+0.5390nR=Cp–0.3210HATS3u–0.4970nRCO
+0.3810DLS_05 (2)
其中,EHOMO表示有机化合物的最高占据分子轨道能量,#X:C表示有机化合物中卤原子数目与碳原子数目的比值,qHave表示氢原子平均电荷,qCave表示碳原子平均电荷,(ELUMO-EHOMO)2表示前沿轨道能级差的平方,#nonHatom:C表示有机化合物中非氢原子数目与碳原子数目的比值,S表示有机化合物的化学软度,s- max表示有机化合物局部软度,#H表示氢原子数目。SsssCH与原子过渡态能量有关,JGI1与有机化合物平均拓扑电荷指数有关;R3i、R2e、R2u和HATS3u是GETAWAT描述符,R3i与有机化合物电离势有关,R2e与Sanderson电负性有关,R2u与lag2状态下的R自相关指数有关,HATS3u与lag3状态下的杠杆自相关指数有关;nR=Cp表示有机化合物末端sp2杂化的主碳数目,DLS_05与改良的药物打分规则有关,nRCO表示有机化合物中酮类官能团个数。
所述有机化合物为烷烃、烯烃、炔烃、有机醇、醚、酮、醛、酸、酯、硫代有机物、酰类有机物、有机胺、有机硅、多环芳烃及其取代物、杂环化合物及其衍生物、硝基取代物或卤代有机物。
优选的,所述步骤(2)中进行电子结构优化使用的量子化学计算软件为Gaussian09。
优选的,所述步骤(3)中进行量子化学描述符计算所使用的软件为Gaussian09或VEGA ZZ。
优选的,所述步骤(4)中进行DRAGON描述符计算所使用的软件为DRAGON6.0。
本专利还采用去一法与去多法对模型进行内部验证,同时进行了模型的外部验证及评价,使用欧氏距离法对模型进行应用域的表征。模型的验证及评价:模型一的调整决定系数(R2 adj)为0.873,均方根误差(RMSE)为0.589,表明模型具有良好的拟合优度;去一法交叉验证系数(Q2 LOO)为0.868,Bootstrapping验证系数(Q2 BOOT)为0.796,表明模型具有良好的稳定性;外部调整决定系数(R2 adj.ext)、验证集均方根误差(RMSEext)和交叉验证系数(Q2 ext)分别为0.856、0.593和0.869,表明模型具有良好的预测能力;描述符的变量膨胀因子(VIF)均小于10,表明模型不受共线性的影响;R2和Q2之差远小于0.3,表明模型不存在过拟合现象。几乎所有数据点的预测误差都在1.5个log单位数值以内,预测效果更好。模型中的数据集数量是其他模型的6倍或更多;不仅同时涵盖原来单个模型所有的有机化合物种类,并且拓展到有机胺、杂环化合物及其衍生物、酰类有机物,极大程度提高了模型的应用域。模型采用了9个物理意义清晰的量子化学描述符,便于推广应用。其中,本发明首次发现:决定有机化合物kCl的主要电子结构特性因素是前沿分子轨道能级差的平方(ELUMO-EHOMO)2,氢原子平均电荷(qHave)和有机化合物软度(S),对于阐明氧化过程中的电子转移机制有重要作用。(ELUMO-EHOMO)2能够比(ELUMO-EHOMO)更加明显的描述电子从ELUMO激发到EHOMO状态所需的能量。qHave从整体上描述有机化合物的反应活性,具体表现为,有机化合物不同的碳框架及其上取代的不同官能团,会通过空间位阻、极性效应等多种影响因素影响有机化合物稳定的几何构型,进而影响其在氢提取反映过程中得失电子的能力,qHave对这些影响因素进行综合性的描述。S描述有机化合物的极性效应。模型二调整决定系数(R2 adj)为0.836,均方根误差(RMSE)为0.671,表明模型具有较好的拟合优度;去一法交叉验证系数(Q2 LOO)为0.828,Bootstrapping验证系数(Q2 BOOT)为0.794,表明模型具有较好的稳定性;外部调整决定系数(R2 adj.ext)、验证集均方根误差(RMSEext)和交叉验证系数(Q2 ext)分别为0.853、0.613和0.852,表明模型具有较好的预测能力;描述符的变量膨胀因子(VIF)均小于10,表明模型不受共线性的影响;R2和Q2之差远小于0.3,表明模型不存在过拟合现象。两个QSAR预测中相比,模型一的预测效果更好,模型二的降维效果更强。
使用欧氏距离法对模型进行应用域的表征:欧氏距离定义为有机物的特征向量到描述符空间中心的特征向量的距离,公式见(3)。采用AMBIT Discovery软件计算有机化学品的欧氏距离(di),并将di在训练集中的最大值作为警戒值。
Figure BDA0001393877410000061
其中,Xik与Xk分别为第k个描述符值与描述符平均值。模型一训练集中的欧几里得距离最大值为d*=1.47,模型二训练集中的欧几里得距离最大值为d*=1.49,两个模型所有数据点的欧几里得距离均在警戒值范围之内,同时绝大部分数据点的预测误差在范围之内。结果表明,本发明的两个模型适用于上述提及的有机化合物。
本发明的有益效果是,采用本发明可以通过分子结构特征科学、快速地预测有机化学品的logkCl值。该方法不仅适用的应用域广泛,机理解释性强,而且简单快捷、成本低廉,节省了实验测定所需的人力、物力和财力。本发明涉及的logkCl预测方法的建立和验证严格依据OECD颁布的QSAR模型建立与使用导则,可为有机化学品监管提供数据支持。有益效果具体表现为以下几点:
1.模型一使用非传统的机器学习方法GA进行变量选择以降维,随后联用透明度高的MLR方法去除多重共线性并建模(GA-MLR);首次完全采用65个物理意义清晰的量子化学描述符构建模型,尤其部分描述符为创新性的首次开发使用。与传统的几乎全由DRAGON描述符组成的模型、单纯采用非透明算法建模的QSAR模型相比,本专利不仅能选择出重要性高的描述符以减少变量数量,并且模型在反应机理的可解释程度以及透明度方面获得较大幅度的提升。
2.模型一绝大部分数据集点的logkCl预测误差都在1.5个log单位值以内,模型的预测效果更好。加之上一点中对于反应机理可解释程度及模型透明度的提升,本专利破除了大型QSAR模型中描述符物理意义清晰、描述效果好不可兼得的难题。
3.本发明从模型一中首次发现:决定有机化合物kCl的主要电子结构特性因素是前沿分子轨道能级差的平方(ELUMO-EHOMO)2,氢原子平均电荷(qHave)和有机化合物软度(S)。同时加入了前人·Cl模型所缺少的机理解释,对于阐明氧化反应的电子转移机制具有重要作用。
4.模型二在建立过程中,先将1890个描述符筛选至60个再构建模型,具有很强的降维能力。
5.模型中的有机化合物数目,是前人模型的6倍或更多;不仅同时涵盖原来单个模型所有的有机化合物种类,并且拓展到有机胺、杂环化合物及其衍生物、酰类有机物,极大程度提高了模型的应用域。本模型适用的有机化合物种类有烷烃、烯烃、炔烃、有机醇、醚、酮、醛、酸、酯、硫代有机物、酰类有机物、有机胺、有机硅、多环芳烃及其取代物、杂环化合物及其衍生物、硝基取代物或卤代有机物。
6.本发明为首个严格遵循OECD颁布的QSAR模型构建与验证导则的kCl预测模型,具有良好的拟合优度、稳健性和预测能力,更加完善的契合了导则中“尽可能的机理解释”原则。模型简约,便于推广应用,可为生态风险性评价和监管提供数据支持;
7.与前人的涵盖有机化合物数目最多的模型相比,本发明适用于预测包含H提取、Cl加成反应途径在内的全局反应速率常数,更贴近化学品环境风险评价的实际需求。
附图说明
图1为GA-MLR模型(式1)训练集和验证集的logkCl的实测值与预测值的拟合图,训练集化合物为403种,验证集化合物为103种。
图2为SVM-MLR模型(式2)训练集和验证集的logkCl的实测值与预测值的拟合图,训练集化合物为403种,验证集化合物为103种。
图3为GA-MLR模型基于欧几里得距离法的应用域表征图。
图4为SVM-MLR模型基于欧几里得距离法的应用域表征图。
图5为有GA-MLR模型的有机化合物标准残差对欧几里得距离表征图。
图6为有SVM-MLR模型的有机化合物标准残差对欧几里得距离表征图。
具体实施方式
下面结合说明书附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例仅用于说明本发明,但不能用来限制本发明的范围。
实施例1
预测有机化学品的氯自由基反应速率常数的方法,包括如下步骤:
首先,数据收集:从大量文献、书籍著作中搜集得到有机化合物的室温(298K)kCl值,如果一种有机化合物含有多个来源的kCl值,则对其取平均值。最终得到温度为298K的506种有机化合物的kCl值,有机化合物为烷烃、烯烃、炔烃、有机醇、醚、酮、醛、酸、酯、硫代有机物、酰类有机物、有机胺、有机硅、多环芳烃及其取代物、杂环化合物及其衍生物、硝基取代物或卤代有机物。
其次,电子结构优化、数据集分组:在量子化学计算软件Gaussian09中对数据集中所有的有机化学品进行了结构优化,采用B3LYP方法。其中C,O,H,Cl,S,F,Br,Se和N原子,采用6-311+G(d,p)基组;Si,I,Pb和Hg原子,采用LANL2DZ基组。采用随机数据分割法将有机物以4:1的比例划分为训练集和验证集,训练集有403种有机化合物,验证集有103种有机化合物。
再次,分子结构描述符的计算、对数形式变换和模型的建立:(1)GA-MLR模型构建所使用的分子结构描述符均为物理意义清晰、有利于机理解释的量子化学描述符。本实施例引入基础量子化学描述符17种,四元素描述符18种、符合型量子化学描述符21种,并特别加以首次使用的量子化学描述符9种用于进行模型的构建,这9种描述符为qHave,qOave,#nonHatom:C,#X:C,#F:C,#Cl:C,#Br:C,#I:C,#S:C。描述符计算所使用的软件有Gaussian09,VEGA ZZ等。SVM-MLR模型构建所使用的描述符共计1490种,其中DRAGON描述符1849种,量子化学描述符1种(EHOMO),所需补充使用的软件为DRAGON 6.0。(2)对有机化合物kCl值进行对数形式上的变换。(3)使用上述物理意义清晰的65个量子化学描述符和训练集中的logkCl值,先采用机器学习方法遗传算法(GA)对量子化学描述符进行变量选择以降维,再联用多元线性逐步回归分析(MLR)方法去除描述符的多重共线性并构建模型,得到的GA-MLR模型见式1。使用上述1490种描述符和训练集的有机化合物logkCl数值,先采用支持向量机(SVM)从1490个描述符中选择出平均影响值(MIV)高的前60种描述符,随后采用MLR方法去除描述符的多重共线性并构建模型(SVM-MLR),模型见式2。其中平均影响值MIV用于评价各个描述符对于logkCl影响的重要性大小,符号代表相关方向,绝对值大小代表影响的相对重要性。
logkCl=3.516+14.33EHOMO–0.1380#X:C–8.950qHave–0.8520qCave
-31.17(ELUMO-EHOMO)2–0.5160#nonHatom:C–2.219S–0.6360s- max
+0.0530#H (1)
logkCl=-5.923+15.66EHOMO+0.2660SsssCH–1.010JGI1+0.3280R3i
–1.137R2e+0.9320R2u+0.5390nR=Cp–0.3210HATS3u–0.4970nRCO
+0.3810DLS_05 (2)
其中,EHOMO表示有机化合物的最高占据分子轨道能量,#X:C表示有机化合物中卤原子数目与碳原子数目的比值,qHave表示氢原子平均电荷,qCave表示碳原子平均电荷,(ELUMO-EHOMO)2表示前沿轨道能级差的平方,#nonHatom:C表示有机化合物中非氢原子数目与碳原子数目的比值,S表示有机化合物的化学软度,s- max表示有机化合物局部软度,#H表示氢原子数目。SsssCH与原子过渡态能量有关,JGI1与有机化学品平均拓扑电荷指数有关;R3i、R2e、R2u和HATS3u是GETAWAT描述符,R3i与有机化合物电离势有关,R2e与Sanderson电负性有关,R2u与lag2状态下的R自相关指数有关,HATS3u与lag3状态下的杠杆自相关指数有关;nR=Cp表示有机化合物末端sp2杂化的主碳数目,DLS_05与改良的药物打分规则有关,nRCO表示有机化合物中酮类官能团个数。
最后,模型的验证与评价、应用域表征:进行模型的拟合优度、稳健性及预测能力验证,对模型进行了评价,并使用欧氏距离法进行应用域的表征(见图1-图6)。由模型一训练集的内部验证参数R2 adj(0.873),RMSE(0.589),Q2 LOO(0.868),Q2 BOOT(0.796),可知模型具有良好的拟合优度和稳健性;由验证集获得的外部验证参数R2 adj.ext(0.856),RMSEext(0.593),Q2 ext(0.869),可知模型具有良好的预测能力。由描述符的VIF小于10可知模型不具有共线性,由R2和Q2之差远小于0.3可知模型不存在过拟合现象。模型中的数据集数量可知本发明极大程度提高了模型的应用域。模型中采用了9个物理意义清晰的量子化学描述符,便于推广应用,其中,本发明首次发现:决定有机化合物kCl的主要电子结构特性因素是前沿分子轨道能级差的平方(ELUMO-EHOMO)2,氢原子平均电荷(qHave)和有机化合物软度(S),并对以上三个描述符进行了机理解释。由模型二训练集的内部验证参数R2 adj(0.836),RMSE(0.671),Q2 LOO(0.828),Q2 BOOT(0.794),可知模型具有较好的拟合优度和稳健性;由验证集获得的外部验证参数R2 adj.ext(0.853),RMSEext(0.613),Q2 ext(0.852),可知模型具有较好的预测能力。由描述符的VIF小于10可知模型不具有共线性,由R2和Q2之差远小于0.3可知模型不存在过拟合现象。两个QSAR预测模型相比较,模型一的预测效果更好,模型二的降维效果更强。此外,还使用欧氏距离法对两个模型进行了应用域的表征。
实施例2
给定一个有机物6-硝基间甲酚,要预测其logkCl值。首先基于6-硝基间甲酚的结构信息,使用Gaussian09软件包进行电子结构优化。然后基于以上结果计算出EHOMO,#X:C,qHave,qCave,(ELUMO-EHOMO)2,#nonHatom:C,S,s- max,#H值分别为-0.261,0,0.168,-0.091,0.022,1.571,3.412,0.562,7。使用AMBIT Discovery软件计算有机化学品的di值为0.486(<1.472),因此该有机物在应用域范围内。将上述描述符值带入实施例1的公式(1),得到logkCl的预测值为-10.716,其实验测定值为-10.712,残差值0.0037,预测值和实验值符合较好。
实施例3
给定一个有机物巴豆醛,要预测其logkCl值。首先基于巴豆醛的结构信息,使用Gaussian09软件包进行电子结构优化。然后基于以上结果计算出EHOMO,#X:C,qHave,qCave,(ELUMO-EHOMO)2,#nonHatom:C,S,s- max,#H值分别为-0.264,0,0.142,-0.139,0.038,1.25,2.743,1.184,6。使用AMBIT Discovery软件计算有机化学品的di值为0.388(<1.472),因此该有机物在应用域范围内。将上述描述符值带入实施例1的公式(1),得到logkCl的预测值为-9.753,其实验测定值为-9.569,残差值0.1837,预测值和实验值符合较好。
实施例4
给定一个有机物二甲基亚砜,要预测其logkCl值。首先基于二甲基亚砜的结构信息,使用Gaussian09软件包进行电子结构优化。然后基于以上结果计算出EHOMO,#X:C,qHave,qCave,(ELUMO-EHOMO)2,#nonHatom:C,S,s- max,#H值分别为-0.239,0,0.180,-0.573,0.054,2,2.756,1.249,6。使用AMBIT Discovery软件计算有机化学品的di值为0.504(<1.472),因此该有机物在应用域范围内。将上述描述符值带入实施例1的公式(1),得到logkCl的预测值为-10.336,其实验测定值为-10.148,残差值0.1878,预测值和实验值符合较好。
实施例5
给定一个有机物萘己环,要预测其logkCl值。首先基于萘己环的结构信息,使用Gaussian09软件包进行电子结构优化。然后基于以上结果计算出EHOMO,#X:C,qHave,qCave,(ELUMO-EHOMO)2,#nonHatom:C,S,s- max,#H值分别为-0.213,0,0.142,-0.118,0.029,1,3.412,0.534,10。使用AMBIT Discovery软件计算有机化学品的di值为0.614(<1.472),因此该有机物在应用域范围内。将上述描述符值带入实施例1的公式(1),得到logkCl的预测值为-9.495,其实验测定值为-9.521,残差值-0.026,预测值和实验值符合较好。
实施例6
给定一个有机物1,2,2-三氟乙基三氟甲基醚,要预测其logkCl值。首先基于1,2,2-三氟乙基三氟甲基醚的结构信息,使用Gaussian09软件包进行电子结构优化。然后基于以上结果计算出EHOMO,#X:C,qHave,qCave,(ELUMO-EHOMO)2,#nonHatom:C,S,s- max,#H值分别为-0.377,2,0.202,0.206,0.145,3.333,1.954,0.335,2。使用AMBIT Discovery软件计算有机化学品的di值为0.987(<1.472),因此该有机物在应用域范围内。将上述描述符值带入实施例1的公式(1),得到logkCl的预测值为-14.831,其实验测定值为-14.921,残差值-0.0903,预测值和实验值符合较好。
实施例7
给定一个有机物丙酸丁酯,要预测其logkCl值。首先基于丙酸丁酯的结构信息,使用Gaussian09软件包进行电子结构优化。然后基于以上结果计算出EHOMO,SsssCH,JGI1,R3i,R2e,R2u,nR=Cp,HATS3u,nRCO,DLS_05值分别为-0.281,0.000,0.188,2.68,1.837,1.962,0.000,0.804,0.000,1.000。使用AMBIT Discovery软件计算有机化学品的di值为0.418(<1.485),因此该有机物在应用域范围内。将上述描述符值带入实施例1的公式(2),得到logkCl的预测值为-9.766,其实验测定值为-9.801,残差值-0.035,预测值和实验值符合较好。
实施例8
给定一个有机物顺式-4-甲基-2-戊烯,要预测其logkCl值。首先基于顺式-4-甲基-2-戊烯的结构信息,使用Gaussian09软件包进行电子结构优化。然后基于以上结果计算出EHOMO,SsssCH,JGI1,R3i,R2e,R2u,nR=Cp,HATS3u,nRCO,DLS_05的值分别为-0.247,0.718,0.300,2.160,1.736,1.897,0.000,0.732,0.000,0.500。使用AMBIT Discovery软件计算有机化学品的di值为0.306(<1.485),因此该有机物在应用域范围内。将上述描述符值带入实施例1的公式(2),得到logkCl的预测值为-9.443,其实验测定值为-9.386,残差值0.057,预测值和实验值符合较好。
本发明实施例2-8中,所选取的有机化合物的官能团各不相同,涉及不同的有机化合物类别。实施例展示出模型广泛的应用域和较好的拟合效果。

Claims (5)

1.一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法,其特征在于:包括如下步骤,
(1)收集温度为298K的506种有机化合物的kCl值,其中,含有多条kCl数值记录的有机化合物,对其取平均值;
(2)对于步骤(1)中收集得到的506种有机化合物,使用量子化学计算软件进行电子结构优化,采用方法为B3LYP,其中C,O,H,Cl,S,F,Br,Se和N原子,采用6-311+G(d,p)基组,Si,I原子,采用LANL2DZ基组,采用随机数据分割法将有机化合物以4:1的比例划分为训练集和验证集,训练集中有403种有机化合物,验证集中有103种有机化合物;
(3)遗传算法-多元线性逐步回归分析模型中描述符的计算:基于步骤(2)优化得到的有机化合物电子结构,计算出量子化学描述符65种,其中,基础量子化学描述符17种,四元素描述符18种,符合型量子化学描述符21种,并加以qHave,qOave,#nonHatom:C,#X:C,#F:C,#Cl:C,#Br:C,#I:C,#S:C量子化学描述符9种进行模型的构建;
(4)支持向量机-多元线性逐步回归分析模型中描述符的计算:基于步骤(2)优化得到的有机化合物电子结构,计算描述符1490种,包括DRAGON描述符1489种,量子化学描述符EHOMO 1种;
(5)将步骤(1)中收集得到的506种有机化合物的kCl值进行对数变换,获得logkCl形式的数值用于后续模型的构建;
(6)将步骤(3)中计算得到的量子化学描述符和步骤(5)中计算得到的训练集中的403种有机化合物logkCl数值整合,首先使用机器学习方法遗传算法对量子化学描述符进行变量选择降维,随后采用多元线性逐步回归分析去除描述符的多重共线性并构建模型,模型见式1;将步骤(4)和(5)中计算得到的描述符和训练集的有机化合物logkCl数值整合,使用支持向量机从1490个描述符中选择出平均影响值高的前60种描述符,随后采用多元线性逐步回归分析去除描述符的多重共线性并构建模型,模型见式2;
logkCl=3.516+14.33EHOMO–0.1380#X:C–8.950qHave–0.8520qCave-31.17(ELUMO-EHOMO)2–0.5160#nonHatom:C–2.219S–0.6360s- max+0.0530#H (1)
logkCl=-5.923+15.66EHOMO+0.2660SsssCH–1.010JGI1+0.3280R3i–1.137R2e+0.9320R2u+0.5390nR=Cp–0.3210HATS3u–0.4970nRCO+0.3810DLS_05 (2)
其中,EHOMO表示有机化合物的最高占据分子轨道能量,#X:C表示有机化合物中卤原子数目与碳原子数目的比值,qHave表示氢原子平均电荷,qCave表示碳原子平均电荷,(ELUMO-EHOMO)2表示前沿轨道能级差的平方,#nonHatom:C表示有机化合物中非氢原子数目与碳原子数目的比值,S表示有机化合物的化学软度,s- max表示有机化合物局部软度,#H表示氢原子数目,SsssCH与原子过渡态能量有关,JGI1与有机化合物平均拓扑电荷指数有关;R3i、R2e、R2u和HATS3u是GETAWAY描述符,R3i与有机化合物电离势有关,R2e与Sanderson电负性有关,R2u与lag2状态下的R自相关指数有关,HATS3u与lag3状态下的杠杆自相关指数有关;nR=Cp表示有机化合物末端sp2杂化的主碳数目,DLS_05与改良的药物打分规则有关,nRCO表示有机化合物中酮类官能团个数。
2.如权利要求1所述的一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法,其特征在于:所述有机化合物为烷烃、烯烃、炔烃、有机醇、醚、酮、醛、酸、酯、硫代有机物、酰类有机物、有机胺、有机硅、多环芳烃及其取代物、杂环化合物及其衍生物、硝基取代物或卤代有机物。
3.如权利要求1所述的一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法,其特征在于:所述步骤(2)中进行电子结构优化使用的量子化学计算软件为Gaussian09。
4.如权利要求1所述的一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法,其特征在于:所述步骤(3)中进行量子化学描述符计算所使用的软件为Gaussian09或VEGA ZZ。
5.如权利要求1所述的一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法,其特征在于:所述步骤(4)中进行DRAGON描述符计算所使用的软件为DRAGON 6.0。
CN201710764713.9A 2017-08-30 2017-08-30 采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法 Active CN107563133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710764713.9A CN107563133B (zh) 2017-08-30 2017-08-30 采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710764713.9A CN107563133B (zh) 2017-08-30 2017-08-30 采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法

Publications (2)

Publication Number Publication Date
CN107563133A CN107563133A (zh) 2018-01-09
CN107563133B true CN107563133B (zh) 2021-05-04

Family

ID=60978304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710764713.9A Active CN107563133B (zh) 2017-08-30 2017-08-30 采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法

Country Status (1)

Country Link
CN (1) CN107563133B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733973B (zh) * 2018-05-11 2021-06-04 深圳晶泰科技有限公司 一种自动高效dftb排斥势拟合方法
CN109524063B (zh) * 2018-11-13 2022-11-18 辽宁师范大学 疏水性有机物被动采样材料硅橡胶与水之间分配系数的预测方法
CN109493922B (zh) * 2018-11-19 2021-06-29 大连思利科环境科技有限公司 一种预测化学品分子结构参数的方法
CN110146695B (zh) * 2019-05-08 2021-12-10 南京理工大学 采用k近邻算法筛选人甲状腺素运载蛋白干扰物的方法
CN115274002B (zh) * 2022-06-13 2023-05-23 中国科学院广州地球化学研究所 一种基于机器学习的化合物持久性筛查方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9928787D0 (en) * 1999-12-03 2000-02-02 Medical Res Council Direct screening method
CN101339181B (zh) * 2008-08-14 2011-10-26 南京工业大学 基于遗传算法的有机化合物燃爆特性预测方法
CN103699745A (zh) * 2013-12-26 2014-04-02 武汉轻工大学 根据化学结构预测使用特定添加剂润滑油摩擦系数的方法

Also Published As

Publication number Publication date
CN107563133A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107563133B (zh) 采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法
Stojić et al. Explainable extreme gradient boosting tree-based prediction of toluene, ethylbenzene and xylene wet deposition
Tan et al. No evidence for a significant impact of heterogeneous chemistry on radical concentrations in the North China Plain in summer 2014
Yassine et al. Structural characterization of organic aerosol using Fourier transform ion cyclotron resonance mass spectrometry: aromaticity equivalent approach
Marshall et al. Petroleomics: Chemistry of the underworld
Liu et al. Secondary organic aerosol formation from ambient air at an urban site in Beijing: effects of OH exposure and precursor concentrations
Roy et al. QSAR model reproducibility and applicability: A case study of rate constants of hydroxyl radical reaction models applied to polybrominated diphenyl ethers and (benzo‐) triazoles
Kamari et al. Reliable method for the determination of surfactant retention in porous media during chemical flooding oil recovery
Young et al. PFAS analysis with ultrahigh resolution 21T FT-ICR MS: suspect and nontargeted screening with unrivaled mass resolving power and accuracy
Kaneko Cross‐validated permutation feature importance considering correlation between features
Vrzal et al. DeepReI: Deep learning-based gas chromatographic retention index predictor
Lemaoui et al. Predicting the CO2 capture capability of deep eutectic solvents and screening over 1000 of their combinations using machine learning
Chen et al. Prediction of reaction rate constants of hydroxyl radical with organic compounds
CN103425872A (zh) 通过定量构效关系模型预测大气中有机物与羟基反应速率常数的方法
Wang et al. Ionic strength effect triggers brown carbon formation through heterogeneous ozone processing of ortho-vanillin
Goel et al. Prediction of API values of crude oils by use of saturates/aromatics/resins/asphaltenes analysis: computational-intelligence-based models
Gramatica et al. A tool for the assessment of VOC degradability by tropospheric oxidants starting from chemical structure
Jathar et al. Multi-generational oxidation model to simulate secondary organic aerosol in a 3-D air quality model
Kitson et al. PyKrev: a python library for the analysis of complex mixture FT-MS data
CN104376221A (zh) 一种预测有机化学品的皮肤渗透系数的方法
Liang et al. Modeling Sorptive Fractionation of Organic Matter at the Mineral‐Water Interface
Rosa et al. DropMS: petroleomics data treatment based in web server for high-resolution mass spectrometry
Pathak et al. Global Minimum‐Energy Structure and Spectroscopic Properties of I2.−⋅ n H2O Clusters: A Monte Carlo Simulated Annealing Study
Bean et al. Formation of particulate matter from the oxidation of evaporated hydraulic fracturing wastewater
Keivanimehr et al. Oxidation kinetics of water contaminants: New insights from artificial intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant