一种预测有机化学品的皮肤渗透系数的方法
技术领域
本发明涉及健康风险评估测试策略领域,具体来说,涉及一种预测有机化学品的皮肤渗透系数方法。
技术背景
化合物通过皮肤渗入人体后可能会产生皮肤刺激、发炎和过敏等症状。皮肤经常会有意识或无意识地暴露于化合物,为此化合物的皮肤吸收性成为安全评价过程的一个重要组成部分。皮肤渗透系数是皮肤与化学品接触风险评估的一个关键指标,REACH法规中,年产量或进口量超过1t时,所有物质都必须进行皮肤敏感度检测,年产量或进口量低于1t时,对皮肤敏感度进行分类和评估可以依据可得到的信息、(Q)SAR和交互比对。
根据OECD化学品测试指南,豚鼠(OECD406)和小鼠(OECD429)作为皮肤敏感度测试生物,但是传统皮肤渗透系数测试不仅需要花费大量费用和时间,而且与动物福利相悖,目前没有国际上公认的测试方法用于预测化学品引起皮肤渗透系数的能力。定量结构-皮肤渗透系数关系(QSAR)替代动物试验方法获得数据信息已经用于提供对皮肤渗透系数的完整评估,得到的预测模型比实验测试更快、更有效,同时反映和揭示有机污染物的分子结构和皮肤渗透系数之间的内在联系,具有弥补测试数据的缺失、降低测试费用、评估数据的不确定性的优点。OECD提出QSAR模型构建和使用准则规定的5个标准:(1)具有明确定义的环境指标;(2)明确的算法;(3)定义了模型的应用域;(4)模型具有适当的拟合度、稳定性和预测能力;(5)最好能够进行机理解释。QSAR模型在有机化学品的生态风险评价领域得到了越来越广泛的重要和应用。
目前,已有研究者开展了应用QSAR方法构建了有机化合物皮肤渗透系数预测模型。如文献“Elsevier,New York:1990,93”构建了化合物皮肤渗透系数与理化性质之间的关系模型,该模型采用辛醇/水分配系数构建了90多种化合物皮肤渗透系数预测模型,后经修正、引入分子质量参数后,模型的R2达到了0.67;文献“Chemicalresearch in toxicology 1998,11(8),902-908”利用正辛醇/水分配系数、分子体积和熔点完成了皮肤渗透系数的预测,模型的R2最高可达0.765。文献“Toxicology in Vitro 1995,9(1),27-37”采用多元回归分析法建立了简单快速的皮肤渗透系数QSPR模型。由于上世纪90年代中期文献报道皮肤致敏度预测研究引入的结构参数较少,预测准确度低。进入21世纪后,文献“Quantitative Structure‐Activity Relationships 2000,19(5),467-474.”和“Toxicological Sciences 2000,55(1),215-222”引入了电性能和空间参数完成了对42种酯类的皮肤刺激性预测研究。文献“QSAR&Combinatorial Science 2008,27(1),49-59”研究发现化合物皮肤刺激性与分子体系、分子折射率、分子形状、空间效应、偶极矩、解离常数pKa、正辛醇/水分配系数logKow等物理化学性质密切相关,其中logKow对皮肤渗透系数的影响最大。紧接着,文献“Journal of pharmaceuticalsciences 2009,98(11),4069-4084”进一步改进了皮肤渗透系数QSAR预测模型,利用CODESSA和Dragon两种软件计算了构成、拓扑、几何、热力学、量子化学、静电、官能团组和其他描述符,他们采用神经网络算法构建了非线性的皮肤渗透系数系数的定量构效关系,最后所得的相关系数R2为0.93。但是神经网络属于黑箱子操作,无法提取预测规则,预测能力和训练能力可能会出现过拟合的矛盾问题,可理解性差,不利于模型应用和机理解释。因此,亟需建立一个涵盖多种类化合物、模型结构简单、预测规则透明、易于理解、精确、快速有效的QSAR模型,并且能够节约时间、人力、物力,符合动物保护原则,同时按照OECD导则进行模型的应用域表征和机理解释的皮肤渗透系数QSAR模型,为化学品的接触风险评估提供重要数据支持。
发明内容
本发明的目的是针对上述不足之处,提供一种简洁、快速、有效预测化学品皮肤渗透系数的方法。该方法根据化学物质的分子结构预测皮肤渗透系数,进而对目标化合物的皮肤渗透系数进行预测和评价。为化学品的健康风险评估提供重要数据支持。
一种预测有机化学品的皮肤渗透系数的方法,其特征在于:
步骤一、从收集132个化合物的皮肤渗透系数数据;
步骤二、按照K-S分组方法将步骤一的样本数据集进行分组,其中训练集共选取92个样本化合物,验证集共选取40个样本化合物;所述训练集用于构建预测模型,验证集数据用于外部验证,内部验证采用留一法交互验证(即LOO-CV);分组后的数据如下:
皮肤渗透性模型化合物信息
步骤三、建立模型:采用遗传算法(GA)进行变量选择,所使用的相关参数为:种群数100,变异概率0.5,模型中允许的最大特征个数10,其他参数均为默认值;当增加变量数目对模型结果影响不大时,筛选出影响皮肤渗透性的7个最优描述符数,采用多元线性回归(MLR)方法建立了线性模型;
筛选出7种分子描述符及模型如下:
GLA-MLR线性方程:
Log Fl=–0.323–0.510BEHm8–0.316GGI2–0.064RDF030u–2.173Mor17v–
0.446G2s+1.587H5m+2.546RTu+
(ntr=92 R2 tr=0.862 RMSEtr=0.290 ntr=40 R2 tst=0.614RMSEtst=0.290 Q2 loo=0.835 Q2 ext=0.705);
所述BEHm8表示Burden特征值,GGI2表示拓扑电荷指数,RDF030u表示分子体积,Mor17v表示分子的3D结构和大小,G2s属于WHIM描述符,H5m表示分子的大小和原子的性质,RTu+表示化合物结构片段的相关信息;
所述训练集和验证集实验值和预测值的相关系数分别达到0.862和0.614;
其中,n为样本化合物的数目,R2为内部检验的相关系数,RMSE为均方根误差,Q2为外部检验的相关系数;
步骤四、预测未知化合物的皮肤渗透系数,未知化合物经过分子结构的输入和结构优化过程,通过Dragon软件计算7种描述符,分别为上述BEHm8、GGI2、RDF030v、Mor17v、G2s、H5m、RTu+,利用步骤三的预测模型得到未知化合物预测值。
由于影响化合物的皮肤渗透系数的因素非常复杂,包括范德华作用、分子结构和分子复杂性等。模型中Q2都大于0.7,均方根误差为0.290,通过内部验证和外部验证评价参数可得模型具有较好的拟合能力、稳健性和预测能力。
描述符的相对重要程度是由模型方程中每个描述符前面的标准回归系数决定的。标准回归系数的绝对值的大小代表其对皮肤渗透系数影响的的重要程度,正负号代表是该描述符与皮肤渗透系数是呈正相关或负相关。BEHm8、GGI2、RDF030u、Mor17v、G2s与皮肤渗透性成负相关,H5m和RTu+与皮肤渗透性成正相关;RTu+(Rmaximal index/unweighted)描述符,描述了化合物结构片段的相关信息,进而描述出同系物的分子结构差异;处于第二位的描述符是Mor17v,反映了分子3D结构和大小,接着是H5m(H autocorrelation of lag 5/weighted by atomic masses)描述符。
所述K-S分组方法即为kennard&stone分组方法,按照K-S分组方法,训练集样本在结构上尽可能多样化,活性覆盖范围应尽可能大,以使模型的应用范围广,预测能力强。验证集则用来评价所建立模型的预测能力,包含在训练集的描述符空间之内。K-S分组方法是本领域公知的分组方法。
本发明一种预测有机化学品的皮肤渗透系数方法,节省了人力、物力和时间,简单、快速有效。并且严格按照OECD规定的QSAR模型使用规则,结合专家知识系统,从分子结构上解释皮肤渗透系数机理,并且与现有模型从化合物多种类、算法、描述符、模型预测能力参数等方面进行比较。
本发明提供的方法具有如下特点:
本发明通过调研QSAR Toolbox、HESS、Toxtree以及Derek数据库,综合比较不同国家对不同类别皮肤渗透系数模型,结合专家系统知识,总结分析不同分子结构对皮肤渗透系数的影响。
本发明选取挥发性和非挥发性两种不同类型的化合物用于建立模型,含有醇类、酮类、联苯、苯胺类、苯、醚类、醛类、酯类、烷烃类、多环芳烃、羧酸类等,数据样本在结构上多样化,活性覆盖范围广,模型的应用范围广,预测能力强。
采用K-S分组方法划分训练集和验证集,使得训练样本在结构上尽可能多样化,活性覆盖范围尽可能大,以使模型的应用范围广,预测能力强。验证集包含在训练集描述符空间内。
采用GA-MLR选择描述符同时建立全局的MLR模型,结合专家系统知识基于机理筛选出7个最优描述符,建立简单、透明、有效的预测模型,便于分析和实际应用。
本发明所采用的描述符以及建模方法可以有效地提高模型的预测能力,并且通过模型的验证参数可知该模型的可靠性和鲁棒性都很好。
与现有文献报道的皮肤渗透系数预测模型相比,目前已有的模型在构建是采用的化合物种类单一,而且主要采用的方法是线性回归。不同模型所采用的描述符都不相同。文献“Environmental Toxicology and Pharmacology 2012,34(2),297-306”将数据集分成了挥发性和非挥发性两种不同类型的化合物数据集,用CODESSA计算描述符,并分别对它们用MLR方法进行建模,得到挥发性化学物质预测模型Q2 MLR达到0.786,非挥发性化学物质预测模型Q2 MLR达到0.639。本发明将两种类型的化合物都集中在一起,然后进行训练集和验证集分组,由DRAGON计算描述符,并且通过GA算法进行描述符筛选,利用MLR方法进行建模,得到的结果为训练集的R2=0.86和验证集的R2=0.61。通过比较可得,本发明的总体结果要好,由此可以看出DRAGON计算得到的描述符能有效地提高模型的预测能力。总之本发明所采用的描述符以及建模方法可以有效地提高模型的预测能力,并且通过模型的验证参数可知该模型的可靠性和鲁棒性都很好。
附图说明:
图1:皮肤渗透系数的最佳GA-MLR模型的预测值与实验值的相关图。
图2:皮肤渗透系数的GA-MLR模型的应用域Williams图。
具体实施方式
实施例1:给定化学物质6-氯-N2-乙基-N4-异丙基-1,3,5-三嗪-2,4-二胺(SMILES:CCNc1nc(Cl)nc(NC(C)C)n1),预测其皮肤渗透系数。
首先根据化学物质分子结构,使用Dragon软件计算出7种描述符BEHm8、GGI2、RDF030v、Mor17v、G2s、H5m、RTu+;分别为1.893、0.667、0.959、-0.171、0.208、0.034和0.151。Hat为0.213,在模型应用域范围内,可以用本模型对6-氯-N2-乙基-N4-异丙基-1,3,5-三嗪-2,4-二胺的皮肤渗透系数进行预测,将描述符值代入所建模型有:
Log Fl=–0.323+1.893*(-0.51007)+0.667*(-0.31582)+0.959*(-0.06401)
-0.171*(-2.17293)+0.208*(-0.44581)+0.034*1.58672+0.151*2.54638=-1.83
则6-氯-N2-乙基-N4-异丙基-1,3,5-三嗪-2,4-二胺被预测为-1.83,实验值为-2.01,与试验测定结果接近,由附图1可以看出训练集和验证集中的样本都均匀的分布在对角线的两侧,没有偏差特别大的化合物,这说明模型的预测能力良好。
实施例2:
给定1,1,1-三氯乙烷(SMILES:CC(Cl)(Cl)Cl)预测其皮肤渗透系数。首先根据化学物质分子结构,使用Dragon软件计算出7种描述符BEHm8、GGI2、RDF030v、Mor17v、G2s、H5m、RTu+,分别为0,0,1.253,-0.044,0.536,0,0.219,Hat为0.038,在模型应用域范围内,可以用本模型对1,1,1-三氯乙烷的皮肤渗透系数进行预测,将描述符值代入所建模型有:
Log Fl=–0.323+0*(-0.51007)+0*(-0.31582)+1.253*(-0.06401)-0.044*(-2.17293)+
0.536*(-0.44581)+0*1.58672+0.219*2.54638=0.23
则1,1,1-三氯乙烷被预测为0.23,实验值为0.21,与试验测定结果接近。
实施例3:
给定O,O-二甲基-O-(2,4,5-三氯苯基)硫逐磷酸酯(SMILES:COP(=S)(OC)Oc1cc(c(cc1Cl)Cl)Cl)预测其皮肤渗透系数。首先根据化学物质分子结构,使用Dragon软件计算出7种描述符BEHm8、GGI2、RDF030v、Mor17v、G2s、H5m、RTu+,分别为2.335,2.667,2.392,0.078,0.222,1.087,0.185,Hat为0.565,不在模型应用域范围内。由于模型的应用范围是用leverage和Williams图来分析和展示的。Williams图的横坐标是leverage值(hat),纵坐标是标准残差(σ),从中可以看出X例外点和Y例外点。该模型的应用域Williams图训练集和验证集数据中均没有Y例外点,并且验证集数据中也没有X例外点。训练集样本中化合物20、化合物62和化合物63是X例外点,且超出了应用范围。由附图2可以看出,标记的点是远远超出了模型的应用范围,从例外点的结构信息可以看出,它们的结构都比较复杂,化合物20和63是多元环状化合物,化合物62(O,O-二甲基-O-(2,4,5-三氯苯基)硫逐磷酸酯)在应用域外,不能用模型预测。
本发明的一种预测有机化学品的皮肤渗透系数的方法已经通过具体的实例进行了描述,本领域技术人员可借鉴本发明内容,适当改变原料、工艺条件等环节来实现相应的其它目的,其相关改变都没有脱离本发明的内容,所有类似的替换和改动对于本领域技术人员来说是显而易见的,都被视为包括在本发明的范围之内。