CN103345544B - 采用逻辑回归方法预测有机化学品生物降解性 - Google Patents

采用逻辑回归方法预测有机化学品生物降解性 Download PDF

Info

Publication number
CN103345544B
CN103345544B CN201310234499.8A CN201310234499A CN103345544B CN 103345544 B CN103345544 B CN 103345544B CN 201310234499 A CN201310234499 A CN 201310234499A CN 103345544 B CN103345544 B CN 103345544B
Authority
CN
China
Prior art keywords
kinds
model
biological degradability
compound
molecular structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310234499.8A
Other languages
English (en)
Other versions
CN103345544A (zh
Inventor
李雪花
陈广超
陈景文
乔显亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201310234499.8A priority Critical patent/CN103345544B/zh
Publication of CN103345544A publication Critical patent/CN103345544A/zh
Application granted granted Critical
Publication of CN103345544B publication Critical patent/CN103345544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种通过逻辑回归算法预测有机化学品生物降解性的方法。在获得化合物分子结构的基础上,仅通过计算表征结构特征的描述符,应用所建定量结构活性关系(QSAR)模型,即能快捷、高效地预测有机化合物的生物降解性,其成本低廉、简便快捷,节省测试所需的大量人力、费用和时间。本发明完全依照经合组织(OECD)的QSAR模型构建和使用导则进行建模,仅采用14种分子结构描述符,运用算法清晰、透明的逻辑回归方法,便于理解和应用;模型应用域明确,涵盖不同种类化合物达1629种;具有良好的拟合效果、稳健性和预测能力,能够有效预测多种类不同有机化合物的生物降解性,为有机化学品风险评价和管理提供重要数据支持,对生态风险评价具有重要意义。

Description

采用逻辑回归方法预测有机化学品生物降解性
技术领域
本发明涉及一种采用逻辑回归算法预测有机化学品生物降解性,属于生态风险评价测试策略领域。
背景技术
环境中微生物可以通过氧化、还原及水解等作用破坏某些有机物的分子结构或使其矿化,将有机物从环境中去除。此过程即为生物降解,其是污染物从环境中去除的重要途径,影响着污染物的环境持久性和环境归趋。我国于2003年9月就颁布了《新化学物质环境管理办法》,并于2010年10月进行了修订,要求对新化学品的环境持久性等性质进行鉴别,再根据所得结果进行批准和必要时的限制。生物降解性是评估化合物环境持久性的重要参数,因此获取生物降解性数据对化学品的风险评价和管理具有重要意义。
实验测定是目前获取化合物生物降解性数据的主要途径,我国于2008年就参考经济合作与发展组织(OECD)的化学品生物降解测试导则,制定了包括CO2产生试验等六种测定化合物快速生物降解性的试验导则。但是由于现有化学品数量已超过14万种,根据欧盟REACH法规估算检测每一种化学品的基本费用约为8.5万欧元,因此若仅通过实验测定来获取数据,不仅费用昂贵,而且测试实验周期长(需28天),不能满足有机化学品风险评价和管理工作的数据需要。因此通过定量构效关系(QSAR)方法发展一种能快速高效获取有机化学品生物降解性的模型具有重要的应用意义。
QSAR方法的理论基础是化合物分子结构差异决定着其理化性质或活性效应的不同,因此仅通过化合物分子结构就能预测其理化性质、环境行为或毒理学参数(统称为活性)。作为一种可信的技术工具QSAR方法已成功应用于污染物环境行为参数(如生物富集系数、亨利定律常数和水解速率常数)和毒理学指标(如雌激素干扰效应)的预测。欧盟《关于化学品注册、评估、许可和限制制度》也明确规定QSAR方法可以为化学品的注册提供信息支持。2004年OECD提出的QSAR模型构建和使用准则规定,具有如下5个标准的QSAR模型可以应用于化学品的风险评价与管理:(1)具有明确定义的环境指标;(2)具有明确的算法;(3)定义了模型的应用域;(4)模型具有适当的拟合度、稳定性和预测能力;(5)最好能够进行机理解释。
目前,已有许多研究者应用(Q)SAR方法建立了有机化合物生物降解性的预测模型。如文献“Environ.Sci.Technol.,1994,28,459-465”采用36种分子结构描述符建立了295种化合物的生物降解性预测模型,所得线性和逻辑回归模型预测准确率分别为89.5%和93.2%;文献“Environ.Toxicol.Chem.,2000,19,2478-2485”选取36种分子结构碎片及相对分子质量建立了589种化合物的线性和逻辑回归模型,其对验证集(295种)的预测准确率分别为81.4%和80.7%。以上模型虽然具有良好的预测性能,对训练集(和验证集)的准确率良好,但是模型涵盖化合物数较少,因此应用范围有限。文献“J.Chem.Inf.Model.,2012,52,655-669”采用拓扑、结构和量子化学描述符,基于支持向量机(SVM)、k最近邻(kNN)和朴素贝叶斯三种算法建立了1631种化合物的预测模型,三种模型对训练集预测准确率分别为83.8%,78.6%和78.6%,预测集准确率分别为96.3%,74.1%和85.2%;文献“J.Chem.Inf.Model.,53,867-878”分别采用14和12种分子结构描述符,基于SVM和kNN方法建立了1725种化合物的预测模型,所建模型在训练集、验证集和预测集上的准确率均大于82.0%,具有良好的预测性能。上述两研究通过SVM和kNN方法构建的模型都涵盖较多化合物,应用域广并且预测性能良好。但是SVM模型的预测规则只蕴藏在由少量支持向量样本“加权”得到的决策函数中,无从知道模型如何对化合物进行分类和预测。kNN更是一种惰性学习算法,需要直接使用训练集数据进行预测,直至给定一个测试数据时才开始构造泛化模型。因此两种模型都具有“黑箱”性质,无法提取预测规则、可理解性差,不利于模型应用和机理解释。因此,有必要建立一个涵盖多种类化合物,并且模型结构简单、预测规则透明、易于理解和实际应用的QSAR模型,同时按照OECD导则对模型进行应用域表征和机理解释。
发明内容
本发明目的是发展一种简洁、快捷、高效预测有机化学品生物降解性的方法。该方法可以直接根据化合物分子结构预测其生物降解性,进而对目标化合物的环境持久性进行预测和评价,为化学品风险评价和管理提供必要的基础数据。
本发明为保证所用数据的准确性,所收集数据均来自已公开的数据库或已发表论文中的实验测定值,本发明共搜集了1629种有机化合物的生物降解性数据。
本发明从991种难降解类化合物中随机选取645种难降解类化合物,与638种易降解类化合物组成易降解类与难降解类化合物比例均衡的数据集,然后将其按照2:1的比例分成训练集和验证集;剩余346种难降解类化合物为验证集;训练集用于构建预测模型,验证集用于建模后的外部验证;内部验证采用10折交叉验证方法;
诸多因素都能影响化合物的生物降解性。分子组成改变,如主链上个别碳原子被其他元素所取代会增加化合物对生物氧化的抵抗力;分子形状和复杂性能够通过空间位阻效应影响分子与催化酶活性中心结合;分子上取代基位置、种类及数量也会影响化合物生物降解性,此外化合物的性质如水溶解性也会影响微生物对化合物的生物利用,从而影响生物降解过程。本发明通过分析影响有机化合物生物降解性因素,从1000多种Dragon分子结构描中选取了650种描述符表征有机物分子结构、形状、复杂性、官能团以及性质等信息。然后,运用功能树算法从650种Dragon描述符中筛选出14种描述符,再采用逻辑回归算法建立逻辑回归模型;所筛选的14种分子结构描述符及所建模型如下:
z=1.9025+1.0457×nN+0.6662×nHM-0.1078×O%+2.8362×MATS1e
–2.0019×GATS1p-0.7015×GATS7p+0.1131×GGI1+0.7023×GGI2+2.7793×nCq
+1.035×nCrt-0.777×C-040-0.7091×H-048-0.1553×H-051+0.955×O-059
且有 f ( z ) = 1 1 + e - z = 1 1 + e - ( α + Σ β 1 x 1 )
其中,nN表示氮原子数,nHM表示重原子数,O%表示氧原子百分比,MATS1e表示Sanderson电负性加权的Moran自相关指数,GATS1p及GATS7p表示极化率加权的Geary自相关指数,GGI1和GGI2表示拓扑电荷指数,nCq表示季碳原子数,nCrt表示环叔碳原子数,C-040表示分子中R-C(=X)-X/R-C≡X/X=C=X亚结构数,H-048表示与碳原子相连的氢原子数,该碳原子以sp,sp2或sp3方式杂化;H-051表示与α-碳相连的氢原子数,O-059表示分子中的Al-O-Al结构数;当f(z)>0.500时化合物被预测为难降解类;反之,则被预测为易降解类。
上述的采用逻辑回归方法预测有机化学品生物降解性,所述的有机化学品是烷烃类、醇类、羧酸类、酮类、酮类的取代物、苯、联苯、苯酚、多环芳烃或杂环化合物等。
所得模型训练集化合物数n=853,预测准确率为83.3%(711/853),其中对易降解类化合物的准确率为83.2%(352/423),对难降解类化合物的准确率为83.5%(359/430),表明模型具有良好的拟合效果和稳健性。模型验证集化合物数n=776,预测准确率为79.3%(615/776),对易降解类化合物的准确率为82.3%(177/215),对难降解类化合物的准确率为78.1%(438/561),表明本模型具有良好的外部预测能力,能有效预测烷烃类、醇类、羧酸类、酮类、酮类的取代物、苯、联苯、苯酚、多环芳烃或杂环化合物的生物降解性。模型应用域表征采用欧几里德距离方法,某一化合物特征向量(描述符参数)的欧几里德距离是其到描述符空间中心点的特征向量的距离,中心点特征向量的第k个参数(描述符)Xk为训练集所有化合物第k个描述符的平均值,即:
X k = 1 n Σ j = 1 n X j k - - - ( 1 )
其中Xjk为化合物j的第k个描述符值,n为训练集化合物总数。则某一化合物i在M维空间(M为所采用分子结构描述符个数)的特征向量的欧几里德距离di可表示为:
d i = Σ k = 1 M ( X i k - X k ) 2 - - - ( 2 )
式中Xik为化合物i的第k个描述符值。由公式(2)计算得到训练集化合物特征向量到中心点特征向量的欧几里德距离范围为0.196~1.628,因此特征向量欧几里德距离不大于1.628的化合物适用于本模型。
本发明的有益效果是采用本发明方法可以快速、有效地预测有机化学品生物降解性。该方法成本低廉、简便快速,能够节省实验测试所需的人力、费用和时间。本发明涉及的生物降解性预测方法的建立和验证严格依照OECD规定的QSAR模型发展和使用导则,因此使用本发明专利的生物降解性预测结果,可以为有机化学品风险评价和管理提供重要的数据支持,对生态风险评价工作具有重要的意义。
本发明提供的方法具有如下特点:
1.模型涵盖1629种不同种类的有机化合物,包括烷烃类、醇类、羧酸类、酮类及其取代物,苯、联苯、苯酚、多环芳烃和杂环化合物及其取代物等。模型应用域广,可用于预测不同种类化合物的生物降解性,为评估有机化合物环境持久性及化学品风险评价和管理工作提供基础数据;
2.采用逻辑回归算法,基于机理分析选取14种描述符构建了预测模型,模型简洁、预测规则透明,便于分析理解和实际应用;
3.依照OECD关于QSAR模型构建和使用导则进行建模,所建模型具有良好的拟合效果、稳健性和预测能力。
附图说明
图1为模型应用域表征图。
具体实施方式
实施例1
给定化合物4-氨基吡啶(SMILES:Nc1ccncc1),预测其生物降解性。首先根据4-氨基吡啶的分子结构,使用Draogon软件(Version6.0)计算出14种描述符nN,nHM,O%,
MATS1e,GATS1p,GATS7p,GGI1,GGI2,nCq,nCrt,C-040,H-048,H-051和O-059的数值,分别为2,0,0.246,0.914,0,1,0.444,0,0,0,0,0和0。根据公式(2)计算得到特征向量的欧几里德距离为0.399(<1.628),在模型应用域范围内,可以运用本模型对4-氨基吡啶的生物降解性进行预测。将描述符值代入所建模型有:
z=1.9025+1.0457×2+0.6662×0-0.1078×0+2.8362×(-0.246)-2.0019×0.914-0.7015×0+0.1131×1+0.7023×0.444+2.7793×0+1.035×0-0.777×0-0.7091×0-0.1553×0+0.955×0=-2.961
4-氨基吡啶的生物降解性被预测为难降解,与实验测定结果一致。
实施例2
给定化合物4-甲氧基苯酚(SMILES:O(c(ccc(O)c1)c1)C),使用Draogon软件计算出14种描述符的数值分别为0,0,11.8,-0.11,1.114,0.528,2,0.889,0,0,0,0,0和0。根据分子结构描述符数值计算出特征向量的欧几里德距离为0.219(<1.628),在模型应用域范围内,可以运用本模型对4-甲氧基苯酚的生物降解性进行预测。将所得描述符值代入模型得到f(z)=0.193<0.500,4-甲氧基苯酚的生物降解性被预测为易降解,与实验测定结果一致。
实施例3
给定化合物溴戊烷(SMILES:CCCCCBr),预测其生物降解性。使用Draogon软件计算出14种描述符值为0,1,0,-0.015,0.921,0,0.5,0.222,0,0,0,0,0和0。根据分子结构描述符值计算出溴戊烷特征向量的欧几里德距离为0.351(<1.628),在模型应用域范围内,故可运用本模型对溴戊烷的生物降解性进行预测。将所得描述符值代入模型得到
f(z)=0.710>0.500,溴戊烷的生物降解性被预测为难降解,与实验测定结果一致。
实施例4
给定化合物月桂烯(SMILES:C(C=C)(=C)CCC=C(C)C),预测其生物降解性。使用Draogon软件计算出14种描述符值分别为0,0,0,-0.064,1.3,1.693,2.5,0.889,0,0,0,0,0和0。根据分子结构描述符值计算出月桂烯特征向量的欧几里德距离为0.431(<1.628),在模型应用域范围内,故可运用本模型对月桂烯的生物降解性进行预测。将所得描述符值代入模型得到f(z)=0.238<0.500,月桂烯的生物降解性被预测为易降解,与实验测定结果一致。
实施例5
给定化合物抗氧剂3114(SMILES:Oc(c(cc1CN(C(=O)N(C2(=O))Cc(cc(c3O)C(C)(C)C)cc3C(C)(C)C)C(=O)N2Cc(cc(c4O)C(C)(C)C)cc4C(C)(C)C)C(C)(C)C)c(c1)C(C)(C)C),预测其生物降解性。使用Draogon软件计算出14种描述符值分别为3,0,4.8,-0.034,1.245,0.97,22.5,10,6,0,0,0,0和0。根据分子结构描述符值计算出抗氧剂3114特征向量的欧几里德距离为1.891(>1.628),在模型应用域范围外。但是运用本模型对抗氧剂3114的生物降解性进行预测,所得f(z)=1>0.500,抗氧剂3114的生物降解性被预测为难降解,仍与实验测定结果一致。因此对于应用域外化合物,本方法的预测结果也具有一定的参考价值。

Claims (2)

1.一种通过逻辑回归算法预测有机化学品生物降解性的方法,其特征在于,
从991种难降解类化合物中随机选取645种难降解类化合物,与638种易降解类化合物组成易降解类与难降解类化合物比例均衡的数据集,然后将其按照2:1的比例分成训练集和验证集;剩余346种难降解类化合物为验证集;训练集用于构建预测模型,验证集用于建模后的外部验证;内部验证采用10折交叉验证方法;
首先通过分析影响有机化合物生物降解性因素选取分子结构描述符,表征有机物分子结构、形状、复杂性、官能团以及性质信息的Dragon分子结构描述符,共650种;然后,运用功能树算法从650种Dragon描述符中筛选出14种分子结构描述符,再采用逻辑回归算法建立逻辑回归模型;所筛选的14种分子结构描述符及所建模型如下:
z=1.9025+1.0457×nN+0.6662×nHM-0.1078×O%+2.8362×MATS1e
–2.0019×GATS1p-0.7015×GATS7p+0.1131×GGI1+0.7023×GGI2+2.7793×nCq
+1.035×nCrt-0.777×C-040-0.7091×H-048-0.1553×H-051+0.955×O-059
且有 f ( z ) = 1 1 + e - z = 1 1 + e - ( &alpha; + &Sigma;&beta; 1 x 1 )
其中,nN表示氮原子数,nHM表示重原子数,O%表示氧原子百分比,MATS1e表示Sanderson电负性加权的Moran自相关指数,GATS1p及GATS7p表示极化率加权的Geary自相关指数,GGI1和GGI2表示拓扑电荷指数,nCq表示季碳原子数,nCrt表示环叔碳原子数,C-040表示分子中R-C(=X)-X/R-C≡X/X=C=X亚结构数,H-048表示与碳原子相连的氢原子数,该碳原子以sp,sp2或sp3方式杂化;H-051表示与α-碳相连的氢原子数,O-059表示分子中的Al-O-Al结构数;当f(z)>0.500时化合物被预测为难降解类;反之,则被预测为易降解类;特征向量欧几里德距离不大于1.628的化合物适用于本模型。
2.根据权利要求1所述的一种通过逻辑回归算法预测有机化学品生物降解性的方法,其特征在于,所述的有机化学品是烷烃类、醇类、羧酸类、酮类、酮类的取代物、苯、联苯、苯酚、多环芳烃或杂环化合物。
CN201310234499.8A 2013-06-11 2013-06-11 采用逻辑回归方法预测有机化学品生物降解性 Active CN103345544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310234499.8A CN103345544B (zh) 2013-06-11 2013-06-11 采用逻辑回归方法预测有机化学品生物降解性

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310234499.8A CN103345544B (zh) 2013-06-11 2013-06-11 采用逻辑回归方法预测有机化学品生物降解性

Publications (2)

Publication Number Publication Date
CN103345544A CN103345544A (zh) 2013-10-09
CN103345544B true CN103345544B (zh) 2016-07-06

Family

ID=49280339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310234499.8A Active CN103345544B (zh) 2013-06-11 2013-06-11 采用逻辑回归方法预测有机化学品生物降解性

Country Status (1)

Country Link
CN (1) CN103345544B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761431B (zh) * 2014-01-10 2017-04-12 大连理工大学 定量结构活性关系预测有机化学品鱼类生物富集因子
CN106909767B (zh) * 2015-12-21 2021-11-05 北京旷博生物技术股份有限公司 乙肝相关肝硬化分类的系统
US11087861B2 (en) * 2018-03-15 2021-08-10 International Business Machines Corporation Creation of new chemical compounds having desired properties using accumulated chemical data to construct a new chemical structure for synthesis
CN110146695B (zh) * 2019-05-08 2021-12-10 南京理工大学 采用k近邻算法筛选人甲状腺素运载蛋白干扰物的方法
CN111080012A (zh) * 2019-12-17 2020-04-28 北京明略软件系统有限公司 人员危险度预测方法、装置、电子设备和可读存储介质
CN112198299B (zh) * 2020-09-29 2023-07-04 南京林业大学 一种基于贝叶斯理论的土壤有机碳矿化能力的测定方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673321A (zh) * 2009-10-17 2010-03-17 大连理工大学 基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027575A1 (en) * 2006-04-21 2008-01-31 Jones Stevan D Modeling systems for health and beauty consumer goods

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673321A (zh) * 2009-10-17 2010-03-17 大连理工大学 基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Study of Pellet Formation of Filamentous Fungi Rhizopus oryzae Using a Multiple Logistic Regression Model;Yan Liu等;《Biotechnology and Bioengineering》;20070614;第99卷(第1期);第117-128页 *
有机污染物生物降解性预测模型;李彦莹等;《生态毒理学报》;20121015;第7卷(第5期);正文第2页右栏第1,3-5段,第3页左栏第5段 *

Also Published As

Publication number Publication date
CN103345544A (zh) 2013-10-09

Similar Documents

Publication Publication Date Title
CN103345544B (zh) 采用逻辑回归方法预测有机化学品生物降解性
Quinn et al. A field guide for the compositional analysis of any-omics data
CN103514369B (zh) 一种基于主动学习的回归分析系统及方法
CN103488901B (zh) 采用定量结构-活性关系模型预测有机化合物的土壤或沉积物吸附系数的方法
Zhang et al. Bridge life cycle assessment with data uncertainty
CN107358318A (zh) 基于GM(1,1)模型和灰色Verhulst模型的城市用电量预测方法
Sin et al. Improving the Morris method for sensitivity analysis by scaling the elementary effects
CN102507630A (zh) 一种基于分子结构和环境温度预测化学物质与臭氧氧化反应速率常数的方法
CN102682209B (zh) 有机污染物定量结构活性相关建模的变量筛选方法
JP2021196710A (ja) 物性予測装置、物性予測方法及び製造方法
CN110837921A (zh) 基于梯度提升决策树混合模型的房地产价格预测研究方法
CN104820745A (zh) 地表水环境介质中有机化学品暴露水平预测方法
Lu et al. A molecular-based method to estimate the risk associated with cyanotoxins and odor compounds in drinking water sources
CN104573863A (zh) 预测水相中有机化合物与羟基自由基反应速率常数的方法
CN107741410A (zh) 一种基于icso‑svm的苯并类物质的荧光光谱检测法
CN107516016B (zh) 一种构模预测疏水性化合物的硅油-空气分配系数的方法
Evans A statistical degradation model for the service life prediction of aircraft coatings: With a comparison to an existing methodology
Panigrahi et al. Investigating dynamic effect of energy consumption, foreign direct investments and economic growth on CO2 emissions between Oman and United Arab Emirates: evidence from Co integration and causality tests
CN103294863B (zh) 一种根据化学结构预测润滑基础油抗磨损性能的方法
CN110910970B (zh) 一种通过建立qsar模型预测化学品以斑马鱼胚胎为受体的毒性的方法
CN110853701A (zh) 采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法
Lu et al. A machine learning regression approach for pre-renovation construction waste auditing
CN103714220B (zh) 预测海岸带持久性有机污染物消除速率的方法
Lou et al. Advances in monitoring and modelling algal blooms in freshwater reservoirs
CN115204490A (zh) 一种微塑料对水生微生物生态风险的评价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant