CN113705008A - POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法 - Google Patents
POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法 Download PDFInfo
- Publication number
- CN113705008A CN113705008A CN202111009904.7A CN202111009904A CN113705008A CN 113705008 A CN113705008 A CN 113705008A CN 202111009904 A CN202111009904 A CN 202111009904A CN 113705008 A CN113705008 A CN 113705008A
- Authority
- CN
- China
- Prior art keywords
- model
- xad
- data
- pops
- air
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002957 persistent organic pollutant Substances 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 33
- 150000001875 compounds Chemical class 0.000 claims abstract description 51
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000012795 verification Methods 0.000 claims abstract description 6
- 230000001174 ascending effect Effects 0.000 claims abstract description 4
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 239000000126 substance Substances 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 14
- DCAYPVUWAIABOU-UHFFFAOYSA-N hexadecane Chemical compound CCCCCCCCCCCCCCCC DCAYPVUWAIABOU-UHFFFAOYSA-N 0.000 claims description 12
- 229910052739 hydrogen Inorganic materials 0.000 claims description 6
- 239000001257 hydrogen Substances 0.000 claims description 6
- 239000012528 membrane Substances 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 5
- 239000000443 aerosol Substances 0.000 claims description 4
- 239000007789 gas Substances 0.000 claims description 4
- 150000001298 alcohols Chemical class 0.000 claims description 3
- 150000001299 aldehydes Chemical class 0.000 claims description 3
- 125000001931 aliphatic group Chemical group 0.000 claims description 3
- 150000001338 aliphatic hydrocarbons Chemical class 0.000 claims description 3
- 150000001555 benzenes Chemical class 0.000 claims description 3
- 125000000753 cycloalkyl group Chemical group 0.000 claims description 3
- 150000002170 ethers Chemical class 0.000 claims description 3
- 150000002576 ketones Chemical class 0.000 claims description 3
- 150000002989 phenols Chemical class 0.000 claims description 3
- 150000003071 polychlorinated biphenyls Chemical class 0.000 claims description 3
- 238000001179 sorption measurement Methods 0.000 claims description 3
- 150000003464 sulfur compounds Chemical class 0.000 claims description 3
- 150000002894 organic compounds Chemical class 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 5
- BDERNNFJNOPAEC-UHFFFAOYSA-N propan-1-ol Chemical compound CCCO BDERNNFJNOPAEC-UHFFFAOYSA-N 0.000 description 4
- CSCPPACGZOOCGX-UHFFFAOYSA-N Acetone Chemical compound CC(C)=O CSCPPACGZOOCGX-UHFFFAOYSA-N 0.000 description 3
- PPBRXRYQALVLMV-UHFFFAOYSA-N Styrene Chemical compound C=CC1=CC=CC=C1 PPBRXRYQALVLMV-UHFFFAOYSA-N 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- MVPPADPHJFYWMZ-UHFFFAOYSA-N chlorobenzene Chemical compound ClC1=CC=CC=C1 MVPPADPHJFYWMZ-UHFFFAOYSA-N 0.000 description 3
- FJBFPHVGVWTDIP-UHFFFAOYSA-N dibromomethane Chemical compound BrCBr FJBFPHVGVWTDIP-UHFFFAOYSA-N 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- ZSIAUFGUXNUGDI-UHFFFAOYSA-N hexan-1-ol Chemical compound CCCCCCO ZSIAUFGUXNUGDI-UHFFFAOYSA-N 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003344 environmental pollutant Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 231100000719 pollutant Toxicity 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- KXKVLQRXCPHEJC-UHFFFAOYSA-N acetic acid trimethyl ester Natural products COC(C)=O KXKVLQRXCPHEJC-UHFFFAOYSA-N 0.000 description 1
- 239000003463 adsorbent Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 150000004945 aromatic hydrocarbons Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 231100000693 bioaccumulation Toxicity 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- -1 compound Methyl acetate Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 229920000620 organic polymer Polymers 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920003053 polystyrene-divinylbenzene Polymers 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000011347 resin Substances 0.000 description 1
- 229920005989 resin Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法。本发明公开了POPs在XAD膜/空气之间分配系数预测模型的建模方法,包括以下步骤:步骤a)收集数据:得到多种POPs在不同温度下XAD膜/空气分配系数,建立数据集;步骤b)建立模型:将步骤a)数据集中的数据按升序排列,并且按顺序将每5个数据分为一组,每组的第五个数据放入测试集,其余数据组成训练集;获取数据集中不同化合物的亚伯拉罕描述符以及所述温度、并将其作为自变量建立初始模型;利用LASSO函数,选取使得模型自变量个数最少的λ值为最优超参数,并使用对应的自变量建立最优模型,即预测模型;步骤c)模型验证,可根据有机化合物的相关参数快速有效的预测其在XAD膜和大气中的分配系数。
Description
技术领域
本发明涉及环境检测技术领域,特别涉及一种POPs分配系数的预测方法。
背景技术
大气中持久性有机污染物(POPs)在食物链和远距离运输中存在生物蓄积的问题,威胁人类和野生动物的健康。因此,精准测量POPs的浓度对于确定污染物的来源,准确地评估环境暴露程度具有相当重要的意义。被动采样技术作为一种累积采样方法,可以直接进行原位采样,实现对气体中痕量污染物的采集、检测和分析,从而更好地评估污染物的生物累积效应。因此,被动采样技术被广泛用于测量POPs的浓度。
近年来,聚苯乙烯二乙烯基苯树脂(XAD)膜以其化学惰性、宽孔径分布和大比表面积而被广泛用作空气被动采样装置的吸附剂。POPs在空气和XAD膜中的分配系数(K XAD-A)是确定空气介质中的持久性有机污染物浓度的重要参数。但目前分配系数主要是通过实验测得,在大多数野外观测研究中,由于不同环境因素(例如: 湿度、温度、风速和蒸汽压)的影响,在野外观测点测得的分配系数会有很大差异。此外,由于新型化学物质的数量不断增长,这些物质中有很大一部分无法通过实验进行及时测量。准确测定K XAD-A的值并非易事,开发快速简便的理论预测方法用于预测大气中持久性有机污染物在XAD膜/空气中分配系数显得尤为重要。
发明内容
针对现有技术中存在的不足,本发明提供了一种POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法,可根据有机化合物的相关参数快速有效的预测其在XAD膜和大气中的分配系数,该方法节省实验检测时间、人力、物力、财力,能更好、更快地评价某类有机污染物的生物有效毒性效应和对生态环境的影响程度,为表征化合物的环境归趋以及为环境介质中污染物的浓度提供参考。
本发明的目的是这样实现的:一种POPs在XAD膜/空气之间分配系数的预测模型,所述预测模型的线性关系式如下:
ln K XAD-A=-0.049T+1.485L-0.935S+0.961A+18.78
其中:T代表了物质周围环境的温度;L为十六烷和空气之间的对数分配系数;S是分子极化性/偶极矩参数;A表征分子氢键质子给体能力的参数,也称为氢键酸度。
一种POPs在XAD膜/空气之间分配系数预测模型的建模方法,包括以下步骤:
步骤a)收集数据:利用气质色谱联用仪,通过测量不同温度下有机蒸汽对气溶胶的吸附实验,得到多种POPs在不同温度下XAD膜/空气分配系数ln K XAD-A,建立数据集;
步骤b)建立模型:将步骤a)数据集中的数据按升序排列,并且按顺序将每5个数据分为一组,每组的第五个数据放入测试集,其余数据组成训练集;获取数据集中不同化合物的亚伯拉罕描述符以及所述温度、并将其作为自变量建立初始模型;利用LASSO函数,通过十折交叉验证得到不同lambda值下的均方误差,在最小均方误差一个方差范围内,选取使得模型自变量个数最少的lambda值为最优超参数,并使用对应的自变量建立最优模型,即预测模型;
步骤c)模型验证:利用统计参数对已建立模型的拟合效果以及稳定性进行验证。
作为本发明的优选方案,步骤b)所述预测模型的线性关系式如下:
ln K XAD-A=-0.049T+1.485L-0.935S+0.961A+18.78
其中:T代表了物质周围环境的温度;L为十六烷和空气之间的对数分配系数;S是分子极化性/偶极矩参数;A表征分子氢键质子给体能力的参数,也称为氢键酸度。
作为本发明的优选方案,所述POPs包括醇类,醛和酮类,脂肪族和环烃,苯类,醚类,卤代脂肪烃,单核芳烃,硫化合物,PCBs,酚类化合物以及PAHs。
作为本发明的优选方案,步骤b)中获取数据集中不同化合物的亚伯拉罕描述符以及所述温度、并将其作为自变量建立初始模型具体包括:
根据化合物的名称和CAS号,确定目标化合物对应的分子结构,并将化合物的分子结构最小能量化后,利用软件获取化合物的亚伯拉罕参数值E,S,A,B,L;在R语言中将亚伯拉罕参数值E,S,A,B,L和温度T作为自变量建立包含六个参数的初始模型,以此来查看参数之间的相关性。
作为本发明的优选方案,步骤b)中建立最优模型具体包括:
利用LASSO函数将数据集分成十份,轮流将其中九份作为训练数据,一份作为测试数据的方式,进行交叉验证,得到不同lambda值下的均方误差,根据参数之间的相关性以及函数lambda.less,在最小均方误差一个方差范围内,选取使得模型最简单的lambda值(lambda=1);最后调用最优超参数lambda值,以及coef()函数得到最优模型。
一种POPs在XAD膜/空气之间分配系数的预测方法,使用所述预测模型根据不同POPs的亚伯拉罕描述符以及当前环境温度即可预测出分配系数。
与现有技术相比,本发明的有益效果在于:
1)本发明解决了已有的模型不能预测不同温度下有机化合物的ln K XAD-A值这一问题,将温度和亚伯拉罕参数结合,构建了可预测任意温度下有机物K XAD-A值的模型,实现对不同温度下有机化合物的ln K XAD-A值预测;
2)数据划分采用响应值排序法,即排序后每隔四个化合物选取一个进入验证集,该方法考虑了有机化合物的活性影响,从而提升预测模型的精度;
3)本发明利用LASSO算法筛选描述符并建立模型,在筛选描述符方面,LASSO算法能够有效地运行在大数据集上,并将绝对值偏差作为正则化项,进行描述符的筛选,解决了处理过程中的过度拟合问题;在建模方面,针对XAD膜/空气分配系数,LASSO算法相较于常用的OPL、MLR、SVM、ANN、RF等算法,只有本发明采用的LASSO算法,能够更好地解决引入温度参数带来的预测误差问题,排除数据集中的异常情况,避免人为主观意识,科学、快速地从含杂质的大数据集中提取重要信息,进而得到预测精度高、拟合度良好、稳定性强的模型;
4)本发明关于分配系数预测方法的建立,严格遵循OECD规定的模型发展和使用导则,所以,本发明所建模型预测不同温度下POPs的分配系数具有很高的可靠性,不仅能衡量基于XAD膜被动采样器的性能,也为化学品的监管和暴露风险评价提供技术支持,具有很好的推广应用价值和理论意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明中随机四种ln K XAD-A的实测值与四种温度的拟合图。
图2为本发明中ln K XAD-A的实测值与预测值的拟合图。
图3为本发明中表征模型应用域的Williams图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种POPs在XAD膜/空气之间分配系数的预测模型,预测模型的线性关系式如下:
ln K XAD-A=-0.049T+1.485L-0.935S+0.961A+18.78
其中:T代表了物质周围环境的温度;L为十六烷和空气之间的对数分配系数;S是分子极化性/偶极矩参数;A表征分子氢键质子给体能力的参数,也称为氢键酸度。
一种POPs在XAD膜/空气之间分配系数预测模型的建模方法,包括以下步骤:
步骤a)收集数据:利用气质色谱联用仪,通过测量不同温度289K~373K下有机蒸汽对气溶胶的吸附实验,得到包括醇类,醛和酮类,脂肪族和环烃,苯类,醚类,卤代脂肪烃,单核芳烃,硫化合物,PCBs,酚类化合物,PAHs和其他类型的有机化合物的ln K XAD-A值,建立数据集;
步骤b)建立模型:将步骤a)得到的277个数据按升序排列,5个数据分为一组,每组的第五个数据放入测试集,其余数据组成训练集,训练集中的数据用于模型的建立和内部验证,测试集中的数据则用于模型的外部验证和性能评估;根据化合物的名称和CAS号,确定目标化合物对应的结构,并将化合物的分子结构最小能量化后,利用软件获取化合物的E,S,A,B,L(亚伯拉罕参数)值;在R语言中将T,E,S,A,B,L作为自变量建立包含六个参数的初始模型,以此来查看参数之间的相关性;后利用LASSO函数,对lambda的格点值以将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据的方式,进行交叉验证,得到不同lambda值下的均方误差,根据参数之间的相关性以及函数lambda.less,在最小均方误差一个方差范围内,选取使得模型最简单的lambda值(lambda=1);最后调用最优超参数lambda值,以及coef()函数得到最优模型,即预测模型,预测模型的线性关系式如下:
ln K XAD-A=-0.049T+1.485L-0.935S+0.961A+18.78
其中:T代表了物质周围环境的温度;L为十六烷和空气之间的对数分配系数;S是分子极化性/偶极矩参数;A表征分子氢键质子给体能力的参数,也称为氢键酸度;
步骤c)模型验证:校正的决定系数R2 adj=0.903和均方根误差RMSE=0.901说明所建立的模型具有较好的拟合优度;预测与实测之间的拟合系数R2 ext=0.905、Q2 ext=0.901和一致性相关系数CCC= 0.943表示模型外部预测能力较为优异;去一法Q 2 LOO=0.902、自举法Q 2 BOOT=0.906且符合QUIK准则(K XY=0. 323 > K XX=0. 254),可以看出该模型的稳健性好,未出现过度拟合现象。
相较于现有模型,该模型建立数据集中的化合物种类、数量更加庞大,应用域更为广泛,更适合于推广应用,图2给出模型的拟合程度及验证结果;采用基于标准残差δ对杠杆值h i 的Williams图对模型的应用域进行表征,δ的绝对值大于3.0时,该化合物为离群点,当杠杆值h i 大于警戒值h *时,说明该化合物结构与其他化合物结构有显著性差异。277个数据中有7个的杠杆值(h)大于h *但在δ绝对值小于3.0,表明该化合物结构与其他化合物结构有明显差异,选择的预测参数不能抓住这些化学物质的一些相关结构特征(图3)。
现有技术中的模型不能解决不同环境温度下有机污染物分配系数的预测问题。同时,为了探究温度与ln K XAD-A之间是否存在关系,本发明将实验中同一物质在不同温度下得出的数据与温度做了相关性分析,发现温度与其分配系数存在较好的线性关系,结果如图1所示(随机选择了四种化合物在不同温度下的ln K XAD-A与其对应温度进行线性拟合)。因此,本发明将温度作为变量与亚伯拉罕参数结合,建立了在任意温度下都可以预测ln K XAD-A值的模型。
在模型构建方面,MLR虽然是最常见的一种算法,具有快速简单的特点,但由于本发明的数据集存在量大、复杂、可能有异常值的问题,用MLR算法会出现过度拟合或出现拟合偏差较大等极端情况。此外,MLR中变量筛选是通过人为主观意识进行筛选,不具备科学性。本发明也尝试利用非线性算法进行数据统计分析,引入温度参数后,发现采用OPL、ANN、SVM、RF等算法得到的预测值与实测值存在较大的误差。因此,为了排除数据集中的异常情况、更加科学有效的筛选描述符、解决引入温度参数带来的预测误差问题,本发明使用LASSO算法可以较好地解决这一系列问题,进而得到了精度更高、可靠透明的预测模型。
一种POPs在XAD膜/空气之间分配系数的预测方法,使用预测模型根据不同POPs的亚伯拉罕描述符以及当前环境温度即可预测出分配系数。
下面结合具体实例对上述预测方法的效果进行进一步说明。
实施例1
给定一个化合物Acenaphthene(CAS号:83-32-9)预测温度为298开氏温度(K)的lnK XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为6.678、1.021和0.003。根据计算公式(2)得到该物质的h i 值为0.018 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到ln K XAD-A预测值为14.74,实验值为14.20,预测值与实验值十分相近,拟合效果好。
实施例2
给定一个化合物Chlorobenzene(CAS号:108-90-7)预测温度为313开氏温度(K)的ln K XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为3.768、0.710和0.003,。根据计算公式(2)得到该物质的hi值为0.0040 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到ln K XAD-A预测值为8.44,实验值为8.28,预测值与实验值十分相近,拟合效果好。
实施例3
给定一个化合物Styrene(CAS号:100-42-5)预测温度为313开氏温度(K)的lnK XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为3.812、0.593和0.003。根据计算公式(2)得到该物质的hi值为0.0036 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到ln K XAD-A预测值为8.61,实验值为8.52,预测值与实验值十分相近,拟合效果好。
实施例4
给定一个化合物1-Hexanol(CAS号:111-27-3)预测温度为313开氏温度(K)的lnK XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为3.618、0.449和0.348。根据计算公式(2)得到该物质的hi值为0.0047 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到ln K XAD-A预测值为8.79,实验值为8.75,预测值与实验值十分相近,拟合效果好。
实施例5
给定一个化合物Dibromomethane(CAS号:74-95-3)预测温度为373开氏温度(K)的ln K XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为2.712、0.549和0.003。根据计算公式(2)得到该物质的hi值为0.0072 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到ln K XAD-A预测值为4.09,实验值为4.03,预测值与实验值十分相近,拟合效果好。
实施例6
给定一个化合物Methyl acetate(CAS号:74-95-3)预测温度为343开氏温度(K)的ln K XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为1.861、0.558和0.003。根据计算公式(2)得到该物质的hi值为0.0093 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到ln K XAD-A预测值为4.29,实验值为4.10,预测值与实验值十分相近,拟合效果好。
实施例7
给定一个化合物1-Propanol(CAS号:71-23-8)预测温度为353开氏温度(K)的lnK XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为2.121、0.449和0.348。根据计算公式(2)得到该物质的hi值为0.0081 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到ln K XAD-A预测值为4.62,实验值为4.30,预测值与实验值十分相近,拟合效果好。
实施例8
给定一个化合物1-Iodopropane(CAS号:107-08-4)预测温度为373开氏温度(K)的ln K XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为3.039、0.400和0.003。根据计算公式(2)得到该物质的hi值为0.0076 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到ln K XAD-A预测值为4.72,实验值为4.73,预测值与实验值十分相近,拟合效果好。
实施例9
给定一个化合物Acetone(CAS号:67-64-1)预测温度为323开氏温度(K)的ln K XAD-A值。首先经预处理后利用PaDEL-Descriptor软件(Version 2.21)计算得到化合物分子结构描述符L, S, A的值,分别为1.891、0.598和0.003。根据计算公式(2)得到该物质的hi值为0.0094 < 0.061,所以该化合物在模型应用域内。将上述描述符的值带入所建模型,得到lnK XAD-A预测值为5.27,实验值为5.25,预测值与实验值十分相近,拟合效果好。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (7)
1. 一种POPs在XAD膜/空气之间分配系数的预测模型,其特征在于,所述预测模型的线性关系式如下:
ln K XAD-A=-0.049T+1.485L-0.935S+0.961A+18.78
其中:T代表了物质周围环境的温度;L为十六烷和空气之间的对数分配系数;S是分子极化性/偶极矩参数;A表征分子氢键质子给体能力的参数,也称为氢键酸度。
2.一种如权利要求1所述预测模型的建模方法,其特征在于,包括以下步骤:
步骤a)收集数据:利用气质色谱联用仪,通过测量不同温度下有机蒸汽对气溶胶的吸附实验,得到多种POPs在不同温度下XAD膜/空气分配系数ln K XAD-A,建立数据集;
步骤b)建立模型:将步骤a)数据集中的数据按升序排列,并且按顺序将每5个数据分为一组,每组的第五个数据放入测试集,其余数据组成训练集;获取数据集中不同化合物的亚伯拉罕描述符以及所述温度、并将其作为自变量建立初始模型;利用LASSO函数,通过十折交叉验证得到不同lambda值下的均方误差,在最小均方误差一个方差范围内,选取使得模型自变量个数最少的lambda值为最优超参数,并使用对应的自变量建立最优模型,即预测模型;
步骤c)模型验证:利用统计参数对已建立模型的拟合效果以及稳定性进行验证。
3. 根据权利要求2所述的POPs在XAD膜/空气之间分配系数的预测方法,其特征在于,步骤b)所述预测模型的线性关系式如下:
ln K XAD-A=-0.049T+1.485L-0.935S+0.961A+18.78
其中:T代表了物质周围环境的温度;L为十六烷和空气之间的对数分配系数;S是分子极化性/偶极矩参数;A表征分子氢键质子给体能力的参数,也称为氢键酸度。
4.根据权利要求2所述的POPs在XAD膜/空气之间分配系数的预测方法,其特征在于,所述POPs包括醇类,醛和酮类,脂肪族和环烃,苯类,醚类,卤代脂肪烃,单核芳烃,硫化合物,PCBs,酚类化合物以及PAHs。
5.根据权利要求2所述的POPs在XAD膜/空气之间分配系数的预测方法,其特征在于,步骤b)中获取数据集中不同化合物的亚伯拉罕描述符以及所述温度、并将其作为自变量建立初始模型具体包括:
根据化合物的名称和CAS号,确定目标化合物对应的分子结构,并将化合物的分子结构最小能量化后,利用软件获取化合物的亚伯拉罕参数值E,S,A,B,L;在R语言中将亚伯拉罕参数值E,S,A,B,L和温度T作为自变量建立包含六个参数的初始模型,以此来查看参数之间的相关性。
6.根据权利要求2所述的POPs在XAD膜/空气之间分配系数的预测方法,其特征在于,步骤b)中建立最优模型具体包括:
利用LASSO函数将数据集分成十份,轮流将其中九份作为训练数据,一份作为测试数据的方式,进行交叉验证,得到不同lambda值下的均方误差,根据参数之间的相关性以及函数lambda.less,在最小均方误差一个方差范围内,选取使得模型最简单的lambda值(lambda=1);最后调用最优超参数lambda值,以及coef()函数得到最优模型。
7.一种POPs在XAD膜/空气之间分配系数的预测方法,其特征在于,使用权利要求1所述预测模型根据不同POPs的亚伯拉罕描述符以及当前环境温度即可预测出分配系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111009904.7A CN113705008A (zh) | 2021-08-31 | 2021-08-31 | POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111009904.7A CN113705008A (zh) | 2021-08-31 | 2021-08-31 | POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113705008A true CN113705008A (zh) | 2021-11-26 |
Family
ID=78657673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111009904.7A Pending CN113705008A (zh) | 2021-08-31 | 2021-08-31 | POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705008A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999705A (zh) * | 2012-11-30 | 2013-03-27 | 大连理工大学 | 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法 |
US20190017986A1 (en) * | 2015-07-15 | 2019-01-17 | Two Teknik Aps | Tracer Substances for SVC Analysis |
CN110534163A (zh) * | 2019-08-22 | 2019-12-03 | 大连理工大学 | 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法 |
-
2021
- 2021-08-31 CN CN202111009904.7A patent/CN113705008A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999705A (zh) * | 2012-11-30 | 2013-03-27 | 大连理工大学 | 通过定量构效关系和溶剂化模型预测不同温度下的正辛醇空气分配系数koa的方法 |
US20190017986A1 (en) * | 2015-07-15 | 2019-01-17 | Two Teknik Aps | Tracer Substances for SVC Analysis |
CN110534163A (zh) * | 2019-08-22 | 2019-12-03 | 大连理工大学 | 采用多参数线性自由能关系模型预测有机化合物的辛醇/水分配系数的方法 |
Non-Patent Citations (2)
Title |
---|
ARMITAGE J M、HAYWARD S J、WANIA F: "Modeling the Uptake of Neutral Organic Chemicals on XAD Passive Air Samplers under Variable Temperatures, External Wind Speeds and Ambient Air Concentrations (PAS-SIM)" * |
袁泉: "部分持久性有机污染物空气/颗粒物分配系数(Kp)的预测研究" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Krechmer et al. | Quantification of gas-wall partitioning in Teflon environmental chambers using rapid bursts of low-volatility oxidized species generated in situ | |
Zellers et al. | Optimal coating selection for the analysis of organic vapor mixtures with polymer-coated surface acoustic wave sensor arrays | |
JP3963474B2 (ja) | 流体中のアナライトを検出するためのセンサアレイ | |
JP4054384B2 (ja) | 組成的に異なる重合体ベースのセンサ要素およびそれらを製作する方法 | |
Penza et al. | Application of principal component analysis and artificial neural networks to recognize the individual VOCs of methanol/2-propanol in a binary mixture by SAW multi-sensor array | |
Neethirajan et al. | Development of carbon dioxide (CO2) sensor for grain quality monitoring | |
Algrim et al. | Measurements and modeling of absorptive partitioning of volatile organic compounds to painted surfaces | |
Gustafson et al. | Optimizing information content in MOF sensor arrays for analyzing methane-air mixtures | |
Lee et al. | Spatial cluster detection of regression coefficients in a mixed‐effects model | |
Dillner et al. | Predicting ambient aerosol thermal–optical reflectance measurements from infrared spectra: elemental carbon | |
CN116500178A (zh) | 全挥发性范围有机物分物种排放表征方法 | |
CN109524063B (zh) | 疏水性有机物被动采样材料硅橡胶与水之间分配系数的预测方法 | |
Boujnah et al. | An electronic nose using conductometric gas sensors based on P3HT doped with triflates for gas detection using computational techniques (PCA, LDA, and kNN) | |
CN113705008A (zh) | POPs在XAD膜/空气之间分配系数的预测模型、建模方法及预测方法 | |
CN111768815A (zh) | 基于理论线性溶解能关系模型预测POPs在PUF膜-空气的分配系数的方法 | |
CN111768812A (zh) | 一种预测有机物pdms膜-水分配系数的方法 | |
Chen et al. | Estimation of soil water content at permanent wilting point using hygroscopic water content | |
Gu et al. | Modeling polyurethane foam (PUF)-air partition coefficients for persistent organic pollutants using linear and non-linear chemometric methods | |
CN115684419B (zh) | 大气中近全组分有机物的测量及总量构建方法、装置、系统、终端以及存储介质 | |
CN113722988B (zh) | 定量构效关系模型预测有机物pdms膜-空气分配系数的方法 | |
Morris et al. | Absorption of volatile organic compounds (VOCs) by polymer tubing: implications for indoor air and use as a simple gas-phase volatility separation technique | |
Vergara et al. | Optimized Feature Extraction for Temperature‐Modulated Gas Sensors | |
Petters et al. | Morphology and hygroscopicity of nanoplastics in sea spray | |
CN116189796A (zh) | 基于机器学习的星载短波红外co2柱浓度估算方法 | |
Tao et al. | Versatile in silico modeling of XAD-air partition coefficients for POPs based on abraham descriptor and temperature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211126 |
|
RJ01 | Rejection of invention patent application after publication |