CN113722988B - 定量构效关系模型预测有机物pdms膜-空气分配系数的方法 - Google Patents
定量构效关系模型预测有机物pdms膜-空气分配系数的方法 Download PDFInfo
- Publication number
- CN113722988B CN113722988B CN202110947939.9A CN202110947939A CN113722988B CN 113722988 B CN113722988 B CN 113722988B CN 202110947939 A CN202110947939 A CN 202110947939A CN 113722988 B CN113722988 B CN 113722988B
- Authority
- CN
- China
- Prior art keywords
- model
- descriptors
- data
- descriptor
- air
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000004205 dimethyl polysiloxane Substances 0.000 title claims abstract description 16
- 235000013870 dimethyl polysiloxane Nutrition 0.000 title claims abstract description 16
- CXQXSVUQTKDNFP-UHFFFAOYSA-N octamethyltrisiloxane Chemical compound C[Si](C)(C)O[Si](C)(C)O[Si](C)(C)C CXQXSVUQTKDNFP-UHFFFAOYSA-N 0.000 title claims abstract description 16
- 238000004987 plasma desorption mass spectroscopy Methods 0.000 title claims abstract description 16
- 229920000435 poly(dimethylsiloxane) Polymers 0.000 title claims abstract description 16
- 238000004617 QSAR study Methods 0.000 title claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 150000001875 compounds Chemical class 0.000 claims abstract description 23
- 238000007637 random forest analysis Methods 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 13
- 238000003066 decision tree Methods 0.000 claims abstract description 11
- 238000002790 cross-validation Methods 0.000 claims abstract description 10
- 150000002894 organic compounds Chemical class 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 4
- 238000012512 characterization method Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- UHOVQNZJYSORNB-UHFFFAOYSA-N Benzene Chemical compound C1=CC=CC=C1 UHOVQNZJYSORNB-UHFFFAOYSA-N 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 4
- 150000001298 alcohols Chemical class 0.000 claims description 3
- 150000001299 aldehydes Chemical class 0.000 claims description 3
- 125000001931 aliphatic group Chemical group 0.000 claims description 3
- 150000001338 aliphatic hydrocarbons Chemical class 0.000 claims description 3
- 150000004945 aromatic hydrocarbons Chemical class 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 125000000753 cycloalkyl group Chemical group 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 150000002148 esters Chemical class 0.000 claims description 3
- 150000002170 ethers Chemical class 0.000 claims description 3
- 150000002576 ketones Chemical class 0.000 claims description 3
- 229910017464 nitrogen compound Inorganic materials 0.000 claims description 3
- 150000002830 nitrogen compounds Chemical class 0.000 claims description 3
- 239000000575 pesticide Substances 0.000 claims description 3
- 150000003071 polychlorinated biphenyls Chemical class 0.000 claims description 3
- 125000005575 polycyclic aromatic hydrocarbon group Chemical group 0.000 claims description 3
- 150000003568 thioethers Chemical class 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims 2
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000012216 screening Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract 1
- 239000005416 organic matter Substances 0.000 abstract 1
- 238000004618 QSPR study Methods 0.000 description 12
- 239000000126 substance Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 239000002957 persistent organic pollutant Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- FLTJDUOFAQWHDF-UHFFFAOYSA-N 2,2-dimethylhexane Chemical compound CCCCC(C)(C)C FLTJDUOFAQWHDF-UHFFFAOYSA-N 0.000 description 3
- LAIUFBWHERIJIH-UHFFFAOYSA-N 3-Methylheptane Chemical compound CCCCC(C)CC LAIUFBWHERIJIH-UHFFFAOYSA-N 0.000 description 3
- NPDACUSDTOMAMK-UHFFFAOYSA-N 4-Chlorotoluene Chemical compound CC1=CC=C(Cl)C=C1 NPDACUSDTOMAMK-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000000324 molecular mechanic Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101150095401 AURKA gene Proteins 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 231100000693 bioaccumulation Toxicity 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 231100000463 ecotoxicology Toxicity 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000011545 laboratory measurement Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010297 mechanical methods and process Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Abstract
本发明公开了一种定量构效关系模型预测有机物PDMS膜‑空气分配系数的方法,包括以下步骤:1)数据收集;2)模型构建:搜集化合物的分子结构,优化后计算分子描述符,对描述符预处理,以预处理后的描述符为自变量,使用随机森林算法建立初始QSPR模型;计算描述符的均方误差,按照重要性排序,执行五次10折交叉验证得到误差之间的关系,选取最小的描述符个数为理想变量个数,筛选出最终描述符;通过梯度提升决策树回归算法建立QSPR模型;步骤3)模型验证及应用域表征,本发明能有效地预测应用域内有机化合物的PDMS膜/空气分配系数,为环境化合物的监测和被动采样器的应用提供必要的基础数据,具有重大意义。
Description
技术领域
本发明涉及环境检测技术领域,特别涉及一种有机物PDMS膜-空气分配系数预测方法。
背景技术
持久性有机物具有生物累积性、毒性和远距离运输能力,会加剧生态危机,对人类的健康造成危害,因此对这些污染物的监测和风险评价具有重要意义。膜被动采样技术在测量空气中的有机污染物浓度方面比传统的主动采样技术更容易实施,技术门槛更低、节能更多、成本更低。其中,由于PDMS膜具有良好的吸收保留率、高渗透性和非常好的热稳定性,成为应用广泛的被动采样材料之一。
持久性有机污染物在PDMS与空气中的平衡分配系数(K PDMS-air)是被动采样测量持久性有机污染物浓度的关键参数,也是衡量被动采样器性能和准确计算有机物空气中浓度的重要指标。然而,实验室测量K PDMS-air值容易受温度、风速等条件的影响,且实验测量费力、费时且昂贵,难以满足数量庞大且日益增长的有机污染物环境监测和管理的需求,因此发展简便而准确的理论预测方法用于估算有机物的K PDMS-air显得尤为重要。
定量结构-性质关系(QSPR)通过分子结构描述符计算有机化合物的物理化学性质、环境行为和生态毒理性。这种方法可以洞察影响化学物质物化特性的主要内部因素,能够减少或替代相关实验,弥补实验数据的缺失、降低实验费用。目前有关预测有机物的K PDMS-air研究方法较少,特别是关于非线性方法的研究,且现有模型中研究的物质较为单一数量少,模型的预测精度也需进一步提高。考虑到各类有机物的环境分配行为是一个复杂的过程,分配系数可能涉及到一些非线性关系,因此,有必要构建一个涵盖多种化合物、具有明确算法、便于应用推广且不依赖实验数据的K PDMS-air非线性预测模型,并依照OECD导则对模型进行验证和表征。
发明内容
针对现有技术中存在的不足,本发明提供了一种定量构效关系模型预测有机物PDMS膜-空气分配系数的方法,可以直接根据有机化合物的分子结构描述符快速有效的预测其K PDMS-air值,进而了解目标化合物的迁移和归趋,为化合物的生态风险评价和管理提供必要的基础数据。
本发明的目的是这样实现的:一种定量构效关系模型预测有机物PDMS膜-空气分配系数的方法,包括以下步骤:
步骤1)数据收集:收集多种有机化合物的聚二甲基硅氧烷-空气分配系数的对数值log K PDMS-air,使用Pauta准则对数据进行分析、去除异常值后划分训练集和测试集;
步骤2)模型构建:
2-1)搜集化合物的分子结构,对其优化后计算化合物的分子描述符,首先对描述符进行预处理,之后以预处理后的描述符为自变量,使用随机森林算法建立初始QSPR模型;
2-2)计算每个描述符的均方误差增加百分比以衡量描述符的重要性,其中百分比越高代表重要性越高,按照描述符重要性对其进行降序排序,执行五次10折交叉验证得到用于拟合的最重要描述符数量与平均交叉验证误差之间的关系,选取平均交叉验证误差最小的描述符个数为理想的变量个数,筛选出最终描述符;
2-3)通过梯度提升决策树回归算法建立预测log K PDMS-air值的QSPR模型,使用网格搜索选取最优超参数,构建基于RF-GBDT算法的QSPR模型;
步骤3)模型验证及应用域表征:对模型的拟合度、稳健性和外部预测能力进行验证并通过Williams图对模型应用域进行表征。
作为本发明的进一步限定,步骤1)中的有机化合物包括醇类、醛类和酮类、脂肪烃和环烃、苯、酯类、醚类、卤代脂肪烃、单核芳烃、氮化合物和硫化物、多环芳烃、多氯联苯和农药。
作为本发明的进一步限定,步骤1)中划分训练集和测试集具体为:将处理后的数据按log K PDMS-air值升序排列,5个数据分为一组,每组的第五个数据放入测试集,其余数据组成训练集;训练集中的数据用于模型的建立和内部验证,测试集中的数据则用于模型的外部验证和性能评估。
作为本发明的进一步限定,步骤2-3)中使用网格搜索选取最优超参数具体为:对基础决策树的数量(n.trees)、每棵基础决策树所包含的最大深度(interaction.depth)、学习速率(shrinkage)和每棵基础树中叶节点所包含的最小样本量(n.minobsinode)这几个超参数进行了网格搜索,以使得平均绝对误差最小的参数组合为最佳参数组合。
与现有技术相比,本发明的有益效果在于:
1)在数据处理方面,通过使用Pauta准则对数据进行分析、去除异常值的方式在异常值与误差之间设置明确的界限,并去除数据的异常值,提高模型的预测精度;在描述符筛选方面,步骤2-1)中采用的随机森林算法能够有效地运行在大数据集上,解决了处理高维特征的输入变量产生的过度拟合问题;在建立初始随机森林模型后,可以通过计算各描述符的均方误差增加百分比(%IncMSE)表征每个描述符在随机森林中的每棵树上的贡献度的均值,科学、高效地评估各个特征的重要性,从高维变量中筛选出最重要的描述符用于建模;在建模方面,针对PDMS膜/空气分配系数,对比常规的MLR、LASSO、ANN、SVM等算法,只有本发明采用的RF-GBDT(随机森林-梯度提升决策树)算法,能够高效排除数据集中的异常情况,避免人为主观意识,科学、快速地从含杂质的大数据集中提取重要信息,解决处理高维特征的输入变量产生的过度拟合问题;进而得到预测精度高、拟合度良好、稳定性强的QSPR模型;
2)本发明可以快速有效地预测多种有机化合物的PDMS膜/空气分配系数;该发明涉及的QSRR模型的建立和验证严格依照OECD规定的QSPR模型构建和使用的导则,准确可靠,可以有效获取物质的K PDMS-air值,为化学品监管工作提供重要的基础数据,并对生态风险评价具有重要的指导意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例数据集log K PDMS-air的实验值和预测值的拟合图。
图2为本发明实施例表征模型应用域的Williams图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种定量构效关系模型预测有机物PDMS膜-空气分配系数的方法,包括以下步骤。
步骤1)数据收集:收集温度为298K的198种有机化合物的log K PDMS-air值,其中有机化合物包括醇类、醛类和酮类、脂肪烃和环烃、苯、酯类、醚类、卤代脂肪烃、单核芳烃、氮化合物和硫化物、多环芳烃、多氯联苯、农药和其他化合物这13类化合物;对于含有多条logK PDMS-air数值记录的有机化合物,剔除明显偏离整体数值的数据,取其平均值进行模型的构建研究;使用Pauta准则对数据进行分析、去除异常值;将收集到的数据按log K PDMS-air值升序排列,5个数据分为一组,每组的第五个数据放入测试集,其余数据组成训练集;训练集中的数据用于模型的建立和内部验证,测试集中的数据则用于模型的外部验证和性能评估。
步骤2)模型构建:搜集198种化合物的分子结构,使用分子力学的方法对其进行优化后,计算化合物的分子描述符;首先去除常数、接近常数、缺失和相关性大于0.95的描述符;之后以预处理后的描述符为自变量,基于随机森林算法建立初始QSPR模型;最终,计算每个描述符的均方误差增加百分比(%IncMSE)以衡量描述符的重要性,按照描述符重要性对其进行降序排序,执行五次10倍交叉验证得到用于拟合的最重要描述符数量与平均交叉验证误差之间的关系,选取平均交叉验证误差最小的描述符个数为理想的变量个数,保留前4个最重要的描述符(Wi_B(m)、ZM2Mad、ECC和HyWi_B(e))可以获得理想的回归结果;其中,Wi_B(m)是质量加权负荷矩阵的类维纳指数;ZM2Mad是由Madan顶点度定义的第二个Zagreb指数;ECC是偏心率;HyWi_B(e)是由Sanderson电负性加权的负荷矩阵得到的超维纳指数(log函数);
以最终描述符为自变量,通过梯度提升决策树回归算法建立预测log K PDMS-air值的QSPR模型;对n.trees、interaction.depth、shrinkage和n.minobsinode这几个超参数进行了网格搜索,以使得平均绝对误差最小的参数组合为最佳参数组合(n.trees = 375,interaction.depth = 2,shrinkage = 0.1,n.minobsinode = 5);以最终描述符为自变量,设置超参数组合为最佳参数组合,通过梯度提升决策树回归算法建立预测log K PDMS-air值的最优QSPR模型。
步骤3)模型验证:用R2 adj和RMSE tra表征模型拟合度;用Q2 LOO和Q2 BOOT表征模型稳健性;用R2 ext、Q2 ext和CCC表示模型外部预测能力;判定依据:R 2 > 0.7,Q 2 > 0.6,R 2 - Q 2 < 0.3,CCC > 0.85;具体参数如下所示:
n tra= 157, R2 adj= 0.986, Q2 LOO= 0.943, Q2 BOOT= 0.973, RMSE tra=0.247;
n ext = 41, R2 ext= 0.925, Q2 ext = 0.923, CCC = 0.960.
其中,n tra和n ext分别是训练集和测试集中的化合物数量,R2 adj为0.986,RMSE tra为0.247,表明模型具有较高的线性拟合能力;内部验证系数Q2 LOO为0.943, Q2 BOOT为0.973,表明发展的模型具有较好的稳健性;外部验证的R2 ext= 0.925, Q2 ext = 0.923,CCC = 0.960,表明模型具有较好的预测能力。图1给出模型的拟合程度及验证结果;
采用基于标准残差(δ)对杠杆值(hi)的Williams图对模型的应用域进行表征(图2)。通过公式计算得到模型的h*为0.0769,因此,该模型适用于对hi小于0.0769的化合物logK PDMS-air的值的预测。
一定范围内的数据误差不仅对模型影响不大,而且会提高模型的应用域。然而,如果算法对异常点(化合物的分子结构与数据集中大多数化合物的分子结构差异较大的点)敏感,那么模型的预测会不准确;因此,在建模前应去除数据中的异常值;衡量数据是异常值还是误差的度量在很大程度上影响模型的性能;本发明基于Pauta准则,大于μ±3δ的数据点为异常值,反之为可接受的误差。
考虑到特征描述符的高维性,如何从原始变量中选择最重要的特征用于建模变得越来越重要;对于庞大且复杂的数据集,以往常用MLR算法筛选描述符,但这种方法纳入高度相关的描述符,导致模型复杂度增加,丢失重要描述符;而且这种方法依靠人为主观意识,不具备科学性;而随机森林算法能够有效地运行在大数据集上,处理高维特征的输入变量而不易过度拟合。在随机森林算法(Random Forest)构建模型后,利用均方误差增加百分比(%IncMSE)表征每个特征在随机森林中的每棵树上贡献度的均值,科学、高效地评估各个特征的重要性,从高维变量中筛选出最重要的特征用于建模。
为了排除数据集中的异常情况、科学有效地筛选描述符、减少调参时间、避免过度拟合、解决预测误差问题,本发明尝试以随机森林算法筛选描述符,结合ANN、SVM、SVR、LASSO等算法预测K PDMS-air,发现得到的模型存在受异常点影响过大、过度拟合的问题,导致得到的预测值与实测值存在较大的误差;而只有本发明中随机森林算法结合梯度提升决策树算法(RF-GBDT)建立的QSPR模型可以很好地解决这些问题,进而得到预测精度高、简单、透明的QSPR预测模型。
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
实施例1:2,2-二甲基己烷(CAS号:590-73-8):首先根据CAS号,获取化合物的分子结构;再使用MM2分子力学的方法将分子结构优化;然后,计算分子描述符Wi_B(m)、ZM2Mad、ECC和HyWi_B(e),分别为15.4210、30.0000、34.0000和2.8112;接着,根据计算公式得到该物质的的h值是0.0090(<0.0769),说明此化合物在本发明的模型应用域内;最后,将上述描述符的值带入所建模型,得到其log K PDMS-air预测值为2.87,与其实验测定的log K PDMS-air值(2.83)非常接近,拟合效果好。
实施例2:3-甲基庚烷(CAS号:589-81-1):首先根据CAS号,获取化合物的分子结构;再使用MM2分子力学的方法将分子结构优化;然后,计算分子描述符Wi_B(m)、ZM2Mad、ECC和HyWi_B(e),分别为15.3210、27.0000、38.0000和2.8019;接着,根据计算公式得到该物质的的h值是0.0094(<0.0769),说明此化合物在本发明的模型应用域内;最后,将上述描述符的值带入所建模型,得到其log K PDMS-air预测值为3.05,与其实验测定的log K PDMS-air值(3.04)非常接近,拟合效果好。
实施例3:4-氯甲苯(CAS号:106-43-4):首先根据CAS号,获取化合物的分子结构;再使用MM2分子力学的方法将分子结构优化;然后,计算分子描述符Wi_B(m)、ZM2Mad、ECC和HyWi_B(e),分别为19.5202、47.7585、30.0000和2.9921;接着,根据计算公式得到该物质的的h值是0.0077(<0.0769),说明此化合物在本发明的模型应用域内;最后,将上述描述符的值带入所建模型,得到其log K PDMS-air预测值为3.56,与其实验测定的log K PDMS-air值(3.55)非常接近,拟合效果好。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (4)
1.一种定量构效关系模型预测有机物PDMS膜-空气分配系数的方法,其特征在于,包括以下步骤:
步骤1)数据收集:收集多种有机化合物的聚二甲基硅氧烷-空气分配系数的对数值logK PDMS-air,使用Pauta准则对数据进行分析、去除异常值后划分训练集和测试集;
步骤2)模型构建:
2-1)搜集化合物的分子结构,对其优化后计算化合物的分子描述符,首先对描述符进行预处理,之后以预处理后的描述符为自变量,使用随机森林算法建立初始QSPR模型;
2-2)计算每个描述符的均方误差增加百分比以衡量描述符的重要性,其中百分比越高代表重要性越高,按照描述符重要性对其进行降序排序,执行五次10折交叉验证得到用于拟合的最重要描述符数量与平均交叉验证误差之间的关系,选取平均交叉验证误差最小的描述符个数为理想的变量个数,筛选出最终描述符;
2-3)通过梯度提升决策树回归算法建立预测log K PDMS-air值的QSPR模型,使用网格搜索选取最优超参数,构建基于RF-GBDT算法的QSPR模型;
步骤3)模型验证及应用域表征:对模型的拟合度、稳健性和外部预测能力进行验证并通过Williams图对模型应用域进行表征。
2.根据权利要求1所述的定量构效关系模型预测有机物PDMS膜-空气分配系数的方法,其特征在于,步骤1)中的有机化合物包括醇类、醛类和酮类、脂肪烃和环烃、苯、酯类、醚类、卤代脂肪烃、单核芳烃、氮化合物和硫化物、多环芳烃、多氯联苯和农药。
3. 根据权利要求1所述的定量构效关系模型预测有机物PDMS膜-空气分配系数的方法,其特征在于,步骤1)中划分训练集和测试集具体为:将处理后的数据按log K PDMS-air值升序排列,5个数据分为一组,每组的第五个数据放入测试集,其余数据组成训练集;训练集中的数据用于模型的建立和内部验证,测试集中的数据则用于模型的外部验证和性能评估。
4.根据权利要求1所述的定量构效关系模型预测有机物PDMS膜-空气分配系数的方法,其特征在于,步骤2-3)中使用网格搜索选取最优超参数具体为:对基础决策树的数量、每棵基础决策树所包含的最大深度、学习速率和每棵基础树中叶节点所包含的最小样本量进行了网格搜索,以使得平均绝对误差最小的参数组合为最佳参数组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947939.9A CN113722988B (zh) | 2021-08-18 | 2021-08-18 | 定量构效关系模型预测有机物pdms膜-空气分配系数的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947939.9A CN113722988B (zh) | 2021-08-18 | 2021-08-18 | 定量构效关系模型预测有机物pdms膜-空气分配系数的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722988A CN113722988A (zh) | 2021-11-30 |
CN113722988B true CN113722988B (zh) | 2024-01-26 |
Family
ID=78676706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110947939.9A Active CN113722988B (zh) | 2021-08-18 | 2021-08-18 | 定量构效关系模型预测有机物pdms膜-空气分配系数的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722988B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116312854A (zh) * | 2023-03-06 | 2023-06-23 | 杭州以勒标准技术有限公司 | 一种预测磺胺甲基异恶唑类物质正辛醇水分配系数的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768813A (zh) * | 2020-07-07 | 2020-10-13 | 扬州大学 | 基于sw-svm算法的定量构效关系模型预测有机物pdms膜-水分配系数的方法 |
CN111932036A (zh) * | 2020-09-23 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
CN112001439A (zh) * | 2020-08-19 | 2020-11-27 | 西安建筑科技大学 | 基于gbdt的商场建筑空调冷负荷预测方法、存储介质及设备 |
CN112069567A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019191777A1 (en) * | 2018-03-30 | 2019-10-03 | Board Of Trustees Of Michigan State University | Systems and methods for drug design and discovery comprising applications of machine learning with differential geometric modeling |
-
2021
- 2021-08-18 CN CN202110947939.9A patent/CN113722988B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768813A (zh) * | 2020-07-07 | 2020-10-13 | 扬州大学 | 基于sw-svm算法的定量构效关系模型预测有机物pdms膜-水分配系数的方法 |
CN112069567A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
CN112001439A (zh) * | 2020-08-19 | 2020-11-27 | 西安建筑科技大学 | 基于gbdt的商场建筑空调冷负荷预测方法、存储介质及设备 |
CN111932036A (zh) * | 2020-09-23 | 2020-11-13 | 中国科学院地理科学与资源研究所 | 基于位置大数据的精细时空尺度动态人口预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
"QSPR方法在有机污染物PDMS/环境介质分配系数中的应用研究";陈文瑄;《中国优秀硕士学位论文全文数据库 工程科技Ι辑》;第1-2章,第4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN113722988A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Carrascal et al. | Partial least squares regression as an alternative to current regression methods used in ecology | |
Brose et al. | Estimating the richness of species with variable mobility | |
CN114424058A (zh) | 一种VOCs污染的溯源方法 | |
CN108241901B (zh) | 一种基于预测数据的变压器预警评估方法及装置 | |
CN107958267B (zh) | 一种基于光谱线性表示的油品性质预测方法 | |
CN113722988B (zh) | 定量构效关系模型预测有机物pdms膜-空气分配系数的方法 | |
Di Natale et al. | Sensor-array calibration time reduction by dynamic modelling | |
CN114626304A (zh) | 一种矿浆铜品位在线预测软测量建模方法 | |
CN113281229B (zh) | 一种基于小样本下多模型自适应大气pm2.5浓度预测方法 | |
Chen et al. | Heavy metal content prediction based on Random Forest and Sparrow Search Algorithm | |
CN112630180B (zh) | 水体中有机磷农药浓度检测的紫外/可见光吸收光谱模型 | |
CN111768813A (zh) | 基于sw-svm算法的定量构效关系模型预测有机物pdms膜-水分配系数的方法 | |
Xu et al. | Temperature and humidity compensation for MOS gas sensor based on random forests | |
CN116187861A (zh) | 基于同位素的水质溯源监测方法及相关装置 | |
Yan et al. | Determining the number of factors for non-negative matrix and its application in source apportionment of air pollution in Singapore | |
Gualtieri et al. | The role of emissions and meteorology in driving CO 2 concentrations in urban areas | |
CN114814092A (zh) | 基于bp神经网络的ip指标测量方法 | |
CN108982402A (zh) | 一种同类有机污染物对环境危害性的预测方法及系统 | |
Tso et al. | State tagging for improved earth and environmental data quality assurance | |
CN111062118B (zh) | 一种基于神经网络预测分层的多层软测量建模系统及方法 | |
Orellana et al. | Discovering patterns of time association among air pollution and meteorological variables | |
Li et al. | Sensor fault localization with accumulated residual contribution rate for bridge SHM | |
CN111126694A (zh) | 一种时间序列数据预测方法、系统、介质及设备 | |
CN117033355B (zh) | 一种基于大数据的实验室数据有效性分析方法 | |
Saritha et al. | Determination of Crisis on Climatic Fluctuations and Smog Deterioration by Categorizing the Condition Using Predictive Analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |