CN113722988B

CN113722988B - 定量构效关系模型预测有机物pdms膜-空气分配系数的方法

Info

Publication number: CN113722988B
Application number: CN202110947939.9A
Authority: CN
Inventors: 朱腾义; 陶翠翠; 陶天云
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2024-01-26
Anticipated expiration: 2041-08-18
Also published as: CN113722988A

Abstract

本发明公开了一种定量构效关系模型预测有机物PDMS膜‑空气分配系数的方法，包括以下步骤：1）数据收集；2）模型构建：搜集化合物的分子结构，优化后计算分子描述符，对描述符预处理，以预处理后的描述符为自变量，使用随机森林算法建立初始QSPR模型；计算描述符的均方误差，按照重要性排序，执行五次10折交叉验证得到误差之间的关系，选取最小的描述符个数为理想变量个数，筛选出最终描述符；通过梯度提升决策树回归算法建立QSPR模型；步骤3）模型验证及应用域表征，本发明能有效地预测应用域内有机化合物的PDMS膜/空气分配系数，为环境化合物的监测和被动采样器的应用提供必要的基础数据，具有重大意义。

Description

定量构效关系模型预测有机物PDMS膜-空气分配系数的方法

技术领域

本发明涉及环境检测技术领域，特别涉及一种有机物PDMS膜-空气分配系数预测方法。

背景技术

持久性有机物具有生物累积性、毒性和远距离运输能力，会加剧生态危机，对人类的健康造成危害，因此对这些污染物的监测和风险评价具有重要意义。膜被动采样技术在测量空气中的有机污染物浓度方面比传统的主动采样技术更容易实施，技术门槛更低、节能更多、成本更低。其中，由于PDMS膜具有良好的吸收保留率、高渗透性和非常好的热稳定性，成为应用广泛的被动采样材料之一。

持久性有机污染物在PDMS与空气中的平衡分配系数（K _PDMS-air）是被动采样测量持久性有机污染物浓度的关键参数，也是衡量被动采样器性能和准确计算有机物空气中浓度的重要指标。然而，实验室测量K _PDMS-air值容易受温度、风速等条件的影响，且实验测量费力、费时且昂贵，难以满足数量庞大且日益增长的有机污染物环境监测和管理的需求，因此发展简便而准确的理论预测方法用于估算有机物的K _PDMS-air显得尤为重要。

定量结构-性质关系（QSPR）通过分子结构描述符计算有机化合物的物理化学性质、环境行为和生态毒理性。这种方法可以洞察影响化学物质物化特性的主要内部因素，能够减少或替代相关实验，弥补实验数据的缺失、降低实验费用。目前有关预测有机物的K _PDMS-air研究方法较少，特别是关于非线性方法的研究，且现有模型中研究的物质较为单一数量少，模型的预测精度也需进一步提高。考虑到各类有机物的环境分配行为是一个复杂的过程，分配系数可能涉及到一些非线性关系，因此，有必要构建一个涵盖多种化合物、具有明确算法、便于应用推广且不依赖实验数据的K _PDMS-air非线性预测模型，并依照OECD导则对模型进行验证和表征。

发明内容

针对现有技术中存在的不足，本发明提供了一种定量构效关系模型预测有机物PDMS膜-空气分配系数的方法，可以直接根据有机化合物的分子结构描述符快速有效的预测其K _PDMS-air值，进而了解目标化合物的迁移和归趋，为化合物的生态风险评价和管理提供必要的基础数据。

本发明的目的是这样实现的：一种定量构效关系模型预测有机物PDMS膜-空气分配系数的方法，包括以下步骤：

步骤1）数据收集：收集多种有机化合物的聚二甲基硅氧烷-空气分配系数的对数值log K _PDMS-air，使用Pauta准则对数据进行分析、去除异常值后划分训练集和测试集；

步骤2）模型构建：

2-1）搜集化合物的分子结构，对其优化后计算化合物的分子描述符，首先对描述符进行预处理，之后以预处理后的描述符为自变量，使用随机森林算法建立初始QSPR模型；

2-2）计算每个描述符的均方误差增加百分比以衡量描述符的重要性，其中百分比越高代表重要性越高，按照描述符重要性对其进行降序排序，执行五次10折交叉验证得到用于拟合的最重要描述符数量与平均交叉验证误差之间的关系，选取平均交叉验证误差最小的描述符个数为理想的变量个数，筛选出最终描述符；

2-3）通过梯度提升决策树回归算法建立预测log K _PDMS-air值的QSPR模型，使用网格搜索选取最优超参数，构建基于RF-GBDT算法的QSPR模型；

步骤3）模型验证及应用域表征：对模型的拟合度、稳健性和外部预测能力进行验证并通过Williams图对模型应用域进行表征。

作为本发明的进一步限定，步骤1）中的有机化合物包括醇类、醛类和酮类、脂肪烃和环烃、苯、酯类、醚类、卤代脂肪烃、单核芳烃、氮化合物和硫化物、多环芳烃、多氯联苯和农药。

作为本发明的进一步限定，步骤1）中划分训练集和测试集具体为：将处理后的数据按log K _PDMS-air值升序排列，5个数据分为一组，每组的第五个数据放入测试集，其余数据组成训练集；训练集中的数据用于模型的建立和内部验证，测试集中的数据则用于模型的外部验证和性能评估。

作为本发明的进一步限定，步骤2-3）中使用网格搜索选取最优超参数具体为：对基础决策树的数量（n.trees）、每棵基础决策树所包含的最大深度（interaction.depth）、学习速率（shrinkage）和每棵基础树中叶节点所包含的最小样本量（n.minobsinode）这几个超参数进行了网格搜索，以使得平均绝对误差最小的参数组合为最佳参数组合。

与现有技术相比，本发明的有益效果在于：

1）在数据处理方面，通过使用Pauta准则对数据进行分析、去除异常值的方式在异常值与误差之间设置明确的界限，并去除数据的异常值，提高模型的预测精度；在描述符筛选方面，步骤2-1）中采用的随机森林算法能够有效地运行在大数据集上，解决了处理高维特征的输入变量产生的过度拟合问题；在建立初始随机森林模型后，可以通过计算各描述符的均方误差增加百分比（%IncMSE）表征每个描述符在随机森林中的每棵树上的贡献度的均值，科学、高效地评估各个特征的重要性，从高维变量中筛选出最重要的描述符用于建模；在建模方面，针对PDMS膜/空气分配系数，对比常规的MLR、LASSO、ANN、SVM等算法，只有本发明采用的RF-GBDT（随机森林-梯度提升决策树）算法，能够高效排除数据集中的异常情况，避免人为主观意识，科学、快速地从含杂质的大数据集中提取重要信息，解决处理高维特征的输入变量产生的过度拟合问题；进而得到预测精度高、拟合度良好、稳定性强的QSPR模型；

2）本发明可以快速有效地预测多种有机化合物的PDMS膜/空气分配系数；该发明涉及的QSRR模型的建立和验证严格依照OECD规定的QSPR模型构建和使用的导则，准确可靠，可以有效获取物质的K _PDMS-air值，为化学品监管工作提供重要的基础数据，并对生态风险评价具有重要的指导意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例数据集log K _PDMS-air的实验值和预测值的拟合图。

图2为本发明实施例表征模型应用域的Williams图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种定量构效关系模型预测有机物PDMS膜-空气分配系数的方法，包括以下步骤。

步骤1）数据收集：收集温度为298K的198种有机化合物的log K _PDMS-air值，其中有机化合物包括醇类、醛类和酮类、脂肪烃和环烃、苯、酯类、醚类、卤代脂肪烃、单核芳烃、氮化合物和硫化物、多环芳烃、多氯联苯、农药和其他化合物这13类化合物；对于含有多条logK _PDMS-air数值记录的有机化合物，剔除明显偏离整体数值的数据，取其平均值进行模型的构建研究；使用Pauta准则对数据进行分析、去除异常值；将收集到的数据按log K _PDMS-air值升序排列，5个数据分为一组，每组的第五个数据放入测试集，其余数据组成训练集；训练集中的数据用于模型的建立和内部验证，测试集中的数据则用于模型的外部验证和性能评估。

步骤2）模型构建：搜集198种化合物的分子结构，使用分子力学的方法对其进行优化后，计算化合物的分子描述符；首先去除常数、接近常数、缺失和相关性大于0.95的描述符；之后以预处理后的描述符为自变量，基于随机森林算法建立初始QSPR模型；最终，计算每个描述符的均方误差增加百分比（%IncMSE）以衡量描述符的重要性，按照描述符重要性对其进行降序排序，执行五次10倍交叉验证得到用于拟合的最重要描述符数量与平均交叉验证误差之间的关系，选取平均交叉验证误差最小的描述符个数为理想的变量个数，保留前4个最重要的描述符（Wi_B(m)、ZM2Mad、ECC和HyWi_B(e)）可以获得理想的回归结果；其中，Wi_B(m)是质量加权负荷矩阵的类维纳指数；ZM2Mad是由Madan顶点度定义的第二个Zagreb指数；ECC是偏心率；HyWi_B(e)是由Sanderson电负性加权的负荷矩阵得到的超维纳指数（log函数）；

以最终描述符为自变量，通过梯度提升决策树回归算法建立预测log K _PDMS-air值的QSPR模型；对n.trees、interaction.depth、shrinkage和n.minobsinode这几个超参数进行了网格搜索，以使得平均绝对误差最小的参数组合为最佳参数组合（n.trees = 375，interaction.depth = 2，shrinkage = 0.1，n.minobsinode = 5）；以最终描述符为自变量，设置超参数组合为最佳参数组合，通过梯度提升决策树回归算法建立预测log K _PDMS-air值的最优QSPR模型。

步骤3）模型验证：用R2 adj和RMSE _tra表征模型拟合度；用Q2 LOO和Q2 BOOT表征模型稳健性；用R2 ext、Q2 ext和CCC表示模型外部预测能力；判定依据：R ² > 0.7，Q ² > 0.6，R ² - Q ² < 0.3，CCC > 0.85；具体参数如下所示：

n _tra= 157, R2 adj= 0.986, Q2 LOO= 0.943, Q2 BOOT= 0.973, RMSE _tra=0.247;

n _ext= 41, R2 ext= 0.925, Q2 ext = 0.923, CCC = 0.960.

其中，n _tra和n _ext分别是训练集和测试集中的化合物数量，R2 adj为0.986，RMSE _tra为0.247，表明模型具有较高的线性拟合能力；内部验证系数Q2 LOO为0.943, Q2 BOOT为0.973，表明发展的模型具有较好的稳健性；外部验证的R2 ext= 0.925, Q2 ext = 0.923,CCC = 0.960，表明模型具有较好的预测能力。图1给出模型的拟合程度及验证结果；

采用基于标准残差（δ）对杠杆值（h_i）的Williams图对模型的应用域进行表征（图2）。通过公式计算得到模型的h^*为0.0769，因此，该模型适用于对h_i小于0.0769的化合物logK _PDMS-air的值的预测。

一定范围内的数据误差不仅对模型影响不大，而且会提高模型的应用域。然而，如果算法对异常点（化合物的分子结构与数据集中大多数化合物的分子结构差异较大的点）敏感，那么模型的预测会不准确；因此，在建模前应去除数据中的异常值；衡量数据是异常值还是误差的度量在很大程度上影响模型的性能；本发明基于Pauta准则，大于μ±3δ的数据点为异常值，反之为可接受的误差。

考虑到特征描述符的高维性，如何从原始变量中选择最重要的特征用于建模变得越来越重要；对于庞大且复杂的数据集，以往常用MLR算法筛选描述符，但这种方法纳入高度相关的描述符，导致模型复杂度增加，丢失重要描述符；而且这种方法依靠人为主观意识，不具备科学性；而随机森林算法能够有效地运行在大数据集上，处理高维特征的输入变量而不易过度拟合。在随机森林算法（Random Forest）构建模型后，利用均方误差增加百分比（%IncMSE）表征每个特征在随机森林中的每棵树上贡献度的均值，科学、高效地评估各个特征的重要性，从高维变量中筛选出最重要的特征用于建模。

为了排除数据集中的异常情况、科学有效地筛选描述符、减少调参时间、避免过度拟合、解决预测误差问题，本发明尝试以随机森林算法筛选描述符，结合ANN、SVM、SVR、LASSO等算法预测K _PDMS-air，发现得到的模型存在受异常点影响过大、过度拟合的问题，导致得到的预测值与实测值存在较大的误差；而只有本发明中随机森林算法结合梯度提升决策树算法（RF-GBDT）建立的QSPR模型可以很好地解决这些问题，进而得到预测精度高、简单、透明的QSPR预测模型。

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

实施例1：2,2-二甲基己烷（CAS号：590-73-8）：首先根据CAS号，获取化合物的分子结构；再使用MM2分子力学的方法将分子结构优化；然后，计算分子描述符Wi_B(m)、ZM2Mad、ECC和HyWi_B(e)，分别为15.4210、30.0000、34.0000和2.8112；接着，根据计算公式得到该物质的的h值是0.0090（<0.0769），说明此化合物在本发明的模型应用域内；最后，将上述描述符的值带入所建模型，得到其log K _PDMS-air预测值为2.87，与其实验测定的log K _PDMS-air值（2.83）非常接近，拟合效果好。

实施例2：3-甲基庚烷（CAS号：589-81-1）：首先根据CAS号，获取化合物的分子结构；再使用MM2分子力学的方法将分子结构优化；然后，计算分子描述符Wi_B(m)、ZM2Mad、ECC和HyWi_B(e)，分别为15.3210、27.0000、38.0000和2.8019；接着，根据计算公式得到该物质的的h值是0.0094（<0.0769），说明此化合物在本发明的模型应用域内；最后，将上述描述符的值带入所建模型，得到其log K _PDMS-air预测值为3.05，与其实验测定的log K _PDMS-air值（3.04）非常接近，拟合效果好。

实施例3：4-氯甲苯（CAS号：106-43-4）：首先根据CAS号，获取化合物的分子结构；再使用MM2分子力学的方法将分子结构优化；然后，计算分子描述符Wi_B(m)、ZM2Mad、ECC和HyWi_B(e)，分别为19.5202、47.7585、30.0000和2.9921；接着，根据计算公式得到该物质的的h值是0.0077（<0.0769），说明此化合物在本发明的模型应用域内；最后，将上述描述符的值带入所建模型，得到其log K _PDMS-air预测值为3.56，与其实验测定的log K _PDMS-air值（3.55）非常接近，拟合效果好。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种定量构效关系模型预测有机物PDMS膜-空气分配系数的方法，其特征在于，包括以下步骤：

步骤1）数据收集：收集多种有机化合物的聚二甲基硅氧烷-空气分配系数的对数值logK _PDMS-air，使用Pauta准则对数据进行分析、去除异常值后划分训练集和测试集；

步骤2）模型构建：

2.根据权利要求1所述的定量构效关系模型预测有机物PDMS膜-空气分配系数的方法，其特征在于，步骤1）中的有机化合物包括醇类、醛类和酮类、脂肪烃和环烃、苯、酯类、醚类、卤代脂肪烃、单核芳烃、氮化合物和硫化物、多环芳烃、多氯联苯和农药。

3. 根据权利要求1所述的定量构效关系模型预测有机物PDMS膜-空气分配系数的方法，其特征在于，步骤1）中划分训练集和测试集具体为：将处理后的数据按log K _PDMS-air值升序排列，5个数据分为一组，每组的第五个数据放入测试集，其余数据组成训练集；训练集中的数据用于模型的建立和内部验证，测试集中的数据则用于模型的外部验证和性能评估。

4.根据权利要求1所述的定量构效关系模型预测有机物PDMS膜-空气分配系数的方法，其特征在于，步骤2-3）中使用网格搜索选取最优超参数具体为：对基础决策树的数量、每棵基础决策树所包含的最大深度、学习速率和每棵基础树中叶节点所包含的最小样本量进行了网格搜索，以使得平均绝对误差最小的参数组合为最佳参数组合。