CN115691691A

CN115691691A - 一种基于机器学习的新污染物反应活性预测方法

Info

Publication number: CN115691691A
Application number: CN202211540751.3A
Authority: CN
Inventors: 周石庆; 黄苑曦; 卜令君; 祝淑敏; 施周
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-12-03
Filing date: 2022-12-03
Publication date: 2023-02-03

Abstract

本发明公开了一种基于机器学习的新污染物反应活性预测方法，属于机器学习算法技术领域。本发明着重关注建模过程中输入特征和机器学习算法（ML）的选择，基于现有数据，构建了基于多阶段特征增强分析（MFEA）的简单机器学习（ML）模型，以预测硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）对具有结构多样性的新兴污染物（CECs）的反应性。所构建的模型分为分类分析和回归分析两个阶段，以分子指纹为输入特征，使用对比分析不同的算法来训练模型，以提高反应速率常数（k值）预测的准确性。同时，本发明还设计UV₂₅₄光解实验以验证本模型。

Description

一种基于机器学习的新污染物反应活性预测方法

技术领域

本发明涉及机器学习算法技术领域，尤其涉及一种基于机器学习的新污染物反应活性预测方法。

背景技术

紫外高级氧化工艺（AOPs）是在水处理和污水处理中，去除新兴污染物（CECs）的有效方法。在过去数十年中，基于羟基自由基（HO^•）的AOPs受到了广泛的专注。然而，近期的研究显示，基于硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的AOPs有潜力替代HO^•。SO₄ ^•−和CO₃ ^•−比HO^•更具选择性，并倾向于与给电子取代基按照二级反应动力学反应。

反应速率常数（k值）是化学反应的基本参数，实验和理论化学都着重关注其测定准确性。自由基对CECs的反应速率常数（k值）可能会影响自由基介导过程中CECs的去除和环境持久性。大部分的反应速率常数（k值）都是未知并难以测出的。目前反应速率常数的常用测定方法包括数学计算法和仪器测量法两种类型，其中数学计算法包括稳态法和竞争动力学法。仪器测量法包括脉冲辐射分解和激光闪光光解法。

目前，许多基于定量构效关系（QSAR）的模型已成功预测不同CECs的反应速率常数（k值），它用不同的建模方法建立了化学活性与分子结构参数之间的数学关系。根据以前的研究，分子描述符（MD）结合多元线性回归（MLR）已被广泛用于QSAR建模中，用于预测反应速率常数（k值）。然而，MD的选择具有一定的主观性，其测定有时需要复杂的量子化学计算。MLR也不适用于复杂和非线性关系，否则可能会影响模型的拟合优度。

机器学习（ML）也逐渐在水环境化学领域引起关注。ML辅助的QSAR模型可以通过各种机器学习算法（ML）对分子性质进行越来越精确的预测，使用的算法包括随机森林（RF）、神经网络（NN）和支持向量机（SVM）算法。将分子指纹（MFs）作为输入特征以简化流程。由于大部分的反应速率常数（k值）都是未知并难以测出的，在这种样本数量较少的情况下，预测结果可能不尽人意，即过拟合或欠拟合；例如文献“Machine Learning-Assisted QSARModels on Contaminant Reactivity Toward Four Oxidants: Combining Small DataSets and Knowledge Transfer. Environ. Sci. Technol. 2022, 56 (1), 681-692.”中公开的一种技术方案，其由于缺乏足够的数据，其构建的ML辅助QSAR模型在HClO、O₃和ClO₂的反应性预测中的最优Rtest2分别仅为0.60、0.45和0.47。为了解决上述问题，本发明提出了一种基于机器学习的新污染物反应活性预测方法。

发明内容

本发明目的在于解决现有预测方法对检测仪器具有依赖性，成本较高，操作麻烦、费时费力且使用范围有限的问题而提出的一种基于机器学习的新污染物反应活性预测方法，本发明着重关注建模过程中输入特征和机器学习算法（ML）的选择，基于现有数据，构建了基于多阶段特征增强分析（MFEA）的简单ML模型以预测硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）对具有结构多样性的新兴污染物（CECs）的反应性。

为了实现上述目的，本发明采用了如下技术方案：

一种基于机器学习的新污染物反应活性预测方法，包括以下步骤：

S1、从现有文献收集硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的反应速率常数（k值），取对数，并将结果分为三个等级；然后将80%的数据组成训练集，将20%的数据组成测试集；

S2、利用特征选择方法（分子指纹），将硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）分别以166位和1024位二进制数字的形式输入；

S3、计算出分类分析中不同输入特征和不同算法下的精度和面积，经过对训练集的5倍交叉后，硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）各得到6组数据；比较各组训练集和测试集的结果，选出硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的最优算法和特征选择方法，并预测反应速率常数（k值）的等级；

S4、将S3中所选出的最优特征选择方法和预测的反应速率常数（k值）的等级组合在一起作为回归分析的输入特征，计算出回归分析中同一输入特征下不同算法的均方根误差（RMSE）和决定系数（R²）值，经过对训练集的5倍交叉验证后，硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）各得到3组数据；比较每组训练集和测试集的结果，选出硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的最优算法，进一步进行特征增强，构建能预测反应速率常数（k值）的回归模型。

优选地，所述S1中提到的对数所划分的三个等级，具体为：等级1为logk<7，等级2为logk在7-9之间，等级3为logk>9。

优选地，所述S2中提到的特征选择方法具体为MACCS和ECFPs两种方法；所述S3中使用的算法包括有随机森林算法（RF）、神经网络算法（NN）和支持向量机算法（SVM）。

优选地，所述S3中，以MACCS为输入特征，使用支持向量机算法（SVM）来预测硫酸根基（SO₄ ^•−）的反应速率常数（k值）的等级；以ECFP为输入特征，使用随机森林算法（RF）来预测碳酸根基（CO₃ ^•−）的反应速率常数（k值）的等级。

优选地，所述S4中构建所得的能预测反应速率常数（k值）的回归模型使用基于MACCS选择特征的随机森林算法（RF）预测硫酸根基（SO₄ ^•−）的反应速率常数（k值），使用基于ECFPs选择特征的支持向量机算法（SVM）预测碳酸根基（CO₃ ^•−）的反应速率常数（k值）。

优选地，所述S4中构建所得的能预测反应速率常数（k值）的回归模型使用SHapleyAdditive Explanations（SHAP）解释分类和回归建模中的相关分子结构特征；使用哈密特常数（∑σp +）解释取代基的电子效应与反应速率常数（k值）之间的关系。

优选地，所述S4中构建所得的能预测碳酸根基（CO₃ ^•−）的反应速率常数（k值）的回归模型的使用范围通过谷本系数确定，具体为：通过比较测试集的化合物和训练集的化合物之间的相似性确定谷本系数的预设阈值；若计算出的谷本系数高于预设阈值，则测试的化合物在适用性域内，预测可靠；否则，预测是不可靠的。

优选地，所述S3、S4为多阶段特征加强分析，二者之间为递进关系，以提高反应速率常数（k值）的准确性。

与现有技术相比，本发明提供了一种基于机器学习的新污染物反应活性预测方法，具备以下有益效果：

（1）本发明提出了一种基于机器学习的新污染物反应活性预测方法，利用该方法构建了能预测反应速率常数（k值）的回归模型，该模型通过使用基于MACCS选择特征的随机森林算法（RF）预测硫酸根基（SO₄ ^•−）的反应速率常数（k值），通过使用基于ECFPs选择特征的支持向量机算法（SVM）预测碳酸根基（CO₃ ^•−）的反应速率常数（k值）。该方法不仅成本低廉、简便而快速，而且节省大量的人力、物力和财力；该模型既有统计意义又有化学意义。

（2）本发明结合所提出的基于机器学习的自由基反应速率常数预测方法及能预测反应速率常数（k值）的回归模型，基于MFEA方法开发了能帮助计算各种新兴污染物（CECs）的硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的反应速率常数（k值）的软件，该软件入门简单，操作方便，该软件有很好的发展前景，经过进一步改进后它能计算更多不同自由基的反应速率常数（k值），有研究基于高级氧化工艺在水处理中的动力学的潜能。

附图说明

图1为本发明提出的一种基于机器学习的新污染物反应活性预测方法的模型构建流程图；

图2为本发明提出的一种基于机器学习的新污染物反应活性预测方法的多阶段特征加强分析流程图；

图3为本发明提出的一种基于机器学习的新污染物反应活性预测方法的基于多阶段特征加强分析的反应速率预测效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

本发明着重关注建模过程中，输入特征和机器学习算法（ML）的选择。基于现有数据，本发明开发了一个基于多阶段特征增强分析（MFEA）的简单ML模型以预测硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）对具有结构多样性的CEC的反应性。模型分为分类分析和回归分析两个阶段，以分子指纹为输入特征，使用对比分析不同的算法来训练模型，以提高反应速率常数（k值）预测的准确性。同时，进行了UV254光解实验以验证本模型。此外，基于MFEA方法开发了一个名为CalRC的新型免费软件，以帮助计算各种CEC的硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的反应速率常数（k值）。

请参阅图1，具体包括以下内容：

一种基于机器学习的新污染物反应活性预测方法，包括有以下步骤：

步骤1、从大量现有文献中，收集442个硫酸根基（SO₄ ^•−）的反应速率常数（k值）和172个碳酸根基（CO₃ ^•−）的反应速率常数（k值），取对数，并分为3个等级：等级1为logk<7，等级2为logk在7-9之间，等级3为logk>9。将80%的数据组成训练集，20%组成测试集，即分类分析中，硫酸根基（SO₄ ^•−）训练集数据为346个，测试集数据个数为87个；碳酸根基（CO₃ ^•−）训练集数据为137个，测试集数据个数为35个。回归分析中，硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）训练集数据均为355个，测试集数据个数为均89个。

步骤2、分子指纹即为特征选择方法，具体指利用MACCS和ECFPs两种方法，将硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）分别以166位和1024位二进制数字的形式输入。

如图2所示，本发明中模型的构建分为分类分析和回归分析两个阶段，二者为多阶段特征加强分析，递进关系，以提高反应速率常数（k值）的准确性，具体内容如下：

步骤3、在分类分析中计算出两种不同输入特征（MACCS和ECFPs）和三种不同算法（随机森林算法（RF）、神经网络算法（NN）和支持向量机算法（SVM））的接收者操作特征曲线（AUC-ROC）下的精度和面积，经过对训练集的5倍交叉验证后，硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）各可得到6组数据。比较每组训练集和测试集的结果，选出硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的最优算法和最优的分子指纹，并预测反应速率常数（k值）的等级。以MACCS为输入特征，使用支持向量机算法（SVM）来预测硫酸根基（SO₄ ^•−）的反应速率常数（k值）的等级。以ECFP为输入特征，使用随机森林算法（RF）来预测碳酸根基（CO₃ ^•−）的反应速率常数（k值）的等级。

步骤4、将所选分子指纹（硫酸根基（SO₄ ^•−）为MACCS，碳酸根基（CO₃ ^•−）为ECFPs）和分类模型预测的反应速率常数（k值）的等级，组合在一起用作回归分析的输入特征，计算出回归分析中同一输入特征下不同算法（随机森林（RF）、神经网络（NN）和支持向量机（SVM））的均方根误差（RMSE）和决定系数（R²）值，经过对训练集的5倍交叉验证后，硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）各可得到3组数据。比较每组训练集和测试集的结果，选出硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的最优算法，从而进行特征增强，构建能预测反应速率常数（k值）的回归模型。硫酸根基（SO₄ ^•−）使用基于MACCS选择特征的随机森林算法（RF）预测的反应速率常数（k值）；碳酸根基（CO₃ ^•−）使用基于ECFPs选择特征的支持向量机算法（SVM）预测的反应速率常数（k值）。

步骤4中所构建的模型可以用SHapley Additive Explanations（SHAP）解释分类和回归建模中的相关分子结构特征。用哈密特常数（∑σp +），解释取代基的电子效应与反应速率常数（k值）之间的关系。

模型的使用范围通过谷本系数确定。通过比较测试集的化合物和训练集的化合物之间的相似性确定谷本系数的预设阈值。如果计算出的谷本系数高于预设阈值，则测试的化合物在适用性域内，预测可靠;否则，预测是不可靠的。

利用上述所构建的模型预测硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的反应速率常数（k值）；同时设计UV₂₅₄光解实验，选用敌畏龙、双酚A（BPA）、阿特拉津（ATZ）和磺胺嘧啶（SDZ）作为CECs。4种CEC的初始浓度为5μM，用磷酸盐缓冲液（2 mM）将溶液pH调节至7.0。在紫外灯下照射5分钟，并在0min、1min、2min、3min和5min分别取样。将模型预测所得的反应速率常数（k值）与实验测出的反应速率常数（k值）进行对比，其结果如图3所示。

（a）图是实验结果与以MACCS为输入特征，使用随机森林算法（RF）的模型预测的硫酸根基（SO₄ ^•−）的反应速率常数（k值）的相关性。条形图是模型预测的log反应速率常数（k值）与实验得到的log反应速率常数（k值）的分布图，点状图是模型构建时训练集与测试集的log反应速率常数（k值）分布图，表中数据是训练集和测试集的决定系数（R²）值。

从条形图可以看出，实验得到的logk分布在6~11之间，主要集中在9~10之间。该模型预测的logk分布在6~11之间，与实验数据相符，主要集中在9~10之间，与实验数据相符。

从点状图可以看出圆形的训练集数据和三角形的测试集数据分布大致相似，呈线性分布。数据显示，R² _train = 0.903，R² _test = 0.888，两者十分接近，说明模拟效果好。

（b）图是实验结果与以ECFP为输入特征，使用支持向量机算法（SVM）的模型预测的碳酸根基（CO₃ ^•−）的反应速率常数（k值）的相关性。条形图是模型预测的log反应速率常数（k值）与实验得到的log反应速率常数（k值）的分布图，点状图是模型构建时训练集与测试集的分布图，表中数据是训练集和测试集的决定系数（R²）值。

从条形图可以看出，实验得到的logk分布在6~8之间，主要集中在7左右。该模型预测的logk分布在6~8之间，与实验数据相符，主要分布在6~7之间，与实验数据相似。

从点状图可以看出圆形的训练集数据和三角形的测试集数据分布大致相似，呈线性分布。数据显示，R² _train = 0.887，R² _test = 0.864，两者十分接近，说明模拟效果好。

实施例2：

基于实施例1但有所不同之处在于，

本发明基于所提出的基于机器学习的自由基反应速率常数预测方法及构建的能预测反应速率常数（k值）的回归模型，利用MFFA方法开发了一个名为CalRC的新型免费软件，以帮助计算各种CEC的硫酸根基（SO₄ ^•−）和碳酸根基（CO₃ ^•−）的反应速率常数（k值）。

相较于市面上现有的同类型软件，CalRC软件入门简单，只需要输入CEC的名称并选择相应的根式即可获得查询反应速率常数（k值）。输入CEC的名称也能查询其基本信息，包括分子式、SMILES、分子量和CAS。使用SMILES，还可以获得MD，如分子指纹等，包括MACCS，ECFP-1024 /2048和RDK MF。用户还可以上传包含多个CEC名称的Excel文件，以同时获得它们的反应速率常数（k值）和分子性质。此外，CalRC还提供简单的数据预处理服务，如删除低方差和高相关性数据。该软件有很好的发展前景，经过进一步改进后它能计算更多不同自由基的反应速率常数（k值），有研究基于高级氧化工艺在水处理中的动力学的潜能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习的新污染物反应活性预测方法，其特征在于，包括以下步骤：

S1、从现有文献收集硫酸根基和碳酸根基的反应速率常数，取对数，并将结果分为三个等级；然后将80%的数据组成训练集，将20%的数据组成测试集；

S2、利用特征选择方法，将硫酸根基和碳酸根基分别以166位和1024位二进制数字的形式输入；

S3、计算出分类分析中不同输入特征和不同算法下的精度和面积，经过对训练集的5倍交叉后，硫酸根基和碳酸根基各得到6组数据；比较各组训练集和测试集的结果，选出硫酸根基和碳酸根基的最优算法和特征选择方法，并预测反应速率常数的等级；

S4、将S3中所选出的最优特征选择方法和分类模型预测的反应速率常数的等级组合在一起作为回归分析的输入特征，计算出回归分析中同一输入特征下不同算法的均方根误差和决定系数值，经过对训练集的5倍交叉验证后，硫酸根基和碳酸根基各得到3组数据；比较每组训练集和测试集的结果，选出硫酸根基和碳酸根基的最优算法，进一步进行特征增强，构建能预测反应速率常数的回归模型。

2.根据权利要求1所述的一种基于机器学习的新污染物反应活性预测方法，其特征在于，所述S1中提到的对数所划分的三个等级，具体为：等级1为logk<7，等级2为logk在7-9之间，等级3为logk>9。

3.根据权利要求1所述的一种基于机器学习的新污染物反应活性预测方法，其特征在于，所述S2中提到的特征选择方法具体为MACCS和ECFPs两种方法；所述S3中使用的算法包括有随机森林算法、神经网络算法和支持向量机算法三种算法。

4.根据权利要求1所述的一种基于机器学习的新污染物反应活性预测方法，其特征在于，所述S3中，以MACCS为输入特征，使用支持向量机算法来预测硫酸根基的反应速率常数的等级；以ECFPs为输入特征，使用随机森林算法来预测碳酸根基的反应速率常数的等级。

5.根据权利要求1所述的一种基于机器学习的新污染物反应活性预测方法，其特征在于，所述S4中构建所得的能预测反应速率常数的回归模型使用基于MACCS选择特征的随机森林算法预测硫酸根基的反应速率常数，使用基于ECFPs选择特征的支持向量机算法预测碳酸根基的反应速率常数。

6.根据权利要求1所述的一种基于机器学习的新污染物反应活性预测方法，其特征在于，所述S4中构建所得的能预测反应速率常数的回归模型使用SHapley AdditiveExplanations解释分类和回归建模中的相关分子结构特征；使用哈密特常数解释取代基的电子效应与反应速率常数之间的关系。

7.根据权利要求1所述的一种基于机器学习的新污染物反应活性预测方法，其特征在于，所述S4中构建所得的能预测反应速率常数的回归模型的使用范围通过谷本系数确定，具体为：通过比较测试集的化合物和训练集的化合物之间的相似性确定谷本系数的预设阈值；若计算出的谷本系数高于预设阈值，则测试的化合物在适用性域内，预测可靠；否则，预测是不可靠的。