CN114509556A

CN114509556A - 一种预测场地重金属污染物浓度的方法

Info

Publication number: CN114509556A
Application number: CN202210023486.5A
Authority: CN
Inventors: 刘保顺; 王津; 张永红; 王化军; 姚瑞兰
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-05-17
Anticipated expiration: 2042-01-10
Also published as: CN114509556B

Abstract

本发明公开了一种预测场地重金属污染物浓度的方法，包括：采集场地土壤样品，构建场地三维模型并获取学习样本数据；构建RBF神经网络模型，并采用PSO算法优化RBF神经网络模型的参数，之后利用优化的RBF神经网络模型预测场地重金属污染物浓度。本发明采用三维建模方法对待预测场地土壤进行样本采集，能够充分考虑到进入场地土壤中的重金属污染物因地层分布的不同而产生不同程度的水平与垂直迁移的可能性；通过构建PSO‑RBF神经网络模型，可同时优化多组可能的解，最后在多组可能的解中选择最接近真实解的一组作为最终解，在提高模型预测准确性的同时大大减少优化过程的计算量，提高了模型整体性能。

Description

一种预测场地重金属污染物浓度的方法

技术领域

本发明涉及场地污染评估技术领域，特别涉及一种三维模型下基于PSO-RBF神经网络预测场地重金属污染物浓度的方法。

背景技术

土壤环境是当前中国经济高质量发展和生态文明建设的物质基础，它承载着人类的生存和发展。土壤重金属污染是目前土壤环境治理中的重要内容，基于有限的采样点如何能更加准确地估算出土壤中重金属的浓度、掌握其在土壤中的空间分布特征，是场地污染评估时面临的重要问题。

目前对于场地重金属污染物预测方法中与三维模型结合的多是采用空间插值算法，其中普通克里格插值方法是当下最为常用的一种技术方法。但在实际应用过程中，场地污染物的数据分布有时很难满足克里格插值要求的某些条件假设；普通克里格法对未知区域估值时存在一定的平滑效应，即将数值较低的部分过高估算，而将数值较高的部分过低估算。此外，克里格插值是一种定义在空间有限域上的算法，在实际应用中常会涉及计算区域选取的问题，对于分布不均匀的样本点使用该方法时，会影响预测效率与精度。

机器学习方法为预测场地污染物浓度提供了新的途径，但目前采用机器学习预测重金属污染物的方法中，对于土壤样本数据的采集大多数基于二维空间。然而地质现象发生在三维甚至四维空间(加上时间维度)，因此如果仅基于二维空间仅在表层土壤进行样本采集，并未考虑到重金属污染物可能会通过渗透性较好的土层或随地下水垂直迁移的可能性，样点采集问题同样也会在一定程度上影响到预测结果。

在径向基(RBF)神经网络训练过程中，关键是对神经网络中心c、宽度σ和权值w等三个参数的学习，参数选取不当将直接影响到网络模型性能。常见的参数优化方法具有一定局限性：(1)随机选择法：简单易操作，但也因其随机性导致最终预测准确率易出错，且样本数量越多误差越大；(2)梯度下降法：耗时长，且可能无法达到理想的全局最优点或在最值周围震荡。

发明内容

针对上述问题，本发明的目的在于提供一种预测场地重金属污染物浓度的方法，将三维模型与RBF神经网络相结合，用PSO优化RBF模型参数，从而准确预测场地重金属污染物的浓度。

为解决上述技术问题，本发明的实施例提供如下方案：

一种预测场地重金属污染物浓度的方法，包括以下步骤：

S1、采集场地土壤样品，构建场地三维模型并获取学习样本数据；

S2、构建RBF神经网络模型，并采用PSO算法优化RBF神经网络模型的参数，之后利用优化的RBF神经网络模型预测场地重金属污染物浓度。

优选地，步骤S1中，所述采集场地土壤样品具体包括：

根据专业判断布点和网格布点相结合的原则，在场地钻探取样，按照钻孔编录的方法，记录钻孔的开孔坐标、测斜数据、岩性数据和化验数据。

优选地，步骤S1中，所述构建场地三维模型具体包括：

建立实体模型：利用场地钻孔采样数据，在Surpac中建立地质数据库；在勘探线剖面上按照不同岩性分别用线框将不同的钻孔圈在一起，在每个剖面上形成线框模型；将不同剖面上相同岩性的线框相连，并用三角网充填，形成不同岩性的实体模型；

建立块体模型：根据勘探线网度，在实体模型基础上建立各个岩性的块体模型，将场地分割成许多小的块体；在水平方向上，块的尺寸为勘探间距的1/3～1/5；在垂直方向上，块的尺寸为组合样长的2～3倍；块体模型中增加重金属名称属性，用于存储重金属的浓度；通过块体模型获取各岩性的块体质心大地坐标位置，再标注作业区域，将这些质心信息组合即为待预测数据集，缺失的质心重金属浓度数据即为待预测块体重金属浓度。

优选地，步骤S1中，所述获取学习样本数据具体包括：

样长组合：获取穿过不同岩性的钻孔采样数据，统计其样长的分布，获得样长分布最多的取样长度a；将穿过不同岩性的钻孔，按照长度a进行样长组合；

获取样本数据：样长组合后得到钻孔取样点的以下信息：大地坐标位置(y，x，z)、岩性、钻孔所在的作业区域、重金属浓度，将这些信息组合成为训练RBF神经网络模型的学习样本数据集；

其中，岩性与作业区域用数字编码表示，作业区域是表示场地不同功能的区域，包括厂房、办公区域、原料和废渣堆放地。

优选地，步骤S2还包括对学习样本数据进行预处理的步骤，具体包括：

数据归一化处理：运用SPSS对学习样本数据进行归一化处理，将数据值映射到[0，1]，公式如下：

式中，Y_i为输入变量X_i归一化后的值，X_i为i点位输入变量X的测定值，X_max、X_min分别为输入变量X的最大值与最小值；

数据集划分：通过Python相关代码将学习样本数据集按8：2的比例随机划分为训练样本与验证样本。

优选地，步骤S2还包括确定输入变量与输出变量的步骤，具体包括：

将学习样本数据中不含缺失数据的因子作为RBF神经网络模型的输入变量，包括：大地坐标x、大地坐标y、大地坐标z、岩性、作业区域；重金属污染物浓度作为输出变量。

优选地，步骤S2中，所述构建RBF神经网络模型具体包括：

RBF神经网络模型为单隐层的三层前向网络；第一层为输入层，由信号源节点组成，节点数为输入样本类别数量；第二层为隐藏层，样本聚类后确定的隐藏层数据中心个数即为隐藏层节点个数；第三层为输出层，是对输入模式做出的响应，节点数为输出样本类别数量；

在RBF神经网络模型中，输入层起到传输信号作用，输入层到隐藏层之间的权值固定为1；输出层对线性权值进行调整，采用线性优化策略，输出层计算节点为线性函数，输出的隐单元的线性权值由线性方程组直接解出，并对输入模式作出响应；隐含层对激活函数的参数进行调整，采用非线性优化策略，选取高斯核函数为激活函数，具体公式如下：

式中，x代表输入向量；c_i代表隐藏层第i个节点的高斯函数的中心点；σ_i代表隐藏层第i个节点的宽度，即方差，用来调整影响半径；P为隐藏层节点数；

在RBF神经网络模型训练过程中，对于RBF神经网络模型参数的初始设置，采用K-means聚类算法依据输入样本得出基函数隐藏层节点数据中心c和隐藏层节点宽度σ，采用递推最小二乘法计算隐藏层每个节点与输出层之间的连接权值w。

优选地，步骤S2中，所述采用PSO算法优化RBF神经网络模型的参数具体包括：

初始化粒子群参数：将RBF神经网络模型节点数据中心c、节点宽度σ和连接权值w三个参数组成粒子的位置向量，并设定粒子数、位置限制、速度限制、学习因子、最大迭代次数及计算精度参数；

训练初始种群：在训练样本中选取与PSO种群数量相同的样本量，即m个粒子数作为初始种群，将粒子的位置向量映射到RBF神经网络模型中进行训练，获得预测输出值；

计算各粒子适应度值：将样本实际值与RBF神经网络模型预测输出值之间的相对误差函数RMSE作为PSO算法的适应度函数，具体公式如下：

式中：N为输入样本数，D为输出节点数，y_ij、t_ij为第i个样本第j个向量的预测输出值与实际值；适应度值最小的位置即为最优解；

评价各粒子适应度值：将粒子当前适应度值作为粒子历史最优适应度值，即获取个体极值；将初始种群中适应度值最高的粒子的适应度值作为种群历史最优适应度值，即获取全局极值；

更新粒子速度和位置，生成新种群：根据已输出的个体极值、全局极值、惯性权重和粒子的速度位置更新公式更新粒子的速度和位置，生成下一代种群；

更新个体极值和全局极值：将新生成种群各粒子位置向量再次输入到RBF神经网络模型进行训练，获得新的预测输出值，重新计算适应度值，以更新粒子历史最优适应度值和种群历史最优适应度值；

判断是否满足终止条件：若输出全局极值小于设定的计算精度，则记录种群历史最优适应度值对应的粒子位置作为结果输出，结束迭代；若输出全局极值大于或等于设定的计算精度，则返回所述更新粒子速度和位置，生成新种群的步骤，继续迭代过程，直至达到最大迭代次数后，输出全局极值对应的粒子位置。

优选地，步骤S2中，所述利用优化的RBF神经网络模型预测场地重金属污染物浓度具体包括：

将上述输出的粒子位置的最优解作为RBF神经网络模型的最优权值与阈值，利用验证样本对PSO-RBF神经网络模型进行验证，记录其预测准确率；

将待预测数据集作为PSO-RBF神经网络模型的输入变量，输出值即为预测的场地重金属污染物浓度。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明方法使用Surpac软件进行三维建模，与传统的二维地质数据表示方法相比，三维模型能够完整准确的表达各种地质现象，是三维预测的基础所在。同时，土壤是一个三维连续的实体，其空间自相关性既表现在水平方向上，也表现在垂直方向上。因此，本发明方法采用三维建模方法对待预测场地土壤进行样本采集，充分考虑到进入场地土壤中的污染物会因地层分布的不同而产生不同程度的水平与垂直迁移的可能性，实现横向联合纵向取样，并未将二者割裂。

本发明方法使用MATLAB软件构建PSO-RBF神经网络模型，与常见的与三维建模相结合的空间插值方法，尤其是与普通克里格法相比，RBF神经网络具有更好的空间预测能力，适用范围更广，预测精度更高特别是当样本数量较少时，能够避免平滑效应现象。RBF神经网络具备了前馈型神经网络的优良性能，主要体现在训练简洁、最佳逼近、鲁棒性强、学习收敛速度快、以及克服局部最小值问题等方面。同时使用PSO算法优化RBF神经网络参数，该算法可同时优化多组可能的解，最后在多组可能的解中选择最接近真实解的一组作为最终解，进行全局寻优，提高模型预测准确性；需要调节的参数较少，更易操作；加快模型收敛速度，减少预测时间。在保证模型精度的同时大大减少优化过程的计算量，提高了模型整体性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的预测场地重金属污染物浓度的方法的流程图；

图2是本发明实施例提供的构建场地三维模型并获取样本数据流程图；

图3是本发明实施例提供的构建PSO-RBF神经网络模型并预测重金属污染物浓度流程图；

图4是本发明实施例提供的RBF神经网络拓扑结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例提供了一种三维模型下基于PSO-RBF神经网络预测场地重金属污染物浓度的方法，如图1所示，所述方法包括以下步骤：

进一步地，步骤S1的详细流程如图2所示，包括以下步骤：

步骤S11，采集场地土壤样品。

为了掌握重金属在场地的空间分布规律，根据专业判断布点和网格布点相结合的原则，在场地钻探取样，按照钻孔编录的方法，记录钻孔的开孔坐标、测斜数据、岩性数据和化验数据。

步骤S12，构建场地三维模型，具体包括以下步骤：

S121，建立实体模型。本步骤中，利用场地钻孔采样数据，在Surpac中建立地质数据库；在勘探线剖面上按照不同岩性分别用线框将不同的钻孔圈在一起，在每个剖面上形成线框模型；将不同剖面上相同岩性的线框相连，并用三角网充填，形成不同岩性的实体模型。实体模型建立后需要进行有效性验证，检查三角网间是否有交叉重叠。

S122，建立块体模型。本步骤中，根据勘探线网度，在实体模型基础上建立各个岩性的块体模型，将场地分割成许多小的块体。

一般情况下，在水平方向上，块的尺寸为勘探间距的1/3～1/5；在垂直方向上，块的尺寸为组合样长的2～3倍。块体模型中需增加重金属名称属性如Cr，用于存储重金属Cr的浓度。通过该块体模型可获取各岩性的块体质心大地坐标位置，再标注作业区域，将这些质心信息组合即为待预测数据集。缺失的质心重金属浓度数据即为待预测块体重金属浓度。

步骤S13，获取学习样本数据，具体包括以下步骤：

S131，样长组合。本步骤中，获取穿过不同岩性的钻孔采样数据，统计其样长的分布，获得样长分布最多的取样长度a；将穿过不同岩性的钻孔，按照长度a进行样长组合。

S132，获取样本数据。本步骤中，样长组合后得到钻孔取样点的以下信息：大地坐标位置(y，x，z)、岩性、钻孔所在的作业区域、重金属浓度，将这些信息组合成为训练RBF神经网络模型的学习样本数据集。

其中，岩性与作业区域用数字编码表示，以方便后续操作。作业区域是表示场地不同功能的区域，包括厂房、办公区域、原料和废渣堆放地等。

进一步地，步骤S2中，使用MATLAB神经网络工具箱为基础通过编程构建RBF神经网络模型，并采用PSO算法进一步优化神经网络参数。步骤S2的详细流程如图3所示，包括以下步骤：

步骤S21，数据预处理，具体包括以下步骤：

S211，数据归一化处理。为了消除指标之间的量纲和取值范围差异的影响，并提高模型学习速度，本步骤中运用SPSS对学习样本数据进行归一化处理，将数据值映射到[0，1]，公式如下：

式中，Yi为输入变量X_i归一化后的值，X_i为i点位输入变量X的测定值，X_max、X_min分别为输入变量X的最大值与最小值。

步骤S212，数据集划分。本步骤中，通过Python相关代码将学习样本数据集按8：2的比例随机划分为训练样本与验证样本。

步骤S22，确定输入变量与输出变量。

步骤S23，构建RBF神经网络模型。

RBF神经网络模型是一种单隐层的三层前向网络，网络拓扑结构如图4所示。其中，第一层为输入层，由信号源节点组成，节点数为输入样本类别数量；第二层为隐藏层，样本聚类后确定的隐藏层数据中心个数即为隐藏层节点个数；第三层为输出层，是对输入模式做出的响应，节点数为输出样本类别数量。

在RBF神经网络模型中，输入层起到传输信号作用，输入层到隐藏层之间的权值固定为1；输出层对线性权值进行调整，采用线性优化策略，输出层计算节点为线性函数，输出的隐单元的线性权值由线性方程组直接解出，并对输入模式作出响应，避免了局部极小问题；隐含层对激活函数的参数进行调整，采用非线性优化策略，选取高斯核函数为激活函数，具体公式如下：

式中，x代表输入向量；c_i代表隐藏层第i个节点的高斯函数的中心点；σ_i代表隐藏层第i个节点的宽度，即方差，用来调整影响半径；P为隐藏层节点数。

在RBF神经网络模型训练过程中，关键在于对以下三个参数的学习与优化：基函数隐藏层节点数据中心c、隐藏层节点宽度σ以及隐藏层每个节点与输出层之间的连接权值w。本发明实施例中，对于RBF神经网络模型参数的初始设置，采用K-means聚类算法依据输入样本得出基函数隐藏层节点数据中心c和隐藏层节点宽度σ，采用递推最小二乘法计算隐藏层每个节点与输出层之间的连接权值w。

步骤S24，采用PSO算法优化RBF神经网络模型的参数。

PSO算法，即粒子群优化算法，根据鸟类觅食提出的一种算法。PSO中粒子为优化问题的潜在解，被视作搜索空间中的一只鸟，每个粒子都有一个适应度值，还有一个速度决定它们飞翔的方向和距离。PSO初始化为一群随机粒子(随机解)，之后通过迭代找到最优解。在每一次迭代中，粒子通过跟踪两个极值来更新自己；第一个就是粒子本身所找到的最优解，这个解称为个体极值；另一个极值是整个种群目前找到的最优解，这个解称为全局极值。采用此算法可优化RBF关键参数，提高神经网络学习效率。

步骤S24具体包括以下步骤：

S241，初始化粒子群参数。

将RBF神经网络模型节点数据中心c、节点宽度σ和连接权值w三个参数组成粒子的位置向量，并设定粒子数、位置限制、速度限制、学习因子、最大迭代次数及计算精度参数。

S242，训练初始种群。

在训练样本中选取与PSO种群数量相同的样本量，即m个粒子数作为初始种群，将粒子的位置向量映射到RBF神经网络模型中进行训练，获得预测输出值。

S243，计算各粒子适应度值。

将样本实际值与RBF神经网络模型预测输出值之间的相对误差函数RMSE作为PSO算法的适应度函数，具体公式如下：

式中：N为输入样本数，D为输出节点数，y_ij、t_ij为第i个样本第j个向量的预测输出值与实际值；适应度值最小的位置即为最优解。

S244，评价各粒子适应度值。

将粒子当前适应度值作为粒子历史最优适应度值，即获取个体极值；将初始种群中适应度值最高的粒子的适应度值作为种群历史最优适应度值，即获取全局极值。

S245，更新粒子速度和位置，生成新种群。

根据已输出的个体极值、全局极值、惯性权重和粒子的速度位置更新公式更新粒子的速度和位置，生成下一代种群。

S246，更新个体极值和全局极值。

将新生成种群各粒子位置向量再次输入到RBF神经网络模型进行训练，获得新的预测输出值，重新计算适应度值，以更新粒子历史最优适应度值和种群历史最优适应度值。

S247，判断是否满足终止条件。

若输出全局极值小于设定的计算精度，则记录种群历史最优适应度值对应的粒子位置作为结果输出，结束迭代；若输出全局极值大于或等于设定的计算精度，则返回所述更新粒子速度和位置，生成新种群的步骤，继续迭代过程，直至达到最大迭代次数后，输出全局极值对应的粒子位置。

步骤S25，利用优化的RBF神经网络模型预测场地重金属污染物浓度。

将步骤S247输出的粒子位置的最优解作为RBF神经网络模型的最优权值与阈值，利用验证样本对PSO-RBF神经网络模型进行验证，记录其预测准确率。将待预测数据集作为PSO-RBF神经网络模型的输入变量，输出值即为预测的场地重金属污染物浓度。

与现有技术相比，本发明实施例提供的方法具有以下优点：

使用Surpac软件进行三维建模，与传统的二维地质数据表示方法相比，三维模型能够完整准确的表达各种地质现象，是三维预测的基础所在。同时，土壤是一个三维连续的实体，其空间自相关性既表现在水平方向上，也表现在垂直方向上。因此，本方法采用三维建模方法对待预测场地土壤进行样本采集，充分考虑到进入场地土壤中的重金属污染物会因地层分布的不同而产生不同程度的水平与垂直迁移的可能性，实现横向联合纵向取样，并未将二者割裂。

使用MATLAB软件构建PSO-RBF神经网络，与常见的与三维建模相结合的空间插值方法，尤其是与普通克里格法相比，RBF神经网络具有更好的空间预测能力，适用范围更广，预测精度更高特别是当样本数量较少时，能够避免平滑效应现象。RBF神经网络具备了前馈型神经网络的优良性能，主要体现在训练简洁、最佳逼近、鲁棒性强、学习收敛速度快、以及克服局部最小值问题等方面。同时使用PSO算法优化RBF神经网络参数，该算法可同时优化多组可能的解，最后在多组可能的解中选择最接近真实解的一组作为最终解，进行全局寻优，提高模型预测准确性；需要调节的参数较少，更易操作；加快模型收敛速度，减少预测时间。在保证模型精度的同时大大减少优化过程的计算量，提高了模型整体性能。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种预测场地重金属污染物浓度的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的预测场地重金属污染物浓度的方法，其特征在于，步骤S1中，所述采集场地土壤样品具体包括：

3.根据权利要求2所述的预测场地重金属污染物浓度的方法，其特征在于，步骤S1中，所述构建场地三维模型具体包括：

4.根据权利要求3所述的预测场地重金属污染物浓度的方法，其特征在于，步骤S1中，所述获取学习样本数据具体包括：

5.根据权利要求1所述的预测场地重金属污染物浓度的方法，其特征在于，步骤S2还包括对学习样本数据进行预处理的步骤，具体包括：

6.根据权利要求5所述的预测场地重金属污染物浓度的方法，其特征在于，步骤S2还包括确定输入变量与输出变量的步骤，具体包括：

7.根据权利要求6所述的预测场地重金属污染物浓度的方法，其特征在于，步骤S2中，所述构建RBF神经网络模型具体包括：

8.根据权利要求7所述的预测场地重金属污染物浓度的方法，其特征在于，步骤S2中，所述采用PSO算法优化RBF神经网络模型的参数具体包括：

9.根据权利要求8所述的预测场地重金属污染物浓度的方法，其特征在于，步骤S2中，所述利用优化的RBF神经网络模型预测场地重金属污染物浓度具体包括：