CN113159219B

CN113159219B - 一种耦合遗传算法和神经网络的土壤污染物含量插值方法

Info

Publication number: CN113159219B
Application number: CN202110525032.3A
Authority: CN
Inventors: 尹光彩; 陶琳; 陈幸玲; 朱航海; 何泽琛
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-04-08
Anticipated expiration: 2041-05-14
Also published as: CN113159219A

Abstract

本发明公开了一种耦合遗传算法和神经网络的土壤污染物含量插值方法，包括：场地采样，获取样本数据；对获取的样本数据进行预处理，获得初始种群数量N；判断初始生物种群数量N的值是否为1，是，则算法结束，用相关系数和RMSE检验RBM神经网络模型；否则，执行下一步骤；聚类分析，将样本数据和新个体数据分配到每个种群中，构建新种群；对每个种群实施遗传算法，产生新个体，获得待检验的新种群；对每个种群构建RBF神经网络模型，评价新个体的优劣，接收或拒绝新个体；更新整个生物群落，缩小种群数量N，并判断N值是否为1，是则算法结束，用相关系数和RMSE检验RBM神经网络模型。

Description

一种耦合遗传算法和神经网络的土壤污染物含量插值方法

技术领域

本发明涉及计算机、数据挖掘、土壤学、生态学技术领域，尤其涉及一种耦合遗传算法和神经网络对场地土壤重金属含量进行空间数据插值分析的方法。

背景技术

现有地统计法是一类与地理位置相关的插值方法，主要有反距离法、克里格法、样条函数法等。这类方法的共同特征是，用插值点附近的观测值数据来加权计算插值数据，距离插值点近的观测值获得较高的加权系数，距离较远的观测值的加权系数偏小，同时，各种地统计法要满足不同的插值约束条件。

这类插值法的插值数据仅与插值点的地理位置、观测值数据有关，没有综合考虑插值点、观测点的其他地理要素，例如pH值、土壤粒度、高程、有机质等。以场地土壤污染物为例，相邻地点的场地土壤污染物含量与pH值、土壤颗粒、有机质、附近污染源、降水、建筑物是相关的。地统计法忽略了这些相关的地理要素。

此外，地统计法对场地土壤污染物含量进行插值时，存在一些缺陷，例如出现少量的负数值、场地边界上无法插值等现象。用克里金插值污染物含量时可能出现奇异矩阵，导致插值数据过大，偏离正常范围太远。

本发明采用遗传算法和RBF神经网络构建一个场地土壤污染物含量插值方法，综合观测点的pH值、有机质、土壤颗粒等地理要素与环境要素进行插法，能够克服地统计法的缺陷。

发明内容

为解决上述技术问题，本发明的目的是提供一种耦合遗传算法和RBF神经网络模型的场地土壤污染物含量插值方法。

本发明的目的通过以下的技术方案来实现：

一种耦合遗传算法和神经网络的土壤污染物含量插值方法，包括以下步骤：

步骤A场地采样，获取样本数据；

步骤B对获取的样本数据进行预处理，获得初始种群数量N，N>1；

步骤C判断初始生物种群数量N的值是否为1，是，则算法结束，用相关系数和RMSE检验RBM神经网络模型；否则，执行步骤D；

步骤D聚类分析，将样本数据和新个体数据分配到每个种群中，构建新种群；

步骤E对每个种群实施遗传算法，产生新个体，获得待检验的新种群；

步骤F对每个种群构建RBF神经网络模型，评价新个体的优劣，接收或拒绝新个体；

步骤G更新整个生物群落，缩小种群数量N，并判断N值是否为1，是则算法结束，用相关系数和RMSE检验RBM神经网络模型；否则，继续执行步骤D；

步骤H算法结束，计算样本数据及其模拟数据，得出相关系数和RMSE值，评价RBF神经网络模型的插值性能。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

能够避免地统计法产生的负数值、过大或过小的奇异插值，样本数据与模拟数据的相关系数更高，均方根误差更小。

附图说明

图1是耦合遗传算法和神经网络的土壤污染物含量插值方法流程图；

图2是RBF神经网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为耦合遗传算法和神经网络的土壤污染物含量插值方法流程，具体包括以下步骤：

步骤100场地采样，获取样本数据；

采集场地采样点的重金属含量以及其他观测要素，包括经度、纬度、有机质、pH值、质地、三种不同深度的土壤粒度。

步骤101对获取的样本数据进行预处理，获得初始种群数量N，N>1；

将每个采样点的样本数据视作一个独立的生物体，以每个生物体的经纬度作为划分初始种群数量的数据来源，按照初始种群数量计算方法计算出初始种群数量N；

N的取值需同时满足以下三个指标：

指标一，同一生物种群内个体间的差异性尽可能小，体现种群内部的个体相似性，用生物种群内两两个体间的地理位置标准差表示；

指标二，不同生物种群的个体间差异性尽可能大，体现种群之间的个体相异性，用生物种群间两两个体间的地理位置标准差表示；

指标三，为保障个体的生存能力和生物多样性，生物种群内的个体数量尽可能大。

初始种群数量N的计算方法如下：采用k-means算法分别计算N＝2、3、…、K/2时上述三个指标的取值，取同时满足三个指标条件的最小N作为初始种群数量，其中K表示采样点的数量。

步骤102判断初始生物种群数量N的值是否为1，是，则算法结束，用相关系数和RMSE检验RBM神经网络模型；否则，执行步骤104；

该步骤是插值方法的结束条件，每一轮遗传算法和RBF神经网络检验之后，通过步骤107逐步缩小种群数量N的值，直到所有个体合并成一个种群为止。

步骤103聚类分析，将样本数据和新个体数据分配到每个种群中，构建新种群；

聚类分析采用k-means算法，将场地的采样数据以及移传算法产生的新个体数据(初次迭代时新个体数据为空)聚类为N个种群，构造N个新种群。

步骤104对每个种群实施遗传算法，产生新个体，获得待检验的新种群；

用遗传算法的选择、交叉、变异操作产生新个体数据，包括新个体即插值点的基因序列的经纬度、土壤污染物含量及生态、环境要素值即经度、纬度、有机质、pH值、质地、三种不同深度的土壤粒度以及重金属含量值；

遗传算法包括选择、交叉、变异操作，在种群内部随机选择两个母体产生新个体。遗传算法经过若干轮进化后新增一批新个体，有待RBF神经网络检验新个体优劣。

上述新个体的地理位置依赖于两个母体的地理位置，服从式(1)所示的高斯分布，其中p₁、p₂为母体，σ₁，σ₂分别是2个母体的经度均方差和纬度均方差，ρ是2个母体的相关系数。

N(μ₁，μ₂，σ₁，σ₂，ρ)，μ₁＝p₁(经度)μ₂＝p₁(纬度)or

μ₁＝p₂(经度)μ₂＝p₂(纬度) (1)

步骤105对每个种群构建RBF神经网络模型，评价新个体的优劣，接收或拒绝新个体；

用每个生物种群的个体数包括样本数据和新个体数据，构造RBF神经网络模型并进行检验新个体优劣。优胜劣汰的依据是观测点的样本数据及其模拟数据的RMSE不至于增大。所述RBF神经网络模型的输入、输出是一个n×9矩阵，其中n表示向量数量，每个向量代表1个个体。新个体优胜劣汰的依据是RBF神经网络模型的输入、输出向量之间的RMSE不增加。

RBF神经网络模型由3层神经元构成，见图2所示；第1层和第2层神经元采用Sigmoid函数，如公式(2)所示，第3层神经元为输出层采用类ReLU函数作为传递函数，如公式(3)所示，公式(3)的U表示某污染物元素含量的上限值。

RBF神经网络模型的输出层采用公式(3)作为传递函数，为避免插值方法出现负数和异常过大的数值，公式(3)为：

f(x)＝1/(1+e^-x) (2)

其中，U表示某污染物元素含量的上限值，x表示神经网络模型计算出来的插值数据，可能是个负值，也可能大得离奇，因此用传递函数修正。

步骤106接收优良新个体，淘汰劣势个体，更新整个生物群落，即新个体的规模得以扩充，为避免生物群落过度繁衍，每轮进化产生的新个体不超过总个体数量的5％。按30％的递减率缩小种群数量N，即N＝N-N×30％。当种群数量N>1时，重复遗传算法，生物种群继续迭代，每一轮迭代用RBF神经网络模型进行优胜劣汰，直到算法结束。

步骤107算法结束，计算样本数据及其模拟数据，得出相关系数和RMSE值，评价RBF神经网络模型的插值性能。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种耦合遗传算法和神经网络的土壤污染物含量插值方法，其特征在于，所述方法包括以下步骤：

步骤A场地采样，获取样本数据；

步骤C判断初始生物种群数量N的值是否为1，是，则算法结束，并用相关系数和RMSE检验RBM神经网络模型；否则，执行步骤D；

步骤H算法结束，计算样本数据及其模拟数据，得出相关系数和RMSE值，评价RBF神经网络模型的插值性能；

所述步骤B具体包括：将每个采样点的样本数据视作一个独立的生物体，以每个生物体的经纬度作为划分初始种群数量的数据来源，按照初始种群数量计算方法计算出初始生物种群数量N；

所述初始生物种群数量N指：用采样点的地理位置以及采样点的数量K计算出最佳聚类数量，计算方法为：

采用k-means算法分别计算N＝2、3、…、K/2时三个指标的取值，取同时满足三个指标条件的最小N作为初始生物种群数量；

RBF神经网络模型由三层神经元构成，其中第三层为输出层采用类ReLU函数作为传递函数，公式为：

其中，U表示某污染物元素含量的上限值，x表示神经网络模型计算出来的插值数据。

2.如权利要求1所述的耦合遗传算法和神经网络的土壤污染物含量插值方法，其特征在于，所述步骤A中采集场地采样点的重金属含量以及其他观测要素，包括经度、纬度、有机质、pH值、质地、三种不同深度的土壤粒度。

3.如权利要求1所述的耦合遗传算法和神经网络的土壤污染物含量插值方法，其特征在于，所述N的取值需同时满足的三个指标为：

4.如权利要求1所述的耦合遗传算法和神经网络的土壤污染物含量插值方法，其特征在于，所述步骤E中采用遗传算法的选择、交叉、变异操作在每个生物种群内产生新个体数据，并采用RBF神经网络模型评价新个体的优劣；所述新个体优劣的评价依据为：样本数据与模拟数据的均方根误差，在均方根误差不增加的条件下接收新个体作为插值数据。

5.如权利要求4所述的耦合遗传算法和神经网络的土壤污染物含量插值方法，其特征在于，所述新个体数据包括新个体即插值点的基因序列的经纬度、土壤污染物含量及生态、环境要素值即经度、纬度、有机质、pH值、质地、三种不同深度的土壤粒度以及重金属含量值。

6.如权利要求1所述的耦合遗传算法和神经网络的土壤污染物含量插值方法，其特征在于，所述步骤F具体包括：每个生物种群的个体数包括样本数据和新个体数据，构造RBF神经网络模型并进行检验新个体优劣，优胜劣汰的依据是观测点的样本数据及其模拟数据的RMSE不至于增大；其中，RBF神经网络模型的输入、输出是一个n×9矩阵，其中n表示向量数量，每个向量代表1个个体；新个体优胜劣汰的依据是RBF神经网络模型的输入与输出向量之间的RMSE不增加。

7.如权利要求1所述的耦合遗传算法和神经网络的土壤污染物含量插值方法，其特征在于，所述步骤H具体包括：接收优良新个体，淘汰劣势个体，更新整个生物群落，即新个体的规模得以扩充，为避免生物群落过度繁衍，每轮进化产生的新个体不超过总个体数量的5％；按30％的递减率缩小种群数量N，即N＝N-N×30％；当种群数量N>1时，重复遗传算法，生物种群继续迭代，每一轮迭代用RBF神经网络模型进行优胜劣汰，直到算法结束。