CN115130377A

CN115130377A - 一种boss-sapso优化极限学习机的土壤重金属预测方法

Info

Publication number: CN115130377A
Application number: CN202210704753.5A
Authority: CN
Inventors: 任顺; 陆旻波; 肖配; 任东; 陆安祥; 安毅; 肖敏; 张清
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-09-30

Abstract

一种BOSS‑SAPSO优化极限学习机的土壤重金属预测方法，它包括以下步骤：步骤1：采集土壤样品X射线荧光光谱数据和重金属含量值，构建样本集；步骤2：对样本集或待检测光谱信息进行预处理；步骤3：对预处理后的光谱数据进行特征选择；步骤4：建立极限学习机；步骤5：采用优化后的权重和隐含层偏置训练极限学习机，得到土壤重金属预测模型，将测试集输入预测模型，得到重金属的预测值。本发明的目的是为了解决在现有的土壤重金属预测中，所获得的相关光谱数据维度高、数据间冗余大且光谱与土壤重金属之间会呈现复杂的非线性，从而使得土壤重金属预测效率、效果、精准度不高的技术问题。

Description

一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法

技术领域

本发明涉及土壤重金属分析技术领域，具体涉及一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法。

背景技术

土壤作为一种不可再生的自然资源，是人类生存和发展的物质基础。近几十年来，由于工业和集约型农业的发展，土壤重金属污染使其成为一个实质性挑战，重金属通常具有持久的生物有效性并且在土壤中有较长的滞留时间，所以土壤重金属污染问题日益突出。土壤被重金属污染后，不仅会影响土地上种植的蔬菜、水果等作物的生长，还可能通过食物链进入人体，造成潜在的危害。快速准确的预测土壤重金属含量是进行土壤重金属污染防治的关键和前提。

目前对土壤重金属含量的检测主要有两种检测手段，分别为实验室检测手段和快速检测手段，其中，基于气、液相色谱分析检测法的土壤重金属实验室检测手段存在预处理步骤复杂、耗费时间长、检测成本高等问题，不适合农田重金属快速现场检测。而土壤重金属快速检测手段具有检测速度快、检测成本低等优点，但土壤背景复杂多样，通过仪器扫描得到的土壤X射线荧光光谱数据维度高、数据间冗余大，X射线荧光光谱与土壤重金属之间呈现出复杂的非线性，为土壤重金属的预测带来了一定的影响。因此需要建立更加精准的重金属预测模型。

发明内容

本发明的目的是为了解决在现有的土壤重金属预测中，所获得的相关光谱数据维度高、数据间冗余大且光谱与土壤重金属之间会呈现复杂的非线性，从而使得土壤重金属预测效率、效果、精准度不高的技术问题。

一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法，它包括以下步骤：

步骤1：采集土壤样品X射线荧光光谱数据和重金属含量值，构建样本集，将样本集分为训练样本集和测试样本集；

步骤2：对样本集或待检测光谱信息进行预处理；

步骤3：对预处理后的光谱数据进行特征选择，将提取的特征光谱数据作为新的训练样本集和测试样本集；

步骤4：建立极限学习机，将训练样本集中的数据作为极限学习机的输入，将训练样本集中的土壤重金属含量作为极限学习机的输出，优化极限学习机的输入权重、隐含层节点数和隐含层偏置，确定极限学习机的输入权重、隐含层节点数和隐含层偏置；

步骤5：采用优化后的权重和隐含层偏置训练极限学习机，得到土壤重金属预测模型，将测试集输入预测模型，得到重金属的预测值。

在步骤3中，采用自举软收缩(BOSS)方法对预处理后的光谱数据进行特征选择，将提取的特征光谱数据作为新的训练样本集和测试样本集；包括以下子步骤：

步骤3.1：在重金属光谱特征变量空间中采用自助随机采样技术生成K子集，在每个子集中提取BSS所选择的变量，并剔除重复变量，将剔除后剩余的所有变量赋予相等的权重；

步骤3.2：利用获得的变量子集建立PLS子模型，共计K个子模型，计算子模型的交叉验证均方根误差(RMSECV)，并通过较小的RMSECV提取最佳模型；

y＝xb+e

其中，y是重金属浓度值，x是重金属光谱特征变量对应的光谱数据，b是回归系数，e是预测误差

步骤3.3：计算每个子模型的回归系数(b_i,k)，将回归矢量中所有系数转换为绝对值的形式，并对所有回归矢量进行归一化与回归矢量求和；

其中，w_i为变量i的新权重，K为子模型个数，b_i,k为第k个子模型中变量i归一化回归系数的绝对值

步骤3.4：根据变量的新权重，应用加权引导抽样策略生成新的子集，提取唯一变量并构建子模型；

步骤3.5：如果新的子集中变量数量为1，选择迭代过程中RMSECV最小的子集作为最优变量集，否则，返回步骤3.1；

步骤3.6：根据步骤3.5确定的特征波长建立新的光谱数据集。

在步骤4中，建立极限学习机，将训练样本集中的数据作为极限学习机的输入，将训练样本集中的土壤重金属含量作为极限学习机的输出，采用串联自适应粒子群优化算法优化极限学习机的输入权重、隐含层节点数和隐含层偏置，根据全局最优粒子确定极限学习机的输入权重、隐含层节点数和隐含层偏置；包括以下子步骤：

步骤4.1：根据串联类型计算粒子维度，初始化串联自适应粒子群优化算法的粒子维度D；

其中，δ为粒子群算法串联类型，p为BOOS算法提取的特征变量个数，h为优化的隐含层节点数，o为输出重金属类型数量；δ＝1时表示优化的参数为隐含层节点数；δ＝2时表示优化的参数为输入权重和隐含层偏置；δ＝3时表示优化的参数为极限学习机网络的所有权重和偏置；

步骤4.2：设定种群规模N、最大迭代次数G、惯性权重w、加速系数c₁和c₂、粒子速度v和位置x，随机初始化自适应粒子群优化算法的粒子位置初值x_i ⁽⁰⁾和粒子速度初值v_i ⁽⁰⁾，令粒子的历史最优解pBest设为初始位置，群体最优的粒子作为当前全局最优解gBest，令迭代次数t＝1，i＝1，2，...，N；

步骤4.3：判断当前迭代次数t是否达到最大迭代次数G，若是，执行步骤4.6，否则，令迭代次数t＝t+1，执行步骤4.4；

步骤4.4：更新粒子速度v_i ^(t+1)和位置x_i ^(t+1)；

步骤4.5：根据当前粒子群建立极限学习机，将步骤3选取的特征变量对应的光谱数据作为极限学习机的输入，将训练样本集中的土壤重金属含量作为极限学习机的输出，计算预测结果与训练样本集土壤重金属含量的均方误差fitness，作为该粒子群的适应度值，记最小适应度值对应的粒子位置为初始全局最优解gBest；

其中，

为训练样本重金属含量预测值，y为训练样本重金属含量真实值

步骤4.6：更新粒子的历史最优解pBest和全局最优解gBest，返回步骤4.2；

步骤4.7：根据全局最优值确定串联类型下参数最优值，返回步骤4.1。

在步骤4.4中，在更新粒子速度v_i ^(t+1)和位置x_i ^(t+1)时，采用以下子步骤：

步骤4.4.1：计算每个粒子i相对于其他粒子的平均距离d_i：

其中，N是种群的大小，D为粒子的维数，

表示第k个维度下的第i个粒子位置

步骤4.4.2：计算进化因子f：

其中，d_g为当前最优粒子与其他粒子的平均距离，d_max为最大平均距离，d_min为最小平均距离

步骤4.4.3：计算自适应惯性因子w：

其中，f为进化因子，e为自然常数

步骤4.4.4：更新粒子速度v_i ^(t+1)和位置x_i ^(t+1)：

其中，rand₁、rand₂为0-1随机数，w为惯性因子、c₁和c₂加速系数，

为t时刻粒子i的速度，

为t+1时刻粒子i的速度，

为t时刻粒子i的位置，

为t+1时刻粒子i的位置，pBest_i为粒子i历史最优解，gBest为当前全局最优解；

在步骤4.6中，在更新粒子的历史最优解pBest和全局最优解gBest时，采用以下子步骤：

步骤4.6.1：更新粒子的历史最优解pBest和全局最优解gBest，如果该粒子当前的适应度函数值比历史最优值好，那么历史最优将会被当前位置所替代；如果该粒子的历史最优比全局最优好，全局最优将会被粒子的历史最优所替代；

步骤4.6.2：对全局最优解gBest加入高斯扰动，采用精英学习策略，随机选取一个维度进行变化：

P＝gBest；

d＝random(1,D)；

其中，random()为随机数函数，D为粒子维度，P^d表示对维度d进行变化，μ是进化状态，是精英学习率，σ_max、σ_min根据经验显示分别为1与0.1，t当前迭代次数，G总的迭代次数；

步骤4.6.3：如果P的适应度值小于gBest，则更新gBest。

一种建立土壤重金属光谱数据集的方法，它包括以下步骤：

步骤1)在重金属光谱特征变量空间中采用自助随机采样技术生成K子集，在每个子集中提取BSS所选择的变量，并剔除重复变量，将剔除后剩余的所有变量赋予相等的权重；

步骤2)利用获得的变量子集建立PLS子模型，共计K个子模型，计算子模型的交叉验证均方根误差(RMSECV)，并通过较小的RMSECV提取最佳模型；

y＝xb+e

其中，y是重金属浓度值，x是重金属光谱特征变量对应的光谱数据，b是回归系数，e是预测误差；

步骤3)计算每个子模型的回归系数(b_i,k)，将回归矢量中所有系数转换为绝对值的形式，并对所有回归矢量进行归一化与回归矢量求和；

步骤4)根据变量的新权重，应用加权引导抽样策略生成新的子集，提取唯一变量并构建子模型；

步骤5)如果新的子集中变量数量为1，选择迭代过程中RMSECV最小的子集作为最优变量集，否则，返回步骤3.1；

步骤6)根据步骤3.5确定的特征波长建立新的光谱数据集。

一种用于土壤重金属预测的极限学习机的获取方法，它包括以下步骤：

步骤1)根据串联类型计算粒子维度，初始化串联自适应粒子群优化算法的粒子维度D；

步骤2)设定种群规模N、最大迭代次数G、惯性权重w、加速系数c₁和c₂、粒子速度v和位置x，随机初始化自适应粒子群优化算法的粒子位置初值x_i ⁽⁰⁾和粒子速度初值v_i ⁽⁰⁾，令粒子的历史最优解pBest设为初始位置，群体最优的粒子作为当前全局最优解gBest，令迭代次数t＝1，i＝1，2，...，N；

步骤3)判断当前迭代次数t是否达到最大迭代次数G，若是，执行步骤6)，否则，令迭代次数t＝t+1，执行步骤4)；

步骤4)更新粒子速度v_i ^(t+1)和位置x_i ^(t+1)；

步骤5)根据当前粒子群建立极限学习机，将所获得的目标光谱数据作为极限学习机的输入，将训练样本集中的土壤重金属含量作为极限学习机的输出，计算预测结果与训练样本集土壤重金属含量的均方误差fitness，作为该粒子群的适应度值，记最小适应度值对应的粒子位置为初始全局最优解gBest；

其中，

步骤6)更新粒子的历史最优解pBest和全局最优解gBest，返回步骤2)；

步骤7)根据全局最优值确定串联类型下参数最优值，返回步骤1)。

在步骤4)中，包括以下子步骤：

步骤4-1)计算每个粒子i相对于其他粒子的平均距离d_i：

其中，N是种群的大小，D为粒子的维数，

表示第k个维度下的第i个粒子位置

步骤4-2)计算进化因子f：

步骤4-3)计算自适应惯性因子w：

其中，f为进化因子，e为自然常数；

步骤4-4)更新粒子速度v_i ^(t+1)和位置x_i ^(t+1)：

为t时刻粒子i的速度，

为t+1时刻粒子i的速度，

为t时刻粒子i的位置，

为t+1时刻粒子i的位置，pBest_i为粒子i历史最优解，gBest为当前全局最优解。

在步骤6)中，包括以下子步骤：

步骤6-1)更新粒子的历史最优解pBest和全局最优解gBest，如果该粒子当前的适应度函数值比历史最优值好，那么历史最优将会被当前位置所替代；如果该粒子的历史最优比全局最优好，全局最优将会被粒子的历史最优所替代；

步骤6-2)对全局最优解gBest加入高斯扰动，采用精英学习策略，随机选取一个维度进行变化：

P＝gBest；

d＝random(1,D)；

其中，random()为随机数函数，D为粒子维度，P^d表示对维度d进行变化，μ是进化状态，是精英学习率，σ_max、σ_min根据经验显示分别为1与0.1，t当前迭代次数，G总的迭代次数

步骤6-3)如果P的适应度值小于gBest，则更新gBest。

与现有技术相比，本发明具有如下技术效果：

1)本发明提出的一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法能够快速、准备检测出土壤中重金属的含量，对农田土壤重金属污染风险的快速响应、准确预测及决策管理具有重要的现实意义；

2)本发明提出的一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法，采用BOSS方法进行特征选择，消除光谱数据间的相关性，降低了光谱维度，提高了模型预测准确性；

3)本发明提出的一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法，采用串联自适应粒子群优化算法来优化极限学习机网络的输入权值、隐含层节点数和隐藏层偏置值，保证了模型可靠性以及预测精度；

4)本发明使用X射线荧光光谱法，具有实验方法简单、分析灵敏度高检测速度快、稳定性高、分析成本低等优点。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为本发明一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法的流程图；

图2为BOSS方法提取的特征波长结果示意图；

图3为自适应粒子群算法优化流程图；

图4为自适应惯性权重优化流程图；

图5为精英学习策略优化流程图；

图6为适应度函数进化图；

图7为BOSS-ELM和BOSS-SAPSO-ELM两种方法下的测试集预测结果图。

具体实施方式

如图1所示，一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法，包括以下步骤：

所述构建样本集，配置预定浓度范围的土壤样品多个，获取各样本0～26.624keV能量范围内的X射线荧光光谱信息，将样本按比例分成训练样本集和测试样本集。

步骤1中，所述构建样本集，配置预定浓度范围的土壤样品多个，获取各样本0～26.624keV能量范围内的X射线荧光光谱信息，将样本按比例分成训练样本集和测试样本集。

步骤2：采用标准变换法对样本集或待检测光谱信息进行预处理；

步骤3：采用自举软收缩(BOSS)方法对预处理后的光谱数据进行特征选择，将提取的特征光谱数据作为新的训练样本集和测试样本集；

y＝xb+e

步骤3.6：根据步骤3.5确定的特征波长建立新的光谱数据集。

步骤4：建立极限学习机，将训练样本集中的数据作为极限学习机的输入，将训练样本集中的土壤重金属含量作为极限学习机的输出，采用串联自适应粒子群优化算法优化极限学习机的输入权重、隐含层节点数和隐含层偏置，根据全局最优粒子确定极限学习机的输入权重、隐含层节点数和隐含层偏置；

如图3、图4、图5所示，

其中，δ为粒子群算法串联类型，p为BOOS算法提取的特征变量个数，h为优化的隐含层节点数，o为输出重金属类型数量；δ＝1时表示优化的参数为隐含层节点数；δ＝2时表示优化的参数为输入权重和隐含层偏置；δ＝3时表示优化的参数为极限学习机网络的所有权重和偏置

步骤4.4：更新粒子速度v_i ^(t+1)和位置x_i ^(t+1)；

步骤4.4.1：计算每个粒子i相对于其他粒子的平均距离d_i：

其中，N是种群的大小，D为粒子的维数，

表示第k个维度下的第i个粒子位置

步骤4.4.2：计算进化因子f：

步骤4.4.3：计算自适应惯性因子w：

其中，f为进化因子，e为自然常数

步骤4.4.4：更新粒子速度v_i ^(t+1)和位置x_i ^(t+1)：

为t时刻粒子i的速度，

为t+1时刻粒子i的速度，

为t时刻粒子i的位置，

其中，

步骤4.6.1：更新粒子的历史最优解pBest和全局最优解gBest，如果该粒子当前的适应度函数值比历史最优值好，那么历史最优将会被当前位置所替代；如果该粒子的历史最优比全局最优好，全局最优将会被粒子的历史最优所替代。

P＝gBest；

d＝random(1,D)；

步骤4.6.3：如果P的适应度值小于gBest，则更新gBest。

步骤4.7：根据全局最优值确定串联类型下参数最优值，返回步骤4.1；

实施例：

一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法，包括以下步骤：

一种实施例采集自宜昌周边1km范围内无污染的农田土壤，为防止实验器具对结果产生影响，提高检测可靠性，实验过程中从样本的收集、分类、粉碎、研磨以及装袋都采用陶瓷用具。将土壤烘干研磨过0.45mm筛后，按Ⅰ、Ⅱ、Ⅲ类土壤中重金属含量的规定并结合农田土壤实际情况进行配制实验样本。

数据集的光谱数据采集设备型号为X-123SDD能量色散X射线荧光探测器和靶材为Ag的Mini-X微型X光管，均产自Amptek公司。设定所用积分时间为200ms，设定光管的工作电流为40uA，设定光管的工作电压为30kV，探测器通道数为4096。每次取一个样本置于便携式X射线土壤重金属检测仪上，共获取87个样本在0～26keV范围内共4096个通道的光谱信息。

使用AAS(原子火焰吸收法)测定数据集的重金属含量值，数据集划分采用随机划分法，随机选取58个训练集，剩余29个为测试集。样本集或待检测光谱信息输入预测模型前，采用mapminmax对样本集或待检测光谱数据进行归一化预处理。

采用BOSS方法对预处理后的光谱数据进行特征选择，影响BOSS算法的主要参数有三个，分别是迭代运行次数N，WBS采样次数K，模型比率δ。为得到较优模型效果，分别设置N为50次、100次、150次、200次，K设置为500次、1000次、1500次、2000次，δ设置为5％、10％、15％、20％。以重金属金属Cr为例，实验结果如下表所示。

表1不同迭代次数结果对比

表2不同采样次数结果对比

表3不同模型比率结果对比

从表1-表3可知，当迭代次数N设置为50时，其建立的模型综合表现效果最好，在训练集上其R² _c，RMSE_c值分别为0.9910，0.9314，在预测集上表现略差于N为100时，但综合考虑后决定以N＝50为最优参数；设置迭代次数N＝50，WBS采样次数K设置为1500时，其建立的模型综合表现最好，训练集上R² _c，RMSE_c值分别为0.9914，1.9431，与K设置为其它值时相差不大，预测集上R² _p，RMSE_p值分别为0.9551，29.6431，结果优于其它情况；当设置N＝50，K＝1500时，采样次数δ设置为10％时，模型综合精度最佳，训练集上R² _c，RMSE_c值分别为0.9976，4.8765，是所有情况中最优结果，预测集上R² _p，RMSE_p值分别为0.9613，28.4377，同样是所有情况中最优结果。因此，本实施例中，BOSS算法的参数设置为N＝50，K＝1500，δ＝10％。

本实施方式中，BOSS方法共选取特征变量81个，结果如图2所示。

步骤4：建立极限学习机，将训练样本集中的数据作为极限学习机的输入，将训练样本集中的土壤重金属含量作为极限学习机的输出，采用串联自适应粒子群优化算法优化极限学习机的输入权重、隐含层节点数和隐含层偏置，根据全局最优粒子确定极限学习机的输入权重、隐含层节点数和隐含层偏置，如图3所示；

本实施方式中，极限学习机的输入数据维度为81维，隐含层节点数量为15，输出数据维度为1维；

本实施方式中，设定串联自适应粒子群优化算法的串联类型δ＝[1,2]，粒子维度N＝1246、种群规模P＝30、最大迭代次数G＝100、惯性权重初始值w＝0.7、加速系数初始值c₁＝2、加速系数初始值c₂＝2、粒子速度区间v＝[-2 2]和位置区间x＝[-10 10]；

本实施方式中，使用BOSS-SAPSO优化极限学习机的适应度函数进化图如图6所示；

本实施方式中，以重金属金属Cr为例，与未进行SAPSO优化的极限学习机进行对比，预测结果如下表所示：

表4重金属Cr的预测值

本实施方式中，使用SAPSO方法优化极限学习机的R²＝0.90513，均方根误差MSE＝7.4789，而不使用SAPSO方法优化极限学习机的测试集R²＝0.41205，均方根误差MSE＝16.9411，说明本发明方法具有更好的预测能力。

本实施方式中，使用SAPSO方法优化极限学习机和不使用SAPSO方法优化极限学习机的测试集结果如图7所示。

Claims

1.一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法，其特征在于，它包括以下步骤：

步骤2：对样本集或待检测光谱信息进行预处理；

2.根据权利要求1所述的方法，其特征在于，在步骤3中，采用自举软收缩BOSS方法对预处理后的光谱数据进行特征选择，将提取的特征光谱数据作为新的训练样本集和测试样本集；包括以下子步骤：

步骤3.2：利用获得的变量子集建立PLS子模型，共计K个子模型，计算子模型的交叉验证均方根误差RMSECV，并通过较小的RMSECV提取最佳模型；

y＝xb+e

步骤3.3：计算每个子模型的回归系数b_i,k，将回归矢量中所有系数转换为绝对值的形式，并对所有回归矢量进行归一化与回归矢量求和；

步骤3.6：根据步骤3.5确定的特征波长建立新的光谱数据集。

3.根据权利要求1所述的方法，其特征在于，在步骤4中，建立极限学习机，将训练样本集中的数据作为极限学习机的输入，将训练样本集中的土壤重金属含量作为极限学习机的输出，采用串联自适应粒子群优化算法优化极限学习机的输入权重、隐含层节点数和隐含层偏置，根据全局最优粒子确定极限学习机的输入权重、隐含层节点数和隐含层偏置；包括以下子步骤：