CN115598162A

CN115598162A - 基于堆叠式模型的土壤重金属含量检测方法

Info

Publication number: CN115598162A
Application number: CN202111586536.2A
Authority: CN
Inventors: 任顺; 陆旻波; 任东; 安毅; 杨信廷; 王纪华
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2023-01-13

Abstract

本发明涉及基于堆叠式模型的土壤重金属含量检测方法，包括：采集土壤样品，配置预定重金属浓度范围的土壤样本；获取土壤样本的光谱，形成样本光谱数据集；利用迭代保留信息法筛选出光谱中的强信息变量与弱信息变量；选出具有代表性的四种特征变量选择方法，分别构建基学习器进行训练、测试；将基学习器集成，构建元学习器，并对元学习器进行训练、测试；将待检测土壤的光谱输入基学习器，依据元学习器得到的波长点判断分析土壤重金属的含量。本发明将多种波长变量选择算法并联、集成，克服了单一特征变量选择方法的缺陷，提高了土壤重金属含量的检测精度，检测结果稳定性好。

Description

基于堆叠式模型的土壤重金属含量检测方法

技术领域

本发明属于农业环境检测领域，具体涉及一种基于堆叠式模型的土壤重金属含量检测方法。

背景技术

土壤中的元素多种多样，直接获得的X射线荧光光谱具有高维度、多冗余的特点。此外，各种元素之间还有着增强吸收效应，因此需要剔除这些无用信息，最大化利用有用信息。目前流行的区间选择算法主要有变量区间选择法、变量信息选择法、变量优化选择法和变量统计选择算法。这些算法各有优劣，有的算法侧重于筛选波长区间，有的侧重于筛选波段，均存在缺陷，效果不理想。

因此，需要进一步研究优化整合这些算法，使其不再针对单个的变量进行选择，在降维的同时也能考虑到元素之间的增强吸收效应。

发明内容

本发明的技术问题是目前已有的光谱特征变量选择算法大多考虑如何选出有效的波段或波长区间，并不会对波长点进行优化，影响了根据光谱特征变量预测土壤重金属含量的效率；现有的以逐步选择算法为代表的光谱波长点的精选算法效果并不理想。

本发明的目的是针对上述问题，提供一种基于堆叠式模型的土壤重金属含量检测方法，将区间偏最小二乘法(interval partial least squares，iPLS)、变量区间组合优化算法(interval combination optimization，ICO)、萤火虫算法(firefly algorithm，FA)和连续投影算法(successive projections algorithm，SPA)等多种波长变量选择算法并联、集成，采用多个基学习器和元学习器组成的堆叠式模型，获取土壤样本光谱的波长点，克服单一特征变量选择方法的缺陷；对并联的多个基学习器进行分组训练，提高训练的效率。

本发明的技术方案是基于堆叠式模型的土壤重金属含量检测方法，包括以下步骤：

步骤1：采集土壤样品，配置预定重金属浓度范围的土壤样本；

步骤2：获取土壤样本的X射线荧光光谱，其中重金属元素的含量值利用化学方法标定，形成样本光谱数据集，并将样本光谱数据集分成校正集和验证集；

步骤3：利用迭代保留信息法筛选出光谱中的强信息变量与弱信息变量；

步骤4：分别从变量区间选择算法、变量优化选择算法、变量统计选择算法和变量波段选择算法中选出具有代表性的四种特征变量选择方法，在强信息变量与弱信息变量的基础上分别构建基学习器进行训练、测试；

步骤5：将基学习器集成，构建元学习器，元学习器的输入是基学习器的输出，利用基学习器的输出对元学习器进行训练、测试；

步骤6：将待检测土壤的光谱输入基学习器，依据元学习器得到待检测光谱的波长点，依据得到的波长点判断分析土壤重金属的含量。

进一步地，变量区间选择算法和变量波段选择算法侧重于选择出对建模更重要的波段，而且不容易受到无效波长点的干扰，因此将其作为一组进行训练，可提高训练效率，训练效果比单独训练更好；变量统计选择算法与变量优化选择算法侧重于选择出出现频率更高的波段，而且容易受到无效区间内波长点的干扰，因此将其作为一组进行训练，可提高训练效率，训练效果比单独训练更好。

进一步地，步骤5中，选出的特征变量选择方法为区间偏最小二乘法、变量区间组合优化算法、萤火虫算法和连续投影算法。

优选地，对基学习器进行分组训练，将区间偏最小二乘法对应的基学习器和区间组合优化算法对应的基学习器作为一组进行训练，将萤火虫算法对应的基学习器和连续投影算法对应的基学习器作为另一组进行训练。

所述利用迭代保留信息法筛选出光谱中的强信息变量与弱信息变量，具体包括：

(a)对波长变量分类；

对每个波长变量计算包含和不包含该波长变量时的偏最小二乘法模型的RMSECV平均值，计算得到平均值的差值DMEAN(Difference of mean values)，并进行曼-惠特尼秩和检验，确定该变量的类型；

在每次迭代中保留强信息变量和弱信息变量，直至波长变量中不包含无信息变量和干扰变量为止；

(b)逆向消元；

筛选出强信息变量和弱信息变量后，考虑每个波长变量与其它波长变量的交互作用，进行逆向消元，使保留的波长变量的数量进一步减少，得到最优波长变量子集。

所述变量区间组合优化算法，包括以下步骤：

1)确定光谱区间划分数量、子模型的数量和子模型的比率；

将光谱划分为宽度大致相同的n个子区间，对每个光谱子区间分别建立偏最小二乘法模型预测重金属含量；

观察比较不同数量的区间划分下的试验结果，将最小的均方根误差值对应的光谱区间划分数量作为最优的子区间数量；

2)确定未进行宽度优化的波长区间；

2.1)子模型的生成，利用加权自举采样，生成M个不同波长区间随机组合形成的子集，每个波长点初始采样权重均为1，M表示采样次数，一次采样中波长z被选中的概率p_z的计算式如下：

式中w_z、w_j分别表示波长z、波长j的采样权重，e表示波长点的数量；

2.2)采用偏最小二乘法算法和5折交互检验的方式，计算每个区间组合子集对应的RMSECV 值；

2.3)从全部区间组合中提取比例为α的最优区间组合子集，并计算出这一部分区间组合子集对应RMSECV值的平均值，记作m_RMSECV，α表示提取的区间组合占全部区间组合的比例；

2.4)统计每个区间的波长在最优区间组合子集中出现的数目，下一次迭代中第x个区间对应的采样权重如下：

式中f_x表示第x个区间的波长在最优区间组合子集中出现的频次，k_best表示提取的最优区间组合的数目；

重复步骤2.1)至步骤2.4)进行循环迭代，直到m_RMSECV出现上升，终止迭代；

2.5)将最后一次迭代中RMSECV值最小的那一组波长区间作为最终选中的波长区间。

所述萤火虫算法，包括以下步骤：

(I)初始化，

在可行域中随机放置n个萤火虫，并赋予每个萤火虫的荧光素为l₀，动态决策域为r₀；初始化步长s、领域阈值n_t、荧光素消失率ρ、荧光素更新率γ、动态决策域更新率β、萤火虫感知域r_s和迭代次数Y；

(II)更新萤火虫i的荧光素l_i(t)，

l_i(t)＝(1-ρ)l_i(t-1)+γJ(x_i(t))

其中J(x_i(t))表示萤火虫i在t时刻所在位置的目标函数值，x_i(t)表示萤火虫i在t时刻的位置， l_i(t)、l_i(t-1)分别表示萤火虫i在t、t-1时刻的荧光素；

(III)寻找萤火虫i的邻居j

式中N_i(t)表示萤火虫i在t时刻邻居的集合，

表示萤火虫i在t时刻动态决策域，l_j(t)表示萤火虫的邻居j在t时刻的荧光素；

(IV)确定萤火虫i移动方向

J＝argmax(p_ij),j∈N_i(t)，

其中p_ij表示萤火虫i向邻居j方向移动的转移概率；

(V)更新萤火虫i的位置

式中X_i(t+1)表示萤火虫i在t+1时刻的位置，s表示步长；

(VI)更新动态决策域

其中

表示萤火虫i在t+1时刻的动态决策域，r_s表示萤火虫感知域，β表示动态决策域更新率，q_t表示领域阈值。

所述连续投影算法，初始迭代向量为x_k(0)，总共提取的波长变量数量为N，光谱矩阵为J 列，迭代初始时任选光谱矩阵其中1列赋值给x_k(0)，连续投影算法包括以下步骤：

(1)初始化迭代次数n＝1；

(2)将未选入的剩余列向量标号l的集合记为h

其中k(n-1)表示第n-1次迭代选出的波长变量对应的列数；

(3)计算当前剩余列向量对x_k(n-1)的投影：

式中Px_l表示剩余列向量x_l对x_k(n-1)的投影，其中P代表投影算子；

(4)提取最大投影向量的光谱波长：

k(n)＝arg_l(max(||P(x_l)||),l∈h)

(5)n＝n+1，如果n<N，则执行步骤(2)；如果n＝N，执行步骤(6)；

(6)循环结束，最终提取出的波长位置为{k(n),n＝0,1,...,N-1}。

优选地，区间偏最小二乘法划分的光谱区间数量为20。

优选地，变量区间组合优化算法划分的光谱区间数量为15。

相比现有技术，本发明的有益效果包括：

(1)本发明将多种波长变量选择算法并联、集成，采用多个基学习器和元学习器组成的堆叠式模型，获取土壤样本光谱的波长点，根据波长点与重金属含量的对应关系得到土壤重金属含量，克服了单一特征变量选择方法的缺陷，提高了土壤重金属含量的检测精度，检测结果稳定性好；

(2)本发明通过迭代保留信息法筛选出强信息变量与弱信息变量，作为堆叠式模型的输入，极大地提高了堆叠式模型的效率，最终得到的波长点时更有效，建立的检测模型精度和稳定性越高；

(3)本发明选择iPLS、FA、ICO、SPA四种模型作为基学习器，这四种模型选择的波长变量有着较大的区别，异构性能强，这四种模型的精度均较为优秀，充分展现了各种模型的优点，有效提取有用特征信息，避免过拟合的发生，提高了土壤重金属含量的预测精度；

(4)本发明对基学习器进行分组训练，提高了训练效率，训练效果更好。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1为本发明实施例的土壤重金属含量检测方法的流程示意图。

具体实施方式

如图1所示，基于堆叠式模型的土壤重金属含量检测方法，包括以下步骤：

步骤1：采集土壤样品，结合浓度梯度法配置预定重金属浓度范围的土壤样本；

在周边1000米范围内没有污染源的农田采集制样土壤，土壤样品的收集、分类、粉碎、研磨以及装袋都采用陶瓷用具，以防止采样器具对检测结果产生影响，提高检测的可靠性。将土壤烘干研磨，过0.45mm孔筛后，参考国家颁布的《土壤环境质量标准》中对Ⅰ、Ⅱ、Ⅲ类土壤中各元素含量的规定并结合农田土壤实际情况进行配制实验样本，土壤样本的重金属含量利用化学方法标定；

步骤2：获取土壤样本的X射线荧光光谱，形成样本光谱数据集；

逐个取土壤样本置于X射线土壤重金属检测仪上，获取土壤样本在0～26keV范围内共 4096个通道内的光谱信息，在获取土壤样本的光谱后转动检测仪上的土壤样本，改变土壤样本在检测仪上的方向后再次获取土壤样本的光谱，利用X射线土壤重金属检测仪对同一土壤样本前后测量3次，根据3次测量得到的光谱计算得到土壤样本的平均光谱，不同重金属浓度的土壤样本的光谱数据形成样本数据集，将样本数据集分为训练和验证集，以土壤样本的被测指标的理化参照值作为划分标准将样本按照2∶1分成2组。

步骤4.1：对波长变量分类；

对每个波长变量计算包含和不包含该波长变量时的最小二乘法模型的RMSECV平均值，计算得到平均值的差值，并进行曼-惠特尼秩和检验，确定该变量的类型；

步骤4.2：逆向消元；

步骤5：以区间偏最小二乘法iPLS、变量区间组合优化算法、萤火虫算法和连续投影算法作为代表性的四种特征变量选择方法，分别构建基学习器，即iPLS基学习器、ICO基学习器、 FA基学习器以及SPA基学习器，利用样本数据集的校正集对基学习器进行训练；

设置最大主成分数为20，根据交叉验证法计算交互验证均方根误差(Root MeanSquare Error of Cross Validation，RMSECV)确定主成分数。iPLS划分的区间数为20，结合的区间数为3。

训练时对基学习器进行分组训练，将区间偏最小二乘法对应的基学习器和区间组合优化算法对应的基学习器作为一组进行训练，将萤火虫算法对应的基学习器和连续投影算法对应的基学习器作为另一组进行训练。区间偏最小二乘法和区间组合优化算法侧重于选择出对建模更重要的波段，而且不容易受到无效波长点的干扰，因此将其作为一组进行训练，可提高训练效率，训练效果比单独训练更好；萤火虫算法与连续投影算法侧重于选出出现频率更高的波段，而且容易受到无效区间内波长点的干扰，因此将其作为一组进行训练，可提高训练效率，训练效果比单独训练更好。

利用样本数据集的校正集对基学习器进行测试，测试达到预测精度要求时停止对基学习器的训练，否则重复对基学习器进行训练；

步骤6：将基学习器集成，构建元学习器，元学习器采用非线性的支持向量回归方法，元学习器的输入是基学习器的输出，利用基学习器的输出对元学习器进行训练、测试；

步骤7：将待检测土壤的光谱输入基学习器，依据元学习器得到待检测土壤的波长点，建立光谱波长点与土壤样本重金属浓度之间的映射关系，根据待检测土壤的波长点判断分析土壤重金属的含量。

实施例中，样本数据集输入基学习器前，采用SNV对样本集或待检测光谱信息进行预处理。然后使用IRIV算法对预处理后的光谱进行筛选，得到强信息变量与弱信息变量，将筛选后的训练集分别对iPLS基学习器、ICO基学习器、FA基学习器以及SPA基学习器进行训练。

实施例的变量区间组合优化算法，包括以下步骤：

1)确定光谱区间划分数量、子模型的数量和子模型的比率；

2)确定未进行宽度优化的波长区间；

实施例的萤火虫算法，包括以下步骤：

(I)初始化，

在可行域中随机放置o个萤火虫，并赋予每个萤火虫的荧光素为l₀，动态决策域为r₀；初始化步长s、领域阈值q_t、荧光素消失率ρ、荧光素更新率γ、动态决策域更新率β、萤火虫感知域r_s和迭代次数M；

(II)更新萤火虫i的荧光素

l_i(t)＝(1-ρ)l_i(t-1)+γJ(x_i(t)) (3)

(III)寻找萤火虫i的邻居j

式中N_i(t)表示萤火虫i在t时刻邻居的集合，

(IV)确定萤火虫i移动方向

J＝argmax(p_ij),j∈N_i(t)， (5)

其中p_ij表示萤火虫i向邻居j方向移动的转移概率；

(V)更新萤火虫i的位置

式中X_i(t+1)表示萤火虫i在t+1时刻的位置，s表示步长；

(VI)更新动态决策域

其中

(1)初始化迭代次数n＝1；

(2)将未选入的剩余列向量标号l的集合记为h

其中k(n-1)表示第n-1次迭代选出的波长变量对应的列数；

(3)计算当前剩余列向量对x_k(n-1)的投影：

(4)提取最大投影向量的光谱波长：

k(n)＝arg_l(max(||P(x_l)||),l∈h)

(5)n＝n+1，如果n<N，则执行步骤(2)；如果n＝N，执行步骤(6)；

(6)循环结束，最终提取出的波长位置为{k(n),n＝0,1,...,N-1}。

实施例中的连续投影算法参照Mario Cesar Ugulino Araujo等人于2001年发表的论文 “The successive projections algorithm for variable selection inspectroscopic multicomponent analysis”公开的连续投影算法。

相比之下，目前已有的算法大多考虑如何选出有效的波段或波长区间，并不会对波长点或波长区间进行仔细地优化；精选算法则一般以各种逐步选择算法等为代表，这些算法在进行波长选择时不仅要求选中有效的波段，还追求选用数量尽可能少的代表性波长点。

本发明先使用迭代保留信息法对预处理后的光谱进行筛选，提高了后续的波长点选择计算的效果，再将几种波长选择算法进行并联，取其交集。实施例的这四类波长选择算法在进行波长选择时具有一定的互补性，将其并集、集成，构建的堆叠式模型用于土壤重金属含量的检测，提高了检测模型的精度和泛化性能，解决了单一特征变量选择方法的缺陷，能有效提高样本的检测精度，同时检测效果的稳定性也有所提高，解决了变量区间选择方法产生的 “共线性和冗余”问题。