CN117874480A - 基于ico-boss算法的土壤重金属光谱特征提取方法 - Google Patents
基于ico-boss算法的土壤重金属光谱特征提取方法 Download PDFInfo
- Publication number
- CN117874480A CN117874480A CN202311682639.8A CN202311682639A CN117874480A CN 117874480 A CN117874480 A CN 117874480A CN 202311682639 A CN202311682639 A CN 202311682639A CN 117874480 A CN117874480 A CN 117874480A
- Authority
- CN
- China
- Prior art keywords
- wavelength
- algorithm
- boss
- ico
- heavy metal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910001385 heavy metal Inorganic materials 0.000 title claims abstract description 58
- 239000002689 soil Substances 0.000 title claims abstract description 43
- 230000003595 spectral effect Effects 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 title claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 47
- 238000005070 sampling Methods 0.000 claims description 32
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000002922 simulated annealing Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 5
- 238000004876 x-ray fluorescence Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 description 12
- 239000011651 chromium Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 229910052785 arsenic Inorganic materials 0.000 description 1
- RQNWIZPPADIBDY-UHFFFAOYSA-N arsenic atom Chemical compound [As] RQNWIZPPADIBDY-UHFFFAOYSA-N 0.000 description 1
- 238000001479 atomic absorption spectroscopy Methods 0.000 description 1
- 238000001391 atomic fluorescence spectroscopy Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052793 cadmium Inorganic materials 0.000 description 1
- BDOSMKKIYDKNTQ-UHFFFAOYSA-N cadmium atom Chemical compound [Cd] BDOSMKKIYDKNTQ-UHFFFAOYSA-N 0.000 description 1
- 238000013098 chemical test method Methods 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004993 emission spectroscopy Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000009616 inductively coupled plasma Methods 0.000 description 1
- 238000001095 inductively coupled plasma mass spectrometry Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000011133 lead Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- QSHDDOUJBYECFT-UHFFFAOYSA-N mercury Chemical compound [Hg] QSHDDOUJBYECFT-UHFFFAOYSA-N 0.000 description 1
- 229910052753 mercury Inorganic materials 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000009659 non-destructive testing Methods 0.000 description 1
- 238000003900 soil pollution Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000004846 x-ray emission Methods 0.000 description 1
Landscapes
- Analysing Materials By The Use Of Radiation (AREA)
Abstract
本发明涉及基于ICO‑BOSS算法的土壤重金属光谱特征提取方法,包括:采集土壤样品,配置样本,获取样本的光谱,形成样本数据集;运行BOSS算法,计算各变量被选中的概率,挑选出概率大的波长变量,计算预测模型的RMSECV平均值并调整波长变量的数量使RMSECV平均值最小,确定波长变量的最优数量N;多次重复运行串联的ICO‑BOSS算法进行波长变量选择,计算各变量被选中的概率,从中选出N个概率大的波长变量,计算预测模型的RMSECV平均值,调整波长变量的数量使RMSECV平均值最小,得到最优波长变量集。本发明采用ICO‑BOSS算法,并采用波长频次选择策略,选出最优波长变量集,用于重金属含量的预测,提高了预测模型的稳定性和精度。
Description
技术领域
本发明属于土壤重金属检测领域,具体涉及一种基于ICO-BOSS算法的土壤重金属光谱特征提取方法。
背景技术
随着化工、交通、农业发展,土壤重金属污染情况广泛存在。 目前,我国大部分地区普遍存在土壤重金属污染问题。土壤重金属污染除了自然因素外还与现代工矿业和农业生产以及人类活动影响有关,这是造成土壤重金属污染的主要原因。土壤重金属污染主要以镉、砷、铅、铜、铬、汞等为主。由于土壤重金属污染具有长期性、隐匿性、难消逝、不可逆等特点,受污染的土壤中重金属可移动性差,滞留时间长。此外,重金属难以被微生物降解,一旦经水、植物等介质后,被动植物吸收后容易进入到人类食物链中,影响人类健康。因此,对土壤中重金属进行监督和监测对中国农业安全生产和保障人类健康有着重大的意义。
目前,传统的土壤重金属检测方法多采用化学分析仪器,如原子吸收光谱法、原子荧光光谱法、电感耦合等离子质谱法、电感耦合等离子体发射光谱法等,这些检测方法精度高,但是检测过程中存在一定的环境污染且效率低成本高,不利于土壤重金属的快速检测。
X射线荧光光谱分析法作为一种快速无损检测方法与传统的化学检测方法对比,具有样本前处理简便,测量成本低,仪器操作简单,结果相对稳定的优点。可以现场大范围内快速确定土壤中金属元素含量,对土壤污染调查和土壤中各种重金属元素的快速检测和筛查工作有重要意义。引导软阈值算法(Bootstrapping soft shrinkage, BOSS)与区间组合优化算法(Interval combination optimization, ICO)是目前较为流行的光谱选择算法,虽然ICO和BOSS运行速度较快,但是ICO采用的加权自举采样和BOSS采用的自助随机采样的随机性较大,影响预测模型的稳定性与精度。
发明内容
本发明的目的是针对上述问题,提供一种基于ICO-BOSS算法的土壤重金属光谱特征提取方法,利用串联的区间组合优化算法ICO和引导软阈值算法BOSS,即ICO-BOSS算法,作为光谱波长变量选择算法,并利用模拟退火算法对引导软阈值算法的参数进行寻优,得到最优的引导软阈值算法参数;采用波长频次选择策略,重复运行波长变量选择算法,计算各波长变量被选中的概率,选出被选中概率大的波长变量,并利用偏最小二乘法(PartialLeast Square, PLS)建立预测模型,用于土壤重金属含量的检测,提高预测模型的稳定性和精度。
本发明的技术方案是基于ICO-BOSS算法的土壤重金属光谱特征提取方法,包括以下步骤:
步骤1:采集土壤样品,配置预定重金属浓度范围的土壤样本;获取土壤样本的X射线荧光光谱,其中重金属元素的含量值利用化学方法标定,形成样本光谱数据集;
步骤2:重复多次运行引导软阈值算法算法,计算各波长变量被选中的概率,挑选出被选中概率大的波长变量,对重金属含量进行预测,计算交互验证均方根误差(Rootmean square error of cross validation,RMSECV)的平均值,增大或减小挑选的波长变量的数量,直至RMSECV平均值最小,确定引导软阈值算法算法挑选的波长变量的最优数量N;
步骤3:重复运行串联的ICO-BOSS算法对光谱进行波长变量选择,计算各波长变量被选中的概率,根据概率大小对波长变量进行排序,从中选出N个波长变量,对重金属含量进行预测,计算重金属含量预测结果的RMSECV平均值,增大或减小挑选的波长变量的数量,直至RMSECV平均值最小,得到最优的预测重金属含量的波长变量。
优选地,所述步骤2中,采用偏最小二乘法模型构建重金属含量的预测模型,偏最小二乘法模型的主成分数为10。
进一步地,所述区间组合优化算法ICO,包括以下步骤:
1)确定最优区间划分数量、偏最小二乘法子模型的个数和子模型的比例,
将光谱划分为多个子区间,并分别建立偏最小二乘法子模型预测重金属含量,观察不同数量的区间划分下的试验结果,最小的均方根误差值对应的区间划分数量为最佳子区间数量;
2)对波长区间进行组合优化;
2.1)偏最小二乘法子模型生成,采用加权自举采样WBS生成M个不同波长区间随机组合形成的光谱子集,M表示采样次数,每个波长变量的初始采样权重为1,一次采样中波长变量i被选中的概率p i的计算式如下:
(1)
式中n代表波长变量的数量,w i表示波长i的采样权重;
2.2)采用偏最小二乘法和5折交互检验的方式计算每个波长区间组合子集对应的子模型的RMSECV值;
2.3)从全部波长区间组合中提取比例为α的区间组合子集,并计算出这部分区间组合子集对应的子模型的RMSECV平均值,记作RMSECVm;
2.4)统计每个波长区间的波长变量在步骤2.3)确定的区间组合子集中出现的频次,下一轮迭代中第i个波长区间的采样权重的计算式如下:
(2)
式中表示第i个波长区间的波长变量在提取的区间组合子集中出现的频次,/>表示提取的区间组合子集包含的波长区间的数量;
重复步骤2.1)至步骤2.4)形成迭代循环,直到RMSECVm出现上升,终止迭代,执行步骤2.5);
2.5)最后一次迭代中,RMSECVm值最小的那一组波长区间作为最终选中的波长区间。
进一步地,所述引导软阈值算法BOSS,具体包括:
S1:在波长变量空间中采用自助随机采样方法生成K个子集,在每个子集中提取波长变量,并剔除重复波长变量,对剔除后剩余的波长变量赋予相等的权重;
S2:对步骤S1得到的波长变量子集,利用偏最小二乘法建立子模型,计算子模型的RMSECV值,通过较小的RMSECV值提取最佳子模型;
S3:计算子模型的回归系数,对所有回归矢量进行归一化并求和,得到新的波长变量的权重;
(3)
式中W i表示波长变量i的权重,K表示子模型数量,b i,k表示第k个子模型中变量i的归一化回归系数绝对值;
S4:基于得到的波长变量的权重,应用加权自举采样方法生成新的子集,在子集中提取波长变量,剔除重复变量并利用偏最小二乘法建立子模型,将回归系数绝对值较大的变量赋予较大的权重,重复执行步骤S2、S3、S4,直到得到的新子集的波长变量数量为1时停止,迭代过程中将RMSECV值最小的子集作为最优波长变量集。
优选地,步骤2还包括利用模拟退火算法对引导软阈值算法的参数进行寻优,得到最优的引导软阈值算法参数,具体包括:
步骤一:对于每一种参数,选择初始解x 0,令当前迭代解x i=x 0,将迭代步数l初始化l=0,当前迭代温度t l=t 0,t 0表示参数任意可取的值;
步骤二:如果在当前温度达到内循环停止条件,则执行步骤三;否则,从当前解x i的邻域N(x i)中随机选择一个邻居x j,计算Δf ij=f(x j)-f(x i),Δf ij表示新解与当前解的模型RMSECV差,f(x i)、f(x j)分别表示当前解与新解的RMSECV;如果Δf ij≤0,则接受新解,令x i=x j,迭代次数l=l+1,执行步骤三,否则计算exp(-Δfij/tk),如果exp(-Δfij/tk)>random(0,1),则接受新解,令x i=x j,迭代次数l=l+1,否则重新选择邻居,执行步骤二;
步骤三:判断是否达到迭代终止次数,若是,执行步骤四,否则执行步骤二进行下一次迭代;
步骤四:判断模型的RMESCV是否达到设定的阈值,如果是,输出当前解,否则降低温度值并跳转至步骤二,开始新一轮迭代搜索,直至满足终止条件。
步骤2得到的最优的引导软阈值算法参数包括:迭代次数N=50,采样次数K=1500,模型选取比率δ= 5%。
相比现有技术,本发明的有益效果包括:
1)本发明采用ICO-BOSS算法对光谱进行波长变量选择,并采用波长频次选择策略,重复运行波长变量选择算法,计算各波长变量被选中的概率,选出被选中概率大的波长变量,用于土壤重金属含量的检测,提高了预测模型的稳定性和精度。
2)本发明采用模拟模拟退火算法对引导软阈值算法的参数进行寻优,得到最优的引导软阈值算法参数,再利用串联的ICO-BOSS算法对光谱进行波长变量选择,进一步提高了预测模型的预测效果。
3)本发明的ICO-BOSS算法先利用ICO算法对全光谱进行初步筛选后,再对选出的波长区间利用BOSS算法进行精选,解决了单独采用BOSS算法选出的波长变量集中包含无关信息变量甚至干扰变量的问题。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1为本发明实施例的土壤重金属光谱特征提取、优化方法的流程示意图。
图2a为采用频次选择策略的BOSS算法建立的预测模型在训练集上的预测效果示意图。
图2b为采用频次选择策略的BOSS算法建立的预测模型在测试集上的预测效果示意图。
图3a为采用频次选择策略的ICO-BOSS算法建立的预测模型在训练集上的预测效果示意图。
图3b为采用频次选择策略的ICO-BOSS算法建立的预测模型在测试集上的预测效果示意图。
具体实施方式
实施例对土壤中重金属元素Cr的含量进行检测。
如图1所示,基于ICO-BOSS算法的土壤重金属光谱特征提取方法,包括以下步骤:
步骤1:在取样地点1公里范围没有污染源的农田中采集土壤样品,采用浓度梯度法配置预定重金属浓度范围的土壤样本,获取土壤样本的X射线荧光光谱,其中重金属元素的含量值利用化学方法标定,形成样本光谱数据集,并按比例分为训练集和测试集;
步骤2:利用模拟退火算法对引导软阈值算法的参数进行寻优,得到最优的引导软阈值算法参数;重复运行引导软阈值算法算法100次,计算各波长变量被选中的概率,挑选出被选中概率大的波长变量,建立偏最小二乘法模型对重金属含量进行预测,计算RMSECV平均值,增大或减小挑选的波长变量的数量,直至RMSECV平均值最小,确定引导软阈值算法算法挑选的波长变量的最优数量为32;
偏最小二乘法模型的主成分数为10。模拟退火算法得到的最优的引导软阈值算法参数包括:迭代次数N=50,采样次数K=1500,模型选取比率δ=5%。
运行引导软阈值算法100次得到的波长变量的频次如表1所示,表中波长变量按频次大小降序排列。
表1 多次运行BOSS算法得到的波长变量频次数据表
选取频次超过40的波长变量,利用偏最小二乘法模型对Cr元素的含量进行预测,计算RMSE和R 2,并依次选取频次超过40、50、60、70的波长变量,计算偏最小二乘法模型的预测误差,如表2所示。
表2 BOSS算法选出的不同频次的波长变量的预测模型的预测误差对比表
和单次运行BOSS算法选出的波长变量集的预测模型相比,采用波长频次选择策略选出的波长变量集的预测模型的R 2 c、RMSEc、R 2 p、RMSEp均有提升。频次超过60的波长变量的预测模型效果最好,稳定性最高,其预测结果与真实值的关系如图2a、图2b所示。
步骤3:重复运行串联的ICO-BOSS算法100次对光谱进行波长变量选择,即先使用ICO算法进行初筛,对筛选出的波长变量再使用BOSS算法精筛。然后计算各波长变量被选中的概率,根据概率大小对波长变量进行排序,从中选出频率超过50、60、70、80的波长变量,对重金属含量进行预测,计算偏最小二乘法模型的RMSECV平均值,增大或减小挑选的波长变量的数量,直至RMSECV平均值最小,得到最优的预测重金属含量的波长变量;
偏最小二乘法模型的主成分数为10。BOSS算法的参数和步骤2中BOSS算法的参数相同。
运行ICO-BOSS算法100次得到的波长变量的频次如表3所示,表中波长变量按频次大小降序排列。
选取频次超过50的波长变量,利用偏最小二乘法模型对Cr元素的含量进行预测,计算RMSE和R 2,并依次选取频次超过50、60、70、80的波长变量,计算偏最小二乘法模型的预测误差,如表4所示。
由表4可见,频次超过70的波长变量的预测模型的预测效果最好,稳定性最高,其预测结果与真实值的关系如图3a、图3b所示。
实施例中,将本发明串联的ICO-BOSS算法的建模效果与不采用频次选择策略的BOSS、串联的ICO-BOSS以及采用频次选择策略的BOSS算法的建模效果进行对比,如表5所示。
由表5可见,采用频次选择策略的BOSS、串联的ICO-BOSS算法建立偏最小二乘法预测模型的均方根误差RMSE相比现有的不采用频次选择策略的BOSS算法建立的预测模型的RMSE减小,R2增大,其中采用频次选择策略的串联的ICO-BOSS算法建立的预测模型的预测效果的提升最显著。对比结果说明频次选择策略可在一定程度上提升重金属浓度预测模型的预测效果和稳定性。
表3 多次运行ICO-BOSS算法100次得到的波长变量频次数据表
表4 ICO-BOSS算法选出的不同频次的波长变量的预测模型的预测误差对比表
表5 不同波长选择算法PLS建模性能比较
步骤4:获取待测土壤样品的光谱,利用步骤3得到的波长变量建立偏最小二乘法模型,对重金属Cr含量进行预测。
实施例的区间组合优化算法ICO,包括以下步骤:
1)确定最优区间划分数量、偏最小二乘法子模型的个数和子模型的比例,
将光谱划分为多个子区间,并分别建立偏最小二乘法子模型预测重金属含量,观察不同数量的区间划分下的试验结果,最小的均方根误差值对应的区间划分数量为最佳子区间数量;
2)对波长区间进行组合优化;
2.1)偏最小二乘法子模型生成,采用加权自举采样WBS生成M个不同波长区间随机组合形成的光谱子集,M表示采样次数,每个波长变量的初始采样权重为1,一次采样中波长变量i被选中的概率p i的计算式如下:
(1)
式中n代表波长变量的数量,w i表示波长i的采样权重;
2.2)采用偏最小二乘法和5折交互检验的方式计算每个波长区间组合子集对应的子模型的RMSECV值;
2.3)从全部波长区间组合中提取比例为α的区间组合子集,并计算出这部分区间组合子集对应的子模型的RMSECV平均值,记作RMSECVm;
2.4)统计每个波长区间在步骤2.3)确定的区间组合子集中出现的频次,下一轮迭代中第i个波长区间的采样权重的计算式如下:
(2)
式中表示第i个波长区间在提取的区间组合子集中出现的频次,/>表示提取的区间组合子集包含的波长区间的数量;
重复步骤2.1)至步骤2.4)形成迭代循环,直到RMSECVm出现上升,终止迭代,执行步骤2.5);
2.5)最后一次迭代中,RMSECVm值最小的那一组波长区间作为最终选中的波长区间。
实施例中所述的加权自举采样方法(WBS)参照任顺等人2020年发表的论文“基于X射线荧光光谱与多特征串联策略的土壤重金属含量预测”中公开的加权自举采样方法。
实施例的引导软阈值算法BOSS,具体包括:
S1:在波长变量空间中采用自助随机采样方法生成K个子集,在每个子集中提取波长变量,并剔除重复波长变量,对剔除后剩余的波长变量赋予相等的权重;
S2:对步骤S1得到的波长变量子集,利用偏最小二乘法建立子模型,计算子模型的RMSECV值,通过较小的RMSECV值提取最佳子模型;
S3:计算子模型的回归系数,对所有回归矢量进行归一化并求和,得到新的波长变量的权重;
(3)
式中W i表示波长变量i的权重,K表示子模型数量,b i,k表示第k个子模型中变量i的归一化回归系数绝对值;
S4:基于得到的波长变量的权重,应用加权自举采样方法生成新的子集,在子集中提取波长变量,剔除重复变量并利用偏最小二乘法建立子模型,将回归系数绝对值较大的变量赋予较大的权重,重复执行步骤S2、S3、S4,直到得到的新子集的波长变量数量为1时停止,迭代过程中将RMSECV值最小的子集作为最优波长变量集。
实施例中,利用模拟退火算法对引导软阈值算法的参数进行寻优,得到最优的引导软阈值算法参数,具体包括:
步骤一:对于每一种参数,选择初始解x 0,令当前迭代解x i=x 0,将迭代步数l初始化l=0,当前迭代温度t l=t 0,t 0表示参数任意可取的值;
步骤二:如果在当前温度达到内循环停止条件,则执行步骤三;否则,从当前解x i的邻域N(x i)中随机选择一个邻居x j,计算Δf ij=f(x j)-f(x i),Δf ij表示新解与当前解的模型RMSECV差,f(x i)、f(x j)分别表示当前解与新解的RMSECV;如果Δf ij≤0,则接受新解,令x i=x j,迭代次数l=l+1,执行步骤三,否则计算exp(-Δfij/tk),如果exp(-Δfij/tk)>random(0,1),则接受新解,令x i=x j,迭代次数l=l+1,否则重新选择邻居,执行步骤二;
步骤三:判断是否达到迭代终止次数,若是,执行步骤四,否则执行步骤二进行下一次迭代;
步骤四:判断模型的RMESCV是否达到设定的阈值,如果是,输出当前解,否则降低温度值并跳转至步骤二,开始新一轮迭代搜索,直至满足终止条件。
Claims (7)
1.基于ICO-BOSS算法的土壤重金属光谱特征提取方法,其特征在于,包括以下步骤:
步骤1:采集土壤样品,配置预定重金属浓度范围的土壤样本;获取土壤样本的X射线荧光光谱,其中重金属元素的含量值利用化学方法标定,形成样本光谱数据集;
步骤2:重复多次运行引导软阈值算法算法,计算各波长变量被选中的概率,挑选出被选中概率大的波长变量,对重金属含量进行预测,计算交互验证均方根误差平均值,增大或减小挑选的波长变量的数量,直至交互验证均方根误差平均值最小,确定引导软阈值算法算法挑选的波长变量的最优数量N;
步骤3:重复运行串联的ICO-BOSS算法对光谱进行波长变量选择,计算各波长变量被选中的概率,根据概率大小对波长变量进行排序,从中选出N个波长变量,对重金属含量进行预测,计算重金属含量预测结果的交互验证均方根误差平均值,增大或减小挑选的波长变量的数量,直至交互验证均方根误差平均值最小,得到最优的预测重金属含量的波长变量。
2.根据权利要求1所述的基于ICO-BOSS算法的土壤重金属光谱特征提取方法,其特征在于,所述步骤2中,采用偏最小二乘法模型构建重金属含量的预测模型。
3.根据权利要求2所述的基于ICO-BOSS算法的土壤重金属光谱特征提取方法,其特征在于,所述区间组合优化算法ICO,包括以下步骤:
1)确定最优区间划分数量、偏最小二乘法子模型的个数和子模型的比例,
将光谱划分为多个子区间,并分别建立偏最小二乘法子模型预测重金属含量,观察不同数量的区间划分下的试验结果,最小的均方根误差值对应的区间划分数量为最佳子区间数量;
2)对波长区间进行组合优化;
2.1)偏最小二乘法子模型生成,采用加权自举采样生成M个不同波长区间随机组合形成的光谱子集,M表示采样次数,每个波长变量的初始采样权重为1,一次采样中波长变量i被选中的概率p i的计算式如下:
(1)
式中n代表波长变量的数量,w i表示波长i的采样权重;
2.2)采用偏最小二乘法和5折交互检验的方式计算每个波长区间组合子集对应的子模型的交互验证均方根误差值;
2.3)从全部波长区间组合中提取比例为α的区间组合子集,并计算出这部分区间组合子集对应的子模型的交互验证均方根误差平均值,记作RMSECVm;
2.4)统计每个波长区间的波长变量在步骤2.3)确定的区间组合子集中出现的频次,下一轮迭代中第i个波长区间的采样权重的计算式如下:
(2)
式中表示第i个波长区间的波长变量在提取的区间组合子集中出现的频次,/>表示提取的区间组合子集包含的波长区间的数量;
重复步骤2.1)至步骤2.4)形成迭代循环,直到RMSECVm出现上升,终止迭代,执行步骤2.5);
2.5)最后一次迭代中,RMSECVm值最小的那一组波长区间作为最终选中的波长区间。
4.根据权利要求2或3所述的基于ICO-BOSS算法的土壤重金属光谱特征提取方法,其特征在于,所述引导软阈值算法BOSS,具体包括:
S1:在波长变量空间中采用自助随机采样方法生成子集,在每个子集中提取波长变量,并剔除重复波长变量,对剔除后剩余的波长变量赋予相等的权重;
S2:对步骤S1得到的波长变量子集,利用偏最小二乘法建立子模型,计算子模型的交互验证均方根误差,通过较小的交互验证均方根误差值提取最佳子模型;
S3:计算子模型的回归系数,对所有回归矢量进行归一化并求和,得到新的波长变量的权重;
(3)
式中W i表示波长变量i的权重,K表示子模型数量,b i,k表示第k个子模型中变量i的归一化回归系数绝对值;
S4:基于得到的波长变量的权重,应用加权自举采样方法生成新的子集,在子集中提取波长变量,剔除重复变量并利用偏最小二乘法建立子模型,将回归系数绝对值较大的变量赋予较大的权重,重复执行步骤S2、S3、S4,直到得到的新子集的波长变量数量为1时停止,迭代过程中将交互验证均方根误差最小的子集作为最优波长变量集。
5.根据权利要求4所述的基于ICO-BOSS算法的土壤重金属光谱特征提取方法,其特征在于,步骤2还包括利用模拟退火算法对引导软阈值算法的参数进行寻优,得到最优的引导软阈值算法参数,具体包括:
步骤一:对于每一种参数,选择初始解x 0,令当前迭代解x i=x 0,将迭代步数l初始化l=0,当前迭代温度t l=t 0,t 0表示参数任意可取的值;
步骤二:如果在当前温度达到内循环停止条件,则执行步骤三;否则,从当前解x i的邻域N(x i)中随机选择一个邻居x j,计算,/>表示当前解x i与邻居x j作为参数的预测模型的交互验证均方根误差的差值,/>、/>分别表示x i、x j作为参数的预测模型的交互验证均方根误差值;如果/>≤0,则接受新解,令x i=x j,迭代次数l=l+1,执行步骤三,否则计算/>,如果/>>random(0,1),则接受新解,令x i=x j,迭代次数l=l+1,否则重新选择邻居,执行步骤二;
步骤三:判断是否达到迭代终止次数,若是,执行步骤四,否则执行步骤二进行下一次迭代;
步骤四:判断预测模型的交互验证均方根误差值是否达到设定的阈值,如果是,输出当前解,否则降低温度值并跳转至步骤二,开始新一轮迭代搜索,直至满足终止条件。
6.根据权利要求2或3或5所述的基于ICO-BOSS算法的土壤重金属光谱特征提取方法,其特征在于,偏最小二乘法模型的主成分数为10。
7.根据权利要求6所述的基于ICO-BOSS算法的土壤重金属光谱特征提取方法,其特征在于,步骤2得到的最优的引导软阈值算法参数包括:迭代次数N=50,采样次数K=1500,模型选取比率δ = 5%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311682639.8A CN117874480A (zh) | 2021-12-31 | 2021-12-31 | 基于ico-boss算法的土壤重金属光谱特征提取方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111677903.XA CN114354666B (zh) | 2021-12-31 | 2021-12-31 | 基于波长频次选择的土壤重金属光谱特征提取、优化方法 |
CN202311682639.8A CN117874480A (zh) | 2021-12-31 | 2021-12-31 | 基于ico-boss算法的土壤重金属光谱特征提取方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111677903.XA Division CN114354666B (zh) | 2021-12-31 | 2021-12-31 | 基于波长频次选择的土壤重金属光谱特征提取、优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117874480A true CN117874480A (zh) | 2024-04-12 |
Family
ID=81105237
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111677903.XA Active CN114354666B (zh) | 2021-12-31 | 2021-12-31 | 基于波长频次选择的土壤重金属光谱特征提取、优化方法 |
CN202311682639.8A Pending CN117874480A (zh) | 2021-12-31 | 2021-12-31 | 基于ico-boss算法的土壤重金属光谱特征提取方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111677903.XA Active CN114354666B (zh) | 2021-12-31 | 2021-12-31 | 基于波长频次选择的土壤重金属光谱特征提取、优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114354666B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115656074B (zh) * | 2022-12-28 | 2023-04-07 | 山东省科学院海洋仪器仪表研究所 | 一种海水cod光谱变量特征自适应选择估计方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107727676A (zh) * | 2017-09-14 | 2018-02-23 | 三峡大学 | 一种基于向前间隔偏最小二乘算法的土壤重金属含量建模方法 |
CN109902411B (zh) * | 2019-03-07 | 2020-08-11 | 三峡大学 | 土壤重金属含量检测建模方法及装置、检测方法及装置 |
CN110361356A (zh) * | 2019-07-30 | 2019-10-22 | 长春理工大学 | 一种提高小麦水分预测精度的近红外光谱变量选择方法 |
CN110991064B (zh) * | 2019-12-11 | 2021-07-20 | 广州城建职业学院 | 土壤重金属含量反演模型生成方法、系统及反演方法 |
CN111504942A (zh) * | 2020-04-26 | 2020-08-07 | 长春理工大学 | 一种提高牛奶中蛋白质预测精度的近红外光谱分析方法 |
CN113049507A (zh) * | 2021-03-09 | 2021-06-29 | 三峡大学 | 多模型融合的光谱波长选择方法 |
-
2021
- 2021-12-31 CN CN202111677903.XA patent/CN114354666B/zh active Active
- 2021-12-31 CN CN202311682639.8A patent/CN117874480A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN114354666B (zh) | 2023-12-26 |
CN114354666A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101430276B (zh) | 光谱分析中波长变量优选的方法 | |
CN103913432B (zh) | 基于粒子群算法的近红外光谱波长选择方法 | |
CN105981025A (zh) | 基于序列递归滤波三维变分的实测海洋环境数据同化方法 | |
CN110907393B (zh) | 植物盐碱胁迫程度检测方法及装置 | |
CN111853555A (zh) | 一种基于动态过程的供水管网暗漏识别方法 | |
CN107632010B (zh) | 一种结合激光诱导击穿光谱对钢铁样品的定量方法 | |
CN107958267B (zh) | 一种基于光谱线性表示的油品性质预测方法 | |
CN111863147B (zh) | Sf6及其分解组分气体的浓度检测方法及装置 | |
CN112462001B (zh) | 一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法 | |
CN115829157A (zh) | 基于变分模态分解和Autoformer模型的化工水质指标预测方法 | |
CN113011660A (zh) | 空气质量预测方法、系统及存储介质 | |
CN114354666B (zh) | 基于波长频次选择的土壤重金属光谱特征提取、优化方法 | |
CN113268833A (zh) | 一种基于深度联合分布对齐的迁移故障诊断方法 | |
CN113889198A (zh) | 一种基于油色谱时频域信息和残差注意力网络的变压器故障诊断方法及设备 | |
CN115598162A (zh) | 基于堆叠式模型的土壤重金属含量检测方法 | |
CN111914490A (zh) | 一种基于深度卷积随机森林自编码的泵站机组状态评价方法 | |
CN111880957A (zh) | 一种基于随机森林模型的程序错误定位方法 | |
CN116610990A (zh) | 一种基于特征空间差异化的断路器隐患识别方法及装置 | |
CN113011086B (zh) | 一种基于ga-svr算法森林生物量的估测方法 | |
CN115130377A (zh) | 一种boss-sapso优化极限学习机的土壤重金属预测方法 | |
CN115982566A (zh) | 一种水电机组多通道故障诊断方法 | |
CN113361209B (zh) | 一种高温合金表面缺陷磁异常定量分析方法 | |
CN112881333B (zh) | 一种基于改进免疫遗传算法的近红外光谱波长筛选方法 | |
CN114417227A (zh) | 一种水体中叶绿素a浓度预测方法 | |
CN106644977A (zh) | 一种基于蝙蝠算法的光谱变量选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |