CN115130377A - 一种boss-sapso优化极限学习机的土壤重金属预测方法 - Google Patents

一种boss-sapso优化极限学习机的土壤重金属预测方法 Download PDF

Info

Publication number
CN115130377A
CN115130377A CN202210704753.5A CN202210704753A CN115130377A CN 115130377 A CN115130377 A CN 115130377A CN 202210704753 A CN202210704753 A CN 202210704753A CN 115130377 A CN115130377 A CN 115130377A
Authority
CN
China
Prior art keywords
particle
heavy metal
learning machine
extreme learning
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210704753.5A
Other languages
English (en)
Inventor
任顺
陆旻波
肖配
任东
陆安祥
安毅
肖敏
张清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202210704753.5A priority Critical patent/CN115130377A/zh
Publication of CN115130377A publication Critical patent/CN115130377A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N23/00Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00
    • G01N23/22Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00 by measuring secondary emission from the material
    • G01N23/223Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00 by measuring secondary emission from the material by irradiating the sample with X-rays or gamma-rays and by measuring X-ray fluorescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种BOSS‑SAPSO优化极限学习机的土壤重金属预测方法,它包括以下步骤:步骤1:采集土壤样品X射线荧光光谱数据和重金属含量值,构建样本集;步骤2:对样本集或待检测光谱信息进行预处理;步骤3:对预处理后的光谱数据进行特征选择;步骤4:建立极限学习机;步骤5:采用优化后的权重和隐含层偏置训练极限学习机,得到土壤重金属预测模型,将测试集输入预测模型,得到重金属的预测值。本发明的目的是为了解决在现有的土壤重金属预测中,所获得的相关光谱数据维度高、数据间冗余大且光谱与土壤重金属之间会呈现复杂的非线性,从而使得土壤重金属预测效率、效果、精准度不高的技术问题。

Description

一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法
技术领域
本发明涉及土壤重金属分析技术领域,具体涉及一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法。
背景技术
土壤作为一种不可再生的自然资源,是人类生存和发展的物质基础。近几十年来,由于工业和集约型农业的发展,土壤重金属污染使其成为一个实质性挑战,重金属通常具有持久的生物有效性并且在土壤中有较长的滞留时间,所以土壤重金属污染问题日益突出。土壤被重金属污染后,不仅会影响土地上种植的蔬菜、水果等作物的生长,还可能通过食物链进入人体,造成潜在的危害。快速准确的预测土壤重金属含量是进行土壤重金属污染防治的关键和前提。
目前对土壤重金属含量的检测主要有两种检测手段,分别为实验室检测手段和快速检测手段,其中,基于气、液相色谱分析检测法的土壤重金属实验室检测手段存在预处理步骤复杂、耗费时间长、检测成本高等问题,不适合农田重金属快速现场检测。而土壤重金属快速检测手段具有检测速度快、检测成本低等优点,但土壤背景复杂多样,通过仪器扫描得到的土壤X射线荧光光谱数据维度高、数据间冗余大,X射线荧光光谱与土壤重金属之间呈现出复杂的非线性,为土壤重金属的预测带来了一定的影响。因此需要建立更加精准的重金属预测模型。
发明内容
本发明的目的是为了解决在现有的土壤重金属预测中,所获得的相关光谱数据维度高、数据间冗余大且光谱与土壤重金属之间会呈现复杂的非线性,从而使得土壤重金属预测效率、效果、精准度不高的技术问题。
一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法,它包括以下步骤:
步骤1:采集土壤样品X射线荧光光谱数据和重金属含量值,构建样本集,将样本集分为训练样本集和测试样本集;
步骤2:对样本集或待检测光谱信息进行预处理;
步骤3:对预处理后的光谱数据进行特征选择,将提取的特征光谱数据作为新的训练样本集和测试样本集;
步骤4:建立极限学习机,将训练样本集中的数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,优化极限学习机的输入权重、隐含层节点数和隐含层偏置,确定极限学习机的输入权重、隐含层节点数和隐含层偏置;
步骤5:采用优化后的权重和隐含层偏置训练极限学习机,得到土壤重金属预测模型,将测试集输入预测模型,得到重金属的预测值。
在步骤3中,采用自举软收缩(BOSS)方法对预处理后的光谱数据进行特征选择,将提取的特征光谱数据作为新的训练样本集和测试样本集;包括以下子步骤:
步骤3.1:在重金属光谱特征变量空间中采用自助随机采样技术生成K子集,在每个子集中提取BSS所选择的变量,并剔除重复变量,将剔除后剩余的所有变量赋予相等的权重;
步骤3.2:利用获得的变量子集建立PLS子模型,共计K个子模型,计算子模型的交叉验证均方根误差(RMSECV),并通过较小的RMSECV提取最佳模型;
y=xb+e
其中,y是重金属浓度值,x是重金属光谱特征变量对应的光谱数据,b是回归系数,e是预测误差
步骤3.3:计算每个子模型的回归系数(bi,k),将回归矢量中所有系数转换为绝对值的形式,并对所有回归矢量进行归一化与回归矢量求和;
Figure BDA0003705804440000021
其中,wi为变量i的新权重,K为子模型个数,bi,k为第k个子模型中变量i归一化回归系数的绝对值
步骤3.4:根据变量的新权重,应用加权引导抽样策略生成新的子集,提取唯一变量并构建子模型;
步骤3.5:如果新的子集中变量数量为1,选择迭代过程中RMSECV最小的子集作为最优变量集,否则,返回步骤3.1;
步骤3.6:根据步骤3.5确定的特征波长建立新的光谱数据集。
在步骤4中,建立极限学习机,将训练样本集中的数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,采用串联自适应粒子群优化算法优化极限学习机的输入权重、隐含层节点数和隐含层偏置,根据全局最优粒子确定极限学习机的输入权重、隐含层节点数和隐含层偏置;包括以下子步骤:
步骤4.1:根据串联类型计算粒子维度,初始化串联自适应粒子群优化算法的粒子维度D;
Figure BDA0003705804440000022
其中,δ为粒子群算法串联类型,p为BOOS算法提取的特征变量个数,h为优化的隐含层节点数,o为输出重金属类型数量;δ=1时表示优化的参数为隐含层节点数;δ=2时表示优化的参数为输入权重和隐含层偏置;δ=3时表示优化的参数为极限学习机网络的所有权重和偏置;
步骤4.2:设定种群规模N、最大迭代次数G、惯性权重w、加速系数c1和c2、粒子速度v和位置x,随机初始化自适应粒子群优化算法的粒子位置初值xi (0)和粒子速度初值vi (0),令粒子的历史最优解pBest设为初始位置,群体最优的粒子作为当前全局最优解gBest,令迭代次数t=1,i=1,2,...,N;
步骤4.3:判断当前迭代次数t是否达到最大迭代次数G,若是,执行步骤4.6,否则,令迭代次数t=t+1,执行步骤4.4;
步骤4.4:更新粒子速度vi (t+1)和位置xi (t+1)
步骤4.5:根据当前粒子群建立极限学习机,将步骤3选取的特征变量对应的光谱数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,计算预测结果与训练样本集土壤重金属含量的均方误差fitness,作为该粒子群的适应度值,记最小适应度值对应的粒子位置为初始全局最优解gBest;
Figure BDA0003705804440000031
其中,
Figure BDA0003705804440000032
为训练样本重金属含量预测值,y为训练样本重金属含量真实值
步骤4.6:更新粒子的历史最优解pBest和全局最优解gBest,返回步骤4.2;
步骤4.7:根据全局最优值确定串联类型下参数最优值,返回步骤4.1。
在步骤4.4中,在更新粒子速度vi (t+1)和位置xi (t+1)时,采用以下子步骤:
步骤4.4.1:计算每个粒子i相对于其他粒子的平均距离di
Figure BDA0003705804440000033
其中,N是种群的大小,D为粒子的维数,
Figure BDA0003705804440000034
表示第k个维度下的第i个粒子位置
步骤4.4.2:计算进化因子f:
Figure BDA0003705804440000035
其中,dg为当前最优粒子与其他粒子的平均距离,dmax为最大平均距离,dmin为最小平均距离
步骤4.4.3:计算自适应惯性因子w:
Figure BDA0003705804440000036
其中,f为进化因子,e为自然常数
步骤4.4.4:更新粒子速度vi (t+1)和位置xi (t+1)
Figure BDA0003705804440000037
Figure BDA0003705804440000038
其中,rand1、rand2为0-1随机数,w为惯性因子、c1和c2加速系数,
Figure BDA0003705804440000039
为t时刻粒子i的速度,
Figure BDA00037058044400000310
为t+1时刻粒子i的速度,
Figure BDA00037058044400000311
为t时刻粒子i的位置,
Figure BDA00037058044400000312
为t+1时刻粒子i的位置,pBesti为粒子i历史最优解,gBest为当前全局最优解;
在步骤4.6中,在更新粒子的历史最优解pBest和全局最优解gBest时,采用以下子步骤:
步骤4.6.1:更新粒子的历史最优解pBest和全局最优解gBest,如果该粒子当前的适应度函数值比历史最优值好,那么历史最优将会被当前位置所替代;如果该粒子的历史最优比全局最优好,全局最优将会被粒子的历史最优所替代;
步骤4.6.2:对全局最优解gBest加入高斯扰动,采用精英学习策略,随机选取一个维度进行变化:
P=gBest;
d=random(1,D);
Figure BDA0003705804440000041
Figure BDA0003705804440000042
其中,random()为随机数函数,D为粒子维度,Pd表示对维度d进行变化,μ是进化状态,是精英学习率,σmax、σmin根据经验显示分别为1与0.1,t当前迭代次数,G总的迭代次数;
步骤4.6.3:如果P的适应度值小于gBest,则更新gBest。
一种建立土壤重金属光谱数据集的方法,它包括以下步骤:
步骤1)在重金属光谱特征变量空间中采用自助随机采样技术生成K子集,在每个子集中提取BSS所选择的变量,并剔除重复变量,将剔除后剩余的所有变量赋予相等的权重;
步骤2)利用获得的变量子集建立PLS子模型,共计K个子模型,计算子模型的交叉验证均方根误差(RMSECV),并通过较小的RMSECV提取最佳模型;
y=xb+e
其中,y是重金属浓度值,x是重金属光谱特征变量对应的光谱数据,b是回归系数,e是预测误差;
步骤3)计算每个子模型的回归系数(bi,k),将回归矢量中所有系数转换为绝对值的形式,并对所有回归矢量进行归一化与回归矢量求和;
Figure BDA0003705804440000043
其中,wi为变量i的新权重,K为子模型个数,bi,k为第k个子模型中变量i归一化回归系数的绝对值
步骤4)根据变量的新权重,应用加权引导抽样策略生成新的子集,提取唯一变量并构建子模型;
步骤5)如果新的子集中变量数量为1,选择迭代过程中RMSECV最小的子集作为最优变量集,否则,返回步骤3.1;
步骤6)根据步骤3.5确定的特征波长建立新的光谱数据集。
一种用于土壤重金属预测的极限学习机的获取方法,它包括以下步骤:
步骤1)根据串联类型计算粒子维度,初始化串联自适应粒子群优化算法的粒子维度D;
Figure BDA0003705804440000051
其中,δ为粒子群算法串联类型,p为BOOS算法提取的特征变量个数,h为优化的隐含层节点数,o为输出重金属类型数量;δ=1时表示优化的参数为隐含层节点数;δ=2时表示优化的参数为输入权重和隐含层偏置;δ=3时表示优化的参数为极限学习机网络的所有权重和偏置;
步骤2)设定种群规模N、最大迭代次数G、惯性权重w、加速系数c1和c2、粒子速度v和位置x,随机初始化自适应粒子群优化算法的粒子位置初值xi (0)和粒子速度初值vi (0),令粒子的历史最优解pBest设为初始位置,群体最优的粒子作为当前全局最优解gBest,令迭代次数t=1,i=1,2,...,N;
步骤3)判断当前迭代次数t是否达到最大迭代次数G,若是,执行步骤6),否则,令迭代次数t=t+1,执行步骤4);
步骤4)更新粒子速度vi (t+1)和位置xi (t+1)
步骤5)根据当前粒子群建立极限学习机,将所获得的目标光谱数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,计算预测结果与训练样本集土壤重金属含量的均方误差fitness,作为该粒子群的适应度值,记最小适应度值对应的粒子位置为初始全局最优解gBest;
Figure BDA0003705804440000052
其中,
Figure BDA0003705804440000053
为训练样本重金属含量预测值,y为训练样本重金属含量真实值
步骤6)更新粒子的历史最优解pBest和全局最优解gBest,返回步骤2);
步骤7)根据全局最优值确定串联类型下参数最优值,返回步骤1)。
在步骤4)中,包括以下子步骤:
步骤4-1)计算每个粒子i相对于其他粒子的平均距离di
Figure BDA0003705804440000054
其中,N是种群的大小,D为粒子的维数,
Figure BDA0003705804440000055
表示第k个维度下的第i个粒子位置
步骤4-2)计算进化因子f:
Figure BDA0003705804440000056
其中,dg为当前最优粒子与其他粒子的平均距离,dmax为最大平均距离,dmin为最小平均距离
步骤4-3)计算自适应惯性因子w:
Figure BDA0003705804440000057
其中,f为进化因子,e为自然常数;
步骤4-4)更新粒子速度vi (t+1)和位置xi (t+1)
Figure BDA0003705804440000061
Figure BDA0003705804440000062
其中,rand1、rand2为0-1随机数,w为惯性因子、c1和c2加速系数,
Figure BDA0003705804440000063
为t时刻粒子i的速度,
Figure BDA0003705804440000064
为t+1时刻粒子i的速度,
Figure BDA0003705804440000065
为t时刻粒子i的位置,
Figure BDA0003705804440000066
为t+1时刻粒子i的位置,pBesti为粒子i历史最优解,gBest为当前全局最优解。
在步骤6)中,包括以下子步骤:
步骤6-1)更新粒子的历史最优解pBest和全局最优解gBest,如果该粒子当前的适应度函数值比历史最优值好,那么历史最优将会被当前位置所替代;如果该粒子的历史最优比全局最优好,全局最优将会被粒子的历史最优所替代;
步骤6-2)对全局最优解gBest加入高斯扰动,采用精英学习策略,随机选取一个维度进行变化:
P=gBest;
d=random(1,D);
Figure BDA0003705804440000067
Figure BDA0003705804440000068
其中,random()为随机数函数,D为粒子维度,Pd表示对维度d进行变化,μ是进化状态,是精英学习率,σmax、σmin根据经验显示分别为1与0.1,t当前迭代次数,G总的迭代次数
步骤6-3)如果P的适应度值小于gBest,则更新gBest。
与现有技术相比,本发明具有如下技术效果:
1)本发明提出的一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法能够快速、准备检测出土壤中重金属的含量,对农田土壤重金属污染风险的快速响应、准确预测及决策管理具有重要的现实意义;
2)本发明提出的一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法,采用BOSS方法进行特征选择,消除光谱数据间的相关性,降低了光谱维度,提高了模型预测准确性;
3)本发明提出的一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法,采用串联自适应粒子群优化算法来优化极限学习机网络的输入权值、隐含层节点数和隐藏层偏置值,保证了模型可靠性以及预测精度;
4)本发明使用X射线荧光光谱法,具有实验方法简单、分析灵敏度高检测速度快、稳定性高、分析成本低等优点。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法的流程图;
图2为BOSS方法提取的特征波长结果示意图;
图3为自适应粒子群算法优化流程图;
图4为自适应惯性权重优化流程图;
图5为精英学习策略优化流程图;
图6为适应度函数进化图;
图7为BOSS-ELM和BOSS-SAPSO-ELM两种方法下的测试集预测结果图。
具体实施方式
如图1所示,一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法,包括以下步骤:
步骤1:采集土壤样品X射线荧光光谱数据和重金属含量值,构建样本集,将样本集分为训练样本集和测试样本集;
所述构建样本集,配置预定浓度范围的土壤样品多个,获取各样本0~26.624keV能量范围内的X射线荧光光谱信息,将样本按比例分成训练样本集和测试样本集。
步骤1中,所述构建样本集,配置预定浓度范围的土壤样品多个,获取各样本0~26.624keV能量范围内的X射线荧光光谱信息,将样本按比例分成训练样本集和测试样本集。
步骤2:采用标准变换法对样本集或待检测光谱信息进行预处理;
步骤3:采用自举软收缩(BOSS)方法对预处理后的光谱数据进行特征选择,将提取的特征光谱数据作为新的训练样本集和测试样本集;
步骤3.1:在重金属光谱特征变量空间中采用自助随机采样技术生成K子集,在每个子集中提取BSS所选择的变量,并剔除重复变量,将剔除后剩余的所有变量赋予相等的权重;
步骤3.2:利用获得的变量子集建立PLS子模型,共计K个子模型,计算子模型的交叉验证均方根误差(RMSECV),并通过较小的RMSECV提取最佳模型;
y=xb+e
其中,y是重金属浓度值,x是重金属光谱特征变量对应的光谱数据,b是回归系数,e是预测误差
步骤3.3:计算每个子模型的回归系数(bi,k),将回归矢量中所有系数转换为绝对值的形式,并对所有回归矢量进行归一化与回归矢量求和;
Figure BDA0003705804440000071
其中,wi为变量i的新权重,K为子模型个数,bi,k为第k个子模型中变量i归一化回归系数的绝对值
步骤3.4:根据变量的新权重,应用加权引导抽样策略生成新的子集,提取唯一变量并构建子模型;
步骤3.5:如果新的子集中变量数量为1,选择迭代过程中RMSECV最小的子集作为最优变量集,否则,返回步骤3.1;
步骤3.6:根据步骤3.5确定的特征波长建立新的光谱数据集。
步骤4:建立极限学习机,将训练样本集中的数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,采用串联自适应粒子群优化算法优化极限学习机的输入权重、隐含层节点数和隐含层偏置,根据全局最优粒子确定极限学习机的输入权重、隐含层节点数和隐含层偏置;
如图3、图4、图5所示,
步骤4.1:根据串联类型计算粒子维度,初始化串联自适应粒子群优化算法的粒子维度D;
Figure BDA0003705804440000081
其中,δ为粒子群算法串联类型,p为BOOS算法提取的特征变量个数,h为优化的隐含层节点数,o为输出重金属类型数量;δ=1时表示优化的参数为隐含层节点数;δ=2时表示优化的参数为输入权重和隐含层偏置;δ=3时表示优化的参数为极限学习机网络的所有权重和偏置
步骤4.2:设定种群规模N、最大迭代次数G、惯性权重w、加速系数c1和c2、粒子速度v和位置x,随机初始化自适应粒子群优化算法的粒子位置初值xi (0)和粒子速度初值vi (0),令粒子的历史最优解pBest设为初始位置,群体最优的粒子作为当前全局最优解gBest,令迭代次数t=1,i=1,2,...,N;
步骤4.3:判断当前迭代次数t是否达到最大迭代次数G,若是,执行步骤4.6,否则,令迭代次数t=t+1,执行步骤4.4;
步骤4.4:更新粒子速度vi (t+1)和位置xi (t+1)
步骤4.4.1:计算每个粒子i相对于其他粒子的平均距离di
Figure BDA0003705804440000082
其中,N是种群的大小,D为粒子的维数,
Figure BDA0003705804440000083
表示第k个维度下的第i个粒子位置
步骤4.4.2:计算进化因子f:
Figure BDA0003705804440000084
其中,dg为当前最优粒子与其他粒子的平均距离,dmax为最大平均距离,dmin为最小平均距离
步骤4.4.3:计算自适应惯性因子w:
Figure BDA0003705804440000085
其中,f为进化因子,e为自然常数
步骤4.4.4:更新粒子速度vi (t+1)和位置xi (t+1)
Figure BDA0003705804440000091
Figure BDA0003705804440000092
其中,rand1、rand2为0-1随机数,w为惯性因子、c1和c2加速系数,
Figure BDA0003705804440000093
为t时刻粒子i的速度,
Figure BDA0003705804440000094
为t+1时刻粒子i的速度,
Figure BDA0003705804440000095
为t时刻粒子i的位置,
Figure BDA0003705804440000096
为t+1时刻粒子i的位置,pBesti为粒子i历史最优解,gBest为当前全局最优解;
步骤4.5:根据当前粒子群建立极限学习机,将步骤3选取的特征变量对应的光谱数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,计算预测结果与训练样本集土壤重金属含量的均方误差fitness,作为该粒子群的适应度值,记最小适应度值对应的粒子位置为初始全局最优解gBest;
Figure BDA0003705804440000097
其中,
Figure BDA0003705804440000098
为训练样本重金属含量预测值,y为训练样本重金属含量真实值
步骤4.6:更新粒子的历史最优解pBest和全局最优解gBest,返回步骤4.2;
步骤4.6.1:更新粒子的历史最优解pBest和全局最优解gBest,如果该粒子当前的适应度函数值比历史最优值好,那么历史最优将会被当前位置所替代;如果该粒子的历史最优比全局最优好,全局最优将会被粒子的历史最优所替代。
步骤4.6.2:对全局最优解gBest加入高斯扰动,采用精英学习策略,随机选取一个维度进行变化:
P=gBest;
d=random(1,D);
Figure BDA0003705804440000099
Figure BDA00037058044400000910
其中,random()为随机数函数,D为粒子维度,Pd表示对维度d进行变化,μ是进化状态,是精英学习率,σmax、σmin根据经验显示分别为1与0.1,t当前迭代次数,G总的迭代次数;
步骤4.6.3:如果P的适应度值小于gBest,则更新gBest。
步骤4.7:根据全局最优值确定串联类型下参数最优值,返回步骤4.1;
步骤5:采用优化后的权重和隐含层偏置训练极限学习机,得到土壤重金属预测模型,将测试集输入预测模型,得到重金属的预测值。
实施例:
一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法,包括以下步骤:
步骤1:采集土壤样品X射线荧光光谱数据和重金属含量值,构建样本集,将样本集分为训练样本集和测试样本集;
步骤2:采用标准变换法对样本集或待检测光谱信息进行预处理;
一种实施例采集自宜昌周边1km范围内无污染的农田土壤,为防止实验器具对结果产生影响,提高检测可靠性,实验过程中从样本的收集、分类、粉碎、研磨以及装袋都采用陶瓷用具。将土壤烘干研磨过0.45mm筛后,按Ⅰ、Ⅱ、Ⅲ类土壤中重金属含量的规定并结合农田土壤实际情况进行配制实验样本。
数据集的光谱数据采集设备型号为X-123SDD能量色散X射线荧光探测器和靶材为Ag的Mini-X微型X光管,均产自Amptek公司。设定所用积分时间为200ms,设定光管的工作电流为40uA,设定光管的工作电压为30kV,探测器通道数为4096。每次取一个样本置于便携式X射线土壤重金属检测仪上,共获取87个样本在0~26keV范围内共4096个通道的光谱信息。
使用AAS(原子火焰吸收法)测定数据集的重金属含量值,数据集划分采用随机划分法,随机选取58个训练集,剩余29个为测试集。样本集或待检测光谱信息输入预测模型前,采用mapminmax对样本集或待检测光谱数据进行归一化预处理。
步骤3:采用自举软收缩(BOSS)方法对预处理后的光谱数据进行特征选择,将提取的特征光谱数据作为新的训练样本集和测试样本集;
采用BOSS方法对预处理后的光谱数据进行特征选择,影响BOSS算法的主要参数有三个,分别是迭代运行次数N,WBS采样次数K,模型比率δ。为得到较优模型效果,分别设置N为50次、100次、150次、200次,K设置为500次、1000次、1500次、2000次,δ设置为5%、10%、15%、20%。以重金属金属Cr为例,实验结果如下表所示。
表1不同迭代次数结果对比
Figure BDA0003705804440000101
表2不同采样次数结果对比
Figure BDA0003705804440000102
表3不同模型比率结果对比
Figure BDA0003705804440000111
从表1-表3可知,当迭代次数N设置为50时,其建立的模型综合表现效果最好,在训练集上其R2 c,RMSEc值分别为0.9910,0.9314,在预测集上表现略差于N为100时,但综合考虑后决定以N=50为最优参数;设置迭代次数N=50,WBS采样次数K设置为1500时,其建立的模型综合表现最好,训练集上R2 c,RMSEc值分别为0.9914,1.9431,与K设置为其它值时相差不大,预测集上R2 p,RMSEp值分别为0.9551,29.6431,结果优于其它情况;当设置N=50,K=1500时,采样次数δ设置为10%时,模型综合精度最佳,训练集上R2 c,RMSEc值分别为0.9976,4.8765,是所有情况中最优结果,预测集上R2 p,RMSEp值分别为0.9613,28.4377,同样是所有情况中最优结果。因此,本实施例中,BOSS算法的参数设置为N=50,K=1500,δ=10%。
本实施方式中,BOSS方法共选取特征变量81个,结果如图2所示。
步骤4:建立极限学习机,将训练样本集中的数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,采用串联自适应粒子群优化算法优化极限学习机的输入权重、隐含层节点数和隐含层偏置,根据全局最优粒子确定极限学习机的输入权重、隐含层节点数和隐含层偏置,如图3所示;
本实施方式中,极限学习机的输入数据维度为81维,隐含层节点数量为15,输出数据维度为1维;
本实施方式中,设定串联自适应粒子群优化算法的串联类型δ=[1,2],粒子维度N=1246、种群规模P=30、最大迭代次数G=100、惯性权重初始值w=0.7、加速系数初始值c1=2、加速系数初始值c2=2、粒子速度区间v=[-2 2]和位置区间x=[-10 10];
本实施方式中,使用BOSS-SAPSO优化极限学习机的适应度函数进化图如图6所示;
步骤5:采用优化后的权重和隐含层偏置训练极限学习机,得到土壤重金属预测模型,将测试集输入预测模型,得到重金属的预测值。
本实施方式中,以重金属金属Cr为例,与未进行SAPSO优化的极限学习机进行对比,预测结果如下表所示:
表4重金属Cr的预测值
Figure BDA0003705804440000121
本实施方式中,使用SAPSO方法优化极限学习机的R2=0.90513,均方根误差MSE=7.4789,而不使用SAPSO方法优化极限学习机的测试集R2=0.41205,均方根误差MSE=16.9411,说明本发明方法具有更好的预测能力。
本实施方式中,使用SAPSO方法优化极限学习机和不使用SAPSO方法优化极限学习机的测试集结果如图7所示。

Claims (9)

1.一种BOSS-SAPSO优化极限学习机的土壤重金属预测方法,其特征在于,它包括以下步骤:
步骤1:采集土壤样品X射线荧光光谱数据和重金属含量值,构建样本集,将样本集分为训练样本集和测试样本集;
步骤2:对样本集或待检测光谱信息进行预处理;
步骤3:对预处理后的光谱数据进行特征选择,将提取的特征光谱数据作为新的训练样本集和测试样本集;
步骤4:建立极限学习机,将训练样本集中的数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,优化极限学习机的输入权重、隐含层节点数和隐含层偏置,确定极限学习机的输入权重、隐含层节点数和隐含层偏置;
步骤5:采用优化后的权重和隐含层偏置训练极限学习机,得到土壤重金属预测模型,将测试集输入预测模型,得到重金属的预测值。
2.根据权利要求1所述的方法,其特征在于,在步骤3中,采用自举软收缩BOSS方法对预处理后的光谱数据进行特征选择,将提取的特征光谱数据作为新的训练样本集和测试样本集;包括以下子步骤:
步骤3.1:在重金属光谱特征变量空间中采用自助随机采样技术生成K子集,在每个子集中提取BSS所选择的变量,并剔除重复变量,将剔除后剩余的所有变量赋予相等的权重;
步骤3.2:利用获得的变量子集建立PLS子模型,共计K个子模型,计算子模型的交叉验证均方根误差RMSECV,并通过较小的RMSECV提取最佳模型;
y=xb+e
其中,y是重金属浓度值,x是重金属光谱特征变量对应的光谱数据,b是回归系数,e是预测误差
步骤3.3:计算每个子模型的回归系数bi,k,将回归矢量中所有系数转换为绝对值的形式,并对所有回归矢量进行归一化与回归矢量求和;
Figure FDA0003705804430000011
其中,wi为变量i的新权重,K为子模型个数,bi,k为第k个子模型中变量i归一化回归系数的绝对值
步骤3.4:根据变量的新权重,应用加权引导抽样策略生成新的子集,提取唯一变量并构建子模型;
步骤3.5:如果新的子集中变量数量为1,选择迭代过程中RMSECV最小的子集作为最优变量集,否则,返回步骤3.1;
步骤3.6:根据步骤3.5确定的特征波长建立新的光谱数据集。
3.根据权利要求1所述的方法,其特征在于,在步骤4中,建立极限学习机,将训练样本集中的数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,采用串联自适应粒子群优化算法优化极限学习机的输入权重、隐含层节点数和隐含层偏置,根据全局最优粒子确定极限学习机的输入权重、隐含层节点数和隐含层偏置;包括以下子步骤:
步骤4.1:根据串联类型计算粒子维度,初始化串联自适应粒子群优化算法的粒子维度D;
Figure FDA0003705804430000021
其中,δ为粒子群算法串联类型,p为BOOS算法提取的特征变量个数,h为优化的隐含层节点数,o为输出重金属类型数量,δ=1时表示优化的参数为隐含层节点数;δ=2时表示优化的参数为输入权重和隐含层偏置;δ=3时表示优化的参数为极限学习机网络的所有权重和偏置;
步骤4.2:设定种群规模N、最大迭代次数G、惯性权重w、加速系数c1和c2、粒子速度v和位置x,随机初始化自适应粒子群优化算法的粒子位置初值xi (0)和粒子速度初值vi (0),令粒子的历史最优解pBest设为初始位置,群体最优的粒子作为当前全局最优解gBest,令迭代次数t=1,i=1,2,...,N;
步骤4.3:判断当前迭代次数t是否达到最大迭代次数G,若是,执行步骤4.6,否则,令迭代次数t=t+1,执行步骤4.4;
步骤4.4:更新粒子速度vi (t+1)和位置xi (t+1)
步骤4.5:根据当前粒子群建立极限学习机,将步骤3选取的特征变量对应的光谱数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,计算预测结果与训练样本集土壤重金属含量的均方误差fitness,作为该粒子群的适应度值,记最小适应度值对应的粒子位置为初始全局最优解gBest;
Figure FDA0003705804430000022
其中,
Figure FDA0003705804430000023
为训练样本重金属含量预测值,y为训练样本重金属含量真实值
步骤4.6:更新粒子的历史最优解pBest和全局最优解gBest,返回步骤4.2;
步骤4.7:根据全局最优值确定串联类型下参数最优值,返回步骤4.1。
4.根据权利要求3所述的方法,其特征在于,在步骤4.4中,在更新粒子速度vi (t+1)和位置xi (t+1)时,采用以下子步骤:
步骤4.4.1:计算每个粒子i相对于其他粒子的平均距离di
Figure FDA0003705804430000024
其中,N是种群的大小,D为粒子的维数,
Figure FDA0003705804430000025
表示第k个维度下的第i个粒子位置
步骤4.4.2:计算进化因子f:
Figure FDA0003705804430000031
其中,dg为当前最优粒子与其他粒子的平均距离,dmax为最大平均距离,dmin为最小平均距离
步骤4.4.3:计算自适应惯性因子w:
Figure FDA0003705804430000032
其中,f为进化因子,e为自然常数
步骤4.4.4:更新粒子速度vi (t+1)和位置xi (t+1)
Figure FDA0003705804430000033
Figure FDA0003705804430000034
其中,rand1、rand2为0-1随机数,w为惯性因子、c1和c2加速系数,
Figure FDA0003705804430000035
为t时刻粒子i的速度,
Figure FDA0003705804430000036
为t+1时刻粒子i的速度,
Figure FDA0003705804430000037
为t时刻粒子i的位置,
Figure FDA0003705804430000038
为t+1时刻粒子i的位置,pBesti为粒子i历史最优解,gBest为当前全局最优解。
5.根据权利要求3所述的方法,其特征在于,在步骤4.6中,在更新粒子的历史最优解pBest和全局最优解gBest时,采用以下子步骤:
步骤4.6.1:更新粒子的历史最优解pBest和全局最优解gBest,如果该粒子当前的适应度函数值比历史最优值好,那么历史最优将会被当前位置所替代;如果该粒子的历史最优比全局最优好,全局最优将会被粒子的历史最优所替代;
步骤4.6.2:对全局最优解gBest加入高斯扰动,采用精英学习策略,随机选取一个维度进行变化:
P=gBest;
d=random(1,D);
Figure FDA0003705804430000039
Figure FDA00037058044300000310
其中,random()为随机数函数,D为粒子维度,Pd表示对维度d进行变化,μ是进化状态,是精英学习率,σmax、σmin根据经验显示分别为1与0.1,t当前迭代次数,G总的迭代次数;
步骤4.6.3:如果P的适应度值小于gBest,则更新gBest。
6.一种建立土壤重金属光谱数据集的方法,其特征在于,它包括以下步骤:
步骤1)在重金属光谱特征变量空间中采用自助随机采样技术生成K子集,在每个子集中提取BSS所选择的变量,并剔除重复变量,将剔除后剩余的所有变量赋予相等的权重;
步骤2)利用获得的变量子集建立PLS子模型,共计K个子模型,计算子模型的交叉验证均方根误差RMSECV,并通过较小的RMSECV提取最佳模型;
y=xb+e
其中,y是重金属浓度值,x是重金属光谱特征变量对应的光谱数据,b是回归系数,e是预测误差;
步骤3)计算每个子模型的回归系数bi,k,将回归矢量中所有系数转换为绝对值的形式,并对所有回归矢量进行归一化与回归矢量求和;
Figure FDA0003705804430000041
其中,wi为变量i的新权重,K为子模型个数,bi,k为第k个子模型中变量i归一化回归系数的绝对值
步骤4)根据变量的新权重,应用加权引导抽样策略生成新的子集,提取唯一变量并构建子模型;
步骤5)如果新的子集中变量数量为1,选择迭代过程中RMSECV最小的子集作为最优变量集,否则,返回步骤3.1;
步骤6)根据步骤3.5确定的特征波长建立新的光谱数据集。
7.一种用于土壤重金属预测的极限学习机的获取方法,其特征在于,它包括以下步骤:
步骤1)根据串联类型计算粒子维度,初始化串联自适应粒子群优化算法的粒子维度D;
Figure FDA0003705804430000042
其中,δ为粒子群算法串联类型,p为BOOS算法提取的特征变量个数,h为优化的隐含层节点数,o为输出重金属类型数量;δ=1时表示优化的参数为隐含层节点数;δ=2时表示优化的参数为输入权重和隐含层偏置;δ=3时表示优化的参数为极限学习机网络的所有权重和偏置;
步骤2)设定种群规模N、最大迭代次数G、惯性权重w、加速系数c1和c2、粒子速度v和位置x,随机初始化自适应粒子群优化算法的粒子位置初值xi (0)和粒子速度初值vi (0),令粒子的历史最优解pBest设为初始位置,群体最优的粒子作为当前全局最优解gBest,令迭代次数t=1,i=1,2,...,N;
步骤3)判断当前迭代次数t是否达到最大迭代次数G,若是,执行步骤6),否则,令迭代次数t=t+1,执行步骤4);
步骤4)更新粒子速度vi (t+1)和位置xi (t+1)
步骤5)根据当前粒子群建立极限学习机,将所获得的目标光谱数据作为极限学习机的输入,将训练样本集中的土壤重金属含量作为极限学习机的输出,计算预测结果与训练样本集土壤重金属含量的均方误差fitness,作为该粒子群的适应度值,记最小适应度值对应的粒子位置为初始全局最优解gBest;
Figure FDA0003705804430000043
其中,
Figure FDA0003705804430000044
为训练样本重金属含量预测值,y为训练样本重金属含量真实值
步骤6)更新粒子的历史最优解pBest和全局最优解gBest,返回步骤2);
步骤7)根据全局最优值确定串联类型下参数最优值,返回步骤1)。
8.根据权利要求7所述的方法,其特征在于,在步骤4)中,包括以下子步骤:
步骤4-1)计算每个粒子i相对于其他粒子的平均距离di
Figure FDA0003705804430000051
其中,N是种群的大小,D为粒子的维数,
Figure FDA0003705804430000052
表示第k个维度下的第i个粒子位置
步骤4-2)计算进化因子f:
Figure FDA0003705804430000053
其中,dg为当前最优粒子与其他粒子的平均距离,dmax为最大平均距离,dmin为最小平均距离
步骤4-3)计算自适应惯性因子w:
Figure FDA0003705804430000054
其中,f为进化因子,e为自然常数;
步骤4-4)更新粒子速度vi (t+1)和位置xi (t+1)
Figure FDA0003705804430000055
Figure FDA0003705804430000056
其中,rand1、rand2为0-1随机数,w为惯性因子、c1和c2加速系数,
Figure FDA0003705804430000057
为t时刻粒子i的速度,
Figure FDA0003705804430000058
为t+1时刻粒子i的速度,
Figure FDA0003705804430000059
为t时刻粒子i的位置,
Figure FDA00037058044300000510
为t+1时刻粒子i的位置,pBesti为粒子i历史最优解,gBest为当前全局最优解。
9.根据权利要求7所述的方法,其特征在于,在步骤6)中,包括以下子步骤:
步骤6-1)更新粒子的历史最优解pBest和全局最优解gBest,如果该粒子当前的适应度函数值比历史最优值好,那么历史最优将会被当前位置所替代;如果该粒子的历史最优比全局最优好,全局最优将会被粒子的历史最优所替代;
步骤6-2)对全局最优解gBest加入高斯扰动,采用精英学习策略,随机选取一个维度进行变化:
P=gBest;
d=random(1,D);
Figure FDA00037058044300000511
Figure FDA00037058044300000512
其中,random()为随机数函数,D为粒子维度,Pd表示对维度d进行变化,μ是进化状态,是精英学习率,σmax、σmin根据经验显示分别为1与0.1,t当前迭代次数,G总的迭代次数;
步骤6-3)如果P的适应度值小于gBest,则更新gBest。
CN202210704753.5A 2022-06-21 2022-06-21 一种boss-sapso优化极限学习机的土壤重金属预测方法 Pending CN115130377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210704753.5A CN115130377A (zh) 2022-06-21 2022-06-21 一种boss-sapso优化极限学习机的土壤重金属预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210704753.5A CN115130377A (zh) 2022-06-21 2022-06-21 一种boss-sapso优化极限学习机的土壤重金属预测方法

Publications (1)

Publication Number Publication Date
CN115130377A true CN115130377A (zh) 2022-09-30

Family

ID=83379537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210704753.5A Pending CN115130377A (zh) 2022-06-21 2022-06-21 一种boss-sapso优化极限学习机的土壤重金属预测方法

Country Status (1)

Country Link
CN (1) CN115130377A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117793663A (zh) * 2024-02-27 2024-03-29 长春理工大学 一种基于LoRa的农机作业信息远距离传输方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117793663A (zh) * 2024-02-27 2024-03-29 长春理工大学 一种基于LoRa的农机作业信息远距离传输方法
CN117793663B (zh) * 2024-02-27 2024-05-14 长春理工大学 一种基于LoRa的农机作业信息远距离传输方法

Similar Documents

Publication Publication Date Title
CN103528990B (zh) 一种近红外光谱的多模型建模方法
CN109902411B (zh) 土壤重金属含量检测建模方法及装置、检测方法及装置
CN111126471A (zh) 微地震事件检测方法及系统
CN110907393B (zh) 植物盐碱胁迫程度检测方法及装置
CN109060760B (zh) 分析模型建立方法、气体分析装置及方法
CN112669915B (zh) 一种基于神经网络与近红外光谱的梨无损检测方法
CN112304997B (zh) 基于空间耦合模型的土壤重金属含量检测系统及检测方法
CN110702656A (zh) 一种基于三维荧光光谱技术的植物油农药残留检测方法
CN115130377A (zh) 一种boss-sapso优化极限学习机的土壤重金属预测方法
CN115015126B (zh) 一种粉末状生物粒子材料活性判定方法和系统
CN115436407A (zh) 一种随机森林回归结合主成分分析的元素含量定量分析方法
CN115112699A (zh) 一种xrf土壤重金属元素定量分析方法
CN109142251B (zh) 随机森林辅助人工神经网络的libs定量分析方法
CN108344701A (zh) 基于高光谱技术的石蜡等级定性分类与定量回归方法
CN114354666B (zh) 基于波长频次选择的土壤重金属光谱特征提取、优化方法
CN111597762A (zh) 一种x射线荧光光谱特征峰强度计算方法
CN107247033A (zh) 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法
Li et al. Back-propagation neural network-based modelling for soil heavy metal
CN114034684B (zh) 一种基于一站式光谱模型的土壤属性快速测定方法
CN115598162A (zh) 基于堆叠式模型的土壤重金属含量检测方法
CN114357886A (zh) 一种基于多模型加权平均的酒醅近红外光谱建模方法
CN109145887B (zh) 一种基于光谱潜变量混淆判别的阈值分析方法
CN106644977A (zh) 一种基于蝙蝠算法的光谱变量选择方法
CN115169222A (zh) 一种多元智能优化多核极限学习机的土壤重金属检测方法
CN111595802A (zh) 一种基于nir光谱的忧遁草种源地分类模型的构建方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination