CN110674947B - 基于Stacking集成框架的光谱特征变量选择与优化方法 - Google Patents

基于Stacking集成框架的光谱特征变量选择与优化方法 Download PDF

Info

Publication number
CN110674947B
CN110674947B CN201910824079.2A CN201910824079A CN110674947B CN 110674947 B CN110674947 B CN 110674947B CN 201910824079 A CN201910824079 A CN 201910824079A CN 110674947 B CN110674947 B CN 110674947B
Authority
CN
China
Prior art keywords
particle
learner
particles
sample set
fitness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910824079.2A
Other languages
English (en)
Other versions
CN110674947A (zh
Inventor
任顺
张畅
任东
徐守志
杨信廷
马凯
张�雄
陆安祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN201910824079.2A priority Critical patent/CN110674947B/zh
Publication of CN110674947A publication Critical patent/CN110674947A/zh
Application granted granted Critical
Publication of CN110674947B publication Critical patent/CN110674947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3577Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing liquids, e.g. polluted water
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Abstract

本发明公开了基于Stacking集成框架的光谱特征变量选择与优化方法,包括构建样本集,将样本集分为训练样本集和测试样本集;在变量区间选择法、变量信息选择法、变量优化选择法大类中选出具有代表性的特征变量选择方法;构建多个基学习器,采用Stacking集成框架将基学习器集成,构建元学习器,将基学习器的输出作为元学习器的输入;利用样本集对Stacking集成框架的基学习器和元学习器进行训练与测试;将待检测光谱信息输入基学习器,依据元学习器的输出得到待检测光谱的检测结果。本发明的基于Stacking集成框架的光谱特征变量选择与优化方法克服了单一特征变量选择方法的缺陷,对测试样本的检测精度高,检测结果稳定性好。

Description

基于Stacking集成框架的光谱特征变量选择与优化方法
技术领域
本发明属于光谱分析领域,具体涉及基于Stacking集成框架的光谱特征变量选择与优化方法。
背景技术
近红外光谱NIR(Near Infrared)区按美国试验和材料检测协会定义是指波长在780~2526nm范围内的电磁波。属于分子振动光谱的倍频和主频吸收光谱,近红外光谱主要是由于分子振动的非谐振性使分子振动从基态向高能级跃迁时产生的。而近红外光谱区与有机分子中含氢基团(O-H、N-H、C-H)振动的合频和各级倍频的吸收区一致,包含了大多数类型有机化合物的组成和分子结构的信息。因此,近红外光谱分析技术可用于多种有机物的定性分析和定量分析。
NIR是近几十年来发展迅速的高新分析技术之一。目前大约有50多个国家和地区开展了NIR的研究和应用工作,特别是一些发达国家表现得尤为突出,这些国家拥有大量的各种类型的NIR分析仪器用于各行各业。这些仪器在农业、石化、制药、食品等领域都得到很好应用,并取得极好的社会和经济效益。
近红外光谱数据具有很高的空间复杂度,数据还包含了背景噪声、仪器误差、人为误差,以及非待测成分的信息等干扰因素。正是由于光谱分析技术面临着信息重叠、相关性、复杂性等问题,因此,对光谱特征变量选择的研究尤为必要,是当前的一个研究热点。近年来,国内外众多学者对特征选择问题进行了研究,在多元校正分析中的波长选择方法主要有相关系数法、方差分析法、逐步回归法、无信息变量的消除法、间隔偏最小二乘法、粒子群算法等。
现阶段常用的光谱特征变量选择方法均有其缺陷,如无信息变量的消除法只评估单个特征与结果之间的关系,虽然计算量小,能避免过拟合,但没有考虑特征之间的关联。间隔偏最小二乘法通过区间的划分提高了效率,但没能考虑到区间之间的关联,且选出的区间仍包含大量冗余信息。粒子群算法具有较强的随机性,选出的变量集合不稳定。
发明内容
本发明的技术问题是现有的单一的光谱特征变量选择方法均存在缺陷,变量区间选择法容易忽视区间之间的关联,一旦特征被选择或者删除,将无法再参与后续变量选择过程,即所谓的“筑巢(nesting)效应”,且区间变量划分缺乏理论指导;变量信息选择法是基于单变量的,无法判断相关的冗余变量,尽管有些变量单从自身而言似乎并不重要,但与其它变量组合后,可能显著提高整个模型的判别性能,而单变量选择方法无法识别出这些变量,导致重要信息的丢失;变量优化方法忽视了随机误差对变量选择的影响,选出的最佳变量子集缺乏稳定性,且对初始化和评价准则非常敏感,随机性较强,无法保证每次选出的变量的一致性。
本发明的目的是解决上述问题,提出基于Stacking集成框架的光谱特征变量选择与优化方法,克服单一特征变量选择方法的缺陷,提高预测精度。
本发明的技术方案是基于Stacking集成框架的光谱特征变量选择与优化方法,包括以下步骤,
步骤1:构建样本集,将样本集分为训练样本集和测试样本集;
步骤2:在变量区间选择法、变量信息选择法、变量优化选择法大类中选出具有代表性的特征变量选择方法;
步骤3:利用步骤2选出的特征变量选择方法构建多个基学习器,采用Stacking集成框架将基学习器集成,构建元学习器,将基学习器的输出作为元学习器的输入;
步骤4:利用样本集对Stacking集成框架的基学习器和元学习器进行训练与测试;
步骤4.1:采用训练样本集对Stacking集成框架的基学习器和元学习器进行训练;
步骤4.2:采用测试样本集对Stacking集成框架的基学习器和元学习器进行测试;
步骤5:将待检测光谱信息输入基学习器,依据元学习器的输出得到待检测光谱的检测结果。
步骤1中,所述构建样本集,配置预定浓度范围的乙醇样本多个,获取各样本12000~4000cm-1波数范围内的近红外光谱信息,将样本按比例分成训练样本集和测试样本集。
步骤2中,所述选出具有代表性的特征变量选择方法,选出的特征变量选择方法包括协同间隔偏最小二乘法SiPLS(Synergy interval Partial Least Squares)、无信息变量的消除法UVE(Uninformative Variable Elimination)、粒子群算法PSO(ParticleSwarm Optimization)。
步骤3中,所述构建元学习器,采用非线性的支持向量回归SVR(Support VectorRegression)方法。
优选地,所述样本集或待检测光谱信息输入基学习器前,采用标准正态变量变换法SNV(Standard normal variable transformation)对样本集或待检测光谱信息进行预处理。
优选地,所述SiPLS的参数划分为20个区间。
优选地,所述PSO利用遗传算法GA(Genetic Algorithm)进行优化,GA优化PSO的方法包括以下步骤:
1)对一群粒子包括其随机的位置以及速度进行初始化,使它们分散在整个空间中;第i个粒子表示第i个光谱向量xi=(xi1,xi2,…,xim),第i个粒子位置变化速度vi=(vi1,vi2,…,vim),一般而言,粒子数量取值范围为20~40;
2)根据适应度函数计算每一个粒子的适应度;对每个粒子的位置对应的变量采用偏最小二乘回归法PLS(Partial Least Square)建模,并采用十折交叉验证确定PLS建模的最佳主成分数,将训练集的均方根误差作为适应度值;
3)将每一个粒子的适应度值和这一粒子的历史最优位置相比较,粒子的历史最优位置记为gbest,如果当前的适应度值比较好,则将这一适应度值作为当前的最好位置gbest,反之,gbest不变;
4)按照适应度的大小进行排序,对粒子进行杂交,计算子代粒子的位置和速度,将子代粒子的适应度和父代粒子的适应度进行比较,如果子代的适应度较好,则用子代的速度和位置替代父代的速度和位置;根据式1和式2计算子代粒子的速度和位置:
childv=(v1+v2)*|v1|/|v1+v2| (1)
childx=rand()*x1+(1-rand())*x2 (2)
其中,childv为子代粒子速度,childx为子代粒子位置,v1、v2为选择的要进行杂交的粒子的速度,x1、x2为选择的要进行杂交的粒子的位置,rand()是介于(0,1)之间的随机数;
5)选择粒子进行变异,计算变异粒子的位置和速度,将变异粒子的适应度和原粒子的适应度进行比较,如果变异粒子的适应度较好,则用变异粒子替代原粒子的位置;根据式(3)计算变异粒子的位置:
mutation=x3*(1+rand()) (3)
其中,x3为选择的要变异的粒子的位置,rand()是介于(0,1)之间的随机数;
6)计算杂交变异后的粒子适应度,所有粒子发现的最优位置记为zbest,zbest是gbest之中最好的值,是整个群体在一次迭代中的全局最优位置,将每一个粒子的适应度值和所有粒子发现的最优位置的适应度值相比较;如果当前的适应度值比较好,则将这一位置作为所有粒子的全局最优位置zbest,反之,zbest不变;
7)根据式4和式5更新粒子的速度以及位置:
vid(new)=w×vid(old)+c1×rand()×(gid-xid)+c2×rand()×(zid-xid) (4)
xid(new)=xid(old)+μ×vid(new) (5)
其中,vid(old)表示上一时刻粒子速度,vid(new)表示新的时刻粒子速度,xid(old)表示上一时刻粒子位置,xid(new)表示新的时刻粒子位置,gid为个体最佳位置gbest,zid为全局最佳位置zbest,d=1,2,…,m,w为惯性权重,c1和c2为学习因子,通常取值c1=c2=2,rand()是介于(0,1)之间的随机数,μ为约束因子,用于控制速度;
8)判断是否达到了最大迭代次数,如果达到最大迭代次数,则结束;否则,执行步骤2)。
优选地,采用非对称线性变化学习因子策略对粒子群算法学习因子c1和c2进行优化,计算公式如下:
c1=c1s+(c1e-c1s)*iter/itermax (6)
c2=c2s+(c2e-c2s)*iter/itermax (7)
其中,c1s和c2s分别为学习因子c1和c2的初始值,c1e和c2e分别为c1和c2的迭代终值,iter为当前迭代次数,itermax为最大迭代次数,c1的变化范围为(1,2.5),c2的变化范围为(1.5,2.75)。
优选地,采用人工蜂群算法ABC(Artificial Bee Colony)对SVR的惩罚参数c和核函数参数g进行优化。
相比现有技术,本发明的有益效果:
1)本发明的基于Stacking集成框架的光谱特征变量选择与优化方法克服了单一特征变量选择方法的缺陷,对测试样本的检测精度高,检测结果稳定性好;
2)选择SiPLS、UVE、PSO三种模型作为基学习器,三种方法选择的变量有着较大的区别,异构性能强,同时模型精度均较为优秀,充分展现了Stacking框架融合多个异构模型的优点,有效提取有用特征信息,有效避免过拟合的发生,并且能提高模型的预测精度;
3)采用SNV作为光谱数据的预处理方法,减小了计算量,提高了精度;
4)采用GA对PSO进行优化,避免粒子群算法的适应度过早收敛,改善粒子群算法容易陷入局部最优的缺点;
5)采用ABC对SVR中的惩罚参数c和核函数参数g进行优化,有效地减少了运算时间,并提高了精度。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1为基于Stacking集成框架的光谱特征变量选择与优化方法的流程图。
图2为本发明的遗传算法优化粒子群算法的方法的流程图。
图3为本发明的人工蜂群算法优化SVR的流程图。
图4本发明的基学习器、元学习器的训练流程示意图。
图5为实施例的训练集预测结果示意图。
图6为实施例的测试集预测结果示意图。
图7为实施例中本发明方法多次运行结果的相关系数示意图。
图8为实施例中本发明方法多次运行结果的均方根误差示意图。
图9为实施例中ABC优化SVR的优化过程的适应度曲线图。
具体实施方式
如图1所示,基于Stacking集成框架的光谱特征变量选择与优化方法,包括以下步骤,
步骤1:配置预定浓度范围的乙醇样本多个,获取各样本12000~4000cm-1波数范围内的近红外光谱信息,将样本按比例分成训练样本集和测试样本集;
步骤2:在变量区间选择法、变量信息选择法、变量优化选择法大类中选出具有代表性的SiPLS、UVE、PSO;
步骤3:利用步骤2选出的特征变量选择方法构建3个基学习器,采用Stacking集成框架将基学习器集成,构建元学习器,元学习器采用非线性的支持向量回归方法,将基学习器的输出作为元学习器的输入;
步骤4:利用样本集对Stacking集成框架的基学习器和元学习器进行训练与测试;
步骤4.1:采用训练样本集对Stacking集成框架的基学习器和元学习器进行训练;
步骤4.2:采用测试样本集对Stacking集成框架的基学习器和元学习器进行测试;
步骤5:将待检测光谱信息输入基学习器,依据元学习器的输出得到待检测光谱的检测结果。
一种实施例实验采用美国Perkin Elmer公司生产的红外光谱仪。光谱范围为12000~4000cm-1,扫描32次,分辨率4cm-1,波数间隔2cm-1。实验所用化学试剂为无水乙醇和纯净水。用无水乙醇和纯水精确配制容量为2ml,浓度为4.5%~85.0%乙醇样品溶液162个,间隔为0.5%。采用光谱仪的随机软件Spectrum Version 10.4.1采集光谱数据,室内温度和湿度基本保持稳定,温度维持在25℃左右,湿度低于60%。每个样本平行采集3次,取其平均光谱作为该样本的原始光谱。
将162个样本采用SPXY(Sample set partitioning based on joint x-ydistance)样本划分法为包含108个样本的训练集和包含54个样本的测试集。不同预处理算法结合PLS建模的预测集结果对比如表1所示,其中SNV结合PLS建立模型得到的结果最优。
表1光谱预处理结果
Figure GDA0002717821150000051
Figure GDA0002717821150000061
样本集或待检测光谱信息输入基学习器前,采用SNV对样本集或待检测光谱信息进行预处理。将预处理后训练集数据分别用基学习器SiPLS、基学习器UVE以及基学习器PSO结合PLS进行训练。设置的最大主成分数为20,根据交叉验证法计算交互验证均方根误差RMSECV(Root Mean Square Error of Cross Validation)确定主成分数。SiPLS划分的区间数为20,结合的区间数为3。UVE的截取阈值为0.999。用GA优化的PSO算法,在PSO算法中更新粒子的速度以及位置之前给粒子加入杂交和变异的过程。采用样本训练集对基学习器、元学习器进行训练,如图4所示,训练过程包括:1)使用训练集数据对SiPLS,UVE,PSO进行训练,得到基学习器;2)使用训练出来的基学习器的预测结果,作为元学习器的训练集;3)对SVR进行训练,得到元学习器;4)得到最后的训练模型及光谱特征变量。
如图2所示,GA优化PSO的方法包括以下步骤:
1)对一群粒子包括其随机的位置以及速度进行初始化,使它们分散在整个空间中;第i个粒子表示第i个光谱向量xi=(xi1,xi2,…,xim),第i个粒子位置变化速度vi=(vi1,vi2,…,vim),一般而言,粒子数量取值范围为20~40;
2)根据适应度函数计算每一个粒子的适应度;对每个粒子的位置对应的变量采用PLS建模,并采用十折交叉验证确定PLS建模的最佳主成分数,将训练集的均方根误差作为适应度值;
3)将每一个粒子的适应度值和这一粒子的历史最优位置相比较,粒子的历史最优位置记为gbest,如果当前的适应度值比较好,则将这一适应度值作为当前的最好位置gbest,反之,gbest不变;
4)按照适应度的大小进行排序,对粒子进行杂交,计算子代粒子的位置和速度,将子代粒子的适应度和父代粒子的适应度进行比较,如果子代的适应度较好,则用子代的速度和位置替代父代的速度和位置;根据式1和式2计算子代粒子的速度和位置:
childv=(v1+v2)*|v1|/|v1+v2| (1)
childx=rand()*x1+(1-rand())*x2 (2)
其中,childv为子代粒子速度,childx为子代粒子位置,v1、v2为选择的要进行杂交的粒子的速度,x1、x2为选择的要进行杂交的粒子的位置,rand()是介于(0,1)之间的随机数;
5)选择粒子进行变异,计算变异粒子的位置和速度,将变异粒子的适应度和原粒子的适应度进行比较,如果变异粒子的适应度较好,则用变异粒子替代原粒子的位置;根据式(3)计算变异粒子的位置:
mutation=x3*(1+rand()) (3)
其中,x3为选择的要变异的粒子的位置,rand()是介于(0,1)之间的随机数;
6)计算杂交变异后的粒子适应度,所有粒子发现的最优位置记为zbest,zbest是gbest之中最好的值,是整个群体在一次迭代中的全局最优位置,将每一个粒子的适应度值和所有粒子发现的最优位置的适应度值相比较;如果当前的适应度值比较好,则将这一位置作为所有粒子的全局最优位置zbest,反之,zbest不变;
7)根据式4和式5更新粒子的速度以及位置;
vid(new)=w×vid(old)+c1×rand()×(gid-xid)+c2×rand()×(zid-xid) (4)
xid(new)=xid(old)+μ×vid(new) (5)
8)判断是否达到了最大迭代次数,如果达到最大迭代次数,则结束;否则,执行步骤2)。采用非对称线性变化学习因子策略对粒子群算法学习因子c1和c2进行优化,计算公式如下
c1=c1s+(c1e-c1s)*iter/itermax (6)
c2=c2s+(c2e-c2s)*iter/itermax (7)
其中,c1s和c2s分别为学习因子c1和c2的初始值,c1e和c2e分别为c1和c2的迭代终值,iter为当前迭代次数,itermax为最大迭代次数,c1的变化范围为(1,2.5),c2的变化范围为(1.5,2.75)。
本实施例中,GA优化的PSO算法的种群数为30,最大迭代次数为200。
在SVR训练过程中,需要对惩罚参数c和核函数的参数g进行优化,选取最好的参数。将参数c和g作为需要优化的变量,对应于人工蜂群算法中的解。
人工蜂群算法是一种源于对蜂群采蜜行为的观察的群智能算法。算法将人工蜂群分为3类,分别是采蜜蜂、观察蜂和侦察蜂。整个人工蜂群的目标是寻找花蜜最多的蜜源,即最优的解的位置。每一只采蜜蜂对应一个解的位置,即一个蜜源,并利用已有的蜜源信息来寻找新的蜜源,同时又和观察蜂分享已知的蜜源信息。基于采蜜蜂分享的信息,观察蜂寻找新的蜜源,如果多次寻找没有找到更好的蜜源,则放弃这一蜜源,且采蜜蜂转变为侦查蜂。而侦查蜂的任务则是对蜜源随机地进行搜索,直到寻找到一个新的有价值的蜜源。
优化参数c、g取值问题的解是二维的,ABC算法的求解过程则可以看做是在二维空间进行搜索,参数c和参数g的取值范围均为[2-8,2+8]。每一个蜜源的位置代表问题的一个可能解,花蜜的多少代表适应度。
如图3所示,人工蜂群算法优化SVR的方法,包括以下步骤:
(1)对蜂群中的蜜蜂包括其随机的位置以及速度进行初始化,使它们分散在整个空间中。第i只蜜蜂的位置对应参数c和g的值xi=(ci,gi),第i只蜜蜂位置变化速度vi=(vi1,vi2)。
(2)将蜜蜂与蜜源一一对应,更新蜜源信息,计算每一只蜜蜂的适应度,确定蜜源的花蜜量。
(3)采蜜蜂根据已有的信息采用一定的策略选择蜜源,根据式9寻找新的蜜源
xid′=xidid*(xid-xkd) (9)
其中,d=1,2,…,m;ψid是介于(-1,1)之间的随机数,k≠i。
(4)比较新生成的可能解xid′与原来的解xid,通过贪婪选择策略以保留较好的解。
(5)重复步骤(3)~(4)直至迭代数达到所设置的蜜源数。
(6)每一个观察蜂选择一个蜜源的依据是概率,而概率的计算方法有多种,采用的概率计算公式如下
pi=(0.9*fitj./max(fitj))+0.1 (10)
其中,fitj是一个可能解xid的适应度值。
(7)观察蜂根据概率pi以及步骤(3)中公式搜寻新的可能解,并记录当前全局最佳蜜源。重复此步骤直至迭代数达到所设置的蜜源数。
(8)如果一个蜜源累计未得到提高的次数超过了设置的控制参数Limit,则终止对该蜜源进行搜寻,蜜源对应的采蜜蜂转为侦查蜂,根据以式11寻找新的蜜源
xid=(max(xd)-min(xd))*rand(1,dim)+min(xd) (11)
其中,max(xd)和min(xd)是第d维的上界和下界,dim为目标函数的参数个数,rand(1,dim)为(1,dim)上的随机数。
(9)重复步骤(1)~(8),直至满足结束条件,结束条件为达到所设置的迭代次数。
元学习器采用ABC优化SVR惩罚参数c和核函数的参数g,将这两个参数的值作为ABC算法中的解,以均方误差MSE为适应度,优化过程中的适应度曲线如图9所示。
训练集的预测结果如图5所示,测试集的预测结果如图6所示。测试集相关系数为0.9867,预测均方根误差为0.0350,偏差为-0.0056。说明预测值与实际值吻合度好,本发明提出的方法具有较好的实用性。
将本发明方法的实验结果与其它方法对比,如表2所示。FB-iPLS取划分的波段数为60。GD-Boosting-BiPLS取在最佳迭代次数25时的实验结果。EBSPA-PLS迭代次数为10。BiPLS划分的波段数为20。SiPLS划分的波段数为20,结合3个波段。UVE的截取阈值为0.999。GAPSO为用GA优化的PSO算法,种群数为30,最大迭代次数为200。
表2实验结果对比
Figure GDA0002717821150000091
将本发明的方法运行20次,观察基学习器的随机性对实验结果的影响,20次的运行结果如图7和图8所示。将相关系数保留到小数点后四位,20次运行的预测集的相关系数分别为0.9868、0.9870、0.9876、0.9859、0.9867、0.9867、0.9867、0.9856、0.9865、0.9863、0.9876、0.9871、0.9867、0.9876、0.9863、0.9864、0.9861、0.9876、0.9858、0.9862;将预测集的均方根误差保留到小数点后四位,20次运行的预测集的均方根误差分别为0.0347、0.0345、0.0337、0.0362、0.0349、0.0349、0.0350、0.0363、0.0352、0.0356、0.0338、0.0344、0.0351、0.0337、0.0353、0.0351、0.0355、0.0337、0.0361、0.0355。基学习器UVE与基学习器PSO的随机性对算法结果影响不大,本发明的方法的运行结果相对稳定。

Claims (6)

1.基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,包括以下步骤,
步骤1:构建样本集,将样本集分为训练样本集和测试样本集;
步骤2:在变量区间选择法、变量信息选择法、变量优化选择法大类中选出具有代表性的特征变量选择方法,选出的特征变量选择方法包括协同间隔偏最小二乘法、无信息变量的消除法、粒子群算法,粒子群算法利用遗传算法进行优化;
步骤3:利用步骤2选出的特征变量选择方法构建多个基学习器,采用Stacking集成框架将基学习器集成,构建元学习器,将基学习器的输出作为元学习器的输入;
步骤4:利用样本集对Stacking集成框架的基学习器和元学习器进行训练与测试,样本集输入基学习器前,采用标准正态变量变换法对样本集进行预处理;
步骤4.1:采用训练样本集对Stacking集成框架的基学习器和元学习器进行训练;
步骤4.2:采用测试样本集对Stacking集成框架的基学习器和元学习器进行测试;
步骤5:将待检测光谱信息输入基学习器,依据元学习器的输出得到待检测光谱的检测结果,待检测光谱信息输入基学习器前,采用标准正态变量变换法对待检测光谱信息进行预处理;
遗传算法优化粒子群算法的方法包括以下步骤:
1)对一群粒子的位置以及速度进行初始化,使它们分散在整个解空间中;第i个粒子表示第i个光谱向量,第i个粒子的位置xi=(xi1,xi2,…,xim),第i个粒子位置变化速度vi=(vi1,vi2,…,vim),m表示向量维数,xij,j=1,2…m表示第i个粒子的位置的第j个分量,vij,j=1,2…m表示第i个粒子的速度的第j个分量;
2)根据适应度函数计算每一个粒子的适应度;对每个粒子的位置对应的变量采用偏最小二乘回归法建模,并采用十折交叉验证确定偏最小二乘回归法建模的最佳主成分数,将训练集的均方根误差作为适应度值;
3)将每一个粒子的适应度值和这一粒子的历史最优位置相比较,如果当前的适应度值比较好,则将这一适应度值作为当前的最好位置gbest,反之,保持gbest不变;
4)对粒子进行杂交,计算子代粒子的位置和速度,将子代粒子的适应度和父代粒子的适应度进行比较,如果子代的适应度较好,则用子代的速度和位置替代父代的速度和位置;根据式1和式2计算子代粒子的速度和位置:
childv=(v1+v2)*|v1|/|v1+v2| (1)
childx=rand()*x1+(1-rand())*x2 (2)
其中,childv为子代粒子速度,childx为子代粒子位置,v1、v2为选择的要进行杂交的粒子的速度,x1、x2为选择的要进行杂交的粒子的位置,随机函数rand()生成介于(0,1)之间的随机数;
5)选择粒子进行变异,计算变异粒子的位置和速度,将变异粒子的适应度和原粒子的适应度进行比较,如果变异粒子的适应度较好,则用变异粒子替代原粒子的位置;根据式(3)计算变异粒子的位置:
mutation=x3*(1+rand()) (3)
其中,x3为选择的要变异的粒子的位置,rand()是介于(0,1)之间的随机数;
6)计算杂交变异后的粒子适应度,将每一个粒子的适应度值和所有粒子发现的最优位置的适应度值相比较;如果当前的适应度值比较好,则将这一位置作为所有粒子的全局最优位置zbest,反之,保持zbest不变;
7)根据式4和式5更新粒子的速度以及位置:
vid(new)=w×vid(old)+c1×rand()×(gid-xid(old))+c2×rand()×(zid-xid(old)) (4)
xid(new)=xid(old)+μ×vid(new) (5)
其中vid(old)表示上一时刻粒子速度,vid(new)表示新的时刻粒子速度,xid(old)表示上一时刻粒子位置,xid(new)表示新的时刻粒子位置,gid为个体最佳位置gbest,zid为全局最佳位置zbest,d=1,2,...,m,w为惯性权重,c1和c2为学习因子,取值c1=c2=2,rand()是介于(0,1)之间的随机数,μ为约束因子,用于控制速度;
8)判断是否达到了最大迭代次数,如果达到最大迭代次数,则结束;否则,执行步骤2)。
2.根据权利要求1所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,步骤1中,所述构建样本集,配置预定浓度范围的乙醇样本多个,获取各样本12000~4000cm-1波数范围内的近红外光谱信息,将样本按比例分成训练样本集和测试样本集。
3.根据权利要求1所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,步骤3中,所述元学习器采用非线性的支持向量回归方法。
4.根据权利要求1所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,所述协同间隔偏最小二乘法的参数划分为20个区间。
5.根据权利要求1所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,采用非对称线性变化学习因子策略对粒子群算法学习因子c1和c2进行优化,计算公式如下:
c1=c1s+(c1e-c1s)*iter/itermax (6)
c2=c2s+(c2e-c2s)*iter/itermax (7)
其中,c1s和c2s分别为学习因子c1和c2的初始值,c1e和c2e分别为c1和c2的迭代终值,iter为当前迭代次数,itermax为最大迭代次数,c1的变化范围为(1,2.5),c2的变化范围为(1.5,2.75)。
6.根据权利要求3所述的基于Stacking集成框架的光谱特征变量选择与优化方法,其特征在于,采用人工蜂群算法对支持向量回归方法的惩罚参数c和核函数参数g进行优化。
CN201910824079.2A 2019-09-02 2019-09-02 基于Stacking集成框架的光谱特征变量选择与优化方法 Active CN110674947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910824079.2A CN110674947B (zh) 2019-09-02 2019-09-02 基于Stacking集成框架的光谱特征变量选择与优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910824079.2A CN110674947B (zh) 2019-09-02 2019-09-02 基于Stacking集成框架的光谱特征变量选择与优化方法

Publications (2)

Publication Number Publication Date
CN110674947A CN110674947A (zh) 2020-01-10
CN110674947B true CN110674947B (zh) 2021-02-19

Family

ID=69075877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910824079.2A Active CN110674947B (zh) 2019-09-02 2019-09-02 基于Stacking集成框架的光谱特征变量选择与优化方法

Country Status (1)

Country Link
CN (1) CN110674947B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111683048B (zh) * 2020-05-06 2021-05-07 浙江大学 一种基于多周期模型stacking的入侵检测系统
CN113095440B (zh) * 2020-09-01 2022-05-17 电子科技大学 基于元学习者的训练数据生成方法及因果效应异质反应差异估计方法
CN112257868A (zh) * 2020-09-25 2021-01-22 建信金融科技有限责任公司 构建和训练用于预测客流量的集成预测模型的方法及装置
CN115907178B (zh) * 2022-11-30 2023-12-15 中国地质大学(武汉) 一种净生态系统co2交换量的预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170271136A1 (en) * 2012-06-26 2017-09-21 Biodesix, Inc. Mass-Spectral Method for Selection, and De-selection, of Cancer Patients for Treatment with Immune Response Generating Therapies
CN107506865A (zh) * 2017-08-30 2017-12-22 华中科技大学 一种基于lssvm优化的负荷预测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103308463B (zh) * 2013-06-28 2015-06-03 中国农业大学 一种近红外光谱特征谱区选择方法
CN105372198B (zh) * 2015-10-28 2019-04-30 中北大学 基于集成l1正则化的红外光谱波长选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170271136A1 (en) * 2012-06-26 2017-09-21 Biodesix, Inc. Mass-Spectral Method for Selection, and De-selection, of Cancer Patients for Treatment with Immune Response Generating Therapies
CN107506865A (zh) * 2017-08-30 2017-12-22 华中科技大学 一种基于lssvm优化的负荷预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
集成变量选择方法用于近红外光谱定量分析;张世芝 等;《计算机与应用化学》;20140428;第31卷(第4期);第499-502页 *

Also Published As

Publication number Publication date
CN110674947A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110674947B (zh) 基于Stacking集成框架的光谱特征变量选择与优化方法
Shen et al. Energy consumption prediction of a greenhouse and optimization of daily average temperature
Stockwell Genetic algorithms II: species distribution modelling
Urraca et al. Smart baseline models for solar irradiation forecasting
CN109002915B (zh) 基于Kmeans-GRA-Elman模型的光伏电站短期功率预测方法
Du et al. Designing localized MPPT for PV systems using fuzzy-weighted extreme learning machine
CN113282122B (zh) 一种商用建筑能耗预测优化方法及系统
Ngarambe et al. Comparative performance of machine learning algorithms in the prediction of indoor daylight illuminances
CN112906298B (zh) 一种基于机器学习的蓝莓产量预测方法
CN108519347B (zh) 一种基于二进制蜻蜓算法的红外光谱波长选择方法
CN113762387B (zh) 一种基于混合模型预测的数据中心站多元负荷预测方法
CN113435707A (zh) 基于深度学习和计权型多因子评价的测土配方施肥方法
CN115526298A (zh) 一种高鲁棒性的大气污染物浓度综合预测方法
Liu et al. Research on a photovoltaic power prediction model based on an IAO-LSTM optimization algorithm
Roger et al. Pattern analysis techniques to process fermentation curves: application to discrimination of enological alcoholic fermentations
CN113705876B (zh) 一种基于气象大数据的光伏功率预测模型的构建方法及装置
Akbaş et al. An integrated prediction and optimization model of a thermal energy production system in a factory producing furniture components
Slabbert et al. Abiotic factors are more important than land management and biotic interactions in shaping vascular plant and soil fungal communities
CN116205508A (zh) 一种分布式光伏发电异常诊断方法和系统
Mu et al. Investigation on tree molecular genome of Arabidopsis thaliana for internet of things
Fell et al. Refinement of a theoretical trait space for North American trees via environmental filtering
Kalopesa et al. Rapid Determination of Wine Grape Maturity Level from pH, Titratable Acidity, and Sugar Content Using Non-Destructive In Situ Infrared Spectroscopy and Multi-Head Attention Convolutional Neural Networks
CN117314266B (zh) 一种基于超图注意力机制的新型科技人才智能评价方法
Ballesta et al. Spectral-Based Classification of Genetically Differentiated Groups in Spring Wheat Grown under Contrasting Environments
Flores et al. Applying ranking techniques for estimating influence of Earth variables on temperature forecast error

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200110

Assignee: Hubei Songdun Technology Co.,Ltd.

Assignor: CHINA THREE GORGES University

Contract record no.: X2023980042029

Denomination of invention: Spectral feature variable selection and optimization method based on Stacking integration framework

Granted publication date: 20210219

License type: Common License

Record date: 20230918

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200110

Assignee: Hubei Zhigan Space Information Technology Co.,Ltd.

Assignor: CHINA THREE GORGES University

Contract record no.: X2023980051109

Denomination of invention: Spectral feature variable selection and optimization method based on Stacking integration framework

Granted publication date: 20210219

License type: Common License

Record date: 20231213