CN104964943A - 一种基于自适应Group Lasso的红外光谱波长选择方法 - Google Patents

一种基于自适应Group Lasso的红外光谱波长选择方法 Download PDF

Info

Publication number
CN104964943A
CN104964943A CN201510279002.3A CN201510279002A CN104964943A CN 104964943 A CN104964943 A CN 104964943A CN 201510279002 A CN201510279002 A CN 201510279002A CN 104964943 A CN104964943 A CN 104964943A
Authority
CN
China
Prior art keywords
mrow
wavelength
msub
infrared spectrum
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510279002.3A
Other languages
English (en)
Other versions
CN104964943B (zh
Inventor
陈媛媛
李墅娜
王志斌
张瑞
陈友华
王芳
李克武
张敏娟
李晋华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North University of China
Original Assignee
North University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North University of China filed Critical North University of China
Priority to CN201510279002.3A priority Critical patent/CN104964943B/zh
Publication of CN104964943A publication Critical patent/CN104964943A/zh
Application granted granted Critical
Publication of CN104964943B publication Critical patent/CN104964943B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及红外光谱波长技术领域,更具体而言,涉及一种基于凸优化理论的新型红外光谱波长选择方法,是一种采用Group Lasso方法、无需知道光谱分块先验知识的自适应波长选择方法;本发明将红外光谱波长筛选问题转化为一个Group Lasso稀疏优化问题,充分利用红外光谱的稀疏结构先验知识,自适应确定分块大小,同时采用Shooting快速算法计算稀疏解,并对稀疏解进行Belsley共线性检验,剔除其中贡献较小的波长点;该方法具备计算量小、可调参数少、鲁棒性强等优点,从而可以有效降低模型的复杂度,提升模型的泛化性能,可以广泛应用于固相、液相和气相的红外光谱波长选择领域中。

Description

一种基于自适应Group Lasso的红外光谱波长选择方法
技术领域
本发明涉及红外光谱波长技术领域,更具体而言,涉及一种基于凸优化理论的新型红外光谱波长选择方法,是一种采用Group Lasso方法、无需知道光谱分块先验知识的自适应波长选择方法。
背景技术
红外光谱分析是一种新兴的分析技术,由于它具有快速、无损和无污染等优点,在农业、化工和环境监测等领域有着广泛的应用。但是,红外光谱通常具有波长点多、吸收峰重叠、波长点之间存在严重的共线性关系等特点,给后续的定性与定量分析造成困难。因此,研究波长选择方法,对于简化模型、提高模型的预测能力和鲁棒性具有重要的实际意义。
传统的波长选择方法包括前向选择法、群优化算法、区间偏最小二乘法、无信息变量消除法等。前向选择法通过逐步回归,每次选择一个相关程度最高的波长,但是没有考虑波长点间的共线性问题;群优化算法(遗传算法、蝙蝠算法等),通过特定的优化策略对目标函数进行优化,从而实现波长的选择,但是普遍存在计算量大、鲁棒性弱等缺点;区间偏最小二乘法通过将整个波长范围划分成若干个子区间,然后选择泛化性能最好的若干个子区间,但是子区间的个数设置对结果的影响较大,且计算量较大;无信息变量消除法通过加入一些人工随机变量,剔除稳定性低于随机变量的波长点,从而达到波长选择的目的,但是选择出的波长点个数依然很多,模型复杂度较高。
此外,考虑到红外光谱通常具有稀疏结构的特点(仅有少部分波长点对于模型有贡献),文献[基于稀疏优化的近红外光谱波长选择方法,仪器仪表学报.2011,32(5):1114-1118]将波长选择问题转化为一个稀疏优化问题,再根据优化结果对波长进行排序,然后选择前面的部分波长。然而,该方法并没有考虑红外光谱的分块稀疏特点及共波长点间的共线性问题,导致算法的鲁棒性较弱。
综上所述,有必要对现有技术进行改进。
发明内容
为了克服现有技术中红外光谱波长选择方法存在的计算量大、鲁棒性弱等不足,本发明提出一种计算量小、可调参数少、鲁棒性强的一种基于自适应Group Lasso的红外光谱波长选择方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于自适应Group Lasso的红外光谱波长选择方法,包括以下步骤:
a、充分利用红外光谱的先验知识,自适应确定光谱的分块稀疏结构;
b、采用Shooting快速算法计算出稀疏解;
c、对稀疏解对应的波长点进行Belsley共线性检验,剔除其中贡献较小的波长点。
所述a步骤具体为:利用二阶导数光谱自适应确定光谱的分块稀疏结构,所述自适应的划分方法可以根据波长点的贡献大小自适应确定分块的大小,即贡献较大的光谱范围内每个分块包含的波长点较少;反之,贡献较小的光谱范围内每个分块包含的波长点较多;
将光谱范围内划分为J个分块,第j个分块中包含的波长点个数为Pj j=1,2,…,J,则满足 Σ j = 1 J P j = P ;
所述b步骤具体为:采用Shooting快速算法求解以下Group Lasso分块稀疏优化问题:
β ^ λ = arg m i n β | | Y - Σ j = 1 J X j β j | | 2 + λ Σ j = 1 J | | β j | | K j
上式中,为第j个分块波长点对应的回归系数;为第j个分块波长点对应的红外光谱信息;为第j个分块对应的对称正定矩阵;
所述c步骤具体为:将上述步骤中求得的稀疏解中非零的回归系数对应的波长点进行Belsley共线性检验,若存在多重共线性问题,则剔除其中贡献较小的波长点,保留贡献较大的波长点。
所述Shooting快速算法按照如下具体步骤进行:
(1)分别将X和Y去中心化,即
X ← X - X ‾ Y ← Y - Y ‾
上式中, X ‾ = 1 N Σ i = 1 N x i , Y ‾ = 1 N Σ i = 1 N y i ;
(2)将X进行Gram-Schmidt正交化,即
x ~ 1 = x 1 , &eta; 1 = x ~ 1 | | x ~ 1 | | x ~ j = x j - &Sigma; i = 1 j - 1 < x j , &eta; i > &eta; i , &eta; i = x ~ j | | x ~ j | | , j = 2 , ... , P
(3)利用岭回归方法计算的回归系数作为β的初始值:
β0=XTX+λI-1XT
(4)针对每个分块,根据下式修正β的值:
上式中, S j = X j T Y - X&beta; - j , 其中, &beta; - j = &beta; 1 T , ... , &beta; j - 1 T , 0 T , &beta; j + 1 T , ... , &beta; J T ;
(5)迭代计算步骤(4),直到满足停机条件;
(6)输出计算出的稀疏解
与现有技术相比本发明所具有的有益效果为:
本发明将红外光谱波长筛选问题转化为一个Group Lasso稀疏优化问题,充分利用红外光谱的稀疏结构先验知识,自适应确定分块大小,同时采用Shooting快速算法计算稀疏解,并对稀疏解进行Belsley共线性检验,剔除其中贡献较小的波长点,与现有方法相比,该方法具备计算量小、可调参数少、鲁棒性强等优点,从而可以有效降低模型的复杂度,提升模型的泛化性能,可以广泛应用于固相、液相和气相的红外光谱波长选择领域中。
附图说明
下面通过附图对本发明的具体实施方式作进一步详细的说明。
图1为60个汽油样品的近红外光谱图;
图2为60个汽油样品平均光谱的二阶导数光谱;
图3为基于自适应Group Lasso的红外光谱波长选择结果;
图4为Belsley共线性检验后波长选择结果。
具体实施方式
下面实施例结合附图对本发明作进一步的描述。
以下结合图1和图2对本发明进行详细阐述。
如图1所示,假设有N个样品,利用光谱仪扫描出的红外光谱信号为对应的待分析组分含量为其中,P为红外光谱的波长点数,一般情况下N<<P。
由化学计量学原理可得,待分析组分的含量预测模型可以表示为
Y=Xβ+ε   (1)
其中,为待拟合的回归系数;为噪声误差。
为了实现波长选择,利用凸优化理论,可以将问题转化为以下l1范数稀疏优化问题:
&beta; ^ &lambda; = arg min &beta; | | Y - X &beta; | | 2 + &lambda; | | &beta; | | 1 - - - ( 2 )
从如图2所示的二阶导数光谱中可以看出,仅有少部分波长点对模型的贡献较大,且存在分块稀疏结构,即贡献较大的波长点大多集中分布在少数几个分块中。假设整个光谱范围可以分为J个分块,第j个分块中包含的波长点个数为Pj j=1,2,…,J,则满足
那么,上述稀疏优化问题可以转化为以下分块稀疏优化问题:
&beta; ^ &lambda; = arg m i n &beta; | | Y - &Sigma; j = 1 J X j &beta; j | | 2 + &lambda; &Sigma; j = 1 J | | &beta; j | | K j - - - ( 3 )
其中,为第j个分块波长点对应的回归系数;为第j个分块波长点对应的红外光谱信息;为第j个分块对应的对称正定矩阵。
从以上分析可以看出,当Pj 时,即整个光谱范围分为N个分块,亦即每个波长点为一个分块,上述分块稀疏优化问题(3)即退化为l1范数稀疏优化问题(2)。
为了将整个光谱范围划分为若干个分块,可以采用多种划分方法,如均匀划分。然而,若采用均匀划分策略,则意味着所有波长点的贡献相同,在稀疏优化时可能会将贡献较大的波长点剔除。因此,本发明基于二阶导数光谱提出了自适应划分方法,可以根据波长点的贡献大小自适应确定分块的大小,即贡献较大的光谱范围内每个分块包含的波长点较少,反之,贡献较小的光谱范围内每个分块包含的波长点较多。即如图2所示,选择一个合适的阈值η,当二阶导数光谱的绝对值大于阈值时,每个分块内包含较少的波长点;当二阶导数光谱的绝对值小于阈值时,每个分块内包含较多的波长点。
为了快速求解上述分块稀疏优化问题,本发明采用Shooting算法,详细求解步骤如下:
(1)分别将X和Y去中心化,即
{ X &LeftArrow; X - X &OverBar; Y &LeftArrow; Y - Y &OverBar; - - - ( 4 )
其中, X &OverBar; = 1 N &Sigma; i = 1 N x i , Y &OverBar; = 1 N &Sigma; i = 1 N y i .
(2)将X进行Gram-Schmidt正交化,即
x ~ 1 = x 1 , &eta; 1 = x ~ 1 | | x ~ 1 | | x ~ j = x j - &Sigma; i = 1 j - 1 < x j , &eta; i > &eta; i , &eta; j = x ~ j | | x ~ j | | , j = 2 , ... , P - - - ( 5 )
(3)利用岭回归方法计算式(1),并作为β的初始值:
β0=XTX+λI-1XTY   (6) 
(4)针对每个分块,根据下式修正β的值:
其中, S j = X j T Y - X&beta; - j , &beta; - j = &beta; 1 T , ... , &beta; j - 1 T , 0 T , &beta; j + 1 T , ... , &beta; J T .
(5)迭代计算步骤(4),直到满足停机条件(达到最大迭代次数,或满足迭代收敛误差限等)。
(6)输出计算出的稀疏解
为了消除波长点间的多重共线性问题,需要对中非零的回归系数对应的波长点进行Belsley共线性检验,若存在多重共线性问题,则剔除其中贡献较小的波长点,保留贡献较大的波长点。
以下结合附图1、图2、图3和图4对本发明进行具体实施方式进行分析。
图1为60个汽油样品的近红外光谱图,其光谱扫描范围为900-1700nm,每隔2nm扫描一个波长点。因此,扫描出的光谱信息矩阵为对应的待分析组分为汽油样品内所 包含的辛烷值,即
首先,利用二阶导数光谱自适应确定光谱的分块稀疏结构。如图2所示,选择一个阈值η=0.002,当二阶导数光谱的绝对值大于阈值时,每个分块内仅包含两个波长点;当二阶导数光谱的绝对值小于阈值时,每个分块内包含8个波长点。最终将整个光谱范围划分成98个块,其中63个分块仅包含两个波长点,1个分块包含3个波长点,剩余34个分块均包含8个波长点。
其次,利用Shooting快速算法对Group Lasso分块稀疏优化问题进行求解,其中涉及到的参数设置如下:最大迭代次数maxIter=1000,迭代收敛误差限τ=10-6
计算出的稀疏解如图3所示。从图中可以看出,在64个贡献较大的分块中,共筛选出了32个波长点,且均分布在强吸收峰附近(1150nm、1190nm、1400nm、1700nm);在34个贡献较少的分块中,共筛选出了18个分块,共144个波长点。
最后,对计算出的稀疏解进行Belsley共线性检验,剔除其中贡献较小的波长点,保留最具代表性的波长点,结果如图4所示。从中可以发现,在144个贡献较小的波长点中,仅保留了6个贡献较大的波长点(910nm、1635nm附近)。
因此,最终选择出的38个特征波长点分别为:908、910、1146、1148、1150、1152、1198、1200、1202、1204、1206、1208、1370、1372、1386、1388、1390、1392、1394、1396、1406、1408、1410、1412、1430、1432、1630、1632、1634、1636、1670、1672、1682、1684、1686、1688、1694、1696(单位:nm)。

Claims (3)

1.一种基于自适应Group Lasso的红外光谱波长选择方法,其特征在于,包括以下步骤:
a、充分利用红外光谱的先验知识,自适应确定光谱的分块稀疏结构;
b、采用Shooting快速算法计算出稀疏解;
c、对稀疏解对应的波长点进行Belsley共线性检验,剔除其中贡献较小的波长点。
2.根据权利要求1所述的一种基于自适应Group Lasso的红外光谱波长选择方法,其特征在于:
所述a步骤具体为:利用二阶导数光谱自适应确定光谱的分块稀疏结构,所述自适应的划分方法可以根据波长点的贡献大小自适应确定分块的大小,即贡献较大的光谱范围内每个分块包含的波长点较少;反之,贡献较小的光谱范围内每个分块包含的波长点较多;
将光谱范围内划分为J个分块,第j个分块中包含的波长点个数为Pj j=1,2,…,J,则满足
所述b步骤具体为:采用Shooting快速算法求解以下Group Lasso分块稀疏优化问题:
上式中,为第j个分块波长点对应的回归系数;为第j个分块波长点对应的红外光谱信息;为第j个分块对应的对称正定矩阵;
所述c步骤具体为:将上述步骤中求得的稀疏解中非零的回归系数对应的波长点进行Belsley共线性检验,若存在多重共线性问题,则剔除其中贡献较小的波长点,保留贡献较大的波长点。
3.根据权利要求2所述的一种基于自适应Group Lasso的红外光谱波长选择方法,其特征在于,所述Shooting快速算法按照如下具体步骤进行:
(1)分别将X和Y去中心化,即
上式中,
(2)将X进行Gram-Schmidt正交化,即
(3)利用岭回归方法计算的回归系数作为β的初始值:
β0=XTX+λI-1XT
(4)针对每个分块,根据下式修正β的值:
上式中,其中,
(5)迭代计算步骤(4),直到满足停机条件;
(6)输出计算出的稀疏解
CN201510279002.3A 2015-05-28 2015-05-28 一种基于自适应Group Lasso的红外光谱波长选择方法 Expired - Fee Related CN104964943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510279002.3A CN104964943B (zh) 2015-05-28 2015-05-28 一种基于自适应Group Lasso的红外光谱波长选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510279002.3A CN104964943B (zh) 2015-05-28 2015-05-28 一种基于自适应Group Lasso的红外光谱波长选择方法

Publications (2)

Publication Number Publication Date
CN104964943A true CN104964943A (zh) 2015-10-07
CN104964943B CN104964943B (zh) 2017-07-18

Family

ID=54218990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510279002.3A Expired - Fee Related CN104964943B (zh) 2015-05-28 2015-05-28 一种基于自适应Group Lasso的红外光谱波长选择方法

Country Status (1)

Country Link
CN (1) CN104964943B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105445215A (zh) * 2015-12-02 2016-03-30 中北大学 基于离散多重宇宙优化算法的红外光谱波长选择方法
CN108827905A (zh) * 2018-04-08 2018-11-16 江南大学 一种基于局部加权Lasso的近红外模型在线更新方法
CN110059439A (zh) * 2019-04-29 2019-07-26 中国人民解放军战略支援部队航天工程大学 一种基于数据驱动的航天器轨道确定方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
CN101825567A (zh) * 2010-04-02 2010-09-08 南开大学 一种近红外光谱和拉曼光谱波长的筛选方法
CN102128805A (zh) * 2010-12-23 2011-07-20 华东交通大学 果品近红外光谱波长选择和快速定量分析方法及装置
CN102279168A (zh) * 2011-07-20 2011-12-14 浙江大学 基于近红外光谱技术快速无损分析整粒棉籽营养品质的方法
CN103308463A (zh) * 2013-06-28 2013-09-18 中国农业大学 一种近红外光谱特征谱区选择方法
CN103398971A (zh) * 2013-07-19 2013-11-20 华北电力大学(保定) 一种测定柴油十六烷值的化学计量学方法
US20140278130A1 (en) * 2013-03-14 2014-09-18 William Michael Bowles Method of predicting toxicity for chemical compounds

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
CN101825567A (zh) * 2010-04-02 2010-09-08 南开大学 一种近红外光谱和拉曼光谱波长的筛选方法
CN102128805A (zh) * 2010-12-23 2011-07-20 华东交通大学 果品近红外光谱波长选择和快速定量分析方法及装置
CN102279168A (zh) * 2011-07-20 2011-12-14 浙江大学 基于近红外光谱技术快速无损分析整粒棉籽营养品质的方法
US20140278130A1 (en) * 2013-03-14 2014-09-18 William Michael Bowles Method of predicting toxicity for chemical compounds
CN103308463A (zh) * 2013-06-28 2013-09-18 中国农业大学 一种近红外光谱特征谱区选择方法
CN103398971A (zh) * 2013-07-19 2013-11-20 华北电力大学(保定) 一种测定柴油十六烷值的化学计量学方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZOU HONG-YAN ET AL.: "Variable-weighted least-squares support vector machine for multivariate spectral analysis", 《TALANTA》 *
ZOU XIAOBO ET AL.: "Variables selection methods in near-infrared spectroscopy", 《ANALYTICA CHIMICA ACTA》 *
韩敏等: "一种基于L1范数正则化的回声状态网络", 《自动化学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105445215A (zh) * 2015-12-02 2016-03-30 中北大学 基于离散多重宇宙优化算法的红外光谱波长选择方法
CN105445215B (zh) * 2015-12-02 2018-01-16 中北大学 基于离散多重宇宙优化算法的红外光谱波长选择方法
CN108827905A (zh) * 2018-04-08 2018-11-16 江南大学 一种基于局部加权Lasso的近红外模型在线更新方法
CN108827905B (zh) * 2018-04-08 2020-07-24 江南大学 一种基于局部加权Lasso的近红外模型在线更新方法
CN110059439A (zh) * 2019-04-29 2019-07-26 中国人民解放军战略支援部队航天工程大学 一种基于数据驱动的航天器轨道确定方法

Also Published As

Publication number Publication date
CN104964943B (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
CN109493287B (zh) 一种基于深度学习的定量光谱数据分析处理方法
CN105372198B (zh) 基于集成l1正则化的红外光谱波长选择方法
CN105067550B (zh) 一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法
CN106644983B (zh) 一种基于pls-vip-aco算法的光谱波长选择方法
Krier et al. Feature clustering and mutual information for the selection of variables in spectral data.
CN110782658A (zh) 一种基于LightGBM算法的交通量预测方法
CN105136714B (zh) 一种基于遗传算法的太赫兹光谱波长选择方法
CN104964943B (zh) 一种基于自适应Group Lasso的红外光谱波长选择方法
CN111863147B (zh) Sf6及其分解组分气体的浓度检测方法及装置
CN1657907A (zh) 基于间隔偏最小二乘法的农产品、食品近红外光谱谱区选择方法
CN112906300B (zh) 基于双通道卷积神经网络的极化sar土壤湿度反演方法
CN110569605B (zh) 一种基于nsga2-elm的粳稻叶片氮素含量反演模型方法
CN110243806A (zh) 拉曼光谱下基于相似度的混合物组分识别方法
CN113049507A (zh) 多模型融合的光谱波长选择方法
CN104990895A (zh) 一种基于局部区域的近红外光谱信号标准正态校正方法
CN108596123A (zh) 一种基于高光谱分析的水果硬度检测方法及装置
CN115598162B (zh) 基于堆叠式模型的土壤重金属含量检测方法
CN112485217B (zh) 一种应用于产地溯源的肉类鉴别模型的构建方法以及装置
CN111766210B (zh) 一种近岸复杂海水硝酸盐氮多光谱测量方法
Huang et al. Optimal wavelength selection for hyperspectral scattering prediction of apple firmness and soluble solids content
CN113297722A (zh) 滨海土壤盐分评估方法及系统
CN116911189A (zh) 应用持续学习精准检测动态时变直流故障电弧的方法
CN114062306B (zh) 一种近红外光谱数据分段预处理方法
CN115910223A (zh) 基于PLS-LSBoost梯度提升树的辐照白酒生产工艺优化方法
CN115630332A (zh) 一种小麦粉粉质特性预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170718

Termination date: 20210528

CF01 Termination of patent right due to non-payment of annual fee