CN105372198B - 基于集成l1正则化的红外光谱波长选择方法 - Google Patents

基于集成l1正则化的红外光谱波长选择方法 Download PDF

Info

Publication number
CN105372198B
CN105372198B CN201510710525.9A CN201510710525A CN105372198B CN 105372198 B CN105372198 B CN 105372198B CN 201510710525 A CN201510710525 A CN 201510710525A CN 105372198 B CN105372198 B CN 105372198B
Authority
CN
China
Prior art keywords
wavelength
data set
sub data
regularization
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510710525.9A
Other languages
English (en)
Other versions
CN105372198A (zh
Inventor
陈媛媛
景宁
李墅娜
张瑞
李晋华
王芳
吕润发
李珊
刘璐
王志斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North University of China
Original Assignee
North University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North University of China filed Critical North University of China
Priority to CN201510710525.9A priority Critical patent/CN105372198B/zh
Publication of CN105372198A publication Critical patent/CN105372198A/zh
Application granted granted Critical
Publication of CN105372198B publication Critical patent/CN105372198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及红外光谱技术领域,更具体而言,涉及一种基于集成L1正则化的红外光谱波长选择方法,是一种利用集成学习思想的红外光谱波长选择方法;提供一种基于集成L1正则化的红外光谱波长选择方法,首先利用Bootstrap抽样方法生成若干个子数据集,其次针对每个子数据集采用无信息变量消除法进行预处理,然后利用L1正则化方法对每个子数据集进行特征选择,将特征选择问题转换为稀疏优化问题并进行计算,最后采用投票法对各个子数据集的波长选择结果进行集成,从而筛选出最佳的特征波长组合;本发明主要应用在红外光谱方面。

Description

基于集成L1正则化的红外光谱波长选择方法
技术领域
本发明涉及红外光谱技术领域,更具体而言,涉及一种基于集成L1正则化的红外光谱波长选择方法,是一种利用集成学习思想的红外光谱波长选择方法。
背景技术
红外光谱分析是一种新兴的分析技术,由于它具有快速、无损和无污染等优点,在农业、化工和环境监测等领域有着广泛的应用。但是,红外光谱通常具有波长点多、吸收峰重叠、波长点之间存在严重的共线性关系等特点,给后续的定性与定量分析造成困难。因此,研究波长选择方法,对于简化模型、提高模型的预测能力和鲁棒性具有重要的实际意义。
传统的波长选择方法包括前向选择法、群优化算法、区间偏最小二乘法、无信息变量消除法等。前向选择法通过逐步回归,每次选择一个相关程度最高的波长,但是没有考虑波长点间的共线性问题;群优化算法(遗传算法、蝙蝠算法等),通过特定的优化策略对目标函数进行优化,从而实现波长的选择,但是普遍存在计算量大、鲁棒性弱等缺点;区间偏最小二乘法通过将整个波长范围划分成若干个子区间,然后选择泛化性能最好的若干个子区间,但是子区间的个数设置对结果的影响较大,且计算量较大;无信息变量消除法通过加入一些人工随机变量,剔除稳定性低于随机变量的波长点,从而达到波长选择的目的,但是选择出的波长点个数依然很多,模型复杂度较高。
然而,上述方法均未对波长选择方法的稳定性进行分析,即当数据集发生变化时,波长选择的结果也不尽相同,从而导致对筛选出的特征波长解释性变差。文献[高维小样本数据的特征选择研究及稳定性分析,2014,厦门大学硕士学位论文.]将随机森林思想引入到特征选择研究中,并提出了随机集成特征选择方法,显著提升了特征选择算法的稳定性。然而,该方法并没有考虑到红外光谱数据的共线性和稀疏性等特点,直接应用该方法的效果不佳。
发明内容
针对现有的红外光谱波长选择方法普遍存在的稳定性较差的问题,提出一种新型的集成波长选择方法,该方法首先对原始数据集利用Bootstrap抽样方法生成若干个子数据集,然后利用无信息变量消除法(Uninformative Variable Elimination,UVE)对每个子数据集进行预处理,接着采用L1正则化方法对每个子数据集进行特征选择,最后对各个子数据集的波长选择结果进行集成。
为了解决上述技术问题,本发明所采用的技术方案为:
基于集成L1正则化的红外光谱波长选择方法,首先利用Bootstrap抽样方法生成若干个子数据集,其次针对每个子数据集采用无信息变量消除法进行预处理,然后利用L1正则化方法对每个子数据集进行特征选择,将特征选择问题转换为稀疏优化问题并进行计算,最后采用投票法对各个子数据集的波长选择结果进行集成,从而筛选出最佳的特征波长组合。
具体步骤为:
步骤1、利用Bootstrap抽样方法对原始数据集进行有放回地重采样,从而生成M个子数据集S1,S2,…,SM
步骤2、针对每个子数据集,利用无信息变量消除法对光谱进行预处理,从而剔除其中贡献在噪声水平的波长点;
步骤3、针对每个子数据集,利用L1正则化方法,对经过无信息变量消除法预处理后的波长点进行特征选择,即将波长筛选问题转化为以下l1范数稀疏优化问题计算稀疏解结果:
其中,为利用光谱仪扫描出的红外光谱信号;为对应的待分析组分含量;b为经过无信息变量消除法预处理后的波长点回归系数;η为L1正则化算法中控制稀疏度的参数;为计算出的最优解;
步骤4、采用投票法对M个子数据集S1,S2,…,SM的波长选择结果进行集成,从而筛选出最佳的特征波长组合。
所述步骤2中无信息变量消除法对光谱进行预处理具体为:
(1)产生一个与原光谱矩阵维度相同的随机噪声变量矩阵,并与原光谱矩阵合并在一起,形成一个扩展矩阵
(2)采用交叉验证PLS方法建立待分析组分含量Y与光谱信号之间的回归模型:
y=b0+b1x1+…+bpxp+bp+1xp+1+...+b2px2p
(3)根据下式计算各个变量对待分析组分含量Y的贡献值:
上式中,mean(bj)和std(bj)分别表示第j个变量的回归系数的均值和标准差,可以看出,sj越大,表明第j个变量的回归系数的稳定性越高,意味着对待分析组分含量Y的贡献值越重要,当sj小于一定的阈值时,可以认为对应的变量贡献很少,即称为“无信息变量”,可以删除;
(4)通过下式中给出的阈值,对所有的回归系数进行处理,将其中小于阈值的变量删除:
cutoff=k×max(abs(snoise))
其中,k为需要调整的参数。
所述步骤3中计算的稀疏解结果需要转换为二进制序列方式,即一个长度为P的二进制序列,其中1表示对应的波长点被选中,0表示未被选中。
与现有技术相比本发明所具有的有益效果为:
本发明为了提升红外光谱波长选择的稳定性,引入集成学习思想,并利用无信息变量消除法对光谱数据进行预处理,同时采用L1正则化方法进行特征选择,与现有方法相比,该方法具备可调参数少、稳定性强等优点,从而可以大大提升特征选择结果的稳定性,可以广泛应用于固相、液相和气相的红外光谱波长选择领域中。
附图说明
下面通过附图对本发明的具体实施方式作进一步详细的说明。
图1为本发明的系统框图;
图2为60个汽油样品的近红外光谱图;
图3为无信息变量消除法波长筛选过程图;
图4为无信息变量消除法波长筛选结果图;
图5为本发明的波长选择结果图。
具体实施方式
下面实施例结合附图对本发明作进一步的描述。
如图1所示,为本发明基于集成L1正则化的红外光谱波长选择方法系统框图。
假设有N个样品,利用光谱仪扫描出的红外光谱信号为对应的待分析组分含量为其中,P为红外光谱的波长点数,一般情况下N<<P。
由化学计量学原理可得,待分析组分的含量预测模型可以表示为
Y=Xb+ε (1)
其中,为待拟合的回归系数;为噪声误差。
首先,利用Bootstrap抽样方法对原始数据集进行有放回地重采样,从而生成M个子数据集S1,S2,…,SM,每个子数据集中仍然包含N个样品。那么,由概率论可知,新生成的子数据集中不包含某个样本的概率为
当N→∞时,有
即虽然新生成的子数据集的样本总数与原始数据集相等(都为N),但是子数据集中可能包含了重复的样本(有放回抽取),若除去重复的样本,每个子数据集中仅包含了原始数据集中约1-0.368×100%=63.2%的样本。
因此,相较于仅依赖一个原始数据集,通过产生M个子数据集S1,S2,…,SM,可以有效保证特征选择的稳定性。
其次,针对每个子数据集,利用无信息变量消除法(Uninformative VariableElimination,UVE)对光谱进行预处理,从而剔除其中贡献在噪声水平的波长点。具体的步骤如下:
(1)产生一个与原光谱矩阵维度相同的随机噪声变量矩阵,并与原光谱矩阵合并在一起,形成一个扩展矩阵
(2)采用交叉验证PLS方法建立待分析组分含量Y与光谱信号之间的回归模型:
y=b0+b1x1+…+bpxp+bp+1xp+1+...+b2px2p (4)
(3)根据下式计算各个变量对待分析组分含量Y的贡献值:
其中,mean(bj)和std(bj)分别表示第j个变量的回归系数的均值和标准差。可以看出,sj越大,表明第j个变量的回归系数的稳定性越高,意味着对待分析组分含量Y的贡献值越重要。当sj小于一定的阈值时,可以认为对应的变量贡献很少,即称为“无信息变量”,可以删除。
(4)通过下式中给出的阈值,对所有的回归系数进行处理,删除其中的无信息变量:
cutoff=k×max(abs(snoise)) (6)
其中,k为需要调整的参数。
第三,针对每个子数据集,利用L1正则化方法,对经过UVE预处理后的波长点进行特征选择,即将波长筛选问题转化为以下l1范数稀疏优化问题:
为了便于后续的稳定性分析,这里将计算出的稀疏解结果转换为二进制序列方式,即一个长度为P的二进制序列,其中1表示对应的波长点被选中,0表示未被选中。
最后,采用投票法对M个子数据集S1,S2,…,SM的波长选择结果进行集成,从而筛选出最佳的特征波长组合。
下面通过具体的实施例对本发明作较详细的说明,且下面实施例仅用以说明本发明,使本发明更加容易理解,并不限定本发明所保护的范围。
如图2所示,为60个汽油样品的近红外光谱图,其光谱扫描范围为900-1700nm,每隔2nm扫描一个波长点。因此,扫描出的光谱信息矩阵为对应的待分析组分为汽油样品内所包含的辛烷值,即
首先,利用利用Bootstrap抽样方法生成50个子数据集。
其次,针对每个子数据集,利用无信息变量消除法进行预处理。某个子数据集的波长筛选过程和结果分别如图3和图4所示。从图中可以看出,经过UVE初筛选,共保留了104个特征波长点,其余波长点由于贡献较小,均被剔除。
第三,针对每个子数据集,利用L1正则化方法,对经过UVE预处理后的波长点进行特征选择。
第四,采用投票法对50个子数据集的波长选择结果进行集成,最终筛选出的特征波长点如图5所示。从图中可以看出,共筛选出了41个波长点,且均分布在强吸收峰附近(1150nm、1200-1250nm、1360-1400nm)。
为了评价该方法对稳定性的改善情况,本实施方式中采用Jaccard系数作为稳定性度量指标,即:
其中,S(FSi,FSj)的取值范围为【0,1】,0表示两个子数据集的特征选择结果完全不同,1表示完全相同。因此,S(FSi,FSj)越大,相似性越高。
本实施方式中将该方法与遗传算法、无信息变量消除法等进行对比,为了保证结果的一致性,遗传算法与无信息变量消除法均运行50次,对比结果如下表所列:
集成L1正则化 遗传算法 无信息变量消除法
S<sub>total</sub> 0.946 0.835 0.748
从上表中可以看出,仅利用无信息变量消除法,由于随机噪声矩阵的原因,导致稳定性最差,遗传算法稳定性次之,但由于可调参数多,往往很难找到一个满意的结果,本专利提出的集成L1正则化方法稳定性最佳,且可调参数少。

Claims (3)

1.基于集成L1正则化的红外光谱波长选择方法,其特征在于:首先利用Bootstrap抽样方法生成若干个子数据集,其次针对每个子数据集采用无信息变量消除法进行预处理,然后利用L1正则化方法对每个子数据集进行特征选择,将特征选择问题转换为稀疏优化问题并进行计算,最后采用投票法对各个子数据集的波长选择结果进行集成,从而筛选出最佳的特征波长组合;具体步骤为:
步骤1、利用Bootstrap抽样方法对原始数据集进行有放回地重采样,从而生成M个子数据集{S1,S2,…,SM};
步骤2、针对每个子数据集,利用无信息变量消除法对光谱进行预处理,从而剔除其中贡献在噪声水平的波长点;
步骤3、针对每个子数据集,利用L1正则化方法,对经过无信息变量消除法预处理后的波长点进行特征选择,即将波长筛选问题转化为以下l1范数稀疏优化问题计算稀疏解结果:
其中,为利用光谱仪扫描出的红外光谱信号;为对应的待分析组分含量;b为经过无信息变量消除法预处理后的波长点回归系数;η为L1正则化算法中控制稀疏度的参数;为计算出的最优解;
步骤4、采用投票法对M个子数据集{S1,S2,…,SM}的波长选择结果进行集成,从而筛选出最佳的特征波长组合。
2.根据权利要求1所述的一种基于集成L1正则化的红外光谱波长选择方法,其特征在于,所述步骤2中无信息变量消除法对光谱进行预处理具体为:
(1)产生一个与原光谱矩阵维度相同的随机噪声变量矩阵,并与原光谱矩阵合并在一起,形成一个扩展矩阵
(2)采用交叉验证PLS方法建立待分析组分含量Y与光谱信号之间的回归模型:
y=b0+b1x1+…+bpxp+bp+1xp+1+...+b2px2p
(3)根据下式计算各个变量对待分析组分含量Y的贡献值:
上式中,mean(bj)和std(bj)分别表示第j个变量的回归系数的均值和标准差,可以看出,sj越大,表明第j个变量的回归系数的稳定性越高,意味着对待分析组分含量Y的贡献值越重要,当sj小于一定的阈值时,可以认为对应的变量贡献很少,即称为“无信息变量”,可以删除;
(4)通过下式中给出的阈值,对所有的回归系数进行处理,将其中小于阈值的变量删除:
cutoff=k×max(abs(snoise))
其中,k为需要调整的参数,snoise为随机噪声变量的贡献值,abs(snoise)为随机噪声变量的贡献值的绝对值。
3.根据权利要求1所述的一种基于集成L1正则化的红外光谱波长选择方法,其特征在于:所述步骤3中计算的稀疏解结果需要转换为二进制序列方式,即一个长度为P的二进制序列,其中1表示对应的波长点被选中,0表示未被选中。
CN201510710525.9A 2015-10-28 2015-10-28 基于集成l1正则化的红外光谱波长选择方法 Active CN105372198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510710525.9A CN105372198B (zh) 2015-10-28 2015-10-28 基于集成l1正则化的红外光谱波长选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510710525.9A CN105372198B (zh) 2015-10-28 2015-10-28 基于集成l1正则化的红外光谱波长选择方法

Publications (2)

Publication Number Publication Date
CN105372198A CN105372198A (zh) 2016-03-02
CN105372198B true CN105372198B (zh) 2019-04-30

Family

ID=55374591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510710525.9A Active CN105372198B (zh) 2015-10-28 2015-10-28 基于集成l1正则化的红外光谱波长选择方法

Country Status (1)

Country Link
CN (1) CN105372198B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106644983B (zh) * 2016-12-28 2019-12-31 浙江大学 一种基于pls-vip-aco算法的光谱波长选择方法
JP6706301B2 (ja) * 2018-09-28 2020-06-03 Ckd株式会社 検査装置、ptp包装機及びptpシートの製造方法
CN110208211B (zh) * 2019-07-03 2021-10-22 南京林业大学 一种用于农药残留检测的近红外光谱降噪方法
CN110674947B (zh) * 2019-09-02 2021-02-19 三峡大学 基于Stacking集成框架的光谱特征变量选择与优化方法
CN113177604B (zh) * 2021-05-14 2024-04-16 东北大学 一种基于改进l1正则化和聚类的高维数据特征选择方法
CN113624738A (zh) * 2021-07-19 2021-11-09 上海应用技术大学 一种快速筛查生鲜乳中乳清掺假的方法
CN117929357A (zh) * 2024-03-21 2024-04-26 沈阳尖科智能测控技术合伙企业(有限合伙) 一种基于l2连续投影算法的libs波长筛选方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105026902A (zh) * 2013-03-07 2015-11-04 西门子公司 用于推进相关情况的煤质量测量声明的系统和方法
CN103353936B (zh) * 2013-07-26 2017-01-11 上海交通大学 人脸识别方法及系统
CN104268569B (zh) * 2014-09-18 2017-08-01 浙江工业大学 一种基于超低色散光谱特征的空间碎片分类方法

Also Published As

Publication number Publication date
CN105372198A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN105372198B (zh) 基于集成l1正则化的红外光谱波长选择方法
WO2020073737A1 (zh) 一种基于深度学习的定量光谱数据分析处理方法
Jiang et al. A fully convolutional neural network-based regression approach for effective chemical composition analysis using near-infrared spectroscopy in cloud
CN105630743B (zh) 一种光谱波数的选择方法
CN102590211B (zh) 利用光谱和图像特征进行烟叶分级的方法
Li et al. Rapid detection of talcum powder in tea using FT-IR spectroscopy coupled with chemometrics
MX2007000064A (es) Eliminacion automatica del fondo para los datos de entrada.
Zhang et al. Mid‐Infrared Spectroscopy for Coffee Variety Identification: Comparison of Pattern Recognition Methods
Jiang et al. Using an optimal CC-PLSR-RBFNN model and NIR spectroscopy for the starch content determination in corn
Shen et al. Rapid identification of producing area of wheat using terahertz spectroscopy combined with chemometrics
CN114417937A (zh) 一种基于深度学习的拉曼光谱去噪方法
KR101300551B1 (ko) 전자파의 측정 방법 및 측정 장치
CN102135496A (zh) 基于多尺度回归的红外光谱定量分析方法和装置
CN105067550B (zh) 一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法
Beitollahi et al. Using savitsky-golay smoothing filter in hyperspectral data compression by curve fitting
Huang et al. Optimal wavelength selection for hyperspectral scattering prediction of apple firmness and soluble solids content
CN114112983A (zh) 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法
CN104964943B (zh) 一种基于自适应Group Lasso的红外光谱波长选择方法
Liu et al. Estimation of chlorophyll content in maize canopy using wavelet denoising and SVR method
Dos Santos et al. Improvement of prediction ability of PLS models employing the wavelet packet transform: A case study concerning FT-IR determination of gasoline parameters
CN113297722A (zh) 滨海土壤盐分评估方法及系统
Liu et al. Research on the online rapid sensing method of moisture content in famous green tea spreading
CN116578851A (zh) 一种高光谱土壤有效硼含量预测方法
Cai Near-infrared spectrum detection of wheat gluten protein content based on a combined filtering method
CN105651727B (zh) 基于jade和elm的近红外光谱分析鉴别苹果货架期的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant