CN105067550A - 基于分块稀疏贝叶斯优化的红外光谱波长选择方法 - Google Patents

基于分块稀疏贝叶斯优化的红外光谱波长选择方法 Download PDF

Info

Publication number
CN105067550A
CN105067550A CN201510458823.3A CN201510458823A CN105067550A CN 105067550 A CN105067550 A CN 105067550A CN 201510458823 A CN201510458823 A CN 201510458823A CN 105067550 A CN105067550 A CN 105067550A
Authority
CN
China
Prior art keywords
piecemeal
wavelength
sparse
wavelength points
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510458823.3A
Other languages
English (en)
Other versions
CN105067550B (zh
Inventor
吴其洲
赵耀霞
陈媛媛
张艳双
刘泉水
武彦涛
聂江稳
霍志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North University of China
Original Assignee
North University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North University of China filed Critical North University of China
Priority to CN201510458823.3A priority Critical patent/CN105067550B/zh
Publication of CN105067550A publication Critical patent/CN105067550A/zh
Application granted granted Critical
Publication of CN105067550B publication Critical patent/CN105067550B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及红外光谱波长技术领域,更具体而言,涉及一种基于稀疏贝叶斯学习的新型红外光谱波长选择方法,是一种利用光谱结构先验知识和光谱间共线性相关先验知识的稀疏优化波长选择方法;本发明提出一种计算量小、可调参数少、鲁棒性强的一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法;首先利用红外光谱结构先验知识和光谱间共线性先验知识,自适应确定光谱的分块稀疏结构;然后采用稀疏贝叶斯学习算法计算出稀疏优化问题的最优解,从而筛选出最优的波长点组合;本发明可广泛应用于固相、液相和气相的红外光谱波长选择领域中。

Description

基于分块稀疏贝叶斯优化的红外光谱波长选择方法
技术领域
本发明涉及红外光谱波长技术领域,更具体而言,涉及一种基于稀疏贝叶斯学习的新型红外光谱波长选择方法,是一种利用光谱结构先验知识和光谱间共线性相关先验知识的稀疏优化波长选择方法。
背景技术
红外光谱分析是一种新兴的分析技术,由于它具有快速、无损和无污染等优点,在农业、化工和环境监测等领域有着广泛的应用。但是,红外光谱通常具有波长点多、吸收峰重叠、波长点之间存在严重的共线性关系等特点,给后续的定性与定量分析造成困难。因此,研究波长选择方法,对于简化模型、提高模型的预测能力和鲁棒性具有重要的实际意义。
传统的波长选择方法包括前向选择法、群优化算法、区间偏最小二乘法、无信息变量消除法等。前向选择法通过逐步回归,每次选择一个相关程度最高的波长,但是没有考虑波长点间的共线性问题;群优化算法(遗传算法、蝙蝠算法等),通过特定的优化策略对目标函数进行优化,从而实现波长的选择,但是普遍存在计算量大、鲁棒性弱等缺点;区间偏最小二乘法通过将整个波长范围划分成若干个子区间,然后选择泛化性能最好的若干个子区间,但是子区间的个数设置对结果的影响较大,且计算量较大;无信息变量消除法通过加入一些人工随机变量,剔除稳定性低于随机变量的波长点,从而达到波长选择的目的,但是选择出的波长点个数依然很多,模型复杂度较高。
此外,考虑到红外光谱通常具有稀疏结构的特点(仅有少部分波长点对于模型有贡献),文献[基于稀疏优化的近红外光谱波长选择方法,仪器仪表学报.2011,32(5):1114-1118]将波长选择问题转化为一个稀疏优化问题,再根据优化结果对波长进行排序,然后选择前面的部分波长。然而,该方法并没有考虑红外光谱的分块稀疏特点及共波长点间的共线性问题,导致算法的鲁棒性较弱。
综上所述,有必要对现有技术进行改进。
发明内容
为了克服现有技术中红外光谱波长选择方法存在的计算量大、鲁棒性弱等不足,本发明提出一种计算量小、可调参数少、鲁棒性强的一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法。
为了解决上述技术问题,本发明采用的技术方案为:
基于分块稀疏贝叶斯优化的红外光谱波长选择方法,首先利用红外光谱结构先验知识和光谱间共线性先验知识,自适应确定光谱的分块稀疏结构;然后采用稀疏贝叶斯学习算法计算出稀疏优化问题的最优解,从而筛选出最优的波长点组合。
首先利用二阶导数光谱自适应确定光谱的分块稀疏结构,所述光谱自适应的划分方法可以根据波长点的贡献大小自适应确定分块的大小,即贡献较大的光谱范围内每个分块包含的波长点较少;反之,贡献较小的光谱范围内每个分块包含的波长点较多;将光谱范围内划分为J个分块,第j个分块中包含的波长点个数为Pjj=1,2,…,J,则满足然后采用分块稀疏贝叶斯学习算法求解以下稀疏优化问题:
x ^ η = arg m i n x | | Y - Σ j = 1 J Φ j x j | | 2 + η Σ j = 1 J | | x j | | K j
上式中,为待分析组分含量;为第j个分块波长点对应的回归系数;为第j个分块波长点对应的红外光谱信息;为第j个分块对应的对称正定矩阵;η为可调参数,控制优化解的稀疏度。
所述分块稀疏贝叶斯学习算法按照如下具体步骤进行:
(1)假设每个分块均满足高斯分布:
其中,γi为一个非负的参数,控制着x的稀疏度;当γi=0时,表示第i个分块xi为零;为一个正定矩阵,表征第i个分块的相关信息;
(2)假设各个分块间相互独立,则x的先验分布为
其中,Σ0=diagγ1B1,…,γJBJ
(3)假设噪声也满足高斯分布:其中,v为实验过程中引入的噪声;λ为一个正标量;I为单位矩阵;
(4)由步骤(1)-(3)可得,x的后验分布可表示为;
其中, μ x = Σ 0 Φ T λ I + ΦΣ 0 Φ T - 1 y ; Σ x = ( Σ 0 - 1 + 1 λ Φ T Φ ) - 1 ;
(5)所有的参数被估计出来后,x的最大后验估计直接通过x的后验分布的均值计算出来,即: x ^ ← Σ 0 Φ T λ I + ΦΣ 0 Φ T - 1 y ;
(6)参数由第二类最大似然估计获得,即等效于计算以下损失函数的最小值:
其中,表示所有的待估计参数;
(7)采用期望最大化算法对步骤(6)进行求解,可以得到参数γi、λ和Bi的学习规则:
γ i ← 1 d i T r [ B i - 1 Σ x i + μ x i μ x i T ]
λ ← | | y - Φμ x | | 2 2 + TrΣ x Φ T Φ M
B i ← 1 J Σ i = 1 J Σ x i + μ x i μ x i T γ i
其中,为μx的第i个分块;为Σx的第i个主对角阵分块。
与现有技术相比本发明所具有的有益效果为:
本发明首先利用二阶导数方法将光谱自适应划分为若干个子区间(分块),然后在充分利用各个分块的红外光谱的共线性先验知识的基础上采用稀疏贝叶斯优化算法计算出稀疏解,从而筛选出最优的波长点组合;与现有方法相比,该方法具备计算量小、可调参数少、鲁棒性强等优点,从而可以有效降低模型的复杂度,提升模型的泛化性能,可以广泛应用于固相、液相和气相的红外光谱波长选择领域中。
附图说明
下面通过附图对本发明的具体实施方式作进一步详细的说明。
图1为60个汽油样品的近红外光谱图;
图2为60个汽油样品平均光谱的二阶导数光谱;
图3为基于稀疏贝叶斯优化的红外光谱波长选择结果。
具体实施方式
下面实施例结合附图对本发明作进一步的描述。
以下结合图1和图2对本发明进行详细阐述。
如图1所示,假设有N个样品,利用光谱仪扫描出的红外光谱信号为对应的待分析组分含量为其中,P为红外光谱的波长点数,一般情况下N<<P。
由化学计量学原理可得,待分析组分的含量预测模型可以表示为
Y=Φx+v(1)
其中,为待拟合的回归系数;为噪声误差。
为了实现波长选择,利用凸优化理论,可以将问题转化为以下l1范数稀疏优化问题:
x ^ η = arg m i n x | | Y - Φ x | | 2 + η | | x | | 1 - - - ( 2 )
从如图2所示的二阶导数光谱中可以看出,仅有少部分波长点对模型的贡献较大,且存在分块稀疏结构,即贡献较大的波长点大多集中分布在少数几个分块中。假设整个光谱范围可以分为J个分块,第j个分块中包含的波长点个数为Pjj=1,2,…,J,则满足
那么,上述稀疏优化问题可以转化为以下分块稀疏优化问题:
x ^ η = arg m i n x | | Y - Σ j = 1 J Φ j x j | | 2 + η Σ j = 1 J | | x j | | K j - - - ( 3 )
其中,为待分析组分含量;为第j个分块波长点对应的回归系数;为第j个分块波长点对应的红外光谱信息;为第j个分块对应的对称正定矩阵;η为可调参数,控制优化解的稀疏度。
从以上分析可以看出,当时,即整个光谱范围分为N个分块,亦即每个波长点为一个分块,上述分块稀疏优化问题(3)即退化为l1范数稀疏优化问题(2)。
为了将整个光谱范围划分为若干个分块,可以采用多种划分方法,如均匀划分。然而,若采用均匀划分策略,则意味着所有波长点的贡献相同,在稀疏优化时可能会将贡献较大的波长点剔除。因此,本发明基于二阶导数光谱提出了自适应划分方法,可以根据波长点的贡献大小自适应确定分块的大小,即贡献较大的光谱范围内每个分块包含的波长点较少,反之,贡献较小的光谱范围内每个分块包含的波长点较多。即如图2所示,选择一个合适的阈值η,当二阶导数光谱的绝对值大于阈值时,每个分块内包含较少的波长点;当二阶导数光谱的绝对值小于阈值时,每个分块内包含较多的波长点。
为了求解上述分块稀疏优化问题,本发明采用稀疏贝叶斯优化算法,详细求解步骤如下:
(1)假设每个分块均满足高斯分布:
其中,γi为一个非负的参数,控制着x的稀疏度。当γi=0时,表示第i个分块xi为零;为一个正定矩阵,表征第i个分块的相关信息;
(2)假设各个分块间相互独立,则x的先验分布为其中,Σ0=diagγ1B1,…,γJBJ
(3)假设噪声也满足高斯分布:其中,v为实验过程中引入的噪声;λ为一个正标量;I为单位矩阵;
(4)由步骤(1)-(3)可得,x的后验分布可表示为;其中, μ x = Σ 0 Φ T λ I + ΦΣ 0 Φ T - 1 y ; Σ x = ( Σ 0 - 1 + 1 λ Φ T Φ ) - 1 ;
(5)所有的参数被估计出来后,x的最大后验估计直接通过x的后验分布的均值计算出来,即: x ^ ← Σ 0 Φ T λ I + ΦΣ 0 Φ T - 1 y ;
(6)参数由第二类最大似然估计获得,即等效于计算以下损失函数的最小值:
其中,表示所有的待估计参数;
(7)本发明采用期望最大化(ExpectationMaximization,EM)算法对步骤(6)进行
求解,可以得到参数γi、λ和Bi的学习规则:
γ i ← 1 d i T r [ B i - 1 Σ x i + μ x i μ x i T ]
λ ← | | y - Φμ x | | 2 2 + TrΣ x Φ T Φ M
B i ← 1 J Σ i = 1 g Σ x i + μ x i μ x i T γ i
其中,为μx的第i个分块;为Σx的第i个主对角阵分块。
以下结合附图1、图2和图3对本发明进行具体实施方式进行分析。
图1为60个汽油样品的近红外光谱图,其光谱扫描范围为900-1700nm,每隔2nm扫描一个波长点。因此,扫描出的光谱信息矩阵为对应的待分析组分为汽油样品内所包含的辛烷值,即
首先,利用二阶导数光谱自适应确定光谱的分块稀疏结构。如图2所示,选择一个阈值η=0.002,当二阶导数光谱的绝对值大于阈值时,每个分块内仅包含两个波长点;当二阶导数光谱的绝对值小于阈值时,每个分块内包含8个波长点。最终将整个光谱范围划分成98个块,其中63个分块仅包含两个波长点,1个分块包含3个波长点,剩余34个分块均包含8个波长点。
其次,利用分块稀疏贝叶斯学习算法进行求解,其中涉及到的参数设置如下:最大迭代次数maxIter=20,γi的裁剪阈值prune_gamma=0.5。
计算出的稀疏解如图3所示。从图中可以看出,在64个贡献较大的分块中,共筛选出了32个波长点,且均分布在强吸收峰附近(1150nm、1190nm、1400nm、1700nm);在34个贡献较少的分块中,共筛选出了18个分块,共144个波长点。
申请人于2015年5月28日提出了申请号为201510279002.3、名称为一种基于自适应GroupLasso的红外光谱波长选择方法,本发明为一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法,本发明比上次申报的专利有两点改进之处,具体如下:
1、在上次申报的专利中,利用Lasso算法求解稀疏优化问题时,参数λ对结果的影响较大。若需要寻找到一个最佳的λ,通常可以采用交叉验证法(CrossValidation,CV),导致计算量变大,复杂度增加。而本专利基于稀疏贝叶斯学习理论框架,通过参数γi来控制解的稀疏度,其作用与对比文件中的参数λ相同。当γi=0时,表示第i个分块xi为零,该分块对应的光谱波长不被选择。参数γi的取值无需通过交叉验证等方法人工确定,可以通过期望最大化(ExpectationMaximization,EM)算法自动计算出。
2、上次申请专利的算法,在经过GroupLasso算法得出稀疏解后,仍需要对稀疏解进行Belsley共线性检验,从而剔除其中贡献较小的波长点。这是因为上次的算法仅利用了光谱的稀疏结构先验知识,而没有利用光谱间的共线性相关先验知识,导致GroupLasso算法得出解稀疏度仍然较高。本专利所提出的算法中,通过矩阵来控制第i个分块内的各个光谱波长点间的相关信息,即可以在优化计算的同时综合考虑光谱波长点间的共线性问题,因此,可以一步计算出稀疏度较低的最优稀疏解。

Claims (3)

1.基于分块稀疏贝叶斯优化的红外光谱波长选择方法,其特征在于:首先利用红外光谱结构先验知识和光谱间共线性先验知识,自适应确定光谱的分块稀疏结构;然后采用稀疏贝叶斯学习算法计算出稀疏优化问题的最优解,从而筛选出最优的波长点组合。
2.根据权利要求1所述的一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法,其特征在于:首先利用二阶导数光谱自适应确定光谱的分块稀疏结构,所述光谱自适应的划分方法可以根据波长点的贡献大小自适应确定分块的大小,即贡献较大的光谱范围内每个分块包含的波长点较少;反之,贡献较小的光谱范围内每个分块包含的波长点较多;将光谱范围内划分为J个分块,第j个分块中包含的波长点个数为Pjj=1,2,…,J,则满足然后采用分块稀疏贝叶斯学习算法求解以下稀疏优化问题:
上式中,为待分析组分含量;为第j个分块波长点对应的回归系数;为第j个分块波长点对应的红外光谱信息; 为第j个分块对应的对称正定矩阵;η为可调参数,控制优化解的稀疏度。
3.根据权利要求2所述的一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法,其特征在于,所述分块稀疏贝叶斯学习算法按照如下具体步骤进行:
(1)假设每个分块均满足高斯分布:
其中,γi为一个非负的参数,控制着x的稀疏度;当γi=0时,表示第i个分块xi为零;为一个正定矩阵,表征第i个分块的相关信息;
(2)假设各个分块间相互独立,则x的先验分布为
其中,Σ0=diagγ1B1,…,JBJ
(3)假设噪声也满足高斯分布:其中,v为实验过程中引入的噪声;λ为一个正标量;I为单位矩阵;
(4)由步骤(1)-(3)可得,x的后验分布可表示为;
其中,μx=Σ0ΦTλI+ΦΣ0ΦT-1y;
(5)所有的参数被估计出来后,x的最大后验估计直接通过x的后验分布的均值计算出来,即:
(6)参数由第二类最大似然估计获得,即等效于计算以下损失函数的最小值:
其中,表示所有的待估计参数;
(7)采用期望最大化算法对步骤(6)进行求解,可以得到参数γi、λ和Bi的学习规则:
其中,为μx的第i个分块;为Σx的第i个主对角阵分块。
CN201510458823.3A 2015-07-30 2015-07-30 一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法 Expired - Fee Related CN105067550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510458823.3A CN105067550B (zh) 2015-07-30 2015-07-30 一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510458823.3A CN105067550B (zh) 2015-07-30 2015-07-30 一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法

Publications (2)

Publication Number Publication Date
CN105067550A true CN105067550A (zh) 2015-11-18
CN105067550B CN105067550B (zh) 2017-12-26

Family

ID=54496974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510458823.3A Expired - Fee Related CN105067550B (zh) 2015-07-30 2015-07-30 一种基于分块稀疏贝叶斯优化的红外光谱波长选择方法

Country Status (1)

Country Link
CN (1) CN105067550B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105445215A (zh) * 2015-12-02 2016-03-30 中北大学 基于离散多重宇宙优化算法的红外光谱波长选择方法
CN110710982A (zh) * 2019-10-17 2020-01-21 京东方科技集团股份有限公司 用于检测血红蛋白浓度的模型的获取方法、血红蛋白浓度的检测方法
CN112326574A (zh) * 2020-11-04 2021-02-05 暨南大学 一种基于贝叶斯分类的光谱波长选择方法
CN114216877A (zh) * 2021-12-14 2022-03-22 安徽大学 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103605121A (zh) * 2013-11-18 2014-02-26 南京理工大学 基于快速稀疏贝叶斯学习算法的宽带雷达数据融合方法
WO2015021004A1 (en) * 2013-08-05 2015-02-12 Schlumberger Canada Limited Apparatus for mode extraction using multiple frequencies
CN104749553A (zh) * 2015-04-10 2015-07-01 西安电子科技大学 基于快速稀疏贝叶斯学习的波达方向角估计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015021004A1 (en) * 2013-08-05 2015-02-12 Schlumberger Canada Limited Apparatus for mode extraction using multiple frequencies
CN103605121A (zh) * 2013-11-18 2014-02-26 南京理工大学 基于快速稀疏贝叶斯学习算法的宽带雷达数据融合方法
CN104749553A (zh) * 2015-04-10 2015-07-01 西安电子科技大学 基于快速稀疏贝叶斯学习的波达方向角估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈媛媛等: "区间极限学习机结合遗传算法用于红外光谱气体浓度反演的研究", 《光谱学与光谱分析》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105445215A (zh) * 2015-12-02 2016-03-30 中北大学 基于离散多重宇宙优化算法的红外光谱波长选择方法
CN105445215B (zh) * 2015-12-02 2018-01-16 中北大学 基于离散多重宇宙优化算法的红外光谱波长选择方法
CN110710982A (zh) * 2019-10-17 2020-01-21 京东方科技集团股份有限公司 用于检测血红蛋白浓度的模型的获取方法、血红蛋白浓度的检测方法
CN112326574A (zh) * 2020-11-04 2021-02-05 暨南大学 一种基于贝叶斯分类的光谱波长选择方法
CN112326574B (zh) * 2020-11-04 2023-11-14 暨南大学 一种基于贝叶斯分类的光谱波长选择方法
CN114216877A (zh) * 2021-12-14 2022-03-22 安徽大学 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统
CN114216877B (zh) * 2021-12-14 2023-03-10 安徽大学 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统
WO2023108514A1 (zh) * 2021-12-14 2023-06-22 安徽大学 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统

Also Published As

Publication number Publication date
CN105067550B (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN109493287B (zh) 一种基于深度学习的定量光谱数据分析处理方法
CN105067550A (zh) 基于分块稀疏贝叶斯优化的红外光谱波长选择方法
Park et al. Improved prediction of biomass composition for switchgrass using reproducing kernel methods with wavelet compressed FT-NIR spectra
CN109187392B (zh) 一种基于分区建模的锌液痕量金属离子浓度预测方法
WO2020232959A1 (zh) 基于函数性主元分析的近红外光谱特征提取方法和系统
CN105372198A (zh) 基于集成l1正则化的红外光谱波长选择方法
CN115221927A (zh) 一种紫外-可见光谱的溶解有机碳检测方法
CN104964943B (zh) 一种基于自适应Group Lasso的红外光谱波长选择方法
CN105823751B (zh) 基于λ-SPXY算法的红外光谱多元校正回归建模方法
CN112750507A (zh) 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法
CN112651428A (zh) 一种用于远程拉曼矿物识别的深度学习模型多分类方法
Pessoa et al. Development of ant colony optimization (aco) algorithms based on statistical analysis and hypothesis testing for variable selection
CN106323466A (zh) 一种连续小波变换分析的叶片氮含量高光谱估算方法
CN110887798A (zh) 基于极端随机树的非线性全光谱水体浊度定量分析方法
CN114062306B (zh) 一种近红外光谱数据分段预处理方法
Wang et al. Estimation of soil organic matter by in situ Vis-NIR spectroscopy using an automatically optimized hybrid model of convolutional neural network and long short-term memory network
CN112697746A (zh) 一种基于光谱信息的红薯粉明矾含量检测方法
Huang Linear calibration methods
Gao et al. Integrating independent component analysis with artificial neural network to analyze overlapping fluorescence spectra of organic pollutants
CN117388198B (zh) 一种基于多源光谱融合的水质cod检测方法及检测设备
CN111562226B (zh) 基于吸收光谱特征峰面积的海水总氮总磷分析方法及系统
CN116818815A (zh) 基于pca-bls-gs的xrf土壤重金属元素定量分析方法
Koronaki et al. Nonlinear manifold learning determines microgel size from Raman spectroscopy
Kauffmann et al. Simultaneous quantification of ionic solutions by Raman spectrometry and chemometric analysis
CN117556245A (zh) 一种四甲基氢氧化铵生产过滤杂质检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171226

Termination date: 20190730