CN106950193B - 基于自加权变量组合集群分析的近红外光谱变量选择方法 - Google Patents

基于自加权变量组合集群分析的近红外光谱变量选择方法 Download PDF

Info

Publication number
CN106950193B
CN106950193B CN201710373947.0A CN201710373947A CN106950193B CN 106950193 B CN106950193 B CN 106950193B CN 201710373947 A CN201710373947 A CN 201710373947A CN 106950193 B CN106950193 B CN 106950193B
Authority
CN
China
Prior art keywords
variable
variables
value
near infrared
information vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710373947.0A
Other languages
English (en)
Other versions
CN106950193A (zh
Inventor
宦克为
韩雪艳
刘小溪
赵环
石晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Jingyi Photoelectric Technology Co ltd
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN201710373947.0A priority Critical patent/CN106950193B/zh
Publication of CN106950193A publication Critical patent/CN106950193A/zh
Application granted granted Critical
Publication of CN106950193B publication Critical patent/CN106950193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及基于自加权变量组合集群分析的近红外光谱变量选择方法,属于分析化学领域的无损分析技术领域,具体实施过程如下:首先通过二进制矩阵采样法(BMS)对变量空间进行随机采样,其次通过对变量出现频率(Fre)和偏最小二乘回归系数(Reg)两种信息向量(IVs)做加权处理得到每个光谱变量的贡献值,进而考虑了Fre和Reg两种IVs对变量重要性的影响。最后通过指数衰减函数(EDF)删除那些贡献值较小的变量进而实现特征变量选取。该方法与现有技术相比较,具备快速、可重复的优势,并提高了模型的预测精度及稳定性。

Description

基于自加权变量组合集群分析的近红外光谱变量选择方法
技术领域
本方法发明属于分析化学领域的无损分析技术领域,具体涉及基于自加权变量组合集群分析的近红外光谱变量选择方法。
背景技术
随着近红外光谱技术和化学计量学的发展,变量选择技术已经成为了近红外光谱分析高维度数据领域的关键环节,对光谱变量进行变量选择可以提高预测模型的预测能力。降低光谱数据维度和增强预测模型的可解释性。同时,变量选择也是一个非常具有挑战性的问题,随着变量空间的增大找到一组最佳的变量组合是一个非常困难的问题。
国内外常见的变量选择方法有无信息变量消除法(Uninformative variableselimination UVE,参见张巧杰熊鸣祁鲲无信息变量消除法在糙米直链淀粉波长选择中的应用光谱仪器与分析2005-10-15)、蒙特卡洛无信息变量消除法(Monte Carlo based UVE,MC-UVE,参见W-S Cai,Y–K Li,X-G Shao,A Variable selection method based onuninformative variable elimination for multivariate calibration of near-infrared spectra[J],Chemometr,Intell.Lab.Syst.2008,90,188-194)、遗传学算法(genetic algorithm,GA,参见Leardi R,Gonzalez AL,Genetic algorithms applied tofeature selection inPLS regression:how and when to use them,Chemom Intell LabSyst,1998,41,195-207)等。随着MPA思想的发展,一些新的变量选择方法如:随机蛙跳法(Random Frog,RF,参见朱逢乐何勇邵咏妮应用近红外高光谱成像预测三文鱼肉的水分含量光谱学与光谱分析2015-1,113-117)、迭代保留有信息变量法(iteratively retainsinformative variables IRIV,参见Yong-Huan Yun,Wei-Ting Wang,Min-Li Tan,Yi-ZengLiang,Hong-Dong Li,Dong-Sheng Cao,Hong-Mei Lu,Qing-Song Xu,A strategy thatiteratively retains informative variables for selecting optimal variablesubset inmultivariate calibration,Anal.Chim.Acta,2014,807,36-45)、竞争自适应重采样法(CARS,参见H-D Li,Y-Z Liang,Q-S Xu,D-S Cao,Key wavelengths screeningusing competitive adaptive reweighted sampling method for multivariatecalibration,Anal.Chim.Acta,2009,648,77-84)和变量组合集群分析法(variablecombination population analysis VCPA,参见Yong-Huan Yun,Wei-Ting Wang,Bai-Chuan Deng,Guang-Bi Lai,Xin-Bo Liu,Da-Bing Ren,Yi-Zeng Liang,Wei Fan,Qing-Song Xu,Using variable combination population analysis for variable selectionin multivariate calibration,Anal.Chim Acta,2015,862,14-23)等被提出。然而对于变量的重要性通常采用信息向量(IVs)来判定,常见的信息向量有偏最小二乘回归系数(Reg)、相关系数向量(Cor)、残差向量(Res)、投影变量重要性向量(VIP)、净信号向量(NAS)、信噪比向量(StN)、协方差向量(Cov)、选择比向量(SR)、预测残差向量(Ssr)、变量出现频率(Fre)和协方差向量(Covsel)等。
虽然大量的变量选择方法被提出,但是每一种变量选择方法都只采用这些信息向量中的一种作为变量重要性判断依据,进而忽略了其他信息向量对预测模型的影响,因此很容易产生预测模型的过拟合现象,此外现有算法模型的预测精度较低,且不稳定因素较多,会造成模型预测精度的不稳定。
发明内容
针对现有技术的不足及缺陷,本发明提出了一种新的变量选择方法称为自加权变量组合集群分析法,该方法基于MPA思想采用RMSECV最小原则的情况下,对Fre和Reg两种信息向量的结果进行归一化加权处理,计算出每个光谱变量的贡献值,进而考虑了两种信息向量对每个光谱变量的影响,提高了预测模型的精度及稳定性。
具体步骤如下:
A应用近红外光纤光谱仪测试所收集样本的近红外光谱,运用Kennard-Stone算法分为校正集和预测集;
B通过二进制矩阵采样法从变量空间中采样K次,得到K个变量子集,每一个变量子集都含有一组随机的变量组合,其中K值为1000;
C利用偏最小二乘法计算出每个变量组合的交互检验均方根误差,并选取其交互检验均方根误差最小的前σ×K个变量子集作为变量集,其中σ值取10%,σ×K的值为100;
D统计变量集中每个变量出现的频率并进行归一化处理,进而得到了一个变量重要性判断依据称为第一类信息向量;
E计算出变量集中每个变量在不同变量集中的偏最小二乘回归系数的绝对值,并进行归一化处理,最后对变量集中每个变量在不同变量集中的归一化回归系数绝对值进行求和,变量归一化回归系数绝对值之和的大小与变量的重要性成正比,进而得到又一个变量重要性判据称为第二类信息向量;
F根据每种信息向量的交互检验均方根误差设置第一类信息向量和第二类信息向量的权重;
G根据第一类信息向量和第二类信息向量的权重,计算出变量集中每个变量的贡献值;
H运用指数衰减函数删除那些贡献值较小的变量,保留其贡献值较大的变量,得到一个新的变量空间R;
I变量空间R中的变量继续通过步骤B~步骤H进行变量筛选,此过程迭代N次,N值为50,最终剩下L个变量,L值为14,计算出这L个变量之间所有变量组合的交互检验均方根误差,其值最小的变量组合为最终特征波长选取结果。
根据上述的基于自加权变量组合集群分析的近红外光谱变量选择方法,通过每个变量在变量集中变量出现频率和偏最小二乘回归系数的绝对值之和两种信息向量加权思想与模型集群分析思想相结合计算出每个光谱变量的贡献值,具体计算过程如下,信息向量的权重计算公式:
w1:第一类信息向量的权重;w2:第二类信息向量的权重;RMSECV1:第一类信息向量的交互检验均方根误差;RMSECV2:第二类信息向量的交互检验均方根误差;
每个光谱变量的贡献值计算公式如下:
Yi:第i个变量贡献值,其值越大则该变量越重要;第i个变量在以第一类信息向量为判定标准下的变量贡献值;第i个变量在以第二类信息向量为判定标准下的变量贡献值;
变量保留率的计算公式如下:
rN=e-θ×N
rN:指数衰减函数运行N次时变量保留率;θ:曲线控制参数,它与指数衰减函数的执行次数有关,指数衰减函数执行的次数越多,其θ值越小,N:指数衰减函数的执行次数,
曲线控制参数的计算公式为:
公式Ⅴ中P为指数衰减函数执行N-1次后所保留的变量数目,L为指数衰减函数运行结束之后剩余变量数目。
与现有算法模型相比,本发明提出的基于自加权变量组合集群分析法的近红外光谱变量选择方法,采用的两种信息向量加权的方式判断变量的重要性,考虑了两种信息向量对预测模型的影响,弥补了只采用一种信息变量作为变量重要性判断依据的缺陷,避免了模型过拟合,提升了预测模型的稳定性和可靠性;同时由于采用了Fre和Reg两种信息向量加权思想与模型集群思想相结合,减少了光谱变量,简化了预测模型,大大的提升了其模型的预测精度。
附图说明
下面结合附图及实施方式对本发明作进一步说明:
图1为本发明AWVCPA算法流程图
图2为玉米样本的近红外光谱图
图3为每个光谱变量基于AWVCPA运行50次被选取为特征变量的频率分布图
图4为预测集真实值与预测值之间的散点图分布
图5为平均光谱与每种变量选择方法最终所选取的特征变量分布图
具体实施方式
实施方案一:为了证明本发明的适用性,结合实例进行详细的说明。但是本发明也可以应用于本次所采用的实例之外的光谱数据。
图1是本发明提供的一种基于自加权变量组合集群分析法(AWVCPA)算法的流程图,可见,本发明具体包括以下步骤:
(1)所收集的玉米近红外光谱数据包含了80个玉米样本,每个样本的近红外光谱波长分布在1100-2498nm,运用光谱仪测试每个玉米样本的近红外光谱,并用化学方法测试每个样本含油量的化学值。运用Kennard-Stone(K-S)方法选取其中60个样本光谱数据和化学值数据作为校正集建立预测模型,将剩余的20个样本的光谱数据和化学值数据作为预测集样本检验模型的可行性,玉米近红外光谱图如图2所示。
(2)运用二进制矩阵采样法(BMS)从玉米近红外光谱变量空间中采样1000次得到1000组不同的变量子集,之后运用偏最小二乘法(PLS)计算出这1000组不同变量子集的交互检验均方根误差(RMSECV),选取其RMSECV值最小的前10%组变量子集作为变量集,进而得到了100组变量集。
(3)记录这100组变量集中每个光谱变量的出现次数并进行归一化处理得到每个光谱变量的Fre。
(4)记录每个光谱变量在这100组不同的变量集中的偏最小二乘回归系数并进行归一化处理,最后对变量集中相同变量的归一化偏最小二乘回归系数的绝对值进行求和得到每个光谱变量的Reg。
(5)通过公式(Ⅰ)(Ⅱ)分别计算这两类IVS的权重,并根据公式(Ⅲ)计算出变量集中每个光谱变量的贡献值。
信息向量的权重计算公式
w1:第一类信息向量的权重;w2:第二类信息向量的权重;RMSECV1:第一类信息向量的交互检验均方根误差;RMSECV2:第二类信息向量的交互检验均方根误差;
每个光谱变量的贡献值计算公式如下:
(6)运用指数衰减函数删除那些贡献值较小的光谱变量,保留其贡献值较大的光谱变量,得到一个新的变量空间R。
rN=e-θ×N (Ⅳ)
rN:指数衰减函数运行N次时变量保留率;θ:曲线控制参数,它与指数衰减函数的执行次数有关,指数衰减函数执行的次数越多,其θ值越小。N:指数衰减函数的执行次数。曲线控制参数的计算公式为
(7)对R中的变量重复(2)~(6)过程,此过程迭代50次,最终只剩下14个光谱变量,计算出这14个光谱变量之间所有变量组合的RMSECV,其值最小的变量组合为最终选取的特征变量。
为了避免算法运行过程中算法随机性对变量选择结果的影响,将AWVCPA运行50次,每个光谱变量基于AWVCPA运行50次选取为特征变量的频率如图3所示,选取AWVCPA预测精度最高的一组特征变量作为最终特征变量选取的结果,最终通过AWVCPA-PLS建立玉米中含油量的预测模型的预测结果如图4所示。
为了说明AWVCPA变量选择方法的优越性,将玉米近红外光谱数据在相同的条件下分别采用了GA、MC-UVE、CARS、VCPA和AWVCPA五种变量选择方法进行特征变量提取,由于每种变量选择方法在运行过程中都带有一定的随机性,进而影响模型的可靠性,所以我们将以上每种变量选择方法运行50次,计算出每种变量选择方法在建模过程中的RMSEP平均值,并选其每种算法预测精度最高的一组特征变量作为最终的特征变量选取结果,利用PLS建立预测模型,每种变量选择方法所选取的特征变量结果如图5所示,每种建模方法的结果见表1。
表1不同建模方法的玉米中含油量的预测精度对比
本发明实施方式说明到此结束。

Claims (1)

1.基于自加权变量组合集群分析的近红外光谱变量选择方法,其特征在于,包含以下步骤:
A应用近红外光纤光谱仪测试所收集样本的近红外光谱,运用Kennard-Stone算法分为校正集和预测集;
B通过二进制矩阵采样法从变量空间中采样K次,得到K个变量子集,每一个变量子集都含有一组随机的变量组合,其中K值为1000;
C利用偏最小二乘法计算出每个变量组合的交互检验均方根误差,并选取其交互检验均方根误差最小的前σ×K个变量子集作为变量集,其中σ值取10%,σ×K的值为100;
D统计变量集中每个变量出现的频率并进行归一化处理,进而得到了一个变量重要性判断依据称为第一类信息向量;
E计算出变量集中每个变量在不同变量集中的偏最小二乘回归系数的绝对值,并进行归一化处理,最后对变量集中每个变量在不同变量集中的归一化回归系数绝对值进行求和,变量归一化回归系数绝对值之和的大小与变量的重要性成正比,进而得到又一个变量重要性判据称为第二类信息向量;
F根据每种信息向量的交互检验均方根误差设置第一类信息向量和第二类信息向量的权重;
G根据第一类信息向量和第二类信息向量的权重,计算出变量集中每个变量的贡献值;
H运用指数衰减函数删除那些贡献值较小的变量,保留其贡献值较大的变量,得到一个新的变量空间R;
I变量空间R中的变量继续通过步骤B~步骤H进行变量筛选,此过程迭代N次,N值为50,最终剩下L个变量,L值为14,计算出这L个变量之间所有变量组合的交互检验均方根误差,其值最小的变量组合为最终特征波长选取结果。
CN201710373947.0A 2017-05-24 2017-05-24 基于自加权变量组合集群分析的近红外光谱变量选择方法 Active CN106950193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710373947.0A CN106950193B (zh) 2017-05-24 2017-05-24 基于自加权变量组合集群分析的近红外光谱变量选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710373947.0A CN106950193B (zh) 2017-05-24 2017-05-24 基于自加权变量组合集群分析的近红外光谱变量选择方法

Publications (2)

Publication Number Publication Date
CN106950193A CN106950193A (zh) 2017-07-14
CN106950193B true CN106950193B (zh) 2019-04-26

Family

ID=59480088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710373947.0A Active CN106950193B (zh) 2017-05-24 2017-05-24 基于自加权变量组合集群分析的近红外光谱变量选择方法

Country Status (1)

Country Link
CN (1) CN106950193B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110361356A (zh) * 2019-07-30 2019-10-22 长春理工大学 一种提高小麦水分预测精度的近红外光谱变量选择方法
CN111504942A (zh) * 2020-04-26 2020-08-07 长春理工大学 一种提高牛奶中蛋白质预测精度的近红外光谱分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430276A (zh) * 2008-12-15 2009-05-13 北京航空航天大学 一种光谱分析中波长变量优选方法
CN103344600A (zh) * 2013-06-28 2013-10-09 中国农业大学 一种蚁群优化算法的近红外光谱特征波长选择方法
CN104949936A (zh) * 2015-07-13 2015-09-30 东北大学 基于优化偏最小二乘回归模型的样品成份测定方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430276A (zh) * 2008-12-15 2009-05-13 北京航空航天大学 一种光谱分析中波长变量优选方法
CN103344600A (zh) * 2013-06-28 2013-10-09 中国农业大学 一种蚁群优化算法的近红外光谱特征波长选择方法
CN104949936A (zh) * 2015-07-13 2015-09-30 东北大学 基于优化偏最小二乘回归模型的样品成份测定方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
J. Ferre', N.K.M. Faber.Net analyte signal calculation for multivariate calibration.《Chemometrics and Intelligent Laboratory Systems》.2003,第123-136页.
R. F. Teo'filo, J. P. A. Martins, M. M. C. Ferreira.Sorting variables by using informative vectors as a strategy for feature selection in multivariate regression.《J. Chemometrics》.2008,第32-48页.
基于变量组合集群分析法的小麦蛋白质近红外光谱变量选择方法研究;赵环等;《长春理工大学学报》;20161031;第39卷(第5期);第51-54页
基于特征投影图的小麦近红外光谱变量选择方法研究;宦克为等;《光谱学与光谱分析》;20121130;第32卷(第11期);第2962-2965
基于蒙特卡罗特征投影法的小麦蛋白质近红外光谱测量变量选择;宦克为等;《农业工程学报》;20130228;第29卷(第4期);第266-270页
高光谱估算土壤有机质含量的波长变量筛选方法;于雷等;《农业工程学报》;20160731;第32卷(第13期);第95-100页

Also Published As

Publication number Publication date
CN106950193A (zh) 2017-07-14

Similar Documents

Publication Publication Date Title
Li et al. Determination of soluble solid content in multi-origin ‘Fuji’apples by using FT-NIR spectroscopy and an origin discriminant strategy
Ye et al. Non-destructive prediction of protein content in wheat using NIRS
CN110361356A (zh) 一种提高小麦水分预测精度的近红外光谱变量选择方法
CN104062257A (zh) 一种基于近红外光谱测定溶液中总黄酮含量的方法
CN106529008B (zh) 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法
CN110687072A (zh) 一种基于光谱相似度的校正集和验证集选择及建模方法
CN105203498A (zh) 一种基于lasso的近红外光谱变量选择方法
Wang et al. Near-infrared wavelength-selection method based on joint mutual information and weighted bootstrap sampling
CN111504942A (zh) 一种提高牛奶中蛋白质预测精度的近红外光谱分析方法
CN109324013A (zh) 一种利用高斯过程回归模型构建原油性质近红外快速分析的方法
CN108956583A (zh) 用于激光诱导击穿光谱分析的特征谱线自动选择方法
CN106950193B (zh) 基于自加权变量组合集群分析的近红外光谱变量选择方法
Wang et al. Onsite nutritional diagnosis of tea plants using micro near-infrared spectrometer coupled with chemometrics
Chen et al. Simultaneous determination of trace amounts of copper and cobalt in high concentration zinc solution using UV–vis spectrometry and Adaboost
CN102128805A (zh) 果品近红外光谱波长选择和快速定量分析方法及装置
Li et al. Quantitative analysis of aflatoxin B1 of peanut by optimized support vector machine models based on near-infrared spectral features
Tian et al. Multi-classification identification of PLS in rice spectra with different pre-treatments and K/S optimisation
Tian et al. Application of nir spectral standardization based on principal component score evaluation in wheat flour crude protein model sharing
Wang et al. SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging
Liu et al. Research on the online rapid sensing method of moisture content in famous green tea spreading
Huan et al. A variable selection method of near infrared spectroscopy based on automatic weighting variable combination population analysis
Wang et al. Monitoring model for predicting maize grain moisture at the filling stage using NIRS and a small sample size
CN114062306B (zh) 一种近红外光谱数据分段预处理方法
Ying et al. Development of particle swarm optimization–support vector regression (PSO‐SVR) coupled with microwave plasma torch–atomic emission spectrometry for quality control of ginsengs
CN115630332A (zh) 一种小麦粉粉质特性预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211022

Address after: 110000 No. 18-8 yaoyang Road, shenbeixin District, Shenyang City, Liaoning Province (102)

Patentee after: Johnson & Johnson (Liaoning) Agricultural Technology Co.,Ltd.

Address before: 130022 No. 7089 Satellite Road, Jilin, Changchun

Patentee before: CHANGCHUN University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230206

Address after: Room 301, SOHO new space building, radfangs SOHO new space, Changchun Yitian, Changchun, 130000 Chaoyue street, high tech Development Zone, Changchun City, Jilin Province

Patentee after: CHANGCHUN JINGYI PHOTOELECTRIC TECHNOLOGY Co.,Ltd.

Address before: 110000 No. 18-8 yaoyang Road, shenbeixin District, Shenyang City, Liaoning Province (102)

Patentee before: Johnson & Johnson (Liaoning) Agricultural Technology Co.,Ltd.