CN104502306B - 基于变量重要性的近红外光谱波长选择方法 - Google Patents

基于变量重要性的近红外光谱波长选择方法 Download PDF

Info

Publication number
CN104502306B
CN104502306B CN201410744889.4A CN201410744889A CN104502306B CN 104502306 B CN104502306 B CN 104502306B CN 201410744889 A CN201410744889 A CN 201410744889A CN 104502306 B CN104502306 B CN 104502306B
Authority
CN
China
Prior art keywords
variable
value
individual
mean
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410744889.4A
Other languages
English (en)
Other versions
CN104502306A (zh
Inventor
陈晶
张苗
邵学广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Normal University
Original Assignee
Northwest Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Normal University filed Critical Northwest Normal University
Priority to CN201410744889.4A priority Critical patent/CN104502306B/zh
Publication of CN104502306A publication Critical patent/CN104502306A/zh
Application granted granted Critical
Publication of CN104502306B publication Critical patent/CN104502306B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Spectrometry And Color Measurement (AREA)

Abstract

一种基于变量重要性的近红外光谱波长选择方法,首先计算原光谱和样本成分含量的PLS回归系数:计算原光谱和随机重排后样本成分含量的PLS回归系数:计算每个变量的统计量s值;重复K次随机检验,每个变量计算Ks值的平均值,所有的变量按平均值的降序排序;通过按排序顺序逐个选择变量来建立一系列模型;对任一模型,计算其校正集的均方根误差值;计算每个模型的均方根误差值和最小的均方根误差值的比值,将第一个该比值超过0.95的模型作为最终的预测模型。该选择方法同时考虑变量的绝对回归系数值和统计量,来估计变量的重要性,更有效区分重要变量和不重要变量,使变量排序结果更合理,避免错误选择变量,保证建模质量。

Description

基于变量重要性的近红外光谱波长选择方法
技术领域
本发明涉及一种近红外光谱的波长选择方法,尤其涉及一种基于变量重要性的近红外光谱波长选择方法。
背景技术
快速、无损及无需预处理等特点使近红外光谱(near infrared spectroscopy,NIR)分析技术已被广泛应用于分析许多领域的复杂样品,例如农业、食品和医药等众多领域的样品分析。
近红外光谱分析技术可以检测样品在近红外光谱领域的波长信息,其中包含反应样品特性的重要光谱信息。以这些光谱信息为建模样本信号,利用化学计量学的偏最小二乘多变量校正方法(partial least squares, PLS)可以建立样本光谱信息和其成分含量之间的关系模型,用于预测未知待测样本成分含量。
然而,在近红外光谱定量分析中,多变量校正模型的稳键性和预测结果的精确性往往并不令人满意,这是由于模型的稳键性和结果的精确性受谱带中的异常谱带和无信息变量的严重影响。
RT-PLS被发展起来用于检测异常谱带。详细步骤如下所述。通过一次次随机地重排测量值,一定数量的(M个) PLS 模型被建立起来。因而,光谱矩阵中的每一个变量(波长)从这M个模型中得到了M个无效的回归系数,它们被视为“噪声”。由光谱矩阵和原来的测量值建立模型得到的回归系数被用作相应的每个变量的关键值(critical value)。对于某一个变量,通过对比其M个无效的回归系数和其关键值,其统计量P可以被计算出来并用于估计变量重要性,该统计量定义为某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率。计算出所有变量的P统计量后,该方法按P值的升序将所有变量进行排序。最终用于建立预测模型的是序列中具有较小P值的一些变量。
然而,该方法中只是用某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率作为判断变量重要性的依据。考虑的因素较简单,利用该依据来判断变量的重要性,结果不够准确,会造成变量选择错误,影响最终的建模质量。
发明内容
本发明的目的是提供一种基于变量重要性的近红外光谱波长选择方法,能准确判断近红外光谱波长变量的重要性,避免错误选择变量,保证建模质量。
为实现上述目的,本发明所采用的技术方案是:一种基于变量重要性的近红外光谱波长选择方法,具体按以下步骤进行:
步骤1:通过建立建模集中原始的光谱矩阵和测量值之间的PLS模型得到所有变量的回归系数β
步骤2:将测量值随机排列M次,并一个个建立它们和原光谱之间的PLS模型,每一个变量可以得到M个无效的回归系数;将这些系数存入M×n 的矩阵B H
步骤3:计算每个变量的统计量s值;
首先计算u j
(1)式中,是第j个变量 (共n个变量) 的绝对回归系数值,可以通过建立原始的光谱数据和样本成分含量的回归模型得到;是第j个变量的关键值;B Hj 是第j个变量的M个无效的回归系数的集合,可以通过一个个地建立原光谱矩阵和M个随机排列的样本成分含量之间的模型得到;STD(B Hj ) 分别是B Hj 的绝对平均值和标准偏差;u j 反映了第j个变量的关键值被其M个无效的回归系数超出的可能性;u值越高,可能性越低;
统计量s通过下式计算:
显然,u值越大,s越大,变量越重要;
步骤4:重复K次随机检验,每个变量计算Ks值的平均值,所有的变量按平均值的降序排序;
步骤5:通过按排序顺序逐个选择变量来建立一系列模型;对任一模型,计算其校正集的均方根误差值;计算每个模型的均方根误差值和最小的均方根误差值的比值,将第一个该比值超过0.95的模型作为最终的预测模型;
均方根误差值由下式计算:
(3)式中:y i 分别是第i条光谱的样本成分含量和预测值,w是校正集的光谱数字。
本发明波长选择方法采用同时考虑变量的绝对回归系数值和u值的统计量s值,来估计变量的重要性,可以更有效地对重要的变量和不重要的变量进行区分,使变量排序结果更合理,避免错误选择变量,保证建模质量。
附图说明
图1是建模集的统计量图,图中:(a) β值;(b) u值;(c) s值;(d) P值。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
近红外光谱波长的P统计量可以通过如下方式计算:一次次随机重排样本成分含量,建立M个PLS模型,每一个光谱变量 (波长)从这M个模型中得到了M个无效的回归系数。关键值(critical value)定义为由光谱矩阵和样本成分含量建立模型得到的回归系数。某一变量的统计量P定义为某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率。
图1的 (a)是建模集的变量的回归系数;图1的(b)是数据1的建模集的变量的u值。从图1可以清楚地看出,具有较大绝对回归系数值β的变量也具有较大的u值。然而,如果对两个具有相近回归系数值β或者u值的变量进行对比,具有较大绝对回归系数值的变量或许具有较小的u值。如,图1中的变量v1的绝对回归系数值(0.5594)小于变量v2的绝对回归系数值(1.213),然而,变量v1的u值(0.5029)却大于变量v2的u值(0.4744)。因此,如果仅用变量的绝对回归系数值βu值来对变量进行排序,其结果是不可靠的。
为了解决现有技术中存在的问题,本发明提供了一种基于变量重要性的近红外光谱波长选择方法,能准确判断近红外光谱波长变量的重要性,避免错误选择变量,保证建模质量。该方法具体按以下步骤进行:
步骤1:计算原光谱和样本成分含量的PLS回归系数:
通过建立建模集中原始的光谱矩阵和测量值之间的PLS模型得到所有变量的回归系数β
步骤2:计算原光谱和随机重排后样本成分含量的PLS回归系数:
将测量值(样本成分含量)随机排列M次,并一个个建立它们和原光谱之间的PLS模型,从而每一个变量可以得到M个无效的回归系数。将这些系数存入M×n 的矩阵B H n表示变量数);
步骤3:计算每个变量的统计量s值;
首先计算u j
(1)式中,是第j个变量 (共n个变量) 的绝对回归系数值,可以通过建立原始的光谱数据和样本成分含量的回归模型得到;是第j个变量的关键值;B Hj 是第j个变量的M个无效的回归系数的集合,可以通过一个个地建立原光谱矩阵和M随机排列的样本成分含量之间的模型得到;STD(B Hj ) 分别是B Hj 的绝对平均值和标准偏差 (standarddeviation, STD);u j 反映了第j个变量的关键值被其M个无效的回归系数超出的可能性;u值越高,可能性越低。因而,统计量s可通过下式计算:
显然,u值越大,s越大,变量越重要。
步骤4:平行计算统计量s的平均值;
重复K次随机检验,每个变量计算Ks值的平均值,所有的变量按平均值的降序排序;
步骤5:建立最优预测模型
通过按排序顺序逐个选择变量来建立一系列模型;对任一模型,计算其校正集的均方根误差值(RMSECV值);计算每个模型的RMSECV值和最小的RMSECV值的比值,将第一个比值超过0.95的模型作为最终的预测模型;RMSECV由下式计算:
(3)式中:y i 分别是第i条光谱的样本成分含量和预测值,w是校正集的光谱数字。
本发明通过同时考虑近红外光谱波长变量的回归系数和u值提出了统计量s值,建立了最优的样本成分含量预测模型,解决了统计量P不能准确判断近红外光谱波长变量重要性的问题。
对比图1的(c)和图1的(d)可以看出,通过s值来估计变量重要性可以更有效地对重要的变量和不重要的变量进行区分。同时,由于具有较大P值的变量可能具有较小的s值,如变量v1和变量v2,因此,对变量按P值的升序进行排列后,其排列顺序将不同于按s值的降序进行排列后的排列顺序。由于s值同时考虑了变量的回归系数和u值,其排序结果更合理。
实施例
样本:231个血样的近红外光谱数据;样本成分含量:血红蛋白含量。
该实例建模集的统计量β值、u值、s值和 P值如图1所示。
步骤1:建立原始的样本近红外光谱矩阵和测量值之间的PLS模型,从而得到所有波长变量的回归系数β,结果如图1(a)所示。
步骤2: 将样本成分含量随机排列M次,并一个个建立它们和原光谱之间的PLS模型,从而每一个变量可以得到M个无效的回归系数。将这些系数存入M×n 的矩阵B H n表示变量数);计算原光谱和随机重排后样本成分含量的回归系数:
步骤3:由公式(1)计算所有波长变量的u值,如图1(b)所示;再由公式(2)计算每个变量的统计量s值。
步骤4:重复K=100次随机检验,每个变量计算Ks值的平均值,如图1(c)所示;
步骤5:利用上述方法最终选择得到的模型的RMSECV值是0.2714。

Claims (1)

1.一种基于变量重要性的近红外光谱波长选择方法,其特征在于,该方法具体按以下步骤进行:
步骤1:通过建立建模集中原始的光谱矩阵和测量值之间的PLS模型得到所有变量的回归系数β
步骤2:将测量值随机排列M次,并一个个建立它们和原光谱之间的PLS模型,每一个变量可以得到M个无效的回归系数;将这些系数存入M×n 的矩阵B H
步骤3:计算每个变量的统计量s值;
首先计算u j
(1)式中,是第j个变量 (共n个变量) 的绝对回归系数值,可以通过建立原始的光谱数据和样本成分含量的回归模型得到;B Hj 是第j个变量的M个无效的回归系数的集合,可以通过一个个地建立原光谱矩阵和M个随机排列的样本成分含量之间的模型得到;STD(B Hj ) 分别是B Hj 的绝对平均值和标准偏差;u j 反映了第j个变量的关键值被其M个无效的回归系数超出的可能性;u值越高,可能性越低;
统计量s通过下式计算:
显然,u值越大,s越大,变量越重要;
步骤4:重复K次随机检验,每个变量计算Ks值的平均值,所有的变量按平均值的降序排序;
步骤5:通过按排序顺序逐个选择变量来建立一系列模型;对任一模型,计算其校正集的均方根误差值;计算每个模型的均方根误差值和最小的均方根误差值的比值,将第一个该比值超过0.95的模型作为最终的预测模型;
均方根误差值由下式计算:
(3)式中:y i ŷ i 分别是第i条光谱的样本成分含量和预测值,w是校正集的光谱数字。
CN201410744889.4A 2014-12-09 2014-12-09 基于变量重要性的近红外光谱波长选择方法 Expired - Fee Related CN104502306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410744889.4A CN104502306B (zh) 2014-12-09 2014-12-09 基于变量重要性的近红外光谱波长选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410744889.4A CN104502306B (zh) 2014-12-09 2014-12-09 基于变量重要性的近红外光谱波长选择方法

Publications (2)

Publication Number Publication Date
CN104502306A CN104502306A (zh) 2015-04-08
CN104502306B true CN104502306B (zh) 2017-03-15

Family

ID=52943724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410744889.4A Expired - Fee Related CN104502306B (zh) 2014-12-09 2014-12-09 基于变量重要性的近红外光谱波长选择方法

Country Status (1)

Country Link
CN (1) CN104502306B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105181619A (zh) * 2015-08-31 2015-12-23 深圳华中科技大学研究院 一种具有变量选择功能的红外光谱定量分析方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法
CN106644983B (zh) * 2016-12-28 2019-12-31 浙江大学 一种基于pls-vip-aco算法的光谱波长选择方法
CN110503156B (zh) * 2019-08-27 2021-09-03 黑龙江八一农垦大学 一种基于最小相关系数的多变量校正特征波长选择方法
CN111999258B (zh) * 2020-07-03 2022-06-17 桂林理工大学 一种面向光谱基线校正的加权建模局部优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430276A (zh) * 2008-12-15 2009-05-13 北京航空航天大学 一种光谱分析中波长变量优选方法
CN101825567A (zh) * 2010-04-02 2010-09-08 南开大学 一种近红外光谱和拉曼光谱波长的筛选方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430276A (zh) * 2008-12-15 2009-05-13 北京航空航天大学 一种光谱分析中波长变量优选方法
CN101825567A (zh) * 2010-04-02 2010-09-08 南开大学 一种近红外光谱和拉曼光谱波长的筛选方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A wavelength selection method based on rabdomization test for near-inftared spectral analysis;Heng XU 等;《Chemometrics and Intelligent Laboratory Systems》;20090503;189-193 *
一种改进的随机校验法用于主成分选择以避免光谱分析校正模型的过拟合或欠拟合;李丽娜 等;《光谱学与光谱分析》;20101130;第30卷(第11期);3041-3046 *

Also Published As

Publication number Publication date
CN104502306A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104502306B (zh) 基于变量重要性的近红外光谱波长选择方法
Mehmood et al. The diversity in the applications of partial least squares: an overview
CN105300923B (zh) 一种近红外光谱分析仪在线应用时无测点温度补偿模型修正方法
Vitale et al. A rapid and non-invasive method for authenticating the origin of pistachio samples by NIR spectroscopy and chemometrics
dos Santos Costa et al. Development of predictive models for quality and maturation stage attributes of wine grapes using vis-nir reflectance spectroscopy
Sorol et al. Visible/near infrared-partial least-squares analysis of Brix in sugar cane juice: A test field for variable selection methods
US11521073B2 (en) Method and system for hyperspectral inversion of phosphorus content of rubber tree leaves
Bevilacqua et al. Tracing the origin of extra virgin olive oils by infrared spectroscopy and chemometrics: A case study
Andersen et al. Variable selection in regression—a tutorial
CN104062257B (zh) 一种基于近红外光谱测定溶液中总黄酮含量的方法
Osorio et al. Assessment of local influence in elliptical linear models with longitudinal structure
CN103534578B (zh) 确定样本中存在的成分的光谱装置以及方法
Oliveri et al. Partial least squares density modeling (PLS-DM)–A new class-modeling strategy applied to the authentication of olives in brine by near-infrared spectroscopy
Torres et al. Developing universal models for the prediction of physical quality in citrus fruits analysed on-tree using portable NIRS sensors
CN101825567A (zh) 一种近红外光谱和拉曼光谱波长的筛选方法
CN103528990A (zh) 一种近红外光谱的多模型建模方法
Wang et al. Onsite nutritional diagnosis of tea plants using micro near-infrared spectrometer coupled with chemometrics
CN102072767A (zh) 基于波长相似性共识回归红外光谱定量分析方法和装置
CN102128805A (zh) 果品近红外光谱波长选择和快速定量分析方法及装置
US11093869B2 (en) Analytical system with iterative method of analyzing data in web-based data processor with results display designed for non-experts
CN106770005B (zh) 一种用于近红外光谱分析的校正集和验证集的划分方法
Chen et al. Sampling error profile analysis (SEPA) for model optimization and model evaluation in multivariate calibration
CN102854151B (zh) 一种光谱分析中样品集划分的化学计量学方法
Li et al. Quantitative analysis of aflatoxin B1 of peanut by optimized support vector machine models based on near-infrared spectral features
Bi et al. Dual stacked partial least squares for analysis of near-infrared spectra

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170315

Termination date: 20201209