CN104502306A - 基于变量重要性的近红外光谱波长选择方法 - Google Patents

基于变量重要性的近红外光谱波长选择方法 Download PDF

Info

Publication number
CN104502306A
CN104502306A CN201410744889.4A CN201410744889A CN104502306A CN 104502306 A CN104502306 A CN 104502306A CN 201410744889 A CN201410744889 A CN 201410744889A CN 104502306 A CN104502306 A CN 104502306A
Authority
CN
China
Prior art keywords
variable
value
model
individual
regression coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410744889.4A
Other languages
English (en)
Other versions
CN104502306B (zh
Inventor
陈晶
张苗
邵学广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Normal University
Original Assignee
Northwest Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Normal University filed Critical Northwest Normal University
Priority to CN201410744889.4A priority Critical patent/CN104502306B/zh
Publication of CN104502306A publication Critical patent/CN104502306A/zh
Application granted granted Critical
Publication of CN104502306B publication Critical patent/CN104502306B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Spectrometry And Color Measurement (AREA)

Abstract

一种基于变量重要性的近红外光谱波长选择方法,首先计算原光谱和样本成分含量的PLS回归系数:计算原光谱和随机重排后样本成分含量的PLS回归系数:计算每个变量的统计量 s 值;重复 K 次随机检验,每个变量计算 K 个 s 值的平均值,所有的变量按平均值的降序排序;通过按排序顺序逐个选择变量来建立一系列模型;对任一模型,计算其校正集的均方根误差值;计算每个模型的均方根误差值和最小的均方根误差值的比值,将第一个该比值超过0.95的模型作为最终的预测模型。该选择方法同时考虑变量的绝对回归系数值和统计量,来估计变量的重要性,更有效区分重要变量和不重要变量,使变量排序结果更合理,避免错误选择变量,保证建模质量。

Description

基于变量重要性的近红外光谱波长选择方法
技术领域
本发明涉及一种近红外光谱的波长选择方法,尤其涉及一种基于变量重要性的近红外光谱波长选择方法。
背景技术
快速、无损及无需预处理等特点使近红外光谱(near infrared spectroscopy, NIR)分析技术已被广泛应用于分析许多领域的复杂样品,例如农业、食品和医药等众多领域的样品分析。
近红外光谱分析技术可以检测样品在近红外光谱领域的波长信息,其中包含反应样品特性的重要光谱信息。以这些光谱信息为建模样本信号,利用化学计量学的偏最小二乘多变量校正方法(partial least squares, PLS)可以建立样本光谱信息和其成分含量之间的关系模型,用于预测未知待测样本成分含量。
然而,在近红外光谱定量分析中,多变量校正模型的稳键性和预测结果的精确性往往并不令人满意,这是由于模型的稳键性和结果的精确性受谱带中的异常谱带和无信息变量的严重影响。
RT-PLS被发展起来用于检测异常谱带。详细步骤如下所述。通过一次次随机地重排测量值,一定数量的(M个) PLS 模型被建立起来。因而,光谱矩阵中的每一个变量(波长)从这M个模型中得到了M个无效的回归系数,它们被视为“噪声”。由光谱矩阵和原来的测量值建立模型得到的回归系数被用作相应的每个变量的关键值(critical value)。对于某一个变量,通过对比其M个无效的回归系数和其关键值,其统计量P可以被计算出来并用于估计变量重要性,该统计量定义为某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率。计算出所有变量的P统计量后,该方法按P值的升序将所有变量进行排序。最终用于建立预测模型的是序列中具有较小P值的一些变量。
然而,该方法中只是用某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率作为判断变量重要性的依据。考虑的因素较简单,利用该依据来判断变量的重要性,结果不够准确,会造成变量选择错误,影响最终的建模质量。
发明内容
本发明的目的是提供一种基于变量重要性的近红外光谱波长选择方法,能准确判断近红外光谱波长变量的重要性,避免错误选择变量,保证建模质量。
为实现上述目的,本发明所采用的技术方案是:一种基于变量重要性的近红外光谱波长选择方法,具体按以下步骤进行:
步骤1:通过建立建模集中原始的光谱矩阵和测量值之间的PLS模型得到所有变量的回归系数β
步骤2:将测量值随机排列M次,并一个个建立它们和原光谱之间的PLS模型,每一个变量可以得到M个无效的回归系数;将这些系数存入M×n 的矩阵B H
步骤3:计算每个变量的统计量s值;
首先计算u j
(1)式中,是第j个变量 (共n个变量) 的绝对回归系数值,可以通过建立原始的光谱数据和样本成分含量的回归模型得到;是第j个变量的关键值;B Hj 是第j个变量的M个无效的回归系数的集合,可以通过一个个地建立原光谱矩阵和M个随机排列的样本成分含量之间的模型得到;和 STD(B Hj ) 分别是B Hj 的绝对平均值和标准偏差;u j 反映了第j个变量的关键值被其M个无效的回归系数超出的可能性;u值越高,可能性越低;
统计量s通过下式计算:
显然,u值越大,s越大,变量越重要;
步骤4:重复K次随机检验,每个变量计算Ks值的平均值,所有的变量按平均值的降序排序;
步骤5:通过按排序顺序逐个选择变量来建立一系列模型;对任一模型,计算其校正集的均方根误差值;计算每个模型的均方根误差值和最小的均方根误差值的比值,将第一个该比值超过0.95的模型作为最终的预测模型;     
均方根误差值由下式计算:
(3)式中:y i 分别是第i条光谱的样本成分含量和预测值,w是校正集的光谱数字。
本发明波长选择方法采用同时考虑变量的绝对回归系数值和u值的统计量s值,来估计变量的重要性,可以更有效地对重要的变量和不重要的变量进行区分,使变量排序结果更合理,避免错误选择变量,保证建模质量。
附图说明
图1是建模集的统计量图,图中:(a) β值;(b) u值;(c) s值;(d) P值。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
近红外光谱波长的P统计量可以通过如下方式计算:一次次随机重排样本成分含量,建立M个PLS模型,每一个光谱变量 (波长)从这M个模型中得到了M个无效的回归系数。关键值(critical value)定义为由光谱矩阵和样本成分含量建立模型得到的回归系数。某一变量的统计量P定义为某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率。
图1的 (a)是建模集的变量的回归系数;图1的(b)是数据1的建模集的变量的u值。从图1可以清楚地看出,具有较大绝对回归系数值β的变量也具有较大的u值。然而,如果对两个具有相近回归系数值β或者u值的变量进行对比,具有较大绝对回归系数值的变量或许具有较小的u值。如,图1中的变量v1的绝对回归系数值(0.5594)小于变量v2的绝对回归系数值(1.213),然而,变量v1的u值(0.5029)却大于变量v2的u值(0.4744)。因此,如果仅用变量的绝对回归系数值βu值来对变量进行排序,其结果是不可靠的。
为了解决现有技术中存在的问题,本发明提供了一种基于变量重要性的近红外光谱波长选择方法,能准确判断近红外光谱波长变量的重要性,避免错误选择变量,保证建模质量。该方法具体按以下步骤进行:
步骤1:计算原光谱和样本成分含量的PLS回归系数:
通过建立建模集中原始的光谱矩阵和测量值之间的PLS模型得到所有变量的回归系数β
步骤2:计算原光谱和随机重排后样本成分含量的PLS回归系数:
将测量值(样本成分含量)随机排列M次,并一个个建立它们和原光谱之间的PLS模型,从而每一个变量可以得到M个无效的回归系数。将这些系数存入M×n 的矩阵B H n表示变量数);
步骤3:计算每个变量的统计量s值;
首先计算u j
(1)式中,是第j个变量 (共n个变量) 的绝对回归系数值,可以通过建立原始的光谱数据和样本成分含量的回归模型得到;是第j个变量的关键值;B Hj 是第j个变量的M个无效的回归系数的集合,可以通过一个个地建立原光谱矩阵和M随机排列的样本成分含量之间的模型得到;和 STD(B Hj ) 分别是B Hj 的绝对平均值和标准偏差 (standard deviation, STD);u j 反映了第j个变量的关键值被其M个无效的回归系数超出的可能性;u值越高,可能性越低。因而,统计量s可通过下式计算:
显然,u值越大,s越大,变量越重要。
步骤4:平行计算统计量s的平均值;
重复K次随机检验,每个变量计算Ks值的平均值,所有的变量按平均值的降序排序;
步骤5:建立最优预测模型
通过按排序顺序逐个选择变量来建立一系列模型;对任一模型,计算其校正集的均方根误差值(RMSECV值);计算每个模型的RMSECV值和最小的RMSECV值的比值,将第一个比值超过0.95的模型作为最终的预测模型;RMSECV由下式计算:
(3)式中:y i 分别是第i条光谱的样本成分含量和预测值,w是校正集的光谱数字。
本发明通过同时考虑近红外光谱波长变量的回归系数和u值提出了统计量s值,建立了最优的样本成分含量预测模型,解决了统计量P不能准确判断近红外光谱波长变量重要性的问题。
对比图1的(c)和图1的(d)可以看出,通过s值来估计变量重要性可以更有效地对重要的变量和不重要的变量进行区分。同时,由于具有较大P值的变量可能具有较小的s值,如变量v1和变量v2,因此,对变量按P值的升序进行排列后,其排列顺序将不同于按s值的降序进行排列后的排列顺序。由于s值同时考虑了变量的回归系数和u值,其排序结果更合理。
实施例
样本:231个血样的近红外光谱数据;样本成分含量:血红蛋白含量。
该实例建模集的统计量β值、u值、s值和 P值如图1所示。
步骤1:建立原始的样本近红外光谱矩阵和测量值之间的PLS模型,从而得到所有波长变量的回归系数β,结果如图1(a)所示。
步骤2: 将样本成分含量随机排列M次,并一个个建立它们和原光谱之间的PLS模型,从而每一个变量可以得到M个无效的回归系数。将这些系数存入M×n 的矩阵B H n表示变量数);计算原光谱和随机重排后样本成分含量的回归系数:
步骤3:由公式(1)计算所有波长变量的u值,如图1(b)所示;再由公式(2)计算每个变量的统计量s值。
步骤4:重复K=100次随机检验,每个变量计算Ks值的平均值,如图1(c)所示;
步骤5:利用上述方法最终选择得到的模型的RMSECV值是0.2714。

Claims (1)

1.一种基于变量重要性的近红外光谱波长选择方法,其特征在于,该方法具体按以下步骤进行:
步骤1:通过建立建模集中原始的光谱矩阵和测量值之间的PLS模型得到所有变量的回归系数β
步骤2:将测量值随机排列M次,并一个个建立它们和原光谱之间的PLS模型,每一个变量可以得到M个无效的回归系数;将这些系数存入M×n 的矩阵B H
步骤3:计算每个变量的统计量s值;
首先计算u j
(1)式中,是第j个变量 (共n个变量) 的绝对回归系数值,可以通过建立原始的光谱数据和样本成分含量的回归模型得到;是第j个变量的关键值;B Hj 是第j个变量的M个无效的回归系数的集合,可以通过一个个地建立原光谱矩阵和M个随机排列的样本成分含量之间的模型得到;和 STD(B Hj ) 分别是B Hj 的绝对平均值和标准偏差;u j 反映了第j个变量的关键值被其M个无效的回归系数超出的可能性;u值越高,可能性越低;
统计量s通过下式计算:
显然,u值越大,s越大,变量越重要;
步骤4:重复K次随机检验,每个变量计算Ks值的平均值,所有的变量按平均值的降序排序;
步骤5:通过按排序顺序逐个选择变量来建立一系列模型;对任一模型,计算其校正集的均方根误差值;计算每个模型的均方根误差值和最小的均方根误差值的比值,将第一个该比值超过0.95的模型作为最终的预测模型;
均方根误差值由下式计算:
(3)式中:y i 和                                                  分别是第i条光谱的样本成分含量和预测值,w是校正集的光谱数字。
CN201410744889.4A 2014-12-09 2014-12-09 基于变量重要性的近红外光谱波长选择方法 Expired - Fee Related CN104502306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410744889.4A CN104502306B (zh) 2014-12-09 2014-12-09 基于变量重要性的近红外光谱波长选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410744889.4A CN104502306B (zh) 2014-12-09 2014-12-09 基于变量重要性的近红外光谱波长选择方法

Publications (2)

Publication Number Publication Date
CN104502306A true CN104502306A (zh) 2015-04-08
CN104502306B CN104502306B (zh) 2017-03-15

Family

ID=52943724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410744889.4A Expired - Fee Related CN104502306B (zh) 2014-12-09 2014-12-09 基于变量重要性的近红外光谱波长选择方法

Country Status (1)

Country Link
CN (1) CN104502306B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105181619A (zh) * 2015-08-31 2015-12-23 深圳华中科技大学研究院 一种具有变量选择功能的红外光谱定量分析方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法
CN106644983A (zh) * 2016-12-28 2017-05-10 浙江大学 一种基于pls‑vip‑aco算法的光谱波长选择方法
CN110503156A (zh) * 2019-08-27 2019-11-26 黑龙江八一农垦大学 一种基于最小相关系数的多变量校正特征波长选择方法
CN111999258A (zh) * 2020-07-03 2020-11-27 桂林理工大学 一种面向光谱基线校正的加权建模局部优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101825567A (zh) * 2010-04-02 2010-09-08 南开大学 一种近红外光谱和拉曼光谱波长的筛选方法
CN101430276B (zh) * 2008-12-15 2012-01-04 北京航空航天大学 光谱分析中波长变量优选的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430276B (zh) * 2008-12-15 2012-01-04 北京航空航天大学 光谱分析中波长变量优选的方法
CN101825567A (zh) * 2010-04-02 2010-09-08 南开大学 一种近红外光谱和拉曼光谱波长的筛选方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HENG XU 等: "A wavelength selection method based on rabdomization test for near-inftared spectral analysis", 《CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS》 *
李丽娜 等: "一种改进的随机校验法用于主成分选择以避免光谱分析校正模型的过拟合或欠拟合", 《光谱学与光谱分析》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105181619A (zh) * 2015-08-31 2015-12-23 深圳华中科技大学研究院 一种具有变量选择功能的红外光谱定量分析方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法
CN106644983A (zh) * 2016-12-28 2017-05-10 浙江大学 一种基于pls‑vip‑aco算法的光谱波长选择方法
CN106644983B (zh) * 2016-12-28 2019-12-31 浙江大学 一种基于pls-vip-aco算法的光谱波长选择方法
CN110503156A (zh) * 2019-08-27 2019-11-26 黑龙江八一农垦大学 一种基于最小相关系数的多变量校正特征波长选择方法
CN110503156B (zh) * 2019-08-27 2021-09-03 黑龙江八一农垦大学 一种基于最小相关系数的多变量校正特征波长选择方法
CN111999258A (zh) * 2020-07-03 2020-11-27 桂林理工大学 一种面向光谱基线校正的加权建模局部优化方法
CN111999258B (zh) * 2020-07-03 2022-06-17 桂林理工大学 一种面向光谱基线校正的加权建模局部优化方法

Also Published As

Publication number Publication date
CN104502306B (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN104062257B (zh) 一种基于近红外光谱测定溶液中总黄酮含量的方法
Zamora-Rojas et al. Handheld NIRS analysis for routine meat quality control: Database transfer from at-line instruments
Sorol et al. Visible/near infrared-partial least-squares analysis of Brix in sugar cane juice: A test field for variable selection methods
Wang et al. Technology using near infrared spectroscopic and multivariate analysis to determine the soluble solids content of citrus fruit
Urraca et al. Estimation of total soluble solids in grape berries using a hand‐held NIR spectrometer under field conditions
CN104502306A (zh) 基于变量重要性的近红外光谱波长选择方法
Torres et al. Developing universal models for the prediction of physical quality in citrus fruits analysed on-tree using portable NIRS sensors
CN101825567A (zh) 一种近红外光谱和拉曼光谱波长的筛选方法
CN106918567B (zh) 一种测量痕量金属离子浓度的方法和装置
CN108956545B (zh) 一种水果内部品质无损检测模型建立方法及系统
Chen et al. FT-NIR spectroscopy and Whittaker smoother applied to joint analysis of duel-components for corn
CN102128805A (zh) 果品近红外光谱波长选择和快速定量分析方法及装置
Wang et al. Onsite nutritional diagnosis of tea plants using micro near-infrared spectrometer coupled with chemometrics
CN115993344A (zh) 一种近红外光谱分析仪质量监测分析系统及方法
Xu et al. Combining local wavelength information and ensemble learning to enhance the specificity of class modeling techniques: Identification of food geographical origins and adulteration
CN106770005B (zh) 一种用于近红外光谱分析的校正集和验证集的划分方法
US11093869B2 (en) Analytical system with iterative method of analyzing data in web-based data processor with results display designed for non-experts
Lu et al. Fluorescence hyperspectral image technique coupled with HSI method to predict solanine content of potatoes
Chen et al. Sampling error profile analysis (SEPA) for model optimization and model evaluation in multivariate calibration
CN102854151B (zh) 一种光谱分析中样品集划分的化学计量学方法
CN108645809A (zh) 一种近红外光谱技术快速识别松脂来源树种的方法
CN113484278A (zh) 一种基于光谱和主成分分析的番茄综合品质无损检测方法
CN106485049B (zh) 一种基于蒙特卡洛交叉验证的nirs异常样本的检测方法
CN107356556A (zh) 一种近红外光谱定量分析的双集成建模方法
CN101231270A (zh) 清开灵注射液中间体及成品中指标成分含量的测定方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170315

Termination date: 20201209

CF01 Termination of patent right due to non-payment of annual fee