CN104502306B

CN104502306B - 基于变量重要性的近红外光谱波长选择方法

Info

Publication number: CN104502306B
Application number: CN201410744889.4A
Authority: CN
Inventors: 陈晶; 张苗; 邵学广
Original assignee: Northwest Normal University
Current assignee: Northwest Normal University
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2017-03-15
Anticipated expiration: 2034-12-09
Also published as: CN104502306A

Abstract

一种基于变量重要性的近红外光谱波长选择方法，首先计算原光谱和样本成分含量的PLS回归系数：计算原光谱和随机重排后样本成分含量的PLS回归系数：计算每个变量的统计量s值；重复K次随机检验，每个变量计算K个s值的平均值，所有的变量按平均值的降序排序；通过按排序顺序逐个选择变量来建立一系列模型；对任一模型，计算其校正集的均方根误差值；计算每个模型的均方根误差值和最小的均方根误差值的比值，将第一个该比值超过0.95的模型作为最终的预测模型。该选择方法同时考虑变量的绝对回归系数值和统计量，来估计变量的重要性，更有效区分重要变量和不重要变量，使变量排序结果更合理，避免错误选择变量，保证建模质量。

Description

基于变量重要性的近红外光谱波长选择方法

技术领域

本发明涉及一种近红外光谱的波长选择方法，尤其涉及一种基于变量重要性的近红外光谱波长选择方法。

背景技术

快速、无损及无需预处理等特点使近红外光谱（near infrared spectroscopy,NIR）分析技术已被广泛应用于分析许多领域的复杂样品，例如农业、食品和医药等众多领域的样品分析。

近红外光谱分析技术可以检测样品在近红外光谱领域的波长信息，其中包含反应样品特性的重要光谱信息。以这些光谱信息为建模样本信号，利用化学计量学的偏最小二乘多变量校正方法（partial least squares, PLS）可以建立样本光谱信息和其成分含量之间的关系模型，用于预测未知待测样本成分含量。

然而，在近红外光谱定量分析中，多变量校正模型的稳键性和预测结果的精确性往往并不令人满意，这是由于模型的稳键性和结果的精确性受谱带中的异常谱带和无信息变量的严重影响。

RT-PLS被发展起来用于检测异常谱带。详细步骤如下所述。通过一次次随机地重排测量值，一定数量的（M个） PLS 模型被建立起来。因而，光谱矩阵中的每一个变量（波长）从这M个模型中得到了M个无效的回归系数，它们被视为“噪声”。由光谱矩阵和原来的测量值建立模型得到的回归系数被用作相应的每个变量的关键值（critical value）。对于某一个变量，通过对比其M个无效的回归系数和其关键值，其统计量P可以被计算出来并用于估计变量重要性，该统计量定义为某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率。计算出所有变量的P统计量后，该方法按P值的升序将所有变量进行排序。最终用于建立预测模型的是序列中具有较小P值的一些变量。

然而，该方法中只是用某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率作为判断变量重要性的依据。考虑的因素较简单，利用该依据来判断变量的重要性，结果不够准确，会造成变量选择错误，影响最终的建模质量。

发明内容

本发明的目的是提供一种基于变量重要性的近红外光谱波长选择方法，能准确判断近红外光谱波长变量的重要性，避免错误选择变量，保证建模质量。

为实现上述目的，本发明所采用的技术方案是：一种基于变量重要性的近红外光谱波长选择方法，具体按以下步骤进行：

步骤1：通过建立建模集中原始的光谱矩阵和测量值之间的PLS模型得到所有变量的回归系数β；

步骤2：将测量值随机排列M次，并一个个建立它们和原光谱之间的PLS模型，每一个变量可以得到M个无效的回归系数；将这些系数存入M×n 的矩阵B _H；

步骤3：计算每个变量的统计量s值；

首先计算u _j：

（1）式中，是第j个变量 (共n个变量) 的绝对回归系数值，可以通过建立原始的光谱数据和样本成分含量的回归模型得到；是第j个变量的关键值；B _Hj是第j个变量的M个无效的回归系数的集合，可以通过一个个地建立原光谱矩阵和M个随机排列的样本成分含量之间的模型得到；和 STD(B _Hj) 分别是B _Hj的绝对平均值和标准偏差；u _j反映了第j个变量的关键值被其M个无效的回归系数超出的可能性；u值越高，可能性越低；

统计量s通过下式计算：

显然，和u值越大，s越大，变量越重要；

步骤4：重复K次随机检验，每个变量计算K个s值的平均值，所有的变量按平均值的降序排序；

步骤5：通过按排序顺序逐个选择变量来建立一系列模型；对任一模型，计算其校正集的均方根误差值；计算每个模型的均方根误差值和最小的均方根误差值的比值，将第一个该比值超过0.95的模型作为最终的预测模型；

均方根误差值由下式计算：

（3）式中：y _i和分别是第i条光谱的样本成分含量和预测值，w是校正集的光谱数字。

本发明波长选择方法采用同时考虑变量的绝对回归系数值和u值的统计量s值，来估计变量的重要性，可以更有效地对重要的变量和不重要的变量进行区分，使变量排序结果更合理，避免错误选择变量，保证建模质量。

附图说明

图1是建模集的统计量图，图中：(a) β值；(b) u值；(c) s值；(d) P值。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

近红外光谱波长的P统计量可以通过如下方式计算：一次次随机重排样本成分含量，建立M个PLS模型，每一个光谱变量（波长）从这M个模型中得到了M个无效的回归系数。关键值（critical value）定义为由光谱矩阵和样本成分含量建立模型得到的回归系数。某一变量的统计量P定义为某变量的M个无效的回归系数数值超过其关键值的个数和系数总值M的比率。

图1的（a）是建模集的变量的回归系数；图1的（b）是数据1的建模集的变量的u值。从图1可以清楚地看出，具有较大绝对回归系数值β的变量也具有较大的u值。然而，如果对两个具有相近回归系数值β或者u值的变量进行对比，具有较大绝对回归系数值的变量或许具有较小的u值。如，图1中的变量v1的绝对回归系数值（0.5594）小于变量v2的绝对回归系数值（1.213），然而，变量v1的u值（0.5029）却大于变量v2的u值（0.4744）。因此，如果仅用变量的绝对回归系数值β或u值来对变量进行排序，其结果是不可靠的。

为了解决现有技术中存在的问题，本发明提供了一种基于变量重要性的近红外光谱波长选择方法，能准确判断近红外光谱波长变量的重要性，避免错误选择变量，保证建模质量。该方法具体按以下步骤进行：

步骤1：计算原光谱和样本成分含量的PLS回归系数：

通过建立建模集中原始的光谱矩阵和测量值之间的PLS模型得到所有变量的回归系数β；

步骤2：计算原光谱和随机重排后样本成分含量的PLS回归系数：

将测量值（样本成分含量）随机排列M次，并一个个建立它们和原光谱之间的PLS模型，从而每一个变量可以得到M个无效的回归系数。将这些系数存入M×n 的矩阵B _H（n表示变量数）；

步骤3：计算每个变量的统计量s值；

首先计算u _j：

（1）式中，是第j个变量 (共n个变量) 的绝对回归系数值，可以通过建立原始的光谱数据和样本成分含量的回归模型得到；是第j个变量的关键值；B _Hj是第j个变量的M个无效的回归系数的集合，可以通过一个个地建立原光谱矩阵和M随机排列的样本成分含量之间的模型得到；和 STD(B _Hj) 分别是B _Hj的绝对平均值和标准偏差 (standarddeviation, STD)；u _j反映了第j个变量的关键值被其M个无效的回归系数超出的可能性；u值越高，可能性越低。因而，统计量s可通过下式计算：

显然，和u值越大，s越大，变量越重要。

步骤4：平行计算统计量s的平均值；

重复K次随机检验，每个变量计算K个s值的平均值，所有的变量按平均值的降序排序；

步骤5：建立最优预测模型

通过按排序顺序逐个选择变量来建立一系列模型；对任一模型，计算其校正集的均方根误差值（RMSECV值）；计算每个模型的RMSECV值和最小的RMSECV值的比值，将第一个比值超过0.95的模型作为最终的预测模型；RMSECV由下式计算：

本发明通过同时考虑近红外光谱波长变量的回归系数和u值提出了统计量s值，建立了最优的样本成分含量预测模型，解决了统计量P不能准确判断近红外光谱波长变量重要性的问题。

对比图1的（c）和图1的（d）可以看出，通过s值来估计变量重要性可以更有效地对重要的变量和不重要的变量进行区分。同时，由于具有较大P值的变量可能具有较小的s值，如变量v1和变量v2，因此，对变量按P值的升序进行排列后，其排列顺序将不同于按s值的降序进行排列后的排列顺序。由于s值同时考虑了变量的回归系数和u值，其排序结果更合理。

实施例

样本：231个血样的近红外光谱数据；样本成分含量：血红蛋白含量。

该实例建模集的统计量β值、u值、s值和 P值如图1所示。

步骤1：建立原始的样本近红外光谱矩阵和测量值之间的PLS模型，从而得到所有波长变量的回归系数β，结果如图1(a)所示。

步骤2：将样本成分含量随机排列M次，并一个个建立它们和原光谱之间的PLS模型，从而每一个变量可以得到M个无效的回归系数。将这些系数存入M×n 的矩阵B _H（n表示变量数）；计算原光谱和随机重排后样本成分含量的回归系数：

步骤3：由公式（1）计算所有波长变量的u值，如图1(b)所示；再由公式（2）计算每个变量的统计量s值。

步骤4：重复K＝100次随机检验，每个变量计算K个s值的平均值，如图1(c)所示；

步骤5：利用上述方法最终选择得到的模型的RMSECV值是0.2714。

Claims

1.一种基于变量重要性的近红外光谱波长选择方法，其特征在于，该方法具体按以下步骤进行：

步骤3：计算每个变量的统计量s值；

首先计算u _j：

（1）式中，是第j个变量 (共n个变量) 的绝对回归系数值，可以通过建立原始的光谱数据和样本成分含量的回归模型得到；B _Hj是第j个变量的M个无效的回归系数的集合，可以通过一个个地建立原光谱矩阵和M个随机排列的样本成分含量之间的模型得到；和 STD(B _Hj) 分别是B _Hj的绝对平均值和标准偏差；u _j反映了第j个变量的关键值被其M个无效的回归系数超出的可能性；u值越高，可能性越低；

统计量s通过下式计算：

显然，和u值越大，s越大，变量越重要；

均方根误差值由下式计算：

（3）式中：y _i和ŷ _i分别是第i条光谱的样本成分含量和预测值，w是校正集的光谱数字。