CN114062306B

CN114062306B - 一种近红外光谱数据分段预处理方法

Info

Publication number: CN114062306B
Application number: CN202111240186.4A
Authority: CN
Inventors: 杜一平; 杨吴烨; 王海婷; 马腾洲; 吴婷; 熊訚然; 王健
Original assignee: Shanghai Customs Industrial Products And Raw Material Testing Technology Center; Shanghai International Travel Health Care Center Shanghai Customs Port Outpatient Department; East China University of Science and Technology
Current assignee: Shanghai Customs Industrial Products And Raw Material Testing Technology Center; Shanghai International Travel Health Care Center Shanghai Customs Port Outpatient Department; East China University of Science and Technology
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2024-04-05
Anticipated expiration: 2041-10-25
Also published as: CN114062306A

Abstract

本发明公开了一种光谱数据分段预处理方法，在将整条光谱划分成若干个光谱区间后，通过使用优化算法，去寻找得到每个光谱区间下最适合它自己的预处理方法，各自进行预处理，之后再进行常规的后续化学计量学建模。本发明的近红外光谱数据分段预处理方法可以解决传统方法中，全波段统一采用的预处理方法与不同光谱区域各自最适合的预处理方法不一致的问题，从而大大提高预处理的效果，提高模型的性能。

Description

一种近红外光谱数据分段预处理方法

技术领域

本发明属于光谱数据处理技术领域，尤其涉及一种近红外光谱数据分段预处理方法。

背景技术

近红外光谱(NIR)分析技术是指利用近红外光(即波长在780-2526nm范围内的电磁波)进行分析的技术。它有着分析速度快、低污染、分析样品的用量较少、结果重现性好、样品无需进行预处理、无损检测、实时监测等各种优点，近年来在各个行业得到了广泛应用，例如农业、食品、烟草、石油化工、医药等领域。

近红外光谱作为一种分子光谱技术，记录的主要是样品中各种含氢基团(例如C-H、N-H、O-H、S-H等)振动的倍频和合频吸收，因此它非常适合用于碳氢有机物的相关测量。但是同时，在近红外区域，基团的吸收强度弱，灵敏度较低，且光谱吸收带较宽且不同吸收带重叠严重，因此需要借助化学计量学手段，对光谱进行处理，并建立光谱信息与成分含量或是物质种类间的关系模型，从而实现对样品进行快速、无损检测的目的。

近红外光谱的预处理在模型建立中有着十分重要的作用，通过选择使用合适的预处理方案，可以消除或减小近红外光谱数据中那些影响模型建立的部分负面因素，例如仪器的噪声、光谱的数据漂移等，进而提高所建立模型的预测效果。传统的光谱预处理步骤中，是使用某种预处理算法，对整个光谱波段进行预处理。常见的光谱预处理方法包括，多元散射校正(MSC)、导数光谱(常用一阶导数1D和二阶导数2D)、平滑(常用Savitzky-Golay平滑方法，SGsmooth)、标准正态变量变换(SNV)、正交信号校正(OSC)等。对于光谱仪来说，检测不同波长位置的仪器的物理状况是不一致的，并且对于待测样品来说，对于光谱中的不同位置所包含的有效信息的水平也是不同的。在这样的综合作用下，可能会出现，对于某一段光谱区间最适合的是一种预处理方法(例如MSC)，另一段光谱区间最适合的却是另一种方法(例如1D)的情况，此时若对全波段统一使用一种预处理手段，显然就并不合理。

发明内容

本发明的目的是提供一种近红外光谱数据分段预处理方法。

为了实现上述目的，本发明采用的技术方案如下：

为了克服现有预处理手段的不足之处，本发明提供了一种光谱数据分段预处理方法，在将整条光谱划分成若干个光谱区间后，通过使用优化算法，去寻找得到每个光谱区间下最适合它自己的预处理方法，各自进行预处理，之后再进行常规的后续化学计量学建模。本方法中，待建立的模型可以是近红外定量分析模型或是近红外定性判别模型，使用的优化算法可以是遗传算法、随机搜索算法等，光谱区间的划分方式可以是等间隔的或不等间隔的，整个优化流程中对光谱进行建模时所用的算法可以是偏最小二乘回归、LASSO回归、岭回归等。为了论述的方便，下面采用的是建立近红外定量分析模型，等间隔的光谱区间划分方式，用遗传算法进行优化，光谱建模时使用偏最小二乘回归。

本发明提供了一种近红外光谱数据分段预处理方法，包括以下步骤：

第一步，设置候选预处理方法：将原始的待处理光谱数据标记为1，然后对原始光谱数据，分别用候选的L种预处理方法进行全波段的处理，并分别将预处理后的数据标记为2,3,4…L+1；

所述L种预处理方法选自平滑Smooth、一阶导数1D、二阶导数2D、标准正态变量变换SNV、多元散射校正MSC、SNV与Smooth组合、SNV与1D组合、SNV与2D组合。

算法涉及到的候选的预处理方法，是指在使用数学方法对光谱数据进行处理后，能够提高后续所建立的近红外模型的预测能力的方法，包括但不限于基体或物理干扰校正、仪器噪声去除、光谱分辨率提高、光谱标准化。

不同波段的预处理方法可以相同，也可以不同。

第二步，划分光谱区间：以等间隔的方式将待处理的近红外光谱分割成M个波段，每个波段包括多个波长点，M为后续遗传算法的基因位数量，每个基因位置与每个波段相对应；

对光谱数据划分为多个波段的方式，可以使用等间隔划分的方式，也可以使用非等间隔的划分方式。

第三步，初始化种群，设定种群规模为P，在这个种群中每一代有个P_S个个体，每一个个体有着M个基因位，每个基因的取值范围是1到L+1的正整数，然后以部分随机的方式对种群进行初始化；

所述第三步中，每一个基因的数字代表着对于这个基因对应的波段采用的预处理方法的类型。

所述第三步中，初始化生成的P_S个个体中，其中第1个个体的基因固定为原始光谱所对应的基因编号；后续的L个个体的基因固定为L种全光谱预处理方法所对应的基因编号；剩下的全部个体，在所有L+1种类型的基因编号出现次数相同的前提下，随机在1到L+1之间进行生成。

第四步，计算适应度，根据当前种群中每个个体的基因编码，还原出每个个体经过处理后的光谱，然后根据适应度函数计算每个个体的适应度；

所述第四步中，根据基因编码还原出光谱的方式为将每个基因位的编码对应的预处理后的波段进行拼接。由于不同预处理方法得到的光谱的数值大小会有比较大的差距，因此在拼接完成后，要对其进行Z-Score标准化，将所有波段的数值拉至同一数量级。

所述第四步中，适应度为对预处理后数据使用偏最小二乘法PLS建模后，交叉验证得到的交叉验证均方根误差RMSECV作为适应度值，计算方式见下：

其中，N表示交互检验时，在交互检验集中的光谱样本数量；y_i表示样本的待预测组分的浓度的参考值，表示样本的待预测组分的浓度的预测值。

第五步，保留精英个体，对适应度进行排序，根据预先设定的精英比率R_E，选择表现最好的部分个体，直接保留到下一代种群中，精英个体不进行后续的交叉与变异；

所述第五步中，精英个体为交叉验证均方根误差RMSECV最小的若干个个体，个体的数量为C_E＝round(P_s·R_E)；C_E为个体的数量；

第六步，种群选择与交叉操作，在该代种群中根据轮盘赌选择法随机选取若干个个体，然后根据设定的交叉比率R_C，让其中的一部分进行交叉；

所述第六步中，通过轮盘赌选择法选中第i个个体的概率Pi为：

其中，Z_i为第i个个体的RMSECV，Z_j为第j个个体的RMSECV。

所述第六步中，通过使用轮盘赌选择法，随机选出的个体数量为C_S＝P_S-C_E。

所述第六步中，根据设定的交叉比率R_C，对于轮盘赌选中的个体，其中的前C_C个个体被替换成该个体与随机另一个轮盘赌选中的个体进行单点交叉得到的子代，其中C_C＝round((P_S-C_E)·R_C)。

第七步，种群变异操作，对于上一步骤的轮盘赌选择法选中的个体，以变异率R_M进行基因变异，发生变异的基因编码将随机替换为1到L+1的正整数；

第八步，遗传优化，迭代执行第四至七步，直到达到最大迭代次数，或是种群的最佳适应度值连续多代无变化；满足终止条件进行下一步，如不满足终止条件，返回第四步重新进行；

第九步，对于优化得到的有最佳表现的基因序列，还原为每一波段相对应的预处理方法，并进行拼接化，作为最终的预处理方法。

所述第九步中，在对预处理方法不同的波段进行拼接后，需要进行Z-Score标准化，消除数量级上的差异。

本发明的近红外光谱数据分段预处理方法，欲通过近红外光谱建模解决的问题，可以是定量分析问题，也可以是定性判别问题；所使用的优化方法，包括但不限于随机搜索和遗传算法；交互检验中所用的光谱建模的方法，包括但不限于偏最小二乘回归PLS、LASSO回归、岭回归和支持向量机SVM；所采用的交互检验方法，包括但不仅限于K折交叉验证、留一法交叉验证、蒙特卡洛交叉验证；根据每个波段的编号对原光谱进行替换重构之后，所述方法还包括对重构后光谱使用标准化或归一化消除片段间的量纲差异。

由于采用上述技术方案，本发明具有以下优点和有益效果：

本发明通过将全光谱划分为多个光谱区间，子区间各自选择合适预处理算法的方式，增广了预处理的适用范围，增加了对复杂的、多样变化的光谱的适用性。并且在此之上，本发明通过结合遗传算法基因选择、交叉、变异的思路，能够有效的搜寻得到各个子区间合适的预处理方法的组合，从而大大提高预处理的效果，提高了后续所建立模型的性能。

附图说明

图1是实施例1近红外光谱数据分段预处理方法的流程图。

图2为实施例1中计算适应度值的流程示意图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例对本发明做进一步的说明。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

实施例1

对玉米近红外光谱数据的分段预处理

使用一套玉米的近红外光谱数据，借助本发明的近红外光谱数据分段预处理方法进行分段预处理，建立近红外定量分析模型，并与传统的预处理方法进行比较。该光谱数据集引用自eigenvector网站上开源的玉米样本光谱数据集，地址http://www.eigenvector.com/data/Corn/index.html，该套玉米数据包含80个玉米样本的近红外光谱以及对应的油脂含量，光谱含1100-2498nm的700个波长点。

本发明使用Kennard-Stone算法将这80个样本分成两部分，其中60个样本作为校正集用于预处理并建立模型，剩余20个样本作为独立的预测集，对60个样本建立的模型进行评价。以下的预处理步骤均在60个样本的校正集上进行，图1是实施例1近红外光谱数据分段预处理方法的流程图。

一种对玉米样本近红外光谱数据分段预处理方法，包括以下步骤：

第一步，设置候选预处理方法：将原始的待处理光谱数据标记为1，然后对原始光谱数据分别用候选的8种全波段预处理方法进行全波段的处理，并分别将预处理后的数据标记为2,3,4…9；

第二步，划分光谱区间：以等间隔的方式将待处理的近红外光谱分割成20个波段，每个波段包括35个波长点，因此后续遗传算法的基因位数量也是20个，并且每个基因位置与每个波段相对应；

第三步，初始化种群，设定种群规模为200，即在这个种群中每一代有200个个体，每一个个体有着20个基因位，每个基因的取值范围是1到9的正整数，然后以部分随机的方式对种群进行初始化，生成一个200行20列的种群矩阵；

第四步，计算适应度，根据当前种群中每个个体的基因编码，还原出每个个体经过处理后的光谱，并进行Z-Score标准化处理，然后使用偏最小二乘回归建立近红外模型，偏最小二乘的最大潜变量被设定为10，以5折交叉验证的均方根误差作为适应度值，图2为实施例1中计算适应度值的流程示意图；

第五步，保留精英个体，对适应度进行排序，根据预先设定的精英比率0.025，选择表现最好的5个个体，直接保留到下一代种群中，精英个体不进行后续的交叉与变异；

第六步，种群选择与交叉操作，在该代种群中根据轮盘赌选择法随机选取195个个体，然后根据设定的交叉比率0.8，让其中的156个个体与随机的其它被选中的个体进行单点交叉；

其中，Z_i为第i个个体的RMSECV，Z_j为第j个个体的RMSECV。

所述第六步中，通过使用轮盘赌选择法，随机选出的个体数量为C_S＝P_S-C_E。此处，195＝200-5。

所述第六步中，根据设定的交叉比率R_C，对于轮盘赌选中的个体，其中的前C_C个个体被替换成该个体与随机另一个轮盘赌选中的个体进行单点交叉得到的子代，其中C_C＝round((P_S-C_E)·R_C)。此处，156＝(200-5)×0.8。

第七步，种群变异操作，对于上一步骤的轮盘赌选择法选中的195个个体，以变异率0.05进行基因变异，发生变异的基因编码将随机替换为1到9间的正整数；

第八步，遗传优化，迭代执行第4至7步，直到达到最大迭代次数90，或是种群的最佳适应度值连续20代无变化；满足终止条件进行下一步，如不满足终止条件，返回第四步重新进行；

第九步，对于优化得到的有最佳表现的基因序列，还原为每一波段相对应的预处理方法，并进行拼接以及Z-Score标准化，作为最终的预处理方法。

分别使用原始光谱、候选的8种全波段预处理方案以及本发明的方法选出的分段预处理方案，对校正集进行偏最小二乘回归建立模型，然后使用这些模型去预测独立预测集中的样本的油脂含量，并将预测值与参考值进行比较。8种候选的预处理方案分别为平滑(Smooth)、一阶导数(1D)、二阶导数(2D)、标准正态变量变换(SNV)、多元散射校正(MSC)、SNV与Smooth组合、SNV与1D组合、SNV与2D组合。由于交互检验过程以及本发明的方法存在一定的随机性，为减小偶然因素，以上过程将重复50次，以50次的独立预测集均方根误差RMSEP的均值、独立预测集的决定系数的均值对模型的预测性能进行评价。RMSEP越小、越大，则模型的预测精度越高。RMSEP和/>的计算方式如下：

其中，N为独立预测集的光谱样本数量，y_i表示第i个样本的浓度的参考值，表示第i个样本的浓度的预测值。

其中，N为独立预测集的光谱样本数量，y_i表示第i个样本的浓度的参考值，表示第i个样本的浓度的预测值，/>表示独立预测集中的样本浓度的均值。

表1是本发明与原始光谱以及8种候选预处理方案建立模型的50次平均预测性能比较，其中nLVs和RMSECV分别为偏最小二乘模型的最佳潜变量数和对应的交叉验证均方根误差；RMSEP为独立预测集均方根误差；为独立预测集的决定系数。

表1

由表1中数据可以看到，1D、2D以及它们与SNV共同使用，与原始光谱相比，均能提高模型的预测精度，尤其是1D，将RMSEP由原始光谱的0.0726降低到了0.0421，由0.7147提高到了0.9040。而本发明提供的方法，将这些全波段预处理方案分段组合寻优后，有着更加显著的效果，将RMSEP进一步降低到了0.0285，/>提高到了0.9552。因此，本发明相比于传统的全波段预处理方案，更能提高模型的预测性能。

实施例2

对药片近红外光谱数据的分段预处理

使用一套药片的近红外光谱数据，借助本发明的近红外光谱数据分段预处理方法进行分段预处理，建立近红外定量分析模型，并与传统的预处理方法进行比较。该光谱数据集可从如下网站获得：http://www.models.kvl.dk/Tablets，该套药片数据包含310个药片样本的近红外光谱以及对应的活性组分含量，光谱含7398.3-10507.3cm^-1的404个数据点。使用Kennard-Stone算法将这310个样本分成两部分，其中155个样本作为校正集用于预处理并建立模型，剩余155个样本作为独立的预测集，对建立的模型进行评价。

本发明第二步中的等间隔划分的波段数被设定为10，第四步中偏最小二乘的最大潜变量被设定为15，其余的参数设置以及处理流程同实施例1。

同样的，以50次的独立预测集均方根误差RMSEP的均值、独立预测集的决定系数的均值对模型的预测性能进行评价。

表2是本发明与原始光谱以及8种候选预处理方案建立模型的50次平均预测性能比较，其中nLVs和RMSECV分别为偏最小二乘模型的最佳潜变量数和对应的交叉验证均方根误差；RMSEP为独立预测集均方根误差；为独立预测集的决定系数。

表2

由表2中数据可以看到，SNV、MSC以及SNV与Smooth、1D共同使用，与原始光谱相比，均能提高模型的预测精度，尤其是SNV单独使用，将RMSEP由原始光谱的0.3772降低到了0.3439，由0.9211提高到了0.9344。而本发明提供的方法，则将RMSEP进一步降低到了0.3373，/>进一步提高到了0.9369。因此，在这套数据上，本发明相比于传统的全波段预处理方案，同样有着优异的表现。

实施例3

对烟草的近红外光谱数据的分段预处理

使用一套烟草的近红外光谱数据，借助本发明的近红外光谱数据分段预处理方法进行分段预处理，建立近红外定量分析模型，并与传统的预处理方法进行比较。该套烟草数据包含402个烟草样本的近红外光谱以及对应的尼古丁含量，光谱含3999.6-10001.0cm^-1的1557个数据点。使用Kennard-Stone算法将这402个样本分成两部分，其中201个样本作为校正集用于预处理并建立模型，剩余201个样本作为独立的预测集，对建立的模型进行评价。

本发明第二步中的等间隔划分的波段数被设定为30，第四步中偏最小二乘的最大潜变量被设定为30，其余的参数设置以及处理流程同实施例1。

表3是本发明与原始光谱以及8种候选预处理方案建立模型的50次平均预测性能比较，其中nLVs和RMSECV分别为偏最小二乘模型的最佳潜变量数和对应的交叉验证均方根误差；RMSEP为独立预测集均方根误差；为独立预测集的决定系数。

表3

由表3中数据可以看到，对于这套烟草近红外光谱数据而言，8种候选的常规预处理方案均无法产生良好的效果，使用它们进行预处理后，所建立模型对于尼古丁的预测性能并没有得到明显提高，甚至大多数产生了负面的效果，它们的RMSEP相比于原始模型非但没有下降，反而有所上升。这是因为，预处理在对信号进行有益处理的同时，也会造成原始光谱中的有效信息的丢失，如果处理带来的正面作用无法胜过信息损失产生的负面影响，那么从总体上，就会呈现负面的效果。显然，对于这套较为复杂的烟草光谱数据，这些常规的预处理算法并不适用。然而，本发明提供的方法，在这里依旧产生了良好的效果。将原始光谱所建立模型的RMSEP由0.0396降低到了0.0252，由0.9937提高到了0.9973。因此，在这套传统全波段预处理方案表现很差的数据上，本方法有着极为亮眼的表现，有效提升了模型的性能。

以上所述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专利的技术人员在不脱离本发明技术方案范围内，当可利用上述提示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明方案的范围内。

Claims

1.一种近红外光谱数据分段预处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的近红外光谱数据分段预处理方法，其特征在于，所述L种预处理方法选自平滑Smooth、一阶导数1D、二阶导数2D、标准正态变量变换SNV、多元散射校正MSC、SNV与Smooth组合、SNV与1D组合、SNV与2D组合。

3.根据权利要求1所述的近红外光谱数据分段预处理方法，其特征在于，所述第三步中，每一个基因的数字代表着对于这个基因对应的波段采用的预处理方法的类型。

4.根据权利要求3所述的近红外光谱数据分段预处理方法，其特征在于，所述第三步中，初始化生成的P_S个个体中，其中第1个个体的基因固定为原始光谱所对应的基因编号；后续的L个个体的基因固定为L种全光谱预处理方法所对应的基因编号；剩下的全部个体，在所有L+1种类型的基因编号出现次数相同的前提下，随机在1到L+1之间进行生成。

5.根据权利要求4所述的近红外光谱数据分段预处理方法，其特征在于，所述第四步中，根据基因编码还原出光谱的方式为将每个基因位的编码对应的预处理后的波段进行拼接；由于不同预处理方法得到的光谱的数值大小会有比较大的差距，因此在拼接完成后，要对其进行Z-Score标准化，将所有波段的数值拉至同一数量级。

6.根据权利要求5所述的近红外光谱数据分段预处理方法，其特征在于，所述第四步中，适应度为对预处理后数据使用偏最小二乘法PLS建模后，交叉验证得到的交叉验证均方根误差RMSECV作为适应度值，计算方式见下：

7.根据权利要求6所述的近红外光谱数据分段预处理方法，其特征在于，所述第五步中，精英个体为交叉验证均方根误差RMSECV最小的若干个个体，个体的数量为C_E＝round(P_s·R_E)；C_E为个体的数量；

其中，Z_i为第i个个体的RMSECV，Z_j为第j个个体的RMSECV。

8.根据权利要求7所述的近红外光谱数据分段预处理方法，其特征在于，所述第六步中，通过使用轮盘赌选择法，随机选出的个体数量为C_S＝P_S-C_E。

9.根据权利要求8所述的近红外光谱数据分段预处理方法，其特征在于，所述第六步中，根据设定的交叉比率R_C，对于轮盘赌选中的个体，其中的前C_C个个体被替换成该个体与随机另一个轮盘赌选中的个体进行单点交叉得到的子代，其中C_C＝round((P_S-C_E)·R_C)。

10.根据权利要求1所述的近红外光谱数据分段预处理方法，其特征在于，所述第九步中，在对预处理方法不同的波段进行拼接后，需要进行Z-Score标准化，消除数量级上的差异。