CN106770005B

CN106770005B - 一种用于近红外光谱分析的校正集和验证集的划分方法

Info

Publication number: CN106770005B
Application number: CN201611062548.4A
Authority: CN
Inventors: 聂磊; 臧恒昌; 曾英姿; 姜红; 姜文文; 张惠; 李彤彤
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2018-10-26
Anticipated expiration: 2036-11-25
Also published as: CN106770005A

Abstract

本发明公开了一种用于近红外光谱分析的校正集和验证集的划分方法，步骤如下：将样本的近红外光谱与相应的参考值关联，拟合，计算每个样本的拟合值和对应参考值的差值的平方，记为e_i ²＝(Y_i‑Y_i ^f)²，其中，Y_i和Y_i ^f分别表示样本i的参考值和通过模型计算的拟合值，e_i代表Y_i和Y_i ^f的差值；选择e_i ²最小值对应的样本作为验证集样本；将i样本剔除，然后对于剩余样本继续建模、拟合，重复上述步骤，直到选择出需要的验证集样本数量，剩余的样本为校正集样本。采用本发明的用于近红外光谱分析的校正集和验证集的划分方法，与Kennard‑Stone法和SPXY方法比较，得到的建模性能要好，预测能力更强，特别是对于独立验证集样本的预测更好。

Description

一种用于近红外光谱分析的校正集和验证集的划分方法

技术领域

本发明涉及光谱分析中的样品集划分技术领域，具体涉及一种用于近红外光谱分析的校正集和验证集的划分方法。

背景技术

近红外光谱分析方法(NIR)是目前发展迅速的一种快速、无损及绿色的分析技术，在诸多领域如化学、生命科学、食品及制药领域得到广泛应用。近红外光谱分析法与传统的分析方法不同的是需要通过化学计量学方法将样本的近红外光谱与对应的参考值(如成分含量等)关联建立校正模型，然后通过校正模型进行对未知样本的参考值进行预测，以实现快速分析的目的。

为了建立校正模型，需要对样本数据集进行划分。不同的划分方法得到的校正集和验证集的结果是不同的。如何选择何种样本以提高模型的适用性和预测能力是NIR建模的基本问题之一。

目前，在近红外光谱研究领域应用较多的数据集划分方法主要有Kennard-Stone(KS)法及SPXY法。其中，KS法可以使有代表性的样品进入定标集，从而在一定程度上避免了定标集样品分布的不均匀。但这种方法没有考虑到有些光谱的差异并非完全由所测样品的组成或性质的差异引起的，很有可能将异常样品也选入定标集中。

SPXY法与KS法非常相似，它是以KS为基础，将参考值变量(Y)加以考虑，对样本近红外光谱间的距离和参考值间的距离进行了标准化处理(除以相应距离的最大值)，使得样本在近红外光谱空间和参考值空间权重相同。但从方法本身来看，SPXY法和KS法对所选择的校正集样本是否有较好的预测能力很难确定。

因此，校正集和验证集样本的选择对光谱多元分析校正至关重要，校正集和验证集的不同划分会造成模型预测效果的变化很大，如果验证集样本的选择不具代表性，则将严重影响模型性能的正确评价。提供新的建模性能更好、预测能力更强的样品集的划分方法，是近红外光谱分析的关键课题之一。

发明内容

针对上述现有技术，本发明的目的是提供一种用于近红外光谱分析的校正集和验证集的划分方法。

为实现上述目的，本发明采用下述技术方案：

一种用于近红外光谱分析的校正集和验证集的划分方法，包括以下步骤：

(1)对样品进行近红外光谱测定，得光谱原始矩阵X；

(2)采用参考方法测定样品的参考值，得到矩阵Y；

(3)对光谱原始矩阵X进行异常值检测，将异常值剔除，并将相对应的矩阵Y中的异常参考值剔除；

(4)在剔除异常值后的矩阵X中，抽取一定量的样本组成独立验证集，记为X_t，其对应参考值矩阵为Y_t，X_t和Y_t的样本一一对应；独立验证集的样本数量根据实际需要进行确定，一般不要多于校正集的样本数量，且参考值的范围一般应包含于校正集样本的参考值范围。

(5)将剩下的样本近红外光谱数据和参考值数据采用建模方法进行关联，建模，然后拟合，计算每个样本的拟合值和对应参考值的差值的平方，记为e_i ²＝(Y_i-Y_i ^f)²，其中，Y_i和Y_i ^f分别表示样本i的参考值和通过模型计算的拟合值，选择e_i ²最小值对应的样本作为验证集样本；本发明选择e_i ²最小值对应的样本作为验证集样本，该样本对于校正模型的影响较小，使校正集保留较多的对模型有较大影响力的样本。

(6)将该样本剔除后，再用建模方法对剩余样本的近红外光谱数据和对应参考值数据关联，拟合，重复步骤(5)，每一步选择一个样本加到验证集中，直至达到需要的样本数量，这些样本组成验证集，记为X_v，对应的参考值记为Y_v；

(7)最后将剩余的样本构成校正集，记为X_c，对应的参考值记为Y_c。

优选的，步骤(3)中，采用Hotelling T²法对异常值进行检测。

优选的，步骤(4)中，抽取样本为随机抽取样本，理论上每个样本抽取的机会均等。

优选的，步骤(5)中，建模方法为偏最小二乘(PLS)法。

优选的，步骤(5)中，建模得到的关系模型为：Y＝XB_pls；其中，B_pls是对应的回归系数。

进一步的，若Y矩阵不只1列，即包括多个不同参考值(如不同成分含量)，X和Y之间的建模按X与Y矩阵的每列分别建模。

优选的，步骤(5)中，建模方法的潜在变量数由10倍交叉验证得到。建模均是在模型优化的潜在变量数下进行。

优选的，步骤(5)中，拟合的操作为：通过建模可以求出B_pls，然后再利用模型：Y^f＝XB_pls，求出Y_i ^f。

对于未知样本X_u，模型：Y_u ^f＝X_uB_pls则为预测过程。

一般情况下，Y^f和Y很相近，但有一定的差异，E＝Y-Y^f，E为残差向量或矩阵，它的组成元素为e_i或e_ij(i和j表示E矩阵的i行和j列)。本发明是针对每个成分建立模型即Y为一列，所以E为向量。通过这种建模的方法来划分样本可以考察哪些样本的X数据对模型的影响较大，保留这些样本或许对模型预测会有一定的稳定作用。而KS和SPXY法对样本划分没有涉及建模这方面，只是根据样本的原始数据来确定，所以很难确定哪些样本对模型的影响较大。

上述划分方法，对于校正集和验证集样本数量的设定，总的原则是校正集的样本数量要多于验证集的样本数量。样本数量设定的不同一般会影响所建模型的预测性能，因为实验研究往往是在有限集中选择样本，理论上只有在无限多的样本中选择一定数量的样本可以认为影响小。对于本发明所用的数据集划分方法，样本数量有所改变，模型的预测性能都会有变化。

优选的，校正集和验证集样本数量的设置比例为(3-8)：1。

本发明的有益效果：

采用本发明的用于近红外光谱分析的校正集和验证集的划分方法，与目前常用的数据划分方法如Kennard-Stone(KS)法和SPXY方法比较，得到的建模性能要好，预测能力更强，特别是对于独立验证集样本的预测更好。

由于划分方法不同，得到的校正集和验证集也不同。对模型预测性能的评价主要是对模型的校正集预测性能的评价，如果对“独立检验集”预测性能好，则说明某划分方法得到的校正集的预测性能更好，因为对于不同的划分方法来说，“校正集”和“验证集”可以因方法而不同，但“独立验证集”始终是相同的，这样评价更具有客观性。

附图说明

图1：实施例1中所有样本的原始近红外光谱；

图2：实施例1中去除异常样本之后的主成分投影图。

具体实施方式

下面结合实施例对本发明作进一步的说明，应该说明的是，下述说明仅是为了解释本发明，并不对其内容进行限定。

实施例1：

以中药制剂参枝苓口服液为例，测定的样本数共有219个，包括样本的重复。矩阵X为样本的近红外光谱矩阵，矩阵Y是两个质量指标成分(芍药苷和肉桂酸)矩阵。

以质量指标成分为肉桂酸为例，样本的原始图谱详见图1所示。所有样本的肉桂酸含量采用HPLC色谱方法测定，并经过方法学验证。先进行异常样本的剔除，通过HotellingT²方法，检测到16个异常样本，然后剔除之后共剩下203个样本。去除异常值后的样本近红外光谱的主成分投影图如图2所示。由图2可见，剩余的样本通过Hotelling T²检验(在椭圆圈内)，已没有异常样本。

随机抽取30个样本作为独立验证集X_t。

对剩余173个样本进行划分，其中验证集样本数设定为20，校正集样本数为153。首先将173个样本的近红外光谱数据和肉桂酸含量采用偏最小二乘(PLS)法进行关联，建立Y和X之间的关系模型，如下：

Y＝XB_pls (1)；

得到模型参数(即回归系数B_pls)。

然后将这些样本的X光谱数据重新代入模型

Y^f＝XB_pls (2)；

通过模型参数计算出每个样本的拟合值Y_i ^f，接着再计算每个样本的拟合值和对应参考值(肉桂酸含量)的差值的平方，记为e_i ²＝(Y_i-Y_i ^f)²，其中，Y_i和Y_i ^f分别表示样本i的参考值和通过模型计算的拟合值，e_i代表Y_i和Y_i ^f的差值。选择e_i ²最小值对应的样本作为验证集样本；将i样本剔除，然后对于剩余样本继续建模、拟合，重复上述步骤，直到选择出需要的验证集样本数量，剩余的样本为校正集样本。

作为对比，分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分,其中验证集样本数设定为20，校正集样本数为153。

根据划分结果，采用偏最小二乘法分别建立X和Y的关联模型，以校正集均方根误差(RMSEC)，验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数，如校正集相关系数(R_c)，验证集相关系数(R_v)和预测集相关系数(R_p)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本，有一定的偶然性。为了客观地评价各种数据集的划分方法，我们平行重复10次试验，随机抽取相同数量的样本，计算上述各指标的平均值进行比较。有关结果见表1。

表1各种数据集划分方法的建模性能比较(肉桂酸的测定)

由表1可见，RMSEC，RMSEV和RMSEP值均是越小越好，R_c,R_v和R_p均是越大越好。本发明的方法无论从RMSEC，RMSEV和RMSEP值，还是R_c,R_v和R_p都要优于另外两种方法。特别是相同的独立验证集样本，本法得到的RMSEP最小，R_p最大，预测能力最强。

表2列出了各种方法划分的校正集、验证集以及独立验证集的肉桂酸参考值的范围。该范围为10次试验结果的平均值。

表2数据集的参考值的范围(肉桂酸的含量(μg/mL)，10次平均结果)

由表2可见，三种方法划分的校正集样本的参考值(肉桂酸含量μg/mL)范围均能包括验证集样本的参考值范围。

实施例2：

以中药制剂参枝苓口服液为例，测定的样本数共有219个，包括样本的重复。X为样本的近红外光谱矩阵，Y是两个质量指标成分矩阵。以芍药苷为测定对象，先进行异常样本的剔除，通过Hotelling T²方法，检测到16个异常样本，然后剔除之后共剩下203个样本。随机抽取30个样本作为独立验证集X_t。

对剩余173个样本进行划分，其中验证集样本数设定为20，校正集样本数为153。首先将173样本的近红外光谱数据和芍药苷含量采用偏最小二乘(PLS)法进行关联，建模，得到模型参数(即回归系数)，然后将这些样本的X光谱数据重新代入模型，通过模型参数计算出每个样本的拟合值，接着再计算每个样本的拟合值和对应参考值(芍药苷含量)的差值的平方，记为e_i ²＝(Y_i-Y_i ^f)²，其中，Y_i和Y_i ^f分别表示样本i的参考值和通过模型计算的拟合值，e_i代表Y_i和Y_i ^f的差值。选择e_i ²最小值对应的样本作为验证集样本；将i样本剔除，然后对于剩余样本继续建模、拟合，重复上述步骤，直到选择出需要的验证集样本数量，剩余的样本为校正集样本。

作为对比，分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分,其中验证集样本数设定为20，校正集样本数为153。。

根据划分结果，采用偏最小二乘法(PLS)分别建立X和Y的关联模型，以校正集均方根误差(RMSEC)，验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数，如校正集相关系数(R_c)，验证集相关系数(R_v)和预测集相关系数(R_p)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本，有一定的偶然性。为了客观地评价各种数据集的划分方法，我们平行重复10次抽取相同数量的样本作为独立验证集，计算上述各指标的平均值进行比较。有关结果见表3。

表3各种数据集划分方法的建模性能比较(芍药苷的测定)

由表3可见，RMSEC，RMSEV和RMSEP值均是越小越好，R_c,R_v和R_p均是越大越好。本方法只有R_c值略小于KS方法，但优于SPXY法。R_v和R_p均是三种方法中的最大值。从RMSEC，RMSEV和RMSEP值可见，本法所得结果均是最小的。由于三种方法采用相同的独立验证集，本法所得的R_p最大，RMSEP最小，表明本法对于相同的独立验证集具有最强的预测能力。

表4列出了各种方法划分的校正集、验证集以及独立验证集的芍药苷参考值的范围。该范围为10次试验结果的平均值。

表4数据集的参考值的范围(芍药苷的含量(mg/mL)，10次平均结果)

由表4可见，三种方法划分的校正集样本的参考值(芍药苷的含量mg/mL)范围均能涵盖验证集样本的参考值范围。另外，KS法和SPXY的原理相近，所得结果也非常相似。

实施例3

对剩余173个样本进行划分，我们变化了验证集样本的数量，以考察验证集样本数量变化后，各种划分方法对模型的性能的影响。其中验证集样本数设定为30，校正集样本数为143。首先将173样本的近红外光谱数据和芍药苷含量采用偏最小二乘(PLS)法进行关联，建模，得到模型参数(即回归系数)，然后将这些样本的X光谱数据重新代入模型，通过模型参数计算出每个样本的拟合值，接着再计算每个样本的拟合值和对应参考值(芍药苷含量)的差值的平方，记为e_i ²＝(Y_i-Y_i ^f)²，其中，Y_i和Y_i ^f分别表示样本i的参考值和通过模型计算的拟合值，e_i代表Y_i和Y_i ^f的差值。选择e_i ²最小值对应的样本作为验证集样本；将i样本剔除，然后对于剩余样本继续建模、拟合，重复上述步骤，直到选择出需要的验证集样本数量，剩余的样本为校正集样本。

作为对比，分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分。

根据划分结果，采用偏最小二乘法(PLS)分别建立X和Y的关联模型，以校正集均方根误差(RMSEC)，验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数，如校正集相关系数(R_c)，验证集相关系数(R_v)和预测集相关系数(R_p)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本，有一定的偶然性。为了客观地评价各种数据集的划分方法，我们平行重复20次抽取相同数量的样本作为独立验证集，计算上述各指标的平均值进行比较。有关结果见表5。

表5各种数据集划分方法的建模性能比较(芍药苷的测定)

由表5可见，RMSEC，RMSEV和RMSEP值均是越小越好，R_c,R_v和R_p均是越大越好。本方法只有R_c值略小于SPXY方法，但优于KS法。R_v和R_p均是三种方法中的最大值。从RMSEC，RMSEV和RMSEP值可见，本法只有RMSEC大于SPXY，但RMSEV和RMSEP值是三种方法所得结果的最小值。由于三种方法采用相同的独立验证集，本法所得的R_p最大，RMSEP最小，表明本法对于相同的独立验证集具有最强的预测能力。

表6列出了各种方法划分的校正集、验证集以及独立验证集的芍药苷参考值的范围。该范围为20次试验结果的平均值。

表6数据集的参考值的范围(芍药苷的含量(mg/mL)，20次平均结果)

由表6可见，虽然本法的验证集范围略超出校正集范围，但从表5的预测性能来看(如RMSEV和R_v及RMSEP和R_p)都优于另外两种方法。而且在制药领域实践中，有些独立批次的检验样本也许不一定就包含在校正集范围内，因此通过本法划分的校正集而建立的模型适用性可能更好。

实施例4

以中药制剂参枝苓口服液为例，测定的样本数共有219个，包括样本的重复。X为样本的近红外光谱矩阵，Y是两个质量指标成分矩阵。以肉桂酸为测定对象，先进行异常样本的剔除，通过Hotelling T²方法，检测到16个异常样本，然后剔除之后共剩下203个样本。随机抽取30个样本作为独立验证集X_t。

对剩余173个样本进行划分，我们变化了验证集样本的数量，以考察验证集样本数量变化后，各种划分方法对模型的性能的影响。其中验证集样本数设定为30，校正集样本数为143。首先将173样本的近红外光谱数据和肉桂酸含量采用偏最小二乘(PLS)法进行关联，建模，得到模型参数(即回归系数)，然后将这些样本的X光谱数据重新代入模型，通过模型参数计算出每个样本的拟合值，接着再计算每个样本的拟合值和对应参考值(肉桂酸含量)的差值的平方，记为e_i ²＝(Y_i-Y_i ^f)²，其中，Y_i和Y_i ^f分别表示样本i的参考值和通过模型计算的拟合值，e_i代表Y_i和Y_i ^f的差值。选择e_i ²最小值对应的样本作为验证集样本；将i样本剔除，然后对于剩余样本继续建模、拟合，重复上述步骤，直到选择出需要的验证集样本数量，剩余的样本为校正集样本。

根据划分结果，采用偏最小二乘法(PLS)分别建立X和Y的关联模型，以校正集均方根误差(RMSEC)，验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数，如校正集相关系数(R_c)，验证集相关系数(R_v)和预测集相关系数(R_p)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本，有一定的偶然性。为了客观地评价各种数据集的划分方法，我们平行重复20次抽取相同数量的样本作为独立验证集，计算上述各指标的平均值进行比较。有关结果见表7。

表7各种数据集划分方法的建模性能比较(肉桂酸的测定)

建立校正模型的目的就是为了使模型具有较强的预测能力，因此模型的预测能力是建立模型的一个相对非常重要的指标。RMSEC，RMSEV和RMSEP值均是越小越好，R_c,R_v和R_p均是越大越好。由表7可见，本方法只有R_c值略小于SPXY和KS方法，但R_v和R_p均是三种方法中的最大值。从RMSEC，RMSEV和RMSEP值可见，本法只有RMSEC大于SPXY和KS法，但RMSEV和RMSEP值是三种方法所得结果的最小值。由于三种方法采用相同的独立验证集，本法的R_p最大，RMSEP最小，表明本法对于相同的独立验证集具有最强的预测能力。

表8列出了各种方法划分的校正集、验证集以及独立验证集的肉桂酸参考值的范围。该范围为20次试验结果的平均值。

表8数据集的参考值的范围(肉桂酸含量(μg/mL)，20次平均结果)

由表8可见，三种方法划分的校正集样本的参考值(肉桂酸含量μg/mL)范围均能涵盖验证集样本的参考值范围。另外，KS法和SPXY的原理相近，所得结果也非常相似。

Claims

1.一种用于近红外光谱分析的校正集和验证集的划分方法，其特征在于，步骤如下：

将样本的近红外光谱进行异常值检测，剔除异常值；然后抽取一定量的样本组成独立验证集；

将剩余样本的近红外光谱与相应的参考值关联，建模，拟合，计算每个样本的拟合值和对应参考值的差值的平方，记为e_i ²＝(Y_i-Y_i ^f)²，

其中，Y_i和Y_i ^f分别表示样本i的参考值和通过模型计算的拟合值，e_i代表Y_i和Y_i ^f的差值；

选择e_i ²最小值对应的样本作为验证集样本；将e_i ²最小值对应的样本剔除，然后对于剩余样本继续建模、拟合，重复上述步骤，直到选择出需要的验证集样本数量，剩余的样本为校正集样本。

2.如权利要求1所述的划分方法，其特征在于，采用偏最小二乘法建模，将样本的近红外光谱与相应的参考值进行关联。

3.如权利要求2所述的划分方法，其特征在于，建模方法的潜在变量数由10倍交叉验证得到；建模是在模型优化的潜在变量数下进行。

4.如权利要求2所述的划分方法，其特征在于，建模得到的关系模型为：Y＝XB_pls；其中，B_pls是对应的回归系数。

5.如权利要求1所述的划分方法，其特征在于，拟合的操作为：通过建模求出B_pls，然后再利用模型：Y^f＝XB_pls，求出Y_i ^f。

6.如权利要求1所述的划分方法，其特征在于，采用Hotelling T²法进行异常值检测。

7.如权利要求1所述的划分方法，其特征在于，采用随机抽取法抽取样本组成独立验证集。

8.如权利要求1所述的划分方法，其特征在于，独立验证集的样本数量少于校正集的样本数量。

9.如权利要求1所述的划分方法，其特征在于，校正集和验证集样本数量的设置比例为(3-8)：1。