CN112285056A

CN112285056A - 一种用于光谱样品个性化校正集选择及建模方法

Info

Publication number: CN112285056A
Application number: CN202011097863.7A
Authority: CN
Inventors: 聂磊; 袁萌; 臧恒昌; 孙越; 张中湖; 王林林; 庄晓琪; 金翩; 姜红; 纪立顺; 田进国; 朱友
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-29
Anticipated expiration: 2040-10-14
Also published as: CN112285056B

Abstract

本发明提供一种用于光谱样品个性化校正集选择及建模方法，属于近红外光谱分析技术领域。本发明通过对每个独立验证集样品(或未知待测样品)有针对性的建立校正模型，不仅具有个性化及针对性特点，而且校正集样品的分布更加精密，建立的校正模型也会随之精细，从而对于未知样本具有更好的预测性能，因此具有良好的实际应用之价值。

Description

一种用于光谱样品个性化校正集选择及建模方法

技术领域

本发明属于近红外光谱分析技术领域，具体涉及一种用于光谱样品个性化校正集选择及建模方法。

背景技术

公开该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。

近红外光谱分析方法(NIR)是当前发展迅速的一种无损、无污染、重现性好的快速分析技术，随着化学计量学和计算机技术的发展，该技术已在农产品、石油化学、制药、环境、过程控制、临床及生物医学等领域广泛应用。该方法的一大特点是需要借助化学计量学将样品的光谱信息与对应的参考值信息(如含量、来源等)相关联建立模型，通过所建立的模型对未知的样品进行预测，从而实现分析的目的。

为了建立一个准确的校正模型，需要对现有的样本集进行划分，通过校正集建立校正模型，用验证集辅助评价及验证模型的效果。因此，如何选择校正集对模型的适用性和预测能力有极大的影响。

在近红外光谱分析领域，有两种经典且应用较多的样本集划分方法，分别是Kennard-Stone(KS)法和SPXY法，KS法通过样本间欧氏距离的计算选择有代表性的样本进入校正集，从而使校正集包含的样品信息范围较为广泛，但该法有可能将异常样品也选入校正集内，并且未考虑样品参考值(Y)对样品集划分的影响，在预测未知样品时缺乏一定的针对性。SPXY法是在KS法的基础上发展建立的，该方法将参考值变量(Y)与光谱变量(X)同时考虑在内，并保证其在各自的空间有相同的权重，有效覆盖多维向量空间。但是发明人发现，这两种方法并未考虑未知样本的光谱信息，因此对未知样品是否有很好的预测很难确定。

校正集对近红外光谱分析至关重要，因为对于未知样品的预测是基于校正集建立的模型。校正集的选取是影响模型效果的关键一步，校正集的样本需要具有一定的代表性，包涵尽可能多的样本变异信息，所以建立新的模型性能更好、预测能力更强的校正模型，对于当前近红外光谱分析是关键的研究方向之一。

发明内容

为了克服上述技术问题，本发明提供一种用于光谱样品个性化校正集选择及建模方法，通过对每个独立验证集样品(或未知待测样品)有针对性的建立校正模型，不仅具有个性化及针对性特点，而且校正集样品的分布更加精密，建立的校正模型也会随之精细，从而对于未知样本具有更好的预测性能，因此具有良好的实际应用之价值。

为实现上述技术目的，本发明采用的技术方案如下：

本发明的第一个方面，提供一种用于光谱样品个性化校正集选择方法，所述选择方法包括：

S1、对原始样本进行近红外光谱测定，得到原始样本光谱矩阵X；采用参考方法测定样本的参考值，得参考值矩阵Y；

S2、对原始样本光谱矩阵和参考值矩阵进行异常值检测，将异常值剔除后分别得到X_m，并将参考值Y矩阵相应的异常值样本的参考值剔除，得光谱矩阵Y_m；

S3、在光谱矩阵X_m中抽取样本作为独立验证集X_t，其对应参考值记为Y_t；相应的，X_m扣除X_t之后剩余样本集为X_k，相应的参考值为Y_k；

S4、对于独立验证集X_t中的每个样本，分别计算该样本与剩余样本集X_k中每个样本之间的光谱相似度，获取相似度最高的g个样本写入验证集X_v，相应的参考值记为Y_v；

S5、X_m扣除了X_t和X_v后剩余的样品为剩余样品光谱矩阵X_r，采用插值法分别对光谱矩阵X_r和对应的参考值矩阵Y_r进行插值处理，得到插值后的光谱矩阵X_s及其对应参考值矩阵Y_s；

S6、对于验证集X_v中的每个样本，分别计算该样本与插值后的光谱矩阵X_s中每个样本之间的光谱相似度，为每个验证集样品选取最相似的样品组成对于每个验证集样品的个性化校正集

对应的参考值为

其中，所述步骤S2中，对光谱原始矩阵X异常值进行检测采用Hotelling T²法，对参考值矩阵Y异常值进行检测采用Boxplot方法。

所述步骤S3中，抽取样本方式优选为随机抽取，从而用于建立独立验证集，因此理论上每个样品被抽取的机会均等。

所述步骤S4或S6中，样本之间的光谱相似度采用欧氏距离、马氏距离或相似度中的任一种进行计算。

所述步骤S5中，插值法优选使用三次样条插值(spline插值法)从而分别对剩余样品的光谱矩阵X_r和对应的参考值矩阵Y_r进行插值处理。

所述步骤S6还包括对校正集样品数量n取不同值的情况下，对每个验证集样品分别建模，基于模型性能优化n的取值。

进一步的，建模方法包括多元回归分析(MLR)、主成分回归分析(PCR)和偏最小二乘回归分析法(PLSR)。

进一步的，校正集和对应验证集样品数量的设置比例为4:1及以上(如：5:1或6:1等)，最多为X_s中的所有样品。

本发明的第二个方面，提供上述用于光谱样品个性化校正集选择方法的建模方法，包括获取校正集相应的参考值矩阵，对于参考值矩阵中的每一参考值，分别与光谱矩阵进行关联建模。

进一步的，所述建模方法还包括：

基于验证集对模型参数进行优化；

基于独立验证集对模型性能进行评价。

所述方法还包括基于校正集、验证集和独立验证集对模型性能进行综合评价。

上述一个或多个技术方案的有益技术效果在于：

上述技术方案提供的采用近红外光谱样品个性化建模方法，对于校正集样品的选取是首先把剩余光谱矩阵进行插值处理，这样经过插值处理后的校正集样品在数据空间的网格密度加大，可供选择的校正集样品增多了，然后对每个验证集样品可以选择更为相似的样品(比未经过插值运算的校正集样品)作为校正集样品，对每个独立验证集样品(或未知待测样品)有针对性的建立校正模型，不仅具有个性化及针对性特点，而且校正集样品的分布更加精密，建立的校正模型也会随之精细。

与目前常用的校正集样品选择方法(如KS法和SPXY)比较，可以确切地证明其对于未知待测样品的建模性能更好，预测能力更强。而且，本方法对校正集样品数目进行了优化，可以实现选用较少的校正集样品数目达到更好的预测效果，节省人力物力。对于不同的校正集方法，校正集和验证集可因方法不同而不同，可选用相同的“独立验证集”，通过比较相同的独立验证集误差均方根(RMSEP)值、独立验证集相关系数(R_p)值和独立验证集的相对分析误差(RPD)值来评价不同方法的性能。因此具有良好的实际应用之价值。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1中所有样本的原始近红外光谱；

图2为本发明实施例1去除异常样本之后的主成分投影图；

图3为本发明实施例1插值后的近红外光谱。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。应理解，本发明的保护范围不局限于下述特定的具体实施方案；还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围。

本发明的一个具体实施方式中，提供一种用于近红外光谱样品个性化校正模型的建立方法，包括以下步骤：

(1)对样本进行近红外光谱测定，得光谱原始矩阵X；

(2)采用参考方法测定样本的参考值，得参考值矩阵Y；

(3)对光谱原始矩阵X和参考值矩阵Y进行异常值检测，将异常值剔除得光谱矩阵X_m，并将参考值Y矩阵相应的异常值样本的参考值剔除，得光谱矩阵Y_m。

(4)在剔除异常值后的光谱矩阵X_m中，抽取一定量的样本组成独立验证集，模拟需要预测的未知待测样本，记为X_t，其对应参考值记为Y_t。X_m扣除X_t之后剩余样本集记为X_k，相应的参考值记为Y_k。

(5)由于光谱信息获得容易，检测迅速，故可以根据光谱相似的原则选取验证集样本，以验证集的预测效果间接反映对未知待测样本(X_t)的预测能力。具体方法如下：以独立验证集中的每个样本X_t(i)为参考，分别计算其与剩余每个样本光谱X_k(j)之间的欧氏距离或马氏距离D_tk(i,j)并进行排序，距离越相近，表明独立验证集中的该样本与剩余样本中的某一样本光谱越相似。依次对独立验证集中每一样本进行如上计算，则独立验证集的每一样本都可从剩余样本中找到其最相似的g个样本，根据实际样本数目和建模要求，可为每个独立验证集样本选取最相似的g个样本组成验证集，即为最终的验证集，记为X_v，对应的参考值记为Y_v，其中g≥1的正整数。本发明选择与独立验证集最相似的样本作为验证集样本，该样本可以模拟独立验证集样本(即未知待测样本)对模型效果进行反馈，从而达到更好的预测效果。

(6)X_m扣除了X_t和X_v后剩余的样品称为剩余样品，记为X_r，采用插值法分别对X_r光谱矩阵和对应的参考值矩阵Y_r进行插值处理，得到插值后的光谱矩阵,记为X_s，其对应参考值记为Y_s。

(7)验证集样本获得后，校正集样本的选择与其相似。具体方法如下：以验证集中的每个样本X_v(i)为参考，分别计算其与插值后的光谱矩阵(X_s)中每个样品光谱X_s(j)的欧氏距离(或马氏距离或相似度)并进行排序，距离越小(或夹角余弦越大或相关系数越大)越相近，距离最小者(或相似度最大者)表明验证集中的该样品X_v(i)与插值后的光谱矩阵中的某一样品光谱最相似。依次对验证集中每一样品进行如上计算，即可为每个验证集样品选取最相似的n_i个样品组成对于每个验证集样品的个性化校正集，记为

对应的参考值记为

照此法选出的校正集样本，与验证集相似，同时也与独立验证集相似，从而更有针对性地建立对未知样本的模型。n_i的最大值为插值后所有样品的数目，即X_s中的样品都被选为校正集样品对应的数目。对于每个验证集样品选取的校正集样品数目n_i可以相同，也可不同，即对每个验证集样品选取的校正集样品的数量n_i具有个性化特点。一般地，校正集样品不一定数目越多建模效果越优，有可能包含了异常样品或重复样品或相似性较小的信息，对建模可能形成一定的干扰；而校正集样品数目太少，包含的样品信息相对较少，无法覆盖待测的未知样品信息，所以需要对n_i的大小进行优化，即针对每个验证集样品进行个性化的优化。尝试采用不同大小的n_i值情况下，对于每个验证集样品X_v(i)分别建模，通过获得的验证集的RMSEV值和R_v值优化采用的n_i值大小，即RMSEV值越小，R_v值越大，则证明建模效果最佳，选取此时的n_i值为通过该验证集样品优化后的校正集样品数目，这些校正集样品为对该验证集样品预测性能最优的n_i个相似的样品(即针对X_v(i)的个性化校正集

)。

本发明的又一具体实施方式中，步骤(3)中，采用Hotelling T²法对光谱原始矩阵X异常值进行检测，采用Boxplot方法对参考值矩阵Y异常值进行检测。

本发明的又一具体实施方式中，步骤(4)中，抽取样品为随机抽取样品，用于建立独立验证集，理论上每个样品被抽取的机会均等。

本发明的又一具体实施方式中，步骤(6)中，采用spline插值方法分别对剩余样品的光谱矩阵X_r和对应的参考值矩阵Y_r进行插值。

本发明的又一具体实施方式中，步骤(7)中，计算验证集中每个样品X_v(i)与插值后样品集中的每个样品X_s(j)之间的距离，以验证集中每一样品X_v(i)为一观察单位，从插值后的样品集X_s中选取与X_v(i)最近的n_i个样品组成该样品的校正集

其中c表示校正集，n_i表示针对验证集中第i样品从X_s中选出最相近的n_i样品，即n_i个个性化的校正集样品，

称为针对X_v(i)的个性化校正集。

本发明的又一具体实施方式中，步骤(7)中，建模方法为多元回归分析(MLR)、主成分回归分析(PCR)及偏最小二乘回归分析法(PLSR)。

本发明的又一具体实施方式中，步骤(7)中，建模得到的关系模型为：Y＝XB+ε；其中，B为对应的回归系数，ε为残差。将求出的回归系数B带入模型计算得到

其中符号“∧”表示通过校正模型计算出的结果，如模型的拟合或预测(一般对于校正集样本模型计算的结果称为拟合，对于验证集样本或独立检验集样本模型计算的结果称为预测)；

本发明的又一具体实施方式中，若Y矩阵不只有1列，包含多个参考值(如不同成分的含量等)，即Y有多个参考值列，则分别对X矩阵与Y矩阵的每列进行分别建模，模型的个数与Y矩阵的列数一致。

本发明的又一具体实施方式中，步骤(7)中，建模方法如采用PCR或PLSR方法，相应的潜在变量数由交叉验证集的最小交叉均方根误差(RMSECV)值得到，一般采用留一法进行交叉验证(LOO-CV)，也包括一些其它交叉验证方法，如5倍或10倍交叉验证方法(5-folderor 10-folder)。模型的预测均是在模型优化的潜在变量数下进行。

本发明的又一具体实施方式中，步骤(7)中，拟合的操作为：采用校正集样品针对验证集样品i建立个性化校正模型，根据RMSEV和R_v优化校正集样品数量n_i，按照关系模型

求出回归系数

(其含义是通过验证集样品优化得到的针对验证集样品i的校正回归系数，

是针对验证集i的残差)，然后再利用校正模型对校正集样品i按照

进行拟合，求出拟合的

模型的预测操作为：对于验证集样品X_v(i)，按照

进行预测；对于未知待测样品集(记为X_u)中的样品X_u(i)，可以采用

对X_u(i)进行预测。

本发明的又一具体实施方式中，校正集和对应验证集样品数量的设置比例为4:1及以上(如：5:1或6:1等)，最多为X_s中的所有样品。

以下通过具体的实施例对本发明的技术方案进行说明。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。本领域技术人员可以理解，在进行建模之前，还可以包括对校正集，验证集和独立检验集的预处理步骤，此处对具体预处理方法不进行限定，在以下具体实施例中，均未采用预处理，以原光谱矩阵直接进行建模。如果采用预处理方法，校正集，验证集和独立检验集的预处理方法要保持一致。

实施例1

以公开玉米数据为例，测定的样品数共有80个，包括样品的重复。矩阵X为玉米样品的原始近红外光谱矩阵，矩阵Y是四个质量指标成分(水、油、蛋白质、淀粉)矩阵。

对于Y矩阵的四个成分，分别以矩阵Y中的每列与矩阵X关联建模，在本实施例中，以水分为例说明方法，其余成分与水分采取相同的步骤，样品的原始图谱见图1所示。

首先进行异常样品的剔除，通过Hotelling T²方法对原始光谱矩阵X检测，得到3个异常样品，通过Boxplot方法对参考值矩阵Y检测，没有异常值，剔除之后剩余77个样品，构建X_m矩阵。去除异常值后的样品近红外光谱的主成分投影图如图2所示。由图2可见，剩余的样品通过Hotelling T²检验(在椭圆圈内)，已没有异常样品。

从X_m中随机抽取10个样本作为独立验证集X_t。

对剩余67个样本进行划分，计算X_t中每个样本与剩余样本X_k之间的欧氏距离D_tk并排序，为独立验证集X_t中每个样本选取最相似的1个样本(即g＝1)，组成最终的验证集X_v，对应的参考值矩阵记为Y_v。对剩余样品X_r进行插值处理得到插值后的光谱X_s。插值算法中，取优化因子数为1(这个参数决定插值运算的密度，为1时，数据增加1倍，即X_s是X_r样本数量的2倍)，插值方法选择三次样条插值法(spline)。计算每个验证集样品X_v(i)与插值后样品X_s(j)之间的欧氏距离D_vs(ij)并排序，欧氏距离的计算公式为：D_vs(ij)＝sqrt(∑(X_v(i)-X_s(j)²)，为每个验证集样品选取一定数量的样品作为该样品的个性化校正集，样品数量为n_i。n_i通过优化决定，此时所得校正集即为X_v(i)的个性化校正集

对应的参考值矩阵记为

根据优化结果，将校正集样品

和对应水分含量矩阵

采用偏最小二乘回归法(PLSR)进行关联，建立

和

之间的关系模型，如下：

根据(1)式得到模型参数，即回归系数

然后将样品的

和X_v(i)光谱数据重新带入校正模型(1)，拟合和预测结果分别如(2)和(3)式：

通过模型参数计算出校正集的拟合值

与对应的参考值

计算均方根误差(RMSEC)和相关系数(R_c)；根据验证集的预测值

与对应的参考值Y_v计算均方根误差(RMSEV)和相关系数(R_v)；最后根据独立验证集的预测值

与对应的参考值Y_u计算独立验证集的均方根误差(RMSEP)、相关系数(R_p)及相对分析误差(RPD)；根据以上各参数共同评价模型的性能。

本专利对预处理方法和光谱波段选择方法不进行限定，在以下实施例中，未采用预处理方法和波段选择方法，以原光谱矩阵直接进行建模。如果采用预处理方法和光谱波段选择方法，校正集，验证集和独立验证集的预处理方法和光谱波段选择方法要保持一致，与不同方法进行比较时也要保持预处理方法和光谱波段选择方法一致。模型的优化和建立是在预处理和光谱波段选择之后进行。N_c表示平均每个验证集样品的个性化校正集样品的数量(其含义是对于一个X_v(i)样品，选择n_i个个性化校正集样品，

其中N_v表示验证集样品的数量，本例为10)。Lv表示平均每个验证集样品建模时的潜在因子数(其含义是对于一个X_v(i)样品，选择Lv_i个潜在因子数，

由于独立验证集是随机抽取的一定数目的样本，具有一定的偶然性，为了客观评价各种划分方法的性能，我们抽取相同数目的样本，平行重复10次试验，计算上述各项指标的平均值。表1列出了本法对玉米四种成分建立模型平行重复10次试验所得各项指标的平均值。

表1玉米各成分模型预测结果

成分	R<sub>c</sub>	RMSEC	R<sub>v</sub>	RMSEV	R<sub>p</sub>	RMSEP	RPD	Lv	N<sub>c</sub>
										水分	0.9994	0.0109	0.9995	0.0139	0.9988	0.0182	20.5427	10	32.5
油	0.9775	0.0302	0.9692	0.0401	0.9626	0.0611	2.9867	10	28.9
										蛋白质	0.9892	0.0681	0.9494	0.1242	0.9703	0.1297	4.0964	10	33.3
淀粉	0.9842	0.1335	0.9686	0.2119	0.9524	0.2633	3.1887	10	29.0

由表1可见，RMSEC和RMSEV值均是越小越好，R_c、R_v和R_P均是越大越好。本法玉米各成分均有较好的建模效果，校正集相关系数R_c均达到0.95以上，表明模型有较好的拟合效果，并且校正集仅选用了约25～35个样品用于建模，数量较少。大部分独立验证集相关系数R_p也达到0.96以上，RPD值大于3.0，并有较小的均方根误差，表明该模型对独立验证集样品有很好的预测能力。本发明可以用于间接反映独立验证集样品的个性化校正集的建立，并对独立验证集样品有较好的预测效果。

为评价本发明所采用方法的性能效果，我们将与常用方法如KS法和SPXY法进行比较，选取与本发明方法相同的独立验证集样品，相同数目的验证集样品，比较不同方法的建模性能和预测能力。有关结果见表2。

表2各种数据集划分方法建立模型的预测能力比较

由表2可见，本法得到的各种成分的R_p值和RPD值均高于另外两种方法，而RMSEP值均低于另外两种方法，表明本发明提出的方法建模性能优于KS和SPXY法，对于水分，由于水分本身建模效果就很好，提升空间不大；对于建模效果较差的油和淀粉，本法的建模效果提升明显；对于蛋白质，也有更好的预测能力。结合表1进行分析，由于本发明通过插值运算，增加了样品在数据空间的分布，使得有更多的与验证集样品更为相似的样品可供选择作为校正集样品，同时通过验证集样品的个性化建模，优化了校正集样本数目，并通过验证集样品与未知待测样品的相似性，建立的个性化校正模型也间接地反映了未知样品的个性化特点，相比于KS法和SPXY法，除去独立验证集和验证集的剩余所有样本作为校正集样本，虽然本发明采用的校正集样本数目较少，但是模型的性能和预测能力更优。

表3列出了各种方法建模的各个数据集的各成分参考值的范围。该范围为10次试验结果的平均值。

表3数据集的参考值范围

由表3可知，三种划分方法下四种成分的校正集样品参考值范围均能包含独立验证集和验证集样品的参考值范围。一般情况下，在建模过程中，参考值应满足校正集范围大于验证集范围，如果不满足上述条件，可以进一步扩大校正集样品参考值的变化范围，使上述关系得到满足。

为比较本发明与专利(CN110687072A)的建模效果，我们选取相同的独立验证集。本法采用的个性化验证集构建方法、校正集插值方法与专利(CN110687072A)有所不同，因此本法的校正集样品数量与专利(CN110687072A)的校正集数量有所不同。对于相同的独立检验集样品，哪种方法选择的相同数量的校正集样品建立的校正模型对独立验证集样品预测性能越好，说明这一方法选择的校正集样品的代表性强，建模效果好。为了公平比较，本法选择的原始校正集样品的数量(即未进行插值的校正集样品数量)与专利(CN110687072A)一致，通过R_p、RMSEP和RPD值比较两种方法的建模效果和预测性能。结果如表4所示(10次结果的平均值)。

表4各种数据集划分方法建立模型的预测能力比较

由表4可知，本发明的方法对玉米四种成分的R_p值和RPD值均大于专利(CN110687072A)方法，RMSEP值均小于专利(CN110687072A)方法，表明在相同的校正集样品数目下，本发明方法有更好的预测性能。

表5数据集的参考值范围

由表5可知，本发明和专利(CN110687072A)四种成分的校正集样品参考值范围均能包含独立验证集和验证集样品在参考值范围。

实施例2

以公开数据玉米为例，测定的样本共有80个。X为样本的近红外光谱矩阵，Y是四个成分质量指标矩阵。以水分为对象说明，其余成分采取相同的步骤，先进行异常样本的剔除，通过Hotelling T²方法，检测到3个异常样本，然后剔除之后共剩下77个样本，我们变化了计算距离的方式，以考察计算距离的方式变化后，各种划分方法对模型的性能的影响。

随机抽取10个样本作为独立验证集X_t。

对剩余67个样本进行划分，计算X_t中每个样本与剩余样本X_k之间的马氏距离D_tk并排序，为独立验证集X_t中每个样本选取最相似的1个样本(即g＝1)，组成最终的验证集X_v，对应的参考值矩阵记为Y_v。对剩余样品X_r进行插值处理得到插值后的光谱X_s，计算每个验证集样品X_v(i)与插值后样品之间的马氏距离D_ij并排序，马氏距离的计算公式为：D_vs(ij)＝sqrt((X_v(i)-X_s(j))^TS^-1(X_v(i)-X_s(j))),T表示转置，S表示多维随机变量的协方差矩阵,“-1”表示矩阵的求逆运算。取解释方差不少于0.99995的主成分数，为每个验证集样品选取一定数量的样品作为该样品的个性化校正集，样品数量为n_i，在校正集样品

矩阵和水分含量矩阵

之间建立PLS模型，计算各参数，包括校正集均方根误差(RMSEC)，验证集均方根误差(RMSEV)，校正集相关系数(R_c)，验证集相关系数(R_v)，验证集的相对分析误差(RPD)。为了客观评价各种方法的性能，我们尝试每次随机抽取10个独立验证集样本，平行重复10次试验，计算上述各项指标的平均值。

表6玉米各成分模型预测结果

成分	R<sub>c</sub>	RMSEC	R<sub>v</sub>	RMSEV	R<sub>p</sub>	RMSEP	RPD	Lv	N<sub>c</sub>
										水分	0.9996	0.0087	0.9995	0.0118	0.9991	0.0175	21.3152	10	29.7
油	0.9743	0.0331	0.9709	0.0446	0.9469	0.0649	2.8944	10	33.8
										蛋白质	0.9901	0.0618	0.9852	0.0850	0.9864	0.0939	5.6141	10	31.3
淀粉	0.9812	0.1417	0.9635	0.1627	0.9491	0.2772	3.0358	10	40.1

由表6可见，玉米各成分仍有很好的建模效果，大部分成分的校正集和验证集相关系数都达到0.90以上，所有成分建模的RPD均大于2.5，说明模型有较好的预测能力，表明该方法可用于样本集的划分，并可以得到很好的模型性能和预测效果。

作为对比，我们将与常用方法如KS法和SPXY法作比较，选取与本发明方法相同的独立验证集样品，相同数目的验证集样品，比较不同方法的建模性能和预测能力。有关结果见表7。

表7各种数据集划分方法建立模型的预测能力比较

由表7比较可见，本发明的方法在对于独立验证集的预测上，无论是相关系数R_p值、均方根误差RMSEP值还是相对分析误差RPD值要优于另外两种方法，尤其对于本身建模效果较差的淀粉有更高的预测能力，预测误差更小。

表8数据集的参考值范围

由表8可知，三种划分方法下四种成分的校正集样品参考值范围均能包含独立验证集和验证集样品的参考值范围，符合建模要求。

最后应该说明的是，以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种用于光谱样品个性化校正集选择方法，其特征在于，所述选择方法包括：

对应的参考值为

2.如权利要求1所述的方法，其特征在于，所述步骤S2中，对光谱原始矩阵X异常值进行检测采用Hotelling T²法，对参考值矩阵Y异常值进行检测采用Boxplot方法。

3.如权利要求1所述的方法，其特征在于，所述步骤S3中，抽取样本方式为随机抽取。

4.如权利要求1所述的方法，其特征在于，所述步骤S4或S6中，样本之间的光谱相似度采用欧氏距离、马氏距离或相似度中的任一种进行计算。

5.如权利要求1所述的方法，其特征在于，所述步骤S5中，插值法使用三次样条插值法。

6.如权利要求1所述的方法，其特征在于，所述步骤S6还包括对校正集样品数量n取不同值的情况下，对每个验证集样品分别建模，基于模型性能优化n的取值。

7.如权利要求6所述的方法，其特征在于，建模方法包括多元回归分析、主成分回归分析和偏最小二乘回归分析法。

8.如权利要求7所述的方法，其特征在于，校正集和对应验证集样品数量的设置比例为不小于4:1。

9.权利要求1-8任一项所述用于光谱样品个性化校正集选择方法的建模方法，包括获取校正集相应的参考值矩阵，对于参考值矩阵中的每一参考值，分别与光谱矩阵进行关联建模。

10.如权利要求9所述建模方法，其特征在于，所述建模方法还包括：

基于验证集对模型参数进行优化；

基于独立验证集对模型性能进行评价；

优选的，所述方法还包括基于校正集、验证集和独立验证集对模型性能进行综合评价。