CN104949936A

CN104949936A - 基于优化偏最小二乘回归模型的样品成份测定方法

Info

Publication number: CN104949936A
Application number: CN201510405750.1A
Authority: CN
Inventors: 赵煜辉; 刘殿娟; 单鹏; 彭思龙
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-09-30
Anticipated expiration: 2035-07-13
Also published as: CN104949936B

Abstract

本发明公开了一种基于优化偏最小二乘回归模型的样品成份测定方法，它是以样品对近红外光谱数据和样品成份浓度数据作为训练数据集，在已有PLS的基础上对训练数据集进行训练，利用训练过程中的预测误差的变化情况来确定相应的潜变量，若新增潜变量降低预测精度，则把该潜变量对应的权值置为0，否则保持不变，继续测试后续潜变量以剔除使预测结果变差的潜变量所对应的相关项，从而实现了潜变量的优化选择，再结合待测样品的近红外光谱数据可生成与原有PLS不同的样品的得分向量和载荷，进而得到待测样品的成份浓度预测值。通过对多种不同样品的测试，本发明的方法与已有PLS算法相比，所得结果的预测根均方误差普遍更小，预测精度均有较大提高。

Description

基于优化偏最小二乘回归模型的样品成份测定方法

技术领域

本发明涉及一种样品成份测定方法，特别涉及一种基于优化偏最小二乘回归模型的样品成份测定方法。

背景技术

近些年，近红外光谱检测技术由于快速、无损、低成本等特性已广泛地应用于石油化工、食品行业、医药生物和环境检测等行业。红外光谱采集的理论基础是朗伯比尔定律(Lambert Beer Law)，即各物质的吸收在光谱上的表现为一种线性叠加方式。与传统的化学分析方法不同，近红外光谱分析是利用一组已知样品通过多元校正方法建立模型，然后对待测样品进行预测。

在多元校正方法中，偏最小二乘(PLS)回归是一种多因变量对多自变量的回归建模方法，可以较好的解决许多以往用普通多元回归无法解决的问题；并且就目前的发展看来，PLS是所有多元校正方法里对变量约束最少的方法，可以有效解决变量间的多重相关性问题，更适用于样本个数少于变量个数的情况。PLS由于上述特性在多元光谱校正建模中得到广泛应用。

作为多元统计数据分析方法，PLS于1983年由伍德和阿巴诺等人首次提出。近十年来，它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘为第二代回归分析方法。其重要性主要体现在以下几个方面：(1)PLS是一种多因变量对多自变量的回归建模方法；(2)PLS可以有效地结局多重共线性的问题，它利用对系统中的数据信息进行分解和筛选的方式，提取对因变量的解释性最强的综合变量，辨识系统中的信息与噪声，从而更好地克服变量多重相关性在系统建模中的不良作用；(3)PLS可以实现多种数据分析方法的综合应用,它综合了多元线性回归、主成分回归和典型相关回归的优点。

PLS方法是建立在X(自变量或光谱变量)与Y(因变量或化学变量)矩阵基础上的双线性模型，可以看作是由外部关系(即独立的X块和Y块)和内部关系(即两块间的联系)构成。PLS首先对X和Y矩阵进行分解，形成的外部关系模型为：

X = {TP}^{T} + E_{X} = Σ_{i = 1}^{A} t_{i} p_{i}^{T} + E_{X}

Y = {UQ}^{T} + F_{Y} = Σ_{i = 1}^{A} u_{i} q_{i}^{T} + F_{Y}

其中T和U分别为X和Y的得分矩阵；t_i和u_i分别为T和U中的第i个潜变量数的得分向量；P和Q分别为X和Y的载荷矩阵；p_i和q_i分别为P和Q中的第i个潜变量数的载荷向量；E_X和E_Y分别为X和Y的残差矩阵；A代表所抽取的潜变量的个数。

然后，PLS第二步是在潜变量空间T和U上一步形成的潜间变量空间(低维度空间)中，建立起X自变量的潜变量与因变量Y的潜变量之间的线性回归模型。潜变量空间中形成的内部关系模型可以间接反映自变量与因变量之间的关系，其式子如下：

U＝TV+E_U＝[b₁t₁,...,b_At_A]+E_U

其中矩阵V为回归系数矩阵，E_U为U的残差矩阵。

实际上，在用近红外光谱数据对偏最小二乘回归(Partial Least Squares Regression,PLSR)建模过程中，有些得分与预测结果成正相关，有些得分与预测结果成负相关。该算法中存在的问题：(1)潜变量可能对预测精度产生负面影响，即随着潜变量数在适当范围的增加，预测误差反而会上升，这样则无法对样品成分进行很好的标定；(2)在交叉验证过程中，有一些后续舍弃的潜变量会对样品成分的标定产生有益影响。

发明内容

本发明的目的在于，提供一种基于优化偏最小二乘回归模型的样品成份测定方法。它可以克服使用偏最小二乘回归方法对红外光谱数据进行建模时产生的负面影响，而且可以提高样品成份的测定精度。

本发明的技术方案：基于优化偏最小二乘回归模型的样品成份测定方法，其特点是，包括以下步骤：

S1.采集样品的近红外光谱数据和样品成分含量数据；

S2.在步骤S1采集的近红外光谱数据和成份含量数据的基础上，建立基于潜变量优化选择的偏最小二乘回归模型(以下简称LOPLSR)；

S3.采集未知样品的近红外光谱数据，用步骤S2建立的模型预测该未知样品的成分含量。

上述的基于优化偏最小二乘回归模型的样品成份测定方法中，所述步骤S2的具体方法是：

P1.在以样品对近红外光谱的吸光度为自变量矩阵X，相应地以样品的化学成份含量为应变量矩阵Y的基础上，把参与建模的数据集分为训练数据集和标定数据集

X_{c a} &Element; R^{n_{2} \times m}, Y_{c a} &Element; R^{n_{2} \times 1};

P2.利用偏最小二乘回归法建立模型后对训练数据集X_tr和Y_tr进行训练求得X_tr的投影矩阵W、得分矩阵T、载荷矩阵P，Y_tr的载荷矩阵Q、得分矩阵U，T和U内部关系的回归系数矩阵V，以及外部回归系数矩阵B，根据X_ca和得到Y_ca的预测值若新增潜变量数降低了预测值的预测精度，则权值置为0，否则置为1，继续测试后续潜变量数后得到关于权值的对角矩阵D，将W、T、P、Q、U和V分别与D相乘相应得到优化后的参数W_L、T_L、P_L、U_L、Q_L和V_L。

本发明的LOPLSR方法在训练过程中，把使预测误差下降的潜变量数对应的权值设置为1，是预测误差上升的权值设置为0。假如潜变量数i对应的潜变量与预测误差成负相关，则对角矩阵D的第i个对角元素d_i,i＝0，否则d_i,i＝1。根据以上的描述，可以得到LOPLSR建模过程的相关潜变量与PLSR过程中潜变量的关系，可具体表示为：

w_L,i＝d_i,iw_i

t_L,i＝d_i,it_i

p_L,i＝d_i,ip_i (1)

u_L,i＝d_i,iu_i

q_L,i＝d_i,iq_i

v_L,i＝d_i,iv_i

直至潜变量数迭代完毕，可以得到LOPLSR与PLSR参数之间的关系，参数W_L、T_L、P_L、U_L、Q_L和V_L的优化公式表示为：

其中，D就是LOPLSR求得的权值矩阵，

d_{i, i} = \{\begin{matrix} 1, & R M S E [i] \leq R M S E [i - 1] \\ 0, & R M S E [i] > R M S E [i - 1] \end{matrix} .

前述的基于优化偏最小二乘回归模型的样品成份测定方法中，所述步骤S3为：

通过采集待测样品对近红外光谱的吸光度作为待测数据集X_te，用投影矩阵W_L和载荷P_L，求得数据集X_new的得分矩阵T_p，然后根据V_L，求出Y_new的得分矩阵U_p，最后根据得到待测数据集X_te所对应的样品成份含量预测值

当新来数据集X_new、Y_new时，按照公式(2)和(3)对投影矩阵W_L和载荷P_L中的向量不断更新，求得数据集X_new的得分矩阵T_p，其计算公式如下：

t_p,1＝X_neww_L,1

t_p,2＝(X_new-t_p,1p_L,1 ^T)w_L,2

……

t_{p, i} = (X_{n e w} - t_{p, 1} p_{L, 1}^{T} - ... - t_{p, i - 1} {p_{L, i - 1}}^{T}) w_{L, i} - - - (8)

潜变量数执行完毕后，X_new的得分矩阵为

T_p＝[t_p,1,t_p,2,…t_p,A] (9)

根据LOPLSR中U_L与T_L的得分向量的内部关系V_L，可以求出Y_new的得分矩阵，可表示为

U_p＝[u_p,1,u_p,2,…,u_p,A] (10)

LOPLSR算法中用于预测求得的矩阵U_p和Q_L与原PLSR算法求得的U和Q的之间关系表示如下：

利用求得的U_p和Q_L对X_new样品浓度或成分进行预测，公式如下：

\begin{matrix} {\hat{Y}}_{t e} = U_{p} Q_{L}^{T} \\ = U D {(Q D)}^{T} \\ = Σ_{i = 1}^{m} u_{i} d_{i, i} {(q_{i} d_{i, i})}^{T} \end{matrix} - - - (13)

前述的基于优化偏最小二乘回归模型的样品成份测定方法中，本发明建立训练模型的具体方法可以是：

(1)把训练数据集X,Y分为训练集X_tr,Y_tr和标定集X_ca,Y_ca；

(2)初始化变量，E₀＝X_tr,F₀＝Y_tr；

(3)对潜变量数A进行循环，For i inA；

(4)设置第i个潜变量的权值，d_i,i＝1

(5)根据拉格朗日乘子法求得X_tr第i个潜变量数的权重向量，

w_{L, i} = d_{i, i} ({E_{i - 1}}^{T} F_{i - 1} / | | {E_{i - 1}}^{T} F_{i - 1} | |);

(6)提取X_tr的得分向量，t_L,i＝E_iw_L,i；

(7)计算X_tr的载荷，p_L,i＝(E_i-1 ^Tt_L,i)/(t_L,i ^Tt_L,i)；

(8)计算Y_tr的载荷，q_L,i＝(F_i-1 ^Tt_L,i)/(t_L,i ^Tt_L,i)；

(9)计算Y_tr的得分：u_L,i＝F_i-1q_L,i/(q_L,i ^Tq_L,i)；

(10)计算X_tr和Y_tr得分之间的关系：v_L,i＝u_L,i ^Tt_L,i/(u_L,i ^Tu_L,i)；

(11)把求得的w_L,i,p_L,i,q_L,i,v_L,i加入到

W_L＝[W_L,w_L,i],P_L＝[P_L,p_L,i],Q_L＝[Q_L,q_L,i]，V_L＝[V_L,v_L,i]；

(12)计算剩余残差，E_i＝E_i-1-t_L,ip_L,i ^T，F_i＝F_i-1-t_L,iq_L,i ^T；

(13)求得Y_ca的预测值

{\hat{Y}}_{c a} = X_{c a} (W_{L} {(P_{L}^{T} W_{L})}^{- 1} Q_{L}^{T});

(14)求Y_ca的预测均方根误差，

R M S E = \sqrt{{({\hat{Y}}_{c a} - Y_{c a})}^{T} ({\hat{Y}}_{c a} - Y_{c a}) / n_{2}}

(15)给r_min赋初值，If i＝1Then r_min＝RMSE；

(16)判断当前误差是否是最小值，If r_min≥RMSE Then r_min＝RMSE Else d_i,i＝0；

(17)循环结束后，得到权值矩阵D、P_L、Q_L、W_L和V_L。

在预测时，只要获取新样品的光谱矩阵X_new，可以由下式得到其相应的浓度预测值：

前述的基于优化偏最小二乘回归模型的样品成份测定方法中，建立偏最小二乘回归模型时，通过选取最优潜变量数以确保模型的质量(稳定性和精确度)；选取最优潜变量数量，就是选取pls回归模型的最重要参数，该参数决定模型的优劣，潜变量数量过多模型会出现过拟合，数量不足，模型会出现欠拟合，这点可以通过交叉验证误差来判定。

还包括最优潜变量数的选取：将训练数据集随机划分为训练集和校正集，利用K-fold交叉验证，将校正集X、Y平均分为k份，每一份轮流当做测试集，其余k-1份用作训练集，运用公式预测误差求得k个均方根误差RMSE，并求得k个个RMSE的均值，其中n₂测试集的行数；然后对每个潜变量均进行相同的K-fold交叉验证，分别求得每个潜变量所对应的RMSE的均值，以RMSE的均值最小的潜变量数为最优潜变量数。

交叉验证的目的是选择最优潜变量数，从而建立良好的校正模型。该算法原采用K折交叉验证的算法，但在本实验中，计算误差的方法与原来的方法有所差异，运用公式(14)进行计算rmse_i，K折交叉验证法得到的k个值取均值r，方法如下:

r = \frac{1}{k} Σ_{i = 1}^{k} {rmse}_{i} - - - (15)

为每一个潜变量数进行一次交叉验证得到一个均值，选取均值最小的潜变量数。

K折交叉验证的算法步骤为：

1.将训练数据集随机划分为训练集和校正集(可取3：1的比例，训练集的占总数比一般要大于50％)。

2.运用改进的基于潜变量优化的偏最小二乘回归算法对划分好数据集的校正集进行浓度或成分预测。

3.计算均方根误差。

4.跳转到步骤1，继续运行K-1次，每一次都得到一个均方根误差，这样将得到K个均方根误差；

5.求K个均方根误差的均值。

前述的基于优化偏最小二乘回归模型的样品成份测定方法中，作为优选，所述待测样品为有机物，相对而言，本发明的方法更适用于测定有机物的成份。

前述的基于优化偏最小二乘回归模型的样品成份测定方法中，作为最优方案，所述待测样品为肉类，本发明的方法在测定肉类成份时尤为精准。

前述的基于优化偏最小二乘回归模型的样品成份测定方法中，作为最优方案，所述待测样品为草，本发明的方法在草成份时也尤为精准。

与现有技术相比，本发明的方法在已有PLSR的基础上，利用训练过程中数据集的预测误差的变化情况，来确定相应的潜变量数。若新增潜变量数降低预测精度，则把该潜变量对应的权值设置为0，否则保持不变(权值为1)，继续测试后续潜变量以实现潜变量数的优化，在结合新来的待测样品近红外光谱数据时可生成与原有PLSR不同的样品的得分向量和载荷，从而得到待测样品的预测值。

从本质上来说，本发明的方法剔除了使预测结果变差的潜变量所对应的相关项，因此，大多数情况下，本模型预测精度更高。

通过对大量不同样本的实际测试，使用本发明的方法建模时，模型预测误差总体呈现下降趋势，模型能够克服过拟合现象。通过比较可发现，PLSR建立的模型的预测均方根误差大于本发明方法建模的，即本发明的方法得到的预测值更为接近实际值，也即本发明的预测方法相对更为精准。

如果以改进率h进行表示本发明的方法相对于PLSR方法的精度提高程度，则本发明的方法可以使精度普遍得到较大幅度的改善：

以草的试验例来说，本发明的方法在预测草中C、N和S含量时，改进率h分别可达24.9％、38.9％和53.6％。

而以肉的实验例来说，本发明的方法在预测肉中水、脂肪和蛋白质时，改进率h分别可达32.1％、21.1％和24.2％。

附图说明

图1是实验例1中Tecator(Water)最优潜变量数的选取过程；

图2是实验例1中Tecator(Water)训练误差比较；

图3是实验例1中Tecator(Water)PLS和LOPLS方法载荷选取情况对比；

图4是实验例1中Tecator(Water)预测误差比较；

图5是实验例1中Tecator(Fat)最优潜变量数的选取过程；

图6是实验例1中Tecator(Fat)训练误差比较；

图7是实验例1中Tecator(Fat)PLS和LOPLS方法载荷选取情况对比；

图8是实验例1中Tecator(Fat)预测误差比较；

图9是实验例1中Tecator(Protein)最优潜变量数的选取过程；

图10是实验例1中Tecator(Protein)训练误差比较；

图11是实验例1中Tecator(Protein)PLS和LOPLS方法载荷选取情况对比；

图12是实验例1中Tecator(Protein)预测误差比较；

图13是实验例2中Grass(C)最优潜变量数的选取过程；

图14是实验例2中Grass(C)训练误差比较；

图15是实验例2中Grass(C)PLS和LOPLS方法载荷选取情况对比；

图16是实验例2中Grass(C)预测误差比较；

图17是实验例2中Grass(N)最优潜变量数的选取过程；

图18是实验例2中Grass(N)训练误差比较；

图19是实验例2中Grass(N)PLS和本发明的LOPLS方法载荷选取情况对比；

图20是实验例2中Grass(N)预测误差比较；

图21是实验例2中Grass(S)最优潜变量数的选取过程；

图22是实验例2中Grass(S)训练误差比较；

图23是实验例2中Grass(S)PLS和本发明LOPLS方法载荷选取情况对比；

图24是实验例2中Grass(S)预测误差比较；

图25是本发明实施例的方法流程示意图。

具体实施方式

下面结合实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。对本发明所做的任何形式上的变通和/或改变都将落入本发明保护范围。

本发明的实施例：基于优化偏最小二乘回归模型的样品成份测定方法，如图25所示，包括以下步骤：

S1.采集样品的近红外光谱数据和样品成分含量数据；

S2.在步骤S1采集的近红外光谱数据和成份含量数据的基础上，建立基于优化偏最小二乘回归模型；

所述步骤S2的具体方法是：

X_{c a} &Element; R^{n_{2} \times m}, Y_{c a} &Element; R^{n_{2} \times 1};

P2.利用偏最小二乘回归法建立模型后对训练数据集X_tr和Y_tr进行训练求得X_tr的投影矩阵W、得分矩阵T、载荷矩阵P，Y_tr的载荷矩阵Q、得分矩阵U，T和U内部关系的回归系数矩阵V，以及回归系数矩阵B，根据X_ca和得到Y_ca的预测值若新增潜变量数降低了预测值的预测精度，则权值置为0，否则置为1，继续测试后续潜变量数后得到关于权值的对角矩阵D，将W、T、P、Q、U和V分别与D相乘相应得到优化后的参数W_L、T_L、P_L、U_L、Q_L和V_L。

所述步骤S3为：

建立偏最小二乘回归模型时，通过选取最优潜变量数以确保模型的质量；

其中括最优潜变量数的选取方法是：将训练数据集随机划分为训练集和校正集，利用K-fold交叉验证，将校正集X、Y平均分为k份，每一份轮流当做测试集，其余k-1份用作训练集，运用公式预测误差求得k个均方根误差RMSE，并求得k个个RMSE的均值，其中n₂测试集的行数；然后对每个潜变量均进行相同的K-fold交叉验证，分别求得每个潜变量所对应的RMSE的均值，以RMSE的均值最小的潜变量数为最优潜变量数。

所述待测样品为有机物，且对于肉类和草的测定尤为精确。

实验例1：测定肉类中的水分、脂肪和蛋白质的含量。

1.实验数据来源

Tecator为肉类的近红外透射光谱数据，共有240个样品，波长范围为850-1050nm，采样间隔为2nm。采集光谱的同时，采用标准的化学分析手段测得样品中的水分(Water)、脂肪含量(Fat)和蛋白质含量(Protein)。本实验中对样品集进行划分，得到训练样品为180个和测试样品为60个。

2.处理和对比方法

对于上述每一个训练集和测试集，我们分别采用PLS方法和本发明的方法(以下简称LOPLSR方法)进行校正。采用K折交叉验证分别为上述数据的PLSR和LOPLSR方法选取最好的主成分数，首先比较两种方法的训练误差，其次计算两种方法的预测均方根误差，最后，计算各数据集的LOPLSR方法相对PLSR的改进程度，采用改进率h进行表示：

h = 100 % - \frac{{RMSEP}_{L o P L S R}}{{RMSEP}_{P L S R}} .

3.实验结果与讨论

(1)最优潜变量数的选取

在PLSR和LOPLSR方法中，必不可少的是潜变量数的确定，选择合适的潜变量数，有利于建立一个稳定的准确的预测模型。若潜变量数的取值偏小，则会导致欠拟合现象，即模型没有达到最佳状态；若潜变量数的取值偏大，则会导致过拟合现象，即模型在达到最佳状态之后，又往坏的方向发展，这两种情况均不能达到很好的训练效果，由此可见，潜变量数的选取过程是至关重要的。我们采用10折交叉验证的方式来确定最优潜变量数，最大潜变量数(即最大主成分数)取为15。

最后确定Tecator的Water的PLSR和LOPLSR的最优潜变量数为15和15，Fat的PLSR和LOPLSR的最优潜变量数为15和15，Protein的PLSR和LOPLSR的最优潜变量数为14和15，选取过程分别如图1、图5和图9所示。

(2)训练误差比较

用PLS和LOPLSR方法分别处理Tecator样品数据并分别进行比较，其目的在于确定用训练数据建立的模型在潜变量数的范围内是否过拟合，训练误差的比较分别如图2、图6和图10所示。

结果表明，数据集Tecator在训练过程中模型总体呈现下降趋势，说明模型没有出现过拟合现象。在训练过程中，LOPLSR方法训练数据的得分和载荷与PLSR相比则发生了变化，具体的载荷变化情况如图3、图7和图11所示。表1则具体展示LOPLSR载荷随潜变量数的变化过程。

表1 LOPLSR载荷随潜变量数的变化过程

Datasets	Latent Variable Selection
		Tecator(Water)	1,2,3,4,5,6,7,8,9,10
Tecator(Fat)	1,2,3,4,5,6,9,11,12,13,14,15
		Tecator(Protein)	1,2,3,4,5,6,7,8,9,10,11,12

(3)预测误差的比较

根据前面数据选择的最优潜变量数，计算了Tecator测试数据的PLSR与LOPLSR的预测均方根误差，具体比较如图4、图8和图12所示。结果发现，两种方法的所得的预测值与真实值的比较点均在直线y＝x周围，而且LOPLSR方法比PLSR方法所得的预测结果更接近直线y＝x，说明LOPLSR方法可以更准确的预测数据，预测结果的对比如图4、图8和图12所示。PLSR与LOPLSR所得的各种测试数据表2所示。

表2 PLSR与LOPLSR预测结果的比较

其中RMSECV表示交叉验证过程中所有潜变量中最小的交叉验证误差；RMSEC表示模型训练过程中的误差；RMSEP表示模型训练结束后的预测误差。

通过计算PLSR与LOPLSR方法的预测根均方误差(RMSEP)来衡量对模型改进程度，由上表的PLSR和LOPLSR的预测结果，计算各数据集的LOPLSR方法相对PLSR的改进率h，其具体值如表3所示。

表3 LOPLSR相比PLSR的改进率

Tecator	Water	Fat	Protein
				h	32.1％	21.1％	24.2％

对于不同的数据集，LOPLSR的预测精度相比PLSR的都有所提高，其预测精度最低也提高了21.1％，因此本发明的方法相对于传统方法具有较为显著的优势。

实验例2：测定草中的碳、氮、硫的含量。

1.实验数据来源

Grass是草的近红外光谱反射数据，该数据集对草样品的1050个测量点进行标准化判别，数据集中包含141个草样品，光谱波长以2nm的间隔分布在1100-2498nm范围内。每个样品的属性包含碳、氮、硫，范围分别在29.6％到40.9％，1.1％到6.6％和0.3％到1.7％之间，相关的化学值通过LECO CNS-2000的碳、氮、硫分析仪测量得到。本实验中使用KS方法对样品集进行划分，得到训练样品为106个和测试样品为35个。

2.处理方法

对于上述每一个训练集和测试集，我们分别采用PLSR方法和本发明的方法(以下简称LOPLSR方法)进行校正。采用K折交叉验证分别为上述数据的PLSR和LOPLSR方法选取最好的主成分数，首先比较两种方法的训练误差，其次计算两种方法的预测均方根误差，最后，求得改进的LOPLSR方法比PLSR方法预测改进率。

3.实验结果与讨论

(1)最优潜变量数的选取

最后确定Grass的碳的PLSR和LOPLSR的最优潜变量数为14和12，氮的PLS和LOPLSR的最优潜变量数为15和14，硫的PLSR和LOPLSR的最优潜变量数为3和15，选取过程分别如图13、图17和图21所示。

(2)训练误差比较

用PLS和LOPLSR方法分别处理Grass样品数据并分别进行比较，其目的在于确定用训练数据建立的模型在潜变量数的范围内是否过拟合，训练误差的比较分别如图14、图18和图22所示。

结果表明，数据集Grass在训练过程中模型总体呈现下降趋势，说明模型没有出现过拟合现象。在训练过程中，LOPLSR方法训练数据的得分和载荷与PLSR相比则发生了变化，具体的载荷变化情况如图15、图19和图23所示。表1展现了LOPLSR各数据的得分和载荷存在的潜变量数。

表1 LOPLSR载荷随潜变量数的变化过程

Datasets	Latent Variable Selection
		Grass(C)	1,2,3,6,7,9,12,13
Grass(N)	1,2,3,4,5,6,7,8,9,11,12
		Grass(S)	1,2,3,4,5,6

(3)预测误差的比较

根据前面数据选择的最优潜变量数，计算了Grass测试数据的PLSR与LOPLSR的预测均方根误差，具体比较如图16至22所示。结果发现，两种方法的所得的预测值与真实值的比较点均在直线y＝x周围，而且LOPLSR方法比PLS方法所得的预测结果更接近直线y＝x，说明LOPLSR方法可以更准确的预测数据。预测结果对比如图16、图20和图24所示。PLSR与LOPLSR所得的各种测试数据表2所示。

表2PLSR与LOPLSR预测结果的比较

通过计算PLSR与LOPLSR方法的预测根均方误差(RMSEP)来衡量对模型改进程度，由上表的PLSR和LOPLSR的预测结果，计算各数据集的LOPLSR方法相对PLSR的改进程率h的具体值如表3所示。

表3 LOPLSR相比PLSR的改进率

Grass	C	N	S
				h	24.9％	38.9％	53.6％

对于不同样品的数据集，LOPLSR的预测精度相比PLSR的都有所提高，其预测精度最低提高了24.9％，因此本发明的方法相对于传统方法具有较为显著的优势。

Claims

1.基于优化偏最小二乘回归模型的样品成份测定方法，其特征在于，包括以下步骤：

S1.采集样品的近红外光谱数据和样品成分含量数据；

S2.在步骤S1采集的近红外光谱数据和成份含量数据的基础上，建立基于潜变量优化选择的偏最小二乘回归模型；

S3.采集待测的未知样品的近红外光谱数据，用步骤S2建立的模型预测该未知样品的成分含量。

2.根据权利要求1所述的基于优化偏最小二乘回归模型的样品成份测定方法，其特征在于，所述步骤S2的具体方法是：

X_{c a} &Element; R^{n_{2} \times m},

Y_{c a} &Element; R^{n_{2} \times 1};

3.根据权利要求2所述的基于优化偏最小二乘回归模型的样品成份测定方法，其特征在于，所述步骤S3为：

通过采集待测的未知样品对近红外光谱的吸光度作为待测数据集X_te，用步骤P2中求得的投影矩阵W_L和载荷P_L，求得数据集X_new的得分矩阵T_p，然后根据V_L，求出Y_new的得分矩阵U_p，最后根据得到待测数据集X_te所对应的样品成份含量预测值

4.根据权利要求1所述的基于优化偏最小二乘回归模型的样品成份测定方法，其特征在于：

其中最优潜变量数的选取方法是：将训练数据集随机划分为训练集和校正集，利用K-fold交叉验证，将校正集X、Y平均分为k份，每一份轮流当做测试集，其余k-1份用作训练集，运用公式预测误差求得k个均方根误差RMSE，并求得k个个均方根误差RMSE的均值，其中n₂测试集的样本数；然后对每个潜变量均进行相同的K-fold交叉验证，分别求得每个潜变量所对应的均方根误差RMSE的均值，以对应均方根误差RMSE的均值最小的潜变量数为最优潜变量数。

5.根据权利要求1所述的基于优化偏最小二乘回归模型的样品成份测定方法，其特征在于：所述待测的未知样品为有机物。

6.根据权利要求5所述的基于优化偏最小二乘回归模型的样品成份测定方法，其特征在于：所述待测的未知样品为肉类。

7.根据权利要求5所述的基于优化偏最小二乘回归模型的样品成份测定方法，其特征在于：所述待测的未知样品为草。