CN104949936A - 基于优化偏最小二乘回归模型的样品成份测定方法 - Google Patents

基于优化偏最小二乘回归模型的样品成份测定方法 Download PDF

Info

Publication number
CN104949936A
CN104949936A CN201510405750.1A CN201510405750A CN104949936A CN 104949936 A CN104949936 A CN 104949936A CN 201510405750 A CN201510405750 A CN 201510405750A CN 104949936 A CN104949936 A CN 104949936A
Authority
CN
China
Prior art keywords
latent variable
sample
matrix
squares regression
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510405750.1A
Other languages
English (en)
Other versions
CN104949936B (zh
Inventor
赵煜辉
刘殿娟
单鹏
彭思龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201510405750.1A priority Critical patent/CN104949936B/zh
Publication of CN104949936A publication Critical patent/CN104949936A/zh
Application granted granted Critical
Publication of CN104949936B publication Critical patent/CN104949936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于优化偏最小二乘回归模型的样品成份测定方法,它是以样品对近红外光谱数据和样品成份浓度数据作为训练数据集,在已有PLS的基础上对训练数据集进行训练,利用训练过程中的预测误差的变化情况来确定相应的潜变量,若新增潜变量降低预测精度,则把该潜变量对应的权值置为0,否则保持不变,继续测试后续潜变量以剔除使预测结果变差的潜变量所对应的相关项,从而实现了潜变量的优化选择,再结合待测样品的近红外光谱数据可生成与原有PLS不同的样品的得分向量和载荷,进而得到待测样品的成份浓度预测值。通过对多种不同样品的测试,本发明的方法与已有PLS算法相比,所得结果的预测根均方误差普遍更小,预测精度均有较大提高。

Description

基于优化偏最小二乘回归模型的样品成份测定方法
技术领域
本发明涉及一种样品成份测定方法,特别涉及一种基于优化偏最小二乘回归模型的样品成份测定方法。
背景技术
近些年,近红外光谱检测技术由于快速、无损、低成本等特性已广泛地应用于石油化工、食品行业、医药生物和环境检测等行业。红外光谱采集的理论基础是朗伯比尔定律(Lambert Beer Law),即各物质的吸收在光谱上的表现为一种线性叠加方式。与传统的化学分析方法不同,近红外光谱分析是利用一组已知样品通过多元校正方法建立模型,然后对待测样品进行预测。
在多元校正方法中,偏最小二乘(PLS)回归是一种多因变量对多自变量的回归建模方法,可以较好的解决许多以往用普通多元回归无法解决的问题;并且就目前的发展看来,PLS是所有多元校正方法里对变量约束最少的方法,可以有效解决变量间的多重相关性问题,更适用于样本个数少于变量个数的情况。PLS由于上述特性在多元光谱校正建模中得到广泛应用。
作为多元统计数据分析方法,PLS于1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘为第二代回归分析方法。其重要性主要体现在以下几个方面:(1)PLS是一种多因变量对多自变量的回归建模方法;(2)PLS可以有效地结局多重共线性的问题,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用;(3)PLS可以实现多种数据分析方法的综合应用,它综合了多元线性回归、主成分回归和典型相关回归的优点。
PLS方法是建立在X(自变量或光谱变量)与Y(因变量或化学变量)矩阵基础上的双线性模型,可以看作是由外部关系(即独立的X块和Y块)和内部关系(即两块间的联系)构成。PLS首先对X和Y矩阵进行分解,形成的外部关系模型为:
X = TP T + E X = Σ i = 1 A t i p i T + E X
Y = UQ T + F Y = Σ i = 1 A u i q i T + F Y
其中T和U分别为X和Y的得分矩阵;ti和ui分别为T和U中的第i个潜变量数的得分向量;P和Q分别为X和Y的载荷矩阵;pi和qi分别为P和Q中的第i个潜变量数的载荷向量;EX和EY分别为X和Y的残差矩阵;A代表所抽取的潜变量的个数。
然后,PLS第二步是在潜变量空间T和U上一步形成的潜间变量空间(低维度空间)中,建立起X自变量的潜变量与因变量Y的潜变量之间的线性回归模型。潜变量空间中形成的内部关系模型可以间接反映自变量与因变量之间的关系,其式子如下:
U=TV+EU=[b1t1,...,bAtA]+EU
其中矩阵V为回归系数矩阵,EU为U的残差矩阵。
实际上,在用近红外光谱数据对偏最小二乘回归(Partial Least Squares Regression,PLSR)建模过程中,有些得分与预测结果成正相关,有些得分与预测结果成负相关。该算法中存在的问题:(1)潜变量可能对预测精度产生负面影响,即随着潜变量数在适当范围的增加,预测误差反而会上升,这样则无法对样品成分进行很好的标定;(2)在交叉验证过程中,有一些后续舍弃的潜变量会对样品成分的标定产生有益影响。
发明内容
本发明的目的在于,提供一种基于优化偏最小二乘回归模型的样品成份测定方法。它可以克服使用偏最小二乘回归方法对红外光谱数据进行建模时产生的负面影响,而且可以提高样品成份的测定精度。
本发明的技术方案:基于优化偏最小二乘回归模型的样品成份测定方法,其特点是,包括以下步骤:
S1.采集样品的近红外光谱数据和样品成分含量数据;
S2.在步骤S1采集的近红外光谱数据和成份含量数据的基础上,建立基于潜变量优化选择的偏最小二乘回归模型(以下简称LOPLSR);
S3.采集未知样品的近红外光谱数据,用步骤S2建立的模型预测该未知样品的成分含量。
上述的基于优化偏最小二乘回归模型的样品成份测定方法中,所述步骤S2的具体方法是:
P1.在以样品对近红外光谱的吸光度为自变量矩阵X,相应地以样品的化学成份含量为应变量矩阵Y的基础上,把参与建模的数据集分为训练数据集和标定数据集 X c a ∈ R n 2 × m , Y c a ∈ R n 2 × 1 ;
P2.利用偏最小二乘回归法建立模型后对训练数据集Xtr和Ytr进行训练求得Xtr的投影矩阵W、得分矩阵T、载荷矩阵P,Ytr的载荷矩阵Q、得分矩阵U,T和U内部关系的回归系数矩阵V,以及外部回归系数矩阵B,根据Xca得到Yca的预测值若新增潜变量数降低了预测值的预测精度,则权值置为0,否则置为1,继续测试后续潜变量数后得到关于权值的对角矩阵D,将W、T、P、Q、U和V分别与D相乘相应得到优化后的参数WL、TL、PL、UL、QL和VL
本发明的LOPLSR方法在训练过程中,把使预测误差下降的潜变量数对应的权值设置为1,是预测误差上升的权值设置为0。假如潜变量数i对应的潜变量与预测误差成负相关,则对角矩阵D的第i个对角元素di,i=0,否则di,i=1。根据以上的描述,可以得到LOPLSR建模过程的相关潜变量与PLSR过程中潜变量的关系,可具体表示为:
wL,i=di,iwi
tL,i=di,iti
pL,i=di,ipi       (1)
uL,i=di,iui
qL,i=di,iqi
vL,i=di,ivi
直至潜变量数迭代完毕,可以得到LOPLSR与PLSR参数之间的关系,参数WL、TL、PL、UL、QL和VL的优化公式表示为:
其中,D就是LOPLSR求得的权值矩阵, d i , i = 1 , R M S E [ i ] ≤ R M S E [ i - 1 ] 0 , R M S E [ i ] > R M S E [ i - 1 ] .
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,所述步骤S3为:
通过采集待测样品对近红外光谱的吸光度作为待测数据集Xte,用投影矩阵WL和载荷PL,求得数据集Xnew的得分矩阵Tp,然后根据VL,求出Ynew的得分矩阵Up,最后根据得到待测数据集Xte所对应的样品成份含量预测值
当新来数据集Xnew、Ynew时,按照公式(2)和(3)对投影矩阵WL和载荷PL中的向量不断更新,求得数据集Xnew的得分矩阵Tp,其计算公式如下:
tp,1=XnewwL,1
tp,2=(Xnew-tp,1pL,1 T)wL,2
……
t p , i = ( X n e w - t p , 1 p L , 1 T - ... - t p , i - 1 p L , i - 1 T ) w L , i - - - ( 8 )
潜变量数执行完毕后,Xnew的得分矩阵为
Tp=[tp,1,tp,2,…tp,A]         (9)
根据LOPLSR中UL与TL的得分向量的内部关系VL,可以求出Ynew的得分矩阵,可表示为
Up=[up,1,up,2,…,up,A]         (10)
LOPLSR算法中用于预测求得的矩阵Up和QL与原PLSR算法求得的U和Q的之间关系表示如下:
利用求得的Up和QL对Xnew样品浓度或成分进行预测,公式如下:
Y ^ t e = U p Q L T = U D ( Q D ) T = Σ i = 1 m u i d i , i ( q i d i , i ) T - - - ( 13 )
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,本发明建立训练模型的具体方法可以是:
(1)把训练数据集X,Y分为训练集Xtr,Ytr和标定集Xca,Yca
(2)初始化变量,E0=Xtr,F0=Ytr
(3)对潜变量数A进行循环,For i inA;
(4)设置第i个潜变量的权值,di,i=1
(5)根据拉格朗日乘子法求得Xtr第i个潜变量数的权重向量,
w L , i = d i , i ( E i - 1 T F i - 1 / | | E i - 1 T F i - 1 | | ) ;
(6)提取Xtr的得分向量,tL,i=EiwL,i
(7)计算Xtr的载荷,pL,i=(Ei-1 TtL,i)/(tL,i TtL,i);
(8)计算Ytr的载荷,qL,i=(Fi-1 TtL,i)/(tL,i TtL,i);
(9)计算Ytr的得分:uL,i=Fi-1qL,i/(qL,i TqL,i);
(10)计算Xtr和Ytr得分之间的关系:vL,i=uL,i TtL,i/(uL,i TuL,i);
(11)把求得的wL,i,pL,i,qL,i,vL,i加入到
WL=[WL,wL,i],PL=[PL,pL,i],QL=[QL,qL,i],VL=[VL,vL,i];
(12)计算剩余残差,Ei=Ei-1-tL,ipL,i T,Fi=Fi-1-tL,iqL,i T
(13)求得Yca的预测值 Y ^ c a = X c a ( W L ( P L T W L ) - 1 Q L T ) ;
(14)求Yca的预测均方根误差, R M S E = ( Y ^ c a - Y c a ) T ( Y ^ c a - Y c a ) / n 2
(15)给rmin赋初值,If i=1Then rmin=RMSE;
(16)判断当前误差是否是最小值,If rmin≥RMSE Then rmin=RMSE Else di,i=0;
(17)循环结束后,得到权值矩阵D、PL、QL、WL和VL
在预测时,只要获取新样品的光谱矩阵Xnew,可以由下式得到其相应的浓度预测值:
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,建立偏最小二乘回归模型时,通过选取最优潜变量数以确保模型的质量(稳定性和精确度);选取最优潜变量数量,就是选取pls回归模型的最重要参数,该参数决定模型的优劣,潜变量数量过多模型会出现过拟合,数量不足,模型会出现欠拟合,这点可以通过交叉验证误差来判定。
还包括最优潜变量数的选取:将训练数据集随机划分为训练集和校正集,利用K-fold交叉验证,将校正集X、Y平均分为k份,每一份轮流当做测试集,其余k-1份用作训练集,运用公式预测误差求得k个均方根误差RMSE,并求得k个个RMSE的均值,其中n2测试集的行数;然后对每个潜变量均进行相同的K-fold交叉验证,分别求得每个潜变量所对应的RMSE的均值,以RMSE的均值最小的潜变量数为最优潜变量数。
交叉验证的目的是选择最优潜变量数,从而建立良好的校正模型。该算法原采用K折交叉验证的算法,但在本实验中,计算误差的方法与原来的方法有所差异,运用公式(14)进行计算rmsei,K折交叉验证法得到的k个值取均值r,方法如下:
r = 1 k Σ i = 1 k rmse i - - - ( 15 )
为每一个潜变量数进行一次交叉验证得到一个均值,选取均值最小的潜变量数。
K折交叉验证的算法步骤为:
1.将训练数据集随机划分为训练集和校正集(可取3:1的比例,训练集的占总数比一般要大于50%)。
2.运用改进的基于潜变量优化的偏最小二乘回归算法对划分好数据集的校正集进行浓度或成分预测。
3.计算均方根误差。
4.跳转到步骤1,继续运行K-1次,每一次都得到一个均方根误差,这样将得到K个均方根误差;
5.求K个均方根误差的均值。
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,作为优选,所述待测样品为有机物,相对而言,本发明的方法更适用于测定有机物的成份。
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,作为最优方案,所述待测样品为肉类,本发明的方法在测定肉类成份时尤为精准。
前述的基于优化偏最小二乘回归模型的样品成份测定方法中,作为最优方案,所述待测样品为草,本发明的方法在草成份时也尤为精准。
与现有技术相比,本发明的方法在已有PLSR的基础上,利用训练过程中数据集的预测误差的变化情况,来确定相应的潜变量数。若新增潜变量数降低预测精度,则把该潜变量对应的权值设置为0,否则保持不变(权值为1),继续测试后续潜变量以实现潜变量数的优化,在结合新来的待测样品近红外光谱数据时可生成与原有PLSR不同的样品的得分向量和载荷,从而得到待测样品的预测值。
从本质上来说,本发明的方法剔除了使预测结果变差的潜变量所对应的相关项,因此,大多数情况下,本模型预测精度更高。
通过对大量不同样本的实际测试,使用本发明的方法建模时,模型预测误差总体呈现下降趋势,模型能够克服过拟合现象。通过比较可发现,PLSR建立的模型的预测均方根误差大于本发明方法建模的,即本发明的方法得到的预测值更为接近实际值,也即本发明的预测方法相对更为精准。
如果以改进率h进行表示本发明的方法相对于PLSR方法的精度提高程度,则本发明的方法可以使精度普遍得到较大幅度的改善:
以草的试验例来说,本发明的方法在预测草中C、N和S含量时,改进率h分别可达24.9%、38.9%和53.6%。
而以肉的实验例来说,本发明的方法在预测肉中水、脂肪和蛋白质时,改进率h分别可达32.1%、21.1%和24.2%。
附图说明
图1是实验例1中Tecator(Water)最优潜变量数的选取过程;
图2是实验例1中Tecator(Water)训练误差比较;
图3是实验例1中Tecator(Water)PLS和LOPLS方法载荷选取情况对比;
图4是实验例1中Tecator(Water)预测误差比较;
图5是实验例1中Tecator(Fat)最优潜变量数的选取过程;
图6是实验例1中Tecator(Fat)训练误差比较;
图7是实验例1中Tecator(Fat)PLS和LOPLS方法载荷选取情况对比;
图8是实验例1中Tecator(Fat)预测误差比较;
图9是实验例1中Tecator(Protein)最优潜变量数的选取过程;
图10是实验例1中Tecator(Protein)训练误差比较;
图11是实验例1中Tecator(Protein)PLS和LOPLS方法载荷选取情况对比;
图12是实验例1中Tecator(Protein)预测误差比较;
图13是实验例2中Grass(C)最优潜变量数的选取过程;
图14是实验例2中Grass(C)训练误差比较;
图15是实验例2中Grass(C)PLS和LOPLS方法载荷选取情况对比;
图16是实验例2中Grass(C)预测误差比较;
图17是实验例2中Grass(N)最优潜变量数的选取过程;
图18是实验例2中Grass(N)训练误差比较;
图19是实验例2中Grass(N)PLS和本发明的LOPLS方法载荷选取情况对比;
图20是实验例2中Grass(N)预测误差比较;
图21是实验例2中Grass(S)最优潜变量数的选取过程;
图22是实验例2中Grass(S)训练误差比较;
图23是实验例2中Grass(S)PLS和本发明LOPLS方法载荷选取情况对比;
图24是实验例2中Grass(S)预测误差比较;
图25是本发明实施例的方法流程示意图。
具体实施方式
下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。对本发明所做的任何形式上的变通和/或改变都将落入本发明保护范围。
本发明的实施例:基于优化偏最小二乘回归模型的样品成份测定方法,如图25所示,包括以下步骤:
S1.采集样品的近红外光谱数据和样品成分含量数据;
S2.在步骤S1采集的近红外光谱数据和成份含量数据的基础上,建立基于优化偏最小二乘回归模型;
S3.采集未知样品的近红外光谱数据,用步骤S2建立的模型预测该未知样品的成分含量。
所述步骤S2的具体方法是:
P1.在以样品对近红外光谱的吸光度为自变量矩阵X,相应地以样品的化学成份含量为应变量矩阵Y的基础上,把参与建模的数据集分为训练数据集和标定数据集 X c a ∈ R n 2 × m , Y c a ∈ R n 2 × 1 ;
P2.利用偏最小二乘回归法建立模型后对训练数据集Xtr和Ytr进行训练求得Xtr的投影矩阵W、得分矩阵T、载荷矩阵P,Ytr的载荷矩阵Q、得分矩阵U,T和U内部关系的回归系数矩阵V,以及回归系数矩阵B,根据Xca得到Yca的预测值若新增潜变量数降低了预测值的预测精度,则权值置为0,否则置为1,继续测试后续潜变量数后得到关于权值的对角矩阵D,将W、T、P、Q、U和V分别与D相乘相应得到优化后的参数WL、TL、PL、UL、QL和VL
所述步骤S3为:
通过采集待测样品对近红外光谱的吸光度作为待测数据集Xte,用投影矩阵WL和载荷PL,求得数据集Xnew的得分矩阵Tp,然后根据VL,求出Ynew的得分矩阵Up,最后根据得到待测数据集Xte所对应的样品成份含量预测值
建立偏最小二乘回归模型时,通过选取最优潜变量数以确保模型的质量;
其中括最优潜变量数的选取方法是:将训练数据集随机划分为训练集和校正集,利用K-fold交叉验证,将校正集X、Y平均分为k份,每一份轮流当做测试集,其余k-1份用作训练集,运用公式预测误差求得k个均方根误差RMSE,并求得k个个RMSE的均值,其中n2测试集的行数;然后对每个潜变量均进行相同的K-fold交叉验证,分别求得每个潜变量所对应的RMSE的均值,以RMSE的均值最小的潜变量数为最优潜变量数。
所述待测样品为有机物,且对于肉类和草的测定尤为精确。
实验例1:测定肉类中的水分、脂肪和蛋白质的含量。
1.实验数据来源
Tecator为肉类的近红外透射光谱数据,共有240个样品,波长范围为850-1050nm,采样间隔为2nm。采集光谱的同时,采用标准的化学分析手段测得样品中的水分(Water)、脂肪含量(Fat)和蛋白质含量(Protein)。本实验中对样品集进行划分,得到训练样品为180个和测试样品为60个。
2.处理和对比方法
对于上述每一个训练集和测试集,我们分别采用PLS方法和本发明的方法(以下简称LOPLSR方法)进行校正。采用K折交叉验证分别为上述数据的PLSR和LOPLSR方法选取最好的主成分数,首先比较两种方法的训练误差,其次计算两种方法的预测均方根误差,最后,计算各数据集的LOPLSR方法相对PLSR的改进程度,采用改进率h进行表示:
h = 100 % - RMSEP L o P L S R RMSEP P L S R .
3.实验结果与讨论
(1)最优潜变量数的选取
在PLSR和LOPLSR方法中,必不可少的是潜变量数的确定,选择合适的潜变量数,有利于建立一个稳定的准确的预测模型。若潜变量数的取值偏小,则会导致欠拟合现象,即模型没有达到最佳状态;若潜变量数的取值偏大,则会导致过拟合现象,即模型在达到最佳状态之后,又往坏的方向发展,这两种情况均不能达到很好的训练效果,由此可见,潜变量数的选取过程是至关重要的。我们采用10折交叉验证的方式来确定最优潜变量数,最大潜变量数(即最大主成分数)取为15。
最后确定Tecator的Water的PLSR和LOPLSR的最优潜变量数为15和15,Fat的PLSR和LOPLSR的最优潜变量数为15和15,Protein的PLSR和LOPLSR的最优潜变量数为14和15,选取过程分别如图1、图5和图9所示。
(2)训练误差比较
用PLS和LOPLSR方法分别处理Tecator样品数据并分别进行比较,其目的在于确定用训练数据建立的模型在潜变量数的范围内是否过拟合,训练误差的比较分别如图2、图6和图10所示。
结果表明,数据集Tecator在训练过程中模型总体呈现下降趋势,说明模型没有出现过拟合现象。在训练过程中,LOPLSR方法训练数据的得分和载荷与PLSR相比则发生了变化,具体的载荷变化情况如图3、图7和图11所示。表1则具体展示LOPLSR载荷随潜变量数的变化过程。
表1 LOPLSR载荷随潜变量数的变化过程
Datasets Latent Variable Selection
Tecator(Water) 1,2,3,4,5,6,7,8,9,10
Tecator(Fat) 1,2,3,4,5,6,9,11,12,13,14,15
Tecator(Protein) 1,2,3,4,5,6,7,8,9,10,11,12
(3)预测误差的比较
根据前面数据选择的最优潜变量数,计算了Tecator测试数据的PLSR与LOPLSR的预测均方根误差,具体比较如图4、图8和图12所示。结果发现,两种方法的所得的预测值与真实值的比较点均在直线y=x周围,而且LOPLSR方法比PLSR方法所得的预测结果更接近直线y=x,说明LOPLSR方法可以更准确的预测数据,预测结果的对比如图4、图8和图12所示。PLSR与LOPLSR所得的各种测试数据表2所示。
表2 PLSR与LOPLSR预测结果的比较
其中RMSECV表示交叉验证过程中所有潜变量中最小的交叉验证误差;RMSEC表示模型训练过程中的误差;RMSEP表示模型训练结束后的预测误差。
通过计算PLSR与LOPLSR方法的预测根均方误差(RMSEP)来衡量对模型改进程度,由上表的PLSR和LOPLSR的预测结果,计算各数据集的LOPLSR方法相对PLSR的改进率h,其具体值如表3所示。
表3 LOPLSR相比PLSR的改进率
Tecator Water Fat Protein
h 32.1% 21.1% 24.2%
对于不同的数据集,LOPLSR的预测精度相比PLSR的都有所提高,其预测精度最低也提高了21.1%,因此本发明的方法相对于传统方法具有较为显著的优势。
实验例2:测定草中的碳、氮、硫的含量。
1.实验数据来源
Grass是草的近红外光谱反射数据,该数据集对草样品的1050个测量点进行标准化判别,数据集中包含141个草样品,光谱波长以2nm的间隔分布在1100-2498nm范围内。每个样品的属性包含碳、氮、硫,范围分别在29.6%到40.9%,1.1%到6.6%和0.3%到1.7%之间,相关的化学值通过LECO CNS-2000的碳、氮、硫分析仪测量得到。本实验中使用KS方法对样品集进行划分,得到训练样品为106个和测试样品为35个。
2.处理方法
对于上述每一个训练集和测试集,我们分别采用PLSR方法和本发明的方法(以下简称LOPLSR方法)进行校正。采用K折交叉验证分别为上述数据的PLSR和LOPLSR方法选取最好的主成分数,首先比较两种方法的训练误差,其次计算两种方法的预测均方根误差,最后,求得改进的LOPLSR方法比PLSR方法预测改进率。
3.实验结果与讨论
(1)最优潜变量数的选取
在PLSR和LOPLSR方法中,必不可少的是潜变量数的确定,选择合适的潜变量数,有利于建立一个稳定的准确的预测模型。若潜变量数的取值偏小,则会导致欠拟合现象,即模型没有达到最佳状态;若潜变量数的取值偏大,则会导致过拟合现象,即模型在达到最佳状态之后,又往坏的方向发展,这两种情况均不能达到很好的训练效果,由此可见,潜变量数的选取过程是至关重要的。我们采用10折交叉验证的方式来确定最优潜变量数,最大潜变量数(即最大主成分数)取为15。
最后确定Grass的碳的PLSR和LOPLSR的最优潜变量数为14和12,氮的PLS和LOPLSR的最优潜变量数为15和14,硫的PLSR和LOPLSR的最优潜变量数为3和15,选取过程分别如图13、图17和图21所示。
(2)训练误差比较
用PLS和LOPLSR方法分别处理Grass样品数据并分别进行比较,其目的在于确定用训练数据建立的模型在潜变量数的范围内是否过拟合,训练误差的比较分别如图14、图18和图22所示。
结果表明,数据集Grass在训练过程中模型总体呈现下降趋势,说明模型没有出现过拟合现象。在训练过程中,LOPLSR方法训练数据的得分和载荷与PLSR相比则发生了变化,具体的载荷变化情况如图15、图19和图23所示。表1展现了LOPLSR各数据的得分和载荷存在的潜变量数。
表1 LOPLSR载荷随潜变量数的变化过程
Datasets Latent Variable Selection
Grass(C) 1,2,3,6,7,9,12,13
Grass(N) 1,2,3,4,5,6,7,8,9,11,12
Grass(S) 1,2,3,4,5,6
(3)预测误差的比较
根据前面数据选择的最优潜变量数,计算了Grass测试数据的PLSR与LOPLSR的预测均方根误差,具体比较如图16至22所示。结果发现,两种方法的所得的预测值与真实值的比较点均在直线y=x周围,而且LOPLSR方法比PLS方法所得的预测结果更接近直线y=x,说明LOPLSR方法可以更准确的预测数据。预测结果对比如图16、图20和图24所示。PLSR与LOPLSR所得的各种测试数据表2所示。
表2PLSR与LOPLSR预测结果的比较
其中RMSECV表示交叉验证过程中所有潜变量中最小的交叉验证误差;RMSEC表示模型训练过程中的误差;RMSEP表示模型训练结束后的预测误差。
通过计算PLSR与LOPLSR方法的预测根均方误差(RMSEP)来衡量对模型改进程度,由上表的PLSR和LOPLSR的预测结果,计算各数据集的LOPLSR方法相对PLSR的改进程率h的具体值如表3所示。
表3 LOPLSR相比PLSR的改进率
Grass C N S
h 24.9% 38.9% 53.6%
对于不同样品的数据集,LOPLSR的预测精度相比PLSR的都有所提高,其预测精度最低提高了24.9%,因此本发明的方法相对于传统方法具有较为显著的优势。

Claims (7)

1.基于优化偏最小二乘回归模型的样品成份测定方法,其特征在于,包括以下步骤:
S1.采集样品的近红外光谱数据和样品成分含量数据;
S2.在步骤S1采集的近红外光谱数据和成份含量数据的基础上,建立基于潜变量优化选择的偏最小二乘回归模型;
S3.采集待测的未知样品的近红外光谱数据,用步骤S2建立的模型预测该未知样品的成分含量。
2.根据权利要求1所述的基于优化偏最小二乘回归模型的样品成份测定方法,其特征在于,所述步骤S2的具体方法是:
P1.在以样品对近红外光谱的吸光度为自变量矩阵X,相应地以样品的化学成份含量为应变量矩阵Y的基础上,把参与建模的数据集分为训练数据集 和标定数据集 X c a ∈ R n 2 × m , Y c a ∈ R n 2 × 1 ;
P2.利用偏最小二乘回归法建立模型后对训练数据集Xtr和Ytr进行训练求得Xtr的投影矩阵W、得分矩阵T、载荷矩阵P,Ytr的载荷矩阵Q、得分矩阵U,T和U内部关系的回归系数矩阵V,以及外部回归系数矩阵B,根据Xca得到Yca的预测值若新增潜变量数降低了预测值的预测精度,则权值置为0,否则置为1,继续测试后续潜变量数后得到关于权值的对角矩阵D,将W、T、P、Q、U和V分别与D相乘相应得到优化后的参数WL、TL、PL、UL、QL和VL
3.根据权利要求2所述的基于优化偏最小二乘回归模型的样品成份测定方法,其特征在于,所述步骤S3为:
通过采集待测的未知样品对近红外光谱的吸光度作为待测数据集Xte,用步骤P2中求得的投影矩阵WL和载荷PL,求得数据集Xnew的得分矩阵Tp,然后根据VL,求出Ynew的得分矩阵Up,最后根据得到待测数据集Xte所对应的样品成份含量预测值
4.根据权利要求1所述的基于优化偏最小二乘回归模型的样品成份测定方法,其特征在于:
建立偏最小二乘回归模型时,通过选取最优潜变量数以确保模型的质量;
其中最优潜变量数的选取方法是:将训练数据集随机划分为训练集和校正集,利用K-fold交叉验证,将校正集X、Y平均分为k份,每一份轮流当做测试集,其余k-1份用作训练集,运用公式预测误差求得k个均方根误差RMSE,并求得k个个均方根误差RMSE的均值,其中n2测试集的样本数;然后对每个潜变量均进行相同的K-fold交叉验证,分别求得每个潜变量所对应的均方根误差RMSE的均值,以对应均方根误差RMSE的均值最小的潜变量数为最优潜变量数。
5.根据权利要求1所述的基于优化偏最小二乘回归模型的样品成份测定方法,其特征在于:所述待测的未知样品为有机物。
6.根据权利要求5所述的基于优化偏最小二乘回归模型的样品成份测定方法,其特征在于:所述待测的未知样品为肉类。
7.根据权利要求5所述的基于优化偏最小二乘回归模型的样品成份测定方法,其特征在于:所述待测的未知样品为草。
CN201510405750.1A 2015-07-13 2015-07-13 基于优化偏最小二乘回归模型的样品成份测定方法 Active CN104949936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510405750.1A CN104949936B (zh) 2015-07-13 2015-07-13 基于优化偏最小二乘回归模型的样品成份测定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510405750.1A CN104949936B (zh) 2015-07-13 2015-07-13 基于优化偏最小二乘回归模型的样品成份测定方法

Publications (2)

Publication Number Publication Date
CN104949936A true CN104949936A (zh) 2015-09-30
CN104949936B CN104949936B (zh) 2017-10-24

Family

ID=54164758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510405750.1A Active CN104949936B (zh) 2015-07-13 2015-07-13 基于优化偏最小二乘回归模型的样品成份测定方法

Country Status (1)

Country Link
CN (1) CN104949936B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105548068A (zh) * 2015-12-23 2016-05-04 重庆科技学院 动态演化模型校正方法及系统
CN106442360A (zh) * 2016-11-15 2017-02-22 青岛农业大学 基于多光谱成像的肉糜掺杂快速检测设备及检测方法
CN106570325A (zh) * 2016-11-04 2017-04-19 西南大学 一种基于偏最小二乘法的乳腺细胞异常检测方法
CN106950193A (zh) * 2017-05-24 2017-07-14 长春理工大学 基于自加权变量组合集群分析的近红外光谱变量选择方法
CN107300536A (zh) * 2017-08-25 2017-10-27 天津商业大学 基于高光谱的芒果冲击损伤后可溶性固形物含量预测方法
CN107884362A (zh) * 2017-11-13 2018-04-06 广州纤维产品检测研究院 棉、聚酯及氨纶混纺织物中氨纶含量的快速检测方法
CN108120694A (zh) * 2016-11-30 2018-06-05 上海烟草集团有限责任公司 用于晒红烟化学成分分析的多元校正方法及系统
CN108197380A (zh) * 2017-12-29 2018-06-22 南京林业大学 基于偏最小二乘的高斯回归软测量建模方法
CN108416463A (zh) * 2018-01-29 2018-08-17 中南大学 一种加氢裂化过程的产品质量预测方法和系统
CN108872142A (zh) * 2018-06-19 2018-11-23 温州大学 一种波长选择算法中多参数的选择优化方法
CN109709064A (zh) * 2019-01-03 2019-05-03 云南中烟工业有限责任公司 基于回归系数二次函数激活的烟叶热水可溶物测定方法
CN109783772A (zh) * 2017-11-14 2019-05-21 贵州中烟工业有限责任公司 一种确定偏最小二乘回归潜变量数的方法
CN109856061A (zh) * 2019-03-15 2019-06-07 首都师范大学 碳酸饮料中合成色素浓度的检测方法及系统
CN109856063A (zh) * 2019-03-15 2019-06-07 首都师范大学 碳酸饮料中合成色素浓度的检测方法及系统
CN109856062A (zh) * 2019-03-15 2019-06-07 首都师范大学 配制酒中合成色素浓度的检测方法及系统
CN109991206A (zh) * 2019-04-10 2019-07-09 西安石油大学 一种基于偏最小二乘法对醇类汽油总醇含量测定的方法
CN111220566A (zh) * 2020-01-16 2020-06-02 东北大学秦皇岛分校 基于opls和pds的红外光谱测量仪器标定迁移方法
CN111989747A (zh) * 2018-04-05 2020-11-24 伊耐斯克泰克-计算机科学与技术系统工程研究所 用于预测样品中的成分的定量的分光光度法和装置
CN113190956A (zh) * 2021-03-19 2021-07-30 广东工业大学 一种面向制造业大数据的回归建模方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102353644A (zh) * 2011-06-30 2012-02-15 上海海洋大学 快速同时检测带鱼糜水分和蛋白质含量的近红外光谱方法
CN102760197A (zh) * 2011-04-26 2012-10-31 电子科技大学 基于Matlab的偏最小二乘法对癌症病人光谱学检测数据的预测
CN102768195A (zh) * 2012-06-29 2012-11-07 杭州中美华东制药有限公司 一种虫草菌粉水分含量快速检测方法
CN102798607A (zh) * 2012-08-13 2012-11-28 浙江大学 一种利用中红外光谱技术估测土壤有机碳含量的方法
CN103092078A (zh) * 2013-01-07 2013-05-08 北京中医药大学 多阶段间歇生产过程的全程优化方法
CN103592255A (zh) * 2013-11-22 2014-02-19 山东东阿阿胶股份有限公司 一种基于近红外光谱技术的阿胶化皮液中总蛋白含量的软测量方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760197A (zh) * 2011-04-26 2012-10-31 电子科技大学 基于Matlab的偏最小二乘法对癌症病人光谱学检测数据的预测
CN102353644A (zh) * 2011-06-30 2012-02-15 上海海洋大学 快速同时检测带鱼糜水分和蛋白质含量的近红外光谱方法
CN102768195A (zh) * 2012-06-29 2012-11-07 杭州中美华东制药有限公司 一种虫草菌粉水分含量快速检测方法
CN102798607A (zh) * 2012-08-13 2012-11-28 浙江大学 一种利用中红外光谱技术估测土壤有机碳含量的方法
CN103092078A (zh) * 2013-01-07 2013-05-08 北京中医药大学 多阶段间歇生产过程的全程优化方法
CN103592255A (zh) * 2013-11-22 2014-02-19 山东东阿阿胶股份有限公司 一种基于近红外光谱技术的阿胶化皮液中总蛋白含量的软测量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ELISANGELA SERENATO MADALOZZO ET AL.: "Determination of fat,protein and moistrure in ricotta cheese by near infrared spectroscopy and multivariate calibration", 《JOURNAL OF FOOD SCIENCE AND TECHNOLOGY》 *
ROLF ERGON: "Constrained numerical optimization of PCR/PLSR predictors", 《CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105548068A (zh) * 2015-12-23 2016-05-04 重庆科技学院 动态演化模型校正方法及系统
CN105548068B (zh) * 2015-12-23 2018-06-19 重庆科技学院 动态演化模型校正方法及系统
CN106570325A (zh) * 2016-11-04 2017-04-19 西南大学 一种基于偏最小二乘法的乳腺细胞异常检测方法
CN106442360B (zh) * 2016-11-15 2019-03-19 青岛农业大学 基于多光谱成像的肉糜掺杂快速检测设备及检测方法
CN106442360A (zh) * 2016-11-15 2017-02-22 青岛农业大学 基于多光谱成像的肉糜掺杂快速检测设备及检测方法
CN108120694A (zh) * 2016-11-30 2018-06-05 上海烟草集团有限责任公司 用于晒红烟化学成分分析的多元校正方法及系统
CN108120694B (zh) * 2016-11-30 2020-05-05 上海烟草集团有限责任公司 用于晒红烟化学成分分析的多元校正方法及系统
CN106950193A (zh) * 2017-05-24 2017-07-14 长春理工大学 基于自加权变量组合集群分析的近红外光谱变量选择方法
CN106950193B (zh) * 2017-05-24 2019-04-26 长春理工大学 基于自加权变量组合集群分析的近红外光谱变量选择方法
CN107300536A (zh) * 2017-08-25 2017-10-27 天津商业大学 基于高光谱的芒果冲击损伤后可溶性固形物含量预测方法
CN107300536B (zh) * 2017-08-25 2020-02-14 天津商业大学 基于高光谱的芒果冲击损伤后可溶性固形物含量预测方法
CN107884362B (zh) * 2017-11-13 2020-05-22 广州纤维产品检测研究院 棉、聚酯及氨纶混纺织物中氨纶含量的快速检测方法
CN107884362A (zh) * 2017-11-13 2018-04-06 广州纤维产品检测研究院 棉、聚酯及氨纶混纺织物中氨纶含量的快速检测方法
CN109783772B (zh) * 2017-11-14 2023-12-22 贵州中烟工业有限责任公司 一种确定偏最小二乘回归潜变量数的方法
CN109783772A (zh) * 2017-11-14 2019-05-21 贵州中烟工业有限责任公司 一种确定偏最小二乘回归潜变量数的方法
CN108197380A (zh) * 2017-12-29 2018-06-22 南京林业大学 基于偏最小二乘的高斯回归软测量建模方法
CN108416463A (zh) * 2018-01-29 2018-08-17 中南大学 一种加氢裂化过程的产品质量预测方法和系统
CN111989747A (zh) * 2018-04-05 2020-11-24 伊耐斯克泰克-计算机科学与技术系统工程研究所 用于预测样品中的成分的定量的分光光度法和装置
CN108872142B (zh) * 2018-06-19 2020-12-22 温州大学 一种波长选择算法中多参数的选择优化方法
CN108872142A (zh) * 2018-06-19 2018-11-23 温州大学 一种波长选择算法中多参数的选择优化方法
CN109709064A (zh) * 2019-01-03 2019-05-03 云南中烟工业有限责任公司 基于回归系数二次函数激活的烟叶热水可溶物测定方法
CN109856062A (zh) * 2019-03-15 2019-06-07 首都师范大学 配制酒中合成色素浓度的检测方法及系统
CN109856063A (zh) * 2019-03-15 2019-06-07 首都师范大学 碳酸饮料中合成色素浓度的检测方法及系统
CN109856061A (zh) * 2019-03-15 2019-06-07 首都师范大学 碳酸饮料中合成色素浓度的检测方法及系统
CN109991206A (zh) * 2019-04-10 2019-07-09 西安石油大学 一种基于偏最小二乘法对醇类汽油总醇含量测定的方法
CN109991206B (zh) * 2019-04-10 2021-08-27 西安石油大学 一种基于偏最小二乘法对醇类汽油总醇含量测定的方法
CN111220566A (zh) * 2020-01-16 2020-06-02 东北大学秦皇岛分校 基于opls和pds的红外光谱测量仪器标定迁移方法
CN113190956A (zh) * 2021-03-19 2021-07-30 广东工业大学 一种面向制造业大数据的回归建模方法
CN113190956B (zh) * 2021-03-19 2022-11-22 广东工业大学 一种面向制造业大数据的回归建模方法

Also Published As

Publication number Publication date
CN104949936B (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN104949936B (zh) 基于优化偏最小二乘回归模型的样品成份测定方法
CN103528990B (zh) 一种近红外光谱的多模型建模方法
CN103558167B (zh) 一种快速测定腌肉中氯化钠含量的方法
Oliveri et al. Partial least squares density modeling (PLS-DM)–A new class-modeling strategy applied to the authentication of olives in brine by near-infrared spectroscopy
CN101825567A (zh) 一种近红外光谱和拉曼光谱波长的筛选方法
Khanmohammadi et al. Artificial neural network for quantitative determination of total protein in yogurt by infrared spectrometry
White et al. Methodological tools
Cao Calibration optimization and efficiency in near infrared spectroscopy
CN105334185A (zh) 基于光谱投影判别的近红外模型维护方法
CN111999258B (zh) 一种面向光谱基线校正的加权建模局部优化方法
Shao et al. Measurement of soluble solids content and pH of yogurt using visible/near infrared spectroscopy and chemometrics
Xu et al. Combining local wavelength information and ensemble learning to enhance the specificity of class modeling techniques: Identification of food geographical origins and adulteration
CN104408281B (zh) 一种用于便携式酒壶设计的混杂型交互式进化优化方法
Peng et al. Baseline correction combined partial least squares algorithm and its application in on-line Fourier transform infrared quantitative analysis
Pereira et al. Modelling the ageing process: A novel strategy to analyze the wine evolution towards the expected features
CN112750507A (zh) 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法
Castro-Reigía et al. Bread fermentation monitoring through NIR spectroscopy and PLS-DA. Determining the optimal fermentation point in bread doughs
CN105092509A (zh) 一种基于pcr-elm算法的样品成份测定方法
CN106404712A (zh) 基于gt‑kf‑pls近红外光谱自适应模型校正方法及系统
CN111415715B (zh) 一种基于多元光谱数据的智能校正方法、系统及装置
CN114624402A (zh) 一种基于近红外光谱的螺蛳粉酸笋品质评价方法
Sales et al. Standardization of a multivariate calibration model applied to the determination of chromium in tanning sewage
Mishra et al. Iterative re‐weighted covariates selection for robust feature selection modelling in the presence of outliers (irCovSel)
Chen et al. Near-infrared spectroscopy of Chinese soy sauce for quality evaluation
Ezenarro et al. J-Score: A new joint parameter for PLSR model performance evaluation of spectroscopic data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant