CN105092509B - 一种基于pcr‑elm算法的样品成份测定方法 - Google Patents

一种基于pcr‑elm算法的样品成份测定方法 Download PDF

Info

Publication number
CN105092509B
CN105092509B CN201510513849.3A CN201510513849A CN105092509B CN 105092509 B CN105092509 B CN 105092509B CN 201510513849 A CN201510513849 A CN 201510513849A CN 105092509 B CN105092509 B CN 105092509B
Authority
CN
China
Prior art keywords
elm
pcr
sample
model
hidden layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510513849.3A
Other languages
English (en)
Other versions
CN105092509A (zh
Inventor
单鹏
赵煜辉
周琳
刘福来
马海涛
于长永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201510513849.3A priority Critical patent/CN105092509B/zh
Publication of CN105092509A publication Critical patent/CN105092509A/zh
Application granted granted Critical
Publication of CN105092509B publication Critical patent/CN105092509B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于PCR‑ELM算法的样品成份测定方法,包括以下步骤:S1,采集待测样品的红外光谱数据;S2,通过PCR‑ELM模型获得该红外光谱数据所对应的样品中各成分的含量。本发明通过利用PCR‑ELM模型对待测样品的红外光谱数据进行处理,从而即可获得该红外光谱数据所对应的样品中各成分的含量,与采用传统模型进行数据处理相比,不仅避免了过拟合现象,减少了变量之间的多重共线性,而且也提高了拟合的精确度,提高了对样本量少、维度高的光谱数据的预测精度及预测精度的稳定性,扩大了ELM算法的应用范围。

Description

一种基于PCR-ELM算法的样品成份测定方法
技术领域
本发明涉及一种成分测定方法,尤其是一种基于PCR-ELM算法的样品成份测定方法。
背景技术
红外(Infrared:IR)光谱分析是利用计算机技术和化学计量学等手段对红外光谱的信息特征进行定量定性分析的过程。由于监测方便、快捷、成本低,且不会破坏样品等优势,红外光谱分析备受青睐,尤其是在食品工业、农业生产、药物制造等领域应用非常广泛。在食品、农业、工业等领域的实际应用中,IR光谱检测技术依赖化学计量学的相关算法,在化学成分和光谱吸收之间建立一种定量的函数关系,依靠变量与自变量之间的函数关系,就能通过未知样品的IR光谱获得样品的成分和含量,然后利用建立的数学模型预测未知样品品质。红外光谱数据对应的物质的各种理化指标的获取费时且昂贵,一般采集的样本数量为数十或者数百,而样本维度通常较高,一般有数百或者上千维。可见,红外光谱数据处理问题属于一类高维小样本数据分析问题。
极限学习机(Extreme Learning Machine:ELM)由于具有学习速度快且泛化性能好的优点,因而在要求快速学习的相关领域得以广泛应用,比如用于红外光谱数据(IR)的建模以及未知样本成分含量的预测。然而红外光谱数据具有样本数小、纬度高的特点,使用极限学习机处理红外光谱数据(IR)时存在以下难题:1)为了对红外光谱数据降维,通常设置隐含层节点数小于等于样本数,但是这样处理也会丢失很多重要数据,导致拟合误差增加;2)为了解决问题1),减小拟合误差,可以根据变量数选取隐含层节点数,但又会导致隐含层输出的依然是高维小样本数据;3)对于高维小样本数据而言,ELM利用最小二乘法计算隐含层输出矩阵与网络输出矩阵之间的回归系数(即隐含层输出权值)时,会产生过拟合的问题,从而导致预测误差与测试误差之间的差距较大,甚至超过多个数量级;4)最小二乘法适用于数据变量之间不存在多重共线性的情况,然而大部分红外光谱数据都具有多重共线性问题,因而ELM使用最小二乘法进行回归计算还会带来成份测定精确度不稳定的问题。因此,如何减小样品红外光谱数据处理过程中的拟合误差和预测误差,同时提高样品成份测定精度的稳定性是当前急需解决的问题。
发明内容
本发明的目的在于,提供一种基于PCR-ELM算法的样品成份测定方法,它可以有效解决现有技术中存在的问题,尤其是应用极限学习机对样品成份进行测定中的过拟合及误差不稳定的问题。
为解决上述技术问题,本发明采用如下的技术方案:一种基于PCR-ELM算法的样品成份测定方法,包括以下步骤:
S1,采集待测样品的红外光谱数据;
S2,通过PCR-ELM模型获得该红外光谱数据所对应的样品中各成分的含量。
优选的,步骤S2中所述的PCR-ELM模型,通过采用PCR算法对高维小样本的ELM隐含层输出矩阵进行降维获得。
更优选的,所述的PCR-ELM模型具体通过以下方法建立:
a.采集n个样本X的红外光谱数据及其对应的样本中各成分的含量数据作为训练样本,其中,每个样本包含m个属性,即X为一个n*m维矩阵;
b.对训练样本进行中心化处理;
c.中心化处理后,计算每个样本的ELM隐含层输出,得隐含层输出矩阵;
d.采用PCR算法计算ELM模型的输出权值,即得PCR-ELM模型。
前述的基于PCR-ELM算法的样品成份测定方法中,所述的ELM模型的输出权值为:
βPCR-ELM=P(PΤHΤHP)-1PΤHΤY
其中,βPCR-ELM为输出权值,P为对隐含层输出矩阵H进行主成分分析时对应的载荷(投影)矩阵;Y为训练样本中的各成分的含量数据。
优选的,所述的PCR-ELM模型为其中,为样品成分含量的预测值,Htst为隐含层输出矩阵,βPCR-ELM为输出权值,mean(Y)为训练样本中各成分含量数据的均值(其中,训练样本与实际应用时的测试样本为同分布样本,训练样本的均值等于实际应用时测试样本的均值)。
前述方法中,主成分数通过交叉验证获得。
上述方法中,所述的ELM隐藏层的节点数通过顺序交叉验证进行选取,从而避免丢失大量有用的信息。
优选的,本发明中具体通过以下交叉验证方法确定最佳主成分数Kopt和最佳隐含层节点数Lopt
S21,将所述的n个样本X的红外光谱数据及其对应的样本中各成分的含量数据分为K_fold份,将第i份作为测试集,剩余的K_fold-1份作为训练集进行交叉验证,其中,1≤i≤K_fold;
S22,设隐含层节点数为l,其中,50≤l≤LMax,LMax为最大隐含层节点个数(LMax可以设置为2000,随着l值的增大,模型的预测误差会经过一个由大变小再变大的过程,LMax设置到2000时就完全可以找到最优的隐含层节点个数,使得建立的模型对应最小的预测误差);
S23,训练ELM模型并计算第i份样本的样品成分含量预测值和均方根误差;
S24,令l=l+Δl,转至S22,直至l>LMax时,转至S25,其中,Δl为节点数间隔(Δl可以设置为50,从而使得最终所得PCR-ELM模型的预测误差最小);
S25,找出最小均方根误差对应的隐含层节点数;
S26,设主成分数为k,其中,1≤k≤AMax,AMax为最大主成分个数;(AMax可以设置为50,随着k值的增大,模型的预测误差会经过一个由大变小再变大的过程,AMax设置到50时就完全可以找到最优的主成分个数,使得建立的模型对应最小的预测误差)
S27,采用主成分回归(Principal Component Regression:PCR)算法计算ELM模型的输出权值βPCR-ELM
S28,计算第i份样本的样品成分含量预测值和均方根误差;并将所述的均方根误差放入均方根误差矩阵中;
S29,令k=k+1,转至S26,直至k>AMax时,令i=i+1,转至S21,直至i>K_fold,得K_fold个均方根误差矩阵,转至S30;
S30,计算所述的K_fold个均方根误差矩阵的均值,得均值矩阵;
S31,查找均值矩阵中的均方根误差最小值,该均方根误差最小值在矩阵中所对应的行号即为最佳主成分数Kopt,对应的列号即为最佳隐含层节点数Lopt
本发明中所述的待测样品为植物、食物或粉末混合物。
优选的,所述的食物为肉片或葡萄酒;所述的植物为小麦核。
与现有技术相比,本发明具有以下优点:
1.通过利用PCR-ELM模型对待测样品的红外光谱数据进行处理,从而即可获得该红外光谱数据所对应的样品中各成分的含量,与采用传统模型进行数据处理相比,不仅避免了过拟合现象,减少了变量之间的多重共线性,而且也提高了拟合的精确度,提高了对样本量少、维度高的光谱数据的预测精度及预测精度的稳定性,扩大了ELM算法的应用范围;
2.通过主成分分析(Principal Component Analysis:PCA)法对隐含层输出矩阵进行降维,使其样本数大于维度,从而保证了变量之间不具有多重共线性;再采用最小二乘法计算隐含层输出矩阵与目标矩阵的权重,从而避免了过拟合问题,并且本发明的PCR-ELM模型的预测误差相对于ELM、PCR、RR-ELM模型更小,同时威尔克森秩和检验值也表明本发明中的PCR-ELM是一个全新的算法;
3.本发明的PCR-ELM测定方法的预测精度要比ELM、PCR、RR-ELM算法都高,同时也保持很好的模型解释能力;
4.通过采用本发明中的交叉验证方法确定最佳主成分数Kopt和最佳隐含层节点数Lopt,从而使得本发明中的PCR-ELM模型的预测精度最高,同时预测性能也最稳定。
5.本发明中的PCR-ELM测定方法对肉片数据非常有效,相对于ELM的预测值的改善程度达73.22%;相对于PCR的预测值的改善程度达60.52%;相对于RR-ELM的预测值的改善程度达26.66%;说明了PCR-ELM的提出,在肉片数据集表现出了极强的预测能力;
6.本发明中的PCR-ELM测定方法对小麦核数据非常有效,相对于ELM的预测值的精度改善程度达30.72%,相对于PCR的预测值的改善程度达7.03%;相对于RR-ELM的预测值的改善程度达51.14%;说明了PCR-ELM的提出,针对小麦核数据集表现出了极强的预测能力,较其它方法的提高也是非常显著;
7.本发明中的PCR-ELM测定方法对葡萄酒数据非常有效,相对于ELM的预测值的精度改善程度达44.97%,相对于PCR的预测值的改善程度达20.40%;相对于RR-ELM的预测值的改善程度达15.31%;说明了PCR-ELM的提出,针对葡萄酒数据集表现出了极强的预测能力,较其它方法的提高也是非常显著;
8.本发明中的PCR-ELM测定方法对粉末混合物数据非常有效,相对于ELM的预测值的精度改善程度达28.29%,相对于PCR的预测值的改善程度达70.14%;相对于RR-ELM的预测值的改善程度达31.69%;说明了PCR-ELM的提出,针对粉末混合物数据集表现出了极强的预测能力,较其它方法的提高也是非常显著;
9.本发明中的PCR-ELM模型,在实现了降维的同时,提高了待测样品中成分含量预测的精度及预测精度的稳定性,其效果明显优于ELM模型、PCR模型和RR-ELM模型,尤其对于粉末混合物和肉片光谱数据集更为明显。
为了验证上述效果,发明人还做了以下试验研究:
实验例1:对肉片中的水分和脂肪进行含量测定
1.1实验方法
采用本发明中的PCR-ELM模型进行含量预测,同时利用本发明中的方法确定模型的两个参数:最佳主成分数和最佳隐含层节点数。
对比方法:采用PCR、ELM和RR-ELM模型进行含量预测。
1.2实验结果分析
i.确定各个模型的最佳主成分数和/或最佳隐含节点数。
构建每个模型前对数据集进行中心化处理。对肉片中的水分含量进行测定时,如图5~图8所示,根据各个模型的RMSECV曲线或曲面及最小RMSECV准则进行最佳参数选择:PCR模型的最佳主成分个数为23;ELM模型的最佳隐含层节点数为1000;RR-ELM模型的最佳隐含层节点数为1250,正则化参数大小为0.01;PCR-ELM模型的最佳隐含层节点数为1000,最佳主成分数为23。
对肉片中的脂肪含量进行测定时,如图9~图12所示,根据各个模型的RMSECV曲线或曲面及最小RMSECV准则进行最佳参数选择:PCR模型的最佳主成分个数为23;ELM模型的最佳隐含层节点数为750;RR-ELM模型的最佳隐含层节点数为1250,正则化参数大小为0.001;PCR-ELM模型的最佳隐含层节点数为1000,最佳主成分数为50。
ii.对PCR-ELM模型及PCR、ELM和RR-ELM模型的含量预测效果进行比较。
分别利用PCR-ELM模型及PCR、ELM和RR-ELM模型对肉片光谱进行处理,获得肉片中水分和脂肪的含量预测值与真实值的对比效果如图13~图20所示,图13~图20中,连接两个图像顶点的直线为y=x,X轴代表真实值,Y轴代表预测值,若真实值和预测值相等,那么训练样本和测试样本对应的点就会落在y=x这条直线上;当真实值与预测值的差距越大时,那么测试样本对应的点距离直线y=x也就越远。具体的说,首先,由图9可知,PCR模型的很多点均远离直线y=x,因此PCR模型的预测性能较差;其次,由图10可知,ELM建模时,其校正集完全落在直线y=x上,但是测试样本却远离直线y=x,说明了过学习(即过拟合)会极大地限制和阻碍ELM模型的预测性能,因此ELM模型并不适合用于处理样本少、高维度的红外光谱数据;再次,由图11可知,RR-ELM模型的预测结果虽然也都在直线y=x的周围,但是相对于PCR-ELM模型的预测结果而言,明显有很多点是远离直线y=x的,因此RR-ELM模型的预测性能明显不如PCR-ELM模型;这也说明了相对于RR-ELM模型,本发明的PCR-ELM模型可以更好的适应于样本少、高维度的红外光谱数据的处理。综上所述,与现有技术中的PCR、ELM和RR-ELM模型相比,本发明中的PCR-ELM模型的预测能力更好,预测精度更高、更稳定。
采用本发明的PCR-ELM模型及现有的PCR、ELM和RR-ELM模型对肉片中的水分和脂肪进行含量测定的预测误差如表1所示:
表1 采用不同定量模型对肉片数据集进行处理的预测误差
表1中,PCs为主成分回归中主成分的个数;NN为隐含层节点数;λ为正则化参数。由表1可知:采用本发明的PCR-ELM模型对肉片中的水分和脂肪进行含量测定时,获得的RMSECV和RMSEP均最小,即含量预测误差较小,且预测结果较稳定;而采用ELM模型进行含量测定时,则获得的RMSECV和RMSEP均最大,同时获得的RMSEC最小(几乎接近0),说明了当隐含层节点数(1000或750)远远超过校正样本数(172)时,ELM模型的隐含层输出矩阵H中出现多元共线性的可能性大大增加,从而导致了过学习或过拟合的存在。
实验例2:对小麦核中的蛋白质进行含量测定
1.1实验方法
采用本发明中的PCR-ELM模型进行含量预测,同时利用本发明中的方法确定模型的两个参数:最佳主成分数和最佳隐含层节点数。
对比方法:采用PCR、ELM和RR-ELM模型进行含量预测。
1.2实验结果分析
构建每个模型前对数据集进行中心化处理。采用本发明的PCR-ELM模型及现有的PCR、ELM和RR-ELM模型对小麦核中的蛋白质进行含量测定的预测误差如表2所示:
表2 采用不同定量模型对小麦核数据集进行处理的预测误差
由表2可知:对小麦核中的蛋白质进行含量测定时,对于单参数模型,PCR模型用了30个主成分即获得了最小的RMSECV(0.555)、第二小的RMSEC(0.526)和RMSEP(0.586);另外,由于隐含层节点数(250)小于校正样本的数量(415),隐含层输出矩阵H中存在的多重共线性概率大大减少,因此在小麦核数据集中,ELM模型的过学习现象并不像在肉片数据集中那样严重,ELM模型获得的最小的RMSEC(0.307)也是可以接受的。对于双参数模型,RR-ELM模型的最佳模型参数为NN=1500,λ=10-4,PCR-ELM模型的最佳模型参数为NN=250,PCs=30;尽管RR-ELM模型的隐含节点数(1500)是最大的,但是采用的岭回归计算输出权重的策略并不能提高ELM模型的预测精度;相反,PCR-ELM模型却可以获得最低的RMSEP(0.545)。此外,Wilcoxon符号秩测试结果(见表4)表明,其预测性能在统计学上显著优于其它模型;另外,小麦核数据集被用来展示,当ELM模型中的过学习不明显或不存在时,PCR-ELM模型仍然可以改善ELM的预测性能。
为了进一步比较不同模型的预测性能,分别利用PCR-ELM模型及PCR、ELM和RR-ELM模型对小麦核光谱进行处理,获得小麦核中蛋白质的含量预测值与真实值的对比效果如图21~图24所示,由图21~图24可知:即使在多重共线性并不是很严重的情况下,与基于广义逆和岭回归的输出权重策略相比,本发明的基于PCR的策略在求解ELM模型中的输出权重时仍然具有更大的优势,采用本发明中的PCR-ELM模型的预测能力更好,预测精度更高、预测性能更稳定。
实验例3:分别对葡萄酒和粉末混合物中的酒精浓度进行含量测定
构建每个模型前对数据集进行中心化处理。分别采用本发明的PCR-ELM模型及现有的PCR、ELM和RR-ELM模型对葡萄酒和粉末混合物中的酒精浓度进行含量测定的预测误差如表3所示:
表3 采用不同定量模型对葡萄酒及粉末混合物数据集进行处理的预测误差
由表3可知:对葡萄酒和粉末混合物中的酒精浓度进行含量测定时,PCR模型(主成分数为15或6)的预测性能并不是很理想;同时由于隐含节点数(750)远远大于校正样本数(91个葡萄酒样本和60个粉末混合物样本),再度出现过学习现象,因而导致ELM模型获得的RMSEC值几乎为零;采用RR-ELM模型进行含量测定时,其仅仅在葡萄酒数据集上的预测误差小于ELM模型;而采用本发明的PCR-ELM模型进行测定时,在葡萄酒数据集和粉末混合物数据集上所获得的预测误差均最小(RMSEP分别为0.070、0.012),说明了本发明中的PCR-ELM模型可以有效地处理多重共线性问题,避免过学习,其预测能力更好,预测精度更高且预测性能更稳定。
为了进一步比较不同模型的预测性能,分别利用PCR-ELM模型及PCR、ELM和RR-ELM模型对葡萄酒及粉末混合物光谱进行处理,获得葡萄酒和粉末混合物中的酒精浓度的含量预测值与真实值的对比效果如图25~图32所示,由图25~图32可知:采用本发明中的PCR-ELM模型的预测能力更好,预测精度更高、预测性能更稳定。
最后,发明人采用Wilcoxon符号秩测试来评估上述实验例中本发明的PCR-ELM模型与其它模型的预测性能的差异在统计学意义上是否显著,其相应的统计p值如表4所示;同时采用h表示本发明的PCR-ELM模型相对于现有的PCR、ELM和RR-ELM模型的预测精度改进程度,具体如表4所示:
表4 PCR-ELM模型相对于其他模型的预测性能差异和预测精度改进程度
表4显示:虽然通过小麦核实验例可知,本发明中的PCR-ELM模型的预测性能在统计学上显著优于其它模型;通过肉片、葡萄酒及粉末混合物实验例可知,本发明中的PCR-ELM模型与其它模型之间不存在统计上的显著差异;但是本发明中的PCR-ELM模型对实验中的肉片、小麦核、葡萄酒及粉末混合物数据非常有效,表现出了极强的预测能力。具体的说,本发明中的PCR-ELM测定方法对肉片数据非常有效,相对于ELM的预测值的改善程度达73.22%;相对于PCR的预测值的改善程度达60.52%;相对于RR-ELM的预测值的改善程度达26.66%;说明了PCR-ELM的提出,在肉片数据集表现出了极强的预测能力;本发明中的PCR-ELM测定方法对小麦核数据非常有效,相对于ELM的预测值的精度改善程度达30.72%,相对于PCR的预测值的改善程度达7.03%;相对于RR-ELM的预测值的改善程度达51.14%;说明了PCR-ELM的提出,针对小麦核数据集表现出了极强的预测能力,较其它方法的提高也是非常显著;本发明中的PCR-ELM测定方法对葡萄酒数据非常有效,相对于ELM的预测值的精度改善程度达44.97%,相对于PCR的预测值的改善程度达20.40%;相对于RR-ELM的预测值的改善程度达15.31%;说明了PCR-ELM的提出,针对葡萄酒数据集表现出了极强的预测能力,较其它方法的提高也是非常显著;本发明中的PCR-ELM测定方法对粉末混合物数据非常有效,相对于ELM的预测值的精度改善程度达28.29%,相对于PCR的预测值的改善程度达70.14%;相对于RR-ELM的预测值的改善程度达31.69%;说明了PCR-ELM的提出,针对粉末混合物数据集表现出了极强的预测能力,较其它方法的提高也是非常显著。
附图说明
图1为肉片数据集的光谱图;
图2为小麦核数据集的光谱图;
图3为葡萄酒数据集的光谱图;
图4为粉末混合物数据集的光谱图;
图5为采用PCR模型测定肉片数据集中水分含量的误差图;
图6为采用ELM模型测定肉片数据集中水分含量的误差图;
图7为采用RR-ELM模型测定肉片数据集中水分含量的误差图;
图8为采用PCR-ELM模型测定肉片数据集中水分含量的误差图;
图9为采用PCR模型测定肉片数据集中脂肪含量的误差图;
图10为采用ELM模型测定肉片数据集中脂肪含量的误差图;
图11为采用RR-ELM模型测定肉片数据集中脂肪含量的误差图;
图12为采用PCR-ELM模型测定肉片数据集中脂肪含量的误差图;
图13为采用PCR模型对肉片中的水分含量进行预测的预测值与实际测量值的关系曲线;
图14为采用ELM模型对肉片中的水分含量进行预测的预测值与实际测量值的关系曲线;
图15为采用RR-ELM模型对肉片中的水分含量进行预测的预测值与实际测量值的关系曲线;
图16为采用PCR-ELM模型对肉片中的水分含量进行预测的预测值与实际测量值的关系曲线;
图17为采用PCR模型对肉片中的脂肪含量进行预测的预测值与实际测量值的关系曲线;
图18为采用ELM模型对肉片中的脂肪含量进行预测的预测值与实际测量值的关系曲线;
图19为采用RR-ELM模型对肉片中的脂肪含量进行预测的预测值与实际测量值的关系曲线;
图20为采用PCR-ELM模型对肉片中的脂肪含量进行预测的预测值与实际测量值的关系曲线;
图21为采用PCR模型对小麦核中的蛋白质含量进行预测的预测值与实际测量值的关系曲线;
图22为采用ELM模型对小麦核中的蛋白质含量进行预测的预测值与实际测量值的关系曲线;
图23为采用RR-ELM模型对小麦核中的蛋白质含量进行预测的预测值与实际测量值的关系曲线;
图24为采用PCR-ELM模型对小麦核中的蛋白质含量进行预测的预测值与实际测量值的关系曲线;
图25为采用PCR模型对葡萄酒中的酒精浓度进行预测的预测值与实际测量值的关系曲线;
图26为采用ELM模型对葡萄酒中的酒精浓度进行预测的预测值与实际测量值的关系曲线;
图27为采用RR-ELM模型对葡萄酒中的酒精浓度进行预测的预测值与实际测量值的关系曲线;
图28为采用PCR-ELM模型对葡萄酒中的酒精浓度进行预测的预测值与实际测量值的关系曲线;
图29为采用PCR模型对粉末混合物中的酒精浓度进行预测的预测值与实际测量值的关系曲线;
图30为采用ELM模型对粉末混合物中的酒精浓度进行预测的预测值与实际测量值的关系曲线;
图31为采用RR-ELM模型对粉末混合物中的酒精浓度进行预测的预测值与实际测量值的关系曲线;
图32为采用PCR-ELM模型对粉末混合物中的酒精浓度进行预测的预测值与实际测量值的关系曲线;
图33为本发明的方法流程图;
图34为本发明中确定最佳主成分数和最佳隐含层节点数的方法流程图。
下面结合附图和具体实施方式对本发明作进一步的说明。
具体实施方式
本发明的实施例:一种基于PCR-ELM算法的样品成份测定方法,如图33所示,包括以下步骤:
S1,采集待测样品的红外光谱数据;
S2,通过PCR-ELM模型获得该红外光谱数据所对应的样品中各成分的含量;所述的PCR-ELM模型,通过采用PCR算法对高维小样本的ELM隐含层输出矩阵进行降维获得;具体通过以下方法建立:
a.采集n个样本X的红外光谱数据及其对应的样本中各成分的含量数据作为训练样本,其中,每个样本包含m个属性,即X为一个n*m维矩阵;
b.对训练样本进行中心化处理;
c.中心化处理后,计算每个样本的ELM隐含层输出,得隐含层输出矩阵;其中,所述的ELM隐藏层的节点数通过顺序交叉验证进行选取;
d.采用PCR算法计算ELM模型的输出权值,即得PCR-ELM模型;其中,所述的ELM模型的输出权值为:
βPCR-ELM=P(PΤHΤHP)-1PΤHΤY
其中,βPCR-ELM为输出权值,P为对隐含层输出矩阵H进行主成分分析时对应的载荷(投影)矩阵;Y为训练样本中的各成分的含量数据;所述的主成分数通过交叉验证获得。
所述的PCR-ELM模型为其中,为样品成分含量的预测值,Htst为隐含层输出矩阵,βPCR-ELM为输出权值,mean(Y)为训练样本中各成分含量数据的均值。
本发明中,具体通过以下交叉验证方法确定最佳主成分数Kopt和最佳隐含层节点数Lopt(如图34所示):
S21,将所述的n个样本X的红外光谱数据及其对应的样本中各成分的含量数据分为K_fold份,将第i份作为测试集,剩余的K_fold-1份作为训练集进行交叉验证,其中,1≤i≤K_fold;
S22,设隐含层节点数为l,其中,50≤l≤LMax,LMax为最大隐含层节点个数(LMax可以设置为2000,随着l值的增大,模型的预测误差会经过一个由大变小再变大的过程,LMax设置到2000时就完全可以找到最优的隐含层节点个数,使得建立的模型对应最小的预测误差);
S23,训练ELM模型并计算第i份样本的样品成分含量预测值和均方根误差;
S24,令l=l+Δl,转至S22,直至l>LMax时,转至S25,其中,Δl为节点数间隔(Δl可以设置为50,从而使得最终所得PCR-ELM模型的预测误差最小);
S25,找出最小均方根误差对应的隐含层节点数;
S26,设主成分数为k,其中,1≤k≤AMax,AMax为最大主成分个数;(AMax可以设置为50,随着k值的增大,模型的预测误差会经过一个由大变小再变大的过程,AMax设置到50时就完全可以找到最优的主成分个数,使得建立的模型对应最小的预测误差)
S27,采用PCR算法计算ELM模型的输出权值βPCR-ELM
S28,计算第i份样本的样品成分含量预测值和均方根误差;并将所述的均方根误差放入均方根误差矩阵中;
S29,令k=k+1,转至S26,直至k>AMax时,令i=i+1,转至S21,直至i>K_fold,得K_fold个均方根误差矩阵,转至S30;
S30,计算所述的K_fold个均方根误差矩阵的均值,得均值矩阵;
S31,查找均值矩阵中的均方根误差最小值,该均方根误差最小值在矩阵中所对应的行号即为最佳主成分数Kopt,对应的列号即为最佳隐含层节点数Lopt
所述的待测样品为植物、食物或粉末混合物,且对于肉片、葡萄酒、小麦核的测定尤为精确。

Claims (7)

1.一种基于PCR-ELM算法的样品成份测定方法,其特征在于,包括以下步骤:
S1,采集待测样品的红外光谱数据;
S2,通过PCR-ELM模型获得该红外光谱数据所对应的样品中各成分的含量;
其中,所述的PCR-ELM模型,通过采用PCR算法对高维小样本的ELM隐含层输出矩阵进行降维获得;具体通过以下方法建立:
a.采集n个样本X的红外光谱数据及其对应的样本中各成分的含量数据作为训练样本,其中,每个样本包含m个属性,即X为一个n*m维矩阵;
b.对训练样本进行中心化处理;
c.中心化处理后,计算每个样本的ELM隐含层输出,得隐含层输出矩阵;
d.采用PCR算法计算ELM模型的输出权值,即得PCR-ELM模型;
其中,所述的ELM模型的输出权值为:
βPCR-ELM=P(PTHTHP)-1PTHTY
其中,βPCR-ELM为输出权值,P为对隐含层输出矩阵H进行主成分分析时对应的载荷矩阵;Y为训练样本中的各成分的含量数据。
2.根据权利要求1所述的基于PCR-ELM算法的样品成份测定方法,其特征在于,所述的PCR-ELM模型为其中,为样品成分含量的预测值,Htst为隐含层输出矩阵,βPCR-ELM为输出权值,mean(Y)为训练样本中各成分含量数据的均值。
3.根据权利要求2所述的基于PCR-ELM算法的样品成份测定方法,其特征在于,主成分数通过交叉验证获得。
4.根据权利要求3所述的基于PCR-ELM算法的样品成份测定方法,其特征在于,所述的ELM隐含层的节点数通过顺序交叉验证进行选取。
5.根据权利要求4所述的基于PCR-ELM算法的样品成份测定方法,其特征在于,具体通过以下交叉验证方法确定最佳主成分数Kopt和最佳隐含层节点数Lopt
S21,将所述的n个样本X的红外光谱数据及其对应的样本中各成分的含量数据分为K_fold份,将第i份作为测试集,剩余的K_fold-1份作为训练集进行交叉验证,其中,1≤i≤K_fold;
S22,设隐含层节点数为l,其中,50≤l≤LMax,LMax为最大隐含层节点个数;
S23,训练ELM模型并计算第i份样本的样品成分含量预测值和均方根误差;
S24,令l=l+Δl,转至S22,直至l>LMax时,转至S25,其中,Δl为节点数间隔;
S25,找出最小均方根误差对应的隐含层节点数;
S26,设主成分数为k,其中,1≤k≤AMax,AMax为最大主成分个数;
S27,采用PCR算法计算ELM模型的输出权值βPCR-ELM
S28,计算第i份样本的样品成分含量预测值和均方根误差;并将所述的均方根误差放入均方根误差矩阵中;
S29,令k=k+1,转至S26,直至k>AMax时,令i=i+1,转至S21,直至i>K_fold,得K_fold个均方根误差矩阵,转至S30;
S30,计算所述的K_fold个均方根误差矩阵的均值,得均值矩阵;
S31,查找均值矩阵中的均方根误差最小值,该均方根误差最小值在矩阵中所对应的行号即为最佳主成分数Kopt,对应的列号即为最佳隐含层节点数Lopt
6.根据权利要求1所述的基于PCR-ELM算法的样品成份测定方法,其特征在于,所述的待测样品为植物、食物或粉末混合物。
7.根据权利要求6所述的基于PCR-ELM算法的样品成份测定方法,其特征在于,所述的食物为肉片或葡萄酒;所述的植物为小麦核。
CN201510513849.3A 2015-08-20 2015-08-20 一种基于pcr‑elm算法的样品成份测定方法 Expired - Fee Related CN105092509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510513849.3A CN105092509B (zh) 2015-08-20 2015-08-20 一种基于pcr‑elm算法的样品成份测定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510513849.3A CN105092509B (zh) 2015-08-20 2015-08-20 一种基于pcr‑elm算法的样品成份测定方法

Publications (2)

Publication Number Publication Date
CN105092509A CN105092509A (zh) 2015-11-25
CN105092509B true CN105092509B (zh) 2017-09-22

Family

ID=54573425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510513849.3A Expired - Fee Related CN105092509B (zh) 2015-08-20 2015-08-20 一种基于pcr‑elm算法的样品成份测定方法

Country Status (1)

Country Link
CN (1) CN105092509B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105651727B (zh) * 2015-12-28 2018-06-12 中国计量学院 基于jade和elm的近红外光谱分析鉴别苹果货架期的方法
CN109242194B (zh) * 2018-09-25 2022-01-14 东北大学 一种基于混合模型的浓密机底流浓度预测方法
CN113340874B (zh) * 2020-03-02 2023-07-18 中国科学院沈阳自动化研究所 一种基于结合岭回归和递归特征消除的定量分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593670A (zh) * 2013-10-14 2014-02-19 浙江工业大学 一种基于在线序列极限学习机的铜板带表面缺陷检测方法
CN104651559A (zh) * 2015-01-30 2015-05-27 东北大学 一种基于多元在线序贯极限学习机的高炉铁水质量在线预报体系及预报方法
CN104749134A (zh) * 2015-03-31 2015-07-01 江苏大学 一种检测叶菜类作物冠层水分含量的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593670A (zh) * 2013-10-14 2014-02-19 浙江工业大学 一种基于在线序列极限学习机的铜板带表面缺陷检测方法
CN104651559A (zh) * 2015-01-30 2015-05-27 东北大学 一种基于多元在线序贯极限学习机的高炉铁水质量在线预报体系及预报方法
CN104749134A (zh) * 2015-03-31 2015-07-01 江苏大学 一种检测叶菜类作物冠层水分含量的方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Combination of activation functions in extreme learning machines for multivariate calibration;Jiangtao Peng 等;《Chemometrics and Intelligent Laboratory Systems》;20121116;第120卷(第10期);第53-58页 *
Determination of Amino Acid Nitrogen in Soy Sauce Using Near Infrared Spectroscopy Combined with Characteristic Variables Selection and Extreme Learning Machine;Qin Ouyang 等;《Food Bioprocess Technology》;20120725;第6卷(第9期);第2486–2493页 *
基于极限学习机的混合气体FTIR光谱定量分析;陈媛媛 等;《中北大学学报》;20111231;第32卷(第5期);第636-641页 *
基于近红外光谱和极限学习机的普洱茶中游离氨基酸总量检测;李若诚 等;《长春工业大学学报》;20120630;第33卷(第3期);第269-273页 *
近红外光谱结合ELM 快速检测固态发酵过程参数pH值;刘国海 等;《光谱学与光谱分析》;20120430;第32卷(第4期);第970-973页 *
近红外分析技术在食品氨基酸检测中应用的研究进展;於筱岚;《光谱学与光谱分析》;20140930;第34卷(第9期);第2377-2381页 *

Also Published As

Publication number Publication date
CN105092509A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN106680238B (zh) 基于红外光谱分析物质成分含量的方法
Kim et al. Estimation of active pharmaceutical ingredients content using locally weighted partial least squares and statistical wavelength selection
Huang et al. Improved generalization of spectral models associated with Vis-NIR spectroscopy for determining the moisture content of different tea leaves
WO2021073541A1 (zh) 一种基于光谱相似度的校正集和验证集的选择及建模方法
CN105842190B (zh) 一种基于谱回归的近红外模型转移方法
Shen et al. Local partial least squares based on global PLS scores
CN105095652A (zh) 基于堆叠极限学习机的样品成份测定方法
CN105092509B (zh) 一种基于pcr‑elm算法的样品成份测定方法
CN106529008B (zh) 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法
Jiang et al. Using an optimal CC-PLSR-RBFNN model and NIR spectroscopy for the starch content determination in corn
CN108830253B (zh) 筛选模型建立方法、光谱筛选装置及方法
Yun-Ying et al. Progress and applications of multivariate calibration model transfer methods
CN104990895A (zh) 一种基于局部区域的近红外光谱信号标准正态校正方法
Zhang et al. Rapid determination of protein, starch and moisture content in wheat flour by near-infrared hyperspectral imaging
CN112285056A (zh) 一种用于光谱样品个性化校正集选择及建模方法
Amankwaah et al. Development of NIRS calibration curves for sugars in baked sweetpotato
CN117191739A (zh) 一种校正水分干扰的近红外光谱定量检测的方法及系统
Yu et al. Application of quantitative non-destructive determination of protein in wheat based on pretreatment combined with parallel convolutional neural network
Hao et al. Prediction of the ethanol yield of dry-grind maize grain using near infrared spectroscopy
Morawski et al. Application of principal components analysis and signal-to-noise ratio for calibration of spectrophotometric analysers of food
CN110501294B (zh) 一种基于信息融合的多元校正方法
Wang et al. The combination of near-infrared spectroscopy with chemometrics in achieving rapid and accurate determination of rice mildew
Olivos-Trujillo et al. Assessing the stability of parameters estimation and prediction accuracy in regression methods for estimating seed oil content in Brassica napus L. using NIR spectroscopy
CN116484989A (zh) 一种基于深度迁移学习的烟叶近红外多组分预测方法
CN111220565B (zh) 一种基于cpls的红外光谱测量仪器标定迁移方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170922

CF01 Termination of patent right due to non-payment of annual fee