CN115630332A - 一种小麦粉粉质特性预测方法 - Google Patents
一种小麦粉粉质特性预测方法 Download PDFInfo
- Publication number
- CN115630332A CN115630332A CN202211222793.2A CN202211222793A CN115630332A CN 115630332 A CN115630332 A CN 115630332A CN 202211222793 A CN202211222793 A CN 202211222793A CN 115630332 A CN115630332 A CN 115630332A
- Authority
- CN
- China
- Prior art keywords
- data
- formula
- regression
- wheat flour
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 123
- 235000013312 flour Nutrition 0.000 title claims abstract description 77
- 241000209140 Triticum Species 0.000 title claims abstract description 57
- 235000021307 Triticum Nutrition 0.000 title claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 72
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000002329 infrared spectrum Methods 0.000 claims description 36
- 238000010238 partial least squares regression Methods 0.000 claims description 35
- 238000001228 spectrum Methods 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 33
- 230000003595 spectral effect Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 14
- 238000000513 principal component analysis Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 11
- 150000001875 compounds Chemical class 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000010521 absorption reaction Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000000843 powder Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000006641 stabilisation Effects 0.000 claims description 4
- 238000011105 stabilization Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 25
- 230000000694 effects Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- 108010068370 Glutens Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 235000021312 gluten Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010239 partial least squares discriminant analysis Methods 0.000 description 1
- 239000010773 plant oil Substances 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 235000018102 proteins Nutrition 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种小麦粉粉质特性预测方法,属于农产品品质检测领域。所述方法通过引入高斯过程回归,将偏最小二乘回归的输入变量进行模糊分类,为分成的两类分别建立偏最小二乘回归模型,并通过Sigmoid函数将结果进行融合。相比于传统的和现有的改进型偏最小二乘方法,本发明将原本的数据进行二分类,让特征更相似的数据能归为一类并分别建立偏最小二乘模型,之后将结果融合,充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作,不仅可以有效地提升预测准确度,且预测效率也得到明显提升。
Description
技术领域
本发明涉及一种小麦粉粉质特性预测方法,属于农产品品质检测领域。
背景技术
近红外光谱分析技术是近十年来发展最为迅速的高新分析技术之一,以其快速、简便、高效等优势被人们认识和接受,在小麦粉行业被广泛应用于预测成分参数,如水分、蛋白质、灰分和湿面筋含量。随着人们对小麦食品的色泽、味道、保质时间等提出更高的要求,小麦粉的粉质特性也被列入主要检测指标,传统方法下,粉质特性通过粉质仪测量,粉质仪根据仪器内面粉形成面团的过程给出四个重要的参数,包括吸水率、形成时间、稳定时间、弱化度。如今,利用近红外光谱结合机器学习可以快速、无损的检测小麦粉的粉质特性,方法就是使用机器学习的回归算法训练近红外光谱数据建立预测模型,目前近红外光谱分析技术中应用的回归算法包括多元线性回归、主成分回归、偏最小二乘回归等。
偏最小二乘回归算法是一种多自变量对多应变量的回归算法,在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,以此提高预测效果。普通偏最小二乘回归建立的预测模型有良好的预测响应,但是对输入变量的筛选与分析有不足之处,在如今近红外光谱的应用中,预测模型的精确度已经无法满足要求。
为了提升偏最小二乘回归算法的预测精度,目前不少学者结合实际问题对传统偏最小二乘回归算法做了相关改进。杨淋玉等人将遗传算法与偏最小二乘回归相结合,以遗传算法挑选出的光谱特征作为偏最小二乘回归的输入变量,提高预测模型的准确度(杨淋玉,丁宇,战晔,朱绍农,陈雨娟,邓凡,赵兴强.基于LIBS与GA-PLS的钢铁中Mn,Ni元素定量分析研究[J].光谱学与光谱分析,2022,42(06):1804-1808.)。刘美枝等人引入异常点剔除的步骤,在建模前发现异常数据,使建模数据的准确性提高(刘美枝,杨磊.一种剔除异常点的偏最小二乘故障监测方法[J].山西大同大学学报(自然科学版),2022,38(02):11-15.)。朱绍农等人将波段区间选择方法融入偏最小二乘回归中,为偏最小二乘回归选择最佳光谱波段(朱绍农,丁宇,陈雨娟,邓凡,陈非凡,严飞.LIBS与变量选择PLS结合的含油土壤中Cu,Ni定量分析[J].光谱学与光谱分析,2020,40(12):3812-3817.)。何文绚等人将正交信号校正法与偏最小二乘回归结合,先利用正交信号校正法去除无关的光谱正交分量,再建立预测模型,以提高预测准确度(何文绚,雷进宇,卢先勇,陈婷.基于R语言、正交偏最小二乘判别分析的植物油鉴定方法[P].福建省:CN113392586A,2021-09-14.。
虽然上述方案能够在一定程度上提升预测准确度,但方法的改进集中在预处理阶段和数据输入算法模型的阶段,容易产生过优化使效果减弱。遗传算法与偏最小二乘回归相结合虽然优化了算法的数据输入,但它过于依赖初始输入数据,容易快速收敛而丢失原有的一些数据特征,尤其是当数据量较大的时候;而异常点的剔除和波段区间选择都是为了在预处理阶段和数据输入阶段去掉部分异常值的干扰和增强优势特征的表达,数据预处理和偏最小二乘法本身具备这个能力;正交信号校正法与偏最小二乘回归结合也是对数据预处理阶段的优化,其他同步进行的预处理方法也能达到相似的效果,导致正交信号校正法对模型预测效果提升不明显。
综上所述,现有的预测方法虽然在一定程度上可以提升预测效果,但是预测效率和预测准确度还有待提升。
发明内容
为了解决目前存在的小麦粉粉质特性预测效率和预测准确度不高的问题,本发明提供了一种小麦粉粉质特性预测方法,包括:
步骤1:获取小麦粉近红外光谱数据并对其预处理;
步骤2:对预处理之后的小麦粉近红外光谱数据进行主成分分析,提取前若干个主成分作为降维后的光谱数据;
步骤3:利用高斯过程回归模型对所述降维后的光谱数据进行预测,得到高斯过程回归的预测标签数据;
步骤4:将所述高斯过程回归的预测标签数据输入改进型偏最小二乘回归模型,得到最终的小麦粉质特性预测结果;
所述改进型偏最小二乘回归模型包括:两个偏最小二乘回归模型,所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测,分别得出预测结果Ypre1和Ypre2,所述最终的小麦粉质特性预测结果基于Ypre1和Ypre2加权融合得到。
可选的,所述改进型偏最小二乘回归模型基于所述高斯过程回归模型的历史预测标签数据集得到,建模过程包括:
步骤41:为所述历史预测标签数据集选择分组阈值;
步骤42:基于所述分组阈值将历史预测标签数据对应的小麦粉近红外光谱数据分成数量相近的两组,一组的预测标签数据低于所述分组阈值,另一组的预测标签数据大于等于所述分组阈值;
步骤43:分别对两组数据建立偏最小二乘回归模型。
可选的,所述方法采用Sigmoid函数作为概率预测函数,融合两个偏最小二乘回归模型的预测结果,所述Sigmoid函数公式为:
其中,x=σ为所述Sigmoid函数的阈值点,也是将高斯过程回归的历史预测标签数据分成两组的分组阈值,所述分组阈值对应输出值为0.5,ω为所述Sigmoid函数的权值,改变权值ω使函数适应不同的标签数据范围;
将高斯过程回归的预测结果代入Sigmoid函数,得到预测结果分别落在两个偏最小二乘回归模型上的概率,再以概率为权重进行融合得到最终预测结果,融合公式为:
可选的,所述步骤1中预处理的过程包括:
步骤11:对收集到的每条小麦粉近红外光谱数据进行标准正态变换处理,公式为:
步骤22:对标准正态变换处理后的光谱进行多元散射校正处理,如果收集到的光谱数据有n条,则待多元散射校正处理的数据集为:
Xsnv=[xsnv,1,xsnv,2,…,xsnv,n]
其中,xsnv,1,xsnv,2,…,xsnv,n经过标准正态变换处理的光谱数据;
其次,将每个样本的光谱与平均光谱进行一元线性回归,求解最小二乘问题得到每个样本的基线平移量bi和偏移量ki,公式为:
最后,对每个样本的光谱进行校正,公式为:
多元散射校正处理后光谱数据集为:Xpt=[xsnvmsc,1,xsnvmsc,2,…,xsnvmsc,n]。
可选的,所述步骤2中进行主成分分析的过程包括:
步骤21:将经过预处理后的小麦粉近红外光谱数据用矩阵Xpt∈Rn×m表示,代表n个有m维特征变量的样本,形式如下:
其中,xij表示第i个样本的第j维变量,对xij标准化处理,得到:
式中,Λ是R的特征值构成的对角矩阵,Λ=diag[λ1,λ2,…,λm],U为特征向量矩阵,它的各列u1,u2,…,um为特征向量。
根据所求相关系数矩阵R的特征值λj,计算累计解释率Wj,公式为:
式中,λj为相关系数矩阵对应的特征值;
式中,yi为第i个近红外数据降低到k维得到的成分;
通过主成分分析,原代表预处理后的近红外数据矩阵Xpt,转变成为维度更低的Ypca=[y1,y2,…,yn]。
可选的,所述高斯过程回归模型的建立过程包括:
将主成分分析降维后的光谱数据Xpca作为高斯过程回归的输入,当f(Y)=[f(y1),f(y2),…,f(yn)]都服从多元高斯分布,则f(y)就是一个高斯过程,其公式为:
f(y)~N(μ(y),κ(y,y))
式中,μ(y)表示光谱数据各个维度的均值,κ(y,y)为协方差函数,即核函数,基本形式为:
式中,σ和l是核函数的超参数;
把以上的高斯过程作为高斯过程的先验,表示为f(y)~N(μf,Kff);
将降维后的近红外光谱数据和标签数据的组合(y*,z*)代入高斯过程先验,令z*与f(y)服从联合高斯分布,表示为:
式中,Kff=κ(y,y),Kfy=κ(y,y*),Kzz=κ(y*,y*),则有
之后,通过最大似然估计的方法,以最大化z出现的概率为目标,确定高斯核函数的超参数σ和l,公式为:
可选的,所述步骤43对两组数据建立偏最小二乘回归模型过程包括:
分组后,其中一组近红外光谱数据矩阵为Xpt1=[x1,x2,…,xp]m×p,表示含有p个m维的近红外数据样本,标签矩阵为Z=[z1,z2,…,zp]n×p,表示对应近红外光谱数据样本的粉质特性数据,将X和Y分别进行标准化处理,公式为:
之后,计算E0的第一成分t1和F0的第一成分u1,为使t1和u1的相关度最大,则要求让内积θ1达到最大,公式为:
则E0和F0对t1的回归方程为:
其中E1和F1为残差矩阵,α1和β1为回归系数向量,公式为:
用E1和F1分别代替E0和F0,重复以上步骤,即可得到第二对成分t2=E1ω2和u2=F1v2,则E1和F1对t2的回归方程为:
若E0的秩为r,则存在r个成分t1,t2,…,tr,且回归方程为:
将tk=wk1x1+wk2x2+…+wkpxp代入Y=t1β1+t2β2+…+trβr(k=1,2,…,r),即可得到p个标签的偏最小二乘回归方程:
偏最小二乘回归方程会进行交叉有效性验证截取前h个成分t1,t2,…,th,定义如下:
可选的,所述方法使用校正均方根误差RMSE作为评估指标用来评估预测能力,公式为:
可选的,所述小麦粉粉质特性包括:吸水率、形成时间、稳定时间、弱化度。
本发明有益效果是:
本发明的小麦粉粉质特性预测方法,通过在预处理阶段之后新增加高斯过程回归的模糊分类,分别建立两个偏最小二乘模型并将结果融合,优化了对数据特征提取利用,减少了相似方法重复优化的低效过程,相比于传统的和现有的改进型偏最小二乘方法,本发明将原本的数据进行二分类,让特征更相似的数据能归为一类并分别建立偏最小二乘模型,之后将结果融合,充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作,不仅可以有效地提升预测准确度,且预测效率也得到明显提升,同时本发明适用范围更广泛,也适用于不同的、更普遍的其他小麦粉光谱数据集。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例二的近红外原始光谱与预处理光谱对比图。
图2是本发明实施例二分组后的两个偏最小二乘模型回归图。
图3是本发明Sigmoid函数概率预测图。
图4是本发明的预测方法与传统预测方法的回归对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种小麦粉粉质特性预测方法,所述方法包括:
步骤1:获取小麦粉近红外光谱数据并对其预处理;
步骤2:对预处理之后的小麦粉近红外光谱数据进行主成分分析,提取前若干个主成分作为降维后的光谱数据;
步骤3:利用高斯过程回归模型对所述降维后的光谱数据进行预测,得到高斯过程回归的预测标签数据;
步骤4:将所述高斯过程回归的预测标签数据输入改进型偏最小二乘回归模型,得到最终的小麦粉质特性预测结果;
所述改进型偏最小二乘回归模型包括:两个偏最小二乘回归模型,所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测,分别得出预测结果Ypre1和Ypre2,所述最终的小麦粉质特性预测结果基于Ypre1和Ypre2加权融合得到。
实施例二:
本实施例提供一种小麦粉粉质特性预测方法,利用一种改进型偏最小二乘回归方法来根据小麦粉近红外光谱数据预测其粉质特性。
小麦粉粉质特性主要包括四个:吸水率、形成时间、稳定时间、弱化度。
通过引入高斯过程回归,将偏最小二乘回归的输入变量进行模糊分类,为分成的两类分别建立偏最小二乘回归模型,并通过Sigmoid函数将结果进行融合,该方法基于的数学模型的构建过程主要分为以下几个部分。
1、数据预处理
直接收集到的小麦粉近红外光谱数据有噪声、基线漂移等因素的干扰,对其进行数据预处理可以有效消除这些干扰。本实施例对数据进行两步预处理,包含标准正态变换和多元散射校正,具体步骤如下。
(1)首先对收集到的每条进行光谱数据进行标准正态变换处理,公式为:
(2)用经过标准正态变换处理的光谱代替原始光谱并进行多元散射校正处理,如果收集到的光谱数据有n条,则数据集为:
Xsnv=[xsnv,1,xsnv,2,…,xsnv,n]
其中,xsnv,1,xsnv,2,…,xsnv,n经过标准正态变换处理的光谱数据;
其次,将每个样本的光谱与平均光谱进行一元线性回归,求解最小二乘问题得到每个样本的基线平移量bi和偏移量ki,公式为:
最后,对每个样本的光谱进行校正,公式为:
多元散射校正处理后光谱数据集为:Xpt=[xsnvmsc,1,xsnvmsc,2,…,xsnvmsc,n]。
2、特征提取
光谱数据每个采样点包含的特征信息是互有高低的,使用主成分分析的方法为数据集X降维,将降维后的成分作为高斯过程回归的特征输入,具体步骤如下:
经过预处理的近红外光谱数据矩阵Xpt∈Rn×m,代表n个有m维特征变量的样本,形式如下。
其中,xij表示第i个样本的第j维变量,对xij标准化处理,得到:
式中,Λ是R的特征值构成的对角矩阵,Λ=diag[λ1,λ2,…,λm],U为特征向量矩阵,它的各列u1,u2,…,um为特征向量。
根据所求相关系数矩阵R的特征值λj,计算累计解释率Wj,公式为:
式中,λj为相关系数矩阵对应的特征值;
式中,yi为第i个近红外数据降低到k维得到的成分;
通过主成分分析,原代表预处理后的近红外数据矩阵Xpt,转变成为维度更低的Ypca=[y1,y2,…,xn]。
3、高斯过程回归的模糊分类
用主成分分析降维后的数据Ypca代替原近红外数据作为高斯过程回归的输入,当f(Y)=[f(y1),f(y2),…,f(yn)]都服从多元高斯分布,则f(y)就是一个高斯过程,其公式为:
f(y)~N(μ(y),κ(y,y))
式中,μ(y)表示光谱数据各个维度的均值,κ(y,y)为协方差函数,即核函数,基本形式为:
式中,σ和l是核函数的超参数;
把以上的高斯过程作为高斯过程的先验,表示为f(y)~N(μf,Kff);
将降维后的近红外光谱数据和标签数据的组合(y*,z*)代入高斯过程先验,令z*与f(y)服从联合高斯分布,表示为:
式中,Kff=κ(y,y),Kfy=κ(y,y*),Kzz=κ(y*,y*),则有
之后,通过最大似然估计的方法,以最大化z出现的概率为目标,确定高斯核函数的超参数σ和l,公式为:
4、两个偏最小二乘回归模型的建立
根据高斯过程回归得到的预测标签数据选择一个合适的阈值,将原近红外数据样本分成样本数量相近的两组,一组的预测标签数据低于阈值,另一组高于阈值,分别对两组数据建立偏最小二乘回归模型,过程如下。
分组后,其中一组近红外光谱数据矩阵为Xpt1=[x1,x2,…,xp]m×p,表示含有p个m维的近红外数据样本,标签矩阵为Z=[z1,z2,…,zp]n×p,表示对应近红外光谱数据样本的粉质特性数据,将X和Y分别进行标准化处理,公式为:
之后,计算E0的第一成分t1和F0的第一成分u1,为使t1和u1的相关度最大,则要求让内积θ1达到最大,公式为:
则E0和F0对t1的回归方程为:
其中E1和F1为残差矩阵,α1和β1为回归系数向量,公式为:
用E1和F1分别代替E0和F0,重复以上步骤,即可得到第二对成分t2=E1ω2和u2=F1v2,则E1和F1对t2的回归方程为:
若E0的秩为r,则存在r个成分t1,t2,…,tr,且回归方程为:
将tk=wk1x1+wk2x2+…+wkpxp代入Y=t1β1+t2β2+…+trβr(k=1,2,…,r),即可得到p个标签的偏最小二乘回归方程:
偏最小二乘回归方程会进行交叉有效性验证截取前h个成分t1,t2,…,th,定义如下:
本实施例中对四个粉质特性分别建立偏最小二乘回归模型,所以标签Y中的元素是1维,即n=1。
经过上述过程,两组近红外光谱数据的模型都建立完成,并且分别得到了两个模型的预测标签Ypre1和Ypre2。
5、两个偏最小二乘回归模型的融合
本发明中,使用Sigmoid函数作为概率预测函数融合两个偏最小二乘回归模型的结果,Sigmoid函数公式为:
式中,x=σ为函数的阈值点,也是将高斯过程回归的结果分成两组的阈值,对应输出值为0.5,ω为函数的权值,改变权值可以使函数适应不同的标签范围。
将高斯过程回归的结果代入Sigmoid函数,可以得到样本分别落在两个偏最小二乘回归模型上的概率,再以概率为权重进行融合得到最终预测结果,公式为:
6、引入评价指标
在寻找最佳模型时,研究中综合考虑了PCA主成分的累计解释度、PLSR模型系数和建模结果,在比较改进模型和普通偏最小二乘回归模型性能时,使用校正均方根误差作为评估指标用来评估模型预测能力,公式为:
模型构建好之后,基于该模型按照以下步骤进行小麦粉粉质特性的预测:
步骤1:获取小麦粉近红外光谱数据并对其预处理,依次进行标准正态变换和多元散射校正处理;
步骤2:对预处理之后的小麦粉近红外光谱数据进行主成分分析,提取前若干个主成分作为降维后的光谱数据;
步骤3:利用高斯过程回归模型对所述降维后的光谱数据进行预测,得到高斯过程回归的预测标签数据;
步骤4:将所述高斯过程回归的预测标签数据输入两个偏最小二乘回归模型,所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测,分别得出预测结果Ypre1和Ypre2;
步骤5:将高斯过程回归的结果Ypre1和Ypre2代入Sigmoid函数,可以得到样本分别落在两个偏最小二乘回归模型上的概率,再以概率为权重进行融合得到最终预测结果,公式为:
为验证本发明的效果,选择了一组968份小麦粉实验样本作为实验对象对算法进行测试,并将实验结果与普通偏最小二乘回归方法作比较。结果表示,对小麦粉四个粉质特性(吸水率、形成时间、稳定时间、弱化度)普通偏最小二乘回归模型的结果为2.039、1.837、3.968、21.252,而改进模型的结果为1.876、1.160、2.459、14.449。
实验结果表明,改进算法均方根误差更小,模型预测结果和真实值更接近,更有利于近红外光谱技术的检测应用。
此外,本实施例的小麦粉质特性预测方法,通过在预处理阶段之后新增加高斯过程回归的模糊分类,分别建立两个偏最小二乘模型并将结果融合,优化了对数据特征提取利用,减少了相似方法重复优化的低效过程,相比于传统的和现有的改进型偏最小二乘方法,本发明将原本的数据进行二分类,让特征更相似的数据能归为一类并分别建立偏最小二乘模型,之后将结果融合,充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作,不仅可以有效地提升预测准确度,且预测效率也得到明显提升,同时本发明适用范围更广泛,也适用于不同的、更普遍的其他小麦粉光谱数据集。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种小麦粉粉质特性预测方法,其特征在于,所述方法包括:
步骤1:获取小麦粉近红外光谱数据并对其预处理;
步骤2:对预处理之后的小麦粉近红外光谱数据进行主成分分析,提取前若干个主成分作为降维后的光谱数据;
步骤3:利用高斯过程回归模型对所述降维后的光谱数据进行预测,得到高斯过程回归的预测标签数据;
步骤4:将所述高斯过程回归的预测标签数据输入改进型偏最小二乘回归模型,得到最终的小麦粉质特性预测结果;
所述改进型偏最小二乘回归模型包括:两个偏最小二乘回归模型,所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测,分别得出预测结果Ypre1和Ypre2,所述最终的小麦粉质特性预测结果基于Ypre1和Ypre2加权融合得到。
2.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述改进型偏最小二乘回归模型基于所述高斯过程回归模型的历史预测标签数据集得到,建模过程包括:
步骤41:为所述历史预测标签数据集选择分组阈值;
步骤42:基于所述分组阈值将历史预测标签数据对应的小麦粉近红外光谱数据分成数量相近的两组,一组的预测标签数据低于所述分组阈值,另一组的预测标签数据大于等于所述分组阈值;
步骤43:分别对两组数据建立偏最小二乘回归模型。
4.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述步骤1中预处理的过程包括:
步骤11:对收集到的每条小麦粉近红外光谱数据进行标准正态变换处理,公式为:
步骤22:对标准正态变换处理后的光谱进行多元散射校正处理,如果收集到的光谱数据有n条,则待多元散射校正处理的数据集为:
Xsnv=[xsnv,1,xsnv,2,…,xsnv,n]
其中,xsnv,1,xsnv,2,…,ssnv,n经过标准正态变换处理的光谱数据;
其次,将每个样本的光谱与平均光谱进行一元线性回归,求解最小二乘问题得到每个样本的基线平移量bi和偏移量ki,公式为:
最后,对每个样本的光谱进行校正,公式为:
多元散射校正处理后光谱数据集为:Xpt=[xsnvmsc,1,xsnvmsc,2,…,xsnvmsc,n]。
5.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述步骤2中进行主成分分析的过程包括:
步骤21:将经过预处理后的小麦粉近红外光谱数据用矩阵Xpt∈Rn×m表示,代表n个有m维特征变量的样本,形式如下:
其中,xij表示第i个样本的第j维变量,对xij标准化处理,得到:
式中,Λ是R的特征值构成的对角矩阵,Λ=diag[λ1,λ2,…,λm],U为特征向量矩阵,它的各列u1,u2,…,um为特征向量。
根据所求相关系数矩阵R的特征值λj,计算累计解释率Wj,公式为:
式中,λj为相关系数矩阵对应的特征值;
式中,yi为第i个近红外数据降低到k维得到的成分;
通过主成分分析,原代表预处理后的近红外数据矩阵Xpt,转变成为维度更低的Ypca=[y1,y2,…,yn]。
6.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述高斯过程回归模型的建立过程包括:
将主成分分析降维后的光谱数据Xpca作为高斯过程回归的输入,当f(Y)=[f(y1),f(y2),…,f(yn)]都服从多元高斯分布,则f(y)就是一个高斯过程,其公式为:
f(y)~N(μ(y),κ(y,y))
式中,μ(y)表示光谱数据各个维度的均值,κ(y,y)为协方差函数,即核函数,基本形式为:
式中,σ和l是核函数的超参数;
把以上的高斯过程作为高斯过程的先验,表示为f(y)~N(μf,Kff);
将降维后的近红外光谱数据和标签数据的组合(y*,z*)代入高斯过程先验,令z*与f(y)服从联合高斯分布,表示为:
式中,Kff=κ(y,y),Kfy=κ(y,y*),Kzz=κ(y*,y*),则有
之后,通过最大似然估计的方法,以最大化z出现的概率为目标,确定高斯核函数的超参数σ和l,公式为:
7.根据权利要求2所述的小麦粉粉质特性预测方法,其特征在于,所述步骤43对两组数据建立偏最小二乘回归模型过程包括:
分组后,其中一组近红外光谱数据矩阵为Xpt1=[x1,x2,…,xp]m×p,表示含有p个m维的近红外数据样本,标签矩阵为Z=[z1,z2,…,zp]n×p,表示对应近红外光谱数据样本的粉质特性数据,将X和Y分别进行标准化处理,公式为:
之后,计算E0的第一成分t1和F0的第一成分u1,为使t1和u1的相关度最大,则要求让内积θ1达到最大,公式为:
则E0和F0对t1的回归方程为:
其中E1和F1为残差矩阵,α1和β1为回归系数向量,公式为:
用E1和F1分别代替E0和F0,重复以上步骤,即可得到第二对成分t2=E1ω2和u2=F1v2,则E1和F1对t2的回归方程为:
若E0的秩为r,则存在r个成分t1,t2,…,tr,且回归方程为:
将tk=wk1x1+wk2x2+…+wkpxp代入Y=t1β1+t2β2+…+trβr(k=1,2,…,r),即可得到p个标签的偏最小二乘回归方程:
偏最小二乘回归方程会进行交叉有效性验证截取前h个成分t1,t2,…,th,定义如下:
9.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述小麦粉粉质特性包括:吸水率、形成时间、稳定时间、弱化度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211222793.2A CN115630332A (zh) | 2022-10-08 | 2022-10-08 | 一种小麦粉粉质特性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211222793.2A CN115630332A (zh) | 2022-10-08 | 2022-10-08 | 一种小麦粉粉质特性预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115630332A true CN115630332A (zh) | 2023-01-20 |
Family
ID=84905197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211222793.2A Pending CN115630332A (zh) | 2022-10-08 | 2022-10-08 | 一种小麦粉粉质特性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115630332A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117929356A (zh) * | 2024-03-21 | 2024-04-26 | 沈阳尖科智能测控技术合伙企业(有限合伙) | 一种基于高斯过程回归的libs定量分析方法 |
-
2022
- 2022-10-08 CN CN202211222793.2A patent/CN115630332A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117929356A (zh) * | 2024-03-21 | 2024-04-26 | 沈阳尖科智能测控技术合伙企业(有限合伙) | 一种基于高斯过程回归的libs定量分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493287B (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
Bin et al. | A modified random forest approach to improve multi-class classification performance of tobacco leaf grades coupled with NIR spectroscopy | |
CN109324013B (zh) | 利用高斯过程回归模型构建原油性质近红外快速分析方法 | |
CN109324014B (zh) | 一种自适应的原油性质近红外快速预测方法 | |
CN113052271B (zh) | 基于深度神经网络的生物发酵数据预测方法 | |
Iraji | Comparison between soft computing methods for tomato quality grading using machine vision | |
Jiang et al. | Using an optimal CC-PLSR-RBFNN model and NIR spectroscopy for the starch content determination in corn | |
CN111950795B (zh) | 基于随机森林的松散回潮加水比例的预测方法 | |
CN115630332A (zh) | 一种小麦粉粉质特性预测方法 | |
CN116935384A (zh) | 一种细胞异常样本智能化检测方法 | |
Liu et al. | Identification of heat damage in imported soybeans based on hyperspectral imaging technology | |
CN109283153B (zh) | 一种酱油定量分析模型的建立方法 | |
Li et al. | Quantitative analysis of aflatoxin B1 of peanut by optimized support vector machine models based on near-infrared spectral features | |
CN114611582A (zh) | 一种基于近红外光谱技术分析物质浓度的方法及系统 | |
Wu et al. | Determination of corn protein content using near-infrared spectroscopy combined with A-CARS-PLS | |
CN113408616A (zh) | 基于pca-uve-elm的光谱分类方法 | |
CN113310934A (zh) | 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法 | |
Huang et al. | Optimal wavelength selection for hyperspectral scattering prediction of apple firmness and soluble solids content | |
CN104964943B (zh) | 一种基于自适应Group Lasso的红外光谱波长选择方法 | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
CN106950193B (zh) | 基于自加权变量组合集群分析的近红外光谱变量选择方法 | |
CN111220565B (zh) | 一种基于cpls的红外光谱测量仪器标定迁移方法 | |
Qu et al. | Ordinal Regression-Extreme Learning Machine based Apple Grading Method | |
Tan et al. | Effects of Pre-Processing and Principal Components for Artificial Neural Network in Non-Destructive Internal Quality Prediction of Mango across Different Harvest Periods | |
CN114047214B (zh) | 一种改进的dbn-morf土壤重金属含量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |