CN115630332A - 一种小麦粉粉质特性预测方法 - Google Patents

一种小麦粉粉质特性预测方法 Download PDF

Info

Publication number
CN115630332A
CN115630332A CN202211222793.2A CN202211222793A CN115630332A CN 115630332 A CN115630332 A CN 115630332A CN 202211222793 A CN202211222793 A CN 202211222793A CN 115630332 A CN115630332 A CN 115630332A
Authority
CN
China
Prior art keywords
data
formula
regression
wheat flour
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211222793.2A
Other languages
English (en)
Inventor
周德强
陈嘉伟
左文娟
崔晨昊
盛卫锋
任志俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202211222793.2A priority Critical patent/CN115630332A/zh
Publication of CN115630332A publication Critical patent/CN115630332A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种小麦粉粉质特性预测方法,属于农产品品质检测领域。所述方法通过引入高斯过程回归,将偏最小二乘回归的输入变量进行模糊分类,为分成的两类分别建立偏最小二乘回归模型,并通过Sigmoid函数将结果进行融合。相比于传统的和现有的改进型偏最小二乘方法,本发明将原本的数据进行二分类,让特征更相似的数据能归为一类并分别建立偏最小二乘模型,之后将结果融合,充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作,不仅可以有效地提升预测准确度,且预测效率也得到明显提升。

Description

一种小麦粉粉质特性预测方法
技术领域
本发明涉及一种小麦粉粉质特性预测方法,属于农产品品质检测领域。
背景技术
近红外光谱分析技术是近十年来发展最为迅速的高新分析技术之一,以其快速、简便、高效等优势被人们认识和接受,在小麦粉行业被广泛应用于预测成分参数,如水分、蛋白质、灰分和湿面筋含量。随着人们对小麦食品的色泽、味道、保质时间等提出更高的要求,小麦粉的粉质特性也被列入主要检测指标,传统方法下,粉质特性通过粉质仪测量,粉质仪根据仪器内面粉形成面团的过程给出四个重要的参数,包括吸水率、形成时间、稳定时间、弱化度。如今,利用近红外光谱结合机器学习可以快速、无损的检测小麦粉的粉质特性,方法就是使用机器学习的回归算法训练近红外光谱数据建立预测模型,目前近红外光谱分析技术中应用的回归算法包括多元线性回归、主成分回归、偏最小二乘回归等。
偏最小二乘回归算法是一种多自变量对多应变量的回归算法,在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,以此提高预测效果。普通偏最小二乘回归建立的预测模型有良好的预测响应,但是对输入变量的筛选与分析有不足之处,在如今近红外光谱的应用中,预测模型的精确度已经无法满足要求。
为了提升偏最小二乘回归算法的预测精度,目前不少学者结合实际问题对传统偏最小二乘回归算法做了相关改进。杨淋玉等人将遗传算法与偏最小二乘回归相结合,以遗传算法挑选出的光谱特征作为偏最小二乘回归的输入变量,提高预测模型的准确度(杨淋玉,丁宇,战晔,朱绍农,陈雨娟,邓凡,赵兴强.基于LIBS与GA-PLS的钢铁中Mn,Ni元素定量分析研究[J].光谱学与光谱分析,2022,42(06):1804-1808.)。刘美枝等人引入异常点剔除的步骤,在建模前发现异常数据,使建模数据的准确性提高(刘美枝,杨磊.一种剔除异常点的偏最小二乘故障监测方法[J].山西大同大学学报(自然科学版),2022,38(02):11-15.)。朱绍农等人将波段区间选择方法融入偏最小二乘回归中,为偏最小二乘回归选择最佳光谱波段(朱绍农,丁宇,陈雨娟,邓凡,陈非凡,严飞.LIBS与变量选择PLS结合的含油土壤中Cu,Ni定量分析[J].光谱学与光谱分析,2020,40(12):3812-3817.)。何文绚等人将正交信号校正法与偏最小二乘回归结合,先利用正交信号校正法去除无关的光谱正交分量,再建立预测模型,以提高预测准确度(何文绚,雷进宇,卢先勇,陈婷.基于R语言、正交偏最小二乘判别分析的植物油鉴定方法[P].福建省:CN113392586A,2021-09-14.。
虽然上述方案能够在一定程度上提升预测准确度,但方法的改进集中在预处理阶段和数据输入算法模型的阶段,容易产生过优化使效果减弱。遗传算法与偏最小二乘回归相结合虽然优化了算法的数据输入,但它过于依赖初始输入数据,容易快速收敛而丢失原有的一些数据特征,尤其是当数据量较大的时候;而异常点的剔除和波段区间选择都是为了在预处理阶段和数据输入阶段去掉部分异常值的干扰和增强优势特征的表达,数据预处理和偏最小二乘法本身具备这个能力;正交信号校正法与偏最小二乘回归结合也是对数据预处理阶段的优化,其他同步进行的预处理方法也能达到相似的效果,导致正交信号校正法对模型预测效果提升不明显。
综上所述,现有的预测方法虽然在一定程度上可以提升预测效果,但是预测效率和预测准确度还有待提升。
发明内容
为了解决目前存在的小麦粉粉质特性预测效率和预测准确度不高的问题,本发明提供了一种小麦粉粉质特性预测方法,包括:
步骤1:获取小麦粉近红外光谱数据并对其预处理;
步骤2:对预处理之后的小麦粉近红外光谱数据进行主成分分析,提取前若干个主成分作为降维后的光谱数据;
步骤3:利用高斯过程回归模型对所述降维后的光谱数据进行预测,得到高斯过程回归的预测标签数据;
步骤4:将所述高斯过程回归的预测标签数据输入改进型偏最小二乘回归模型,得到最终的小麦粉质特性预测结果;
所述改进型偏最小二乘回归模型包括:两个偏最小二乘回归模型,所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测,分别得出预测结果Ypre1和Ypre2,所述最终的小麦粉质特性预测结果基于Ypre1和Ypre2加权融合得到。
可选的,所述改进型偏最小二乘回归模型基于所述高斯过程回归模型的历史预测标签数据集得到,建模过程包括:
步骤41:为所述历史预测标签数据集选择分组阈值;
步骤42:基于所述分组阈值将历史预测标签数据对应的小麦粉近红外光谱数据分成数量相近的两组,一组的预测标签数据低于所述分组阈值,另一组的预测标签数据大于等于所述分组阈值;
步骤43:分别对两组数据建立偏最小二乘回归模型。
可选的,所述方法采用Sigmoid函数作为概率预测函数,融合两个偏最小二乘回归模型的预测结果,所述Sigmoid函数公式为:
Figure BDA0003878237350000031
其中,x=σ为所述Sigmoid函数的阈值点,也是将高斯过程回归的历史预测标签数据分成两组的分组阈值,所述分组阈值对应输出值为0.5,ω为所述Sigmoid函数的权值,改变权值ω使函数适应不同的标签数据范围;
将高斯过程回归的预测结果代入Sigmoid函数,得到预测结果分别落在两个偏最小二乘回归模型上的概率,再以概率为权重进行融合得到最终预测结果,融合公式为:
Figure BDA0003878237350000032
式中,
Figure BDA0003878237350000033
为高斯过程回归的预测结果。
可选的,所述步骤1中预处理的过程包括:
步骤11:对收集到的每条小麦粉近红外光谱数据进行标准正态变换处理,公式为:
Figure BDA0003878237350000034
式中,x=[x1,x2,…,xm]为原始小麦粉近红外光谱数据,
Figure BDA0003878237350000035
m为光谱的采样点数也即维度,xk为这条光谱第k个采样点的值;
步骤22:对标准正态变换处理后的光谱进行多元散射校正处理,如果收集到的光谱数据有n条,则待多元散射校正处理的数据集为:
Xsnv=[xsnv,1,xsnv,2,…,xsnv,n]
其中,xsnv,1,xsnv,2,…,xsnv,n经过标准正态变换处理的光谱数据;
首先,求得所有光谱数据的平均值
Figure BDA0003878237350000036
作为理想光谱,公式为:
Figure BDA0003878237350000037
其次,将每个样本的光谱与平均光谱进行一元线性回归,求解最小二乘问题得到每个样本的基线平移量bi和偏移量ki,公式为:
Figure BDA0003878237350000038
最后,对每个样本的光谱进行校正,公式为:
Figure BDA0003878237350000039
多元散射校正处理后光谱数据集为:Xpt=[xsnvmsc,1,xsnvmsc,2,…,xsnvmsc,n]。
可选的,所述步骤2中进行主成分分析的过程包括:
步骤21:将经过预处理后的小麦粉近红外光谱数据用矩阵Xpt∈Rn×m表示,代表n个有m维特征变量的样本,形式如下:
Figure BDA0003878237350000041
其中,xij表示第i个样本的第j维变量,对xij标准化处理,得到:
Figure BDA0003878237350000042
式中,
Figure BDA0003878237350000043
为所有样本第j维的均值,Sj为其方差;
步骤22:将xij替换为
Figure BDA0003878237350000044
则Xpt转变为了
Figure BDA0003878237350000045
形式如下:
Figure BDA0003878237350000046
Figure BDA0003878237350000047
的协方差矩阵
Figure BDA0003878237350000048
特征分解:
Figure BDA0003878237350000049
式中,Λ是R的特征值构成的对角矩阵,Λ=diag[λ12,…,λm],U为特征向量矩阵,它的各列u1,u2,…,um为特征向量。
根据所求相关系数矩阵R的特征值λj,计算累计解释率Wj,公式为:
Figure BDA00038782373500000410
式中,λj为相关系数矩阵对应的特征值;
步骤23:结合累计解释率Wj和实际需求,选择Xpt降低的维度,并求出这个维度下的主成分,对于每一个样本
Figure BDA00038782373500000411
降维公式为:
Figure BDA00038782373500000412
式中,yi为第i个近红外数据降低到k维得到的成分;
通过主成分分析,原代表预处理后的近红外数据矩阵Xpt,转变成为维度更低的Ypca=[y1,y2,…,yn]。
可选的,所述高斯过程回归模型的建立过程包括:
将主成分分析降维后的光谱数据Xpca作为高斯过程回归的输入,当f(Y)=[f(y1),f(y2),…,f(yn)]都服从多元高斯分布,则f(y)就是一个高斯过程,其公式为:
f(y)~N(μ(y),κ(y,y))
式中,μ(y)表示光谱数据各个维度的均值,κ(y,y)为协方差函数,即核函数,基本形式为:
Figure BDA0003878237350000051
式中,σ和l是核函数的超参数;
把以上的高斯过程作为高斯过程的先验,表示为f(y)~N(μf,Kff);
将降维后的近红外光谱数据和标签数据的组合(y*,z*)代入高斯过程先验,令z*与f(y)服从联合高斯分布,表示为:
Figure BDA0003878237350000052
式中,Kff=κ(y,y),Kfy=κ(y,y*),Kzz=κ(y*,y*),则有
Figure BDA0003878237350000053
上式实现了高斯过程回归,并得到高斯过程后验分布的均值
Figure BDA0003878237350000054
和协方差
Figure BDA0003878237350000055
之后,通过最大似然估计的方法,以最大化z出现的概率为目标,确定高斯核函数的超参数σ和l,公式为:
Figure BDA0003878237350000056
最后,再将Xpca代入高斯过程后验,得到高斯过程回归的预测标签数据
Figure BDA0003878237350000057
Figure BDA0003878237350000058
可选的,所述步骤43对两组数据建立偏最小二乘回归模型过程包括:
分组后,其中一组近红外光谱数据矩阵为Xpt1=[x1,x2,…,xp]m×p,表示含有p个m维的近红外数据样本,标签矩阵为Z=[z1,z2,…,zp]n×p,表示对应近红外光谱数据样本的粉质特性数据,将X和Y分别进行标准化处理,公式为:
Figure BDA0003878237350000059
其中,
Figure BDA00038782373500000615
sx,j
Figure BDA0003878237350000061
分别表示xj的标准差和均值,
Figure BDA0003878237350000062
sz,j
Figure BDA0003878237350000063
分别表示yj的标准差和均值;
之后,计算E0的第一成分t1和F0的第一成分u1,为使t1和u1的相关度最大,则要求让内积θ1达到最大,公式为:
Figure BDA0003878237350000064
其中,w1由矩阵
Figure BDA0003878237350000065
的最大特征值对应的特征向量得到,
Figure BDA0003878237350000066
由w1和v1即可得到第一对成分:
Figure BDA0003878237350000067
则E0和F0对t1的回归方程为:
Figure BDA0003878237350000068
其中E1和F1为残差矩阵,α1和β1为回归系数向量,公式为:
Figure BDA0003878237350000069
用E1和F1分别代替E0和F0,重复以上步骤,即可得到第二对成分t2=E1ω2和u2=F1v2,则E1和F1对t2的回归方程为:
Figure BDA00038782373500000610
若E0的秩为r,则存在r个成分t1,t2,…,tr,且回归方程为:
Figure BDA00038782373500000611
将tk=wk1x1+wk2x2+…+wkpxp代入Y=t1β1+t2β2+…+trβr(k=1,2,…,r),即可得到p个标签的偏最小二乘回归方程:
Figure BDA00038782373500000612
偏最小二乘回归方程会进行交叉有效性验证截取前h个成分t1,t2,…,th,定义如下:
Figure BDA00038782373500000613
每次提取成分后都利用上式检验,当
Figure BDA00038782373500000614
时,停止成分的提取,ε为设定的精度要求;上式中:
Figure BDA0003878237350000071
Figure BDA0003878237350000072
其中,
Figure BDA0003878237350000073
为第i个样本点的拟合值。
可选的,所述方法使用校正均方根误差RMSE作为评估指标用来评估预测能力,公式为:
Figure BDA0003878237350000074
式中,zi为真实标签值,
Figure BDA0003878237350000075
为最终预测的标签值。
可选的,所述小麦粉粉质特性包括:吸水率、形成时间、稳定时间、弱化度。
本发明有益效果是:
本发明的小麦粉粉质特性预测方法,通过在预处理阶段之后新增加高斯过程回归的模糊分类,分别建立两个偏最小二乘模型并将结果融合,优化了对数据特征提取利用,减少了相似方法重复优化的低效过程,相比于传统的和现有的改进型偏最小二乘方法,本发明将原本的数据进行二分类,让特征更相似的数据能归为一类并分别建立偏最小二乘模型,之后将结果融合,充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作,不仅可以有效地提升预测准确度,且预测效率也得到明显提升,同时本发明适用范围更广泛,也适用于不同的、更普遍的其他小麦粉光谱数据集。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例二的近红外原始光谱与预处理光谱对比图。
图2是本发明实施例二分组后的两个偏最小二乘模型回归图。
图3是本发明Sigmoid函数概率预测图。
图4是本发明的预测方法与传统预测方法的回归对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种小麦粉粉质特性预测方法,所述方法包括:
步骤1:获取小麦粉近红外光谱数据并对其预处理;
步骤2:对预处理之后的小麦粉近红外光谱数据进行主成分分析,提取前若干个主成分作为降维后的光谱数据;
步骤3:利用高斯过程回归模型对所述降维后的光谱数据进行预测,得到高斯过程回归的预测标签数据;
步骤4:将所述高斯过程回归的预测标签数据输入改进型偏最小二乘回归模型,得到最终的小麦粉质特性预测结果;
所述改进型偏最小二乘回归模型包括:两个偏最小二乘回归模型,所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测,分别得出预测结果Ypre1和Ypre2,所述最终的小麦粉质特性预测结果基于Ypre1和Ypre2加权融合得到。
实施例二:
本实施例提供一种小麦粉粉质特性预测方法,利用一种改进型偏最小二乘回归方法来根据小麦粉近红外光谱数据预测其粉质特性。
小麦粉粉质特性主要包括四个:吸水率、形成时间、稳定时间、弱化度。
通过引入高斯过程回归,将偏最小二乘回归的输入变量进行模糊分类,为分成的两类分别建立偏最小二乘回归模型,并通过Sigmoid函数将结果进行融合,该方法基于的数学模型的构建过程主要分为以下几个部分。
1、数据预处理
直接收集到的小麦粉近红外光谱数据有噪声、基线漂移等因素的干扰,对其进行数据预处理可以有效消除这些干扰。本实施例对数据进行两步预处理,包含标准正态变换和多元散射校正,具体步骤如下。
(1)首先对收集到的每条进行光谱数据进行标准正态变换处理,公式为:
Figure BDA0003878237350000091
式中,x=[x1,x2,…,xm]为原始小麦粉近红外光谱数据,
Figure BDA0003878237350000092
m为光谱的采样点数也即维度,xk为这条光谱第k个采样点的值;
(2)用经过标准正态变换处理的光谱代替原始光谱并进行多元散射校正处理,如果收集到的光谱数据有n条,则数据集为:
Xsnv=[xsnv,1,xsnv,2,…,xsnv,n]
其中,xsnv,1,xsnv,2,…,xsnv,n经过标准正态变换处理的光谱数据;
首先,求得所有光谱数据的平均值
Figure BDA0003878237350000093
作为理想光谱,公式为:
Figure BDA0003878237350000094
其次,将每个样本的光谱与平均光谱进行一元线性回归,求解最小二乘问题得到每个样本的基线平移量bi和偏移量ki,公式为:
Figure BDA0003878237350000095
最后,对每个样本的光谱进行校正,公式为:
Figure BDA0003878237350000096
多元散射校正处理后光谱数据集为:Xpt=[xsnvmsc,1,xsnvmsc,2,…,xsnvmsc,n]。
2、特征提取
光谱数据每个采样点包含的特征信息是互有高低的,使用主成分分析的方法为数据集X降维,将降维后的成分作为高斯过程回归的特征输入,具体步骤如下:
经过预处理的近红外光谱数据矩阵Xpt∈Rn×m,代表n个有m维特征变量的样本,形式如下。
Figure BDA0003878237350000097
其中,xij表示第i个样本的第j维变量,对xij标准化处理,得到:
Figure BDA0003878237350000098
式中,
Figure BDA0003878237350000099
为所有样本第j维的均值,Sj为其方差;
将xij替换为
Figure BDA0003878237350000101
则Xpt转变为了
Figure BDA0003878237350000102
形式如下:
Figure BDA0003878237350000103
Figure BDA0003878237350000104
的协方差矩阵
Figure BDA0003878237350000105
特征分解:
Figure BDA0003878237350000106
式中,Λ是R的特征值构成的对角矩阵,Λ=diag[λ1,λ2,…,λm],U为特征向量矩阵,它的各列u1,u2,…,um为特征向量。
根据所求相关系数矩阵R的特征值λj,计算累计解释率Wj,公式为:
Figure BDA0003878237350000107
式中,λj为相关系数矩阵对应的特征值;
最后,结合累计解释率Wj和实际需求,选择Xpt降低的维度,并求出这个维度下的主成分,对于每一个样本
Figure BDA0003878237350000108
降维公式为:
Figure BDA0003878237350000109
式中,yi为第i个近红外数据降低到k维得到的成分;
通过主成分分析,原代表预处理后的近红外数据矩阵Xpt,转变成为维度更低的Ypca=[y1,y2,…,xn]。
3、高斯过程回归的模糊分类
用主成分分析降维后的数据Ypca代替原近红外数据作为高斯过程回归的输入,当f(Y)=[f(y1),f(y2),…,f(yn)]都服从多元高斯分布,则f(y)就是一个高斯过程,其公式为:
f(y)~N(μ(y),κ(y,y))
式中,μ(y)表示光谱数据各个维度的均值,κ(y,y)为协方差函数,即核函数,基本形式为:
Figure BDA00038782373500001010
式中,σ和l是核函数的超参数;
把以上的高斯过程作为高斯过程的先验,表示为f(y)~N(μf,Kff);
将降维后的近红外光谱数据和标签数据的组合(y*,z*)代入高斯过程先验,令z*与f(y)服从联合高斯分布,表示为:
Figure BDA0003878237350000111
式中,Kff=κ(y,y),Kfy=κ(y,y*),Kzz=κ(y*,y*),则有
Figure BDA0003878237350000112
上式实现了高斯过程回归,并得到高斯过程后验分布的均值
Figure BDA0003878237350000113
和协方差
Figure BDA0003878237350000114
之后,通过最大似然估计的方法,以最大化z出现的概率为目标,确定高斯核函数的超参数σ和l,公式为:
Figure BDA0003878237350000115
最后,再将Xpca代入高斯过程后验,得到高斯过程回归的预测标签数据
Figure BDA0003878237350000116
Figure BDA0003878237350000117
4、两个偏最小二乘回归模型的建立
根据高斯过程回归得到的预测标签数据选择一个合适的阈值,将原近红外数据样本分成样本数量相近的两组,一组的预测标签数据低于阈值,另一组高于阈值,分别对两组数据建立偏最小二乘回归模型,过程如下。
分组后,其中一组近红外光谱数据矩阵为Xpt1=[x1,x2,…,xp]m×p,表示含有p个m维的近红外数据样本,标签矩阵为Z=[z1,z2,…,zp]n×p,表示对应近红外光谱数据样本的粉质特性数据,将X和Y分别进行标准化处理,公式为:
Figure BDA0003878237350000118
其中,
Figure BDA0003878237350000119
sx,j
Figure BDA00038782373500001110
分别表示xj的标准差和均值,
Figure BDA00038782373500001111
sz,j
Figure BDA00038782373500001112
分别表示yj的标准差和均值;
之后,计算E0的第一成分t1和F0的第一成分u1,为使t1和u1的相关度最大,则要求让内积θ1达到最大,公式为:
Figure BDA00038782373500001113
其中,w1由矩阵
Figure BDA00038782373500001114
的最大特征值对应的特征向量得到,
Figure BDA00038782373500001115
由w1和v1即可得到第一对成分:
Figure BDA0003878237350000121
则E0和F0对t1的回归方程为:
Figure BDA0003878237350000122
其中E1和F1为残差矩阵,α1和β1为回归系数向量,公式为:
Figure BDA0003878237350000123
用E1和F1分别代替E0和F0,重复以上步骤,即可得到第二对成分t2=E1ω2和u2=F1v2,则E1和F1对t2的回归方程为:
Figure BDA0003878237350000124
若E0的秩为r,则存在r个成分t1,t2,…,tr,且回归方程为:
Figure BDA0003878237350000125
将tk=wk1x1+wk2x2+…+wkpxp代入Y=t1β1+t2β2+…+trβr(k=1,2,…,r),即可得到p个标签的偏最小二乘回归方程:
Figure BDA0003878237350000126
偏最小二乘回归方程会进行交叉有效性验证截取前h个成分t1,t2,…,th,定义如下:
Figure BDA0003878237350000127
每次提取成分后都利用上式检验,当
Figure BDA0003878237350000128
时,停止成分的提取,ε为设定的精度要求;上式中:
Figure BDA0003878237350000129
Figure BDA00038782373500001210
其中,
Figure BDA00038782373500001211
为第i个样本点的拟合值。
本实施例中对四个粉质特性分别建立偏最小二乘回归模型,所以标签Y中的元素是1维,即n=1。
经过上述过程,两组近红外光谱数据的模型都建立完成,并且分别得到了两个模型的预测标签Ypre1和Ypre2
5、两个偏最小二乘回归模型的融合
本发明中,使用Sigmoid函数作为概率预测函数融合两个偏最小二乘回归模型的结果,Sigmoid函数公式为:
Figure BDA0003878237350000131
式中,x=σ为函数的阈值点,也是将高斯过程回归的结果分成两组的阈值,对应输出值为0.5,ω为函数的权值,改变权值可以使函数适应不同的标签范围。
将高斯过程回归的结果代入Sigmoid函数,可以得到样本分别落在两个偏最小二乘回归模型上的概率,再以概率为权重进行融合得到最终预测结果,公式为:
Figure BDA0003878237350000132
式中,
Figure BDA0003878237350000133
为高斯过程回归的预测标签数据
Figure BDA0003878237350000134
6、引入评价指标
在寻找最佳模型时,研究中综合考虑了PCA主成分的累计解释度、PLSR模型系数和建模结果,在比较改进模型和普通偏最小二乘回归模型性能时,使用校正均方根误差作为评估指标用来评估模型预测能力,公式为:
Figure BDA0003878237350000135
式中,zi为真实标签值,
Figure BDA0003878237350000136
为回归模型预测的标签值,从上式可以看出,当预测值和真实值越接近,RMSE越小,则模型效果越好。
模型构建好之后,基于该模型按照以下步骤进行小麦粉粉质特性的预测:
步骤1:获取小麦粉近红外光谱数据并对其预处理,依次进行标准正态变换和多元散射校正处理;
步骤2:对预处理之后的小麦粉近红外光谱数据进行主成分分析,提取前若干个主成分作为降维后的光谱数据;
步骤3:利用高斯过程回归模型对所述降维后的光谱数据进行预测,得到高斯过程回归的预测标签数据;
步骤4:将所述高斯过程回归的预测标签数据输入两个偏最小二乘回归模型,所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测,分别得出预测结果Ypre1和Ypre2
步骤5:将高斯过程回归的结果Ypre1和Ypre2代入Sigmoid函数,可以得到样本分别落在两个偏最小二乘回归模型上的概率,再以概率为权重进行融合得到最终预测结果,公式为:
Figure BDA0003878237350000141
式中,
Figure BDA0003878237350000142
为高斯过程回归的预测标签数据
Figure BDA0003878237350000143
为验证本发明的效果,选择了一组968份小麦粉实验样本作为实验对象对算法进行测试,并将实验结果与普通偏最小二乘回归方法作比较。结果表示,对小麦粉四个粉质特性(吸水率、形成时间、稳定时间、弱化度)普通偏最小二乘回归模型的结果为2.039、1.837、3.968、21.252,而改进模型的结果为1.876、1.160、2.459、14.449。
Figure BDA0003878237350000144
实验结果表明,改进算法均方根误差更小,模型预测结果和真实值更接近,更有利于近红外光谱技术的检测应用。
此外,本实施例的小麦粉质特性预测方法,通过在预处理阶段之后新增加高斯过程回归的模糊分类,分别建立两个偏最小二乘模型并将结果融合,优化了对数据特征提取利用,减少了相似方法重复优化的低效过程,相比于传统的和现有的改进型偏最小二乘方法,本发明将原本的数据进行二分类,让特征更相似的数据能归为一类并分别建立偏最小二乘模型,之后将结果融合,充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作,不仅可以有效地提升预测准确度,且预测效率也得到明显提升,同时本发明适用范围更广泛,也适用于不同的、更普遍的其他小麦粉光谱数据集。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种小麦粉粉质特性预测方法,其特征在于,所述方法包括:
步骤1:获取小麦粉近红外光谱数据并对其预处理;
步骤2:对预处理之后的小麦粉近红外光谱数据进行主成分分析,提取前若干个主成分作为降维后的光谱数据;
步骤3:利用高斯过程回归模型对所述降维后的光谱数据进行预测,得到高斯过程回归的预测标签数据;
步骤4:将所述高斯过程回归的预测标签数据输入改进型偏最小二乘回归模型,得到最终的小麦粉质特性预测结果;
所述改进型偏最小二乘回归模型包括:两个偏最小二乘回归模型,所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测,分别得出预测结果Ypre1和Ypre2,所述最终的小麦粉质特性预测结果基于Ypre1和Ypre2加权融合得到。
2.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述改进型偏最小二乘回归模型基于所述高斯过程回归模型的历史预测标签数据集得到,建模过程包括:
步骤41:为所述历史预测标签数据集选择分组阈值;
步骤42:基于所述分组阈值将历史预测标签数据对应的小麦粉近红外光谱数据分成数量相近的两组,一组的预测标签数据低于所述分组阈值,另一组的预测标签数据大于等于所述分组阈值;
步骤43:分别对两组数据建立偏最小二乘回归模型。
3.根据权利要求2所述的小麦粉粉质特性预测方法,其特征在于,所述方法采用Sigmoid函数作为概率预测函数,融合两个偏最小二乘回归模型的预测结果,所述Sigmoid函数公式为:
Figure FDA0003878237340000011
其中,x=σ为所述Sigmoid函数的阈值点,也是将高斯过程回归的历史预测标签数据分成两组的分组阈值,所述分组阈值对应输出值为0.5,ω为所述Sigmoid函数的权值,改变权值ω使函数适应不同的标签数据范围;
将高斯过程回归的预测结果代入Sigmoid函数,得到预测结果分别落在两个偏最小二乘回归模型上的概率,再以概率为权重进行融合得到最终预测结果,融合公式为:
Figure FDA0003878237340000012
式中,
Figure FDA0003878237340000021
为高斯过程回归的预测结果。
4.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述步骤1中预处理的过程包括:
步骤11:对收集到的每条小麦粉近红外光谱数据进行标准正态变换处理,公式为:
Figure FDA0003878237340000022
式中,x=[x1,x2,…,xm]为原始小麦粉近红外光谱数据,
Figure FDA0003878237340000023
m为光谱的采样点数也即维度,xk为这条光谱第k个采样点的值;
步骤22:对标准正态变换处理后的光谱进行多元散射校正处理,如果收集到的光谱数据有n条,则待多元散射校正处理的数据集为:
Xsnv=[xsnv,1,xsnv,2,…,xsnv,n]
其中,xsnv,1,xsnv,2,…,ssnv,n经过标准正态变换处理的光谱数据;
首先,求得所有光谱数据的平均值
Figure FDA0003878237340000024
作为理想光谱,公式为:
Figure FDA0003878237340000025
其次,将每个样本的光谱与平均光谱进行一元线性回归,求解最小二乘问题得到每个样本的基线平移量bi和偏移量ki,公式为:
Figure FDA0003878237340000026
最后,对每个样本的光谱进行校正,公式为:
Figure FDA0003878237340000027
多元散射校正处理后光谱数据集为:Xpt=[xsnvmsc,1,xsnvmsc,2,…,xsnvmsc,n]。
5.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述步骤2中进行主成分分析的过程包括:
步骤21:将经过预处理后的小麦粉近红外光谱数据用矩阵Xpt∈Rn×m表示,代表n个有m维特征变量的样本,形式如下:
Figure FDA0003878237340000028
其中,xij表示第i个样本的第j维变量,对xij标准化处理,得到:
Figure FDA0003878237340000031
式中,
Figure FDA0003878237340000032
为所有样本第j维的均值,Sj为其方差;
步骤22:将xij替换为
Figure FDA0003878237340000033
则Xpt转变为了
Figure FDA0003878237340000034
形式如下:
Figure FDA0003878237340000035
Figure FDA0003878237340000036
的协方差矩阵
Figure FDA0003878237340000037
特征分解:
Figure FDA0003878237340000038
式中,Λ是R的特征值构成的对角矩阵,Λ=diag[λ12,…,λm],U为特征向量矩阵,它的各列u1,u2,…,um为特征向量。
根据所求相关系数矩阵R的特征值λj,计算累计解释率Wj,公式为:
Figure FDA0003878237340000039
式中,λj为相关系数矩阵对应的特征值;
步骤23:结合累计解释率Wj和实际需求,选择Xpt降低的维度,并求出这个维度下的主成分,对于每一个样本
Figure FDA00038782373400000310
降维公式为:
Figure FDA00038782373400000311
式中,yi为第i个近红外数据降低到k维得到的成分;
通过主成分分析,原代表预处理后的近红外数据矩阵Xpt,转变成为维度更低的Ypca=[y1,y2,…,yn]。
6.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述高斯过程回归模型的建立过程包括:
将主成分分析降维后的光谱数据Xpca作为高斯过程回归的输入,当f(Y)=[f(y1),f(y2),…,f(yn)]都服从多元高斯分布,则f(y)就是一个高斯过程,其公式为:
f(y)~N(μ(y),κ(y,y))
式中,μ(y)表示光谱数据各个维度的均值,κ(y,y)为协方差函数,即核函数,基本形式为:
Figure FDA0003878237340000041
式中,σ和l是核函数的超参数;
把以上的高斯过程作为高斯过程的先验,表示为f(y)~N(μf,Kff);
将降维后的近红外光谱数据和标签数据的组合(y*,z*)代入高斯过程先验,令z*与f(y)服从联合高斯分布,表示为:
Figure FDA0003878237340000042
式中,Kff=κ(y,y),Kfy=κ(y,y*),Kzz=κ(y*,y*),则有
Figure FDA0003878237340000043
上式实现了高斯过程回归,并得到高斯过程后验分布的均值
Figure FDA0003878237340000044
和协方差
Figure FDA0003878237340000045
之后,通过最大似然估计的方法,以最大化z出现的概率为目标,确定高斯核函数的超参数σ和l,公式为:
Figure FDA0003878237340000046
最后,再将Xpca代入高斯过程后验,得到高斯过程回归的预测标签数据
Figure FDA0003878237340000047
Figure FDA0003878237340000048
7.根据权利要求2所述的小麦粉粉质特性预测方法,其特征在于,所述步骤43对两组数据建立偏最小二乘回归模型过程包括:
分组后,其中一组近红外光谱数据矩阵为Xpt1=[x1,x2,…,xp]m×p,表示含有p个m维的近红外数据样本,标签矩阵为Z=[z1,z2,…,zp]n×p,表示对应近红外光谱数据样本的粉质特性数据,将X和Y分别进行标准化处理,公式为:
Figure FDA0003878237340000049
其中,
Figure FDA00038782373400000410
sx,j
Figure FDA00038782373400000411
分别表示xj的标准差和均值,
Figure FDA00038782373400000412
sz,j
Figure FDA00038782373400000413
分别表示yj的标准差和均值;
之后,计算E0的第一成分t1和F0的第一成分u1,为使t1和u1的相关度最大,则要求让内积θ1达到最大,公式为:
Figure FDA0003878237340000051
其中,w1由矩阵
Figure FDA0003878237340000052
的最大特征值对应的特征向量得到,
Figure FDA0003878237340000053
由w1和v1即可得到第一对成分:
Figure FDA0003878237340000054
则E0和F0对t1的回归方程为:
Figure FDA0003878237340000055
其中E1和F1为残差矩阵,α1和β1为回归系数向量,公式为:
Figure FDA0003878237340000056
用E1和F1分别代替E0和F0,重复以上步骤,即可得到第二对成分t2=E1ω2和u2=F1v2,则E1和F1对t2的回归方程为:
Figure FDA0003878237340000057
若E0的秩为r,则存在r个成分t1,t2,…,tr,且回归方程为:
Figure FDA0003878237340000058
将tk=wk1x1+wk2x2+…+wkpxp代入Y=t1β1+t2β2+…+trβr(k=1,2,…,r),即可得到p个标签的偏最小二乘回归方程:
Figure FDA0003878237340000059
偏最小二乘回归方程会进行交叉有效性验证截取前h个成分t1,t2,…,th,定义如下:
Figure FDA00038782373400000510
每次提取成分后都利用上式检验,当
Figure FDA00038782373400000511
时,停止成分的提取,ε为设定的精度要求;上式中:
Figure FDA00038782373400000512
Figure FDA00038782373400000513
其中,
Figure FDA0003878237340000061
为第i个样本点的拟合值。
8.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述方法使用校正均方根误差RMSE作为评估指标用来评估预测能力,公式为:
Figure FDA0003878237340000062
式中,zi为真实标签值,
Figure FDA0003878237340000063
为最终预测的标签值。
9.根据权利要求1所述的小麦粉粉质特性预测方法,其特征在于,所述小麦粉粉质特性包括:吸水率、形成时间、稳定时间、弱化度。
CN202211222793.2A 2022-10-08 2022-10-08 一种小麦粉粉质特性预测方法 Pending CN115630332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211222793.2A CN115630332A (zh) 2022-10-08 2022-10-08 一种小麦粉粉质特性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211222793.2A CN115630332A (zh) 2022-10-08 2022-10-08 一种小麦粉粉质特性预测方法

Publications (1)

Publication Number Publication Date
CN115630332A true CN115630332A (zh) 2023-01-20

Family

ID=84905197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211222793.2A Pending CN115630332A (zh) 2022-10-08 2022-10-08 一种小麦粉粉质特性预测方法

Country Status (1)

Country Link
CN (1) CN115630332A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117929356A (zh) * 2024-03-21 2024-04-26 沈阳尖科智能测控技术合伙企业(有限合伙) 一种基于高斯过程回归的libs定量分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117929356A (zh) * 2024-03-21 2024-04-26 沈阳尖科智能测控技术合伙企业(有限合伙) 一种基于高斯过程回归的libs定量分析方法

Similar Documents

Publication Publication Date Title
CN109493287B (zh) 一种基于深度学习的定量光谱数据分析处理方法
Bin et al. A modified random forest approach to improve multi-class classification performance of tobacco leaf grades coupled with NIR spectroscopy
CN109324013B (zh) 利用高斯过程回归模型构建原油性质近红外快速分析方法
CN109324014B (zh) 一种自适应的原油性质近红外快速预测方法
CN113052271B (zh) 基于深度神经网络的生物发酵数据预测方法
Iraji Comparison between soft computing methods for tomato quality grading using machine vision
Jiang et al. Using an optimal CC-PLSR-RBFNN model and NIR spectroscopy for the starch content determination in corn
CN111950795B (zh) 基于随机森林的松散回潮加水比例的预测方法
CN115630332A (zh) 一种小麦粉粉质特性预测方法
CN116935384A (zh) 一种细胞异常样本智能化检测方法
Liu et al. Identification of heat damage in imported soybeans based on hyperspectral imaging technology
CN109283153B (zh) 一种酱油定量分析模型的建立方法
Li et al. Quantitative analysis of aflatoxin B1 of peanut by optimized support vector machine models based on near-infrared spectral features
CN114611582A (zh) 一种基于近红外光谱技术分析物质浓度的方法及系统
Wu et al. Determination of corn protein content using near-infrared spectroscopy combined with A-CARS-PLS
CN113408616A (zh) 基于pca-uve-elm的光谱分类方法
CN113310934A (zh) 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法
Huang et al. Optimal wavelength selection for hyperspectral scattering prediction of apple firmness and soluble solids content
CN104964943B (zh) 一种基于自适应Group Lasso的红外光谱波长选择方法
Wang et al. SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging
CN106950193B (zh) 基于自加权变量组合集群分析的近红外光谱变量选择方法
CN111220565B (zh) 一种基于cpls的红外光谱测量仪器标定迁移方法
Qu et al. Ordinal Regression-Extreme Learning Machine based Apple Grading Method
Tan et al. Effects of Pre-Processing and Principal Components for Artificial Neural Network in Non-Destructive Internal Quality Prediction of Mango across Different Harvest Periods
CN114047214B (zh) 一种改进的dbn-morf土壤重金属含量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination