CN115630332A

CN115630332A - 一种小麦粉粉质特性预测方法

Info

Publication number: CN115630332A
Application number: CN202211222793.2A
Authority: CN
Inventors: 周德强; 陈嘉伟; 左文娟; 崔晨昊; 盛卫锋; 任志俊
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-01-20

Abstract

本发明公开了一种小麦粉粉质特性预测方法，属于农产品品质检测领域。所述方法通过引入高斯过程回归，将偏最小二乘回归的输入变量进行模糊分类，为分成的两类分别建立偏最小二乘回归模型，并通过Sigmoid函数将结果进行融合。相比于传统的和现有的改进型偏最小二乘方法，本发明将原本的数据进行二分类，让特征更相似的数据能归为一类并分别建立偏最小二乘模型，之后将结果融合，充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作，不仅可以有效地提升预测准确度，且预测效率也得到明显提升。

Description

一种小麦粉粉质特性预测方法

技术领域

本发明涉及一种小麦粉粉质特性预测方法，属于农产品品质检测领域。

背景技术

近红外光谱分析技术是近十年来发展最为迅速的高新分析技术之一，以其快速、简便、高效等优势被人们认识和接受，在小麦粉行业被广泛应用于预测成分参数，如水分、蛋白质、灰分和湿面筋含量。随着人们对小麦食品的色泽、味道、保质时间等提出更高的要求，小麦粉的粉质特性也被列入主要检测指标，传统方法下，粉质特性通过粉质仪测量，粉质仪根据仪器内面粉形成面团的过程给出四个重要的参数，包括吸水率、形成时间、稳定时间、弱化度。如今，利用近红外光谱结合机器学习可以快速、无损的检测小麦粉的粉质特性，方法就是使用机器学习的回归算法训练近红外光谱数据建立预测模型，目前近红外光谱分析技术中应用的回归算法包括多元线性回归、主成分回归、偏最小二乘回归等。

偏最小二乘回归算法是一种多自变量对多应变量的回归算法，在建模过程中集中了主成分分析，典型相关分析和线性回归分析方法的特点，以此提高预测效果。普通偏最小二乘回归建立的预测模型有良好的预测响应，但是对输入变量的筛选与分析有不足之处，在如今近红外光谱的应用中，预测模型的精确度已经无法满足要求。

为了提升偏最小二乘回归算法的预测精度，目前不少学者结合实际问题对传统偏最小二乘回归算法做了相关改进。杨淋玉等人将遗传算法与偏最小二乘回归相结合，以遗传算法挑选出的光谱特征作为偏最小二乘回归的输入变量，提高预测模型的准确度(杨淋玉,丁宇,战晔,朱绍农,陈雨娟,邓凡,赵兴强.基于LIBS与GA-PLS的钢铁中Mn,Ni元素定量分析研究[J].光谱学与光谱分析,2022,42(06):1804-1808.)。刘美枝等人引入异常点剔除的步骤，在建模前发现异常数据，使建模数据的准确性提高(刘美枝,杨磊.一种剔除异常点的偏最小二乘故障监测方法[J].山西大同大学学报(自然科学版),2022,38(02):11-15.)。朱绍农等人将波段区间选择方法融入偏最小二乘回归中，为偏最小二乘回归选择最佳光谱波段(朱绍农,丁宇,陈雨娟,邓凡,陈非凡,严飞.LIBS与变量选择PLS结合的含油土壤中Cu,Ni定量分析[J].光谱学与光谱分析,2020,40(12):3812-3817.)。何文绚等人将正交信号校正法与偏最小二乘回归结合，先利用正交信号校正法去除无关的光谱正交分量，再建立预测模型，以提高预测准确度(何文绚,雷进宇,卢先勇,陈婷.基于R语言、正交偏最小二乘判别分析的植物油鉴定方法[P].福建省：CN113392586A,2021-09-14.。

虽然上述方案能够在一定程度上提升预测准确度，但方法的改进集中在预处理阶段和数据输入算法模型的阶段，容易产生过优化使效果减弱。遗传算法与偏最小二乘回归相结合虽然优化了算法的数据输入，但它过于依赖初始输入数据，容易快速收敛而丢失原有的一些数据特征，尤其是当数据量较大的时候；而异常点的剔除和波段区间选择都是为了在预处理阶段和数据输入阶段去掉部分异常值的干扰和增强优势特征的表达，数据预处理和偏最小二乘法本身具备这个能力；正交信号校正法与偏最小二乘回归结合也是对数据预处理阶段的优化，其他同步进行的预处理方法也能达到相似的效果，导致正交信号校正法对模型预测效果提升不明显。

综上所述，现有的预测方法虽然在一定程度上可以提升预测效果，但是预测效率和预测准确度还有待提升。

发明内容

为了解决目前存在的小麦粉粉质特性预测效率和预测准确度不高的问题，本发明提供了一种小麦粉粉质特性预测方法，包括：

步骤1：获取小麦粉近红外光谱数据并对其预处理；

步骤2：对预处理之后的小麦粉近红外光谱数据进行主成分分析，提取前若干个主成分作为降维后的光谱数据；

步骤3：利用高斯过程回归模型对所述降维后的光谱数据进行预测，得到高斯过程回归的预测标签数据；

步骤4：将所述高斯过程回归的预测标签数据输入改进型偏最小二乘回归模型，得到最终的小麦粉质特性预测结果；

所述改进型偏最小二乘回归模型包括：两个偏最小二乘回归模型，所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测，分别得出预测结果Y_pre1和Y_pre2，所述最终的小麦粉质特性预测结果基于Y_pre1和Y_pre2加权融合得到。

可选的，所述改进型偏最小二乘回归模型基于所述高斯过程回归模型的历史预测标签数据集得到，建模过程包括：

步骤41：为所述历史预测标签数据集选择分组阈值；

步骤42：基于所述分组阈值将历史预测标签数据对应的小麦粉近红外光谱数据分成数量相近的两组，一组的预测标签数据低于所述分组阈值，另一组的预测标签数据大于等于所述分组阈值；

步骤43：分别对两组数据建立偏最小二乘回归模型。

可选的，所述方法采用Sigmoid函数作为概率预测函数，融合两个偏最小二乘回归模型的预测结果，所述Sigmoid函数公式为：

其中，x＝σ为所述Sigmoid函数的阈值点，也是将高斯过程回归的历史预测标签数据分成两组的分组阈值，所述分组阈值对应输出值为0.5，ω为所述Sigmoid函数的权值，改变权值ω使函数适应不同的标签数据范围；

将高斯过程回归的预测结果代入Sigmoid函数，得到预测结果分别落在两个偏最小二乘回归模型上的概率，再以概率为权重进行融合得到最终预测结果，融合公式为：

式中，

为高斯过程回归的预测结果。

可选的，所述步骤1中预处理的过程包括：

步骤11：对收集到的每条小麦粉近红外光谱数据进行标准正态变换处理，公式为：

式中，x＝[x₁,x₂,…,x_m]为原始小麦粉近红外光谱数据，

m为光谱的采样点数也即维度，x_k为这条光谱第k个采样点的值；

步骤22：对标准正态变换处理后的光谱进行多元散射校正处理，如果收集到的光谱数据有n条，则待多元散射校正处理的数据集为：

X_snv＝[_xs_nv,1,x_snv,2,…,x_snv,n]

其中，x_snv,1,x_snv,2,…,x_snv,n经过标准正态变换处理的光谱数据；

首先，求得所有光谱数据的平均值

作为理想光谱，公式为：

其次，将每个样本的光谱与平均光谱进行一元线性回归，求解最小二乘问题得到每个样本的基线平移量b_i和偏移量k_i，公式为：

最后，对每个样本的光谱进行校正，公式为：

多元散射校正处理后光谱数据集为：X_pt＝[x_snvmsc,1,x_snvmsc,2,…,x_snvmsc,n]。

可选的，所述步骤2中进行主成分分析的过程包括：

步骤21：将经过预处理后的小麦粉近红外光谱数据用矩阵X_pt∈R^n×m表示，代表n个有m维特征变量的样本，形式如下：

其中，x_ij表示第i个样本的第j维变量，对x_ij标准化处理，得到：

式中，

为所有样本第j维的均值，S_j为其方差；

步骤22：将x_ij替换为

则X_pt转变为了

形式如下：

对

的协方差矩阵

特征分解：

式中，Λ是R的特征值构成的对角矩阵，Λ＝diag[λ₁,λ₂,…,λ_m]，U为特征向量矩阵，它的各列u₁,u₂,…,u_m为特征向量。

根据所求相关系数矩阵R的特征值λ_j，计算累计解释率W_j，公式为：

式中，λ_j为相关系数矩阵对应的特征值；

步骤23：结合累计解释率W_j和实际需求，选择X_pt降低的维度，并求出这个维度下的主成分，对于每一个样本

降维公式为：

式中，y_i为第i个近红外数据降低到k维得到的成分；

通过主成分分析，原代表预处理后的近红外数据矩阵X_pt，转变成为维度更低的Y_pca＝[y₁,y₂,…,y_n]。

可选的，所述高斯过程回归模型的建立过程包括：

将主成分分析降维后的光谱数据X_pca作为高斯过程回归的输入，当f(Y)＝[f(y₁)，f(y₂)，…，f(y_n)]都服从多元高斯分布，则f(y)就是一个高斯过程，其公式为：

f(y)～N(μ(y)，κ(y，y))

式中，μ(y)表示光谱数据各个维度的均值，κ(y，y)为协方差函数，即核函数，基本形式为：

式中，σ和l是核函数的超参数；

把以上的高斯过程作为高斯过程的先验，表示为f(y)～N(μ_f，K_ff)；

将降维后的近红外光谱数据和标签数据的组合(y^*，z^*)代入高斯过程先验，令z^*与f(y)服从联合高斯分布，表示为：

式中，K_ff＝κ(y，y)，K_fy＝κ(y，y^*)，K_zz＝κ(y^*，y^*)，则有

上式实现了高斯过程回归，并得到高斯过程后验分布的均值

和协方差

之后，通过最大似然估计的方法，以最大化z出现的概率为目标，确定高斯核函数的超参数σ和l，公式为：

最后，再将X_pca代入高斯过程后验，得到高斯过程回归的预测标签数据

可选的，所述步骤43对两组数据建立偏最小二乘回归模型过程包括：

分组后，其中一组近红外光谱数据矩阵为X_pt1＝[x₁，x₂，…，x_p]_m×p，表示含有p个m维的近红外数据样本，标签矩阵为Z＝[z₁，z₂，…，z_p]_n×p，表示对应近红外光谱数据样本的粉质特性数据，将X和Y分别进行标准化处理，公式为：

其中，

s_x，j和

分别表示x_j的标准差和均值，

s_z，j和

分别表示y_j的标准差和均值；

之后，计算E₀的第一成分t₁和F₀的第一成分u₁，为使t₁和u₁的相关度最大，则要求让内积θ₁达到最大，公式为：

其中，w₁由矩阵

的最大特征值对应的特征向量得到，

由w₁和v₁即可得到第一对成分：

则E₀和F₀对t₁的回归方程为：

其中E₁和F₁为残差矩阵，α₁和β₁为回归系数向量，公式为：

用E₁和F₁分别代替E₀和F₀，重复以上步骤，即可得到第二对成分t₂＝E₁ω₂和u₂＝F₁v₂，则E₁和F₁对t₂的回归方程为：

若E₀的秩为r，则存在r个成分t₁，t₂，…，t_r，且回归方程为：

将t_k＝w_k1x₁+w_k2x₂+…+w_kpx_p代入Y＝t₁β₁+t₂β₂+…+t_rβ_r(k＝1，2，…，r)，即可得到p个标签的偏最小二乘回归方程：

偏最小二乘回归方程会进行交叉有效性验证截取前h个成分t₁，t₂，…，t_h，定义如下：

每次提取成分后都利用上式检验，当

时，停止成分的提取，ε为设定的精度要求；上式中：

其中，

为第i个样本点的拟合值。

可选的，所述方法使用校正均方根误差RMSE作为评估指标用来评估预测能力，公式为：

式中，z_i为真实标签值，

为最终预测的标签值。

可选的，所述小麦粉粉质特性包括：吸水率、形成时间、稳定时间、弱化度。

本发明有益效果是：

本发明的小麦粉粉质特性预测方法，通过在预处理阶段之后新增加高斯过程回归的模糊分类，分别建立两个偏最小二乘模型并将结果融合，优化了对数据特征提取利用，减少了相似方法重复优化的低效过程，相比于传统的和现有的改进型偏最小二乘方法，本发明将原本的数据进行二分类，让特征更相似的数据能归为一类并分别建立偏最小二乘模型，之后将结果融合，充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作，不仅可以有效地提升预测准确度，且预测效率也得到明显提升，同时本发明适用范围更广泛，也适用于不同的、更普遍的其他小麦粉光谱数据集。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例二的近红外原始光谱与预处理光谱对比图。

图2是本发明实施例二分组后的两个偏最小二乘模型回归图。

图3是本发明Sigmoid函数概率预测图。

图4是本发明的预测方法与传统预测方法的回归对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种小麦粉粉质特性预测方法，所述方法包括：

步骤1：获取小麦粉近红外光谱数据并对其预处理；

实施例二：

本实施例提供一种小麦粉粉质特性预测方法，利用一种改进型偏最小二乘回归方法来根据小麦粉近红外光谱数据预测其粉质特性。

小麦粉粉质特性主要包括四个：吸水率、形成时间、稳定时间、弱化度。

通过引入高斯过程回归，将偏最小二乘回归的输入变量进行模糊分类，为分成的两类分别建立偏最小二乘回归模型，并通过Sigmoid函数将结果进行融合，该方法基于的数学模型的构建过程主要分为以下几个部分。

1、数据预处理

直接收集到的小麦粉近红外光谱数据有噪声、基线漂移等因素的干扰，对其进行数据预处理可以有效消除这些干扰。本实施例对数据进行两步预处理，包含标准正态变换和多元散射校正，具体步骤如下。

(1)首先对收集到的每条进行光谱数据进行标准正态变换处理，公式为：

式中，x＝[x₁，x₂，…，x_m]为原始小麦粉近红外光谱数据，

(2)用经过标准正态变换处理的光谱代替原始光谱并进行多元散射校正处理，如果收集到的光谱数据有n条，则数据集为：

X_snv＝[x_snv，1，x_snv，2，…，x_snv，n]

其中，x_snv，1，x_snv，2，…，x_snv，n经过标准正态变换处理的光谱数据；

首先，求得所有光谱数据的平均值

作为理想光谱，公式为：

最后，对每个样本的光谱进行校正，公式为：

多元散射校正处理后光谱数据集为：X_pt＝[x_snvmsc，1，x_snvmsc，2，…，x_snvmsc，n]。

2、特征提取

光谱数据每个采样点包含的特征信息是互有高低的，使用主成分分析的方法为数据集X降维，将降维后的成分作为高斯过程回归的特征输入，具体步骤如下：

经过预处理的近红外光谱数据矩阵X_pt∈R^n×m，代表n个有m维特征变量的样本，形式如下。

式中，

为所有样本第j维的均值，S_j为其方差；

将x_ij替换为

则X_pt转变为了

形式如下：

对

的协方差矩阵

特征分解：

式中，Λ是R的特征值构成的对角矩阵，Λ＝diag[λ₁，λ₂，…，λ_m]，U为特征向量矩阵，它的各列u₁，u₂，…，u_m为特征向量。

式中，λ_j为相关系数矩阵对应的特征值；

最后，结合累计解释率W_j和实际需求，选择X_pt降低的维度，并求出这个维度下的主成分，对于每一个样本

降维公式为：

式中，y_i为第i个近红外数据降低到k维得到的成分；

通过主成分分析，原代表预处理后的近红外数据矩阵X_pt，转变成为维度更低的Y_pca＝[y₁，y₂，…，x_n]。

3、高斯过程回归的模糊分类

用主成分分析降维后的数据Y_pca代替原近红外数据作为高斯过程回归的输入，当f(Y)＝[f(y₁)，f(y₂)，…，f(y_n)]都服从多元高斯分布，则f(y)就是一个高斯过程，其公式为：

f(y)～N(μ(y)，κ(y，y))

式中，σ和l是核函数的超参数；

式中，K_ff＝κ(y，y)，K_fy＝κ(y，y^*)，K_zz＝κ(y^*，y^*)，则有

上式实现了高斯过程回归，并得到高斯过程后验分布的均值

和协方差

4、两个偏最小二乘回归模型的建立

根据高斯过程回归得到的预测标签数据选择一个合适的阈值，将原近红外数据样本分成样本数量相近的两组，一组的预测标签数据低于阈值，另一组高于阈值，分别对两组数据建立偏最小二乘回归模型，过程如下。

其中，

s_x，j和

分别表示x_j的标准差和均值，

s_z，j和

分别表示y_j的标准差和均值；

其中，w₁由矩阵

的最大特征值对应的特征向量得到，

由w₁和v₁即可得到第一对成分：

则E₀和F₀对t₁的回归方程为：

每次提取成分后都利用上式检验，当

时，停止成分的提取，ε为设定的精度要求；上式中：

其中，

为第i个样本点的拟合值。

本实施例中对四个粉质特性分别建立偏最小二乘回归模型，所以标签Y中的元素是1维，即n＝1。

经过上述过程，两组近红外光谱数据的模型都建立完成，并且分别得到了两个模型的预测标签Y_pre1和Y_pre2。

5、两个偏最小二乘回归模型的融合

本发明中，使用Sigmoid函数作为概率预测函数融合两个偏最小二乘回归模型的结果，Sigmoid函数公式为：

式中，x＝σ为函数的阈值点，也是将高斯过程回归的结果分成两组的阈值，对应输出值为0.5，ω为函数的权值，改变权值可以使函数适应不同的标签范围。

将高斯过程回归的结果代入Sigmoid函数，可以得到样本分别落在两个偏最小二乘回归模型上的概率，再以概率为权重进行融合得到最终预测结果，公式为：

式中，

为高斯过程回归的预测标签数据

6、引入评价指标

在寻找最佳模型时，研究中综合考虑了PCA主成分的累计解释度、PLSR模型系数和建模结果，在比较改进模型和普通偏最小二乘回归模型性能时，使用校正均方根误差作为评估指标用来评估模型预测能力，公式为：

式中，z_i为真实标签值，

为回归模型预测的标签值，从上式可以看出，当预测值和真实值越接近，RMSE越小，则模型效果越好。

模型构建好之后，基于该模型按照以下步骤进行小麦粉粉质特性的预测：

步骤1：获取小麦粉近红外光谱数据并对其预处理，依次进行标准正态变换和多元散射校正处理；

步骤4：将所述高斯过程回归的预测标签数据输入两个偏最小二乘回归模型，所述两个偏最小二乘回归模型分别对所述高斯过程回归的预测标签数据进行预测，分别得出预测结果Y_pre1和Y_pre2；

步骤5：将高斯过程回归的结果Y_pre1和Y_pre2代入Sigmoid函数，可以得到样本分别落在两个偏最小二乘回归模型上的概率，再以概率为权重进行融合得到最终预测结果，公式为：

式中，

为高斯过程回归的预测标签数据

为验证本发明的效果，选择了一组968份小麦粉实验样本作为实验对象对算法进行测试，并将实验结果与普通偏最小二乘回归方法作比较。结果表示，对小麦粉四个粉质特性(吸水率、形成时间、稳定时间、弱化度)普通偏最小二乘回归模型的结果为2.039、1.837、3.968、21.252，而改进模型的结果为1.876、1.160、2.459、14.449。

实验结果表明，改进算法均方根误差更小，模型预测结果和真实值更接近，更有利于近红外光谱技术的检测应用。

此外，本实施例的小麦粉质特性预测方法，通过在预处理阶段之后新增加高斯过程回归的模糊分类，分别建立两个偏最小二乘模型并将结果融合，优化了对数据特征提取利用，减少了相似方法重复优化的低效过程，相比于传统的和现有的改进型偏最小二乘方法，本发明将原本的数据进行二分类，让特征更相似的数据能归为一类并分别建立偏最小二乘模型，之后将结果融合，充分利用了数据特征并且避免了在预处理阶段和数据输入阶段的过优化操作，不仅可以有效地提升预测准确度，且预测效率也得到明显提升，同时本发明适用范围更广泛，也适用于不同的、更普遍的其他小麦粉光谱数据集。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。