CN112002377B

CN112002377B - 基于集成学习校准模型的松子蛋白质含量预测方法

Info

Publication number: CN112002377B
Application number: CN202010854838.2A
Authority: CN
Inventors: 张冬妍; 蒋大鹏; 李鸿博; 李丹丹; 曹军
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2021-04-27
Anticipated expiration: 2040-08-24
Also published as: CN112002377A

Abstract

基于集成学习校准模型的松子蛋白质含量预测方法，它属于食品成分检测技术领域。本发明解决了利用现有近红外校准模型对松子中蛋白质含量预测的准确率低的问题。本发明对松子的近红外光谱数据进行预处理，并在预处理结束后选用局部切线空间对齐、等距特征映射、局部线性嵌入与主成分分析对预处理后光谱数据进行特征提取；然后使用提取的特征数据集建立松子蛋白质含量与光谱数据的偏最小二乘模型；最后依据stacking法作为集成策略，以BP神经网络为次级学习器，输出最终松子蛋白质含量结果。本发明方法对光谱数据利用程度更高，充分利用了近红外光谱中复杂的空间特征，提高了校准模型预测的准确率。本发明可以应用于松子中蛋白质含量预测。

Description

基于集成学习校准模型的松子蛋白质含量预测方法

技术领域

本发明涉及食品成分检测技术领域，具体涉及一种基于集成学习校准模型的松子蛋白质含量预测方法。

背景技术

近红外光谱建模技术是测定实验样品的近红外光谱波段内的一系列反射率、透射率以及实验样品的理化特性后，使用统计学方法，优选光谱波段并建立实验样品理化特性与近红外光谱的校准模型，使用所建立的校准模型预测其他样品理化特性的一种技术。校准模型大多选用PLS、PCR、MCR等传统统计模型，近年来随着机器学习与数据挖掘领域的发展，越来越多的机器学习方法也被用于近红外光谱建模中。

流形学习是机器学习的一个分支，流形学习能够捕捉高维空间中复杂的拓扑结构以及低维流形，图1为瑞士卷数据集，数据符合低维流形结构。面对近红外光谱这种高维空间复杂数据，较之PCA方法，流形学习方法对光谱数据中的低维流形与非线性结构更加敏感。流形学习主要方法包括等距离映射(isomap)、局部线性嵌入(Locally LinearEmbedding,LLE)、海森特征映射(Hessian Eigenmapping)、谱嵌入(Spectral Embedding)、多维缩放(Multidimensional scaling,MDS)、t-SNE以及局部切空间排列(LTSA)等方法。

集成学习，也称强化学习，是机器学习的另一个分支。集成学习通过构建并结合多个弱学习器来完成建模任务，大多数情况下，集成学习模型比单一机器学习模型与统计模型拥有更高的泛化性能与准确率。集成学习分为构建弱学习器策略与结合策略，其中构建弱学习器策略主要有：adaboost方法、bagging与随机森林方法；结合策略主要有：平均法、投票法与学习法。

目前，主流近红外光谱建模方法大多使用PCA、SPA等特征提取与光谱优选方法提取光谱数据后，使用PLS、BiPLS等模型建立近红外光谱校准模型，由于使用所建立的校准模型可以预测其他样品的理化特性，因此，可以将建立的近红外光谱校准模型应用于食品中成分含量的预测。

由于松子中蛋白质含量很高，且蛋白质含量是衡量不同松子质量的一个重要标准，因此对松子中的蛋白质含量进行预测十分必要。

虽然利用现有方法建立的近红外光谱校准模型可以对松子中的蛋白质含量进行预测，但是现有方法存在的问题是没有充分利用近红外所包含的大量信息，尤其是近红外光谱中复杂的空间特征，PCA与SPA特征提取与光谱优选方法造成的数据损失较大，最终校准模型对松子中蛋白质含量预测的准确率较低。

发明内容

本发明的目的是为解决现有方法在建立近红外校准模型时没有充分利用近红外光谱中复杂的空间特征，导致利用现有近红外校准模型对松子中蛋白质含量预测的准确率低的问题，而提出了一种基于集成学习校准模型的松子蛋白质含量预测方法。

本发明为解决上述技术问题采取的技术方案是：基于集成学习校准模型的松子蛋白质含量预测方法，所述方法具体包括以下步骤：

步骤一、采集松子样品的原始光谱数据样本，样本数量为m，再分别对各个原始光谱数据样本进行预处理，获得预处理后的近红外光谱数据；

步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征，获得采用四种方法提取出的四组特征向量；

步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型，并对校准模型进行训练，获得训练好的校准模型；

所述校准模型由四个弱学习器和BP神经网络组成；且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的；

步骤四、对于蛋白质含量待测的松子原始光谱数据，对待测数据进行步骤一和步骤二的处理后，获得待测数据的四组特征向量，将获得的四组特征向量输入校准模型，将校准模型的输出作为蛋白质含量的预测结果。

本发明的有益效果是：本发明提出了一种基于集成学习校准模型的松子蛋白质含量预测方法，本发明使用标准正态变换与Savitzky-Golay平滑滤波对松子的近红外光谱数据进行预处理，并在预处理结束后，选用局部切线空间对齐(LTSA)、等距特征映射(isomap)、局部线性嵌入(LLE)与主成分分析(PCA)对预处理后光谱数据进行特征提取；然后使用提取得到的特征数据集建立松子蛋白质含量与光谱数据的偏最小二乘模型；最后依据stacking法作为集成策略，以BP神经网络为次级学习器，输出最终松子蛋白质含量结果。相比较于现有方法，本发明方法对光谱数据利用程度更高，充分利用了近红外光谱中复杂的空间特征，提高了校准模型预测的准确率。

附图说明

图1为瑞士卷数据集的示意图；

图2为光谱仪采集到的松子样品原始光谱图；

图3为SG平滑滤波后的光谱数据曲线图；

图4为经预处理后的松子近红外光谱数据曲线图；

图5是本发明方法的流程图；

图6是采用PCA-PLS校准模型的回归结果图；

图7是采用SPA-PLS校准模型的回归结果图；

图8是采用本发明校准模型的回归结果图。

具体实施方式

具体实施方式一：结合图5说明本实施方式。本实施方式所述的一种基于集成学习校准模型的松子蛋白质含量预测方法，所述方法具体通过以下步骤实现：

步骤二、分别采用LTSA(局部切线空间对齐)、isomap(等距特征映射)、LLE(局部线性嵌入)与PCA(主成分分析)方法提取预处理后的近红外光谱数据特征，获得采用四种方法提取出的四组特征向量；

本发明通过不同流形学习与降维方法，将近红外高维原始数据映射在不同的流形子空间中，分析高维光谱数据在低维流形空间中的性质并建立相应的弱学习器模型。本发明做法的理论依据是，近红外光谱数据通常具有某些特殊的低维流形结构，集成学习校准模型能够组合多个弱学习模型建立一个鲁棒性更强、泛化性能更加优秀的校准模型，相较于传统PLS、iPLS与BiPLS方法，本实验能够将光谱数据中存在的低维流形结构融入所建立的校正模型中，从而提高预测精度。

具体实施方式二：本实施方式是对具体实施方式一的进一步具体说明，所述步骤一中，分别对各个原始光谱数据样本进行预处理，预处理采用的方法是标准正态变换(standard normal variate,SNV)和SG(Savitzky-Golay)平滑滤波。

本实施方式对松子样品的近红外光谱数据进行预处理，其目的是消除样品表面散射干扰、基线漂移与噪声对光谱数据的干扰，增强数据差异。获得消除干扰后的近红外光谱数据。

具体实施方式三：本实施方式是对具体实施方式一的进一步具体说明，所述步骤一的具体过程为：

步骤一一、图2为光谱仪采集到的松子样品原始光谱，对于第i个原始光谱数据样本，设光程位置序号为j，j＝1,2,…,l，l代表光程的总个数，

为利用p阶多项式对第j个光程位置的原始光谱数据进行拟合而得到的近红外光谱数据；

其中，a_j′为权值系数，j′＝0,1,…,p，p阶多项式拟合的窗口宽度为2q+1，λ为窗口宽度波长范围内的吸光度；

当q的取值为4时，窗口宽度为9，当对第5个光程位置的原始光谱数据进行拟合时，则λ为第1个至第9个光程位置波长范围内的吸光度；

采用最小二乘法，计算通过多项式拟合得到的近红外光谱数据与原始光谱数据间的最小误差ε：

其中，x_j,λ为第j个光程位置的原始光谱数据，当

时，求得最小误差ε对应的权值系数a_j′，j′＝0,1,…,p；

步骤一一的过程即为SG平滑滤波过程，得到权值系数a_j′后，获得如图3所示的SG平滑滤波后的光谱数据图；

步骤一二、采用标准正态变换方法对拟合得到的近红外光谱数据进行标准正态变换，则第i个原始光谱数据样本中第j个光程位置对应的预处理后近红外光谱数据x_i,j,SNV为：

其中：

为对第i个原始光谱数据样本进行拟合得到的近红外光谱数据中各光程位置数据的平均值，则第i个原始光谱数据样本对应的预处理后近红外光谱数据x_i,SNV为：x_i,SNV＝(x_i,1,SNV，x_i,2,SNV，…，x_i,l,SNV)；

步骤一三、重复步骤一一和步骤一二的过程，分别对各原始光谱数据样本进行预处理，分别获得各原始光谱数据样本对应的预处理后近红外光谱数据。

如图4为经预处理后的松子近红外光谱数据曲线图。

本实施方式对原始光谱数据进行预处理，其目的在于降低松子样品固体颗粒大小、光程变换和表面散射对松子近红外光谱的干扰。

具体实施方式四：本实施方式是对具体实施方式三的进一步具体说明，所述步骤三的具体过程为：

步骤三一、基于步骤二获得的四组特征向量，分别采用PLS(偏最小二乘)方法建立四个弱学习器，建立好弱学习器后，将获得的四组特征向量分别输入对应的弱学习器；

利用输入的特征向量对弱学习器进行训练，直至达到设置的最大训练次数时停止训练，获得训练好的弱学习器；

步骤三二、将四个训练好的弱学习器的输出结果作为BP神经网络的输入，利用输入对BP神经网络进行训练，直至达到设置的最大训练次数时停止训练，获得训练好的BP神经网络。

具体实施方式五：本实施方式是对具体实施方式一的进一步具体说明，所述boosting集成学习算法的集成策略为stacking方法。

具体实施方式六：本实施方式是对具体实施方式一的进一步具体说明，所述步骤二中，采用LTSA方法提取预处理后的近红外光谱数据特征，其具体过程为：

使用LTSA方法对预处理后的近红外光谱数据进行降维；

设预处理后的近红外光谱数据为X_pre＝{x_1,SNV，x_2,SNV，…，x_m,SNV}，对于光谱点x_i,SNV，在X_pre中寻找x_i,SNV的邻域内的k-1个光谱点，将包含x_i,SNV在内的k个光谱点记为x_i1,x_i2,...,x_ik，将由x_i1,x_i2,...,x_ik构成的矩阵记为X_i＝[x_i1,...,x_ik]；

然后，LSTA通过式计算一个d维仿射子空间逼近X_i；

其中：x_i为对第i个样本进行预处理获得的近红外光谱数据降维后的d维局部坐标，Q_i为降维后的d维子空间的切空间，Θ_i为d维仿射子空间的局部坐标系，Θ_i＝[θ_i1,...,θ_ik]，θ_i1为x_i1的降维后的局部坐标，||·||为F范数，

为x_i与全1矩阵的乘积；

公式(4)的解析解为：

其中：

为X_i中全部光谱点数据的平均值，

为

与全1矩阵的乘积，

矩阵奇异值分解中最大的d个奇异值对应的左奇异向量，Q_i ^′T为Q_i′的转置；

则X_i的d维仿射子空间的局部坐标系为

同理，获得每个原始光谱数据样本的预处理后结果的局部坐标系；

记T_i＝[t_i1,...,t_ik]为Θ_i对应的全局坐标，全局坐标T_i与局部坐标Θ_i存在仿射变换关系：

其中：I为单位矩阵，L_i为局部仿射变换矩阵，中间变量E_i＝[ε_i1,...,ε_ik]，ε_ik为x_ik的重建局部变换误差；

通过最小化重建误差

得到d维仿射子空间的全局坐标T＝{t₁,…,t_i,…,t_m}，t_i为第i个原始光谱数据样本的全局坐标，将全局坐标T作为采用LTSA方法提取出的特征向量。

具体实施方式七：本实施方式是对具体实施方式六的进一步具体说明，所述在X_pre中寻找x_i,SNV的邻域内的k-1个光谱点，其具体过程为：

计算x_i,SNV与X_pre中其它任意一个光谱点x_i′,SNV的JS散度，i′＝1,2,…,m，i≠i′；

其中：D_KL(x_i,SNV||x_i′,SNV)为x_i,SNV与x_i′,SNV的KL散度，⊙代表x_i,SNV与x_i′,SNV中对应位置的数据相除；D_JS(x_i,SNV||x_i′,SNV)为x_i,SNV与x_i′,SNV的JS散度；

计算x_i,SNV与X_pre中其它任意一个光谱点x_i′,SNV的欧氏距离；

其中：D_EU(x_i,SNV||x_i′,SNV)为x_i,SNV与x_i′,SNV的欧氏距离；

设x_i,SNV对应的蛋白质含量为y，利用D_JS(x_i,SNV||x_i′,SNV)、D_EU(x_i,SNV||x_i′,SNV)和y寻找出x_i,SNV的邻域内的k-1个光谱点；

D_KNN(x_i,SNV||x_i′,SNV)＝μD_JS(x_i,SNV||x_i′,SNV)+σD_EU(x_i,SNV||x_i′,SNV)+εy (9)

其中，μ、σ和ε为常数，D_KNN(x_i,SNV||x_i′,SNV)为x_i,SNV与x_i′,SNV的最终距离；

将计算出的D_KNN(x_i,SNV||x_i′,SNV)按照从小到大的顺序进行排序，将排在前面的k-1个D_KNN(x_i,SNV||x_i′,SNV)所对应的光谱点作为x_i,SNV邻域内的k-1个光谱点。

流形学习属于无监督方法，对训练集的利用率不高，改进监督流形学习方法在进行特征提取的过程中使用数据集标注(蛋白质含量y)辅助降维，对训练集数据利用更充分，输出特征向量更准确。

使用isomap方法对预处理后的光谱矩阵X_pre进行降维。首先，在使用本实施方式的方法找到光谱点x_i的邻域后，isomap方法将选定光谱点x_i的邻域视作一个低维流形M，根据预处理后的近红外光谱构建的输入空间X_pre中点对之间的距离，并确定哪些光谱点是流形M的近邻。设这k+1个光谱点构建的邻域表示为数据点上的加权图G，其中相邻点之间的权重为d(i,j)，等度量映射通过计算图G中的最短路径距离dG(i,j)来估计流形M上所有点对之间的测地距离d(i,j)。dG(i,j)的计算方法如下：

首先，确定x_i的k近邻，x_i与x_i的k近邻个光谱点共同确定一个图G，将x_i与k近邻点之间的距离设置为欧式距离，其他点的距离设置为无穷大。

然后，调用最短路径算法计算任意两个样本点之间的距离dist(x_i,x_j)，并根据下面三个公式计算

根据式得到矩阵B

对矩阵B做特征值分解，取Λ为d`个最大特征值所构成的对角矩阵，V为相应的特征向量矩阵，最终VΛ^1/2为降维后的近红外光谱。

使用LLE方法对预处理后的光谱矩阵X_pre进行降维，先使用本实施方式的方法为近红外光谱点x_i找到其近邻下标集合Q_i，然后基于Q_i对x_i进行重构，设重构系数为w_i：

其中x_i和x_j均为已知，令C_jk＝(x_i-x_j)^T(x_i-x_k)，w_ij有闭式解

局部线性嵌入在低维空间中保持w_i不变，于是x_i对应的z_i可通过下式求解：

令

W_ij＝w_ij，

M＝(I-W)^T(I-W)

则式(2-11)重写为

min tr(ZMZ)^T

s.t.ZZ^T＝I

式可通过特征值分解：M最小的d`个特征值对应的特征向量组成的矩阵即为LLE降维后的近红外光谱Z^T。

使用PCA方法对预处理后的光谱矩阵X_pre进行降维，PCA方法属于传统降维方法，在诸多领域得到广泛的应用，因此这里不做过多介绍。

图8为本发明提出的近红外校准模型回归效果图，从图6和图7可以看出，采用本发明提出的近红外校准模型回归结果与PCA-PLS、SPA-PLS校准模型的处理结果相比较，本发明方法的效果有所改善。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。