CN114357886A

CN114357886A - 一种基于多模型加权平均的酒醅近红外光谱建模方法

Info

Publication number: CN114357886A
Application number: CN202210012983.5A
Authority: CN
Inventors: 贾利红; 闫晓剑; 张国宏; 何涛
Original assignee: Sichuan Cric Technology Co ltd
Current assignee: Sichuan Cric Technology Co ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-04-15

Abstract

本发明涉及近红外光谱检测技术，为了提升酒醅近红外光谱模型的稳定性及预测准确率，提供了一种基于多模型加权平均的酒醅近红外光谱建模方法，包括：1、获取光谱原数据并进行数据集划分：将光谱原数据整体作为训练集T₁；将光谱原数据随机划分为训练集T₂、验证集V₂；将光谱原数据中临近预测集采集时间的A个数据作为验证集V₃，剩余样本做为训练集T₃；2、对划分后的数据分别进行预处理；3、对预处理后的训练集数据分别采用PLS建模；4、设置模型评价指标；5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数；6、计算三种模型对应的加权值；7、根据加权值重新建模并保存。采用上述方式提升了模型的稳定性及预测准确率。

Description

一种基于多模型加权平均的酒醅近红外光谱建模方法

技术领域

本发明涉及近红外光谱检测技术领域，具体是一种基于多模型加权平均的酒醅近红外光谱建模方法。

背景技术

传统固态白酒酿造过程是一个典型的酿酒微生物群落共生、共酵、代谢调控的过程，酒糟成分配比是整个酿酒生产系统运行控制的关键因子，对最终产品的品质有着极为重要和关键的影响。白酒酒醅的理化分析，作为酿酒企业重要的质量控制手段，其结果对于酿酒生产指导、酒醅配料调整、质量控制有着不可替代的作用。但是传统的理化分析方法存在检测方法落后、工作量大、耗时长、耗费人力多、结果反馈不及时等诸多问题，成为了困扰整个行业的技术难点，制约着其在大规模生产中的进一步应用。从2003年开始，各大白酒企业逐渐引进国外大型的傅里叶变换近红外光谱设备用于酒醅的分析，但分析近20年以来用于酒醅检测的近红外光谱应用发现，这些设备仅局限于完成实验室酒醅样本的抽检工作，且操作专业复杂，同时这些设备对工作环境的温度、湿度、抗震等有严格的要求，这就造成了其无法用于生产现场的大面积推广应用。

随着微机电技术的发展，近几年，便携式光谱仪被广泛应用于食品、饮料、医药、煤炭等各个领域，相较于传统的大型光谱分析系统，其具有结构简单、成本低廉、携带方便、结果实时可见等优势，目前已成为光谱领域的热门产品。但其自身也存在一定的不足，如稳定性、运行效率、准确率等仍与传统的实验室大型设备有一定的差距，需在硬件、算法等方面加以不断优化。尤其是针对酒醅样品，鉴于其固液混合的物理形态，同时随着环境的变化，时间的推移，其处于一种持续不断发酵的变化状态中，故通过便携式近红外光谱仪采集的光谱数据，很容易受各种因素的干扰，模型预测的准确率波动较大，无法批量大面积地应用于产线上。

发明内容

为了提升酒醅近红外光谱模型的稳定性及预测准确率，本发明提供了一种基于多模型加权平均的酒醅近红外光谱建模方法。

本发明解决上述问题所采用的技术方案是：

一种基于多模型加权平均的酒醅近红外光谱建模方法，包括：

步骤1、获取光谱原数据并进行数据集划分：将光谱原数据整体作为训练集T₁；将光谱原数据随机划分为训练集T₂、验证集V₂；将光谱原数据中临近预测集采集时间的A个数据作为验证集V₃，剩余样本作为训练集T₃；

步骤2、对步骤1中经过数据集划分后的3组数据分别进行至少两种预处理；

步骤3、对预处理后的训练集数据T₁、T₂、T₃分别采用PLS建模；

步骤4、设置模型评价指标；

步骤5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数；

步骤6、根据建模参数分别计算三种模型对应的加权值；

步骤7、根据加权值重新建模并保存。

进一步地，所述步骤2中数据预处理的方法包括：高斯平滑、高斯求导、SG平滑法、去趋势及标准化。

进一步地，所述步骤4包括：采用训练集T₁进行建模的模型采用最小RMSECV指标筛选最优模型，其中

Y为真实值，Yp为采用留一法交叉验证的预测值，n为训练集样本数量；采用训练集T₂、T₃进行建模的模型采用对应验证集最大预测准确率指标筛选最优模型。

进一步地，所述步骤5中建模参数包括：线性拟合参数值Beta及相关系数值R²。

进一步地，所述步骤6计算加权值采用的公式为：

分别对应训练集T₁、T₂、T₃。

进一步地，所述步骤7中重新建立的模型为：Yp＝t₁×Beta₁×X_p1+t₂×Beta₂×X_p2+t₃×Beta₃×X_p3，其中X_p1为未知样本的光谱数据经T₁对应的最优模型的预处理方法得到的数据，X_p2为未知样本的光谱数据经T₂对应的最优模型的预处理方法得到的数据，X_p3为未知样本的光谱数据经T₃对应的最优模型的预处理方法得到的数据。

本发明相比于现有技术具有的有益效果是：针对酒醅样品固液混合的特殊形态及便携式光谱仪波段有限，通过设置三种不同训练集的划分方式，有效消除了酒糟一直处于持续发酵变化这一形态引起的误差，同时引入统计学的平均思想，有效屏蔽掉了样本、硬件等不稳定因素带来的波动，从而使得建模模型形态趋于稳定，有利于大面积推广于车间应用，同时经过验证，模型的预测准确率相较单一模型提升了近10％，为便携式光谱仪在各个行业的推广提供了有效的算法支撑。

附图说明

图1为基于多模型加权平均的酒醅近红外光谱建模方法的流程图；

图2为实施例对应的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于多模型加权平均的酒醅近红外光谱建模方法，包括：

步骤2、对步骤1中经过数据集划分后的3组数据分别进行至少两种预处理，预处理方法包括：高斯平滑、高斯求导、SG平滑法、去趋势及标准化等；

步骤4、设置模型评价指标；如：采用训练集T₁进行建模的模型采用最小RMSECV指标筛选最优模型，其中

Y为真实值，Yp为采用留一法交叉验证的预测值，n为训练集样本数量；采用训练集T₂、T₃进行建模的模型采用对应验证集最大预测准确率指标筛选最优模型；

步骤5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数；包括预处理方法及参数，线性拟合参数值Beta及相关系数值R²等。

步骤6、根据建模参数分别计算三种模型对应的加权值，具体计算公式为：

分别对应训练集T₁、T₂、T₃；

步骤7、根据加权值重新建模并保存，重新建立的模型为：Yp＝t₁×Beta₁×X_p1+t₂×Beta₂×X_p2+t₃×Beta₃×X_p3，其中X_p1为未知样本的光谱数据经T₁对应的最优模型的预处理方法得到的数据，X_p2为未知样本的光谱数据经T₂对应的最优模型的预处理方法得到的数据，X_p3为未知样本的光谱数据经T₃对应的最优模型的预处理方法得到的数据。

实施例

如图2所示，以1350nm-2150nm波段近红外光谱仪采集的数据为例，本实施例的具体步骤为：

a.光谱原始数据输入：本实施例中原始光谱数据为340×301的矩阵数据，即含340条光谱数据，每条光谱数据波段数为300个，成分标定值数据为1个；

b.光谱数据随机划分：复制步骤a中光谱数据一份，对数据集随机打乱，选取100条作为验证集，剩余240条作为训练集；

c.光谱数据临近划分：复制步骤a中光谱数据一份，选取采集时间最新的100条作为验证集，剩余240条作为训练集；

d.光谱数据预处理：对以上步骤中获得的光谱数据进行预处理，本实施例采用了高斯平滑、高斯求导、SG平滑等10种预处理方法，其中每种预处理方法均给予了很宽泛的参数区间设置，共计有2000种预处理组合，宽泛的预处理组合是为了增加训练模型的鲁棒性，进而提升便携式光谱仪的预测准确率；

e.偏最小二乘法建模：设置建模主成分的搜参区间为[1，2，……，15]，结合预处理组合数量，每组建模数据总计有2000*15＝30000种模型组合，计算每一种组合下，训练集的RMSECV值、Beta值、R²值及验证集的预测准确率；

f.模型评价指标设置及筛选：针对步骤a中的数据集，搜索30000个模型中RMSECV最小的模型作为最优模型，步骤b、c中的数据集，则采用验证集准确率最高对应的模型为最优模型。保存以上3组最优模型对应的预处理算法及参数、Beta值、R²值；

e.加权值求取：利用步骤f中3组模型的R²值，采用归一化方法，计算每个模型的权重值t₁、t₂、t₃，具体计算公式为：

分别对应训练集T₁、T₂、T₃；

f.模型加权平均及保存。利用3组模型的权重值、Beta值生成最优模型的线性拟合表达式，即Yp＝t₁×Beta₁×X_p1+t₂×Beta₂×X_p2+t₃×Beta₃×X_p3，并将该表达式与3组模型对应的预处理方法及参数加以保存，即为理想模型，其中X_p1为未知样本的光谱数据经T₁对应的最优模型的预处理方法得到的数据，X_p2为未知样本的光谱数据经T₂对应的最优模型的预处理方法得到的数据，X_p3为未知样本的光谱数据经T₃对应的最优模型的预处理方法得到的数据。

g.预测集光谱数据输入：利用便携式光谱仪采集待检测样本光谱数据，作为预测集；

h.模型预测：将g步骤获取的数据作为输入，筛选的最优模型中的预处理方法进行预处理，调用步骤f中的表达式，作为经预处理后的光谱数据与标定值间的关系映射，从而求取待检测样本成分的预测值。

通过本流程，可以做到便携式光谱仪实时逐条采样，逐条预测结果输出、显示及云端存储。通过本实施例验证，多轮预测结果均达到了预先设定的准确率要求，设备状态稳定，且预测结果相比单一模型的准确率普遍提升了10％左右。

Claims

1.一种基于多模型加权平均的酒醅近红外光谱建模方法，其特征在于，包括：

步骤4、设置模型评价指标；

步骤6、根据建模参数分别计算三种模型对应的加权值；

步骤7、根据加权值重新建模并保存。

2.根据权利要求1所述的一种基于多模型加权平均的酒醅近红外光谱建模方法，其特征在于，所述步骤2中数据预处理的方法包括：高斯平滑、高斯求导、SG平滑法、去趋势及标准化。

3.根据权利要求1所述的一种基于多模型加权平均的酒醅近红外光谱建模方法，其特征在于，所述步骤4包括：采用训练集T₁进行建模的模型采用最小RMSECV指标筛选最优模型，其中

4.根据权利要求3所述的一种基于多模型加权平均的酒醅近红外光谱建模方法，其特征在于，所述步骤5中建模参数包括：线性拟合参数值Beta及相关系数值R²。

5.根据权利要求4所述的一种基于多模型加权平均的酒醅近红外光谱建模方法，其特征在于，所述步骤6计算加权值采用的公式为：

分别对应训练集T₁、T₂、T₃。

6.根据权利要求5所述的一种基于多模型加权平均的酒醅近红外光谱建模方法，其特征在于，所述步骤7中重新建立的模型为：Yp＝t₁×Beta₁×X_p1+t₂×Beta₂×X_p2+t₃×Beta₃×X_p3，其中X_p1为未知样本的光谱数据经T₁对应的最优模型的预处理方法得到的数据，X_p2为未知样本的光谱数据经T₂对应的最优模型的预处理方法得到的数据，X_p3为未知样本的光谱数据经T₃对应的最优模型的预处理方法得到的数据。