CN114357886A - 一种基于多模型加权平均的酒醅近红外光谱建模方法 - Google Patents

一种基于多模型加权平均的酒醅近红外光谱建模方法 Download PDF

Info

Publication number
CN114357886A
CN114357886A CN202210012983.5A CN202210012983A CN114357886A CN 114357886 A CN114357886 A CN 114357886A CN 202210012983 A CN202210012983 A CN 202210012983A CN 114357886 A CN114357886 A CN 114357886A
Authority
CN
China
Prior art keywords
model
data
near infrared
infrared spectrum
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210012983.5A
Other languages
English (en)
Inventor
贾利红
闫晓剑
张国宏
何涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Cric Technology Co ltd
Original Assignee
Sichuan Cric Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Cric Technology Co ltd filed Critical Sichuan Cric Technology Co ltd
Priority to CN202210012983.5A priority Critical patent/CN114357886A/zh
Publication of CN114357886A publication Critical patent/CN114357886A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及近红外光谱检测技术,为了提升酒醅近红外光谱模型的稳定性及预测准确率,提供了一种基于多模型加权平均的酒醅近红外光谱建模方法,包括:1、获取光谱原数据并进行数据集划分:将光谱原数据整体作为训练集T1;将光谱原数据随机划分为训练集T2、验证集V2;将光谱原数据中临近预测集采集时间的A个数据作为验证集V3,剩余样本做为训练集T3;2、对划分后的数据分别进行预处理;3、对预处理后的训练集数据分别采用PLS建模;4、设置模型评价指标;5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数;6、计算三种模型对应的加权值;7、根据加权值重新建模并保存。采用上述方式提升了模型的稳定性及预测准确率。

Description

一种基于多模型加权平均的酒醅近红外光谱建模方法
技术领域
本发明涉及近红外光谱检测技术领域,具体是一种基于多模型加权平均的酒醅近红外光谱建模方法。
背景技术
传统固态白酒酿造过程是一个典型的酿酒微生物群落共生、共酵、代谢调控的过程,酒糟成分配比是整个酿酒生产系统运行控制的关键因子,对最终产品的品质有着极为重要和关键的影响。白酒酒醅的理化分析,作为酿酒企业重要的质量控制手段,其结果对于酿酒生产指导、酒醅配料调整、质量控制有着不可替代的作用。但是传统的理化分析方法存在检测方法落后、工作量大、耗时长、耗费人力多、结果反馈不及时等诸多问题,成为了困扰整个行业的技术难点,制约着其在大规模生产中的进一步应用。从2003年开始,各大白酒企业逐渐引进国外大型的傅里叶变换近红外光谱设备用于酒醅的分析,但分析近20年以来用于酒醅检测的近红外光谱应用发现,这些设备仅局限于完成实验室酒醅样本的抽检工作,且操作专业复杂,同时这些设备对工作环境的温度、湿度、抗震等有严格的要求,这就造成了其无法用于生产现场的大面积推广应用。
随着微机电技术的发展,近几年,便携式光谱仪被广泛应用于食品、饮料、医药、煤炭等各个领域,相较于传统的大型光谱分析系统,其具有结构简单、成本低廉、携带方便、结果实时可见等优势,目前已成为光谱领域的热门产品。但其自身也存在一定的不足,如稳定性、运行效率、准确率等仍与传统的实验室大型设备有一定的差距,需在硬件、算法等方面加以不断优化。尤其是针对酒醅样品,鉴于其固液混合的物理形态,同时随着环境的变化,时间的推移,其处于一种持续不断发酵的变化状态中,故通过便携式近红外光谱仪采集的光谱数据,很容易受各种因素的干扰,模型预测的准确率波动较大,无法批量大面积地应用于产线上。
发明内容
为了提升酒醅近红外光谱模型的稳定性及预测准确率,本发明提供了一种基于多模型加权平均的酒醅近红外光谱建模方法。
本发明解决上述问题所采用的技术方案是:
一种基于多模型加权平均的酒醅近红外光谱建模方法,包括:
步骤1、获取光谱原数据并进行数据集划分:将光谱原数据整体作为训练集T1;将光谱原数据随机划分为训练集T2、验证集V2;将光谱原数据中临近预测集采集时间的A个数据作为验证集V3,剩余样本作为训练集T3
步骤2、对步骤1中经过数据集划分后的3组数据分别进行至少两种预处理;
步骤3、对预处理后的训练集数据T1、T2、T3分别采用PLS建模;
步骤4、设置模型评价指标;
步骤5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数;
步骤6、根据建模参数分别计算三种模型对应的加权值;
步骤7、根据加权值重新建模并保存。
进一步地,所述步骤2中数据预处理的方法包括:高斯平滑、高斯求导、SG平滑法、去趋势及标准化。
进一步地,所述步骤4包括:采用训练集T1进行建模的模型采用最小RMSECV指标筛选最优模型,其中
Figure BDA0003459694700000021
Y为真实值,Yp为采用留一法交叉验证的预测值,n为训练集样本数量;采用训练集T2、T3进行建模的模型采用对应验证集最大预测准确率指标筛选最优模型。
进一步地,所述步骤5中建模参数包括:线性拟合参数值Beta及相关系数值R2
进一步地,所述步骤6计算加权值采用的公式为:
Figure BDA0003459694700000022
分别对应训练集T1、T2、T3
进一步地,所述步骤7中重新建立的模型为:Yp=t1×Beta1×Xp1+t2×Beta2×Xp2+t3×Beta3×Xp3,其中Xp1为未知样本的光谱数据经T1对应的最优模型的预处理方法得到的数据,Xp2为未知样本的光谱数据经T2对应的最优模型的预处理方法得到的数据,Xp3为未知样本的光谱数据经T3对应的最优模型的预处理方法得到的数据。
本发明相比于现有技术具有的有益效果是:针对酒醅样品固液混合的特殊形态及便携式光谱仪波段有限,通过设置三种不同训练集的划分方式,有效消除了酒糟一直处于持续发酵变化这一形态引起的误差,同时引入统计学的平均思想,有效屏蔽掉了样本、硬件等不稳定因素带来的波动,从而使得建模模型形态趋于稳定,有利于大面积推广于车间应用,同时经过验证,模型的预测准确率相较单一模型提升了近10%,为便携式光谱仪在各个行业的推广提供了有效的算法支撑。
附图说明
图1为基于多模型加权平均的酒醅近红外光谱建模方法的流程图;
图2为实施例对应的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于多模型加权平均的酒醅近红外光谱建模方法,包括:
步骤1、获取光谱原数据并进行数据集划分:将光谱原数据整体作为训练集T1;将光谱原数据随机划分为训练集T2、验证集V2;将光谱原数据中临近预测集采集时间的A个数据作为验证集V3,剩余样本作为训练集T3
步骤2、对步骤1中经过数据集划分后的3组数据分别进行至少两种预处理,预处理方法包括:高斯平滑、高斯求导、SG平滑法、去趋势及标准化等;
步骤3、对预处理后的训练集数据T1、T2、T3分别采用PLS建模;
步骤4、设置模型评价指标;如:采用训练集T1进行建模的模型采用最小RMSECV指标筛选最优模型,其中
Figure BDA0003459694700000031
Y为真实值,Yp为采用留一法交叉验证的预测值,n为训练集样本数量;采用训练集T2、T3进行建模的模型采用对应验证集最大预测准确率指标筛选最优模型;
步骤5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数;包括预处理方法及参数,线性拟合参数值Beta及相关系数值R2等。
步骤6、根据建模参数分别计算三种模型对应的加权值,具体计算公式为:
Figure BDA0003459694700000032
Figure BDA0003459694700000033
分别对应训练集T1、T2、T3
步骤7、根据加权值重新建模并保存,重新建立的模型为:Yp=t1×Beta1×Xp1+t2×Beta2×Xp2+t3×Beta3×Xp3,其中Xp1为未知样本的光谱数据经T1对应的最优模型的预处理方法得到的数据,Xp2为未知样本的光谱数据经T2对应的最优模型的预处理方法得到的数据,Xp3为未知样本的光谱数据经T3对应的最优模型的预处理方法得到的数据。
实施例
如图2所示,以1350nm-2150nm波段近红外光谱仪采集的数据为例,本实施例的具体步骤为:
a.光谱原始数据输入:本实施例中原始光谱数据为340×301的矩阵数据,即含340条光谱数据,每条光谱数据波段数为300个,成分标定值数据为1个;
b.光谱数据随机划分:复制步骤a中光谱数据一份,对数据集随机打乱,选取100条作为验证集,剩余240条作为训练集;
c.光谱数据临近划分:复制步骤a中光谱数据一份,选取采集时间最新的100条作为验证集,剩余240条作为训练集;
d.光谱数据预处理:对以上步骤中获得的光谱数据进行预处理,本实施例采用了高斯平滑、高斯求导、SG平滑等10种预处理方法,其中每种预处理方法均给予了很宽泛的参数区间设置,共计有2000种预处理组合,宽泛的预处理组合是为了增加训练模型的鲁棒性,进而提升便携式光谱仪的预测准确率;
e.偏最小二乘法建模:设置建模主成分的搜参区间为[1,2,……,15],结合预处理组合数量,每组建模数据总计有2000*15=30000种模型组合,计算每一种组合下,训练集的RMSECV值、Beta值、R2值及验证集的预测准确率;
f.模型评价指标设置及筛选:针对步骤a中的数据集,搜索30000个模型中RMSECV最小的模型作为最优模型,步骤b、c中的数据集,则采用验证集准确率最高对应的模型为最优模型。保存以上3组最优模型对应的预处理算法及参数、Beta值、R2值;
e.加权值求取:利用步骤f中3组模型的R2值,采用归一化方法,计算每个模型的权重值t1、t2、t3,具体计算公式为:
Figure BDA0003459694700000041
分别对应训练集T1、T2、T3
f.模型加权平均及保存。利用3组模型的权重值、Beta值生成最优模型的线性拟合表达式,即Yp=t1×Beta1×Xp1+t2×Beta2×Xp2+t3×Beta3×Xp3,并将该表达式与3组模型对应的预处理方法及参数加以保存,即为理想模型,其中Xp1为未知样本的光谱数据经T1对应的最优模型的预处理方法得到的数据,Xp2为未知样本的光谱数据经T2对应的最优模型的预处理方法得到的数据,Xp3为未知样本的光谱数据经T3对应的最优模型的预处理方法得到的数据。
g.预测集光谱数据输入:利用便携式光谱仪采集待检测样本光谱数据,作为预测集;
h.模型预测:将g步骤获取的数据作为输入,筛选的最优模型中的预处理方法进行预处理,调用步骤f中的表达式,作为经预处理后的光谱数据与标定值间的关系映射,从而求取待检测样本成分的预测值。
通过本流程,可以做到便携式光谱仪实时逐条采样,逐条预测结果输出、显示及云端存储。通过本实施例验证,多轮预测结果均达到了预先设定的准确率要求,设备状态稳定,且预测结果相比单一模型的准确率普遍提升了10%左右。

Claims (6)

1.一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,包括:
步骤1、获取光谱原数据并进行数据集划分:将光谱原数据整体作为训练集T1;将光谱原数据随机划分为训练集T2、验证集V2;将光谱原数据中临近预测集采集时间的A个数据作为验证集V3,剩余样本作为训练集T3
步骤2、对步骤1中经过数据集划分后的3组数据分别进行至少两种预处理;
步骤3、对预处理后的训练集数据T1、T2、T3分别采用PLS建模;
步骤4、设置模型评价指标;
步骤5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数;
步骤6、根据建模参数分别计算三种模型对应的加权值;
步骤7、根据加权值重新建模并保存。
2.根据权利要求1所述的一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,所述步骤2中数据预处理的方法包括:高斯平滑、高斯求导、SG平滑法、去趋势及标准化。
3.根据权利要求1所述的一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,所述步骤4包括:采用训练集T1进行建模的模型采用最小RMSECV指标筛选最优模型,其中
Figure FDA0003459694690000011
Y为真实值,Yp为采用留一法交叉验证的预测值,n为训练集样本数量;采用训练集T2、T3进行建模的模型采用对应验证集最大预测准确率指标筛选最优模型。
4.根据权利要求3所述的一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,所述步骤5中建模参数包括:线性拟合参数值Beta及相关系数值R2
5.根据权利要求4所述的一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,所述步骤6计算加权值采用的公式为:
Figure FDA0003459694690000012
分别对应训练集T1、T2、T3
6.根据权利要求5所述的一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,所述步骤7中重新建立的模型为:Yp=t1×Beta1×Xp1+t2×Beta2×Xp2+t3×Beta3×Xp3,其中Xp1为未知样本的光谱数据经T1对应的最优模型的预处理方法得到的数据,Xp2为未知样本的光谱数据经T2对应的最优模型的预处理方法得到的数据,Xp3为未知样本的光谱数据经T3对应的最优模型的预处理方法得到的数据。
CN202210012983.5A 2022-01-07 2022-01-07 一种基于多模型加权平均的酒醅近红外光谱建模方法 Pending CN114357886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210012983.5A CN114357886A (zh) 2022-01-07 2022-01-07 一种基于多模型加权平均的酒醅近红外光谱建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210012983.5A CN114357886A (zh) 2022-01-07 2022-01-07 一种基于多模型加权平均的酒醅近红外光谱建模方法

Publications (1)

Publication Number Publication Date
CN114357886A true CN114357886A (zh) 2022-04-15

Family

ID=81106884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210012983.5A Pending CN114357886A (zh) 2022-01-07 2022-01-07 一种基于多模型加权平均的酒醅近红外光谱建模方法

Country Status (1)

Country Link
CN (1) CN114357886A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843998A (zh) * 2023-08-29 2023-10-03 四川省分析测试服务中心 一种光谱样本加权方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843998A (zh) * 2023-08-29 2023-10-03 四川省分析测试服务中心 一种光谱样本加权方法及系统
CN116843998B (zh) * 2023-08-29 2023-11-14 四川省分析测试服务中心 一种光谱样本加权方法及系统

Similar Documents

Publication Publication Date Title
CN103528990B (zh) 一种近红外光谱的多模型建模方法
WO2020029851A1 (zh) 一种基于工作流的振动光谱分析模型优化方法
CN110503156B (zh) 一种基于最小相关系数的多变量校正特征波长选择方法
CN110726694A (zh) 光谱变量梯度集成遗传算法的特征波长选择方法和系统
CN102509243A (zh) 卷烟制造过程质量评价方法及其系统
CN104596984A (zh) 一种六神曲发酵过程近红外在线质量检测方法
CN109060771B (zh) 一种基于光谱不同特征集的共识模型构建方法
CN116895283B (zh) 基于人工智能的噪声预测方法
CN112285056B (zh) 一种用于光谱样品个性化校正集选择及建模方法
CN102072767A (zh) 基于波长相似性共识回归红外光谱定量分析方法和装置
WO2020248961A1 (zh) 一种无参考值的光谱波数选择方法
CN114357886A (zh) 一种基于多模型加权平均的酒醅近红外光谱建模方法
CN110110789A (zh) 一种基于多谱图信息融合技术的中草药品质鉴别方法
CN114611582B (zh) 一种基于近红外光谱技术分析物质浓度的方法及系统
CN114216877A (zh) 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统
CN105806803A (zh) 一种多指标协同分析波长组合及其选择方法
Chen et al. Combination of modified optical path length estimation and correction and moving window partial least squares to waveband selection for the fourier transform near-infrared determination of pectin in shaddock peel
CN115795225B (zh) 一种近红外光谱校正集的筛选方法及装置
CN114577967A (zh) 基于人工神经网络和差谱的中药复方样品色谱分析方法
CN105092509B (zh) 一种基于pcr‑elm算法的样品成份测定方法
CN113607683B (zh) 一种近红外光谱定量分析的自动建模方法
CN115931773A (zh) 一种近红外光谱定量分析中的波长选择方法
CN115034443A (zh) 一种基于工况划分与神经网络的锅炉性能预测方法
CN115130377A (zh) 一种boss-sapso优化极限学习机的土壤重金属预测方法
CN106644977A (zh) 一种基于蝙蝠算法的光谱变量选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination