CN114357886A - 一种基于多模型加权平均的酒醅近红外光谱建模方法 - Google Patents
一种基于多模型加权平均的酒醅近红外光谱建模方法 Download PDFInfo
- Publication number
- CN114357886A CN114357886A CN202210012983.5A CN202210012983A CN114357886A CN 114357886 A CN114357886 A CN 114357886A CN 202210012983 A CN202210012983 A CN 202210012983A CN 114357886 A CN114357886 A CN 114357886A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- near infrared
- infrared spectrum
- modeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims abstract description 16
- 230000003595 spectral effect Effects 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000009499 grossing Methods 0.000 claims description 8
- 238000009795 derivation Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000000855 fermentation Methods 0.000 description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013124 brewing process Methods 0.000 description 2
- 230000004151 fermentation Effects 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 238000009614 chemical analysis method Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011031 large-scale manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004940 physical analysis method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000031068 symbiosis, encompassing mutualism through parasitism Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Landscapes
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明涉及近红外光谱检测技术,为了提升酒醅近红外光谱模型的稳定性及预测准确率,提供了一种基于多模型加权平均的酒醅近红外光谱建模方法,包括:1、获取光谱原数据并进行数据集划分:将光谱原数据整体作为训练集T1;将光谱原数据随机划分为训练集T2、验证集V2;将光谱原数据中临近预测集采集时间的A个数据作为验证集V3,剩余样本做为训练集T3;2、对划分后的数据分别进行预处理;3、对预处理后的训练集数据分别采用PLS建模;4、设置模型评价指标;5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数;6、计算三种模型对应的加权值;7、根据加权值重新建模并保存。采用上述方式提升了模型的稳定性及预测准确率。
Description
技术领域
本发明涉及近红外光谱检测技术领域,具体是一种基于多模型加权平均的酒醅近红外光谱建模方法。
背景技术
传统固态白酒酿造过程是一个典型的酿酒微生物群落共生、共酵、代谢调控的过程,酒糟成分配比是整个酿酒生产系统运行控制的关键因子,对最终产品的品质有着极为重要和关键的影响。白酒酒醅的理化分析,作为酿酒企业重要的质量控制手段,其结果对于酿酒生产指导、酒醅配料调整、质量控制有着不可替代的作用。但是传统的理化分析方法存在检测方法落后、工作量大、耗时长、耗费人力多、结果反馈不及时等诸多问题,成为了困扰整个行业的技术难点,制约着其在大规模生产中的进一步应用。从2003年开始,各大白酒企业逐渐引进国外大型的傅里叶变换近红外光谱设备用于酒醅的分析,但分析近20年以来用于酒醅检测的近红外光谱应用发现,这些设备仅局限于完成实验室酒醅样本的抽检工作,且操作专业复杂,同时这些设备对工作环境的温度、湿度、抗震等有严格的要求,这就造成了其无法用于生产现场的大面积推广应用。
随着微机电技术的发展,近几年,便携式光谱仪被广泛应用于食品、饮料、医药、煤炭等各个领域,相较于传统的大型光谱分析系统,其具有结构简单、成本低廉、携带方便、结果实时可见等优势,目前已成为光谱领域的热门产品。但其自身也存在一定的不足,如稳定性、运行效率、准确率等仍与传统的实验室大型设备有一定的差距,需在硬件、算法等方面加以不断优化。尤其是针对酒醅样品,鉴于其固液混合的物理形态,同时随着环境的变化,时间的推移,其处于一种持续不断发酵的变化状态中,故通过便携式近红外光谱仪采集的光谱数据,很容易受各种因素的干扰,模型预测的准确率波动较大,无法批量大面积地应用于产线上。
发明内容
为了提升酒醅近红外光谱模型的稳定性及预测准确率,本发明提供了一种基于多模型加权平均的酒醅近红外光谱建模方法。
本发明解决上述问题所采用的技术方案是:
一种基于多模型加权平均的酒醅近红外光谱建模方法,包括:
步骤1、获取光谱原数据并进行数据集划分:将光谱原数据整体作为训练集T1;将光谱原数据随机划分为训练集T2、验证集V2;将光谱原数据中临近预测集采集时间的A个数据作为验证集V3,剩余样本作为训练集T3;
步骤2、对步骤1中经过数据集划分后的3组数据分别进行至少两种预处理;
步骤3、对预处理后的训练集数据T1、T2、T3分别采用PLS建模;
步骤4、设置模型评价指标;
步骤5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数;
步骤6、根据建模参数分别计算三种模型对应的加权值;
步骤7、根据加权值重新建模并保存。
进一步地,所述步骤2中数据预处理的方法包括:高斯平滑、高斯求导、SG平滑法、去趋势及标准化。
进一步地,所述步骤4包括:采用训练集T1进行建模的模型采用最小RMSECV指标筛选最优模型,其中Y为真实值,Yp为采用留一法交叉验证的预测值,n为训练集样本数量;采用训练集T2、T3进行建模的模型采用对应验证集最大预测准确率指标筛选最优模型。
进一步地,所述步骤5中建模参数包括:线性拟合参数值Beta及相关系数值R2。
进一步地,所述步骤7中重新建立的模型为:Yp=t1×Beta1×Xp1+t2×Beta2×Xp2+t3×Beta3×Xp3,其中Xp1为未知样本的光谱数据经T1对应的最优模型的预处理方法得到的数据,Xp2为未知样本的光谱数据经T2对应的最优模型的预处理方法得到的数据,Xp3为未知样本的光谱数据经T3对应的最优模型的预处理方法得到的数据。
本发明相比于现有技术具有的有益效果是:针对酒醅样品固液混合的特殊形态及便携式光谱仪波段有限,通过设置三种不同训练集的划分方式,有效消除了酒糟一直处于持续发酵变化这一形态引起的误差,同时引入统计学的平均思想,有效屏蔽掉了样本、硬件等不稳定因素带来的波动,从而使得建模模型形态趋于稳定,有利于大面积推广于车间应用,同时经过验证,模型的预测准确率相较单一模型提升了近10%,为便携式光谱仪在各个行业的推广提供了有效的算法支撑。
附图说明
图1为基于多模型加权平均的酒醅近红外光谱建模方法的流程图;
图2为实施例对应的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于多模型加权平均的酒醅近红外光谱建模方法,包括:
步骤1、获取光谱原数据并进行数据集划分:将光谱原数据整体作为训练集T1;将光谱原数据随机划分为训练集T2、验证集V2;将光谱原数据中临近预测集采集时间的A个数据作为验证集V3,剩余样本作为训练集T3;
步骤2、对步骤1中经过数据集划分后的3组数据分别进行至少两种预处理,预处理方法包括:高斯平滑、高斯求导、SG平滑法、去趋势及标准化等;
步骤3、对预处理后的训练集数据T1、T2、T3分别采用PLS建模;
步骤4、设置模型评价指标;如:采用训练集T1进行建模的模型采用最小RMSECV指标筛选最优模型,其中Y为真实值,Yp为采用留一法交叉验证的预测值,n为训练集样本数量;采用训练集T2、T3进行建模的模型采用对应验证集最大预测准确率指标筛选最优模型;
步骤5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数;包括预处理方法及参数,线性拟合参数值Beta及相关系数值R2等。
步骤7、根据加权值重新建模并保存,重新建立的模型为:Yp=t1×Beta1×Xp1+t2×Beta2×Xp2+t3×Beta3×Xp3,其中Xp1为未知样本的光谱数据经T1对应的最优模型的预处理方法得到的数据,Xp2为未知样本的光谱数据经T2对应的最优模型的预处理方法得到的数据,Xp3为未知样本的光谱数据经T3对应的最优模型的预处理方法得到的数据。
实施例
如图2所示,以1350nm-2150nm波段近红外光谱仪采集的数据为例,本实施例的具体步骤为:
a.光谱原始数据输入:本实施例中原始光谱数据为340×301的矩阵数据,即含340条光谱数据,每条光谱数据波段数为300个,成分标定值数据为1个;
b.光谱数据随机划分:复制步骤a中光谱数据一份,对数据集随机打乱,选取100条作为验证集,剩余240条作为训练集;
c.光谱数据临近划分:复制步骤a中光谱数据一份,选取采集时间最新的100条作为验证集,剩余240条作为训练集;
d.光谱数据预处理:对以上步骤中获得的光谱数据进行预处理,本实施例采用了高斯平滑、高斯求导、SG平滑等10种预处理方法,其中每种预处理方法均给予了很宽泛的参数区间设置,共计有2000种预处理组合,宽泛的预处理组合是为了增加训练模型的鲁棒性,进而提升便携式光谱仪的预测准确率;
e.偏最小二乘法建模:设置建模主成分的搜参区间为[1,2,……,15],结合预处理组合数量,每组建模数据总计有2000*15=30000种模型组合,计算每一种组合下,训练集的RMSECV值、Beta值、R2值及验证集的预测准确率;
f.模型评价指标设置及筛选:针对步骤a中的数据集,搜索30000个模型中RMSECV最小的模型作为最优模型,步骤b、c中的数据集,则采用验证集准确率最高对应的模型为最优模型。保存以上3组最优模型对应的预处理算法及参数、Beta值、R2值;
f.模型加权平均及保存。利用3组模型的权重值、Beta值生成最优模型的线性拟合表达式,即Yp=t1×Beta1×Xp1+t2×Beta2×Xp2+t3×Beta3×Xp3,并将该表达式与3组模型对应的预处理方法及参数加以保存,即为理想模型,其中Xp1为未知样本的光谱数据经T1对应的最优模型的预处理方法得到的数据,Xp2为未知样本的光谱数据经T2对应的最优模型的预处理方法得到的数据,Xp3为未知样本的光谱数据经T3对应的最优模型的预处理方法得到的数据。
g.预测集光谱数据输入:利用便携式光谱仪采集待检测样本光谱数据,作为预测集;
h.模型预测:将g步骤获取的数据作为输入,筛选的最优模型中的预处理方法进行预处理,调用步骤f中的表达式,作为经预处理后的光谱数据与标定值间的关系映射,从而求取待检测样本成分的预测值。
通过本流程,可以做到便携式光谱仪实时逐条采样,逐条预测结果输出、显示及云端存储。通过本实施例验证,多轮预测结果均达到了预先设定的准确率要求,设备状态稳定,且预测结果相比单一模型的准确率普遍提升了10%左右。
Claims (6)
1.一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,包括:
步骤1、获取光谱原数据并进行数据集划分:将光谱原数据整体作为训练集T1;将光谱原数据随机划分为训练集T2、验证集V2;将光谱原数据中临近预测集采集时间的A个数据作为验证集V3,剩余样本作为训练集T3;
步骤2、对步骤1中经过数据集划分后的3组数据分别进行至少两种预处理;
步骤3、对预处理后的训练集数据T1、T2、T3分别采用PLS建模;
步骤4、设置模型评价指标;
步骤5、根据模型评价指标进行模型筛选并保存最优模型及对应的建模参数;
步骤6、根据建模参数分别计算三种模型对应的加权值;
步骤7、根据加权值重新建模并保存。
2.根据权利要求1所述的一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,所述步骤2中数据预处理的方法包括:高斯平滑、高斯求导、SG平滑法、去趋势及标准化。
4.根据权利要求3所述的一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,所述步骤5中建模参数包括:线性拟合参数值Beta及相关系数值R2。
6.根据权利要求5所述的一种基于多模型加权平均的酒醅近红外光谱建模方法,其特征在于,所述步骤7中重新建立的模型为:Yp=t1×Beta1×Xp1+t2×Beta2×Xp2+t3×Beta3×Xp3,其中Xp1为未知样本的光谱数据经T1对应的最优模型的预处理方法得到的数据,Xp2为未知样本的光谱数据经T2对应的最优模型的预处理方法得到的数据,Xp3为未知样本的光谱数据经T3对应的最优模型的预处理方法得到的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210012983.5A CN114357886A (zh) | 2022-01-07 | 2022-01-07 | 一种基于多模型加权平均的酒醅近红外光谱建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210012983.5A CN114357886A (zh) | 2022-01-07 | 2022-01-07 | 一种基于多模型加权平均的酒醅近红外光谱建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114357886A true CN114357886A (zh) | 2022-04-15 |
Family
ID=81106884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210012983.5A Pending CN114357886A (zh) | 2022-01-07 | 2022-01-07 | 一种基于多模型加权平均的酒醅近红外光谱建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357886A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843998A (zh) * | 2023-08-29 | 2023-10-03 | 四川省分析测试服务中心 | 一种光谱样本加权方法及系统 |
-
2022
- 2022-01-07 CN CN202210012983.5A patent/CN114357886A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843998A (zh) * | 2023-08-29 | 2023-10-03 | 四川省分析测试服务中心 | 一种光谱样本加权方法及系统 |
CN116843998B (zh) * | 2023-08-29 | 2023-11-14 | 四川省分析测试服务中心 | 一种光谱样本加权方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103528990B (zh) | 一种近红外光谱的多模型建模方法 | |
WO2020029851A1 (zh) | 一种基于工作流的振动光谱分析模型优化方法 | |
CN110503156B (zh) | 一种基于最小相关系数的多变量校正特征波长选择方法 | |
CN110726694A (zh) | 光谱变量梯度集成遗传算法的特征波长选择方法和系统 | |
CN102509243A (zh) | 卷烟制造过程质量评价方法及其系统 | |
CN104596984A (zh) | 一种六神曲发酵过程近红外在线质量检测方法 | |
CN109060771B (zh) | 一种基于光谱不同特征集的共识模型构建方法 | |
CN116895283B (zh) | 基于人工智能的噪声预测方法 | |
CN112285056B (zh) | 一种用于光谱样品个性化校正集选择及建模方法 | |
CN102072767A (zh) | 基于波长相似性共识回归红外光谱定量分析方法和装置 | |
WO2020248961A1 (zh) | 一种无参考值的光谱波数选择方法 | |
CN114357886A (zh) | 一种基于多模型加权平均的酒醅近红外光谱建模方法 | |
CN110110789A (zh) | 一种基于多谱图信息融合技术的中草药品质鉴别方法 | |
CN114611582B (zh) | 一种基于近红外光谱技术分析物质浓度的方法及系统 | |
CN114216877A (zh) | 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统 | |
CN105806803A (zh) | 一种多指标协同分析波长组合及其选择方法 | |
Chen et al. | Combination of modified optical path length estimation and correction and moving window partial least squares to waveband selection for the fourier transform near-infrared determination of pectin in shaddock peel | |
CN115795225B (zh) | 一种近红外光谱校正集的筛选方法及装置 | |
CN114577967A (zh) | 基于人工神经网络和差谱的中药复方样品色谱分析方法 | |
CN105092509B (zh) | 一种基于pcr‑elm算法的样品成份测定方法 | |
CN113607683B (zh) | 一种近红外光谱定量分析的自动建模方法 | |
CN115931773A (zh) | 一种近红外光谱定量分析中的波长选择方法 | |
CN115034443A (zh) | 一种基于工况划分与神经网络的锅炉性能预测方法 | |
CN115130377A (zh) | 一种boss-sapso优化极限学习机的土壤重金属预测方法 | |
CN106644977A (zh) | 一种基于蝙蝠算法的光谱变量选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |