CN117252467A - 一种基于shap值的酿酒工艺参数优化方法 - Google Patents
一种基于shap值的酿酒工艺参数优化方法 Download PDFInfo
- Publication number
- CN117252467A CN117252467A CN202311216251.9A CN202311216251A CN117252467A CN 117252467 A CN117252467 A CN 117252467A CN 202311216251 A CN202311216251 A CN 202311216251A CN 117252467 A CN117252467 A CN 117252467A
- Authority
- CN
- China
- Prior art keywords
- brewing
- brewing process
- process parameters
- wine
- shap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013124 brewing process Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000005457 optimization Methods 0.000 title claims abstract description 13
- 235000014101 wine Nutrition 0.000 claims abstract description 68
- 238000010586 diagram Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000000546 chi-square test Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 21
- 235000020097 white wine Nutrition 0.000 abstract description 5
- 238000004821 distillation Methods 0.000 description 21
- 239000000843 powder Substances 0.000 description 16
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 14
- 235000013339 cereals Nutrition 0.000 description 14
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 12
- 238000010025 steaming Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 235000013312 flour Nutrition 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000855 fermentation Methods 0.000 description 4
- 230000004151 fermentation Effects 0.000 description 4
- 239000010903 husk Substances 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 3
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013433 optimization analysis Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Manufacturing & Machinery (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Alcoholic Beverages (AREA)
Abstract
本发明主要涉及酿酒工艺技术领域,提供一种基于SHAP值的酿酒生产工艺参数优化方法,确定白酒酿造过程中对产出酒的质量的影响因素的最佳取值,提高白酒的产出质量。本发明基于酿酒工艺参数和产出酒的质量分级结果,通过对白酒生产数据进行分析,抽取与一级酒产量相关的工艺参数特征,构建是否产出一级酒的预测模型。然后基于该预测模型,计算工艺流程中各参数SHAP值,并通过分析工艺参数不同取值所对应的SHA值,分析不同工艺参数对白酒质量等级的影响程度,以及工艺参数的最佳取值区间,实现对生产工艺参数的优化,以指导生产实践。
Description
技术领域
本发明主要涉及酿酒工艺技术领域,尤其是涉及一种基于SHAP值的酿酒工艺参数优化方法。
背景技术
现有的白酒市场涉及面广泛,需求量大,为了优化白酒生产工艺,实现优产高产的目标,白酒生产需要在传统的酿酒工艺基础上,辅以大数据与人工智能技术,将传统酿酒行业与新一代信息技术融合。现有技术主要通过构建多元统计回归模型、设计正交试验或者方差分析的方法对影响白酒生产的参数进行分析。然而,影响白酒质量等级的因素众多,而且各因素之间融合交叉,具有复杂的非线性关系,因此现有的统计方法在对影响白酒质量的因素挖掘分析上还不够充分,对于白酒酿酒工艺参数的优化上还有待提升。
专利公布号为CN111476428A的专利文件中公开了一种基于大数据分析的酿酒工艺优化方法,具体包括(1)获取酿酒工艺的历史参数信息,所述酿酒工艺至少包括糖化环节、配糟环节、发酵环节和蒸馏环节;(2)根据所述历史参数信息,分别建立用于糖化环节的RBF模型、用于配糟环节的ANFIS模型、用于发酵环节的LS-SVM模型和用于蒸馏环节的BP神经网络模型;(3)获取酿酒工艺的实时参数信息,根据所述实时参数信息,基于各个模型计算酿酒工艺各个环节的参数优化结果,根据所述参数优化结果对酿酒工艺的对应环节进行变量控制。该方案采用人工智能模型,对酿酒工艺参数进行大数据分析,使酿酒工艺智能化;将酿酒环节剥离成四个环节并分别建立模型,提高模型预测结果的精确性,但是在参数优化环节中,所使用的数据是基于模型给出的预测数据,依赖于模型训练的效果,其准确性和可靠性难以保证。
发明内容
本发明所要解决的技术问题:
提供一种基于SHAP值的酿酒工艺参数优化方法,确定白酒酿造过程中影响白酒质量的酿酒工艺参数的最佳取值,提高白酒的产出质量。
本发明解决上述技术问题所采用的技术方案:
一种基于SHAP值的酿酒工艺参数优化方法,包括:
骤1:构建酿酒质量等级预测模型,以酿酒工艺参数作为酿酒质量等级模型的的输入,产出酒的等级作为酿酒质量模型的输出对酿酒质量等级预测模型进行训练;
步骤2:基于训练后的酿酒质量等级预测模型的酿酒质量等级预测值计算各酿酒工艺参数的SHAP值;
步骤3:根据各酿酒工艺参数的不同取值与产出酒的质量等级和SHAP值的关系得到各酿酒工艺参数的推荐值。
进一步的,步骤1中所述的酿酒质量等级预测模型为Xgboost模型。
进一步的,步骤2的具体方法为:
步骤21:随机从酿酒工艺参数数据集中选择一个样本;
步骤22:基于样本中所有酿酒工艺参数总集N生成酿酒工艺参数子集S,酿酒工艺参数总集N中的工艺参数个数为M,子集S的工艺参数个数记为|S|,,则样本中共生成2M个酿酒工艺参数子集;
步骤23:计算每个酿酒工艺参数子集对产出酒质量的平均贡献值fx;
步骤24:计算每个酿酒工艺参数的SHAP值 [fx(S∪{i})-fx(S)]表示酿酒工艺参数i对于酿酒等级质量预测模型的贡献度。
进一步的,步骤3中,分别绘制酿酒工艺参数与产出酒等级和SHAP值的散点图,通过酿酒工艺参数与产出酒等级和SHAP值的散点图得到各酿酒工艺参数的推荐值。
进一步的,其特征在于,在完成步骤1构建酿酒质量等级预测模型之前还包括对收集对酿酒生产工艺加工数据和质量检测数据进行清洗,删除并纠正原始数据中可识别的错误。
进一步的,对酿酒数据进行清洗后还包括对数据进行预处理,包括进行特征变换、特征离散化、特征选择和特征构造;
特征变换:将分布不均的特征转换为标准正态分布;
特征构造:对部分不可直接用于模型训练的特征进行运算,构造为新特征;
特征选择:通过方差选择、相关系数和卡方检验筛除与建立酿酒质量等级预测模型无关的数据;
特征离散化:采集的生产数据中的一级酒产量进行离散化处理,有一级酒产出,则将该条数据的标签标记为1,没有一级酒产出则将该条数据的标签标记为0。
本发明的有益效果:
本发明所述的一种基于SHAP值的酿酒工艺参数优化方法通过构建酿酒工艺过程的酿酒质量等级预测模型,对酿造产出的白酒的质量等级进行自动化和智能化的预测,结合酿酒工艺参数的SHAP值对酿酒工艺参数的取值范围进行确定,能够有效地指导生产实践,提高酿酒质量。
通过利用散点图分析工艺参数不同取值与参数特征SHAP值之间的关系,可以辅助分析参数不同取值对产出酒质量的影响。可经直观观察和统计分析得出,某特定工艺参数在何种取值范围下正向影响最大,即可视为该参数的最优取值区间。
附图说明
图1为本发明所述一种基于SHAP值的酿酒工艺参数优化方法流程图。
图2为本发明实施例所述影响白酒产出质量的酿酒工艺参数的SHAP值。
图3为本发明实施例所述中混合粮粉与产出酒质量和SHAP值的散点图。
图4为本发明实施例所述中糠壳用量与产出酒质量和SHAP值的散点图。
图5为本发明实施例所述中蒸馏时长与产出酒质量和SHAP值的散点图。
图6为本发明实施例所述中曲粉重量与产出酒质量和SHAP值的散点图。
图7为本发明实施例所述中量水重量与产出酒质量和SHAP值的散点图。
具体实施方式
本发明基于酿酒工艺参数和产出酒的质量分级结果,通过对白酒生产数据进行分析,抽取与一级酒产量相关的酿酒工艺参数,构建是否产出一级酒的预测模型。然后基于该预测模型,计算工艺流程中各参数的SHAP值,并通过分析工艺参数不同取值所对应的SHAP值,分析不同工艺参数对白酒质量等级的影响程度,以及工艺参数的最佳取值区间,实现对生产工艺参数的优化,以指导生产实践。
如图1所示,本发明所述的基于SHAP值的酿酒生产工艺参数优化方法包括以下步骤:
步骤1、对白酒酿酒工艺参数和产出酒的质量检出数据进行清洗。所述白酒酿酒工艺数据包括室内温度、室内湿度、粮粉用量、糠壳用量、量水温度、量水用量、蒸馏开始上甑时间、蒸馏关汽出甑时间、曲粉用量、下曲温度、入窖温度、出窖时间、入窖时间、入窖甑次、粘稠度、酸度、窖池编号、班组编号等。白酒的产出质量数据是指产出的白酒是一级白酒或二级白酒。对白酒的工艺数据进行清洗主要是为了纠正原始数据中可识别的错误数据,确保使用的酿酒工艺数据的可靠性。数据清洗的具体方法包括但不限于对空缺值和异常值的处理、对数据一致性的检查等。
步骤2、对经过清洗的酿酒工艺参数进行预处理。预处理的具体方法包括但不限于对酿酒工艺参数进行特征变换、特征离散化、特征选择和特征构造等。
特征变换:本发明中主要是酿酒工艺参数中的包括室内温度、量水温度等在内的温度参数进行函数变换,改变原始酿酒工艺参数的分布,根据温度值的分布情况,采用高斯变换将温度参数转换为标准正态分布。
特征构造:存在部分不可直接用于模型训练的工艺参数,如蒸馏开始上甑时间、蒸馏关汽出甑时间等,需要对原有酿酒工艺参数进行运算构造新酿酒工艺参数。
优选地,本发明构造以下酿酒工艺参数:蒸馏时间=蒸馏关汽出甑时间-蒸馏开始上甑时间、发酵时间=入窖时间-出窖时间、混合粮粉除以糠壳用量、混合粮粉除以量水用量、混合粮粉除以曲粉用量、糠壳用量除以量水用量、糠壳用量除以曲粉用量、量水用量除以曲粉用量、量水温度减去室内温度、下曲温度减去室内温度、入窖温度减去室内温度。
特征离散化:为了建立一级酒分类预测模型,本发明对采集的生产数据中的一级酒产量进行离散化处理,有一级酒产出,则将该条数据的标签标记为1,没有一级酒产出则将该条数据的标签标记为0。
特征离散化选择:将部分与后续建立白酒质量等级预测模型无关的酿酒工艺参数进行删除。如入窖甑次、单甑产量、窖池编号、班组编号等,可通过常见的酿酒工艺参数选择方法如过滤式方法(方差选择、相关系数、卡方检验等)或将酿酒工艺参数选择与模型训练过程融合在一起,基于后续模型效果不断调整。
步骤3、构建白酒质量等级预测模型拟合酿酒工艺参数和白酒产出质量进行拟合。若能够保证收集的白酒工艺数据和质量检出数据为标标准数据,则可以省略步骤1和步骤,直接对白酒质量等级预测模型进行训练。基于人工智能构建白酒质量等级预测模型,用经过清洗和预处理的酿酒工艺数据作为输入,白酒产出质量等级作为输出对模型进行训练,直到模型的性能指标达到预设值。本发明中优选的白酒质量等级预测模型为XGBoost模型。
步骤4、基于白酒质量等级预测模型计算各酿酒工艺参数的SHAP值。
步骤41:随机从数据集中选择一个样本;
步骤42:基于样本中所有影响因子总集N生成一系列影响因子子集S,若影响因子总集的维度记为M,子集S的维度记为|S|,则样本中一共生成|S|M个子集,其中包括空集与全集;
步骤43:计算每个影响因子子集的贡献值对目标变量的平均贡献值fx;
步骤44:计算每个影响因子的SHAP值其中/>表示集合中第i个影响因子的SHAP值,[fx(S∪{i})-fx(S)]表示酿酒工艺参数i对于模型的贡献度。
步骤5、根据各参数酿酒工艺参数的SHAP值,确定不同工艺环节对酿酒质量的影响程度。基于SHAP值的取值和正负解释每个工艺参数的重要性程度:
SHAP值为正值表示该酿酒工艺参数对于增加模型预测结果的有利影响,即该酿酒工艺参数对于预测目标的正向贡献较大;SHAP值为负值表示该酿酒工艺参数对于减少模型预测结果的有利影响,即该酿酒工艺参数对于预测目标的负向贡献较大。
SHAP值的绝对值越大表示该酿酒工艺参数对于模型预测的影响越大,具有更高的重要性;绝对值越小表示该酿酒工艺参数对于模型预测的影响较小,相对不太重要。
根据计算得到的各参数酿酒工艺参数的SHAP值,进行统计和整理,可借助绘图工具,直观清晰展示各工艺环节对酿酒质量影响程度的相对大小。
步骤6、基于各特定参数不同取值时的产出酒质量等级分类和对应SHAP值,分析优化酿酒生产工艺参数,给出推荐参数取值区间。
由于工艺流程参数众多,因此在步骤6中,重点针对步骤5给出的对产品质量影响较大的重要参数酿酒工艺参数进行分析。
利用部分依赖图、散点图等工具,分析工艺参数酿酒工艺参数的取值与产酒等级之间的关系;
通过特定参数取值与产出酒质量等级之间的散点图,可以得到特定工艺参数取值与产出酒质量等级和酿酒工艺参数SHAP值之间的关系,为参数调优提供参考方向。
SHAP值反映了酿酒工艺参数对模型输出的影响方向以及影响的程度大小。因此,通过利用散点图分析工艺参数不同取值与参数酿酒工艺参数SHAP值之间的关系,可以辅助分析参数不同取值对产出酒质量的影响。可经直观观察和统计分析得出,某特定工艺参数在何种取值范围下正向影响最大,即可视为该参数的最优取值区间。
根据参数优化分析的结果,给出推荐的参数取值区间。这些区间可以作为酿酒生产过程中各个工艺环节参数的参考范围,以帮助酿酒师在实际操作中做出相应调整。通过在推荐参数取值区间内进行调节,可以最大程度地优化酿酒生产工艺,提高产出酒的质量等级。
实施例、以XX白酒的酿造工艺数据为例,该白酒的酿造工艺数据如表1所示:
表1XX白酒酿酒工艺数据
步骤1、对白酒酿酒工艺数据和产出酒的质量检出数据进行清洗。根据对该白酒酿造业务操作经验,直接取出与后续预测任务无关的工艺数据,包括如入窖甑次、班组编号、表编码等,保留的酿酒工艺参数包括混合粮粉、糠壳用量、量水温度、量水用量、蒸馏开始上甑时间、蒸馏关汽出甑时间、曲粉重量、下曲温度、入窖温度、单甑一级酒产量、室温、湿度、开窖时间。
步骤2、对经过清洗的酿酒工艺参数进行预处理。对清洗后的酿酒数据进行预处理,主要方法包括但不限于:计算原始数据中的开始时刻和结束时刻之间的时间间隔,剔除加工时间超过合理范围的异常值等。例如当研究不同影响因子变化对最终酒质量等级的影响时,针对蒸馏时长这一因素,原数据中只记录了起始时间点和结束时间点,因此构造蒸馏时长=蒸馏结束出甑时间-蒸馏开始上甑时间,且剔除小0或者大于2000分钟的异常值。
步骤3、构建白酒质量等级预测模型拟合酿酒工艺参数和白酒产出质量进行拟合。本实施例中选择的白酒质量等级预测模型为Xgboost模型,以加工中的工艺流程数据作为模型输入,以产出的酒品质等级数据作为模型输出,对发酵产生的酒的质量等级进行预测,即判断当前生产加工参数下产出的酒是否为一级酒。模型的效果(准确率、召回率和f1值),预测结果为“1”表示一级酒,模型的准确率、召回率和f1值越高,产出的白酒为一级白酒的可能性越高。
步骤4、基于白酒质量等级预测模型计算各酿酒工艺参数的SHAP值。针对纳入白酒质量等级预测模型的所有工艺参数计算每个工艺参数在所有样本上的SHAP值的绝对值平均数,如图3所示得到各工艺参数的SHAP值绝对值排序及SHAP值的正负。
步骤5、根据各参数酿酒工艺参数的SHAP值,确定不同工艺环节对酿酒质量的影响程度。基于SHAP值的绝对值的排序和正负解释每个酿酒工艺参数的重要性程度。如图2所示,在XX白酒的酿造中混合粮粉(hxlf)、糠壳用量(kkyl)、蒸馏时长(zl_times)、曲粉重量(qf_weight)4个酿酒工艺参数,对于酿造产生的酒的质量等级有着重要影响。更进一步从不同酿酒工艺参数SHAP值的正负性角度,展现了不同酿酒工艺参数对于产生酒质量等级的影响。例如:从图中可以看出,对于大量样本而言,混合粮粉(hxlf)酿酒工艺参数的SHAP值主要是正值,说明该酿酒工艺参数对于酒的质量等级主要产生正向影响,即正向促进作用,而且进一步地可以看出,这些样本中该酿酒工艺参数的取值都比较高,即说明,在一定的取值范围内,当混合粮粉(hxlf)取值较高时,产出的酒的质量等级一般较高。
步骤6、基于各特定参数不同取值时的产出酒质量等级分类和对应SHAP值,分析优化酿酒生产工艺参数,给出推荐参数取值区间。
本实施例选取了前5个SHAP值较高的影响因素:混合粮粉、糠壳用量、蒸馏时长、曲粉重量、量水重量,作为示例,分别绘制影响因素取值与酒等级分类标签结果和SHAP值的散点图,对本步骤进行阐释。图3-7中,左图均为该酿酒工艺参数的取值与酒曲质量是否为一级酒之间的散点图,可以看出不同的加工参数取值和加工结果之间的关联,右图为该酿酒工艺参数的取值与该酿酒工艺参数的影响程度(SHAP值)之间的散点图,可以看出不同的参数取值与酿酒工艺参数影响程度正向促进还是反向抑制,以及影响程度的强弱等之间的关联。
(1)混合粮粉:推荐范围220-240Kg,如图3所示,当混合粮粉(hxlf)取值在220-240之间时,产生的酒有更高的可能性为一级,同时此时该酿酒工艺参数也更倾向于对酒的质量等级产生正向的影响,因此混合粮粉的取值推荐范围为220-240。
(2)糠壳用量:推荐范围60-75Kg,如图4所示,从图中可以看出,当糠壳用量(kkyl)取值在60-75之间时,产生的酒有更高的可能性为一级酒,同时从SHAP值的图上,可以更明显地看出,此时该酿酒工艺参数也更倾向于对酒的质量等级产生正向的影响,因此糠壳用量的取值推荐范围为60-75之间。
(3)蒸馏时长:推荐范围150-220min,如图5所示,结合该图以及原始的SHAP值数据,可以得到,当蒸馏时长(zl_times)取值在150-220之间时,产生的酒有更高的可能性为一级酒,同时此时该酿酒工艺参数也更倾向于对酒的质量等级产生正向的影响,因此蒸馏时长的取值推荐范围为150-220。
(4)曲粉重量:推荐范围50-65Kg,如图6所示,当曲粉重量(qf_weight)取值在50-65之间时,产生的酒有更高的可能性为一级酒,同时此时该酿酒工艺参数也更倾向于对酒的质量等级产生正向的影响,因此曲粉重量的取值推荐范围为50-65。
(5)量水重量:推荐范围230-320Kg,如图7所示,从图中可以看出,当量水重量(ls_weight)取值在230-320之间时,产生的酒有更高的可能性为一级酒,同时此时该酿酒工艺参数也更倾向于对酒的质量等级产生正向的影响,因此量水重量的取值推荐范围为230-320。
Claims (6)
1.一种基于SHAP值的酿酒工艺参数优化方法,其特征在于,包括:
骤1:构建酿酒质量等级预测模型,以酿酒工艺参数输入,产出酒的等级作为输出,对酿酒质量等级预测模型进行训练;
步骤2:基于训练后的酿酒质量等级预测模型预测的酿酒质量等级值计算各酿酒工艺参数的SHAP值;
步骤3:根据各酿酒工艺参数的不同取值与产出酒的质量等级和SHAP值的关系得到各酿酒工艺参数的推荐值。
2.根据权利要求1所述的一种基于SHAP值的酿酒工艺参数优化方法,其特征在于,步骤1中所述的酿酒质量等级预测模型为Xgboost模型。
3.根据权利要求2所述的一种基于SHAP值的酿酒工艺参数优化方法,其特征在于,步骤2中,所述基于训练后的酿酒质量等级预测模型预测的酿酒质量等级值计算各酿酒工艺参数的SHAP值,具体包括:
步骤21:随机从酿酒工艺参数数据集中选择一个样本;
步骤22:基于样本中所有酿酒工艺参数总集N生成酿酒工艺参数子集S,酿酒工艺参数总集N中的酿酒工艺参数个数为M,酿酒工艺参数子集S中的工艺参数个数记为|S|,则样本中共生成2M个酿酒工艺参数子集;
步骤23:计算每个酿酒工艺参数子集对产出酒质量等级的平均贡献值fx;
步骤24:计算每个酿酒工艺参数的SHAP值 [fx(S∪{i})-fx(S)]表示酿酒工艺参数i对于酿酒等级质量预测模型的贡献度。
4.根据权利要求1所述的一种基于SHAP值的酿酒工艺参数优化方法,其特征在于,步骤3中,分别绘制酿酒工艺参数与产出酒等级和SHAP值的散点图,通过酿酒工艺参数与产出酒等级和SHAP值的散点图得到各酿酒工艺参数的推荐值。
5.根据权利要求1-4任意一项所述的一种基于SHAP值的酿酒工艺参数优化方法,其特征在于,在完成步骤1构建酿酒质量等级预测模型之前还包括,对收集的酿酒工艺参数和产出酒质量等级数据进行清洗,删除并纠正原始数据中可识别的错误。
6.根据权利要求5所述的一种基于SHAP值的酿酒工艺参数优化方法,其特征在于,对酿酒参数和产出酒质量等级数据进行清洗后还包括对数据进行预处理,所述预处理包括特征变换、特征离散化、特征选择和特征构造;
特征变换:将分布不均的酿酒工艺参数转换为标准正态分布;
特征构造:对部分不可直接用于模型训练的酿酒工艺参数进行运算,构造为新特征;
特征选择:通过方差选择、相关系数和卡方检验筛除与酿酒质量等级预测模型无关的数据;
特征离散化:对采集的产出酒质量等级中的一级酒产量进行离散化处理,有一级酒产出,则将该条数据的标签标记为1,没有一级酒产出则将该条数据的标签标记为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311216251.9A CN117252467A (zh) | 2023-09-20 | 2023-09-20 | 一种基于shap值的酿酒工艺参数优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311216251.9A CN117252467A (zh) | 2023-09-20 | 2023-09-20 | 一种基于shap值的酿酒工艺参数优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117252467A true CN117252467A (zh) | 2023-12-19 |
Family
ID=89130698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311216251.9A Pending CN117252467A (zh) | 2023-09-20 | 2023-09-20 | 一种基于shap值的酿酒工艺参数优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252467A (zh) |
-
2023
- 2023-09-20 CN CN202311216251.9A patent/CN117252467A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109814513B (zh) | 一种基于数据模型的催化裂化装置优化方法 | |
EP3792718A1 (en) | Aluminum oxide comprehensive production index decision-making method based on multi-scale deep convolutional network | |
CN102509243A (zh) | 卷烟制造过程质量评价方法及其系统 | |
CN113515512B (zh) | 一种工业互联网平台数据的质量治理及提升方法 | |
CN114416707A (zh) | 工业时序数据的自动化特征工程方法和装置 | |
CN110119756B (zh) | 一种基于投票法的趋势性数据特征自动选择方法 | |
CN112132334A (zh) | 一种用于城市生活垃圾产量的预测方法 | |
CN116597239B (zh) | 一种建筑用回收钢管的加工处理方法及系统 | |
CN107389601B (zh) | 基于高光谱的芒果冲击损伤后可滴定酸含量预测方法 | |
CN107944487A (zh) | 一种基于混合协同过滤算法的作物育种品种推荐方法 | |
CN117252467A (zh) | 一种基于shap值的酿酒工艺参数优化方法 | |
CN118428566B (zh) | 基于海水池塘菌藻群落的生态养殖优化方法及系统 | |
CN118547366A (zh) | 一种无间断连续表面防腐控制方法及系统 | |
CN118735279A (zh) | 基于大数据的蟾蜍养殖数据管理系统 | |
CN112990569A (zh) | 一种水果价格预测方法 | |
CN108985336A (zh) | 一种基于多层支持向量机的水果品质分类方法 | |
CN112183642A (zh) | 一种基于随机森林模型的水泥烧成煤耗检测方法与系统 | |
CN111507824A (zh) | 风控模型入模变量最小熵分箱方法 | |
CN113793652A (zh) | 一种基于分段智能优选的谱图化学计量学解析方法 | |
CN106546553A (zh) | 一种转基因大豆油的快速无损鉴别方法 | |
CN116199441B (zh) | 基于数据和规则双驱动的分解炉出口温度目标值确定方法 | |
CN117368121B (zh) | 一种茶叶含水率在线检测方法 | |
CN118761329B (zh) | 酱香型白酒勾兑配方优化及数字化管理的大数据分析系统 | |
Grotkiewicz et al. | Verification of economic and agricultural indicators with the use of statistical methods on the example of individual farms | |
CN119106899B (zh) | 一种酿造区域资源环境承载力综合评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |