CN117952228A - 软测量模型的训练方法及装置 - Google Patents
软测量模型的训练方法及装置 Download PDFInfo
- Publication number
- CN117952228A CN117952228A CN202410145227.9A CN202410145227A CN117952228A CN 117952228 A CN117952228 A CN 117952228A CN 202410145227 A CN202410145227 A CN 202410145227A CN 117952228 A CN117952228 A CN 117952228A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- soft measurement
- data
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 145
- 238000005259 measurement Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 113
- 238000004519 manufacturing process Methods 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 claims description 55
- 238000005457 optimization Methods 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 22
- 235000011121 sodium hydroxide Nutrition 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 239000003513 alkali Substances 0.000 claims description 12
- 239000012267 brine Substances 0.000 claims description 10
- HPALAKNZSZLMCH-UHFFFAOYSA-M sodium;chloride;hydrate Chemical compound O.[Na+].[Cl-] HPALAKNZSZLMCH-UHFFFAOYSA-M 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000009795 derivation Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 239000007788 liquid Substances 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 9
- 230000007246 mechanism Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 10
- 239000000243 solution Substances 0.000 description 10
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical class [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 239000011780 sodium chloride Substances 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000000611 regression analysis Methods 0.000 description 3
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 2
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000002994 raw material Substances 0.000 description 2
- 239000000376 reactant Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 239000012670 alkaline solution Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 239000000571 coke Substances 0.000 description 1
- 238000006477 desulfuration reaction Methods 0.000 description 1
- 230000023556 desulfurization Effects 0.000 description 1
- 239000003792 electrolyte Substances 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种软测量模型的训练方法及装置,涉及计算机技术领域,方法包括:获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。相较于传统依赖领域专家的知识和经验进行建模的方法,本发明实施例借助AutoML算法实现软测量,并获取已有的生产工艺数据及对应的产品质量数据对其进行训练,另外将软测量建模与AutoML算法相结合,可以自动完成例如数据预处理、特征工程、模型选择及调优等流程,提高软测量建模的效率,并可以大大提高模型的准确度和预测效果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种软测量模型的训练方法及装置。
背景技术
在复杂的工业过程中,由于生产环境恶劣、工况复杂、检测技术有限或成本等原因,过程中的关键质量变量往往无法实现可靠、实时的测量。为了克服这一难题,软测量技术应运而生,它将过程中易于测量的辅助变量作为输入,将想要测量的主导变量作为输出,建立一个可以对主导变量预测的模型,从而实现对关键质量变量的准确估计。
传统软测量建模和验证依赖领域专家的知识和经验,对模型的准确性和可靠性要求较高,这导致模型建立和优化的过程需要耗费大量时间和人力资源以及大量的领域知识和经验,如果由缺乏经验的人进行建模,则很有可能会出现模型不准的情况,并且需要手动选择模型、特征提取方法和模型参数,需要专业的领域知识和丰富的经验,建模过程复杂耗时。
综上,目前传统软测量建模的方式,存在建模效率低,且依赖于领域专家的知识和经验,难以保证建模的准确性等问题。
发明内容
本发明提供一种软测量模型的训练方法及装置,用以解决现有技术中建模效率低,且依赖于领域专家的知识和经验,难以保证建模的准确性等问题。
本发明提供一种软测量模型的训练方法,包括:
获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;
通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
根据本发明提供的一种软测量模型的训练方法,所述通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型,包括:
利用所述AutoML算法对所述训练数据集进行预处理操作,得到预处理后的目标数据集,从所述目标数据集中提取第一特征值;
将所述第一特征值通过数据的变换、衍生或组合操作,构造出第二特征值;
基于所述第一特征值和所述第二特征值中的至少一项,训练所述第一候选模型,得到所述软测量模型。
根据本发明提供的一种软测量模型的训练方法,所述基于所述第一特征值和所述第二特征值中的至少一项,训练所述第一候选模型,得到所述软测量模型,包括:
设置所述第一候选模型包括至少两个类型的模型;
利用所述第一特征值和所述第二特征值中的至少一项,分别对所述至少两个类型的模型进行训练,得到训练后的至少两个第二候选模型;
对所述至少两个第二候选模型分别进行测试,根据测试结果确定所述至少两个第二候选模型对应的第一评价指标值;
基于所述第一评价指标值,在所述至少两个第二候选模型中选择至少一个模型作为所述软测量模型。
根据本发明提供的一种软测量模型的训练方法,所述方法还包括:
利用预先设置的超参数优化策略,调整所述第一候选模型的超参数;
其中,所述超参数优化策略包括网格搜索、随机搜索、贝叶斯优化和交叉验证中的至少一项。
根据本发明提供的一种软测量模型的训练方法,所述获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集,包括:
获取所述目标领域的生产工艺数据及对应的产品质量数据,对所述生产工艺数据及对应的产品质量数据执行整合对齐操作,将整合对齐后的数据作为所述训练数据集;
其中,所述整合对齐操作包括时间对齐操作、标识对齐操作和数值对齐操作中的至少一项。
根据本发明提供的一种软测量模型的训练方法,在所述得到训练后的第一候选模型作为软测量模型之后,所述方法还包括:
采用预先设置的docker镜像技术,将所述软测量模型及其对应的系统、运行环境和配置信息打包成镜像后进行部署。
根据本发明提供的一种软测量模型的训练方法,所述获取目标领域的生产工艺数据及对应的产品质量数据,包括:
在电解盐水制备烧碱的过程中,检测N个电解槽的阴极液出口温度、进槽盐水流量、进槽碱流量、进槽总管纯水流量、阴极电流效率以及对应的烧碱的浓度,作为所述生产工艺数据及对应的产品质量数据;其中,N为大于0的整数;
所述通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型,包括:
通过所述AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,直至训练后的第一候选模型的第二评价指标值在第一区间内,将训练后的第一候选模型作为所述软测量模型。
本发明还提供一种软测量模型的训练装置,包括:
获取模块,用于获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;
训练模块,用于通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述软测量模型的训练方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述软测量模型的训练方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述软测量模型的训练方法。
本发明提供的软测量模型的训练方法及装置,先获取目标领域的生产工艺数据及对应的产品质量数据作为训练集,进而通过AutoML算法,利用训练数据集对预先设置的第一候选模型进行训练,并将训练后的模型作为软测量模型。相较于传统依赖领域专家的知识和经验进行建模的方法,本发明实施例借助AutoML算法实现软测量,并获取已有的生产工艺数据及对应的产品质量数据对其进行训练,另外将软测量建模与AutoML算法相结合,可以自动完成例如数据预处理、特征工程、模型选择及调优等流程,提高软测量建模的效率,并可以大大提高模型的准确度和预测效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的软测量模型的训练方法的流程示意图之一;
图2是本发明提供的软测量模型的训练方法的流程示意图之二;
图3是本发明提供的软测量模型的训练装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图描述本发明的软测量模型的训练方法及装置。
图1是本发明提供的软测量模型的训练方法的流程示意图之一,如图1所示,软测量模型的训练方法包括步骤101和步骤102;其中:
步骤101、获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集。
步骤102、通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
相关技术中,传统软测量建模和验证依赖领域专家的知识和经验,对模型的准确性和可靠性要求较高,模型建立和优化的过程需要耗费大量时间和人力资源以及大量的领域知识和经验,缺乏经验的人可能会出现模型不准的情况,并且需要手动选择模型、特征提取方法和模型参数,需要专业的领域知识和丰富的经验,建模过程复杂耗时。
另外,传统软测量模型往往只能适用于特定的生产环境和操作条件,模型的泛化能力较差,并且对数据质量要求较高,需要进行数据预处理和特征提取等操作,如果数据质量不好,模型效果会受到较大影响。
具体地,传统的软测量一般通过以下两种方法实现:工艺机理分析和回归分析。
1)对于工艺机理分析来说,基于工艺机理分析的软测量建模主要是运用化学反应动力学、物料平衡、能量平衡等原理,通过对过程对象的机理分析,找出不可测主导变量与可测辅助变量之间的关系,即建立机理模型的过程,从而实现对不可测主导变量的软测量。
但是,这种方法对于工艺机理较为清楚的工艺过程,能构造出性能良好的软仪表,而对于机理研究不充分、尚不清楚的复杂工业过程,难以建立合适的机理模型,此时该方法就需要与其它参数估计方法相结合才能构造软仪表。
这种软测量建模方法是工程中常用的方法,其特点是简单、工程背景清晰,便于实际应用,但应用效果依赖于对工艺机理的了解程度,因为这种软测量方法是建立在对工艺过程机理深刻认识的基础上,建模的难度较大。另外,机理建模的应用受到模型准确程度的影响,而且由于要求解方程,计算量大,收敛慢,难以满足在线实时估计的要求。计算时间和精度之间的矛盾制约了机理建模的应用。由于化工过程存在严重的非线性和不确定性,难以单独采用机理方法,但可以用机理方法确定经验模型再配合经验方法确定具体的参数。
2)对于回归分析来说,回归分析的软测量模型一般采用最小二乘法等,只是针对特定数据训练的模型,只能在该数据下效果良好,但是一旦更换数据,需要重新训练模型,并进行数据预处理、特征工程、参数调优等,重复性工作,本文中提到的软测量可以适配多种场景以及数据,标准化的流程,减少不必要的开发。
针对上述问题,本发明实施例提供了一种软测量模型的训练方法,具体先获取目标领域的生产工艺数据及对应的产品质量数据作为训练集,进而通过AutoML算法,利用训练数据集对预先设置的第一候选模型进行训练,并将训练后的模型作为软测量模型。
需要说明的是,软测量可以理解为将历史的产品质量检测结果数据与生产过程中的工艺参数、原料成分、设备运行状态等数据相结合,以构建质量预测模型,进而可以利用模型实时监控产品质量的过程。软测量可以应用于各种工业领域,如化工、制药、食品、电力、煤矿等,用于预测生产过程中的关键参数,如温度、压力、流量、浓度等。
可选地,生产工艺数据例如包括温度、压力、流量等数据,产品质量数据例如包括化工产品中反应物浓度、产品收率、产品质量等。
可选地,在所述得到训练后的第一候选模型作为软测量模型之后,可以采用预先设置的docker镜像技术,将所述软测量模型及其对应的系统、运行环境和配置信息打包成镜像后进行部署。
具体地,在训练出软测量模型之后,本发明可以采用docker镜像技术,把相关系统、运行环境以及相关配置打包成镜像,以便后期提供模型训练和模型预测服务,方便在不同环境中安装部署软测量产品,无需担心环境配置和依赖问题,从而实现应用程序的跨平台和可移植性;另外,其具有更小的体积和更快的启动速度,从而能够更好地支持云计算和分布式系统。
在本发明实施例提供的软测量模型的训练方法中,相较于传统依赖领域专家的知识和经验进行建模的方法,本发明实施例借助AutoML算法实现软测量,并获取已有的生产工艺数据及对应的产品质量数据对其进行训练,另外将软测量建模与AutoML算法相结合,可以自动完成例如数据预处理、特征工程、模型选择及调优等流程,提高软测量建模的效率,并可以大大提高模型的准确度和预测效果。
可选地,所述通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型的实现方式可以包括:
利用所述AutoML算法对所述训练数据集进行预处理操作,得到预处理后的目标数据集,从所述目标数据集中提取第一特征值;
将所述第一特征值通过数据的变换、衍生或组合操作,构造出第二特征值;
基于所述第一特征值和所述第二特征值中的至少一项,训练所述第一候选模型,得到所述软测量模型。
具体地,利用AutoML算法进行预处理操作,是用来对采集到的数据进行处理,例如可以包括去噪、异常值处理、数据平滑等操作,具体根据实际情况进行选择。
在预处理后得到目标数据集,可以从中提取出至少一个第一特征值,也可以利用提取出的第一特征值,基于数据的变换、衍生或组合,生成新的第二特征值,进而可以利用第一特征值和/或第二特征值训练第一候选模型,得到软测量模型。
可选地,利用AutoML算法可以通过评估特征的重要性来自动选择最相关的特征,作为第一特征值。例如,基于树的算法(如随机森林)可以计算特征的重要性分数,并根据这些分数选择特征。
可选地,新生成的第二特征值可以包括多项式特征、交叉特征、聚类特征等。
可选地,还可以利用AutoML算法进行缺失值处理,自动识别、填补或处理缺失值,例如使用插补方法或模型预测。
可选地,还可以利用AutoML算法进行特征缩放和归一化,以确保不同特征的数值在合适的范围内,例如使用标准化或归一化方法。
可选地,所述基于所述第一特征值和所述第二特征值中的至少一项,训练所述第一候选模型,得到所述软测量模型的实现方式可以包括:
设置所述第一候选模型包括至少两个类型的模型;
利用所述第一特征值和所述第二特征值中的至少一项,分别对所述至少两个类型的模型进行训练,得到训练后的至少两个第二候选模型;
对所述至少两个第二候选模型分别进行测试,根据测试结果确定所述至少两个第二候选模型对应的第一评价指标值;
基于所述第一评价指标值,在所述至少两个第二候选模型中选择至少一个模型作为所述软测量模型。
具体地,利用AutoML算法可以自主选择和训练多个模型,并对训练后的模型进行测试,根据测试结果确定各模型对应的第一评价指标值,进而可以基于第一评价指标值选择合适的模型作为软测量模型,例如可以基于均方根误差(Root-mean-square error,RMSE)这一第一评价指标值进行选择,认为RMSE最小的模型是最优的模型,故将其作为最终的软测量模型进行使用。
可选地,至少两个类型的模型可以包括但不局限于:LightGBM、Xgboost、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest)等20多种,可以根据数据选择最优的模型,提高模型的泛化能力。
可选地,可以利用预先设置的超参数优化策略,调整所述第一候选模型的超参数;
其中,所述超参数优化策略包括网格搜索、随机搜索、贝叶斯优化和交叉验证中的至少一项。
具体地,超参数的选择会显著影响模型的准确性和泛化能力,本发明可以利用超参数优化策略,通过调整机器学习模型的超参数,以帮助提高模型的性能,减少人工调整的工作量,并帮助找到适合特定问题的最佳超参数组合。
具体地,对超参数优化策略进行具体介绍:
1)网格搜索(Grid Search):是一种常用的超参数优化方法,通过尝试所有可能的超参数组合来寻找最佳组合。
2)随机搜索(Random Search):是一种更高效的方法,在超参数空间内进行随机采样,虽然不一定会尝试所有组合,但通常可以在更短的时间内找到接近最佳的超参数。
3)贝叶斯优化:是一种基于概率模型的优化方法,尝试在每次迭代中选择下一个最有希望的超参数组合。这种方法通常需要更少的迭代次数,因为它可以更智能地选择采样点。
4)交叉验证:在进行超参数优化时,通常会使用交叉验证来评估每个超参数组合的性能。这有助于避免过度拟合,并确保模型的泛化性能。
可选地,本发明还设置了评估指标,例如对于回归问题,使用均方误差、平均绝对误差等,选择适当的评估指标来衡量模型性能。
可选地,所述获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集的实现方式可以包括:
获取所述目标领域的生产工艺数据及对应的产品质量数据,对所述生产工艺数据及对应的产品质量数据执行整合对齐操作,将整合对齐后的数据作为所述训练数据集;
其中,所述整合对齐操作包括时间对齐操作、标识对齐操作和数值对齐操作中的至少一项。
具体地,整合对齐操作是为了确保不同数据源或数据集之间的数据在时间、空间或标识方面一致的过程,有利于后续有效地对模型进行训练。其主要任务包括:
a)时间对齐:如果数据来自不同时间或时区,需要将它们对齐,以便进行时间序列分析或比较。
b)标识对齐:确保不同数据源或数据中心的标识符(如设备ID、用户ID)一致,便于建立关联和连接数据。
c)数值对齐:确保不同数据集中的数值在相同的单位和范围内,以便进行比较和分析。
可选地,所述获取目标领域的生产工艺数据及对应的产品质量数据的实现方式可以包括:
在电解盐水制备烧碱的过程中,检测N个电解槽的阴极液出口温度、进槽盐水流量、进槽碱流量、进槽总管纯水流量、阴极电流效率以及对应的烧碱的浓度,作为所述生产工艺数据及对应的产品质量数据;其中,N为大于0的整数;
所述通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型,包括:
通过所述AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,直至训练后的第一候选模型的第二评价指标值在第一区间内,将训练后的第一候选模型作为所述软测量模型。
具体地,工业上用电解饱和NaCl溶液(盐水)的方法来制取NaOH、Cl2和H2,并以它们为原料生产一系列化工产品,称为氯碱工业.氯碱工业是最基本的化学工业之一,它的产品除应用于化学工业本身外,还广泛应用于轻工业、纺织工业、冶金工业、石油化学工业以及公用事业。
以目标领域为化工领域、软测量过程为电解盐水制备烧碱的过程为例,进行以下说明:
1)场景:电解盐水制备烧碱(NaOH),电解槽碱液浓度是电解装置的关键质量指标,当其浓度偏高或者偏低时,会对下游生产有较大影响。传统的方法是人工采样,化验室用仪器进行检测,通常8小时检测一次,分析结果滞后,对产品质量控制有较大的影响。因此本发明通过建立NaOH浓度的软测量模型,可实现对NaOH浓度的在线预测,实时计算NaOH浓度含量,实现对NaOH浓度的在线预测,进而提高优等品率。
2)软测量预测目标:电解槽NaOH浓度预测模型。
3)模型输入:A槽阴极液出口温度、B槽阴极液出口温度、C槽阴极液出口温度、D槽阴极液出口温度、E槽阴极液出口温度、F槽阴极液出口温度、G槽阴极液出口温度;
需要说明的是,一般设置8个电解槽,电解槽的个数由车间规模决定,增加处理能力,可以理解为8条产线,可以根据实际情况设置。
A槽进槽盐水流量、B槽进槽盐水流量、C槽进槽盐水流量、D槽进槽盐水流量、E槽进槽盐水流量、F槽进槽盐水流量、G槽进槽盐水流量;
A槽进槽碱流量、B槽进槽碱流量、C槽进槽碱流量、D槽进槽碱流量、E槽进槽碱流量、F槽进槽碱流量、G槽进槽碱流量;
进槽总管纯水流量;阴极电流效率。
4)评价指标:第二评价指标值例如为平均绝对百分比误差(Mean AbsolutePercentage Error,MAPE)。
5)模型效果:MAPE在1%之内,认为模型已训练完成。
下面举例说明本发明实施例提供的软测量模型的训练方法。
本发明实施例提供的软测量模型的训练方法,将软测量与AutoML算法结合起来,从多个方面解决数据预处理、特征工程、建立模型、模型选择和优化、工程化和实时性等问题,同时把算法封装在docker镜像中,方便在不同环境中部署,减少在不同环境中下载各种依赖以及安装相应环境。
具体地,算法方面采用AutoML算法,完成数据预处理、特征工程、模型选择及调优等流程,提高软测量的效率和自动化程度,大大提高模型的准确度和预测效果;能根据数据的变化适应调整整模,并且能够更好地适应工业生产过程中的变化和波活动;同时降低了人员干预的风险,减少了繁杂的人工操作和构建模型时间,克服了传统软测量模型只能适用于特定的生产环境和操作条件以及大量的领域知识和经验,模型的泛化能力较差等缺点。
部署方面采用docker镜像,把相关系统、运行环境以及相关配置打包成镜像,以便后期提供模型训练和模型预测服务,方便在不同环境中安装部署软测量产品,无需担心环境配置和依赖问题,从而实现应用程序的跨平台和可移植性;具有更小的体积和更快的启动速度,从而能够更好地支持云计算和分布式系统。
图2是本发明提供的软测量模型的训练方法的流程示意图之二,如图2所示,包括以下内容:
(一)数据集:把生产工艺数据(如温度、压力、流量)和产品质量数据(如化工产品中反应物浓度、产品收率、产品质量等)进行整合对齐。
选取所需传感器以及其他系统数据,按照时间进行对齐,数据整理是确保不同数据源或数据集之间的数据在时间、空间标识或方面一致的过程。其主要任务包括:
a)时间对齐:如果数据来自不同时间或时区,需要将它们对齐,以便进行时间序列分析或比较。
b)标识对齐:确保不同数据源或数据中心的标识符(如设备ID、用户ID)一致,便于建立关联和连接数据。
c)数值对齐:确保不同数据集中的数值在相同的单位和范围内,以便进行比较和分析。
(二)AutoML算法训练模型及部署;
利用AutoML算法自主化地完成模型选择、特征工程、超参数调优等繁琐的工作,减轻了人类智能开发者的负担,提高了开发效率,具体地:
(1)数据预处理:对采集到的数据进行处理,包括去噪、异常值处理、数据平滑等。
(2)特征工程:利用自动化特征工程技术,自主地从数据中提取特征,无需手动提取特征,包括自主构造特征以及特征选择。
1)特征选择:通过评估特征的重要性来自动选择最相关的特征。例如,基于树的算法(如随机森林)可以计算特征的重要性分数,并根据这些分数选择特征。
2)特征生成:基于数据的变换、衍生或组合,生成新的特征。新的特征可以包括多项式特征、交叉特征、聚类特征等。
3)缺失值处理:能够自动识别、填补或处理缺失值,例如使用插补方法或模型预测。
4)特征缩放和归一化:确保不同特征的数值在合适的范围内,例如使用标准化或归一化方法。
5)自动化管道构建:可以整合上述步骤,构建一个完整的自动化特征工程管道,能够将数据的预处理、特征提取和转换等过程结合到一起。
(3)模型选择:可以自主选择和训练多个模型,并从中选择最优的模型,根据评价指标RMSE选择误差最小的模型,模型包括LightGBM、Xgboost、SVM、Random forest等20多种,根据数据选择最优的模型,提高模型的泛化能力。
(4)超参数优化:调整机器学习模型的超参数以获得最佳性能。超参数的选择可以显著影响模型的准确性和泛化能力,可以帮助提高模型的性能,减少人工调整的工作量,并帮助找到适合特定问题的最佳超参数组合。
1)网格搜索:网格搜索是一种常用的超参数优化方法,通过尝试所有可能的超参数组合来寻找最佳组合。
2)随机搜索:随机搜索是一种更高效的方法,其在超参数空间内进行随机采样。虽然不一定会尝试所有组合,但通常可以在更短的时间内找到接近最佳的超参数。
3)贝叶斯优化:贝叶斯优化是一种基于概率模型的优化方法,其尝试在每次迭代中选择下一个最有希望的超参数组合。这种方法通常需要更少的迭代次数,因为它可以更智能地选择采样点。
4)交叉验证:在进行超参数优化时,通常会使用交叉验证来评估每个超参数组合的性能。这有助于避免过度拟合,并确保模型的泛化性能。
评估指标:选择适当的评估指标来衡量模型性能。对于回归问题,可以使用均方误差、平均绝对误差等。
(5)部署:把相关系统、运行环境以及相关配置打包成docker镜像,提供了一种轻量级、可移植和可复制的容器化应用程序部署方式,使开发人员和运维团队能够更轻松地构建、交付和运行应用程序,以便后期提供模型训练和模型预测服务。
(三)实时预测;
接入训练模型所用指标的实时数据,并对数据对齐,触发模型预测服务,对在线数据进行实时预测,返回预测值。实时监控产品的质量,对不合格产品及时给出预警,通过建立产品质量的软测量模型,实现生产过程数据为模型输入,实时计算产品质量,操作人员可以对产品质量的软测量值进行观察,对相关操作变量进行调整,以确保产品质量被控制在一定的范围内。
例如,在某化工行业,电解槽碱液浓度是电解装置的关键质量指标,当其浓度偏高或者偏低时,会对下游生产有较大影响。传统的方法是人工采样,化验室用仪器进行检测,通常1天采样1次,分析结果滞后,对产品质量控制有较大的影响。因此通过建立NaOH浓度的软测量模型,可实现对NaOH浓度的在线预测,实时计算NaOH浓度含量,实现对NaOH浓度的在线预测,进而提高优等品率,同时也可以作出焦炭质量软测量、合成气纯度、CO、CO2软测量、脱硫后含硫量软测量等,可以应用在多个行业中。它克服了人工分析滞后和在线质量分析仪表投资大、维护复杂等诸多不足,为实现先进控制、优化控制等应用提供良好基础,极大提升对产品实时动态过程品质监测及时性。
本发明实施例以AutoML算法为核心,docker镜像部署为辅助,方便快捷部署,实现对没有直接在线检测的产品性质的在线预测和估计,为生产过程、先进控制提供无时延的产品质量指标的预测值,提高了过程控制水平。
下面对本发明提供的软测量模型的训练装置进行描述,下文描述的软测量模型的训练装置与上文描述的软测量模型的训练方法可相互对应参照。
图3是本发明提供的软测量模型的训练装置的结构示意图,如图3所示,软测量模型的训练装置300包括:
获取模块301,用于获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;
训练模块302,用于通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
在本发明实施例提供的软测量模型的训练装置中,先由获取模块获取目标领域的生产工艺数据及对应的产品质量数据作为训练集,进而由训练模块通过AutoML算法,利用训练数据集对预先设置的第一候选模型进行训练,并将训练后的模型作为软测量模型。相较于传统依赖领域专家的知识和经验进行建模的方法,本发明实施例借助AutoML算法实现软测量,并获取已有的生产工艺数据及对应的产品质量数据对其进行训练,另外将软测量建模与AutoML算法相结合,可以自动完成例如数据预处理、特征工程、模型选择及调优等流程,提高软测量建模的效率,并可以大大提高模型的准确度和预测效果。
可选地,训练模块302具体用于:
利用所述AutoML算法对所述训练数据集进行预处理操作,得到预处理后的目标数据集,从所述目标数据集中提取第一特征值;
将所述第一特征值通过数据的变换、衍生或组合操作,构造出第二特征值;
基于所述第一特征值和所述第二特征值中的至少一项,训练所述第一候选模型,得到所述软测量模型。
可选地,训练模块302还具体用于:
设置所述第一候选模型包括至少两个类型的模型;
利用所述第一特征值和所述第二特征值中的至少一项,分别对所述至少两个类型的模型进行训练,得到训练后的至少两个第二候选模型;
对所述至少两个第二候选模型分别进行测试,根据测试结果确定所述至少两个第二候选模型对应的第一评价指标值;
基于所述第一评价指标值,在所述至少两个第二候选模型中选择至少一个模型作为所述软测量模型。
可选地,软测量模型的训练装置300还包括:
处理模块,用于:
利用预先设置的超参数优化策略,调整所述第一候选模型的超参数;
其中,所述超参数优化策略包括网格搜索、随机搜索、贝叶斯优化和交叉验证中的至少一项。
可选地,获取模块301具体用于:
获取所述目标领域的生产工艺数据及对应的产品质量数据,对所述生产工艺数据及对应的产品质量数据执行整合对齐操作,将整合对齐后的数据作为所述训练数据集;
其中,所述整合对齐操作包括时间对齐操作、标识对齐操作和数值对齐操作中的至少一项。
可选地,处理模块还用于:
采用预先设置的docker镜像技术,将所述软测量模型及其对应的系统、运行环境和配置信息打包成镜像后进行部署。
可选地,获取模块301还具体用于:
在电解盐水制备烧碱的过程中,检测N个电解槽的阴极液出口温度、进槽盐水流量、进槽碱流量、进槽总管纯水流量、阴极电流效率以及对应的烧碱的浓度,作为所述生产工艺数据及对应的产品质量数据;其中,N为大于0的整数;
所述通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型,包括:
通过所述AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,直至训练后的第一候选模型的第二评价指标值在第一区间内,将训练后的第一候选模型作为所述软测量模型。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行软测量模型的训练方法,该方法包括:
获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;
通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的软测量模型的训练方法,该方法包括:
获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;
通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的软测量模型的训练方法,该方法包括:
获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;
通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种软测量模型的训练方法,其特征在于,包括:
获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;
通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
2.根据权利要求1所述的软测量模型的训练方法,其特征在于,所述通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型,包括:
利用所述AutoML算法对所述训练数据集进行预处理操作,得到预处理后的目标数据集,从所述目标数据集中提取第一特征值;
将所述第一特征值通过数据的变换、衍生或组合操作,构造出第二特征值;
基于所述第一特征值和所述第二特征值中的至少一项,训练所述第一候选模型,得到所述软测量模型。
3.根据权利要求2所述的软测量模型的训练方法,其特征在于,所述基于所述第一特征值和所述第二特征值中的至少一项,训练所述第一候选模型,得到所述软测量模型,包括:
设置所述第一候选模型包括至少两个类型的模型;
利用所述第一特征值和所述第二特征值中的至少一项,分别对所述至少两个类型的模型进行训练,得到训练后的至少两个第二候选模型;
对所述至少两个第二候选模型分别进行测试,根据测试结果确定所述至少两个第二候选模型对应的第一评价指标值;
基于所述第一评价指标值,在所述至少两个第二候选模型中选择至少一个模型作为所述软测量模型。
4.根据权利要求1所述的软测量模型的训练方法,其特征在于,所述方法还包括:
利用预先设置的超参数优化策略,调整所述第一候选模型的超参数;
其中,所述超参数优化策略包括网格搜索、随机搜索、贝叶斯优化和交叉验证中的至少一项。
5.根据权利要求1至4任一项所述的软测量模型的训练方法,其特征在于,所述获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集,包括:
获取所述目标领域的生产工艺数据及对应的产品质量数据,对所述生产工艺数据及对应的产品质量数据执行整合对齐操作,将整合对齐后的数据作为所述训练数据集;
其中,所述整合对齐操作包括时间对齐操作、标识对齐操作和数值对齐操作中的至少一项。
6.根据权利要求1至4任一项所述的软测量模型的训练方法,其特征在于,在所述得到训练后的第一候选模型作为软测量模型之后,所述方法还包括:
采用预先设置的docker镜像技术,将所述软测量模型及其对应的系统、运行环境和配置信息打包成镜像后进行部署。
7.根据权利要求1至4任一项所述的软测量模型的训练方法,其特征在于,所述获取目标领域的生产工艺数据及对应的产品质量数据,包括:
在电解盐水制备烧碱的过程中,检测N个电解槽的阴极液出口温度、进槽盐水流量、进槽碱流量、进槽总管纯水流量、阴极电流效率以及对应的烧碱的浓度,作为所述生产工艺数据及对应的产品质量数据;其中,N为大于0的整数;
所述通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型,包括:
通过所述AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,直至训练后的第一候选模型的第二评价指标值在第一区间内,将训练后的第一候选模型作为所述软测量模型。
8.一种软测量模型的训练装置,其特征在于,包括:
获取模块,用于获取目标领域的生产工艺数据及对应的产品质量数据,作为训练数据集;
训练模块,用于通过预先设置的AutoML算法,利用所述训练数据集训练预先设置的第一候选模型,得到训练后的第一候选模型作为软测量模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述软测量模型的训练方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述软测量模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410145227.9A CN117952228A (zh) | 2024-02-01 | 2024-02-01 | 软测量模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410145227.9A CN117952228A (zh) | 2024-02-01 | 2024-02-01 | 软测量模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117952228A true CN117952228A (zh) | 2024-04-30 |
Family
ID=90802755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410145227.9A Pending CN117952228A (zh) | 2024-02-01 | 2024-02-01 | 软测量模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117952228A (zh) |
-
2024
- 2024-02-01 CN CN202410145227.9A patent/CN117952228A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Grbić et al. | Adaptive soft sensor for online prediction and process monitoring based on a mixture of Gaussian process models | |
CN114502715B (zh) | 优化生物技术生产的方法和装置 | |
Jiang et al. | Weighted kernel principal component analysis based on probability density estimation and moving window and its application in nonlinear chemical process monitoring | |
Zhou et al. | Semi-supervised PLVR models for process monitoring with unequal sample sizes of process variables and quality variables | |
CN111538759A (zh) | 一种基于分布式字典学习的工业过程智能监测方法与系统 | |
US20240144043A1 (en) | Prediction model for predicting product quality parameter values | |
Xiang et al. | Multimode process monitoring based on fuzzy C-means in locality preserving projection subspace | |
CN109670549B (zh) | 火电机组的数据筛选方法、装置以及计算机设备 | |
CN115315667A (zh) | 具有若干工厂的过程网络 | |
CN117290800A (zh) | 一种基于超图注意力网络的时序异常检测方法及系统 | |
Rato et al. | A Systematic Methodology for Comparing Batch Process Monitoring Methods: Part I Assessing Detection Strength | |
Ge | Improved two-level monitoring system for plant-wide processes | |
Yang et al. | Domain adaptation network with uncertainty modeling and its application to the online energy consumption prediction of ethylene distillation processes | |
Deng et al. | Multiple structured latent double dictionary pair learning for cross-domain industrial process monitoring | |
CN104062904A (zh) | 基于cca-pls的大化工过程分布式建模方法 | |
CN109960146A (zh) | 提高软测量仪表模型预测精度的方法 | |
Panjapornpon et al. | Energy efficiency and savings analysis with multirate sampling for petrochemical process using convolutional neural network-based transfer learning | |
CN117952228A (zh) | 软测量模型的训练方法及装置 | |
Huang et al. | Distributed dictionary learning for industrial process monitoring with big data | |
Oneto et al. | Performance assessment and uncertainty quantification of predictive models for smart manufacturing systems | |
Fei et al. | Online process monitoring for complex systems with dynamic weighted principal component analysis | |
CN114861759A (zh) | 一种线性动态系统模型的分布式训练方法 | |
Zou et al. | Step-wise segment partition based stationary subspace analysis and Gaussian mixture model for nonstationary process performance assessment | |
Zhang et al. | Dynamic fault detection and diagnosis for alkaline water electrolyzer with variational Bayesian Sparse principal component analysis | |
CN109902830B (zh) | 基于混沌理论和集成学习的采煤机截割高度预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |