CN110969304A

CN110969304A - 数字工厂生产产能预测方法、系统、装置

Info

Publication number: CN110969304A
Application number: CN201911224534.1A
Authority: CN
Inventors: 韩彩亮; 程宏
Original assignee: Huiding Data Technology Shanghai Co Ltd
Current assignee: Huiding Data Technology Shanghai Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-07

Abstract

本发明属于数字工厂产能预测领域，具体涉及了一种数字工厂生产产能预测方法、系统、装置，旨在解决现有技术模型单一不易泛化，无法探索数据与预测目标的多层差异性关系，预测结果准确率低的问题。本发明方法包括：获取预设时间段生产产能数据，并通过特征工程进行特征向量提取及扩充；通过K折交叉验证法将特征向量集划分为设定的训练测试集；通过产能预测模型获取数字工厂预测产能。本发明采用GBDT‑Stacking方法集成多个在数字工厂生产产能预测中表现较好的基模型，并通过特征工程构造出对于工厂生产产能预测更加可靠的特征，通过K折交叉验证法划分模型训练测试集，模型预测准确率高、不易过拟合、易于泛化、鲁棒性好。

Description

数字工厂生产产能预测方法、系统、装置

技术领域

本发明属于数字工厂产能预测领域，具体涉及了一种数字工厂生产产能预测方法、系统、装置。

背景技术

工厂生产产能状态预测系统的核心是统计分析、建模和机器学习。与此同时，海量的工厂数据，如电耗单耗、设备运转、工艺仪表等，必须有大数据平台的支撑。因此，我们通过物联网技术构建物联网传感器网络，实时采集工厂运行数据，结合统计分析方法，对数据进行预处理，生成可以应用于监督学习方法的预测模型输入特征。从而能够基于AI+大数据技术，准确的进行工厂生产产能状态预测。当工厂数量大量增加时，不同的工厂场景所对应的采集特征存在比较大的差异性，因此，需要一个结合多种机器学习算法且可扩展、可靠的智能预测平台，这要求系统设计具有扩展性和灵活性。

准确的工厂生产产能状态预测能够给企业方的决策层，提供强有力的整体规划及发展方向策略，避免了生产过程中的资源浪费。但是在实际应用中，大部分中小企业缺乏相应技术支撑，且相关工厂积累的大多数数据具有数据稀疏、特征量大、正负样本分布极其不均匀等特点，难以准确的进行生产产能状态智能预测或预测准确率较差，导致不可挽回的经济损失。因此，稳定可靠、精度准确的智能预测方法，成为当前该领域亟待解决的问题。

随着数据挖掘、人工智能等技术的发展，在相关领域的预测方面已有了不少成熟的研究。Richardson分别使用Logistic模型(Logistic Regression，LR)和MART模型(Multiple Additive Regression Tress，多元可加回归树)进行点击率的预测，研究结果表明Logistic模型的预测结果优于MART。沈芳瑶等提出一种基于在线最优化算法FTRL(Follow The Regularized Leader)的Logistic模型，该方法采用混合正则化来防止训练过拟合，提高参数的计算效率的同时也使得预测的准确度有所提升。为了挖掘特征间的相互关系，提高模型的预测能力，Rendle提出了因子分解机(FM)模型，FM模型采用矩阵分解的思想，可以降低训练参数的维度，同时也可以学习到互异特征分量之间的关系。Juan etal.进一步提出了特征域相关的因子分解机模型FFM，其基本思想是将特征分割为若干域，每个特征将针对不同特征域学习不同的隐含变量。Zhang等构建了一种基于循环神经网络(RNN)进行行为的预测。张志强等提出了基于张量分解的特征降维方法，并充分利用深度学习技术刻画数据中的非线性关联解决了高维稀疏数据的特征学习问题。

但是目前，对于监督学习运用在工厂生产产能预测的系统实例在国内极少。除以上已有的相关技术之外，用来研究预测的模型还有支持向量机、概率图模型、层次贝叶斯模型、随机森林、深度置信网络、卷积-LSTM网络、XGBoost等。

在传统的生产产能状态预测方法中，现有技术方案还存在一些不足之处：首先，较为常用的机器学习模型在生产环境中单一化比较严重，学习系统一般采用训练和预测分离的办法，所以一般预测时只采用一种算法、一个模型。这样可能会导致无法探索出复杂数据与预测目标之间的多层差异性关系，也就无法做出更准确的预测。比如仅仅应用单一的基于线性回归、支持向量机(SVM)、随机森林或者XGBoost等模型，缺少集成学习模块，模型准确率不高；与此同时，相关算法模型，如Logistic模型虽然复杂度低，并且参数有很强的解释性，但是模型的性能非常依赖参与训练的特征，并且在稀疏数据中的表现能力也有限，从而限制了模型的预测性能。而FM模型只考虑了两两特征之间的关系，实际上当与不同特征域的特征组合时，隐含向量可能表现出不同的分布。RNN在使用梯度下降优化算法时，很容易产生梯度爆炸的问题，各个算法插入灵活性不够。由于每个工厂生产环境各不相同，需要预测的生产产能状态、所需采集的数据也千差万别，采用单一算法来预测所有工厂生产产能状态可能效果不佳，实际生产环境中部署的系统一般只能在线下人工训练不同模型，而不能直接通过图形界面在系统中在线配置、训练；其次，训练模型一般在线下完成，通过人工部署模型，特征的选择，缺乏比较系统的特征工程，对模型的特征需求缺少智能化和准确性；再次，数据的获取途径孤立、单一，缺乏系统的物联网数据采集技术，工厂数据的获得主要依靠传统的人工记录或者其他的传感设备。

发明内容

为了解决现有技术中的上述问题，即现有技术模型单一不易泛化，无法探索数据与预测目标的多层差异性关系，预测结果准确率低的问题，本发明提供了一种数字工厂生产产能预测方法，该产能预测方法包括：

步骤S10，获取数字工厂预设时间段生产产能数据作为待处理数据；所述生产产能数据包括生产产量、产品及原材料库存数量；

步骤S20，通过预设的特征工程对所述待处理数据进行特征向量提取及扩充，获得特征向量集合；

步骤S30，通过K折交叉验证法将所述特征向量集合划分为K个子集，以所述K个子集中任一子集为测试集，其余子集为训练集，获得K组训练集、测试集组；

步骤S40，基于所述K组训练集、测试集组，通过产能预测模型获取数字工厂预测产能；

其中，所述产能预测模型基于stacking集成算法构建，包括第一层的N个预设基模型以及第二层的神经网络模型。

在一些优选的实施例中，所述预设的特征工程为GBDT法、LSTM深度学习模型、连续变量非线性变换、分类特征转换方法中的一种或多种。

在一些优选的实施例中，所述N个预设基模型分别为：

FM模型、FFM模型、RandomForest、XGBoost模型、SVM模型、LightGBM模型、LinearReg模型。

在一些优选的实施例中，步骤S20中“通过预设的特征工程对所述待处理数据进行特征向量提取及扩充，获得特征向量集合”，其方法为：

步骤S21，对所述待处理数据进行统计计算，获得扩充后的待处理数据；所述统计计算包括计算每一类待处理数据在预设时间段的平均值、最大值、最小值、方差、skew；

步骤S22，通过预设的特征工程提取所述扩充后的待处理数据与产量相关的特征向量，获得特征向量集合。

在一些优选的实施例中，步骤S40中“基于所述K组训练集、测试集组，通过训练好的产能预测模型获取数字工厂预测产能”，其方法为：

步骤S41，分别通过预设的N个基模型获取K组训练集、测试集组中每一组数据对应的初步预测产能；

步骤S42，分别对所述N个基模型中每一个基模型对应的K个初步预测产能求平均，获得N个平均初步预测产能；

步骤S43，基于所述N个平均初步预测产能，通过神经网络模型获取最终预测产能作为数字工厂预测产能。

本发明的另一方面，提出了一种数字工厂生产产能预测系统，该产能预测系统包括输入模块、特征提取及扩充模块、K折交叉模块、产能预测模块、输出模块；

所述输入模块，配置为获取数字工厂预设时间段生产产能数据作为待处理数据并输入；

所述特征提取及扩充模块，配置为通过预设的特征工程对所述待处理数据进行特征向量提取及扩充，获得特征向量集合；

所述K折交叉模块，配置为通过K折交叉验证法将所述特征向量集合划分为K个子集，以所述K个子集中任一子集为测试集，其余子集为训练集，获得K组训练集、测试集组；

所述产能预测模块，配置为基于所述K组训练集、测试集组，通过产能预测模型获取数字工厂预测产能；

所述输出模块，配置为输出获取的数字工厂预测产能。

在一些优选的实施例中，所述特征提取及扩充模块包括统计模块、特征获取模块；

所述统计模块，配置为对所述待处理数据进行统计计算，获得扩充后的待处理数据；

所述特征获取模块，配置为通过预设的特征工程提取所述扩充后的待处理数据与产量相关的特征向量，获得特征向量集合。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的数字工厂生产产能预测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的数字工厂生产产能预测方法。

本发明的有益效果：

(1)本发明数字工厂生产产能预测方法，通过GBDT-Stacking方法集成了在数字工厂生产产能预测中表现较好的FM模型、FFM模型、RandomForest、XGBoost模型、SVM模型、LightGBM模型、LinearReg模型，对各种情况的数据尤其工厂的非平衡数据，模型预测准确率高、不易过拟合、鲁棒性好。

(2)本发明数字工厂生产产能预测方法，通过K折交叉验证法，在初期训练数据较小的情况下实现模型训练，模型易于泛化。

(3)本发明数字工厂生产产能预测方法，通过GBDT梯度提升树进行特征工程，构造出对于工厂生产产能预测更加可靠的特征，提高模型预测工厂生产产能的效率与精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明数字工厂生产产能预测方法流程示意图；

图2是本发明数字工厂生产产能预测方法一种实施例的GBDT特征转换过程示意图；

图3是本发明数字工厂生产产能预测方法一种实施例的不同数量下模型的AUC值对比示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种数字工厂生产产能预测方法，该产能预测方法包括：

为了更清晰地对本发明数字工厂生产产能预测方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的数字工厂生产产能预测方法，包括步骤S10-步骤S40，各步骤详细描述如下：

步骤S10，获取数字工厂预设时间段生产产能数据作为待处理数据；所述生产产能数据包括生产产量、产品及原材料库存数量。

用来预测生产产能的数据往往存在高维性特点，但是实际上并不是把所有特征都用上得到的预测效果就会越好，必须要平衡好效果和效率的关系。因此，在工厂生产产能预测的过程中，需要尽可能地获取与生产产能精度高相关的特征，以减少预测过程中时间和物力的代价。本发明一个实施例中，模型的训练和应用为一个在线过程，获取数字工厂m天的数据m＝{t₁,t₂,…,t_m}来预测第二天的生产产能，并将第二天的实际生产产能t_m+1加入数据集m同时去除数据集中的t₁，获得数据集m'＝{t₂,t₃,…,t_m,t_m+1}用来预测第三天的生产产能，以此类推。

步骤S20，通过预设的特征工程对所述待处理数据进行特征向量提取及扩充，获得特征向量集合。

预设的特征工程为GBDT法、LSTM深度学习模型、连续变量非线性变换、分类特征转换方法中的一种或多种。

步骤S21，对所述待处理数据进行统计计算，获得扩充后的待处理数据；所述统计计算包括计算每一类待处理数据在预设时间段的平均值、最大值、最小值、方差、skew。

本发明一个实施例中，采用GBDT法进行特征转换，将每个单独的树视为一个分类特征，将每个变量最终落入的叶子的索引值作为值，然后使用独热编码生成最终的新特征。如图2所示，为本发明数字工厂生产产能预测方法一种实施例的GBDT特征转换过程示意图，其梯度提升树含有两棵子树，左边子树含有三个叶子节点，右边子树含有两个叶子节点，如果一个输入变量落在了左边子树的第三个节点、右边子树的第二个节点，则生成的新的二元特征为[0,0,1,0,1]。

GNDT模型是Friedman中提到的经典的L2-TreeBoost算法，每轮迭代学习中对前一棵树的残差进行拟合，从而使得最终得到的强分类器的残差最小。

步骤S30，通过K折交叉验证法将所述特征向量集合划分为K个子集，以所述K个子集中任一子集为测试集，其余子集为训练集，获得K组训练集、测试集组。

本发明一个实施例中，使用5折交叉验证法产生训练集、测试集，将特征向量集合随机平均分为5部分，记为X＝{TR1,TR2,TR3,TR4,TR5}，分别以5部分中任一部分为测试集，其余子集为训练集，获得5组训练集、测试集组。第一组TR1为测试集，TR2-TR5为训练集；第二组TR2为测试集，TR1、TR3-TR5为训练集；第三组TR3为测试集，TR1、TR2、TR4、TR5为训练集；第四组TR4为测试集，TR1-TR3、TR5为训练集；第五组TR5为测试集，TR1-TR4为训练集。

本发明一个事实例中，预设7个基模型，分别为：

步骤S41，分别通过预设的7个基模型获取K组训练集、测试集组中每一组数据对应的初步预测产能。

本发明一个实施例中，以FM模型为例，通过FM模型获取5组训练集、测试集组中每一组数据对应的初步预测产能，得到FM模型对应的5个初步预测产能。同样地，获取FFM模型对应的5个初步预测产能、RandomForest对应的5个初步预测产能、XGBoost模型对应的5个初步预测产能、SVM模型对应的5个初步预测产能、LightGBM模型对应的5个初步预测产能、LinearReg模型对应的5个初步预测产能。

步骤S42，分别对所述N个基模型中每一个基模型对应的K个初步预测产能求平均，获得N个平均初步预测产能。

分别将每个基模型对应的5个初步预测产能求平均值，作为基模型对应的初步预测产能。

本发明一个实施例中，神经网络模型为含有两层隐藏层的反馈神经网络，第一层的隐含层神经元个数为9个，第二层隐含层的神经元个数为19个。

在模型中，很难通过手动的方法高效地对近百个参数调参，本发明一个实施例中，采用贝叶斯优化器(Bayesian Optimizer)进行模型参数的自动调参。贝叶斯优化器采用贝叶斯网络和先前概率分布在已知一些参数组合对模型准确度的影响下自动猜测最优的参数组合。

在训练数十家甚至上百家工厂所用模型时，模型训练平台的可扩展性尤为重要。本发明采用JSON配置文件驱动的系统，从特征选择提取、算法选择、算法参数配置，到模型预测目标，都以运行时间可配置的形式进行，系统代码无需改动。

对于生产产能状态样本比例极不平衡的数据而言，准确率作为评估指标存在一定的缺陷，不能全面地反映分类器性能，本发明采用AUC值作为模型优劣的评估标准。AUC是指对于随机给定的一个正样本和负样本，分类器输出该正样本为正的概率比分类器输出该负样本为正的概率大的可能性。AUC是ROC曲线下的面积，可通过对ROC曲线下各部分的面积求和得到。ROC曲线的横坐标FPR是假正例率(FPR，false positive rate)，表示在所有实际为负例的样本中被错误判断为正例的比率；纵坐标TPR是真正例率(TPR，true positiverate)，表示在所有实际为正例的样本中被正确判断为正例的比率。AUC的值就是这些阶梯下的面积之和，其计算方法如式(1)所示：

其中，

代表样本的序列号，M表示样本中正例的个数，N表示样本中负例的个数。

AUC的对样本比例有良好容忍性，取值越大说明分类器能越好。

在对生产产能进行预测时，还可以采用L2损失函数来评估模型的准确度，这也是验证模型时常用的评判标准，如式(2)所示：

其中，MSE代表均方误差，y_i代表工厂实际生产产能(产量)，

代表工厂生产产能预测值(产量)，n代表样本容量(工厂生产产能天数)。

本发明对于模型验证选用的数据来源于工厂采集数据。数据包括了21个特征字段，包含水电气煤特征、生产工艺特征、生产人员特征、生产工艺特征等，共200天，40000条数据。在GBDT构造新特征的过程中，选择迭代树数量为100，最终构造出新的特征数量为800个。

对样本数据集进行实验，对比单一预测方法和GBDT-Stacking模型在工厂生产产能的预测性能。首先对数据集进行GBDT特征构造，然后使用FM模型、FFM模型、随机森林、XGBoost模型以及包含两个隐藏层的神经网络模型进行预测并与GBDT-Stacking模型的结果进行对比，得到各组AUC值如表1所示：

表1

模型	预测准确率
		FM模型	0.691
FFM模型	0.722
		RF	0.762
XGBoost	0.803
		两个隐藏层的神经网络	0.726
Stacking	0.866

从表1可看出，本发明提出的GBDT-Stacking模型在预测问题上的优越性和有效性，比XGBoost模型高6.3％。

本发明还对模型的稳定性进行了验证，通过随机欠采样技术从数据集中分别抽取1万、3万、5万、7万、9万、11万、13万、15万的样本数据进行预测实验，比较在不同数据量下本发明模型的预测性能以及评估模型的稳定性。如图3所示，为本发明数字工厂生产产能预测方法一种实施例的不同数量下模型的AUC值对比示意图，从图中可以发现，当数据量逐渐增大，模型的预测性能表现出上升趋势，表明随着训练数据的增大，模型得到了更加充分的训练，获得了更稳健的参数。同时GBDT-Stacking模型在不同量级的数据下得到的AUC值相差较小，表面本发明GBDT-Stacking模型在工厂生产产能预测问题上更具有稳定性。

本发明第二实施例的数字工厂生产产能预测系统，该产能预测系统包括输入模块、特征提取及扩充模块、K折交叉模块、产能预测模块、输出模块；

所述输出模块，配置为输出获取的数字工厂预测产能。

其中，特征提取及扩充模块包括统计模块、特征获取模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的数字工厂生产产能预测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的数字工厂生产产能预测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的数字工厂生产产能预测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种数字工厂生产产能预测方法，其特征在于，该产能预测方法包括：

步骤S10，获取数字工厂预设时间段生产产能数据作为待处理数据；

2.根据权利要求1所述的数字工厂生产产能预测方法，其特征在于，所述预设的特征工程为GBDT法、LSTM深度学习模型、连续变量非线性变换、分类特征转换方法中的一种或多种。

3.根据权利要求1所述的数字工厂生产产能预测方法，其特征在于，所述N个预设基模型分别为：

4.根据权利要求1所述的数字工厂生产产能预测方法，其特征在于，步骤S20中“通过预设的特征工程对所述待处理数据进行特征向量提取及扩充，获得特征向量集合”，其方法为：

5.根据权利要求1或3所述的数字工厂生产产能预测方法，其特征在于，步骤S40中“基于所述K组训练集、测试集组，通过训练好的产能预测模型获取数字工厂预测产能”，其方法为：

6.一种数字工厂生产产能预测系统，其特征在于，该产能预测系统包括输入模块、特征提取及扩充模块、K折交叉模块、产能预测模块、输出模块；

所述输出模块，配置为输出获取的数字工厂预测产能。

7.根据权利要求6所述的数字工厂生产产能预测系统，其特征在于，所述特征提取及扩充模块包括统计模块、特征获取模块；

8.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-5任一项所述的数字工厂生产产能预测方法。

9.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-5任一项所述的数字工厂生产产能预测方法。