CN110275868A

CN110275868A - 一种智能工厂中多模态制造数据预处理的方法

Info

Publication number: CN110275868A
Application number: CN201910540327.0A
Authority: CN
Inventors: 王维龙; 杨开益; 郭文水; 梅雪松
Original assignee: Xiamen Number Twin Technology Co Ltd; Xiamen Rong Extension Iot Technology Co Ltd
Current assignee: Xiamen Number Twin Technology Co Ltd; Xiamen Rong Extension Iot Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-24

Abstract

本发明涉及一种智能工厂中多模态制造数据预处理的方法，包括：S1：接收工业数据采集系统所采集的制造数据，并将其构成训练集D；S2：对训练集D进行聚类得到聚类结果，构建神经网络模型，根据训练集D和其聚类结果对神经网络模型进行训练后得到最终的多模态制造数据集成模型；S3：通过多模态制造数据集成模型对需要处理的制造数据集进行分类；S4：对制造数据集进行去噪处理；S5：对制造数据集进行去冗处理；S6：识别制造数据集中的缺失值，对缺失值进行填充。本发明通过构建多模态制造数据集成模型将多模态制造数据按模型簇聚类，便于后续环节的数据处理；使用数据多级优化清洗策略，提高数据质量，保障数据正确性、一致性、完整性和可靠性。

Description

一种智能工厂中多模态制造数据预处理的方法

技术领域

本发明涉及智能制造和数据管理技术领域，尤其涉及一种智能工厂中多模态制造数据预处理的方法。

背景技术

在智能工厂工业大数据时代下，海量多模态制造数据广泛存在，如何从这些制造数据中挖掘出隐藏的巨大价值，是现阶段工业大数据研究关注的主要问题。然而多模态制造数据的模态低质性、处理实时性、模态不均衡性和属性高维性为数据挖掘的设计实施提出了严峻挑战。而在智能工厂的数据挖掘过程中，数据预处理大约需要花费整个过程60％的时间。因此，如何更高效地完成多模态制造数据预处理，保障数据正确性、一致性、完整性和可靠性已是智能工厂中数据挖掘成功的关键。

现阶段，数据预处理主要包括数据清洗、数据集成、数据变换、数据规约等，各步骤又可细分为更小、更精确的具体执行单元。一方面，在绝大多数领域的数据预处理过程需要结合该应用领域的知识，数据预处理模块大多以组件的方式嵌入在数据挖掘平台中，模块耦合程度高。另一方面，在针对多模态制造数据预处理过程中，大多需要相关领域专家的干预，当处理过程中出现异常情况时，通常需要人工进行辅助决策，效率低，已无法满足智能工厂中的实际需求。

发明内容

为了解决上述问题，本发明提供了一种智能工厂中多模态制造数据预处理的方法。

具体方案如下：

一种智能工厂中多模态制造数据预处理的方法，包括以下步骤：

S1：接收工业数据采集系统所采集的制造数据，并将其构成训练集D＝(d₁,d₂,…d_x,…,d_n)，其中n为数据的个数；

S2：对训练集D进行聚类得到聚类结果，构建神经网络模型，根据训练集D和其聚类结果对神经网络模型进行训练后得到最终的多模态制造数据集成模型；

所述对训练集D进行聚类包括以下步骤：

S201：初始化参数：

将训练集D划分为z组，每组的聚类中心设为C_y，其中下标y＝1,2,3,…,z，设定迭代次数h＝0、最大迭代次数H和阈值ε；

S202：用在[0,1]范围内的随机数构建x×y的隶属度矩阵L，矩阵中的任意元素L_xy满足如下公式：

其中，L_xy表示训练集D中的数据x对于聚类中心C_y的隶属程度；

S203：判断迭代次数h是否小于最大迭代次数H，若小于，则设定h＝h+1，进入S204，否则，进入S208；

S204：计算每组的聚类中心C_y：

S205：计算目标函数J：

其中，F_xy＝||D_x-C_y||，表示训练集中第x个数据到第y组的聚类中心C_y的欧几理德距离；

S206：判断目标函数J是否小于阈值ε，若小于，则进入S208，否则，进入S207；

S207：更新隶属度矩阵，返回S203，其中隶属度矩阵的更新公式为：

其中，k为参数变量；

S208：输出聚类结果L_x：

其中：L_x为训练集D中的数据x的聚类划分，公式表示当x固定时，查找最大的L_xy；

S3：通过多模态制造数据集成模型对需要处理的制造数据集进行分类；

S4：对制造数据集进行去噪处理；

S5：对制造数据集进行去冗处理；

S6：识别制造数据集中的缺失值，对缺失值进行填充。

进一步的，步骤S2中，所述神经网络模型为三层BP神经网络，其输入层神经元个数m＝7，输出层神经元个数n＝1，隐含层神经元个数p由公式确定。

进一步的，步骤S4中的去噪处理具体为：

S401：加载制造数据集；

S402：构建噪声识别函数：

其中，x表示制造数据集中的数据，μ表示制造数据集中数据的均值，σ表示标准差；

S403：任取制造数据集中的数据，计算噪声识别函数f(x)，针对制造数据，若其在噪声识别函数f(x)的(μ-1.5σ,μ+1.5σ)以外的概率小于0.15％时，则判定x为噪声数据；

S404：清除噪声数据，直至制造数据集中所有数据均计算完成。

进一步的，步骤S5的去冗处理具体为：

S501：加载制造数据集；

S502：针对制造数据集中的每个数据，将其划分为若干个数据块，计算每个数据块的64位加权哈希值并按位累加，若每位大于1则记1，否则记0，生成指纹集；

S503：针对指纹集中的每个指纹，两两比对每两个“指纹”之间的码距，若码距小于设定的阈值时，判定为冗余数据；

S504：清除冗余数据，直至所有指纹均比对完毕。

进一步的，步骤S6具体为：

S601：加载制造数据集；

S602：采用决策树分类法定位制造数据集中缺失值的具体位置，识别缺失值的属性；

S603：查找制造数据集中与缺失值的对应属性具有相邻时间区域的所有数值；

S604：计算查找的数值的平均值并将平均值填充至缺失值位置处。

进一步的，所述的制造数据通过分布式文件系统HDFS进行存储，采用Spark大数据处理引擎、Spark弹性分布式数据集的形式进行缓存。

本发明采用如上技术方案，并具有有益效果：

1.通过构建多模态制造数据集成模型将多模态制造数据按模型簇聚类，便于后续环节的数据处理，提高数据可用性。

2.使用数据多级优化清洗策略，提高数据质量，保障数据正确性、一致性、完整性和可靠性。

附图说明

图1所示为本发明实施例的流程图。

图2所示为该实施例中构建多模态制造数据集成模型的流程图。

图3所示为该实施例中训练集数据划分的示意图。

图4所示为该实施例中数据去噪的流程图。

图5所示为该实施例中数据去冗的流程图。

图6所示为该实施例中数据去冗中指纹的示意图。

图7所示为该实施例中数据缺失的示意图。

图8所示为该实施例中数据缺失值填充的流程图。

具体实施方式

为进一步说明实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

本发明实施例提供了一种智能工厂中多模态制造数据预处理的方法，如图1所示，其为本发明实施例所述的一种智能工厂中多模态制造数据预处理的方法的流程图，所述方法包括以下步骤：

步骤1：数据预存储，接收工业数据采集系统所采集的制造数据，并存储于分布式文件系统HDFS中，构成训练集D＝(d₁,d₂,…d_x,…,d_n)，其中，n为数据的个数。

步骤2：利用Spark大数据引擎将分布式文件系统HDFS中的训练集D加载至分布式内存后，对训练集D进行聚类得到聚类结果，构建神经网络模型，根据训练集D和其聚类结果对神经网络模型进行训练后得到最终的多模态制造数据集成模型。

如图2所示，步骤2具体包括以下步骤：

步骤201：初始化参数：

将训练集D划分为z个划分组，如图3所示，每组的聚类中心设为C_y，其中下标y＝1,2,3,…,z，设定迭代次数h＝0、最大迭代次数H和阈值ε。

步骤202：初始化隶属度矩阵L：

用在[0,1]范围内的随机数初始化x×y的隶属度矩阵L，矩阵中的任意元素L_xy满足如下公式：

式中：L_xy表示训练集D中的数据x对于聚类中心C_y的隶属程度。

步骤203：判断迭代次数h是否小于最大迭代次数H，若小于，则设定h＝h+1，进入步骤204，否则，进入步骤208。

步骤204：计算每个聚类中心C_y，计算公式如下：

步骤205：计算目标函数J，计算公式如下：

式中：F_xy＝||D_x-C_y||，表示训练集中第x个数据到第y组的聚类中心C_y的欧几理德距离；

步骤206：判断目标函数J是否小于阈值ε，若小于，则进入步骤208，否则，进入步骤207；

步骤207：更新隶属度矩阵L，返回步骤203，其中隶属度矩阵的更新公式为：

其中，k为参数变量；

步骤208：输出聚类结果L_x，计算公式如下：

其中：L_x为训练集D中的数据x的聚类划分，公式表示当x固定时，查找最大的L_xy。

步骤209：采用三层BP神经网络构建模型。

初始化神经网络输入层神经元个数m＝7、输出层神经元个数n＝1，隐含层神经元个数p由公式确定。

初始化网络权值为[-1,1]之间的随机数值、网络学习速率为[0.01,0.8]之间的随机数值。

步骤210：将训练集D和步骤208的训练集D对应的聚类结果分别作为神经网络的输入和输出进行网络训练。

步骤211：计算输出层期望输出值与实际输出值的偏差E。

步骤212：判断实际输出值的偏差E是否满足偏差条件，若满足则继续步骤213所述的操作，反之，调整神经网络输出层和隐含层的权值，继续步骤210所述的操作。

步骤213：将网络学习得出的最终权值作为后续数据集成所对应的模型权值，并得到多模态制造数据集成模型。

步骤3：通过得到的多模态制造数据集成模型对需要处理的制造数据集进行分类。

由于数据采集、传输技术多样化，从生产现场获取的原始数据往往质量不高，主要表现有数据缺失、数据噪声、维度冗余等，难以直接用于后续的数据挖掘，数据挖掘得到的价值降低，因此该实施例中还包括以下步骤：

步骤4：由于数据中存在错误值，或者数值明显偏离期望值，因此需要对分类后的制造数据集进行去噪处理，如图4所示，包括以下步骤：

步骤401：从分布式内存中加载制造数据集；

步骤402：构建噪声识别函数，公式如下：

其中，x表示制造数据集中的数据，μ表示制造数据集中数据的均值，σ表示标准差。

步骤403：任取制造数据集中的数据，计算噪声识别函数f(x)，针对制造数据，若具体数据x在噪声识别函数f(x)的(μ-1.5σ,μ+1.5σ)以外的概率小于0.15％时，判定x为噪声数据，进入步骤404，反之跳转至步骤405；

步骤404：清除步骤403所述的噪声数据；

步骤405：判断制造数据集中的所有数据是否均计算完成，若完成，则算法结束，进入步骤406，否则，继续步骤403所述的操作；

步骤406：将去噪后的制造数据集以Spark弹性分布式数据集的形式缓存至分布式内存中。

步骤5：由于数据包含很多重复维度的数据，对后续数据挖掘无意义，因此还需对去噪后的制造数据集采用基于哈希值冗余数据删除方法，去除冗余数据，如图5所示，包括以下步骤：

步骤501：从分布式内存中加载步骤406所述的制造数据集。

步骤502：循环迭代制造数据集，将每次迭代得到的数据划分为若干个数据块，计算每个数据块的64位加权哈希值并按位累加，若每位大于1则记1，否则记0，生成“指纹”集。所述指纹为如图6所示结构。

步骤503：循环迭代“指纹”集，两两比较两个“指纹”的码距，若码距小于设定的阈值时，判定为冗余数据，进入步骤504，否则跳转至步骤505。该实施例中设定阈值为3。

步骤504：清除步骤503所述的冗余数据。

步骤505：判断“指纹”集中的“指纹”是否全部对比完成，若完成则进入步骤506，否则，继续步骤503所述的操作。

步骤506：将去冗后的制造数据集以Spark弹性分布式数据集的形式缓存至分布式内存中。

步骤6：另外，在采集的数据中可能出现在时间序列数据中整条数据丢失或者部分维度数据丢失的现象，因此，还需要进行数据缺失值填充，识别制造数据集中的缺失值，对缺失值进行填补处理。所述数据缺失示意图如图7所示。

如图8所示，步骤6包括以下步骤：

步骤601：从分布式内存中加载步骤506所述的制造数据集。

步骤602：采用决策树分类法定位制造数据集中缺失值的具体位置，识别缺失值的属性。

步骤603：循环迭代制造数据集，搜集制造数据集中与缺失值的对应属性具有相邻时间区域(年、月、日、时)的所有数值。

步骤604：计算查找的数值的平均值并将平均值填充至缺失值位置处。

步骤605：将填充后的制造数据集以Spark弹性分布式数据集的形式缓存至分布式内存中。

步骤7：数据存储，将经步骤1至步骤6处理后的制造数据集存储于分布式文件系统HDFS中。

本发明实施例通过多模态制造数据集成模型，将多模态制造数据按模型簇聚类，为分类后的制造数据提供包括数据去噪、数据去冗、数据缺失值填充的多级优化清洗策略，采用分布式文件系统HDFS作为数据存储容器，通过Spark弹性分布式数据集的形式缓存正在预处理的制造数据，为智能工厂提供高质量的多模态制造数据预处理的方法。与现有技术相比，本发明的积极效果在于：

1.采用分布式文件系统HDFS对海量多模态制造数据进行存储，降低成本，提升存取效率。

2.使用Spark大数据处理引擎、Spark弹性分布式数据集形式的分布式内存缓存，提高数据读写速度，运算性能大幅度提高。

3.通过构建多模态制造数据集成模型将多模态制造数据按模型簇聚类，便于后续环节的数据处理，提高数据可用性。

4.使用数据多级优化清洗策略，提高数据质量，保障数据正确性、一致性、完整性和可靠性。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种智能工厂中多模态制造数据预处理的方法，其特征在于，包括以下步骤：

S1：接收工业数据采集系统所采集的制造数据，并将其构成训练集D＝(d₁，d₂，...d_x，...，d_n)，其中n为数据的个数；

所述对训练集D进行聚类包括以下步骤：

S201：初始化参数：

将训练集D划分为z组，每组的聚类中心设为C_y，其中下标y＝1，2，3，...，z，设定迭代次数h＝0、最大迭代次数H和阈值ε；

S202：用在[0，1]范围内的随机数构建x×y的隶属度矩阵L，矩阵中的任意元素L_xy满足如下公式：

S204：计算每组的聚类中心C_y：

S205：计算目标函数J：

其中，k为参数变量；

S208：输出聚类结果L_x：

S4：对制造数据集进行去噪处理；

S5：对制造数据集进行去冗处理；

S6：识别制造数据集中的缺失值，对缺失值进行填充。

2.根据权利要求1所述的方法，其特征在于：步骤S2中，所述神经网络模型为三层BP神经网络，其输入层神经元个数m＝7，输出层神经元个数n＝1，隐含层神经元个数p由公式确定。

3.根据权利要求1所述的方法，其特征在于：步骤S4中的去噪处理具体为：

S401：加载制造数据集；

S402：构建噪声识别函数：

S403：任取制造数据集中的数据，计算噪声识别函数f(x)，针对制造数据，若其在噪声识别函数f(x)的(μ-1.5σ，μ+1.5σ)以外的概率小于0.15％时，则判定x为噪声数据；

4.根据权利要求1所述的方法，其特征在于：步骤S5的去冗处理具体为：

S501：加载制造数据集；

S504：清除冗余数据，直至所有指纹均比对完毕。

5.根据权利要求1所述的方法，其特征在于：步骤S6具体为：

S601：加载制造数据集；

S6O4：计算查找的数值的平均值并将平均值填充至缺失值位置处。

6.根据权利要求1所述的方法，其特征在于：所述的制造数据通过分布式文件系统HDFS进行存储，采用Spark大数据处理引擎、Spark弹性分布式数据集的形式进行缓存。