CN112286923B

CN112286923B - 一种智能制造资源数据预处理方法

Info

Publication number: CN112286923B
Application number: CN202011220670.6A
Authority: CN
Inventors: 苑明海; 李亚东; 张理志; 蔡仙仙; 顾文斌; 裴凤雀
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2023-06-20
Anticipated expiration: 2040-11-05
Also published as: CN112286923A

Abstract

本发明公开了一种智能制造资源数据预处理方法，包括以下步骤：在制造资源数据仓库中进行数据选样得到样本数据；基于主成分分析法对样本数据进行数据降维；基于改进的散列表的车间数据过滤算法对样本数据进行数据清洗；基于模糊隶度法处理样本数据。采用主成分分析法进行数据降维及改进的散列表数据过滤算法进行数据清洗，最后基于模糊隶度法处理样本数据，可以提高智能制造资源数据挖掘的效率和精度。

Description

一种智能制造资源数据预处理方法

技术领域

本发明涉及一种智能制造资源数据预处理方法，属于工业软件运营技术领域。

背景技术

智能制造车间环境的建立需要具体落实到各个生产环节，但车间生产要素繁多，生产数据多维异构且复杂，生产状态实时变更，这些都直接影响着生产资源的有效配置。同时车间内物理空间与信息空间缺乏交互融合，其预见性、联动性未能满足智能化的发展需求，如何利用车间数据进行资源高效调度，促进制造型企业向智能化转型，成为一个亟待解决的问题。

数据挖掘作为一种先进的信息处理技术，可以从大量的、杂乱的数据中提取出潜在的有价值的信息与模式，将其与企业质量管理有效的结全可以为企业管理者提供有效的管理决策，对于制造业的发展有着重要的意义。然而，在智能制造过程中，产生的资源数据存在着维度高与异常值多的特性，资源数据的高维度性增加了数据挖掘的处理难度；另一方面资源数据中的异常值降低了数据挖掘结果的精度，因此为了更好地将数据挖掘方法应用到智能制造中，有必要在数据挖掘的初始阶段探索出一种有效的数据预处理方法提高数据挖掘效率。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种智能制造资源数据预处理方法，以实现节省数据挖掘时间，同时提高数据质量和准确性。

为达到上述目的，本发明提供一种智能制造资源数据预处理方法，包括以下步骤：

步骤1：在制造资源数据仓库中进行数据选样得到样本数据；

步骤2：基于主成分分析法对样本数据进行数据降维；

步骤3：基于改进的散列表的车间数据过滤算法对样本数据进行数据清洗；

步骤4：基于模糊隶度法处理样本数据。

进一步地，步骤1中，建立有支持决策所需基础数据、目标数据和细节数据的制造资源数据仓库，然后进行样本数据X＝{x₁,...,x_n},X∈R^n×d的选样提取。

进一步地，步骤2包括如下步骤：

步骤2.1：计算样本数据的均值

对样本数据进行居中化处理Z＝X-1·μ^T，将样本数据中的每个数值减去均值；

步骤2.2：计算样本数据的协方差矩阵

的特征值λ和样本数据的协方差矩阵/>

的特征向量W；

步骤2.3：给定期望的方差阀值α，主成分分析法选择能够保留的总方差比例

至少为α的最小的维数r，并计算样本数据降维后的基W_r＝(w₁w₂...w_r)；

步骤2.4：计算样本数据的每个数值在新的r维主成分子空间中的坐标，得到降维后的数据矩阵A∈R^n×r，公式中，R^n×r代表n×r维的实数矩阵，R为实数集合，A∈R^n×r是降维后的数据矩阵是n×r维的实数矩阵。

进一步地，步骤3包括如下步骤：

步骤3.1：利用链表作为底层存储结构，设计散列表的基本组成元素键值对Entry，Entry＝{T_ID，R_ID，C，P}，T_ID为数据标签的ID号，R_ID为数据采集器的ID号，C为数据采集器的时间戳，P为指针，P指向下一个Entry节点；

步骤3.2：设置散列表Table的长度Table.length，根据T_ID构建合适的散列函数；

步骤3.3：对初次传入的样本数据的数值进行散列运算，求解出数据标签E_x的T_ID对应的散列值hash，利用“与运算”求出散列值hash对应散列表Table的位置下标index；

步骤3.4：对散列表Table的位置下标为index的链表进行检测，如果散列表Table的位置下标为index的链表为空，则表示散列表Table的位置下标index对应的T_ID数据标签为新T_ID数据标签，将样本数据的数值直接传出并更新链表，即将样本数据的数值存入下标为index的链表；如果散列表Table的位置下标为index的链表不为空，则对散列表Table的位置下标为index的链表进行遍历操作；

步骤3.5：散列表的非空位占比达到75％，则散列表Table进行一次扩容操作，扩容操作长度为前一次散列表Table扩容操作长度的2倍，将前一次散列表Table中的样本数据传入扩容操作后的散列表Table中，继续数据流的判定。

进一步地，步骤4包括如下步骤：

步骤4.1：基于模糊隶属度法，将样本数据的属性值划分为缺失、不重要、一般重要、重要、非常重要和极端重要六个等级，以0到5六个整数数值标度来表示；

步骤4.2：样本数据经无量纲化处理后，转化为矩阵V＝(V_ij)_m×n的形式，

式中：G_i＝V_ij，G_i为第i个生产条件；V_ij表示样本数据j中第i个条件的属性值；式中数值0表示第i个条件的属性值缺省。

进一步地，步骤3.4包括如下步骤：

3.4.1：将样本数据作为一个数据标签，将样本数据依次输入链表进行数据清洗操作，构建一个辅助对象用于记录链表的尾节点，键值对Entry(k,v)e＝Null；

3.4.2：将散列表Table下标为index的链表录入下标为s的键值对；

3.4.3：判断数据标签是否是新数据标签，若数据标签是新数据标签则将数据标签发出至样本数据；

3.4.4：若数据标签不是新数据标签则判断此数据标签的T_ID与当前T_ID是否相等，若此数据标签的T_ID与当前T_ID不相等则转至步骤3.4.2；

3.4.5：若数据标签的T_ID与当前T_ID相等则判断数据标签的T_ID与当前T_ID的时间差是否大于阈值，若数据标签的T_ID与当前T_ID的时间差不大于阈值则舍弃该数据标签并转至步骤3.4.2，阈值为常数；

3.4.6：若数据标签的T_ID与当前T_ID的时间差大于阈值则将数据标签发出至执行数据清洗操作的样本数据并更新标签事件的时间戳与更新样本数据。

本发明所达到的有益效果：

本发明提供的一种智能制造资源数据预处理方法，采用改进的主成分分析法进行数据降维及改进的散列表数据过滤算法进行数据清洗，最后基于模糊隶度法处理样本数据，可以提高智能制造资源数据挖掘的效率和精度。改进的主成分分析法避免对协方差矩阵的特征值分解，并取消了对数据的迭代处理，降低了计算复杂度，使得对于高维特征向量数据，本发明具备快速的收敛性。利用同ID非冗余标签覆盖技术，可以有效避免因数据流增多而导致的过滤器失效，从而实现本发明能够应用于实时海量车间制造数据的判别，由于散列表的扩容机制和同ID非冗余数据覆盖算法的融入，保证了本发明的的效率及有效性。

附图说明

图1为本发明方法的流程图；

图2为本发明中车间数据过滤算法的散列表的原理图；

图3为本发明中改进的基于散列表的车间数据过滤算法的流程图；

图4为本发明中不同等级属性值的标度定义图；

图5为本发明中改进的基于散列表的车间数据过滤算法的加速比变化图；

图6为本发明中数据预处理方法的测试效率结果的比较图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

一种智能制造资源数据预处理方法，以实现节省数据挖掘时间，同时提高数据质量和准确性。

步骤1：在制造资源数据仓库中进行数据选样得到样本数据；

步骤2：基于主成分分析法对样本数据进行数据降维；

步骤4：基于模糊隶度法处理样本数据。

优先地，步骤1中，建立有支持决策所需基础数据、目标数据和细节数据的制造资源数据仓库，然后进行样本数据X＝{x₁,...,x_n},X∈R^n×d的选样提取。

优先地，步骤2包括如下步骤：

步骤2.1：计算样本数据的均值

步骤2.2：计算样本数据的协方差矩阵

的特征值λ和样本数据的协方差矩阵/>

的特征向量W；

优先地，步骤3包括如下步骤：

优先地，步骤4包括如下步骤：

优先地，步骤3.4包括如下步骤：

3.4.2：将散列表Table下标为index的链表录入下标为s的键值对；

本发明中，主成分分析法为现有技术，应用于数据降维具有简化系统结构，节省响应时间的优点。模糊隶度法为现有技术中的方法，根据模糊数学的隶属度理论把定性评价转化为定量评价，具有结果清晰，系统性强的特点，能较好地解决模糊的、难以量化的问题，适合各种非确定性问题的解决。但模糊隶度理论仅为一个总体理论，本文所述的属性值等级划分并转换为数值矩阵，为该理论背景下的一种具体应用方法。

基础数据包括设备资源数据，物料资源数据，人力资源数据和软件资源数据；

目标数据包括用户信息数据，市场调研数据和客户回访数据；

细节数据包括知识产权数据，案例库数据和物流服务数据。

链表信息中记录样本数据的数值，方便后续比对新输入的样本数据的数值。

键值对Entry(k,v)e＝Null是一般表达式，用于记录链表的尾节点的辅助对象。

阈值需依据样本数据传入速率与样本数据规模来设定。

其中，设备资源数据包括：数控加工中心数量，刀具库种类，各类机床数量，各个机床具体性能参数，AGV种类及数量和高性能服务器数量。

物料资源数据包括：各类金属原材料数目，其他加工耗材种类，其他加工耗材数量，库存产品种类和库存产品数量。

人力资源数据包括：各类机床工人人数，工艺工程师人数，结构工程师人数，质量工程师人数和各级管理人员人数。

软件资源数据包括：设计制图软件种类，设计制图软件数量，电气控制系统软件种类，电气控制系统软件数量，MES系统种类及数量和其他办公软件种类及数量。

用户信息数据包括：用户公司基本信息，用户需求种类及规模和用户历史订单信息。

市场调研数据包括：各类产品市场需求规模，各类产品使用年限，各类产品返修率，竞品种类价格及竞品销售量。

客户回访数据包括：客户满意度，客户意见和客户投诉率。

知识产权数据包括：已拥有发明专利基本信息，已拥有发明专利种类，已拥有外观专利基本信息，已拥有外观专利种类，已拥有实用新型专利基本信息，已拥有实用新型专利种类，已拥有软件著作权基本信息，已拥有软件著作权种类和各类知识产权授权数量。

案例库数据包括：各种类产品生产工艺路线，各种类产品生产调度方案和各用户订单需求历史配置方案。

物流服务数据包括：各物流仓库储存规模，各历史订单物流方案，各物流网点运输能力，各历史方案物流时间及各历史方案物流成本。

为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效，且为了使该数据预处理方法易于明白了解，下面结合具体实例，进一步阐述本发明。

为了验证本发明数据预处理方法的核心算法的有效性，采用增加节点个数为变量，用加速比为评估指标验证改进散列表车间数据过滤算法的性能。选用UCI数据库中四个特点不同的数据集：Retail数据集、Musroom数据集、Kosarak数据集、BMSWebView2数据集，对改进散列表车间数据过滤算法进行验证。随着节点个数的增加，加速比变化情况如图5所示。改进散列表车间数据过滤算法在不同数据集中随节点个数的增加，加速比可以达到最优值，且能呈现稳定趋势，从而证明改进散列表车间过滤算法可以应用到更大的集群规模。

在上述数据过滤算法得到有效验证的前提下，为了实现对本发明数据预处理方法的应用，通过对某公司制造服务平台中的机床服务数据表进行整理，并选取部分属性：机床档次Mac-level、机床类型Mac-type、日期Date、企业类型Enter-type、用户地区User-area、额外服务Add-service，进行编码和映射，建立新的机床服务数据集，并采用三种不同的方案分别进行关联规则数据挖掘处理。

图6为测试效率结果比较图，以规模增长度为变量，执行时间为评估指标，方案1为未进行预处理的关联规则数据挖掘，方案2为仅现有技术中进行数据降维预处理后的关联规则数据挖掘，方案3为采用本发明数据预处理方法的关联规则数据挖掘。从图6可以看出，在设定相同的最小支持度时，采用本发明提出的预处理方法的数据挖掘方案的折线图始终位于其他两种方案的折线下方，从而说明采用本发明提出的预处理方法的数据挖掘方案执行时间短，运行效率高，具有有效性和可行性。

以上显示和描述了本发明的基于改进主成分分析法的数据降维，基于改进散列表数据过滤算法的数据清洗，以及基于模糊隶度法的数据处理，本行业的技术人员应该了解，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种智能制造资源数据预处理方法，其特征在于，包括以下步骤：

步骤1：在制造资源数据仓库中进行数据选样得到样本数据；

步骤2：基于主成分分析法对样本数据进行数据降维；

步骤4：基于模糊隶度法处理样本数据；

步骤3包括如下步骤：

步骤3.1：利用链表作为底层存储结构，设计散列表的基本组成元素键值对Entry，Entry＝{T_ID,R_ID,C,P}，T_ID为数据标签的ID号，R_ID为数据采集器的ID号，C为数据采集器的时间戳，P为指针，P指向下一个Entry节点；

步骤3.4：对散列表Table的位置下标为index的链表进行检测，如果散列表Table的位置下标为index的链表为空，则表示散列表Table的位置下标index对应的T_ID数据标签为新T_ID数据标签，将样本数据的这个数值直接传出并更新链表，即将样本数据的这个数值存入下标为index的链表；如果散列表Table的位置下标为index的链表不为空，则对散列表Table的位置下标为index的链表进行遍历操作；

步骤3.5：散列表的非空位占比达到75％，则散列表Table进行一次扩容操作，扩容操作长度为前一次散列表Table扩容操作长度的2倍，将前一次散列表Table中的样本数据传入扩容操作后的散列表Table中，继续数据流的判定；

步骤3.4包括如下步骤：

3.4.2：将散列表Table下标为index的链表录入下标为s的键值对；

2.根据权利要求1所述的智能制造资源数据预处理方法，其特征在于，步骤1中，建立有支持决策所需基础数据、目标数据和细节数据的制造资源数据仓库，然后进行样本数据X＝{x₁,...,x_n},X∈R^n×d的选样提取。

3.根据权利要求2所述的智能制造资源数据预处理方法，其特征在于：步骤2包括如下步骤：

步骤2.1：计算样本数据的均值

步骤2.2：计算样本数据的协方差矩阵

的特征值λ和样本数据的协方差矩阵

的特征向量W；

4.根据权利要求1所述的智能制造资源数据预处理方法，其特征在于，步骤4包括如下步骤：