CN112286923B - 一种智能制造资源数据预处理方法 - Google Patents

一种智能制造资源数据预处理方法 Download PDF

Info

Publication number
CN112286923B
CN112286923B CN202011220670.6A CN202011220670A CN112286923B CN 112286923 B CN112286923 B CN 112286923B CN 202011220670 A CN202011220670 A CN 202011220670A CN 112286923 B CN112286923 B CN 112286923B
Authority
CN
China
Prior art keywords
data
sample data
hash table
tag
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011220670.6A
Other languages
English (en)
Other versions
CN112286923A (zh
Inventor
苑明海
李亚东
张理志
蔡仙仙
顾文斌
裴凤雀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN202011220670.6A priority Critical patent/CN112286923B/zh
Publication of CN112286923A publication Critical patent/CN112286923A/zh
Application granted granted Critical
Publication of CN112286923B publication Critical patent/CN112286923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种智能制造资源数据预处理方法,包括以下步骤:在制造资源数据仓库中进行数据选样得到样本数据;基于主成分分析法对样本数据进行数据降维;基于改进的散列表的车间数据过滤算法对样本数据进行数据清洗;基于模糊隶度法处理样本数据。采用主成分分析法进行数据降维及改进的散列表数据过滤算法进行数据清洗,最后基于模糊隶度法处理样本数据,可以提高智能制造资源数据挖掘的效率和精度。

Description

一种智能制造资源数据预处理方法
技术领域
本发明涉及一种智能制造资源数据预处理方法,属于工业软件运营技术领域。
背景技术
智能制造车间环境的建立需要具体落实到各个生产环节,但车间生产要素繁多,生产数据多维异构且复杂,生产状态实时变更,这些都直接影响着生产资源的有效配置。同时车间内物理空间与信息空间缺乏交互融合,其预见性、联动性未能满足智能化的发展需求,如何利用车间数据进行资源高效调度,促进制造型企业向智能化转型,成为一个亟待解决的问题。
数据挖掘作为一种先进的信息处理技术,可以从大量的、杂乱的数据中提取出潜在的有价值的信息与模式,将其与企业质量管理有效的结全可以为企业管理者提供有效的管理决策,对于制造业的发展有着重要的意义。然而,在智能制造过程中,产生的资源数据存在着维度高与异常值多的特性,资源数据的高维度性增加了数据挖掘的处理难度;另一方面资源数据中的异常值降低了数据挖掘结果的精度,因此为了更好地将数据挖掘方法应用到智能制造中,有必要在数据挖掘的初始阶段探索出一种有效的数据预处理方法提高数据挖掘效率。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种智能制造资源数据预处理方法,以实现节省数据挖掘时间,同时提高数据质量和准确性。
为达到上述目的,本发明提供一种智能制造资源数据预处理方法,包括以下步骤:
步骤1:在制造资源数据仓库中进行数据选样得到样本数据;
步骤2:基于主成分分析法对样本数据进行数据降维;
步骤3:基于改进的散列表的车间数据过滤算法对样本数据进行数据清洗;
步骤4:基于模糊隶度法处理样本数据。
进一步地,步骤1中,建立有支持决策所需基础数据、目标数据和细节数据的制造资源数据仓库,然后进行样本数据X={x1,...,xn},X∈Rn×d的选样提取。
进一步地,步骤2包括如下步骤:
步骤2.1:计算样本数据的均值
Figure BDA0002761891780000011
对样本数据进行居中化处理Z=X-1·μT,将样本数据中的每个数值减去均值;
步骤2.2:计算样本数据的协方差矩阵
Figure BDA0002761891780000021
的特征值λ和样本数据的协方差矩阵/>
Figure BDA0002761891780000022
的特征向量W;
步骤2.3:给定期望的方差阀值α,主成分分析法选择能够保留的总方差比例
Figure BDA0002761891780000023
至少为α的最小的维数r,并计算样本数据降维后的基Wr=(w1w2...wr);
步骤2.4:计算样本数据的每个数值在新的r维主成分子空间中的坐标,得到降维后的数据矩阵A∈Rn×r,公式中,Rn×r代表n×r维的实数矩阵,R为实数集合,A∈Rn×r是降维后的数据矩阵是n×r维的实数矩阵。
进一步地,步骤3包括如下步骤:
步骤3.1:利用链表作为底层存储结构,设计散列表的基本组成元素键值对Entry,Entry={TID,RID,C,P},TID为数据标签的ID号,RID为数据采集器的ID号,C为数据采集器的时间戳,P为指针,P指向下一个Entry节点;
步骤3.2:设置散列表Table的长度Table.length,根据TID构建合适的散列函数;
步骤3.3:对初次传入的样本数据的数值进行散列运算,求解出数据标签Ex的TID对应的散列值hash,利用“与运算”求出散列值hash对应散列表Table的位置下标index;
步骤3.4:对散列表Table的位置下标为index的链表进行检测,如果散列表Table的位置下标为index的链表为空,则表示散列表Table的位置下标index对应的TID数据标签为新TID数据标签,将样本数据的数值直接传出并更新链表,即将样本数据的数值存入下标为index的链表;如果散列表Table的位置下标为index的链表不为空,则对散列表Table的位置下标为index的链表进行遍历操作;
步骤3.5:散列表的非空位占比达到75%,则散列表Table进行一次扩容操作,扩容操作长度为前一次散列表Table扩容操作长度的2倍,将前一次散列表Table中的样本数据传入扩容操作后的散列表Table中,继续数据流的判定。
进一步地,步骤4包括如下步骤:
步骤4.1:基于模糊隶属度法,将样本数据的属性值划分为缺失、不重要、一般重要、重要、非常重要和极端重要六个等级,以0到5六个整数数值标度来表示;
步骤4.2:样本数据经无量纲化处理后,转化为矩阵V=(Vij)m×n的形式,
Figure BDA0002761891780000031
式中:Gi=Vij,Gi为第i个生产条件;Vij表示样本数据j中第i个条件的属性值;式中数值0表示第i个条件的属性值缺省。
进一步地,步骤3.4包括如下步骤:
3.4.1:将样本数据作为一个数据标签,将样本数据依次输入链表进行数据清洗操作,构建一个辅助对象用于记录链表的尾节点,键值对Entry(k,v)e=Null;
3.4.2:将散列表Table下标为index的链表录入下标为s的键值对;
3.4.3:判断数据标签是否是新数据标签,若数据标签是新数据标签则将数据标签发出至样本数据;
3.4.4:若数据标签不是新数据标签则判断此数据标签的TID与当前TID是否相等,若此数据标签的TID与当前TID不相等则转至步骤3.4.2;
3.4.5:若数据标签的TID与当前TID相等则判断数据标签的TID与当前TID的时间差是否大于阈值,若数据标签的TID与当前TID的时间差不大于阈值则舍弃该数据标签并转至步骤3.4.2,阈值为常数;
3.4.6:若数据标签的TID与当前TID的时间差大于阈值则将数据标签发出至执行数据清洗操作的样本数据并更新标签事件的时间戳与更新样本数据。
本发明所达到的有益效果:
本发明提供的一种智能制造资源数据预处理方法,采用改进的主成分分析法进行数据降维及改进的散列表数据过滤算法进行数据清洗,最后基于模糊隶度法处理样本数据,可以提高智能制造资源数据挖掘的效率和精度。改进的主成分分析法避免对协方差矩阵的特征值分解,并取消了对数据的迭代处理,降低了计算复杂度,使得对于高维特征向量数据,本发明具备快速的收敛性。利用同ID非冗余标签覆盖技术,可以有效避免因数据流增多而导致的过滤器失效,从而实现本发明能够应用于实时海量车间制造数据的判别,由于散列表的扩容机制和同ID非冗余数据覆盖算法的融入,保证了本发明的的效率及有效性。
附图说明
图1为本发明方法的流程图;
图2为本发明中车间数据过滤算法的散列表的原理图;
图3为本发明中改进的基于散列表的车间数据过滤算法的流程图;
图4为本发明中不同等级属性值的标度定义图;
图5为本发明中改进的基于散列表的车间数据过滤算法的加速比变化图;
图6为本发明中数据预处理方法的测试效率结果的比较图。
具体实施方式
以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
一种智能制造资源数据预处理方法,以实现节省数据挖掘时间,同时提高数据质量和准确性。
为达到上述目的,本发明提供一种智能制造资源数据预处理方法,包括以下步骤:
步骤1:在制造资源数据仓库中进行数据选样得到样本数据;
步骤2:基于主成分分析法对样本数据进行数据降维;
步骤3:基于改进的散列表的车间数据过滤算法对样本数据进行数据清洗;
步骤4:基于模糊隶度法处理样本数据。
优先地,步骤1中,建立有支持决策所需基础数据、目标数据和细节数据的制造资源数据仓库,然后进行样本数据X={x1,...,xn},X∈Rn×d的选样提取。
优先地,步骤2包括如下步骤:
步骤2.1:计算样本数据的均值
Figure BDA0002761891780000041
对样本数据进行居中化处理Z=X-1·μT,将样本数据中的每个数值减去均值;
步骤2.2:计算样本数据的协方差矩阵
Figure BDA0002761891780000042
的特征值λ和样本数据的协方差矩阵/>
Figure BDA0002761891780000051
的特征向量W;
步骤2.3:给定期望的方差阀值α,主成分分析法选择能够保留的总方差比例
Figure BDA0002761891780000052
至少为α的最小的维数r,并计算样本数据降维后的基Wr=(w1w2...wr);
步骤2.4:计算样本数据的每个数值在新的r维主成分子空间中的坐标,得到降维后的数据矩阵A∈Rn×r,公式中,Rn×r代表n×r维的实数矩阵,R为实数集合,A∈Rn×r是降维后的数据矩阵是n×r维的实数矩阵。
优先地,步骤3包括如下步骤:
步骤3.1:利用链表作为底层存储结构,设计散列表的基本组成元素键值对Entry,Entry={TID,RID,C,P},TID为数据标签的ID号,RID为数据采集器的ID号,C为数据采集器的时间戳,P为指针,P指向下一个Entry节点;
步骤3.2:设置散列表Table的长度Table.length,根据TID构建合适的散列函数;
步骤3.3:对初次传入的样本数据的数值进行散列运算,求解出数据标签Ex的TID对应的散列值hash,利用“与运算”求出散列值hash对应散列表Table的位置下标index;
步骤3.4:对散列表Table的位置下标为index的链表进行检测,如果散列表Table的位置下标为index的链表为空,则表示散列表Table的位置下标index对应的TID数据标签为新TID数据标签,将样本数据的数值直接传出并更新链表,即将样本数据的数值存入下标为index的链表;如果散列表Table的位置下标为index的链表不为空,则对散列表Table的位置下标为index的链表进行遍历操作;
步骤3.5:散列表的非空位占比达到75%,则散列表Table进行一次扩容操作,扩容操作长度为前一次散列表Table扩容操作长度的2倍,将前一次散列表Table中的样本数据传入扩容操作后的散列表Table中,继续数据流的判定。
优先地,步骤4包括如下步骤:
步骤4.1:基于模糊隶属度法,将样本数据的属性值划分为缺失、不重要、一般重要、重要、非常重要和极端重要六个等级,以0到5六个整数数值标度来表示;
步骤4.2:样本数据经无量纲化处理后,转化为矩阵V=(Vij)m×n的形式,
Figure BDA0002761891780000061
式中:Gi=Vij,Gi为第i个生产条件;Vij表示样本数据j中第i个条件的属性值;式中数值0表示第i个条件的属性值缺省。
优先地,步骤3.4包括如下步骤:
3.4.1:将样本数据作为一个数据标签,将样本数据依次输入链表进行数据清洗操作,构建一个辅助对象用于记录链表的尾节点,键值对Entry(k,v)e=Null;
3.4.2:将散列表Table下标为index的链表录入下标为s的键值对;
3.4.3:判断数据标签是否是新数据标签,若数据标签是新数据标签则将数据标签发出至样本数据;
3.4.4:若数据标签不是新数据标签则判断此数据标签的TID与当前TID是否相等,若此数据标签的TID与当前TID不相等则转至步骤3.4.2;
3.4.5:若数据标签的TID与当前TID相等则判断数据标签的TID与当前TID的时间差是否大于阈值,若数据标签的TID与当前TID的时间差不大于阈值则舍弃该数据标签并转至步骤3.4.2,阈值为常数;
3.4.6:若数据标签的TID与当前TID的时间差大于阈值则将数据标签发出至执行数据清洗操作的样本数据并更新标签事件的时间戳与更新样本数据。
本发明中,主成分分析法为现有技术,应用于数据降维具有简化系统结构,节省响应时间的优点。模糊隶度法为现有技术中的方法,根据模糊数学的隶属度理论把定性评价转化为定量评价,具有结果清晰,系统性强的特点,能较好地解决模糊的、难以量化的问题,适合各种非确定性问题的解决。但模糊隶度理论仅为一个总体理论,本文所述的属性值等级划分并转换为数值矩阵,为该理论背景下的一种具体应用方法。
基础数据包括设备资源数据,物料资源数据,人力资源数据和软件资源数据;
目标数据包括用户信息数据,市场调研数据和客户回访数据;
细节数据包括知识产权数据,案例库数据和物流服务数据。
链表信息中记录样本数据的数值,方便后续比对新输入的样本数据的数值。
键值对Entry(k,v)e=Null是一般表达式,用于记录链表的尾节点的辅助对象。
阈值需依据样本数据传入速率与样本数据规模来设定。
其中,设备资源数据包括:数控加工中心数量,刀具库种类,各类机床数量,各个机床具体性能参数,AGV种类及数量和高性能服务器数量。
物料资源数据包括:各类金属原材料数目,其他加工耗材种类,其他加工耗材数量,库存产品种类和库存产品数量。
人力资源数据包括:各类机床工人人数,工艺工程师人数,结构工程师人数,质量工程师人数和各级管理人员人数。
软件资源数据包括:设计制图软件种类,设计制图软件数量,电气控制系统软件种类,电气控制系统软件数量,MES系统种类及数量和其他办公软件种类及数量。
用户信息数据包括:用户公司基本信息,用户需求种类及规模和用户历史订单信息。
市场调研数据包括:各类产品市场需求规模,各类产品使用年限,各类产品返修率,竞品种类价格及竞品销售量。
客户回访数据包括:客户满意度,客户意见和客户投诉率。
知识产权数据包括:已拥有发明专利基本信息,已拥有发明专利种类,已拥有外观专利基本信息,已拥有外观专利种类,已拥有实用新型专利基本信息,已拥有实用新型专利种类,已拥有软件著作权基本信息,已拥有软件著作权种类和各类知识产权授权数量。
案例库数据包括:各种类产品生产工艺路线,各种类产品生产调度方案和各用户订单需求历史配置方案。
物流服务数据包括:各物流仓库储存规模,各历史订单物流方案,各物流网点运输能力,各历史方案物流时间及各历史方案物流成本。
为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效,且为了使该数据预处理方法易于明白了解,下面结合具体实例,进一步阐述本发明。
为了验证本发明数据预处理方法的核心算法的有效性,采用增加节点个数为变量,用加速比为评估指标验证改进散列表车间数据过滤算法的性能。选用UCI数据库中四个特点不同的数据集:Retail数据集、Musroom数据集、Kosarak数据集、BMSWebView2数据集,对改进散列表车间数据过滤算法进行验证。随着节点个数的增加,加速比变化情况如图5所示。改进散列表车间数据过滤算法在不同数据集中随节点个数的增加,加速比可以达到最优值,且能呈现稳定趋势,从而证明改进散列表车间过滤算法可以应用到更大的集群规模。
在上述数据过滤算法得到有效验证的前提下,为了实现对本发明数据预处理方法的应用,通过对某公司制造服务平台中的机床服务数据表进行整理,并选取部分属性:机床档次Mac-level、机床类型Mac-type、日期Date、企业类型Enter-type、用户地区User-area、额外服务Add-service,进行编码和映射,建立新的机床服务数据集,并采用三种不同的方案分别进行关联规则数据挖掘处理。
图6为测试效率结果比较图,以规模增长度为变量,执行时间为评估指标,方案1为未进行预处理的关联规则数据挖掘,方案2为仅现有技术中进行数据降维预处理后的关联规则数据挖掘,方案3为采用本发明数据预处理方法的关联规则数据挖掘。从图6可以看出,在设定相同的最小支持度时,采用本发明提出的预处理方法的数据挖掘方案的折线图始终位于其他两种方案的折线下方,从而说明采用本发明提出的预处理方法的数据挖掘方案执行时间短,运行效率高,具有有效性和可行性。
以上显示和描述了本发明的基于改进主成分分析法的数据降维,基于改进散列表数据过滤算法的数据清洗,以及基于模糊隶度法的数据处理,本行业的技术人员应该了解,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (4)

1.一种智能制造资源数据预处理方法,其特征在于,包括以下步骤:
步骤1:在制造资源数据仓库中进行数据选样得到样本数据;
步骤2:基于主成分分析法对样本数据进行数据降维;
步骤3:基于改进的散列表的车间数据过滤算法对样本数据进行数据清洗;
步骤4:基于模糊隶度法处理样本数据;
步骤3包括如下步骤:
步骤3.1:利用链表作为底层存储结构,设计散列表的基本组成元素键值对Entry,Entry={TID,RID,C,P},TID为数据标签的ID号,RID为数据采集器的ID号,C为数据采集器的时间戳,P为指针,P指向下一个Entry节点;
步骤3.2:设置散列表Table的长度Table.length,根据TID构建合适的散列函数;
步骤3.3:对初次传入的样本数据的数值进行散列运算,求解出数据标签Ex的TID对应的散列值hash,利用“与运算”求出散列值hash对应散列表Table的位置下标index;
步骤3.4:对散列表Table的位置下标为index的链表进行检测,如果散列表Table的位置下标为index的链表为空,则表示散列表Table的位置下标index对应的TID数据标签为新TID数据标签,将样本数据的这个数值直接传出并更新链表,即将样本数据的这个数值存入下标为index的链表;如果散列表Table的位置下标为index的链表不为空,则对散列表Table的位置下标为index的链表进行遍历操作;
步骤3.5:散列表的非空位占比达到75%,则散列表Table进行一次扩容操作,扩容操作长度为前一次散列表Table扩容操作长度的2倍,将前一次散列表Table中的样本数据传入扩容操作后的散列表Table中,继续数据流的判定;
步骤3.4包括如下步骤:
3.4.1:将样本数据作为一个数据标签,将样本数据依次输入链表进行数据清洗操作,构建一个辅助对象用于记录链表的尾节点,键值对Entry(k,v)e=Null;
3.4.2:将散列表Table下标为index的链表录入下标为s的键值对;
3.4.3:判断数据标签是否是新数据标签,若数据标签是新数据标签则将数据标签发出至样本数据;
3.4.4:若数据标签不是新数据标签则判断此数据标签的TID与当前TID是否相等,若此数据标签的TID与当前TID不相等则转至步骤3.4.2;
3.4.5:若数据标签的TID与当前TID相等则判断数据标签的TID与当前TID的时间差是否大于阈值,若数据标签的TID与当前TID的时间差不大于阈值则舍弃该数据标签并转至步骤3.4.2,阈值为常数;
3.4.6:若数据标签的TID与当前TID的时间差大于阈值则将数据标签发出至执行数据清洗操作的样本数据并更新标签事件的时间戳与更新样本数据。
2.根据权利要求1所述的智能制造资源数据预处理方法,其特征在于,步骤1中,建立有支持决策所需基础数据、目标数据和细节数据的制造资源数据仓库,然后进行样本数据X={x1,...,xn},X∈Rn×d的选样提取。
3.根据权利要求2所述的智能制造资源数据预处理方法,其特征在于:步骤2包括如下步骤:
步骤2.1:计算样本数据的均值
Figure FDA0004053918830000021
对样本数据进行居中化处理Z=X-1·μT,将样本数据中的每个数值减去均值;
步骤2.2:计算样本数据的协方差矩阵
Figure FDA0004053918830000022
的特征值λ和样本数据的协方差矩阵
Figure FDA0004053918830000023
的特征向量W;
步骤2.3:给定期望的方差阀值α,主成分分析法选择能够保留的总方差比例
Figure FDA0004053918830000024
至少为α的最小的维数r,并计算样本数据降维后的基Wr=(w1w2...wr);
步骤2.4:计算样本数据的每个数值在新的r维主成分子空间中的坐标,得到降维后的数据矩阵A∈Rn×r,公式中,Rn×r代表n×r维的实数矩阵,R为实数集合,A∈Rn×r是降维后的数据矩阵是n×r维的实数矩阵。
4.根据权利要求1所述的智能制造资源数据预处理方法,其特征在于,步骤4包括如下步骤:
步骤4.1:基于模糊隶属度法,将样本数据的属性值划分为缺失、不重要、一般重要、重要、非常重要和极端重要六个等级,以0到5六个整数数值标度来表示;
步骤4.2:样本数据经无量纲化处理后,转化为矩阵V=(Vij)m×n的形式,
Figure FDA0004053918830000031
式中:Gi=Vij,Gi为第i个生产条件;Vij表示样本数据j中第i个条件的属性值;式中数值0表示第i个条件的属性值缺省。
CN202011220670.6A 2020-11-05 2020-11-05 一种智能制造资源数据预处理方法 Active CN112286923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011220670.6A CN112286923B (zh) 2020-11-05 2020-11-05 一种智能制造资源数据预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011220670.6A CN112286923B (zh) 2020-11-05 2020-11-05 一种智能制造资源数据预处理方法

Publications (2)

Publication Number Publication Date
CN112286923A CN112286923A (zh) 2021-01-29
CN112286923B true CN112286923B (zh) 2023-06-20

Family

ID=74352019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011220670.6A Active CN112286923B (zh) 2020-11-05 2020-11-05 一种智能制造资源数据预处理方法

Country Status (1)

Country Link
CN (1) CN112286923B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130268567A1 (en) * 2012-04-05 2013-10-10 Cover-All Technologies, Inc. System And Method For Updating Slowly Changing Dimensions
CN105426966A (zh) * 2015-12-14 2016-03-23 河海大学常州校区 基于改进遗传算法的关联规则挖掘方法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN111160750A (zh) * 2019-12-23 2020-05-15 东南大学 一种基于关联规则挖掘的配网分析和投资决策方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130268567A1 (en) * 2012-04-05 2013-10-10 Cover-All Technologies, Inc. System And Method For Updating Slowly Changing Dimensions
CN105426966A (zh) * 2015-12-14 2016-03-23 河海大学常州校区 基于改进遗传算法的关联规则挖掘方法
CN107273917A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于并行化主成分分析算法的数据降维方法
CN111160750A (zh) * 2019-12-23 2020-05-15 东南大学 一种基于关联规则挖掘的配网分析和投资决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于工业大数据的柔性作业车间动态调度;汤洪涛;《计算机集成制造系统》;20200930;第1-14页 *
基于本体案例匹配的扰动作业车间智能调度辅助决策;吴正佳;《工业工程》;20181231;第1-10页 *

Also Published As

Publication number Publication date
CN112286923A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
Cheng et al. Data and knowledge mining with big data towards smart production
CN109902954B (zh) 一种基于工业大数据的柔性作业车间动态调度方法
CN102819772B (zh) 电力配网建设物资需求预测方法及装置
CN110990461A (zh) 大数据分析模型算法选型方法、装置、电子设备及介质
Yao Financial accounting intelligence management of internet of things enterprises based on data mining algorithm
CN117557299B (zh) 基于计算机辅助的营销策划方法及系统
CN102831489A (zh) 电力配网建设物资需求预测方法及装置
Li et al. Using intelligent technology and real-time feedback algorithm to improve manufacturing process in IoT semiconductor industry
Maquee et al. Clustering and association rules in analyzing the efficiency of maintenance system of an urban bus network
CN111027799A (zh) 一种国企产能分析系统
CN117807377A (zh) 多维度物流数据挖掘与预测方法及系统
CN112286923B (zh) 一种智能制造资源数据预处理方法
Shinkevich et al. Decision making support for the development of new products based on Big Data technology
CN116976948A (zh) 一种制造型企业全价值链动态反馈流图生成方法及系统
CN106779245A (zh) 基于事件的民航需求预测方法和装置
CN115952914A (zh) 一种基于大数据的电力计量运维工作判别规划方法
CN116029579A (zh) 一种继电保护设备采购评价方法及系统
JP4446231B2 (ja) 製造データ分析方法及び装置
Xin [Retracted] Application of Optimized Support Vector Machine Model in Tax Forecasting System
Wang et al. A data quality improvement method based on the greedy algorithm
CN112100246A (zh) 一种基于多维图码标签的客户用电价值挖掘方法
TWI230349B (en) Method and apparatus for analyzing manufacturing data
Song et al. Application of Machine Learning and Data Mining in Manufacturing Industry
CN116306325B (zh) 一种基于工业互联网的生产供应链监测管理系统及方法
Song et al. Application of machine learning and data mining in manufacturing industry

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant