CN109670695B - 基于离群数据挖掘的机械产品加工工序异常并行检测方法 - Google Patents

基于离群数据挖掘的机械产品加工工序异常并行检测方法 Download PDF

Info

Publication number
CN109670695B
CN109670695B CN201811520903.7A CN201811520903A CN109670695B CN 109670695 B CN109670695 B CN 109670695B CN 201811520903 A CN201811520903 A CN 201811520903A CN 109670695 B CN109670695 B CN 109670695B
Authority
CN
China
Prior art keywords
sparse
data
cube
hyper
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811520903.7A
Other languages
English (en)
Other versions
CN109670695A (zh
Inventor
赵旭俊
马洋
张继福
蔡江辉
杨海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Science and Technology
Original Assignee
Taiyuan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Science and Technology filed Critical Taiyuan University of Science and Technology
Priority to CN201811520903.7A priority Critical patent/CN109670695B/zh
Publication of CN109670695A publication Critical patent/CN109670695A/zh
Application granted granted Critical
Publication of CN109670695B publication Critical patent/CN109670695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Factory Administration (AREA)

Abstract

本发明基于离群数据挖掘的机械产品加工工序异常并行检测方法,属于机械产品加工数据分析与处理技术领域;所要解决的技术问题为提供一种基于离群数据挖掘的机械产品加工工序异常检测方法,该方法从加工生产所积累的大量合格机械产品数据中检测偏离大多数产品的离群数据,其检测结果,可转换为产品加工工序的质量分析;技术方案为:包括以下步骤:a、机械产品加工工序数据预处理;b、机械产品加工工序异常并行检测;本发明通过检测合格产品中加工工序的异常现象,从而发现制造系统中的设备性能衰退、精度缺失、易耗件的磨损、工艺参数的不稳定等一系列隐性问题。

Description

基于离群数据挖掘的机械产品加工工序异常并行检测方法
技术领域
本发明基于离群数据挖掘的机械产品加工工序异常并行检测方法,属于机械产品加工数据分析与处理技术领域。
背景技术
随着“中国制造2025”的提出和推进,智能制造成为工业变革的重要方面,同时,信息感知技术和工业大数据的蓬勃兴起,为智能制造的深入研究提供了数据保障。麦肯锡研究院曾在报告中指出,“制造行业大数据仅在2010年就超过2EB的规模”。跟其它领域大数据相比,工业大数据具有专业性、时序性、流程性和关联性等特点。工业大数据推动了制造业向智能制造的转型,开展智能制造,必须对企业大数据做出深入、细致的分析,从而有效提取能优化生产系统的有价值知识。
大数据在智能制造过程中有许多应用场景,比如:生产系统质量的预测性管理、设备的健康管理及预测性维护、制造企业的供应链优化、产品精确营销、智能装备和生产系统的自省性与自重构能力等等。利用大数据分析能实现从传统制造中的解决问题到智能制造中的避免问题的转换;而且利用大数据分析可预测智能制造中的隐性问题,实现生产系统的自省性;利用大数据分析还可以实现智能制造中的逆向工程问题。
制造系统中的隐性问题包括设备性能衰退、精度缺失、易耗件的磨损、工艺参数的不稳定等,所有显性问题都是隐性问题积累到一定程度后所触发的。这些隐性问题已经在不同程度上影响了产品的质量,因此需要在生产之前,对隐性问题进行分析,消除不良影响,减少废品、次品的生产比例。但是这些问题很难有效判断,解决这个问题的一个有效途径是产品质量的预测分析,尤其对带有隐蔽瑕疵的合格产品进行有效预测,能弥补由隐性问题所带来的不良后果。产品异常加工工序中隐藏着造成产品缺陷的隐性问题,通过对异常加工工序的检测、分析,能有效提取有价值知识,以此预测产品最终质量,为工作人员做出工艺调整、检测原材料缺陷、维护磨损设备、中止部分产品的生产等控制决策提供依据,从而可提高生产效益、减少企业损失。同时,可通过异常加工工序中的生产数据,逆向推导产生异常的生产设备,为寻找隐性问题提供预测模型。
数据挖掘就是从大数据中提取有价值的、未被人类掌握和发现的知识与规律,其挖掘结果可用于智能决策、生产控制、过程分析、信息管理等方面。随着大数据时代的到来,传统的计算软硬件已无法满足海量数据的需求,并行和分布式计算成为大数据分析处理的有效手段,借助大量廉价的计算机硬件资源,协同工作,共同解决大数据中的计算任务。因此,将数据挖掘与并行计算融合到智能制造中,是一个非常有价值的课题。
发明内容
本发明克服现有技术存在的不足,所要解决的技术问题为提供一种基于离群数据挖掘的机械产品加工工序异常检测方法,该方法从加工生产所积累的大量合格机械产品数据中检测偏离大多数产品的离群数据,这些离群数据在某些工序或中间数据中具有明显的偏离特征,可能是少量的高质量产品,更可能是带有隐性问题的劣等合格产品,机械产品加工生产中离群数据的检测结果,可转换为产品加工工序的质量分析,为机械制造企业做出优化生产决策,进一步提高产品质量,提供重要的决策支持。
为了解决上述技术问题,本发明采用的技术方案为:基于离群数据挖掘的机械产品加工工序异常并行检测方法,包括以下步骤:
a、机械产品加工工序数据预处理:对机械产品加工工序数据进行数据清洗和数据转换,生成适用于离群数据挖掘的工序数据集,并将其上传到Hadoop集群系统的HDFS;
b、机械产品加工工序异常并行检测:在Hadoop集群系统中,设计三个MapReduce作业完成加工工序的异常现象并行检测,第一个作业实现工序数据的并行约简,第二个作业实现稀疏超方体的并行化搜索,第三个作业针对单数据节点上的稀疏超方体进行交叉认证,获得全局稀疏超方体,并从全局稀疏超方体中输出机械产品加工工序的异常现象。
具体的,所述步骤a中,机械产品加工工序数据具有高维、海量、稀疏的特征,Hadoop集群是指安装Hadoop 1.1.2的并行计算环境,根据处理的机械数据大小确定数据节点的数量,至少是4个。
具体的,所述步骤b具体为:
b1、所述第一个作业,实现机械产品加工工序数据的并行约简,具体包含一个第一mapper函数和一个第一reducer函数,第一mapper函数从HDFS中获取数据,在各个数据节点并行运行,用来计算指标稀疏矩阵和局部指标密度矩阵;第一reducer函数对各数据节点在第一mapper函数中的局部指标密度矩阵进行收集、排序、合并,然后生成一个全局指标密度矩阵,应用全局指标密度矩阵,找出待剪枝的属性指标,并从原始数据中删除,生成工序约简数据集;
b2、所述第二个作业,是在步骤b1中生成的工序约简数据集上,并行地查找稀疏超方体,具体包含一个第二mapper函数和一个第二reducer函数,第二mapper函数从步骤b1的第一reducer函数中获取工序约简数据集,在各个数据节点上并行地执行粒子群优化算法,找到所有局部稀疏超方体;第二reducer函数收集所有第二mapper产生的局部稀疏超方体,将其合并,生成本节点上的全局稀疏超方体;
b3、所述第三个作业,实现单个数据节点上产生的全局稀疏超方体在其它数据节点上的交叉验证,并输出机械产品加工工序的异常现象,具体包含一个第三mapper函数和一个第三reducer函数,第三mapper函数中,对每个数据节点,采用循环语句统计包含在本节点全局稀疏超方体中数据对象的个数;第三reducer函数从全局角度验证稀疏超方体的正确性,并从中提取上下文离群数据,即提取机械产品加工工序的异常现象。
具体的,所述步骤b1中,
指标稀疏矩阵的计算方法为:使用k个最近邻居,即kNN,计算每道工序中各个性能指标的稀疏系数,所有工序指标的稀疏系数值组成指标稀疏矩阵;
局部指标密度矩阵的计算方法为:设定稀疏系数阈值,根据稀疏系数与稀疏系数阈值的大小关系,将工序中各性能指标分为密集指标和稀疏指标,分别用0,1来标识,进而由指标稀疏矩阵生成相应的局部指标密度矩阵,对所有局部指标密度矩阵收集、排序、合并,最终生成一个全局指标密度矩阵;
生成全局指标密度矩阵后,提取工序数据集中的密集性指标,将其从原始的工序数据集中剪枝,生成工序约简数据集。
具体的,所述步骤b2中找到所有局部稀疏超方体的方法为:
b21、工序约简数据集中,每个属性维按照等深间隔划分为
Figure BDA0001903204160000034
个离散区间,每个区间以概率
Figure BDA0001903204160000035
分配数据对象;从工序约简数据集中任选t个属性维,其属性值相同的对象组成一个t维超方体,标记为cube,根据伯努利概率,t维超方体cube中对象个数的数学期望是
Figure BDA0001903204160000031
方差是
Figure BDA0001903204160000032
其中N是工序约简数据集中对象的总数;
b22、t维超方体中,当实际对象数量远低于期望值时,该超方体被认为是稀疏超方体,采用超方体的稀疏度
Figure BDA0001903204160000033
来测量,其中,m为超方体中实际的对象数量;设定超方体稀疏度阈值ω,满足S(cube)≤ω的t维超方体是稀疏超方体;
b23、在工序约简数据集中,在各个数据节点上并行地执行粒子群优化算法,来查找所有局部稀疏超方体。
具体的,所述步骤b3中所述的上下文离群数据具体是指:稀疏超方体中所包含的对象为带有隐性瑕疵的机械合格产品,即存在隐性问题的机械产品,其瑕疵体现在稀疏超方体所包含的属性上,这些属性就是产生异常现象的加工工序指标。
具体的,所述步骤b23中:
粒子群优化算法中,粒子是工序约简数据集中任一对象,并选取该对象的t个属性值构成t维超方体;
粒子群优化算法中,粒子位置由Y=(Tid,(Y1,Y2,...Yt))表示,其中Tid是工序约简数据集中对象的标识符,(Y1,Y2,...Yt)是对象Tid中t个属性值;
粒子群优化算法中,粒子速度由v=(vTid,(v1,v2,...vt))表示,其中vTid是对象Tid的速度,(v1,v2,...vt)是t个属性值的速度。
本发明与现有技术相比具有以下有益效果。
1、本发明提供了一种基于离群数据挖掘的机械产品加工工序异常并行检测方法,通过检测合格产品中加工工序的异常现象,从而发现制造系统中的设备性能衰退、精度缺失、易耗件的磨损、工艺参数的不稳定等一系列隐性问题,同时所涉及的离群数据挖掘方法有效提高了离群挖掘的效率和准确性。
2、本发明为适应机械产品加工数据高维、海量、稀疏的特征,提出了一种基于属性相关性分析的数据约简方法,通过分析高维机械数据属性之间的相关性,剪枝一些与离群数据挖掘不相关的属性维,达到缩小原始数据集的目的,提高离群数据挖掘的效率。
3、本发明结合机械产品的加工工序,设计了一种粒子群优化算法,并将其用于稀疏超方体的搜索中,有效改善了离群检测算法的性能。
4、本发明充分利用了MapReduce编程模型的强大数据处理能力,设计了一种基于MapReduce的并行离群检测方法,用于机械产品加工工序异常的并行检测。
附图说明
图1为本发明的流程图。
图2为本发明中的MapReduce框架图。
图3为以冷轧辊机械产品的生产加工数据为例时上下文离群数据提取图。
具体实施方式
下面结合附图对本发明做进一步详细的说明。
如图1、图2所示,本发明基于离群数据挖掘的机械产品加工工序异常并行检测方法,包括以下步骤:
a、机械产品加工工序数据预处理:对机械产品加工工序数据进行数据清洗和数据转换,生成适用于离群数据挖掘的工序数据集,并将其上传到Hadoop集群系统的HDFS。
机械产品加工工序数据具有高维、海量、稀疏的特征,这些数据以指标为单元进行存储,即以工序所有指标的相关信息作为数据集中的一条记录。这一格式无法满足离群检测的需求,因此需要对工序数据集进行组织形式上的转换。将所有工序数据按照工序进行分组,每一组将被构建为一张数据表,数据表中的每一个记录或对象,由该工序的所有指标及其相关信息构成,表与表之间可通过产品编号进行关联。在构建数据表时,一些与离群检测任务无关的字段或属性被直接去除,这可以缩小数据集的大小,间接提高离群检测的效率。原始工序数据经过上述数据清洗和转换处理之后,将其上传到Hadoop集群系统的HDFS,供后续步骤使用。
Hadoop集群是指安装Hadoop 1.1.2的并行计算环境,节点数至少是4个,根据处理的机械数据大小可增加计算节点个数。
b、在Hadoop集群系统中,设计三个MapReduce作业完成异常加工工序的并行检测,第一个作业实现工序数据的并行约简,第二个作业实现稀疏超方体的并行化搜索,第三个作业针对单数据节点上的稀疏超方体进行交叉认证,获得全局稀疏超方体,并从稀疏超方体中输出机械产品加工工序的异常现象。
所述第一个作业,实现机械产品加工工序数据的并行约简,具体包含一个第一mapper函数和一个第一reducer函数,第一mapper函数从HDFS中获取数据,在各个数据节点并行运行,用来计算指标稀疏矩阵和局部指标密度矩阵;第一reducer函数对各数据节点在第一mapper函数中的局部指标密度矩阵进行收集、排序、合并,然后生成一个全局指标密度矩阵,应用全局指标密度矩阵,找出待剪枝的属性指标,并从原始数据中删除,生成工序约简数据集;
所述指标稀疏矩阵的计算方法为:使用k个最近邻居,即kNN,计算每道工序中各个性能指标的稀疏系数,所有工序指标的稀疏系数值组成指标稀疏矩阵;
所述局部指标密度矩阵的计算方法为:设定稀疏系数阈值,根据稀疏系数与稀疏系数阈值的大小关系,将工序中各性能指标分为密集指标和稀疏指标,分别用0,1来标识,进而由指标稀疏矩阵生成相应的局部指标密度矩阵,对所有局部指标密度矩阵收集、排序、合并,最终生成一个全局指标密度矩阵;
生成全局指标密度矩阵后,提取工序数据集中的密集性指标,将其从原始的工序数据集中剪枝,生成工序约简数据集。
该第一个作业总的来说,是在各数据节点上,通过执行各工序性能指标的相关性分析,去除同离群数据检测无关的性能指标,缩小数据规模,生成工序约简数据集。
假设机械产品加工工序数据集由d个属性维构成,且含有N个对象。d维属性集被形式化描述为A={A1,A2,....,Ad},对象集可描述为O={O1,O2,…,ON}。其中Oi={oi1,oi2,…oid},oij(i=1,2,…,N;j=1,2,…,d)是数据对象Oi在属性Aj上相应的值,被称为1D-point。
相关性分析的任务是通过检测每个属性维的密集区域来剪枝不相关的属性,其中密集区域可看作拥有密集1D-point的对象集合。在这些对象集合中,1D-point的投影值呈现聚类结构。换言之,密集区域由一些具有相似特征的对象组成,它体现出比其周围区域更高的密度。因此,数据集中的属性将被划分成两部分,一部分属性同离群数据密切相关,称之为相关属性维;另一部分属性同离群数据不相关,称之为无关属性维。为了检测属性的密集区域,使用k个最近邻居(即kNN)计算每个1D-point的稀疏系数。
给定一个1D-point oij,稀疏系数被定义为ξij,形式化描述为:
Figure BDA0001903204160000061
其中,knn(oij)表示oij和它的k个近邻集合,显然地,该集合包含k+1个元素,即|knn(oij)|=k+1。Cij是集合knn(oij)的中心值,因此,
Figure BDA0001903204160000062
从上述公式很容易看出,当稀疏系数ξij是一个大值的时候,其相应的oij将位于一个稀疏区域,相反地,当ξij是一个小值的时候,oij属于一个密集区域。为了量化ξij值的大小,进而区分稀疏和密集区域,特引入稀疏系数阈值θ。
给定一个稀疏系数阈值θ,1D-point oij及其稀疏系数ξij,如果ξij<θ,说明oij同周围其余点相比具有较小的差异性,该点处于一个密集区域,反之,如果ξij≥θ,说明oij同周围其余点相比具有很大的差异性,该点处于一个稀疏区域。采用Zij表示1D-point oij的稀疏密度值,如果ξij<θ,令Zij=1;否则,如果ξij≥θ,令Zij=0。
所有1D-point的Zij值能组成一个矩阵,将其称为稀疏密度矩阵,用Z(N×d)来表示,该矩阵将用于数据集的约简。在稀疏密度矩阵中,如果某一列的所有值全为1,说明该列所表示的属性是密集属性,应从原始数据集中剪枝,所有密集属性都被剪枝之后,将生成工序约简数据集。
所述第二个作业,是在第一个作业输出的工序约简数据集上,并行地查找稀疏超方体,具体包含一个第二mapper函数和一个第二reducer函数,第二mapper函数从第一个作业的第一reducer函数中获取工序约简数据集,在各个数据节点上并行地执行粒子群优化算法,找到所有局部稀疏超方体;第二reducer函数收集所有第二mapper产生的局部稀疏超方体,将其合并,生成本节点上的全局稀疏超方体;
所述找到所有局部稀疏超方体的方法为:
工序约简数据集中,每个属性维按照等深间隔划分为
Figure BDA0001903204160000074
个离散区间,每个区间以概率
Figure BDA0001903204160000075
分配数据对象;从工序约简数据集中任选t个属性维,其属性值相同的对象组成一个t维超方体,标记为cube,根据伯努利概率,t维超方体cube中对象个数的数学期望是
Figure BDA0001903204160000071
方差是
Figure BDA0001903204160000072
其中N是工序约简数据集中对象的总数;
t维超方体中,当实际对象数量远低于期望值时,该超方体被认为是稀疏超方体,采用超方体的稀疏度
Figure BDA0001903204160000073
来测量,其中,m为超方体中实际的对象数量;设定超方体稀疏度阈值ω,满足S(cube)<ω的t维超方体是稀疏超方体;
在工序约简数据集中,在各个数据节点上并行地执行粒子群优化算法,来查找所有局部稀疏超方体;
所述粒子群优化算法中,粒子是工序约简数据集中任一对象,并选取该对象的t个属性值构成t维超方体;
所述粒子群优化算法中,粒子位置由Y=(Tid,(Y1,Y2,...Yt))表示,其中Tid是工序约简数据集中对象的标识符,(Y1,Y2,...Yt)是对象Tid中t个属性值;
所述粒子群优化算法中,粒子速度由v=(vTid,(v1,v2,...vt))表示,其中vTid是对象Tid的速度,(v1,v2,...vt)是t个属性值的速度。
所述第三个作业,实现单个数据节点上产生的全局稀疏超方体在其它数据节点上的交叉验证,并输出机械产品加工工序的异常现象,具体包含一个第三mapper函数和一个第三reducer函数,第三mapper函数中,对每个数据节点,采用循环语句统计包含在本节点全局稀疏超方体中数据对象的个数;第三reducer函数从全局角度验证稀疏超方体的正确性,并从中提取上下文离群数据,即提取机械产品加工工序的异常现象;
所述的上下文离群数据具体是指:稀疏超方体中所包含的对象为带有隐性瑕疵的机械合格产品,即存在隐性问题的机械产品,其瑕疵体现在稀疏超方体所包含的属性上,这些属性就是加工工序的异常指标。结合产品加工中原材料、设备、工艺以及生产人员等相关信息,以此预测加工工序产生异常现象的原因。
以冷轧辊机械产品的生产加工数据为例,在经过上述步骤处理之后,找到了冷轧辊的稀疏超方体,稀疏超方体中包含的对象就是冷轧辊离群数据,检测结果如图3所示。其中一条离群数据为:A11160432→一次回火工序_辊身硬度1_{60.2;1}VS{(61~63);1325}&&综合检验工序_辊颈长度_38.9VS{(37.8~38.5);697}。其含义为:辊号为A11160432的冷轧辊是离群数据,离群上下文信息为:一次回火工序的辊身肖氏硬度指标是离群属性,该辊材的检测值为60.2HS,参考值为61~63HS,参考对象数量为1325;综合检验工序的辊颈长度指标是第二个离群属性,检测值为38.9mm,参考值为37.8~38.5mm,参考对象数量为697。该离群数据表明:一次回火工序的辊身肖氏硬度指标中,大多数合格辊材(即1325个)的检测值位于61~63HS的范围内,但是作为合格产品的A11160432辊材,其辊身肖氏硬度检测为60.2HS,明显偏离了大多数辊材的检测值;在综合检验工序的辊颈长度指标中,697个辊材的检测值位于37.8~38.5mm范围内,而编号为A11160432辊材的辊颈长度是38.9mm,显著偏离了大多数辊材的辊颈长度,因而标为A11160432的辊材属于上下文离群。经冷轧辊技术人员验证,轧辊A11160432尽管是满足工艺要求的合格产品,但由于辊身硬度低于大多数辊材检测值且辊颈长度略高于大多数值,因此该辊材可能存在隐性问题,在其使用中可能会产生辊材失效,缩短冷轧辊的使用寿命,也可能影响轧制品的质量。该条辊材的上下文离群可为技术人员对问题辊材的预警提供决策支持。
上面结合附图对本发明的实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.基于离群数据挖掘的机械产品加工工序异常并行检测方法,其特征在于包括以下步骤:
a、机械产品加工工序数据预处理:对机械产品加工工序数据进行数据清洗和数据转换,生成适用于离群数据挖掘的工序数据集,并将其上传到Hadoop集群系统的HDFS;
b、机械产品加工工序异常并行检测:在Hadoop集群系统中,设计三个MapReduce作业完成加工工序的异常现象并行检测,第一个作业采用基于指标稀疏矩阵和指标密度矩阵的数据约减方法实现工序数据的并行约简,第二个作业采用粒子群优化算法实现稀疏超方体的并行化搜索,第三个作业采用对象数量验证的方式针对单数据节点上的稀疏超方体进行交叉认证,获得全局稀疏超方体,并从全局稀疏超方体中输出机械产品加工工序的异常现象。
2.根据权利要求1所述的基于离群数据挖掘的机械产品加工工序异常并行检测方法,其特征在于:所述步骤a中,机械产品加工工序数据具有高维、海量、稀疏的特征,Hadoop集群是指安装Hadoop 1.1.2的并行计算环境,根据处理的机械数据大小确定数据节点的数量,至少是4个。
3.根据权利要求1或2所述的基于离群数据挖掘的机械产品加工工序异常并行检测方法,其特征在于:所述步骤b具体为:
b1、所述第一个作业,实现机械产品加工工序数据的并行约简,具体包含一个第一mapper函数和一个第一reducer函数,第一mapper函数从HDFS中获取数据,在各个数据节点并行运行,用来计算指标稀疏矩阵和局部指标密度矩阵;第一reducer函数对各数据节点在第一mapper函数中的局部指标密度矩阵进行收集、排序、合并,然后生成一个全局指标密度矩阵,应用全局指标密度矩阵,找出待剪枝的属性指标,并从原始数据中删除,生成工序约简数据集;
b2、所述第二个作业,是在步骤b1中生成的工序约简数据集上,并行地查找稀疏超方体,具体包含一个第二mapper函数和一个第二reducer函数,第二mapper函数从步骤b1的第一reducer函数中获取工序约简数据集,在各个数据节点上并行地执行粒子群优化算法,找到所有局部稀疏超方体;第二reducer函数收集所有第二mapper产生的局部稀疏超方体,将其合并,生成本节点上的全局稀疏超方体;
b3、所述第三个作业,实现单个数据节点上产生的全局稀疏超方体在其它数据节点上的交叉验证,并输出机械产品加工工序的异常现象,具体包含一个第三mapper函数和一个第三reducer函数,第三mapper函数中,对每个数据节点,采用循环语句统计包含在本节点全局稀疏超方体中数据对象的个数;第三reducer函数从全局角度验证稀疏超方体的正确性,并从中提取上下文离群数据,即提取机械产品加工工序的异常现象。
4.根据权利要求3所述的基于离群数据挖掘的机械产品加工工序异常并行检测方法,其特征在于:所述步骤b1中,
指标稀疏矩阵的计算方法为:使用k个最近邻居,即kNN,计算每道工序中各个性能指标的稀疏系数,所有工序指标的稀疏系数值组成指标稀疏矩阵;
局部指标密度矩阵的计算方法为:设定稀疏系数阈值,根据稀疏系数与稀疏系数阈值的大小关系,将工序中各性能指标分为密集指标和稀疏指标,分别用0,1来标识,进而由指标稀疏矩阵生成相应的局部指标密度矩阵,对所有局部指标密度矩阵收集、排序、合并,最终生成一个全局指标密度矩阵;
生成全局指标密度矩阵后,提取工序数据集中的密集性指标,将其从原始的工序数据集中剪枝,生成工序约简数据集。
5.根据权利要求3所述的基于离群数据挖掘的机械产品加工工序异常并行检测方法,其特征在于:所述步骤b2中找到所有局部稀疏超方体的方法为:
b21、工序约简数据集中,每个属性维按照等深间隔划分为
Figure FDA0002346448740000021
个离散区间,每个区间以概率
Figure FDA0002346448740000022
分配数据对象;从工序约简数据集中任选t个属性维,其属性值相同的对象组成一个t维超方体,标记为cube,根据伯努利概率,t维超方体cube中对象个数的数学期望是
Figure FDA0002346448740000023
方差是
Figure FDA0002346448740000024
其中N是工序约简数据集中对象的总数;
b22、t维超方体中,当实际对象数量远低于期望值时,该超方体被认为是稀疏超方体,采用超方体的稀疏度
Figure FDA0002346448740000025
来测量,其中,m为超方体中实际的对象数量;设定超方体稀疏度阈值ω,满足S(cube)≤ω的t维超方体是稀疏超方体;
b23、在工序约简数据集中,在各个数据节点上并行地执行粒子群优化算法,来查找所有局部稀疏超方体。
6.根据权利要求3所述的基于离群数据挖掘的机械产品加工工序异常并行检测方法,其特征在于:所述步骤b3中所述的上下文离群数据具体是指:稀疏超方体中所包含的对象为带有隐性瑕疵的机械合格产品,即存在隐性问题的机械产品,其瑕疵体现在稀疏超方体所包含的属性上,这些属性就是产生异常现象的加工工序指标。
7.根据权利要求5所述的基于离群数据挖掘的机械产品加工工序异常并行检测方法,其特征在于:所述步骤b23中:
粒子群优化算法中,粒子是工序约简数据集中任一对象,并选取该对象的t个属性值构成t维超方体;
粒子群优化算法中,粒子位置由Y=(Tid,(Y1,Y2,...Yt))表示,其中Tid是工序约简数据集中对象的标识符,(Y1,Y2,...,Yt)是对象Tid中t个属性值;
粒子群优化算法中,粒子速度由v=(vTid,(v1,v2,...vt))表示,其中vTid是对象Tid的速度,(v1,v2,...vt)是t个属性值的速度。
CN201811520903.7A 2018-12-12 2018-12-12 基于离群数据挖掘的机械产品加工工序异常并行检测方法 Active CN109670695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811520903.7A CN109670695B (zh) 2018-12-12 2018-12-12 基于离群数据挖掘的机械产品加工工序异常并行检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811520903.7A CN109670695B (zh) 2018-12-12 2018-12-12 基于离群数据挖掘的机械产品加工工序异常并行检测方法

Publications (2)

Publication Number Publication Date
CN109670695A CN109670695A (zh) 2019-04-23
CN109670695B true CN109670695B (zh) 2020-04-03

Family

ID=66144334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811520903.7A Active CN109670695B (zh) 2018-12-12 2018-12-12 基于离群数据挖掘的机械产品加工工序异常并行检测方法

Country Status (1)

Country Link
CN (1) CN109670695B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095340B (zh) * 2019-12-23 2024-04-16 神讯电脑(昆山)有限公司 生产机台的异常预警方法以及物件的量产方法
CN112434923B (zh) * 2020-11-16 2024-02-06 太原科技大学 一种基于子空间聚类的机械产品质量分析方法
CN112559591B (zh) * 2020-12-08 2023-06-13 晋中学院 一种用于冷轧辊制造过程的离群检测系统及其检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336790B (zh) * 2013-06-06 2015-02-25 湖州师范学院 基于Hadoop的邻域粗糙集快速属性约简方法
CN105868387A (zh) * 2016-04-14 2016-08-17 江苏马上游科技股份有限公司 一种基于并行计算的离群数据挖掘方法
CN106297304A (zh) * 2016-09-08 2017-01-04 同济大学 一种基于MapReduce面向大规模卡口数据的套牌车识别方法
CN107656995A (zh) * 2017-09-20 2018-02-02 温州市鹿城区中津先进科技研究院 面向大数据的数据管理系统

Also Published As

Publication number Publication date
CN109670695A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN109670695B (zh) 基于离群数据挖掘的机械产品加工工序异常并行检测方法
Chien et al. A system for online detection and classification of wafer bin map defect patterns for manufacturing intelligence
CN106294762B (zh) 一种基于学习的实体识别方法
CN111401573B (zh) 一种工况状态建模与修正模型方法
Maschler et al. Regularization-based continual learning for anomaly detection in discrete manufacturing
Jin et al. Multimode variation modeling and process monitoring for serial-parallel multistage manufacturing processes
Ammar et al. Blueprint for construction 4.0 technologies: A bibliometric analysis
CN110543904A (zh) 一种基于贝叶斯的企业风险分类模型构建方法
CN112434923B (zh) 一种基于子空间聚类的机械产品质量分析方法
CN112559591B (zh) 一种用于冷轧辊制造过程的离群检测系统及其检测方法
Leukel et al. Machine learning-based failure prediction in industrial maintenance: improving performance by sliding window selection
CN106056300A (zh) 纵横交错的混合式资源分配规则挖掘方法
Riesener et al. Methodology for Automated Master Data Management using Artificial Intelligence
Shang et al. A comparative study on improved DPLS soft sensor models applied to a crude distillation unit
Chernyshev et al. Integration of building information modeling and artificial intelligence systems to create a digital twin of the construction site
Huang et al. Supervised Discretization with GK− τ
CN111125082B (zh) 基于关联规则挖掘的水泥工艺参数数据分析方法
Tchatchoua et al. Application of 1D ResNet for Multivariate Fault Detection on Semiconductor Manufacturing Equipment
CN109800384B (zh) 一种基于粗糙集信息决策表的基本概率赋值计算方法
Bazargan-Lari et al. A data mining approach for forecasting machine related disruptions
Kaur et al. Blog response volume prediction using adaptive neuro fuzzy inference system
CN113034316A (zh) 一种专利价值转换的分析方法及系统
Dymora et al. A Comparative Analysis of Selected Predictive Algorithms in Control of Machine Processes
CN109558466B (zh) 一种制造业数据挖掘中的源数据配置管理方法
Giri et al. Explainable Machine Learning Approach to Yield and Quality Improvements Using Deep Topological Data Analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant