CN112434983A - 一种基于聚类超矩形模型的产品质量快速判定方法 - Google Patents

一种基于聚类超矩形模型的产品质量快速判定方法 Download PDF

Info

Publication number
CN112434983A
CN112434983A CN202011500691.3A CN202011500691A CN112434983A CN 112434983 A CN112434983 A CN 112434983A CN 202011500691 A CN202011500691 A CN 202011500691A CN 112434983 A CN112434983 A CN 112434983A
Authority
CN
China
Prior art keywords
hyper
clustering
mean vector
data
kernel density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011500691.3A
Other languages
English (en)
Inventor
卢少武
黄伟鹏
唐小琦
李振瀚
颜昌亚
周向东
张庆祥
陈英滔
谭辉
郑晓泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Samsun Optical Technology Co ltd
Original Assignee
Dongguan Samsun Optical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Samsun Optical Technology Co ltd filed Critical Dongguan Samsun Optical Technology Co ltd
Priority to CN202011500691.3A priority Critical patent/CN112434983A/zh
Publication of CN112434983A publication Critical patent/CN112434983A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Manufacturing & Machinery (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于聚类超矩形模型的产品质量快速判定方法,通过大量样本数据确定最小封闭超矩形,并以聚类均值向量作为超矩形的中心,计算检测点与中心的距离,实现对生产过程中产品质量的快速且高准确率判定。该方法具体包括:首先对选定的训练数据集进行核密度估计,提取数据分布特征,并为下一步的k‑means聚类算法提供参数初始化依据;其次,以极大值点坐标作为聚类均值向量的初值,大大减少了聚类的迭代过程,并将聚类得到的最终均值向量作为超矩形的中心;最后计算待检测样本点与每一个超矩形中心的距离,并将其与超矩形宽度做比较,从而判定出该检测点的质量情况。本发明与现有产品质量判定方法相比,提出的聚类超矩形模型能更精细化的确定多超矩形边界,并以简单的判别计算达到检测的目的,提高了质量判定的快速性。

Description

一种基于聚类超矩形模型的产品质量快速判定方法
技术领域
本发明属于产品质量快速且高准确率判定的技术领域,涉及到单一类数据向量判别边界建模的方法。
背景技术
在流程工业中,产品制造过程涉及多个连续衔接的工序,每个工序都要求工艺参数的设定值和质量指标控制在确定的范围内,才能确保成品的最终质量。目前,企业对产品质量管控的主要方法是通过“事后”抽样来判定产品的整体品质。这种依赖于“事后”判定的方式容易导致批量的产品质量判废。为了减少因质量异议产生的经济索赔和产品退货,当前制造类企业需要提高产品质量稳定性以保证产品的可持续发展。
随着工业4.0时代的来临,制造技术正逐步从自动化、数字化、网络化向智能化方向发展。作为工业4.0的重要策略之一,信息物理融合系统(Cyber Physical System,CPS)具有自主判断、自主决策、自主调控的能力,将CPS和数字孪生模型应用于智能制造引起了业内的高度关注。经过近十年的升级改造,多数制造类企业在信息化系统和控制技术上取得了显著进步,都配置了ERP/MES/PCS/PLC等信息化系统、通讯网络和检测系统。但是,现有的制造体制主要处于集中式管理模式,缺乏产品质量在线管控能力,难以实现产品质量个性化定制的智能制造要求,需要探求一种产品质量快速且高准确率判定方法。
一般而言,对于产品质量判定的方法大多基于统计过程控制和数据驱动进行单一类数据建模,文献(Itani S,Lecron F,Fortemps P.A One-Class ClassificationDecision Tree Based on Kernel Density Estimation[J].Applied Soft ComputingJournal,2018,91,106250.)将核密度估计与决策树相结合,核密度估计作为决策树的节点拆分准则,能保证较高的准确性,但在较为复杂的工艺流程中,产品质量参数较多,决策树的结构将比较庞大,判别繁琐,速度较低。文献(Wang F,Wang Q,Nie F,et al.A LinearMultivariate Binary Decision Tree Classifier Based on K-means Splitting[J].Pattern Recognition,2020,107,107521.)用k-mens算法来支撑数据线性划分,形成完整的多变量决策树,但此方法需要对等的异常样本进行训练,难以解决数据不平衡的问题。文献(Nico
Figure BDA0002843425030000023
Luiz Alberto Lima,Klaus-Robert Müller,Marius Kloft,ShinichiNakajima.Suppor vector data descriptions and k-means clustering:one class?[J].IEEE Transactions on neural networks and Learning systems,2018,29(9):3944-4006)提出一种利用多个超球体模型的支持向量数据描述方法,该方法解决了大样本下建模的问题,但是其建模过程复杂且最后的判别函数计算量大,检测过程较慢,不满足产品质量在线判定的实时性要求。鉴于上诉方法的优缺点,本发明拟采用聚类超球体模型来实现生产过程中产品质量的高准确率判定。
发明内容
本发明的目的是提供一种大数据样本下单一类产品质量判定的方法,该方法能适应于样本数据大,难以获得足够的异常样本,检测实时性要求高等应用场合。聚类超矩形模型可以通过实际检测样本与每个超矩形中心的距离判定产品质量,具有良好的实时性、泛化能力和准确率。
所述产品质量判定方法的优势主要体现在:首先通过核密度估计学习数据的分布特征,能更好的为k-means聚类算法提供最佳的聚类参数,可以大大减少聚类迭代过程。再通过一元核密度估计确定每个属性的判别边界,以聚类中心加判别宽度的方式进行检测,相比其他方法,计算量大幅降低,实时性高。
采用高斯核密度估计,从训练样本X={x1,x2,...,xm}中提取若干个极大值点UX={X1,X2,...,Xt},其核密度估计函数如下:
Figure BDA0002843425030000021
其中m为训练样本的个数,
Figure BDA0002843425030000022
h为核密度估计窗宽。
将核密度估计提出的极大值个数作为聚类个数,即k=t。这些极大值点为聚类中心的初始化提供了很好的依据,使得聚类效果达到最优。k-means聚类算法将大量样本数据X={x1,x2,...,xm}分为k个不相交的子集,即L={L1,L2,...,Lk},其中Li(i=1,2,...,k)为聚类后得到的k个子集,称每个子集为一个簇,L的累积最小化平方误差为:
Figure BDA0002843425030000031
其中
Figure BDA0002843425030000032
是簇Li的均值向量。E值越小,表明簇内样本相似度越高。通过不断的更新均值向量μi和数据划分,使E值达到最小化。
所述产品质量判定方法的快速性主要体现在:将聚类均值向量作为超矩形的中心,通过对簇内每个属性进行一元核密度估计,得到矩形大小H=(h1,h2,...,hp),对于待检测样本x,通过其超矩形中心μi的距离判定其是否在超矩形内部,从而判定产品质量是否异常情况。对于待检测样本x其最终的判别函数为:
Figure BDA0002843425030000033
当存在Di(x),对于所有的Dj(j=1,2,...,p)都小于0,可判定该产品质量合格。
本发明的有益效果是:
1、单一类数据向量模型简单便于理解,只针对一类样本便能确定精确的产品质量判定边界,符合异常样本不足的实际工业生产情况,有较强的可操作性。
2、针对原始数据属性可能分布不连续的问题,本发明通过对样本进行核密度估计,学习到数据的分布特征,并为k-means聚类提供初始化依据,提高了质量判定的准确性。
3、本发明通过对每个属性进行一元核密度估计,确定精确的超矩形边界,并以聚类均值,作为超矩阵中心,其检测过程计算简单,检测速度快,具有较高的异常检测实时性。
附图说明
图1是本发明实施例的二维产品质量数据判别边界仿真示意图;
图2是本发明实施例的产品质量判定流程图;
图3是本发明实施例的核密度估计分布示意图。
具体实施方式:
下面结合附图和具体实施例对本发明作进一步详细介绍,下述实施例仅是示例性的,不构成对本发明的限定。
图1为本发明对二维产品质量数据生成的判别边界仿真示意图。产品质量判定方法主要是通过实际的生产数据来确定一个可供质量判定的边界,其质量判定具体流程如图2所示。在给定大量样本X={x1,x2,...,xm}的情况下,其中xi为实际生产过程中p维的正常数据向量,其属性集合为A={a1,a2,...,ap}。通过核密度估计得到数据集的概率密度函数
Figure BDA0002843425030000045
使用最为常用的高斯核函数定义核密度估计函数如下:
Figure BDA0002843425030000041
其中m为训练样本的个数,
Figure BDA0002843425030000042
h为核密度估计窗宽。
通过公式(1)可获得数据的分布特性,设极大值点集合UX={X1,X2,...,Xt},每个极大值点对应一个数据分布相对密集的地方。通过对密度占比进行分析,可以确定聚类簇数。定义X*为密度最大的极大值点,P(Xi)为密度占比。
Figure BDA0002843425030000043
Figure BDA0002843425030000044
则密度占比集合可表示为P={P(X1),P(X2),...,P(Xt)},其中P(Xi)∈(0,1),表示各极大值的比重,比重越小,说明该极大值点的相对密度越小,可能是比较偏离整体数据分布的少数点分布,也可能是一些边缘点。为了进一步的确定聚类的簇数,定于密度占比阈值ν,若P(Xi)<ν则将该极大值点从极大值点集合中剔除。由于聚类样本都为正常样本,只是为了分析数据在各区域的分布情况,这里的ν不应取的太大。
通过最终确定的极值点分布集合UX={X1,X2,...,Xt},确定聚类的簇个数k=t,其每个簇中心初始化为对应极值点的坐标。这样的簇中心初始化方法与最终聚类得到的簇中心基本吻合,从而减少聚类迭代的过程,加快聚类的速度。
k-means算法将该样本分为k个不相交的子集,即L={L1,L2,...,Lk},其中Li(i=1,2,...,k)为聚类后得到的k个子集,称每个子集为一个簇,L的累积最小化平方误差为:
Figure BDA0002843425030000051
其中
Figure BDA0002843425030000052
是簇Li的均值向量。E值越小,表明簇内样本相似度越高。通过不断的更新均值向量μi和数据划分,使E值达到最小化。其具体步骤如下:
(1)将核密度估计最终确定的k个极大值点作为初始均值向量{μ12,...,μk};
(2)计算样本xj与各均值向量μi(1≤i≤k)的距离:dji=||xji||2
(3)根据距离最近的均值向量确定xj的簇标记:λj=argmini∈{1,2,...,k}dji,并将样本xj划入相应的簇:Lλi=Lλi∪{xj};
(4)计算新的均值向量:
Figure BDA0002843425030000053
(5)返回(2)直到没有均值向量发生变化,聚类结束。
然后根据聚类的结果分别对每一个簇进行一元核密度估计,即分别对每个簇中数据的单一属性ai∈A={a1,a2,...,ap}进行核密度估计,确定每个属性的判别边界即宽度H,为了方便起见,以一个簇形成超矩形的过程进行详细说明。
Figure BDA0002843425030000054
其中mt为相应簇中数据点的个数,
Figure BDA0002843425030000055
为核密度估计窗宽。
通过公式(5)可得到簇中每个属性的概率分布,如图3所示,其中
Figure BDA0002843425030000056
为极大值。以
Figure BDA0002843425030000057
作为该属性宽度的截取阈值,其宽度hj=rj-lj。因此最终在一个簇中获得的超矩形大小H=(h1,h2,...,hp),其中hj∈H为第j个属性的边界宽度,对于待检测样本x,最终的判别函数表示为:
Figure BDA0002843425030000061
当存在Di(x),对于所有的Dj(j=1,2,...,p)都小于0,可判定该产品质量合格。

Claims (5)

1.一种基于聚类超矩形模型的产品质量快速判定方法,通过大量样本数据确定最小封闭超矩形,以聚类均值向量表示超矩形的中心点,计算检测点与中心的距离,实现对生产过程中产品质量的快速判定,该方法具体包括:
首先对训练样本进行多元核密度估计,核密度估计能很好的学习数据的分布特征,并以极大值的形式体现出密集点的个数和位置;其次,通过对每个密集点的密度占比的分析,确定k-means聚类的聚类个数和最佳初始化均值向量,加快聚类过程;最后分别对聚类后每个子集进行一元核密度估计,确定样本每个属性的超矩形参数,形成最终的产品质量判别边界。
2.根据权力要求1所诉的方法,在建立超矩形模型之前需要先对训练数据集做多元核密度估计,学习数据的整体数据分布情况,给定样本集X={x1,x2,...,xm},其中xi为实际生产过程中p维的正常数据向量,其属性集合为A={a1,a2,...,ap},通过核密度估计得到数据集的概率密度函数
Figure FDA0002843425020000011
使用高斯核函数定义核密度估计函数如下:
Figure FDA0002843425020000012
其中m为训练样本的个数,
Figure FDA0002843425020000013
h为窗宽;
通过核密度估计学习样本分布特征,获得若干个极大值点UX={X1,X2,...,Xt},这些极大值点作为k-means聚类均值向量的初值。
3.根据权利要求2对样本数据分布特征的学习,确定k-means聚类的参数k=t,以极大值点作为初始均值向量对样本进行聚类,k-means算法将该样本分为k个不相交的子集,即L={L1,L2,...,Lk},其中Li(i=1,2,...,k)为聚类后得到的k个子集,称每个子集为一个簇,L的累积最小化平方误差为:
Figure FDA0002843425020000014
其中
Figure FDA0002843425020000015
是簇Li的均值向量;E值越小,表明簇内样本相似度越高;通过不断的更新均值向量μi和数据划分,使E值达到最小化;其具体步骤如下:
(1)将核密度估计最终确定的k个极大值点作为初始均值向量{μ12,...,μk};
(2)计算样本xj与各均值向量μi(1≤i≤k)的距离:dji=||xji||2
(3)根据距离最近的均值向量确定xj的簇标记:λj=argmini∈{1,2,...,k}dji,并将样本xj划入相应的簇:
Figure FDA0002843425020000021
(4)计算新的均值向量:
Figure FDA0002843425020000022
(5)返回(2)直到没有均值向量发生变化,聚类结束。
4.将权力要求3中得到的最终均值作为超矩形的中心,并对每个簇中的单个属性进行一元核密度估计,确定超矩形的边界宽度H=(h1,h2,...,hp);
Figure FDA0002843425020000023
其中mt为相应簇中数据点的个数,
Figure FDA0002843425020000024
为核密度估计窗宽。
5.根据权利要求3中得到的超矩形中心和权利要求4中确定的超矩形边界得到最后的判别函数:
Figure FDA0002843425020000025
对于待检测样本x,当存在Di(x),对于所有的Dj(j=1,2,...,p)都小于0,可判定该产品质量合格。
CN202011500691.3A 2020-12-18 2020-12-18 一种基于聚类超矩形模型的产品质量快速判定方法 Withdrawn CN112434983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011500691.3A CN112434983A (zh) 2020-12-18 2020-12-18 一种基于聚类超矩形模型的产品质量快速判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011500691.3A CN112434983A (zh) 2020-12-18 2020-12-18 一种基于聚类超矩形模型的产品质量快速判定方法

Publications (1)

Publication Number Publication Date
CN112434983A true CN112434983A (zh) 2021-03-02

Family

ID=74696722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011500691.3A Withdrawn CN112434983A (zh) 2020-12-18 2020-12-18 一种基于聚类超矩形模型的产品质量快速判定方法

Country Status (1)

Country Link
CN (1) CN112434983A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111972A (zh) * 2021-05-07 2021-07-13 杭州博日科技股份有限公司 基于层次聚类的熔解曲线Tm值确定方法、装置以及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111972A (zh) * 2021-05-07 2021-07-13 杭州博日科技股份有限公司 基于层次聚类的熔解曲线Tm值确定方法、装置以及电子设备
CN113111972B (zh) * 2021-05-07 2023-02-24 杭州博日科技股份有限公司 基于层次聚类的熔解曲线Tm值确定方法、装置以及电子设备

Similar Documents

Publication Publication Date Title
CN108564192B (zh) 一种基于气象因子权重相似日的短期光伏功率预测方法
CN111047182B (zh) 一种基于深度无监督学习的空域复杂度评估方法
CN111211994B (zh) 一种基于SOM与K-means融合算法的网络流量分类方法
Jeong et al. Data mining for aerodynamic design space
CN109191922B (zh) 一种大规模四维航迹动态预测方法及装置
CN109612513B (zh) 一种面向大规模高维传感器数据的在线式异常检测方法
CN107066555B (zh) 面向专业领域的在线主题检测方法
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN109993225B (zh) 一种基于无监督学习的空域复杂度分类方法及装置
CN113393032B (zh) 基于重采样下的航迹循环预测方法
CN110708318A (zh) 基于改进的径向基神经网络算法的网络异常流量预测方法
CN110072205B (zh) 一种用于无线传感网异常数据检测的分层聚合方法
CN112800682A (zh) 一种反馈寻优的风机叶片故障监测方法
CN113344128B (zh) 一种基于微簇的工业物联网自适应流聚类方法及装置
CN115374851A (zh) 一种燃气数据异常检测方法及装置
CN112434983A (zh) 一种基于聚类超矩形模型的产品质量快速判定方法
CN111080088A (zh) 基于聚类超球体模型的产品质量快速判定方法
CN111639680B (zh) 一种基于专家反馈机制的身份识别方法
CN106547899B (zh) 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法
CN108537249A (zh) 一种密度峰值聚类的工业过程数据聚类方法
CN109934344B (zh) 一种改进的基于规则模型的多目标分布估计方法
CN113033683B (zh) 一种基于静态与动态联合分析的工业系统工况监测方法和系统
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
Corsini et al. A fuzzy relational clustering algorithm based on a dissimilarity measure extracted from data
CN112132184A (zh) 一种基于n阶近邻分析聚类的配送中心选址方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210302