CN112434983A - 一种基于聚类超矩形模型的产品质量快速判定方法 - Google Patents
一种基于聚类超矩形模型的产品质量快速判定方法 Download PDFInfo
- Publication number
- CN112434983A CN112434983A CN202011500691.3A CN202011500691A CN112434983A CN 112434983 A CN112434983 A CN 112434983A CN 202011500691 A CN202011500691 A CN 202011500691A CN 112434983 A CN112434983 A CN 112434983A
- Authority
- CN
- China
- Prior art keywords
- hyper
- clustering
- mean vector
- data
- kernel density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000009826 distribution Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000003064 k means clustering Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 6
- 238000004519 manufacturing process Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 239000000047 product Substances 0.000 claims 3
- 239000012467 final product Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000012804 iterative process Methods 0.000 abstract description 2
- 238000003066 decision tree Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000003070 Statistical process control Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Manufacturing & Machinery (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于聚类超矩形模型的产品质量快速判定方法,通过大量样本数据确定最小封闭超矩形,并以聚类均值向量作为超矩形的中心,计算检测点与中心的距离,实现对生产过程中产品质量的快速且高准确率判定。该方法具体包括:首先对选定的训练数据集进行核密度估计,提取数据分布特征,并为下一步的k‑means聚类算法提供参数初始化依据;其次,以极大值点坐标作为聚类均值向量的初值,大大减少了聚类的迭代过程,并将聚类得到的最终均值向量作为超矩形的中心;最后计算待检测样本点与每一个超矩形中心的距离,并将其与超矩形宽度做比较,从而判定出该检测点的质量情况。本发明与现有产品质量判定方法相比,提出的聚类超矩形模型能更精细化的确定多超矩形边界,并以简单的判别计算达到检测的目的,提高了质量判定的快速性。
Description
技术领域
本发明属于产品质量快速且高准确率判定的技术领域,涉及到单一类数据向量判别边界建模的方法。
背景技术
在流程工业中,产品制造过程涉及多个连续衔接的工序,每个工序都要求工艺参数的设定值和质量指标控制在确定的范围内,才能确保成品的最终质量。目前,企业对产品质量管控的主要方法是通过“事后”抽样来判定产品的整体品质。这种依赖于“事后”判定的方式容易导致批量的产品质量判废。为了减少因质量异议产生的经济索赔和产品退货,当前制造类企业需要提高产品质量稳定性以保证产品的可持续发展。
随着工业4.0时代的来临,制造技术正逐步从自动化、数字化、网络化向智能化方向发展。作为工业4.0的重要策略之一,信息物理融合系统(Cyber Physical System,CPS)具有自主判断、自主决策、自主调控的能力,将CPS和数字孪生模型应用于智能制造引起了业内的高度关注。经过近十年的升级改造,多数制造类企业在信息化系统和控制技术上取得了显著进步,都配置了ERP/MES/PCS/PLC等信息化系统、通讯网络和检测系统。但是,现有的制造体制主要处于集中式管理模式,缺乏产品质量在线管控能力,难以实现产品质量个性化定制的智能制造要求,需要探求一种产品质量快速且高准确率判定方法。
一般而言,对于产品质量判定的方法大多基于统计过程控制和数据驱动进行单一类数据建模,文献(Itani S,Lecron F,Fortemps P.A One-Class ClassificationDecision Tree Based on Kernel Density Estimation[J].Applied Soft ComputingJournal,2018,91,106250.)将核密度估计与决策树相结合,核密度估计作为决策树的节点拆分准则,能保证较高的准确性,但在较为复杂的工艺流程中,产品质量参数较多,决策树的结构将比较庞大,判别繁琐,速度较低。文献(Wang F,Wang Q,Nie F,et al.A LinearMultivariate Binary Decision Tree Classifier Based on K-means Splitting[J].Pattern Recognition,2020,107,107521.)用k-mens算法来支撑数据线性划分,形成完整的多变量决策树,但此方法需要对等的异常样本进行训练,难以解决数据不平衡的问题。文献(Nico Luiz Alberto Lima,Klaus-Robert Müller,Marius Kloft,ShinichiNakajima.Suppor vector data descriptions and k-means clustering:one class?[J].IEEE Transactions on neural networks and Learning systems,2018,29(9):3944-4006)提出一种利用多个超球体模型的支持向量数据描述方法,该方法解决了大样本下建模的问题,但是其建模过程复杂且最后的判别函数计算量大,检测过程较慢,不满足产品质量在线判定的实时性要求。鉴于上诉方法的优缺点,本发明拟采用聚类超球体模型来实现生产过程中产品质量的高准确率判定。
发明内容
本发明的目的是提供一种大数据样本下单一类产品质量判定的方法,该方法能适应于样本数据大,难以获得足够的异常样本,检测实时性要求高等应用场合。聚类超矩形模型可以通过实际检测样本与每个超矩形中心的距离判定产品质量,具有良好的实时性、泛化能力和准确率。
所述产品质量判定方法的优势主要体现在:首先通过核密度估计学习数据的分布特征,能更好的为k-means聚类算法提供最佳的聚类参数,可以大大减少聚类迭代过程。再通过一元核密度估计确定每个属性的判别边界,以聚类中心加判别宽度的方式进行检测,相比其他方法,计算量大幅降低,实时性高。
采用高斯核密度估计,从训练样本X={x1,x2,...,xm}中提取若干个极大值点UX={X1,X2,...,Xt},其核密度估计函数如下:
将核密度估计提出的极大值个数作为聚类个数,即k=t。这些极大值点为聚类中心的初始化提供了很好的依据,使得聚类效果达到最优。k-means聚类算法将大量样本数据X={x1,x2,...,xm}分为k个不相交的子集,即L={L1,L2,...,Lk},其中Li(i=1,2,...,k)为聚类后得到的k个子集,称每个子集为一个簇,L的累积最小化平方误差为:
所述产品质量判定方法的快速性主要体现在:将聚类均值向量作为超矩形的中心,通过对簇内每个属性进行一元核密度估计,得到矩形大小H=(h1,h2,...,hp),对于待检测样本x,通过其超矩形中心μi的距离判定其是否在超矩形内部,从而判定产品质量是否异常情况。对于待检测样本x其最终的判别函数为:
当存在Di(x),对于所有的Dj(j=1,2,...,p)都小于0,可判定该产品质量合格。
本发明的有益效果是:
1、单一类数据向量模型简单便于理解,只针对一类样本便能确定精确的产品质量判定边界,符合异常样本不足的实际工业生产情况,有较强的可操作性。
2、针对原始数据属性可能分布不连续的问题,本发明通过对样本进行核密度估计,学习到数据的分布特征,并为k-means聚类提供初始化依据,提高了质量判定的准确性。
3、本发明通过对每个属性进行一元核密度估计,确定精确的超矩形边界,并以聚类均值,作为超矩阵中心,其检测过程计算简单,检测速度快,具有较高的异常检测实时性。
附图说明
图1是本发明实施例的二维产品质量数据判别边界仿真示意图;
图2是本发明实施例的产品质量判定流程图;
图3是本发明实施例的核密度估计分布示意图。
具体实施方式:
下面结合附图和具体实施例对本发明作进一步详细介绍,下述实施例仅是示例性的,不构成对本发明的限定。
图1为本发明对二维产品质量数据生成的判别边界仿真示意图。产品质量判定方法主要是通过实际的生产数据来确定一个可供质量判定的边界,其质量判定具体流程如图2所示。在给定大量样本X={x1,x2,...,xm}的情况下,其中xi为实际生产过程中p维的正常数据向量,其属性集合为A={a1,a2,...,ap}。通过核密度估计得到数据集的概率密度函数使用最为常用的高斯核函数定义核密度估计函数如下:
通过公式(1)可获得数据的分布特性,设极大值点集合UX={X1,X2,...,Xt},每个极大值点对应一个数据分布相对密集的地方。通过对密度占比进行分析,可以确定聚类簇数。定义X*为密度最大的极大值点,P(Xi)为密度占比。
则密度占比集合可表示为P={P(X1),P(X2),...,P(Xt)},其中P(Xi)∈(0,1),表示各极大值的比重,比重越小,说明该极大值点的相对密度越小,可能是比较偏离整体数据分布的少数点分布,也可能是一些边缘点。为了进一步的确定聚类的簇数,定于密度占比阈值ν,若P(Xi)<ν则将该极大值点从极大值点集合中剔除。由于聚类样本都为正常样本,只是为了分析数据在各区域的分布情况,这里的ν不应取的太大。
通过最终确定的极值点分布集合UX={X1,X2,...,Xt},确定聚类的簇个数k=t,其每个簇中心初始化为对应极值点的坐标。这样的簇中心初始化方法与最终聚类得到的簇中心基本吻合,从而减少聚类迭代的过程,加快聚类的速度。
k-means算法将该样本分为k个不相交的子集,即L={L1,L2,...,Lk},其中Li(i=1,2,...,k)为聚类后得到的k个子集,称每个子集为一个簇,L的累积最小化平方误差为:
(1)将核密度估计最终确定的k个极大值点作为初始均值向量{μ1,μ2,...,μk};
(2)计算样本xj与各均值向量μi(1≤i≤k)的距离:dji=||xj-μi||2;
(3)根据距离最近的均值向量确定xj的簇标记:λj=argmini∈{1,2,...,k}dji,并将样本xj划入相应的簇:Lλi=Lλi∪{xj};
(5)返回(2)直到没有均值向量发生变化,聚类结束。
然后根据聚类的结果分别对每一个簇进行一元核密度估计,即分别对每个簇中数据的单一属性ai∈A={a1,a2,...,ap}进行核密度估计,确定每个属性的判别边界即宽度H,为了方便起见,以一个簇形成超矩形的过程进行详细说明。
通过公式(5)可得到簇中每个属性的概率分布,如图3所示,其中为极大值。以作为该属性宽度的截取阈值,其宽度hj=rj-lj。因此最终在一个簇中获得的超矩形大小H=(h1,h2,...,hp),其中hj∈H为第j个属性的边界宽度,对于待检测样本x,最终的判别函数表示为:
当存在Di(x),对于所有的Dj(j=1,2,...,p)都小于0,可判定该产品质量合格。
Claims (5)
1.一种基于聚类超矩形模型的产品质量快速判定方法,通过大量样本数据确定最小封闭超矩形,以聚类均值向量表示超矩形的中心点,计算检测点与中心的距离,实现对生产过程中产品质量的快速判定,该方法具体包括:
首先对训练样本进行多元核密度估计,核密度估计能很好的学习数据的分布特征,并以极大值的形式体现出密集点的个数和位置;其次,通过对每个密集点的密度占比的分析,确定k-means聚类的聚类个数和最佳初始化均值向量,加快聚类过程;最后分别对聚类后每个子集进行一元核密度估计,确定样本每个属性的超矩形参数,形成最终的产品质量判别边界。
3.根据权利要求2对样本数据分布特征的学习,确定k-means聚类的参数k=t,以极大值点作为初始均值向量对样本进行聚类,k-means算法将该样本分为k个不相交的子集,即L={L1,L2,...,Lk},其中Li(i=1,2,...,k)为聚类后得到的k个子集,称每个子集为一个簇,L的累积最小化平方误差为:
(1)将核密度估计最终确定的k个极大值点作为初始均值向量{μ1,μ2,...,μk};
(2)计算样本xj与各均值向量μi(1≤i≤k)的距离:dji=||xj-μi||2;
(5)返回(2)直到没有均值向量发生变化,聚类结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500691.3A CN112434983A (zh) | 2020-12-18 | 2020-12-18 | 一种基于聚类超矩形模型的产品质量快速判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500691.3A CN112434983A (zh) | 2020-12-18 | 2020-12-18 | 一种基于聚类超矩形模型的产品质量快速判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434983A true CN112434983A (zh) | 2021-03-02 |
Family
ID=74696722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011500691.3A Withdrawn CN112434983A (zh) | 2020-12-18 | 2020-12-18 | 一种基于聚类超矩形模型的产品质量快速判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434983A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111972A (zh) * | 2021-05-07 | 2021-07-13 | 杭州博日科技股份有限公司 | 基于层次聚类的熔解曲线Tm值确定方法、装置以及电子设备 |
-
2020
- 2020-12-18 CN CN202011500691.3A patent/CN112434983A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111972A (zh) * | 2021-05-07 | 2021-07-13 | 杭州博日科技股份有限公司 | 基于层次聚类的熔解曲线Tm值确定方法、装置以及电子设备 |
CN113111972B (zh) * | 2021-05-07 | 2023-02-24 | 杭州博日科技股份有限公司 | 基于层次聚类的熔解曲线Tm值确定方法、装置以及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564192B (zh) | 一种基于气象因子权重相似日的短期光伏功率预测方法 | |
CN111047182B (zh) | 一种基于深度无监督学习的空域复杂度评估方法 | |
CN111211994B (zh) | 一种基于SOM与K-means融合算法的网络流量分类方法 | |
Jeong et al. | Data mining for aerodynamic design space | |
CN109191922B (zh) | 一种大规模四维航迹动态预测方法及装置 | |
CN109612513B (zh) | 一种面向大规模高维传感器数据的在线式异常检测方法 | |
CN107066555B (zh) | 面向专业领域的在线主题检测方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN109993225B (zh) | 一种基于无监督学习的空域复杂度分类方法及装置 | |
CN113393032B (zh) | 基于重采样下的航迹循环预测方法 | |
CN110708318A (zh) | 基于改进的径向基神经网络算法的网络异常流量预测方法 | |
CN110072205B (zh) | 一种用于无线传感网异常数据检测的分层聚合方法 | |
CN112800682A (zh) | 一种反馈寻优的风机叶片故障监测方法 | |
CN113344128B (zh) | 一种基于微簇的工业物联网自适应流聚类方法及装置 | |
CN115374851A (zh) | 一种燃气数据异常检测方法及装置 | |
CN112434983A (zh) | 一种基于聚类超矩形模型的产品质量快速判定方法 | |
CN111080088A (zh) | 基于聚类超球体模型的产品质量快速判定方法 | |
CN111639680B (zh) | 一种基于专家反馈机制的身份识别方法 | |
CN106547899B (zh) | 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法 | |
CN108537249A (zh) | 一种密度峰值聚类的工业过程数据聚类方法 | |
CN109934344B (zh) | 一种改进的基于规则模型的多目标分布估计方法 | |
CN113033683B (zh) | 一种基于静态与动态联合分析的工业系统工况监测方法和系统 | |
CN111950652A (zh) | 一种基于相似度的半监督学习数据分类算法 | |
Corsini et al. | A fuzzy relational clustering algorithm based on a dissimilarity measure extracted from data | |
CN112132184A (zh) | 一种基于n阶近邻分析聚类的配送中心选址方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210302 |