CN112434983A

CN112434983A - 一种基于聚类超矩形模型的产品质量快速判定方法

Info

Publication number: CN112434983A
Application number: CN202011500691.3A
Authority: CN
Inventors: 卢少武; 黄伟鹏; 唐小琦; 李振瀚; 颜昌亚; 周向东; 张庆祥; 陈英滔; 谭辉; 郑晓泽
Original assignee: Dongguan Samsun Optical Technology Co ltd
Current assignee: Dongguan Samsun Optical Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-02

Abstract

本发明公开了一种基于聚类超矩形模型的产品质量快速判定方法，通过大量样本数据确定最小封闭超矩形，并以聚类均值向量作为超矩形的中心，计算检测点与中心的距离，实现对生产过程中产品质量的快速且高准确率判定。该方法具体包括：首先对选定的训练数据集进行核密度估计，提取数据分布特征，并为下一步的k‑means聚类算法提供参数初始化依据；其次，以极大值点坐标作为聚类均值向量的初值，大大减少了聚类的迭代过程，并将聚类得到的最终均值向量作为超矩形的中心；最后计算待检测样本点与每一个超矩形中心的距离，并将其与超矩形宽度做比较，从而判定出该检测点的质量情况。本发明与现有产品质量判定方法相比，提出的聚类超矩形模型能更精细化的确定多超矩形边界，并以简单的判别计算达到检测的目的，提高了质量判定的快速性。

Description

一种基于聚类超矩形模型的产品质量快速判定方法

技术领域

本发明属于产品质量快速且高准确率判定的技术领域，涉及到单一类数据向量判别边界建模的方法。

背景技术

在流程工业中，产品制造过程涉及多个连续衔接的工序，每个工序都要求工艺参数的设定值和质量指标控制在确定的范围内，才能确保成品的最终质量。目前，企业对产品质量管控的主要方法是通过“事后”抽样来判定产品的整体品质。这种依赖于“事后”判定的方式容易导致批量的产品质量判废。为了减少因质量异议产生的经济索赔和产品退货，当前制造类企业需要提高产品质量稳定性以保证产品的可持续发展。

随着工业4.0时代的来临，制造技术正逐步从自动化、数字化、网络化向智能化方向发展。作为工业4.0的重要策略之一，信息物理融合系统(Cyber Physical System，CPS)具有自主判断、自主决策、自主调控的能力，将CPS和数字孪生模型应用于智能制造引起了业内的高度关注。经过近十年的升级改造，多数制造类企业在信息化系统和控制技术上取得了显著进步，都配置了ERP/MES/PCS/PLC等信息化系统、通讯网络和检测系统。但是，现有的制造体制主要处于集中式管理模式，缺乏产品质量在线管控能力，难以实现产品质量个性化定制的智能制造要求，需要探求一种产品质量快速且高准确率判定方法。

一般而言，对于产品质量判定的方法大多基于统计过程控制和数据驱动进行单一类数据建模，文献(Itani S,Lecron F,Fortemps P.A One-Class ClassificationDecision Tree Based on Kernel Density Estimation[J].Applied Soft ComputingJournal,2018,91,106250.)将核密度估计与决策树相结合，核密度估计作为决策树的节点拆分准则，能保证较高的准确性，但在较为复杂的工艺流程中，产品质量参数较多，决策树的结构将比较庞大，判别繁琐，速度较低。文献(Wang F,Wang Q,Nie F,et al.A LinearMultivariate Binary Decision Tree Classifier Based on K-means Splitting[J].Pattern Recognition,2020,107,107521.)用k-mens算法来支撑数据线性划分，形成完整的多变量决策树，但此方法需要对等的异常样本进行训练，难以解决数据不平衡的问题。文献(Nico

Luiz Alberto Lima,Klaus-Robert Müller,Marius Kloft,ShinichiNakajima.Suppor vector data descriptions and k-means clustering:one class？[J].IEEE Transactions on neural networks and Learning systems,2018,29(9)：3944-4006)提出一种利用多个超球体模型的支持向量数据描述方法，该方法解决了大样本下建模的问题，但是其建模过程复杂且最后的判别函数计算量大，检测过程较慢，不满足产品质量在线判定的实时性要求。鉴于上诉方法的优缺点，本发明拟采用聚类超球体模型来实现生产过程中产品质量的高准确率判定。

发明内容

本发明的目的是提供一种大数据样本下单一类产品质量判定的方法，该方法能适应于样本数据大，难以获得足够的异常样本，检测实时性要求高等应用场合。聚类超矩形模型可以通过实际检测样本与每个超矩形中心的距离判定产品质量，具有良好的实时性、泛化能力和准确率。

所述产品质量判定方法的优势主要体现在：首先通过核密度估计学习数据的分布特征，能更好的为k-means聚类算法提供最佳的聚类参数，可以大大减少聚类迭代过程。再通过一元核密度估计确定每个属性的判别边界，以聚类中心加判别宽度的方式进行检测，相比其他方法，计算量大幅降低，实时性高。

采用高斯核密度估计，从训练样本X＝{x₁,x₂,...,x_m}中提取若干个极大值点U_X＝{X₁,X₂,...,X_t}，其核密度估计函数如下：

其中m为训练样本的个数，

h为核密度估计窗宽。

将核密度估计提出的极大值个数作为聚类个数，即k＝t。这些极大值点为聚类中心的初始化提供了很好的依据，使得聚类效果达到最优。k-means聚类算法将大量样本数据X＝{x₁,x₂,...,x_m}分为k个不相交的子集，即L＝{L₁,L₂,...,L_k}，其中L_i(i＝1,2,...,k)为聚类后得到的k个子集，称每个子集为一个簇，L的累积最小化平方误差为：

其中

是簇L_i的均值向量。E值越小，表明簇内样本相似度越高。通过不断的更新均值向量μ_i和数据划分，使E值达到最小化。

所述产品质量判定方法的快速性主要体现在：将聚类均值向量作为超矩形的中心，通过对簇内每个属性进行一元核密度估计，得到矩形大小H＝(h₁,h₂,...,h_p)，对于待检测样本x，通过其超矩形中心μ_i的距离判定其是否在超矩形内部，从而判定产品质量是否异常情况。对于待检测样本x其最终的判别函数为：

当存在D_i(x)，对于所有的D_j(j＝1,2,...,p)都小于0，可判定该产品质量合格。

本发明的有益效果是：

1、单一类数据向量模型简单便于理解，只针对一类样本便能确定精确的产品质量判定边界，符合异常样本不足的实际工业生产情况，有较强的可操作性。

2、针对原始数据属性可能分布不连续的问题，本发明通过对样本进行核密度估计，学习到数据的分布特征，并为k-means聚类提供初始化依据，提高了质量判定的准确性。

3、本发明通过对每个属性进行一元核密度估计，确定精确的超矩形边界，并以聚类均值，作为超矩阵中心，其检测过程计算简单，检测速度快，具有较高的异常检测实时性。

附图说明

图1是本发明实施例的二维产品质量数据判别边界仿真示意图；

图2是本发明实施例的产品质量判定流程图；

图3是本发明实施例的核密度估计分布示意图。

具体实施方式：

下面结合附图和具体实施例对本发明作进一步详细介绍，下述实施例仅是示例性的，不构成对本发明的限定。

图1为本发明对二维产品质量数据生成的判别边界仿真示意图。产品质量判定方法主要是通过实际的生产数据来确定一个可供质量判定的边界，其质量判定具体流程如图2所示。在给定大量样本X＝{x₁,x₂,...,x_m}的情况下，其中x_i为实际生产过程中p维的正常数据向量，其属性集合为A＝{a₁,a₂,...,a_p}。通过核密度估计得到数据集的概率密度函数

使用最为常用的高斯核函数定义核密度估计函数如下：

其中m为训练样本的个数，

h为核密度估计窗宽。

通过公式(1)可获得数据的分布特性，设极大值点集合U_X＝{X₁,X₂,...,X_t}，每个极大值点对应一个数据分布相对密集的地方。通过对密度占比进行分析，可以确定聚类簇数。定义X^*为密度最大的极大值点，P(X_i)为密度占比。

则密度占比集合可表示为P＝{P(X₁),P(X₂),...,P(X_t)}，其中P(X_i)∈(0,1)，表示各极大值的比重，比重越小，说明该极大值点的相对密度越小，可能是比较偏离整体数据分布的少数点分布，也可能是一些边缘点。为了进一步的确定聚类的簇数，定于密度占比阈值ν，若P(X_i)<ν则将该极大值点从极大值点集合中剔除。由于聚类样本都为正常样本，只是为了分析数据在各区域的分布情况，这里的ν不应取的太大。

通过最终确定的极值点分布集合U_X＝{X₁,X₂,...,X_t}，确定聚类的簇个数k＝t，其每个簇中心初始化为对应极值点的坐标。这样的簇中心初始化方法与最终聚类得到的簇中心基本吻合，从而减少聚类迭代的过程，加快聚类的速度。

k-means算法将该样本分为k个不相交的子集，即L＝{L₁,L₂,...,L_k}，其中L_i(i＝1,2,...,k)为聚类后得到的k个子集，称每个子集为一个簇，L的累积最小化平方误差为：

其中

是簇L_i的均值向量。E值越小，表明簇内样本相似度越高。通过不断的更新均值向量μ_i和数据划分，使E值达到最小化。其具体步骤如下：

(1)将核密度估计最终确定的k个极大值点作为初始均值向量{μ₁,μ₂,...,μ_k}；

(2)计算样本x_j与各均值向量μ_i(1≤i≤k)的距离：d_ji＝||x_j-μ_i||₂；

(3)根据距离最近的均值向量确定x_j的簇标记：λ_j＝argmin_{i∈{1,2,...,k}}d_ji，并将样本x_j划入相应的簇：L_λi＝L_λi∪{x_j}；

(4)计算新的均值向量：

(5)返回(2)直到没有均值向量发生变化，聚类结束。

然后根据聚类的结果分别对每一个簇进行一元核密度估计，即分别对每个簇中数据的单一属性a_i∈A＝{a₁,a₂,...,a_p}进行核密度估计，确定每个属性的判别边界即宽度H，为了方便起见，以一个簇形成超矩形的过程进行详细说明。

其中m_t为相应簇中数据点的个数，

为核密度估计窗宽。

通过公式(5)可得到簇中每个属性的概率分布，如图3所示，其中

为极大值。以

作为该属性宽度的截取阈值，其宽度h_j＝r_j-l_j。因此最终在一个簇中获得的超矩形大小H＝(h₁,h₂,...,h_p)，其中h_j∈H为第j个属性的边界宽度，对于待检测样本x，最终的判别函数表示为：

Claims

1.一种基于聚类超矩形模型的产品质量快速判定方法，通过大量样本数据确定最小封闭超矩形，以聚类均值向量表示超矩形的中心点，计算检测点与中心的距离，实现对生产过程中产品质量的快速判定，该方法具体包括：

首先对训练样本进行多元核密度估计，核密度估计能很好的学习数据的分布特征，并以极大值的形式体现出密集点的个数和位置；其次，通过对每个密集点的密度占比的分析，确定k-means聚类的聚类个数和最佳初始化均值向量，加快聚类过程；最后分别对聚类后每个子集进行一元核密度估计，确定样本每个属性的超矩形参数，形成最终的产品质量判别边界。

2.根据权力要求1所诉的方法，在建立超矩形模型之前需要先对训练数据集做多元核密度估计，学习数据的整体数据分布情况,给定样本集X＝{x₁,x₂,...,x_m}，其中x_i为实际生产过程中p维的正常数据向量，其属性集合为A＝{a₁,a₂,...,a_p},通过核密度估计得到数据集的概率密度函数

使用高斯核函数定义核密度估计函数如下：

其中m为训练样本的个数，

h为窗宽；

通过核密度估计学习样本分布特征，获得若干个极大值点U_X＝{X₁,X₂,...,X_t}，这些极大值点作为k-means聚类均值向量的初值。

3.根据权利要求2对样本数据分布特征的学习，确定k-means聚类的参数k＝t，以极大值点作为初始均值向量对样本进行聚类,k-means算法将该样本分为k个不相交的子集，即L＝{L₁,L₂,...,L_k}，其中L_i(i＝1,2,...,k)为聚类后得到的k个子集，称每个子集为一个簇，L的累积最小化平方误差为：

其中

是簇L_i的均值向量；E值越小，表明簇内样本相似度越高；通过不断的更新均值向量μ_i和数据划分，使E值达到最小化；其具体步骤如下：

(3)根据距离最近的均值向量确定x_j的簇标记：λ_j＝argmin_{i∈{1,2,...,k}}d_ji，并将样本x_j划入相应的簇：

(4)计算新的均值向量：

(5)返回(2)直到没有均值向量发生变化，聚类结束。

4.将权力要求3中得到的最终均值作为超矩形的中心，并对每个簇中的单个属性进行一元核密度估计，确定超矩形的边界宽度H＝(h₁,h₂,...,h_p)；

其中m_t为相应簇中数据点的个数，

为核密度估计窗宽。

5.根据权利要求3中得到的超矩形中心和权利要求4中确定的超矩形边界得到最后的判别函数：

对于待检测样本x，当存在D_i(x)，对于所有的D_j(j＝1,2,...,p)都小于0，可判定该产品质量合格。