CN108537249B

CN108537249B - 一种密度峰值聚类的工业过程数据聚类方法

Info

Publication number: CN108537249B
Application number: CN201810217551.1A
Authority: CN
Inventors: 郑英; 陈斌; 汪上晓; 张洪
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2020-05-19
Anticipated expiration: 2038-03-15
Also published as: CN108537249A

Abstract

本发明公开了一种密度峰值聚类的工业过程数据聚类方法，包括：获取工业过程数据组成数据集；将数据集中数据之间的欧氏距离与时间因数相结合，得到数据之间的距离；根据数据之间的距离和调节参数得到截断距离，进而得到每个数据的局部密度，计算每个数据与比它的局部密度大的数据之间的最小距离；对数据集中每个数据的局部密度与最小距离的乘积排序，取乘积较大的前H个数据为聚类中心，比聚类中心的局部密度大的数据中距离聚类中心最近的数据与聚类中心属于同一类；对于数据集中没有类属性的数据按照局部密度从大到小的顺序判断其类属性，进而得到工业过程数据的聚类结果。本发明的聚类中心更合理、自动确定聚类中心个数并且时间复杂度较小。

Description

一种密度峰值聚类的工业过程数据聚类方法

技术领域

本发明属于工业过程的正常数据与故障数据、不同模态分类技术领域，更具体地，涉及一种密度峰值聚类的工业过程数据聚类方法。

背景技术

对于一个大型工业系统，由于生产策略和生产环境的改变，工业过程往往呈现出多模态、多故障的特点。对于不同的模态我们需要分别建立不同的子模型，这样才能得整个模型有更好的性能去进行监控工业过程和预测质量指标等。因此在建模之前对多模态工业过程进行模态辨识和故障分类具有重要的意义。

目前使用最广泛的模态辨识和故障分类方法是基于数据驱动的方法。其主要方法有两种，一种是使用基于纯数学的各种聚类算法，一种是基于PCA(Principal ComponentAnalysis)或PLS(Partial Least Square)模型之间的相似度进行模态辨识或者故障数据分类。

传统的聚类算法主要分为基于划分的聚类算法、基于密度的聚类算法、基于网格的聚类算法和层次聚类算法等。其中基于划分的聚类算法以k-means聚类算法以及k-means的衍生算法为代表。基于k-means的聚类方法是一种有监督的聚类算法，需要预设聚类数目并初始化聚类中心，而初始化的聚类中心是根据数据的均值计算的，所以k-means聚类对异常数据比较敏感，聚类结果往往不够精确。而其中的基于密度的聚类算法典型的是以DBSCAN算法为代表，DBSCAN算法是通过引入核心对象、密度可达、密度相连等基本概念，寻找数据点密度相连的最大集合来完成聚类过程，它是一种基于高密度联通区域的聚类算法，它将类簇定义为高密度相连点的最大集合。它的缺点是：1、当空间聚类的密度不均匀、聚类间距差相差很大时，聚类质量较差(有些簇内距离较小，有些簇内距离很大，但是Eps(最小半径)是确定的，所以，大的点可能被误判断为离群点或者边界点，如果Eps太大，那么小距离的簇内，可能会包含一些离群点或者边界点)。2、有两个初始参数E(邻域半径)和minPts(E邻域最小点数)需要用户手动设置输入，并且聚类的类簇结果对这两个参数的取值非常敏感，不同的取值将产生不同的聚类结果。

基于PCA或PLS模型之间的相似度进行模态辨识的方法，需要先对每一个样本建立模型，计算模型之间的相似度，再采用聚类算法聚类，然后将每一个簇的样本组合起来再建模，步骤繁杂，且依然需要聚类算法的介入。

在上述的方法都存在着一定的缺陷，需要人为设定参数，而且聚类的结果比较依赖参数的设定好坏，计算繁杂，聚类结果不够精确。在实际的工业过程中，我们往往不能预先知道工业过程有几种不同类的数据，更不能知道最佳的聚类中心是哪个样本点，但是聚类中心选取的好坏对于聚类精度影响很大；并且当一个新的样本出现时，我们需要以较短的时间来判断它所属的运行状态。所以我们急需设计一个能找到更合理的聚类中心、自动确定聚类中心个数并且时间复杂度较小的聚类算法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种密度峰值聚类的工业过程数据聚类方法，由此解决现有技术存在聚类结果准确率低、无法确定最佳聚类中心、无法自动确定聚类中心个数、时间复杂度大的技术问题。

为实现上述目的，本发明提供了一种密度峰值聚类的工业过程数据聚类方法，包括：

(1)获取工业过程数据，包括正常数据、故障数据和不同模态的数据，组成数据集；将数据集中数据之间的欧氏距离与时间因数相结合，得到数据之间的距离；

(2)根据数据之间的距离和调节参数，得到截断距离，根据截断距离和数据之间的距离，得到每个数据的局部密度，计算每个数据与比它的局部密度大的数据之间的最小距离；

(3)对数据集中每个数据的局部密度与最小距离的乘积排序，取乘积较大的前H个数据为聚类中心，比聚类中心的局部密度大的数据中距离聚类中心最近的数据与聚类中心属于同一类；

(4)对于数据集中没有类属性的数据按照局部密度从大到小的顺序判断其类属性，对于没有类属性的数据中的任意一个数据，该数据与比它的局部密度大的数据中距离它最近的数据属于同一类，进而得到工业过程数据的聚类结果。

进一步地，步骤(1)中数据之间的距离为：d’_ij＝d_ij+t_ij，其中，d’_ij为数据i与数据j之间的距离，d_ij为数据i与数据j之间的欧氏距离，t_ij为数据i与数据j之间时间因数，

t_ij＝λ(i-j)^a，其中，s_k是第k个变量的标准差，1≤k≤n，n为数据的变量总数，x_ik-x_jk为数据i与数据j之间对应的变量之差，λ为时间因数调节参数。

进一步地，时间因数调节参数λ的范围为0.2至5。

进一步地，步骤(2)还包括：

将数据之间的距离按照降序排列成序列sda(d’₁，d’₂，…，d’_M)，其中，

N表示数据总数，d’_M为序列中第M个数据之间的距离。

进一步地，截断距离为：

d_c＝sda[round(N×(N-1)×p)]

其中，d_c为截断距离，sda[round(N×(N-1)×p)]表示序列中第round(N×(N-1)×p)个数据之间的距离，round表示四舍五入，p为调节参数。

进一步地，调节参数为0.1％至5％。

进一步地，局部密度为：ρ_i＝∑_jχ(d’_ij-d_c)，其中，ρ_i为数据i的局部密度，

进一步地，最小距离为：

其中，δ_i为数据i与比它的局部密度大的数据之间的最小距离。

进一步地，工业过程数据聚类方法还包括：

(5)对于新的工业过程数据，计算新的工业过程数据与数据集中每个数据之间的欧氏距离与时间因数相结合，得到新的数据之间的距离；根据新的数据之间的距离和调节参数，得到新的截断距离，根据新的截断距离和新的数据之间的距离，得到新的数据的局部密度，计算新的数据与比它的局部密度大的数据之间的新的最小距离；新的工业过程数据与数据集中比新的数据的局部密度大且与新的数据的最小距离相等的数据属于同一类。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明通过将数据集中数据之间的欧氏距离与时间因数相结合，得到数据之间的距离，本发明在对工业过程数据聚类时，将时间因数考虑进来，相比于传统的DPC聚类方法可以找到更佳合理的聚类中心，因此其具有更高的分类精度。

(2)本发明提出比聚类中心的局部密度大的数据中距离聚类中心最近的数据与聚类中心属于同一类。本发明采用基于密度的聚类方法寻找同一类中的其他数据，不需要事先预设聚类数目，不再利用基于划分的聚类方法寻找同一类中的其他数据，这种方法更适合工业过程数据。同时该方法不但聚类结果更较准确，而且大大降低了计算量，对于多模态工业过程具有很好的适用性。

(3)如果数据的局部密度大，则表示其周围存在大量的数据，最小距离大表示该数据至少存在一个比它更密集的数据并且它们之间的距离也大，而局部密度小且最小距离大的数据意味着它比较孤立，且远离聚类中心，所以这样的数据被视为离群点。所以本发明对数据集中每个数据的局部密度与最小距离的乘积排序，取乘积较大的前H个数据为聚类中心，这样得到的聚类中心密度足够大且距离其他密度大的点距离也足够远。使得本发明得到聚类中心准确率高。

(4)调节参数越小则分类的结果越精确，类的数目越多，同时为了使得每个数据的邻居数为所有数据的1％-5％，本发明中调节参数为0.1％至5％。当聚类方法的结果与由实际工程经验的结果不符合时，可以通过调节时间因数调节参数λ的大小，时间因数调节参数λ越大则分类的结果越精确，类的数目越多，反之，同理；当时间因数调节参数λ的取值在0.2至5之间即可得到较好的结果。

(5)本发明中对于新的工业过程数据，利用已经得到的得到工业过程数据的聚类结果进行分类，使得本发明也可以应用于在线检测，同时在线检测的效率高、准确率高。

附图说明

图1是本发明实施例提供的一种密度峰值聚类的工业过程数据聚类方法的流程图；

图2(a)是普通的k-means方法对半导体的所有模态进行分类的结果示意图；

图2(b)是利用本发明对选取聚类中心作改进的k-means方法对半导体的所有模态进行分类的结果示意图；

图3(a)是普通的模糊聚类方法对半导体的所有模态进行分类的结果示意图；

图3(b)是利用本发明对选取聚类中心作改进的模糊聚类方法对半导体的所有模态进行分类的结果示意图；

图4是传统的基于密度峰值聚类算法对半导体工业过程各个模态的分类结果示意图；

图5(a)是利用本发明密度峰值聚类的工业过程数据聚类方法在第一种参数下的对半导体的所有模态进行分类的结果示意图；

图5(b)是利用本发明密度峰值聚类的工业过程数据聚类方法在第二种参数下的对半导体的所有模态进行分类的结果示意图；

图6是本发明密度峰值聚类的工业过程数据聚类方法在较优参数下对半导体工业过程各个模态的分类结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种密度峰值聚类的工业过程数据聚类方法，包括：

(1)获取工业过程数据，包括正常数据、故障数据和不同模态的数据，组成数据集；将数据集中数据之间的欧氏距离与时间因数相结合，得到数据之间的距离：d’_ij＝d_ij+t_ij，其中，d’_ij为数据i与数据j之间的距离，d_ij为数据i与数据j之间的欧氏距离，t_ij为数据i与数据j之间时间因数，

t_ij＝λ(i-j)^a，其中，s_k是第k个变量的标准差，1≤k≤n，n为数据的变量总数，x_ik-x_jk为数据i与数据j之间对应的变量之差，λ为时间因数调节参数，λ的范围为0.2至5。

(2)将数据之间的距离按照降序排列成序列sda(d’₁，d’₂，…，d’_M)，其中，

N表示数据总数，d’_M为序列中第M个数据之间的距离。根据数据之间的距离和调节参数，得到截断距离：

d_c＝sda[round(N×(N-1)×p)]

其中，d_c为截断距离，sda[round(N×(N-1)×p)]表示序列中第round(N×(N-1)×p)个数据之间的距离，round表示四舍五入，p为调节参数，调节参数为0.1％至5％。根据截断距离和数据之间的距离，得到每个数据的局部密度：ρ_i＝∑_jχ(d’_ij-d_c)，其中，ρ_i为数据i的局部密度，

计算每个数据与比它的局部密度大的数据之间的最小距离：

实施例1

实施例1采用本发明提供的基于改进的密度峰值聚类(DPC：Density PeaksClustering)的工业过程数据聚类方法，通过半导体的工业过程进行验证，表1为半导体工业过程的16个不同模态与工业过程数据的对应表。

表1

模态	对应模态的数据点
		1	1-24
2	25-49
		3	50-73
4	74-82
		5	83-107
6	108-132
		7	133-153
8	154-178
		9	179-203
10	204-223
		11	224-248
12	249-269
		13	270-294
14	295-318
		15	319-340
16	341-364

本发明实施例1利用的验证数据来自于半导体工业过程的数据，现代半导体生产线是由数百个连续的批处理阶段组成的。每一个阶段都包括由昂贵的工具进行的许多步骤，这些工具由许多能够在几秒钟内取样的传感器监控。该工业过程数据的特征是：具有时间序列特征(该工业过程数据的各个模态是严格按照时间的前后顺序排列的，即不存在一个时间段内有两个不同模态的数据)，该工业过程总共有16个模态，按照时间顺序依次发生，该过程的模态划分是由有经验的工人依据工程经验划分的。

图2(a)是普通的k-means方法对半导体的所有模态进行分类的结果示意图；图2(b)是利用本发明对选取聚类中心作改进的k-means方法对半导体的所有模态进行分类的结果示意图；从图中可以看出传统的k-means聚类方法的分类效果非常不合理，虽然改进后的k-means聚类算法对模态分类效果有所改善，但是仍然没达到要求。

图3(a)是普通的模糊聚类方法对半导体的所有模态进行分类的结果示意图；图3(b)是利用本发明对选取聚类中心作改进的模糊聚类方法对半导体的所有模态进行分类的结果示意图；从图中可以看出模糊聚类算法模态数不正确、分类也不合理，改进后的模糊聚类算法虽然模态数正确，但是各个模态的样本点分配的也有较多错误。

图4是传统的基于密度峰值聚类算法对半导体工业过程各个模态的分类结果示意图，从图中可以看出该方法吧原本16类的数据分成3大类，说明该方法不能达到精确分类的效果。

图5(a)是利用本发明密度峰值聚类的工业过程数据聚类方法在第一种参数下的对半导体的所有模态进行分类的结果示意图；图5(b)是利用本发明密度峰值聚类的工业过程数据聚类方法在第二种参数下的对半导体的所有模态进行分类的结果示意图；第一种参数和第二种参数均还未达到较优情况，对工业过程各个模态进行分类，从图中我们可以看出改进的DPC方法当参数没达到最优时它把原本16类的数据分成8类和11类，各个类的样本点划分也较合理。

图6是本发明密度峰值聚类的工业过程数据聚类方法在较优参数(调节参数为0.1％至5％，λ的取值在0.2至5之间)下对半导体工业过程各个模态的分类结果示意图，表2为半导体实际的各个模态分布与本发明密度峰值聚类的工业过程数据聚类方法对半导体工业过程各个模态的分类结果对比图。从中我们可以看出分类结果与实际的结果非常符合，分类精度达到98％以上，也验证了本发明的有效性。当利用本发明在离线建立好模型后，建模者再根据对工业过程的经验调节该模型的参数p与λ的值，使得到较好的模型，随后我们就可以根据建立好的模型与确定好的参数去对工业过程数据进行在线的分类。

表2

半导体的实际模态结果	改进DPC的分类结果
		1-24	1-24
25-49	25-49
		50-73	50-73
74-82	74-82
		83-107	83-108
108-132	109-132
		133-153	133-153
154-178	154-178
		179-203	179-203
204-223	204-224
		224-248	225-248
249-269	249-271
		270-294	272-294
295-318	295-318
		319-340	319-340
341-364	341-364

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。