CN109409407A

CN109409407A - 一种基于le算法的工业监测数据聚类方法

Info

Publication number: CN109409407A
Application number: CN201811097330.1A
Authority: CN
Inventors: 谢国; 张永艳; 刘涵; 王文卿; 梁莉莉; 张春丽; 孙澜澜
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-03-01

Abstract

本发明公开了一种基于LE算法的工业监测数据聚类方法，包括如下步骤：步骤1、对工业系统的监测数据进行采集，并进行预处理；步骤2、基于拉普拉斯特征映射LE算法进行建模，将步骤1中的采样数据作为输入数据，通过计算并输出低维数据；步骤3、基于密度聚类方法DBSCAN进行建模，步骤2的低维数据作为该模型的输入，对其进行聚类；步骤4、输出：聚类后的集合C＝{C₁,C₂,…,C_K}，C_o,o＝1,2,...,K为聚类之后的第o个聚类簇。该方法首先对多变量数据进行降维，再对降维后数据进行聚类，同时又可以保证计算量，提高了数据聚类的效率；该方法可对高维的采样数据进行一个压缩，并根据数据的内在特征对数据本身进行聚类，便于发现数据的规律。

Description

一种基于LE算法的工业监测数据聚类方法

技术领域

本发明属于工业监测数据聚类的技术领域，具体涉及一种基于LE算法的工业监测数据聚类方法。

背景技术

在信息发展如此迅速的时代，随之产生的数据在快速增长，所以如何从大量增长的数据中挖掘有效信息并进行利用，是机器学习的一个重要研究课题。现实中数据根据是否有标签信息分为有标签数据和无标签数据，当数据的标签信息未知即为无标签数据时，通过肉眼无法对高维数据进行聚类，但是通过常见的聚类算法可以对这些无标签数据进行学习并获取数据的内在信息。如果数据量大，将会给数据分析带来困难。而数据通常包括其行数和列数，分别表示数据的采样个数和变量个数。采样数据的个数与采样时间息息相关，但为保证在提取过程中数据信息的准确性，其采样个数应该予以保证。所以面对数据变量个数也即数据维数大的情况，如果可以对数据的变量其进行压缩，将给后续的数据聚类带来很大的便利。

发明内容

基于以上本发明提出一种基于LE(Laplacian Eigenmaps)算法的工业监测数据聚类方法。该方法首先对多变量数据进行降维，再对降维后数据进行聚类，同时又可以保证计算量，提高了数据聚类的效率，是一种用来有效分析数据内在特点、寻找规律的方法。该方法可对高维的采样数据进行一个压缩，并根据数据的内在特征对数据本身进行聚类，便于发现数据的规律。

本发明采用以下技术方案：

一种基于LE算法的工业监测数据聚类方法，包括如下步骤：

步骤1、对工业系统的监测数据进行采集，并进行预处理；

步骤2、基于拉普拉斯特征映射LE算法进行建模，将步骤1中的采样数据作为输入数据，通过计算并输出低维数据；

步骤3、基于密度聚类方法DBSCAN进行建模，步骤2的低维数据作为该模型的输入，对其进行聚类；

步骤4、输出：聚类后的集合C＝{C₁,C₂,…,C_K}，C_o,o＝1,2,...,K为聚类之后的第o个聚类簇。

作为本发明进一步的方案，所述步骤1具体包括如下步骤：

步骤1.1、先对工业系统进行采样，并用X＝{x₁,x₂,…,x_N}∈R^d×N表示，其中d表示数据的变量个数，N表示采样数目，其中第t个采样数据用x_t表示，且t＝1,2,...,N，x_t＝[x_t1x_t2…x_td]^T；

步骤1.2、对采样数据X进行检查，如果在X中某个数据x_tj出现丢失现象，假设其中x_tj为第t个采样数据的第j个变量丢失，则利用公式进行补充，j＝1,2,…,d。

作为本发明进一步的方案，所述步骤2具体包括如下步骤：

步骤2.1、将完整的步骤1的采样数据X作为输入，低维数据的维数s＜d作为输入参数；

步骤2.2、构建一个邻接图G(V,E)：用K最近邻算法KNN寻找属于每个数据点x_t的k个近邻点，满足k＜N；

步骤2.3、确定权值矩阵：如果数据点x_t是数据点x_i的近邻点，它的权值系数l表示热核函数的参数，对于不属于该数据点的近邻点，则将权重系数设置为零；

步骤2.4、计算对角矩阵D，该矩阵的对角线元素D_ii由步骤2.3构建的权值矩阵的第i列所有元素W_ti的和，用公式表示为除对角线元素外其余元素全部置零；

步骤2.5、计算拉普拉斯矩阵L：根据公式L＝D-W计算拉普拉斯矩阵；

步骤2.6、通过解决广义特征值问题，根据公式Ly＝λDy解决该问题并获得特征值及其特征向量，并提取最小的s个非零特征值及对应的特征向量，对应的低维数据输出用Y＝{y₁,y₂,…,y_m}表示，其中y_j为对应的第j个特征向量，j＝1,2,…,m；

作为本发明进一步的方案，所述步骤3具体包括如下步骤：

步骤2中产生的降维数据用Y＝{y₁,y₂,…,y_m}表示，其中y_j为N维向量，对降维后的N个采样数据进行聚类，聚类的目的是将相似性较大的数据聚成一类，相似性较小的数据分开；

步骤3.1、输入参数ε和MinPts，分别为聚类半径和除噪声点数据之外的每类数据中的最小数目；

步骤3.2、寻找核心对象：找出每个数据点在ε半径内的数据点，如果该半径内的数据点的个数大于等于MinPts时，标记该点为核心对象，反之，为噪声点数据；

步骤3.3、以步骤2中的所有核心对象为出发点，找出其密度可达样本生成的聚类簇，直到所以核心对象都被访问停止迭代。

本发明的有益效果是：本发明一种LE算法的工业监测数据聚类方法，分别建立了基于拉普拉斯特征映射算法的模型和密度聚类的模型，分别对多变量的采样数据进行压缩之后对其进行聚类，且不用输入聚类数目；密度聚类方法是一种迭代算法，经过反复迭代之后，找出所有密度相连的最大点的集合；对于工业数据而言，本发明可以先对多变量数据进行压缩，压缩后的数据保留了其重要信息，再对其进行聚类，聚类后的每类数据相似度较高，便于找出其中的规律，具有非凡的意义。

附图说明

图1是本发明总体流程图；

图2是本发明方法中步骤2的降维方法的流程图。

图3是本发明方法中步骤3的聚类方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的阐述。

如图1～图3所示，本发明基于一种LE算法的工业监测数据聚类方法，具体按照以下步骤实施：

步骤1、对工业系统的监测数据进行采集，并进行预处理：

步骤1.1、先对工业系统进行采样，并用X＝{x₁,x₂,…,x_N}∈R^d×N表示，其中d表示数据的变量个数，N表示采样数目。其中第t个采样数据用x_t表示，且t＝1,2,...,N，x_t＝[x_t1x_t2...x_td]^T；

步骤2、基于拉普拉斯特征映射LE算法进行建模，将步骤1中的采样数据作为输入数据，通过计算并输出低维数据：

步骤3、基于密度聚类方法DBSCAN进行建模，步骤2的低维数据作为该模型的输入，对其进行聚类：

步骤2中产生的降维数据用Y＝{y₁,y₂,…,y_m}表示，其中y_j为N维向量，对降维后的N个采样数据进行聚类。聚类的目的是将相似性较大的数据聚成一类，相似性较小的数据分开。本专利采用密度聚类DBSCAN方法进行聚类，该聚类方法根据密度进行聚类，可将密度较大的数据聚成一簇，是一种有效的聚类方法。

本发明一种LE算法的工业监测数据聚类方法，分别建立了基于拉普拉斯特征映射算法的模型和密度聚类的模型，分别对多变量的采样数据进行压缩之后对其进行聚类，且不用输入聚类数目。

密度聚类方法是一种迭代算法，经过反复迭代之后，找出所有密度相连的最大点的集合。对于工业数据而言，本发明可以先对多变量数据进行压缩，压缩后的数据保留了其重要信息，再对其进行聚类，聚类后的每类数据相似度较高，便于找出其中的规律，具有非凡的意义。

以上所述为本发明较佳实施例，对于本领域的普通技术人员而言，根据本发明的教导，在不脱离本发明的原理与精神的情况下，对实施方式所进行的改变、修改、替换和变型仍落入本发明的保护范围之内。

Claims

1.一种基于LE算法的工业监测数据聚类方法，其特征在于，包括如下步骤：

步骤1、对工业系统的监测数据进行采集，并进行预处理；

2.根据权利要求1所述的一种基于LE算法的工业监测数据聚类方法，其特征在于，所述步骤1具体包括如下步骤：

步骤1.1、先对工业系统进行采样，并用X＝{x₁,x₂,…,x_N}∈R^d×N表示，其中d表示数据的变量个数，N表示采样数目，其中第t个采样数据用x_t表示，且t＝1,2,...,N，x_t＝[x_t1 x_t2... x_td]^T；

3.根据权利要求2所述的一种基于LE算法的工业监测数据聚类方法，其特征在于，所述步骤2具体包括如下步骤：

步骤2.6、通过解决广义特征值问题，根据公式Ly＝λDy解决该问题并获得特征值及其特征向量，并提取最小的s个非零特征值及对应的特征向量，对应的低维数据输出用Y＝{y₁,y₂,…,y_m}表示，其中y_j为对应的第j个特征向量，j＝1,2,…,m。

4.根据权利要求3所述的一种基于LE算法的工业监测数据聚类方法，其特征在于，所述步骤3具体包括如下步骤：