CN109409407A - 一种基于le算法的工业监测数据聚类方法 - Google Patents

一种基于le算法的工业监测数据聚类方法 Download PDF

Info

Publication number
CN109409407A
CN109409407A CN201811097330.1A CN201811097330A CN109409407A CN 109409407 A CN109409407 A CN 109409407A CN 201811097330 A CN201811097330 A CN 201811097330A CN 109409407 A CN109409407 A CN 109409407A
Authority
CN
China
Prior art keywords
data
point
cluster
algorithm
clustering method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811097330.1A
Other languages
English (en)
Inventor
谢国
张永艳
刘涵
王文卿
梁莉莉
张春丽
孙澜澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201811097330.1A priority Critical patent/CN109409407A/zh
Publication of CN109409407A publication Critical patent/CN109409407A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于LE算法的工业监测数据聚类方法,包括如下步骤:步骤1、对工业系统的监测数据进行采集,并进行预处理;步骤2、基于拉普拉斯特征映射LE算法进行建模,将步骤1中的采样数据作为输入数据,通过计算并输出低维数据;步骤3、基于密度聚类方法DBSCAN进行建模,步骤2的低维数据作为该模型的输入,对其进行聚类;步骤4、输出:聚类后的集合C={C1,C2,…,CK},Co,o=1,2,...,K为聚类之后的第o个聚类簇。该方法首先对多变量数据进行降维,再对降维后数据进行聚类,同时又可以保证计算量,提高了数据聚类的效率;该方法可对高维的采样数据进行一个压缩,并根据数据的内在特征对数据本身进行聚类,便于发现数据的规律。

Description

一种基于LE算法的工业监测数据聚类方法
技术领域
本发明属于工业监测数据聚类的技术领域,具体涉及一种基于LE算法的工业监测数据聚类方法。
背景技术
在信息发展如此迅速的时代,随之产生的数据在快速增长,所以如何从大量增长的数据中挖掘有效信息并进行利用,是机器学习的一个重要研究课题。现实中数据根据是否有标签信息分为有标签数据和无标签数据,当数据的标签信息未知即为无标签数据时,通过肉眼无法对高维数据进行聚类,但是通过常见的聚类算法可以对这些无标签数据进行学习并获取数据的内在信息。如果数据量大,将会给数据分析带来困难。而数据通常包括其行数和列数,分别表示数据的采样个数和变量个数。采样数据的个数与采样时间息息相关,但为保证在提取过程中数据信息的准确性,其采样个数应该予以保证。所以面对数据变量个数也即数据维数大的情况,如果可以对数据的变量其进行压缩,将给后续的数据聚类带来很大的便利。
发明内容
基于以上本发明提出一种基于LE(Laplacian Eigenmaps)算法的工业监测数据聚类方法。该方法首先对多变量数据进行降维,再对降维后数据进行聚类,同时又可以保证计算量,提高了数据聚类的效率,是一种用来有效分析数据内在特点、寻找规律的方法。该方法可对高维的采样数据进行一个压缩,并根据数据的内在特征对数据本身进行聚类,便于发现数据的规律。
本发明采用以下技术方案:
一种基于LE算法的工业监测数据聚类方法,包括如下步骤:
步骤1、对工业系统的监测数据进行采集,并进行预处理;
步骤2、基于拉普拉斯特征映射LE算法进行建模,将步骤1中的采样数据作为输入数据,通过计算并输出低维数据;
步骤3、基于密度聚类方法DBSCAN进行建模,步骤2的低维数据作为该模型的输入,对其进行聚类;
步骤4、输出:聚类后的集合C={C1,C2,…,CK},Co,o=1,2,...,K为聚类之后的第o个聚类簇。
作为本发明进一步的方案,所述步骤1具体包括如下步骤:
步骤1.1、先对工业系统进行采样,并用X={x1,x2,…,xN}∈Rd×N表示,其中d表示数据的变量个数,N表示采样数目,其中第t个采样数据用xt表示,且t=1,2,...,N,xt=[xt1xt2…xtd]T
步骤1.2、对采样数据X进行检查,如果在X中某个数据xtj出现丢失现象,假设其中xtj为第t个采样数据的第j个变量丢失,则利用公式进行补充,j=1,2,…,d。
作为本发明进一步的方案,所述步骤2具体包括如下步骤:
步骤2.1、将完整的步骤1的采样数据X作为输入,低维数据的维数s<d作为输入参数;
步骤2.2、构建一个邻接图G(V,E):用K最近邻算法KNN寻找属于每个数据点xt的k个近邻点,满足k<N;
步骤2.3、确定权值矩阵:如果数据点xt是数据点xi的近邻点,它的权值系数l表示热核函数的参数,对于不属于该数据点的近邻点,则将权重系数设置为零;
步骤2.4、计算对角矩阵D,该矩阵的对角线元素Dii由步骤2.3构建的权值矩阵的第i列所有元素Wti的和,用公式表示为除对角线元素外其余元素全部置零;
步骤2.5、计算拉普拉斯矩阵L:根据公式L=D-W计算拉普拉斯矩阵;
步骤2.6、通过解决广义特征值问题,根据公式Ly=λDy解决该问题并获得特征值及其特征向量,并提取最小的s个非零特征值及对应的特征向量,对应的低维数据输出用Y={y1,y2,…,ym}表示,其中yj为对应的第j个特征向量,j=1,2,…,m;
作为本发明进一步的方案,所述步骤3具体包括如下步骤:
步骤2中产生的降维数据用Y={y1,y2,…,ym}表示,其中yj为N维向量,对降维后的N个采样数据进行聚类,聚类的目的是将相似性较大的数据聚成一类,相似性较小的数据分开;
步骤3.1、输入参数ε和MinPts,分别为聚类半径和除噪声点数据之外的每类数据中的最小数目;
步骤3.2、寻找核心对象:找出每个数据点在ε半径内的数据点,如果该半径内的数据点的个数大于等于MinPts时,标记该点为核心对象,反之,为噪声点数据;
步骤3.3、以步骤2中的所有核心对象为出发点,找出其密度可达样本生成的聚类簇,直到所以核心对象都被访问停止迭代。
本发明的有益效果是:本发明一种LE算法的工业监测数据聚类方法,分别建立了基于拉普拉斯特征映射算法的模型和密度聚类的模型,分别对多变量的采样数据进行压缩之后对其进行聚类,且不用输入聚类数目;密度聚类方法是一种迭代算法,经过反复迭代之后,找出所有密度相连的最大点的集合;对于工业数据而言,本发明可以先对多变量数据进行压缩,压缩后的数据保留了其重要信息,再对其进行聚类,聚类后的每类数据相似度较高,便于找出其中的规律,具有非凡的意义。
附图说明
图1是本发明总体流程图;
图2是本发明方法中步骤2的降维方法的流程图。
图3是本发明方法中步骤3的聚类方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的阐述。
如图1~图3所示,本发明基于一种LE算法的工业监测数据聚类方法,具体按照以下步骤实施:
步骤1、对工业系统的监测数据进行采集,并进行预处理:
步骤1.1、先对工业系统进行采样,并用X={x1,x2,…,xN}∈Rd×N表示,其中d表示数据的变量个数,N表示采样数目。其中第t个采样数据用xt表示,且t=1,2,...,N,xt=[xt1xt2...xtd]T
步骤1.2、对采样数据X进行检查,如果在X中某个数据xtj出现丢失现象,假设其中xtj为第t个采样数据的第j个变量丢失,则利用公式进行补充,j=1,2,…,d。
步骤2、基于拉普拉斯特征映射LE算法进行建模,将步骤1中的采样数据作为输入数据,通过计算并输出低维数据:
步骤2.1、将完整的步骤1的采样数据X作为输入,低维数据的维数s<d作为输入参数;
步骤2.2、构建一个邻接图G(V,E):用K最近邻算法KNN寻找属于每个数据点xt的k个近邻点,满足k<N;
步骤2.3、确定权值矩阵:如果数据点xt是数据点xi的近邻点,它的权值系数l表示热核函数的参数,对于不属于该数据点的近邻点,则将权重系数设置为零;
步骤2.4、计算对角矩阵D,该矩阵的对角线元素Dii由步骤2.3构建的权值矩阵的第i列所有元素Wti的和,用公式表示为除对角线元素外其余元素全部置零;
步骤2.5、计算拉普拉斯矩阵L:根据公式L=D-W计算拉普拉斯矩阵;
步骤2.6、通过解决广义特征值问题,根据公式Ly=λDy解决该问题并获得特征值及其特征向量,并提取最小的s个非零特征值及对应的特征向量,对应的低维数据输出用Y={y1,y2,…,ym}表示,其中yj为对应的第j个特征向量,j=1,2,…,m;
步骤3、基于密度聚类方法DBSCAN进行建模,步骤2的低维数据作为该模型的输入,对其进行聚类:
步骤2中产生的降维数据用Y={y1,y2,…,ym}表示,其中yj为N维向量,对降维后的N个采样数据进行聚类。聚类的目的是将相似性较大的数据聚成一类,相似性较小的数据分开。本专利采用密度聚类DBSCAN方法进行聚类,该聚类方法根据密度进行聚类,可将密度较大的数据聚成一簇,是一种有效的聚类方法。
步骤3.1、输入参数ε和MinPts,分别为聚类半径和除噪声点数据之外的每类数据中的最小数目;
步骤3.2、寻找核心对象:找出每个数据点在ε半径内的数据点,如果该半径内的数据点的个数大于等于MinPts时,标记该点为核心对象,反之,为噪声点数据;
步骤3.3、以步骤2中的所有核心对象为出发点,找出其密度可达样本生成的聚类簇,直到所以核心对象都被访问停止迭代。
步骤4、输出:聚类后的集合C={C1,C2,…,CK},Co,o=1,2,...,K为聚类之后的第o个聚类簇。
本发明一种LE算法的工业监测数据聚类方法,分别建立了基于拉普拉斯特征映射算法的模型和密度聚类的模型,分别对多变量的采样数据进行压缩之后对其进行聚类,且不用输入聚类数目。
密度聚类方法是一种迭代算法,经过反复迭代之后,找出所有密度相连的最大点的集合。对于工业数据而言,本发明可以先对多变量数据进行压缩,压缩后的数据保留了其重要信息,再对其进行聚类,聚类后的每类数据相似度较高,便于找出其中的规律,具有非凡的意义。
以上所述为本发明较佳实施例,对于本领域的普通技术人员而言,根据本发明的教导,在不脱离本发明的原理与精神的情况下,对实施方式所进行的改变、修改、替换和变型仍落入本发明的保护范围之内。

Claims (4)

1.一种基于LE算法的工业监测数据聚类方法,其特征在于,包括如下步骤:
步骤1、对工业系统的监测数据进行采集,并进行预处理;
步骤2、基于拉普拉斯特征映射LE算法进行建模,将步骤1中的采样数据作为输入数据,通过计算并输出低维数据;
步骤3、基于密度聚类方法DBSCAN进行建模,步骤2的低维数据作为该模型的输入,对其进行聚类;
步骤4、输出:聚类后的集合C={C1,C2,…,CK},Co,o=1,2,...,K为聚类之后的第o个聚类簇。
2.根据权利要求1所述的一种基于LE算法的工业监测数据聚类方法,其特征在于,所述步骤1具体包括如下步骤:
步骤1.1、先对工业系统进行采样,并用X={x1,x2,…,xN}∈Rd×N表示,其中d表示数据的变量个数,N表示采样数目,其中第t个采样数据用xt表示,且t=1,2,...,N,xt=[xt1 xt2... xtd]T
步骤1.2、对采样数据X进行检查,如果在X中某个数据xtj出现丢失现象,假设其中xtj为第t个采样数据的第j个变量丢失,则利用公式进行补充,j=1,2,…,d。
3.根据权利要求2所述的一种基于LE算法的工业监测数据聚类方法,其特征在于,所述步骤2具体包括如下步骤:
步骤2.1、将完整的步骤1的采样数据X作为输入,低维数据的维数s<d作为输入参数;
步骤2.2、构建一个邻接图G(V,E):用K最近邻算法KNN寻找属于每个数据点xt的k个近邻点,满足k<N;
步骤2.3、确定权值矩阵:如果数据点xt是数据点xi的近邻点,它的权值系数l表示热核函数的参数,对于不属于该数据点的近邻点,则将权重系数设置为零;
步骤2.4、计算对角矩阵D,该矩阵的对角线元素Dii由步骤2.3构建的权值矩阵的第i列所有元素Wti的和,用公式表示为除对角线元素外其余元素全部置零;
步骤2.5、计算拉普拉斯矩阵L:根据公式L=D-W计算拉普拉斯矩阵;
步骤2.6、通过解决广义特征值问题,根据公式Ly=λDy解决该问题并获得特征值及其特征向量,并提取最小的s个非零特征值及对应的特征向量,对应的低维数据输出用Y={y1,y2,…,ym}表示,其中yj为对应的第j个特征向量,j=1,2,…,m。
4.根据权利要求3所述的一种基于LE算法的工业监测数据聚类方法,其特征在于,所述步骤3具体包括如下步骤:
步骤2中产生的降维数据用Y={y1,y2,…,ym}表示,其中yj为N维向量,对降维后的N个采样数据进行聚类,聚类的目的是将相似性较大的数据聚成一类,相似性较小的数据分开;
步骤3.1、输入参数ε和MinPts,分别为聚类半径和除噪声点数据之外的每类数据中的最小数目;
步骤3.2、寻找核心对象:找出每个数据点在ε半径内的数据点,如果该半径内的数据点的个数大于等于MinPts时,标记该点为核心对象,反之,为噪声点数据;
步骤3.3、以步骤2中的所有核心对象为出发点,找出其密度可达样本生成的聚类簇,直到所以核心对象都被访问停止迭代。
CN201811097330.1A 2018-09-19 2018-09-19 一种基于le算法的工业监测数据聚类方法 Pending CN109409407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811097330.1A CN109409407A (zh) 2018-09-19 2018-09-19 一种基于le算法的工业监测数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811097330.1A CN109409407A (zh) 2018-09-19 2018-09-19 一种基于le算法的工业监测数据聚类方法

Publications (1)

Publication Number Publication Date
CN109409407A true CN109409407A (zh) 2019-03-01

Family

ID=65464974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811097330.1A Pending CN109409407A (zh) 2018-09-19 2018-09-19 一种基于le算法的工业监测数据聚类方法

Country Status (1)

Country Link
CN (1) CN109409407A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833012A (zh) * 2020-06-19 2020-10-27 联想(北京)有限公司 一种工业数据处理方法和装置
CN113194031A (zh) * 2021-04-23 2021-07-30 西安交通大学 雾无线接入网内结合干扰抑制的用户聚类方法及系统
CN115271274A (zh) * 2022-09-30 2022-11-01 华中科技大学 电力系统短期日负荷预测方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412425B2 (en) * 2005-04-14 2008-08-12 Honda Motor Co., Ltd. Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN106096628A (zh) * 2016-06-01 2016-11-09 大连理工大学 基于局部子空间学习的多视角聚类方法
CN106529588A (zh) * 2016-11-02 2017-03-22 浙江工业大学 一种基于自适应密度聚类的非线性流行学习降维方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412425B2 (en) * 2005-04-14 2008-08-12 Honda Motor Co., Ltd. Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN106096628A (zh) * 2016-06-01 2016-11-09 大连理工大学 基于局部子空间学习的多视角聚类方法
CN106529588A (zh) * 2016-11-02 2017-03-22 浙江工业大学 一种基于自适应密度聚类的非线性流行学习降维方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BELKIN M,NIYOGI P: "Laplacian Eigenmaps for Dimensionality Reductionand Data Representation", 《NEURAL COMPUTATION,》 *
姜建华等: ""改进DBSCAN 聚类算法在电子商务网站评价中的应用", 《吉林大学学报( 理学版)》 *
江丽等: "基于半监督拉普拉斯特征映射的故障诊断", 《中国机械工程》 *
陈敏: "《认知计算导论》", 31 May 2017, 华中科技大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833012A (zh) * 2020-06-19 2020-10-27 联想(北京)有限公司 一种工业数据处理方法和装置
CN113194031A (zh) * 2021-04-23 2021-07-30 西安交通大学 雾无线接入网内结合干扰抑制的用户聚类方法及系统
CN115271274A (zh) * 2022-09-30 2022-11-01 华中科技大学 电力系统短期日负荷预测方法及相关设备
CN115271274B (zh) * 2022-09-30 2022-12-27 华中科技大学 电力系统短期日负荷预测方法及相关设备

Similar Documents

Publication Publication Date Title
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN104239902B (zh) 基于非局部相似性和稀疏编码的高光谱图像分类方法
CN109492673A (zh) 一种基于谱聚类采样的不平衡数据预测方法
CN109409407A (zh) 一种基于le算法的工业监测数据聚类方法
CN112434662B (zh) 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法
CN112926452B (zh) 一种基于GCN和GRU增强U-Net特征的高光谱分类方法及系统
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
CN104850859A (zh) 一种基于多尺度分析的图像特征包构建方法
Bhute et al. Content based image indexing and retrieval
Deng et al. Citrus disease recognition based on weighted scalable vocabulary tree
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN111612319A (zh) 基于一维卷积自编码器的负荷曲线深度嵌入聚类方法
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN107133348B (zh) 大规模图片集中基于语义一致性的近似搜索方法
EP4285281A1 (en) Annotation-efficient image anomaly detection
CN101667253B (zh) 一种高光谱遥感数据多类别监督分类方法
CN107066984A (zh) 基于子空间集成学习的步态识别算法
CN110033041A (zh) 一种基于深度学习的基因表达谱距离度量方法
CN105844299A (zh) 一种基于词袋模型的图像分类方法
CN104573727A (zh) 一种手写体数字图像降维方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN113225300B (zh) 一种基于图像的大数据分析方法
CN114691875A (zh) 一种数据分类分级处理方法及装置
CN112782660A (zh) 基于Bert的雷达目标识别方法
CN102663141B (zh) 一种基于多核并行的多路量化分级聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190301