CN110472690A

CN110472690A - 基于自适应模糊聚类的热电工业数据异常检测方法及系统

Info

Publication number: CN110472690A
Application number: CN201910768987.4A
Authority: CN
Inventors: 杜韬; 弭涛; 曲守宁; 李国昌; 李沁璐; 沈天宇
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-19
Anticipated expiration: 2039-08-20
Also published as: CN110472690B

Abstract

本公开提供一种基于自适应模糊聚类的热电工业数据异常检测方法及系统。其中，热电工业数据异常检测方法包括实时获取d维度的热电工业数据作为样本，按照时间顺序存储至数据集S；将数据集S所分布空间的每一维划均分为相等的m个间隔段，生成不相交的网格；将数据集S中的映射到网格中计算各个网格的重心，作为新的数据点来代表相应网格内所包含的热电工业数据，形成网格重心数据集；利用自适应模糊聚类算对网格重心数据集P进行聚类，得到所有聚类中心；计算网格重心数据集中每个数据点所对应网格包含的热电工业数据与其最邻近的聚类中心的距离并与预设距离阈值比较，进而判断热电工业数据是否异常。

Description

基于自适应模糊聚类的热电工业数据异常检测方法及系统

技术领域

本公开属于热电工业数据异常检测领域，尤其涉及一种基于自适应模糊聚类的热电工业数据异常检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

数据是智能时代这一饕餮盛宴的原生材料，巨量的数据蕴含着丰富的信息和知识。要想从这些数据中提取信息投入到实际应用中，首先就要对其进行聚类分析，聚类是一种有用的数据分析工具。它是一种查找同一集群中相似度最高的数据组和不同集群之间不同的数据组的方法。

热电工业数据是指的热电厂在生产过程中产生的数据，比如预测的生产状态参数有气包压力，主汽温度，料层温度,返料温度，烟气含氧量，炉膛差压，料层差压等。由于热电工业数据变化快，差别大，很难用硬聚类进行划分。

发明人发现，通常的模糊聚类会受到初始化和参数选择的影响，需要预先给定许多集群。但是热电工业数据随机性和数据量都十分庞大，无法预测，所以用通常的方法很难对热电工业数据进行聚类处理，进而影响热电工业数据异常检测的准确性及效率。

发明内容

为了解决上述问题，本公开的第一个方面提供一种基于自适应模糊聚类的热电工业数据异常检测方法，其能够在聚类簇数未知情况下参数自适应时，对于巨量数据进行聚类，从而提高热电工业数据异常检测的准确性及效率。

为了实现上述目的，本公开采用如下技术方案：

一种基于自适应模糊聚类的热电工业数据异常检测方法，包括：

实时获取d维度的热电工业数据作为样本，按照时间顺序存储至数据集S；

将数据集S所分布空间的每一维划均分为相等的m个间隔段，生成不相交的网格；其中D_s为数据集S的标准化离散度；N为数据集S中样本数量；

将数据集S中的映射到网格中计算各个网格的重心，作为新的数据点来代表相应网格内所包含的热电工业数据，形成网格重心数据集；

利用自适应模糊聚类算对网格重心数据集P进行聚类，得到所有聚类中心；

计算网格重心数据集中每个数据点所对应网格包含的热电工业数据与其最邻近的聚类中心的距离并与预设距离阈值比较，进而判断热电工业数据是否异常。

为了解决上述问题，本公开的第二个方面提供一种基于自适应模糊聚类的热电工业数据异常检测系统，其能够在聚类簇数未知情况下参数自适应时，对于巨量数据进行聚类，从而提高热电工业数据异常检测的准确性及效率。

为了实现上述目的，本公开采用如下技术方案：

一种基于自适应模糊聚类的热电工业数据异常检测系统，包括：

数据获取模块，其用于实时获取d维度的热电工业数据作为样本，按照时间顺序存储至数据集S；

网格划分模块，其用于将数据集S所分布空间的每一维划均分为相等的m 个间隔段，生成不相交的网格；其中D_s为数据集S的标准化离散度；N为数据集S中样本数量；

网格重心计算模块，其用于将数据集S中的映射到网格中计算各个网格的重心，作为新的数据点来代表相应网格内所包含的热电工业数据，形成网格重心数据集；

网格重心数据聚类模块，其用于利用自适应模糊聚类算对网格重心数据集进行聚类，得到所有聚类中心；

热电工业数据异常判断模块，其用于计算网格重心数据集中每个数据点所对应网格包含的热电工业数据与其最邻近的聚类中心的距离并与预设距离阈值比较，进而判断热电工业数据是否异常。

本公开的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于自适应模糊聚类的热电工业数据异常检测方法中的步骤。

本公开的第四个方面提供一种计算机终端。

一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的基于自适应模糊聚类的热电工业数据异常检测方法中的步骤。

本公开的有益效果是：

本公开针对数据量大问题，通过网格划分映射的方法来降低聚类过程中需要处理的数据数量，利用一种参数自适应聚类方法，首先使用熵类型的惩罚项来调整偏差，并且不使用模糊指数，然后创建一个健壮的基于学习的模式来寻找最佳的集群数量，实现了参数自适应；

本公开首先通过自适应模糊聚类来聚类网格重心数据，然后再计算网格重心数据集中每个数据点所对应网格包含的热电工业数据与其最邻近的聚类中心的距离并与预设距离阈值比较，进而判断热电工业数据是否异常，提高了热电工业数据异常检测的准确性及效率。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例的一种基于自适应模糊聚类的热电工业数据异常检测方法流程图。

图2是本公开实施例的一种基于自适应模糊聚类的热电工业数据异常检测系统结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

如图1所示，本实施例的一种基于自适应模糊聚类的热电工业数据异常检测方法，包括：

S101：实时获取d维度的热电工业数据作为样本，按照时间顺序存储至数据集S；

例如：热电工业数据包括气包压力，主汽温度，料层温度,返料温度，烟气含氧量，炉膛差压，料层差压18项参数，所以维度d为18。

S102：将数据集S所分布空间的每一维划均分为相等的m个间隔段，生成不相交的网格；其中D_s为数据集S的标准化离散度；N为数据集S 中样本数量；

其中，数据集S的标准化离散度D_s为：

其中：s_j和X-means_j分别是第j维热电工业数据的标准差和均值；D_j是数据集S的第j维数据的离散度。d是数据集中数据对象的维数。D_s的值越小，数据集的离散度越大；D_s的值越大，数据集的离散度越小。间隔段m的计算充分考虑了数据集中数据的分布情况。

S103：将数据集S中的映射到网格中计算各个网格的重心，作为新的数据点来代表相应网格内所包含的热电工业数据，形成网格重心数据集。

数据集S的划分。将数据集S所分布空间的每一维划分为相等的间隔段，生成不相交的矩形或者超矩形单元集G，集合G覆盖整个数据集S的数据分布空间。集合G中的每一个矩形或者超矩形单元grid的空间位置表示为{c1,c2,c3,…,cd}，其中ci＝[l_i,j_i)对应于第i维的一个左闭右开的间隔段。一个单元还可以表示为(cNum1，cNum2，…，cNumd)，其中cNum是区间[l_i,h_i)对应的间隔序号，每一维的间隔序号的编号从1开始。其中，超矩形指的是多维数据集下的矩形划分，如二维就是矩形，三维就是长方体，依次类推。

数据对象x_i的映射。数据对象x_i的映射：将x_i对应的矩形或者超矩形单元grid中。

其中：x_ij是数据对象x_i的第j维属性值。m是数据集每一维的划分段数目 (以下简称：维度分割参数)。min_j，max_j分别为数据集S中第j维属性值的最小值和最大值。

S104：利用自适应模糊聚类算对网格重心数据集P进行聚类，得到所有聚类中心；

具体地，利用自适应模糊聚类算对网格重心数据集进行聚类，得到所有聚类中心的过程为：

利用网格重心数据集中数据点的个数初始化自适应模糊聚类算法中的目标函数，不断更新混合比例，从网格重心数据集中剔除混合比例值小于1/当前网格重心数据集中数据点数量的对应的数据点；当新旧簇心不发生变化时，判断网格重心数据集聚类完成。

其中，自适应模糊聚类算法中的目标函数为：

其中V代表聚类中心v₁,...,v_c的集合，V＝(v₁,...,v_c)，表示当前网格重心数据集中第i个数据点与第k个聚类中心的欧式距离，μ_ik为数据集S中第i个工业热电工业数据属于第k个聚类中心所属簇的模糊划分矩阵；α_k为混合比例，表示一个数据点属于第k个聚类中心所属簇的概率；γ₁、γ₂和γ₃为学习函数，用来学习调节偏置的熵项的影响，c为团簇数目，n为当前网格重心数据集中数据点数量。

μ_ik含义也为样本i属于j类的隶属度。

初始学习速率设为当c团簇数目稳定时，混合比例的竞争就会停止；更新混合比例的公式为：

其中，和分别为t时刻学习速率；

表示更新前一个数据点属于第k个簇的概率；

表示更新后一个数据点属于第k个簇的概率；

δ为给定的调整参数。

当最近两次迭代，V中簇心几乎无变化时，即表示聚类完成。将每个网格重心代表的数据带入，完成整体聚类；

表示第t次的第k个聚类中心；表示第t-1次的第k个聚类中心；ε为一个预设足够小的数。

S105：计算网格重心数据集中每个数据点所对应网格包含的热电工业数据与其最邻近的聚类中心的距离并与预设距离阈值比较，进而判断热电工业数据是否异常。

具体地，当热电工业数据与其最邻近的聚类中心的距离小于或等于预设距离阈值时，热电工业数据正常；否则，判断热电工业数据异常。

实施例2

如图2所示，本实施例提供一种基于自适应模糊聚类的热电工业数据异常检测系统，包括：

(1)数据获取模块，其用于实时获取d维度的热电工业数据作为样本，按照时间顺序存储至数据集S；

(2)网格划分模块，其用于将数据集S所分布空间的每一维划均分为相等的m个间隔段，生成不相交的网格；其中D_s为数据集S的标准化离散度；N为数据集S中样本数量；

在所述网格划分模块中，数据集S的标准化离散度D_s为：

其中：s_j和X-means_j分别是第j维热电工业数据的标准差和均值；D_j是数据集S的第j维数据的离散度。

(3)网格重心计算模块，其用于将数据集S中的映射到网格中计算各个网格的重心，作为新的数据点来代表相应网格内所包含的热电工业数据，形成网格重心数据集；

(4)网格重心数据聚类模块，其用于利用自适应模糊聚类算对网格重心数据集进行聚类，得到所有聚类中心；

在所述网格重心数据聚类模块中，利用自适应模糊聚类算对网格重心数据集进行聚类，得到所有聚类中心的过程为：

利用网格重心数据集中数据点的个数初始化自适应模糊聚类算法中的目标函数，不断更新混合比例，从网格重心数据集中剔除混合比例值小于1/当前网格重心数据集中数据点数量的对应的数据点；根据新旧簇心是否发生变化，来判断网格重心数据集聚类完成。

(5)热电工业数据异常判断模块，其用于计算网格重心数据集中每个数据点所对应网格包含的热电工业数据与其最邻近的聚类中心的距离并与预设距离阈值比较，进而判断热电工业数据是否异常。

实施例3

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所示的基于自适应模糊聚类的热电工业数据异常检测方法中的步骤。

实施例4

本实施例提供一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图1所示的基于自适应模糊聚类的热电工业数据异常检测方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于自适应模糊聚类的热电工业数据异常检测方法，其特征在于，包括：

2.如权利要求1所述的基于自适应模糊聚类的热电工业数据异常检测方法，其特征在于，数据集S的标准化离散度D_s为：

其中：s_j和X_means_j分别是第j维热电工业数据的标准差和均值；D_j是数据集S的第j维数据的离散度。

3.如权利要求1所述的基于自适应模糊聚类的热电工业数据异常检测方法，其特征在于，利用自适应模糊聚类算对网格重心数据集进行聚类，得到所有聚类中心的过程为：

4.如权利要求3所述的基于自适应模糊聚类的热电工业数据异常检测方法，其特征在于，自适应模糊聚类算法中的目标函数为：

5.如权利要求3所述的基于自适应模糊聚类的热电工业数据异常检测方法，其特征在于，初始学习速率设为当c团簇数目稳定时，混合比例的竞争就会停止；更新混合比例的公式为：

其中，和分别为t时刻学习速率；

表示更新前一个数据点属于第k个簇的概率；

表示更新后一个数据点属于第k个簇的概率；

δ为给定的调整参数。

6.一种基于自适应模糊聚类的热电工业数据异常检测系统，其特征在于，包括：

网格划分模块，其用于将数据集S所分布空间的每一维划均分为相等的m个间隔段，生成不相交的网格；其中D_s为数据集S的标准化离散度；N为数据集S中样本数量；

7.如权利要求5所述的基于自适应模糊聚类的热电工业数据异常检测系统，其特征在于，在所述网格划分模块中，数据集S的标准化离散度D_s为：

8.如权利要求5所述的基于自适应模糊聚类的热电工业数据异常检测系统，其特征在于，在所述网格重心数据聚类模块中，利用自适应模糊聚类算对网格重心数据集进行聚类，得到所有聚类中心的过程为：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的基于自适应模糊聚类的热电工业数据异常检测方法中的步骤。

10.一种计算机终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的基于自适应模糊聚类的热电工业数据异常检测方法中的步骤。