CN110941648A

CN110941648A - 基于聚类分析的异常数据识别方法、系统和存储介质

Info

Publication number: CN110941648A
Application number: CN201911134406.8A
Authority: CN
Inventors: 朱子朋; 程伟平; 龙志宏
Original assignee: Guangzhou Water Supply Co Ltd
Current assignee: Guangzhou Water Supply Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-03-31

Abstract

本发明公开了基于聚类分析的异常数据识别方法、系统和存储介质，方法包括以下步骤：获取各监测点的历史监测数据，历史监测数据包括：压力数据和/或流量数据；获取各监测点的主要参数，主要参数包括：历史监测数据的均值和/或标准方差；对各监测点间历史监测数据的相关性进行聚类分析；根据聚类分析的结果，将监测点的历史监测数据进行线性拟合处理，得到拟合函数；根据拟合函数得到监测点数据的预测值；根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别，能够准确、简单而直观地识别异常数据。本发明作为一种基于聚类分析的异常数据识别方法、系统和存储介质，可广泛应用于数据处理技术领域。

Description

基于聚类分析的异常数据识别方法、系统和存储介质

技术领域

本发明涉及数据处理技术，尤其是一种基于聚类分析的异常数据识别方法、系统和存储介质。

背景技术

随着信息化的不断发展和互联网的广泛应用，政府和企业对产生的大量监测数据需要进行有效管理，而大量的历史数据和新产生的数据中存在很多异常数据。如果不能对这些异常数据进行有效识别，可能造成决策失误、工作效率的降低等问题。

目前对数据集进行异常检测的方法主要有下列方法：(1)采用统计学的方法来检测数值型属性，计算属性值的均值和标准差，考虑每一个属性的置信区间来识别异常属性和记录；(2)采用基于模式的方法来发现不符合数据集中现存模式的异常记录；(3)采用关联规则的方法来发现数据集中不符合具有高置信度和支持度的规则的异常数据。

而每一种方法都存在缺点，基于统计学方法的异常识别方法，识别异常数据的依据需要具有很强的可靠性，容易出错；基于模式的方法理论多且原理复杂，识别难度高；基于关联规则异常识别，在关联前找出需要对哪些数据进行关联要经过大量分析，同样比较繁琐。同时，以上方法的理论无法与供水系统监测网进行良好的结合。因此，如何准确、简单而直观地对监测系统中的大数据进行异常数据识别就成为了一个重要研究项目。

发明内容

有鉴于此，为了解决上述技术问题，本发明的目的是提供准确、简单而直观的基于聚类分析的异常数据识别方法、系统和存储介质。

本发明采用的技术方案是：基于聚类分析的异常数据识别方法，包括以下步骤：

获取各监测点的历史监测数据，历史监测数据包括：压力数据和/或流量数据；

获取各监测点的主要参数，主要参数包括：历史监测数据的均值和/或标准方差；

对各监测点间历史监测数据的相关性进行聚类分析；

根据聚类分析的结果，将监测点的历史监测数据进行线性拟合处理，得到拟合函数；

根据拟合函数得到监测点数据的预测值；

根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别。

进一步，所述获取各监测点的历史监测数据的步骤中，包括以下步骤：

基于预设的数据同步误差要求，以预设的时间间隔为采样周期获取历史监测数据；

以监测点为单元对获取的历史监测数据进行存储。

进一步，还包括以下步骤：

对历史监测数据进行预处理并储存，其中，预处理的步骤包括：

将错误数据的内容替代为空集；

将空集进行历史监测数据的均值的填充处理。

进一步，所述对各监测点间历史监测数据的相关性进行聚类分析的步骤中，包括以下步骤：

将各监测点作为不同的分类对象，计算两两分类对象之间的距离；

找出距离最小的两个分类对象，并将所述两个分类对象合并为一个新的分类对象；

根据合并得到的新的分类对象，计算两两分类对象之间的距离，返回执行找出距离最小的两个分类对象，并将所述两个分类对象合并为一个新的分类对象的步骤，直至所有分类对象合并为一个分类对象。

进一步，所述将各监测点作为不同的分类对象，计算两两分类对象之间的距离的步骤中，包括以下步骤：

将任意两个分类对象作为两个向量；

计算所述两个向量之间的欧氏距离。

进一步，所述根据聚类分析的结果，将监测点的历史监测数据进行线性拟合处理，得到拟合函数的步骤中，包括以下步骤：

将相关系数的值大于预设阈值的历史监测数据进行线性拟合处理，得到拟合函数。

进一步，所述根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别的步骤中，包括以下步骤：

计算预测值与历史监测数据的差值；

判断所述差值是否大于被预测监测点的2倍标准方差；

若是，则确认监测点数据异常；

反之，则确认监测点数据正常。

本发明还提供基于聚类分析的异常数据识别系统，包括：

第一获取模块，用于获取各监测点的历史监测数据，历史监测数据包括：压力数据和/或流量数据；

第二获取模块，用于获取各监测点的主要参数，主要参数包括：历史监测数据的均值和/或标准方差；

分析模块，用于对各监测点间历史监测数据的相关性进行聚类分析；

处理模块，用于根据聚类分析的结果，将监测点的历史监测数据进行线性拟合处理，得到拟合函数；

预测模块，用于根据拟合函数得到监测点数据的预测值；

判断模块，用于根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别。

本发明还提供基于聚类分析的异常数据识别系统，包括：

至少一处理器；

至少一存储器，用于存储至少一程序；

当所述至少一程序被所述至少一处理器执行，使得所述至少一处理器实现所述基于聚类分析的异常数据识别方法。

本发明还提供存储介质，存储有处理器可执行的指令：处理器执行所述处理器可执行的指令时执行所述基于聚类分析的异常数据识别方法。

本发明的有益效果是：利用根据聚类分析的结果，将监测点的历史监测数据进行线性拟合处理，得到拟合函数；根据拟合函数得到监测点数据的预测值；根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别，充分利用各监测点的数据进行分析，提高异常识别的正确率；相较于现有的异常识别方法，本发明对异常数据的识别更准确、简单和直观，因此水务人员容易根据异常数据直观地判断出现异常的原因。

附图说明

图1为本发明的步骤流程示意图；

图2为本发明具体实施例的步骤流程示意图；

图3为本发明具体实施例聚类结果图；

图4为本发明具体实施例拟合函数和异常数据识别图；

图5为本发明基于聚类分析的异常数据识别系统的结构框图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，基于聚类分析的异常数据识别方法，包括以下步骤：

对各监测点间历史监测数据的相关性进行聚类分析；

根据拟合函数得到监测点数据的预测值；

在本实施例中，通过供水管网SCADA监测系统获取各监测点的历史监测数据，历史监测数据包括压力历史监测数据和流量历史监测数据。

获取各监测点的主要参数，主要参数包括：各监测点压力和流量的均值Data_ave和标准方差Data_σ(历史监测数据)，根据实际需要可以只获取压力的均值和标准方差，或者只获取流量的均值和标准方差，也可以同时获取两者的均值为标准方差。

进一步作为优选的实施方式，所述获取各监测点的历史监测数据的步骤中，包括以下步骤：

以监测点为单元对获取的历史监测数据进行存储。

如图2所示，在本实施例中，数据同步误差不大于1分钟，预设的时间间隔为15分钟，即历史监控数据的采样周期15分钟一次；将供水管网SCADA监测系统回传的各监测点的压力和流量历史监测数据以监测点为单位自动读取并储存为以监测点序号命名的txt文件。

进一步作为优选的实施方式，还包括以下步骤：

将错误数据的内容替代为空集；

通过历史监测数据的均值对空集进行填充处理。

在本实施例中，在进行数据读取时，若发现数据为“-999”、“0”或“null”等明显错误元素，自动将错误单元格内容替代为空集然后储存，在计算完各监测点的主要参数：如压力数据的均值Data_ave和标准方差Data_σ，查找元素为空集的单元格，将其内容填充为均值Data_ave。

进一步作为优选的实施方式，所述对各监测点间历史监测数据的相关性进行聚类分析的步骤中，包括以下步骤：

进一步作为优选的实施方式，所述将各监测点作为不同的分类对象，计算两两分类对象之间的距离的步骤中，包括以下步骤：

将任意两个分类对象作为两个向量；

计算所述两个向量之间的欧氏距离。

在本实施例中，最初将每一监测点独立作为一类，每一类用x表示，同时每一类x为一个向量，假设现在有两个p维向量x_i＝(x_i1,x_i2,…,x_ip)^T和x_j＝(x_j1,x_j2,…,x_jp)^T的研究对象，计算它们之间的欧氏距离，具体公式为：

，其中，d为欧氏距离，x_ip、x_jp分别表示第i个、第j个监测点P维监测数据，T表示向量的转制。

在此，以广州供水系统SCADA监测系统监控的有代表性的六个测压点(X₁珠江大桥、X₂站前路、X₃周门路、X₄中山六路、X₅柯木塱和X₆龙津路)2016年一年的压力数据为研究对象举例，其他实施例中可以使用流量数据，或压力数据和流量数据均使用，其中使用流量数据时的处理过程与压力数据的处理过程相同。

S1:将各监测点作为不同的分类对象，计算两两分类对象之间的距离。具体地：根据上述公式计算两两研究对象之间的距离，组成压力数据的欧氏距离矩阵：

S2:找出距离最小的两个分类对象，并将所述两个分类对象合并为一个新的分类对象。具体地：找出D(0)非对角线上的最小元素(代表距离最小的两个分类对象)，将其对应的两个分类对象合并为一个新的分类对象；

D(0)非对角线上的最小元素为d(1，4)＝1.0，故将珠江大桥压力、中山六路压力归为一类，表示为X₇。

S3:根据合并得到的新的分类对象，计算两两分类对象之间的距离。

D(7，2)＝min(d(1，2)，d(4，2))＝7.7

D(7，3)＝min(d(1，3)，d(4，3))＝6.1

D(7，5)＝min(d(1，5)，d(4，5))＝19.9

D(7，6)＝min(d(1，6)，d(4，6))＝4.0

S4:重复步骤S2、S3，直至所有分类对象都合并为一个分类对象为止。

D(1)非对角线上的最小元素为d(2，3)＝1.8，故将站前路压力、周门路压力归为一类，表示为X₈。

D(2)非对角线上的最小元素为d(8，6)＝2.2，故将站前路压力、周门路压力这一类与龙津路压力归为一类。

以此类推，得出最终结果。如图3所示，为有代表性的六个测压点压力数据的聚类结果。如果将六个测压点分为两类，则珠江大桥压力、中山六路压力、周门路压力、龙津路压力和站前路压力五个测压点数据为一类，柯木塱压力单独为一类。如果将结果划分为三类，则珠江大桥压力和中山六路压力为一类，站前路压力、周门路压力和龙津路压力为一类，柯木塱压力单独为一类。

进一步作为优选的实施方式，所述根据聚类分析的结果，将监测点的历史监测数据进行线性拟合处理，得到拟合函数的步骤中，包括以下步骤：

在本实施例中，预设阈值为0.8。根据聚类分析的结果，将相关系数的值大于0.8的监测点数据进行线性拟合处理，获得拟合函数。例如，基于2016年一年周门路的压力数据和站前路的压力数据(历史监测数据)进行线性拟合，以站前路的压力数据为y轴，以周门路的压力数据为x轴，计算得相关系数为0.9015，大于0.8，拟合函数为y＝0.8579x+0.0642，这里的计算用的是最小二乘法拟合公式，结果如图4中间的直线所示。

进一步作为优选的实施方式，所述根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别的步骤中，包括以下步骤：

计算预测值与历史监测数据的差值；

判断所述差值是否大于被预测监测点的2倍标准方差；

若是，则确认监测点数据异常；

反之，则确认监测点数据正常。

在本实施例中，根据拟合函数计算监测点各时间段的预测值

预测值指的是拟合函数直线上的值，计算预测值

与实测值Data_i(历史监测数据)的差值是否大于因变量监测点(被预测监测点)的2倍标准方差Data_σ，即图4中位于拟合函数(中间直线)上下两侧的两条直线，当监测点监测数据位于该两条直线之间表示数据正常，超出该两条直线之外则为异常数据,读取对应的异常时间。异常数据如表1汇总，表1中压力数据的单位为MPa。根据表1中的直观数据，水务人员容易知道，2016年，周门路在5月10号22：00-5月11号3：30，压力数值小于2倍标准方差Data_σ，可能发生爆管等现象，而站前路压力数据波动正常。11月、12月中，间断性的存在异常数据，造成这种现象的原因可能是压力传感器出现问题等。

表1

参照图2，以本发明具体实施为例，下面详细描述整体的实施步骤：

S1：以采样周期15分钟一次，数据同步误差不大于1分钟，收集SCADA系统实时监测的各监测点压力和流量数据(相当于历史监测数据的一部分)；

S2：对S1收集到的数据进行预处理，检查数据是否有错误，没有错误保留数据并储存，若发现错误，将错误数据的内容替换为空集并储存；

S3：获取监测系统各监测点的压力和流量均值Data_ave和标准差Data_σ(主要参数)，同时将均值Data_ave填入空集中完成预处理步骤并储存；

S4：对各监测点间历史监测数据的相关性进行聚类分析：

将各监测点作为不同的分类对象，计算两两分类对象之间的欧氏距离；

根据合并得到的新的分类对象，计算两两分类对象之间的距离，返回执行找出距离最小的两个分类对象，并将所述两个分类对象合并为一个新的分类对象的步骤，直至所有分类对象合并为一个分类对象；

S5:根据聚类分析的结果，将相关性强的(相关系数的值大于0.8)的历史监测数据进行线性拟合处理，得到拟合函数；

S6：根据拟合函数得到监测点数据的预测值

S7：根据历史监测数据Data_i、预测值

以及主要参数(标准方差Data_σ)对监测点数据进行异常识别:计算预测值

与历史监测数据Data_i的差值，判断所述差值是否大于被预测监测点的2倍标准方差Data_σ，若不是，表示数据点正常，反之，表示数据点异常，获取异常数据集合，分析造成异常原因。

综上所述，相较于现有技术，本发明具有以下优点：

1)、利用根据聚类分析的结果，将监测点的历史监测数据进行线性拟合处理，得到拟合函数；根据拟合函数得到监测点数据的预测值；根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别，充分利用各监测点的数据进行分析，提高异常识别的正确率，识别更准确、简单和直观，水务人员容易根据异常数据直观地判断出现异常的原因；

2)、本识别方法每个参数的意义明确，水务人员能够轻松识别异常数据以及清楚异常数据出现的时间，判断出现异常的原因；

3)、本识别方法涉及的计算公式简单易懂，并且充分利用各监测点数据，将各监测点间的数据进行分析，能够较好地减少自变量监测点预测值因仪表错误引起的影响，提高异常识别的正确率；

4)、基于预设的数据同步误差要求，以预设的时间间隔为采样周期获取历史监测数据，保证数据的及时同步，便于后续操作，及时发现数据异常。

5)、对收集的历史监测数据进行预处理，将错误数据替代为空集，将空集进行历史监测数据的均值填充处理，能减少数据的错误率，同时也保证后续聚类统计和拟合函数的结果准确，保证异常数据识别的准确性。

参照图5，本发明还提供基于聚类分析的异常数据识别系统，包括：

预测模块，用于根据拟合函数得到监测点数据的预测值；

本发明还提供一种基于聚类分析的异常数据识别系统，包括：

至少一处理器；

至少一存储器，用于存储至少一程序；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明并且采用方块图的形式举例说明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

本发明实施例还提供了一种存储介质，存储有处理器可执行的指令，处理器执行所述处理器可执行的指令时执行所述基于聚类分析的异常数据识别方法。

同样可见，上述方法实施例中的内容均适用于本存储介质实施例中，实现的功能和有益效果与方法实施例相同。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本说明书的描述中，参考术语“一个实施例”、“本实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于聚类分析的异常数据识别方法，其特征在于，包括以下步骤：

对各监测点间历史监测数据的相关性进行聚类分析；

根据拟合函数得到监测点数据的预测值；

2.根据权利要求1所述的基于聚类分析的异常数据识别方法，其特征在于：所述获取各监测点的历史监测数据的步骤中，包括以下步骤：

以监测点为单元对获取的历史监测数据进行存储。

3.根据权利要求1所述的基于聚类分析的异常数据识别方法，其特征在于：还包括以下步骤：

将错误数据的内容替代为空集；

通过历史监测数据的均值对空集进行填充处理。

4.根据权利要求1所述的基于聚类分析的异常数据识别方法，其特征在于：所述对各监测点间历史监测数据的相关性进行聚类分析的步骤中，包括以下步骤：

5.根据权利要求4所述的基于聚类分析的异常数据识别方法，其特征在于：所述将各监测点作为不同的分类对象，计算两两分类对象之间的距离的步骤中，包括以下步骤：

将任意两个分类对象作为两个向量；

计算所述两个向量之间的欧氏距离。

6.根据权利要求1所述的基于聚类分析的异常数据识别方法，其特征在于：所述根据聚类分析的结果，将监测点的历史监测数据进行线性拟合处理，得到拟合函数的步骤中，包括以下步骤：

7.根据权利要求1所述的基于聚类分析的异常数据识别方法，其特征在于：所述根据历史监测数据、预测值以及主要参数对监测点数据进行异常识别的步骤中，包括以下步骤：

计算预测值与历史监测数据的差值；

判断所述差值是否大于被预测监测点的2倍标准方差；

若是，则确认监测点数据异常；

反之，则确认监测点数据正常。

8.基于聚类分析的异常数据识别系统，其特征在于，包括：

预测模块，用于根据拟合函数得到监测点数据的预测值；

9.基于聚类分析的异常数据识别系统，其特征在于，包括：

至少一处理器；

至少一存储器，用于存储至少一程序；

当所述至少一程序被所述至少一处理器执行，使得所述至少一处理器实现如权利要求1-7任一项所述基于聚类分析的异常数据识别方法。

10.存储介质，存储有处理器可执行的指令，其特征在于：处理器执行所述处理器可执行的指令时执行如权利要求1-7任一项所述基于聚类分析的异常数据识别方法。