CN112783938A

CN112783938A - 一种水文遥测实时数据异常检测方法

Info

Publication number: CN112783938A
Application number: CN202011608442.6A
Authority: CN
Inventors: 周晓峰; 周艾晶
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-11
Anticipated expiration: 2040-12-30
Also published as: CN112783938B

Abstract

本发明公开了一种水文遥测实时数据异常检测方法，包括以下几个步骤：1)根据原始时间序列的特点采用分段聚集近似划分成若干个子序列，对每一组经过分割的子序列进行特征提取；2)基于改进的Leader聚类方法对特征向量进行聚类，聚类过程中不断的更新簇的质心，保证高质量的聚类；3)基于聚类的异常检测，根据聚类的结果，计算簇中每个对象的异常因子，根据异常因子的计算结果对水文遥测实时数据进行异常判断。

Description

一种水文遥测实时数据异常检测方法

技术领域

本发明属于数据挖掘领域，具体涉及一种基于PAA-ILeader的水文遥测实时数据异常检测方法。

背景技术

随着水文遥测技术的不断发展和广泛应用，水文遥测系统已成为获取水文数据最主要的手段。与传统的人工水文观测手段相比，水文遥测系统具有采集频率高、采集点密集、自动化程度高等特点。但是由于遥测系统自身、数据通信与网络，以及自然环境等各方面因素的影响，会导致所采集的水位数据出现异常的问题。而当前水情预测测报与水资源调度和管理自动化系统在工作过程中需要大量调用并分析历史时间序列，异常值的存在直接影响系统相关决策的正确性。

水文行业中的水位、流量数据都是典型的时间序列数据。水文序列中的异常值可能潜藏着更有价值和意义的水文信息和知识。因此，正确检测出时间序列中的异常值具有十分重要的现实意义，可以减少异常值对数据分析的干扰，提高预报等活动的准确性。现有的异常检测的方法包括：

(1)基于特征空间的方法；该类方法首先通过核函数的方法，在样本中选取出基向量，然后通过特征空间进一步扩展开来，并在子空间中获取投影数据进行检测。通过实验表明算法具有良好的精确度，但是该方法的检测效率不高，消耗的时间较长并且稳定性不高。

(2)基于频率的方法；该类方法采用后辍树来编码时间序列中所有出现的模式，用马尔可夫模型(Markov model)预测没有被观测到的模式期望发生的概率，然后通过阈值来判断异常，但是此方法检测出的结果准确率不高。

(3)基于窗口的方法；该类方法首先利用固定大小窗口划分时序数据，在划分后的子序列中构造相应的算法定位异常点。但是此方法在应对大数据检测时依然没有解决时间复杂度过高的问题。

(4)基于预测的方法；该类方法首先通过分析某个水文遥测站的历史数据并对历史数据进行建模求得预测值，再将预测值与实际值之间的差值与阈值进行比较，进一步判断异常，但是每次的预测模型都需要进行重新训练，这样导致算法的重复使用性不高，耗时耗力。

综上所述，水文遥测数据的异常检测得到了广泛的关注，但是现有的方法还是存在很多的不足，因此如何正确检测出时间序列中的异常值具有十分重要的现实意义及价值。

发明内容

发明目的：为解决现有技术中水文遥测数据异常检测精度低、检测效率低、稳定性不高等问题，本发明提出了一种基于PAA-ILeader的水文遥测实时数据异常检测方法，充分利用水文遥测数据的时间序列特征，通过数据挖掘技术，通过将水文遥测数据具有的时间序列特征进行聚类并结合异常数据本身定义阈值，实现水文遥测数据的自动化异常检测。

为实现上述目的，本发明通过以下技术方案来实现：一种水文遥测实时数据异常检测方法，包括以下步骤：

步骤1：获取水文遥测站的原始时间序列，采用分段聚集近似方法对原始时间序列进行划分，得到多个子序列，计算每个子序列的特征；

步骤2：基于每个子序列的特征，采用I-Leader聚类方法对所有子序列进行聚类，得到聚类结果；

步骤3：根据聚类结果，判断数据异常；

S210：将第一个子序列放入第一个簇中，并作为第一个簇的质心；

S220：计算第二个子序列到第一个簇的距离，若距离小于等于阈值，则将第二个子序列聚类到第一个簇中，并进行簇质心更新，否则创建第二个簇，将第二个子序列聚类到第二个簇中，并进行簇质心更新；

计算第三个子序列到第一个簇的距离，若距离小于等于阈值，则将第三个子序列聚类到第一个簇中，并进行簇质心更新，否则计算第三个子序列到第二个簇的距离，若距离小于等于阈值，则将第三个子序列聚类到第二个簇中，并进行簇质心更新，否则创建第三个簇，将第三个子序列聚类到第三个簇中，并进行簇质心更新；

以此类推，直至所有子序列都被放入簇中；

S230：将所有簇分为带有“未满”标签的簇和带有“良好”标签的簇，并将带有“未满”标签的簇合并至与之距离最近的带有“良好”标签的簇中，得到聚类结果。

进一步的，步骤1中，所述的采用分段聚集近似方法对原始时间序列进行划分，得到多个子序列，具体包括：采用分段聚集近似方法对原始时间序列从后向前进行划分，得到等长的子序列，定义等长的子序列长度为窗口长度，若在划分过程中最前面的数据长度小于窗口长度，则放弃该段数据。

进一步的，所述特征包括结构特征和统计特征。

进一步的，采用子序列的均值和平方差作为其统计特征，采用子序列的斜率作为其结构特征，每组子序列的特征的值域规范在0至1之间。

进一步的，S220中，根据下式进行簇质心更新：

其中，MassCentre_i是第i个簇原本的质心；NewMassCentre_i是添加完新的子序列之后第i个簇的质心；C_i是新分配给第i个簇的子序列，m是第i个簇中原本的子序列的数量。

进一步的，S250中，根据下式将所有簇分为带有“未满”标签的簇和带有“良好”标签的簇：

式中，m为聚类的簇的个数，μ_β为均值，σ_β为所有聚类的β值分布的标准偏差，β_i＝n/N，N代表所有数据的个数，i代表聚类形成的m个簇中的第i个簇，n代表第i个簇里面的数据的个数。

进一步的，S250中，根据下式计算带有“未满”标签的簇与带有“良好”标签的簇的距离：

式中，x为带有“未满“标签的簇的质心；NewCentre_i是带有“良好”标签的簇的质心；m为带有“良好”标签的簇的个数。

进一步的，所述步骤3具体包括：根据聚类结果，计算所有簇中所有对象的异常因子，将计算出的异常因子按照从大到小的顺序排列，将前k个对象判断为异常。

进一步的，所述步骤3具体包括：根据聚类结果，将所有的簇按照从大到小的顺序排列，根据公式(8)将簇分为大小簇，将大簇称为LS，小簇称为SS：

式中，α为参数，C＝{C₁,C₂,C₃…C_m}表示在数据集S上的聚类的结果，C_i表示第i个簇，S表示数据集，k、m、i表示表示序列；

计算所有小簇中所有对象的异常因子，将计算出的异常因子按照从大到小的顺序排列，将前k个对象判断为异常。

进一步的，根据式(9)计算异常因子：

式中，p表示该簇中第p个子序列。

有益效果：与现有的技术相比，本发明具有以下特点：

(1)本方法的子序列特征在数量和内容方面没有任何的限制，因此可以根据不同的水文遥测数据量定义不同的特征集合，可以被广泛的使用；

(2)本方法基于改进的Leader聚类算法，使用增量技术不断地更新簇的质心，保证高质量的聚类结果，对数据集进行一次性扫描，具有较高的时间效率以及具有良好的可扩展性。

附图说明

图1为本发明的总体流程图；

图2为本发明聚类流程图。

具体实施方式

现结合附图和实施例进一步阐述本发明的技术方案。

参见图1，本发明的一种水文遥测实时数据异常检测方法，分成了两个部分，第一个部分就是通过对历史数据分析进行聚类，第二部分是亦称检测的过程，对水文遥测数据异常序列进行检测。具体包括以下步骤：

步骤1：由于水文遥测数据比较复杂，直接使用聚类方法进行分析会导致时间复杂度过高，本发明读取水文遥测站的历史数据，基于原始时间序列的特点，采用分段聚集近似方法对原始时间序列从后向前进行划分，得到等长的子序列，若划分过程中无法保证子序列的等长性质，放弃最前面小于窗口长度的数据；计算出每个子序列的特征，子序列特征包括结构特征和统计特征，用子序列的均值和平方差作为其统计特征，用斜率作为其结构特征；均值表示子序列值的一般水平，描述子序列值的集中程度；方差表示子序列离散的程度，两个波动程度差异很大的子序列显然不可能出现在同一个聚类中；斜率表示分段子序列的变化趋势。

均值计算公式如下：

式中，S_i是子序列第i个水文遥测数据，m为子序列的长度。

平方差计算公式如下：

斜率计算公式如下：

本发明的异常检测将采用均值、平方差、斜率这三个表示的子序列进行计算，由于这三个特征值的值域差别很大，因此要对三者进行规范化，将每组子序列的特征值的值域规范到0至1之间。

规范计算公式如下：

其中，S_li是第l个子序列中的第i个水文遥测数据，S_max是子序列每个特征值的最大值，S_min是子序列每个特征值的最小值。

步骤2：本发明将Leader方法应用到水文遥测数据进行聚类，并在聚类的过程中不断地更簇的质心，即，基于改进的Leader聚类方法对所有的子序列特征进行聚类，并更新聚类中心，得到高质量的聚类结果。参见图2，具体包括：

采用I-Leader聚类方法，将第一个子序列放入第一个簇中，计算第二个子序列到第一个簇的距离，若距离小于等于阈值，则第二个子序列放入第一个簇中，否则创建第二个簇，将第二个子序列放入第二个簇中，再计算第三个子序列到第一个簇的距离并与阈值比较，若小于等于阈值，则放入第一个簇中，否则计算第三个子序列到第二个簇的距离并与阈值比较，若小于等于阈值，则将第三个子序列放入第二个簇中，否则创建第三个簇，将第三个子序列放入第三个簇中；以此类推，直到时间序列中所有的子序列都被放入簇中。

传统的聚类方法通常需要遍历完所有的子序列之后计算簇的质心，时间复杂度较高。本发明以增量方式计算簇的质心，在向簇中添加新的子序列之后，需要重新计算簇的质心；

簇的质心的计算公式如下：

其中，MassCentre_i是第i个簇的质心；NewMassCentre_i是添加完新的子序列之后第i个簇的质心；C_i是新分配给第i个簇的子序列，m是第i个簇中子序列的数量。

所有的子序列都完成聚类了，并放入相应的簇中后，根据下式将所有簇分为带有“未满”标签的簇和带有“良好”标签的簇：

将任何带有“未满”标签的簇都合并到离他最近的带有“良好”标签的簇中。因此需要计算从该簇的质心到所有带有“良好”标签的簇的质心的距离，如果所有的簇都带有“良好”标签，得到高质量聚类的结果，并且可以加快聚类的速度。

簇的质心之间的距离计算公式：

本发明的改进Leader聚类方法的改进主要体现在通过增量技术来计算更新聚类的新中心来加快聚类及使用数据汇总技术在每次更新时都保持良好的聚类质量。

步骤3：根据聚类的结果，将所有的簇按照从大到小的顺序排列，根据公式(8)将簇分为大小簇，将大簇称为LS，小簇称为SS。计算所有簇中所有对象的异常因子，根据异常因子的计算结果判断异常，即为：将计算出的异常因子按照从大到小的顺序排列，将前k个对象判断为异常。

式中，α为参数，α影响检测效率，也影响检测精度，α越大，效率越高，但是α过大会降低检测的精度，因此在本实例中α取0.75，C＝{C₁,C₂,C₃…C_m}表示在数据集S上的聚类的结果，C_i表示第i个簇，S表示数据集，k、m、i表示序列。

异常因子计算公式如下：

式中，p表示该簇中第p个子序列。

由于异常数据只占整个数据集很小的比例，因此异常数据可能包含在元素个数较少的类中，因此为了提高检测效率，只需要对元素个数较少的类中的对象计算其影响因子。针对大聚类集合以及小聚集合，计算小聚类集合中所有对象的异常因子。

改进的Leader聚类方法对子序列进行聚类的伪代码如下：

输入：子序列S＝{S₁,S₂,S₃,…S_m},距离阈值dist；

输出：类簇C₁，C₂，C₃，…C_i；

Claims

1.一种水文遥测实时数据异常检测方法，其特征在于：包括以下步骤：

步骤3：根据聚类结果，判断数据异常；

其中，所述步骤2具体包括以下子步骤：

以此类推，直至所有子序列都被放入簇中；

2.根据权利要求1所述的一种水文遥测实时数据异常检测方法，其特征在于：步骤1中，所述的采用分段聚集近似方法对原始时间序列进行划分，得到多个子序列，具体包括：采用分段聚集近似方法对原始时间序列从后向前进行划分，得到等长的子序列，定义等长的子序列长度为窗口长度，若在划分过程中最前面的数据长度小于窗口长度，则放弃该段数据。

3.根据权利要求1所述的一种水文遥测实时数据异常检测方法，其特征在于：所述特征包括结构特征和统计特征。

4.根据权利要求3所述的一种水文遥测实时数据异常检测方法，其特征在于：采用子序列的均值和平方差作为其统计特征，采用子序列的斜率作为其结构特征，每组子序列的特征的值域规范在0至1之间。

5.根据权利要求1所述的一种水文遥测实时数据异常检测方法，其特征在于：S220中，根据下式进行簇质心更新：

6.根据权利要求1所述的一种水文遥测实时数据异常检测方法，其特征在于：S250中，根据下式将所有簇分为带有“未满”标签的簇和带有“良好”标签的簇：

7.根据权利要求1所述的一种水文遥测实时数据异常检测方法，其特征在于：S250中，根据下式计算带有“未满”标签的簇与带有“良好”标签的簇的距离：

8.根据权利要求1所述的一种水文遥测实时数据异常检测方法，其特征在于：所述步骤3具体包括：根据聚类结果，计算所有簇中所有对象的异常因子，将计算出的异常因子按照从大到小的顺序排列，将前k个对象判断为异常。

9.根据权利要求1所述的一种水文遥测实时数据异常检测方法，其特征在于：所述步骤3具体包括：根据聚类结果，将所有的簇按照从大到小的顺序排列，根据公式(8)将簇分为大小簇，将大簇称为LS，小簇称为SS：

式中，α为参数，C＝{C₁,C₂,C₃…C_m}表示在数据集S上的聚类的结果，C_i表示第i个簇，S表示数据集，k、m、i表示表示序列；计算所有小簇中所有对象的异常因子，将计算出的异常因子按照从大到小的顺序排列，将前k个对象判断为异常。

10.根据权利要求8所述的一种水文遥测实时数据异常检测方法，其特征在于：根据式(9)计算异常因子：

式中，p表示该簇中第p个子序列。