CN114742124A

CN114742124A - 一种异常数据处理方法、系统及装置

Info

Publication number: CN114742124A
Application number: CN202210191217.XA
Authority: CN
Inventors: 李洪海; 潘爱兵; 陈勇; 任兴辉; 王尚斌; 刘涛
Original assignee: Shandong Luruan Digital Technology Co Ltd
Current assignee: Shandong Luruan Digital Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-07-12

Abstract

本发明提出的一种异常数据处理方法、系统及装置，所述方法包括：读取电力设备监测数据，作为原始数据；通过时序图和箱线图描述原始数据的分布特征；根据测点数据正常波动范围，在原始数据的分布特征中剔除超限值；填充原始数据中的数据缺失值；采用DFA进行原始数据的去趋势处理，以消除数据趋势项；采用K‑means聚类算法对原始数据进行聚类分析，并确定异常判断阈值；通过异常判断阈值与数据集密度的比较，判断出原始数据中的异常数据，并剔除。本发明基于去趋势分析和K‑means聚类，通过数据的非平稳到平稳的转换，以及数据间的相关关系进行数据的异常处理，极大还原数据本真形态，提高数据的真实性。

Description

一种异常数据处理方法、系统及装置

技术领域

本发明涉及数据分析处理技术领域，更具体的说是涉及一种异常数据处理方法、系统及装置。

背景技术

在电力行业中，电力设备的在线监测及生产管理等数据已经非常完善，为大数据融合设备状态分析创造了条件。为了深化大数据的应用，电力设备的各项监测数据逐渐汇集到统一的监控平台，实现了监管、调度、挖掘分析等一体化流程，但与此同时数据信息庞大、信息异构、数据质量较差等问题逐渐凸显。

原始的数据质量往往不能满足后续状态评价模型的要求，因此，在状态评估或诊断分析之前进行数据清洗是必不可少的。数据清洗通过填充缺失值、平滑噪声数据和识别离群点来提高数据质量，有助于提高数据挖掘过程的准确率和效率。

但是，异常数据处理根据其应用场景不同，多数处理方法具有一定的过于简单粗暴，例如业务人员设定数据上下限剔除超限值；用序列中的前值填充缺失值；诸如此类方法，在平稳数据中尚可应用，但是如果数据是非平稳或非线性形态，则上述方法不适用。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种异常数据处理方法、系统及装置，基于去趋势分析和K-means聚类，通过数据的非平稳到平稳的转换，以及数据间的相关关系进行数据的异常处理，极大还原数据本真形态，提高数据的真实性。

本发明为实现上述目的，通过以下技术方案实现：

一种异常数据处理方法，包括如下步骤：

S1：读取电力设备监测数据，作为原始数据；

S2：通过时序图和箱线图描述原始数据的分布特征；

S3：根据测点数据正常波动范围，在原始数据的分布特征中剔除超限值；

S4：填充原始数据中的数据缺失值；

S5：采用DFA进行原始数据的去趋势处理，以消除数据趋势项；

S6：采用K-means聚类算法对原始数据进行聚类分析，并确定异常判断阈值；S7：通过异常判断阈值与数据集密度的比较，判断出原始数据中的异常数据，并剔除。

进一步，所述步骤S2包括：

通过时序图表征原始数据的趋势特征、波动幅度和离散情况。

进一步，所述步骤S3包括：根据箱线图确定原始数据中的最大值、最小值、中位数和两个四分位数据，以确定原始数据的整体形态，并采用阈值法去掉错误数据。

进一步，所述步骤S4包括：

通过对比样本集中相似的对象，并用相似对象中对应的值来填充原始数据中的数据缺失值。

进一步，所述步骤S6包括：

采用K-means聚类算法对原始数据进行聚类分析，将原始数据的数据集划分为M类数据集，通过滑动平均的方法依次捕捉M类数据集的密度范围，以确定异常判断阈值。

进一步，所述步骤S6还包括：根据数据标签的连续性，对聚类分析后的原始数据进行划分，以将其中的正常数据和异常数据分离，并记录正常数据和异常数据在原始数据中的位置。

进一步，所述步骤S7包括：

判断数据集密度是否小于异常判断阈值；

若是，则相应的原始数据为异常数据；否则为正常数据；

根据正常数据和异常数据的位置标签，在原始数据中用红色标识异常数据；删除具有红色标识的原始数据。

相应的，本发明还公开了一种异常数据处理系统，包括：

数据读取单元，用于读取电力设备监测数据，作为原始数据；

数据分布分析单元，用于通过时序图和箱线图描述原始数据的分布特征；

超限值剔除单元，用于根据测点数据正常波动范围，在原始数据的分布特征中剔除超限值；

缺失数据处理单元，用于填充原始数据中的数据缺失值；

去趋势处理单元，用于采用DFA进行原始数据的去趋势处理，以消除数据趋势项；聚类分析单元，用于采用K-means聚类算法对原始数据进行聚类分析，并确定异常判断阈值；

异常数据剔除单元，用于通过异常判断阈值与数据集密度的比较，判断出原始数据中的异常数据，并剔除。

相应的，本发明还公开了一种异常数据处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任一项所述的异常数据处理方法步骤。

对比现有技术，本发明有益效果在于：本发明提供了一种异常数据处理方法、系统及装置，通过将K-means聚类算法应用到数据清洗中，即针对数据中存在的异常数据，通过去趋势分析(FDA)将原始数据转变平稳序列，然后利用K-means聚类对离散点进行识别并剔除，本发明不受数据形态限制，可以极大地还原真实的数据形态，具有很好的广谱性，能够有效提高电力监测数据的完整性和真实性。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

附图1是本发明具体实施方式的方法流程图。

附图2是本发明具体实施方式的原始数据分布示意图。

附图3是本发明具体实施方式的箱线图示意图。

附图4是本发明具体实施方式的数据去趋势处理示意图。

附图5是本发明具体实施方式的数据聚类结果示意图。

附图6是本发明具体实施方式的数据异常值处理结果示意图。

附图7是本发明具体实施方式的系统结构图。

图中，1为数据读取单元；2为数据分布分析单元；3为超限值剔除单元；4为缺失数据处理单元；5为去趋势处理单元；6为聚类分析单元；7为异常数据剔除单元。

具体实施方式

下面结合附图对本发明的具体实施方式做出说明。

如图1所示的一种异常数据处理方法，包括如下步骤：

S1：读取电力设备监测数据，作为原始数据。

S2：通过时序图和箱线图描述原始数据的分布特征。

通过时序图和箱线图描述数据分布特征。其中，时序图主要反映数据按照时间的变化规律，直观表征数据的趋势特征、波动幅度及离散情况，主要形态如图2所示。

S3：根据测点数据正常波动范围，在原始数据的分布特征中剔除超限值。

根据箱线图确定原始数据中的最大值、最小值、中位数和两个四分位数据，以此确定数据的整体形态，其展示形式如图3所示，并采用阈值法去掉比较明显的错误数据。

S4：填充原始数据中的数据缺失值。

通过对比样本集中相似的对象，并用相似对象中对应的值来填充空缺值。

使用相关系数矩阵来确定不同样本间的相似性，由于原始数据中空缺值占比较小，因此采样热卡填充的方式不影响数据的分布形态。

作为示例的，使用相关系数矩阵来确定不同样本间的相似性，若样本A与缺失值所在样本B最相关，则通过对各个数列进行排序，并将B中的缺失值用A中相应位置的数据来填充。

S5：采用DFA进行原始数据的去趋势处理，以消除数据趋势项。

具体来说，采用DFA进行数据去趋势处理，消除数据趋势项，使得局部大幅波动数据远离数据密集区，具体如图4所示。

S6：采用K-means聚类算法对原始数据进行聚类分析，并确定异常判断阈值。

具体的，采用K-means聚类算法对原始数据进行聚类分析，将原始数据的数据集划分为M类数据集，通过滑动平均的方法依次捕捉M类数据集的密度范围，消除随机因素的干扰，以确定合适的异常判断阈值。

如图5所示，采用K-means算法对去趋势后的数据进行聚类，根据数据密度分布将数据划分为不同的部分，但是不同类的数据存在交叉，不同类别间边界不明显，因此，需要根据数据标签的连续性，在数据聚类基础上进一步划分，以将正常数据和异常数据分开，并记录各部分数据在原始数据中的位置。

S7：通过异常判断阈值与数据集密度的比较，判断出原始数据中的异常数据，并剔除。

具体来说，判断数据集密度是否小于异常判断阈值δ；若是，则相应的原始数据为异常数据；否则为正常数据。判断完成后，根据正常数据和异常数据的位置标签，在原始数据中用红色标识异常数据；删除具有红色标识的原始数据。如图6所示，第一部分中数据的毛刺及局部大幅波动的异常数据被很好的标识；第二部分展示的是异常值处理后的数据，可以看出数据异常处理效果较好。

相应的，如图7所示，本发明还公开了一种异常数据处理系统，包括：数据读取单元1、数据分布分析单元2、超限值剔除单元3、缺失数据处理单元4、去趋势处理单元5、聚类分析单元6和异常数据剔除单元7。

数据读取单元1，用于读取电力设备监测数据，作为原始数据。

数据分布分析单元2，用于通过时序图和箱线图描述原始数据的分布特征。

超限值剔除单元3，用于根据测点数据正常波动范围，在原始数据的分布特征中剔除超限值。

缺失数据处理单元4，用于填充原始数据中的数据缺失值。

去趋势处理单元5，用于采用DFA进行原始数据的去趋势处理，以消除数据趋势项。

聚类分析单元6，用于采用K-means聚类算法对原始数据进行聚类分析，并确定异常判断阈值。

异常数据剔除单元7，用于通过异常判断阈值与数据集密度的比较，判断出原始数据中的异常数据，并剔除。

相应的，本发明还公开了一种异常数据处理装置，包括：

存储器，用于存储计算机程序；

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。

同理，在本发明各个实施例中的各处理单元可以集成在一个功能模块中，也可以是各个处理单元物理存在，也可以两个或两个以上处理单元集成在一个功能模块中。

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

Claims

1.一种异常数据处理方法，其特征在于，包括如下步骤：

S1：读取电力设备监测数据，作为原始数据；

S2：通过时序图和箱线图描述原始数据的分布特征；

S4：填充原始数据中的数据缺失值；

S6：采用K-means聚类算法对原始数据进行聚类分析，并确定异常判断阈值；

2.根据权利要求1所述的异常数据处理方法，其特征在于，所述步骤S2包括：通过时序图表征原始数据的趋势特征、波动幅度和离散情况。

3.根据权利要求1所述的异常数据处理方法，其特征在于，所述步骤S3包括：根据箱线图确定原始数据中的最大值、最小值、中位数和两个四分位数据，以确定原始数据的整体形态，并采用阈值法去掉错误数据。

4.根据权利要求1所述的异常数据处理方法，其特征在于，所述步骤S4包括：通过对比样本集中相似的对象，并用相似对象中对应的值来填充原始数据中的数据缺失值。

5.根据权利要求1所述的异常数据处理方法，其特征在于，所述步骤S6包括：采用K-means聚类算法对原始数据进行聚类分析，将原始数据的数据集划分为M类数据集，通过滑动平均的方法依次捕捉M类数据集的密度范围，以确定异常判断阈值。

6.根据权利要求5所述的异常数据处理方法，其特征在于，所述步骤S6还包括：根据数据标签的连续性，对聚类分析后的原始数据进行划分，以将其中的正常数据和异常数据分离，并记录正常数据和异常数据在原始数据中的位置。

7.根据权利要求6所述的异常数据处理方法，其特征在于，所述步骤S7包括：判断数据集密度是否小于异常判断阈值；

若是，则相应的原始数据为异常数据；否则为正常数据；

根据正常数据和异常数据的位置标签，在原始数据中用红色标识异常数据；

删除具有红色标识的原始数据。

8.一种异常数据处理系统，其特征在于，包括：

缺失数据处理单元，用于填充原始数据中的数据缺失值；

9.一种异常数据处理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的异常数据处理方法步骤。