CN116089405A

CN116089405A - 一种基于dbscan和knn算法的用电数据离群点检测与清洗方法

Info

Publication number: CN116089405A
Application number: CN202211223795.3A
Authority: CN
Inventors: 吴伟将; 张轩城; 钱旭盛; 许高俊; 缪猛; 陈可; 何玮; 俞阳; 翟千惠
Original assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Current assignee: State Grid Jiangsu Electric Power Co ltd Marketing Service Center
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-05-09

Abstract

本发明公开了一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗方法，包括：对用电数据的空缺值进行预填充；预填充之后的用电数据分别进行单维数据的离群点检测以及基于改进的DBSCAN聚类算法的多维数据离群点检测，以确定异常离群数值，同时将异常离群数值按置空处理；然后利用数理统计和数据挖掘规则，对上述用电数据进行再清洗；基于改进的KNN近邻填补算法对空缺值填补：对排除离群点修正后的数据，采用主成分分析将特征属性影响并入到KNN的计算过程中，得到最终估算数值；最后再利用均方根误差对清洗后的数据进行评定。本发明实现了对用户用电数据离群点检测和清洗，提升了低压用户用电数据质量，保障后续针对低压用户异常用电行为研究结果的可靠性。

Description

一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗方法

技术领域

本发明涉及数据离群点的检测与处理，重点涉及电力数据的离群点检测与空缺值的填补方法。

背景技术

随着电网公司信息化建设进程的不断推进，台帐的业务数据急剧增加，关系型数据、文本型数据、实时数据等各种类型的数据呈海量增长，大量业务数据产生并积累。由于电力数据采集所涉及的设备种类多、数量大、质量不齐、设备更换，以及人工录入数据造成的错误和遗漏等问题，导致台账数据质量不高，数据质量的好坏影响着后续的数据分析以及基于各种业务场景需求的建模应用。因此，采用自动化、流程化手段，高效、准确地进行数据检测，对提升数据质量是十分必要的。实现台帐数据规范化处理，用自动化的检测代替人工检查方式，可以提高电力企业台账数据质量检测工作的检测速度，并为开展后续数据分析挖掘、模型构建等工作提供良好的数据环境基础。

发明内容

本发明的目的是提供一种基于改进的DBSCAN和KNN算法的低压用户用电数据离群点检测与清洗方法，以借助优化后的数据挖掘算法，更好的实现对数据的离群点的智能检测识别与空缺值填充，通过数据清洗后，提高数据质量。

为了实现上述目的，本发明提供如下技术方案：

一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗包括：

对用电数据的空缺值进行预填充；

对预填充之后的用电数据分别进行单维数据的离群点检测以及基于改进的DBSCAN聚类算法的多维数据离群点检测，以确定异常离群数值，同时将异常离群数值按置空处理；

然后利用数理统计和数据挖掘规则，对上述用电数据进行再清洗；

基于改进的KNN近邻填补算法对空缺值填补：对排除离群点修正后的数据，采用主成分分析将特征属性影响并入到KNN的计算过程中，得到最终估算数值。

在本发明一个优选实施例中，利用均方根误差对用电数据进行多次评定，包括不限于对用电数据异常值检测、剔除、空缺值填补后进行评定，利用均方根误差对其评定，比较处理后的用电数据与真实数据的误差。

在本发明一个优选实施例中，基于统计学方法的单维数据的离群点检测：依据统计学的相关方法，主要采用描述性统计分析方法、箱线图、拉依达法则之一的技术手段，对单维的用电数据进行逐项异常点检测。

在本发明一个优选实施例中，基于改进的DBSCAN聚类算法的多维数据离群点检测：采用核概率密度估计DBSCAN的参数：Eps邻域半径和MinPts密度阈值即簇内最少个数点，将改进后的DBSCAN聚类算法再对用户用电的电流、电压、用电量、功率的多维数据集进行数据离群点检测。

在本发明一个优选实施例中，改进的KNN填补算法过程如下：

Step1：构造数据的相关性系数矩阵。

首先对数据矩阵进行初始化，构建完整的数据矩阵X_m×n，m表示有m条数据记录，n表示数据维数，将排除掉离群点的缺失数据标记。再将数据进行标准化处理，计算数据不同属性维度的协方差，得到一个n维的协方差矩阵；

两随机变量的协方差公式如下：

n维协方差矩阵：

Step2：计算KNN算法的估计值；

首先计算完备数据集的欧式距离，由于存在数据集中存在缺失值，在计算欧氏距离时先暂时不考虑缺失值对应的维数，距离的大小决定后续的KNN的填补准确度，用X_i表示第i条数据记录，构造欧式距离矩阵：

从原始数据的第一行第一列开始遍历寻找缺失值x_ij，那么它所在的行数就是i，第i行所对应的距离矩阵即是dis的第i行。然后确定要使用的近邻的个数K，选取dis对应行的最小的K个数值构成向量：

d＝(dj×1,dj×2,...,dj×k)

最后通过加权计算求得替代值x₀：

X_pj是最近邻相应位置的数值，p是距离矩阵的列数对应原数据矩阵的行数；

Step3：计算维度相关值得到最终填补值；

首先计算每一个数值的偏差(偏离中心的程度)，即每一个数值减去该属性下的统计值的均值：

m₀是这个属性中未缺失的个数，x_ij就是对应的统计值；

其次求出缺失值所对应的属性所在维度的影响力大小，对除缺失值外的K个近邻中数据的观测值做同样操作，然后相加取均值，得到完备数据的属性和缺失值数据所对应属性维度的影响值大小：

r是数据项中这一行中未缺失的数据个数，也是现实条件下能统计到的对缺失值产生影响的维度数目，Coeff是a_i对应的协方差数值；

最后将原先估计的替代值x₀与维度相关量相加，即为最终的缺失值填补值x″：

x″＝x₀+x′

在本发明一个优选实施例中，利用统计规则和业务规则的数据预填充，包括：

通过计算分析数据中的统计特征：中位数、均值、众数，对数据空缺值进行预填充；

对中台获取的电力档案数据，生成数据框，每一行代表一个用户ID，每一列代表一个属性特征，对数据中存在的空缺值按其对应的列的属性分别进行计算其中位数、均值、众数；对于该列数据呈正常的对称分布，选用均值填充；当数据有偏的话选用中位数填充；当一数据出现频次较高，则选用其众数来填充；

结合居民实际的用电业务场景对其空缺值进行填充；

通过对用户以往数据显示，若用户的用电频次较少，用电需求小，电能示值较低，对于其用户的空缺值选择按0填充。

在本发明一个优选实施例中，基于改进的DBSCAN聚类算法的多维数据离群点检测流程如下：

Step1：根据原始数据分布特征，利用核密度估计出Eps的合理范围，继而通过期望确定MinPts候选范围；

Step2：采用轮廓系数法从候选范围中确定最优的参数；

Step3：将重塑好的DBSCAN算法对电流、电压、用电量、功率等多维度属性数据进行聚类，找出离群噪声点并置空。

在本发明一个优选实施例中，利用均方根误差对清洗后的数据进行评定，包括：

对数据异常值检测、剔除、空缺值填补后进行评定，采用均方根误差的方法，比较处理后的数据与真实数据的误差，选择从数据已存在的准确值中随机抽取一部分，对其进行修正和填充，对比修正值与准确值的均方根误差，其具体公式如下：

其中，x_i为原始数值，x″_i为填补数值；

其以均方根误差RMSE为评价目标缺失数据填补效果的指标，RMSE越小，说明目标缺失数据填补效果越好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实例提供的一种基于改进的DBSCAN和KNN算法的低压用户用电数据离群点检测与清洗方法的流程图；

图2为本发明实施提供的基于统计学方法的单维数据的离群点检测的流程图；

图3为本发明实施提供的基于改进的DBSCAN聚类算法的多维数据离群点检测的流程图；

图4为本发明实施提供的基于改进的KNN近邻填补算法对空缺值填补的流程图；

图5为本发明实施提供的数据清洗的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗方法，包括：

利用统计规则和业务规则的数据预填充：针对原始电力档案数据集中存在的空缺值，通过计算分析数据中的统计特征：中位数、均值、众数以及结合居民实际的用电业务场景对其空缺值进行填充。

基于统计学方法的单维数据的离群点检测：依据统计学的相关方法，主要采用描述性统计分析方法、箱线图、拉依达法则等技术手段，对单维的用电数据进行逐项异常点检测。

基于改进的DBSCAN聚类算法的多维数据离群点检测：采用核概率密度估计DBSCAN的参数：Eps(邻域半径)和MinPts(密度阈值即簇内最少个数点)，将改进后的DBSCAN聚类算法再对用户用电的电流、电压、用电量、功率等多维数据集进行数据离群点检测。

基于全量数据的清洗方法：利用数理统计和数据挖掘规则，对脏数据进行清洗，包括：错误数据的修正、重复数据的删除、空缺数据的填补。

基于改进的KNN近邻填补算法对空缺值填补：对排除离群点后的数据，采用主成分分析过程中产生的协方差矩阵作为整体用电特征的相关性，由缺失项和K个近邻的离差和相应相关性算出用电特征的影响量，再并入到KNN的计算过程中，得到最终估算数值。

利用均方根误差对清洗后的数据进行评定：对数据异常值检测、剔除、空缺值填补后进行评定，利用均方根误差对其评定，比较处理后的数据与真实数据的误差。

优选的，利用统计规则和业务规则的数据预填充，包括：

对中台获取的电力档案数据，生成数据框，每一行代表一个用户ID，每一列代表一个属性特征，对数据中存在的空缺值按其对应的列的属性分别进行计算其中位数、均值、众数。对于该列数据呈正常的对称分布，选用均值填充；当数据有偏的话选用中位数填充；当一数据出现频次较高，则选用其众数来填充。

结合居民实际的用电业务场景对其空缺值进行填充；

通过对用户以往数据显示，若用户的用电频次较少，用电需求小，电能示值较低，对于其用户的空缺值选择按0填充；

优选的，基于统计学方法的单维数据的离群点检测，包括：

①将从描述性统计方法入手，分别对96点电流、96点电压、用电量进行数据特征分析，从统计分析维度，查看数据的平均值、中位数、最大值、最小值、分位数以及标准差等基本描述性指标，判断其数值大小与周围数值的差异，若与其他数值差异较大，变化明显，则判断其异常离群数值。

②依据拉依达准则即3σ准则来判断96点电流和电压曲线数据的异常点，3σ准则是指先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理，它是以测量次数充分大为前提(样本>10)，当测量次数少的情形用准则剔除粗大误差是不够可靠的。一般的，如果任何数据点超过标准差σ的3倍，那么这些点被判定为统计学上的异常值或离群点。通过拉依达准则判定的异常点按置空处理。

3δ法则为：

对象数值分布在(μ-σ,μ+σ)中的概率为0.6827

对象数值分布在(μ-2σ,μ+2σ)中的概率为0.9545

对象数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

从法则可知，数据集的取值几乎全部集中在(μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3％。即如果任何数据点超过标准差σ的3倍，那么这些点被判定为统计学上的异常值或离群点。

其次，再通过箱线图对用电数据进行异常点进行校验分析，箱形图是数字数据通过其四分位数形成的图形化描述。这是一种非常简单但有效的可视化离群点的方法。考虑把上下触须作为数据分布的边界。任何高于上触须或低于下触须的数据点都可以认为是离群点或异常值。

四分位间距(IQR)的概念被用于构建箱形图。IQR是统计学中的一个概念，通过将数据集分成四分位来衡量统计分散度和数据可变性。四分位间距是第三个四分位数和第一个四分位数的差(IQR＝Q3-Q1)。在这种情况下，离群点被定义为低于箱形图下触须(或Q1-1.5x*IQR)或高于箱形图上触须(或Q3+1.5*IQR)的观测值。

③再通过箱形图对用电数据进行异常点进行校验分析，箱形图是数字数据通过其四分位数形成的图形化描述。这是一种非常简单但有效的可视化离群点的方法。考虑把上下触须作为数据分布的边界。IQR表示四分位间距，它是第三个四分位数和第一个四分位数的差，分位数用Q表示。一般的，在统计学上，我们把Q3+1.5*IQR定义为箱形图的上触须，把Q1-1.5*IQR定义为箱形图的下触须。任何高于上触须或低于下触须的数据点都可以认为是离群点或异常值。我们对于电流、电压、用电量数据，分别对其每一列的字段数据进行箱形图校验分析，判定的离群点按空值处理。

优选的，基于改进的DBSCAN聚类算法的多维数据离群点检测，包括：DBSCAN算法识别离群点的主要原理：数据集中给定eps(半径)范围内的数据点数量不小于一定的Minpts(最小数目)阈值，按一定的顺序选择数据集内某个点n，如果n为核心点，那么进行邻域查询获得n的邻域，若邻居点和n属于一类，则这些点会被当做下一次的种子点，通过持续的对种子点执行区域查询来扩展它们的所在类，直至发现一个整体的簇，然后，重复这个流程继续找寻剩下的类。最后判定不归属于任何类的剩下的点是噪声点。

假设数据X服从独立分布F，从中抽取x₁,x₂,...x_n，n个样本点，函数概率密度为f，核密度估计公式如下：

其中，h>0表示带宽,是一个平滑参数，K(x)表示核函数。同时K(x)也满足如下条件：

K(x)≥0，∫K(x)dx＝1，∫xK(x)dx＝0,∫x²K(x)dx>0

核密度的估计精度往往取决于其带宽的选择，不同的带宽往往会导致不同的拟合估计结果。由于带宽有取值越大，概率分布曲线越平滑，取值越小概率分布越陡峭的特点，选取均方积分误差(MISE)函数来确定其带宽值，公式如下：

在弱假设的情况下，渐进后的MISE为：

其中R(K)，m2(k)定义为：

R(K)＝∫K(x)²dx,m₂(K)＝∫x²K(x)dx

为使风险程度最小化，即求均方积分误差最小值，也即使求AMISE的最小值，对AMISE进行求偏导并令其为零，有：

上式中，m、R可由核函数来确定。

由于核密度估计并不能直接得出DBSCAN的最优参数，只能给参数估计出一个合理化的参数选取区间。基于此，可将中台获取的电力档案样本数据，分别按其电流、电压、用电量计算其所有样本之间的欧式距离，生成距离矩阵Dist，通过核密度估计方法绘制相应的密度与距离的曲线图，由曲线图可预估出Eps的取值候选范围，计算其数学期望，根据距离矩阵Dist，在给定的数据集中求出MinPts的估计值区间，如下：

其中，P_i表示对象i的Eps领域内包含的样本个数。

对于核密度估计得到的Eps和MinPts的两个合理的区间值，再引用轮廓系数对其参数区间内进行寻优，确定最终合适的具体参数。轮廓系数对于聚类分析是一个很常用的评判指标，能够很好利用簇类密集度、簇间分散度信息来反映其聚类效果，轮廓系数的计算公式如下：

其中，a_i表示第i个对象到所在簇中其他对象的平均距离，b_i表示第i个对象到除了i所在簇以外的其他簇内对象的平均距离。s(i)∈[-1,1]，该数值越接近于1说明分类越合理。

将最终确定的参数带入DBSCAN算法中，将每个用户档案的用电数据按电流、电压、用电量分别进行DBSCAN密度聚类，判断聚类结束后，其远离聚类中心没被划为簇内的剩下的点即为离群点。

具体DBSCAN的主要步骤，处理流程如下：

输入：数据集，邻域半径Eps，邻域中数据对象数目阈值MinPts；

Step1:从数据集中任意选取一个数据对象点p；

Step2:如果对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇；

Step3:如果选取的数据对象点p是边缘点，选取另一个数据对象点；

Step4:重复(2)、(3)步，直到所有点被处理。

输出：密度联通簇。

由于DBSCAN的两个参数需要事先人为确定，靠经验来评判，对于分布不均的电力数据，以及存在的复杂情况，聚类的效果很难达到预期，造成的误差波动也较大。

基于此，我们采用核密度函数来对DBSCAN的参数进行估计，先估计出参数的合理区间，再通过轮廓系数确定区间上的最优具体参数值，从而来作为我们最终的聚类。

构造核密度函数：

假设数据X服从独立分布F，从中抽取x₁,x₂,...x_n，n个样本点，函数概率密度为f，h>0表示带宽,是一个平滑参数，K(x)表示核函数，其密度如下：

K(x)也满足以下条件：

K(x)≥0，∫K(x)dx＝1，∫xK(x)dx＝0,∫x²K(x)dx>0

由于带宽的选择很难确定，不同的带宽往往会导致拟合的结果有很大差异，因此选择选取均方积分误差(MISE)函数来确定其带宽值，公式如下：

在弱假设的情况下，渐进后的MISE为：

MISE(h)＝AMISE(h)+o(1/(nh)+h⁴)

其中R(K)，m2(k)定义为：

R(K)＝∫K(x)²dx,m₂(K)＝∫x²K(x)dx

上式中，m、R可由核函数来确定。

确定好带宽后，核密度函数便能确定下来。计算抽取的样例数据集的样本间距离Dist，距离公式由欧氏距离确定，以横轴为距离，纵轴为密度，绘制出核密度估计曲线。由曲线图中可得到簇间密度和簇内密度的信息，在聚类中，选取簇内密度较高的距离，以此可确定Eps的候选范围。

根据Eps的预估值范围，采用数学期望的方法，根据距离矩阵Dist，在给定数据集中求出MinPts的合理区间，公式如下：

其中，P_i表示对象i的Eps领域内包含的样本个数。

其中，a_i表示第i个对象到所在簇中其他对象的平均距离，b_i表示第i个对象到除了i所在簇以外的其他簇内对象的平均距离。s(i)∈[-1,1]，该数值越接近于1说明分类越合理。比较轮廓系数，选取最大值，最终由此确定DBSCAN聚类的最优参数。

整体的基于改进的DBSCAN聚类算法的多维数据离群点检测流程如下：

Step1：根据原始数据分布特征，利用核密度估计出Eps的合理范围，继而通过期望确定MinPts候选范围。

Step2：采用轮廓系数法从候选范围中确定最优的参数

优选的，基于全量数据的清洗方法，包括：利用数理统计和数据挖掘规则，对脏数据进行清洗。数据清理是将数据库精简以除去重复记录，并使剩余部分转换成标准可接收格式的过程。

数据清理标准模型是将数据输入到数据清理处理器，通过一系列的步骤“清理”数据，然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、唯一性、有效性等几个方面处理数据的丢失值，越界值，不一致性，重复数据等问题。数据清理一般针对具体的应用，难以归纳统一的方法和步骤。主要解决方法如下：

①解决不完整数据的方法

多数情况，缺失值必须手工填入，缺失值可以从本数据源或其他数据源推导出来，这可以用平均值、最大值、最小值或更复杂的概率估计来代替缺失值。

②错误值的监测及解决方法

用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或者回归方程的值，也可以用简单的规则库(常识性规则、业务特定规则等)检查数据，或使用不同属性间的约束、外部的数据来检测和清理数据。

③重复记录的监测及消除方法

数据库中属性值相同的记录被认为是重复记录，通过判断记录的属性值是否相等来检测记录是否相等，相等的记录合并为一条记录。

优选的，基于改进的KNN近邻填补算法对空缺值填补，包括：

KNN近邻填补算法简单、直观，对于给定的含有缺失项的目标数据的输入训练数据集，首先计算目标数据与输入训练数据集的每条数据记录的欧氏距离如n维空间中x₀与其它数据记录之间的欧氏距离可表示为

从中选出欧式距离最小的k个数据记录作为k最近邻数据，然后计算目标数据k最近邻的权值

最后估算缺失项的目标数据的值并填补。

KNN算法主要步骤归纳如下：

Step1：数据初始化，构建完全值数据矩阵:(x₁,x₂,…,x_j,…,x_m)^T,其中[X]r是数据的第r个属性，r≤n，m为样本数量；

Step2：计算目标数据与完全值数据矩阵中数据记录的欧式距离，给定一个缺失实例x_ir:

Step3：选出距离最小的k个距离，作为目标数据的k最近邻数据；

Step4：计算目标数据k最近邻的权值，填补缺失数据：

为了提高对缺失数据的填补效果，增强属性的相关影响，对排除离群点后的数据，采用主成分分析过程中产生的协方差矩阵作为整体用电特征的相关性，由缺失项和K个近邻的离差和相应相关性算出用电特征的影响量，再并入到KNN的计算过程中，得到最终估算数值。

改进的KNN填补算法过程如下：

Step1：构造数据的相关性系数矩阵。

首先对数据矩阵进行初始化，构建完整的数据矩阵X_m×n，m表示有m条数据记录，n表示数据维数，将排除掉离群点的缺失数据标记。再将数据进行标准化处理，计算数据不同属性维度的协方差，得到一个n维的协方差矩阵。

两随机变量的协方差公式如下：

n维协方差矩阵：

Step2：计算KNN算法的估计值

首先计算完备数据集的欧式距离，由于存在数据集中存在缺失值，在计算欧氏距离时先暂时不考虑缺失值对应的维数。距离的大小决定后续的KNN的填补准确度，用X_i表示第i条数据记录，构造欧式距离矩阵：

d＝(dj×1,dj×2,...,dj×k)

最后通过加权计算求得替代值x₀：

X_pj是最近邻相应位置的数值，p是距离矩阵的列数对应原数据矩阵的行数。

Step3：计算维度相关值得到最终填补值

将前面得到的协方差矩阵和K近邻数据组成K近邻矩阵，对其计算每一个数值的偏差(偏离中心的程度)，即每一个数值减去该属性下的统计值的均值：

m₀是这个属性中未缺失的个数，x_ij就是对应的统计值。

r是数据项中这一行中未缺失的数据个数，也是现实条件下能统计到的对缺失值产生影响的维度数目，Coeff是a_i对应的协方差数值。

最后将原先估计的替代值x0与维度相关量相加，即为最终的缺失值填补值x″：

x″＝x₀+x′

优选的，利用均方根误差对清洗填补后的数据进行评定：对数据异常离群值检测、置空、空缺值填补后的效果进行评定，通过利用均方根误差来比较处理后的数据与真实数据的误差。

从数据中随机选取一组数据进行测试，先从原数据集已存在的准确值中随机抽取一部分，对其进行修正和填充，对比修正值与准确值的均方根误差，其具体公式如下：

其中，xi为原始数值，x″_i为填补数值。

由公式定义知，其均方根误差越小，说明其改进算法对数据的清洗填充处理效果越好。

实施例：

请参阅图1，其出示了本发明实施例提供的一种基于改进的DBSCAN和KNN算法的低压用户用电数据离群点检测与清洗方法的流程图，包括：

S101：利用统计规则和业务规则对数据预填充。

首先针对原始电力档案数据集中存在的空缺值，通过计算分析数据中的统计特征：中位数、均值、众数以及结合居民实际的用电业务场景对其空缺值进行填充。

S102：基于统计学方法的单维数据的离群点检测。

再依据统计学的相关方法，主要采用描述性统计分析方法、箱线图、拉依达法则技术手段，对其预填充过的单维的用电数据进行逐项异常点检测，将检测出的异常点数据置空处理。

S103：基于改进的DBSCAN聚类算法的多维数据离群点检测。

对于多维数据，通过DBSCAN密度聚类算法来对其进行离群点检测，由于其算法需要事先确定Eps与MinPts两个参数，不同的参数选取会导致不同的聚类情况，影响与真实结果的误差。为此，采用核概率密度去估计DBSCAN的参数：Eps(邻域半径)和MinPts(密度阈值即簇内最少个数点)，将改进后的DBSCAN聚类算法再对用户用电的电流、电压、用电量、功率等多维数据集进行数据离群点检测，并将测出的离群点置空处理。

S104：基于全量数据的清洗方法。

利用数理统计和数据挖掘规则，对脏数据进行清洗，包括：错误数据的修正、重复数据的删除、空缺数据的填补。

S105：基于改进的KNN近邻填补算法对空缺值填补。

对排除离群点后的数据，采用主成分分析过程中产生的协方差矩阵作为整体用电特征的相关性，由缺失项和K个近邻的离差和相应相关性算出用电特征的影响量，再并入到KNN的计算过程中，得到最终估算数值。

S106：利用均方根误差对清洗填补后的数据进行评定。

对数据异常值检测、剔除、空缺值填补后进行评定，采用均方根误差的方法，比较处理后的数据与真实数据的误差。

请参阅图2，其出示了本发明实施提供的基于统计学方法的单维数据的离群点检测的流程图，包括：

S201：借助描述性统计方法：计算数据的平均值、中位数、最大值、最小值、分位数以及标准差等基本描述性指标判定异常值。

对96点电流、96点电压、用电量数据分别计算其统计特征指标，比较数值大小，通过判断其数值的波动大小情况来检测异常值。

S202：依据拉依达准则即3σ准则来判断96点电流和电压曲线数据的异常点。

由于中心定理可知，当数据量比较大时，数据的分布趋近于正态分布，通过拉依达准则，可判断3σ外的电流、电压数据为异常点。

S203：利用箱形图对用电数据进行异常点进行校验。

将数据按四分位间距IQR进行表示，IQR是统计学中的一个概念，它是第三个四分位数和第一个四分位数的差值，通过将数据集分成四分位来衡量统计分散度和数据可变性，规定离群点被定义为低于箱形图下触须(或Q1-1.5x IQR)或高于箱形图上触须(或Q3+1.5xIQR)的观测值。

请参阅图3，其出示了本发明实施提供的基于改进的DBSCAN聚类算法的多维数据离群点检测的流程图。

S301：根据原始数据分布特征，利用核密度估计出Eps的合理范围，继而通过期望确定MinPts候选范围。

选取均方积分误差(MISE)函数来确定其带宽值，公式如下：

在弱假设的情况下，渐进后的MISE为：

MISE(h)＝AMISE(h)+o(1/(nh)+h⁴)

其中R(K)，m2(k)定义为：

R(K)＝∫K(x)²dx,m₂(K)＝∫x²K(x)dx

求均方积分误差最小值，也即使求AMISE的最小值，对AMISE进行求偏导并令其为零，有：

其中，Pi表示对象i的Eps领域内包含的样本个数。

S302：采用轮廓系数法从候选范围中确定最优的参数。

对于核密度估计得到的Eps和MinPts的两个合理的区间值，再引用轮廓系数对其参数区间内进行寻优，确定最终合适的具体参数。轮廓系数构造如下：

其中a_i代表样本点的内聚度，j代表与样本i在同一个类内的其他样本点，distance代表了求i与j的距离。所以a_i越小说明该类越紧密。轮廓系数越接近于1，说明算法聚类效果越好，选取轮廓系数最大的参数值作为最终的DBSCAN聚类参数。

S303：将重塑好的DBSCAN算法对电流、电压、用电量、功率等多维度属性数据进行聚类，找出离群噪声点并置空。

将确定好的DBSCAN参数固定，对电力档案的电流、电压、用电量、功率等多维度数据进行聚类，分别检测出基于电流、电压、用电量、功率等维度属性的离群值，并将其置空处理，给后续填补工作做准备。

请参阅图4，其出示了本发明实施提供的基于基于改进的KNN近邻填补算法对空缺值填补的流程图。

S401：构造数据的相关性系数矩阵。

两随机变量的协方差公式如下：

n维协方差矩阵：

S402：计算KNN算法的估计值。

先计算完备数据集的欧式距离，由于存在数据集中存在缺失值，在计算欧氏距离时先暂时不考虑缺失值对应的维数。距离的大小决定后续的KNN的填补准确度，用X_i表示第i条数据记录，构造欧式距离矩阵：

从原始数据的第一行第一列开始遍历寻找缺失值xij，那么它所在的行数就是i，第i行所对应的距离矩阵即是dis的第i行。然后确定要使用的近邻的个数K，选取dis对应行的最小的K个数值构成向量：

d＝(dj×1,dj×2,...,dj×k)

最后通过加权计算求得替代值x0：

Xpj是最近邻相应位置的数值，p是距离矩阵的列数对应原数据矩阵的行数。

S403：组成K近邻矩阵，计算其维度相关值得到最终填补值。

m₀是这个属性中未缺失的个数，xij就是对应的统计值。

x″＝x₀+x′

1、请参阅图5，基于全量数据的清洗方法，包括：

数据清洗、去噪包括数据的一致性、完整性、合规性及精确性等，数据清理一般由计算机而不是人工完成。对抽取的数据惊醒清洗去噪、补充空缺数据，平滑噪声数据，识别、删除孤立点，解决不一致性，从而提高数据的精确度、完整度、一致性，有了高质量的用户档案和用户用电信息数据，才能保证窃电用户识别、分析挖掘结果的准确性。

数据清洗利用有关技术如数理统计、数据挖掘或者预先定义的清洗规则将脏数据转换为满足数据质量要求的数据。

Claims

1.一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗方法，其特征在于，包括：

对用电数据的空缺值进行预填充；

2.根据权利要求1所述的一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗方法，其特征在于，利用均方根误差对用电数据进行多次评定，包括不限于对用电数据异常值检测、剔除、空缺值填补后进行评定，利用均方根误差对其评定，比较处理后的用电数据与真实数据的误差。

3.根据权利要求1所述的一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗方法，其特征在于，基于统计学方法的单维数据的离群点检测：依据统计学的相关方法，主要采用描述性统计分析方法、箱线图、拉依达法则之一的技术手段，对单维的用电数据进行逐项异常点检测。

4.根据权利要求1所述的一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗方法，其特征在于，基于改进的DBSCAN聚类算法的多维数据离群点检测：采用核概率密度估计DBSCAN的参数：Eps邻域半径和MinPts密度阈值即簇内最少个数点，将改进后的DBSCAN聚类算法再对用户用电的电流、电压、用电量、功率的多维数据集进行数据离群点检测。

5.根据权利要求1所述的一种基于DBSCAN和KNN算法的用电数据离群点检测与清洗方法，其特征在于，

改进的KNN填补算法过程如下：

Step1：构造数据的相关性系数矩阵。

两随机变量的协方差公式如下：