CN111444241B

CN111444241B - 一种基于数据挖掘的台区线损异常关联用户精准定位方法

Info

Publication number: CN111444241B
Application number: CN202010226428.3A
Authority: CN
Inventors: 陈光宇; 徐嘉杰; 张仰飞; 郝思鹏; 刘海涛; 吕干云
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-12-22
Anticipated expiration: 2040-03-26
Also published as: CN111444241A

Abstract

一种基于数据挖掘的台区线损异常关联用户精准定位方法，包括：获取给定的异常台区线损率；进行K‑means聚类；建立台区线损率标准库和异常库；确定异常时间段；用电数据预处理，得到具有研究意义的用户电量；分别计算异常时间段内各用户电量和线损率的皮尔逊系数；利用设定的阈值进行初步筛选，得到和线损异常关联性较大的用户电量集合；分别计算集合中各用户电量曲线与线损率曲线改进的欧氏距离；基于加权皮尔逊系数和欧氏距离的相似性度量，计算皮尔逊系数和欧式距离的权重系数，精准定位所有异常用户。本发明考虑了单场景下台区的用户电量和线损率关联性并结合具体台区的历史数据分析，提高了精准定位的快速性和准确性。

Description

一种基于数据挖掘的台区线损异常关联用户精准定位方法

技术领域

本发明属于大数据下精准定位异常技术领域，具体涉及一种基于数据挖掘的台区线损异常关联用户精准定位方法。

背景技术

随着国家能源资源高效开发和利用战略决策的实施，节能逐渐成为缓解能源供应矛盾的重要手段，而电力行业是节能工作重要的领域之一。电力作为经济社会发展的重要支撑，降低电能在传输、分配和销售过程中的损耗与损失，是供电企业的重要工作之一。

现有的台区线损异常关联用户定位方法，在具体算例和功能实现的考虑等方面存在一些缺陷。一是仅仅考虑到使用皮尔逊系数算法确定用户电量波动和线损率变化的关联程度，没有具体分析异常用户电量和线损率两条曲线之间的形状相似性；二是由于线损数据量庞大，需通过数据挖掘算法分析线损波动和电量波动的关系，精确定位异常用户，开展线损的针对性治理，目前的台区线损异常关联用户定位方法是人工进行海量数据计算后的粗略定位以及逐一排查，忽略了对台区大数据的分析与挖掘，不仅加大了计算量，也缺乏准确性。

发明内容

本发明针对现有技术中的不足，提供一种基于数据挖掘的台区线损异常关联用户精准定位方法。本发明在历史线损率K-means聚类结果的基础上，建立了台区线损率标准库和异常库；同时，根据生成的异常库数据，确定异常时间段T；从用电数据缺失值、噪声值和归一化三个处理方面展开，针对用电数据进行预处理，得到具有研究意义的用户电量集合{W_j}；分别计算异常时间段内集合{W_j}内各用户电量和线损率的皮尔逊系数r_xy；利用设定的阈值进行初步筛选，得到和线损异常关联性较大的用户电量集合{W_k}；分别计算集合{W_k}中各用户电量曲线与线损率曲线改进的欧氏距离D_E；基于加权皮尔逊系数和欧氏距离的相似性度量，计算皮尔逊系数和欧式距离的权重系数P，精准定位所有异常用户。

为实现上述目的，本发明采用以下技术方案：

一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于，包括如下步骤：

S1、导入给定的异常台区线损率；

S2、针对导入的异常台区线损率进行K-means聚类；

S3、基于聚类结果建立异常台区线损率标准库和异常库；

S4、根据异常库确定异常时间段T；

S5、进行用电数据预处理，得到具有研究意义的用户电量集合{W_j}；

S6、分别计算异常时间段T内集合{W_j}中各用户电量和对应线损率的皮尔逊系数r_xy；

S7、利用设定的阈值进行初步筛选，得到和线损异常关联性较大的用户电量集合{W_k}；

S8、分别计算集合{W_k}中各用户电量曲线与线损率曲线的欧氏距离D_E；

S9、基于加权皮尔逊系数和欧氏距离的相似性度量，计算皮尔逊系数和欧式距离的权重系数，精准定位所有异常用户。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1中的台区线损率是用于判断台区是否存在异常的依据，其值由用电信息采集系统提供的线损电量计算得出，线损率计算公式如下式(1)：

式中，LLR表示线损率，E_m表示抄表电量，E_s表示实际售电量。

进一步地，步骤S2中针对异常台区线损率进行K-means聚类，在软件IBM SPSSStatistics 25中实现功能，算法流程如下：

S21、首先从数据空间中选k个数据点为初始聚类均值；

S22、计算每个数据点到这些聚类均值的距离，然后将各数据点分配给离它最近的那个聚类；

S23、若所有数据点不再被重新分配，则停止并保持现有聚类；

S24、如果仍有数据点被重新分配，则重新计算均值，并返回步骤S22。

进一步地，步骤S3中根据K-means聚类结果建立异常台区线损率标准库和异常库，异常库中不仅存放异常用户电量，还存储有对应的具体日期；

建立异常台区线损率标准库和异常库包括如下步骤：

S31、导入该台区所有线损率数据；

S32、对台区线损率进行K-means聚类；

S33、找出个案数目最多的聚类，确定该聚类的聚类中心；

S34、计算该聚类中所有点到聚类中心的最大距离；

S35、若满足如下的规则，则将线损率存放至一个特定的集合中并称之为线损率标准库；反之，则将其存放在线损率异常库中，评判规则如下式(2)：

|LLR_i-x|≤r+Δr (2)

式中，LLR_i表示导入该台区所有线损率数据，x表示个案数目最多的聚类中心，r表示该聚类中所有点到该聚类中心的最大距离，Δr表示误差。

进一步地，步骤S4中，根据已经生成的异常台区线损率异常库确定异常时间段T，其中，T是时间区间，由若干个连续的日期组成。

进一步地，步骤S5中，对用户用电数据进行预处理，包括缺失值和异常值的处理以及规范化处理，通过规范化处理，去除其量纲形式，转化为更加规范化的数据形式。

进一步地，步骤S6中，面对用户电量集合{W_j}，计算异常时间段T内各用户电量W_j和对应线损率的皮尔逊系数r_xy，该算法描述了两个定距变量间联系的紧密程度，用于度量两个变量X和Y之间的相关，其值介于-1与1之间，用r_xy表示，计算公式为：

式中，N为样本量，X、Y分别为异常时间段T内用户电量和台区线损率的观测值；r_xy的绝对值越大表明相关性越强。

进一步地，步骤S7中，设定的阈值θ的标准为：

0.8＜θ≤1.0极强相关；

0.6＜θ≤0.8强相关；

0.4＜θ≤0.6中等程度相关；

0.2＜θ≤0.4弱相关；

0.0≤θ≤0.2极弱相关或无相关。

进一步地，步骤S8中，由于用户电量和线损是等长时间序列，采用欧式距离来判断集合{W_k}中各用户电量曲线与线损率曲线的相似度：

设两个序列X(t)＝{x(1)，x(2)，…，x(k)}和Y(t)＝{y(1)，y(2)，…，y(k)}，则欧式距离为：

式中，X、Y分别为异常时间段T内的用户电量和台区线损率，k表示集合{W_k}中的样本量；通过对两条曲线进行欧式距离计算，得到两条曲线相似性程度，欧式距离越小，相似度越大；用户电量曲线的x轴表示时间，y轴表示用户电量；线损率曲线的x轴表示时间，y轴表示线损率；

判断该台区用户电量和线损率的相似度时，首先为了消除y方向位移和尺度的影响，对用户电量和线损率采用最小-最大规范化的方法进行归一化处理，对原始数据进行线性变换，将其数值投射到[0，1]范围内，归一化处理的转化公式如式(5)：

式中，对用户电量进行归一化处理时：X(LLR_k，W_k)表示k个用户电量的归一值，X′(LLR_k，W_k)表示k个用户电量的实际值，X′(LLR_k，W_k)_min表示异常时间段内k个实际用户电量中的最小值，X′(LLR_k，W_k)_max表示异常时间段内k个实际用户电量的最大值；对线损率进行归一化处理时：X(LLR_k，W_k)表示k个线损率的归一值，X′(LLR_k，W_k)表示k个线损率的实际值，X′(LLR_k，W_k)_min表示异常时间段内线损率序列中的最小值，X′(LLR_k，W_k)_max表示异常时间段内线损率序列中的最大值；

由于用户电量曲线和线损率曲线是反相关关系，对线损率曲线还进行如下处理：首先将线损率曲线关于x轴做对称，再将其向y轴正方向平移1个单位，从而使两条曲线均在[0，1]之间并且保证两者的相似性，用于计算欧氏距离。

进一步地，步骤S9中，选择衡量形状相似性的皮尔逊系数和衡量数值相似性的欧氏距离来度量用户电量曲线和线损率曲线之间的相似度；由于皮尔逊系数范围在-1～1内，其值越大，相似性越高，而欧氏距离越大，相似性越小，因此对皮尔逊系数求绝对值，对欧氏距离求

值，使其改变形式后的值在0～1内，同时也满足了欧式距离越大，皮尔逊系数和欧氏距离加权求和后的匹配度仍然越小的关系，设匹配度为P，由式(3)和式(4)得加权相加后的匹配度计算公式为：

式中，P为匹配度，μ₁和μ₂为皮尔逊系数相似性度量和欧氏距离相似性度量的权重系数，两者的取值取决于形状相似性和数值相似性的重要度，需满足μ₁+μ₂＝1，使得加权求和后的匹配度P值仍在[0，1]；匹配度P值越大，则相似性越大，说明用户异常嫌疑越大，从而精准定位异常用户。

本发明的有益效果是：本发明考虑了单场景下的线损率变化，提出一种基于历史数据的台区线损异常关联用户精准定位方法，避免了人工对于海量数据的计算，从而提高了用户定位的准确性；在历史线损率K-means聚类结果的基础上，结合使用IBM SPSSStatistics 25软件和python skleam模型，建立了台区线损率标准库和异常库，为线损率异常的判断提供了依据；从用电数据缺失值、噪声值和归一化三个处理方面展开，针对用电数据进行预处理，得到具有研究意义的用户电量集合{W_j}；计算异常时间段T内有效用户电量集合{W_j}中各用户电量和线损率的皮尔逊系数r_xy，确定和线损异常关联性较大的用户电量集合{W_k}，进一步缩小嫌疑用户范围，节省了计算迭代时间；计算和线损异常关联性较大的用户电量集合{W_k}中用户电量和线损率两条曲线改进的欧氏距离D_E，并计算皮尔逊系数和欧式距离的权重系数，精准定位所有异常用户；本发明还采用xx公用变02#台区历史用电量和线损率数据作为样本来进行实验分析与验证，增强了算法的说服力。

附图说明

图1是本发明的方法流程图。

图2是xx公用变02#台区线损率雷达图。

图3是台区线损率聚类结果示意图。

图4是异常时间段T内xx公用变02#台区线损率与5xxxxxx158用户用电量变化折线图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

如图1至图4所示，本发明提供了一种基于数据挖掘的台区线损异常关联用户精准定位方法，包括如下步骤：

一、导入给定的异常台区线损率并进行K-means聚类。

台区线损率是用于判断台区是否存在异常的依据，其值由用电信息采集系统提供的线损电量计算得出，线损率计算公式如下：

由于K-means算法可以处理大数据集，具有很好的可伸缩性和很高的效率，简单快速，能够适应数据量增长的实时性处理的需求，广泛地运用在大规模数据聚类中，因此本文选取K-means算法对样本进行聚类。针对异常台区线损率进行K-means聚类，该算法是一种无监督学习方法，在解决小样本问题时有独特优势，在软件IBM SPSS Statistics 25中实现功能，算法流程如下：

1.1、首先从数据空间中选k个数据点为初始聚类均值；

1.2、计算每个数据点到这些聚类均值的距离，然后将各数据点分配给离它最近的那个聚类；

1.3、若所有数据点不再被重新分配，则停止并保持现有聚类；

1.4、如果仍有数据点被重新分配，则重新计算均值，并返回步骤1.2。

本文以xx公用变02#为例，采用上述方法进行数据分析，结合使用软件IBM SPSSStatistics 25对该台区历史线损率进行K-means聚类，将聚类数设置为3，得到最终聚类中心和每个聚类中的个案数目，如下表1和表2所示。

表1最终聚类中心

表2每个聚类中的个案数目

二、基于聚类结果建立台区线损率标准库和异常库，并确定异常时间段T。

根据K-means聚类结果建立异常台区线损率标准库和异常库，要求异常库中不仅存放异常用户电量，还要存储对应的具体日期，以便于异常时间段T的直接读取。

建立异常台区线损率标准库和异常库包括如下步骤：

2.1、导入该台区所有线损率数据；

2.2、对台区线损率进行K-means聚类；

2.3、找出个案数目最多的聚类，确定该聚类的聚类中心；

2.4、计算该聚类中所有点到聚类中心的最大距离；

2.5、若满足如下的规则，则将线损率存放至一个特定的集合中并称之为线损率标准库；反之，则将其存放在线损率异常库中。评判规则如下：

|LLR_i-x|≤r+Δr

本文以xx公用变02#台区为例，采用上述评判规则进行数据分析。由步骤2.3和表1、2可知，找出个案数目最多的聚类为聚类2，共有172个；确定聚类2的聚类中心为1.8，则上述评判规则中的x为1.8；计算聚类2中所有点到聚类中心x的距离并取最大值，不难求出r为1.01，考虑到未来该台区的线损率会实时发生变化，故设置一个误差值Δr。为了方便理解，评判规则可用雷达图表示，如图2所示。

如图2所示，圆形边框之内的线损率均满足评判规则，里面的所有元素构成了xx公用变02#台区线损率标准库；其余线损率则构成了台区线损率异常库，并将对应的日期也一同存放在异常库中。标准库是以区间存在的，又计及误差Δr的影响，故将该台区的历史线损率标准库设置为[0.6，3]。

也可利用python sklearn模型生成台区历史线损率的标准库和异常库，如图3所示。

与通过评判规则|LLR_i-x|≤r+Δr建立的台区历史线损率标准库和异常库结果完全一致。根据已经生成的异常台区线损率异常库确定异常时间段T，并规定T是时间区间。换言之，T必须由若干个连续的日期组成。由图2和图3可知，该台区的历史线损率异常库由两部分组成：一部分是以4.79为聚类中心，个案数目为15个；另一部分是以20.45为聚类中心，个案数目为1。

若要确定异常时间段，必须研究异常库中的数据及其特点。在此不妨做个假设：忽略线损率波动较小且周期为1～2天的时间段。以xx公用变02#台区为例，异常库中对应的异常时间段分别为1月29日、3月6日～3月19日以及4月12日。若线损率只在1天发生了异常，由于不具有规律性和持续性，可忽略不计。故该台区的异常时间段可初步判断为3月6日～3月19日。

三、从用电数据缺失值、噪声值和归一化三个处理方面展开，针对用电数据进行预处理，得到具有研究意义的用户电量集合{W_j}。

由于用电数据在采集过程中频次、精度的缺乏，造成了数据存在部分缺失值、噪声值，会干扰数据分析的过程，影响最终的识别效果，本文对原始用电数据的预处理以缺失值和异常值的处理为主。同时，用电数据指标有很多不同的量纲单位，他们之间可能存在着倍数级的数值大小差异，这种差异不利于数据分析以及模型的建立，因此需要对用电数据进行规范化的处理，去除其量纲形式，转化为更加规范化的数据形式。

3.1、用电数据缺失值的处理

在原始用电数据中，尤其是在抽取用户用电量的过程中，发现存在数据缺失的情况。如果将这些缺失数据直接抛弃，将会影响到模型的训练过程，以及供电量的计算结果，导致最终的分析效果有误差，形成异常用电用户的漏判误判。处理缺失值的时候，可将数据严重缺失的用户的缺失数据不作处理，直接将其判定为异常用户，对于分散、缺失较少的用电数据进行异常值处理。在处理数据缺失值的插值法中主要有拉格朗日插值法和牛顿插值法，本文中对于缺失的用户用电数据采用拉格朗日插值法进行插补。在对用户用电数据缺失值进行插补时，首先要确定出自变量和因变量，若前后数据中存在数据为空的情况，则直接将数据抛弃，将仅存的数据组成一组，然后取出5个在缺失值前后范围内的数据，将再取出来的数据组成一组，接着采用拉格朗日多项式：

式中，N为数据量，L_n(x)为最终的插值结果，x为缺失值对应的下标序号，x_i为非缺失值y_i的下标序号，x_j为非缺失值y_j的下标序号。

3.2、用电数据噪声值的处理

在用电数据中，必然会存在一些与实际偏差较大且明显不符合逻辑的数据，这些噪声数据会造成指标的异常，从而进一步导致实验结果的的分析偏差。在实际处理过程中，存在两种极端情况，若噪声数据清除不够干净，则会使异常用电用户识别的精度不够高，而一旦处理过度，将一些具有关键特征的数据给过滤掉，则会造成异常用电用户的漏判，因此在用电数据与处理中，噪声值的处理是一项很重要的步骤。处理规则如表3所示。

表3噪声数据处理规则

3.3、用电数据归一化处理

不同的用电数据指标之间会存在量纲上的差异，这些差异会干扰数据挖掘的分析过程，为了避免这种量纲差异对最终分析结果的影响，可以通过数据的规范化进行处理。数据的归一化是数据规范化的典型处理方法，数据规范化是通过一定的比例对数据进行缩放处理，将数据范围缩小在一个指定的区间内，这种做法可以将数据转化为没有单位的纯数值，突破了其限制，可以使各类具有不同量纲单位的数据指标都能互相进行比较，而其中最典型的规范化方法就是数据归一化，它将数据统一映射到[0，1]的范围内。

数据归一化的方法主要有三类，本文中对用电数据采用最小-最大规范化的方法进行归一化处理，将其数值投射到[0，1]范围内，归一化处理的转化公式如下：

式中，λ为N个用户数据的归一值，x为N个用户数据的实际值，W_min为异常时间段内N个用户数据的最小值，W_max为异常时间段内N个用户数据的最大值。

数据变化率在处理数据分析数据中起着至关重要的作用，通过变化率能够发现很多规律性的结论，但是数据的大小对变化率会产生一定程度的影响，而通过对用电数据的归一化处理能够很好的避免这种影响，同时归一化处理也为比较不同量纲形式的的历史用电量数据提供了可能。

四、分别计算异常时间段T内集合{W_j}中各用户电量和对应线损率的皮尔逊系数r_xy。

皮尔逊相关系数又称皮尔逊积矩相关系数、简单相关系数，它描述了两个定距变量间联系的紧密程度，用于度量两个变量X和Y之间的相关(线性相关)，其值介于-1与1之间，一般用r_xy表示，计算公式为：

式中，N为样本量，X、Y分别为异常时间段T内用户电量和台区线损率的观测值。若r＞0，表明两个变量是正相关，即一个变量的值越大，另一个变量的值也会越大；若r＜0，表明两个变量是负相关，即一个变量的值越大，另一个变量的值反而会越小。r的绝对值越大表明相关性越强。

五、利用设定的阈值θ进行初步筛选，得到和线损异常关联性较大的用户电量集合{W_k}。

设置阈值θ的标准为0.8＜θ≤1.0极强相关；0.6＜θ≤0.8强相关；0.4＜θ≤0.6中等程度相关；0.2＜θ≤0.4弱相关；0.0≤θ≤0.2极弱相关或无相关。

以xx公用变02#台区为例，通过对样本集{W_j}各用户电量和台区线损率的皮尔逊系数计算，设置阈值θ为0.6，得到和线损异常关联性较大(r_xy＞0.6)的用户电量集合{W_k}，皮尔逊计算结果见表3。

表3集合{W_k}中各用户数据的皮尔逊系数、欧式距离及匹配度计算结果

用户编号	皮尔逊系数r	欧式距离D<sub>E</sub>	匹配度P
				5xxxxxx158	0.7675	1.1836	0.3062
7xxxxxx016	0.6052	1.4834	0.2269
				5xxxxxx813	0.6017	1.2997	0.2726
5xxxxxx740	0.6629	2.6044	0.0739
				5xxxxxx803	0.6198	2.3217	0.0981

六、分别计算集合{W_k}中各用户电量曲线与线损率曲线改进的欧氏距离D_E。

欧氏距离是一种被广泛使用的距离度量标准，它表征了N维空间内每个点对象之间的距离，欧氏距离先计算每一维上的距离，再求它们的平方和，最后求算数平方根。由于用户电量和线损是等长时间序列，本文采用欧式距离来判断两者曲线的相似度。

这里的X、Y分别为异常时间段内的用户电量和台区线损率，k表示集合{W_k}中的样本量。通过对两条曲线进行欧式距离计算，可以简单且直观的得到两条曲线相似性程度。欧式距离越小，相似度越大。坐标y方向位移和尺度变化都会对两条曲线的相似性判断产生重大影响，判断该台区的用户电量和线损率的相似性时，需要消除y方向位移和尺度的影响，故必须对用户电量和线损率采用最小-最大规范化的方法进行归一化处理，即对原始数据进行线性变换，将其数值投射到[0，1]范围内，归一化处理的转化公式如下式：

式中，X(LLR_k，W_k)为k个用户电量或线损率的归一值，X′(LLR_k，W_k)为k个用户电量或线损率的实际值，X′(LLR_k，W_k)_min为异常时间段内k个实际用户电量或线损率序列中的最小值，X′(LLR_k，W_k)_max为异常时间段内k个实际用户电量或线损率序列中的最大值。

又因为用户电量曲线和线损率曲线是反相关关系，不方便说明相似程度，故将线损率曲线做一简单处理：首先将线损率曲线关于x轴做对称，再将其向y轴正方向平移1个单位，从而使2条曲线均在[0，1]之间并且保证两者的相似性，为欧氏距离的计算创造了条件。

集合{W_k}中各用户电量曲线与线损率曲线改进的欧氏距离结果见表3。

七、基于加权皮尔逊系数和欧氏距离的相似性度量，计算皮尔逊系数和欧式距离的权重系数，精准定位所有异常用户。

为了同时考虑形状和数值的相似性两种因素，考虑选择了衡量形状相似性的皮尔逊系数和衡量数值相似性的欧氏距离来度量两条负荷曲线之间的相似度。其中欧氏距离基于点与点之间的距离，考查数值上的相似性，但在数据集有异常时易表现出不稳定性，而皮尔逊系数度量主要考察曲线在形状和趋势上的拟合程度，不易受到数据集异常情况的影响，打破了只能通过距离来判断相似性的局限性，两者形成了优势互补。由于皮尔逊系数范围在-1～1内，其值越大，相似性越高，而欧氏距离越大，相似性越小，因此对皮尔逊系数求绝对值，对欧氏距离求

值，使其改变形式后的值在0～1内，同时也满足了欧式距离越大，皮尔逊系数和欧氏距离加权求和后的匹配度仍然越小的关系，设匹配度为P，加权相加后的匹配度计算公式为：

式中，P为匹配度，μ₁和μ₂为皮尔逊系数相似性度量和欧氏距离相似性度量的权重系数，两者的取值取决于形状相似性和数值相似性的重要度，但需要满足μ₁+μ₂＝1，使得加权求和后的匹配度P值仍在[0，1]。当匹配度P值越大，则相似性越大，说明用户异常嫌疑越大，从而精准定位异常用户。

取μ₁＝0.7，μ₂＝0.3，阈值α＝0.3，则xx公用变02#台区皮尔逊系数和欧氏距离加权求和后的匹配度P计算结果见表3。

由表3可知，xx公用变02#台区下用户编号为5xxxxxx158的用户历史用电量最大，且其匹配度P＝0.3062大于阈值0.3，可以认为该用户异常用电嫌疑最大。同时，也可以使用折线图来验证该用户电量与台区线损的相关情况，如图4。该台区的损失电量与5xxxxxx158用户用电量的变化情况接近完全吻合，即台区的损失电量跟随5xxxxxx158用户用电量的变化而变化，同时也验证了皮尔逊相关系数和欧式距离的计算结果完全正确。

综上，本发明提出一种单场景下基于历史数据的台区线损异常关联用户精准定位方法，避免了人工对于海量数据的计算，从而提高了用户定位的准确性；在历史线损率K-means聚类结果的基础上，结合使用IBM SPSS Statistics 25软件和python skleam模型，建立了台区线损率标准库和异常库，为线损率异常的判断提供了依据；从用电数据缺失值、噪声值和归一化三个处理方面展开，针对用电数据进行预处理，得到具有研究意义的用户电量集合{W_j}；计算异常时间段T内有效用户电量集合{W_i}中各用户电量和线损率的皮尔逊系数r_xy，确定和线损异常关联性较大的用户电量集合{W_k}，进一步缩小嫌疑用户范围，节省了计算迭代时间；计算和线损异常关联性较大的用户电量集合{W_k}中用户电量和线损率两条曲线改进的欧氏距离D_E，并计算皮尔逊系数和欧式距离的权重系数，精准定位所有异常用户；本发明还采用xx公用变02#台区历史用电量和线损率数据作为样本来进行实验分析与验证，增强了算法的说服力。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于，包括如下步骤：

S1、导入给定的异常台区线损率；

S2、针对导入的异常台区线损率进行K-means聚类；

S3、基于聚类结果建立异常台区线损率标准库和异常库；

S4、根据异常库确定异常时间段T；

2.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S1中的台区线损率是用于判断台区是否存在异常的依据，其值由用电信息采集系统提供的线损电量计算得出，线损率计算公式如下式(1)：

3.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S2中针对异常台区线损率进行K-means聚类，在软件IBM SPSS Statistics25中实现功能，算法流程如下：

S21、首先从数据空间中选k个数据点为初始聚类均值；

4.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S3中根据K-means聚类结果建立异常台区线损率标准库和异常库，异常库中不仅存放异常用户电量，还存储有对应的具体日期；

建立异常台区线损率标准库和异常库包括如下步骤：

S31、导入该台区所有线损率数据；

S32、对台区线损率进行K-means聚类；

S33、找出个案数目最多的聚类，确定该聚类的聚类中心；

S34、计算该聚类中所有点到聚类中心的最大距离；

|LLR_i-x|≤r+Δr (2)

5.如权利要求4所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S4中，根据已经生成的异常台区线损率异常库确定异常时间段T，其中，T是时间区间，由若干个连续的日期组成。

6.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S5中，对用户用电数据进行预处理，包括缺失值和异常值的处理以及规范化处理，通过规范化处理，去除其量纲形式，转化为更加规范化的数据形式。

7.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S6中，面对用户电量集合{W_j}，计算异常时间段T内各用户电量W_j和对应线损率的皮尔逊系数r_xy，该算法描述了两个定距变量间联系的紧密程度，用于度量两个变量X和Y之间的相关，其值介于-1与1之间，计算公式为：

8.如权利要求1所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S7中，设定的阈值θ的标准为：

0.8＜θ≤1.0极强相关；

0.6＜θ≤0.8强相关；

0.4＜θ≤0.6中等程度相关；

0.2＜θ≤0.4弱相关；

0.0≤θ≤0.2极弱相关或无相关。

9.如权利要求7所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S8中，由于用户电量和线损是等长时间序列，采用欧式距离来判断集合{W_k}中各用户电量曲线与线损率曲线的相似度：

设两个序列X(t)＝{x(1),x(2),…,x(k')}和Y(t)＝{y(1),y(2),…,y(k')}，则欧式距离为：

式中，X、Y分别为异常时间段T内的用户电量和台区线损率，k'表示集合{W_k}中一个用户的用户电量数据的样本量；通过对两条曲线进行欧式距离计算，得到两条曲线相似性程度，欧式距离越小，相似度越大；用户电量曲线的x轴表示时间，y轴表示用户电量；线损率曲线的x轴表示时间，y轴表示线损率；

式中，k表示集合{W_k}中的样本量，对用户电量进行归一化处理时：X(LLR_k,W_k)表示k个用户电量的归一值，X′(LLR_k,W_k)表示k个用户电量的实际值，X′(LLR_k,W_k)_min表示异常时间段内k个实际用户电量中的最小值，X′(LLR_k,W_k)_max表示异常时间段内k个实际用户电量的最大值；对线损率进行归一化处理时：X(LLR_k,W_k)表示k个线损率的归一值，X′(LLR_k,W_k)表示k个线损率的实际值，X′(LLR_k,W_k)_min表示异常时间段内线损率序列中的最小值，X′(LLR_k,W_k)_max表示异常时间段内线损率序列中的最大值；

10.如权利要求9所述的一种基于数据挖掘的台区线损异常关联用户精准定位方法，其特征在于：步骤S9中，选择衡量形状相似性的皮尔逊系数和衡量数值相似性的欧氏距离来度量用户电量曲线和线损率曲线之间的相似度；由于皮尔逊系数范围在-1～1内，其值越大，相似性越高，而欧氏距离越大，相似性越小，因此对皮尔逊系数求绝对值，对欧氏距离求