CN115409120A

CN115409120A - 一种基于数据驱动的用户窃电行为检测辅助方法

Info

Publication number: CN115409120A
Application number: CN202211078035.8A
Authority: CN
Inventors: 张艳霞; 刘占双; 史杰; 于林林; 薛琴; 卓钊; 王翰雯
Original assignee: Haixi Power Supply Co Of State Grid Qinghai Electric Power Co; State Grid Corp of China SGCC; State Grid Qinghai Electric Power Co Ltd
Current assignee: Haixi Power Supply Co Of State Grid Qinghai Electric Power Co; State Grid Corp of China SGCC; State Grid Qinghai Electric Power Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-29

Abstract

一种基于数据驱动的用户窃电行为检测辅助方法，涉及窃电行为检测技术领域，基于AMI(高级量测体系)获取用户历史用电量数据，展开窃电检测,其包括以下几个方面：数据获取、数据预处理、用户用电特征提取、窃电检测、低压配电网线损率研究五个部分。本发明的有益效果在于：开发基于数据驱动的用户窃电行为检测软件，实现对用户是否窃电、窃电时间、地点、严重程度及窃电类型的准确判别预警，统计疑似窃电的开始时间和异常累计用电量，为锁定窃电行为提供依据。

Description

一种基于数据驱动的用户窃电行为检测辅助方法

技术领域

本发明涉及窃电行为检测技术领域，具体是涉及一种基于数据驱动的用户窃电行为检测辅助方法。

背景技术

窃电行为由来已久，传统电网也提出了许多检测方法。传统电网早期，窃电行为的检测对一线人员的参与度依赖很高，一般分为三个阶段：第一阶段为预警阶段，电网终端用户或一线工作人员发现电力设备或其他用户行为有异常情况后，向电力公司举报；第二阶段为数据采样阶段，电力公司或运营商接收举报后，派出数据采样人员前往相关片区，针对可疑用户电力数据进行采样，这一周期通常会有三个月，以期获取更为准确的数据；第三阶段为数据分析阶段，获取可疑用户的用电情况时间序列后，电力公司数据分析人员结合过往经验及该用户历史数据，多方计算，分析，以确定该用户是否非法用电。显而易见，该检测方法人力成本高昂，且难以覆盖全局电网，因为非法用电行为的多变性，该检测方法的准确度也不高，该问题都是亟需解决的热点之一。

发明内容

本发明要解决的问题是窃电行为检测问题；为了解决上述问题本发明提出了一种基于数据驱动的用户窃电行为检测辅助方法，一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于：基于AMI(高级量测体系)获取用户历史用电量数据，展开窃电检测，其包括以下几个方面：数据获取、数据预处理、用户用电特征提取、窃电检测、低压配电网线损率研究五个部分；

第一步：数据获取：用户窃电行为直接反映到智能电表终端的读数中，因此获取一定时间跨度的待检测用户用电数据，窃电检测使用用户用电量数据和用户负荷数据进行，采样间隔30分钟、1小时即可满足需求，时间跨度为用户1年的用电记录；同时，也应获取专变相应时间跨度内的一系列数据，以应对各种窃电手段；

第二步：数据预处理：根据获取数据情况，指定相应的数据预处理方案，对数据进行规整，清洗工作；数据质量的影响后续窃电检测的结果，不同数据质量问题具有各自的处理方法，具有高耦合度；

第三步：低压配电网线损率：根据搜集获取的数据类型，对所辖区域内低压台区配电网的线损率进行研究分析，挖掘线损率高的线路信息；高线损率线路中可疑窃电用户优先进行排查；

第四步：用户用电特征提取：挖掘能够反映用户用电行为的一系列特征，采取数据科学中特征工程的一系列方法，以用户为单位，从用户用电数据集中获取能够反映用户用电行为的一系列特征；

第五步：窃电检测：采用机器学习算法，以用户为单位对用电特征进行异常监测分析，挖掘用户异常用电行为，对各个用户异常用电天数进行统计，输出用户窃电概率，辅助工作人员进行筛查。

机器学习判断方法：步骤一：经过实际调研获取用于后续分析的数据源，建立数据获取更新渠道，采用分布式存储，构架底层架构。

步骤二：采用数据仓库技术，整合分布式存储中多个数据源。在此过程中，需要根据数据实际情况，制定个性化数据处理方案，将原始数据中的异常、重复、缺失数据过滤后，汇总到数据仓库中。

步骤三：将机器学习中的算法运用到电力行业大数据中，以所辖区域内用电用户为单位进行数据挖掘，实现用户用电行为特征提取、窃电行为检测的过程。

步骤四：基于已有的海量数据，对所辖区域内低压配电网线路线损率展开研究分析，对于高线损率线路中的高怀疑窃电用户优先进行稽查，同时研究其他潜在窃电方式。

步骤五：选取典型台区进行实验分析，基于窃电检测结果，辅助电网工作人员实地稽查，验证平台对窃电行为检测的准确度。

Hadoop使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架，Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境，Hadoop是为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储，Hadoop主要有两个层次包括分布式文件系统，并行编程模型，即：加工/计算层(MapReduce)，以及存储层。

MapReduce是一种处理海量数据的分布式计算模型框架，用于对大规模数据的并行计算，HBase是Hadoop的数据库，能够对大型数据提供随机、实时的读写访问，包括管理，协调，编辑语言，计算，表存储和对象存储；编辑语言包括数据流和类SQL；计算包括分布式程序框架；表存储包括元数据和列存储；对象存储包括分布式文件系统。

最适合聚类的降维算法，其是将高维数据看作高维空间中的点x_i用流性方法将其映射至低维空间中的点y_i，将数据之间的欧氏距离转化为条件概率，故t-SNE算法在降维之后，可以很好地保留原始数据之间的相对距离，

高维数据：X_i与X_j的相似度为条件概率p_ij，

低维数据：y_i与y_j的相似度为条件概率q_ij。

损失函数：为了保持映射前后数据在空间中的相对关系，即高维空间中相对较远的点在映射至低维空间中依然较远，用KL散度反应两者分布的正关系。

其中，用正态分布表示高维空间中点与点的关系，即当X_i与X_j很近时，p_ij越大；当两者很远时，p_ij越小，而用t分布表示低维空间中点与点的关系，t分布根据小样本估计呈正态分布且方差未知的总体均值，t分布与正态分布曲线上非常接近，但与其自由度的大小有关，自由度越小，t分布曲线越平坦、中间低、两侧尾部略高，自由度越大，t分布曲线越接近正态分布，当自由度接近无限时，t分布为标准正态分布。

当数据量上升到一定的程度时，如超过5万条，则大部分算法不适用，仅K-means与HDBScan效果更佳，首先，优先尝试HDBScan，若无法降维或者降低数量时，再使用K-Means，如果多次运行K-Means发现每次的分类结果具有极大的差异性，大概率是K-Means不适用于当前数据。

另一种替代方法是对原始数据进行多次随机采样形成小样本集合，并对小样本进行聚类，并且融合结果。其中，随机采样样本大小的选取必须有足够的代表性。在分类结果融合的过程中，需要关注聚类结果的稳定性，随机数据是否合理。

(3)高维随机矩阵大数据建模方法

运行参数在观测时间点t的一个时间序列向量：

将xi按顺序拆分成m段，并逐行叠加，得高维随机矩阵

矩阵归一化处理，并加入很小的随机矩阵作为白噪声

求取高维随机矩阵的高维样本协方差矩阵

判别方法有：M-P律(M-P Law)、单环律(Single Ring Law)两种，原理如下：

M-P律(M-P Law)

M-P律反映了高维随机矩阵奇异值的渐进趋势；

协方差特征值谱密度函数判断法：协方差特征值谱密度函数越趋于M-P律数据奇异值越少。

协方差特征值谱分布图判断法：协方差特征值谱分布落在环内：数据随机偏离程度小；协方差特征值谱分布落在环外：数据随机偏离程度大。

基于大数据分析挖掘技术，提出高维随机矩阵大数据建模方法实现对用户是否窃电、窃电时间、地点、严重程度及窃电类型的准确判别，其具体方法为电网运营数据采集，各节点量测量高纬随机矩阵形成，求取各随机矩阵对应的协方差矩阵特值，窃电发生与否判别，如是，窃电时阶段确定，窃电分区域定位，窃电节点精确定位，窃电节点类型确定，窃电情况输出；窃电发生与否判别，如否，直接窃电情况输出

本发明的有益效果在于：(1)利用物联网、大数据分析和人工智能技术，在有效了解各用户的用电情况、负荷特性，深入挖掘用户用电行为特性的基础上，建立用电用户窃电行为检测平台，实现用户窃电及异常用电行为检测分析，辅助检修人员对窃电行为进行实地排查。

(2)开发基于数据驱动的用户窃电行为检测软件，实现对用户是否窃电、窃电时间、地点、严重程度及窃电类型的准确判别预警，统计疑似窃电的开始时间和异常累计用电量，为锁定窃电行为提供依据。

附图说明

图1为本发明的Hadoop结构图；

图2为本发明的Hadoop生态图；

图3为本发明的t-SNE算法改进过程图；

图4为本发明的t-SNE算法原理图；

图5为本发明的聚类算法选择图；

图6为本发明的协方差特征值谱密度函数判断法对比图；

图7为本发明的协方差特征值谱分布图判断法对比图；

图8为本发明的数据仓库图；

图9为本发明的高维随机矩阵理论的窃电分析及实现流程图；

具体实施方式

实施例1，参照附图1和附图9所示，本发明致力于基于数据驱动的用户窃电行为检测辅助研究，针对配电网中存在的窃电、欺诈问题，积极推动传统电力行业与互联网行业融合。基于智能电表的普及完善获取的大量历史数据，运用大数据、大数据分析和人工智能等技术，打通从数据获取、预处理、窃电检测、辅助稽查的完整流程，在有效了解各用户的用电情况、负荷特性，深入挖掘用户用电行为特性的基础上，建立用电用户窃电行为检测平台，实现用户窃电及异常用电行为检测分析，辅助检修人员对窃电行为进行实地排查。发明流程主要包括所辖区域内用户用电历史数据获取、存储及预处理；用户用电行为特征提取；用户用电窃电行为检测三部分。

(1)历史用电数据获取：为了支撑后续窃电行为检测，往往需要获取大量、多维度的数据。数据源一般是各类数据采集终端，如各类传感器、智能电表、关口电表、负荷用户信息数据库、负荷用电行为记录等。根据不同数据源，设计合适的通讯网络接口、选取网络传输协议，根据获取数据量规模，选取合适的数据存储方式(集中式、分布式)，依据数据情况，构建数据库系统，暂时存储数据。(2)海量数据存储：考虑到海量数据多源的特性，且数据量级较大，同时需要对海量的设备状态数据和动态信息进行在线收集并在指定的时间内完成处理，因此考虑数据的实际情况，设计基于Hadoop技术的数据储存处理系统，采用HDFS分布式存储数据，以适应存储海量电网资源侧数据的需求。

(3)数据抽取、转换、加载(ETL)过程：考虑到数据异构问题，数据因为来源不同，具有大量、分散和不清洁等特点，不能为数据仓库直接使用。考虑到需要汇集多方数据源构建数据仓库，数据ETL包括数据抽取、转换和加载过程，可以进行数据的初步处理，如进行数据项名称、位数、编码和形式的统一，消除重复数据。

(4)数据仓库构建：数据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据，经过加工转换成有规律信息之后，再供管理人员进行分析。将从各个数据源获取的数据通过数据仓库管理，为后续分析提供数据支撑。

(5)数据预处理：考虑到不同数据源采样频率不同、传输堵塞延迟、故障等可能性，对数据进行预处理。主要包括：

1)数据编码：由于获取的数据结构复杂，如定性数据(天气、节假日等)、定量数据(温度、负荷数据)，无法直接分析，需要根据定性数据的各自特点进行定量数据编码。统一成定量数据进行分析。

2)数据清洗：不同采样频率数据，对数据进行降采样、升采样、平均值等方法统一数据频率；异常数据如负荷数据为负值等，采取插值法、多重插补法等。缺失数据，根据数据缺失程度，进行删除或填充处理。

3)数据集成：指将不同数据源数据整合在一个数据库中的过程。考虑到采集的数据来源不同，存在分散、重复、冗余、异构等数据问题，对数据进行集成过程中，还需要改善数据的异构性和分布性。如通过数据复制方法将多源数据源数据按照时间轴复制到负荷数据源进行统一。通过先验经验、相关性分析等方法，删除冗余数据，诸如此类。经过数据集成，多个数据源整合后，一条用户数据将包含多维度的信息。

4)数据变换：结合不同数据源代表的具体含义，根据需求及变量类型采取变量派生、变量转换、数据离散化、标准化等处理。

(6)特征提取：由于不同用户存在不同用电行为特点，根据可获取数据，采取一定用户用电行为特征提取算法，获取能够反映用户用电行为最优特征集合。

(7)特征降维：原始数据往往包含多个维度特征信息，若直接用于后续分析需要消耗大量时间，故需要对特征进行筛选、降维处理。由于海量数据难以通过人为对数据进行标注，因此均采用无监督学习算法。首先对不同特征进行方差滤波，删掉对用户没有区分度的特征，采用降维算法对数据进行降维及可视化。

(8)用户窃电检测：采用基于信息论和机器学习相关算法，对实现用户于用户之间，用户自身历史数据实现横向和纵向的窃电检测。

发明研究内容的依据：(1)数据分布式存储：Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。在其核心，Hadoop主要有两个层次，即：加工/计算层(MapReduce)，以及存储层(Hadoop分布式文件系统如图1)。HDFS有着高容错性的特点，采用主从(master/slave)结构，并且用来设计部署在廉价的硬件上。它提供高吞吐量来访问数据，适合那些大量数据的应用程序。MapReduce是一种处理海量数据的分布式计算模型框架，用于对大规模数据的并行计算。HBase是Hadoop的数据库，能够对大型数据提供随机、实时的读写访问，如图2。

(2)特征降维：降维，是将高维空间中的数据点映射到低维度(一般指二维、三维)的空间中的技术。一般最广为人知的是主成分分析法(PCA)，但由于PCA是一种线性算法，不能解释特征之间的复杂多项式关系，具有极大的局限性。此外，除了t-SNE以外的多数非线性降维算法无法同时保留数据的局部和全局结构。PCA仅使不相似的点离得更远，而t-SNE还可以使相似的点离得更近如图3。

t-SNE是由SNE逐步改进后，目前最适合聚类的降维算法，其核心思想是将高维数据看作高维空间中的点x_i用流性方法将其映射至低维空间中的点y_i。将数据之间的欧氏距离转化为条件概率，故t-SNE算法在降维之后，可以很好地保留原始数据之间的相对距离。

高维数据：x_i与X_j的相似度为条件概率p_ij。

低维数据：y_i与y_j的相似度为条件概率q_ijq_ij。

其中，用正态分布表示高维空间中点与点的关系，即当x_i与X_j很近时，p_ij越大；当两者很远时，p_ij越小。而用t分布表示低维空间中点与点的关系。t分布根据小样本估计呈正态分布且方差未知的总体均值。t分布与正态分布曲线上非常接近，但与其自由度的大小有关。自由度越小，t分布曲线越平坦、中间低、两侧尾部略高。自由度越大，t分布曲线越接近正态分布。当自由度接近无限时，t分布为标准正态分布。如图4。

降维技术可以有效缓解维数灾难的问题，尤其针对于高维、多元、海量化的电力数据，对于后续的分类具有很大的帮助。此外，将高维数据映射至低维实现可视化，通过观察数据在二维、三维空间中的形状分布，结合数据量等因素，合理选择聚类算法可以有针对性地提高模型精度。聚类，即根据相似性原则，将具有较高相似度的数据划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇。较为常见的分为基于距离或者基于密度的聚类算法，如K-means、DBScan、HDBScan等。K-Means：是一种基于划分的聚类算法，以距离作为数据间相似性度量的标准，K代表类簇个数、Means代表类簇内数据对象的均值。当数据间的距离越小，则相似性越高，越有可能在同一个类簇。K-Means算法采用欧氏距离来计算数据间的距离。K-Means优势在于计算速度快，但需要首先确定聚类个数K，如何判断聚类个数的合理性，可以通过降维算法通过可视化二维、三维图形经过目测确定，但是前提是具有明显肉眼可分辨的簇类特征，否则必须严格使用分群质量评估指标，如Calinski-HarabazIndex、Homogeneity、completeness and V-measure、Silhouette Coefficient等，利用不同指标交叉验证合理聚类个数。DBScan：是较有代表性的基于密度的聚类算法，具有显著的优点，不需要一个预设定的聚类数量，并将异常值识别为噪声，能够很好地找到任意大小和任意形状的聚类。但是，当聚类具有不同的密度时，它的性能不像其他聚类算法那样好。这是因为当密度变化时，距离阈值ε和识别邻近点的minPoints的设置会随着聚类的不同而变化。这种缺点会出现在非常高维的数据中，因为距离阈值ε变得难以估计。

HDBScan：它通过将DBSCAN转换为分层聚类算法来扩展DBSCAN，然后基于聚类稳定性，使用了提取平面聚类地技术。与传统DBSCAN最大的不同之处在于HDBSCAN可以处理密度不同的聚类问题。首先根据密度/稀疏度变换空间，构建距离加权图的最小生成树，再构建集群层次结构，根据最小簇的大小压缩集群层次结构，最终从压缩树中提取稳定集群。

实际在运用聚类算法时，若数据量不大，可以优先尝试其他算法；当数据量上升到一定的程度时，如超过5万条，则大部分算法不适用，仅K-means与HDBScan效果更佳，首先，优先尝试HDBScan，若无法降维或者降低数量时，再使用K-Means，如果多次运行K-Means发现每次的分类结果具有极大的差异性，那么很大概率是因为K-Means不适用于当前数据，如图5。

(3)高维随机矩阵大数据建模方法：运行参数在观测时间点t的一个时间序列向量：

将xi按顺序拆分成m段，并逐行叠加，得高维随机矩阵

矩阵归一化处理，并加入很小的随机矩阵作为白噪声

求取高维随机矩阵的高维样本协方差矩阵

M-P律反映了高维随机矩阵奇异值的渐进趋势；

协方差特征值谱密度函数判断法：协方差特征值谱密度函数越趋于M-P律数据奇异值越少，如图6：

单环律(Single Ring Law)描述了随机矩阵中数据随机偏离程度的大小情况。协方差特征值谱分布图判断法：协方差特征值谱分布落在环内：数据随机偏离程度小；协方差特征值谱分布落在环外：数据随机偏离程度大，如图7。

(4)低压配电网线损计算：a)基于物理模型的线损计算：1)近似计算方法：线损的实质是对一定时间内的功率损耗的积分，因为功率的求取需要电流瞬时值，而现有量测装置不可能记录下每时每刻的电流值，因此需要对电流值采用近似处理的方式，不同的处理方式产生了不同的近似计算方法。传统的近似计算方法主要有日均方根电流法、平均电流法、电量法、等值电阻法、最大电流法、损失因数法等。当线路的首端24点电流值已知时，可以将一天分成24个时段，认为每个时段的电流值恒定，将积分变成分段累计计算。

为了简化，取电流的平方的均值来替代每个时段的电流的平方值，这是日均方根电流法的思想；当只有线路首端的平均负荷电流时，根据平均电流与均方根电流的关系来计算损耗，这是平均电流法的思想；当只有线路首端月供电量时，可以用电量值和线路平均电压求取线路的平均电流，产生了电量法；通过考察最大负荷电流与均方根电流的关系，产生了最大电流法、损失因数法，这两种方法精度不高，主要用于电网规划。等值电阻法则根据能量等值原理将配电网中各元件等效为电阻值，将总均方根电流流过等值电阻消耗的能量叠加即可得到总损耗。根据上述各种方法的近似思想，每种方法还可以派生出更适合具体的现场数据的计算方法。这些传统的近似方法都是根据电能损耗基本公式进行线损计算，只是其电流取值、等值电阻、等效运行时间针对具体的计算条件采用不同的处理方式。近似方法的优点是计算简便，易于编程实现，缺点是近似处理过多，计算精度有限。

发达国家电网的自动化和信息化建设更为先进，所以国外学者提出了很多基于大量采集数据的传统近似计算方法的改进算法。如根据用户类型，或者负荷的大小在近似处理时采用不同的系数。数据详细完整时可将损耗进行详细划分为配电变压器损耗，低压网络损耗，用户接入损耗，电表损耗，其它(电容器，电抗器，稳压器，管理线损)等部分分别计算。而当部分配电网数据完整，另一部分配电网数据不完全的情况，可以采用近似算法和详细计算的混合算法。

2)潮流计算方法

配电网潮流计算不仅是配电网运行分析的基础，也可以用于配电网线损分析，给出电网损耗值。配电网具有网络为多分支辐射状结构、负荷节点数量众多、线路R/X较大、三相不平衡等特点，与输电网络结构有明显差异，所以传统的潮流计算方法如牛顿法、PQ分解法等在配电网潮流计算中收敛性较差。此外，配电网还存在网络数据和运行数据采集困难的问题，难以完整提供潮流计算需要采用的线路末端的负荷功率、线路首端的电压及功率值、以及详细的线路结构和元件参数等数据。因此，配电网潮流计算的研究重点在于如何解决这些方面的问题。前推回代法是常用的配电网计算方法，它直接利用基尔霍夫定律，在已知首端电压和末端功率的情况下可以迭代求取各节点电压，进而算出各支路的电流和功率损耗。对于任何种类的辐射状配电网，只要有合理的R/X值，此方法均可保证收敛。该方法占用内存少，计算速度快，且精度也较高。回路分析法是在前推回代的基础上推导出的较强的处理多环网的分析方法，解决了前推回代法在环网处理时的不便。

潮流计算的传统方法如牛拉法、PQ分解法、保留非线性潮流算法等牛顿类算法都是以功率值和电压值作为系统状态变量，列写开求解状态万程。为解伏它们在配电网中的病态潮流问题，有学者对牛顿类法进行了改进，如一种改进牛拉法，它通过将常规雅克比矩阵的因子分解、前代回代的步骤用前推回代代替，提高了计算速度和收敛精度，并避免了雅克比矩阵的病态情况。同近似计算法一样，为了模拟配电网的不确定性，国内外学者通过将潮流计算中的变量表示成模糊变量或区间变量分别将模糊集算法和区间算法引入到配电网计算中。相较于单纯的线损计算，考虑不确定性的潮流计算对改善电压及降低损耗有着更好的参考价值。

潮流计算法适用于配电网数据较全的区域，在数据准确的情况下可以获得很高的计算精度。

b)基于历史数据的回归算法：回归算法的基本思想是认为历史数据中隐含了配电网中的特征参数和线损值之间的关系，可以通过各种数学算法特别是数据挖掘算法分析历史数据，将这种关系用方程或模型提取并表征出来。回归算法的应用需要两个前提，一是大量的、完整的历史数据；二是针对要处理的问题，寻找合适的理论和算法。供电部门逐年开展的配电网线损计算已经积累了大量的线路损耗信息，足以满足第一个前提。而数据挖掘理论的不断发展也衍生出了不同的配电网线损回归算法。

该种方法最基本的一种是回归分析法。回归分析法利用了统计分析原理，通过建立回归方程来说明线损值和特征参数间的关系。现有文献中采用的特征参数是配电线路供电量；建立的回归方程将损耗分为不随供电量变化、与供电量成正比、与供电量的平方成正比的三个部分，通过历史数据求解每部分的权重。馈线在特征参数发生变化时，可将变化后的特征量输入回归方程计算损耗。另有文献对回归分析法进行了更深度的分析，它将负荷分为三类，常功率负荷、常电流负荷、常阻抗负荷，并考察了电压的变化对含有这三种负荷的线路的损耗影响。发现当电压取额定电压1.05倍时，负荷的种类对线损的影响很小。但在额定电压升降10％时，含常电流负荷、常阻抗负荷的电网的损耗将分别有10～12％和20～29％的变化，故需要针对不同馈线建立不同的回归方程。

除去传统的回归算法外，更多结合支持向量机、人工神经网络等数据挖掘算法的配电网线损计算新算法也被提出来。它们将理论线损的若干影响因素作为自变量，理论线损值作为因变量，建立两者的关系模型，这些模型一般比较复杂，难以给出具体的数学表达式。新算法有两种应用，一种是同回归分析法一样，选定某一电网，分析其大量的历史数据，建立该电网的模型，输入模型的特征参数后，可以求得在该运行条件下的线路损耗。另一种是通过对已知理论线损的线路数据样本进行训练，建立描述线损与影响因素之间的非线性关系的模型，进而利用该模型完成未知线路的理论计算。其中有提出应用人工神经网络(ANN)来映射该非线性关系。其后在ANN的理论基础上，径向基函数神经网络(RBFNN)、广义回归神经网络(GRNN)也相继应用到线损计算中。回归算法不依赖于具体的网络结构，求取模型后计算新的运行条件下线损时非常方便。

综上所述，根据现场原始数据的不同，可以选择不同的基于物理模型的线损计算方法。对于算法本身存在的缺陷，国内外学者也给出改进方案。另一方面，历史数据的积累为回归算法的使用提供了条件，但传统的回归分析法有其局限性。而使用数据挖掘算法的各种回归方法在投入实际工程前还有很多问题需要解决，如这些算法的输入变量是否合理，线损计算结果是否准确等，但随着数据挖掘算法的不断发展和历史数据的进一步积累，该方法会有良好的应用前景。

(三)发明研究的关键和难点：(1)多维异构海量数据的分布式存储以处理架构：基于数据驱动，由于数据的准确性与真实性是支撑后续分析的关键，如何根据数据构建保证数据高效地存储，并在数据仓库中融合是发明开展的关键。其中，如何尽可能多得获取能够反映用户用电行为的数据源是一大难点，需要综合考虑泛在物联网的发展，以及窃电手段类型等因素，对实际调研进行分析，打破数据孤岛的局面。

其次，公司在每天运行中产生大量数据，如何有效地建立数据存储架构是亟待解决的问题，因此有必要采用分布式存储方式，基于Hadoop架构进行开发。

(2)从最大程度还原真实数据的预处理方案设计：在对数据进行预处理及特征过滤和降维时，考虑到在实际过程中，存在数据缺失、传输堵塞、传感器损坏等问题，会出现大量异常数据，如何根据数据情况选择最佳的数据预处理方案以最大程度上不影响后续分析是一大难点。

(3)窃电分析模型建立及窃电行为判别技术方法研究：不同区域、不同行业的用户，其用电模型受属性、气象、功率因数等关联因素影响，不同用电模型所适应的窃电行为分析方法有所差异，直接影响识别结果的准确率和覆盖率。因此，发明如何深度挖掘分析用户用电大数据，构建用电异常行为分析指标体系，从而实现窃电行为精确分析模型的建立、窃电稽查是发明研究的核心问题。

(一)发明研究内容的详细说明：基于AMI(高级量测体系)获取用户历史用电量数据，展开窃电检测研究。本发明的主要研究内容包括以下几个方面：数据获取、数据预处理、用户用电特征提取、窃电检测、低压配电网线损率研究五个部分。

1)数据获取：用户窃电行为直接反映到智能电表终端的读数中，因此获取一定时间跨度的待检测用户用电数据至关重要，是本研究的基础。一般而言，窃电检测研究可以使用用户用电量数据和用户负荷数据进行，采样间隔30分钟、1小时即可满足需求，时间跨度尽可能为用户1年的用电记录；同时，也应获取专变相应时间跨度内的一系列数据，以应对各种窃电手段。

2)数据预处理：根据获取数据情况，指定相应的数据预处理方案，对数据进行规整，清洗工作。数据质量的好坏影响了后续窃电检测的结果，同时，不同数据质量问题具有各自的处理方法，具有较高耦合度。

3)低压配电网线损率研究：根据搜集获取的数据类型，对所辖区域内低压台区配电网的线损率进行研究分析，挖掘线损率高的线路信息。对于高线损率线路中可疑窃电用户优先进行排查和研究。

4)用户用电特征提取：挖掘能够反映用户用电行为的一系列特征，采取数据科学中特征工程的一系列方法，以用户为单位，从用户用电数据集中获取能够反映用户用电行为的一系列特征。

5)窃电检测：采用机器学习算法，以用户为单位对用电特征进行异常监测分析，挖掘用户异常用电行为，对各个用户异常用电天数进行统计，输出用户窃电概率，辅助工作人员进行筛查。

核心技术理论研究内容如下：(1)海量数据存储技术研究

Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。在其核心，Hadoop主要有两个层次，即：加工/计算层(MapReduce)，以及存储层(Hadoop分布式文件系统)。HDFS有着高容错性的特点，采用主从(master/slave)结构，并且用来设计部署在廉价的硬件上。它提供高吞吐量来访问数据，适合那些大量数据的应用程序。MapReduce是一种处理海量数据的分布式计算模型框架，用于对大规模数据的并行计算。HBase是Hadoop的数据库，能够对大型数据提供随机、实时的读写访问，如图2。

(2)用户多维用电数据的数据仓库构建研究：考虑到原始数据源来自不同数据库，获取途径不同，数据仓库通过将多维数据整合起来，对多种业务数据进行筛选和整合，用于后续数据分析，如图8。

因此需要设计数据仓库，一般来说包括确定主题；确定量度；确定数据粒度；确定维度；创建事实表部分。

(3)基于机器学习的电力用户用电行为画像研究：作为日益成熟的数据分析工具，用户画像技术可以全面细致地抽象出用户的信息全貌，提取用户用电行为特征。用户画像是具有相似背景、兴趣、行为的用户群在使用某一产品或者服务时所呈现出的共同特征集合，是具有某种显著特征用户群体的概念模型。该技术主要关注经过静态和动态属性特征提炼后得出的“典型用户”，强调用户的主体地位，凸显用户的特定化需求。用户画像的方法一般有：基于用户行为的画像方法、基于用户兴趣偏好的画像方法、基于主题的画像方法以及基于人格特性与用户情绪的画像方法等。

电力用户用电行为画像是采用机器学习方法，对存储到数据仓库中的数据进行分析挖掘，主要包括特征提取，特征过滤及降维、聚类、用户画像部分。考虑到电力数据多维异构的特点，构建数据存储及预处理架构，建立数据集后，采用机器学习算法，对用电信息数据进行挖掘获取和画像分析。其中，数据获取及预处理是用户画像的基础，其中主要包含海量数据的搜集、海量数据的分布式存储、数据的抽取转换和加载、数据仓库构建、数据预处理等几大部分。在用户用电行为画像时，首先提取每个用户的典型用电曲线，即每个用户都对应一条固定时间段内的曲线。完全排除用户本身的相关信息，仅仅对用电曲线进行聚类，得到聚类结果后，再对每个簇类进行分析，结合用户信息提取共性特征。

(4)基于大数据的窃电行为精确分析判别技术研究：1)大数据分析技术：用户用电信息包括有功总电能、电流、电压、功率因数、相角、线损、气象、事件记录等数据信息，这些数据通常是用户用电的基础信息，通过大数据建模可以分析总结用户用电特征，当用户数据特征与日常数据发生明显差异时，通过二阶聚类分析嫌疑用户主要用电特征，通过用电异常判断评价指标体系，进行计算分析，确定窃电嫌疑行为，以缩小窃电的用户目标范围；其次，在缩小的检查范围下，利用深度学习分类和决策树分类算法选定嫌疑对象，为锁定用户提供支撑；最后，利用高维用户分析模型，进行窃电行为预测和判断预警，同时统计疑似窃电的开始时间和异常累计用电量，为锁定窃电行为提供依据。

2)窃电行为精确分析判别技术：基于大数据分析挖掘技术，提出高维随机矩阵大数据建模方法实现对用户是否窃电、窃电时间、地点、严重程度及窃电类型的准确判别。具体的窃电分析及实现流程图如图9所示.

(5)基于大数据的配电网线损率研究：线损的实质是对一定时间内的功率损耗的积分，因为功率的求取需要电流瞬时值，而现有量测装置不可能记录下每时每刻的电流值，因此需要对电流值采用近似处理的方式，不同的处理方式产生了不同的近似计算方法。传统的近似计算方法主要有日均方根电流法、平均电流法、电量法、等值电阻法、最大电流法、损失因数法等。当线路的首端24点电流值已知时，可以将一天分成24个时段，认为每个时段的电流值恒定，将积分变成分段累计计算。

基于物理模型的线损计算主要包括近似计算方法、潮流计算方法。近似方法主要是根据电能损耗基本公式进行线损计算，只是其电流取值、等值电阻、等效运行时间针对具体的计算条件采用不同的处理方式。近似方法的优点是计算简便，易于编程实现，缺点是近似处理过多，计算精度有限；潮流计算法适用于配电网数据较全的区域，在数据准确的情况下可以获得很高的计算精度。

基于历史数据的回归算法的思想是通过各种数学算法特别是数据挖掘算法分析历史数据，将配电网中的特征参数和线损值之间的关系用方程或模型提取并表征出来。回归算法不依赖于具体的网络结构，求取模型后计算新的运行条件下线损时非常方便

除去传统的回归算法外，随着人工智能和大数据技术发展，为配电网线损计算新算法的研究提供了条件。发明结合支持向量机、人工神经网络等设计基于大数据挖掘的配电网线损率算法，通过对已知理论线损的线路数据样本进行训练，建立描述线损与影响因素之间的非线性关系的模型，进而利用该模型完成未知线路的理论计算，挖掘线损率高的线路信息，对于高线损率线路中可疑窃电用户优先进行排查。

(二)要描述具体的理论研究步骤，现场试验的地点和试验计划。需要建设试验手段的发明，要给出试验手段的结构和作用

遵循“从国外到国内、从理论到实践”的原则，按照大数据获取-存储-挖掘分析的思路开展相关研究。首先对国内外大数据的基本架构、数据分布式存储、数据ETL转化、海量数据预处理、数据挖掘等算法进行研究，分析国内外数据密集型产业的实际多地应用，梳理多元数据分析处理流程，结合我国电力行业发展现状，重点从原始数据搜集、海量数据的存储及分析、机器学习算法在电力行业的应用进行研究。

步骤一：经过实际调研获取用于后续分析的数据源，建立数据获取更新渠道，采用分布式存储，构架底层架构。

(三)理论研究和试验内容与发明总目标的因果关系

发明研究基于数据驱动的用户窃电行为检测辅助，针对配电网中存在的窃电、欺诈问题，基于智能电表的普及完善获取的大量历史数据，利用物联网、大数据分析和人工智能技术，在有效了解各用户的用电情况、负荷特性，深入挖掘用户用电行为特性的基础上，建立用电用户窃电行为检测平台，实现用户窃电及异常用电行为检测分析，辅助检修人员对窃电行为进行实地排查。发明流程主要包括所辖区域内用户用电历史数据获取、存储及预处理；用户用电行为特征提取；用户用电窃电行为检测三部分。采用基于信息论和机器学习相关算法，对实现用户于用户之间，用户自身历史数据实现横向和纵向的窃电检测。最终，完成整体发明研究、开发、测试、试验和成果验证，达到预期目标进行交付验收。

Claims

1.一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于：基于AMI(高级量测体系)获取用户历史用电量数据，窃电检测,其包括以下几个方面：数据获取、数据预处理、低压配电网线损率、用户用电特征提取、窃电检测五个步骤；

2.根据权利要求1所述的一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于，步骤一：经过实际调研获取用于后续分析的数据源，建立数据获取更新渠道，采用分布式存储，构架底层架构；

步骤二：采用数据仓库技术，整合分布式存储中多个数据源，在此过程中，需要根据数据实际情况，制定个性化数据处理方案，将原始数据中的异常、重复、缺失数据过滤后，汇总到数据仓库中；

步骤三：将机器学习中的算法运用到电力行业大数据中，以所辖区域内用电用户为单位进行数据挖掘，实现用户用电行为特征提取、窃电行为检测的过程，

步骤四：基于已有的海量数据，对所辖区域内低压配电网线路线损率展开研究分析，对于高线损率线路中的高怀疑窃电用户优先进行稽查，同时研究其他潜在窃电方式；

3.根据权利要求1所述的一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于，Hadoop使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架，Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境，Hadoop是为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储，Hadoop主要有两个层次包括分布式文件系统，并行编程模型，即：加工/计算层(MapReduce)，以及存储层。

4.根据权利要求1所述的一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于，MapReduce是一种处理海量数据的分布式计算模型框架，用于对大规模数据的并行计算,HBase是Hadoop的数据库，能够对大型数据提供随机、实时的读写访问,包括管理，协调，编辑语言，计算，表存储和对象存储；编辑语言包括数据流和类SQL；计算包括分布式程序框架；表存储包括元数据和列存储；对象存储包括分布式文件系统。

5.根据权利要求1所述的一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于，最适合聚类的降维算法，其是将高维数据看作高维空间中的点x_i用流性方法将其映射至低维空间中的点y_i，将数据之间的欧氏距离转化为条件概率，故t-SNE算法在降维之后，可以很好地保留原始数据之间的相对距离，

高维数据：x_i与x_j的相似度为条件概率p_ij，

低维数据：y_i与y_j的相似度为条件概率q_ij；

损失函数：为了保持映射前后数据在空间中的相对关系，即高维空间中相对较远的点在映射至低维空间中依然较远，用KL散度反应两者分布的正关系；

6.根据权利要求1所述的一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于，当数据量上升到一定的程度时，如超过5万条，则大部分算法不适用，仅K-means与HDBScan效果更佳，首先，优先尝试HDBScan，若无法降维或者降低数量时，再使用K-Means，如果多次运行K-Means发现每次的分类结果具有极大的差异性，大概率是K-Means不适用于当前数据。

7.根据权利要求1所述的一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于，另一种替代方法是对原始数据进行多次随机采样形成小样本集合，并对小样本进行聚类，并且融合结果，其中，随机采样样本大小的选取必须有足够的代表性；在分类结果融合的过程中，需要关注聚类结果的稳定性，随机数据是否合理，

(3)高维随机矩阵大数据建模方法

运行参数在观测时间点t的一个时间序列向量：

将xi按顺序拆分成m段，并逐行叠加，得高维随机矩阵

矩阵归一化处理，并加入很小的随机矩阵作为白噪声

求取高维随机矩阵的高维样本协方差矩阵

M-P律(M-P Law)

M-P律反映了高维随机矩阵奇异值的渐进趋势；

8.根据权利要求1所述的一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于，协方差特征值谱分布图判断法：协方差特征值谱分布落在环内：数据随机偏离程度小；协方差特征值谱分布落在环外：数据随机偏离程度大。

9.根据权利要求1所述的一种基于数据驱动的用户窃电行为检测辅助方法，其特征在于，基于大数据分析挖掘技术，提出高维随机矩阵大数据建模方法实现对用户是否窃电、窃电时间、地点、严重程度及窃电类型的准确判别，其具体方法为电网运营数据采集，各节点量测量高纬随机矩阵形成，求取各随机矩阵对应的协方差矩阵特值，窃电发生与否判别，如是，窃电时阶段确定，窃电分区域定位，窃电节点精确定位，窃电节点类型确定，窃电情况输出；窃电发生与否判别，如否，直接窃电情况输出。