CN107958395B

CN107958395B - 一种电力系统异常用户的识别方法

Info

Publication number: CN107958395B
Application number: CN201711332503.9A
Authority: CN
Inventors: 程宏亮; 刘宏; 胡辉; 杨文�
Original assignee: Meritdata Technology Co ltd
Current assignee: Meritdata Technology Co ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2021-11-26
Anticipated expiration: 2037-12-13
Also published as: CN107958395A

Abstract

本发明公开了一种电力系统异常用户的识别方法，其特征在于，包括以下步骤：欧式距离的获取；用户地址与台区地址特征词相似度的获取；用户历史用电负荷的余弦距离；用户异常概率的计算和用户异常的识别。本发明通过简单的步骤，实现了通过地理位置信息数据、地址名称以及用电负荷识别是否为异常用户，提高了电力系统的工作效率。

Description

一种电力系统异常用户的识别方法

技术领域

本发明属于电力系统用户异常的识别技术领域，具体涉及一种电力系统异常用户的识别方法。

背景技术

随着用电信息采集系统的建设和应用，台区线损的管理逐步要求实现精细化，户变关系的准确性，不仅是用电信息采集系统实现远程抄表的基础，也是台区线损统计，准确分析的保障，无法掌握正确的户变关系，不仅影响用电信息采集系统抄表成功率，更是影响着台区线损分析的开展。因此，梳理户变关系识别异常用户对于电力企业有着重要的意义。

在电力系统中，台区是指(一台)变压器的供电范围或区域。一个台区的供电范围或区域一般是以村、小区等为单位，供电用户在地图上相距较近，户变关系指台区和用户的所属关系。

现有的电力系统异常用户识别通常采用人工识别法和瞬时停电法，人工识别法根据低压线路的走向进行户变关系的划分与异常识别，人为主观性较强，特别是城网内纵横交错的低压电力线走向，户变关系的划分非常复杂，对于有问题的台区户变关系识别异常用户也非常困难。瞬时停电法就是通过对各个变压器或各段母排在一段时间内(一般10秒)停电一次，且每台变压器的停电时间间隔在10分钟以上，然后利用掌机抄读智能电能表的掉电记录。根据电能表停电时间和变压器对应的停电时间即可区分每块电能表与台区的隶属关系。该方法具有较多的局限性，它要求台区下必须全部具备智能表，停电时，要求记录公用配变的停电时间，要求配置手持终端(即掌机)，采用红外接口将智能表的停电时间秒读后传回系统进行判定，最后还要求配有台区户变关系的服务器。

上述的分析方法能够在一定程度上进行台区户变关系异常识别，但分析结果往往并不理想，且实际应用价值较小，主要原因分析如下：现有相关技术多是基于人工主数据管理的，依靠人工根据低压线路的走向进行户变关系划分判断，人为主观性较强，或者通过停运变压器判断，该方法工程巨大费时费力，前期停电通知工作不到位的情况下还可能导致民事纠纷。

发明内容

有鉴于此，本发明的目的在于提供一种电力系统异常用户的识别方法，通过地理位置信息、地址名称和用电负荷来判断是否为异常用户，便于电力系统的业务统计。

为了实现上述目的，本发明通过以下技术方案予以实现：

一种电力系统异常用户的识别方法，包括以下步骤：

欧式距离的获取：获取台区每个用户的地理位置信息，通过计算获得每个用户的地理位置信息与台区地理位置信息的欧式距离；

用户地址与台区地址特征词相似度的获取：获取台区内每个用户的地址和台区地址特征词，对比每个用户的地址和台区地址特征词，得到每个用户地址与台区地址特征词的相似度，对用户地址与台区地址特征词相似度进行归一化，归一化后再与1相减，得到的结果依然在0到1之间，1表示相似度最小，即用户是地址名称异常的可能性越大；

用户历史用电负荷的余弦距离：通过两步聚类算法，将每个用户的历史用电负荷数据自动聚为若干类，求每一个用户历史用电负荷与相应类中心的余弦距离；

用户异常概率的计算：通过熵权法，根据欧式距离、用户地址与台区地址的相似度以及用户历史用电负荷的余弦距离，计算得到每个用户的异常概率；

用户异常的识别：通过每个用户的异常概率，识别获得电力系统中的异常用户。

进一步地，所述欧式距离的获取步骤中，还包括用户到台区距离的处理，具体为：将每个用户到台区的距离通过归一化处理，获得每个用户与台区的距离。

进一步地，所述用户到台区距离的处理中，归一化处理后，获得若干0-1之间的数据，其中，1表示所述用户与台区的距离最远。

进一步地，所述用户地址与台区地址相似度的获取步骤中所述台区地址特征词的获取具体为：利用自然语言处理的名词得到地址名称词库，结合地址名称词库与台区内用户的地址得到台区地址特征词。

进一步地，所述台区地址特征词的获取采用的是正则表达式。

进一步地，所述地址名称词库至少包括村、小区、街、路、社区、巷、弄或公园中的一种。

进一步地，所述用户地址与台区地址特征词相似度的获取步骤还包括对获得的用户地址与台区地址特征词相似度进行归一化处理。

更进一步地，若获得的台区地址特征词为若干个，则所述台区内用户地址与台区地址特征词的相似度为所述用户的地址分别和若干个台区地址特征词对比之后得到的相似度的总和。

进一步地，所述用户地址与台区地址特征词相似度的获取步骤中，所述每个用户地址与台区地址特征词的相似度采用向量空间模型方法获得。

进一步地，所述用户异常概率的计算步骤中，所述通过熵权法具体为：

a.将k个指标的数据进行标准化处理，具体为：

给定的k个指标分别为X₁,X₂,...,X_k，且X_i＝{x_i1,x_i2,...x_in}，其中，k为3,所述k个指标分别是欧式距离、用户地址与台区地址相似度以及用户历史用电负荷的余弦距离；X_i表示第i个指标，i为1、2或3，第i个指标包括n个指标值x_i1，x_i2，...x_in，n为大于等于1的自然数；

将所述指标X₁,X₂,...,X_k标准化处理后的值分别为Y₁,Y₂,...Y_k，其中，

其中，x_ij表示第i类指标中n个数值中的第j个指标值,y_ij表示x_ij标准化处理后的结果值；

b.分别求各个指标的信息熵：采用公式(1)计算各个指标的信息熵：

其中

p_ij表示第i类指标中第j个指标值在第i类指标的n个数据中占的比重，

表示第i类指标中n个指标值标准化结果的加和，如果p_ij＝0，则定义limp_ijlnp_ij＝0；

c.确定各指标权重:根据信息熵的计算公式，计算出各个指标的信息熵E₁,E₂,...,E_k。通过公式(2)计算得到各指标的权重：

其中，E_i为第i个指标信息熵，∑E_i为中k个指标值信息熵的总和，k为指标个数。

本发明的有益效果如下：

本发明提出一种基于自然语言处理及机器学习的电力系统户变关系异常识别方法。其主要思路是：首先整理台区和用户的地理信息系统(Geographic InformationSystem，GIS)数据，求取每个用户GIS与台区GIS的欧式距离，将台区所有用户的距离归一化到0到1之间，1表示距离最远；然后通过自然语言处理的分词得到地址名称词库，利用正则表达式求取每个台区用户地址的特征词，利用向量空间模型求取台区内每个用户地址与台区地址特征词之间的相似度，若有多个特征词，则对相似度数据求和，台区所有用户的相似度转换到0到1之间，1表示相似度最小；之后，通过两步聚类算法将台区用户的历史用电负荷数据自动聚为若干类，求每一个用户历史用电负荷与相应类中心的余弦距离，将台区所有用户的距离归一化到0到1之间，1表示距离最大；最后，利用熵权法根据GIS距离、名称相似度、用电负荷距离，综合得到每个用户的异常概率，进而得到台区中异常用户候选名单。

本发明中，通过简单的计算步骤，结合现有的GIS系统，及时获取用户地理位置信息，判断是否异常，无需停运变压器，节省了大量的人力和物力，无需停电影响用户使用。

附图说明

图1为本发明提供的一种电力系统异常用户的识别方法的流程示意图；

图2为本发明提供的聚类算法中的归属示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合实施例，进一步阐述本发明。

参照附图1所示，本发明提供的一种电力系统异常用户的识别方法，包括以下步骤：

1)欧式距离的获取：整理台区和用户的GIS数据，GIS包括经度数据和纬度数据，进而得到台区每个用户的地理位置信息，进而通过计算获得每用户地理位置信息与台区地理位置信息的欧式距离；当无法具体到用户的地理位置信息GIS时，可以用表箱的GIS代替用户的GIS；关于台区的地理位置，由于每个台区都会有经纬度，用户的经纬度用所在表箱的经纬度代替。比如，一个小区是一个台区，小区里每个用户都有表箱。西安的台区太多太多，变电站下挂线路。线路下挂台区，台区下挂用户。

所述欧式距离的获取步骤中，还包括用户到台区距离的处理，具体为：将每个用户到台区的距离通过归一化处理获得用户与台区的距离。

其中，对于x＝(x₁,y₁),y＝(x₂,y₂)的两个向量，欧氏距离公式如下：

其中，x1，y1，x2，y2表示向量x和y的坐标。因为有两个向量，故为x1，x2，y1和y2。

将同一台区内所有用户的距离归一化到0到1之间，归一化公式为：

归一化公式中，V就是用户到台区的距离，就是通过Euclid(x,y)计算得来的，这里的x和y就分别表示台区GIS和用户GIS，min和max就是距离的最小值和最大值。

归一化后，当v′等于1时，表示此用户与台区之间的距离最远；而当v′1等于0时，表示该用户与台区之间的距离最近。在一个台区的供电用户在地图上相距较近时，离台区也较近，此时距离台区较远的用户是GIS异常的用户可能性更大。

地理信息系统(Geographic Information System或Geo－Information system，GIS)有时又称为“地学信息系统”。它是一种特定的十分重要的空间信息系统。它是在计算机硬、软件系统支持下，对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。

本发明中，所述用户到台区距离的处理中，归一化处理后，获得若干0-1之间的数据，其中，1表示用户的地理信息距离台区的地理信息距离最远。

2)用户地址与台区地址相似度的获取：获取台区内每个用户的地址和台区地址特征词，对比每个用户的地址和台区地址特征词，得到每个用户地址与台区地址特征词的相似度，对用户地址与台区地址特征词相似度进行归一化，归一化后再与1相减，得到的结果依然在0到1之间，1表示相似度最小，即用户是地址名称异常的可能性越大；

其中，台区地址特征词的获取具体为：利用自然语言处理的名词得到地址名称词库，结合地址名称词库与台区内用户的地址得到台区地址特征词。

地址名称词库至少包括村、小区、街、路、社区、巷、弄或公园中的一种。

所述台区地址特征词的获取采用的是正则表达式。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符，比如“小区”、“路”、“院”等，及这些特定字符的组合，比如XX市XX路，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”)；

2.可以通过正则表达式，从字符串中获取我们想要的特定部分。

进一步地，还包括对获得的用户地址与台区地址特征词相似度进行归一化处理。

对台区所有用户地址与台区地址特征词相似度数据进行归一化，归一化后再与1相减，得到的结果依然在0到1之间，1表示相似度最小，即用户是地址名称异常的可能性越大。

当获得的台区地址特征词为若干个，则所述台区内用户地址与台区地址特征词的相似度为所述用户的地址分别和若干个台区地址特征词对比之后得到的相似度的总和。

比如，当有多个特征词出现时(包括特征词A，B等等)，可能用户地址与特征词A的相似度很高，和特征词B的相似度很低。具体如:甲台区下的用户特征词有台区地址特征词锦园A和台区地址特征词庆安B两个，表示这俩小区都是属于甲台区下的。然后某个用户是锦园小区1号楼XXX，则这个用户和台区地址特征词锦园A的相似度是1，和台区地址特征词庆安B的相似度是0，此时该用户地址与甲台区地址特征词的相似度为1+0＝1。

台区内，每个用户地址与台区地址特征词相似度的求取采用向量空间模型进行求取。

向量空间模型(Vector Space Model)是一种自然语言处理中常用的模型，它是G.Salton等人在二十世纪60年代提出的，最早用在SMART信息检索系统中。VSM涉及如下基本概念：

1)文档(document)：通常是文档中具有一定规模的片段，从句子到篇章，都可看做一个文档。

2)项、特征项(term,feature term)：特征项是VSM中不可分的语言单元，可以是字，词，短语等。一个文档内容被看成是它含有特征项所组成的集合，表示为：Document＝D(t1,t2,...tN)，其中t(k)是特征项，1＜＝k＜＝N。

3)项的权重(term weight)：对于含有n个特征项的文档D(t1,t2,t3,...tN)，每一个特征都依据一定的原则被赋予一个权重w(k)，表示它们在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项对应的权重所表示，D＝D(t1,w1,t2,w2,...,tN,wN)，其中w(k)是特征项t(k)的权重，1＜＝k＜＝N。

一个文档在上述约定下可以看成是n维空间中的一个向量，这就是向量空间模型。值得注意的是，VSM有如下的特点：

A)各个特征项互异。

B)各个特征项无先后顺序关系(即，不考虑文档的内部结构)这样，t(k),K∈(1,N)，就是一个N维坐标系，w(k)就是坐标值，一个文本就是这个N维空间中的一个向量。

3)用户历史用电负荷的余弦距离：通过两步聚类算法，将台区中所有用户的历史用电负荷数据自动聚为若干类，求每一个用户历史用电负荷与相应类(所谓的相应类，即若干类中，每个用户历史用电负荷所属的类)中心的余弦距离；

参照附图2聚类算法中的归属示意所示，此时，所有的用户，被聚为若干类，每一类都可以求一个类中心(下文有，求均值)，对于每一类中的每一个用户，都可以与所在类的类中心求一个距离，和这个类中心距离最大的，异常的可能性越大。举个例子，图2中负荷曲线被聚为两类，而图中中间的w线这个被分到了上边那一类，由于分的不对，他会格格不入，故和第一类的类中心离的很远。

余弦距离，也称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量，是多维空间中有方向的线段，如果两个向量的方向一致，即夹角接近零，那么这两个向量就相近。而要确定两个向量方向是否一致，这就要用到余弦定理计算向量的夹角。

余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边，可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为a，b和c，对应的三个角为A，B和C，那么角A的余弦为：

如果将三角形的两边b和c看成是两个向量，则上述公式等价于：

其中分母表示两个向量b和c的长度，分子表示两个向量的内积。

具体操作中，台区用户的历史用电负荷数据为一些不规则的曲线，采用两步聚类算法将用户的负荷曲线自动聚为若干类，每一类具有相似的用电特性，求取每一类负荷曲线按时间的均值，即为每一类的类中心，求每一个用户历史用电负荷与所在类的类中心余弦距离，将台区所有用户的负荷曲线与类中心距离归一化到0到1之间，1表示距离最大，即用户是用电负荷异常用户的可能性较大。

数据变换后的GIS距离、名称相似度、用电负荷距离都在0到1之间，且1表示异常可能性较大，0表示异常可能性较小，采用熵权法为三个指标客观赋权，根据权值综合得到每个用户的异常概率，进而得到台区中异常用户候选名单。

两步聚类(TwoStep Cluster Analysis)是一个综合的层次聚类方法，在1996年被明确提出。作为一种探索性的分析方法，它既可以运算连续变量，也能处理离散变量；计算时可以自行设定分类数，也能自动确定类别。

两步聚类分为两个步骤：第一步是预分类过程。这个过程按照一定的顺序进行，它逐个扫描数据并确定类中心，再基于一定的标准把观测量分到相应的各类中。这个过程被称为构建一个分类的特征树(CF)，最初，它将观测量放在树的叶节点根部，这个叶节点包含观测量的变量信息，然后使用相似性测度将后续的观测量和已经存在的节点比较，如果相似就将这个观测量加在已经存在的节点上，反之则形成一个新节点，如此进行直到数据传递全部完成。第二步，使用层次凝聚算法对特征树的叶节点分组。

在这两步算法中都使用了距离测度，距离测度主要采用欧式距离和似然对数距离。

欧式距离(Euclidean Distance)是测两个类中心的距离，类中心是指类中所有变量的均值。这种测度主要针对连续变量，计算公式如下：

似然对数距离(Log-likelihood Distance)能处理连续变量和分类变量。它是基于距离的概率值，两类之间的距离会随着两类合并为一类时似然对数的减少而变化。计算似然对数时，连续变量在立项情况下需要满足正态分布，分类变量需要满足多项式分布，而且它假定变量之间彼此独立。我们将分类j和分类s的之间的距离定义为d(j,s)：

d(j,s)＝ξ_j+ξ_s-ξ_＜j,s＞

其中，＜j,s＞代表由类j和类s合并后形成的类。

在这个过程中，贝叶斯(BIC)或者Akaik(AIC)两种判据会对每一种分类进行计算，并对分类数目做初始估计，最终聚类数目将被确定为在初始分类中使两个最接近的类之间距离增长最大的那个聚类数。

4)用户异常概率的计算：通过熵权法，根据欧式距离、用户地址与台区地址相似度以及用户历史用电负荷的余弦距离，计算得到每个用户的异常概率；

用户异常概率计算中，通过熵权法具体为：

a.将k个指标的数据进行标准化处理，具体为：

其中

所述p_ij＝0，表示对于n个指标中的最小值(标准化后最小值就是0)，对E的影响为0，即没有影响；

c.确定各指标权重:根据信息熵的计算公式，计算出各个指标的信息熵E₁,E₂,...,E_k。通过公式(2)计算得到各指标的权重；

其中，E_i为第i个指标信息熵，每个指标都有信息熵，∑E_i为中n个指标值信息熵的总和，k为指标个数。

熵权法的基本思想是根据指标变异性的大小来确定客观权重。一般来说，若某个指标的信息熵Ej越小，表明指标值得变异程度越大，提供的信息量越多，在综合评价中所能起到的作用也越大，其权重也就越大。相反，某个指标的信息熵Ej越大，表明指标值得变异程度越小，提供的信息量也越少，在综合评价中起到的作用也越小，其权重也就越小。

5)用户异常的识别：通过每个用户的异常概率，识别获得电力系统中的异常用户。

比如，庆安小区是一个台区，要找出庆安小区中的异常用户：

1、欧式距离，求每个用户GIS与台区GIS的距离，归一化；

2、用户地址与台区地址的相似度，庆安小区里的用户，每个用户名称都是庆安小区几号楼几单元几零几，他们的特征词就是庆安小区，计算每个用户名称与庆安小区的相似度(如果有一个是桃园小区，他的相似度就很小)；

3、用户历史用电负荷的余弦距离，庆安小区，如果有停电事件，肯定是一起发生的，同一小区中，如果某个用户的用电曲线和其他用户的差异很大，那他是异常的可能性就比较大，聚类是将小区内用户的用电习惯分群，并求出每一个用户的历史用电负荷与相应类中心的余弦距离；

4、根据欧式距离、用户地址与台区地址的相似度及用户历史用电负荷的余弦距离，通过熵权法进行进行算，确定每个用户异常的概率；

5、最终异常概率越大的用户异常的可能性越大。

电力系统：电力系统是由发电厂、送变电线路、供配电所和用电等环节组成的电能生产与消费系统。它的功能是将自然界的一次能源通过发电动力装置转化成电能，再经输电、变电和配电将电能供应到各用户。为实现这一功能，电力系统在各个环节和不同层次还具有相应的信息与控制系统，对电能的生产过程进行测量、调节、控制、保护、通信和调度，以保证用户获得安全、优质的电能。

自然语言处理：自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域。

本发明通过简单的步骤，实现了通过地理位置信息数据、地址名称以及用电负荷识别是否为异常用户，提高了电力系统的工作效率。以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种电力系统异常用户的识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种电力系统异常用户的识别方法，其特征在于，所述欧式距离的获取步骤中，还包括每个用户到台区距离的处理，具体为：将每个用户到台区的距离通过归一化处理，获得每个用户与台区的距离。

3.根据权利要求2所述的一种电力系统异常用户的识别方法，其特征在于，所述用户到台区距离的处理中，归一化处理后，获得若干0-1之间的数据，其中，1表示所述用户与台区的距离最远。

4.根据权利要求1所述的一种电力系统异常用户的识别方法，其特征在于，所述用户地址与台区地址相似度的获取步骤中所述台区地址特征词的获取具体为：利用自然语言处理的名词得到地址名称词库，结合地址名称词库与台区内用户的地址得到台区地址特征词。

5.根据权利要求4所述的一种电力系统异常用户的识别方法，其特征在于，所述台区地址特征词的获取采用的是正则表达式。

6.根据权利要求4所述的一种电力系统异常用户的识别方法，其特征在于，所述地址名称词库至少包括村、小区、街、路、社区、巷、弄或公园中的一种。

7.根据权利要求1所述的一种电力系统异常用户的识别方法，其特征在于，若获得的台区地址特征词为若干个，则所述台区内用户地址与台区地址特征词的相似度为所述用户的地址分别和若干个台区地址特征词对比之后得到的相似度的总和。

8.根据权利要求1所述的一种电力系统异常用户的识别方法，其特征在于，所述用户地址与台区地址特征词相似度的获取步骤中，所述每个用户地址与台区地址特征词的相似度采用向量空间模型方法获得。

9.根据权利要求1所述的一种电力系统异常用户的识别方法，其特征在于，所述用户异常概率的计算步骤中，所述通过熵权法具体为：

a.将k个指标的数据进行标准化处理，具体为：

给定的k个指标分别为X₁,X₂,...,X_k，且X_i＝{x_i1,x_i2,...x_in}，其中，k为3,所述k个指标分别是欧式距离、用户地址与台区地址相似度以及用户历史用电负荷的余弦距离；X_i表示第i个指标，i为1、2或3，第i个指标包括n个指标值x_i1，x_i2，...x_in.，n为大于等于1的自然数；

其中

表示第i类指标中n个指标值标准化结果的加和，如果p_ij＝0，则定义lim p_ijln p_ij＝0；

c.确定各指标权重:根据信息熵的计算公式，计算出各个指标的信息熵E₁,E₂,...,E_k，通过公式(2)计算得到各指标的权重：