CN107958395B - 一种电力系统异常用户的识别方法 - Google Patents
一种电力系统异常用户的识别方法 Download PDFInfo
- Publication number
- CN107958395B CN107958395B CN201711332503.9A CN201711332503A CN107958395B CN 107958395 B CN107958395 B CN 107958395B CN 201711332503 A CN201711332503 A CN 201711332503A CN 107958395 B CN107958395 B CN 107958395B
- Authority
- CN
- China
- Prior art keywords
- user
- address
- index
- similarity
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000005856 abnormality Effects 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 240000006413 Prunus persica var. persica Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Public Health (AREA)
- Remote Sensing (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电力系统异常用户的识别方法,其特征在于,包括以下步骤:欧式距离的获取;用户地址与台区地址特征词相似度的获取;用户历史用电负荷的余弦距离;用户异常概率的计算和用户异常的识别。本发明通过简单的步骤,实现了通过地理位置信息数据、地址名称以及用电负荷识别是否为异常用户,提高了电力系统的工作效率。
Description
技术领域
本发明属于电力系统用户异常的识别技术领域,具体涉及一种电力系统异常用户的识别方法。
背景技术
随着用电信息采集系统的建设和应用,台区线损的管理逐步要求实现精细化,户变关系的准确性,不仅是用电信息采集系统实现远程抄表的基础,也是台区线损统计,准确分析的保障,无法掌握正确的户变关系,不仅影响用电信息采集系统抄表成功率,更是影响着台区线损分析的开展。因此,梳理户变关系识别异常用户对于电力企业有着重要的意义。
在电力系统中,台区是指(一台)变压器的供电范围或区域。一个台区的供电范围或区域一般是以村、小区等为单位,供电用户在地图上相距较近,户变关系指台区和用户的所属关系。
现有的电力系统异常用户识别通常采用人工识别法和瞬时停电法,人工识别法根据低压线路的走向进行户变关系的划分与异常识别,人为主观性较强,特别是城网内纵横交错的低压电力线走向,户变关系的划分非常复杂,对于有问题的台区户变关系识别异常用户也非常困难。瞬时停电法就是通过对各个变压器或各段母排在一段时间内(一般10秒)停电一次,且每台变压器的停电时间间隔在10分钟以上,然后利用掌机抄读智能电能表的掉电记录。根据电能表停电时间和变压器对应的停电时间即可区分每块电能表与台区的隶属关系。该方法具有较多的局限性,它要求台区下必须全部具备智能表,停电时,要求记录公用配变的停电时间,要求配置手持终端(即掌机),采用红外接口将智能表的停电时间秒读后传回系统进行判定,最后还要求配有台区户变关系的服务器。
上述的分析方法能够在一定程度上进行台区户变关系异常识别,但分析结果往往并不理想,且实际应用价值较小,主要原因分析如下:现有相关技术多是基于人工主数据管理的,依靠人工根据低压线路的走向进行户变关系划分判断,人为主观性较强,或者通过停运变压器判断,该方法工程巨大费时费力,前期停电通知工作不到位的情况下还可能导致民事纠纷。
发明内容
有鉴于此,本发明的目的在于提供一种电力系统异常用户的识别方法,通过地理位置信息、地址名称和用电负荷来判断是否为异常用户,便于电力系统的业务统计。
为了实现上述目的,本发明通过以下技术方案予以实现:
一种电力系统异常用户的识别方法,包括以下步骤:
欧式距离的获取:获取台区每个用户的地理位置信息,通过计算获得每个用户的地理位置信息与台区地理位置信息的欧式距离;
用户地址与台区地址特征词相似度的获取:获取台区内每个用户的地址和台区地址特征词,对比每个用户的地址和台区地址特征词,得到每个用户地址与台区地址特征词的相似度,对用户地址与台区地址特征词相似度进行归一化,归一化后再与1相减,得到的结果依然在0到1之间,1表示相似度最小,即用户是地址名称异常的可能性越大;
用户历史用电负荷的余弦距离:通过两步聚类算法,将每个用户的历史用电负荷数据自动聚为若干类,求每一个用户历史用电负荷与相应类中心的余弦距离;
用户异常概率的计算:通过熵权法,根据欧式距离、用户地址与台区地址的相似度以及用户历史用电负荷的余弦距离,计算得到每个用户的异常概率;
用户异常的识别:通过每个用户的异常概率,识别获得电力系统中的异常用户。
进一步地,所述欧式距离的获取步骤中,还包括用户到台区距离的处理,具体为:将每个用户到台区的距离通过归一化处理,获得每个用户与台区的距离。
进一步地,所述用户到台区距离的处理中,归一化处理后,获得若干0-1之间的数据,其中,1表示所述用户与台区的距离最远。
进一步地,所述用户地址与台区地址相似度的获取步骤中所述台区地址特征词的获取具体为:利用自然语言处理的名词得到地址名称词库,结合地址名称词库与台区内用户的地址得到台区地址特征词。
进一步地,所述台区地址特征词的获取采用的是正则表达式。
进一步地,所述地址名称词库至少包括村、小区、街、路、社区、巷、弄或公园中的一种。
进一步地,所述用户地址与台区地址特征词相似度的获取步骤还包括对获得的用户地址与台区地址特征词相似度进行归一化处理。
更进一步地,若获得的台区地址特征词为若干个,则所述台区内用户地址与台区地址特征词的相似度为所述用户的地址分别和若干个台区地址特征词对比之后得到的相似度的总和。
进一步地,所述用户地址与台区地址特征词相似度的获取步骤中,所述每个用户地址与台区地址特征词的相似度采用向量空间模型方法获得。
进一步地,所述用户异常概率的计算步骤中,所述通过熵权法具体为:
a.将k个指标的数据进行标准化处理,具体为:
给定的k个指标分别为X1,X2,...,Xk,且Xi={xi1,xi2,...xin},其中,k为3,所述k个指标分别是欧式距离、用户地址与台区地址相似度以及用户历史用电负荷的余弦距离;Xi表示第i个指标,i为1、2或3,第i个指标包括n个指标值xi1,xi2,...xin,n为大于等于1的自然数;
其中,xij表示第i类指标中n个数值中的第j个指标值,yij表示xij标准化处理后的结果值;
b.分别求各个指标的信息熵:采用公式(1)计算各个指标的信息熵:
c.确定各指标权重:根据信息熵的计算公式,计算出各个指标的信息熵E1,E2,...,Ek。通过公式(2)计算得到各指标的权重:
其中,Ei为第i个指标信息熵,∑Ei为中k个指标值信息熵的总和,k为指标个数。
本发明的有益效果如下:
本发明提出一种基于自然语言处理及机器学习的电力系统户变关系异常识别方法。其主要思路是:首先整理台区和用户的地理信息系统(Geographic InformationSystem,GIS)数据,求取每个用户GIS与台区GIS的欧式距离,将台区所有用户的距离归一化到0到1之间,1表示距离最远;然后通过自然语言处理的分词得到地址名称词库,利用正则表达式求取每个台区用户地址的特征词,利用向量空间模型求取台区内每个用户地址与台区地址特征词之间的相似度,若有多个特征词,则对相似度数据求和,台区所有用户的相似度转换到0到1之间,1表示相似度最小;之后,通过两步聚类算法将台区用户的历史用电负荷数据自动聚为若干类,求每一个用户历史用电负荷与相应类中心的余弦距离,将台区所有用户的距离归一化到0到1之间,1表示距离最大;最后,利用熵权法根据GIS距离、名称相似度、用电负荷距离,综合得到每个用户的异常概率,进而得到台区中异常用户候选名单。
本发明中,通过简单的计算步骤,结合现有的GIS系统,及时获取用户地理位置信息,判断是否异常,无需停运变压器,节省了大量的人力和物力,无需停电影响用户使用。
附图说明
图1为本发明提供的一种电力系统异常用户的识别方法的流程示意图;
图2为本发明提供的聚类算法中的归属示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合实施例,进一步阐述本发明。
参照附图1所示,本发明提供的一种电力系统异常用户的识别方法,包括以下步骤:
1)欧式距离的获取:整理台区和用户的GIS数据,GIS包括经度数据和纬度数据,进而得到台区每个用户的地理位置信息,进而通过计算获得每用户地理位置信息与台区地理位置信息的欧式距离;当无法具体到用户的地理位置信息GIS时,可以用表箱的GIS代替用户的GIS;关于台区的地理位置,由于每个台区都会有经纬度,用户的经纬度用所在表箱的经纬度代替。比如,一个小区是一个台区,小区里每个用户都有表箱。西安的台区太多太多,变电站下挂线路。线路下挂台区,台区下挂用户。
所述欧式距离的获取步骤中,还包括用户到台区距离的处理,具体为:将每个用户到台区的距离通过归一化处理获得用户与台区的距离。
其中,对于x=(x1,y1),y=(x2,y2)的两个向量,欧氏距离公式如下:
其中,x1,y1,x2,y2表示向量x和y的坐标。因为有两个向量,故为x1,x2,y1和y2。
将同一台区内所有用户的距离归一化到0到1之间,归一化公式为:
归一化公式中,V就是用户到台区的距离,就是通过Euclid(x,y)计算得来的,这里的x和y就分别表示台区GIS和用户GIS,min和max就是距离的最小值和最大值。
归一化后,当v′等于1时,表示此用户与台区之间的距离最远;而当v′1等于0时,表示该用户与台区之间的距离最近。在一个台区的供电用户在地图上相距较近时,离台区也较近,此时距离台区较远的用户是GIS异常的用户可能性更大。
地理信息系统(Geographic Information System或Geo-Information system,GIS)有时又称为“地学信息系统”。它是一种特定的十分重要的空间信息系统。它是在计算机硬、软件系统支持下,对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。
本发明中,所述用户到台区距离的处理中,归一化处理后,获得若干0-1之间的数据,其中,1表示用户的地理信息距离台区的地理信息距离最远。
2)用户地址与台区地址相似度的获取:获取台区内每个用户的地址和台区地址特征词,对比每个用户的地址和台区地址特征词,得到每个用户地址与台区地址特征词的相似度,对用户地址与台区地址特征词相似度进行归一化,归一化后再与1相减,得到的结果依然在0到1之间,1表示相似度最小,即用户是地址名称异常的可能性越大;
其中,台区地址特征词的获取具体为:利用自然语言处理的名词得到地址名称词库,结合地址名称词库与台区内用户的地址得到台区地址特征词。
地址名称词库至少包括村、小区、街、路、社区、巷、弄或公园中的一种。
所述台区地址特征词的获取采用的是正则表达式。
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符,比如“小区”、“路”、“院”等,及这些特定字符的组合,比如XX市XX路,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);
2.可以通过正则表达式,从字符串中获取我们想要的特定部分。
进一步地,还包括对获得的用户地址与台区地址特征词相似度进行归一化处理。
对台区所有用户地址与台区地址特征词相似度数据进行归一化,归一化后再与1相减,得到的结果依然在0到1之间,1表示相似度最小,即用户是地址名称异常的可能性越大。
当获得的台区地址特征词为若干个,则所述台区内用户地址与台区地址特征词的相似度为所述用户的地址分别和若干个台区地址特征词对比之后得到的相似度的总和。
比如,当有多个特征词出现时(包括特征词A,B等等),可能用户地址与特征词A的相似度很高,和特征词B的相似度很低。具体如:甲台区下的用户特征词有台区地址特征词锦园A和台区地址特征词庆安B两个,表示这俩小区都是属于甲台区下的。然后某个用户是锦园小区1号楼XXX,则这个用户和台区地址特征词锦园A的相似度是1,和台区地址特征词庆安B的相似度是0,此时该用户地址与甲台区地址特征词的相似度为1+0=1。
台区内,每个用户地址与台区地址特征词相似度的求取采用向量空间模型进行求取。
向量空间模型(Vector Space Model)是一种自然语言处理中常用的模型,它是G.Salton等人在二十世纪60年代提出的,最早用在SMART信息检索系统中。VSM涉及如下基本概念:
1)文档(document):通常是文档中具有一定规模的片段,从句子到篇章,都可看做一个文档。
2)项、特征项(term,feature term):特征项是VSM中不可分的语言单元,可以是字,词,短语等。一个文档内容被看成是它含有特征项所组成的集合,表示为:Document=D(t1,t2,...tN),其中t(k)是特征项,1<=k<=N。
3)项的权重(term weight):对于含有n个特征项的文档D(t1,t2,t3,...tN),每一个特征都依据一定的原则被赋予一个权重w(k),表示它们在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项对应的权重所表示,D=D(t1,w1,t2,w2,...,tN,wN),其中w(k)是特征项t(k)的权重,1<=k<=N。
一个文档在上述约定下可以看成是n维空间中的一个向量,这就是向量空间模型。值得注意的是,VSM有如下的特点:
A)各个特征项互异。
B)各个特征项无先后顺序关系(即,不考虑文档的内部结构)这样,t(k),K∈(1,N),就是一个N维坐标系,w(k)就是坐标值,一个文本就是这个N维空间中的一个向量。
3)用户历史用电负荷的余弦距离:通过两步聚类算法,将台区中所有用户的历史用电负荷数据自动聚为若干类,求每一个用户历史用电负荷与相应类(所谓的相应类,即若干类中,每个用户历史用电负荷所属的类)中心的余弦距离;
参照附图2聚类算法中的归属示意所示,此时,所有的用户,被聚为若干类,每一类都可以求一个类中心(下文有,求均值),对于每一类中的每一个用户,都可以与所在类的类中心求一个距离,和这个类中心距离最大的,异常的可能性越大。举个例子,图2中负荷曲线被聚为两类,而图中中间的w线这个被分到了上边那一类,由于分的不对,他会格格不入,故和第一类的类中心离的很远。
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。
余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b和c,对应的三个角为A,B和C,那么角A的余弦为:
如果将三角形的两边b和c看成是两个向量,则上述公式等价于:
其中分母表示两个向量b和c的长度,分子表示两个向量的内积。
具体操作中,台区用户的历史用电负荷数据为一些不规则的曲线,采用两步聚类算法将用户的负荷曲线自动聚为若干类,每一类具有相似的用电特性,求取每一类负荷曲线按时间的均值,即为每一类的类中心,求每一个用户历史用电负荷与所在类的类中心余弦距离,将台区所有用户的负荷曲线与类中心距离归一化到0到1之间,1表示距离最大,即用户是用电负荷异常用户的可能性较大。
数据变换后的GIS距离、名称相似度、用电负荷距离都在0到1之间,且1表示异常可能性较大,0表示异常可能性较小,采用熵权法为三个指标客观赋权,根据权值综合得到每个用户的异常概率,进而得到台区中异常用户候选名单。
两步聚类(TwoStep Cluster Analysis)是一个综合的层次聚类方法,在1996年被明确提出。作为一种探索性的分析方法,它既可以运算连续变量,也能处理离散变量;计算时可以自行设定分类数,也能自动确定类别。
两步聚类分为两个步骤:第一步是预分类过程。这个过程按照一定的顺序进行,它逐个扫描数据并确定类中心,再基于一定的标准把观测量分到相应的各类中。这个过程被称为构建一个分类的特征树(CF),最初,它将观测量放在树的叶节点根部,这个叶节点包含观测量的变量信息,然后使用相似性测度将后续的观测量和已经存在的节点比较,如果相似就将这个观测量加在已经存在的节点上,反之则形成一个新节点,如此进行直到数据传递全部完成。第二步,使用层次凝聚算法对特征树的叶节点分组。
在这两步算法中都使用了距离测度,距离测度主要采用欧式距离和似然对数距离。
欧式距离(Euclidean Distance)是测两个类中心的距离,类中心是指类中所有变量的均值。这种测度主要针对连续变量,计算公式如下:
似然对数距离(Log-likelihood Distance)能处理连续变量和分类变量。它是基于距离的概率值,两类之间的距离会随着两类合并为一类时似然对数的减少而变化。计算似然对数时,连续变量在立项情况下需要满足正态分布,分类变量需要满足多项式分布,而且它假定变量之间彼此独立。我们将分类j和分类s的之间的距离定义为d(j,s):
d(j,s)=ξj+ξs-ξ<j,s>
其中,<j,s>代表由类j和类s合并后形成的类。
在这个过程中,贝叶斯(BIC)或者Akaik(AIC)两种判据会对每一种分类进行计算,并对分类数目做初始估计,最终聚类数目将被确定为在初始分类中使两个最接近的类之间距离增长最大的那个聚类数。
4)用户异常概率的计算:通过熵权法,根据欧式距离、用户地址与台区地址相似度以及用户历史用电负荷的余弦距离,计算得到每个用户的异常概率;
用户异常概率计算中,通过熵权法具体为:
a.将k个指标的数据进行标准化处理,具体为:
给定的k个指标分别为X1,X2,...,Xk,且Xi={xi1,xi2,...xin},其中,k为3,所述k个指标分别是欧式距离、用户地址与台区地址相似度以及用户历史用电负荷的余弦距离;Xi表示第i个指标,i为1、2或3,第i个指标包括n个指标值xi1,xi2,...xin,n为大于等于1的自然数;
其中,xij表示第i类指标中n个数值中的第j个指标值,yij表示xij标准化处理后的结果值;
b.分别求各个指标的信息熵:采用公式(1)计算各个指标的信息熵:
所述pij=0,表示对于n个指标中的最小值(标准化后最小值就是0),对E的影响为0,即没有影响;
c.确定各指标权重:根据信息熵的计算公式,计算出各个指标的信息熵E1,E2,...,Ek。通过公式(2)计算得到各指标的权重;
其中,Ei为第i个指标信息熵,每个指标都有信息熵,∑Ei为中n个指标值信息熵的总和,k为指标个数。
熵权法的基本思想是根据指标变异性的大小来确定客观权重。一般来说,若某个指标的信息熵Ej越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵Ej越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中起到的作用也越小,其权重也就越小。
5)用户异常的识别:通过每个用户的异常概率,识别获得电力系统中的异常用户。
比如,庆安小区是一个台区,要找出庆安小区中的异常用户:
1、欧式距离,求每个用户GIS与台区GIS的距离,归一化;
2、用户地址与台区地址的相似度,庆安小区里的用户,每个用户名称都是庆安小区几号楼几单元几零几,他们的特征词就是庆安小区,计算每个用户名称与庆安小区的相似度(如果有一个是桃园小区,他的相似度就很小);
3、用户历史用电负荷的余弦距离,庆安小区,如果有停电事件,肯定是一起发生的,同一小区中,如果某个用户的用电曲线和其他用户的差异很大,那他是异常的可能性就比较大,聚类是将小区内用户的用电习惯分群,并求出每一个用户的历史用电负荷与相应类中心的余弦距离;
4、根据欧式距离、用户地址与台区地址的相似度及用户历史用电负荷的余弦距离,通过熵权法进行进行算,确定每个用户异常的概率;
5、最终异常概率越大的用户异常的可能性越大。
电力系统:电力系统是由发电厂、送变电线路、供配电所和用电等环节组成的电能生产与消费系统。它的功能是将自然界的一次能源通过发电动力装置转化成电能,再经输电、变电和配电将电能供应到各用户。为实现这一功能,电力系统在各个环节和不同层次还具有相应的信息与控制系统,对电能的生产过程进行测量、调节、控制、保护、通信和调度,以保证用户获得安全、优质的电能。
自然语言处理:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
本发明通过简单的步骤,实现了通过地理位置信息数据、地址名称以及用电负荷识别是否为异常用户,提高了电力系统的工作效率。以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (9)
1.一种电力系统异常用户的识别方法,其特征在于,包括以下步骤:
欧式距离的获取:获取台区每个用户的地理位置信息,通过计算获得每个用户的地理位置信息与台区地理位置信息的欧式距离;
用户地址与台区地址特征词相似度的获取:获取台区内每个用户的地址和台区地址特征词,对比每个用户的地址和台区地址特征词,得到每个用户地址与台区地址特征词的相似度,对用户地址与台区地址特征词相似度进行归一化,归一化后再与1相减,得到的结果依然在0到1之间,1表示相似度最小,即用户是地址名称异常的可能性越大;
用户历史用电负荷的余弦距离:通过两步聚类算法,将每个用户的历史用电负荷数据自动聚为若干类,求每一个用户历史用电负荷与相应类中心的余弦距离;
用户异常概率的计算:通过熵权法,根据欧式距离、用户地址与台区地址的相似度以及用户历史用电负荷的余弦距离,计算得到每个用户的异常概率;
用户异常的识别:通过每个用户的异常概率,识别获得电力系统中的异常用户。
2.根据权利要求1所述的一种电力系统异常用户的识别方法,其特征在于,所述欧式距离的获取步骤中,还包括每个用户到台区距离的处理,具体为:将每个用户到台区的距离通过归一化处理,获得每个用户与台区的距离。
3.根据权利要求2所述的一种电力系统异常用户的识别方法,其特征在于,所述用户到台区距离的处理中,归一化处理后,获得若干0-1之间的数据,其中,1表示所述用户与台区的距离最远。
4.根据权利要求1所述的一种电力系统异常用户的识别方法,其特征在于,所述用户地址与台区地址相似度的获取步骤中所述台区地址特征词的获取具体为:利用自然语言处理的名词得到地址名称词库,结合地址名称词库与台区内用户的地址得到台区地址特征词。
5.根据权利要求4所述的一种电力系统异常用户的识别方法,其特征在于,所述台区地址特征词的获取采用的是正则表达式。
6.根据权利要求4所述的一种电力系统异常用户的识别方法,其特征在于,所述地址名称词库至少包括村、小区、街、路、社区、巷、弄或公园中的一种。
7.根据权利要求1所述的一种电力系统异常用户的识别方法,其特征在于,若获得的台区地址特征词为若干个,则所述台区内用户地址与台区地址特征词的相似度为所述用户的地址分别和若干个台区地址特征词对比之后得到的相似度的总和。
8.根据权利要求1所述的一种电力系统异常用户的识别方法,其特征在于,所述用户地址与台区地址特征词相似度的获取步骤中,所述每个用户地址与台区地址特征词的相似度采用向量空间模型方法获得。
9.根据权利要求1所述的一种电力系统异常用户的识别方法,其特征在于,所述用户异常概率的计算步骤中,所述通过熵权法具体为:
a.将k个指标的数据进行标准化处理,具体为:
给定的k个指标分别为X1,X2,...,Xk,且Xi={xi1,xi2,...xin},其中,k为3,所述k个指标分别是欧式距离、用户地址与台区地址相似度以及用户历史用电负荷的余弦距离;Xi表示第i个指标,i为1、2或3,第i个指标包括n个指标值xi1,xi2,...xin.,n为大于等于1的自然数;
将所述指标X1,X2,...,Xk标准化处理后的值分别为Y1,Y2,...Yk,其中,
其中,xij表示第i类指标中n个数值中的第j个指标值,yij表示xij标准化处理后的结果值;
b.分别求各个指标的信息熵:采用公式(1)计算各个指标的信息熵:
c.确定各指标权重:根据信息熵的计算公式,计算出各个指标的信息熵E1,E2,...,Ek,通过公式(2)计算得到各指标的权重:
其中,Ei为第i个指标信息熵,∑Ei为中k个指标值信息熵的总和,k为指标个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711332503.9A CN107958395B (zh) | 2017-12-13 | 2017-12-13 | 一种电力系统异常用户的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711332503.9A CN107958395B (zh) | 2017-12-13 | 2017-12-13 | 一种电力系统异常用户的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107958395A CN107958395A (zh) | 2018-04-24 |
CN107958395B true CN107958395B (zh) | 2021-11-26 |
Family
ID=61957905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711332503.9A Active CN107958395B (zh) | 2017-12-13 | 2017-12-13 | 一种电力系统异常用户的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107958395B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734216A (zh) * | 2018-05-22 | 2018-11-02 | 广东工业大学 | 基于负荷曲线形态的电力用户分类方法、装置及存储介质 |
CN109272319B (zh) * | 2018-08-14 | 2022-05-31 | 创新先进技术有限公司 | 社区映射及交易违规社区标识方法、装置、电子设备 |
CN109447490B (zh) * | 2018-11-05 | 2022-05-27 | 杭州致成电子科技有限公司 | 一种基于用户地址的户变关系异常判别方法 |
CN111062620B (zh) * | 2019-12-19 | 2022-07-29 | 烟台海颐软件股份有限公司 | 基于混合计费数据的电力计费公平性智能分析系统及方法 |
CN111723339B (zh) * | 2020-06-10 | 2023-02-24 | 国网河南省电力公司郑州供电公司 | 基于趋势相似性和距离测度的台区低压挂接辨识方法 |
CN112085403B (zh) * | 2020-09-16 | 2022-05-10 | 国网福建省电力有限公司营销服务中心 | 一种基于混合整数规划的低压台区拓扑辨识方法 |
CN113298535A (zh) * | 2021-04-25 | 2021-08-24 | 云南电网有限责任公司信息中心 | 一种基于空间位置的户变关系异常识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324992A (zh) * | 2013-07-11 | 2013-09-25 | 国家电网公司 | 基于马尔可夫和熵权模糊综合评价的变压器风险预测方法 |
CN104062008A (zh) * | 2014-06-13 | 2014-09-24 | 武汉理工大学 | 一种考虑整体度量的实测光谱曲线中异常光谱的剔除方法 |
CN105450448A (zh) * | 2015-11-30 | 2016-03-30 | 国网冀北电力有限公司信息通信分公司 | 基于电力通信网的故障分析方法及装置 |
CN105930976A (zh) * | 2016-04-28 | 2016-09-07 | 华北电力大学 | 基于加权理想点法的节点电压暂降严重程度综合评估方法 |
CN107179503A (zh) * | 2017-04-21 | 2017-09-19 | 美林数据技术股份有限公司 | 基于随机森林的风电机组故障智能诊断预警的方法 |
CN107229602A (zh) * | 2017-05-22 | 2017-10-03 | 湘潭大学 | 一种智能楼宇微网用电行为的识别方法 |
CN109191189A (zh) * | 2018-08-20 | 2019-01-11 | 国网河南省电力公司经济技术研究院 | 售电市场放开下电力客户价值评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2501532A (en) * | 2012-04-26 | 2013-10-30 | Ibm | Bounding a metric for data mining on compressed data vectors |
-
2017
- 2017-12-13 CN CN201711332503.9A patent/CN107958395B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324992A (zh) * | 2013-07-11 | 2013-09-25 | 国家电网公司 | 基于马尔可夫和熵权模糊综合评价的变压器风险预测方法 |
CN104062008A (zh) * | 2014-06-13 | 2014-09-24 | 武汉理工大学 | 一种考虑整体度量的实测光谱曲线中异常光谱的剔除方法 |
CN105450448A (zh) * | 2015-11-30 | 2016-03-30 | 国网冀北电力有限公司信息通信分公司 | 基于电力通信网的故障分析方法及装置 |
CN105930976A (zh) * | 2016-04-28 | 2016-09-07 | 华北电力大学 | 基于加权理想点法的节点电压暂降严重程度综合评估方法 |
CN107179503A (zh) * | 2017-04-21 | 2017-09-19 | 美林数据技术股份有限公司 | 基于随机森林的风电机组故障智能诊断预警的方法 |
CN107229602A (zh) * | 2017-05-22 | 2017-10-03 | 湘潭大学 | 一种智能楼宇微网用电行为的识别方法 |
CN109191189A (zh) * | 2018-08-20 | 2019-01-11 | 国网河南省电力公司经济技术研究院 | 售电市场放开下电力客户价值评价方法 |
Non-Patent Citations (1)
Title |
---|
一种基于双层聚类分析的负荷形态组合识别方法;王星华 等;《电网技术》;20160531;第40卷(第5期);第1495-1501页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107958395A (zh) | 2018-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107958395B (zh) | 一种电力系统异常用户的识别方法 | |
Chen et al. | Regional disaster risk assessment of China based on self-organizing map: clustering, visualization and ranking | |
US11043808B2 (en) | Method for identifying pattern of load cycle | |
Straka et al. | Predicting popularity of electric vehicle charging infrastructure in urban context | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
Xiao et al. | Multistage decision support framework for sites selection of solar power plants with probabilistic linguistic information | |
CN109190950B (zh) | 一种电表和水表档案贯通的用能异常识别方法 | |
CN109634940A (zh) | 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法 | |
Cai et al. | Statistical feature selection from massive data in distribution fault diagnosis | |
Lawal et al. | Dynamic line rating forecasting algorithm for a secure power system network | |
Eseye et al. | Short-term wind power forecasting using a double-stage hierarchical hybrid GA-ANFIS approach | |
CN104143006A (zh) | 一种城市数据处理方法及装置 | |
CN106022578A (zh) | 基于数据高维化和K-means聚类的居民用电峰谷平时段划分方法 | |
CN105447100A (zh) | 一种基于形状特征的云图检索方法 | |
CN116662860A (zh) | 一种基于能源大数据的用户画像与分类方法 | |
Wei | Discretized and continuous target fields for the reservoir release rules during floods | |
Pan et al. | A novel probabilistic modeling framework for wind speed with highlight of extremes under data discrepancy and uncertainty | |
Gorricha et al. | A framework for exploratory analysis of extreme weather events using geostatistical procedures and 3D self-organizing maps | |
Lu et al. | A deep belief network based model for urban haze prediction | |
Wang et al. | Resident user load classification method based on improved Gaussian mixture model clustering | |
Parchitelli et al. | A pre-process clustering methods for the waste collection problem | |
Gu | Renewable Energy Integration in Distribution System--Synchrophasor Sensor based Big Data Analysis, Visualization, and System Operation | |
CN108763434A (zh) | 一种配用电多源异构信息模型数据系统 | |
Wang | SVR short-term traffic flow forecasting model based on spatial-temporal feature selection | |
Liao et al. | Building energy efficiency assessment base on predict-center criterion under diversified conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 710075 6th floor, national e-commerce demonstration base, No.528, tianguba Road, software new town, high tech Zone, Xi'an City, Shaanxi Province Patentee after: MERITDATA TECHNOLOGY CO.,LTD. Address before: 710000 C501, Hanyun Pavilion, Xi'an Software Park, No.68, Keji 2nd Road, high tech Zone, Xi'an City, Shaanxi Province Patentee before: MERITDATA TECHNOLOGY CO.,LTD. |
|
CP02 | Change in the address of a patent holder |