CN104484371A - 电力营销异常数据在线监控分析方法和系统 - Google Patents

电力营销异常数据在线监控分析方法和系统 Download PDF

Info

Publication number
CN104484371A
CN104484371A CN201410737636.4A CN201410737636A CN104484371A CN 104484371 A CN104484371 A CN 104484371A CN 201410737636 A CN201410737636 A CN 201410737636A CN 104484371 A CN104484371 A CN 104484371A
Authority
CN
China
Prior art keywords
abnormal
line monitoring
information
title
marketing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410737636.4A
Other languages
English (en)
Other versions
CN104484371B (zh
Inventor
潘炜
陈宇茜
何殊一
余飞鸥
吕浩晖
陈碧仪
朱少维
吴疆
邓明斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Power Supply Bureau Co Ltd
Priority to CN201410737636.4A priority Critical patent/CN104484371B/zh
Publication of CN104484371A publication Critical patent/CN104484371A/zh
Application granted granted Critical
Publication of CN104484371B publication Critical patent/CN104484371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种电力营销异常数据在线监控分析方法和系统,提取预先存储的多个营销稽查问题信息和多个异常在线监控信息。根据问题名称和异常名称,分别计算各营销稽查问题信息和异常在线监控信息的标识向量。根据各营销稽查问题信息和异常在线监控信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系。对接收的待查异常名称进行处理时,根据营销稽查问题信息与异常在线监控信息的关联关系提示关联的问题名称,辅助稽查人员处理异常信息,提高在线稽查的处理效率。

Description

电力营销异常数据在线监控分析方法和系统
技术领域
本发明涉及电网监控技术领域,特别是涉及一种电力营销异常数据在线监控分析方法和系统。
背景技术
随着经济发展和社会进步,人们对于用电需求日益增长,用电市场也随之扩大,对电力营销管理中“量、价、费”管理提出了更高的要求。电力营销稽查在这三个核心工作中扮演着举足轻重的角色。加强电力企业的营销稽查管理工作已经成为电力行业各级工作单位的工作重点。
国内大部分供电企业已引入信息化手段进行电力企业营销稽查,通过电力企业营销稽查信息化技术支撑手段对超容量用电异常、基本电费收取异常、加收线损异常等各专业异常主题的监控以及营销业务随机抽样的稽查。传统的电力营销异常数据在线监控分析方法是稽查人员发现在线监控异常问题后进行人工核对,查找对应的常态稽查问题。由于在线监控异常与稽查问题种类繁多,往往需要花费大量的时间和精力才能完成在线监控异常稽查,传统的电力营销异常数据在线监控分析方法存在稽查处理效率低的缺点。
发明内容
基于此,有必要针对上述问题,提供一种提高稽查处理效率的电力营销异常数据在线监控分析方法和系统。
一种电力营销异常数据在线监控分析方法,包括以下步骤:
提取预先存储的多个营销稽查问题信息和多个异常在线监控信息,所述营销稽查问题信息包括问题名称,所述异常在线监控信息包括异常名称;
根据所述问题名称和异常名称,分别计算各营销稽查问题信息和异常在线监控信息的标识向量;
根据各营销稽查问题信息和异常在线监控信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系;
接收待查异常名称;
根据所述营销稽查问题信息与异常在线监控信息的关联关系,获取与所述待查异常名称对应的问题名称并显示。
一种电力营销异常数据在线监控分析系统,包括:
提取模块,用于提取预先存储的多个营销稽查问题信息和多个异常在线监控信息,所述营销稽查问题信息包括问题名称,所述异常在线监控信息包括异常名称;
计算模块,用于根据所述问题名称和异常名称,分别计算各营销稽查问题信息和异常在线监控信息的标识向量;
处理模块,用于根据各营销稽查问题信息和异常在线监控信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系;
接收模块,用于接收待查异常名称;
稽查模块,用于根据所述营销稽查问题信息与异常在线监控信息的关联关系,获取与所述待查异常名称对应的问题名称并显示。
上述电力营销异常数据在线监控分析方法和系统,获取预先存储的多个营销稽查问题信息和多个异常在线监控信息并分别计算得到对应的标识向量。根据对应的标识向量建立营销稽查问题信息与异常在线监控信息的关联关系。对接收的待查异常名称进行处理时,根据营销稽查问题信息与异常在线监控信息的关联关系提示关联的问题名称,辅助稽查人员处理异常信息,提高在线稽查的处理效率。
附图说明
图1为一实施例中电力营销异常数据在线监控分析方法的流程图;
图2为一实施例中电力营销异常数据在线监控分析系统的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
一种电力营销异常数据在线监控分析方法,如图1所示,包括以下步骤:
步骤S110:提取预先存储的多个营销稽查问题信息和多个异常在线监控信息。
营销稽查问题信息包括问题名称,异常在线监控信息包括异常名称。营销稽查问题信息可从常态系统获取,可以是全部获取,也可以是进行部分抽取。异常在线监控信息可从在线系统获取,同样可以是全部获取,也可以是进行部分抽取。常态系统记录了营销业务的常态稽查情况,在线系统从工作流程、工作质量等方面实现对营销业务的集中在线监控与稽查,记录了营销业务中的异常信息。此外,营销稽查问题信息还可包括用户编号和发生时间等,异常在线监控信息也可包括用户编号和发生时间等。
步骤S120:根据问题名称和异常名称,分别计算各营销稽查问题信息和异常在线监控信息的标识向量。
在其中一个实施例中,营销稽查问题信息包括用户编号和发生时间,异常在线监控信息包括用户编号和发生时间。步骤S120具体包括步骤21至步骤24。
步骤21:分别对多个营销稽查问题信息的问题名称和多个异常在线监控信息的异常名称进行分词,得到若干个分词词组。
对获取的营销稽查问题信息的问题名称和异常在线监控信息的异常名称进行分词,即是指对问题名称和异常名称进行拆分,得到若干个符合逻辑性的词语,作为分词词组。
步骤22:对若干个分词词组进行TF-IDF排序,获取前预设个数的分词词组,构建关键词词库。
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)的主要思想是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF为词频,表示词语在某个问题名称或异常名称中出现的次数,可以用来度量词语与给定的问题名称或异常名称之间的关联度。IDF为逆向文件频率,是一个词语普遍重要性的度量。
具体地,在其中一个实施例中,步骤22包括步骤221至步骤224。
步骤221:计算各分词词组的词频。具体为
TF i , j = n i , j Σ k n k , j
其中,TFi,j表示分词词组ti的词频,ni,j表示分词词组ti在问题名称或异常名称bj中出现的次数,表示问题名称或异常名称bj中所有分词词组的总数。
例如,计算问题名称中一个分词词组A的词频,则是将分词词组A在问题名称中出现的次数,除以问题名称中所有分词词组的总数。
步骤222:计算各分词词组的逆向文件频率。具体为
IDF i = log ( | D | | { j : t i ∈ b j } | )
其中,IDFi表示分词词组ti的逆向文件频率,|D|为问题名称和异常名称的总数目,|{j:ti∈bj}|表示包含分词词组ti的问题名称和异常名称的数目。进一步地,为避免因出现分词词组不在问题名称和异常名称中影响计算,可用|{j:ti∈bj}|+1代替|{j:ti∈bj}|。
例如,计算问题名称中一个分词词组B的逆向文件频率,则是将问题名称和异常名称的总数目,除以包含分词词组B的问题名称和异常名称的数目。
步骤223:计算分词词组的TF-IDF值。具体为
TF-IDFi,j=TFi,j×IDFi
其中,TF-IDFi,j表示分词词组的TF-IDF值,TFi,j表示分词词组的词频,IDFi表示分词词组的逆向文件频率。将分词词组的词频和逆向文件频率相乘,便得到该分词词组的TF-IDF值。
步骤224:根据分词词组的TF-IDF值对各分词词组进行TF-IDF排序,获取前预设个数的分词词组,得到关键词词库。
预设个数可以根据实际情况进行调整,本实施例中预设个数为100。获取TF-IDF排名前100的分词词组作为关键词词库。
步骤221至步骤224对分词词组进行TF-IDF排序,获取关联度最高的部分分词词组构建关键词词库,简单快速,确保后续步骤中营销稽查问题信息与异常在线监控信息的关联关系的准确性。
步骤23:根据各营销稽查问题信息的问题名称、用户编号、发生时间以及关键词词库,计算得到对应营销稽查问题信息的标识向量。
营销稽查问题信息的标识向量包含用户编号,发生时间和词频向量三个部分。经步骤21对问题名称和异常名称分别进行分词,本实施例中若步骤22中得到的关键词词库中的分词词组在该营销稽查问题信息中没有出现,那么对应的值为0,否则为1。同样以关键词词库包含100个分词词组为例,则可组成100维的向量,得到对应的词频向量。在词频向量前添加用户编号和发生时间两个维度。即可得到营销稽查问题信息的标识向量。可以理解,词频向量各维参数的确定方式,以及用户编号和发生时间两个维度与词频向量的组合方式并不是唯一的。
步骤24:根据各异常在线监控信息的问题名称、用户编号、发生时间以及关键词词库,计算得到对应异常在线监控信息的标识向量。
异常在线监控信息的标识向量同样包含用户编号,发生时间和词频向量三个部分。词频向量以及异常在线监控信息的标识向量的确定方式与步骤23中类似,在此不做赘述。
步骤23和步骤24中,对于不同的异常在线监控信息,营销稽查问题信息的标识向量中用户编号和发生时间两个维度的具体取值会对应不同。同理,对于不同的营销稽查问题信息,异常在线监控信息的标识向量中用户编号和发生时间两个维度的具体取值也会对应不同。
具体地,令营销稽查问题信息k的标识向量为[a1,a2,x3...,x102],异常在线监控信息dj的标识向量为若营销稽查问题信息k与异常在线监控信息dj的用户编号一致,即否则若营销稽查问题信息k与异常在线监控信息dj的发生时间的间隔小于预设天数(如10天),则 a 2 = b 2 ( j ) = 1 , 否则 a 2 = b 2 ( j ) = 0 .
最终得到的各个营销稽查问题信息的标识向量中,词频向量固定不变,参数a1,a2的取值对应不同的异常在线监控信息有所不同。最终得到的各个异常在线监控信息的标识向量中,同样词频向量固定不变,参数的取值对应不同的营销稽查问题信息有所不同。可以理解,在其他实施例中,也可指根据各营销稽查问题信息和异常在线监控信息的问题名称以及关键词词库来计算得到对应的标识向量。
在其中一个实施例中,步骤21之后,步骤22之前,还包括步骤1和步骤2。
步骤1:显示各分词词组。
对步骤21得到的分词词组进行显示,以便管理人员进行观察。具体可以通过显示屏显示各分词词组。
步骤2:根据接收的删除指令删除对应的分词词组。
管理人员可通过输入删除指令进行删除处理,去除明显没有意义的分词词组。步骤22为对删除处理后的分词词组进行TF-IDF排序。通过删除没有意义的分词词组,避免对进行TF-IDF排序造成干扰,提高数据处理效率。
步骤S130:根据各营销稽查问题信息和异常在线监控信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系。
分别根据每个营销稽查问题信息对应各异常在线监控信息的标识向量,以及每个异常在线监控信息对应各营销稽查问题信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系。在其中一个实施例中,步骤S130包括步骤31至步骤33。
步骤31:分别计算各营销稽查问题信息与所有异常在线监控信息的关联度。具体可利用标识向量之间的向量余弦来计算营销稽查问题信息k与异常在线监控信息dj的关联度。计算公式如下:
cos dis ( k , d j ) = a 1 b 1 ( j ) + a 2 b 2 ( j ) + x 3 y 3 ( j ) + . . . + x n y n ( j ) a 1 2 + a 2 2 + x 3 2 + . . . x n 2 · ( b 1 ( j ) ) 2 + ( b 2 ( j ) ) 2 + ( y 3 ( j ) ) 2 + . . . + ( y n ( j ) ) 2
其中,cosdis(k,dj)表示营销稽查问题信息k与异常在线监控信息dj的关联度,a1、a2分别为营销稽查问题信息k的标识向量中第一维参数和第二维参数,xn为营销稽查问题信息k的标识向量中第n维参数,且n大于或等于3,分别为异常在线监控信息dj的标识向量中第一维参数和第二维参数,为异常在线监控信息dj的标识向量中第n维参数,且n大于或等于3。本实施例中同样以关键词词库包括100个分词词组为例,则n为103。
步骤32:分别提取并显示与各营销稽查问题信息的关联度大于0的异常在线监控信息和对应的关联度。
由于标识向量中的每一个参数都是正数,因此计算得到的向量余弦的取值在0和1之间。当向量余弦接近于1时,营销稽查问题信息k与异常在线监控信息dj相似,关联度强;向量余弦接近于0时,营销稽查问题信息k与异常在线监控信息dj越不相似,关联度弱。当向量余弦为0,说明营销稽查问题信息k与异常在线监控信息dj没有相同的维度,它们毫不相关。提取所有关联度大于0的营销稽查问题信息和异常在线监控信息,通过触控显示屏等显示设备显示提取的营销稽查问题信息和异常在线监控信息,以及对应的关联度。
步骤33:根据接收的关联选择指令建立营销稽查问题信息与异常在线监控信息的关联关系。
管理人员可经过人工审核,从业务上判断关联度大于0的异常在线监控信息是否与营销稽查问题信息存在联系,提取存在实际联系关系的营销稽查问题信息与异常在线监控信息写入数据库进行存储,得到营销稽查问题信息与异常在线监控信息的关联关系。至此则实现了营销稽查问题信息与异常在线监控信息的对应关系的建立。
进一步地,在其中一个实施例中,步骤31之后,步骤32之前,还包括步骤311和步骤312。
步骤313:分别判断各营销稽查问题信息是否存在关联度大于0的异常在线监控信息。在计算得到各营销稽查问题信息与每一个异常在线监控信息的关联度后,检测营销稽查问题信息是否存在关联度大于0的异常在线监控信息,若是,则进行步骤32;若否,则表明在线系统抽取的数据中不存在异常在线监控信息与营销稽查问题信息对应,说明原有的在线系统异常判别规则无法识别可能导致该稽查问题的异常,进行步骤312。
步骤312:输出异常判别报警信息。
输出异常判别报警信息可以是通过显示器显示预设的文字、图像等信息,也可以是控制扬声器发生,或控制报警灯发光。通过输出异常判别报警信息,提醒管理人员及时对在线系统异常判别规则进行补充或者修正。
步骤S140:接收待查异常名称。
待查异常名称指实际供电运营中出现的在线监控异常的名称,可以是由稽查人员发现问题并进行提交。
步骤S150:根据营销稽查问题信息与异常在线监控信息的关联关系,获取与待查异常名称对应的问题名称并显示。
根据步骤S130得到的营销稽查问题信息与异常在线监控信息的关联关系,提取与待查的异常名称对应的问题名称进行显示,以便稽查人员快速处理异常在线监控问题。
上述电力营销异常数据在线监控分析方法,获取预先存储的多个营销稽查问题信息和多个异常在线监控信息并分别计算得到对应的标识向量。根据对应的标识向量建立营销稽查问题信息与异常在线监控信息的关联关系。对接收的待查异常名称进行处理时,根据营销稽查问题信息与异常在线监控信息的关联关系提示关联的问题名称,辅助稽查人员处理异常信息,提高在线稽查的处理效率。
为了便于更好地理解上述方法的技术方案及其带来的有益效果,下面结合具体实施例进行详细解释说明。
从常态系统抽取近期所有的营销稽查问题信息,从在线系统中抽取近期所有的异常在线监控信息,表1为营销稽查问题信息,表2为异常在线监控信息。
表1
时间 用户编号 异常名称
20120412 80142460 功率因素调整电费执行异常
20120422 80145403 抄表员轮换异常
20120427 06155013 零度户异常
20120428 011100000159 功率因素调整电费执行异常
20120430 06651230 暂收异常
20120430 13030006487501 暂收异常
20120503 13150175035501 功率因素调整电费执行异常
20120509 12088206000101 零度户异常
20120510 12080606002201 功率因素调整电费执行异常
20120516 12068061002001 抄表员轮换异常
20120524 13182011098601 零度户异常
20120625 13182011214102 抄表员轮换异常
20120627 10070010202301 电价执行异常
20120712 10100020200701 计费容量异常
20120717 01763809.0904 抄表员轮换异常
20120717 12581301016701 零度户异常
20120724 10085011035801 抄表员轮换异常
表2
抽取营销稽查问题信息的问题名称和异常在线监控信息的异常名称进行分词,剔除无意义的分词词组,选取TF-IDF排名前100的词组作为关键词词库。如表3所示为关键词词库中部分分词词组。
规定 工作单 用电 客户 没有 器具 用户 填写 传票
记录 抄表 存在 未能 进行 要求 领用 电量
表3
根据关键词词库、营销稽查问题信息的问题名称和异常在线监控信息的异常名称分别计算出营销稽查问题信息和异常在线监控信息的标识向量,下面以一条营销稽查问题信息与一条异常在线监控信息举例说明标识向量的计算,如表4所示为营销稽查问题信息,如表5所示为异常在线监控信息。
表4
时间 用户编号 异常名称
20120422 80142460 功率因素调整电费执行异常
表5
营销稽查问题信息与异常在线监控信息的用户编号一致,则若营销稽查问题信息与异常在线监控信息的时间间隔小于10天,则在加上各自的词频向量,则营销稽查问题信息与异常在线监控信息的标识向量分别为表6和表7所示。
用户编号 时间 规定 工作单 用电 客户 电能表 记录 抄表 存在
1 1 0 0 0 0 0 0 1 0
表6
用户编号 时间 规定 工作单 用电 客户 电能表 记录 抄表 存在
1 1 0 0 0 0 0 0 1 0
表7
计算营销稽查问题信息与所有异常在线监控信息的关联度,继续以上述营销稽查问题信息和异常在线监控信息举例说明关联度的计算。
cos dis ( k , d j ) = a 1 b 1 ( j ) + a 2 b 2 ( j ) + x 3 y 3 ( j ) + . . . + x 102 y 102 ( j ) a 1 2 + a 2 2 x 3 2 . . . x 102 2 · ( b 1 ( j ) ) 2 + ( b 2 ( j ) ) 2 + ( y 3 ( j ) ) 2 + . . . + ( y 102 ( j ) ) 2 = 3 3 × 3 = 1
结果表明,问题名称“未执行专变客户抄表轮换周期为半年,其他客户轮换周期为1年,远程抄表的专变客户抄表轮换周期可延长为1年的规定”与异常名称“抄表员轮换异常”有很强的关联关系。
针对每一个营销稽查问题信息,若不存在关联度均大于0的异常在线监控信息,输出异常判别报警信息,提醒管理人员对在线系统异常判别规则进行补充或者修正。若存在关联度均大于0的异常在线监控信息,则输出关联度均大于0的异常在线监控信息以及其关联度,经过人工审核,把确实存在关联关系的营销稽查问题信息与异常在线监控信息的关联关系写入数据库进行存储。
获取实际供电运营中出现的在线监控异常的名称作为待查异常名称,并根据营销稽查问题信息与异常在线监控信息的关联关系获取对应的问题名称进行显示,例如接收到的待查异常名称为“抄表员轮换异常”时,则显示问题名称“未执行专变客户抄表轮换周期为半年,其他客户轮换周期为1年,远程抄表的专变客户抄表轮换周期可延长为1年的规定”,以便稽查人员快速处理异常在线监控问题。
本发明还提供了一种电力营销异常数据在线监控分析查系统,如图2所述,包括提取模块110、计算模块120、处理模块130、接收模块140和稽查模块150。
提取模块110用于提取预先存储的多个营销稽查问题信息和多个异常在线监控信息。
营销稽查问题信息包括问题名称,异常在线监控信息包括异常名称。营销稽查问题信息可从常态系统获取,可以是全部获取,也可以是进行部分抽取。异常在线监控信息可从在线系统获取,同样可以是全部获取,也可以是进行部分抽取。常态系统记录了营销业务的常态稽查情况,在线系统从工作流程、工作质量等方面实现对营销业务的集中在线监控与稽查,记录了营销业务中的异常信息。此外,营销稽查问题信息还可包括用户编号和发生时间等,异常在线监控信息也可包括用户编号和发生时间等。
计算模块120用于根据问题名称和异常名称,分别计算各营销稽查问题信息和异常在线监控信息的标识向量。
在其中一个实施例中,营销稽查问题信息包括用户编号和发生时间,异常在线监控信息包括用户编号和发生时间。计算模块120包括分词单元、排序单元、第一计算单元和第二计算单元。
分词单元用于分别对多个营销稽查问题信息的问题名称和多个异常在线监控信息的异常名称进行分词,得到若干个分词词组。
对获取的营销稽查问题信息的问题名称和异常在线监控信息的异常名称进行分词,即是指对问题名称和异常名称进行拆分,得到若干个符合逻辑性的词语,作为分词词组。
排序单元用于分别对若干个分词词组进行TF-IDF排序,获取前预设个数的分词词组,构建关键词词库。
具体地,在其中一个实施例中,排序单元包括词频计算单元、逆向文件频率计算单元、TF-IDF值计算单元和TF-IDF排序单元。
词频计算单元用于计算各分词词组的词频。具体为
TF i , j = n i , j Σ k n k , j
其中,TFi,j表示分词词组ti的词频,ni,j表示分词词组ti在问题名称或异常名称bj中出现的次数,表示问题名称或异常名称bj中所有分词词组的总数。
例如,计算问题名称中一个分词词组A的词频,则是将分词词组A在问题名称中出现的次数,除以问题名称中所有分词词组的总数。
逆向文件频率计算单元用于计算各分词词组的逆向文件频率。具体为
IDF i = log ( | D | | { j : t i ∈ b j } | )
其中,IDFi表示分词词组ti的逆向文件频率,|D|为问题名称和异常名称的总数目,|{j:ti∈bj}|表示包含分词词组ti的问题名称和异常名称的数目。进一步地,为避免因出现分词词组不在问题名称和异常名称中影响计算,可用|{j:ti∈bj}|+1代替|{j:ti∈bj}|。
例如,计算问题名称中一个分词词组B的逆向文件频率,则是将问题名称和异常名称的总数目,除以包含分词词组B的问题名称和异常名称的数目。
TF-IDF值计算单元用于计算分词词组的TF-IDF值。具体为
TF-IDFi,j=TFi,j×IDFi
其中,TF-IDFi,j表示分词词组的TF-IDF值,TFi,j表示分词词组的词频,IDFi表示分词词组的逆向文件频率。将分词词组的词频和逆向文件频率相乘,便得到该分词词组的TF-IDF值。
TF-IDF排序单元用于根据分词词组的TF-IDF值对各分词词组进行TF-IDF排序,获取前预设个数的分词词组,得到关键词词库。
预设个数可以根据实际情况进行调整,本实施例中预设个数为100。获取TF-IDF排名前100的分词词组作为关键词词库。
对分词词组进行TF-IDF排序,获取关联度最高的部分分词词组构建关键词词库,简单快速,确保后续步骤中营销稽查问题信息与异常在线监控信息的关联关系的准确性。
第一计算单元用于根据各营销稽查问题信息的问题名称、用户编号、发生时间以及关键词词库,计算得到对应营销稽查问题信息的标识向量。
营销稽查问题信息的标识向量包含用户编号,发生时间和词频向量三个部分。若关键词词库中的分词词组在该营销稽查问题信息中没有出现,那么对应的值为0,否则为1。以关键词词库包含100个分词词组为例,则可组成100维的向量,得到对应的词频向量。在词频向量前添加用户编号和发生时间两个维度。即可得到营销稽查问题信息的标识向量。可以理解,词频向量各维参数的确定方式,以及用户编号和发生时间两个维度与词频向量的组合方式并不是唯一的。
第二计算单元用于根据各异常在线监控信息的问题名称、用户编号、发生时间以及关键词词库,计算得到对应异常在线监控信息的标识向量。
异常在线监控信息的标识向量同样包含用户编号,发生时间和词频向量三个部分。异常在线监控信息的标识向量的确定方式与第一计算单元确定标识向量的方式类似,在此不做赘述。
对于不同的异常在线监控信息,营销稽查问题信息的标识向量中用户编号和发生时间两个维度的具体取值会对应不同。同理,对于不同的营销稽查问题信息,异常在线监控信息的标识向量中用户编号和发生时间两个维度的具体取值也会对应不同。具体确定方式在前文进行了详细的解释说明,在此不再赘述。
最终得到的各个营销稽查问题信息的标识向量中,词频向量固定不变,参数a1,a2的取值对应不同的异常在线监控信息有所不同。最终得到的各个异常在线监控信息的标识向量中,同样词频向量固定不变,参数的取值对应不同的营销稽查问题信息有所不同。可以理解,在其他实施例中,也可指根据各营销稽查问题信息和异常在线监控信息的问题名称以及关键词词库来计算得到对应的标识向量。
在其中一个实施例中,分词单元进行分词得到若干个分词词组后,还用于显示各分词词组,并根据接收的删除指令删除对应的分词词组。排序单元对删除处理后的分词词组进行TF-IDF排序。
显示分词词组以便管理人员进行观察。具体可以通过显示屏显示各分词词组。管理人员可通过输入删除指令进行删除处理,去除明显没有意义的分词词组。通过删除没有意义的分词词组,避免对进行TF-IDF排序造成干扰,提高数据处理效率。
处理模块130用于根据各营销稽查问题信息和异常在线监控信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系。
分别根据每个营销稽查问题信息对应各异常在线监控信息的标识向量,以及每个异常在线监控信息对应各营销稽查问题信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系。在其中一个实施例中,处理模块包括关联度计算单元、提取单元和处理单元。
关联度计算单元用于分别计算各营销稽查问题信息与所有异常在线监控信息的关联度。具体可利用标识向量之间的向量余弦来计算营销稽查问题信息k与异常在线监控信息dj的关联度。计算公式如下:
cos dis ( k , d j ) = a 1 b 1 ( j ) + a 2 b 2 ( j ) + x 3 y 3 ( j ) + . . . + x n y n ( j ) a 1 2 + a 2 2 + x 3 2 + . . . x n 2 · ( b 1 ( j ) ) 2 + ( b 2 ( j ) ) 2 + ( y 3 ( j ) ) 2 + . . . + ( y n ( j ) ) 2
其中,cosdis(k,dj)表示营销稽查问题信息k与异常在线监控信息dj的关联度,a1、a2分别为营销稽查问题信息k的标识向量中第一维参数和第二维参数,xn为营销稽查问题信息k的标识向量中第n维参数,且n大于或等于3,分别为异常在线监控信息dj的标识向量中第一维参数和第二维参数,为异常在线监控信息dj的标识向量中第n维参数,且n大于或等于3。本实施例中同样以关键词词库包括100个分词词组为例,则n为103。
提取单元用于分别提取并显示与各营销稽查问题信息的关联度大于0的异常在线监控信息和对应的关联度。
提取所有关联度大于0的营销稽查问题信息和异常在线监控信息,通过触控显示屏等显示设备显示提取的营销稽查问题信息和异常在线监控信息,以及对应的关联度。
处理单元用于根据接收的关联选择指令建立营销稽查问题信息与异常在线监控信息的关联关系。
管理人员可经过人工审核,从业务上判断关联度大于0的异常在线监控信息是否与营销稽查问题信息存在联系,提取存在实际联系关系的营销稽查问题信息与异常在线监控信息写入数据库进行存储,得到营销稽查问题信息与异常在线监控信息的关联关系。至此则实现了营销稽查问题信息与异常在线监控信息的对应关系的建立。
进一步地,在其中一个实施例中,关联度计算单元计算得到各营销稽查问题信息与所有异常在线监控信息的关联度后,还用于分别判断各营销稽查问题信息是否存在关联度大于0的异常在线监控信息。若是,则提取单元提取并显示与各营销稽查问题信息的关联度大于0的异常在线监控信息和对应的关联度;若否,则表明在线系统抽取的数据中不存在异常在线监控信息与营销稽查问题信息对应,说明原有的在线系统异常判别规则无法识别可能导致该稽查问题的异常,关联度计算单元输出异常判别报警信息。
输出异常判别报警信息可以是通过显示器显示预设的文字、图像等信息,也可以是控制扬声器发生,或控制报警灯发光。通过输出异常判别报警信息,提醒管理人员及时对在线系统异常判别规则进行补充或者修正。
接收模块140用于接收待查异常名称。
待查异常名称指实际供电运营中出现的在线监控异常的名称,可以是由稽查人员发现问题并进行提交。
稽查模块150用于根据营销稽查问题信息与异常在线监控信息的关联关系,获取与待查异常名称对应的问题名称并显示。
根据营销稽查问题信息与异常在线监控信息的关联关系,提取与待查的异常名称对应的问题名称进行显示,以便稽查人员快速处理异常在线监控问题。
上述电力营销异常数据在线监控分析查系统,获取预先存储的多个营销稽查问题信息和多个异常在线监控信息并分别计算得到对应的标识向量。根据对应的标识向量建立营销稽查问题信息与异常在线监控信息的关联关系。对接收的待查异常名称进行处理时,根据营销稽查问题信息与异常在线监控信息的关联关系提示关联的问题名称,辅助稽查人员处理异常信息,提高在线稽查的处理效率。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种电力营销异常数据在线监控分析方法,其特征在于,包括以下步骤:
提取预先存储的多个营销稽查问题信息和多个异常在线监控信息,所述营销稽查问题信息包括问题名称,所述异常在线监控信息包括异常名称;
根据所述问题名称和异常名称,分别计算各营销稽查问题信息和异常在线监控信息的标识向量;
根据各营销稽查问题信息和异常在线监控信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系;
接收待查异常名称;
根据所述营销稽查问题信息与异常在线监控信息的关联关系,获取与所述待查异常名称对应的问题名称并显示。
2.根据权利要求1所述的电力营销异常数据在线监控分析方法,其特征在于,所述营销稽查问题信息包括用户编号和发生时间,所述异常在线监控信息包括用户编号和发生时间;所述根据所述问题名称和异常名称,分别计算各营销稽查问题信息和异常在线监控信息的标识向量的步骤,包括以下步骤:
分别对所述多个营销稽查问题信息的问题名称和多个异常在线监控信息的异常名称进行分词,得到若干个分词词组;
对所述若干个分词词组进行TF-IDF排序,获取前预设个数的分词词组,构建关键词词库;
根据各营销稽查问题信息的问题名称、用户编号、发生时间以及所述关键词词库,计算得到对应营销稽查问题信息的标识向量;
根据各异常在线监控信息的问题名称、用户编号、发生时间以及所述关键词词库,计算得到对应异常在线监控信息的标识向量。
3.根据权利要求2所述的电力营销异常数据在线监控分析方法,其特征在于,所述对所述若干个分词词组进行TF-IDF排序,获取前预设个数的分词词组,构建关键词词库的步骤,包括以下步骤:
计算各分词词组的词频,具体为
其中,TFi,j表示分词词组的词频,ni,j表示分词词组在问题名称或异常名称中出现的次数,表示问题名称或异常名称中所有分词词组的总数;
计算各分词词组的逆向文件频率,具体为
其中,IDFi表示分词词组的逆向文件频率,|D|为问题名称和异常名称的总数目,|{j:ti∈bj}|表示包含分词词组的问题名称和异常名称的数目;
计算分词词组的TF-IDF值,具体为
TF-IDFi,j=TFi,j×IDFi
其中,TF-IDFi,j表示分词词组的TF-IDF值,TFi,j表示分词词组的词频,IDFi表示分词词组的逆向文件频率;
根据分词词组的TF-IDF值对各分词词组进行TF-IDF排序,获取前预设个数的分词词组,得到所述关键词词库。
4.根据权利要求2所述的电力营销异常数据在线监控分析方法,其特征在于,分别对所述多个营销稽查问题信息的问题名称和多个异常在线监控信息的异常名称进行分词,得到若干个分词词组之后,对所述若干个分词词组进行TF-IDF排序,获取前预设个数的分词词组,构建关键词词库之前,还包括以下步骤:
显示各分词词组;
根据接收的删除指令删除对应的分词词组。
5.根据权利要求1所述的电力营销异常数据在线监控分析方法,其特征在于,所述根据各营销稽查问题信息和异常在线监控信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系的步骤,包括以下步骤:
分别计算各营销稽查问题信息与所有异常在线监控信息的关联度,具体为
其中,cosdis(k,dj)表示营销稽查问题信息k与异常在线监控信息dj的关联度,a1、a2分别为营销稽查问题信息k的标识向量中第一维参数和第二维参数,xn为营销稽查问题信息k的标识向量中第n维参数,且n大于或等于3,分别为异常在线监控信息dj的标识向量中第一维参数和第二维参数,为异常在线监控信息dj的标识向量中第n维参数,且n大于或等于3;
分别提取并显示与各营销稽查问题信息的关联度大于0的异常在线监控信息和对应的关联度;
根据接收的关联选择指令建立营销稽查问题信息与异常在线监控信息的关联关系。
6.根据权利要求5所述的电力营销异常数据在线监控分析方法,其特征在于,分别建立各营销稽查问题信息与所有异常在线监控信息的关联度之后,分别提取与各营销稽查问题信息的关联度大于0的异常在线监控信息并显示之前,还包括以下步骤:
分别判断各营销稽查问题信息是否存在关联度大于0的异常在线监控信息;
若是,则进行所述分别提取并显示与各营销稽查问题信息的关联度大于0的异常在线监控信息和对应的关联度的步骤;
若否,则输出异常判别报警信息。
7.一种电力营销异常数据在线监控分析系统,其特征在于,包括:
提取模块,用于提取预先存储的多个营销稽查问题信息和多个异常在线监控信息,所述营销稽查问题信息包括问题名称,所述异常在线监控信息包括异常名称;
计算模块,用于根据所述问题名称和异常名称,分别计算各营销稽查问题信息和异常在线监控信息的标识向量;
处理模块,用于根据各营销稽查问题信息和异常在线监控信息的标识向量,建立营销稽查问题信息与异常在线监控信息的关联关系;
接收模块,用于接收待查异常名称;
稽查模块,用于根据所述营销稽查问题信息与异常在线监控信息的关联关系,获取与所述待查异常名称对应的问题名称并显示。
8.根据权利要求7所述的电力营销异常数据在线监控分析系统,其特征在于,所述营销稽查问题信息包括用户编号和发生时间,所述异常在线监控信息包括用户编号和发生时间;所述计算模块包括:
分词单元,用于分别对所述多个营销稽查问题信息的问题名称和多个异常在线监控信息的异常名称进行分词,得到若干个分词词组;
排序单元,用于分别对所述若干个分词词组进行TF-IDF排序,获取前预设个数的分词词组,构建关键词词库;
第一计算单元,用于根据各营销稽查问题信息的问题名称、用户编号、发生时间以及所述关键词词库,计算得到对应营销稽查问题信息的标识向量;
第二计算单元,用于根据各异常在线监控信息的问题名称、用户编号、发生时间以及所述关键词词库,计算得到对应异常在线监控信息的标识向量。
9.根据权利要求8所述的电力营销异常数据在线监控分析系统,其特征在于,所述排序单元包括:
词频计算单元,用于计算各分词词组的词频,具体为
其中,TFi,j表示分词词组的词频,ni,j表示分词词组在问题名称或异常名称中出现的次数,表示问题名称或异常名称中所有分词词组的总数;
逆向文件频率计算单元,用于计算各分词词组的逆向文件频率,具体为
其中,IDFi表示分词词组的逆向文件频率,|D|为问题名称和异常名称的总数目,|{j:ti∈bj}|表示包含分词词组的问题名称和异常名称的数目;
TF-IDF值计算单元,用于计算分词词组的TF-IDF值,具体为
TF-IDFi,j=TFi,j×IDFi
其中,TF-IDFi,j表示分词词组的TF-IDF值,TFi,j表示分词词组的词频,IDFi表示分词词组的逆向文件频率;
TF-IDF排序单元,用于根据分词词组的TF-IDF值对各分词词组进行TF-IDF 排序,获取前预设个数的分词词组,得到所述关键词词库。
10.根据权利要求7所述的电力营销异常数据在线监控分析系统,其特征在于,所述处理模块包括:
关联度计算单元,用于分别计算各营销稽查问题信息与所有异常在线监控信息的关联度,具体为
其中,cosdis(k,dj)表示营销稽查问题信息k与异常在线监控信息dj的关联度,a1、a2分别为营销稽查问题信息k的标识向量中第一维参数和第二维参数,xn为营销稽查问题信息k的标识向量中第n维参数,且n大于或等于3,分别为异常在线监控信息dj的标识向量中第一维参数和第二维参数,为异常在线监控信息dj的标识向量中第n维参数,且n大于或等于3;
提取单元,用于分别提取并显示与各营销稽查问题信息的关联度大于0的异常在线监控信息和对应的关联度;
处理单元,用于根据接收的关联选择指令建立营销稽查问题信息与异常在线监控信息的关联关系。
CN201410737636.4A 2014-12-05 2014-12-05 电力营销异常数据在线监控分析方法和系统 Active CN104484371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410737636.4A CN104484371B (zh) 2014-12-05 2014-12-05 电力营销异常数据在线监控分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410737636.4A CN104484371B (zh) 2014-12-05 2014-12-05 电力营销异常数据在线监控分析方法和系统

Publications (2)

Publication Number Publication Date
CN104484371A true CN104484371A (zh) 2015-04-01
CN104484371B CN104484371B (zh) 2017-11-10

Family

ID=52758912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410737636.4A Active CN104484371B (zh) 2014-12-05 2014-12-05 电力营销异常数据在线监控分析方法和系统

Country Status (1)

Country Link
CN (1) CN104484371B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190784A (zh) * 2018-07-03 2019-01-11 深圳供电局有限公司 一种分布式稽查系统
CN109740770A (zh) * 2018-12-29 2019-05-10 广州供电局有限公司 设备异常处理方法、装置、计算机设备和存储介质
CN110929036A (zh) * 2019-11-29 2020-03-27 南方电网数字电网研究院有限公司 电力营销稽查管理方法、装置、计算机设备和存储介质
CN112213687A (zh) * 2020-10-10 2021-01-12 国网四川省电力公司电力科学研究院 基于伪异常点辨识的关口电能表数据异常检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
JP2012168127A (ja) * 2011-02-16 2012-09-06 Panasonic Corp 電力使用監視装置、電力使用監視システム
CN103178615A (zh) * 2013-02-05 2013-06-26 广东电网公司 电力设备故障监控方法及其系统
CN103473409A (zh) * 2013-08-25 2013-12-25 浙江大学 一种基于知识库的fpga故障自动诊断方法
CN103514514A (zh) * 2013-09-23 2014-01-15 广州供电局有限公司 电力营销业务数据在线监测方法
CN103761221A (zh) * 2013-12-31 2014-04-30 北京京东尚科信息技术有限公司 用于识别敏感文本信息的系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
JP2012168127A (ja) * 2011-02-16 2012-09-06 Panasonic Corp 電力使用監視装置、電力使用監視システム
CN103178615A (zh) * 2013-02-05 2013-06-26 广东电网公司 电力设备故障监控方法及其系统
CN103473409A (zh) * 2013-08-25 2013-12-25 浙江大学 一种基于知识库的fpga故障自动诊断方法
CN103514514A (zh) * 2013-09-23 2014-01-15 广州供电局有限公司 电力营销业务数据在线监测方法
CN103761221A (zh) * 2013-12-31 2014-04-30 北京京东尚科信息技术有限公司 用于识别敏感文本信息的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
彭凯: ""基于距离度量学习的文本分类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邓月: ""辽阳供电公司营销稽查监控系统研究"", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190784A (zh) * 2018-07-03 2019-01-11 深圳供电局有限公司 一种分布式稽查系统
CN109190784B (zh) * 2018-07-03 2021-10-19 深圳供电局有限公司 一种分布式稽查系统
CN109740770A (zh) * 2018-12-29 2019-05-10 广州供电局有限公司 设备异常处理方法、装置、计算机设备和存储介质
CN110929036A (zh) * 2019-11-29 2020-03-27 南方电网数字电网研究院有限公司 电力营销稽查管理方法、装置、计算机设备和存储介质
CN110929036B (zh) * 2019-11-29 2023-05-05 南方电网数字电网研究院有限公司 电力营销稽查管理方法、装置、计算机设备和存储介质
CN112213687A (zh) * 2020-10-10 2021-01-12 国网四川省电力公司电力科学研究院 基于伪异常点辨识的关口电能表数据异常检测方法及系统
CN112213687B (zh) * 2020-10-10 2023-05-16 国网四川省电力公司电力科学研究院 基于伪异常点辨识的关口电能表数据异常检测方法及系统

Also Published As

Publication number Publication date
CN104484371B (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN104463630B (zh) 一种基于网购保险产品特性的产品推荐方法及系统
CN103885937B (zh) 基于核心词相似度判断企业中文名称重复的方法
CN108734184B (zh) 一种对敏感图像进行分析的方法及装置
CN104484371A (zh) 电力营销异常数据在线监控分析方法和系统
CN112101635A (zh) 一种用电异常的监测方法和系统
Zhao et al. Deep learning‐based automatic detection of multitype defects in photovoltaic modules and application in real production line
CN105069626A (zh) 一种购物异常检测方法及系统
CN109784388A (zh) 窃电用户识别方法和装置
CN105335496A (zh) 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN102156873B (zh) 一种基于混沌的机械零部件早期单点故障检测与分类方法
CN105005798A (zh) 一种基于局部相似结构统计匹配的目标识别方法
CN104867032A (zh) 电子商务客户评价鉴别系统
Barnard et al. Differences between the CME fronts tracked by an expert, an automated algorithm, and the Solar Stormwatch project
Harpy et al. The Klampid New Generation Application as a Support for the Quality of E-Government Based Public Services in the City of Surabaya
CN104867018A (zh) 基于评价内容和id相似性识别的电商评价判断系统
Chernokulsky et al. Objectively and manually identified characteristics of mid-latitude storms: a comparison for Siberian region
CN109754151B (zh) 基于交易数据的地铁站点识别方法、装置、设备及介质
CN101968768B (zh) 一种基于缺陷的软件安全性测试需求的获取与分级方法
Diong et al. Establishing the foundation for energy management on university campuses via data analytics
Shin et al. Analyzing the Keyword for Image Evaluation of Construction Industry
Lucchese et al. The impact of negative samples on learning to rank
Sahore et al. Environmental disclosures and size of selected Indian firms
Matar et al. The Reality of employing modern technologies in teaching of Islamic education for the second intermediate grade
CN109615555B (zh) 基于集成学习算法的用户异常用电行为识别方法及系统
Kabir et al. The relationship between energy consumption and national income of Nigeria

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200917

Address after: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Patentee after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Address before: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Patentee before: GUANGZHOU POWER SUPPLY Co.,Ltd.

TR01 Transfer of patent right