CN112711947A - 一种基于文本向量化的故障停电抢修事中处置参考方法 - Google Patents

一种基于文本向量化的故障停电抢修事中处置参考方法 Download PDF

Info

Publication number
CN112711947A
CN112711947A CN202110027354.5A CN202110027354A CN112711947A CN 112711947 A CN112711947 A CN 112711947A CN 202110027354 A CN202110027354 A CN 202110027354A CN 112711947 A CN112711947 A CN 112711947A
Authority
CN
China
Prior art keywords
power failure
failure event
fault power
fault
description text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110027354.5A
Other languages
English (en)
Other versions
CN112711947B (zh
Inventor
蔡德福
周鲲鹏
曹侃
王文娜
刘海光
王莹
饶渝泽
陈汝斯
叶畅
余笑东
王涛
周楚
闫秉科
万黎
陈永昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110027354.5A priority Critical patent/CN112711947B/zh
Publication of CN112711947A publication Critical patent/CN112711947A/zh
Application granted granted Critical
Publication of CN112711947B publication Critical patent/CN112711947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于文本向量化的故障停电抢修事中处置参考方法,包括以下步骤:步骤一:已处置故障停电事件及其处置方案数据获取;步骤二:已处置故障停电事件描述文本预处理与分词;步骤三:停电事件描述文本向量化表示;步骤四:停电事件描述文本语义相似度计算及处置方案推送:采用余弦相似度计算新增待处置故障停电事件与存量已处置故障停电事件的描述文本向量语义相似度,当相似度超过设定阈值时,将存量已处置故障停电事件的处置方案推送给作业人员作为参考。本发明能够识别与新增待处置故障停电事件描述文本语义相似度较高的存量已处置故障停电事件,将其处置方案与处理时长等信息提供给作业人员作为参考,可提高事件处置效率。

Description

一种基于文本向量化的故障停电抢修事中处置参考方法
技术领域
本发明涉及电网故障抢修领域,具体是一种基于文本向量化的故障停电抢修事中处置参考方法。
背景技术
电网企业已经建立起了面向流程管理的配网故障抢修管理平台,其中事件管理是抢修平台功能的重要组成部分,在故障抢修处置方面发挥了显著的作用。故障抢修平台事件管理最主要的工作就是故障报修及故障抢修处理工单的流转,不断重复建单、派单、转单、解决、关闭这一过程,从而在日常维护工作中积累了大量事件工单。这些大量的历史工单中有很多都是重复发生或者类似的事件,当前因没有将这些历史工单有效地利用起来,从而使客服或作业人员很多时间都耽搁在这种重复繁杂的工作中。
文献[1]提出了一种提升配电网恢复效率的抢修策略优化方法,该方法以系统损失电量最小为目标构建抢修策略优化模型,并利用贪心算法求解得到提升配电网恢复效率的优化抢修策略,并以IEEE 33节点配电网系统为算例进行了仿真及验证。文献[2]分析了当前配电网故障抢修中存在的主要问题,从管理角度提出了提高配网故障抢修效率的具体策略。文献[3]提出了一种基于用户画像技术和故障诊断技术的计量装置故障抢修主动服务预警模型,利用K-Means聚类方法构建用户画像模型,利用极端梯度提升XGBoost算法构建计量装置故障识别模型,进而建立计量装置故障抢修主动服务预警模型。文献[4]通过对影响电网故障抢修的主要因素进行分析,提出了相关电网故障定位及抢修时间的主要技术手段,并提出了基于故障行波传输路径及分支判定矩阵的电网故障定位方法。文献[5]建立了电力系统在多故障情况下的多目标抢修策略优化模型,针对配电网接线呈辐射状的特点,提出了一种遗传拓扑混合算法作为寻优策略,算例结果证明了该混合智能算法的有效性和鲁棒性。文献[6]建立了多故障抢修与供电恢复的联合优化模型,通过故障抢修顺序和停电负荷恢复路径的交互影响和反复迭代,最终得到最优的抢修计划和各个阶段最优的供电恢复策略。
快速处置是故障抢修管理的重要目标之一,尤其对一线人员,当接到故障报修时能够在建单的过程中就能快速地从历史信息中找到对当前事件有益的参考信息,对事件的快速处置将起到很大的帮助。
参考文献:
[1]杨隆,李长城,罗伟,等.提升配电网恢复效率的抢修策略优化研究[J].浙江电力,2020.
[2]马峻峰.浅谈提高配网故障的抢修效率的措施[J].科技资讯,2020.
[3]殷新博,唐旭东,王数,等.计量装置故障抢修主动服务预警模型研究[J].信息技术,2020.
[4]刘洋,白东海,贺卫华,等.基于缩短故障定位及抢修时间的决策方法研究[J].机械电子,2020.
[5]张晶伟,张粒子,黄弦超.基于遗传拓扑混合算法的配电网多故障抢修策略[J].电力系统自动化,2008.
[6]黄弦超,杨雨,范闻博.配电网多故障抢修与供电恢复联合优化模型[J].电力系统自动化,2014.
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于文本向量化的故障停电抢修事中处置参考方法。
为了实现上述目的,本发明采用了以下技术方案:
一种基于文本向量化的故障停电抢修事中处置参考方法,包括如下步骤:
步骤一:已处置故障停电事件及其处置方案数据获取:从生产管理系统配网抢修管控模块获取已处置故障停电事件描述文本及与已处置故障停电事件对应的抢修处置方案,所述已处置故障停电事件描述文本包含已处置故障停电事件的停电编号、停电类型、线路名称、停电原因、停电范围;
步骤二:已处置故障停电事件描述文本预处理与分词:对已处置故障停电事件的停电原因等关键描述文本信息,进行冗余信息、非法字符剔除等预处理,结合Python的jieba内置的词典与停电地址要素库对停电原因、停电范围进行分词,整合后表示成已处置故障停电事件描述文本特征词集;
步骤三:停电事件描述文本向量化表示:采用词频-逆文本频率指数算法(TF-IDF)将已处置故障停电事件描述文本特征词集转换成向量化形式,即生成已处置故障停电事件的描述文本向量;
步骤四:停电事件描述文本语义相似度计算及处置方案推送:针对新增待处置故障停电事件,首先查询该设备历史故障停电事件记录,判断是否存在因同类原因导致故障重复发生,若存在则直接调取其历史处置方案并参考;若不存在,则采用余弦相似度计算新增待处置故障停电事件与已处置故障停电事件的描述文本向量的语义相似度,当相似度超过设定阈值时,将已处置故障停电事件所对应的处置方案推送给作业人员作为参考。
进一步的,步骤三中词频-逆文本频率指数算法(TF-IDF)如式(1)所示:
Figure BDA0002890802850000031
式中,wi,j为权重,tfi,j为特征词tj在文档di中的词频TF(Term Frequency),idfj为特征词tj在整个文档集合D={d1,d2,…dk}中的逆向文档频率IDF(Inverse DocumentFrequency),ni,j为特征词tj在文档di中出现次数,k为文档总数,
Figure BDA0002890802850000032
为特征词tj在文档集合D={d1,d2,…dk}中出现总次数,nj为特征词tj所出现文件数。
进一步的,步骤四中,采用余弦相似度计算新增待处置故障停电事件与已处置故障停电事件的描述文本向量的语义相似度,具体步骤为:
假定两个文本的特征向量分别表示为
Figure BDA0002890802850000041
Figure BDA0002890802850000042
并且它们之间的夹角为θ,则两个向量的余弦相似度由式(2)表示:
Figure BDA0002890802850000043
进一步的,步骤四中根据实际经验将所述阈值设置在0.7-0.8之间。
本发明的技术效果与优点:
本发明采用词频-逆文本频率指数算法(TF-IDF)将故障停电事件描述文本特征词集转换成向量化形式,可以有效避免传统词表示的“维数灾难”问题,而且词与词之间的语义关联性可以通过向量距离计算;本发明所提方法能够识别与新增待处置故障停电事件描述文本语义相似度较高的存量已处置故障停电事件,将其处置方案与处理时长等信息推送给作业人员,提高事件处置效率。
附图说明
图1是本发明一种基于文本向量化的故障停电抢修事中处置参考方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种基于文本向量化的故障停电抢修事中处置参考方法,包括以下步骤:
步骤一:已处置故障停电事件及其处置方案数据获取:从生产管理系统配网抢修管控模块获取已处置故障停电事件描述文本及与已处置故障停电事件对应的抢修处置方案,所述已处置故障停电事件描述文本包含已处置故障停电事件的停电编号、停电类型、线路名称、停电原因、停电范围;
步骤二:已处置故障停电事件描述文本预处理与分词:对已处置故障停电事件的停电原因等关键描述文本信息,进行冗余信息、非法字符剔除预处理,结合Python的jieba内置的词典与停电地址要素库对停电原因、停电范围进行分词,整合后表示成已处置故障停电事件描述文本特征词集;
步骤三:停电事件描述文本向量化表示:采用词频-逆文本频率指数算法(TF-IDF)将已处置故障停电事件描述文本特征词集转换成向量化形式,即生成已处置故障停电事件的描述文本向量。
在步骤三中,为了防止TF-IDF算法经典计算模型(公式(1))的nj为0导致计算错误或者出现log计算结果为负的情形,TF-IDF算法模型调整为公式(2)。
TF-IDF经典计算模型如下所示:
Figure BDA0002890802850000051
将TF-IDF权重算法模型调整为:
Figure BDA0002890802850000052
式中,wi,j为权重,tfi,j为特征词tj在文档di中的词频TF(Term Frequency),idfj为特征词tj在整个文档集合D={d1,d2,…dk}中的逆向文档频率IDF(Inverse DocumentFrequency),ni,j为特征词tj在文档di中出现次数,k为文档总数,
Figure BDA0002890802850000061
为特征词tj在文档集合D={d1,d2,…dk}中出现总次数,nj为特征词tj所出现文件数。
步骤四:停电事件描述文本语义相似度计算及处置方案推送:针对新增待处置故障停电事件,首先查询该设备历史故障停电事件记录,判断是否存在因同类原因导致故障重复发生,若存在则直接调取其历史处置方案并参考;若不存在,则采用余弦相似度计算新增待处置故障停电事件与已处置故障停电事件的描述文本向量的语义相似度,当相似度超过设定阈值时,将已处置故障停电事件所对应的处置方案推送给作业人员作为参考。
假定两个文本的特征向量分别表示为
Figure BDA0002890802850000062
Figure BDA0002890802850000063
并且它们之间的夹角为θ,则两个向量的余弦相似度可由下式表示。
Figure BDA0002890802850000064
步骤四中根据实际经验将所述阈值设置在0.7-0.8之间。
下面为说明本发明提出的基于文本向量化的故障停电抢修事中处置参考方法的有效性,从生产管理系统配网抢修管控模块中,抽取巴东县2019年1月1日至7月30日共801条故障停电抢修记录数据,作为存量故障停电事件处置方案参考样本数据集,将2019年7月31日共15条故障停电事件数据作为新增待处置样本数据集。
针对新增待处置故障停电事件,首先查询该设备历史故障停电事件记录,判断是否存在因同类原因导致故障停电事件重复发生,若存在则可直接调取其历史处置方案并参考。以停电编号为“2019073142000248”的新增故障停电事件为例进行说明。该停电事件对应的线路名称为“10kV金鄢线金804”,停电类型为“电网故障停限电”,查询该线路、该类型历史停电事件,如表1所示,共发现11条历史故障停电事件记录,查找历史记录中“停电原因”是否存在因大风导致线路断线或类似的停电事件,若有则调取其历史处置方案并参考。
本例编号为“2019073142000248”的新增停电事件对应的线路“10kV金鄢线金804”,查询其历史故障停电事件记录发现存在因同类停电原因导致的故障停电事件,编号为“2019051142000193”停电事件。可调取“2019051142000193”历史故障停电事件处置方案供编号“2019073142000248”的新增停电事件处置方案参考。
表1 10kV金鄢线金804新增与历史故障停电事件比对
Figure BDA0002890802850000071
Figure BDA0002890802850000081
针对新增待处置故障停电事件,查询该设备历史故障停电事件记录,若查无历史故障停电记录或历史记录中并无因同类原因导致的故障停电事件发生,则对该新增待处置故障停电事件及其同类设备存量已处置故障停电事件的描述文本依次进行文本预处理、文本分词及文本向量化表示后,计算该新增待处置故障停电事件及其同类设备存量已处置故障停电事件的描述文本向量语义相似度,筛选与该新增待处置故障停电事件描述文本语义相似度较高的存量已处置故障停电事件,将其处置方案与处理时长等信息推送给作业人员作为参考,当同时发生多个新增待处置故障停电事件时可批量执行计算,提高故障抢修效率。
故障停电事件工单中最主要的文本标签是“停电原因”和“停电范围”。这几段文本信息基本能将一个故障停电事件信息概括完整,而针对同类设备、同类故障的故障停电事件仅“停电原因”一个文本标签即可将该类故障停电事件信息概括完整。本项目所指的文本向量化针对的是“停电原因”和“停电范围”这几段文本。文本信息经过分词、过滤表示成特征词集的形式后就可以采用不同算法转换成向量化形式。
收集整理故障停电事件工单文本信息构建故障停电事件描述特征词库,基于词库对故障停电事件文本进行分词。表2为部分故障停电事件的文本信息分词后形成的特征词集形式。
表2停电描述文本特征词集
Figure BDA0002890802850000091
选取停电编号为“2019072142000017”与“2019030542000055”的故障描述文本,表示成特征词集形式,即d4={线路断线导致停电湖北省恩施州巴东县东壤口镇三河口村乐乡大道桥头滨江大道烟草焦家湾村五里堆村学苑路神龙大道政府},d5={下雨引起线路故障停电湖北省恩施州巴东县东壤口镇焦家湾村神龙大道滨江大道旧县坪三组学苑路}。
将d4和d5的特征词转换成数值,数值可用概率来表示。概率计算包括两方面,特征单词在文本中出现的词频tf值,还有该词的逆向文档频率idf值。那么某一维的表征概率值就是tf和idf的一个因式乘积,即TF-IDF权重。
计算tf值,即特征词在某个文本词集中出现的次数和在所有文本词集中出现的总次数的比值。
表3 tf值
序号 tf值 d4 d5 序号 tf值 d4 d5
1 线路 0.5 0.5 13 烟草 1 0
2 断线 1 0 14 焦家湾村 0.5 0.5
3 导致 1 0 15 五里堆村 1 0
4 停电 0.5 0.5 16 学苑路 0.5 0.5
5 湖北省 0.5 0.5 17 神龙大道 0.5 0.5
6 恩施州 0.5 0.5 18 政府 1 0
7 巴东县 0.5 0.5 19 下雨 0 1
8 东壤口镇 0.5 0.5 20 引起 0 1
9 三河口村 1 0 21 线路 0.5 0.5
10 乐乡大道 1 0 22 故障 0 1
11 桥头 1 0 23 旧县坪三组 0 1
12 滨江大道 0.5 0.5
计算idf值,即该词出现在多个文本中的频率,如果一个单词在很多文本中出现的频率都很高,那么这个单词就太普遍了,不足以用来表征一个故障停电事件。idf的计算可利用公式log(n+1/(t+1))+1,其中n表示文本词集总个数,本例中n=2,t表示包含该特征词的文本词集数量。
表4 idf值
序号 文本 idf值 序号 文本 idf值
1 线路 1 13 烟草 1.18
2 断线 1.18 14 焦家湾村 1
3 导致 1.18 15 五里堆村 1.18
4 停电 1 16 学苑路 1
5 湖北省 1 17 神龙大道 1
6 恩施州 1 18 政府 1.18
7 巴东县 1 19 下雨 1.18
8 东壤口镇 1 20 引起 1.18
9 三河口村 1.18 21 线路 1
10 乐乡大道 1.18 22 故障 1.18
11 桥头 1.18 23 旧县坪三组 1.18
12 滨江大道 1
计算tf×idf值,即TF-IDF权重。
表5 tf×idf值
序号 tf×idf值 d4 d5 序号 tf×idf值 d4 d5
1 线路 0.5 0.5 13 烟草 1.18 0
2 断线 1.18 0 14 焦家湾村 0.5 0.5
3 导致 1.18 0 15 五里堆村 1.18 0
4 停电 0.5 0.5 16 学苑路 0.5 0.5
5 湖北省 0.5 0.5 17 神龙大道 0.5 0.5
6 恩施州 0.5 0.5 18 政府 1.18 0
7 巴东县 0.5 0.5 19 下雨 0 1.18
8 东壤口镇 0.5 0.5 20 引起 0 1.18
9 三河口村 1.18 0 21 线路 0.5 0.5
10 乐乡大道 1.18 0 22 故障 0 1.18
11 桥头 1.18 0 23 旧县坪三组 0 1.18
12 滨江大道 0.5 0.5
表示成向量,最终就可以将d4和d5表示成如下的空间向量:
d4={0.5,1.18,1.18,0.5,0.5,0.5,0.5,0.5,1.18,1.18,1.18,0.5,1.18,0.5,1.18,0.5,0.5,1.18,0,0,0.5,0,0},
d5={0.5,0,0,0.5,0.5,0.5,0.5,0.5,0,0,0,0.5,0,0.5,0,0.5,0.5,0,1.18,1.18,0.5,1.18,1.18},其中向量对应的维度特征变量为:线路,断线,导致,停电,湖北省,恩施州,巴东县,东壤口镇,三河口村,乐乡大道,桥头,滨江大道,烟草,焦家湾村,五里堆村,学苑路,神龙大道,政府,下雨,引起,线路,故障,旧县坪三组。
采用余弦相似性公式计算向量d4和d5间相似度:
Figure BDA0002890802850000111
计算得到d4与d5的夹角余弦值为0.62,这个余弦值越接近1表明夹角越小也就越相似。同理文本较多时可算出任意文本与其余文本夹角余弦值,将值按大小排列就可以分出相似度高低。
依次计算每条新增待处置故障停电事件与全部存量已处置故障停电事件的描述文本语义相似度,设置相似度阈值为0.8,筛选与新增待处置故障停电事件描述文本语义相似度高于0.8的存量已处置故障停电事件,将其处置方案与处理时长等信息推送给作业人员作为参考,提高故障抢修效率。
对于巴东县2019年7月31日共15条新增待处置故障停电事件,通过本发明所提方法,从存量已处置的801条故障停电抢修记录数据中匹配到了6条新增处置故障停电事件对应的故障抢修方案,匹配用时5秒,其中6条新增处置故障停电事件对应的故障抢修方案被作业人员采纳5条,有效率为83%。通过常规的人工方式编制5条新增故障停电事件的故障抢修方案一般需要2-3小时,采用本发明所提方法只需要5秒,可以极大提升工作效率。
针对当前生产管理系统配网抢修管控模块在日常维护工作中积累了大量故障停电抢修事件工单但未有效发挥其数据价值的问题,本发明提出了一种基于文本向量化的故障停电抢修事中处置参考方法。该方法通过首先对故障停电事件描述文本预处理与分词,然后采用词频-逆文本频率指数算法(TF-IDF)将故障停电事件描述文本特征词集转换成向量化形式,再采用余弦相似度计算新增待处置故障停电事件与存量已处置故障停电事件的描述文本向量语义相似度,当相似度超过设定阈值时,将存量已处置故障停电事件的处置方案推送给作业人员作为参考,可有效提升故障停电事件处置效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种基于文本向量化的故障停电抢修事中处置参考方法,其特征在于:包括如下步骤:
步骤一:已处置故障停电事件及其处置方案数据获取:从生产管理系统配网抢修管控模块获取已处置故障停电事件描述文本及与已处置故障停电事件对应的抢修处置方案,所述已处置故障停电事件描述文本包含已处置故障停电事件的停电编号、停电类型、线路名称、停电原因、停电范围;
步骤二:已处置故障停电事件描述文本预处理与分词:对已处置故障停电事件的关键描述文本信息,进行冗余信息、非法字符剔除预处理,结合Python的jieba内置的词典与停电地址要素库对停电原因、停电范围进行分词,整合后表示成已处置故障停电事件描述文本特征词集;
步骤三:停电事件描述文本向量化表示:采用词频-逆文本频率指数算法(TF-IDF)将已处置故障停电事件描述文本特征词集转换成向量化形式,即生成已处置故障停电事件的描述文本向量;
步骤四:停电事件描述文本语义相似度计算及处置方案推送:针对新增待处置故障停电事件,首先查询该设备历史故障停电事件记录,判断是否存在因同类原因导致故障重复发生,若存在则直接调取其历史处置方案并参考;若不存在,则采用余弦相似度计算新增待处置故障停电事件与已处置故障停电事件的描述文本向量的语义相似度,当相似度超过设定阈值时,将已处置故障停电事件所对应的处置方案推送给作业人员作为参考。
2.如权利要求1所述的基于文本向量化的故障停电抢修事中处置参考方法,其特征在于:步骤三中词频-逆文本频率指数算法(TF-IDF)如式(1)所示:
Figure FDA0002890802840000021
式中,wi,j为权重,tfi,j为特征词tj在文档di中的词频,idfj为特征词tj在整个文档集合D={d1,d2,…dk}中的逆向文档频率,ni,j为特征词tj在文档di中出现次数,k为文档总数,
Figure FDA0002890802840000022
为特征词tj在文档集合D={d1,d2,…dk}中出现总次数,nj为特征词tj所出现文件数。
3.如权利要求1所述的基于文本向量化的故障停电抢修事中处置参考方法,其特征在于:步骤四中,采用余弦相似度计算新增待处置故障停电事件与已处置故障停电事件的描述文本向量的语义相似度,具体步骤为:
假定两个文本的特征向量分别表示为
Figure FDA0002890802840000023
Figure FDA0002890802840000024
并且它们之间的夹角为θ,则两个向量的余弦相似度由式(2)表示:
Figure FDA0002890802840000025
4.如权利要求1所述的基于文本向量化的故障停电抢修事中处置参考方法,其特征在于:步骤四中根据实际经验将所述阈值设置在0.7-0.8之间。
CN202110027354.5A 2021-01-09 2021-01-09 一种基于文本向量化的故障停电抢修事中处置参考方法 Active CN112711947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110027354.5A CN112711947B (zh) 2021-01-09 2021-01-09 一种基于文本向量化的故障停电抢修事中处置参考方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110027354.5A CN112711947B (zh) 2021-01-09 2021-01-09 一种基于文本向量化的故障停电抢修事中处置参考方法

Publications (2)

Publication Number Publication Date
CN112711947A true CN112711947A (zh) 2021-04-27
CN112711947B CN112711947B (zh) 2023-08-22

Family

ID=75548666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110027354.5A Active CN112711947B (zh) 2021-01-09 2021-01-09 一种基于文本向量化的故障停电抢修事中处置参考方法

Country Status (1)

Country Link
CN (1) CN112711947B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564947A (zh) * 2022-03-04 2022-05-31 上海富欣智能交通控制有限公司 轨道交通信号故障运维方法、装置及电子设备
CN115630143A (zh) * 2022-12-21 2023-01-20 中科航迈数控软件(深圳)有限公司 故障处理方案的推荐方法、装置、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861942A (zh) * 2017-10-11 2018-03-30 国网浙江省电力公司电力科学研究院 一种基于深度学习的电力疑似投诉工单识别方法
WO2019210820A1 (zh) * 2018-05-03 2019-11-07 华为技术有限公司 一种信息输出方法及装置
CN110704231A (zh) * 2019-09-30 2020-01-17 深圳前海微众银行股份有限公司 一种故障处理方法及装置
CN111177389A (zh) * 2019-12-30 2020-05-19 佰聆数据股份有限公司 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861942A (zh) * 2017-10-11 2018-03-30 国网浙江省电力公司电力科学研究院 一种基于深度学习的电力疑似投诉工单识别方法
WO2019210820A1 (zh) * 2018-05-03 2019-11-07 华为技术有限公司 一种信息输出方法及装置
CN110704231A (zh) * 2019-09-30 2020-01-17 深圳前海微众银行股份有限公司 一种故障处理方法及装置
CN111177389A (zh) * 2019-12-30 2020-05-19 佰聆数据股份有限公司 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈晓伟;曹逸峰;尚鸿斌;付谦;包妍苹;沈;: "基于文本向量化方法构建IT运维服务台事中处置参考模型", 计算机系统应用, no. 10 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564947A (zh) * 2022-03-04 2022-05-31 上海富欣智能交通控制有限公司 轨道交通信号故障运维方法、装置及电子设备
CN115630143A (zh) * 2022-12-21 2023-01-20 中科航迈数控软件(深圳)有限公司 故障处理方案的推荐方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN112711947B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN106019084B (zh) 基于配用电数据关联的中压配电网断线故障诊断方法
CN112711947A (zh) 一种基于文本向量化的故障停电抢修事中处置参考方法
CN112383052B (zh) 基于电力物联网的电网故障修复方法和装置
CN114048870A (zh) 一种基于日志特征智能挖掘的电力系统异常监测方法
CN109190712A (zh) 一种基于深度学习的航拍巡线影像自动分类系统
CN105787809A (zh) 一种基于数据挖掘的电网设备运行状态智能校验方法
CN107451708A (zh) 一种基于Apriori算法的电网设备监控信息置信关联分析方法
CN111179115A (zh) 故障处理辅助决策方法、装置、存储介质及电子设备
CN114254818A (zh) 一种基于风险评估模型的低压配电网连锁故障预警方法
CN114281864A (zh) 一种面向电力网络告警信息的关联分析方法
CN114997745A (zh) 一种基于深度特征提取的光伏故障诊断溯源方法
CN111178690A (zh) 基于风控评分卡模型的用电客户窃电风险评估方法
CN111044845A (zh) 基于Apriori算法的配电网事故识别方法及系统
CN111612054B (zh) 一种基于非负矩阵分解和密度聚类的用户窃电行为识别方法
CN109034538B (zh) 一种面向变电站自动化设备运行质量的评价分析方法
CN113065580A (zh) 一种基于多信息融合的电厂设备管理方法及系统
CN116629709A (zh) 一种供电指标的智能化分析报警系统
CN115794798A (zh) 一种市场监管信息化标准管理与动态维护系统及方法
CN115409264A (zh) 基于馈线故障预测的配电网抢修驻点位置优化方法
CN115705364A (zh) 一种基于设备运行特征的电网监控知识图谱构建方法
CN114372591A (zh) 一种配电电缆智能运维决策方法及系统
CN112101798A (zh) 一种基于大数据技术的电力设备寿命管理方法
Dong et al. The research on user short-term electricity load forecasting for judging electric theft
CN111292200A (zh) 一种基于运行数据的配网典型故障研判方法
Jing-Xian et al. Recommend Device Defect Research Based on Optimized Edit Distance Algorithm and Entropy Weight Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant