CN109684447A - 一种基于文本挖掘的电网调度运行日志故障信息分析方法 - Google Patents
一种基于文本挖掘的电网调度运行日志故障信息分析方法 Download PDFInfo
- Publication number
- CN109684447A CN109684447A CN201811525534.0A CN201811525534A CN109684447A CN 109684447 A CN109684447 A CN 109684447A CN 201811525534 A CN201811525534 A CN 201811525534A CN 109684447 A CN109684447 A CN 109684447A
- Authority
- CN
- China
- Prior art keywords
- text mining
- feature
- dispatching
- fault information
- analysis method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 41
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000003066 decision tree Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012423 maintenance Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000006837 decompression Effects 0.000 claims description 3
- 230000005611 electricity Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000011156 evaluation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文本挖掘的电网调度运行日志故障信息分析方法,属于智能检索领域。该方法包括以下步骤:S1:故障信息预处理,包括分词、特征提取和去停用词;S2:利用文本挖掘工具调用文本挖掘算法,进行故障信息挖掘表示;S3:进行特征选择及其权重的计算。本发明的文本挖掘技术可以结合调度各业务系统中的运行数据,分析不同运行状态下的故障发生原因,为以后减少不必要的故障发生,提高电力经济效益,文本挖掘技术将发挥越来越大的作用。
Description
技术领域
本发明属于智能检索领域,涉及一种基于文本挖掘的电网调度运行日志故障信息分析方法。
背景技术
文本挖掘技术是从文本信息中获取有价值信息的过程,其要点是分词,根据文本数据中的特征信息进行分词处理。
近几年随着经济的快速发展,电力规模越来越大,复杂程度越来越高,电网调度操作频率和调度数据量呈快速增长的趋势。电网调度员每天处理大量的电网运行信息,并以文本的形式保存了大量的故障案例。这些文本以非结构化的形式存储,缺乏必要的自动化分析手段。
发明内容
有鉴于此,本发明的目的在于提供一种基于文本挖掘的电网调度运行日志故障信息分析方法,将文本挖掘技术应用到电网调度日志分析,对故障信息进行快速分类,挖掘关键信息,为故障定位分析提供辅助服务。
为达到上述目的,本发明提供如下技术方案:
一种基于文本挖掘的电网调度运行日志故障信息分析方法,该方法包括以下步骤:
S1:故障信息预处理,包括分词、特征提取和去停用词;
S2:利用文本挖掘工具调用文本挖掘算法,进行故障信息挖掘表示;
S3:进行特征选择及其权重的计算。
进一步,所述故障信息按照已经发生故障的设备类型分类,包括输电线路、变压器、开关设备、互感器、避雷器、电缆、开关柜和其他设备。
进一步,所述特征提取为:结合电力行业特征,从词性、词频、权重以及词义与词频相结合多方面进行特征选择。
进一步,所述特征提取的特征词汇满足:
特征词汇为保护动作,词频为8085;
特征词汇为开关,词频为7367;
特征词汇为主变,词频为6865;
特征词汇为跳闸,词频为6033;
特征词汇为失压,词频为5024。
进一步,所述文本挖掘算法包括C5树、SVM、贝叶斯网络和C&R树。
进一步,所述特征词汇为跳闸的分类模型时,采用决策树C5树模型。
进一步,所述决策树C5树模型的调整从三个方面进行:
第一,丰富同义词库和专业词库,使分词结果更精准;
第二,更精准地选定特征词;
第三,调整决策树模型的深度和叶子节点树。
进一步,将特征词汇为跳闸的类型事件故障与相关的检修工作匹配关联,进一步挖掘出跳闸产生是由检修和短路引起。
本发明的有益效果在于:从文本挖掘与传统数据挖掘的处理对象来看,文本挖掘可以看作是数据挖掘从结构化数据到非结构化数据的一次飞跃,是知识发现领域的主流研究之一,具有重要的科学意义和广阔的应用前景。电力系统的故障信息长久以来得不到充分利用,现在利用文本挖掘技术充分挖掘故障信息,可以将非结构化的数据转化为结构化的数据。通过文本挖掘分词技术,提取关键词,可以建立规范表达式,精准分析故障原因。
文本挖掘技术可以结合调度各业务系统中的运行数据,分析不同运行状态下的故障发生原因,为以后减少不必要的故障发生,提高电力经济效益,文本挖掘技术将发挥越来越大的作用。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为文本挖掘流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
如图1所示,文本挖掘的流程包括:文本预处理(分词、特征提取、去停用词等),然后进行文本表示,接着进行特征选择及其权重的计算。
1、故障信息预处理
与一般的中文文本相比,电网故障案例文本有以下的特点:
1)故障案例文本涉及的内容一般包括书写人员及电力公司信息、故障的相关内容、检修人员信息及建议对策等,且由于书写人员习惯不同导致文本的标题、段落格式、与文本结构的不一致。
2)由于各种故障问题和检测方法的复杂性不同,以及书写人员记录详细程度的差异,各个故障文本长度差别很大,从现有数据中统计到,最短的故障文本8行580个字;长的可达65行3058个字。
3)故障案例文本已经按照发生故障的设备的不同分类,主要分为:输电线路、变压器、开关设备、互感器、避雷器、电缆、开关柜和其他设备等8类。
4)大部分的故障案例文本语句中夹杂着有特殊意义的字符、量化单位和数字,如“额定电压比及电压级差:(525/√3)/(230/√3±3×2.5%)/35”,这些包含量化信息和类型信息的字段很有意义,但是它所包含的信息在文本处理过程中容易丢失。
5)故障案例文本的描述方式基本都是先记录遇到的故障的具体信息;然后是针对该故障的原因猜测,通过检测方法找到原因、总结。
本次研究结合中文分词研究方法对故障信息进行分词,通过不断地完善和加入词库来优化分词的效果,最终分词后得到16240个词汇,如表1所示。
表1故障信息分词结果
故障总数 | 分词后词汇总量 | 不同词汇数量 | 平均包含词汇个数 |
10370 | 157624 | 16240 | 15.2 |
将分词结果经去除停用词处理后,再进行特征降维。从本研究统计方法出发,结合电力行业特征,从词性、词频、权重以及词义与词频相结合等多方面进行特征选择,部分特征词汇如表2所示。
表2特征词汇词频统计
特征词汇 | 词频 |
保护动作 | 8085 |
开关 | 7367 |
主变 | 6865 |
跳闸 | 6033 |
失压 | 5024 |
… | … |
2、故障信息挖掘表示
通过文本挖掘工具调用文本挖掘算法集中合适的文本挖掘算法,常见的分类算法包括C5树、SVM、贝叶斯网络、C&R树等,本研究对各分类算法进行验证,效果如表3所示。
表3分类算法验证结果
从表3来看,决策树模型中的C5树分类模型准确率最高,C&R树分类模型遗漏率最低,C5树模型遗漏率次之。综合多方面结果最终选定决策树C5树模型作为类型事件“跳闸”的分类模型。
将待分类故障输入C5树分类模型进行分类,从分类结果中随机抽选1000个故障信息进行效果评估,评估结果如表4所示。
表4分类效果评估
评估指标 | 查全率 | 查准率 | 准确率 | 遗漏率 |
验证值 | 92.5 | 31.4 | 77.6 | 8.2 |
从表4的分类结果检验来看,模型查全率达到92.5%,遗漏率8.2%,基本能识别出疑似“跳闸”故障,且遗漏故障较少。但从模型查准率和准确率来看,分别为31.4%和77.6%,意味着该模型尽管能识别出“跳闸”故障,但却也将不属于该类型的故障判定为该类型,因此需要对分类模型进行调整和改进。
模型调整主要从三个方面进行改进:第一,丰富同义词库和专业词库,使分词结果更精准;第二,更精准地选定特征词;第三,调整决策树模型的深度和叶子节点树。分类模型调整后,结果评估见表5。
表5调整分类效果评估
评估指标 | 查全率 | 查准率 | 准确率 | 遗漏率 |
验证值 | 86.5 | 91.2 | 91.4 | 12.4 |
由表5可知,经过模型调整和改进后,准确率和查准率分别提高至91.4%,91.2%,遗漏率虽略有增高,但仍在业务可接受范围内。通过验证认为,调整后的分类模型能从故障受理内容出发,较为精准地识别出类型事件故障。利用调整后的分类模型对全量分类后,共识别出疑似“跳闸”故障568张。
此外,通过将类型事件故障与相关的检修工作匹配关联,还可进一步挖掘出疑似“跳闸”的产生主要是由“检修”以及“短路”等引起。因此为减少该类问题的产生,则可从日常检修环节出发找出改进方法和有效的解决措施。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (8)
1.一种基于文本挖掘的电网调度运行日志故障信息分析方法,其特征在于:该方法包括以下步骤:
S1:故障信息预处理,包括分词、特征提取和去停用词;
S2:利用文本挖掘工具调用文本挖掘算法,进行故障信息挖掘表示;
S3:进行特征选择及其权重的计算。
2.根据权利要求1所述的一种基于文本挖掘的电网调度运行日志故障信息分析方法,其特征在于:
所述故障信息按照已经发生故障的设备类型分类,包括输电线路、变压器、开关设备、互感器、避雷器、电缆、开关柜和其他设备。
3.根据权利要求1所述的一种基于文本挖掘的电网调度运行日志故障信息分析方法,其特征在于:
所述特征提取为:结合电力行业特征,从词性、词频、权重以及词义与词频相结合多方面进行特征选择。
4.根据权利要求3所述的一种基于文本挖掘的电网调度运行日志故障信息分析方法,其特征在于:所述特征提取的特征词汇满足:
特征词汇为保护动作,词频为8085;
特征词汇为开关,词频为7367;
特征词汇为主变,词频为6865;
特征词汇为跳闸,词频为6033;
特征词汇为失压,词频为5024。
5.根据权利要求1所述的一种基于文本挖掘的电网调度运行日志故障信息分析方法,其特征在于:
所述文本挖掘算法包括C5树、SVM、贝叶斯网络和C&R树。
6.根据权利要求4所述的一种基于文本挖掘的电网调度运行日志故障信息分析方法,其特征在于:所述特征词汇为跳闸的分类模型时,采用决策树C5树模型。
7.根据权利要求6所述的一种基于文本挖掘的电网调度运行日志故障信息分析方法,其特征在于:所述决策树C5树模型的调整从三个方面进行:
第一,丰富同义词库和专业词库,使分词结果更精准;
第二,更精准地选定特征词;
第三,调整决策树模型的深度和叶子节点树。
8.根据权利要求4所述的一种基于文本挖掘的电网调度运行日志故障信息分析方法,其特征在于:将特征词汇为跳闸的类型事件故障与相关的检修工作匹配关联,进一步挖掘出跳闸产生是由检修和短路引起。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811525534.0A CN109684447A (zh) | 2018-12-13 | 2018-12-13 | 一种基于文本挖掘的电网调度运行日志故障信息分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811525534.0A CN109684447A (zh) | 2018-12-13 | 2018-12-13 | 一种基于文本挖掘的电网调度运行日志故障信息分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684447A true CN109684447A (zh) | 2019-04-26 |
Family
ID=66187748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811525534.0A Pending CN109684447A (zh) | 2018-12-13 | 2018-12-13 | 一种基于文本挖掘的电网调度运行日志故障信息分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684447A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427607A (zh) * | 2019-06-11 | 2019-11-08 | 贵州电网有限责任公司 | 一种基于智能机器人的电网事故事件分析方法及系统 |
CN111830931A (zh) * | 2020-07-15 | 2020-10-27 | 中国科学院微电子研究所 | 一种dcs系统的故障诊断方法 |
CN111881259A (zh) * | 2020-07-30 | 2020-11-03 | 贵州电网有限责任公司 | 一种基于文本挖掘的设备故障概率评估方法及系统 |
CN117278383A (zh) * | 2023-11-21 | 2023-12-22 | 航天科工广信智能技术有限公司 | 一种物联网故障排查方案生成系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745229A (zh) * | 2013-12-31 | 2014-04-23 | 北京泰乐德信息技术有限公司 | 一种基于svm的轨道交通故障诊断方法及系统 |
CN104851054A (zh) * | 2015-05-18 | 2015-08-19 | 国家电网公司 | 10kV电压变电运行中的设备维护方法 |
CN105653444A (zh) * | 2015-12-23 | 2016-06-08 | 北京大学 | 基于互联网日志数据的软件缺陷故障识别方法和系统 |
CN105677833A (zh) * | 2016-01-06 | 2016-06-15 | 云南电网有限责任公司电力科学研究院 | 一种基于文本挖掘技术提取断路器故障特征信息的方法 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN106294038A (zh) * | 2015-05-25 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种故障谱的生成、基于故障谱的检测方法和装置 |
CN107016507A (zh) * | 2017-04-07 | 2017-08-04 | 国网技术学院 | 基于数据挖掘技术的电网故障追踪方法 |
CN107340766A (zh) * | 2017-07-10 | 2017-11-10 | 浙江大学 | 基于相似度的电力调度告警信号文本归类及故障诊断方法 |
CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108536123A (zh) * | 2018-03-26 | 2018-09-14 | 北京交通大学 | 长短时记忆网络结合神经网络的列控车载设备的故障诊断方法 |
-
2018
- 2018-12-13 CN CN201811525534.0A patent/CN109684447A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745229A (zh) * | 2013-12-31 | 2014-04-23 | 北京泰乐德信息技术有限公司 | 一种基于svm的轨道交通故障诊断方法及系统 |
CN104851054A (zh) * | 2015-05-18 | 2015-08-19 | 国家电网公司 | 10kV电压变电运行中的设备维护方法 |
CN106294038A (zh) * | 2015-05-25 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种故障谱的生成、基于故障谱的检测方法和装置 |
CN105653444A (zh) * | 2015-12-23 | 2016-06-08 | 北京大学 | 基于互联网日志数据的软件缺陷故障识别方法和系统 |
CN105677833A (zh) * | 2016-01-06 | 2016-06-15 | 云南电网有限责任公司电力科学研究院 | 一种基于文本挖掘技术提取断路器故障特征信息的方法 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN107016507A (zh) * | 2017-04-07 | 2017-08-04 | 国网技术学院 | 基于数据挖掘技术的电网故障追踪方法 |
CN107340766A (zh) * | 2017-07-10 | 2017-11-10 | 浙江大学 | 基于相似度的电力调度告警信号文本归类及故障诊断方法 |
CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108536123A (zh) * | 2018-03-26 | 2018-09-14 | 北京交通大学 | 长短时记忆网络结合神经网络的列控车载设备的故障诊断方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427607A (zh) * | 2019-06-11 | 2019-11-08 | 贵州电网有限责任公司 | 一种基于智能机器人的电网事故事件分析方法及系统 |
CN111830931A (zh) * | 2020-07-15 | 2020-10-27 | 中国科学院微电子研究所 | 一种dcs系统的故障诊断方法 |
CN111830931B (zh) * | 2020-07-15 | 2021-08-20 | 中国科学院微电子研究所 | 一种dcs系统的故障诊断方法 |
CN111881259A (zh) * | 2020-07-30 | 2020-11-03 | 贵州电网有限责任公司 | 一种基于文本挖掘的设备故障概率评估方法及系统 |
CN111881259B (zh) * | 2020-07-30 | 2023-06-20 | 贵州电网有限责任公司 | 一种基于文本挖掘的设备故障概率评估方法及系统 |
CN117278383A (zh) * | 2023-11-21 | 2023-12-22 | 航天科工广信智能技术有限公司 | 一种物联网故障排查方案生成系统及方法 |
CN117278383B (zh) * | 2023-11-21 | 2024-02-20 | 航天科工广信智能技术有限公司 | 一种物联网故障排查方案生成系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684447A (zh) | 一种基于文本挖掘的电网调度运行日志故障信息分析方法 | |
CN108376151B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN107908716A (zh) | 基于词向量模型的95598工单文本挖掘方法和装置 | |
Chieu et al. | A maximum entropy approach to information extraction from semi-structured and free text | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN112581006A (zh) | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 | |
CN111274814B (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN112837175B (zh) | 基于信息抽取技术的电力频繁停电工单信息抽取方法及系统 | |
CN114003721A (zh) | 矛盾纠纷事件类型分类模型的构建方法、装置及应用 | |
CN110704638A (zh) | 一种基于聚类算法的电力文本词典构造方法 | |
CN112199496A (zh) | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 | |
CN105955960B (zh) | 基于语义框架的电网缺陷文本挖掘方法 | |
CN111144116B (zh) | 一种文档知识结构化的抽取方法及装置 | |
CN112417893A (zh) | 一种基于语义层次聚类的软件功能需求分类方法及系统 | |
CN109214445A (zh) | 一种基于人工智能的多标签分类方法 | |
CN111104483A (zh) | 基于机器学习的ict系统故障分析及辅助判别方法 | |
WO2024087754A1 (zh) | 一种多维度文本综合辨识方法 | |
CN107562720B (zh) | 一种电力信息网络安全联动防御的告警数据匹配方法 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN111737993A (zh) | 一种配电网设备的故障缺陷文本提取设备健康状态方法 | |
CN106991171A (zh) | 基于智慧校园信息服务平台的话题发现方法 | |
CN110888977B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Thabtah et al. | Comparison of rule based classification techniques for the Arabic textual data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |