CN110287279B - 一种将非结构化的日志报告转为结构化系统报表的方法 - Google Patents

一种将非结构化的日志报告转为结构化系统报表的方法 Download PDF

Info

Publication number
CN110287279B
CN110287279B CN201910441620.1A CN201910441620A CN110287279B CN 110287279 B CN110287279 B CN 110287279B CN 201910441620 A CN201910441620 A CN 201910441620A CN 110287279 B CN110287279 B CN 110287279B
Authority
CN
China
Prior art keywords
name
time
log
logs
wind power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910441620.1A
Other languages
English (en)
Other versions
CN110287279A (zh
Inventor
孙荣富
屈中山
丁然
白静洁
王靖然
常志朋
徐海翔
王若阳
任一丹
刘康丽
张旭
耿艳
潘琦
刘华德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Beijing Kedong Electric Power Control System Co Ltd
State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Beijing Kedong Electric Power Control System Co Ltd
State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Beijing Kedong Electric Power Control System Co Ltd, State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910441620.1A priority Critical patent/CN110287279B/zh
Publication of CN110287279A publication Critical patent/CN110287279A/zh
Application granted granted Critical
Publication of CN110287279B publication Critical patent/CN110287279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种将非结构化的日志报告转为结构化系统报表的方法,包括以下步骤:(1)录入和加载风电场名称、光伏电站名称、集控站名称、设备名称和变电站名称;(2)根据原始日志,将风电场、光伏电站能提取机组号的日志标记为清洁能源,将集控站及风电场、光伏电站不能提取机组号的其他设备日志标为疑似,将其余日志标记为非清洁能源;(3)分别对电场名称和风电机组编号进行提取;(4)划分日志状态;确定开始时间及结束时间;并描述事件。本发明提高了电网检修报表的可靠性、准确性。

Description

一种将非结构化的日志报告转为结构化系统报表的方法
技术领域
本发明属于电力系统调度自动化技术领域,该发明主要致力于每日的检修日志和检修报告的基础上建立起来的。
背景技术
随着经济的发展,电场的建设也逐步走上了国际化的道路,国家电网的建设成为了国家重要经济和民生的一个很重要的中流砥柱,成为国家命脉的一个重要的环节。随着电场的不断的建设,规范化的措施和电场的数量的增加,在一定的基础上使得我们的国产经济经济迅速的发展,在国家的电网建设和维护、检修上面需要大量工作人员。
因此电场的维护和检修是电网发展的重要部分。传统的处理措施越来越不能满足对电网的需求,低效率的工作方式,也使得我们出现一些应急的情况,不能及时处理,快速地处理方式已经迫不及待。
近几年的时间,电网的迅速发展是相当的快的,尤其这几年期间,对新能源的开发也逐步成为了主流的电场的需要。光伏电厂和风的电场的发展大势一片良好。但是光伏电厂和风电场受到天气的影响是相当的大的。不能持续发电,很难检测出电场的损坏情况,因此对于电网维护检修工作者任务已经很艰巨了。因此每天的检修日志是相当重要的,重要的管理和维护各个电场的状态和检修情况。快速查询电场检修日志是相当重要的,将复杂一长串日志报告转成合理清晰结构化的系统报表是电网研究的方向,因此在大量调研和自主研发中,也出现了部分的研究成果。
非结构化的日志报告的劣势一方面不能快速的看出问题的关键,另一方大量的文字大大影响了工作人员可读性和对日志读完的耐心程度。在现场的工作安排中出现大量的差错和遗漏,在很多的应急情况的没有及时处理,不仅给一线的工作人员带来反复的工作任务,更重要的是不能及时处理应急任务,造成很大的影响。因此将非结构化的日志报告转为结构化的系统报表是亟不可待的。
发明内容
针对现有技术存在的不足,本发明目的是提供一种将非结构化的日志报告转为结构化系统报表的方法,提高了电网检修报表的可靠性、准确性。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明的一种将非结构化的日志报告转为结构化系统报表的方法,包括以下步骤:
(1)录入和加载风电场名称、光伏电站名称、集控站名称、设备名称和变电站名称;
(2)根据原始日志,将风电场、光伏电站能提取机组号的日志标记为清洁能源,将集控站及风电场、光伏电站不能提取机组号的其他设备日志标为疑似,将其余日志标记为非清洁能源;
(3)分别对电场名称和风电机组编号进行提取;
(4)划分日志状态;确定开始时间及结束时间;按照各个分类方式分类,并描述事件。
步骤(1)中,将所有的风电场名称、光伏电站名称、集控站名称、设备名称和变电站名称录入,采用缓存的方式将数据缓存到内存中,初始化慢,第二次访问时,访问速度快,且对内存资源的占用也不再提高。
步骤(1)中,将各个名称先录入到EXCEL中,然后将名称导入到数据库中;采用非关系型数据NoSQL对数据进行访问;采用的数据库是Redis数据库或者是MongoDB数据库。
步骤(3)中,所述电场名称的提取:是将日志与电场名称的词库进行正则匹配,将匹配中的词库,进行提取。
步骤(3)中,所述风电机组编号的提取方式为:提取日志内容包含#作为风机编号,将以F开头作为光伏电站机组;数据结果时,需要去掉“#”,并将“-,~”前后拆分。
步骤(4)中,所述日志状态分为场内状态和场外状态,具体划分方法如下:
(1-1)去掉与风电场同名的变电站后,剩下的变电站名称如果存在在日志中,标记为场外;
(1-2)线路两端若有一端为变电站名称而非两端全是电厂名称,标记为场外;
(1-3)其余标记为场内。
步骤(4)中,所述开始时间及结束时间的确定方法如下:
(2-1)根据故障词库,用语句匹配模型匹配日志中,所有故障语句集,剔除语句中不含时间的语句集,剩余有时间语句集,取最后一条语句时间,作为开始时间,若此时间无年月日则取日志记录时间年月日。
(2-2)根据并网词库,用语句匹配模型匹配日志中,所有并网语句集,剔除语句中不含时间的,剩余有时间语句集,取最后一条语句时间,作为结束时间。
(2-3)取将步骤(2-1)及(2-2)处理完之后,开始与结束时间都为空的日志,用故障词库与并网词库中词,各遍历一遍日志,词库中最高的词频,即将日志记录时间,放在相应位置。
步骤(2-2)中,无年月日时,用日志记录时间作为结束时间。
步骤(4)中,事件的描述方法如下:
根据停机关键词及并网关键词两个词库,将日志标记为0和1;电场、机组号均相同的0、1相互合并,不能合并的单个输出。
本发明用于对日志报表的规范化、可靠化、准确化、合理化进行深度的研究。将复杂的日志段落文字转化为架构化的清晰易懂的系统报表方式。从一定程度上提高了电网检修报表的可靠性和准确性,在另一方面将人工填写的方式转化为自动化的实现方式,大大提高了电网工作效率。
附图说明
图1为与各个词库之间匹配和划分之间的关系来确定能源分类图;
图2为采用本发明的方法实现的效果图;
图3为电网调度日志报表的设计实现效果图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
1.性质:
1)原理:根据原始日志,将风电场、光伏电站能提取机组号的日志标记为“清洁能源”,将作为结果表的第一列;将集控站及风电场、光伏电站不能提取机组号的其他设备日志标记为“疑似”;将其余日志标记为“非清洁能源”。所需要的词库包含风电场名称、光伏电厂名称、集控站名称、设备名称。与各个词库之间匹配和划分之间的关系来确定能源分类,参见图1。
2.机组编号:
1)提取包含#的风机号,不以#开头的风机号也要考虑在内(如1-#3),同时需根据设备词库剔除包含#但并不是风机的编号(如#3 SVG)。
2)提取以F开头的光伏电站机组编号。
【注】:数据结果时,需要去掉“#”,并将“-,~”前后拆分。
例如:日志内容中是#1-3,输出为1,2,3。
3.状态:1)变电站:去掉与风电场同名的变电站后,剩下的变电站名称如果存在在日志中,标记为场外;
2)线路:考虑线路两端,若有一端为变电站名称而非两端全是电厂名称,标记为场外,此时同需考虑变电站名称与电厂名称相同的情况;
3)其余标记为场内。
4.开始时间、结束时间:
1)根据故障词库,用语句匹配模型匹配日志中,所有故障语句集,剔除语句中不含时间的语句集,剩余有时间语句集,取最后一条语句时间,作为开始时间,若此时间无年月日则取日志记录时间年月日。
2)根据并网词库,用语句匹配模型匹配日志中,所有并网语句集,剔除语句中不含时间的,剩余有时间语句集,取最后一条语句时间,作为结束时间。(无年月日,用日志记录时间补)
3)取将上诉两步处理完之后,开始与结束时间都为空的日志,用故障词库与并网词库中词,各遍历一遍日志,哪个词库中词频高,即将日志记录时间,放在相应位置。
5.事件描述:
根据“停机关键词”及“并网关键词”两个词库,将日志标记为“0”和“1”。电场、机组号均相同的0、1相互合并,不能合并的单个输出。
实现以上所有的具体问题主要依靠大量的词库,下面4种算法可以优化上面的面对的具体问题。
以下是一些实践算法及结果
(1)根据分词词库(风电场名称+部分集控站词库),提取风电场相关的日志,并获取每条日志风电场名称。(99.99%)
(2)根据正则匹配(先匹配#+数字+汉字--->根据设备词库剔除-->剔除汉字),提取风电场风机编号。(70%)
(3)根据分词词库(变电站、线路词库),拆分场外陪停部分,其他默认场内陪停。(97%)
(4)先根据故障开始与故障结束两类词库,初步拆分日志开始与结束时间。剩余未拆分日志(简单日志),提取日志中最后时间,并根据该日志故障开始(结束)词频量,完成时间位置放置。(85%)
参见图3,记事内容的内容列就是原始日志,关键词_风电场是提取的电场名称。关键词_风机编号是日志提取的风机编号。关键词_时间是将日志中出现的最后一个时间作为日志的开始时间或结束时间。伴生词是从日志中根据故障词库和并网词库进行匹配提取的关键词产生伴生词。事件性质根据情况填写。
参见图3,记事内容的内容列是原始日志,将日志内容进行提取分类,按照各类关键词的进行整体分类,按照风电场、风机编号、时间、伴生词分类。以及事件性质的描述,还有对此次时间的重要提示和预警。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (3)

1.一种将非结构化的日志报告转为结构化系统报表的方法,其特征在于,包括以下步骤:
(1)录入和加载风电场名称、光伏电站名称、集控站名称、设备名称和变电站名称;
步骤(1)中,将各个名称先录入到EXCEL中,然后将名称导入到数据库中;采用非关系型数据NoSQL对数据进行访问;采用的数据库是Redis数据库或者是MongoDB数据库;
(2)根据原始日志,将风电场、光伏电站能提取机组号的日志标记为清洁能源,将集控站及风电场、光伏电站不能提取机组号的其他设备日志标为疑似,将其余日志标记为非清洁能源;
(3)分别对电场名称和风电机组编号进行提取;
步骤(3)中,所述电场名称的提取:是将日志与电场名称的词库进行正则匹配,将匹配中的词库,进行提取;
所述风电机组编号的提取方式为:提取日志内容包含#作为风机编号,将以F开头作为光伏电站机组;数据结果时,需要去掉“#”,并将“-,~”前后拆分;
(4)划分日志状态;确定开始时间及结束时间;并描述事件,从而形成系统报表;
步骤(4)中,所述日志状态分为场内状态和场外状态,具体划分方法如下:
(1-1)去掉与风电场同名的变电站后,剩下的变电站名称如果存在在日志中,标记为场外;
(1-2)线路两端若有一端为变电站名称而非两端全是电厂名称,标记为场外;
(1-3)其余标记为场内;
步骤(4)中,所述开始时间及结束时间的确定方法如下:
(2-1)根据故障词库,用语句匹配模型匹配日志中,所有故障语句集,剔除语句中不含时间的语句集,剩余有时间语句集,取最后一条语句时间,作为开始时间,若此时间无年月日则取日志记录时间年月日;
(2-2)根据并网词库,用语句匹配模型匹配日志中,所有并网语句集,剔除语句中不含时间的,剩余有时间语句集,取最后一条语句时间,作为结束时间;
(2-3)取将步骤(2-1)及(2-2)处理完之后,开始与结束时间都为空的日志,用故障词库与并网词库中词,各遍历一遍日志,词库中最高的词频,即将日志记录时间,放在相应位置;
步骤(4)中,事件的描述方法如下:
根据停机关键词及并网关键词两个词库,将日志标记为0和1;电场、机组号均相同的0、1相互合并,不能合并的单个输出。
2.根据权利要求1所述的将非结构化的日志报告转为结构化系统报表的方法,其特征在于,步骤(1)中,将所有的风电场名称、光伏电站名称、集控站名称、设备名称和变电站名称录入,采用缓存的方式将数据缓存到内存中。
3.根据权利要求1所述的将非结构化的日志报告转为结构化系统报表的方法,其特征在于,步骤(2-2)中,无年月日时,用日志记录时间作为结束时间。
CN201910441620.1A 2019-05-24 2019-05-24 一种将非结构化的日志报告转为结构化系统报表的方法 Active CN110287279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910441620.1A CN110287279B (zh) 2019-05-24 2019-05-24 一种将非结构化的日志报告转为结构化系统报表的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910441620.1A CN110287279B (zh) 2019-05-24 2019-05-24 一种将非结构化的日志报告转为结构化系统报表的方法

Publications (2)

Publication Number Publication Date
CN110287279A CN110287279A (zh) 2019-09-27
CN110287279B true CN110287279B (zh) 2021-08-13

Family

ID=68002342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910441620.1A Active CN110287279B (zh) 2019-05-24 2019-05-24 一种将非结构化的日志报告转为结构化系统报表的方法

Country Status (1)

Country Link
CN (1) CN110287279B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090973A (zh) * 2019-11-26 2020-05-01 北京明略软件系统有限公司 一种报表生成方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944082A (zh) * 2010-09-10 2011-01-12 中国恩菲工程技术有限公司 一种类Excel报表处理方法
CN104679874A (zh) * 2015-03-10 2015-06-03 华北电力科学研究院有限责任公司 一种电网运行简报数据分析方法
CN105450459A (zh) * 2015-12-30 2016-03-30 中电长城网际系统应用有限公司 一种系统消息处理方法及收集器
CN109359950A (zh) * 2018-10-31 2019-02-19 国网河南省电力公司濮阳供电公司 一种电网监控信息全过程管控的方法
CN109783716A (zh) * 2019-01-21 2019-05-21 贵州黔源电力股份有限公司 一种电力供需数据自动提取和处理系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4774145B2 (ja) * 2000-11-24 2011-09-14 富士通株式会社 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944082A (zh) * 2010-09-10 2011-01-12 中国恩菲工程技术有限公司 一种类Excel报表处理方法
CN104679874A (zh) * 2015-03-10 2015-06-03 华北电力科学研究院有限责任公司 一种电网运行简报数据分析方法
CN105450459A (zh) * 2015-12-30 2016-03-30 中电长城网际系统应用有限公司 一种系统消息处理方法及收集器
CN109359950A (zh) * 2018-10-31 2019-02-19 国网河南省电力公司濮阳供电公司 一种电网监控信息全过程管控的方法
CN109783716A (zh) * 2019-01-21 2019-05-21 贵州黔源电力股份有限公司 一种电力供需数据自动提取和处理系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
风光储联合发电站生产管理系统的精益化设计与应用;宋鹏 等;《华北电力技术》;20160331(第03期);全文 *

Also Published As

Publication number Publication date
CN110287279A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN112905804B (zh) 一种电网调度知识图谱的动态更新方法及装置
CN103870923A (zh) 基于信息熵的凝聚型层次聚类算法的风电场机群聚合方法
CN110175324B (zh) 一种基于数据挖掘的电网运行操作指令校验方法及系统
CN111552804B (zh) 一种电网故障处置预案的知识图谱构建方法
CN110188345A (zh) 一种电力操作票的智能识别方法与装置
CN113435759B (zh) 一种基于深度学习的一次设备风险智能评估方法
CN109766416A (zh) 一种新能源政策信息抽取方法及系统
Roy Optimal planning of wind energy conversion systems over an energy scenario
CN110287279B (zh) 一种将非结构化的日志报告转为结构化系统报表的方法
CN114593018A (zh) 风电机组运行情况的评估方法与装置
Zhou et al. A Hybrid Method for Ultrashort‐Term Wind Power Prediction considering Meteorological Features and Seasonal Information
CN113065580A (zh) 一种基于多信息融合的电厂设备管理方法及系统
CN107748943A (zh) 一种基于云计算的电网电力负荷管理预测方法
Lv et al. Application of knowledge graph technology in unified management platform for wind power data
CN116050072A (zh) 一种基于随机采样一致性的风电机组理论功率曲线识别方法和装置
CN115048528A (zh) 新能源电场运行数据的知识图谱构建方法及装置
CN110852606B (zh) 一种基于调控云的生产早报数据对象化分析方法
Thomas et al. Evaluation of Failure and Repair of the Jebba and the Shiroro Hydroelectric Power Stations
Liu et al. Historical Similar Ticket Matching and Extraction used for Power Grid Maintenance Work Ticket Decision Making
CN111695332A (zh) 一种基于变电站监控信息表自动生成cime文件的方法
Qiu et al. Research on Intelligent Ticketing Method Based on Text Word Segmentation of Scheduling Operation
CN112069400A (zh) 一种基于地区电网信息的全网搜索方法
Peng et al. Research on Electric Power Data Governance System and Its Application
CN108875038A (zh) 关系数据库数据下装到层次结构实时数据库的方法及系统
Wang et al. An approach to smart grid online data mining based on cloud computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant