CN110866173A - 一种基于深度学习的遥信梳理方法 - Google Patents

一种基于深度学习的遥信梳理方法 Download PDF

Info

Publication number
CN110866173A
CN110866173A CN201911150779.4A CN201911150779A CN110866173A CN 110866173 A CN110866173 A CN 110866173A CN 201911150779 A CN201911150779 A CN 201911150779A CN 110866173 A CN110866173 A CN 110866173A
Authority
CN
China
Prior art keywords
information
idf
processing
carding
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911150779.4A
Other languages
English (en)
Other versions
CN110866173B (zh
Inventor
毛杰
包义钊
卢颖
覃禹铭
简蓓
任庭昊
关晨晨
郜晓娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN201911150779.4A priority Critical patent/CN110866173B/zh
Publication of CN110866173A publication Critical patent/CN110866173A/zh
Application granted granted Critical
Publication of CN110866173B publication Critical patent/CN110866173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的遥信梳理方法,该方法包括步骤:1)建立遥信梳理工作平台界面;2)利用规则进行名称规范性验证;3)使用历史处理信息进行梳理操作;4)使用规范信息进行遗漏信息查阅:查阅模块处理过程中对相关间隔告警进行规范性核查;5)生成可导入数据库文件:通过一键生成可导入数据库CSV文件。本发明对相关信息进行查缺补漏,提高梳理质量,减轻梳理人员的工作压力,让遥信梳理工作更准确、便捷,减少了厂站信息漏发、误发的情况发生,确保调度自动化系统信息可靠性。

Description

一种基于深度学习的遥信梳理方法
技术领域
本发明属于遥信梳理技术领域,涉及一种基于深度学习的遥信梳理方法。
背景技术
现有的地方供电局网区完成调控一体化接入工作,完成接入厂站遥信数据量的接入。在接入工作中,遥信梳理作为信号核查、定级及描述规范的关键步骤,在整体工作中耗费人力物力,常规110kV变电站3000个遥信量需要5个小时左右工作时间,同时工作存在一定遗漏。遥信梳理人员需要了解保护、自动化专业知识,并掌握遥信信息定级等规范。
发明内容
本发明要解决的技术问题是:提供一种基于深度学习的遥信梳理方法,以解决现有技术中存在的问题。
本发明采取的技术方案为:一种基于深度学习的遥信梳理方法,该方法包括显示模块、验证模块、梳理模块、查阅模块和存储模块,具体包括以下步骤:
1)建立遥信梳理工作平台界面:显示模块通过表格着色突出显示存在问题的描述并通过右键菜单、下拉选取方式进行梳理核对工作;
2)利用规则进行名称规范性验证:验证模块按通过规则进行遥信名称规范性识别,重组遥信名称,即通过电网间隔模型名称对原描述信息中间隔字符段、描述字符段进行处理;
3)使用历史处理信息进行梳理操作:梳理模块将步骤2)中信息规范匹配处理结果存储处理经验库中,通过深度学习方法的自然语言识别处理列出遥信最优选线;
4)使用规范信息进行遗漏信息查阅:查阅模块处理过程中对相关间隔告警进行规范性核查,即使用规范性告警描述文件进行告警信息筛查,检查出厂站间隔告警中出现的分级错误及遗漏的情况进行汇总分析;
5)生成可导入数据库文件:对生成厂站RTU模型数据库文件生成可导入数据库CSV文件。
自然语言识别技术最初适用于互联网搜索引擎搜索结果排序,利用其匹配程度进行搜索结果排序,使用户优先浏览匹配较高的搜索结果。在告警信息核查过程中,以规范化告警词条进行全站信息检索也是一种搜索动作,但因未能进行匹配程度的排序导致依旧需要在大量的告警描述中寻找最优结果。因此使用自然语言识别技术,不仅使检索信息匹配更容易,通过计算机判断可自动进行选取匹配工作。
规范化告警信息中,存在于某些告警信息某词义相似的情况,例如“重合闸动作”、“重合闸保护动作”,或相近的情况,例如“装置闭锁”、“装置故障”。该信息在处理过程中需要大量的调度运行、保护自动化等专业知识支持,对于此类信息的判断成为一个难点。针对这一问题,在软件设计中提出了机器学习的概念,程序在协助工作人员梳理过程中,记录经验丰富的梳理人员的梳理结果,当经验不足的梳理人员在处理相同或者相似问题时,系统通过调取经验匹配的方式自动给出建议,若有其他选项,在经过经验丰富的梳理人员的许可下,可以将其填写匹配结果,这一流程本质上是一个半监督的机器学习。
优选的,上述自然语言识别处理方法:首先比对信息为告警信息规范化描述与实际告警描述之间进行对比描述,采用TF-IDF方法计算进行词条的相似度计算:
TF-IDF方法中词频:对于在特定文件里的词语ti来说,它的重要性表示为:
Figure BDA0002283471760000031
式中:ni,j是该词在文件dj中的出现次数,而分母∑knk,j则是在文件dj中所有字词的出现次数之和;
TF-IDF方法中逆向文件频率:对于特定词语的IDF,由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到:
Figure BDA0002283471760000032
式中:|D|:语料库中的文件总数,{j:ti∈dj}包含词语的文件数目,如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用作为分母;
TF-IDF计算就是在词频TF的基础上再加入逆文本IDF的信息:
tfidfi,j=tfi,j×idfi
通过TF-IDF公式计算方法,将两个待比较的词条进行逐字分解成数组,计算出TF-IDF矩阵,然后计算二者的交集大小和并集大小,作商得出告警规范化描述与实际描述的匹配度。
优选的,上述自然语言识别处理在半监督处理过程中,记录人工告警信息匹配的选取过程,将该处理经验存入经验学习库中,在下次描述词条处理过程中调取相关经验处理信息,并使用经验与词条进行TF-IDF匹配计算。
优选的,上述匹配度阈值为0.7-1。
本发明的有益效果:与现有技术相比,本发明深度学习中自然语言处理识别方法解决在调控一体化接入遥信梳理工作中需要对上送远传信息进行遥信名称梳理、规范、定级等工作提供解决方案,对相关信息进行查缺补漏,提高梳理质量,减轻梳理人员的工作压力,让遥信梳理工作更准确、便捷,减少了厂站信息漏发、误发的情况发生,确保调度自动化系统信息可靠性。
附图说明
图1是整体流程示意图;
图2是数据处理流程图;
图3是机器学习处理流程图;
图4是阈值选取分布曲线。
具体实施方式
下面结合附图及具体的实施例对本发明进行进一步介绍。
实施例:如图1-4所示,一种基于深度学习的遥信梳理方法,该方法包括以下步骤:
1.根据导出的电网间隔模型文件,自动生成规范要求的全站标准信息表;
2.导入规范点表和主站导出的变电站点表,逐间隔查找核实主站点表情况;
3.全站核查结果汇总并生成报告。
一种基于深度学习的遥信梳理方法,该方法具备包括显示模块、验证模块、梳理模块、查阅模块和存储模块,具体包括以下步骤:
1)建立遥信梳理工作平台界面:显示模块通过表格着色突出显示存在问题的描述并通过右键菜单、下拉选取方式进行梳理核对工作;
2)利用规则进行名称规范性验证:验证模块按通过规则进行遥信名称规范性识别,重组遥信名称,即通过电网间隔模型名称对原描述信息中间隔字符段、描述字符段进行处理;
3)使用历史处理信息进行梳理操作:梳理模块将步骤2)中信息规范匹配处理结果存储处理经验库中,通过深度学习方法的自然语言识别处理列出遥信最优选线;
4)使用规范信息进行遗漏信息查阅:查阅模块处理过程中对相关间隔告警进行规范性核查,即使用规范性告警描述文件进行告警信息筛查,检查出厂站间隔告警中出现的分级错误及遗漏的情况进行汇总分析;
5)生成可导入数据库文件:对生成厂站RTU模型数据库文件生成可导入数据库CSV文件。
优选的,上述自然语言识别处理方法:首先比对信息为告警信息规范化描述与实际告警描述之间进行对比描述,采用TF-IDF方法计算进行词条的相似度计算:
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。
TF-IDF方法中词频:对于在特定文件里的词语ti来说,它的重要性表示为:
Figure BDA0002283471760000051
式中:ni,j是该词在文件dj中的出现次数,而分母∑knk,j则是在文件dj中所有字词的出现次数之和;
TF-IDF方法中逆向文件频率:对于特定词语的IDF,由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到:
Figure BDA0002283471760000061
式中:|D|:语料库中的文件总数,{j:ti∈dj}包含词语的文件数目,如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用作为分母;
TF-IDF计算就是在词频TF的基础上再加入逆文本IDF的信息:
tfidfi,j=tfi,j×idfi
通过TF-IDF公式计算方法,将两个待比较的词条进行逐字分解成数组,计算出TF-IDF矩阵,然后计算二者的交集大小和并集大小,作商得出告警规范化描述与实际描述的匹配度。
例如,计算“#2主变高压侧过负荷告警”规范化告警描述过程中,与实际厂站告警描述进行匹配结果如下:
表1匹配值示意表
告警描述 匹配值
#2主变高压侧过负荷告警(软) 0.91
#2主变中压侧过负荷告警(软) 0.88
#2主变低压侧过负荷告警(软) 0.88
#2主变高压侧过负荷闭锁有载调压 0.49
#2主变中压侧过负荷闭锁有载调压 0.49
#2主变低压侧过负荷闭锁有载调压 0.49
为避免在处理过程中出现重复匹配过程,提高匹配精度,自然语言识别处理在半监督处理过程中,记录人工告警信息匹配的选取过程,将该处理经验存入经验学习库中,在下次描述词条处理过程中调取相关经验处理信息,并使用经验与词条进行TF-IDF匹配计算,由于在实际运算过程中可能会存在无经验的情况,此时采用关键字匹配计算进行人工匹配工作,确保人工确认数量达到可控制范围,如图3所示。
优选的,上述匹配度阈值为0.7-1,设定1000个规范化描述与实际描述匹配的训练集,阈值区间取值为0.7-1之间,以0.1为步长,最低选取匹配阈值如图4所示,统计结果中阈值等于1的情况不存在参考价值,故剔除后按照95%的准确率进行重统计计算。满足准确率95%时,阈值选取范围为0.82。在配合经验处理后可适当提高0.02-0.05左右提高识别精度。
数据处理过程中多线程运用技术:单规范化词条与1000个厂站实际描述匹配值计算时间为5.3秒(常规工作站配置),为解决处理时长过长的问题,软件采用将所有待匹配的实际描述组按处理进程数进行随机均分,实现进程之间的负载均衡。实际采用8进程进行同时处理时,单规范词条处理时长降至1.4秒。
本发明将人工智能领域中自然语言识别技术、机器学习技术应用于变电站信息核查工作,结合该工作的特点,创新性地建立了遥信信号命名经验库并将其应用于核查算法,创造性地解决了梳理工作依赖于人员经验的问题。在业务流程上,本发明构建了分布式的处理平台,应用经验数据库共享、多线程的技术,简化了梳理的繁琐流程,将人从繁复的操作中解放出来,使其专注于信号的梳理,而不是数据的整理工作,显著提高了梳理工作的效率和准确性。同时利用该技术经验,为今后告警信息智能化识别、处理、优化提供重要依据。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (4)

1.一种基于深度学习的遥信梳理方法,其特征在于:该方法包括显示模块、验证模块、梳理模块、查阅模块和存储模块,具体包括以下步骤:
1)建立遥信梳理工作平台界面:显示模块通过表格着色突出显示存在问题的描述并通过右键菜单、下拉选取方式进行梳理核对工作;
2)利用规则进行名称规范性验证:验证模块按通过规则进行遥信名称规范性识别,重组遥信名称,即通过电网间隔模型名称对原描述信息中间隔字符段、描述字符段进行处理;
3)使用历史处理信息进行梳理操作:梳理模块将步骤2)中信息规范匹配处理结果存储处理经验库中,通过深度学习方法的自然语言识别处理列出遥信最优选线;
4)使用规范信息进行遗漏信息查阅:查阅模块处理过程中对相关间隔告警进行规范性核查,即使用规范性告警描述文件进行告警信息筛查,检查出厂站间隔告警中出现的分级错误及遗漏的情况进行汇总分析;
5)生成可导入数据库文件:对生成厂站RTU模型数据库文件生成可导入数据库CSV文件。
2.根据权利要求1所述的一种基于深度学习的遥信梳理方法,其特征在于:自然语言识别处理方法:首先比对信息为告警信息规范化描述与实际告警描述之间进行对比描述,采用TF-IDF方法计算进行词条的相似度计算:
TF-IDF方法中词频:对于在特定文件里的词语ti来说,它的重要性表示为:
Figure FDA0002283471750000011
式中:ni,j是该词在文件dj中的出现次数,而分母∑knk,j则是在文件dj中所有字词的出现次数之和;
TF-IDF方法中逆向文件频率:对于特定词语的IDF,由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到:
Figure FDA0002283471750000021
式中:|D|:语料库中的文件总数,{j:ti∈dj}包含词语的文件数目,如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用作为分母;
TF-IDF计算就是在词频TF的基础上再加入逆文本IDF的信息:
tfidfi,j=tfi,j×idfi
通过TF-IDF公式计算方法,将两个待比较的词条进行逐字分解成数组,计算出TF-IDF矩阵,然后计算二者的交集大小和并集大小,作商得出告警规范化描述与实际描述的匹配度。
3.根据权利要求1所述的一种基于深度学习的遥信梳理方法,其特征在于:自然语言识别处理在半监督处理过程中,记录人工告警信息匹配的选取过程,将该处理经验存入经验学习库中,在下次描述词条处理过程中调取相关经验处理信息,并使用经验与词条进行TF-IDF匹配计算。
4.根据权利要求2所述的一种基于深度学习的遥信梳理方法,其特征在于:匹配度阈值为0.7-1。
CN201911150779.4A 2019-11-21 2019-11-21 一种基于深度学习的遥信梳理方法 Active CN110866173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911150779.4A CN110866173B (zh) 2019-11-21 2019-11-21 一种基于深度学习的遥信梳理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911150779.4A CN110866173B (zh) 2019-11-21 2019-11-21 一种基于深度学习的遥信梳理方法

Publications (2)

Publication Number Publication Date
CN110866173A true CN110866173A (zh) 2020-03-06
CN110866173B CN110866173B (zh) 2022-12-09

Family

ID=69655036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911150779.4A Active CN110866173B (zh) 2019-11-21 2019-11-21 一种基于深度学习的遥信梳理方法

Country Status (1)

Country Link
CN (1) CN110866173B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665192A (zh) * 2017-11-29 2018-02-06 国网上海市电力公司 一种调度运行告警信息自动分类装置及方法
CN107968483A (zh) * 2017-12-06 2018-04-27 贵州电网有限责任公司 一种调度自动化主站系统可视化智能监视方法
CN109359950A (zh) * 2018-10-31 2019-02-19 国网河南省电力公司濮阳供电公司 一种电网监控信息全过程管控的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665192A (zh) * 2017-11-29 2018-02-06 国网上海市电力公司 一种调度运行告警信息自动分类装置及方法
CN107968483A (zh) * 2017-12-06 2018-04-27 贵州电网有限责任公司 一种调度自动化主站系统可视化智能监视方法
CN109359950A (zh) * 2018-10-31 2019-02-19 国网河南省电力公司濮阳供电公司 一种电网监控信息全过程管控的方法

Also Published As

Publication number Publication date
CN110866173B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN107992633B (zh) 基于关键词特征的电子文档自动分类方法及系统
CN113553420B (zh) 基于知识图谱的电网故障处理规程推荐方法和系统
US11861320B1 (en) Text reduction and analysis interface to a text generation modeling system
Weng et al. Using text classification and multiple concepts to answer e-mails
CN109344144A (zh) 一种低压台区户变关系识别方法和系统
US20140244524A1 (en) System and method for identifying potential legal liability and providing early warning in an enterprise
CN105677864A (zh) 电网调度结构化数据的检索方法及装置
CN103744919B (zh) 电网知识库的自学习方法和系统
US20210349893A1 (en) Method and system for analytic based connections among user types in an online platform
CN111179115A (zh) 故障处理辅助决策方法、装置、存储介质及电子设备
CN113486158B (zh) 基于案情比对的类案检索方法、装置、设备及存储介质
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN113435759B (zh) 一种基于深度学习的一次设备风险智能评估方法
CN108470022A (zh) 一种基于运维管理的智能工单质检方法
CN107291939A (zh) 酒店信息的聚类匹配方法及系统
CN117290404A (zh) 一种主配网故障处理方法快速检索实用方法及系统
CN112256865B (zh) 一种基于分类器的中文文本分类方法
WO2024182041A1 (en) Large language model artificial intelligence text evaluation system
WO2019140553A1 (zh) 配电系统的健康指数确定方法及装置、计算机存储介质
CN110866173B (zh) 一种基于深度学习的遥信梳理方法
CN112329432A (zh) 一种基于改进Apriori的配电网电压越限问题关联分析方法
CN112148897A (zh) 一种电力系统故障信息自动检索归类方法及系统
Wan et al. Evaluation model of power operation and maintenance based on text emotion analysis
Wei et al. Short text data model of secondary equipment faults in power grids based on LDA topic model and convolutional neural network
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant