CN109376353B - 一种基于自然语言处理的电网启动操作票生成装置及方法 - Google Patents
一种基于自然语言处理的电网启动操作票生成装置及方法 Download PDFInfo
- Publication number
- CN109376353B CN109376353B CN201811028203.6A CN201811028203A CN109376353B CN 109376353 B CN109376353 B CN 109376353B CN 201811028203 A CN201811028203 A CN 201811028203A CN 109376353 B CN109376353 B CN 109376353B
- Authority
- CN
- China
- Prior art keywords
- instruction
- power grid
- equipment
- sentence
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003058 natural language processing Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000013179 statistical model Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 18
- 230000008859 change Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Water Supply & Treatment (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于自然语言处理的电网启动操作票生成装置及方法,所述装置包括:中文分词与词性标注模块,用于结合电网词典,通过分词和词性标注,提取输入启动方案中指令语句的语句结构;命名实体识别和关系抽取模块,用于通过命名实体识别提取出指令语句的操作设备和设备状态,并结合词性标注的结果进一步解析指令语句,对操作设备实体与设备状态建立属性关系,并建立不同指令语句的实体关系;启动方案生成模块,用于结合电网领域相关先验知识与规则,获得启动操作票指令语句的关键信息,生成标准的启动操作票,本发明可减少企业的用人成本,并减少人为失误对启动操作票编写的影响,从而保障电网的安全稳定运行。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于自然语言处理的电网启动操作票生成装置及方法。
背景技术
操作票是在进行电力设备操作前必须完成的纸质记录。它要求按照任务要求,结合现场设备及设备运行情况,由操作人员逐步填写操作步骤,然后按照操作票实施,是确保电力安全生产的重要技术措施。
操作票制度是目前保证电网安全运行的一项重要措施之一。在目前智能电网建设的大背景下,目前操作票系统已经开始逐步向自动化、智能化进行。
对于一些基本的常见操作任务,目前操作票系统已经可以有效帮助调度员开出符合要求的操作票。但对复杂的操作任务,比如启动任务,目前仍然需要由经验丰富的电网调度员人员根据启动方案编写启动操作票。
作为一种半结构化的文件,电网启动方案比较复杂。主要面对一下几个难点:
1.启动方案中的指令语句相对口语化且不标准。
2.缺少电网设备的标准名称和初始状态。
3.启动方案中的部分指令格式可能是不规范甚至错误的(人为失误)。
面对这些问题,即使是经验丰富的电网调度员,开具启动操作票仍然是一件相当繁琐的工作,并且由于启动操作票的指令语句复杂,在编写操作票的过程中极有可能出现人为失误,从而进一步影响电网的安全运行。
针对由启动方案自动生成启动操作票这一问题,由于问题的复杂性,且受限于技术的发展,目前主要的技术手段还是依靠专业的电网调度员手工进行启动操作票的编写,一来工作效率较低,浪费人力成本,二来难以避免人为失误,影响电网的安全运行,因此,实有必要提出一种技术手段,以解决上述问题。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于自然语言处理的电网启动操作票生成装置及方法,以解放生产力,减少企业的用人成本,同时减少人为失误对启动操作票编写的影响,从而保障电网的安全稳定运行。
为达上述及其它目的,本发明提出一种基于自然语言处理的电网启动操作票生成装置,包括:
中文分词与词性标注模块,用于结合电网词典,通过分词和词性标注,提取输入启动方案中指令语句的语句结构;
命名实体识别和关系抽取模块,用于通过命名实体识别提取出指令语句的操作设备和设备状态,并结合词性标注的结果进一步解析指令语句,对操作设备实体与设备状态建立属性关系,并建立不同指令语句的实体关系;
启动方案生成模块,用于结合电网领域相关先验知识与规则,获得启动操作票指令语句的关键信息,生成标准的启动操作票。
优选地,所述装置还包括数据预处理模块,所述数据预处理模块用于在分词和词性标注前对输入启动方案进行数据清洗与预处理。
优选地,所述中文分词与词性标注模块引入电网先验知识和相关数据库作为电网词典,加大电网设备和状态的词频,增大分词的颗粒度。
优选地,所述中文分词与词性标注模块采用基于统计的方法的分词算法对启动方案进行分词,使用Trie树结构进行高效的词图扫描,生成待分词的句子中汉字所有可能成词情况所构成的有向无环图。
优选地,所述中文分词与词性标注模块采用的分词算法还采用动态规划算法查找最大概率路径,找出基于词频的最大切分组合。
优选地,所述中文分词与词性标注模块采用的词性标注算法为基于统计模型的标注方法,对于未登录词采用隐马尔科夫模型进行词性标注。
优选地,所述命名实体识别和关系抽取模块采用基于混合方法实现命名实体识别,其通过结合电网领域词典和统计模型识别电网对象。
优选地,所述命名实体识别和关系抽取模块的关系抽取为确定实体与实体间的语义联系,其通过命名实体识别得到单句指令语句中设备实体和设备状态,即可确定单句指令语句的实体关系和指令结构,对设备实体与设备状态建立属性关系。
优选地,所述命名实体识别和关系抽取模块还通过与专业数据库进行交互,将设备实体名称更换为标准设备名称,对整个启动方案统一建立设备实体库,整合不同指令语句中相同设备实体,建立不同指令语句的实体关系。
为达到上述目的,本发明还提供一种基于自然语言处理的电网启动操作票生成方法,包括如下步骤:
步骤S1,结合电网词典,通过分词和词性标注,提取输入启动方案中指令语句的语句结构;
步骤S2,通过命名实体识别提取出指令语句的操作设备和设备状态,结合词性标注的结果进一步解析指令语句,对设备实体与设备状态建立属性关系,并建立不同指令语句的实体关系;
步骤S3,结合电网领域相关先验知识与规则,获得启动操作票指令语句的关键信息,生成标准的启动操作票。
与现有技术相比,本发明一种基于自然语言处理的电网操作票生成装置及方法通过词法分析和命名实体识别,结合电网领域的先验知识,获取启动方案中语句的指令地点、设备实体、设备状态、实体关系、语句结构、指令类别等关键信息,并最终生成标准操作票,通过本发明,可大大的解放生产力,减少企业的用人成本,同时还可以减少人为失误对启动操作票编写的影响,从而保障电网的安全稳定运行。
附图说明
图1为本发明一种基于自然语言处理的电网启动操作票生成装置的系统架构图;
图2为本发明一种基于自然语言处理的电网启动操作票生成方法的步骤流程图;
图3为本发明具体实施例之基于自然语言处理的电网启动操作票生成装置的启动操作票生成过程示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于自然语言处理的电网启动操作票生成装置的系统架构图。如图1所示,本发明一种基于自然语言处理的电网启动操作票生成装置,包括:
中文分词与词性标注模块101,用于结合电网词典,通过分词和词性标注,提取输入启动方案中指令语句的语句结构。
在本发明具体实施例中,中文分词与词性标注模块101引入电网先验知识和相关数据库作为电网词典,加大电网设备和状态的词频,从而增大分词的颗粒度,提升在启动方案中指令分词与词性标注的准确性。
具体地说,分词和词性标注是启动方案信息抽取的关键步骤。中文分词指的是将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。以指令语句“拉开220kV#1母联开关控制电源”为例,分词的目的即将该序列切分为一个个单独的词,即例如“拉开”、“220kV”、“#1”、“母联开关”、“控制电源”。
目前分词算法可包括如下三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法:
具体地,基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词);基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象;基于统计的分词方法通过给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分,例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法。
在本发明具体实施例中,采用基于统计的方法的分词算法,即使用Trie树结构进行高效的词图扫描,从而生成待分词的句子中汉字所有可能成词情况所构成的有向无环图,此外,本发明所采用的分词算法采用了动态规划算法查找最大概率路径,找出基于词频的最大切分组合。
词性是词语的基本属性之一,是用来描述一个词在上下文中的作用。词性标注就是在分词的基础上对句子中的每个词的词性进行标注的过程,词性标注可以看作是典型的序列标注问题。本发明采用的词性标注算法为基于统计模型的标注方法。对于未登录词,本发明采用隐马尔科夫模型进行词性标注,以上述例子为例,则对其进行词性标注为V(动词),n(名词),n(名词),n(名词),n(名词),同时,本发明使用电网调度用的相关数据库扩充分词和词性标注词典,从而进一步提高对启动方案分词和词性标注的准确性。
命名实体识别和关系抽取模块102,用于通过命名实体识别提取出指令语句的操作设备和设备状态,结合词性标注的结果进一步解析指令语句,对设备实体与设备状态建立属性关系,并建立不同指令语句的实体关系。
命名实体识别是识别语句中的特定实体,也就是将语句中的关键对象实体提取出来。比如在操作票指令语句中,关键对象实体即指令地点、电网设备和设备状态。命名实体往往是语句中的关键对象,因而命名实体识别技术在信息抽取中占据着重要的地位。命名实体识别可以看作是序列标注问题,命名实体识别需要识别出命名实体的边界和类别。命名实体根据不同应用场合有不同需求。
专业领域的命名实体往往比较复杂,需要一定的专业知识才能区分出特定命名实体,因而在专业领域的命名实体识别准确率仍有待提高。考虑到电网设备名称虽然复杂,但可以分类为一次设备、二次设备,同时通过前期对指令语句的分割预处理,使得单个指令语句只包含一个设备实体,所以本发明可以通过基于混合方法来提高命名实体的准确率,其思想为通过结合电网领域词典和统计模型识别电网对象。优选地,考虑到部分电网设备名称存在嵌套关系,为了避免这种情况,本发明还引入后续电网规则判断,二次纠正识别有误的设备实体。本发明中典型的指令语句主要包括三种类型的命名实体:指令地点、电网设备、设备状态,其中指令地点通过前期对指令语句的分割预处理即可得到,电网设备和设备状态则通过基于混合方法的命名实体识别得到。
关系抽取即确定实体与实体间的语义联系,针对启动操作票中的指令语句,主要是确定电网设备与设备状态之间的联系以及上下文指令中相互影响的电气设备的联系。举个简单的例子,假设对单一设备需要维护他的状态转换过程,一条指令可能形如某某变某某开关改为运行,此时需要根据该开关的前序状态进行进一步调整,假设该开关的前序状态是冷备用,那么这条指令就应该修改为两条指令,首先是某某变某某开关从冷备用转为热备用,然后是某某变某某开关从热备用转为运行。启动方案中的指令语句为半结构化文本,通过对指令语句进行分割预处理,统一指令语句的格式。通过词法分析和命名实体识别相结合,对单句指令语句首先进行分词和词性标注,确定整体语句结构,再通过命名实体识别,得到单句指令语句中设备实体和设备状态,即可确定单句指令语句的实体关系和指令结构,对设备实体与设备状态建立属性关系。由于部分设备实体名称并不标准,还通过与专业数据库进行交互,将设备实体名称更换为标准设备名称,最后通过对整个启动方案统一建立设备实体库,整合不同指令语句中相同设备实体,建立不同指令语句的实体关系。
由于指令语句设备状态只包含操作后状态,缺少设备操作前状态。为进一步转换指令语句,需要建立设备实体的状态转换功能。电气设备状态转换功能主要可以分为初始状态设置和后续设备状态转换。通过读取启动方案中状态汇报信息可以获得部分电气设备初始状态信息,其它电气设备状态由系统初始化和调度员二次校正获得。后续设备状态转换功能只需根据提取出的指令语句实体关系做进一步调整即可。转换前指令语句主体可以大致分为如下两类:
a.地点:设备实体+操作术语+设备状态
b.地点:操作术语+设备实体
经过设备实体名称转换和引入状态转换功能,转换后的指令语句主体如下所示:
a.地点:标准设备实体+操作术语+初始设备状态+操作术语+目标设备状态
b.地点:操作术语+标准设备实体
启动方案生成模块103,用于结合电网领域相关先验知识与规则,获得启动操作票指令语句的关键信息,生成标准的启动操作票,所述关键信息包括但不限于指令地点、设备实体、设备状态、实体关系、语句结构、指令类别等。也就是说,结合信息抽取的结果和指令语句转换的规则,对指令语句做进一步信息补全和修改,生成标准的指令语句,通过适当调整指令语句的顺序,最终生成标准的启动操作票。
启动操作票的指令语句一般比较复杂,一张启动操作票包含几十条甚至更多的指令语句,通过对指令语句进行词法分析、关系抽取和指令转换,可以得到转换后的典型单条指令语句,但其结果仍需根据电网典型操作任务要求做进一步修改和调整,比如有些操作不是电网的典型操作,如下面这样的指令1.某某线第一套后备距离二段时间改为0秒2.用上5061开关临时过流保护,形如上述的指令,尽管转换完成,但是并非电网典型操作,因此不能需要以许可令的形式发布,因此还需要对这些指令进行进一步的修改,将其以许可令形式发布。启动操作票对格式要求严格,按照内容可以大致分为:工作汇报、状态核对、核对并执行继保临时整定单、试验步骤四个部分。前三个部分内容可以通过对操作票启动方案不同章节进行分割预处理得到。在试验步骤内容中,包含了典型操作指令,操作许可和其它类型操作指令,其中较为特殊的指令为操作许可,即采用许可方式对网调所管辖电气设备接线方式变更后的最终状态发布的倒闸操作命令,许可令主要可以分为综合操作许可和口头操作许可。许可令的格式与一般操作指令不同,需要特殊处理并统一为操作许可令格式。对于典型的操作指令,经过前期的指令转换后,一般只需对指令格式进行微调即可。其它类型操作指令主要包含倒母线、合环、充电等操作任务,这类操作指令在启动方案中的格式已经比较标准,因而不需要特殊处理。通过引入这些电网的先验知识,结合上述两个关键技术,至此,即可完成从启动方案到标准启动操作票的生成。
优选地,本发明之基于自然语言处理的电网启动操作票生成装置还包括:
数据预处理模块,用于在分词和词性标注前对输入启动方案进行数据清洗与预处理。在本发明具体实施例中,数据预处理模块的预处理包括但不限于:1.全角半角符号转换(方案中中英文标点混用);2.多余的空格、制表符、换行符等的清洗;3.缺失的许可令结束标志的识别添加;4.备注的识别拆分等等。在本发明中,系统输入的是非结构化的、非标准化的、口语化的电网启动方案,输出是结构化的、标准的、可直接应用于生产环境的启动操作票,因此需先通过数据预处理模块对输入的启动方案进行数据清洗与预处理。
图2为本发明一种基于自然语言处理的电网启动操作票生成方法的步骤流程图。如图2所示,本发明一种基于自然语言处理的电网启动操作票生成方法,包括如下步骤:
步骤S1,结合电网词典,通过分词和词性标注,提取输入启动方案中指令语句的语句结构。
在本发明具体实施例中,引入电网先验知识和相关数据库作为电网词典,加大电网设备和状态的词频,从而增大分词的颗粒度,提升在启动方案中指令分词与词性标注的准确性。
具体地说,分词和词性标注是启动方案信息抽取的关键步骤。中文分词指的是将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。以指令语句“拉开220kV#1母联开关控制电源”为例,分词的目的即将该序列切分为一个个单独的词,即例如“拉开”、“220kV”、“#1”、“母联开关”、“控制电源”。
在本发明具体实施例中,采用基于统计的方法的分词算法,即使用Trie树结构进行高效的词图扫描,从而生成待分词的句子中汉字所有可能成词情况所构成的有向无环图,此外,本发明所采用的分词算法采用了动态规划算法查找最大概率路径,找出基于词频的最大切分组合。
词性是词语的基本属性之一,是用来描述一个词在上下文中的作用。词性标注就是在分词的基础上对句子中的每个词的词性进行标注的过程,词性标注可以看作是典型的序列标注问题。本发明采用的词性标注算法为基于统计模型的标注方法。对于未登录词,本发明采用隐马尔科夫模型进行词性标注,以上述例子为例,则对其进行词性标注为V(动词),n(名词),n(名词),n(名词),n(名词),同时,本发明使用电网调度用的相关数据库扩充分词和词性标注词典,从而进一步提高对启动方案分词和词性标注的准确性。
步骤S2,通过命名实体识别提取出指令语句的操作设备和设备状态,结合词性标注的结果进一步解析指令语句,对设备实体与设备状态建立属性关系,并建立不同指令语句的实体关系。
命名实体识别是识别语句中的特定实体,也就是将语句中的关键对象实体提取出来。比如在操作票指令语句中,关键对象实体即指令地点、电网设备和设备状态。命名实体往往是语句中的关键对象,因而命名实体识别技术在信息抽取中占据着重要的地位。命名实体识别可以看作是序列标注问题,命名实体识别需要识别出命名实体的边界和类别。命名实体根据不同应用场合有不同需求。
专业领域的命名实体往往比较复杂,需要一定的专业知识才能区分出特定命名实体,因而在专业领域的命名实体识别准确率仍有待提高。考虑到电网设备名称虽然复杂,但可以分类为一次设备、二次设备,同时通过前期对指令语句的分割预处理,使得单个指令语句只包含一个设备实体,所以本发明可以通过基于混合方法来提高命名实体的准确率,其思想为通过结合电网领域词典和统计模型识别电网对象。优选地,考虑到部分电网设备名称存在嵌套关系,为了避免这种情况,本发明还引入后续电网规则判断,二次纠正识别有误的设备实体。本发明中典型的指令语句主要包括三种类型的命名实体:指令地点、电网设备、设备状态,其中指令地点通过前期对指令语句的分割预处理即可得到,电网设备和设备状态则通过基于混合方法的命名实体识别得到。
关系抽取即确定实体与实体间的语义联系,针对启动操作票中的指令语句,主要是确定电网设备与设备状态之间的联系以及上下文指令中相互影响的电气设备的联系。举个简单的例子,假设对单一设备需要维护他的状态转换过程,一条指令可能形如某某变某某开关改为运行,此时需要根据该开关的前序状态进行进一步调整,假设该开关的前序状态是冷备用,那么这条指令就应该修改为两条指令,首先是某某变某某开关从冷备用转为热备用,然后是某某变某某开关从热备用转为运行。启动方案中的指令语句为半结构化文本,通过对指令语句进行分割预处理,统一指令语句的格式。通过词法分析和命名实体识别相结合,对单句指令语句首先进行分词和词性标注,确定整体语句结构,再通过命名实体识别,得到单句指令语句中设备实体和设备状态,即可确定单句指令语句的实体关系和指令结构,对设备实体与设备状态建立属性关系。由于部分设备实体名称并不标准,还通过与专业数据库进行交互,将设备实体名称更换为标准设备名称,最后通过对整个启动方案统一建立设备实体库,整合不同指令语句中相同设备实体,建立不同指令语句的实体关系。
由于指令语句设备状态只包含操作后状态,缺少设备操作前状态。为进一步转换指令语句,需要建立设备实体的状态转换功能。电气设备状态转换功能主要可以分为初始状态设置和后续设备状态转换。通过读取启动方案中状态汇报信息可以获得部分电气设备初始状态信息,其它电气设备状态由系统初始化和调度员二次校正获得。后续设备状态转换功能只需根据提取出的指令语句实体关系做进一步调整即可。
步骤S3,结合电网领域相关先验知识与规则,获得启动操作票指令语句的关键信息,生成标准的启动操作票,所述关键信息包括但不限于指令地点、设备实体、设备状态、实体关系、语句结构、指令类别等。也就是说,结合信息抽取的结果和指令语句转换的规则,对指令语句做进一步信息补全和修改,生成标准的指令语句,通过适当调整指令语句的顺序,最终生成标准的启动操作票。
启动操作票的指令语句一般比较复杂,一张启动操作票包含几十条甚至更多的指令语句,通过对指令语句进行词法分析、关系抽取和指令转换,可以得到转换后的典型单条指令语句,但其结果仍需根据电网典型操作任务要求做进一步修改和调整。比如有些操作不是电网的典型操作,如下面这样的指令1.某某线第一套后备距离二段时间改为0秒2.用上5061开关临时过流保护,形如上述的指令,尽管转换完成,但是并非电网典型操作,因此不能需要以许可令的形式发布,因此还需要对这些指令进行进一步的修改,将其以许可令形式发布。启动操作票对格式要求严格,按照内容可以大致分为:工作汇报、状态核对、核对并执行继保临时整定单、试验步骤四个部分。前三个部分内容可以通过对操作票启动方案不同章节进行分割预处理得到。在试验步骤内容中,包含了典型操作指令,操作许可和其它类型操作指令,其中较为特殊的指令为操作许可,即采用许可方式对网调所管辖电气设备接线方式变更后的最终状态发布的倒闸操作命令,许可令主要可以分为综合操作许可和口头操作许可。许可令的格式与一般操作指令不同,需要特殊处理并统一为操作许可令格式。对于典型的操作指令,经过前期的指令转换后,一般只需对指令格式进行微调即可。其它类型操作指令主要包含倒母线、合环、充电等操作任务,这类操作指令在启动方案中的格式已经比较标准,因而不需要特殊处理。通过引入这些电网的先验知识,结合上述两个关键技术,至此,即可完成从启动方案到标准启动操作票的生成。
优选地,于步骤S1之前,本发明之基于自然语言处理的电网启动操作票生成方法还包括:
步骤S0,对输入启动方案进行数据清洗与预处理。在本发明具体实施例中,预处理包括但不限于:1.全角半角符号转换(方案中中英文标点混用);2.多余的空格、制表符、换行符等的清洗;3.缺失的许可令结束标志的识别添加;4.备注的识别拆分等等。在本发明中,系统输入的是非结构化的、非标准化的、口语化的电网启动方案,输出是结构化的、标准的、可直接应用于生产环境的启动操作票,因此需先通过数据预处理模块对输入的启动方案进行数据清洗与预处理。
图3为本发明具体实施例之基于自然语言处理的电网启动操作票生成装置的启动操作票生成过程示意图。在本发明具体实施例中,系统的输入是非结构化的、非标准化的、口语化的电网启动方案,输出是结构化的、标准的、可直接应用于生产环境的启动操作票,首先利用数据预处理模块对输入启动方案进行数据清洗与预处理,然后结合电网词典,通过分词和词性标注,提取操作方案中的指令语句的语句结构,然后再通过命名实体识别与关系抽取提取出指令语句的操作设备和设备状态,并解析指令语句,最后通过启动方案生成模块,结合电网领域相关先验知识与规则,获得启动操作票指令语句的指令地点、设备实体、设备状态、实体关系、语句结构、指令类别等关键信息,生成标准的启动操作票
综上所述,本发明一种基于自然语言处理的电网操作票生成装置及方法通过词法分析和命名实体识别,结合电网领域的先验知识,获取启动方案中语句的指令地点、设备实体、设备状态、实体关系、语句结构、指令类别等关键信息,并最终生成标准操作票,通过本发明,可大大的解放生产力,减少企业的用人成本,同时还可以减少人为失误对启动操作票编写的影响,从而保障电网的安全稳定运行。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种基于自然语言处理的电网启动操作票生成装置,包括:
中文分词与词性标注模块,用于结合电网词典,通过分词和词性标注,提取输入启动方案中指令语句的语句结构;
命名实体识别和关系抽取模块,用于通过命名实体识别提取出指令语句的操作设备和设备状态,并结合词性标注的结果进一步解析指令语句,对操作设备实体与设备状态建立属性关系,并建立不同指令语句的实体关系;
启动方案生成模块,用于结合电网领域相关先验知识与规则,获得启动操作票指令语句的关键信息,生成标准的启动操作票。
2.如权利要求1所述的一种基于自然语言处理的电网启动操作票生成装置,其特征在于:所述装置还包括数据预处理模块,所述数据预处理模块用于在分词和词性标注前对输入启动方案进行数据清洗与预处理。
3.如权利要求1所述的一种基于自然语言处理的电网启动操作票生成装置,其特征在于:所述中文分词与词性标注模块引入电网先验知识和相关数据库作为电网词典,加大电网设备和状态的词频,增大分词的颗粒度。
4.如权利要求1所述的一种基于自然语言处理的电网启动操作票生成装置,其特征在于:所述中文分词与词性标注模块采用基于统计的方法的分词算法对启动方案进行分词,使用Trie树结构进行高效的词图扫描,生成待分词的句子中汉字所有可能成词情况所构成的有向无环图。
5.如权利要求4所述的一种基于自然语言处理的电网启动操作票生成装置,其特征在于:所述中文分词与词性标注模块采用的分词算法还采用动态规划算法查找最大概率路径,找出基于词频的最大切分组合。
6.如权利要求1所述的一种基于自然语言处理的电网启动操作票生成装置,其特征在于:所述中文分词与词性标注模块采用的词性标注算法为基于统计模型的标注方法,对于未登录词采用隐马尔科夫模型进行词性标注。
7.如权利要求1所述的一种基于自然语言处理的电网启动操作票生成装置,其特征在于:所述命名实体识别和关系抽取模块采用基于混合方法实现命名实体识别,其通过结合电网领域词典和统计模型识别电网对象。
8.如权利要求7所述的一种基于自然语言处理的电网启动操作票生成装置,其特征在于:所述命名实体识别和关系抽取模块的关系抽取为确定实体与实体间的语义联系,其通过命名实体识别得到单句指令语句中设备实体和设备状态,即可确定单句指令语句的实体关系和指令结构,对设备实体与设备状态建立属性关系。
9.如权利要求1所述的一种基于自然语言处理的电网启动操作票生成装置,其特征在于:所述命名实体识别和关系抽取模块还通过与专业数据库进行交互,将设备实体名称更换为标准设备名称,对整个启动方案统一建立设备实体库,整合不同指令语句中相同设备实体,建立不同指令语句的实体关系。
10.一种基于自然语言处理的电网启动操作票生成方法,包括如下步骤:
步骤S1,结合电网词典,通过分词和词性标注,提取输入启动方案中指令语句的语句结构;
步骤S2,通过命名实体识别提取出指令语句的操作设备和设备状态,结合词性标注的结果进一步解析指令语句,对设备实体与设备状态建立属性关系,并建立不同指令语句的实体关系;
步骤S3,结合电网领域相关先验知识与规则,获得启动操作票指令语句的关键信息,生成标准的启动操作票。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811028203.6A CN109376353B (zh) | 2018-09-04 | 2018-09-04 | 一种基于自然语言处理的电网启动操作票生成装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811028203.6A CN109376353B (zh) | 2018-09-04 | 2018-09-04 | 一种基于自然语言处理的电网启动操作票生成装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109376353A CN109376353A (zh) | 2019-02-22 |
CN109376353B true CN109376353B (zh) | 2022-09-16 |
Family
ID=65405265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811028203.6A Active CN109376353B (zh) | 2018-09-04 | 2018-09-04 | 一种基于自然语言处理的电网启动操作票生成装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376353B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175324B (zh) * | 2019-04-11 | 2023-05-23 | 贵州电网有限责任公司 | 一种基于数据挖掘的电网运行操作指令校验方法及系统 |
CN110188345B (zh) * | 2019-04-28 | 2023-06-16 | 北京科东电力控制系统有限责任公司 | 一种电力操作票的智能识别方法与装置 |
CN110705295B (zh) * | 2019-09-11 | 2021-08-24 | 北京航空航天大学 | 基于关键词提取的实体名消岐方法 |
CN110991188A (zh) * | 2019-09-17 | 2020-04-10 | 国网浙江省电力有限公司杭州供电公司 | 应用于配网调度智能成票系统的成票方法 |
CN110991812A (zh) * | 2019-11-08 | 2020-04-10 | 云南电网有限责任公司大理供电局 | 一种基于自然语言处理技术的电网数据管理系统 |
CN111340253B (zh) * | 2020-02-17 | 2023-12-29 | 国网山东省电力公司东营供电公司 | 一种主网检修申请单的解析方法及系统 |
CN111260338B (zh) * | 2020-02-19 | 2022-03-29 | 云南电网有限责任公司昆明供电局 | 一种变电站操作票智能生成方法、装置及平台 |
CN111584089A (zh) * | 2020-04-13 | 2020-08-25 | 广州天鹏计算机科技有限公司 | 患者数据搜索方法、装置及存储介质 |
CN111581965B (zh) * | 2020-04-26 | 2022-07-15 | 云南电网有限责任公司昆明供电局 | 操作票生成方法及装置 |
CN111738874B (zh) * | 2020-06-19 | 2024-05-28 | 内蒙古电力(集团)有限责任公司包头供电局 | 基于启动模型的电网新设备投运步骤自动生成方法和装置 |
CN111985818A (zh) * | 2020-08-21 | 2020-11-24 | 国家电网有限公司华东分部 | 一种基于调度典型操作指令的新设备启动方案识别方法 |
CN112365364A (zh) * | 2020-11-06 | 2021-02-12 | 云南电网有限责任公司昆明供电局 | 配网运行管理系统操作票的一键成票方法及系统 |
CN112528041B (zh) * | 2020-12-17 | 2023-05-30 | 贵州电网有限责任公司 | 一种基于知识图谱的调度用语规范验证方法 |
CN113127060A (zh) * | 2021-04-09 | 2021-07-16 | 中通服软件科技有限公司 | 一种基于自然语言预训练模型(bert)的软件功能点识别方法 |
CN113095050A (zh) * | 2021-04-19 | 2021-07-09 | 广东电网有限责任公司 | 一种智能成票方法、系统、设备及存储介质 |
CN113221552A (zh) * | 2021-06-02 | 2021-08-06 | 浙江百应科技有限公司 | 一种基于深度学习的多模型分词方法、装置及电子设备 |
CN116484826B (zh) * | 2023-06-19 | 2024-04-26 | 广东电网有限责任公司 | 一种操作票生成方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177402A (zh) * | 2013-04-08 | 2013-06-26 | 国家电网公司 | 一种电力调度防误方法及装置 |
CN103390250A (zh) * | 2013-07-16 | 2013-11-13 | 国家电网公司 | 一种生成操作票的方法及装置 |
CN105930452A (zh) * | 2016-04-21 | 2016-09-07 | 北京紫平方信息技术股份有限公司 | 一种识别自然语言的智能应答方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN108021552A (zh) * | 2017-11-09 | 2018-05-11 | 国网浙江省电力公司电力科学研究院 | 一种电力系统操作票内容提取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8713146B2 (en) * | 2009-03-27 | 2014-04-29 | Ebay Inc. | Change management automation tool |
-
2018
- 2018-09-04 CN CN201811028203.6A patent/CN109376353B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103177402A (zh) * | 2013-04-08 | 2013-06-26 | 国家电网公司 | 一种电力调度防误方法及装置 |
CN103390250A (zh) * | 2013-07-16 | 2013-11-13 | 国家电网公司 | 一种生成操作票的方法及装置 |
CN105930452A (zh) * | 2016-04-21 | 2016-09-07 | 北京紫平方信息技术股份有限公司 | 一种识别自然语言的智能应答方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN108021552A (zh) * | 2017-11-09 | 2018-05-11 | 国网浙江省电力公司电力科学研究院 | 一种电力系统操作票内容提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109376353A (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376353B (zh) | 一种基于自然语言处理的电网启动操作票生成装置及方法 | |
CN104361127B (zh) | 基于领域本体和模板逻辑的多语种问答接口快速构成方法 | |
CN110188345B (zh) | 一种电力操作票的智能识别方法与装置 | |
US20240201984A1 (en) | Deep learning-based java program internal annotation generation method and syste | |
Jiang et al. | Discriminative learning with natural annotations: Word segmentation as a case study | |
CN113821593A (zh) | 一种语料处理的方法、相关装置及设备 | |
EP4364044A1 (en) | Automated troubleshooter | |
CN115964273A (zh) | 基于深度学习的航天器测试脚本自动生成方法 | |
CN117408631B (zh) | 操作票的生成方法、装置及存储介质 | |
CN103164398A (zh) | 汉维电子辞典及其自动转译汉维语的方法 | |
CN117391095A (zh) | 一种自然语言解析方法、装置、电子设备及存储介质 | |
CN103164397A (zh) | 汉哈电子辞典及其自动转译汉哈语的方法 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
He | Self-calibration system for pragmatic failure in English-Chinese translation based on big data | |
CN116450777A (zh) | 一种基于nlp与热点词元分析的用电诉求辨析方法和系统 | |
Mengyuan et al. | Automatic generation method of airborne display and control system requirement domain model based on NLP | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
CN103164396A (zh) | 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法 | |
Han et al. | Lexicalized neural unsupervised dependency parsing | |
Rautaray et al. | A Naive approach: Translation of Natural Language to Structured Query Language | |
CN113761109A (zh) | 一种问答库构建方法以及相关装置 | |
Li et al. | Intelligent Input and Analysis System of English Characters from the Perspective of Semantic Recognition | |
Bais et al. | A Rule-Induction Approach for Building an Arabic Language Interfaces to Databases. | |
Wang et al. | Learning concepts from text based on the inner-constructive model | |
Li et al. | Overview of Distant Supervised Relation Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |