CN111090999A - 电网调度预案的信息抽取方法及系统 - Google Patents

电网调度预案的信息抽取方法及系统 Download PDF

Info

Publication number
CN111090999A
CN111090999A CN201910998887.0A CN201910998887A CN111090999A CN 111090999 A CN111090999 A CN 111090999A CN 201910998887 A CN201910998887 A CN 201910998887A CN 111090999 A CN111090999 A CN 111090999A
Authority
CN
China
Prior art keywords
power grid
grid dispatching
dispatching plan
statement
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910998887.0A
Other languages
English (en)
Inventor
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NARI Group Corp
Nari Technology Co Ltd
Original Assignee
NARI Group Corp
Nari Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NARI Group Corp, Nari Technology Co Ltd filed Critical NARI Group Corp
Priority to CN201910998887.0A priority Critical patent/CN111090999A/zh
Publication of CN111090999A publication Critical patent/CN111090999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种电网调度预案的信息抽取方法,包括对电网调度预案进行词向量训练;根据词向量进行电网调度预案语句成分分析;根据语句成分分析结果进行信息抽取。同时也公开了相应的系统。本发明根据电网调度预案词向量进行语句成分分析,根据语句成分分析结果进行信息抽取,信息抽取效率高,提高了故障处理速度,同时也适用于非结构化的预案。

Description

电网调度预案的信息抽取方法及系统
技术领域
本发明涉及一种电网调度预案的信息抽取方法及系统,属于智能文本信息抽取领域。
背景技术
由于电网规模不断扩大、拓扑结构日益复杂,电网运行中发生的故障频率也越来越高。为有效保证电网系统的稳定运行,当故障发生时,需要根据电网调度预案快速形成处置要点,供调度人员及时处理。
电网调度部门根据运维经验制定了电网调度预案手册,当故障发生时,调度人员手工查找预案手册,并根据事件的特征匹配故障类型,找到相应的处置要点。在实际应用中常常采用基于规则模板库来辅助查找,由于规则模板较多,查找效率较低,同时也不适用非结构化的预案。
发明内容
本发明提供了一种电网调度预案的信息抽取方法及系统,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
电网调度预案的信息抽取方法,包括,
对电网调度预案进行词向量训练;
根据词向量进行电网调度预案语句成分分析;
根据语句成分分析结果进行信息抽取。
在词向量训练之前,先对电网调度预案进行分词处理,具体如下:
采用最大概率路径算法,从电网调度预案中找出基于词频的最大切分组合;
根据最大切分组合进行分词。
采用迁移学习方法对电网调度预案进行词向量训练。
迁移学习方法中的源网络为长短时记忆神经网络,目标网络仅更新softmax层,目标网络与源网络共享隐含层。
根据词向量进行电网调度预案语句成分分析,获得语法树;具体过程为,
将电网调度预案语句输入概率上下文无关文法分析器,经训练生成语句的候选分析树;
将候选分析树作为循环神经网络的输入,结合词向量共同训练,得到句法分析器;
用句法分析器对电网调度预案语句进行句法分析,得到语句的语法树。
信息抽取过程为,将语句成分分析结果转换成依存文法,根据依存文法进行信息抽取。
电网调度预案的信息抽取系统,包括,
词向量模块:对电网调度预案进行词向量训练;
成分分析模块:根据词向量进行电网调度预案语句成分分析;
信息抽取模块:根据语句成分分析结果进行信息抽取。
成分分析模块包括:
候选分析树模块:将电网调度预案语句输入概率上下文无关文法分析器,经训练生成语句的候选分析树;
句法分析器模块:将候选分析树作为循环神经网络的输入,结合词向量共同训练,得到句法分析器;
语法树模块:用句法分析器对电网调度预案语句进行句法分析,得到语句的语法树。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行电网调度预案的信息抽取方法。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行电网调度预案的信息抽取方法的指令。
本发明所达到的有益效果:本发明根据电网调度预案词向量进行语句成分分析,根据语句成分分析结果进行信息抽取,信息抽取效率高,提高了故障处理速度,同时也适用于非结构化的预案。
附图说明
图1为本发明的流程图;
图2为获取语法树的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,电网调度预案的信息抽取方法,包括以下步骤:
步骤1,对电网调度预案进行预处理。
电网调度预案文本内部包含专业词汇,通用分词方法是通过查找最大概率路径找出基于词频的最大切分组合,而专业词词频低,在计算最大概率路径时会被过滤掉,因而需要对其进行预处理,具体如下:
11)将电网调度预案转换成纯文本;
12)将转换后的电网调度预案进行分词处理;即采用最大概率路径算法,从文本中找出基于词频的最大切分组合;
计算语句中每个词在该语句中的概率:
Figure BDA0002240648100000041
其中,C={a1,a2,...aj,...,ak}表示句子中包含k个词,aj表示第j个词;
将切分所得的所有结果中找出概率最大的切分组合;
13)根据最大切分组合进行分词;
14)用专业字典对分词处理后的结果进行校正;
专业字典为电网调度预案中的词构成,专业字典构建过程如下:
A1)将电网调度预案文本按语句进行切分;
A2)将所有文本的格式转换为txt格式;
A3)汇总文本中出现的词,构建电网调度预案的专业字典。
步骤2,采用迁移学习方法对电网调度预案进行词向量训练。
迁移学习方法解决了电网调度预案语句和关键词数量少的问题,在开放领域文本集训练模型的基础上,利用电网调度预案文本进行词向量迁移,其中迁移学习方法中的源网络为长短时记忆神经网络,目标网络仅更新softmax层,目标网络与源网络共享隐含层。
具体过程如下:
21)获取并预处理开放领域文本集,抽取特征,训练得到开放领域文本词向量;
22)根据开放领域文本词向量训练语言模型,语言模型为长短时记忆神经网络,层与层之间采用全连接的方式,输入层到隐藏层的权重矩阵、隐藏层到输出层的权重矩阵随机初始化;
23)根据反向传播算法,调节权重矩阵,通过不断的训练,得到更准确的模型参数;
24)根据电网调度预案文本的特点对训练好的语言模型进行改进,即将语言模型去除softmax层,在此之上为电网调度预案数据集添加一个新的softmax层,对softmax层参数随机初始化,并保留训练过的长短时记忆神经网络其余参数;
25)通过新的语言模型,得到电网调度预案的词向量。
步骤3,根据词向量进行电网调度预案语句成分分析,获得语法树。
如图2所示,具体过程如下:
31)将电网调度预案语句输入概率上下文无关文法分析器,经训练生成语句的候选分析树;
32)将候选分析树作为循环神经网络的输入,结合词向量共同训练,得到句法分析器;
33)用句法分析器对电网调度预案语句进行句法分析,得到语句的语法树。
传统的循环神经网络(RNN)模型在训练时没有考虑到关键词之间的词义关系对训练结果产生的影响,造成句法分析不准确,实际上电网领域中专业词汇的词性和词义对分析结果影响很大,因此这里采用结合词义的循环神经网络(SU-RNN)训练句法模型。该模型采用组合向量文法(CVG)进行两遍自底向上的搜索:首先将待分析的语句输入到上下文无关文法(PCFG)中,经过PCFG的训练生成该语句的候选分析树,然后将候选树作为SU-RNN的输入,结合关键词的词向量,训练得到句法分析器,用句法分析器对电网调度预案语句进行句法分析,得到语句的语法树,对语法树进行评分,将分数最高作为最终语法树。
语法树评分过程如下:
B1)结合语义自底向上计算每一个语法树结点的概率p,计算公式为:
Figure BDA0002240648100000061
其中,WA,B表示RNN的权重矩阵W∈Rn×2n,其值依赖于孩子结点的词性,a,b表示结点的孩子结点词向量,首先将孩子结点向量的表示a,b∈Rn×1连接成向量
Figure BDA0002240648100000062
激活函数f为非线性函数f=tanh。然后将结果输出p作为输入提供给该结点的父节点。
B2)计算节点的分数:s(p)=U·p,其中U为权重;
B3)最后对所有结点进行求和得到最终语法树的评分。
步骤4,根据语法树进行信息抽取。
信息抽取过程为:将语句成分分析结果转换成依存文法,根据依存文法进行信息抽取,即通过这个语法树可以得到语句各个成分之间的关系,反映出语句各成分之间的语义修饰关系,可以获得长距离的依赖信息,并与语句成分的物理位置无关,通过分析电网调度预案语言单位成分之间的依存关系揭示其句法结构,从而抽取出对调度有用的信息。
上述方法根据电网调度预案词向量进行语句成分分析,根据语句成分分析结果进行信息抽取,信息抽取效率高,提高了故障处理速度,同时也适用于非结构化的预案。
电网调度预案的信息抽取系统,包括:
词向量模块:对电网调度预案进行词向量训练;
成分分析模块:根据词向量进行电网调度预案语句成分分析;
信息抽取模块:根据语句成分分析结果进行信息抽取。
成分分析模块包括:
候选分析树模块:将电网调度预案语句输入概率上下文无关文法分析器,经训练生成语句的候选分析树;
句法分析器模块:将候选分析树作为循环神经网络的输入,结合词向量共同训练,得到句法分析器;
语法树模块:用句法分析器对电网调度预案语句进行句法分析,得到语句的语法树。
一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行电网调度预案的信息抽取方法。
一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行电网调度预案的信息抽取方法的指令。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-RoM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.电网调度预案的信息抽取方法,其特征在于:包括,
对电网调度预案进行词向量训练;
根据词向量进行电网调度预案语句成分分析;
根据语句成分分析结果进行信息抽取。
2.根据权利要求1所述的电网调度预案的信息抽取方法,其特征在于:在词向量训练之前,先对电网调度预案进行分词处理,具体如下:
采用最大概率路径算法,从电网调度预案中找出基于词频的最大切分组合;
根据最大切分组合进行分词。
3.根据权利要求1所述的电网调度预案的信息抽取方法,其特征在于:采用迁移学习方法对电网调度预案进行词向量训练。
4.根据权利要求3所述的电网调度预案的信息抽取方法,其特征在于:迁移学习方法中的源网络为长短时记忆神经网络,目标网络仅更新softmax层,目标网络与源网络共享隐含层。
5.根据权利要求1所述的电网调度预案的信息抽取方法,其特征在于:根据词向量进行电网调度预案语句成分分析,获得语法树;具体过程为,
将电网调度预案语句输入概率上下文无关文法分析器,经训练生成语句的候选分析树;
将候选分析树作为循环神经网络的输入,结合词向量共同训练,得到句法分析器;
用句法分析器对电网调度预案语句进行句法分析,得到语句的语法树。
6.根据权利要求1所述的电网调度预案的信息抽取方法,其特征在于:信息抽取过程为,将语句成分分析结果转换成依存文法,根据依存文法进行信息抽取。
7.电网调度预案的信息抽取系统,其特征在于:包括,
词向量模块:对电网调度预案进行词向量训练;
成分分析模块:根据词向量进行电网调度预案语句成分分析;
信息抽取模块:根据语句成分分析结果进行信息抽取。
8.根据权利要求7所述的电网调度预案的信息抽取系统,其特征在于:成分分析模块包括:
候选分析树模块:将电网调度预案语句输入概率上下文无关文法分析器,经训练生成语句的候选分析树;
句法分析器模块:将候选分析树作为循环神经网络的输入,结合词向量共同训练,得到句法分析器;
语法树模块:用句法分析器对电网调度预案语句进行句法分析,得到语句的语法树。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至6所述的方法中的任一方法。
10.一种计算设备,其特征在于:包括,
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至6所述的方法中的任一方法的指令。
CN201910998887.0A 2019-10-21 2019-10-21 电网调度预案的信息抽取方法及系统 Pending CN111090999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910998887.0A CN111090999A (zh) 2019-10-21 2019-10-21 电网调度预案的信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910998887.0A CN111090999A (zh) 2019-10-21 2019-10-21 电网调度预案的信息抽取方法及系统

Publications (1)

Publication Number Publication Date
CN111090999A true CN111090999A (zh) 2020-05-01

Family

ID=70393405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910998887.0A Pending CN111090999A (zh) 2019-10-21 2019-10-21 电网调度预案的信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN111090999A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523301A (zh) * 2020-06-05 2020-08-11 泰康保险集团股份有限公司 合同文档合规性检查方法及装置
CN113641801A (zh) * 2021-10-19 2021-11-12 成都中航信虹科技股份有限公司 一种语音调度系统的控制方法、系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN109977228A (zh) * 2019-03-21 2019-07-05 浙江大学 电网设备缺陷文本的信息辨识方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992597A (zh) * 2017-12-13 2018-05-04 国网山东省电力公司电力科学研究院 一种面向电网故障案例的文本结构化方法
CN109977228A (zh) * 2019-03-21 2019-07-05 浙江大学 电网设备缺陷文本的信息辨识方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李静毅: "基于CVG模型的中文短语结构句法分析研究" *
杜修明 等: "电力设备典型故障案例的文本挖掘" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523301A (zh) * 2020-06-05 2020-08-11 泰康保险集团股份有限公司 合同文档合规性检查方法及装置
CN113641801A (zh) * 2021-10-19 2021-11-12 成都中航信虹科技股份有限公司 一种语音调度系统的控制方法、系统及电子设备

Similar Documents

Publication Publication Date Title
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
CN110287494A (zh) 一种基于深度学习bert算法的短文本相似匹配的方法
Constant et al. MWU-aware part-of-speech tagging with a CRF model and lexical resources
Zhang et al. AMBERT: A pre-trained language model with multi-grained tokenization
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN112100397A (zh) 基于双向门控循环单元的电力预案知识图谱构建方法及系统
CN106844348B (zh) 一种汉语句子功能成分分析方法
CN112906397B (zh) 一种短文本实体消歧方法
CN113505209A (zh) 一种面向汽车领域的智能问答系统
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
JP6709812B2 (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN111160027A (zh) 基于语义注意力的循环神经网络事件时序关系识别方法
CN111090999A (zh) 电网调度预案的信息抽取方法及系统
CN112036179B (zh) 基于文本分类与语义框架的电力预案信息抽取方法
CN112579794B (zh) 一种为中英文单词对预测义原树的方法及系统
CN112632272B (zh) 基于句法分析的微博情感分类方法和系统
CN115345177A (zh) 意图识别模型训练方法和对话方法及装置
Han et al. Lexicalized neural unsupervised dependency parsing
CN116611447A (zh) 一种基于深度学习方法的信息抽取和语义匹配系统及方法
CN116483314A (zh) 一种自动化智能活动图生成方法
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统
CN111581339B (zh) 基于树状lstm对生物医学文献的基因事件的抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501

RJ01 Rejection of invention patent application after publication