CN112100397A - 基于双向门控循环单元的电力预案知识图谱构建方法及系统 - Google Patents

基于双向门控循环单元的电力预案知识图谱构建方法及系统 Download PDF

Info

Publication number
CN112100397A
CN112100397A CN202010928917.3A CN202010928917A CN112100397A CN 112100397 A CN112100397 A CN 112100397A CN 202010928917 A CN202010928917 A CN 202010928917A CN 112100397 A CN112100397 A CN 112100397A
Authority
CN
China
Prior art keywords
power plan
electric power
sentence
knowledge graph
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010928917.3A
Other languages
English (en)
Inventor
杨群
郭榕
刘绍翰
王波
闪鑫
陆廷骧
李雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Nari Technology Co Ltd
NARI Nanjing Control System Co Ltd
Original Assignee
Nanjing University of Aeronautics and Astronautics
Nari Technology Co Ltd
NARI Nanjing Control System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics, Nari Technology Co Ltd, NARI Nanjing Control System Co Ltd filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010928917.3A priority Critical patent/CN112100397A/zh
Publication of CN112100397A publication Critical patent/CN112100397A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于双向门控循环单元的电力预案知识图谱构建方法及系统,方法包括以下过程:获取电力预案文本数据;对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。本发明实现了从大量半结构化和非结构化的电力预案文本中抽取信息构建知识图谱,可利用构建的知识图谱进行信息检索能够有效地提高电力预案的信息查询速度,从而提高电力系统的事故应急处理能力。

Description

基于双向门控循环单元的电力预案知识图谱构建方法及系统
技术领域
本发明属于自然语言处理以及深度技术领域,具体涉及一种基于双向门控循环单元的电力预案知识图谱构建方法,还涉及一种基于双向门控循环单元的电力预案知识图谱构建系统。
背景技术
知识图谱是人工智能应用不可或缺的基础资源,并且在金融智能、智慧医疗、智慧司法等领域已经有了成功的应用先例。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱提供了从“关系”的角度去分析问题的能力。
电力预案的编写旨在防止和减少电力事故对社会的影响,保证电力事故应急工作高效、有序地进行,提高电力事故应急处理能力,最大限度地减少事故中的人员伤亡和财产损失。然而,目前的事故后处置调度仍然依赖于管制员主观性的决策,虽然有电力预案进行辅助,但仍是高强度的脑力劳动,这对调度员的可靠性要求极高。随着电力系统迅速发展,电网调度系统运行变得紧张,使得调度员的工作强度变大、工作时间延长,从而导致调度员工作疲劳、精神不振,容易发出不当调度指令。
将知识图谱技术应用在电力预案领域,通过构建电力预案知识图谱,利用计算机的高处理速度、高实时性、大存储容量、高可靠性来辅助调度员甚至替代调度员进行事故后处置调度,将能有效提高电力系统的性能和可靠性,并减轻调度员的工作负荷,这对电力系统事故后的快速恢复具有重大和迫切的现实意义。
发明内容
本发明的目的在于克服现有技术中的不足,提供了一种基于双向门控循环单元的电力预案知识图谱构建方法及系统,从电力预案文本中准确提取实体及实体间关系,构建电力预案知识图谱。
为解决上述技术问题,本发明提供了一种基于双向门控循环单元的电力预案知识图谱构建方法,包括以下过程:
获取电力预案文本数据;
对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
进一步的,所述获取电力预案文本数据后,还包括对获得的文本数据进行预处理,所述预处理包括:去除停用词和长句切分。
进一步的,所述对电力预案文本进行实体抽取,包括:
对电力预案文本进行分词处理;
对电力预案文本中的每个词进行词性标注;
从词性标注结果中抽取实体。
进一步的,所述词性包括五类,分别为:
描述电力系统中厂站设备的名词,词性为实体En;
描述预案处置动作的动词,词性为动词Pv;
电力预案文本中表示指标的词,词性为指标Pn;
描述指标数量的量词,词性为量词Pq;
除以上四类之外的其他词。
进一步的,所述基于引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果,包括:
所述引入注意力机制的双向门控循环结构网络,包括:
输入层、嵌入层、双向门控循环结构网络、字符级注意力层、句子级注意力层、关系分类层和输出层;其中:
输入层:对电力预案文本进行分词处理,将得到的词序列结果送入嵌入层;
嵌入层:将词序列转换成对应的词向量;
双向门控循环结构网络:从输入的词向量中提取词特征;
字符级注意力层:提取对于分类起到关键作用的词特征,使词汇级的特征合并为句子级的特征;
句子级注意力层:提取对于分类起到关键作用的句子级特征,得到句子特征向量;
关系分类层:将句子特征向量送入分类器,得到各类关系的可能概率;
输出层:将可能概率最大的关系类别做为句中实体间关系的类别输出。
进一步的,所述将词序列转换成对应的词向量,包括:
设输入的文本词序列为T={w1,...,w|T|},|T|表示输入文本中词语的总数,w表示输入文本中的词语;
在预训练词向量表V查找文本词序列T={w1,...,w|T|}中每个词w对应的向量表示x∈R1×d,其中d表示词向量的维度,找到所有词的向量表示后,文本序列T的向量最终表示为{x1,...x|,T|}∈R|T|×d
进一步的,所述双向门控循环结构网络中从输入的词向量中提取词特征,包括:
在双向GRU网络中,嵌入层输出的文本词序列向量,分别被输入到两个GRU中,i时刻前向隐藏状态输出
Figure BDA0002669461430000041
和反向隐藏状态输出
Figure BDA0002669461430000042
的组合就是网络的输出hi,即
Figure BDA0002669461430000043
GRU网络的公式定义如下:
更新门(zt):zt=σ(Wzxt+Uzht-1+bz);
重置门(rt):rt=σ(Wrxt+Urht-1+br);
当前时刻t对应的状态(ht):
Figure BDA0002669461430000044
候选状态
Figure BDA0002669461430000045
Figure BDA0002669461430000046
其中,σ表示sigmoid激活函数,通过激活函数的转换,使zt和rt的数值范围转换为[0,1];tanh表示双曲正切激活函数;符号
Figure BDA0002669461430000047
表示元素对应相乘(Hadamard积);xt则表示该神经网络在t时刻的输入(即嵌入层输入的词向量),同时Wz、Wr、Wh和Uz、Ur、Uh分别为该模型的参数矩阵和循环权重,bZ、br和bh为偏置向量。
进一步的,从双向门控循环结构网络输出的特征中发现对于分类起到关键作用的部分,通过权重分配来加深其影响,使词汇级的特征合并为句子级的特征,包括:
首先,通过一个双曲正切激活函数将双向GRU输出的向量集合的映射到-1到1之间:M=tanh(H),其中向量集合H={h1,h2,...,hT},hi为双向GRU得到了每一个时刻的输出,T为单词的个数;
通过一个SoftMax函数获取归一化的权重:α=SOFMAX(ωTM),其中是ω一个经过训练的参数向量;
再乘以向量集合H,增加特征的影响:r=HαT
最后将权重输出通过tanh映射:H*=tanh(r)。
进一步的,所述句子级注意力层中提取对于分类起到关键作用的句子级特征,得到句子特征向量,包括:
每个句子的句子级注意力机制的权重定义为
Figure BDA0002669461430000051
其中函数ei=Hi *Ar体现了一个句子对于该关系的匹配程度,k表示句子的总数,i表示第i个句子;在函数ei=H*Ar中,Hi *表示第i个句子的句向量,A是表示权重的对角矩阵,r是代表着该关系的向量;
经过句子级注意力层分配权值后,输出的句子特征向量表示为:V=αiH*
进一步的,还包括利用电力预案知识图谱进行信息检索,包括:
获取待检索的电力系统运行记录,对运行记录进行分词处理,找到分词结果中实体;
在电力预案知识图谱中寻找此实体对应的节点以及与其相关联的所有的知识三元组;
基于所有的知识三元组判断此时电力系统是否发生故障,以及故障发生时的处置措施。
相应的,本发明还提供了一种基于双向门控循环单元的电力预案知识图谱构建系统,包括:
文本数据获取模块,用于获取电力预案文本数据;
信息提取模块,用于对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
知识图谱构建模块,用于基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
与现有技术相比,本发明所达到的有益效果是:本发明实现了从大量半结构化和非结构化的电力预案文本中抽取信息构建知识图谱,并且利用构建的知识图谱进行信息检索能够有效地提高电力预案的信息查询速度,从而提高电力系统的事故应急处理能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程示意图;
图2为本发明实施例针对电力预案关系抽取的双向门控循环结构神经网络模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
本发明的一种基于双向门控循环单元的电力预案知识图谱构建方法,参见图1所示,包括以下步骤:
S1,获取电力预案文本数据,对获得的文本数据进行清洗与预处理。
电力预案文本内包含故障名称、故障发生后电网运行方式、应对故障所采取的处置方案。
预处理包括:去除停用词,长句切分。其中:
去除停用词:停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。本实施例中,在Python环境下,使用中文自然语言处理组件jieba对电力预案文本进行去停用词处理;
长句切分:电力预案中包含许多由多个短句组成的长句,但是这些短句之间相互独立,表述不同的内容。对长句进行信息抽取的复杂度明显高手短句并且抽取效果也不如短句,进行长句切分可以提高信息抽取的准确度。本实施例中,从大量电力预案中总结出文本的句式结构特点并建立长文本切分标志集,据此编写针对电力预案文本的分句规则将预案文本中的长句切分为多个短句。
S2,先以规则总结辅以专家人工校正,将电力预案文本所包含的专业字词构建成电力预案专业词典。
专业字词包括:地名、变电站名、线路名、缩略词等。
规则总结:总结电力预案文本的构成特点,编写正则表达式进行初步的名词提取。
专家校正:对正则表达式抽取的名词进行判断,去除错误结果。
S3,基于电力预案专业词典对电力预案文本进行实体和实体间关系抽取。
电力预案知识图谱属于封闭域知识图谱,与开放域知识图谱不同之处在于,图谱中的实体种类可以穷举并且属于电力领域的专业字词,而电力预案中的专业字词已经收录在电力预案专业词典中,因此可直接采用电力预案专业词典进行实体的检索和抽取,具体包括:
步骤S3-1,首先基于电力预案专业词典对电力预案文本进行分词处理。
在Python环境下使用自然语言处理工具包LTP结合电力预案专业词典对电力预案文本进行分词,通过导入电力预案专业词典可以避免日常用语的干扰,提高分词的准确率。
步骤S3-2,对电力预案文本中的每个词进行词性标注。
利用常用词典(通用领域的词典)与电力预案专业词典中词的词性对电力预案文本中的所有的词进行标注,词性标注也有助于实体的提取。
将所有词分为五类:①描述电力系统中厂站设备的名词,词性为En(entity实体);②描述预案处置动作的动词,词性为Pv(Property属性verb动词);③电力预案文本中表示指标的词,词性为Pn(Property属性norm指标);④描述指标数量的量词,词性为Pq(Property属性quantity数量)。⑤除以上四类之外的其他词。
步骤S3-3,对步骤S3-2的词性标注结果进行实体抽取。
将分词、词性标注之后的词逐一在电力预案专业词典中进行检索,若能检索到匹配项,则抽取该词表示的实体作为知识图谱的实体。
以上步骤完成实体抽取后,还需对实体间的关系进行抽取。
本实施例中,使用引入注意力机制的双向门控循环结构的深度学习模型进行实体间关系抽取;所述的关系抽取方法针对电力预案文本做了如下改进:
1)使用双向门控循环结构代替传统的双向长短时记忆神经网络,相比双向长短时记忆神经网络,双向门控循环结构在取得相同分类效果的同时拥有更快的训练速度。
2)在双向门控循环结构的基础上引入字符注意力机制与句字级注意力机制,注意力机制通过权重向量加深对关系分类起重要影响的成分,以提升分类准确度。
图2为本发明实施例针对电力预案文本关系抽取的注意力机制的双向门控循环结构网络模型示意图。如图2所示,网络模型的输入为完整的句子以及句中的实体对,输出为句中实体关系类别,文本输入后首先会进行分词处理然后再映射为相应的词向量随后进行网络计算。本实施例的字符级注意力机制和句子级注意力机制能有效提高关系分类问题,除此之外双向门控循环结构网络的巧妙设计也避免了RNN网络的长期依赖问题。
模型框架结构包括:
201.输入层,输入层对原始的电力预案文本进行分词处理,将电力预案文本中连续的字序列按照一定的规范重新组合成词序列,将词序列结果送入嵌入层。
202.嵌入层,嵌入层将词序列转换成对应的向量,形成电力预案文本的向量表示。
设输入的文本词序列为T={w1,...,w|T|},|T|表示输入文本中词语的总数,w表示输入文本中的词语。嵌入层将词序列T映射成对应的词向量{x1,...,x|T|},其中,每个词向量x都来自于预训练词向量表V={x1,...,x|V|},|V|表示预训练词向量的总数。在本实施例中,词语的预训练词向量表V是通过Word2Vec在维基百科中文语料库上进行训练得到。
词序列映射成对应的词向量的过程为:在预训练词向量表V查找文本词序列T={w1,...,w|T|}中每个词w对应的向量表示x∈R1×d,其中d表示词向量的维度,找到所有词的向量表示后,文本序列T的向量最终表示为{x1,...,x|T|}∈R|T|×d
203.模型,模型由双向GRU、字与句子的双重注意力层组成。
由嵌入层传入的向量先通过双向GRU获取高层特征;字符级的注意力层能够自动发现那些对于分类起到关键作用的词生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;句子级的注意力层给不同的句子不同的权重,去除一些噪声来提升分类器的性能。
GRU是一种改进的LSTM算法,它将遗忘门和输入门合并为一个更新门(z),并将数据状态和隐藏状态合并,使模型结构比LSTM更简单。标准的GRU模型结构的公式定义如下:
更新门(zt):zt=σ(Wzxt+Uzht-1+bz);
重置门(rt):rt=σ(Wrxt+Urht-1+br);
当前时刻t对应的状态(ht):
Figure BDA0002669461430000101
候选状态
Figure BDA0002669461430000111
Figure BDA0002669461430000112
其中,σ表示sigmoid激活函数,通过激活函数的转换,使zt和rt的数值范围转换为[0,1];tanh表示双曲正切激活函数;符号
Figure BDA0002669461430000113
表示元素对应相乘(Hadamard积);xt则表示该神经网络在t时刻的输入(即嵌入层输入的词向量),同时Wz、Wr、Wh和Uz、Ur、Uh分别为该模型的参数矩阵和循环权重,bZ、br和bh为偏置向量。
在双向GRU网络中,嵌入层输出的文本词序列向量,分别被输入到两个GRU中,i时刻前向隐藏状态输出
Figure BDA0002669461430000114
和反向隐藏状态输出
Figure BDA0002669461430000115
的组合就是网络的输出hi,即
Figure BDA0002669461430000116
字符级注意力层:通过双向GRU得到了每一个时刻的输出hi,向量集合表示为H={h1,h2,...,hT},其中T为单词的个数。字符级注意力层找到对关系分类起重要作用的词,学习得到一个权重向量对这些词通过赋予权重以提高他们的重要性。具体处理过程为:首先,通过一个双曲正切激活函数将双向GRU输出的向量集合的映射到-1到1之间:M=tanh(H);之后通过一个SoftMax函数获取归一化的权重:α=SOFMAX(ωTM),其中是ω一个经过训练的参数向量;再乘以原始输出特征(向量集合H),增加特征的影响:r=HαT;最后将权重输出通过tanh映射:H*=tanh(r)。
句子级注意力层:给包含某一关系类别实体对的所有句子都分配权重,这个权重的大小代表着该句子包含着这种关系的概率。给不同的句子不同的权重,可以去除一些噪声来提升分类器的性能。每个句子的句子级注意力机制的权重定义为
Figure BDA0002669461430000121
其中函数ei=Hi Ar体现了一个句子对于该关系的匹配程度,k表示句子的总数,i表示第i个句子;在函数ei=H*Ar中,Hi *表示第i个句子的句向量(即前面字符级注意力层的输出),A是表示权重的对角矩阵,r是代表着该关系的向量。e的大小取决于H*在r上的映射的大小,与该实体关系更加密切的句子可以取得更大的取值。经过句子级注意力层分配权值后,输出的句子特征向量表示为:V=αiH*
204.关系分类,对203所获得的句子特征向量V送入SoftMax分类器,得到各类关系的可能概率,具体算法如下:
Figure BDA0002669461430000122
式中,Wk为权重,bk为偏置向量,K为类别数。
205.输出,将可能概率最大的关系类别做为句中实体间关系的类别输出。
本实施例中,关系抽取模型的训练过程与训练参数如下:
将已标注关系类别的电力预案文本数据集作为电力预案文本关系抽取训练集
Figure BDA0002669461430000123
其中yi为每条电力预案文本,ei1,ei2为文本中出现的实体对,ri为实体对的关系类别,n为训练集中句子的数量。电力预案文本关系类别由电力专家分析形成,具体如下:
Figure BDA0002669461430000124
Figure BDA0002669461430000131
将数据集进行随机划分,按8:1:1的比例划分为训练集、验证集和测试集。
设置合适的训练参数训练模型,具体包括:
本实施例基于Tensorflow深度学习框架实现基于注意力机制的双向门控循环结构网络,其中预设100维的预训练词向量构成嵌入层,初始的学习率为0.002,为了防止模型在训练过程中出现过拟合,在网络中设置了0.5的随机失活率。训练过程分为5个epoch每个1000次迭代,使用GPU训练,时间与训练数据成正比。
S4,对抽取的信息进行融合处理得到融合信息;
本实施例中,融合处理包括:共指消歧和信息筛选。
共指消歧,即通过自然语言处理技术根据实体之间的语义相似度对其进行对齐,来消除实体的矛盾和歧义以及冗余率。为刻画表示实体/属性的词间的语义相似度,采用word2vec方法对电力预案文本进行训练,将词向量维度选为100维,得到语料中所有词对应的词向量,再通过计算词向量之间的余弦相似度,判断表示实体/属性的词间的相似程度。由于同义词必然是同词性且相似程度很高的词对,以此为依据将疑似同义词的词语收录在一个集合中,由此形成若干个同义词集。对每个同义词集进行人工纠正后选择一个词,作为集合内所有词的标准化名称,最后以同义词表的形式来表示同义词集。
信息筛选,判断抽取的信息是否已存在于知识图谱中,若存在则删除抽取到的冗余信息。
S5,基于融合信息构建电力预案知识图谱并进行可视化展示。
当电力预案信息融合完后,将电力预案融合信息利用开源的图数据库Neo-4j进行可视化展示得到电力预案知识图谱,该知识图谱中的每一个实体的定义以及层级结构的划分和实体关系链也会得到相应的实现。可扩展性是知识图谱的优点之一,当有新的预案文本时,按照步骤S3-S4进行类推迭代处理,可以得到新的电力预案融合信息,将其加入知识图谱中以丰富原有的知识图谱。
S6,利用构建好的电力预案知识图谱进行信息检索。
信息检索所完成的任务为:
根据一条电力系统运行记录,通过信息检索判断此时电力系统是否发生故障:若未发生故障则返回“无故障发生”信息;若发生故障则返回故障设备名称、故障名称、应采取的处置措施;具体包括:
步骤S6-1:输入一条电力系统运行记录,对运行记录进行分词处理,利用步骤3-2的方法找到分词结果中在步骤S3-3所述的前四类实体;
步骤S6-2:根据找到的词性标注结果为“En”的实体,在电力预案知识图谱中寻找对应的节点以及与其相关联的所有的知识三元组;
步骤S6-3:由于厂站/设备在正常运行时各个指标都在一定的正常范围内。根据“En-设备指标-Pn”、“Pn-故障阈值-Pq”三元组信息查询当前状态下厂站/设备的各项指标是否都在正常范围内,由此判断当前电力系统运行记录中是否发生是故障。如果厂站/设备的指标超过故障阈值,即判断厂站/设备发生故障,根据故障类型相应的“En-处置动作-Pv”、“Pv-处置动作对象-Pn”、“Pv-动作量化数值-Pq”等三元组信息返回故障发生时的处置措施。
实施例2
相应的,本发明的一种基于双向门控循环单元的电力预案知识图谱构建系统,包括:
文本数据获取模块,用于获取电力预案文本数据;
信息提取模块,用于对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
知识图谱构建模块,用于基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
本实施例装置中各模块的具体实现采取实施例1的实施方式。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,包括:
获取电力预案文本数据;
对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
2.根据权利要求1所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述获取电力预案文本数据后,还包括对获得的文本数据进行预处理,所述预处理包括:去除停用词和长句切分。
3.根据权利要求1所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述对电力预案文本进行实体抽取,包括:
对电力预案文本进行分词处理;
对电力预案文本中的每个词进行词性标注;
从词性标注结果中抽取实体。
4.根据权利要求3所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述词性包括五类,分别为:
描述电力系统中厂站设备的名词,词性为实体En;
描述预案处置动作的动词,词性为动词Pv;
电力预案文本中表示指标的词,词性为指标Pn;
描述指标数量的量词,词性为量词Pq;
除以上四类之外的其他词。
5.根据权利要求1所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述基于引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果,包括:
所述引入注意力机制的双向门控循环结构网络,包括:
输入层、嵌入层、双向门控循环结构网络、字符级注意力层、句子级注意力层、关系分类层和输出层;其中:
输入层:对电力预案文本进行分词处理,将得到的词序列结果送入嵌入层;
嵌入层:将词序列转换成对应的词向量;
双向门控循环结构网络:从输入的词向量中提取词特征;
字符级注意力层:提取对于分类起到关键作用的词特征,使词汇级的特征合并为句子级的特征;
句子级注意力层:提取对于分类起到关键作用的句子级特征,得到句子特征向量;
关系分类层:将句子特征向量送入分类器,得到各类关系的可能概率;
输出层:将可能概率最大的关系类别做为句中实体间关系的类别输出。
6.根据权利要求5所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述双向门控循环结构网络中从输入的词向量中提取词特征,包括:
在双向GRU网络中,嵌入层输出的文本词序列向量,分别被输入到两个GRU中,i时刻前向隐藏状态输出
Figure FDA0002669461420000021
和反向隐藏状态输出
Figure FDA0002669461420000022
的组合就是网络的输出hi,即
Figure FDA0002669461420000031
GRU网络的公式定义如下:
更新门(zt):zt=σ(Wzxt+Uzht-1+bz);
重置门(rt):rt=σ(Wrxt+Urht-1+br);
当前时刻t对应的状态(ht):
Figure FDA0002669461420000032
候选状态
Figure FDA0002669461420000033
Figure FDA0002669461420000034
其中,σ表示sigmoid激活函数,通过激活函数的转换,使zt和rt的数值范围转换为[0,1];tanh表示双曲正切激活函数;符号
Figure FDA0002669461420000035
表示元素对应相乘;xt则表示该神经网络在t时刻的输入,同时Wz、Wr、Wh和Uz、Ur、Uh分别为该模型的参数矩阵和循环权重,bZ、br和bh为偏置向量。
7.根据权利要求6所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述字符级注意力层中提取对于分类起到关键作用的词特征,使词汇级的特征合并为句子级的特征,包括:
首先,通过一个双曲正切激活函数将双向GRU输出的向量集合的映射到-1到1之间:M=tanh(H),其中向量集合H={h1,h2,...,hT},hi为双向GRU得到了每一个时刻的输出,T为单词的个数;
通过一个SoftMax函数获取归一化的权重:α=SOFMAX(ωTM),其中是ω一个经过训练的参数向量;
再乘以向量集合H,增加特征的影响:r=HαT
最后将权重输出通过tanh映射:H*=tanh(r)。
8.根据权利要求7所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述句子级注意力层中提取对于分类起到关键作用的句子级特征,得到句子特征向量,包括:
每个句子的句子级注意力机制的权重定义为
Figure FDA0002669461420000041
其中函数ei=Hi *Ar体现了一个句子对于该关系的匹配程度,k表示句子的总数,i表示第i个句子;在函数ei=H*Ar中,Hi *表示第i个句子的句向量,A是表示权重的对角矩阵,r是代表着该关系的向量;
经过句子级注意力层分配权值后,输出的句子特征向量表示为:V=αiH*
9.根据权利要求1所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,还包括利用电力预案知识图谱进行信息检索,包括:
获取待检索的电力系统运行记录,对运行记录进行分词处理,找到分词结果中实体;
在电力预案知识图谱中寻找此实体对应的节点以及与其相关联的所有的知识三元组;
基于所有的知识三元组判断此时电力系统是否发生故障,以及故障发生时的处置措施。
10.一种基于双向门控循环单元的电力预案知识图谱构建系统,其特征是,包括:
文本数据获取模块,用于获取电力预案文本数据;
信息提取模块,用于对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
知识图谱构建模块,用于基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
CN202010928917.3A 2020-09-07 2020-09-07 基于双向门控循环单元的电力预案知识图谱构建方法及系统 Pending CN112100397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010928917.3A CN112100397A (zh) 2020-09-07 2020-09-07 基于双向门控循环单元的电力预案知识图谱构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010928917.3A CN112100397A (zh) 2020-09-07 2020-09-07 基于双向门控循环单元的电力预案知识图谱构建方法及系统

Publications (1)

Publication Number Publication Date
CN112100397A true CN112100397A (zh) 2020-12-18

Family

ID=73757575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010928917.3A Pending CN112100397A (zh) 2020-09-07 2020-09-07 基于双向门控循环单元的电力预案知识图谱构建方法及系统

Country Status (1)

Country Link
CN (1) CN112100397A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836018A (zh) * 2021-02-07 2021-05-25 北京联创众升科技有限公司 应急预案的处理方法及装置
CN113064999A (zh) * 2021-03-19 2021-07-02 南方电网调峰调频发电有限公司信息通信分公司 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN113283704A (zh) * 2021-04-23 2021-08-20 内蒙古电力(集团)有限责任公司乌兰察布电业局 基于知识图谱的电网故障智能处置系统及方法
CN113360641A (zh) * 2021-05-07 2021-09-07 内蒙古电力(集团)有限责任公司乌兰察布电业局 一种基于深度学习的电网故障处置预案语义建模系统及方法
CN113609305A (zh) * 2021-07-27 2021-11-05 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统
CN113822599A (zh) * 2021-10-27 2021-12-21 国网江苏省电力有限公司营销服务中心 一种基于分类树融合技术的电力行业政策管理方法
CN115292518A (zh) * 2022-08-18 2022-11-04 国家电网有限公司 基于知识型信息抽取的配电网故障处理方法及系统
CN117744787A (zh) * 2024-02-20 2024-03-22 中国电子科技集团公司第十研究所 一阶研判规则知识合理性的智能度量方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019024704A1 (zh) * 2017-08-03 2019-02-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法
CN110825881A (zh) * 2019-09-26 2020-02-21 中国电力科学研究院有限公司 一种建立电力知识图谱的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张志昌: "《融合双向GRU与注意力机制的医疗实体关系识别》", 《计算机工程》, vol. 46, no. 6, 30 June 2020 (2020-06-30), pages 296 - 302 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836018A (zh) * 2021-02-07 2021-05-25 北京联创众升科技有限公司 应急预案的处理方法及装置
CN113064999A (zh) * 2021-03-19 2021-07-02 南方电网调峰调频发电有限公司信息通信分公司 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN113064999B (zh) * 2021-03-19 2023-12-15 南方电网调峰调频发电有限公司信息通信分公司 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN113283704A (zh) * 2021-04-23 2021-08-20 内蒙古电力(集团)有限责任公司乌兰察布电业局 基于知识图谱的电网故障智能处置系统及方法
CN113283704B (zh) * 2021-04-23 2024-05-14 内蒙古电力(集团)有限责任公司乌兰察布电业局 基于知识图谱的电网故障智能处置系统及方法
CN113360641A (zh) * 2021-05-07 2021-09-07 内蒙古电力(集团)有限责任公司乌兰察布电业局 一种基于深度学习的电网故障处置预案语义建模系统及方法
CN113360641B (zh) * 2021-05-07 2023-05-30 内蒙古电力(集团)有限责任公司乌兰察布电业局 一种基于深度学习的电网故障处置预案语义建模系统及方法
CN113609305B (zh) * 2021-07-27 2024-04-26 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统
CN113609305A (zh) * 2021-07-27 2021-11-05 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统
CN113822599A (zh) * 2021-10-27 2021-12-21 国网江苏省电力有限公司营销服务中心 一种基于分类树融合技术的电力行业政策管理方法
CN115292518A (zh) * 2022-08-18 2022-11-04 国家电网有限公司 基于知识型信息抽取的配电网故障处理方法及系统
CN117744787B (zh) * 2024-02-20 2024-05-07 中国电子科技集团公司第十研究所 一阶研判规则知识合理性的智能度量方法
CN117744787A (zh) * 2024-02-20 2024-03-22 中国电子科技集团公司第十研究所 一阶研判规则知识合理性的智能度量方法

Similar Documents

Publication Publication Date Title
CN112100397A (zh) 基于双向门控循环单元的电力预案知识图谱构建方法及系统
Ni et al. Sentiment Analysis based on GloVe and LSTM-GRU
CN113505209A (zh) 一种面向汽车领域的智能问答系统
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN113988075A (zh) 基于多任务学习的网络安全领域文本数据实体关系抽取法
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及系统
CN115033705A (zh) 电网调控风险预警信息知识图谱设计方法及系统
CN114840685A (zh) 一种应急预案知识图谱构建方法
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
CN112036179B (zh) 基于文本分类与语义框架的电力预案信息抽取方法
Behere et al. Text summarization and classification of conversation data between service chatbot and customer
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN111090999A (zh) 电网调度预案的信息抽取方法及系统
Liu et al. Research on entity relation extraction based on BiLSTM-CRF classical probability word problems
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
CN111221966A (zh) 一种文本语义关系提取方法及系统
Zhang et al. A method of constructing knowledge graph for government procurement system
Liu et al. Knowledge Engineering Research Topic Mining Based on Co-word Analysis.
Feifei et al. Intelligent question and answer analysis model of power ICT based on BI-LSTM-CRF
Meng et al. Research on Question Answering for Knowledge graph of Aircraft PHM Fault
Liu et al. Intelligent generation method of emergency plan based on knowledge graph
CN117056459B (zh) 一种向量召回方法和装置
Kuang et al. Long Text QA Matching Based on ESIM of Fusion Convolution Feature
Na et al. A Transfer Learning based Model for Knowledge Graph in Power Grid
Zhang et al. Construction and application of aerospace quality knowledge graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination