CN112100397A - 基于双向门控循环单元的电力预案知识图谱构建方法及系统 - Google Patents
基于双向门控循环单元的电力预案知识图谱构建方法及系统 Download PDFInfo
- Publication number
- CN112100397A CN112100397A CN202010928917.3A CN202010928917A CN112100397A CN 112100397 A CN112100397 A CN 112100397A CN 202010928917 A CN202010928917 A CN 202010928917A CN 112100397 A CN112100397 A CN 112100397A
- Authority
- CN
- China
- Prior art keywords
- power plan
- electric power
- sentence
- knowledge graph
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 51
- 238000010276 construction Methods 0.000 title claims description 14
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 72
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 239000004744 fabric Substances 0.000 claims description 4
- 241000288105 Grus Species 0.000 claims description 3
- 238000012549 training Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于双向门控循环单元的电力预案知识图谱构建方法及系统,方法包括以下过程:获取电力预案文本数据;对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。本发明实现了从大量半结构化和非结构化的电力预案文本中抽取信息构建知识图谱,可利用构建的知识图谱进行信息检索能够有效地提高电力预案的信息查询速度,从而提高电力系统的事故应急处理能力。
Description
技术领域
本发明属于自然语言处理以及深度技术领域,具体涉及一种基于双向门控循环单元的电力预案知识图谱构建方法,还涉及一种基于双向门控循环单元的电力预案知识图谱构建系统。
背景技术
知识图谱是人工智能应用不可或缺的基础资源,并且在金融智能、智慧医疗、智慧司法等领域已经有了成功的应用先例。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱提供了从“关系”的角度去分析问题的能力。
电力预案的编写旨在防止和减少电力事故对社会的影响,保证电力事故应急工作高效、有序地进行,提高电力事故应急处理能力,最大限度地减少事故中的人员伤亡和财产损失。然而,目前的事故后处置调度仍然依赖于管制员主观性的决策,虽然有电力预案进行辅助,但仍是高强度的脑力劳动,这对调度员的可靠性要求极高。随着电力系统迅速发展,电网调度系统运行变得紧张,使得调度员的工作强度变大、工作时间延长,从而导致调度员工作疲劳、精神不振,容易发出不当调度指令。
将知识图谱技术应用在电力预案领域,通过构建电力预案知识图谱,利用计算机的高处理速度、高实时性、大存储容量、高可靠性来辅助调度员甚至替代调度员进行事故后处置调度,将能有效提高电力系统的性能和可靠性,并减轻调度员的工作负荷,这对电力系统事故后的快速恢复具有重大和迫切的现实意义。
发明内容
本发明的目的在于克服现有技术中的不足,提供了一种基于双向门控循环单元的电力预案知识图谱构建方法及系统,从电力预案文本中准确提取实体及实体间关系,构建电力预案知识图谱。
为解决上述技术问题,本发明提供了一种基于双向门控循环单元的电力预案知识图谱构建方法,包括以下过程:
获取电力预案文本数据;
对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
进一步的,所述获取电力预案文本数据后,还包括对获得的文本数据进行预处理,所述预处理包括:去除停用词和长句切分。
进一步的,所述对电力预案文本进行实体抽取,包括:
对电力预案文本进行分词处理;
对电力预案文本中的每个词进行词性标注;
从词性标注结果中抽取实体。
进一步的,所述词性包括五类,分别为:
描述电力系统中厂站设备的名词,词性为实体En;
描述预案处置动作的动词,词性为动词Pv;
电力预案文本中表示指标的词,词性为指标Pn;
描述指标数量的量词,词性为量词Pq;
除以上四类之外的其他词。
进一步的,所述基于引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果,包括:
所述引入注意力机制的双向门控循环结构网络,包括:
输入层、嵌入层、双向门控循环结构网络、字符级注意力层、句子级注意力层、关系分类层和输出层;其中:
输入层:对电力预案文本进行分词处理,将得到的词序列结果送入嵌入层;
嵌入层:将词序列转换成对应的词向量;
双向门控循环结构网络:从输入的词向量中提取词特征;
字符级注意力层:提取对于分类起到关键作用的词特征,使词汇级的特征合并为句子级的特征;
句子级注意力层:提取对于分类起到关键作用的句子级特征,得到句子特征向量;
关系分类层:将句子特征向量送入分类器,得到各类关系的可能概率;
输出层:将可能概率最大的关系类别做为句中实体间关系的类别输出。
进一步的,所述将词序列转换成对应的词向量,包括:
设输入的文本词序列为T={w1,...,w|T|},|T|表示输入文本中词语的总数,w表示输入文本中的词语;
在预训练词向量表V查找文本词序列T={w1,...,w|T|}中每个词w对应的向量表示x∈R1×d,其中d表示词向量的维度,找到所有词的向量表示后,文本序列T的向量最终表示为{x1,...x|,T|}∈R|T|×d。
进一步的,所述双向门控循环结构网络中从输入的词向量中提取词特征,包括:
GRU网络的公式定义如下:
更新门(zt):zt=σ(Wzxt+Uzht-1+bz);
重置门(rt):rt=σ(Wrxt+Urht-1+br);
其中,σ表示sigmoid激活函数,通过激活函数的转换,使zt和rt的数值范围转换为[0,1];tanh表示双曲正切激活函数;符号表示元素对应相乘(Hadamard积);xt则表示该神经网络在t时刻的输入(即嵌入层输入的词向量),同时Wz、Wr、Wh和Uz、Ur、Uh分别为该模型的参数矩阵和循环权重,bZ、br和bh为偏置向量。
进一步的,从双向门控循环结构网络输出的特征中发现对于分类起到关键作用的部分,通过权重分配来加深其影响,使词汇级的特征合并为句子级的特征,包括:
首先,通过一个双曲正切激活函数将双向GRU输出的向量集合的映射到-1到1之间:M=tanh(H),其中向量集合H={h1,h2,...,hT},hi为双向GRU得到了每一个时刻的输出,T为单词的个数;
通过一个SoftMax函数获取归一化的权重:α=SOFMAX(ωTM),其中是ω一个经过训练的参数向量;
再乘以向量集合H,增加特征的影响:r=HαT;
最后将权重输出通过tanh映射:H*=tanh(r)。
进一步的,所述句子级注意力层中提取对于分类起到关键作用的句子级特征,得到句子特征向量,包括:
每个句子的句子级注意力机制的权重定义为其中函数ei=Hi *Ar体现了一个句子对于该关系的匹配程度,k表示句子的总数,i表示第i个句子;在函数ei=H*Ar中,Hi *表示第i个句子的句向量,A是表示权重的对角矩阵,r是代表着该关系的向量;
经过句子级注意力层分配权值后,输出的句子特征向量表示为:V=αiH*。
进一步的,还包括利用电力预案知识图谱进行信息检索,包括:
获取待检索的电力系统运行记录,对运行记录进行分词处理,找到分词结果中实体;
在电力预案知识图谱中寻找此实体对应的节点以及与其相关联的所有的知识三元组;
基于所有的知识三元组判断此时电力系统是否发生故障,以及故障发生时的处置措施。
相应的,本发明还提供了一种基于双向门控循环单元的电力预案知识图谱构建系统,包括:
文本数据获取模块,用于获取电力预案文本数据;
信息提取模块,用于对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
知识图谱构建模块,用于基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
与现有技术相比,本发明所达到的有益效果是:本发明实现了从大量半结构化和非结构化的电力预案文本中抽取信息构建知识图谱,并且利用构建的知识图谱进行信息检索能够有效地提高电力预案的信息查询速度,从而提高电力系统的事故应急处理能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程示意图;
图2为本发明实施例针对电力预案关系抽取的双向门控循环结构神经网络模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
本发明的一种基于双向门控循环单元的电力预案知识图谱构建方法,参见图1所示,包括以下步骤:
S1,获取电力预案文本数据,对获得的文本数据进行清洗与预处理。
电力预案文本内包含故障名称、故障发生后电网运行方式、应对故障所采取的处置方案。
预处理包括:去除停用词,长句切分。其中:
去除停用词:停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。本实施例中,在Python环境下,使用中文自然语言处理组件jieba对电力预案文本进行去停用词处理;
长句切分:电力预案中包含许多由多个短句组成的长句,但是这些短句之间相互独立,表述不同的内容。对长句进行信息抽取的复杂度明显高手短句并且抽取效果也不如短句,进行长句切分可以提高信息抽取的准确度。本实施例中,从大量电力预案中总结出文本的句式结构特点并建立长文本切分标志集,据此编写针对电力预案文本的分句规则将预案文本中的长句切分为多个短句。
S2,先以规则总结辅以专家人工校正,将电力预案文本所包含的专业字词构建成电力预案专业词典。
专业字词包括:地名、变电站名、线路名、缩略词等。
规则总结:总结电力预案文本的构成特点,编写正则表达式进行初步的名词提取。
专家校正:对正则表达式抽取的名词进行判断,去除错误结果。
S3,基于电力预案专业词典对电力预案文本进行实体和实体间关系抽取。
电力预案知识图谱属于封闭域知识图谱,与开放域知识图谱不同之处在于,图谱中的实体种类可以穷举并且属于电力领域的专业字词,而电力预案中的专业字词已经收录在电力预案专业词典中,因此可直接采用电力预案专业词典进行实体的检索和抽取,具体包括:
步骤S3-1,首先基于电力预案专业词典对电力预案文本进行分词处理。
在Python环境下使用自然语言处理工具包LTP结合电力预案专业词典对电力预案文本进行分词,通过导入电力预案专业词典可以避免日常用语的干扰,提高分词的准确率。
步骤S3-2,对电力预案文本中的每个词进行词性标注。
利用常用词典(通用领域的词典)与电力预案专业词典中词的词性对电力预案文本中的所有的词进行标注,词性标注也有助于实体的提取。
将所有词分为五类:①描述电力系统中厂站设备的名词,词性为En(entity实体);②描述预案处置动作的动词,词性为Pv(Property属性verb动词);③电力预案文本中表示指标的词,词性为Pn(Property属性norm指标);④描述指标数量的量词,词性为Pq(Property属性quantity数量)。⑤除以上四类之外的其他词。
步骤S3-3,对步骤S3-2的词性标注结果进行实体抽取。
将分词、词性标注之后的词逐一在电力预案专业词典中进行检索,若能检索到匹配项,则抽取该词表示的实体作为知识图谱的实体。
以上步骤完成实体抽取后,还需对实体间的关系进行抽取。
本实施例中,使用引入注意力机制的双向门控循环结构的深度学习模型进行实体间关系抽取;所述的关系抽取方法针对电力预案文本做了如下改进:
1)使用双向门控循环结构代替传统的双向长短时记忆神经网络,相比双向长短时记忆神经网络,双向门控循环结构在取得相同分类效果的同时拥有更快的训练速度。
2)在双向门控循环结构的基础上引入字符注意力机制与句字级注意力机制,注意力机制通过权重向量加深对关系分类起重要影响的成分,以提升分类准确度。
图2为本发明实施例针对电力预案文本关系抽取的注意力机制的双向门控循环结构网络模型示意图。如图2所示,网络模型的输入为完整的句子以及句中的实体对,输出为句中实体关系类别,文本输入后首先会进行分词处理然后再映射为相应的词向量随后进行网络计算。本实施例的字符级注意力机制和句子级注意力机制能有效提高关系分类问题,除此之外双向门控循环结构网络的巧妙设计也避免了RNN网络的长期依赖问题。
模型框架结构包括:
201.输入层,输入层对原始的电力预案文本进行分词处理,将电力预案文本中连续的字序列按照一定的规范重新组合成词序列,将词序列结果送入嵌入层。
202.嵌入层,嵌入层将词序列转换成对应的向量,形成电力预案文本的向量表示。
设输入的文本词序列为T={w1,...,w|T|},|T|表示输入文本中词语的总数,w表示输入文本中的词语。嵌入层将词序列T映射成对应的词向量{x1,...,x|T|},其中,每个词向量x都来自于预训练词向量表V={x1,...,x|V|},|V|表示预训练词向量的总数。在本实施例中,词语的预训练词向量表V是通过Word2Vec在维基百科中文语料库上进行训练得到。
词序列映射成对应的词向量的过程为:在预训练词向量表V查找文本词序列T={w1,...,w|T|}中每个词w对应的向量表示x∈R1×d,其中d表示词向量的维度,找到所有词的向量表示后,文本序列T的向量最终表示为{x1,...,x|T|}∈R|T|×d。
203.模型,模型由双向GRU、字与句子的双重注意力层组成。
由嵌入层传入的向量先通过双向GRU获取高层特征;字符级的注意力层能够自动发现那些对于分类起到关键作用的词生成一个权重向量,通过与这个权重向量相乘,使每一次迭代中的词汇级的特征合并为句子级的特征;句子级的注意力层给不同的句子不同的权重,去除一些噪声来提升分类器的性能。
GRU是一种改进的LSTM算法,它将遗忘门和输入门合并为一个更新门(z),并将数据状态和隐藏状态合并,使模型结构比LSTM更简单。标准的GRU模型结构的公式定义如下:
更新门(zt):zt=σ(Wzxt+Uzht-1+bz);
重置门(rt):rt=σ(Wrxt+Urht-1+br);
其中,σ表示sigmoid激活函数,通过激活函数的转换,使zt和rt的数值范围转换为[0,1];tanh表示双曲正切激活函数;符号表示元素对应相乘(Hadamard积);xt则表示该神经网络在t时刻的输入(即嵌入层输入的词向量),同时Wz、Wr、Wh和Uz、Ur、Uh分别为该模型的参数矩阵和循环权重,bZ、br和bh为偏置向量。
字符级注意力层:通过双向GRU得到了每一个时刻的输出hi,向量集合表示为H={h1,h2,...,hT},其中T为单词的个数。字符级注意力层找到对关系分类起重要作用的词,学习得到一个权重向量对这些词通过赋予权重以提高他们的重要性。具体处理过程为:首先,通过一个双曲正切激活函数将双向GRU输出的向量集合的映射到-1到1之间:M=tanh(H);之后通过一个SoftMax函数获取归一化的权重:α=SOFMAX(ωTM),其中是ω一个经过训练的参数向量;再乘以原始输出特征(向量集合H),增加特征的影响:r=HαT;最后将权重输出通过tanh映射:H*=tanh(r)。
句子级注意力层:给包含某一关系类别实体对的所有句子都分配权重,这个权重的大小代表着该句子包含着这种关系的概率。给不同的句子不同的权重,可以去除一些噪声来提升分类器的性能。每个句子的句子级注意力机制的权重定义为其中函数ei=Hi Ar体现了一个句子对于该关系的匹配程度,k表示句子的总数,i表示第i个句子;在函数ei=H*Ar中,Hi *表示第i个句子的句向量(即前面字符级注意力层的输出),A是表示权重的对角矩阵,r是代表着该关系的向量。e的大小取决于H*在r上的映射的大小,与该实体关系更加密切的句子可以取得更大的取值。经过句子级注意力层分配权值后,输出的句子特征向量表示为:V=αiH*。
204.关系分类,对203所获得的句子特征向量V送入SoftMax分类器,得到各类关系的可能概率,具体算法如下:
式中,Wk为权重,bk为偏置向量,K为类别数。
205.输出,将可能概率最大的关系类别做为句中实体间关系的类别输出。
本实施例中,关系抽取模型的训练过程与训练参数如下:
将已标注关系类别的电力预案文本数据集作为电力预案文本关系抽取训练集其中yi为每条电力预案文本,ei1,ei2为文本中出现的实体对,ri为实体对的关系类别,n为训练集中句子的数量。电力预案文本关系类别由电力专家分析形成,具体如下:
将数据集进行随机划分,按8:1:1的比例划分为训练集、验证集和测试集。
设置合适的训练参数训练模型,具体包括:
本实施例基于Tensorflow深度学习框架实现基于注意力机制的双向门控循环结构网络,其中预设100维的预训练词向量构成嵌入层,初始的学习率为0.002,为了防止模型在训练过程中出现过拟合,在网络中设置了0.5的随机失活率。训练过程分为5个epoch每个1000次迭代,使用GPU训练,时间与训练数据成正比。
S4,对抽取的信息进行融合处理得到融合信息;
本实施例中,融合处理包括:共指消歧和信息筛选。
共指消歧,即通过自然语言处理技术根据实体之间的语义相似度对其进行对齐,来消除实体的矛盾和歧义以及冗余率。为刻画表示实体/属性的词间的语义相似度,采用word2vec方法对电力预案文本进行训练,将词向量维度选为100维,得到语料中所有词对应的词向量,再通过计算词向量之间的余弦相似度,判断表示实体/属性的词间的相似程度。由于同义词必然是同词性且相似程度很高的词对,以此为依据将疑似同义词的词语收录在一个集合中,由此形成若干个同义词集。对每个同义词集进行人工纠正后选择一个词,作为集合内所有词的标准化名称,最后以同义词表的形式来表示同义词集。
信息筛选,判断抽取的信息是否已存在于知识图谱中,若存在则删除抽取到的冗余信息。
S5,基于融合信息构建电力预案知识图谱并进行可视化展示。
当电力预案信息融合完后,将电力预案融合信息利用开源的图数据库Neo-4j进行可视化展示得到电力预案知识图谱,该知识图谱中的每一个实体的定义以及层级结构的划分和实体关系链也会得到相应的实现。可扩展性是知识图谱的优点之一,当有新的预案文本时,按照步骤S3-S4进行类推迭代处理,可以得到新的电力预案融合信息,将其加入知识图谱中以丰富原有的知识图谱。
S6,利用构建好的电力预案知识图谱进行信息检索。
信息检索所完成的任务为:
根据一条电力系统运行记录,通过信息检索判断此时电力系统是否发生故障:若未发生故障则返回“无故障发生”信息;若发生故障则返回故障设备名称、故障名称、应采取的处置措施;具体包括:
步骤S6-1:输入一条电力系统运行记录,对运行记录进行分词处理,利用步骤3-2的方法找到分词结果中在步骤S3-3所述的前四类实体;
步骤S6-2:根据找到的词性标注结果为“En”的实体,在电力预案知识图谱中寻找对应的节点以及与其相关联的所有的知识三元组;
步骤S6-3:由于厂站/设备在正常运行时各个指标都在一定的正常范围内。根据“En-设备指标-Pn”、“Pn-故障阈值-Pq”三元组信息查询当前状态下厂站/设备的各项指标是否都在正常范围内,由此判断当前电力系统运行记录中是否发生是故障。如果厂站/设备的指标超过故障阈值,即判断厂站/设备发生故障,根据故障类型相应的“En-处置动作-Pv”、“Pv-处置动作对象-Pn”、“Pv-动作量化数值-Pq”等三元组信息返回故障发生时的处置措施。
实施例2
相应的,本发明的一种基于双向门控循环单元的电力预案知识图谱构建系统,包括:
文本数据获取模块,用于获取电力预案文本数据;
信息提取模块,用于对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
知识图谱构建模块,用于基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
本实施例装置中各模块的具体实现采取实施例1的实施方式。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (10)
1.一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,包括:
获取电力预案文本数据;
对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
2.根据权利要求1所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述获取电力预案文本数据后,还包括对获得的文本数据进行预处理,所述预处理包括:去除停用词和长句切分。
3.根据权利要求1所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述对电力预案文本进行实体抽取,包括:
对电力预案文本进行分词处理;
对电力预案文本中的每个词进行词性标注;
从词性标注结果中抽取实体。
4.根据权利要求3所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述词性包括五类,分别为:
描述电力系统中厂站设备的名词,词性为实体En;
描述预案处置动作的动词,词性为动词Pv;
电力预案文本中表示指标的词,词性为指标Pn;
描述指标数量的量词,词性为量词Pq;
除以上四类之外的其他词。
5.根据权利要求1所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述基于引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果,包括:
所述引入注意力机制的双向门控循环结构网络,包括:
输入层、嵌入层、双向门控循环结构网络、字符级注意力层、句子级注意力层、关系分类层和输出层;其中:
输入层:对电力预案文本进行分词处理,将得到的词序列结果送入嵌入层;
嵌入层:将词序列转换成对应的词向量;
双向门控循环结构网络:从输入的词向量中提取词特征;
字符级注意力层:提取对于分类起到关键作用的词特征,使词汇级的特征合并为句子级的特征;
句子级注意力层:提取对于分类起到关键作用的句子级特征,得到句子特征向量;
关系分类层:将句子特征向量送入分类器,得到各类关系的可能概率;
输出层:将可能概率最大的关系类别做为句中实体间关系的类别输出。
6.根据权利要求5所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述双向门控循环结构网络中从输入的词向量中提取词特征,包括:
GRU网络的公式定义如下:
更新门(zt):zt=σ(Wzxt+Uzht-1+bz);
重置门(rt):rt=σ(Wrxt+Urht-1+br);
7.根据权利要求6所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,所述字符级注意力层中提取对于分类起到关键作用的词特征,使词汇级的特征合并为句子级的特征,包括:
首先,通过一个双曲正切激活函数将双向GRU输出的向量集合的映射到-1到1之间:M=tanh(H),其中向量集合H={h1,h2,...,hT},hi为双向GRU得到了每一个时刻的输出,T为单词的个数;
通过一个SoftMax函数获取归一化的权重:α=SOFMAX(ωTM),其中是ω一个经过训练的参数向量;
再乘以向量集合H,增加特征的影响:r=HαT;
最后将权重输出通过tanh映射:H*=tanh(r)。
9.根据权利要求1所述的一种基于双向门控循环单元的电力预案知识图谱构建方法,其特征是,还包括利用电力预案知识图谱进行信息检索,包括:
获取待检索的电力系统运行记录,对运行记录进行分词处理,找到分词结果中实体;
在电力预案知识图谱中寻找此实体对应的节点以及与其相关联的所有的知识三元组;
基于所有的知识三元组判断此时电力系统是否发生故障,以及故障发生时的处置措施。
10.一种基于双向门控循环单元的电力预案知识图谱构建系统,其特征是,包括:
文本数据获取模块,用于获取电力预案文本数据;
信息提取模块,用于对电力预案文本进行实体和实体间关系抽取;其中实体间关系抽取是基于预先训练的引入注意力机制的双向门控循环结构网络,抽取得到实体间关系结果;
知识图谱构建模块,用于基于抽取得到的实体和实体间关系,构建电力预案知识图谱并进行可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010928917.3A CN112100397A (zh) | 2020-09-07 | 2020-09-07 | 基于双向门控循环单元的电力预案知识图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010928917.3A CN112100397A (zh) | 2020-09-07 | 2020-09-07 | 基于双向门控循环单元的电力预案知识图谱构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100397A true CN112100397A (zh) | 2020-12-18 |
Family
ID=73757575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010928917.3A Pending CN112100397A (zh) | 2020-09-07 | 2020-09-07 | 基于双向门控循环单元的电力预案知识图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100397A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836018A (zh) * | 2021-02-07 | 2021-05-25 | 北京联创众升科技有限公司 | 应急预案的处理方法及装置 |
CN113064999A (zh) * | 2021-03-19 | 2021-07-02 | 南方电网调峰调频发电有限公司信息通信分公司 | 基于it设备运维的知识图谱构建算法、系统、设备及介质 |
CN113283704A (zh) * | 2021-04-23 | 2021-08-20 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
CN113360641A (zh) * | 2021-05-07 | 2021-09-07 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 一种基于深度学习的电网故障处置预案语义建模系统及方法 |
CN113609305A (zh) * | 2021-07-27 | 2021-11-05 | 三峡大学 | 基于bert的影视作品地域知识图谱构建方法及系统 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN115292518A (zh) * | 2022-08-18 | 2022-11-04 | 国家电网有限公司 | 基于知识型信息抽取的配电网故障处理方法及系统 |
CN117744787A (zh) * | 2024-02-20 | 2024-03-22 | 中国电子科技集团公司第十研究所 | 一阶研判规则知识合理性的智能度量方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
CN110825881A (zh) * | 2019-09-26 | 2020-02-21 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
-
2020
- 2020-09-07 CN CN202010928917.3A patent/CN112100397A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
CN110825881A (zh) * | 2019-09-26 | 2020-02-21 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
Non-Patent Citations (1)
Title |
---|
张志昌: "《融合双向GRU与注意力机制的医疗实体关系识别》", 《计算机工程》, vol. 46, no. 6, 30 June 2020 (2020-06-30), pages 296 - 302 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836018A (zh) * | 2021-02-07 | 2021-05-25 | 北京联创众升科技有限公司 | 应急预案的处理方法及装置 |
CN113064999A (zh) * | 2021-03-19 | 2021-07-02 | 南方电网调峰调频发电有限公司信息通信分公司 | 基于it设备运维的知识图谱构建算法、系统、设备及介质 |
CN113064999B (zh) * | 2021-03-19 | 2023-12-15 | 南方电网调峰调频发电有限公司信息通信分公司 | 基于it设备运维的知识图谱构建算法、系统、设备及介质 |
CN113283704A (zh) * | 2021-04-23 | 2021-08-20 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
CN113283704B (zh) * | 2021-04-23 | 2024-05-14 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
CN113360641A (zh) * | 2021-05-07 | 2021-09-07 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 一种基于深度学习的电网故障处置预案语义建模系统及方法 |
CN113360641B (zh) * | 2021-05-07 | 2023-05-30 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 一种基于深度学习的电网故障处置预案语义建模系统及方法 |
CN113609305B (zh) * | 2021-07-27 | 2024-04-26 | 三峡大学 | 基于bert的影视作品地域知识图谱构建方法及系统 |
CN113609305A (zh) * | 2021-07-27 | 2021-11-05 | 三峡大学 | 基于bert的影视作品地域知识图谱构建方法及系统 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN115292518A (zh) * | 2022-08-18 | 2022-11-04 | 国家电网有限公司 | 基于知识型信息抽取的配电网故障处理方法及系统 |
CN117744787B (zh) * | 2024-02-20 | 2024-05-07 | 中国电子科技集团公司第十研究所 | 一阶研判规则知识合理性的智能度量方法 |
CN117744787A (zh) * | 2024-02-20 | 2024-03-22 | 中国电子科技集团公司第十研究所 | 一阶研判规则知识合理性的智能度量方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100397A (zh) | 基于双向门控循环单元的电力预案知识图谱构建方法及系统 | |
Ni et al. | Sentiment Analysis based on GloVe and LSTM-GRU | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN113988075A (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
CN116244448A (zh) | 基于多源数据信息的知识图谱构建方法、设备及系统 | |
CN115033705A (zh) | 电网调控风险预警信息知识图谱设计方法及系统 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Ding et al. | A knowledge-enriched and span-based network for joint entity and relation extraction | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
Behere et al. | Text summarization and classification of conversation data between service chatbot and customer | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN111090999A (zh) | 电网调度预案的信息抽取方法及系统 | |
Liu et al. | Research on entity relation extraction based on BiLSTM-CRF classical probability word problems | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
CN111221966A (zh) | 一种文本语义关系提取方法及系统 | |
Zhang et al. | A method of constructing knowledge graph for government procurement system | |
Liu et al. | Knowledge Engineering Research Topic Mining Based on Co-word Analysis. | |
Feifei et al. | Intelligent question and answer analysis model of power ICT based on BI-LSTM-CRF | |
Meng et al. | Research on Question Answering for Knowledge graph of Aircraft PHM Fault | |
Liu et al. | Intelligent generation method of emergency plan based on knowledge graph | |
CN117056459B (zh) | 一种向量召回方法和装置 | |
Kuang et al. | Long Text QA Matching Based on ESIM of Fusion Convolution Feature | |
Na et al. | A Transfer Learning based Model for Knowledge Graph in Power Grid | |
Zhang et al. | Construction and application of aerospace quality knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |