CN117668250A - 避雷器故障的知识图谱构建方法、装置、设备及存储介质 - Google Patents
避雷器故障的知识图谱构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117668250A CN117668250A CN202311675333.XA CN202311675333A CN117668250A CN 117668250 A CN117668250 A CN 117668250A CN 202311675333 A CN202311675333 A CN 202311675333A CN 117668250 A CN117668250 A CN 117668250A
- Authority
- CN
- China
- Prior art keywords
- data
- fault
- entity
- event
- triplet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 21
- 238000002372 labelling Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 239000000758 substrate Substances 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 14
- 238000003745 diagnosis Methods 0.000 abstract description 8
- 230000005540 biological transmission Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- XLOMVQKBTHCTTD-UHFFFAOYSA-N Zinc monoxide Chemical compound [Zn]=O XLOMVQKBTHCTTD-UHFFFAOYSA-N 0.000 description 6
- 238000009413 insulation Methods 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004140 cleaning Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 239000011787 zinc oxide Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种避雷器故障的知识图谱构建方法、装置、设备及存储介质,包括:获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;对故障数据进行事件抽取,得到事件三元组数据;对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。本申请例通过避雷器故障数据抽取实体三元组和事件三元组,并对所有实体三元组和事件三元组进行融合,即可得到避雷器的故障的目标知识图谱。通过该目标知识图谱可以便于对避雷器进行故障诊断和维护,提高避雷器故障的诊断效率和准确性。
Description
技术领域
本申请涉及避雷器维护及人工智能技术领域,尤其涉及一种避雷器故障的知识图谱构建方法、装置、设备及存储介质。
背景技术
随着电力传输技术的发展,电力系统的长距离传输不可避免,为确保电力系统在恶劣天气下的稳定运行,必须在杆塔顶部加装避雷器。避雷器结构复杂,外部损伤因素多,现有避雷器种类繁多,如氧化锌避雷器、阀型避雷器等。每一种避雷器的工作方式不同,但本质上是一样的,即对通讯电缆及传输设备进行保护。
目前,避雷器故障处置主要依赖于维修人员的主观决策。故障发生时,维修人员需要查阅大量故障预案、调度规程以及电网缺陷等文本数据,这种故障处置方式及其容易受限于时间、人员数量,故障处置成本很高,并且执行效率低且准确性无法保证。
发明内容
本申请的主要目的在于提供一种避雷器故障的知识图谱构建方法、装置、设备及存储介质,可以解决现有技术中避雷器故障的故障处置成本高执行效率低的技术问题。
为实现上述目的,本申请第一方面提供一种避雷器故障的知识图谱构建方法,该方法包括:
获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;
对故障数据进行事件抽取,得到事件三元组数据;
对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
为实现上述目的,本申请第二方面提供一种避雷器故障的知识图谱构建装置,该装置包括:
数据获取模块,用于获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
第一抽取模块,用于利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;
第二抽取模块,用于对故障数据进行事件抽取,得到事件三元组数据;融合模块,用于对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
为实现上述目的,本申请第三方面提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;
对故障数据进行事件抽取,得到事件三元组数据;
对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
为实现上述目的,本申请第四方面提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;
对故障数据进行事件抽取,得到事件三元组数据;
对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
采用本申请实施例,具有如下有益效果:
本申请通过避雷器故障数据抽取实体三元组和事件三元组,并对所有实体三元组和事件三元组进行融合,即可得到避雷器的故障的目标知识图谱。通过该目标知识图谱可以便于对避雷器进行故障诊断和维护,提高避雷器故障的诊断效率和准确性,解决现有技术中避雷器故障处置并且维修成本很高,并且执行的效率低,准确性无法保证的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本申请实施例中避雷器故障的知识图谱构建方法的流程图;
图2为本申请实施例中实体抽取模型的结构框图;
图3为本申请实施例中融合的示意图;
图4为本申请实施例中避雷器故障的知识图谱构建装置的结构框图;
图5为本申请实施例中计算机设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,在一个实施例中,提供了一种避雷器故障的知识图谱构建方法,该避雷器故障的知识图谱构建方法具体包括如下步骤:
S100:获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种。
具体地,故障数据包括多条,每条故障数据为结构化数据、半结构化数据及非结构化数据中的一种。结构化数据包括关系型数据、链接数据等其中的一种或多种,更具体地,例如Excel表中的数据、关系型数据库中的数据,例如Mysql、Oracle、Microsoft Access等、面向对象数据库等存储的数据。半结构化数据包括xml数据、JSON数据、百科数据等其中的一种或多种,非结构化数据包括图片、普通格式的文章或句子、维修记录等文本信息数据。
结构化数据例如包括避雷器的故障代码、日期和时间、电压、电流数据、故障类型。
半结构化数据包括根据避雷器的故障报告及日志文件等得到的数据,本申请对此不做限制。
非结构化数据包括根据避雷器的技术手册及专家经验等得到的数据,本申请对此不做限制。
获取有关避雷器的故障数据后,对所有类型的故障数据进行筛选、清洗、整合以及标注等数据预处理操作,以便于后续的知识图谱构建和分析;其中非结构化的文本数据采用自然语言处理技术进行分词,剔除无意义的词,以获取规范化数据,即得到与避雷器故障相关的规范化的词汇或者句子。对于非结构化的图片则通过图像文本识别提取出文本数据,并采用自然语言处理技术进行分词,剔除无意义的词,以获取规范化数据,即得到与避雷器故障相关的规范化的词汇或者句子。
S200:利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据。
具体地,每个实体三元组数据包括一对实体和1个关系,即,“实体”-“关系”-“实体”。
实体抽取模型用于抽取故障数据中的实体和关系,并构建实体三元组数据。
例如:从“避雷器发生阀片烧损”中提取出“避雷器”、“烧损”、“阀片”;从“均压环失效”中抽取出“避雷器”、“均压环”、“失效”;从“电阻片损坏”中抽取出“避雷器”、“电阻片”、“损坏”。
S300:对故障数据进行事件抽取,得到事件三元组数据。
具体地,事件三元组数据为“元素”-“逻辑”-“元素”的事件三元组数据。
事件三元组数据即EventTriplesExtraction,是基于依存句法与语义角色标注抽取的。
S400:对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
具体地,在融合过程中,将得到的实体三元组数据中的实体作为实体指称项,在实体指称项的基础上,执行实体消歧与共指消解,并将实体指称词项链到知识库中的相应实体。当然还可以使用宾语冲突消解等方法,本申请对此不做限制。
另外,基于实体三元组数据对实体进行对齐操作,由此获取实体对齐的知识库。
从知识库中已有的实体关系数据出发,采用基于逻辑的推理和基于图的推理,建立实体间的新关联,从而拓展和丰富知识网络。推理方法如下:
基于逻辑的推理方法主要包括一阶谓词逻辑、描述逻辑以及基于规则的推理。一阶谓词逻辑建立在命题的基础上,其中命题被分解为个体和谓词两个部分,个体代表着可以独立存在的实体,可以是一个具体的实物,也可以是一个抽象的实体。
基于图的推理:基于神经网络模型或Path Ranking算法,将知识库中的实体表达为词向量的形式,进而采用神经张量网络模型进行关系推理。
在完成避雷器故障的知识图谱的构建后,可以采用Neo4j图数据库等不局限于此的形式将目标知识图谱存储起来。
根据实体三元组数据可以得到避雷器知识图谱,根据事件三元组数据可以得到避雷器故障事件图谱。将避雷器知识图谱和避雷器故障事件图谱两个图谱进行融合,得到目标知识图谱,完成避雷器故障的知识图谱构建。
示例性的,采用Neo4j图数据库进行存储;从知识库中已有的实体关系数据出发,经过计算机推理,建立与避雷器实体间的新关联;将经过推理的知识经过质量评估之后加入知识库。
另外,在数据驱动下,还可以通过新增实体三元组和事件三元组,对已得到的知识图谱进行更新或重构,以不断完善避雷器的知识图谱。
图3为本申请实施例中融合的示意图;参考图3,知识三元组数据即实体三元组数据,知识三元组数据包括实体1-关系-实体2,事件三元组数据包括元素1-逻辑-元素2,通过融合,得到实体1-实体2-元素1-元素2-关系-逻辑之间的图谱片段。
在一个具体实施例中,可以以测试设备为基础,收集避雷器的各种数据,通过知识的融合,确定了实体、属性和关系的设计;在获取避雷器故障相关数据的基础上,通过采集各数据库中的结构化、半结构化、无结构化数据,对其进行实体消歧、模式匹配,并将其与知识库中对应的正确实体进行关联。在此基础上,利用第三方知识库或现有结构化数据,对避雷器进行词性标注和命名实体识别等知识的处理,实现避雷器故障的自动识别。
采用Neo4j图数据库对抽取出的数据进行存储进而构建出知识图谱。根据知识抽取结果,以数据驱动的方法构建数据所对应避雷器的本体库;利用已存在于知识库中的实体数据,通过计算推理,创建新的关联,将其于避雷器实体之间建立连接;将经过推理的知识经过质量评估之后加入知识库;根据知识抽取结果,基于云数据库在Neo4j图形数据库中创建图、节点和关系。
本实施例能有效的挖掘避雷器故障中的操作特性和机械状态,如避雷器发生阀片烧损、均压环失效、电阻片损坏等不可逆故障时,导致避雷器泄漏电流、阀片击穿、机械振动等发生改变;根据不同故障情况,利用云数据平台形成知识图谱,进行可视化,知识图谱将关联现有电网中大量的半结构化和非结构化文本数据,从而提升了处理避雷器故障的效率。这使得需要对避雷器进行维护和维修的操作变得更加简洁。
本实施例通过避雷器故障数据抽取实体三元组和事件三元组,并对所有实体三元组和事件三元组进行融合,即可得到避雷器的故障的目标知识图谱。通过该目标知识图谱可以便于对避雷器进行故障诊断和维护,提高避雷器故障的诊断效率和准确性,解决现有技术中避雷器故障处置并且维修成本很高,并且执行的效率低,准确性无法保证的技术问题。
在一个实施例中,步骤S200中利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据,包括:
运用DMCNN-BiLSTM-CRF模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据。
具体地,实体抽取模型为DMCNN-BiLSTM-CRF模型,具体为动态多池化卷积神经网络-双向长短期记忆网络-条件随机场模型。
DMCNN网络即动态多池化卷积神经网络,它是一种卷积神经网络模型。DMCNN网络引入了动态多池化层,这种网络结构能够自适应地对输入文本进行多尺度的池化操作,在本发明中,DMCNN可以通过卷积操作提取文本中的局部特征,并通过动态多池化层自适应地对不同长度的句子进行池化,从而更好地捕获句子中的关键信息,从而得到语义较强词语或者词组。
DMCNN模型可以直接挖掘句子内部词语的语义组合关系,获取词语之间的句法、语义的特点,在NLP任务中能够更好地利用单词组合甚至是短语的信息,对神经网络处理文本信息的效果有显著提升,从而在各种自然语言处理任务中得到认可。
BiLSTM即双向长短期记忆网络,是双向长短期记忆网络(BiLSTM):LSTM是一种特殊的循环神经网络(RNN),能够有效地处理序列数据,并且在处理长距离依赖关系时不易出现梯度消失或梯度爆炸的问题。在本发明中,通过在每个时间步使用双向的LSTM网络,分别从前向和后向对输入序列进行建模,从而能够双向捕捉到序列中的上下文信息。
BiLSTM-CRF模型可以用更少的参数量和计算量获取输入序列中短距离和远距离相互之间的信息,因此在NLP任务中,使用BiLSTM-CRF模型可以提高计算效率,对于相同长度的输入序列,使用BiLSTM-CRF模型能够更容易捕捉词与词之间的关系从而简化模型,从而以更快的速度获取成型的词语。
CRF网络即条件随机场模型,CRF是一种概率图模型,常用于对序列数据进行标注。CRF能够对整个标注序列进行全局建模,考虑标签之间的依赖关系,从而提高了标注的一致性和准确性,在本发明中,该模型通过训练之后,可将标注好的“实体”进行关系匹配,从而得到三元组数据。
在一个实施例中,该方法还包括:对实体抽取模型进行训练;
获取有关避雷器故障的历史数据,历史数据包括结构化、半结构化及非结构化数据中的至少一种,对所有历史数据进行筛选、清洗、整合以及标注等数据预处理操作;其中非结构化的文本数据采用自然语言处理技术进行分词、以及实体和实体关系的识别,以获取规范化数据,即得到与避雷器故障相关更大规范化的词汇或者句子。对预处理后的数据进行BIO标注和实体三元组标注,得到训练样本,利用该训练样本对预训练的实体抽取模型进行训练,得到已训练的实体抽取模型。
在一个实施例中,DMCNN-BiLSTM-CRF模型包括编码层、BiLSTM-CRF层、DMCNN层和CRF层;
步骤S200中利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据,包括:
对每组故障数据进行预处理,得到故障文本;
通过编码层对故障文本进行编码,得到输入的故障文本的字向量;
通过BiLSTM-CRF层对字向量进行标注预测,得到每个字的预测标注;
将字向量及对应的预测标注输入至DMCNN层,利用DMCNN层根据字向量和预测标注得到每个字的置信度得分;
将字向量及对应的置信度得分输入至CRF层,通过CRF层得到输入的故障文本的实体三元组。
具体地,图2为本申请实施例中实体抽取模型的结构框图;实体抽取模型包括编码层、BiLSTM-CRF层(即,BiLSTM+CRF层)、DMCNN层和CRF层。
编码层,用于对输入的故障文本进行分词和编码,得到每个字的字向量,字向量即字的向量表示,并将得到的字向量输入给BiLSTM-CRF层。
BiLSTM-CRF层,用于对每个字的标注进行预测,得到每个字的预测标注。其中,预测标注具体可以为预测的BIO标注。
将字向量和字向量对应的预测标注输入至DMCNN层,得到字的置信度得分。
将字的置信度得分及字向量输入到CRF层,得到该故障数据的实体三元组。
其中,将字向量输入到BiLSTM层,通过softmax将向量映射为一个n数值的分布概率,进而输出每个字的状态分数(Emission Score)。
将上述输出的Emission Score输入到BiLSTM-CRF层中的CRF模型中,同时加入约束条件Transition Score,利用CRF模型进行路径计算,路径计算公式如下:
其中,Pi,yi和Ay(i-1),yi分别表示标注序列y和yi的Emission Score和Transition Score,通过“BiLSTM的Emission Score”和“序列标注转移矩阵”可以得到每个字位置的得分,整个序列相加得到score(x,y),根据字的所有累加分数,得到每个字的BIO预测标注。
将上述预测标注以及整个文本输入DMCNN模型中,根据DMCNN模型中对标签的上下文单词特征、位置特征以及事件类型特征的训练,进而通过卷积捕获整个句子的语义信息,并通过特征图语义信息进行压缩
接着通过动态多池化层抽取句子中的不同部分的重要信息,最终输出整个文本中带有标签并且有权重的单词或者词组。
将上述输出的单词或者词组输入已经训练过的CRF模型中,构建“实体”-“关系”-“实体”的三元组数据,并输出三元组数据。
其中,预处理包括筛选、清洗、整合以及标注,以获取规范化数据,即得到与避雷器故障相关更大规范化的词汇或者句子。
在一个实施例中,利用DMCNN层根据字向量和预测标注得到每个字的置信度得分,包括:
获取每个字的上下文单词特征向量、位置特征向量和事件类型特征向量,
将上下文单词特征向量、位置特征向量和事件类型特征向量拼接为字的词级别特征,通过卷积和分段池化获取字的句子级语义特征,
将词级别特征和句子级语义特征输入至分类层,得到每个字的置信度得分。
具体地,上下文单词特征向量即词嵌入,位置特征向量即位置嵌入,事件类型特征向量即事件类型嵌入。
分段池化即动态池化。
最后分类层的输入是词级语义特征和分段卷积后的句子级语义特征,经过一个线性层就可以获得每个字的置信度分值。
词级别的语义特征仅是由触发词和候选论元以及它们左右的词的词嵌入特征拼接,可以把左右词的词嵌入看作local context,而句子级的语义特征则是globalcontext。
考虑到一个句子中可能存在多个事件,同一论元在不同事件中可能扮演不同的角色,因此用分段卷积的方式可以保留更多特征。
本申请运用DMCNN-BiLSTM-CRF模型对获取的数据进行知识抽取,得到所述目标知识图谱“实体-关系-实体”的三元组数据,例如在句子避雷器发生了绝缘击穿,通过DMCNN-BiLSTM-CRF模型可经编码层对文本编码后传入BiLSTM模型进行训练,通过模型寻找每个单词概率,再对标注好的概率的单词传入CRF模型中,根据CRF模型的概率组合,会得到“避雷器”、“发生”、“绝缘击穿”等字样,再将这些字样传入DMCNN模型中,同时将整个句子也传入DMCNN模型中,在DMCNN模型中进行训练之后,标签“避雷器”会变成实体,标签“发生”会变成关系型词语,标签“绝缘击穿”会变成动作实体,再将这几个标签输入CRF模型中,CRF模型会将标签进行组合得到“避雷器”-“发生”-“绝缘击穿”三元组数据,并将该三元组数据输出模型;
最后,根据所述三元组数据进行知识融合,得到所述目标知识图谱,完成避雷器故障的知识图谱的构建,利用这种方法挖掘避雷器的故障;根据不同故障情况,形成知识图谱,提高避雷器故障处理效率,使得需要对避雷器进行维护操作变得更加顺畅。
在一个实施例中,对故障数据进行事件抽取,得到事件三元组数据,包括:
运用事件抽取模型对故障数据进行事件抽取,得到事件三元组数据,其中,事件抽取模型是基于远程监督算法构建的。
具体地,远程监督算法即Distant Supervision方法或远程监督关系抽取“元素”-“逻辑”-“元素”的事件三元组。
Distant Supervision方法是基于回标假设规则。在训练阶段,该规则通过结构化事件知识对非结构化文本进行回标处理,并将回标后的文本作为标注样本,接着,利用这些标注样本训练事件抽取模型,从而实现事件的抽取。
Distant Supervison方法的步骤如下:
系统自动评估每个类型事件中元素的重要程度,并确定每个事件类型的核心事件元素;
使用核心元素作为标准,系统筛选出可能包含相应事件实例的句子,并检测其中的事件触发词;
通过语言学知识FrameNet对上一模块中发现的噪声触发词进行过滤,并扩展有效的触发词,以提高触发词的准确率和召回率;
利用远距离监督方法系统自动从非结构化文本中标注事件信息。
在一个实施例中,运用远程监督算法对故障数据进行事件抽取,得到事件三元组数据,包括:
利用远程监督算法根据故障数据以及故障数据的实体三元组,得到每个故障数据的词法特征、句法特征和实体标签特征;
分别对每个故障数据对应的词法特征、句法特征和实体标签特征进行拼接,得到每个故障数据的句子特征;
根据句子特征抽取出对应的事件三元组数据。
具体地,远程监督算法对于一个已有的知识图谱中的一个三元组(一对实体和一个关系构成),假设外部文档库中任何包含这对实体的句子,在一定程度上都反映了这种关系。远程监督算法可以基于一个标注好的小型知识图谱,给外部文档库中的句子标注关系标签,相当于做了样本的自动标注。
在一个实施例中,若故障数据包括结构化数据,则方法还包括:将结构化数据转换为类似三元组格式;
若故障数据包括半结构化数据,则方法还包括:将半结构化数据转换为第一预设格式的文本;
若故障数据包括非结构化数据,则方法还包括:将非结构化数据转换为第二预设格式的文本。
具体地,基于预设数据抽取规则从结构化数据库中抽取结构化数据,将抽取到的结构化数据按照预设格式转换算法进行数据转换,得到类似三元组格式的数据。例如,转换为RDF的三元组格式,进行数据存储。
示例性的,对于半结构化数据的抽取典型的有百度百科、互动百科、维基百科等站点存储的数据,还有诸如xml文件中存储的数据都是典型的半结构化数据。对于垂直领域的知识库构建能够利用的数据有诸如百度百科、以及电力领域的网站等,对诸如此类网站的数据进行抽取,转化为需要的存储形式,进而通过构建好的本体对本体进行实例化构建出电力行业的知识图谱。对于非结构化数据,非结构化的数据主要代指诸如文本、图片、视频等不具备预定的数据模式的数据,针对非结构化的文本文献数据进行抽取,主要采用自然语言处理方面的知识对文本中的数据进行抽取。
第一预设格式和第二预设格式相同或不同,为规范化的文本。
其中,结构化数据包括关系型数据及链接数据,半结构化数据包括Xml、JSON及百科数据,非结构化数据包括图片、文本信息等数据;结构化数据包括故障代码、日期和时间、电压、电流数据、故障类型以及维修记录等,半结构化数据包括故障报告及日志文件等,非结构化数据包括技术手册及专家经验。
结构化数据类似于只有两个实体,可能是在Excel表格那种,抬头是名称,名称下面是避雷器,下一个抬头是种类,种类下面是氧化锌避雷器,抽出来之后就成了“避雷器”-“种类”-“氧化锌避雷器”。
非结构化数据和半结构化处理成文本之后,就会得到一句话,或者单独一个词语,抽取的时候,就是以标点符号作为分隔,或者回车符号作为分隔,输入模型的时候是以句子为单位的,或者一个不包含主语的句子(缺少主谓宾其中一个或多个的句子),抽出来可能包含实体,关系,实体。
例如“避雷器发生了绝缘故障”,抽出来之后就变成了“避雷器”-“发生”-“绝缘故障”。
本申请的目标知识图谱用于互感器故障、断路器故障以及电力故障等知识图谱构建,用于解决设备故障网络图谱构建,可直观且迅速找到设备故障的相关信息;知识图谱三元组:用于寻找文本中与避雷器故障设备相关的实体以及实体间的关系。
参考图4,本申请还提供了一种避雷器故障的知识图谱构建装置,该装置包括:
数据获取模块100,用于获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
第一抽取模块200,用于利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;包括一对实体和1个关系
第二抽取模块300,用于对故障数据进行事件抽取,得到事件三元组数据;
融合模块400,用于对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
本实施例通过避雷器故障数据抽取实体三元组和事件三元组,并对所有实体三元组和事件三元组进行融合,即可得到避雷器的故障的目标知识图谱。通过该目标知识图谱可以便于对避雷器进行故障诊断和维护,提高避雷器故障的诊断效率和准确性,解决现有技术中避雷器故障处置并且维修成本很高,并且执行的效率低,准确性无法保证的技术问题。
在一个实施例中,第一抽取模块200,具体用于运用DMCNN-BiLSTM-CRF模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据。
在一个实施例中,DMCNN-BiLSTM-CRF模型包括编码层、BiLSTM-CRF层、DMCNN层和CRF层;
第一抽取模块200,具体包括:
预处理模块,用于对每组故障数据进行预处理,得到故障文本;
编码模块,用于通过编码层对故障文本进行编码,得到输入的故障文本的字向量;
标注预测模块,用于通过BiLSTM-CRF层对字向量进行标注预测,得到每个字的预测标注;
得分预测模块,用于将字向量及对应的预测标注输入至DMCNN层,利用DMCNN层根据字向量和预测标注得到每个字的置信度得分;
实体三元组抽取模块,用于将字向量及对应的置信度得分输入至CRF层,通过CRF层得到输入的故障文本的实体三元组。
在一个实施例中,得分预测模块包括:
第一特征获取模块,用于获取每个字的上下文单词特征向量、位置特征向量和事件类型特征向量;
第二特征获取模块,用于将上下文单词特征向量、位置特征向量和事件类型特征向量拼接为字的词级别特征,通过卷积和分段池化获取字的句子级语义特征;
置信度得分模块,用于将词级别特征和句子级语义特征输入至分类层,得到每个字的置信度得分。
在一个实施例中,第二抽取模块300,具体用于运用事件抽取模型对故障数据进行事件抽取,得到事件三元组数据,其中,事件抽取模型是基于远程监督算法构建的。
在一个实施例中,第二抽取模块300,具体包括:
第三特征获取模块,用于利用远程监督算法根据故障数据以及故障数据的实体三元组,得到每个故障数据的词法特征、句法特征和实体标签特征;
拼接模块,用于分别对每个故障数据对应的词法特征、句法特征和实体标签特征进行拼接,得到每个故障数据的句子特征;
事件三元组抽取模块,用于根据句子特征抽取出对应的事件三元组数据。
在一个实施例中,若故障数据包括结构化数据,则该装置还包括:第一转换模块,用于将结构化数据转换为类似三元组格式;
若故障数据包括半结构化数据,则该装置还包括:第二转换模块,用于将半结构化数据转换为第一预设格式的文本;
若故障数据包括非结构化数据,则该装置还包括:第三转换模块,用于将非结构化数据转换为第二预设格式的文本。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述方法实施例中的各个步骤。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法实施例中的各个步骤。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;
对故障数据进行事件抽取,得到事件三元组数据;
对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取与避雷器故障相关的故障数据,其中,故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
利用实体抽取模型对故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;
对故障数据进行事件抽取,得到事件三元组数据;
对实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种避雷器故障的知识图谱构建方法,其特征在于,所述方法包括:
获取与避雷器故障相关的故障数据,其中,所述故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
利用实体抽取模型对所述故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;
对所述故障数据进行事件抽取,得到事件三元组数据;
对所述实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述利用实体抽取模型对所述故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据,包括:
运用DMCNN-BiLSTM-CRF模型对所述故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据。
3.根据权利要求2所述的方法,其特征在于,所述DMCNN-BiLSTM-CRF模型包括编码层、BiLSTM-CRF层、DMCNN层和CRF层;
所述利用实体抽取模型对所述故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据,包括:
对每组故障数据进行预处理,得到故障文本;
通过编码层对故障文本进行编码,得到输入的故障文本的字向量;
通过BiLSTM-CRF层对所述字向量进行标注预测,得到每个字的预测标注;
将所述字向量及对应的预测标注输入至DMCNN层,利用所述DMCNN层根据所述字向量和预测标注得到每个字的置信度得分;
将所述字向量及对应的置信度得分输入至CRF层,通过所述CRF层得到所述输入的故障文本的实体三元组。
4.根据权利要求3所述的方法,其特征在于,所述利用所述DMCNN层根据所述字向量和预测标注得到每个字的置信度得分,包括:
获取每个字的上下文单词特征向量、位置特征向量和事件类型特征向量;
将所述上下文单词特征向量、位置特征向量和事件类型特征向量拼接为字的词级别特征,通过卷积和分段池化获取字的句子级语义特征;
将所述词级别特征和句子级语义特征输入至分类层,得到每个字的置信度得分。
5.根据权利要求1所述的方法,其特征在于,所述对所述故障数据进行事件抽取,得到事件三元组数据,包括:
运用事件抽取模型对所述故障数据进行事件抽取,得到事件三元组数据,其中,所述事件抽取模型是基于远程监督算法构建的。
6.根据权利要求5所述的方法,其特征在于,所述运用事件抽取模型对所述故障数据进行事件抽取,得到事件三元组数据,包括:
利用远程监督算法根据故障数据以及故障数据的实体三元组,得到每个故障数据的词法特征、句法特征和实体标签特征;
分别对每个故障数据对应的所述词法特征、句法特征和实体标签特征进行拼接,得到每个故障数据的句子特征;
根据所述句子特征抽取出对应的事件三元组数据。
7.根据权利要求1所述的方法,其特征在于,
若所述故障数据包括结构化数据,则所述方法还包括:将结构化数据转换为类似三元组格式;
若所述故障数据包括半结构化数据,则所述方法还包括:将半结构化数据转换为第一预设格式的文本;
若所述故障数据包括非结构化数据,则所述方法还包括:将非结构化数据转换为第二预设格式的文本。
8.一种避雷器故障的知识图谱构建装置,其特征在于,所述装置包括:
数据获取模块,用于获取与避雷器故障相关的故障数据,其中,所述故障数据包括结构化数据、半结构化数据及非结构化数据中的至少一种;
第一抽取模块,用于利用实体抽取模型对所述故障数据进行知识实体抽取,得到待生成的目标知识图谱的实体三元组数据;
第二抽取模块,用于对所述故障数据进行事件抽取,得到事件三元组数据;
融合模块,用于对所述实体三元组数据和事件三元组数据进行知识融合,得到避雷器故障的目标知识图谱。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311675333.XA CN117668250A (zh) | 2023-12-07 | 2023-12-07 | 避雷器故障的知识图谱构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311675333.XA CN117668250A (zh) | 2023-12-07 | 2023-12-07 | 避雷器故障的知识图谱构建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117668250A true CN117668250A (zh) | 2024-03-08 |
Family
ID=90080400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311675333.XA Pending CN117668250A (zh) | 2023-12-07 | 2023-12-07 | 避雷器故障的知识图谱构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117668250A (zh) |
-
2023
- 2023-12-07 CN CN202311675333.XA patent/CN117668250A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11321364B2 (en) | System and method for analysis and determination of relationships from a variety of data sources | |
Rudin et al. | A process for predicting manhole events in Manhattan | |
US20220050967A1 (en) | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background | |
WO2021072852A1 (zh) | 序列标注方法、系统和计算机设备 | |
CN116821318B (zh) | 基于大语言模型的业务知识推荐方法、装置及存储介质 | |
Amer et al. | Automatic understanding of construction schedules: Part-of-activity tagging | |
CN112883286A (zh) | 基于bert的新冠肺炎疫情微博情感分析方法、设备、介质 | |
Li et al. | A method for resume information extraction using bert-bilstm-crf | |
Yi et al. | Pre-trained BERT-GRU model for relation extraction | |
CN115577678A (zh) | 文档级事件因果关系识别方法、系统、介质、设备及终端 | |
CN116010619A (zh) | 一种复杂装备知识图谱构建过程中的知识抽取方法 | |
Qu et al. | Knowledge-driven recognition methodology for electricity safety hazard scenarios | |
CN114757178A (zh) | 核心产品词提取方法、装置、设备及介质 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
Gao et al. | Chinese causal event extraction using causality‐associated graph neural network | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN115757695A (zh) | 一种日志语言模型训练方法及系统 | |
CN117668250A (zh) | 避雷器故障的知识图谱构建方法、装置、设备及存储介质 | |
CN115062619A (zh) | 中文实体链接方法、装置、设备及存储介质 | |
CN114998041A (zh) | 理赔预测模型的训练方法和装置、电子设备及存储介质 | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
Li et al. | Chinese named entity recognition for hazard and operability analysis text | |
Chao et al. | Research on Test Case Generation Method of Airborne Software Based on NLP | |
Noursalehi et al. | Machine-learning-augmented analysis of textual data: application in transit disruption management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |