CN118114663A

CN118114663A - 一种电力故障领域实体自动抽取方法、系统、设备及介质

Info

Publication number: CN118114663A
Application number: CN202410290899.9A
Authority: CN
Inventors: 吴琼; 刘东磊; 孙永锋; 高方玉; 王兴勋; 张胜; 解玉文; 岳成磊; 朱佳航
Original assignee: China Electric Equipment Group Co ltd; Beijing Guowang Fuda Technology Development Co Ltd
Current assignee: China Electric Equipment Group Co ltd; Beijing Guowang Fuda Technology Development Co Ltd
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-05-31

Abstract

本发明公开了一种电力故障领域实体自动抽取方法、系统、设备及介质，涉及电网检修领域，该方法包括：将目标故障报告文件转换为文本格式；采用领域词典表对目标故障文本分词得到目标词语；对目标词语编码得到目标编码向量；将目标词语和目标编码向量输入实体抽取模型中，得到目标故障报告文件的实例抽取结果；实体抽取模型用于：将目标词语转换为目标词向量，并提取目标词向量的语义向量，得到目标语义向量；采用注意力加权机制将目标编码向量和目标语义向量进行加权融合，得到目标融合向量；根据目标融合向量对目标故障报告文件进行实例实体判别，预测目标故障报告文件的实例抽取结果。本发明能提升电力故障领域实体自动抽取的准确性。

Description

一种电力故障领域实体自动抽取方法、系统、设备及介质

技术领域

本发明涉及电网检修领域，特别是涉及一种电力故障领域实体自动抽取方法、系统、设备及介质。

背景技术

电网检修是对电网设备进行定期的检查、维护和修理，以确保电网的安全、稳定和高效运行。电网检修工作是保障电力系统正常运行的重要环节，它涉及到对输电、配电和发电等各个环节的设备进行检查和维护。电网检修工作的主要内容包括：定期对电网设备进行巡视检查，发现设备的异常情况，及时进行处理；根据设备的运行情况和厂家的维护建议，进行定期的保养和维护工作，如清洁、润滑、更换易损件等，以确保设备的正常运行；当电网设备出现故障时，需要及时进行诊断和处理，包括确定故障原因、定位故障点、排除故障等。最后电网检修会形成故障报告。

电网检修作为保障电力安全传输的重要手段，每年都投入了大量的人力物力资源开展电网检修工作。随着电网建设规模的不断扩大，设备数量日益增加、电网结构日益复杂以及员工人数的短缺，现阶段的电力企业难以保障电网检修工作的有序、高效、优质开展。而且电力公司在开展设备运行检修过程中积累了大量长文本数据，包括设备故障报告、试验检测报告、标准导则等，这些文本数据实现了文档归集，但历史数据中蕴含的知识价值未得到深入挖掘。

近年来，电网智能化运行成了电网企业提升运营能力的重要途径。因此电网检修向智能化迈进是迫切且必需的，有必要将人工智能技术和知识图谱技术应用于其中，将电网企业积累的设备故障记录中零散的故障检修知识形式化，以达到故障报告的有效复用。

知识图谱自动构建技术是一种基于自然语言处理技术自动抽取文本中的知识，创建和维护知识图谱的方法，旨在从结构化和非结构化数据中提取有用信息，并将其组织成一个图结构，以便于机器理解和处理。命名实体识别(NER，Named Entity Recognition)技术是面向电力垂直领域的知识图谱自动构建技术的关键步骤。实体抽取使用序列标注等模型从文本数据集中自动识别出命名实体(比如设备名称，部件名称)，一般采用BERT(Bidirectional Encoder Representations from Transformers)文本表示+LSTM-CRF序列标注的模型架构。然而目前的电力设备故障实体自动抽取方法在抽取电力领域实体方面效果不佳，主要面临如下问题：一是实体描述多样性，设备故障的描述可能因制造商、设备类型、故障等级等因素而存在多样性，自动抽取方法需要具备较强的泛化能力，以适应各种不同的描述风格。二是实体描述歧义，设备故障文本中可能存在歧义，如“开关故障”可能指的是开关本身的故障，也可能是开关操作故障。这就需要抽取模型能够理解上下文，消除歧义。三是语义理解方面，设备故障描述中会出现一些模糊的描述，如“设备异常”等，这需要抽取模型能够结合上下文，理解其具体含义。

综上，如何提升电力故障领域实体自动抽取的准确性成为目前亟待解决的问题。

发明内容

基于此，本发明实施例提供一种电力故障领域实体自动抽取方法、系统、设备及介质，以提升电力故障领域实体自动抽取的准确性。

为实现上述目的，本发明实施例提供了如下方案：

一种电力故障领域实体自动抽取方法，包括：

获取目标故障报告文件；

将所述目标故障报告文件转换为文本格式，得到目标故障文本；

采用领域词典表对所述目标故障文本进行分词，得到目标词语；

对所述目标词语进行编码处理，得到目标编码向量；

将所述目标词语和所述目标编码向量输入实体抽取模型中，得到所述目标故障报告文件的实例抽取结果；

其中，所述实体抽取模型是基于深度学习的方法构建的；所述实体抽取模型用于：

将所述目标词语转换为目标词向量，并提取所述目标词向量的语义向量，得到目标语义向量；所述目标语义向量表征所述目标故障报告文件的上下文信息和动态记忆信息；

采用注意力加权机制将所述目标编码向量和所述目标语义向量进行加权融合，得到目标融合向量；

根据所述目标融合向量对所述目标故障报告文件进行实例实体判别预测所述目标故障报告文件的实例抽取结果。

可选地，所述实体抽取模型的确定方法，具体包括：

获取电力领域词典语料集；所述电力领域词典语料集包括：故障报告样本和领域词典文件；

将所述故障报告样本解析为文本数据，得到故障文本样本，将所述领域词典文件解析为文本数据，得到领域词典表；

采用所述领域词典表对所述故障文本样本进行分词，得到词语样本；

对所述词语样本进行故障实体样本标注，得到标记信息；所述标记信息包括：故障设备、故障发生阶段、发生时间、故障部件和故障现象；

根据所述词语样本和对应的标记信息构建所述训练数据；

将所述训练数据输入改进的基于BERT文本表示和LSTM-CRF序列标注模型进行训练，得到所述实体抽取模型；

其中，改进的基于BERT文本表示和LSTM-CRF序列标注模型，包括：编码层、BERT文本表示层、LSTM网络、融合层和CRF层；

所述编码层用于对所述词语样本进行编码处理，得到编码向量样本；

所述BERT文本表示层用于将所述词语样本转换为词向量样本；

所述LSTM网络用于提取所述词向量样本的语义向量，得到语义向量样本；

所述融合层用于采用注意力加权机制将所述编码向量样本和所述语义向量样本进行加权融合，得到融合向量样本；

所述CRF层用于根据所述融合向量样本对所述故障报告样本进行实例实体判别，预测所述故障报告样本的实例抽取结果。

可选地，将所述目标故障报告文件转换为文本格式，得到目标故障文本，具体包括：

采用Python文档处理库和OCR识别技术方法将所述目标故障报告文件转换为文本格式，并解析出目标故障报告文件中的文本内容，将所述文本内容保存为TXT格式的文本文件，得到目标故障文本。

可选地，采用领域词典表对所述目标故障文本进行分词，得到目标词语，具体包括：

对所述目标故障文本进行清洗，去除所述目标故障文本中的无关内容，得到清洗后的目标故障文本；所述无关内容包括：中英文标点符号、括号、引号、星号、井号、中英文介词和连接词；

采用领域词典表对清洗后的目标故障文本进行分词，得到目标词语。

可选地，对所述目标词语进行编码处理，得到目标编码向量，具体包括：

采用层叠式卷积神经网络对所述目标词语进行编码处理，得到目标编码向量。

可选地，采用领域词典表对清洗后的目标故障文本进行分词，得到目标词语，具体包括：

采用领域词典表结合向前向后最大匹配的分词方法，对清洗后的目标故障文进行分词，得到目标词语。

可选地，将所述领域词典文件解析为文本数据，得到领域词典表，具体包括：

按照设定规则逐一分解出所述领域词典文件中的每个术语词汇，构成领域词典表。

本发明还提供了一种电力故障领域实体自动抽取系统，包括：

文件获取模块，用于获取目标故障报告文件；

文本转换模块，用于将所述目标故障报告文件转换为文本格式，得到目标故障文本；

文本分词模块，用于采用领域词典表对所述目标故障文本进行分词，得到目标词语；

编码模块，用于对所述目标词语进行编码处理，得到目标编码向量；

实体抽取模块，用于将所述目标词语和所述目标编码向量输入实体抽取模型中，得到所述目标故障报告文件的实例抽取结果；

本发明还提供了一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的电力故障领域实体自动抽取方法。

本发明还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述的电力故障领域实体自动抽取方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明实施例采用领域词典表对目标故障文本进行分词，得到目标词语，并对目标词语进行编码处理，得到目标编码向量，采用深度学的方法构建实体抽取模型，实体抽取模型提取目标词向量的语义向量，并采用注意力加权机制将目标编码向量和目标语义向量进行加权融合，得到目标融合向量，从而实现对目标故障报告文件的实例实体判别，本发明实施例将领域词典表和深度学习的方法结合，提升了电力故障领域实体自动抽取的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的电力故障领域实体自动抽取方法的流程图；

图2为本发明实施例提供的电力故障领域实体自动抽取方法的一个具体实现过程图；

图3为本发明实施例提供的电力故障领域实体自动抽取系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明的目的是提供一种电力故障领域实体自动抽取方法、系统、设备及介质，通过将领域词典表和深度学习的方法结合，提升电力故障领域实体自动抽取的准确性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参见图1，本实施例的电力故障领域实体自动抽取方法，包括：

步骤101：获取目标故障报告文件。

步骤102：将所述目标故障报告文件转换为文本格式，得到目标故障文本。

具体的，采用Python文档处理库和OCR识别技术方法将所述目标故障报告文件转换为文本格式，并解析出目标故障报告文件中的文本内容，将所述文本内容保存为TXT格式的文本文件，得到目标故障文本。

步骤103：将采用领域词典表对所述目标故障文本进行分词，得到目标词语。

具体的：对所述目标故障文本进行清洗，去除所述目标故障文本中的无关内容，得到清洗后的目标故障文本；所述无关内容包括：中英文标点符号、括号、引号、星号、井号、中英文介词和连接词。采用领域词典表对清洗后的目标故障文本进行分词，得到目标词语。

具体的分词方法为：采用领域词典表结合向前向后最大匹配的分词方法，对清洗后的目标故障文进行分词，得到目标词语。

步骤104：将对所述目标词语进行编码处理，得到目标编码向量。

具体的，采用层叠式卷积神经网络对所述目标词语进行编码处理，得到目标编码向量。

步骤105：将所述目标词语和所述目标编码向量输入实体抽取模型中，得到所述目标故障报告文件的实例抽取结果。

目标故障报告文件的实例抽取结果包括：目标故障报告文件中的故障设备、故障发生阶段、发生时间、故障部件和故障现象等。

其中，所述实体抽取模型是基于深度学习的方法构建的。

所述实体抽取模型用于：

将所述目标词语转换为目标词向量，并提取所述目标词向量的语义向量，得到目标语义向量；所述目标语义向量表征所述目标故障报告文件的上下文信息和动态记忆信息。

采用注意力加权机制将所述目标编码向量和所述目标语义向量进行加权融合，得到目标融合向量。

上述步骤105中，所述实体抽取模型的确定方法，具体包括：

(1)确定训练数据。具体为：

①获取电力领域词典语料集；所述电力领域词典语料集包括：故障报告样本和领域词典文件。

②将所述故障报告样本解析为文本数据，得到故障文本样本，将所述领域词典文件解析为文本数据，得到领域词典表。其中，对故障报告样本的解析过程与目标故障报告文件转换为文本格式的过程相同，在此不再赘述。领域词典文件的解析过程为：按照设定规则逐一分解出所述领域词典文件中的每个术语词汇，构成领域词典表。

③采用所述领域词典表对所述故障文本样本进行分词，得到词语样本。

④对所述词语样本进行故障实体样本标注，得到标记信息；所述标记信息包括：故障设备、故障发生阶段、发生时间、故障部件和故障现象。

⑤根据所述词语样本和对应的标记信息构建所述训练数据。

(2)训练模型。具体为：

将所述训练数据输入改进的基于BERT文本表示和LSTM-CRF序列标注模型进行训练，得到所述实体抽取模型。

其中，改进的基于BERT文本表示和LSTM-CRF序列标注模型，包括：编码层、BERT文本表示层、LSTM网络、融合层和CRF层。

所述编码层用于对所述词语样本进行编码处理，得到编码向量样本。所述BERT文本表示层用于将所述词语样本转换为词向量样本。所述LSTM网络用于提取所述词向量样本的语义向量，得到语义向量样本。所述融合层用于采用注意力加权机制将所述编码向量样本和所述语义向量样本进行加权融合，得到融合向量样本。所述CRF层用于根据所述融合向量样本对所述故障报告样本进行实例实体判别，预测所述故障报告样本的实例抽取结果。

下面结合图2，对上述电力故障领域实体自动抽取方法在实际应用中的一个具体的实现过程进行说明。

该电力故障领域实体自动抽取方法基于领域词典和深度学习实现实体自动抽取，利用电力领域通用技术词典对电力设备故障报告进行预处理，去停用词、去噪声等，并且将电力领域词典的词条文本信息与BERT预训练词向量融合表示，以增强BERT文本表示+LSTM-CRF序列标注模型的领域内词汇表示能力，该方法结合了电力领域词典和深度学习技术，可以实现对电力故障领域实体的自动抽取。

参见图2，该电力故障领域实体自动抽取方法，具体包括：

步骤1：由语料采集模块构建电力领域词典语料集，具体为：从公开的互联网和多个百科网站上采集电力领域词条和词典文件，并将其保存到计算机。

步骤2：由语料文档解析模块对采集的文档解析为文本数据，具体为：待抽取的故障报告和领域词典文件基本是Word或PDF的数据形式，无法直接作为自然语言来处理，需要使用Python相关文档处理库和OCR等识别技术手段将Word和PDF数据转换为文本格式，解析出报告中的文本内容。对于规范化的领域词典文件，按照规则逐一分解出每个术语词汇，构成领域词典对象，即得到领域词典表；对于待抽取实体的故障报告文件，直接保存为TXT格式的文本文件。

步骤3：语料文本预处理。

对解析出的文本内容进行清洗、分词、词性标注等自然语言处理技术，可以进一步提高文本数据的可读性和可理解性。

清洗文本是指对文本进行预处理，去除无关内容，如中英文标点符号、括号、引号、星号(*)、井号(#)、中英文介词和连接词等，保留文本的实质内容。这可以通过制定一系列的规则或者使用现成的文本清洗工具来完成。

分词是指将文本分割成一系列的单词或词组，这是自然语言处理中的一项基本任务。中文分词通常使用词典法或者基于统计的方法来完成。为了更准确地分词，使用步骤2构建出的电力领域词典对象，结合向前向后最大匹配的分词方法，对故障报告文本进行分词。对于一个句子S＝(w₁ w₂...w_n)，分词后的结果为S＝(t₁ t₂...t_m)，其中，t₁ t₂...t_m为句子中的词语，n、m均为整数。

步骤4：故障实体样本标注

为了训练实体抽取模型，需要事先对故障报告样本进行实体标注并训练出实体抽取模型。首先，从整体故障报告中随机抽取若干故障报告作为训练语料库，结合步骤2构建出的电力领域词典表，对故障报告样本集进行BIO序列标注。主要标注故障报告中与故障相关的一系列实体，比如故障设备、故障发生阶段、发生时间、故障部件、故障现象等，以故障部件标注为例，某一部件实体的开头字符使用”B-Componet”进行标注，部件实体的后续字符使用“I-Componet”进行标注，所有不属于待标注实体中任何一类的字符使用O进行标注，Componet表示此类实体是部件。每个字符都有对应的BIO标注，实体抽取模型训练时，采用全部的标签进行训练。

步骤5：基于故障实体样本训练实体抽取模型

使用标注的训练数据来训练基于BERT文本表示+LSTM-CRF序列标注模型，其中BERT词向量层将符号型语言序列转换为数值向量表示，LSTM对语言进行局部和全局信息建模，以捕捉上下文信息和动态记忆信息。

语义特征融合。为了增强实体识别模型的领域语义表示能力，将电力领域词典的词条文本信息与基于BERT文本表示+LSTM的信息融合表示，具体为：先对故障报告原始句子文本进行基于领域词典表的分词处理，将此词语的文本信息通过层叠式卷积神经网络编码后，利用注意力加权机制将其与基于BERT文本表示+LSTM层输出的语义向量加权融合。

之后，融合的语义向量输出到CRF层，CRF序列标注模型会根据相邻的上下文信息来预测字符对应的标注符号，为每个字符输出一个BIO标注，以表示此字符是否属于故障设备、故障发生阶段、发生时间、故障部件、故障现象等实体的开头、中间或者不属于任何一类待抽取的实体。

步骤6：实体判别模块利用经过训练的基于BERT文本表示+LSTM-CRF序列标注模型对测试集报告文本进行实例实体判别，输出实例抽取结果。

上述方法中的基于BERT文本表示+LSTM-CRF序列标注模型为改进的模型，主要体现在：在语义表示层，将利用词典分词后的词语的文本信息通过层叠式卷积神经网络编码后，利用注意力加权机制与LSTM层输出的语义向量融合。

基于上述方法构建的相应的电力故障领域实体自动抽取系统，包括语料采集模块、语料文档解析模块、语料文本预处理、故障实体样本标注、基于深度学习的实体抽取模型训练模块、实体判别模块。其中，语料采集模块与语料文档解析模块相连。语料文档解析模块与语料文本预处理相连，语料文本预处理模块与故障实体样本标注模块相连，故障实体样本标注模块与基于深度学习的实体抽取模型训练模块相连。深度学习模型训练模块与实体判别模块相连。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种电力故障领域实体自动抽取系统。

参见图3，所述系统，包括：

文件获取模块201，用于获取目标故障报告文件。

文本转换模块202，用于将所述目标故障报告文件转换为文本格式，得到目标故障文本。

文本分词模块203，用于采用领域词典表对所述目标故障文本进行分词，得到目标词语。

编码模块204，用于对所述目标词语进行编码处理，得到目标编码向量；

实体抽取模块205，用于将所述目标词语和所述目标编码向量输入实体抽取模型中，得到所述目标故障报告文件的实例抽取结果。

实施例三

本实施例提供一种电子设备，包括存储器及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使电子设备执行实施例一的电力故障领域实体自动抽取方法。

可选地，上述电子设备可以是服务器。

另外，本发明实施例还提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现实施例一的电力故障领域实体自动抽取方法。

上述所有实施例，具有如下优点：

利用电力领域通用技术词典对电力设备故障报告进行预处理，能够过滤低质量噪声文本；并且将电力领域词典的词条文本信息与BERT预训练词向量融合表示，能够增强BERT文本表示+LSTM-CRF序列标注模型的领域内词汇表示能力，提高实体抽取的准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种电力故障领域实体自动抽取方法，其特征在于，包括：

获取目标故障报告文件；

对所述目标词语进行编码处理，得到目标编码向量；

2.根据权利要求1所述的电力故障领域实体自动抽取方法，其特征在于，所述实体抽取模型的确定方法，具体包括：

根据所述词语样本和对应的标记信息构建所述训练数据；

所述BERT文本表示层用于将所述词语样本转换为词向量样本；

3.根据权利要求1所述的电力故障领域实体自动抽取方法，其特征在于，将所述目标故障报告文件转换为文本格式，得到目标故障文本，具体包括：

4.根据权利要求1所述的电力故障领域实体自动抽取方法，其特征在于，采用领域词典表对所述目标故障文本进行分词，得到目标词语，具体包括：

5.根据权利要求1所述的电力故障领域实体自动抽取方法，其特征在于，对所述目标词语进行编码处理，得到目标编码向量，具体包括：

6.根据权利要求4所述的电力故障领域实体自动抽取方法，其特征在于，采用领域词典表对清洗后的目标故障文本进行分词，得到目标词语，具体包括：

7.根据权利要求2所述的电力故障领域实体自动抽取方法，其特征在于，将所述领域词典文件解析为文本数据，得到领域词典表，具体包括：

8.一种电力故障领域实体自动抽取系统，其特征在于，包括：

文件获取模块，用于获取目标故障报告文件；

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至7中任一项所述的电力故障领域实体自动抽取方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的电力故障领域实体自动抽取方法。