CN113392217A

CN113392217A - 一种电力设备故障缺陷实体关系的抽取方法及装置

Info

Publication number: CN113392217A
Application number: CN202110700829.2A
Authority: CN
Inventors: 陈鹏; 黄杨珏; 邰彬; 吕鸿; 汪进锋; 金杨; 姚瑶
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-14
Anticipated expiration: 2041-06-24
Also published as: CN113392217B

Abstract

本发明公开了一种电力设备故障缺陷实体关系的抽取方法及装置，包括：获取电力设备的缺陷文本，并对所述缺陷文本进行预处理，得到标准化文本数据；根据语言技术平台工具，对所述标准化文本数据进行语义分析处理，获得第二标准化文本数据；构建实体对的关系特征向量，并根据所述关系特征向量，构建基于关系特征向量机器学习分类模型；将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型，训练得到实体对的关系分类模型；将预设的测试文本数据输入到所述关系分类模型，得到实体关系的抽取结果。本发明能够对电力设备的缺陷文本故障缺陷实体关系进行抽取，在提高提取效率的同时，还能减少无效信息的数据量。

Description

一种电力设备故障缺陷实体关系的抽取方法及装置

技术领域

本发明涉及机器学习技术领域，特别是涉及一种电力设备故障缺陷实体关系的抽取方法、装置、终端和存储介质。

背景技术

电力系统的不断扩容，时常伴随着各类故障现象的发生。电力系统的检修与维护积累了大量的故障案例，通常由电力巡路人员现场以文本形式记录，包括检修实验记录、设备故障问题描述、设备消缺案例和故障原因分析描述等，是一些与电力设备相关的半结构化和非结构化文本数据，在整个电力领域中占比高达80％以上。从文本数据抽取出故障缺陷实体关系，对于充分利用其中蕴含的丰富的故障问题描述、故障检修方法以及故障原因分析等关键故障特征具有重要意义，同时也对指导故障诊断和运行维护、检修工作大有裨益。

目前，在现有的抽取方法中，一般采用基于无监督学习的实体关系抽取方法。但是上述方法在处理较大数据时，由于数据集越大意味着其中的干扰数据也会越多，会造成抽取精度较低。

发明内容

本发明的目的是：提供一种电力设备故障缺陷实体关系的抽取方法及装置，能够对电力设备的缺陷文本故障缺陷实体关系进行抽取，在提高提取效率的同时，还能减少无效信息的数据量。

为了实现上述目的，本发明提供了一种电力设备故障缺陷实体关系的抽取方法，包括：

获取电力设备的缺陷文本，并对所述缺陷文本进行预处理，得到标准化文本数据；

根据语言技术平台工具，对所述标准化文本数据进行语义分析处理，获得第二标准化文本数据，其中，所述语义分析处理包括：基础特征构建、句法特征构建和语义特征构建；

构建实体对的关系特征向量，并根据所述关系特征向量，构建基于关系特征向量机器学习分类模型；

将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型，训练得到实体对的关系分类模型；

将预设的测试文本数据输入到所述关系分类模型，得到实体关系的抽取结果。

进一步地，所述获取电力设备的缺陷文本，并对所述缺陷文本进行预处理，得到标准化文本数据，包括：

根据预设的条件，剔除所述缺陷文本中没有实际含义的词；

采用正则表达式，剔除所述缺陷文本中的特殊符号，其中，所述特殊符号包括：标点符号、数字及特殊字符。

进一步地，所述句法特征构建，采用如下计算公式：

f(i)＝(i,en_id,parent,parent_id,relate)

式中，i为实体，en_id为该实体在句中的位置编号，parent为实体在句中的依存对象，parent_id表示该依存对象在句中的位置编号，relate表示该实体与依存对象之间的依存关系；

所述语义特征构建，采用如下计算公式：

式中，N为语义角色标注的最大层数，E_Srl_i表示该实体在不同语义角色标注层中的结果。

进一步地，所述构建实体对的关系特征向量，并根据所述关系特征向量，构建基于关系特征向量机器学习分类模型，包括：

将基础特征、句法特征和语义特征进行融合，获得实体对的关系特征向量；

根据所述实体对的关系特征向量，构建基于关系特征向量机器学习分类模型。

进一步地，所述将基础特征、句法特征和语义特征进行融合，获得实体对的关系特征向量，采用如下计算公式：

V(i)＝[C1_i,C2_i,C3_i,C4_i,f(i),g(i)]

式中，i表示实体，C1_i表示该实体的类别，C2_i表示实体内容，C3_i表示该实体的词性，C4_i表示实体的上下文；

所述根据所述实体对的关系特征向量，构建基于关系特征向量机器学习分类模型，采用如下计算公式：

式中，K(x_i,x_j)为核函数，σ为带宽，α_i为超平面法向量的共轭矩阵，β为超平面截距的共轭矩阵。

本发明还提供一种电力设备故障缺陷实体关系的抽取装置，包括：预处理模块、语义处理模块、分类模型构建模块、训练模块和抽取模块，其中，

所述预处理模块，用于获取电力设备的缺陷文本，并所述缺陷文本进行预处理，得到标准化文本数据；

所述语义处理模块，用于根据语言技术平台工具，对对所述标准化文本数据进行语义分析处理，获得第二标准化文本数据，其中，所述语义分析处理包括：基础特征构建、句法特征构建和语义特征构建；

所述分类模型构建模块，用于构建实体对的关系特征向量，并根据所述关系特征向量，构建基于关系特征向量机器学习分类模型；

所述训练模块，用于将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型，训练得到实体对的关系分类模型；

所述抽取模块，用于将预设的测试文本数据输入到所述关系分类模型，得到实体关系的抽取结果。

进一步地，所述预处理模块，具体用于：

根据预设的条件，剔除所述缺陷文本中没有实际含义的词；

进一步地，所述分类模型构建模块，具体用于：

本发明还提供一种计算机终端设备，包括：一个或多个处理器；存储器，与所述处理器耦接，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一项所述的电力设备故障缺陷实体关系的抽取方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述任一项所述的电力设备故障缺陷实体关系的抽取方法。

本发明实施例一种电力设备故障缺陷实体关系的抽取方法、装置、终端设备和计算机可读存储介质与现有技术相比，其有益效果在于：

本发明通过对于电力设备缺陷故障文本中蕴含的丰富的故障问题描述、故障检修方法以及故障原因分析等关键故障特征，提出一种电力设备故障缺陷实体关系的抽取方法，能够对电力设备的缺陷文本故障缺陷实体关系进行抽取，在提高提取效率的同时，还能减少无效信息的数据量。

附图说明

图1是本发明提供的一种电力设备故障缺陷实体关系的抽取方法的流程示意图；

图2是本发明提供的依存关系句法剖析示意图；

图3是本发明提供的语义角色标注结果示意图；

图4是本发明提供的一种电力设备故障缺陷实体关系的抽取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图1所示，本发明实施例的一种电力设备故障缺陷实体关系的抽取方法，至少包括如下步骤：

S1、获取电力设备的缺陷文本，并对所述缺陷文本进行预处理，得到标准化文本数据；

具体地，首先停用词过滤，去掉文本中没有实际含义的词，比如“的”、“甚至”等；然后采用正则表达式进行标准化，在电力设备缺陷文本中，由于记录不规范会包含一些特殊符号，这些特殊符号在文本中无法表达文本的重要信息，需要除去电力设备缺陷文本中非文本部分，即删除标点符号、数字及其它特殊字符。处理的主要应用方法为正则表达式。

S2、根据语言技术平台工具，对所述标准化文本数据进行语义分析处理，获得第二标准化文本数据，其中，所述语义分析处理包括：基础特征构建、句法特征构建和语义特征构建；

具体地，本步骤包括：

S21、基础特征构建，基础特征从实体出发，兼顾实体的内容、词性和上下文等信息。主要包含实体种类(如设备名、线路名和厂家名等)、实体内容(实体所包含的内容，如若实体由多个词构成，则需要将这些词按顺序连接起来)、实体词性(实体的词性标注结果)、实体上下文(以实体为中心，包含其周围的两个词语)。

S22、句法特征构建，依存句法分析主张语句中的核心谓语动词是整句话的中心成分，负责支配其它句法成分，所有支配与受支配的句法成分间都存在着某种依存关系，通过分析各句法成分的依存关系，揭示语句的句法结构，将句子以树的形式呈现。

本发明以“此变压器由汇网电气有限公司于2009年11月14日生产”为例，其依存句法分析结果如图2所示。在图2中，带方向的箭头表示依存顺序，箭头上在文字表示依存关系，其中Root表示根节点，ATT表示定中关系，POB表示介宾关系，ADV表示状中结构，FOB表示前置宾语，HED表示核心关系。在这句话中存在“变压器”、“汇网电气有限公司”和“2009年11月14日”3个实体，其中“变压器”的依存对象为“生产”，依存关系为FOB；“汇网电气有限公司”的依存对象为“由”，依存关系为POB；“2009年11月14日”的依存对象为“于”，依存关系为POB。

实体的依存对象和依存关系往往代表了它在语句中的句法成分和地位，而这些句法成分和地位也在一定程度上体现了实体间的内在关系。通过电力设备故障缺陷文本的依存句法分析结果，可以获取每一个设备故障缺陷实体的依存对象及其依存关系，从而构建出实体的句法特征向量。其中，每个实体的句法特征f(i)可表示为

f(i)＝(i,en_id,parent,parent_id,relate) (1)

式中，i为实体，en_id为该实体在句中的位置编号，parent为实体在句中的依存对象，parent_id表示该依存对象在句中的位置编号，relate表示该实体与依存对象之间的依存关系。

S23、语义特征构建，语义角色标注本质上是一种浅层语义分析技术，它以句子为单位，以句子中的谓语动词为核心，分析研究句子中各成分与谓语动词之间的关系，并用语义角色将其标注，如施事者、受事者以及附加角色等。语义角色标注是语义分析的一个重要环节，在信息抽取、机器翻译等领域起着核心的支撑作用。

与依存句法分析中的句法成分类似，语义角色标注结果也蕴含着实体的相关信息特征。本文以“此变压器是由汇网电气有限公司于2009年11月14日生产”为例，其语义角色标注结果如图3所示。

在图3中，A0表示施事者，A1表示受事者，TMP表示时间。本句共包含3个实体，围绕核心动词“生产”进行语义角色标注，其中施事者A0为“由汇网电气有限公司”，受事者A1为“变压器”，时间TMP为“于2009年11月14日”。因此“变压器”、“汇网电气有限公司”和“2009年11月14日”3个实体的语义角色标注结果分别为A1、A0和TMP。

实体的语义角色标注结果一般代表了实体在语句中的作用，在一定程度上揭示了实体间的语义关系。语义角色标注结果通常由句子中的谓语动词确定，如果一个句子中有多个谓语动词，那么语义角色也会有多层标注结果。因此，实体语义特征g(i)可表示为

S3、构建实体对的关系特征向量，并根据所述关系特征向量，构建基于关系特征向量机器学习分类模型；

具体地，本步骤包括：

S31、特征融合，基础特征和句法语义特征进行融合，则每个实体的特征向量V(i)可表示为：

V(i)＝[C1_i,C2_i,C3_i,C4_i,f(i),g(i)] (3)

式中，i表示实体，C1_i表示该实体的类别，C2_i表示实体内容，C3_i表示该实体的词性，C4_i表示实体的上下文。实体i与其实体j之间的关系特征向量E(i,j)可表示为

E(i,j)＝[V(i),V(j)] (4)

S32、构建基于关系特征向量机器学习分类模型，在电力设备故障缺陷文本中，实体对的关系分类是一个非线性问题，因此在求解最优超平面时，需要将特征的样本点通过核函数映射到高维特征空间中，并通过核函数运算替换线性分类的中的内积运算，此时的目标函数为

式中，K(x_i,x_j)为核函数，本文选择在非线性分类中常用的高斯核函数，其计算公式为

式中，σ为带宽，用于控制核函数的作用范围。最终得到的实体关系分类函数为

式中，α_i为超平面法向量的共轭矩阵，β为超平面截距的共轭矩阵。根据以上核函数和目标函数得到关系分类模型。

本发明实施例中，对已有电力设备缺陷文本进行故障实体关系抽取，针对电力设备故障缺陷文本中的“故障时间”、“生产时间”、“投运时间”、“类属关系”、“所属关系”、“生产厂家”、“位置关系”、“故障类型”、“故障等级”和“电压等级”10类实体关系，本文使用实体种类、实体内容、实体词性、实体上下文、依存句法和语义角色6类特征，进行实体关系的抽取。为了说明本方法的有效性，本文同时对比了只使用实体种类、实体内容、实体词性和实体上下文这4类基础特征的实体关系抽取结果，两种方法在这10类实体关系上的抽取结果如表1所示。

表1实体关系抽取结果

从表1中不难发现，与只使用基础特征相比，本发明提出的基础特征+句法语义特征的实体关系抽取方法在电力设备故障缺陷文本中的10类实体关系抽取上均有一定程度的提高。其中“故障时间”、“生产时间”、“投运时间”、“类属关系”、“所属关系”、“生产厂家”、“位置关系”、“故障类型”、“故障等级”和“电压等级”的F1值依次提高了2.96％、3.89％、3.56％、4.12％、0.8％、2.53％、4.07％、3.54％、3.01％和1.73％。

在所有的10类实体关系中，本发明采用的实体关系抽取方法在“生产厂家”上取得了最低的F1值79.16％，在“电压等级”上取得了最高的F1值93.11％。通过分析电力设备故障缺陷文本和实验结果得知，厂家名内容丰富多样，部分具有“生产厂家”关系的实体对被划分为“所属关系”、“类属关系”和“位置关系”，而且另外还有部分不具有“生产厂家”关系的实体对被错误划分为此类，导致在整个电力设备故障缺陷文本中，在“生产厂家”这类实体关系上的抽取结果最差。

而在“电压等级”的抽取效果最好，一方面是因为在本文使用的电力设备故障缺陷文本中，设备线路的电压只有10kV和20kV两种，内容较为单一，另一方面是因为电压等级与线路名这对实体之间的干扰项不多，所以大部分具有“电压等级”关系的实体对均被正确分类。

总的来说，本发明在电力设备故障缺陷文本中的10类实体抽取关系上，均优于基于基础特征的实体关系抽取方法。

S4、将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型，训练得到实体对的关系分类模型；

具体地，将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型，训练得到实体对的关系分类模型；

S5、将预设的测试文本数据输入到所述关系分类模型，得到实体关系的抽取结果。

具体地，将预设的测试文本数据输入到所述关系分类模型，得到实体关系的抽取结果。

在本发明的某一个实施例中，所述获取电力设备的缺陷文本，并所述缺陷文本进行预处理，得到标准化文本数据，包括：

根据预设的条件，剔除所述缺陷文本中没有实际含义的词；

在本发明的某一个实施例中，所述句法特征构建，采用如下计算公式：

f(i)＝(i,en_id,parent,parent_id,relate)

所述语义特征构建，采用如下计算公式：

在本发明的某一个实施例中，所述构建实体对的关系特征向量，并根据所述关系特征向量，构建基于关系特征向量机器学习分类模型，包括：

在本发明的某一个实施例中，所述将基础特征、句法特征和语义特征进行融合，获得实体对的关系特征向量，采用如下计算公式：

V(i)＝[C1_i,C2_i,C3_i,C4_i,f(i),g(i)]

本发明实施例一种电力设备故障缺陷实体关系的抽取方法、与现有技术相比，其有益效果在于：

如图4所示，本发明还提供一种电力设备故障缺陷实体关系的抽取装置200，包括：预处理模块201、语义处理模块202、分类模型构建模块203、训练模块204和抽取模块205，其中，

所述预处理模块201，用于获取电力设备的缺陷文本，并所述缺陷文本进行预处理，得到标准化文本数据；

所述语义处理模块202，用于根据语言技术平台工具，对所述标准化文本数据进行语义分析处理，获得第二标准化文本数据，其中，所述语义分析处理包括：基础特征构建、句法特征构建和语义特征构建；

所述分类模型构建模块203，用于构建实体对的关系特征向量，并根据所述关系特征向量，构建基于关系特征向量机器学习分类模型；

所述训练模块204，用于将所述第二标准化文本数据输入到基于关系特征向量机器学习分类模型，训练得到实体对的关系分类模型；

所述抽取模块205，用于将预设的测试文本数据输入到所述关系分类模型，得到实体关系的抽取结果。

在本发明的某一个实施例中，所述预处理模块，具体用于：

根据预设的条件，剔除所述缺陷文本中没有实际含义的词；

在本发明的某一个实施例中，所述分类模型构建模块，具体用于：

需要说明的是，所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field－ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器也可以是任何常规的处理器，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接所述终端设备的各个部分。

所述存储器主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(SmartMediaCard，SMC)、安全数字(SecureDigital，SD)卡和闪存卡(FlashCard)等，或所述存储器也可以是其他易失性固态存储器件。

需要说明的是，上述终端设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，上述终端设备仅仅是示例，并不构成对终端设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序)，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电力设备故障缺陷实体关系的抽取方法，其特征在于，包括：

2.根据权利要求1所述的电力设备故障缺陷实体关系的抽取方法，其特征在于，所述获取电力设备的缺陷文本，并对所述缺陷文本进行预处理，得到标准化文本数据，包括：

根据预设的条件，剔除所述缺陷文本中没有实际含义的词；

3.根据权利要求1所述的电力设备故障缺陷实体关系的抽取方法，其特征在于，所述句法特征构建，采用如下计算公式：

f(i)＝(i,en_id,parent,parent_id,relate)

所述语义特征构建，采用如下计算公式：

4.根据权利要求1所述的电力设备故障缺陷实体关系的抽取方法，其特征在于，所述构建实体对的关系特征向量，并根据所述关系特征向量，构建基于关系特征向量机器学习分类模型，包括：

5.根据权利要求4所述的电力设备故障缺陷实体关系的抽取方法，其特征在于，所述将基础特征、句法特征和语义特征进行融合，获得实体对的关系特征向量，采用如下计算公式：

V(i)＝[C1_i,C2_i,C3_i,C4_i,f(i),g(i)]

6.一种电力设备故障缺陷实体关系的抽取装置，其特征在于，包括：预处理模块、语义处理模块、分类模型构建模块、训练模块和抽取模块，其中，

所述预处理模块，用于获取电力设备的缺陷文本，并对所述缺陷文本进行预处理，得到标准化文本数据；

所述语义处理模块，用于根据语言技术平台工具，对所述标准化文本数据进行语义分析处理，获得第二标准化文本数据，其中，所述语义分析处理包括：基础特征构建、句法特征构建和语义特征构建；

7.根据权利要求6所述的电力设备故障缺陷实体关系的抽取装置，其特征在于，所述预处理模块，具体用于：

根据预设的条件，剔除所述缺陷文本中没有实际含义的词；

8.根据权利要求6所述的电力设备故障缺陷实体关系的抽取装置，其特征在于，所述分类模型构建模块，具体用于：

9.一种计算机终端设备，其特征在于，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至5任一项所述的电力设备故障缺陷实体关系的抽取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的电力设备故障缺陷实体关系的抽取方法。