CN115983383A

CN115983383A - 面向电力设备的实体关系抽取方法及相关装置

Info

Publication number: CN115983383A
Application number: CN202310018734.1A
Authority: CN
Inventors: 吴佳; 骆晓雪; 王建新; 南智斐; 刘振华; 李坚; 杨峰; 孔庆宇; 于军亮
Original assignee: State Grid Smart Grid Research Institute Co ltd; State Grid Corp of China SGCC; Langfang Power Supply Co of State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Smart Grid Research Institute Co ltd; State Grid Corp of China SGCC; Langfang Power Supply Co of State Grid Jibei Electric Power Co Ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-04-18

Abstract

本申请提供一种面向电力设备的实体关系抽取方法及相关装置，涉及自然语言处理技术领域。该方法包括：获取描述电力设备的文本信息；从文本信息中提取出待处理句子；对待处理句子的字符进行特征提取，得到字符特征；对待处理句子的部首进行特征提取，得到部首特征；对字符特征和部首特征进行特征融合，得到融合特征；将融合特征输入实体关系提取网络，得到从待处理句子中抽取的实体关系。本申请实施例中，能够从待处理句子中提取出不同层次的特征，即字符特征和部首特征。由于部首特征能够传递语义信息，将部首特征和字符特征进行融合能够缩短不同电力设备的实体之间的距离，进而准确的提取出实体关系，且该方法在不同的电力设备之间具有泛化能力。

Description

面向电力设备的实体关系抽取方法及相关装置

技术领域

本申请涉及自然语言处理技术领域，具体涉及一种面向电力设备的实体关系抽取方法及相关装置。

背景技术

随着数字化经济的发展，数字电网、智慧电网的建设成为了电力能源领域的关键。一方面，进入数字化转型的深水区，亟需自主可控的人工智能技术进行理论和技术支撑，为打通信息渠道，对重要电力设备相关舆情和发展方向进行态势感知，及时进行风向预警和生产调整工作。另一方面，要想完成智慧电网的建设，需要将全流程相关的数据提取为知识，知识凝练为智慧。其中，实体关系抽取(Entity Relation Extraction)作为一种信息抽取技术，是将信息转换为知识的关键理论技术之一。

然而，电力设备领域中，实体名称长、跨度大、专业领域词汇多。因此面向电力设备如何抽取实体关系，成为难点。

发明内容

鉴于现有技术中的上述缺陷或不足，本申请旨在提供一种面向电力设备的实体关系抽取方法及相关装置，可以准确的提取电力设备相关的实体关系。

第一方面，本申请提供一种面向电力设备的实体关系抽取方法，所述方法包括：

获取描述电力设备的文本信息；

从所述文本信息中提取出待处理句子；

对所述待处理句子的字符进行特征提取，得到字符特征；

对所述待处理句子的部首进行特征提取，得到部首特征；

对所述字符特征和所述部首特征进行特征融合，得到融合特征；

将所述融合特征输入实体关系提取网络，得到从所述待处理句子中抽取的实体关系。

在一些实施例中，所述对所述待处理句子的字符进行特征提取，得到字符特征，包括：

对所述待处理句子按照中文字符分割，得到字符序列；

将所述字符序列输入第一自然语言特征提取模型，得到所述待处理句子的字符特征。

在一些实施例中，所述对所述待处理句子的部首进行特征提取，得到部首特征，包括：

提取所述待处理句子包含的中文部首，得到部首序列；

将所述部首序列输入第二自然语言特征提取模型，得到所述待处理句子的部首特征。

在一些实施例中，所述对所述字符特征和所述部首特征进行特征融合，得到融合特征之前，还包括：

去除所述字符特征中的噪声信息。

在一些实施例中，所述去除所述字符特征中的噪声信息，包括：

将所述字符特征输入文本去噪声模型，得到所述待处理句子中每个字符的标注类型，其中，供选择的标注类型来源于类型集合，所述类型集合包括以下标注类型：与电力设备相关、与电力设备无关；

按在所述待处理句子中的位置顺序，拼接各字符的标注类型，得到标注序列；

基于转换函数将所述标注序列中的每个标注类型转换为数字量，得到去重噪声后的注意力向量；其中，所述转换函数用于增强与电力设备相关的特征，并减弱与电力设备无关的特征；

将所述注意力向量和所述字符特征相乘，得到去除噪声的字符特征。

在一些实施例中，所述实体关系抽取网络包括主体位置预测模块、以及关系预测模块，所述将所述融合特征输入实体关系提取网络，得到从所述待处理句子中抽取的实体关系，包括：

将所述融合特征输入所述主体位置预测模块，得到主体的开始位置和结束位置；

将所述融合特征、所述主体的开始位置和结束位置输入所述关系预测模块，得到所述关系预测模块输出的至少一条预测信息，每条所述预测信息中包括一个客体的开始位置和结束位置，以及主体和所述客体之间的关系；

基于主体的开始位置和结束位置从所述待处理句子中抽取出主体；

基于各客体的开始位置和结束位置从所述待处理句子中抽取出各客体；

针对每个客体，构建包含所述主体、所述客体、以及所述主体和所述客体之间的关系的实体关系。

在一些实施例中，所述关系预测模块中包括多个用于预测不同关系的二分类模块，所述将所述融合特征、所述主体的开始位置和结束位置输入所述关系预测模块，得到所述关系预测模块输出的至少一条预测信息，包括：

将所述融合特征、所述主体的开始位置和结束位置分别输入到各二分类模块中，得到各二分类模块分别输出的候选预测信息，所述候选预测信息中包括一个客体的开始位置和结束位置，以及主体和客体之间的关系；

筛选掉错误的候选预测信息，将剩余的至少一条候选预测信息确定为所述关系预测模块输出的至少一条预测信息。

在一些实施例中，所述对所述字符特征和所述部首特征进行特征融合，得到融合特征，包括：

拼接所述字符特征和所述部首特征，得到所述融合特征。

第二方面，本申请提供一种面向电力设备的实体关系抽取装置，所述装置包括：

文本获取模块，用于获取描述电力设备的文本信息；

句子提取模块，用于从所述文本信息中提取出待处理句子；

字符特征提取模块，用于对所述待处理句子的字符进行特征提取，得到字符特征；

部首特征提取模块，用于对所述待处理句子的部首进行特征提取，得到部首特征；

融合模块，用于对所述字符特征和所述部首特征进行特征融合，得到融合特征；

关系抽取模块，用于将所述融合特征输入实体关系提取网络，得到从所述待处理句子中抽取的实体关系。

在一些实施例中，所述字符特征提取模块用于：

对所述待处理句子按照中文字符分割，得到字符序列；

在一些实施例中，所述部首特征提取模块用于：

提取所述待处理句子包含的中文部首，得到部首序列；

在一些实施例中，还包括：

去噪模块，用于所述对所述字符特征和所述部首特征进行特征融合，得到融合特征之前，去除所述字符特征中的噪声信息。

在一些实施例中，所述去噪模块用于：

在一些实施例中，所述关系抽取模块，包括：

主体位置预测单元，用于将所述融合特征输入所述主体位置预测模块，得到主体的开始位置和结束位置；

关系预测单元，用于将所述融合特征、所述主体的开始位置和结束位置输入所述关系预测模块，得到所述关系预测模块输出的至少一条预测信息，每条所述预测信息中包括一个客体的开始位置和结束位置，以及主体和所述客体之间的关系；

主体抽取单元，用于基于主体的开始位置和结束位置从所述待处理句子中抽取出主体；

客体抽取单元，用于基于各客体的开始位置和结束位置从所述待处理句子中抽取出各客体；

关系建立单元，用于针对每个客体，构建包含所述主体、所述客体、以及所述主体和所述客体之间的关系的实体关系。

在一些实施例中，所述关系预测模块中包括多个用于预测不同关系的二分类模块，所述关系预测单元用于：

在一些实施例中，所述融合模块用于拼接所述字符特征和所述部首特征，得到所述融合特征。

第三方面，本申请提供一种电子设备，所述电子设备包括：

存储器，用于存储程序；和

处理器，用于通过调用存储在所述存储器内的所述程序，以执行本申请提供的任意一种面向电力设备的实体关系抽取方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本申请提供的任意一种面向电力设备的实体关系抽取方法。

第五方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任意一种面向电力设备的实体关系抽取方法。

综上所述，本申请实施例中，能够从待处理句子中提取出不同层次的特征，即字符特征和部首特征。由于部首特征能够传递语义信息，将部首特征和字符特征进行融合能够缩短不同电力设备的实体之间的距离，进而准确的提取出实体关系，且该方法在不同的电力设备之间具有泛化能力。

附图说明

图1为本申请实施例提供的一种面向电力设备的实体关系抽取方法的应用场景示意图；

图2为本申请实施例提供的面向电力设备的实体关系抽取方法的流程示意图；

图3为本申请实施例提供的提取字符特征和部首特征的流程示意图；

图4为本申请实施例提供的一种提取字符特征的模型框图；

图5为本申请实施例提供的一种对字符特征进行文本去噪的流程示意图；

图6为本申请实施例提供的一种提取部首特征的模型框图；

图7为本申请实施例提供的面向电力设备的实体关系抽取方法的另一流程示意图；

图8为本申请实施例提供的面向电力设备的实体关系抽取方法的另一流程示意图；

图9为本申请实施例提供的实体关系抽取网络的框架示意图；

图10为本申请实施例提供的面向电力设备的实体关系抽取方法的另一流程示意图；

图11为本申请实施例提供的面向电力设备的实体关系抽取方法中采用网络的框架图；

图12为本申请实施例提供的面向电力设备的实体关系抽取装置的结构示意图；

图13为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

当前，实体关系抽取的模型架构主要包括两种，即级联(Pipeline)模型架构和联合(Joint)模型架构。其中：

级联模型架构将实体关系抽取视为实体抽取和关系抽取两个阶段，分别进行训练，这导致前一阶段的误差会传播到第二阶段，忽略了实体和关系之间潜在的关联信息。

联合模型架构在一次训练过程中同时提取实体和关系，可以挖掘出潜在的语义特征关联。

但是，无论上述那种模型架构，在电力设备领域提取实体关系时，因为电力设备领域的实体名称长、跨度大、专业领域词汇多，因此上述两种模型架构无法很好的在电力设备领域发挥作用。

有鉴于此，本申请实施例提供了一种面向电力设备的实体关系抽取方法及相关装置。

本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。以上仅是本申请的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以作出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其他场合的，均应视为本申请的保护范围。

图1示出了本申请实施例提供的一种面向电力设备的实体关系抽取方法的应用场景示意图。如图1所示，电力设备的发展会有相关新闻报道或研究论文。实体关系的抽取可以从相关新闻报道和研究论文着手。为描述方便，无论是新闻报道还是论文，在本申请实施例中统称为文本信息。如图1中，为了能够自动有效的挖掘出电力设备的实体关系，抽取实体关系的电子设备101，可以采集分布在网络各处的新闻报道和研究论文得到需要挖掘实体关系的文本信息。如从图1中的报道服务器102提供的内容中提取新闻报道，从图1中论文服务器103提供的论文中提取研究论文。

面向电力设备，为了能够准确有效的挖掘实体关系，本申请实施例提出了采用多层次的融合特征来缩短不同电力设备的实体之间的空间距离，以挖掘出准确的实体关系。如图2所示，包括以下内容：

S201，获取描述电力设备的文本信息。

如图1所描述的，文本信息可来源于新闻报道，亦可来源于论文。

本申请实施例中，每篇新闻报道和每篇论文可对应一个文本信息。由于不同文本信息的处理方式均相同，因此本申请实施例中以一个文本信息为例对抽取实体关系的方法进行说明。

S202，从文本信息中提取出待处理句子。

例如，文本信息中包括“公司新增两台1600KVA电力变压器，其中1台分配给了省公司”。在实施时，可将其切割为两个句子，一句为“公司新增两台1600KVA电力变压器”，另一句为“其中1台分配给了省公司”。两个句子可分别作为待处理句子进行实体关系抽取。类似的，由于每个句子的处理方式均相同，本申请实施例中以一个待处理句子为例进行说明。

S203，对待处理句子的字符进行特征提取，得到字符特征。

以“公司新增两台1600KVA电力变压器”为例，其中每个字单独作为一个字符，例如“公司”为两个字符，“1600”为四个字符。

S204，对待处理句子的部首进行特征提取，得到部首特征。

需要说明的是，S203和S204的执行先后不作限制。

S205，对字符特征和部首特征进行特征融合，得到融合特征。

S206，将融合特征输入实体关系提取网络，得到从待处理句子中抽取的实体关系。

本申请实施例中，能够从待处理句子中提取出不同层次的特征，即字符特征和部首特征。由于部首特征能够传递语义信息，将部首特征和字符特征进行融合能够缩短不同电力设备的实体之间的距离。由此即使电力设备领域中，实体名称长、跨度大、专业领域词汇多，通过多层次的特征融合，能够尽可能缩短其中的差异，进而准确的提取出实体关系。且该方法在不同的电力设备之间具有泛化能力。

由此，本申请实施例能够将非结构文本数据准确转化为知识，助力完善智慧电网建设，支撑电力设备态势感知与风险预警等监管工作。

为便于理解，下文将对主要步骤的实现方式进行示例性说明。应当理解的是，以下示例性实施方式用于说明本申请实施例的实体关系抽取方法，并不对该方法做具体限定。

1)、关于抽取字符特征

如图3所示，可实施为：

S311，对待处理句子按照中文字符分割，得到字符序列。

继续以“公司新增两台1600KVA电力变压器”为例，可采用空格将每个字符分割开来，得到字符序列：“公司新增两台1600KVA电力变压器”。

当然，在其它实施方式中，可以采用指定连接符，连接相邻的两个字符，例如得到的字符序列为“公-司-新-增-两-台-1-6-0-0-K-V-A-电-力-变-压-器”，其中“-”为连接符。

需要说明的是，能够分割开不同字符的方式均适用于本申请实施例。

S312，将字符序列输入第一自然语言特征提取模型，得到待处理句子的字符特征。

实施时，第一自然语音特征提取模型可采用BERT模型结构。为了有别于本申请实施例中的其他BERT模型，第一自然语言特征提取模型可简称为BERTC。

BERTC可采用自监督的方式进行训练，以便于能够提取出具有表现力的字符特征。例如可采用两个句子构建样本对，包括正样本对核负样本对。其中正样本对中包括上下文连贯的两个句子。例如，针对一个句子，从包含该句子的不同文本中抽取该句子的下一句子，构建正样本。同样针对一个句子，可从语料库中随机抽取一个句子(大概率上与该句子逻辑不连贯)构建出负样本对。然后自监督训练时，可采用BERTC模型预测样本对中的前一句子的后一句子，或者预测样本对中后一句子的前一句子。在预测的过程中，如图4所示，BERT模型会提取出中间特征，并基于该中间特征进行预测。基于预测结果和相应的样本对，可以确定预测的损失调整BERTC模型的参数，直至模型收敛。

在训练好BERTC模型的情况下，字符序列输入到BERTC模型中，使用该模型对字符序列输出的中间特征作为字符序列的字符特征。

本申请实施例中，基于第一自然语言特征提取模型，能够深刻的理解字符序列，从而提取到具有表现力的高级特征，以便于为准确的进行实体关系抽取提供数据基础。

在一些实施例中，由于字符序列中可能存在一些噪声，即存在于电力设备无关的信息。为了能够得到更具有表现力的、能够更好的描述待处理句子特点的融合特征，本申请实施例中提出了对字符特征进一步去除噪声。也即，对字符特征和部首特征进行特征融合，得到融合特征之前，需要去除字符特征中的噪声信息。由此，对字符特征进行进一步的精炼，能够引导实体关系抽取，提高抽取的实体关系之间的准确性。

在一些可能的实施例中，如图5所示，去除字符特征中的噪声信息，可实施为：

S501，将字符特征输入文本去噪声模型，得到待处理句子中每个字符的标注类型，其中，供选择的标注类型来源于类型集合，类型集合包括以下标注类型：与电力设备相关、与电力设备无关。

其中，与电力设备无关可进一步细分为两种类型，即噪声类型和无关类型。由此，类型集合中包括三个类型，即“与电力设备相关”、“噪声类型”和“无关”类型。对每个字符均从这个类型集合中选择合适的类型进行标注。

S502，按在待处理句子中的位置顺序，拼接各字符的标注类型，得到标注序列。

S503，基于转换函数将标注序列中的每个标注类型转换为数字量，得到去重噪声后的注意力向量；其中，转换函数用于增强与电力设备相关的特征，并减弱与电力设备无关的特征。

S504，将注意力向量和字符特征相乘，得到去除噪声的字符特征。

例如，一种可能的实施方式中，如图5所示，文本去噪声模型由双向长短时记忆网络(Bidirectional Long Short-termMemory，BiLSTM)和条件随机场层(Condition RandomField，CRF)两部分构成，将字符特征Hc输入到BiLSTM中，获得中间向量表示H_Bi，如公式(1)所示：

在公式(1)中，字符特征H_c的长度为M，字符特征H_Bi，经过处理后，得到能够预测标注类型的中间向量表示H_Bi，

表示相应的提取出长度为M的中间向量表示H_Bi。字符特征中M个特征分量，每个特征分量对应一个中间向量的分量，即

将中间向量表示H_Bi输入到CRF中进行解码，得到预测的序列Y_s，将文本序列中的每个中文字符分为了“与电力设备相关”，“噪声”，“无关”三种类型，如公式(2)所示：

在公式(2)中，每个字符得到对应的类型

为了能够与字符特征进行运算操作，本申请实施例中转换函数I会将与电力设备相关标签位置标记为1，将不相关标签位置标识为0，由此强化与电力设备相关的特征，并弱化与电力设备无关的特征，最终得到去除噪声后的注意力向量E，如公式(3)所示：

E＝[e₁,e₂,…,e_M]＝I(Y_s) (3)

由此可见，在公式(3)中，注意力向量E是一系列由0或1构成的字符串。

在另一些可能的实施方式中，本申请实施例还可以采用多分类器对同一字符的类型进行分类预测，并得到预测结果的置信度。例如预测字符A为“与电路设备相关”的类型，且置信度为0.8。则实施时，可以采用转换函数处理预测的类型和相应的置信度，得到相应的注意力向量。例如针对预测类型为“与电力设备相关”的类型，采用其置信度作为标注类型的数字量，针对“与电力设备无关”的类型，采用(1-置信度)作为其标注类型的数字量。例如，字符1的标注类型为“与电力设备相关”，预测的置信度为0.9，则其数字量为0.9；字符2的标注类型为“与电力设备相关”，预测的置信度为0.8，则其数字量为0.8；字符3的标注类型为“与电力设备无关”，预测的置信度为0.9，则对应的数字量为0.1。由此，这3个字符得到的注意力向量为(0.9,0.8,0.1)。该注意力向量与字符特征相乘之后，也能够达到强化与电力设备相关的特征，并弱化与电力设备无关的特征的目的。

综上，本申请实施例中，通过对字符特征去重噪声，能够进一步提炼出表达力强的字符特征，去除与电力设备无关的特征，能够更好的引导实体关系抽取，为实体关系抽取建立数据基础。

2)、关于抽取部首特征

如图3所示，可实施为：

S321，提取待处理句子包含的中文部首，得到部首序列。

继续以“公司新增两台1600KVA电力变压器”为例，按照中文部首可得到部首序列：“八口斤土一口1600KVA田力又厂口”。

S322，将部首序列输入第二自然语言特征提取模型，得到待处理句子的部首特征。

与提取字符特征为例，本申请实施例中，也可以采用BERT模型结构构建第二自然语言特征提取模型。第二自然语言特征提取模型简称为BERTR

BERTR可采用自监督的方式进行训练，以便于能够提取出具有表现力的部首特征。例如可采用两个句子构建样本对，包括正样本对核负样本对。其中正样本对中包括上下文连贯的两个句子，例如，针对一个句子，从包含该句子的不同文本中抽取该句子的下一句子，构建正样本。同样针对一个句子，可从语料库中随机抽取一个句子(大概率上与该句子逻辑不连贯)构建出负样本对。然后自监督训练时，可采用BERTR模型预测样本对中的前一句子的后一句子，或者预测样本对中后一句子的前一句子。在预测的过程中，如图6所示，BERTR模型会提取出中间特征，并基于该中间特征进行预测。基于预测结果和相应的样本对，可以确定预测的损失调整BERTR模型的参数，直至模型收敛。

在训练好BERTR模型的情况下，字符序列输入到BERTR模型中，使用该模型对部首序列输出的中间特征作为部首序列的部首特征。

本申请实施例中，基于第二自然语言特征提取模型，能够深刻的理解部首序列，从中提取出具有语义信息的部首特征，从而提取到具有表现力的高级特征，以便于为准确的进行实体关系抽取提供数据基础。

3)、关于特征融合

一种可能的实施方式中，可以计算部首特征和字符特征的均值，作为融合特征。当然，针对不同类型的文本信息也可以对字符特征和部首特征采用加权求和的方式确定融合特征。实施时，可根据实际需求确定对应的融合方式。

此外，为了能够更好地采用部首特征和字符特征进行实体关系抽取，可以拼接字符特征和部首特征，得到融合特征。拼接的特征，能够完整的保留字符特征和部首特征各自的信息，从不同层次来描述待处理句子，因此能够提高实体关系抽取的准确性。

4)、关于抽取出实体关系

如图7所示，可实施为：

S701，将融合特征输入主体位置预测模块，得到主体的开始位置和结束位置。

S702，将融合特征、主体的开始位置和结束位置输入关系预测模块，得到关系预测模块输出的至少一条预测信息，每条预测信息中包括一个客体的开始位置和结束位置，以及主体和客体之间的关系。

S703，基于主体的开始位置和结束位置从待处理句子中抽取出主体。

S704，基于各客体的开始位置和结束位置从待处理句子中抽取出各客体。

S705，针对每个客体，构建包含主体、客体、以及主体和客体之间的关系的实体关系。

继续以“公司新增两台1600KVA电力变压器”为例，其中预测得到的主体位置的开始位置为14，结束位置为18，由此主体位置的预测结果为(14，18)。从待处理句子中抽取出的主体为“电力变压器”，预测得到的“数量”关系，即(数量,5,6)，对应的客体为“两台”，得到{电力变压器，数量，两台}的三元组作为一种实体关系。

本申请实施例中，能够基于融合特征从待处理句子中准确的确定出主体、客体以及二者之间的关系，由此实现自动的提取实体关系。因为融合特征能够将不同电力设备的实体之间的差距缩小，能够适用不同的电力设备。因此，本申请实施例提供的实体关系抽取方法具有更好的泛化能力。

在一些实施例中，为了准确预测出不同的关系，关系预测模块中包括多个用于预测不同关系的二分类模块。相应的，步骤S702可实施为如图8所示，包括以下步骤：

S801，将融合特征、主体的开始位置和结束位置分别输入到各二分类模块中，得到各二分类模块分别输出的候选预测信息，候选预测信息中包括一个客体的开始位置和结束位置，以及主体和客体之间的关系。

S802，筛选掉错误的候选预测信息，将剩余的至少一条候选预测信息确定为关系预测模块输出的至少一条预测信息。

其中，可以定义筛选条件，以便于筛选掉错误的候选预测信息。例如，每个二分类模块能够给出候选预测信息，同时输出候选预测信息的置信度。当该置信度较小时，说明二分类器输出的预测信息的可靠性较低，因此，可以将置信度低于预测阈值的候选预测信息过滤掉。其中，预测阈值可选择0.5，当然，如果对准确性要求较高时，可以适当设置一个较大的预测阈值。

在另一种实施例中，可以核对客体的位置预测结果的可靠性。例如，通过比对客体的开始位置和结束位置，在结束位置在开始位置之前的情况下，说明预测结果是错误的，因此可将客体的结束位置在开始位置之前的候选预测信息过滤掉。

例如，继续以“公司新增两台1600KVA电力变压器”为例。假设可预测6中关系类型，包括“属于、是/为、遵循、设备规格，数量，参数”这6种关系。

从各二分类模块中，筛选出关系类型的预测值的置信度大于0.5的位置作为候选客体位置。可以预测得到6种关系的客体的开始位置Ohead和结束位置Otail。去除其中结束位置在开始位置之前的结果，可以得到预测的关系和客体位置集合Uo＝{(relation1,Ohead1,Otail1),(relation2,Ohead2,Otail2),…}。将得到的主体和客体位置结果对应到输入句子中可以得到实际的文字内容。例如在句子“公司新增两台1600KVA电力变压器”中预测的得到的主体位置结果为(14，18)，对应的主体为“电力变压器”，预测得到的集合Uo＝{(数量,5,6),(设备规格,7,13)}，对应的客体为“两台”和“1600KVA”，关系为“数量”和“设备规格”，最终得到{电力变压器，数量，两台}，{电力变压器，设备规格，1600KVA}三元组，完成实体关系预测。

综上，本申请实例中通过筛选掉错误信息，能够提高抽取实体关系的准确性。

例如，将融合指针分类网络作为实体关系抽取网络。其由主体预测部分(即主体位置预测模块)和客体预测部分(即关系预测模块)组成，主体预测部分由2个二分类器组成，分别预测主体的开始位置和结束位置。客体预测部分由12个二分类器组成，每2个二分类器对应一种关系类型，分别预测“属于、是/为、遵循、设备规格，数量，参数”6种关系的开始位置和结束位置。融合指针分类网络将融合特征Hcr作为主体预测部分的输入，将标注的主体开始和结束位置作为标签进行训练。客体预测部分将融合向量Hcr和预测得到的主体位置向量作为输入，客体开始和结束位置作为标签进行训练。

如图9所示为一种融合指针分类网络的结构示意图。图9中，提取注意力向量E作用于字符特征Hr，而后通过融合函数G将字符特征Hr和部首特征Hc进行融合得到融合特征Hcr。融合特征Hcr输入融合指针分类网络的主体预测部分的两个分类器，得到主体的位置向量表示，即主体的开始位置和结束位置。每种关系包括两个分类器，分别预测该关系下的客体的开始位置和结束位置，由此得到不同的关系预测模块输出的候选预测信息。

实施时，可从文本样本集中抽取出每个句子，对每个句子进行标注，标注出该句子包含的实体关系。由此，能够得到由多个句子及其标注构建的训练样本集和验证样本集。通过训练样本集可以训练融合指针分类网络，得到实体关系抽取网络。

为便于系统性理解本申请实施例提供的面向电力设备的实体关系抽取方法。下面结合图10对新闻报道数据进行实体关系抽取进行说明，如图10所示包括：

S1001，对新闻报道数据进行预处理，得到文本集合D。

实施时，构建面向电力设备的新闻报道的网络爬虫，爬取范围包含电力设备的标准变动、技术前沿发展、故障报道，电力设备问答等。将爬取到的电力设备新闻报道数据进行预处理操作，如格式化文本内容，去除其中无意义的停用词等，最终获得文本集合D＝{d1,d2,…,dn}，其中di表示一篇预处理后的新闻报道。

在文本集合D的基础上通过人工总结和咨询专家得到领域专业词汇集合P，同时对文本集合D进行标注。具体的，根据预定义的实体关系类型对新闻报道di中的每句话进行标注，获得电力设备新闻报道训练数据集S＝{s1,s2,…,sm；T}，其中sj为训练句子，T为每个句子对应的标注。标注内容由若干三元组{主体(Subject,s)，关系(Relation,r)，客体(Object,o)}构成。其中主体通常为电力设备，客体通常为电力设备在具体关系下对应的内容，例如“公司新增两台1600KVA电力变压器”一句中“电力变压器”为主体，关系为“数量”，客体为“两台”。

S1002，采用公共领域的新闻公开数据作为基础数据，结合S1001中获得的新闻文本集合D形成电力设备新闻报道语料资源库D'＝{d1',d2',…,dk'}。

S1003，基于语料资源库D'训练BERTC和BERTR，并训练融合指针分类网络。

其中，将电力设备新闻报道语料资源库D'中的所有文本篇章，一方面按照中文部首转换为中文部首层次的输入文本Dr，另一方面按照中文字符进行分割形成中文字符层面的训练文本Dc，例如篇章中存在句子“公司新增两台1600KVA电力变压器”，使用空格分隔按中文字符转换为“公司新增两台1600KVA电力变压器”，进而按照中文部首可得到“八口斤土一口1600KVA田力又厂口”。按照这两种不同层次的输入，对双向深度自注意力变换网络的编码器BERT按照语言模型的训练方式进行预训练，获得对应的预训练语言模型BERTC和BERTR。

根据标注的信息，以及前文所阐述的训练方法，训练融合指针分类网络。

S1004，基于训练好的模型从电力设备的新闻报道数据中抽取实体关系。

如图11所示，首先，获取描述电力设备的文本信息。之后，从文本信息中提取出待处理句子。本申请实施例中，默认对待处理句子进行预处理。

对待处理句子按照中文字符分割，得到字符序列，将字符序列输入BERTC，得到待处理句子的字符特征。同时，提取待处理句子包含的中文部首，得到部首序列；将部首序列输入BERTR，得到待处理句子的部首特征。

例如，图11所示，从待处理句子中提取部首，得到中文部首层次的输入Sr，同时按照中文字符进行分割得到中文字符层次的输入Sc。

使用模型BERTC和BERTR，得到两个层次的向量表示即字符特征H_r和部首特征H_c，如公式(4)和公式(5)所示，其中Sr与Sc的长度相等且为M。

针对字符特征，进一步采用文本去噪声模型进行去噪。如图11所示，包括输入BiLSTM得中间向量表示，然后输入到条件随机场层，得到预测得到的标注序列Ys。标注序列，经过二元函数，转换为注意力向量E。

之后，如图11所示，将注意力向量E与中字符特征Hc相乘，然后与中文的部首特征表示输入到融合函数G中进行融合处理，得到由两个向量拼接得到融合特征Hcr，融合过程如公式(6)所示：

Hcr＝concatenates(G(Hc,Hr,E)) (6)

最后，如图11所示，将得到的融合特征输入融合指针网络，抽取出实体关系。

基于同一技术构思，本发明实施例中还提供了一种面向电力设备的实体关系抽取装置，如图12所示，所述装置1200包括：

文本获取模块1201，用于获取描述电力设备的文本信息；

句子提取模块1202，用于从所述文本信息中提取出待处理句子；

字符特征提取模块1203，用于对所述待处理句子的字符进行特征提取，得到字符特征；

部首特征提取模块1204，用于对所述待处理句子的部首进行特征提取，得到部首特征；

融合模块1205，用于对所述字符特征和所述部首特征进行特征融合，得到融合特征；

关系抽取模块1206，用于将所述融合特征输入实体关系提取网络，得到从所述待处理句子中抽取的实体关系。

在一些实施例中，所述字符特征提取模块用于：

对所述待处理句子按照中文字符分割，得到字符序列；

在一些实施例中，所述部首特征提取模块用于：

提取所述待处理句子包含的中文部首，得到部首序列；

在一些实施例中，还包括：

在一些实施例中，所述去噪模块用于：

在一些实施例中，所述关系抽取模块，包括：

本申请实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

基于相同的发明构思，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本申请的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如面向电力设备的实体关系抽取方法。例如，在一些实施例中，面向电力设备的实体关系抽取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的面向电力设备的实体关系抽取方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行面向电力设备的实体关系抽取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种面向电力设备的实体关系抽取方法，其特征在于，所述方法包括：

获取描述电力设备的文本信息；

从所述文本信息中提取出待处理句子；

对所述待处理句子的字符进行特征提取，得到字符特征；

对所述待处理句子的部首进行特征提取，得到部首特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理句子的字符进行特征提取，得到字符特征，包括：

对所述待处理句子按照中文字符分割，得到字符序列；

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理句子的部首进行特征提取，得到部首特征，包括：

提取所述待处理句子包含的中文部首，得到部首序列；

4.根据权利要求1所述的方法，其特征在于，所述对所述字符特征和所述部首特征进行特征融合，得到融合特征之前，还包括：

去除所述字符特征中的噪声信息。

5.根据权利要求4所述的方法，其特征在于，所述去除所述字符特征中的噪声信息，包括：

6.根据权利要求1-6中任一项所述的方法，其特征在于，所述实体关系抽取网络包括主体位置预测模块、以及关系预测模块，所述将所述融合特征输入实体关系提取网络，得到从所述待处理句子中抽取的实体关系，包括：

7.根据权利要求6所述的方法，其特征在于，所述关系预测模块中包括多个用于预测不同关系的二分类模块，所述将所述融合特征、所述主体的开始位置和结束位置输入所述关系预测模块，得到所述关系预测模块输出的至少一条预测信息，包括：

8.根据权利要求1-6中任一项所述的方法，其特征在于，所述对所述字符特征和所述部首特征进行特征融合，得到融合特征，包括：

拼接所述字符特征和所述部首特征，得到所述融合特征。

9.一种面向电力设备的实体关系抽取装置，其特征在于，所述装置包括：

文本获取模块，用于获取描述电力设备的文本信息；

句子提取模块，用于从所述文本信息中提取出待处理句子；

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储程序；

和处理器，用于通过调用存储在所述存储器内的所述程序，以执行如权利要求1～8中任一项所述的面向电力设备的实体关系抽取方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1～8中任一项所述的面向电力设备的实体关系抽取方法。