CN116821351A

CN116821351A - 一种基于跨度信息的端到端电力知识图谱关系抽取方法

Info

Publication number: CN116821351A
Application number: CN202310243858.XA
Authority: CN
Inventors: 张小东; 李方军; 王琼; 高建勇; 王晶; 刘志远; 周永博
Original assignee: Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-09-29

Abstract

本发明公开了一种基于跨度信息的端到端电力知识图谱关系抽取方法，属于计算机技术领域，旨在解决现有的联合提取方法往往会受到两者造成的信息噪声的影响，会显著影响整个模型的性能，导致提取关系的效率较低的问题；具体步骤如下：步骤1：文本表示增强的预训练模型；步骤2：命名实体识别模型；步骤3：关系抽取模型。本发明的方法预训练模型采用BERT模型，并将BERT输入中的词嵌入拼接上外部知识；在句子经预训练模型处理后，将其输入到命名实体识别模型中来预测每个span的实体类型，对于每个独立的span，通过插入额外的标记来突出显示subject、object及其类型，从而独立的处理关系抽取模型中的每一对候选实体，其性能优于最先进的实体关系联合抽取方法。

Description

一种基于跨度信息的端到端电力知识图谱关系抽取方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于跨度信息的端到端电力知识图谱关系抽取方法。

背景技术

随着电力领域的发展不断加快，电力企业也产生了越来越多的数据，包括工业运营、系统维护、项目管理等。对于电力企业的管理人员来说，如何有效的利用海量的业务数据更好地决策已成为一项具有挑战性的任务。与项目管理相关的业务数据包括存储在关系数据库中的结构化关系数据，以及归档在报告、会议通知、计划文件、项目进度文件等中的非结构化数据。随着项目管理数据的增多，如何处理这些多源且可能异构的数据已成为一个具有挑战性的问题。

近年来，知识图谱(KG)在电力行业的知识分类、共享和决策制定方面发挥了至关重要的作用。知识图谱受到了广泛的关注，并在金融、法律、军事等领域也得到了广泛的应用。在电力工业领域，生成的电力数据主要是复杂的非结构化数据，给电力数据的管理带来一定的困难。因此，知识图谱提供了一种很好地处理非结构化数据的可行方法。一般来说，自然语言处理中的命名实体识别、关系提取等知识图谱相关技术可以从非结构化电力项目管理数据中提取实体及其之间的关系，并且也可以基于这些技术构建用于电力项目管理的知识图谱。

知识图谱的构建涉及到多种技术，其中最关键的就是信息抽取。信息抽取分为命名实体识别和关系抽取，旨在从文本中以抽取出实体及其之间的关系。

对于命名实体识别而言，其主要技术分三类：基于传统规则和模板、基于传统机器学习和基于深度学习。在早期相关技术还处于起步阶段时，一般采用人工来构建实体的识别规则，然后将规则应用到文本中以抽取实体。1991年RAU使用人工构造的规则在特定任务上的准确率达到了超越人工抽取的95％。但其缺点也很明显，人工构造规则代价巨大，并且构造出的规则也基本不具备泛化性，只能针对某一个领域。基于机器学习的方法常使用最大熵马尔可夫模型、条件随机场等模型来进行训练，并且数据标注是其中很重要的一部分。对于关系抽取而言，其主要技术跟命名实体识别相同地分为三类。传统的关系抽取主要依靠人工操作，由特定的领域专家人工对模板进行编写，从而对关系进行匹配，但人工操作的代价巨大，并且基本不具备可移植性，只能针对某个领域。传统的机器学习方法的研究热点在于半监督和无监督这两种不是很依赖标注数据的方法。目前有使用了多层级聚类方法对进行关系抽取。基于深度学习的方法分为以下两类。流水线方法是先进行命名实体识别，再进行关系抽取。联合抽取方法则是将命名实体识别和关系抽取相结合直接抽取三元组。

虽然构建知识图谱最关键就是实体关系抽取，但目前对其的研究大多集中在实体和关系的联合抽取上。由于实体和关系各自的上下文信息差异很大，现有的联合提取方法往往会受到两者造成的信息噪声的影响，这可能会显著影响整个模型的性能，导致提取关系的效率较低。

发明内容

针对上述存在的技术不足，本发明的目的是提供一种基于跨度信息的端到端电力知识图谱关系抽取方法，其提出了一种基于文本增强表示和融合跨度信息的端到端关系抽取；首先，通过将外部知识整合到领域语料库中，将它们引入预训练模型，以实现文本表示的增强处理；使用BERT模型对来自电力项目管理的数据集进行预训练；为了使BERT的输出包含尽可能多的上下文知识，外部知识被嵌入到向量表示中，并进一步拼接到BERT输入中的词嵌入中，用于下游任务；其次，提出了一种基于跨度信息融合的端到端实体关系提取方法，采用Span-level命名实体识别的方法，抽取出所有可能是实体的Span，并对抽取出的可能是实体的Span进行判断；最后在进行关系抽取时，关系抽取的输入为添加标识符的实体，其标识符为实体边界和实体类型，用于预测这对Span之间可能存在的关系。

预训练模型采用BERT模型，并将BERT输入中的词嵌入拼接上外部知识；在句子经预训练模型处理后，将其输入到命名实体识别模型中来预测每个span的实体类型，对于每个独立的span，通过插入额外的标记来突出显示subject、object及其类型，从而独立的处理关系抽取模型中的每一对候选实体。

为解决上述技术问题，本发明采用如下技术方案：

本发明提供一种基于跨度信息的端到端电力知识图谱关系抽取方法，其特征在于，具体步骤如下：

步骤1：文本表示增强的预训练模型，具体方法如下：

对于一个句子长度为L的句子X，首先在谷歌知识图谱中对每个token进行查询，如果能够查询到，则将其相关三元组嵌入为向量；对于一个三元组(h,r,t)，表示实体嵌入，/>表示关系嵌入。对于某个特定的关系r，所有的实体对(h,t)通过聚类的方式分成多组，并且每一组中的实体对都应该表现出类似的关系r；为了进行聚类，/>被用来表示所有的实体对(h,t)；M_r是某个关系所学习到的映射矩阵，/>是某个聚类学习道德一个单独的关系向量；实体的映射向量为：

得分函数为：

其中的目的是保持特定簇的关系向量/>与原始关系向量/>的距离保持一定距离，α的作用则是控制这种约束效果；

在得到某个token的相关三元组嵌入成的向量后，将其拼接到token embedding后：

e_te＝concat(e_ote,e_t) (3)

其中e_te表示拼接后所得到token embedding，e_ote表示原本的token embedding，e_t表示相关三元组；

再通过PCA算法对e_te进行降维操作，使其降为768维，接着将降维后的tokenembedding与segmentation embeddings和position embeddings加和作为BERT的输入并将其送入BERT中进行下一步操作；

步骤2：命名实体识别模型，具体方法如下：

通过步骤1可以获得每个tokenX_t的上下文表征，然后将每个span的start token、end token的上下文表征以及span长度的embedding拼接在一起得到span的表征：

h_e(s_i)＝[X_START(i)；X_END(i)；Φ(s_i)] (4)

其中X_START(i)；X_END(i)；Φ(s_i)分别表示span的开始，span的结束以及span的长度；然后将span的表征送进两层前馈神经网络，最后预测实体类型：

P_e(e|s_i)＝soft max(W_eFFNN(h_e(s_i))) (5)

其中WeFFNN()出自DyGIE++[11]；

损失函数为：

其中代表s_i的gold实体类型；

最后命名实体识别模型的输出为：

Y_e＝{(s_i,e),s_i∈S,e∈ε} (7)

其中S代表Span的集合，ε代表预定义的实体类型的集合；

步骤3：关系抽取模型，具体方法如下：

1)融合跨度信息的标注：

将文本token定义为<SHe_i>，<SEe_i>，<OHe_j>，<OEe_j>，并分别将它们插入到输入句子的主语span前后和宾语span前后，来突出span对及其类型；其中SH代表subject的开始位置，SE代表subject的结束位置，OH代表object的开始位置，OE代表object的结束位置；e_i和e_j代表实体类型。例如：输入的句子为X，则经过标注后的句子为：

2)关系抽取：

在对输入句子X进行标注得到后，将其输入至经步骤1中方法处理后的BERT预训练模型中并得到其输出/>随后将两个span的起始位置进行连接操作得到span对的表示：

其中，是<SHe_i>在/>中的索引；/>是<OHe_j>在/>中的索引；

最后对span对的关系进行预测：

P_r(r|s_i,s_j)＝soft max(W_rh_r(s_i,s_j)) (10)

损失函数为：

其中代表s_i,s_j的gold关系类型，S_G为S中的gold实体的集合；

最后关系抽取模型的输出为：

其中代表预定义的关系类型的集合。

本发明的有益效果在于：在关系抽取方面提出一种端到端的方法，该方法使用文本表示增强的预训练模型并融合跨度信息进行关系抽取；使用BERT模型对来自电力项目管理的数据集进行预训练；为了使BERT的输出包含尽可能多的上下文知识，外部知识被嵌入到向量表示中，并进一步拼接到BERT输入中的词嵌入中，用于下游任务；随后采用Span-level命名实体识别的方法，抽取出所有可能是实体的Span，并抽取出的可能是实体的Span进行判断；最后在进行关系抽取时，关系抽取的输入为添加标识符的实体，其标识符为实体边界和实体类型，用于预测这对Span之间可能存在的关系；本方法在电力项目管理数据集上所做的实验证明了实体类型为关系抽取提供了非常重要的信息，本申请方法的性能也优于最先进的实体关系联合抽取方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的文本表示增强的预训练模型的整体架构图；

图2为本发明提供的命名实体识别模型的具体例子示意图；

图3为本发明提供的关系抽取模型的一个具体例子示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于跨度信息的端到端电力知识图谱关系抽取方法，预训练模型采用BERT模型，并将BERT输入中的词嵌入拼接上外部知识；在句子经预训练模型处理后，将其输入到命名实体识别模型中来预测每个span的实体类型，对于每个独立的span，通过插入额外的标记来突出显示subject、object及其类型，从而独立的处理关系抽取模型中的每一对候选实体；具体步骤如下：

步骤1：文本表示增强的预训练模型，具体方法如下：

对于一个句子长度为L的句子X，首先在谷歌知识图谱中对每个token进行查询，如果能够查询到，则将其相关三元组嵌入为向量；图1是整体架构；对于一个三元组(h,r,t)，表示实体嵌入，/>表示关系嵌入。对于某个特定的关系r，所有的实体对(h,t)通过聚类的方式分成多组，并且每一组中的实体对都应该表现出类似的关系r；为了进行聚类，/>被用来表示所有的实体对(h,t)；M_r是某个关系所学习到的映射矩阵，/>是某个聚类学习道德一个单独的关系向量；实体的映射向量为：

得分函数为：

e_te＝concat(e_ote,e_t) (3)

步骤2：命名实体识别模型，采用Span-level命名实体识别的方法，抽取出所有可能是实体的Span，并对抽取出的可能是实体的Span进行判断；图2是一个具体的例子。具体方法如下：

h_e(s_i)＝[X_START(i)；X_END(i)；Φ(s_i)/ (4)

P_e(e|s_i)＝soft max(W_eFFNN(h_e(s_i))) (5)

其中WeFFNN()出自DyGIE++[11]；

损失函数为：

其中代表s_i的gold实体类型；

最后命名实体识别模型的输出为：

Y_e＝{(s_i,e),s_i∈S,e∈ε} (7)

其中S代表Span的集合，ε代表预定义的实体类型的集合；

步骤3：关系抽取模型，关系抽取的目标是输入一对span，来预测这对span的关系。过去的方法大部分都是直接使用命名实体识别模型输出的span表示，但本申请认为命名实体识别模型输出的span表示仅仅只包含有某一个实体的上下文信息，忽略了span对之间的内在联系，所以本申请提出并使用了一种融合跨度信息的标注方法。图3是本文关系抽取模型的一个具体例子。具体方法如下：

1)融合跨度信息的标注：

2)关系抽取：

其中，是<SHe_i>在/>中的索引；/>是<OHe_j>在/>中的索引；

最后对span对的关系进行预测：

P_r(r|s_i,s_j)＝soft max(W_rh_r(s_i,s_j)) (10)

损失函数为：

其中代表s_i,s_j的gold关系类型，S_G为S中的gold实体的集合；

最后关系抽取模型的输出为：

其中代表预定义的关系类型的集合。

实验分析：

数据集和实验设置：

本实验所使用的数据集为三个电力领域项目管理的数据集：PPD03,PPD04,PPD05，所嵌入的外部知识均来自谷歌知识图谱。表1展示了这三个数据集的详细信息。本实验使用了Adam优化器训练模型，warmup ratio为0.1。本实验训练了50个epoch的实体模型，预训练LMs的权重学习率为1e-5，其他的为5e-4，batch size大小为16。关系抽取模型上本实验训练了10个epoch，学习率为2e-5，batch size大小为32。本实验采用F1值作为模型性能的评价指标。

表1PPD03,PPD04,PPD05三个数据集的信息

基线：

当前大多数实体关系抽取研究都采用联合抽取的方式，流水线的方式已经不是主流方法，所以本实验采用4个联合抽取的SOTA作为基线：

RIFRE:RIFRE是一种基于异质图神经网络的表示迭代融合关系抽取方法。

PRGC:从新的视角将关系三元组抽取任务分解为关系判断、实体抽取和主客体对齐3个子任务，提出了一种基于潜在关系和全局对应的三元组联合抽取框架(PRGC)。

TDEER:TDEER是一种基于翻译解码机制的联合抽取模型。

OneRel:OneRel是一种单模块、单步解码的实体关系联合抽取方法，直接识别三元组，更好捕获三元组间的相互依赖。

实验结果与分析

本实验所提出的方法被命名为为SERE，SERE-为本文所进行的消融实验，即在预训练模型中不加入外部知识，使用原始的BERT作为预训练模型。

表2SERE与其他基线的F1值

通过表2可以观察到，本申请所提出的SERE在实体关系抽取上的性能要优于联合抽取模型，并且SERE在PPD03,PPD04,PPD05三个电力项目管理数据集上都拥有最高的F1分数。对于本申请所提出模型具有优越性能的原因归结于以下几点：一、实体的上下文信息和关系的上下文信息有很多不同之处，在进行联合抽取时可能会产生一部分噪音影响模型性能；二、命名实体识别和关系抽取分别使用不同的编码器能显著提高任务的性能；三、实体信息能够对关系抽取起到很大的作用。

由于联合抽取的本质在于两个任务之间的相互促进，所以针对此问题进行了一个扩展实验，即NER任务和RE任务共享同一个编码器。表3展示了实验的结果。

表3共享与不共享编码器的F1值

共享编码器	实体	关系
			是	87.9	64.2
否	89.0	64.6

从表3中可以看出共享编码器并不能对任务起到促进作用，反而可能会起到反作用。本申请认为出现这种情况的原因主要是NER任务和RE任务对输入的要求存在差异，它们需要不同的特征来完成任务。所以针对特定的任务，NER和RE使用各自的编码器效果要优于共享编码器。

本申请对于输入句子中的每一个词，都先对其在外部知识图谱上进行搜索，并将相关三元组嵌入词嵌入中，随后分别使用两个编码器进行命名实体识别与关系抽取。实验证明了实体信息对关系抽取模型的性能提高能起到正向作用，也证明了本申请所提出方法的性能要优于联合抽取模型。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于跨度信息的端到端电力知识图谱关系抽取方法，其特征在于，具体步骤如下：

步骤1：文本表示增强的预训练模型，具体方法如下：

对于一个句子长度为L的句子X，首先在谷歌知识图谱中对每个token进行查询，如果能够查询到，则将其相关三元组嵌入为向量；对于一个三元组(h,r,t)，表示实体嵌入，/>表示关系嵌入；对于某个特定的关系r，所有的实体对(h,t)通过聚类的方式分成多组，并且每一组中的实体对都应该表现出类似的关系r；为了进行聚类，/>被用来表示所有的实体对(h,t)；M_r是某个关系所学习到的映射矩阵，/>是某个聚类学习道德一个单独的关系向量；实体的映射向量为：

得分函数为：

e_te＝concat(e_ote,e_t) (3)

再通过PCA算法对e_te进行降维操作，使其降为768维，接着将降维后的token embedding与segmentation embeddings和position embeddings加和作为BERT的输入并将其送入BERT中进行下一步操作；

步骤2：命名实体识别模型，具体方法如下：

通过步骤1可以获得每个token X_t的上下文表征，然后将每个span的start token、endtoken的上下文表征以及span长度的embedding拼接在一起得到span的表征：

h_e(s_i)＝[X_START(i)；X_END(i)；Φ(s_i)] (4)

P_e(e|s_i)＝softmax(W_eFFNN(h_e(s_i))) (5)

其中WeFFNN()出自DyGIE++[11]；

损失函数为：

其中代表s_i的gold实体类型；

最后命名实体识别模型的输出为：

Y_e＝{(s_i,e),s_i∈S,e∈ε} (7)

其中S代表Span的集合，ε代表预定义的实体类型的集合；

步骤3：关系抽取模型，具体方法如下：

1)融合跨度信息的标注：

2)关系抽取：

其中，是<SHe_i>在/>中的索引；/>是<OHe_j>在/>中的索引；

最后对span对的关系进行预测：

P_r(r|s_i,s_j)＝softmax(W_rh_r(s_i,s_j)) (10)

损失函数为：

其中代表s_i,s_j的gold关系类型，S_G为S中的gold实体的集合；

最后关系抽取模型的输出为：

其中代表预定义的关系类型的集合。