CN113886593A

CN113886593A - 一种利用指代依赖提升关系抽取性能的方法

Info

Publication number: CN113886593A
Application number: CN202110720743.6A
Authority: CN
Inventors: 张小明; 李娇阳; 马帅
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2022-01-04

Abstract

本发明公开了一种利用指代依赖提升关系抽取性能的方法，包括捕获文本上下文语义，识别文本中的命名实体，预测实体间的指代依赖关系，融合指代依赖关系预测关系三元组等4个部分；本发明综合利用了信息抽取、语义挖掘、深度学习等技术，利用指代依赖信息对实体关系信息进行有效补充，提高了实体关系预测的抽取性能，进而基于关系预测结果可进行其他应用的研究，对进一步研究知识图谱和挖掘实体潜在关系提供了关键基础。

Description

一种利用指代依赖提升关系抽取性能的方法

技术领域

本发明涉及一种利用指代依赖提升关系抽取性能的方法，将指代依赖信息融合到关系抽取中。在机器阅读理解、知识图谱、搜索引擎等领域都有广泛的应用，属于深度学习、自然语言处理研究领域。

背景技术

关系抽取，隶属于信息抽取，旨在从海量非结构化或半结构化文本中抽取出主体、关系、客体三元组。它是知识图谱构建的基础。现有的关系抽取方法主要包括基于规则模板的方法、基于机器学习和基于深度学习的方法。

基于规则模板的关系抽取方法依赖于特定的领域，需要对每一类关系手工制定特定的规则。此类方法效率较高，但是需要专业领域的知识，以及大量的人力物力，可移植性较差。对于指定领域，并且格式规范的文本，使用此方法的效果较好。

基于机器学习的关系抽取方法，可以根据是否有监督将其分为有监督的方法、半监督的方法和无监督的方法。有监督的方法利用有标签的数据集进行训练，将关系抽取视为分类问题，在测试集上分类识别。常用的方法有基于特征向量和基于核函数的方法。基于特征向量的方法目前发展较为完善，其步骤为特征向量选取、特征抽取以及分类器的选择。核心在于特征向量的选取，具有较高局限性。基于核函数的方法，将多种信息融合，不需要专注表达特征。基于半监督的方法着眼于未标注数据集的利用，该方法对于初始种子的选取有很强的依赖，容易产生错误传播。无监督的方法可移植性较强，但是效果往往不如有监督及半监督方法。

基于深度学习的关系抽取技术，常用的方法有：流水线方法、联合实体关系抽取方法、序列标注方法以及基于seq2seq架构的方法。早期的学者采用流水线方法，先识别实体，随后预测实体蕴含的关系。这种方法忽略了实体识别和关系预测之间的联系，且易出现错误传播问题。联合实体关系抽取方法共享两个任务的编码层，解码时依次进行，一定程度上缓解了错误传播。序列标注方法需要精心设计复杂的标注架构，可以一次性完成实体和关系的预测，解决了错误传播问题。基于seq2seq 架构的模型，在解码时可以多次生成三元组，很大程度上解决了嵌套实体的问题。

在公开的关系抽取数据集中，标注了文本中的指代依赖关系。本方法认为，同属于一个指代的实体具有相近的语义表示，融合指代信息从而加强同属一个指代的实体表征，对关系抽取任务是很有必要的。指代依赖信息是对实体关系信息的有效补充，如代词之间关系可以根据代词的指代实体来预测。例如，{it,Someplace,city of China}。把it的指代信息融入Someplace，对模型的关系抽取效果将有提升。如何设计模型的结构，充分利用预训练语言模型Bert的下游网络结构蕴含的语义信息，融合指代依赖关系从而增强关系抽取的性能是本方法要解决的问题。

发明内容

本发明要解决的技术问题：从半结构化或非结构化信息中抽取出主体、关系、客体三元组，实现联合的实体关系抽取，融合指代词蕴含的语义信息，提升关系抽取的性能。

本发明的技术解决方案：

一种利用指代依赖提升关系抽取性能的方法，包括以下步骤：

步骤A.捕获文本上下文语义：利用已有的预训练语言模型BERT 对输入的关系文本进行编码，动态捕获全局的上下文语义信息，将文本嵌入成为表征向量；

步骤B.识别文本中的命名实体：步骤A得到的文本表征向量，使用层叠式标注架构，识别实体的开始和结束位置以及实体的类别信息，一次性识别出句中的所有实体。

步骤C.预测实体间的指代依赖关系：步骤A得到的Bert最后一层输出的隐藏状态，送入双向长短时记忆网络，其输出拼接后经过线性层，随机dropout防止过拟合，随之用sigmoid激活函数进行激活，得到指代预测矩阵P_coref，预测句子中的指代对应关系。

步骤D.融合指代依赖关系预测关系三元组：指代依赖信息是对实体关系信息的有效补充，如代词之间关系可以根据代词的指代实体来预测。本方法认为关系抽取任务旨在捕捉句子的上下文语义从而得出结果，而Bert的倒数第二层不太靠近下游任务，能很好地捕捉句子的全局语义信息，对于关系抽取任务有益。特别地，获取步骤A中Bert模型倒数第一层和倒数第二层的隐藏状态的输出，采用多头注意力机制，得到关系依赖矩阵；针对每一种实体关系r，构建一组双线性层，融合步骤B中的命名实体信息、步骤C中的指代依赖信息和关系依赖矩阵，得到最终的关系r预测矩阵

根据数据集中已标记的关系三元组信息，针对每组关系r分别构造交叉熵损失函数，学习实体间的关系。在测试阶段，对关系r的关系预测矩阵

使用广度优先搜索算法，寻找求和大于阈值δ的子矩阵，满足条件的子矩阵横坐标的范围表示当前关系r下的客体，纵坐标的范围表示当前关系下的主体。

步骤A中利用谷歌的预训练语言模型Bert-base-uncased对待抽取文本进行编码，输出分别是Bert最后一层输出的隐藏状态H_s以及Bert的 12层的隐藏状态输出O_s。Bert可以动态捕获单词token间上下文信息，处理一个词时能考虑其前后的信息，拥有强大的特征提取和语义表征能力，是广泛应用的预训练语言模型。

步骤B实体识别的方法源于机器阅读理解MRC的指针标注思路。在这里采用层叠式指针标注，分别构建开始和结尾向量，初始化为0，长度均为句子的长度。根据实体的开头和结尾位置分别在两个向量中标注实体类别对应的id。例如，“我爱某城市”。这句话包含实体某城市，属于Loc类型，对应实体类别的id为5。实体的开头和结尾分别为3和 7。经过层叠式标注后，对应开始向量为{0，0，5，0，0，0，0}，对应结束向量为{0，0，0，0，0，0，5}。半指针半标注的结构可以同时预测实体的开始和结束位置，以及实体的类别。

预测阶段，利用步骤A得到的Bert最后一层输出的隐藏状态H_s，经过一个线性层，计算出预测的开始向量H_begin和结束向量H_end，从而求出最大值索引以及遍历后可以得到预测的实体三元组结果，每个元组的元素分别是实体类别t、实体开头位置b、实体结尾位置e。(t、b、e) 三元组可以定位输入文本中的一个实体。m表示当前输入文本中，模型预测其蕴含m个实体。E_pred定义为命名实体识别预测的实体集合，定义如下，

E_pred＝{(t₁，b₁，e₁)，...，(t_m，b_m，e_m)}.

训练阶段，预测的实体开始向量H_begin与目标实体开始向量T_begin求交叉熵损失L_start，预测的实体结束向量H_end与目标实体结束向量T_end求交叉熵损失L_end，本阶段的损失是二者的平均值L_ner。

L_start＝CrossEntropyLoss(H_begin，T_begin)

L_end＝CrossEntropyLoss(H_end，T_end)

L_ner＝(L_start+L_end)/2

步骤C利用了数据集中蕴含的指代关系，例如，

{it，Someplace，city of China}。把it的指代信息融入到Someplace中，通过指代依赖加强实体的表征，对模型的关系抽取效果将有提升。由于步骤A中最后一层的隐藏状态H_s可以很好地表征句子的token信息，本方法将它送入双向长短时记忆BiLSTM网络，其输出拼接后经过线性层将其转化为维度为sq_len*sq_len的矩阵。随机dropout防止过拟合，随之用sigmoid激活函数进行激活，得到指代预测矩阵P_coref。指代预测矩阵与目标指代矩阵T_coref计算二元交叉熵得到L_coref。目标指代矩阵 T_coref与指代预测矩阵P_coref维度相同，均为sq_len*sq_len，sq_len是输入文本的长度。目标指代矩阵T_coref中，第i行第j列的元素T_ij＝1表示第i个token与第j个token互相具有指代关系。

h＝W(h[：，：，：dim_lstm]*h[：，：，dim_lstm：])+b

P_coref＝σ(h)

步骤D内的多头注意力可以使模型更好地整合句子的信息，Bert 的倒数第一层和倒数第二层隐藏状态的输出，分别记为

二者进入多头注意机制，得到初步的关系矩阵

维度是sq_len*sq_len， sq_len是输入文本的长度。过程定义为，

为了利用指代预测矩阵的语义信息，从而提升关系抽取的性能。本方法将指代预测矩阵P_coref与初步的关系矩阵P_r1相乘。这一操作加强了具备指代信息的实体在关系矩阵中的表征，随之将其与初步的关系矩阵 P_r1相加，不同关系分别进入不同全连接层。每个关系r_i对应关系矩阵P_r1的第i维

输入到全连接层都有一组可学习参数

随后将不同全连接层的输出拼接起来。使用步骤B得到的命名实体识别预测结果生成实体矩阵P_ent，维度为sq_len*sq_len，sq_len是输入文本的长度。实体矩阵是对称矩阵，由0和1组成，实体存在则为1。将关系矩阵过滤处理，sigmoid激活得到最终的关系预测矩阵P_relation。鉴于实体矩阵由 0和1组成，将其与拼接后的关系矩阵按位相乘，即实现了信息过滤。上述过程定义为，

目标关系矩阵的维度是rel_nums*sq_len*sq_len；其中， rel_nums表示数据集中包含的关系类型数目之和，sq_len表示当前输入文本的长度。目标关系矩阵中的元素

表示第j个token与第k个 token存在第i类关系。训练时将关系预测矩阵P_relation与目标关系矩阵 T_relation计算二元交叉熵损失L_relation。

训练过程中，命名实体识别、指代预测、关系预测，三个任务的loss 分别为L_ner、L_coref、L_relation，三者之和定义为最终的损失L(θ)，反向传播更新网络的权重。最终的损失函数L(θ)定义为，

L(θ)＝L_ner+L_coref+L_relation.

预测时，对关系预测矩阵P_relation的各个关系通道，均采用广度优先搜索算法，搜寻总和大于阈值δ的子矩阵。子矩阵的纵坐标范围代表该关系下的主体，子矩阵的横坐标范围代表该关系下的客体。图二给出了简单的实例。例如，预测文本为Text，对于第i类关系，某个满足总和大于阈值的子矩阵的横坐标范围是[4：4]，纵坐标范围是[0：1]。预测的关系三元组为(r_i，Text_[0：1]，Text_[4：4])。输入文本从第0到第1个token 是主体，从第4到第4个token是客体，二者之间蕴含着第i类关系，也就是关系r_i。示例图中，模型预测出关系三元组(Loc-in，ShangHai，China)。最终输出模型预测的关系三元组集合 {(r₁，s₁，o₁)，......，(r_m，s_m，o_m)}.其中，r、s、o三者构成了关系三元组，r表示关系三元组中的关系类型，s表示关系三元组中的主体，o表示关系三元组中的客体。m表示当前输入文本中，模型预测其蕴含m个关系三元组。

本发明与现有技术相比的优点在于：对于命名实体识别任务，传统的命名实体识别方法是基于双向长短时记忆网络BiLSTM和CRF的序列标注架构。本方法采用的层叠式标注架构，是半指针、半标注的架构，预测实体的开始和结束位置，同时预测实体的类别，可以一次识别多个实体。相比于传统的条件随机场的方法，加快了训练速度；对于关系抽取任务，将指代关系蕴含的信息，融合到最终的关系预测矩阵中，提升关系预测任务的性能。本方法引入的多通道关系矩阵，通过将不同关系下的矩阵送入不同的全连接层，使模型学习到不同关系对应的指向信息。预测时，设定合理的阈值δ，超出阈值就认为存在此类关系。关系矩阵的设定可以实现句子的多关系预测，该方法可以有效地解决嵌套实体以及重叠三元组等问题。

附图说明

图1是利用指代依赖提升关系抽取性能的方法流程示意图；

图2是最终的关系预测矩阵的示意样例图。

具体实施方式

下面结合附图及本发明的实施方式对本发明的方法作进一步详细的说明。

如图1所示，本发明一种利用指代依赖提升关系抽取性能的方法，图2给出了最终的关系预测矩阵的一个例子。具体实现步骤如下：

步骤一：捕获文本上下文语义

采用预训练语言模型Bert对输入的文本进行编码。首先用Bert自带的tokenizer将其进行分词处理，处理成Bert词表可以识别的集合。Bert 的输出分别是最后一层输出的隐藏状态H_s以及Bert所有层的隐藏状态的输出O_s。

步骤二：识别文本中的命名实体

本方法的命名实体识别策略没有使用经典的双向长短时记忆网络及条件随机场的架构，而是利用了机器阅读理解中的指针标注思路，也即层叠式指针标注架构。该方法基于半指针、半标注的架构，预测实体的开始和结束位置，同时预测实体的类别。相比于条件随机场的方法，加快了训练速度。层叠标注方法包含了开始和结束向量，通过向量指示实体的起始范围，可以一次性标注句中的所有实体。分别构建开始和结尾向量，初始化为0，长度均为句子的长度。根据实体的开头和结尾位置分别在两个向量中标注实体类别对应的id。例如，“我爱某城市”。这句话包含实体某城市，属于Loc类型，对应实体类型的id为5。实体的开头和结尾分别为3和7。经过层叠式标注后，对应开始向量 {0，0，5，0，0，0，0}，对应结束向量{0，0，0，0，0，0，5}。

预测阶段，利用步骤一Bert最后一层输出的隐藏状态，经过一个线性层，计算出预测的开始向量H_begin和结束向量H_end。将预测的开始向量H_begin和结束向量H_end求出最大值索引以及遍历后可以得到预测的实体三元组结果，每个元组的元素分别是实体类别、实体开头、实体结尾。其中，t表示预测的实体类别，b表示预测的实体开头位置，e表示预测的实体结尾位置。t、b、e三者可以定位输入文本中的一个实体。m表示当前输入文本中，模型预测其蕴含m个实体。E_pred定义为命名实体识别预测的实体集合。

E_pred＝{(t₁，b₁，e₁)，...，(t_m，b_m，e_m)}.

训练阶段，预测的实体开始向量H_begin与目标实体开始向量T_begin求交叉熵损失L_start，预测的实体结束向量H_end与目标实体结束向量T_end求交叉熵损失L_end，命名实体识别阶段的损失是二者的平均值L_ner。

L_start＝CrossEntropyLoss(H_begin，T_begin)

L_end＝CrossEntropyLoss(H_end，T_end)

L_ner＝(L_start+L_end)/2

步骤三：预测实体间的指代依赖关系

数据集中常常蕴含丰富的指代关系，例如{it，Someplace，city of China}。如果在句中it与另一个实体A具备关系r，可以将指代依赖融合到关系抽取任务中，预测出Someplace与实体A也具备关系r，从而增强关系抽取的性能。步骤一获得的最后一层的隐藏状态H_s可以很好地表征句子的token信息，模型将其送入双向长短时记忆网络，其输出拼接后经过线性层将其转化为维度为sq_len*sq_len的矩阵。经过dropout 抵抗过拟合，sigmoid激活函数激活后得到指代预测矩阵P_coref。将其与目标指代矩阵T_coref计算二元交叉熵，记为L_coref。目标指代矩阵T_coref与指代预测矩阵P_coref维度相同，均为sq_len*sq_len，sq_len是输入文本的长度。目标指代矩阵T_coref中，第i行第j列的元素T_ij＝1表示第i个 token与第j个token互相具有指代关系。过程定义为，

h＝W(h[：，：，：dim_lstm]*h[：，：，dim_lstm：])+b

P_coref＝σ(h)

步骤四：融合指代依赖关系预测关系三元组

关系三元组的预测可以使用矩阵来表达。步骤一中，Bert的倒数第一层和倒数第二层隐藏状态的输出，分别记为

多头注意力可以使模型更好地整合句子的信息。二者进入多头注意机制，得到初步的关系矩阵

维度是sq_len*sq_len，sq_len是输入文本的长度。过程定义为，

紧接着利用指代预测矩阵的语义信息，提升关系抽取的性能。将指代预测矩阵P_coref与初步的关系矩阵P_r1相乘。这一操作加强了具备指代信息的实体在关系矩阵中的表征，随之将其与初步的关系矩阵P_r1相加，不同关系分别进入不同全连接层。每个关系r_i对应关系矩阵P_r1的第i维

输入到全连接层都有一组可学习参数

随后将不同全连接层的输出拼接起来。使用步骤A得到的实体识别结果生成实体矩阵P_ent，由0和1组成，1表示存在实体。将其对激活层输出的关系矩阵Mask处理，激活后得到最终的关系预测矩阵P_relation。由于实体矩阵由0和1 组成，将其与拼接后的关系矩阵按位相乘，即实现了Mask操作。该过程定义为，

训练时将关系预测矩阵P_relation与目标关系矩阵T_relation计算二元交叉熵损失L_relation。关系预测矩阵P_relation与目标关系矩阵T_relation的维度都是rel_nums*sq_len*sq_len；其中，rel_nums表示数据集中包含的关系类型数目之和，sq_len表示当前输入文本的长度。目标关系矩阵中的元素

表示第j个token与第k个token存在第i类关系。计算损失的过程定义为，

训练过程中，命名实体识别、指代预测、关系预测，三个任务的loss 之和分别为L_ner、L_coref、L_relation，三者之和定义为最终的损失L(θ)，反向传播更新网络的权重。L(θ)定义为，

L(θ)＝L_ner+L_coref+L_relation.

预测时，对关系预测矩阵P_relation的各个关系通道，均采用广度优先搜索算法，搜寻总和大于阈值δ的子矩阵。子矩阵的纵坐标范围代表该关系下的主体，子矩阵的横坐标范围代表该关系下的客体。图二给出了简单的实例。例如，预测文本为Text，对于第i类关系，某个满足总和大于阈值的子矩阵的横坐标范围是[4:4]，纵坐标范围是[0:1]。预测的关系三元组为(r_i，Text_[0：1]，Text_[4：4])。输入文本从第0到第1个token 是主体，从第4到第4个token是客体，二者之间蕴含着第i类关系，也就是关系r_i。示例图中，模型预测出关系三元组(Loc-in,ShangHai,China)。最终输出模型预测的关系三元组集合 {(r₁，s₁，o₁)，......，(r_m，s_m，o_m)}.其中，r、s、o三者构成了关系三元组，r表示关系三元组中的关系类型，s表示关系三元组中的主体，o表示关系三元组中的客体。m表示当前输入文本中，模型预测其蕴含m个关系三元组。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种利用指代依赖提升关系抽取性能的方法，其特征在于包括以下步骤：

步骤A.捕获文本上下文语义：利用已有的预训练语言模型BERT对输入的关系文本进行编码，动态捕获全局的上下文语义信息，将文本嵌入成为表征向量；

步骤B.识别文本中的命名实体：利用步骤A中的文本表征向量，采用预测实体边界的方法，预测实体的开始和结尾位置边界，以及实体的类别信息；

步骤C.预测实体间的指代依赖关系：获取步骤A中BERT模型最后一层输出的隐藏特征，经过双向长短时记忆网络BiLSTM编码和双线性层转换后，得到指代预测矩阵P_coref，再由步骤B中获取到的实体信息，预测句子中的实体间的指代依赖；

步骤D.融合指代依赖关系预测关系三元组：获取步骤A中BERT模型倒数第一层和倒数第二层的隐藏状态的输出，采用多头注意力机制，得到关系依赖矩阵，并针对每一种关系r利用双线性层将步骤B和步骤C中的命名实体信息和指代依赖信息融合到关系依赖矩阵，得到关系预测矩阵

预测句子中的实体间的关系。

2.根据权利要求1所述的利用指代依赖提升关系抽取性能的方法，其特征在于：步骤A以BERT预训练语言模型作为编码器，输出分别是BERT最后一层输出的隐藏状态H_s以及BERT的12层的隐藏状态输出O_s，动态捕获单词token间上下文信息。

3.根据权利要求1所述的利用指代依赖提升关系抽取性能的方法，其特征在于：步骤B中，利用步骤A中的隐藏状态H_s分别预测实体的开始位置向量H_begin和结束位置向量H_end，并根据数据集中已标记的实际开始与结束位置，构造交叉熵损失函数，学习实体的开始和结尾位置边界，以及实体的类别信息。

4.根据权利要求1所述的利用指代依赖提升关系抽取性能的方法，其特征在于：步骤C中，利用蕴含文本token信息的向量H_s，经过双向长短时记忆网络BiLSTM和双线性层的转换，得到指代预测矩阵P_coref；利用步骤B中已得到的命名实体信息对指代预测矩阵P_coref进行信息过滤，根据数据集中已标记的指代依赖关系标签，构造交叉熵损失函数，学习实体之间的指代关系。

5.根据权利要求1所述的利用指代依赖提升关系抽取性能的方法，其特征在于：步骤D中，指代依赖信息是对实体关系信息的有效补充，特别地，获取步骤A中Bert模型倒数第一层和倒数第二层的隐藏状态的输出，采用多头注意力机制，得到关系依赖矩阵；针对每一种实体关系r，构建一组双线性层，融合步骤B中的命名实体信息、步骤C中的指代依赖信息和关系依赖矩阵，得到最终的关系r预测矩阵

根据数据集中已标记的关系三元组信息，针对每组关系r分别构造交叉熵损失函数，学习实体间的关系；在测试阶段，对关系r的关系预测矩阵