CN112966527A

CN112966527A - 一种基于自然语言推理的关系抽取模型

Info

Publication number: CN112966527A
Application number: CN202110429116.7A
Authority: CN
Inventors: 彭涛; 胡文斐; 孙雨鹏; 吴禹; 张睿鑫; 刘志成
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-06-15
Anticipated expiration: 2041-04-21
Also published as: CN112966527B

Abstract

本发明公开的属于自动化识别技术领域，具体为一种基于自然语言推理的关系抽取模型，其包括：DescriptionLayer(描述层)；EncoderLayer(编码器层)；InferenceLayer(推理层)；ClassificationLayer(分类层)。本发明在公开的数据集SemEval 2010Task‑8上与目前较为先进的四个模型进行对比试验：1)基于GCN的FAT‑RE模型，2)基于CNN和注意力机制的Att‑Pooling‑CNN模型，3)基于BERT的R‑BERT模型，4)基于BERT的KnowBERT模型，从而使该模型整合了知识库中的信息，且本模型的F1分数达到90.1％，高于其他四个模型，说明本模型通过构造关系描述和多损失函数叠加，有效地提升了模型的性能，向模型中注入了先验知识，并在推理的过程中，根据关系描述来选择目标句子中的关键信息和过滤目标句子中的噪音。

Description

一种基于自然语言推理的关系抽取模型

技术领域

本发明涉及自动化识别技术领域，具体为一种基于自然语言推理的关系抽取模型。

背景技术

中国科学院模式识别自动化研究所提出了PCNN模型，通过卷积神经网络和最大池化来抽取实体之间的关系，同时引入了基于多示例学习的远程监督，缓解了数据不足的问题。由于传统RNN并行性较差，谷歌提出了完全基于注意力机制的编码解码器Transformer，在加快运算速度的同时也提升了模型的精度。阿里巴巴提出了R-BERT模型，通过使用两个实体以及Bert特殊标记CLS所代表的词向量作为关系向量表示，取得了良好的效果。华为的REDN模型通过使用非对称核内积函数来计算两个实体之间的相关性，从而使用矩阵而非向量来表示实体之间的关系。

但是，目前主流的关系抽取方法存在以下问题：

1)将关系提取任务视为一个简单的分类问题，并在目标句子中进行。由于目标句子可能无法提供足够的证据和信息，因此它们的性能受到限制。

2)在向模型注入额外信息是，现有方法往往采取预训练的方式，或者通过自然语言处理工具来注入信息，这使得模型需要更多的训练时间以及额外的数据集，同时模型的性能还会依赖自然语言处理工具的性能。

我们提出了一个新的框架来处理关系抽取任务。当面临期末考试时，选择题总是比填空题更容易被接受。这主要归因于选择题中的选择可能编码着一些关键的信息和证据。与以往采用多重分类策略不同，本文将关系抽取视为一个选择题。为此，我们通过为每个关系创建描述来给模型提供选择，其中这些描述被视为假设。然后以给定的目标句和实体对为前提，将目标句与所有关系描述分别匹配，形成前提假设对列表。对于所有的前提假设对，模型将前提和假设之间的关系分为两类，即(蕴涵，不蕴涵)，从而推断是否可以从前提中归纳出假设。最后，通过选择一个可信度最高的假设，模型自然地确定了目标句所表达的关系。

我们的框架很自然地处理了以前工作中存在的信息不足问题。我们通过为模型提供显式设计的关系描述来注入先验知识。同时我们的方法不需要额外的数据集来进行预训练。

发明内容

本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

为解决上述技术问题，根据本发明的一个方面，本发明提供了如下技术方案：

一种基于自然语言推理的关系抽取模型，其包括：

1)DescriptionLayer(描述层)：该层模型结构的最底层，通过向输入中注入额外的知识来增强模型，每个关系都有一个模板描述，使用关系描述模板将一个目标句子映射到个前提假设句子对，为关系类型总数；其中原始目标句子被视为前提，而关系描述则被视为假设；

2)EncoderLayer(编码器层)：该层对应模型结构中EncoderandInferenceLayer的一部分，在描述层之后，我们在编码器层将前提假设句子对中的每个词转换为固定长度的向量，以获得每个前提假设句子对的向量表示，所有的个前提假设对将被分别编码；

3)InferenceLayer(推理层)：该层对应模型结构中EncoderandInferenceLayer的一部分，使用编码器层生成的句子表示句子向量表示，推理层根据前提推断假设是否成立，对于每个前提假设句子对，此层都会生成类别entailment(蕴含)和not_entailment(不蕴含)的置信度得分；

4)ClassificationLayer(分类层)：本层对应模型结构的最上层，分类层可以利用每个关系对应前提假设对的置信度得分，通过选择置信度最高的关系来给出目标句子表达哪种关系的预测。

作为本发明所述的基于自然语言推理的关系抽取模型的一种优选方案，其中：在DescriptionLayer中构造关系描述模板，对于每种关系类型，都有一个关系描述模板，关系描述表示相应关系的含义以注入先验知识，包括以下步骤：

我们将目标句子与关系描述相结合以形成前提假设对，为了将实体信息并入目标句子中，每个关系描述模板具有一个插槽对(s₁,s₂)，与我们针对目标句子执行的操作相同，我们还在两个位置附近添加了实体标记以强调实体信息，通过将目标句子P中的实体对(e₁,e₂)填充到(s₁,s₂)中，我们可以从模板生成假设列表H₁,...,H_r，其中r是关系类型的数量和H_i表示关系i的假设，对于每个关系，我们将前提P与相应的假设结合起来，以获得所有的前提假设对{(P,H₁),...,(P,H_r)}，前提假设对的数量与关系类型r一致。

作为本发明所述的基于自然语言推理的关系抽取模型的一种优选方案，其中：模型中基于关系描述中包含的先验知识和常识，推断目标句子与关系描述之间的关系，从而获得前提假设对是否成立的置信度，包括以下步骤：

在我们的推理层中，模型首先通过编码层获得P和H的表示，然后通过注意力机制构造工作内存，答案模块将使用基于工作记忆的多步推理策略来计算P和H之间的置信度得分，我们将编码器层的输出上下文表示h^P作为前提的工作记忆，并且类似的将作为假设的工作记忆，基于工作记忆

我们将假设的初始状态表示为s₀，我们使用

中每个向量的加权和作为s₀，以有选择地融合信息和过滤噪声；

其中ω^H是训练期间学习的参数，对于每个推理步骤t∈{0，1，...,T-1}，我们使用前提P的工作内存h^p来计算前提x^t的状态，根据前提条件在上一个推断步骤t-1中的状态s_t-1，模型通过前提工作存储器中所有矢量的加权和获得结果；

β＝softmax(s_t-1ω^Ph^P) (3)

x_t＝βh^P (4)

在每个推理步骤中，我们使用前一步假设的状态s_t-1和前提的状态x_t，通过门循环单元(GRU)逐步完善假设状态；

s_t＝GRU(s_t-1,x_t) (5)

我们在推理步骤t中计算关系预测

中的两个元素分别表示entailment和not_entailment的置信度得分，这表明根据前提，假设是否成立，

是使用s_t、x_t、以及它们的差与和按元素乘积组合而成的；

我们对每个推理步骤t中的

进行平均，以获得输出预测p^r，所有

的聚合可以充分利用推断信息并提高鲁棒性。

作为本发明所述的基于自然语言推理的关系抽取模型的一种优选方案，其中：模型构造了分类层，以在训练时同时实现粗粒度的多分类损失和细粒度的二分类损失，在分类层计算多分类损失，并与推理层的二分类损失相结合，作为最终的损失函数，包括如下步骤：

在推理层之后，对于所有关系r和对应的(P，H_r)，我们将其输出预测拼接，以形式化最终预测；

P＝[p¹,...,p^r] (8)

对于所有前提假设对{(P，H₁),...,(P，H₁)}，我们在中Pentailment获得entailment类的置信度得分，以及相似地，在

中获得not_entailment类的置信度得分，

中的高分表示目标句子P表达/不表达对应的关系r，我们使用差p_diff来表示每个关系的置信度得分，然后在p_diff上应用完整的连接层，我们使用skipconnect防止模型降级，我们将softmax应用于p_diff以输出关系类别的分布；

在训练过程中，我们最小化的损失函数是推理损失和分类损失的组合，对于推理损失，我们在推理层中将每个前提假设对分类为(entailment，not_entailment)，在前提假设对上计算二进制交叉熵，记为L_I，对于分类损失，我们得到了分类层中每个关系的目标句子的预测，关系类上的分类损失记为L_C，可以通过将两个损失按权重相加在一起来获得最终损失函数L。

L＝λ₁L_l+λ₂L_C (11)。

与现有技术相比：通过关系描述模板，对模型注入先验知识；通过多任务训练的方式，通过构造分类层，使模型同时拟合自然语言推理部分的损失函数和关系抽取部分的损失函数；将自然语言推理模型迁移到关系抽取领域的具体架构，该基于自然语言推理的关系抽取模型，本发明在公开的数据集SemEval2010Task-8上与目前较为先进的四个模型进行对比试验：1)基于GCN的FAT-RE模型，2)基于CNN和注意力机制的Att-Pooling-CNN模型，3)基于BERT的R-BERT模型，4)基于BERT的KnowBERT模型，从而使该模型整合了知识库中的信息，且本模型的F1分数达到90.1％，高于其他四个模型，说明本模型通过构造关系描述和多损失函数叠加，有效地提升了模型的性能，向模型中注入了先验知识，并在推理的过程中，根据关系描述来选择目标句子中的关键信息和过滤目标句子中的噪音。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将结合附图和详细实施方式对本发明进行详细说明，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。其中：

图1为本发明的模型整体架构图；

图2为本发明的编码器层与推理器层结构图；

图3为本发明的分类器结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施方式的限制。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步的详细描述。

本发明提供一种基于自然语言推理的关系抽取模型，本发明在公开的数据集SemEval 2010 Task-8上与目前较为先进的四个模型进行对比试验：1)基于GCN的FAT-RE模型，2)基于CNN和注意力机制的Att-Pooling-CNN模型，3)基于BERT的R-BERT模型，4)基于BERT的KnowBERT模型，从而使该模型整合了知识库中的信息，且本模型的F1分数达到90.1％，高于其他四个模型，说明本模型通过构造关系描述和多损失函数叠加，有效地提升了模型的性能，向模型中注入了先验知识，并在推理的过程中，根据关系描述来选择目标句子中的关键信息和过滤目标句子中的噪音；

请参阅图1、图2和图3；

1 Description Layer(描述层)：该层位于图1和模型结构的最底层，我们通过向输入中注入额外的知识来增强模型。每个关系都有一个模板描述。我们使用关系描述模板将一个目标句子映射到个前提假设句子对，为关系类型总数。其中原始目标句子被视为前提，而关系描述则被视为假设。

2 Encoder Layer(编码器层)：该层对应图1中Encoder and Inference Layer的一部分，具体流程如图2中Encoder Layer所示。在描述层之后，我们在编码器层将前提假设句子对中的每个词转换为固定长度的向量，以获得每个前提假设句子对的向量表示。所有的个前提假设对将被分别编码。

3 Inference Layer(推理层)：该层对应图1中Encoder and Inference Layer的一部分，具体流程如图2中Inference Layer所示。使用编码器层生成的句子表示句子向量表示，推理层根据前提推断假设是否成立。对于每个前提假设句子对，此层都会生成类别entailment(蕴含)和not_entailment(不蕴含)的置信度得分。

4 Classification Layer(分类层)：本层对应图1和模型结构的最上层，具体流程如图3所示。分类层可以利用每个关系对应前提假设对的置信度得分，通过选择置信度最高的关系来给出目标句子表达哪种关系的预测。

请再次参阅图1、图2和图3，

1.在传统的关系提取任务中，主要有两个信息源。首先是上下文信息，其次是实体信息。在NLIRE中，可以通过编码器层获取上下文信息，并使用实体标记学习实体信息。我们在目标句子中的两个实体周围添加实体标记以强调实体信息。但是，尽管传统模型可以从目标句子中学习上下文和实体信息，但有关目标关系的信息可能还不够清楚。为了克服这个问题，在Description Layer中，本发明构造了关系描述模板。对于每种关系类型，都有一个关系描述模板。关系描述表示相应关系的含义以注入先验知识。

在具体实施时：我们将目标句子与关系描述相结合以形成前提假设对，为了将实体信息并入目标句子中，每个关系描述模板具有一个插槽对，与我们针对目标句子执行的操作相同，我们还在两个位置附近添加了实体标记以强调实体信息，通过将目标句子P中的实体对填充到中，我们可以从模板生成假设列表，其中r是关系类型的数量和表示关系i的假设，对于每个关系，我们将前提P与相应的假设结合起来，以获得所有的前提假设对，前提假设对的数量与关系类型r一致。

2.传统关系抽取模型主要是根据输入上下文来利用信息，而很少考虑到现实世界中有关于不同关系的常识，因此不足以使模型充分领会句子的含义。当模型需要常识时，此问题将阻止模型获得更好的性能，并影响模型的应用。针对这个问题，我们的模型可以基于关系描述中包含的先验知识和常识，推断目标句子与关系描述之间的关系，从而获得前提假设对是否成立的置信度。

在具体实施时：在我们的推理层中，模型首先通过编码层获得P和H的表示，然后通过注意力机制构造工作内存，答案模块将使用基于工作记忆的多步推理策略来计算P和H之间的置信度得分，我们将编码器层的输出上下文表示h^P作为前提的工作记忆，并且类似的将作为假设的工作记忆，基于工作记忆