CN114297408A

CN114297408A - 一种基于级联二进制标注框架的关系三元组抽取方法

Info

Publication number: CN114297408A
Application number: CN202111658767.XA
Authority: CN
Inventors: 齐攀虎
Original assignee: Zhongke Guoli Zhenjiang Intelligent Technology Co ltd
Current assignee: Zhongke Guoli Zhenjiang Intelligent Technology Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-08

Abstract

本发明公开了一种基于级联二进制标注框架的关系三元组抽取方法，包括以下步骤：将抽取的句子经过BERT预训练模型处理后获得句子中的语义特征表示H_N编码向量；解码输出的H_N编码向量，识别出Subject实体的Start和End位置标签，从而获取句子中所有可能的Subject实体及其对应的Token的特征向量矩阵V_sub；将特征向量矩阵V_sub的Token对应的向量取平均得到Subject实体特征向量V^K _sub，融合输出的H_N解码向量，获得融合的向量V。根据融合的向量V，结合一组特定的关系集合，识别出对应关系的Object实体的Start和End位置标签，从而识别出所有和Subject实体相关的关系和Object实体，最终抽取出关系三元组。

Description

一种基于级联二进制标注框架的关系三元组抽取方法

技术领域

本发明涉及计算机领域中的自然语言处理技术，特别是一种基于级联二进制标注框架的关系三元组抽取方法。

背景技术

随着信息处理技术和互联网的高速发展，人们处理的数据量激增，如何快速高效地从这些开放领域的文本中抽取出实体及实体之间的关系信息，成为迫切需要解决的重要问题，实体关系抽取是针对非结构化数据进行信息抽取的一项核心任务，其主要目标是从文本中抽取实体并识别实体对间的语义关系，被广泛应用在知识图谱构建、信息检索、对话生成和问答系统等方面。

实体关系抽取是自然语言处理中的一项重要的基础任务，传统的方法是使用pipeline模型，即将实体关系抽取分为两个任务，先进行实体识别，后进行关系抽取，这两个任务是独立的，忽略了这两个任务之间的内在联系和依赖关系，实体识别的错误会影响下一步关系抽取的性能，会造成错误传播与积累。实体关系联合抽取则是实体关系抽取中的一个关键问题，现有的实体关系联合抽取方法采用特征的结构化系统和端到端模型(Encoder-Decoder)。特征的结构化系统方法处理起来比较复杂，需要大量复杂的特征工程和NLP工具包，复杂的特征工程会增加人工的成本，过分依赖NLP工具包会造成错误传播与积累。端到端模型是基于单标签标注，Encoder和Decoder端采用LSTM或者变种的LSTM神经网络模型进行编码和解码，从而将联合抽取问题转化为标注问题(机器学习问题)，实现了将关系分配给实体对的离散标签，即f(s,o)＝r，尽管将抽取问题转化为机器学习问题，但是在提取的大多数实体对中，无法形成有效的关系，这样就产生了大量的负例子，导致样本不平衡；当同一实体对参与多个有效关系时，分类器就会混淆，因此无法识别重叠关系；采用LSTM神经网络也无法学习到句子中更加丰富的上下文信息，从而导致实体关系联合抽取的效率和准确率不高。因此本案中研究一种方法，根据级联二进制标注框架，通过端到端算法进行关系三元组抽取。

本方法中需要解决以下问题：

(1)单标签标注模型将关系分配给实体对的离散标签，会产生大量的负例子，导致样本不平衡。

(2)采用LSTM神经网络无法学习到句子中更加丰富的上下文信息，导致关系三元组抽取的效率和准确率不高。

(3)当同一实体对参与多个有效关系时，分类器就会发生混淆，导致无法识别重叠关系。

发明内容

针对现有技术中存在的问题，本发明提供了一种将关系建模为将Subject实体映射到句子中的Object实体，即fr(s)＝o，解决了关系重叠问题，而且抛弃了单标签标注模型将关系分配给实体对的离散标签，采用多标签二进制标注标注实体的Start和End位置，解决了样本不均衡问题，尤其Encoder端使用BERT预训练模型可以学习到更加丰富的上下文信息，有效的提高了关系三元组抽取的效率和准确率的基于级联二进制标注框架的关系三元组抽取方法。

本发明的目的通过以下技术方案实现。

一种基于级联二进制标注框架的关系三元组抽取方法，包括以下步骤：

步骤1)：级联二进制标注框架的Encoder端使用了BERT预训练模型，将抽取的句子经过BERT预训练模型处理后获得句子中的语义特征表示H_N编码向量；

步骤2)：解码输出的H_N编码向量，识别出Subject实体的Start和End位置标签，从而获取句子中所有可能的Subject实体及其对应的Token的特征向量矩阵V_sub；

步骤3)：将特征向量矩阵V_sub的token对应的向量取平均得到Subject实体特征向量V^K _sub，融合输出的H_N解码向量，获得融合的向量V。

步骤4)：根据融合的向量V，结合一组特定的关系集合，识别出对应关系的Object实体的Start和End位置标签，从而识别出所有和Subject实体相关的关系和Object实体，最终抽取出关系三元组。

所述的步骤1)具体步骤包括：

步骤11)输入为一个文本句子，通过嵌入查找来获得输入的词嵌入表示，位置嵌入表示；

步骤12)将获得的所有嵌入层表示一起输入BERT预训练模型，即通过12层编码器，在每一层编码器都采用自注意力机制来学习信息，然后通过一个全连接层将之前学习到的信息处理后传递给下一层编码器；BERT会在句子前加一个[CLS]标志，最后一层的[CLS]作为整个序列或者整个文本的语义信息，从而获取语义编码向量H_N。

所述的步骤2)具体步骤包括：

步骤21)解码输出的语义编码向量H_N，从中提取出每个Token的表示；

步骤22)采用两个相同的二进制标签体系为每个Token指定一个Start和End位置的二进制标记(0/1)，得到句子中所有Token的Start和End位置的二进制标记(0/1)；

步骤23)采用Start-End位置就近原则，识别出所有可能的Subject实体和其包含的所有Token对应的解码向量矩阵V_sub。

所述的步骤3)具体步骤包括：

步骤31)将Subject实体对应的Token的解码向量矩阵V_sub，对矩阵中的所有向量取平均得到V^K _sub；

步骤32)将C1得到的平均向量V^K _sub，融合语义编码向量H_N，得到融合向量V。

所述的步骤4)具体步骤包括：

步骤41)根据融合向量V，结合一组特定的关系集合，采用两个相同的二进制标签体系为每个Token指定一个Start和End位置的二进制标记(0/1)；

步骤42)采用Start-End位置就近原则，识别出所有可能与Subject实体相关的特定关系的Object实体，从而抽取出关系三元组。

相比于现有技术，本发明的优点在于：本发明通过运行，可以有效地对已有的句子进行关系三元组的抽取。我们用实验验证本发明方法抽取的关系三元组，实验表明，关系三元组召回率可以达到89.9％，准确率为91.3％，从而验证本发明的有效性和合理性。

附图说明

图1为本发明模块示意图。

图2为本发明流程图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

如图1所示，本发明是一种基于级联二进制框架的关系三元组抽取的方法，包括以下模块：

模块A：级联二进制标注框架的Encoder端使用了BERT预训练模型，替换了传统的LSTM获取句子中的语义特征表示H_N编码向量。

模块B：解码A模块输出的H_N编码向量，识别出Subject实体的Start和End位置标签，从而获取句子中所有可能的Subject实体及其对应的Token的特征向量矩阵V_sub。

模块C：B模块输出的Subject实体对应Token的特征向量矩阵V_sub，将矩阵V_sub的Token特征向量取平均得到Subject实体特征向量V^K _sub，融合A模块输出的H_N解码向量，输入至D模块。

模块D：根据C模块的融合向量V，结合一组特定的关系集合，识别出对应关系的Object实体的Start和End位置标签，从而识别出所有和Subject实体相关的关系和Object实体，即关系三元组(s，r，o)。

如图2所示，本发明的工作流程包括以下步骤：

步骤1)将样本也就是抽取的句子传入模块A，经过BERT处理后获得输出，也就是句子中的语义特征表示H_N编码向量。

步骤2)解码步骤1获得的语义特征表示H_N编码向量，传入模块B，识别出句子的Subject实体和其对应的token的特征向量矩阵V_sub。

步骤3)将步骤2中的Token特征向量矩阵V_sub和步骤1输出的句子中的语义特征表示H_N编码向量输入至模块C，获得融合的向量V。

步骤4)将融合的向量V和一组特定的关系集合输入至模块D中，最终获得所有和步骤2输出的Subject实体相关的关系和Object实体，即关系三元组(s，r，o)。

下面针对上述步骤，结合相应的图例，下文做详细的阐述。

模块A：在级联二进制标注框架的Encoder端使用BERT来获取句子中的语义特征表示H_N编码向量。

为了便于解释，以样本[布丹出生于1824年的法国画家]为例。

构造的输入格式为：[CLS]句子[SEP]

在词表中找到句子中的字(Token)所对应的索引id，最大长度为128，不足128的全部补全。

步骤A1)通过整个词表的嵌入信息对索引id进行嵌入查找，得到样本的所有词嵌入表示；

步骤A2)对前一步的输出进行处理，把词嵌入表示和位置嵌入表示加起来输入一起输入12层编码器，每一层编码器都采用自注意力机制来学习信息，然后通过一个全联接层将之前学习到的信息处理后传递给下一层编码器，逐层传递给最后一层。最后一层的[CLS]作为整个序列或整句话的语义信息。因为[CLS]只是一个标注，没有明确的语义信息，与其他输入的单词相比，更公平的融合了输入的各个词的语义信息，所以选择使用[CLS]也更好的表示整句话的语义，最后得到语义特征表示H_N编码向量。

模块B解码A模块输出的H_N编码向量，识别出Subject实体的Start和End位置标签，最终根据Start-End就近原则获取所有Subject实体和其对应的Token的向量矩阵V_sub。

步骤B1)解码语义特征表示H_N编码向量，获取每个字的Token向量表示；

步骤B2)根据每个字的Token向量表示，采用两个相同的二进制标注框架识别Subject实体的Start和End位置标签(0/1)；

步骤B3)根据步骤B2得到Subject的Start和End位置标签，采用Start-End就近原则获取所有的Subject实体，且输出其对应的Token的向量矩阵V_sub。

模块C融合A模块输出的H_N编码向量和Subject实体特征向量V^K _sub，得到融合向量V。

步骤C1)由模块B输出的Subject实体对应的Token向量矩阵V_sub取平均，得到Subject实体特征向量V^K _sub；

步骤C2)融合步骤C1得到的Subject实体特征向量V^K _sub和A模块输出的H_N编码向量，得到融合向量V。

模块D根据融合向量V，结合一组特定的关系集合，识别出对应关系的Object实体的Start和End位置标签(0/1)，根据Start-End就近原则识别出对应关系的Object实体，得到与Subject实体关联的关系和Object实体，即关系三元组(s，r，o)。

步骤D1)由C模块输出的融合向量V和一组特定的关系集合，采用两个相同的二进制框架识别每个关系对应的Object实体的Start和End的位置标签(0/1)，最终得到所有关系对应的Object实体的Start和End的位置标签(0/1)；

步骤D2)根据步骤D1输出的所有关系对应的Object实体的Start和End的位置标签(0/1)，采用Start-End就近原则获取所有的关系对应的Object实体，且输出与Subject实体关联的关系和Object实体，即关系三元组(s，r，o)。

实验结果

通过本发明的算法运行，可以有效地对已有句子进行关系三元组抽取。

下表是部分句子的关系三元组抽取样例：

我们用实验验证本发明方法抽取的关系三元组，实验表明，关系三元组召回率可以达到89.9％，准确率为91.3％，从而验证本发明的有效性和合理性。

Claims

1.一种基于级联二进制标注框架的关系三元组抽取方法，其特征在于：包括以下步骤：

步骤3)：将特征向量矩阵V_sub的Token对应的向量取平均得到Subject实体特征向量V^K _sub，融合输出的H_N解码向量，获得融合的向量V；

2.根据权利要求1所述的一种基于级联二进制标注框架的关系三元组抽取方法，其特征在于：所述的步骤1)具体步骤包括：

3.根据权利要求1所述的一种基于级联二进制标注框架的关系三元组抽取方法，其特征在于：所述的步骤2)具体步骤包括：

4.根据权利要求1所述的一种基于级联二进制标注框架的关系三元组方法，其特征在于：所述的步骤3)具体步骤包括：

5.根据权利要求1所述的一种基于级联二进制标注框架的关系三元组抽取方法，其特征在于：所述的步骤4)具体步骤包括：