CN114298052B

CN114298052B - 一种基于概率图的实体联合标注关系抽取方法和系统

Info

Publication number: CN114298052B
Application number: CN202210004530.8A
Authority: CN
Inventors: 曹建军; 皮德常; 翁年凤; 胥萌; 丁鲲; 袁震; 江春
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2023-06-20
Anticipated expiration: 2042-01-04
Also published as: CN114298052A

Abstract

本发明公开了一种基于概率图的实体联合标注关系抽取方法和系统，属于自然语言处理技术领域。包括进行特征提取；进行实体抽取：将实体抽取任务转为序列标注任务，将所述序列输入第一模型中得到第一输出特征，对所述第一输出特征激活后得到预测序列，通过设定的阈值得到实体的开始和结束位置；根据就近原则对主体和客体进行匹配，标记相近的实体头部和尾部进行截取；进行关系分类：随机抽取实体对，并根据所述第一模型的中间特征，生成第二输出特征，将所述第二输出特征输入第二模型中得到对应分类关系。本发明考虑到两个子任务之间的相关性，使得抽取任务的结果不过分依赖于实体抽取的结果，避免误差累积的问题，以及关系重叠。

Description

一种基于概率图的实体联合标注关系抽取方法和系统

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于概率图的实体联合标注关系抽取方法和系统。

背景技术

关系抽取是信息抽取的一个重要子任务，目的是从非结构化的文本中提取结构化的数据，关系抽取的主要任务是抽取出文本中的实体和实体之间存在的关系，这些关系以三元组(主语、关系、宾语)的形式表示，这对构建知识图谱具有重要的作用。现有的主流关系抽取技术分为基于规则的关系抽取、有监督关系抽取、无监督关系抽取和半监督关系抽取。

基于规则的关系抽取首先基于规则和人工提取关系词，随后基于抽取的关系词抽取关系句，然后基于人工总结的模板进行模板匹配来抽取三元组。基于规则的关系抽取主要还是通过人工定义的一些抽取规则从文章中抽取三元组信息，重点是如何定义规则。与深度学习关系抽取相比，基于规则的关系抽取简单实用，无需训练，但是识别精度不稳定，容易受到特殊实体的影响，局限于特定领域。

监督学习的关系集合通常是确定的，有监督的关系抽取将任务当作分类问题，设计有效的特征进行训练，然后进行预测。有监督的关系抽取是目前研究的主流方法，获得的效果也是最好的，但是需要大量的训练数据和人工标注的语料。

半监督学习一般利用少量的标注信息作为种子模板，将已有的知识库对应到丰富的非结构化数据中，从而生成大量的训练数据，但是生成的训练数据无法保证训练数据的质量，容易引入大量的噪声，并且在整个任务的pipeline上会产生误差的传播和累积，影响后续关系抽取的精度。

无监督关系抽取一般利用语料中存在的大量冗余信息做聚类，根据类簇确定实体之间的关系。但由于聚类方法本身就存在难以描述关系和低频实例召回率低的问题，因此无监督学习一般难以得到很好的抽取效果。

在现有技术中，大多将关系抽取看作是串联的任务，即传统流水线的方法先进行实体识别，然后为每一对实体预测关系，这种方式使得任务相对简单且分工明确，但是存在一系列问题：两个任务的解决过程中没有考虑到两个子任务之间的相关性，从而导致关系抽取任务的结果严重依赖于实体抽取的结果，导致误差累积的问题。对于关系重叠的问题，串联方式无法提供较好的解决方案。

发明内容

技术问题：针对上述问题，本发明提供一种基于概率图的实体联合标注关系抽取方法和系统，本发明主要是利用概率图的思想，将实体关系建模为从实体到关系的映射，解决了一个句子中多个关系之间实体重合的问题和一个关系中多个实体对重合的问题，避免误差累积，以及关系重叠的问题。

技术方案：第一方面，本发明提供一种基于概率图的实体联合标注关系抽取方法，包括：

接收待进行实体联合标注关系抽取的文本；

进行特征提取：利用预训练的BERT编码器生成所述文本词嵌入，对所述词嵌入进行字词混合编码及位置编码，提取文本特征；

进行实体抽取：将实体抽取任务转为序列标注任务，将所述序列输入第一模型中得到第一输出特征，对所述第一输出特征激活后得到预测序列，通过设定的阈值得到实体的开始和结束位置；根据就近原则对主体和客体进行匹配，标记相近的实体头部和尾部进行截取；其中，所述第一模型包括依次连接的第一网络、第二网络和第三网络；

进行关系分类：随机抽取实体对，并根据所述第一模型的中间特征，生成第二输出特征，将所述第二输出特征输入第二模型中得到对应分类关系；其中，所述第二模型包括依次连接的第四网络、第五网络和第六网络。

进一步地，所述字词混合编码的方法包括：

输入以字为单位的文本序列得到字向量序列，通过一个预训练好的Word2Vec模型来提取对应的词向量；

将每个词的词向量经过一个矩阵变换到跟字向量一样的维度加上该字的字向量。

进一步地，所述位置编码采用正弦位置编码。

进一步地，所述将实体抽取任务转为序列标注任务包括：

解析输入句子的标签，将句子中存在的多对实体关系中的主体和客体的头部和尾部分别记录在一个列表中；其中，主体标记为sub，客体标记为ob，标注的同时判断主体和客体的部分是否重合，如果重合则添加重合标记overlap；

将所有句子转化为序列，然后将实体抽取任务转化为序列标注任务；

利用预训练BERT编码器对词进行编码，对编码作最大池化并拼接到原始特征上，得到第一输入，其作为第一网络的输入。

进一步地，所述第一网络为两层双向长短期记忆网络；

所述第二网络为一层一维卷积神经网络；

所述第三网络为两层全连接层。

进一步地，所述第一模型的中间特征为所述第一网络提取的词表征。

进一步地，所述随机抽取实体对，并根据所述第一模型的中间特征，生成第二输出特征的方法包括：

对标注好的序列进行解析，得到所有候选主体和客体；

随机选取一个主体和客体，重用第一网络提取的词表征，并将选取的主体和客体对应的词嵌入附加到所述词表征中，得到第一表征；

将所述第一表征进行最大池化操作并拼接到第一表征中，得到第二输出特征。

进一步地，所述第四网络为两层一维卷积神经网络；

所述第五网络为一层膨胀门卷积层；

所述第六网络为一层全连接层。

进一步地，在对第一模型进行训练时，将原序列和预测序列的误差作为损失进行模型的训练；

在对第二模型进行训练时，原始实体对之间的关系和预测关系的误差作为损失进行模型的训练。

第二方面，本发明提供一种基于概率图的实体联合标注关系抽取系统，根据本发明任一所述的基于概率图的实体联合标注关系抽取方法进行实体联合标注关系抽取，包括：

数据接收单元，用于接收待进行实体联合标注关系抽取的文本；

特征提取单元，用于进行特征提取：利用预训练的BERT编码器生成所述文本词嵌入，对所述词嵌入进行字词混合编码及位置编码，提取文本特征；

实体抽取单元，用于进行实体抽取：将实体抽取任务转为序列标注任务，将所述序列输入第一模型中得到第一输出特征，对所述第一输出特征激活后得到预测序列，通过设定的阈值得到实体的开始和结束位置；根据就近原则对主体和客体进行匹配，标记相近的实体头部和尾部进行截取；其中，所述第一模型包括依次连接的第一网络、第二网络和第三网络；

关系分类单元，进行关系分类：随机抽取实体对，并根据所述第一模型的中间特征，生成第二输出特征，将所述第二输出特征输入第二模型中得到对应分类关系；其中，所述第二模型包括依次连接的第四网络、第五网络和第六网络。

有益效果：本发明与现有技术相比，具有以下优点：

本发明针对关系抽取问题，提出了一种基于概率图的实体联合标注关系抽取方法，使用函数映射建立关系抽取模型。先预测句子中存在的主体和客体，然后分别预测它们之间的关系。一个句子中可能存在多种关系使得关系实体相互重合，使用函数映射的思想进行建模，先预测所有实体再依次进行实体之间的关系预测，有效解决了这个问题；一个关系中可能存在多对三元组，这些三元组的主体和客体之间可能会重合，使用实体联合标注将实体抽取转化为序列标注任务，解决了多种关系之间实体重合的问题。

附图说明

图1为本发明的实施例中基于概率图的实体联合标注关系抽取方法的流程图；

图2为本发明的实施例中双向长短期记忆网络的结构图；

图3为本发明的实施例中一维卷积神经网络的结构示意图；

图4为本发明的实施例中实体联合标注示意图；

图5为本发明的实施例中膨胀卷积层的结构示意图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。说明的是，术语“第一”、“第二”等仅是为了便于描述，不能理解为对数量、性质等限制。

图1示出了本发明的基于概率图的实体联合标注关系抽取方法的流程图。结合图1所示，本发明实施例中该方法包括如下步骤：

步骤S100：接收待进行实体联合标注关系抽取的文本；接收到文本数据后，通常需要去除文本中的异常值，例如标点、网址链接等。

步骤S200：进行特征提取：利用预训练的BERT编码器生成所述文本词嵌入，对所述词嵌入进行字词混合编码及位置编码，提取文本特征。

BERT本质上是通过在海量的语料基础上运行自监督学习方法为单词学习一个好的特征表示，本发明的实施例中利用BERT(Bidirectional Encoder Representation fromTransformers)编码器提取句子的特征。BERT的模型架构基于多层双向转换编码，它不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model。该模型有以下主要优点：

1)采用MLM对双向的transformers进行预训练，生成深层的双向语言表征。

2)预训练后，只需要添加一个额外的输出层进行fine-tune，就可以在各种各样的下游任务中使用。

本发明的实施例中，将BERT用于特征提取，fine-tune不是使用BERT的唯一方法，本发明使用预训练的BERT来创建语境化的词嵌入，将这些词嵌入用在本发明的模型中，通过对比了不同层，将最后四层连接起来作为词嵌入。

字词混合编码：由于单独的字编码难以储存有效的语义信息，因此在本发明的实施例中，采用字词混合编码来有效融入语义信息。首先，输入以字为单位的文本序列得到字向量序列，通过一个预训练好的Word2Vec模型来提取对应的词向量，为了得到和字向量对齐的词向量序列，将每个词的词向量经过一个矩阵变换到跟字向量一样的维度加上该字的字向量。

位置编码：单词在句子中的位置以及排列顺序是非常重要的，它们不仅是一个句子的语法结构的组成部分，更是表达语义的重要概念。因此在本发明的实施例中，采用了正弦位置编码，以正弦位置编码作为位置向量。

本发明的实施例中使用正弦位置编码的原因如下：1.它能为每个时间步输出一个独一无二的编码。2.对不同长度的句子，任何两个时间步之间的距离保持一致。3.能够泛化到更长的句子，它的值是有界的。

给定一个长度为n的输入序列，t表示词在序列中的位置，

表示t位置对应的向量，d是向量的维度。f:/>

是生成位置向量/>

的函数，位置向量/>

的定义如下：

式(1)中，频率w_k定义如下：

从函数定义中可以看出，频率沿向量维度而减小。位置编码

是一个包含每个频率的正弦和余弦对。

式(3)中，d是能被2整除的数。

将位置编码和初始词向量相加，在初始词向量中融入位置信息，对于句子中的每一个词w_t，其对应的初始词向量为ψ(w_t)，则新的词向量表示为：

式(4)中，位置向量

的维度等于初始词向量ψ(w_t)的维度。

步骤S300：进行实体抽取：将实体抽取任务转为序列标注任务，将所述序列输入第一模型中得到第一输出特征，对所述第一输出特征激活后得到预测序列，通过设定的阈值得到实体的开始和结束位置；根据就近原则对主体和客体进行匹配，标记相近的实体头部和尾部进行截取。

在本发明的实施例中，主要是采用联合标注来抽取实体。因此，为了将实体抽取任务转为序列标注任务，在本发明的实施例中，解析输入句子的标签，将句子中存在的多对实体关系中的主体和客体的头部和尾部分别记录在一个列表中；其中，主体标记为sub，客体标记为ob，标注的同时判断主体和客体的部分是否重合，如果重合则添加重合标记overlap。

将所有句子转化为序列，然后将实体抽取任务转化为序列标注任务；利用预训练BERT编码器对词进行编码，对编码作最大池化并拼接到原始特征上，作为第一网络的输入。

在本发明的实施例中，第一模型是一个神经网络模型，包括依次连接的第一网络、第二网络和第三网络；其中，在一个实施例中，第一网络为两层双向长短期记忆网络，即Bi-LSTM网络，其网络结构如图2所示，该网络为现有技术中已经公开的网络模型，因此，在本实施例中，不再做详细的说明。

第二网络为一层一维卷积神经网络，一维卷积神经网络同样为现有技术中公开的网络，其结构形式，可以参照图3所示，图3很好地诠释了模型的框架。假设有一个句子需要对其进行分类。句子中每个词是由n维词向量组成的，也就是说输入矩阵大小为m*n，其中m为句子长度。CNN需要对输入样本进行卷积操作，对于文本数据，filter不再横向滑动，仅仅是向下移动，有点类似于N-gram在提取词与词间的局部相关性。图中共有三种步长策略，分别是2，3，4，每个步长都有两个filter(实际训练时filter数量会很多)。在不同词窗上应用不同filter，最终得到6个卷积后的向量。然后对每一个向量进行最大化池化操作并拼接各个池化值，最终得到这个句子的特征表示，将这个句子向量丢给分类器进行分类，至此完成整个流程。因为一维卷积神经网络也是现有技术中公开的网络，因此在此处也就不再过多说明。

在本发明的实施例中，第三网络为两层全连接层。

因此，第一输入到两层的双向长短记忆网络，能够提取到词表征，然后进入一层卷积神经网络，然后再进入两个全连接层，会得到第一输出特征，经过sigmoid函数激活后，能够得到预测序列。

在本发明的实施例中，将原序列和预测序列的误差作为损失进行第一模型的训练。

在得到预测序列后，通过设定的阈值得到实体的开始和结束位置，例如在图4中，设定的阈值为1和2，通过这两个阈值得到实体的开始和结束位置。根据就近原则对主体和客体进行匹配，标记相近的实体头部和尾部进行截取。例如在图4中，最近的两个1相匹配，最近的两个2相匹配。

本发明的进行实体抽取的时候，是实体联合标注进行实体抽取。如图4所示，本发明将实体的头部和尾部一起标注。与单独标注相比，本发明的标注考虑到了主体和客体之间的联系，包括位置联系，语义联系。标注情况可以分为图4中的四种。

第一种是最普遍的情况，主客体分布在两边，此时解码是最简单的。第二种是主体与客体为一对多的情况，此时解码便需要分配原则。第三种出现的情况虽然不多，但是抽取难度较大，经过观测本发明使用就近原则进行匹配的准确率最高。第四种情况是难度最大的一种，因为主客体产生了重叠，本发明使用了第三类标签进行标注，它既代表主体又代表客体。实际解码时，本发明先用它进行主体匹配，再用它进行客体匹配，这样就可以抽取出重合的实体。

在本发明实施例中，给出了实体抽取联合标注的具体方法，如表1所示：

表1实体抽取联合标注算法

表1中，第1行初始化实体头列表，第2行初始化实体尾列表，第3行开始循环遍历句子，第4-5行在两个列表中为句子中没有涉及到实体的位置标记0，第6-8行判断主体的头部的位置并标记sub，第9-11行判断主体的尾部的位置并标记sub，第12-13行判断客体的头部的位置并标记ob，第14-16行判断主体和客体的头部是否重合，如果重合则标记overlap，第18-19行判断客体的尾部的位置并标记ob，第20-22行判断主体和客体的尾部是否重合，如果重合则标记overlap，第25行返回头列表和尾列表。

步骤S400：进行关系分类：随机抽取实体对，并根据所述第一模型的中间特征，生成第二输出特征，将所述第二输出特征输入第二模型中得到对应分类关系；其中，所述第二模型包括依次连接的第四网络、第五网络和第六网络。

在本发明的实施例中，利用的第一模型的中间特征为第一网络的输出，也就是双向长短期记忆网络的提出的词表征。具体的，在本发明的实施例中，首先是对标注好的序列进行解析，得到所有候选主体和客体；然后随机选取一个主体和客体，重用第一网络提取的词表征，并将选取的主体和客体对应的词嵌入附加到所述词表征中，得到第一表征；最后将第一表征进行最大池化操作并拼接到第一表征中，得到第二输出特征。

在本发明的实施例中，第四网络为两层一维卷积神经网络，一维卷积神经网络的结构可参照图3所示，此处不再赘述。第五网络为一层膨胀门卷积层。对于膨胀门卷积

假设需要处理的向量序列为x＝{x₁,x₂,...,x_n}，其中x代表句子，x_i代表一个句子中的单词，则加入门控的一维卷积为：

式(5)中，conv1d是一维卷积函数，σ是sigmoid激活函数，

表示矩阵逐位相乘。式(5)中有两个一维卷积，但是它们彼此独立，参数不共享，其中一个用sigmoid激活，另一个不激活，然后将它们逐位相乘。sigmoid函数的值域是(0,1)，形式上本发明给conv1d加上了一个控制门，由于第一个卷积没有激活，梯度消失的风险更低。

为了使CNN能够捕捉更远的距离，本发明使用了膨胀卷积，池化操作虽然可以压缩数据和参数量，减小过拟合，但是也会损失信息，膨胀卷积的好处是不做池化操作损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。

如图5所示，第一层是输入层，第二层和第三层是卷积层，普通卷积在第三层时，每个节点只能捕捉到前后三个输入，而膨胀卷积在第三层时能够捕捉到前后五个输入(膨胀率为2),实际情况上膨胀卷积的膨胀率一般按照1、2、4...几何级数增长。

在本发明的实施例中，第六网络为一层全连接层。

因此第二模型包括了依次连接的两层一维卷积神经网络、一层膨胀门卷积层和一层全连接层。对第二模型在训练时，利用原始实体对之间的关系和预测关系的误差作为损失进行模型的训练。利用训练好的模型，对句子进行预测，需要对所有实体对进行关系预测，得到句子中存在的所有三元组。

在本发明的实施例中，无论是第一模型还是第二模型，因为本发明中的关系和实体是二分类任务，所以损失函数使用二分类交叉熵损失：

式(6)中

是模型预测样本为正例的概率，y是样本标签。

另一方面，本发明的实施例中，提供一种基于概率图的实体联合标注关系抽取系统，该系统根据本发明任一所述的基于概率图的实体联合标注关系抽取方法进行实体联合标注关系抽取，该系统包括：

上述各单元具体的功能实现，与上述方法中相应的说明一致，此处就不再赘述。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于概率图的实体联合标注关系抽取方法，其特征在于，包括：接收待进行实体联合标注关系抽取的文本；

所述第一网络为两层双向长短期记忆网络，所述第二网络为一层一维卷积神经网络，所述第三网络为两层全连接层；

所述将实体抽取任务转为序列标注任务，将所述序列输入第一模型中得到第一输出特征的方法包括：所述序列输入到两层双向长短期记忆网络，提取到词表征，然后进入所述一层一维卷积神经网络，然后再进入所述两层全连接层，得到第一输出特征；

进行关系分类：随机抽取实体对，并根据所述第一模型的中间特征，生成第二输出特征，将所述第二输出特征输入第二模型中得到对应分类关系；其中，所述第二模型包括依次连接的第四网络、第五网络和第六网络；

所述第四网络为两层一维卷积神经网络，所述第五网络为一层膨胀门卷积层，所述第六网络为一层全连接层；

所述第一模型的中间特征为所述第一网络提取的词表征；

所述随机抽取实体对，并根据所述第一模型的中间特征，生成第二输出特征的方法包括：对标注好的序列进行解析，得到所有候选主体和客体；然后随机选取一个主体和客体，重用所述第一网络提取的词表征，并将选取的主体和客体对应的词嵌入附加到所述词表征中，得到第一表征；最后将所述第一表征进行最大池化操作，并拼接到第一表征中，得到第二输出特征。

2.根据权利要求1所述的方法，其特征在于，所述字词混合编码的方法包括：输入以字为单位的文本序列得到字向量序列，通过一个预训练好的Word2Vec模型来提取对应的词向量；

3.根据权利要求1所述的方法，其特征在于，所述位置编码采用正弦位置编码。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述将实体抽取任务转为序列标注任务包括：

5.根据权利要求1所述的方法，其特征在于，在对第一模型进行训练时，将原序列和预测序列的误差作为损失进行模型的训练；

6.一种基于概率图的实体联合标注关系抽取系统，根据权利要求1-5任一项所述的基于概率图的实体联合标注关系抽取方法进行实体联合标注关系抽取，其特征在于，包括：