CN111008279B

CN111008279B - 一种实体关系抽取方法及装置

Info

Publication number: CN111008279B
Application number: CN201911179314.1A
Authority: CN
Inventors: 曾祥荣
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-11-14
Anticipated expiration: 2039-11-27
Also published as: CN111008279A

Abstract

本发明提供了一种实体关系抽取方法，包括：将预处理的词序列信息输入神经网络；对所述预处理的词序列信息进行编码，得到输入词序列信息的编码表示；对所述输入词序列信息的编码表示利用拷贝机制进行解码，得到三元组；抽取所有关系三元组，并在预设时刻结束。采用本发明所公开的方案，能够解决实体关系抽取中实体重叠的问题。

Description

一种实体关系抽取方法及装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种实体关系抽取方法及装置。

背景技术

随着互联网技术的快速发展，信息呈爆炸式增长，如何准确高效地从这些文本中抽取出有效信息成为一个亟需解决的需求，现有的基于神经网络的实体关系抽取方法主要由以下步骤构成：首先是对文本进行标注，给其中的每个词标记上一个预先定义好的标签；然后构建神经网络模型，使其对输入的每个词预测一个标签，使用标注好的数据对模型进行训练；最后使用训练好的神经网络对输入句子的每个词进行标签预测，并根据每个词的标签来搜集关系三元组。

现有的方法是基于序列标注实现的，每个词只能被标记一个标签，不能参与多个关系的三元组，因而无法解决实体重叠问题。

发明内容

本发明提供一种实体关系抽取方法及装置，用以解决实体关系抽取时的实体重叠问题。

本发明提供一种实体关系抽取方法，包括：

将预处理的词序列信息输入神经网络；

对所述预处理的词序列信息进行编码，得到输入词序列信息的编码表示；

对所述输入词序列信息的编码表示利用拷贝机制进行解码，得到三元组；

抽取所有关系三元组，并在预设时刻结束。

上述技术方案的有益效果为：通过融合拷贝机制，采用生成的方式获取出入词序列中的关系三元组，输入词序列中的词可以被拷贝多次，因而一个词可以参与多个关系三元组，从而解决了实体关系抽取中实体重叠的问题。

具体的，所述得到输入词序列信息的编码表示，包括：

对输入词序列进行定义；

对所述输入词序列进行词向量预处理，得到词向量矩阵；

对所述词向量矩阵中的词向量进行计算，得到所述输入词序列信息的编码表示。

具体的，所述利用拷贝机制进行解码，得到三元组，包括：

定义解码器的解码时刻；

通过计算，得到解码器在解码时刻的输出向量和隐状态；

对所述输出向量进行分类操作，得到所述三元组中的两个相关实体的关系以及两个相关实体。

具体的，所述得到所述三元组中的两个相关实体的关系以及两个相关实体，包括：

对输出向量进行分类操作，得到预测的关系；

对所述输入词序列中的第一目标词进行复制，得到第一目标词的复制对象，将第一目标词的复制对象作为第一个实体；

对所述输入词序列中的第二目标词进行复制，得到第二目标词的复制对象，将第二目标词的复制对象作为第二个实体。

具体的，所述抽取所有关系三元组，并在预设时间结束，包括：

解码时刻小于所述预设时刻，继续抽取三元组；

解码时刻等于所述预设时刻，结束抽取，解码器生成的输出序列按顺序每三个元素为一个关系三元组。

本发明提供一种实体关系抽取装置，包括：

输入模块，用于将预处理的词序列信息输入神经网络；

编码模块，用于对所述预处理的词序列信息进行编码，得到输入词序列信息的编码表示；

解码模块，用于对所述输入词序列信息的编码表示利用拷贝机制进行解码，得到三元组；

抽取模块，用于抽取所有关系三元组，并在预设时刻结束。

具体的，所述编码模块，包括：

词序列定义单元，用于对输入词序列进行定义；

预处理单元，用于对所述输入词序列进行词向量预处理，得到词向量矩阵；

编码计算单元，用于对所述词向量矩阵中的词向量进行计算，得到所述输入词序列信息的编码表示。

具体的，所述解码模块，包括：

时刻定义单元，用于定义解码器的解码时刻；

解码计算单元，用于通过计算，得到解码器在解码时刻的输出向量和隐状态；

分类单元，用于对所述输出向量进行分类操作，得到所述三元组中的两个相关实体以及两个相关实体的关系。

具体的，所述分类单元，包括：

分类子单元，用于对输出向量进行分类操作，得到预测的关系；

第一复制子单元，用于对所述输入词序列中的第一目标词进行复制，得到第一目标词的复制对象，将第一目标词的复制对象作为第一个实体；

第二复制子单元，用于对所述输入词序列中的第二目标词进行复制，得到第二目标词的复制对象，将第二目标词的复制对象作为第二个实体。

具体的，所述抽取模块，包括：

判断单元，用于解码时刻小于所述预设时刻，继续抽取三元组；

所述判断单元，还用于解码时刻等于所述预设时刻，结束抽取，解码器生成的输出序列按顺序每三个元素为一个关系三元组。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种实体关系抽取方法的流程图；

图2为本发明实施例中一种实体关系抽取装置的框图；

图3为本发明实施例中一种实体关系抽取装置的框图；

图4为本发明实施例中一种实体关系抽取装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种实体关系抽取方法流程图，如图1所示，该方法可被实施为以下步骤S11-S14：

S11：将预处理的词序列信息输入神经网络；

S12：对所述预处理的词序列信息进行编码，得到输入词序列信息的编码表示；

S13：对所述输入词序列信息的编码表示利用拷贝机制进行解码，得到三元组；

S14：抽取所有关系三元组，并在预设时刻结束。

实体关系抽取是指从给定的词序列(通常是句子)中抽取出所有关系三元组，关系三元组(简称三元组)包含了一个关系以及相关的两个实体，例如“(国籍，姚明，中国)”就是一个关系三元组，表示“姚明”的“国籍”是“中国”；实体重叠问题是指两个(或者多个)三元组之间会出现共享实体(共享一个或者两个)的情况，例如三元组“(国籍，姚明，中国)”与“(职业，姚明，篮球运动员)”就存在实体重叠；将预处理信息输入神经网络，神经网络利用拷贝机制直接生成各个关系三元组，通过这种方法，解决了实体关系抽取中的实体重叠问题。

在一个实施例中，所述得到输入词序列信息的编码表示，包括：

对输入词序列进行定义；

对所述输入词序列进行词向量预处理，得到词向量矩阵；

例如，定义x＝[x₁,...,x_n]为输入词序列，对此输入序列进行词向量预处理，得到词向量矩阵X＝[v₁...v_n]，其中v_n表示第n个词的向量，通过编码器中的编码计算单元对词向量进行计算，得到输入词序列信息的编码表示，输入词序列信息的编码表示由以下公式得到：

其中，为第n个词的编码表示，/>为输入词序列信息的编码表示，f()为编码计算单元。

上述技术方案的有益效果为：通过上述技术方案可以提高实体关系抽取中的准确性。

在一个实施例中，利用拷贝机制进行解码，得到三元组，包括：

定义解码器的解码时刻；

通过计算，得到解码器在解码时刻的输出向量和隐状态；

例如，定义t是解码时刻，t＝1,2,3…,T，其中T是3的整数倍，通过解码器中的解码计算单元进行计算，得到解码器在t时刻的输出向量和隐状态/>输出向量/>和隐向量由以下公式得到：

其中，u_t表示t时刻解码器的输入，它是上一时刻的输出向量，g()为解码计算单元，需要说明的是u₀是随机初始化的可学习向量。

在一个实施例中，得到所述三元组中的两个相关实体的关系以及两个相关实体，包括：

对输出向量进行分类操作，得到预测的关系；

如果t％3＝1，进行关系预测，首先定义一共有m个待分类的关系，然后使用softmax分类器获取所预测的关系，预测的关系由以下公式得到：

其中，W^l和b^l是随机初始化的可学习参数，需要说明的是t％3＝1是指t除以3的余数是1；

如果t％3＝2，利用拷贝机制，对输入词序列中的第一目标词进行复制，得到第一目标词的复制对象，将第一目标词的复制对象作为第一个实体，使用softmax分类器选择需要拷贝的实体，此实体由以下公式的得到：

其中，W^e和b^e是随机初始化的可学习参数，需要说明的是t％3＝2是指t除以3的余数是2；

如果t％3＝0，利用拷贝机制，对输入词序列中的第二目标词进行复制，得到第二目标词的复制对象，将第二目标词的复制对象作为第二个实体，使用softmax分类器选择需要拷贝的实体，此实体由以下公式的得到：

其中，W^e和b^e是随机初始化的可学习参数，需要说明的是t％3＝0是指t除以3的余数是0。

上述技术方案的有益效果为：通过利用拷贝机制，输入词序列中的词可以进行多次拷贝，一个词可以参与多个关系三元组。

在一个实施例中，抽取所有关系三元组，并在预设时间结束，包括：

解码时刻小于所述预设时刻，继续抽取三元组；

例如，当t＜T时，持续抽取三元组中的两个相关实体的关系以及两个相关实体；

当t＝T时，结束抽取过程，解码器生成的输出序列按顺序每三个元素为一个关系三元组。

上述技术方案的有益效果为：通过对解码时刻与预测时刻进行判断，可以抽取出所有的三元组。

图2为本发明一实施例中一种实体关系抽取装置的框图，如图2所示，该装置包括如下模块：

输入模块21，用于将预处理的词序列信息输入神经网络；

编码模块22，用于对所述预处理的词序列信息进行编码，得到输入词序列信息的编码表示；

解码模块23，用于对所述输入词序列信息的编码表示利用拷贝机制进行解码，得到三元组；

抽取模块24，用于抽取所有关系三元组，并在预设时刻结束。

在一个实施例中，如图3所示，编码模块22，包括：

词序列定义单元31，用于对输入词序列进行定义；

预处理单元32，用于对所述输入词序列进行词向量预处理，得到词向量矩阵；

编码计算单元33，用于对所述词向量矩阵中的词向量进行计算，得到所述输入词序列信息的编码表示。

在一个实施例中，如图4所示，解码模块23，包括：

时刻定义单元41，用于定义解码器的解码时刻；

解码计算单元42，用于通过计算，得到解码器在解码时刻的输出向量和隐状态；

分类单元43，用于对所述输出向量进行分类操作，得到所述三元组中的两个相关实体以及两个相关实体的关系。

在一个实施例中，分类单元43，包括：

在一个实施例中，抽取模块，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种实体关系抽取方法，其特征在于，包括：

将预处理的词序列信息输入神经网络；

抽取所有关系三元组，并在预设时刻结束；

所述得到输入词序列信息的编码表示，包括：

对输入词序列进行定义；

对所述输入词序列进行词向量预处理，得到词向量矩阵；

对所述词向量矩阵中的词向量进行计算，得到所述输入词序列信息的编码表示；

输入词序列信息的编码表示由以下公式得到：

；

其中，为第/>个词的编码表示，/>为输入词序列信息的编码表示，/>为编码计算单元，/>为预处理后词向量矩阵的第n个词的向量。

2.如权利要求1所述的方法，其特征在于，所述利用拷贝机制进行解码，得到三元组，包括：

定义解码器的解码时刻；

通过计算，得到解码器在解码时刻的输出向量和隐状态；

3.如权利要求2所述的方法，其特征在于，所述得到所述三元组中的两个相关实体的关系以及两个相关实体，包括：

对输出向量进行分类操作，得到预测的关系；

4.如权利要求1所述的方法，其特征在于，所述抽取所有关系三元组，并在预设时间结束，包括：

解码时刻小于所述预设时刻，继续抽取三元组；

5.一种实体关系抽取装置，其特征在于，包括：

输入模块，用于将预处理的词序列信息输入神经网络；

抽取模块，用于抽取所有关系三元组，并在预设时刻结束；

所述编码模块，包括：

词序列定义单元，用于对输入词序列进行定义；

编码计算单元，用于对所述词向量矩阵中的词向量进行计算，得到所述输入词序列信息的编码表示；

输入词序列信息的编码表示由以下公式得到：

；

6.如权利要求5所述的装置，其特征在于，所述解码模块，包括：

时刻定义单元，用于定义解码器的解码时刻；

7.如权利要求6所述的装置，其特征在于，所述分类单元，包括：

8.如权利要求5所述的装置，其特征在于，所述抽取模块，包括：