CN111597795A

CN111597795A - 一种远监督关系抽取方法、装置、设备及存储介质

Info

Publication number: CN111597795A
Application number: CN202010442730.2A
Authority: CN
Inventors: 李净
Original assignee: Beijing Huiwen Technology Group Co ltd
Current assignee: Beijing Huiwen Technology Group Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-08-28

Abstract

本发明公开了一种远监督关系抽取方法、装置、设备及存储介质，该方法包括：获取句子信息，将句子信息转换为文本向量；将文本向量作为输入参数，输入至深层神经网络中，输出隐层状态向量；从隐层状态向量中提取句子低维向量；将句子低维向量输入至分类器，输出得到关系抽取结果。该方法实现提升抽取结果的准确性。

Description

一种远监督关系抽取方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种远监督关系抽取方法、装置、设备及存储介质。

背景技术

目前，在智能机器人交互中，机器人通过计算机系统与操作员或程序员进行人机对话，实现对机器人的控制与操作。随着人工智能技术的高速发展，各种各样的智能对话机器人在日常生活的不同领域中大放异彩。自然语言理解作为对话系统的唯一输入接口，对于整个系统的重要性不言而喻。其接受纯文本形式的自然语言，也可通过语音技术将语音转为文字，首先必须经过实体识别和关系抽取将无结构化的数据转化为结构化数据，才能进行后续的意图识别、对话管理和答案生成等步骤。一个性能良好的实体关系抽取模型，对于对话系统中的自然语言理解和知识库的构建起到了至关重要的作用。

利用远程监督方法进行关系抽取，是目前在学术研究领域中运用最广泛、最成熟和最有效的关系抽取方法之一。其主要思想是，通过自动标注数据的方式来扩充训练数据集，以此提升模型的整体性能。目前的远程监督关系抽取方法大多基于浅层神经网络，然而由于浅层神经网络层数较少，所以基于浅层神经网络的远程监督关系抽取方法对应的抽取结果的准确性较低。

因此，如何提升抽取结果的准确性是亟待解决的技术问题。

发明内容

本发明的目的是提供一种远监督关系抽取方法、装置、设备及存储介质，以实现提升抽取结果的准确性。

为解决上述技术问题，本发明提供一种远监督关系抽取方法，包括：

获取句子信息，将句子信息转换为文本向量；

将文本向量作为输入参数，输入至深层神经网络中，输出隐层状态向量；

从隐层状态向量中提取句子低维向量；

将句子低维向量输入至分类器，输出得到关系抽取结果。

优选的，所述将句子信息转换为句子文本向量，包括：

对于句子信息，获取每个单词的词嵌入和位置嵌入；

将每个单词的词嵌入和位置嵌入进行拼接，得到句子文本向量。

优选的，所述深层神经网络为残差神经网络。

优选的，所述将文本向量作为输入参数，输入至深层神经网络中，输出隐层状态向量之前，还包括：

对残差神经网络的残差块构建补偿机制，调整残差神经网络的信息流。

优选的，所述补偿机制的公式如下：

c＝(c+C)(1-g(C))+c₀g(C)；

g(C)＝tan(C)+b；

其中，c代表残差操作中的自身映射，C代表残差操作中的短路连接，g(C)为门控机制，c₀为残差神经网络的原始输入，tan为正切函数，b为偏置，b₀为初始化偏置，

是偏置的变化率，i代表残差块在残差神经网络中的深度。

优选的，所述从隐层状态向量中提取句子低维向量，包括：

通过池化操作提取隐层状态向量中的最大值作为特征向量，通过特征向量获取句子低维向量。

优选的，所述池化操作为分段最大池化操作。

本发明还提供一种远监督关系抽取装置，包括：

转换模块，用于获取句子信息，将句子信息转换为文本向量；

第一输入模块，用于将文本向量作为输入参数，输入至深层神经网络中，输出隐层状态向量；

提取模块，用于从隐层状态向量中提取句子低维向量；

第二输入模块，用于将句子低维向量输入至分类器，输出得到关系抽取结果。

本发明还提供一种远监督关系抽取设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述的远监督关系抽取方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的远监督关系抽取方法的步骤。

本发明所提供的一种远监督关系抽取方法、装置、设备及存储介质，获取句子信息，将句子信息转换为文本向量；将文本向量作为输入参数，输入至深层神经网络中，输出隐层状态向量；从隐层状态向量中提取句子低维向量；将句子低维向量输入至分类器，输出得到关系抽取结果。可见，采用深层神经网络来完成远程监督的关系抽取，由于深层神经网络的层数比浅层神经网络多，深层神经网络所对应的抽取结果相对于浅层神经网络更加准确，实现提升抽取结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所提供的一种远监督关系抽取方法的流程图；

图2为相对位置示意图；

图3为远程监督的关系抽取框架图；

图4为基于远程监督的关系抽取模型结构图；

图5为本发明所提供的一种远监督关系抽取装置结构示意图；

图6为本发明所提供的一种远监督关系抽取设备结构示意图。

具体实施方式

本发明的核心是提供一种远监督关系抽取方法、装置、设备及存储介质，以实现提升抽取结果的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种远监督关系抽取方法的流程图，该方法包括以下步骤：

S11：获取句子信息，将句子信息转换为文本向量；

S12：将文本向量作为输入参数，输入至深层神经网络中，输出隐层状态向量；

S13：从隐层状态向量中提取句子低维向量；

S14：将句子低维向量输入至分类器，输出得到关系抽取结果。

可见，该方法中，采用深层神经网络来完成远程监督的关系抽取，由于深层神经网络的层数比浅层神经网络多，深层神经网络所对应的抽取结果相对于浅层神经网络更加准确，实现提升抽取结果的准确性。

基于上述方法，进一步的，步骤S11中，将句子信息转换为句子文本向量的过程包括以下步骤：

S21：对于句子信息，获取每个单词的词嵌入和位置嵌入；

S22：将每个单词的词嵌入和位置嵌入进行拼接，得到句子文本向量。

其中，在关系抽取任务中，所处理的文本的基本单位为句子，其目标是识别出句子中实体之间所存在的关系。关系抽取任务的第一步是将句子文本转化为向量化表示。句子中的每个单词被转化为词嵌入表示和位置嵌入表示。在句子S＝{x₁,x₂,…,x_m}中，x_i为句子中第i个单词，设置e₁和e₂分别为句子中对应的两个实体。

在关系抽取任务中，目的是为了捕获句子中两个实体之间的关系。句子中单词和两个实体之间的距离，蕴含着十分重要的意义。本发明采用位置特征结合了当前单词同两个实体之间的相对距离。如图2所示，图2为相对位置示意图，词组京东公司距离词组刘强东和首席执行官的相对距离分别为2和-2。然后通过随机初始化的位置矩阵，将每个单词的两个相对距离分别转换成低维位置嵌入

R为实数域。

最后，将句子中每个单词的词嵌入和位置嵌入拼接起来，作为单词的向量化表示。假设词嵌入维度d_w为3，位置嵌入维度d_p为1，那么，最终单词的向量化表示的维度为d＝d_w+2d_p。

为了捕获文本的语法和语义信息，步骤S11将单词转化为预训练的分布式向量化表示。通过查询预训练的Glove词嵌入矩阵，将句子中的每个单词w_i都被转变成低维向量

基于上述方法，进一步的，步骤S12中，所述深层神经网络为残差神经网络。残差神经网络属于卷积神经网络，卷积神经网络受生物视觉启发，利用卷积核提取目标局部信息，经过特征抽取和非线性转换等一系列操作，结合全部局部信息生成全局性输出。关系抽取中，使用卷积神经网络去汇集句子文本向量的局部信息，然后预测全局性关系类型标签。

为了缓解深层网络中梯度消失和梯度爆炸的问题，将几个卷积层和非线性层堆叠成单元残差块，利用残差神经网络来缓解这一问题。对于句子文本向量化表示，假设V∈R^m×n和W∈R^m×n，V，W为矩阵，并且定义文本卷积乘

的公式如下：

v_i:i+j代表将句子中索引为i到i+j单词的向量化表示[v_i,v_i+1,...,v_i+j]，按维度拼接起来。给定一个句子，卷积神经网络通过卷积核W_q从v_i:i+j去抽取局部特征，获得隐层向量c_i∈R^|s|-h+1，S为映射之后的维度，h为卷积核尺寸。卷积核扫描完整个句子后获得最终隐状态，当卷积核随着窗口滑动到句子外时，使用0向量填充矩阵边缘。在句子级别上，一个完整的卷积操作如下：

其中，b∈R是偏置向量，函数f()为非线性函数，

为文本卷积乘。

普通网络线性堆叠会导致网络在训练过程中出现退化，残差学习通过自身映射(Identity Mapping)和短路连接(Shortcut Connections)操作使得深层网络易于优化。每个残差块由若干个卷积层和激活层组成。为了保持数据在传播过程中维度固定，本文采用same卷积方法，即通过填充边缘向量使得卷积层输入和输出的维度相同。在残差网络中，每个卷积层都有若干个卷积核w_i∈R^h，对于网络中第i层卷积，我们的定义见下式

其中，b_i∈R为偏置，C_i为卷积层的输出。假设一个残差块包含两个卷积层，w₁,w₂∈R^h为每层的卷积核，对于第一层卷积的输出

表达式如下：

对于第二层卷积的输出

表达式如下：

其中，b₁,b₂∈R为偏置，

为第一层卷积的部分输出。残差神经网络中的自身映射c和短路连接C如下式所示：

c＝c+C

基于上述方法，进一步的，步骤S12之前，还包括以下步骤：

S31：对残差神经网络的残差块构建补偿机制，调整残差神经网络的信息流。

在深层神经网络中，梯度消失和梯度爆炸是造成深层网络难以大规模训练的主要因素之一。残差学习中的自身映射和短路连接改变了网络反向传播中梯度连续相乘的表现形式，进一步缓解了深层网络难以训练的瓶颈问题。然而，残差学习仅仅复制前一个残差块的输入信息到下一层的残差块，并不能根据实际情况调整信息流。

为了对残差神经网络的信息流进行合理的调整，本发明利用门控机制(GatingMechanism)动态的补偿原始数据到每层残差块的输入。并且网络会根据残差块所处的网络深度，动态的调整补偿系数。参见图3，图3为远程监督的关系抽取框架图，在残差神经网络中增加了补偿机制。参见图4，图4为基于远程监督的关系抽取模型结构图，添加了补偿机制，根据网络的深度动态对残差块补偿原始数据，图中的加号即为补偿原始数据的过程。

详细的，在深层残差神经网络中提出的补偿机制的表达式如下：

c＝(c+C)(1-g(C))+c₀g(C)

其中，c代表残差操作中的自身映射，C代表残差操作中的短路连接，g(C)为门控机制，c₀为残差神经网络的原始输入。

为了根据网络的深度动态的对残差块补偿原始数据，在原始输入c₀和c+C之间添加一个门控机制，门控机制表达式如下：

g(C)＝tan(C)+b

其中，tan为正切函数，b为偏置。

此外，b根据网络深度的增加还会不断变化，如下式：

其中，b₀为初始化偏置，

是偏置的变化率，i代表残差块在残差神经网络中的深度。

上述c、g(C)、b这三个表达式代表本发明在深度残差神经网络中提出的补偿机制，该补偿机制作用于网络中的每一个残差块。

进一步的，步骤S13的过程包括：通过池化操作提取隐层状态向量中的最大值作为特征向量，通过特征向量获取句子低维向量。

在卷积神经网络中，每个卷积核通过扫描整个句子得到隐层向量，再通过最大池化层提取隐层状态中最大的值作为特征向量，从而达到提取句子特征的目的。而且，这种设计很自然的解决了句子长度不定的问题，句子向量的维度和卷积核个数就保持相同了。

其中，步骤S13中的池化操作为分段最大池化操作。由于最大池化操作过于粗暴的减少了隐藏层的大小，无法捕获细粒度句子特征，从而丢失了部分句子信息。为了抽取更细粒度的句子特征，本发明采用分段最大池化(Piecewise Max Pooling)来提取隐层向量。在关系抽取任务中，一个句子包含两个实体，根据两个实体的位置将句子分为三段，分别进行最大池化操作，并且返回每段的最大值。例如，当只含有一个卷积核时，经过分段池化操作隐层输出向量c_i被{c_i1,c_i ²,c_i3}代替，如下式：

p_ij＝max(c_ij)1≤i≤n,1≤j≤3

其中，c_ij表示句子分为三段，每一段的输出。n表示输入句子的数量。p_i被设置为级联的形式，是p_ij的拼接结果，表示句子低维向量。最后，输出向量经过非线性激活层。

本方法基于远程监督学习，将深度残差神经网络应用于关系抽取中，并且在深度残差神经网络中提出补偿机制，可以根据网络所处的深度动态的补偿原始数据给网络输入，解决了深度网络传播中数据变形和数据损失的问题，进一步提升网络模型的性能。

另外，可选的，引入句子包级别的注意力机制，充分的利用远程监督方法生成的数据。计算机注意力机制与人类注意力机制类似，目标是通过训练学习使得模型具有筛选信息的能力。可选的，为了缓解深度神经网络对噪声数据太过于敏感，引入对抗学习技术来提升模型的鲁棒性。补偿机制和对抗学习相比于先进的基线方法，可以显著的提高模型性能。

请参考图5，图5为本发明所提供的一种远监督关系抽取装置结构示意图，用于实现上述方法，该装置包括：

转换模块101，用于获取句子信息，将句子信息转换为文本向量；

第一输入模块102，用于将文本向量作为输入参数，输入至深层神经网络中，输出隐层状态向量；

提取模块103，用于从隐层状态向量中提取句子低维向量；

第二输入模块104，用于将句子低维向量输入至分类器，输出得到关系抽取结果。

可见，该装置中，采用深层神经网络来完成远程监督的关系抽取，由于深层神经网络的层数比浅层神经网络多，深层神经网络所对应的抽取结果相对于浅层神经网络更加准确，实现提升抽取结果的准确性。

对于本发明提供的远监督关系抽取装置的介绍请参照前述的远监督关系抽取方法的实施例，本发明实施例在此不再赘述。

请参考图6，图6为本发明所提供的一种远监督关系抽取设备结构示意图，该设备包括：

存储器201，用于存储计算机程序；

处理器202，用于执行所述计算机程序时实现如前述实施例中的远监督关系抽取方法的步骤。

对于本发明提供的远监督关系抽取设备的介绍请参照前述的远监督关系抽取方法的实施例，本发明实施例在此不再赘述。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述实施例中的远监督关系抽取方法的步骤。

对于本发明提供的计算机可读存储介质的介绍请参照前述的远监督关系抽取方法的实施例，本发明实施例在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种远监督关系抽取方法、装置、设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种远监督关系抽取方法，其特征在于，包括：

获取句子信息，将句子信息转换为文本向量；

从隐层状态向量中提取句子低维向量；

将句子低维向量输入至分类器，输出得到关系抽取结果。

2.如权利要求1所述的方法，其特征在于，所述将句子信息转换为句子文本向量，包括：

对于句子信息，获取每个单词的词嵌入和位置嵌入；

3.如权利要求1所述的方法，其特征在于，所述深层神经网络为残差神经网络。

4.如权利要求3所述的方法，其特征在于，所述将文本向量作为输入参数，输入至深层神经网络中，输出隐层状态向量之前，还包括：

5.如权利要求4所述的方法，其特征在于，所述补偿机制的公式如下：

c＝(c+C)(1-g(C))+c₀g(C)；

g(C)＝tan(C)+b；

b＝b₀+▽b×i；

其中，c代表残差操作中的自身映射，C代表残差操作中的短路连接，g(C)为门控机制，c₀为残差神经网络的原始输入，tan为正切函数，b为偏置，b₀为初始化偏置，▽b是偏置的变化率，i代表残差块在残差神经网络中的深度。

6.如权利要求1所述的方法，其特征在于，所述从隐层状态向量中提取句子低维向量，包括：

7.如权利要求6所述的方法，其特征在于，所述池化操作为分段最大池化操作。

8.一种远监督关系抽取装置，其特征在于，包括：

提取模块，用于从隐层状态向量中提取句子低维向量；

9.一种远监督关系抽取设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的远监督关系抽取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的远监督关系抽取方法的步骤。