CN110413995A

CN110413995A - 一种基于双向mgu神经网络的关系抽取方法

Info

Publication number: CN110413995A
Application number: CN201910601361.4A
Authority: CN
Inventors: 刘旭红; 张良; 刘秀磊; 李臻; 陈雨婷
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-05
Anticipated expiration: 2039-07-03
Also published as: CN110413995B

Abstract

本发明提供一种基于双向MGU神经网络的关系抽取方法。解决了单向MGU模型对后文依赖性不足，无法处理后文信息的问题。通过实验表明了该方法的训练时间更短，抽取准确率、召回率和F值更高。通过分析不同关系类型的抽取性能，发现了关系类型的选取以及语料特点对抽取性能存在一定影响。

Description

一种基于双向MGU神经网络的关系抽取方法

技术领域

本发明涉及数据抽取技术领域，尤其涉及一种基于双向MGU神经网络的关系抽取方法。

背景技术

关系抽取是本体构建中最关键的一步，分为手动和自动构建两种方式。手动的方式需要领域专家的协助和参与，不仅构建的成本较高，效率偏低，还存在主观性强、可移植性弱等缺点。因此，越来越多的研究逐渐转为自动抽取的方式。

关系抽取方法从标注数据依赖程度上分为四种：有监督学习方法、半监督学习方法、无监督学习方法和开放式抽取方法。半监督学习方法抽取的准确度依赖于初始关系种子的质量，可移植性较差，因此不适用于处理煤矿典型动力灾害数据。无监督的学习方法虽然不需要对语料进行标注，但是聚类阈值无法事先确定，并且需要对抽取结果进行大量分析和后处理。开放式抽取方法需要借助外部知识库如DBPedia、OpenCyc、YAGO等将关系实例映射到文本中，但是上述知识库较少包含煤矿典型动力灾害领域相关知识。

发明内容

有鉴于此，本发明提供一种基于双向MGU神经网络的关系抽取方法。本发明选择有监督的学习方法，在领域专家的协助下对数据进行标注，使建立的模型更准确，学习时间更短。同时，为了减少人工标注工作量，本发明选择深度学习模型。深度学习技术避免了特征选择的问题，依靠模型本身强大的特征表现能力学习文本中词汇的高维属性特征，该特征可以很好地体现词汇的语义特性。本发明在传统循环神经网络及其变体的基础上提出一种基于双向MGU神经网络的关系抽取方法，并通过实验验证本文提出的关系抽取模型训练时间更短并且抽取准确率、召回率和F值更高。

本申请是通过如下技术方案实现的：

一种基于双向MGU神经网络的关系抽取方法，该方法包括：

步骤1，对数据进行预处理，将数据以句子为单位划分并去除不包含领域概念或只包含一个概念的句子；

步骤2，选取当前词和词间距作为特征，对数据进行标注；

步骤3，将数据分为训练集和测试集，使用训练集对模型进行训练，并使用测试集对模型进行测试，验证关系抽取的准确度。

进一步的，在步骤1中，所述对数据进行预处理，具体包括：

使用神经网络模型来处理煤矿安全领域的文本数据，将输入的数据进行向量化处理；

将煤矿文本数据转换为向量的形式，给定句子S，其中包含单词集W(w₁,w₂,...,w_m)，m为句子S中单词的个数，提取到的句子S的文本特征集K(k₁,k₂,...,k_n)，n表示每个句子提取到的文本特征个数，第t个单词提取到的第i个文本特征表示为

进一步的，所述神经网络模型具体包括：

第一层为输入层，将煤矿文本数据以句子为单位划分，去掉不包含概念对的句子，将每条数据表示成：{概念1概念2概念词间距关系类型句子}的形式；

第二层为词向量表示层，使用SOWE词向量模型将数据表示成向量的形式；

第三层为双向MGU网络，使用标注好的数据训练模型；

第四层为池化层，使用最大池化操作得到最终的向量表示；

第五层为输出层，使用集成softmax函数进行关系类型的判断。

进一步的，所述将输入的数据进行向量化处理，具体包括：

采用当前词和词间距作为特征，对文本信息进行词向量化处理：

r^w＝W^word×V^w

其中，r^w是词w的词向量表示；W^word∈R^l×|m|表示文本词向量矩阵；m表示句子中单词的个数；l表示词向量维数；V^w是词w的one-hot表示；

对各个文本特征进行词向量化处理：

其中，是文本的第i个特征的词向量表示；是文本的第i个特征的特征分布向量，

每个词对应的向量化表示为各个向量的连接，第t个词对应的向量化表示为：

得到的文本局部特征为：

e＝{x₁,x₂,...,x_m}。

进一步的，所述双向MGU网络包括自前向后的单层MGU和自后向前的单层MGU。

进一步的，所述自前向后MGU层的更新公式为：

其中，为自前向后层t时刻隐藏层的状态，为t-1时刻隐藏层的状态，x_t为t时刻的输入，和为权重矩阵，为偏差项；

所述自后向前MGU层的更新公式为：

其中，为自前向后层t时刻隐藏层的状态，为t+1时刻隐藏层的状态，x_t为t时刻的输入，和为权重矩阵，为偏差项；

两层MGU层叠加后输入隐藏层：

其中，y_t为t时刻的输出结果，b_y为偏差项。

进一步的，所述对数据进行标注，具体包括：

采用注意力机制对不同部分数据加以不同的权重，并使用词语层面的注意力权重矩阵捕捉句子中与目标关系相关联的信息，采用如下公式：

其中，a_t为注意力机制中自动计算的向量m_t的权重，l为所有需要分配权重的向量个数，a_t使用softmax对其进行归一化处理，v_a是权重向量，W_a和U_a是权重矩阵，y_t是隐藏层第t步的输出，n是影响权重的因素对应的向量，l为句子长度，y是最后的输出，用作句子的表示；

将双向MGU模型隐藏层每步的输出和影响因素联系在一起，然后对隐藏层每步输出进行加权，得到句子的表示。

进一步的，使用最大池化操作得到最终的向量表示，采用注意力机制的池化方式，具体包括：

将通过双向MGU层后的句子向量与注意力权重矩阵相乘，获得对应的输出特征F＝{F₁,...,F_m}；

然后，采用最大池化的操作获取最显著的特征表示：

d＝max(F)

其中，d为池化后获取的文本整体特征，池化后的特征维数是固定的；

最后，采用softmax分类器对关系类别标签进行预测。

与现有技术相比，本发明的优点在于：

1)本发明详细介绍了基于双向MGU模型的煤矿典型动力灾害领域关系抽取技术，解决了单向MGU模型对后文依赖性不足，无法处理后文信息的问题。通过实验表明了该方法的训练时间更短，抽取准确率、召回率和F值更高。通过分析不同关系类型的抽取性能，发现了关系类型的选取以及语料特点对抽取性能存在一定影响。

2)本发明仅对预定义的关系进行抽取，并未对开放式关系进行研究。目前，在开放式关系抽取研究上，还存在消歧问题。因此，在未来的煤矿典型动力灾害领域关系抽取研究中，应更多注重非分类关系抽取和消歧问题，进一步提高关系抽取的多样性和准确性。

附图说明

图1为关系抽取方法的整体流程示意图；

图2为关系抽取方法所应用的整体网络结构示意图；

图3为单向MGU结构示意图；

图4为本发明所采用的双向MGU模型示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面将结合附图和实例对本发明作进一步的详细说明。

循环神经网络由于可以处理序列并利用上下文信息找到对应输入序列的输出序列，因此被广泛应用于自然语言处理任务。然而，RNN在训练时需要大量的非线性变换，导致参数过多。还存在过拟合，特征信息提取不够全面，梯度消失等问题，所以一些RNN变体如LSTM、GRU、MGU等模型被相继提出。

LSTM又叫长短期记忆网络，是一种时间递归神经网络。相较于传统的RNN，它添加了一个被称为“cell”的处理器，用于判断信息是否有用。一个cell中包含输入门、遗忘门和输出门。如果信息被判断为无用，则通过遗忘门被遗忘。

GRU(Gated Recurrent Unit，GRU)由Cho等人提出，是LSTM的一种变体。相比LSTM，结构更加简单，仅包含两个门结构：更新门z(功能类似于遗忘门)和重置门r(功能类似于输入门)。GRU不仅移除了LSTM中的输出门，还混合了细胞状态和隐藏状态。

MGU是由Zhou等人于2016年提出的一种最少门结构的循环神经网络，仅使用了一种门结构。它在GRU的基础上，将重置门和遗忘门合并，相比LSTM和GRU结构更加简单，参数更少。

本发明在单向MGU模型上进行改进，增加了自后向前的MGU层，设计了双向MGU模型，改进了单向MGU对后文依赖性不足的缺点，并提出一种基于双向MGU模型的煤矿典型动力灾害领域关系抽取方法。

图1示出了本发明的关系抽取方法的执行步骤，具体包括：

步骤1，对数据进行预处理；

将数据以句子为单位划分并去除不包含领域概念或只包含一个概念的句子；

步骤2，选取当前词和词间距作为特征，对数据进行标注；

所述步骤1中，对数据进行预处理，具体包括：

使用神经网络模型来处理煤矿安全领域的文本数据，需要先将输入的数据进行向量化处理。将煤矿文本数据转换为向量的形式，即给定句子S，其中包含单词集W(w₁,w₂,...,w_m)，m为句子S中单词的个数，提取到的句子S的文本特征集K(k₁,k₂,...,k_n)，n表示每个句子提取到的文本特征个数，第t个单词提取到的第i个文本特征表示为

图1示意了关系抽取的整体流程，从宏观角度说明了关系抽取所需的步骤。神经网络模型结构图是从微观角度详细阐述关系抽取每步所用的技术，图2所示。

第一层为输入层，将煤矿文本数据以句子为单位划分，去掉不包含概念对的句子，将每条数据表示成：{概念1 概念2 概念词间距关系类型句子}的形式。第二层为词向量表示层，使用SOWE词向量模型将数据表示成向量的形式。第三层为双向MGU网络，使用标注好的数据训练模型。第四层为池化层，使用最大池化操作得到最终的向量表示。第五层为输出层，使用集成softmax函数进行关系类型的判断。

由于模型本身具有强大的特征表现能力，可以自动学习文本中词汇的高维属性特征，因此本文仅采用当前词和词间距作为特征。对文本信息进行词向量化处理：

r^w＝W^word×V^w (2.1)

其中，r^w是词w的词向量表示；W^word∈R^l×|m|表示文本词向量矩阵；m表示句子中单词的个数；l表示词向量维数；V^w是词w的one-hot表示。

同理，对各个文本特征进行词向量化处理:

最后得到的文本局部特征为：

e＝{x₁,x₂,...,x_m} (2.4)

MGU是一种最少门结构模型，能够决定记忆单元保留上一级记忆状态和提取当前输入特征的程度，是RNN的扩展。相比传统的RNN模型，MGU模型可以有效解决梯度消失问题和长期依赖缺失问题。MGU只有一种门结构，它将输入门(重置门)与遗忘门(更新门)合并。因此，相比三个门结构的LSTM和两个门结构的GRU，结构更加简单，参数更少，其结构如图3所示。

从上图中可以看出：

f_t＝σ(W_f[h_t-1,x_t]+b_f) (2.5)

其中，h_t-1和h_t分别为t-1和t时刻隐藏层的状态，x_t为t时刻的输入，f_t为t时刻门结构的激活函数，为短时记忆项，W_f和W_h为权重矩阵，b_f和b_h为偏差项。

单向MGU模型只能在一个方向上处理数据，因此本发明提出一种双向的MGU模型，目的是解决单向MGU模型无法处理后文信息的问题。正向的MGU捕获了上文的特征信息，反向的MGU捕获了下文的特征信息，然后通过融合捕获的上文特征信息和下文特征信息最终获得全局的上下文信息。同时考虑序列上下文信息有助于序列建模任务。其结构如图4所示。

从图中可以看出，双向MGU神经网络由两个部分构成：(1)自前向后的单层MGU；(2)自后向前的单层MGU。每一个训练序列向前和向后分别是两个MGU单元，而且这两个都连接着一个输出层。

自前向后MGU层的更新公式为：

其中，为自前向后层t时刻隐藏层的状态，为t-1时刻隐藏层的状态，x_t为t时刻的输入，和为权重矩阵，为偏差项。

自后向前MGU层的更新公式为：

其中，为自前向后层t时刻隐藏层的状态，为t+1时刻隐藏层的状态，x_t为t时刻的输入，和为权重矩阵，为偏差项。

两层MGU层叠加后输入隐藏层：

其中，y_t为t时刻的输出结果，b_y为偏差项。

在关系抽取中，用于分类的关系集合对于句子中词语的重要程度存在差异，因此本发明引入了注意力机制(Attention Mechanism)对不同部分加以不同的权重，并使用词语层面的注意力权重矩阵捕捉句子中与目标关系相关联的信息。

注意力机制于20世纪90年代中期被提出，最早被用于视觉图像领域，后来被应用于机器翻译、情感分类、文本分类、关系抽取等自然语言处理领域。注意力机制的优点是可以自动调整权重，便于深度学习模型重点注意对任务目标更重要的部分，其权重计算为：

其中，a_t为注意力机制中自动计算的向量m_t的权重。f是一个函数，它将需要计算权重的向量m_t与影响权重的因素对应的向量n联系起来。l为所有需要分配权重的向量个数，a_t使用softmax对其进行归一化处理。

函数f有多种形式，本发明采用的是：

其中，v_a是权重向量，W_a和U_a是权重矩阵。

本发明使用式(2.12)将双向MGU模型隐藏层每步的输出和影响因素联系在一起，然后对隐藏层每步输出进行加权，得到句子的表示。具体如下：

其中，y_t是隐藏层第t步的输出，n是影响权重的因素对应的向量，l为句子长度，y是最后的输出，用作句子的表示。

为了考虑更多上下文语义关联并获取与关系分类任务更相关的特征，本发明采用注意力机制的池化方式。

首先，将通过双向MGU层后的句子向量与注意力权重矩阵相乘，获得对应的输出特征F＝{F₁,...,F_m}；然后，采用最大池化的操作获取最显著的特征表示。

d＝max(F) (2.16)

其中，d为池化后获取的文本整体特征。由于池化后的特征维数是固定的，因此可以解决文本句子长度不一的问题。

最后，采用softmax分类器对关系类别标签进行预测。

本发明使用Google开源深度学习框架Tensorflow(v1.2)构建LSTM、GRU、单向和双向MGU模型，并使用Word2Vec对词向量进行训练预处理。实验环境为Windows10(64位)操作系统，8GB内存；编程平台为Pycharm，Python2.7版本。通过对比LSTM模型、GRU模型、MGU模型训练时间长短以及关系抽取结果的准确率、召回率和F值大小，分析本发明提出的双向MGU模型的性能。

在参考ACE05的标准以及结合语料的基础上，实验抽取7种关系类型，分别为“位置”关系、“因果”关系、“发生”关系、“责任”关系、“部分-整体”关系、“占有关系”、“其他关系”。其中，“位置”关系描述了地理位置关系；“因果”关系表示概念间存在因果关联或者互相影响；“发生”关系表示已经发生的事实；“责任”关系通常存在于人员、机构这类概念中；“部分-整体”关系表示两个概念存在层级结构；“占有”关系一般为“使用”、“采用”等。除了上述6种关系外的关系均被标注为“其他”关系。

从上述结果中可以看出，本发明提出的双向MGU模型相比传统的单向MGU模型在准确率、召回率和F值上均有明显的提升，弥补了单向MGU对后文依赖性不足的缺点。

从上述图片中，可以看出双向MGU模型抽取“位置”、“因果”、“占有”和“其他”关系的准确率更高，而在抽取“部分-整体”关系时效果没有LSTM和GRU模型好。使用双向MGU模型抽取“因果”、“部分-整体”和“占有”关系的召回率更高，而在抽取“其他”关系时效果没有LSTM和GRU模型好。使用双向MGU模型抽取“因果”、“责任”、和“占有”关系的F值更高，其余关系的效果相近。

从图中可以看出，“发生”关系无论使用什么模型进行抽取都具有非常理想的效果。通过分析语料发现，在“发生”关系出现的节点上，具有高频词汇，例如煤矿、事故。同时，存在“发生”关系的句子句式结构比较单一，所以特征更加准确可靠。“位置”、“部分-整体”和“占有”关系的平均抽取准确率远高于召回率。这说明这三种关系较容易被误判为其余类型关系，而其余类型关系很少会被误判为这几种关系。通过分析发现，这是由于数据集中这三种关系类型的数量较少，而“发生”、“责任”、“因果”关系出现的频率较高。“其他”关系的平均抽取准确率、召回率和F值都比较低，这是由于该类型关系出现的位置和句子结构不固定，并且存在这种关系的概念没有一定规律，因此特征不够明显。

需要说明的是，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于双向MGU神经网络的关系抽取方法，其特征在于，该方法包括：

步骤2，选取当前词和词间距作为特征，对数据进行标注；

2.根据权利要求1所述的基于双向MGU神经网络的关系抽取方法，其特征在于，在步骤1中，所述对数据进行预处理，具体包括：

3.根据权利要求2所述的基于双向MGU神经网络的关系抽取方法，其特征在于，所述神经网络模型具体包括：

第三层为双向MGU网络，使用标注好的数据训练模型；

第四层为池化层，使用最大池化操作得到最终的向量表示；

第五层为输出层，使用集成softmax函数进行关系类型的判断。

4.根据权利要求2所述的基于双向MGU神经网络的关系抽取方法，其特征在于，所述将输入的数据进行向量化处理，具体包括：

r^w＝W^word×V^w

对各个文本特征进行词向量化处理：

得到的文本局部特征为：

e＝{x₁,x₂,...,x_m}。

5.根据权利要求2所述的基于双向MGU神经网络的关系抽取方法，其特征在于，所述双向MGU网络包括自前向后的单层MGU和自后向前的单层MGU。

6.根据权利要求5所述的基于双向MGU神经网络的关系抽取方法，其特征在于，

所述自前向后MGU层的更新公式为：

所述自后向前MGU层的更新公式为：

两层MGU层叠加后输入隐藏层：

其中，y_t为t时刻的输出结果，b_y为偏差项。

7.根据权利要求5所述的基于双向MGU神经网络的关系抽取方法，其特征在于，所述对数据进行标注，具体包括：

8.根据权利要求3所述的基于双向MGU神经网络的关系抽取方法，其特征在于，使用最大池化操作得到最终的向量表示，采用注意力机制的池化方式，具体包括：

然后，采用最大池化的操作获取最显著的特征表示：

d＝max(F)

最后，采用softmax分类器对关系类别标签进行预测。