CN110263332A

CN110263332A - 一种基于神经网络的自然语言关系抽取方法

Info

Publication number: CN110263332A
Application number: CN201910449987.8A
Authority: CN
Inventors: 杨燕; 战蕾; 陈成才; 贺樑; 陈培华
Original assignee: East China Normal University; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: East China Normal University; Shanghai Xiaoi Robot Technology Co Ltd; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-09-20

Abstract

本发明公开了一种基于神经网络的自然语言关系抽取方法，该方法采用句子的不同方面的自注意力信息注入到卷积神经网络中进行空间级表示融合，利用这种融合了句子实体的多方向信息的表示，能够进行更准确的实体间的关系预测。本发明与现有技术相比具有多方面、多角度进行挖掘句子及句子中实体间关系的特点，将这种多方面、多角度的表示进行融合，从而进行更准确的关系抽取，能够更加全面有效地对句子中实体间关系进行预测，方法简便、高效，成本低廉，并且能够在不同数据领域之间进行迁移，具有广泛的实用意义，能够为知识图谱系统、关系预测系统等应用提供有效的解决方案。

Description

一种基于神经网络的自然语言关系抽取方法

技术领域

本发明涉及自然语言处理中关系抽取领域，具体地说是利用神经网络挖掘出句子以及句子中实体的内在联系的表示信息，利用这些信息对两个实体的关系进行抽取。

背景技术

现如今，随着网络信息资源的日渐丰富、计算机速度的大幅度提高，主要以文字、图像等形式为依托的信息化时代强势到来。信息化时代的标志是信息爆发价值，如今信息化成为了时代发展的主流趋势，是前沿生产力的主要标志。随着信息时代的高速发展，信息数据呈现规模巨大、模态多样和高速增长等特征。在网络搜索过程中，当用户输入要查询的信息时，希望计算机能够从语义层面理解用户真实想要获取的信息，而不只是关键字的提取和搜索，这就迫切要求能快速、准确地获取用户真正所需信息的技术手段-信息抽取技术的进一步发展，以满足用户搜索的需求。比如说，当用户输入“英国伦敦”时，希望得到的是关于英国伦敦这座城市的多方面相关信息，如政治、经济、文化、地理位置、旅游景点、教育机制等，而不仅仅是简单的关于伦敦的关键字的句子提取。近年来，自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图，通俗来讲，就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的，为搜索提供了新思路：直接返回问题的答案，而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。

信息抽取的研究内容主要包括三个方面：实体抽取、实体关系抽取、事件抽取。实体关系抽取是核心任务，其问题定义为“输入一段文本，抽取出每句话中的实体及其之间的语义关系”。目前的研究主要是指从一句话中抽取出两个实体及语义关系，通常用三元组(实体1，关系，实体2)表示。

在商业需求的推动下，实体关系抽取方法从上世纪九十年代基于知识工程的方法发展到近十年基于统计的机器学习方法。随着在线文本数量的增加和硬件计算能力的提高，基于统计的机器学习方法应用广泛，主要分为有监督、半监督和无监督三大类方法。由于有监督的方法准确率和召回率较高，国内外学者大多采用有监督的方法有监督机器学习方法将实体关系抽取视为一个分类任务，将句子中出现的实体关系划分到预先定义好的类别中。近年来，深度学习框架的神经网络模型成为实体关系抽取的新方法，深度学习是一种特殊的有监督机器学习方法，是机器学习的一个分支，不同之处在于神经网络模型自动学习句子特征，无需复杂的特征工程同时能够取得更好的效果，所以受到广泛的应用。

现有技术的关系抽取通常依赖于逻辑规则和手工构建的特征，这些特征耗费劳动力且难以泛化。而基于神经网络的模型也只是端到端训练，输入只是文本及两个实体一方面的信息，而忽视了从不同角度对同一个文本及实体对进行表示，这种单一的表示很容易产生误差，从而影响到最后对两个实体关系的抽取。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于神经网络的自然语言关系抽取方法，采用句子的不同方面的自注意力信息注入到卷积神经网络中进行空间级表示融合，利用这种融合了句子实体的多方向信息的表示，能够进行更准确的实体间的关系抽取，具有广泛的实用意义，为现有的知识图谱系统、关系预测系统等应用提供有效的解决方案。

本发明的目的是这样实现的：

一种基于神经网络的自然语言关系抽取方法，该方法包括以下具体步骤：步骤1：句子及实体的向量表示

对每个句子及其包含的一对实体，采用神经网络构建所述一对实体的句子向量表示，定义长度为n的句子的向量表示为：

其中，是连接操作并且v代表句子的向量表示，d为向量的维度；

步骤2：句子不同方面的自注意力表示

采用句子注意力机制，将不同的自注意力信息注入到神经网络中，进行句子不同方面的自注意力表示；其中，自注意力信息计算输出的权重矩阵的公式为：

其中，Q,K,V为当前token的向量表示，d为当前向量的维度大小，上式中Q＝K＝V＝v；

步骤3：卷积网络进行表示融合

使用卷积神经网络对句子不同方面的自注意力表示进行空间级的融合，得到基于多方面句子注意力表示融合后的信息并进行池化；其中，融合方式如下：

c_i＝f(w·h_(i:i+n-1)+b),

式中，是一个偏置量，是一个非线性函数，h为滑动窗口，i为当前位置下标，w为参数矩阵；

池化表示如下：

式中，c为得到的融合特征，为最后所得特征值；

步骤4：实体关系预测

将池化结果输入到全连接神经网络(Fully connected network)中，对两个实体在句子中的关系进行预测，最终得到所述关系的概率分布；具体如下：

dropout：y＝w·(zοr)+b

original：y＝w·z+b

其中，ο是逐元素相乘的操作，F是符合伯努利分布遮蔽向量，并且

本发明采用句子的不同方面的自注意力信息注入到卷积神经网络中进行空间级的表示融合，得到基于多方面句子注意力表示后的信息进行关系抽取，其包括：句子及实体的向量表示、句子不同方面的自注意力表示和卷积神经网络对句子不同方面的表示融合，将这种基于句子不同方面表示的融合信息对自然语言中的句子信息以及句子中两个实体进行表示，并且对两个实体在句子中的关系进行预测。

本发明与现有技术相比具有多方面、多角度进行挖掘句子及句子中实体间关系的特点，将这种多方面、多角度的表示进行融合，从而进行更准确的关系抽取，能够更加全面有效地对句子中实体间关系进行预测，方法简便、高效，成本低廉，并且能够在不同数据领域之间进行迁移，具有广泛的实用意义，能够为知识图谱系统、关系预测系统等应用提供有效的解决方案。

附图说明

图1为本发明流程示意图。

具体实施方式

以下结合附图及实施例，对本发明作进一步的详细说明。

实施例1

参阅图1，本发明按下述步骤进行多角度特征融合的关系抽取：

(一)、句子及实体的向量表示

设x_i为句子中的第i个单词。每个单词将访问两个向量查找表以获得每个单词的向量表示WF_i和每个实体的相对位置的向量表示PF_i。然后连接两个向量并将每个单词表示为v_i＝[WF_i；PF_i]。

在本发明中，使用skip-gram模型来训练词向量。对应于x_i的每个表示v_i是实值向量。所有的词向量都被编码成一个词向量矩阵其中V是固定大小的词表。

在关系分类中，专注于寻找实体对的关系。向量PF表示的是当前单词与第一实体e和第二实体e的相对距离的组合。例如，在句子中“Steve Jobs is the founder ofApple.”，founder与e(Steve Job)和e(Apple)的相对距离分别为3和2。然后，通过查找一个随机初始化的位置向量矩阵将这种相对距离转换实值的向量表示，其中P是固定大小的相对距离集合。应该注意的是，如果一个单词离实体太远，它可能与关系无关，因此，为相对距离选择最大值e_max和最小值e_min。

有两个位置向量：一个用于e，另一个用于e。最后，连接所有单词的词向量和所有单词的位置向量，并将其表示为长度为n的句子(必要时填充)的向量表示：

其中，是连接操作并且

(二)、句子不同方面的自注意力表示

注意力方法的提出来的目的是为了计算两个不同序列或者不同元素之前的一个对齐分布即一个序列对另一个序列的重要程度，这种重要程度使用了一种分数进行了量化，并可以可视化输出，具有很高的可解释性。在实际操作中，同时在一组输入序列或者元素上进行注意力函数的计算，进行如下定义：将输入Query打包在一起形成矩阵Q，同时Key和Value也被一起打包形成矩阵K和V。该注意力机制的输出是对之前的句子与实体向量区分重要程度的权重矩阵。

本发明中，计算输出的权重矩阵的公式为：

自注意(Self-atttention)是注意力机制的一个特例：(1)用来自源输入本身的token向量表示v_j替换Q；(2)通过计算每对tokens，v_i和v_j之间的注意力，将单个序列中不同位置的元素联系起来；(3)在对于长距离依赖和本地依赖，它具有极强的表现力和灵活性。

在本发明中，使用这种注意机制与多头机制相结合(参数不共享)来实现对句子及实体的不同方面的表示，通过多个head_i自动学习两个实体之间不同方面的重要特征。

其中同时Q＝K＝V＝v。在本发明中，使用头数为8即i＝8。

(三)、卷积网络进行表示融合

在本发明中，为了之前得到的多方面特征进行空间表示融合，在这里使用了一个多通道(multi-channel)的卷积网络来进行特征的融合。传统意义上，在自然语言处理领域中，卷积神经网络的使用是建立在单一通道上的。因为与图片不同，所有文本向量后的表示不存在多个不同的层面的区分，因此会将这个表示进行拼接来放入单一通道进行处理。而在本发明中，利用前文提到的方式得到了一个句子多个不同方面的表示，将其每一个方面的表示放入一个通道当中去，利用CNNs的卷积来融合生成新特征的特性，将不同的表示融合成一个聚合了多个方面表征的新特征矩阵。

具体对每一个通道(channel)来说，令h_(i：i+j)来表示h_i，h_(i+1)，...，h_(i+j)，一个卷积操作包括一个卷积核其通过滑动卷积窗口来计算长度为n的特征来生成新的特征。因此，这里给出每一个新的特征c_i通过一个窗口的计算，由单词表示h_(i：i+n-1)生成的公式：

c_i＝f(w·h_(i∶i+n-1)+b)，

其中是偏置量，f是一个非线性的函数，w为参数矩阵；这个卷积核从h₁到h_n每一个可能窗口生成新的融合特征c＝[c₁，c₂，...，c_n-l+1]。

(四)、特征池化及实体关系预测

在本发明中，在最后的输出预测层使用了一个最大池化(max-pooling)操作和一个平均池化(averagepooling)操作来获取最突出的特征值即：

在之前已经描述了一个卷积核如何获取一个特征的过程，接下来将所有的特征进行拼接，得到一个高层的特征集合l，即：

其中，m为卷积核的个数。

最后将这些特征作为输入传递给全连接神经网络(Fully connected network)中，并使用softmax函数计算所有可能关系的概率分布，取其最大的概率为最后预测关系的输出。其中，在前向传播的过程中，使用dropout来代替普通向前传播的计算方式，具体如下：

dropout：y＝w·(zοr)+b

original：y＝w·z+b

其中，ο是逐元素相乘的操作，F是符合伯努利分布(Bernoulli random)遮蔽向量，并且这种随机屏蔽掉部分神经单元的方式与正则化技术完全不同，与L1和L2范式正则化不同的是dropout并不会修改代价函数而是修改深度网络本身，从而使得整个模型的泛化能力有所提高。

以上只是对本发明作进一步的说明，并非用以限制本发明，凡为本发明等效实施，均应包含于本发明的权利要求范围之内。

Claims

1.一种基于神经网络的自然语言关系抽取方法，其特征在于，该方法包括以下具体步骤：

步骤1：句子及实体的向量表示

步骤2：句子不同方面的自注意力表示

步骤3：卷积网络进行表示融合

c_i＝f(w·h_(i:i+n-1+b),

池化表示如下：

式中，c为得到的融合特征，为最后所得特征值；

步骤4：实体关系预测

dropout：

original：y＝w·z+b

其中，是逐元素相乘的操作，r是符合伯努利分布遮蔽向量，并且