CN109766994A

CN109766994A - 一种自然语言推理的神经网络架构

Info

Publication number: CN109766994A
Application number: CN201811590400.7A
Authority: CN
Inventors: 杨燕; 张琪; 陈成才; 贺樑
Original assignee: East China Normal University; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: East China Normal University; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-05-17

Abstract

本发明公开了一种自然语言推理的神经网络架构，其特点是采用知识库、知识吸收门和语义关系预测架构的卷积神经网络，所述知识库中的每个知识以三元组表示；所述知识吸收门为上、下文感知的集合；所述卷积神经网络由前提句向量表示、假设句向量表示和句子间信息交互组成；所述语义关系预测基于句子交互后的信息对自然语言所表达的信息进行推理，并对两句子之间的语义关系进行预测。本发明与现有技术相比具有外部知识融入神经网络的特点，使引入的相关知识与句子表示结合，语义推理更准确，方法简便、高效，成本低廉，并且能够在不同数据领域之间进行迁移，具有广泛的实用意义，能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。

Description

一种自然语言推理的神经网络架构

技术领域

本发明涉及自然语言推理技术领域，尤其是一种带外部知识的自然语言推理的神经网络架构。

背景技术

感知和推理是人类和人工智能的核心，自然语言的推理是将前提和假设两句子的语义关系分为蕴含、矛盾和中立三类，具体而言，自然语言推理旨在确定给定的假设句是否可以从给定的前提句中通过逻辑推断出。例如，以“乔布斯创立苹果”为前提句，我们可以推断“乔布斯是苹果的创始人”这一假设句是真实的，因此我们将前提句与假设句之间的关系标记为“蕴含”。自然语言推理是评估模型语言理解能力的重要任务，因此，对问答系统、抽象文本摘要以及图像标注等自然语言处理是很有帮助和有益的。最近发布的大规模数据集，如斯坦福自然语言推理语料(SNLI)和多种类自然语言推理语料库(MultiNLI)，使得自然语言推理任务更加可行和准确。根据模型是否能够利用两句话之间的交互信息，所提出的模型可以分为基于编码的模型和使用交叉句子特征的交互式模型，基于编码的模型为单独编码前提和假设。

现有技术的自然语言推理通常依赖于逻辑规则和手工构建的特征，这些特征耗费劳动力且难以泛化，很少研究关注融合外部词汇知识。基于神经网络的模型也只是端到端训练，输入只是文本或一系列词汇，而忽视了大量的背景知识，如前提为“今天下雨了，她很伤心”，假设为“她今天很快乐”的“SNLI”数据集例子，如果计算机无法从大量注释数据中学习有用或足够的信息来建模“伤心”和“快乐”的关系，也就是很难正确预测前提与该假设是相矛盾的关系。

发明内容

本发明的目的是针对现有技术的不足而设计的一种自然语言推理的神经网络架构，采用知库与知识吸收门架构的卷积神经网络系统，进行句子间的信息交互，使引入的相关知识与句子表示结合，从而进行更准确的语义推理，工作效率高，具有广泛的实用意义，能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。

本发明的目的是这样实现的：一种自然语言推理的神经网络架构，其特点是采用知识库、知识吸收门和语义关系预测架构的卷积神经网络系统，所述知识库采用“WordNet”和“Wikidata”知库，其库中的每个知识均以u＝(head(h)，relation(r)，tail(t))的三元组表示；其中，h和t是实体；r则是这两个实体之间的关系；所述知识吸收门表示为G＝{}(i＝1,2,…)的上、下文感知的集合；所述卷积神经网络由前提句向量表示、假设句向量表示和句子间信息交互组成；所述前提句向量表示和假设句向量表示采用长短时记忆网络“LSTM”对前提X和假设Y进行编码，分别得到基于上、下文的句子向量表示；所述句子间信息交互为编码后的知识融入前提句和假设句的向量表示中进行句子间的信息交互；所述语义关系预测基于句子交互后的信息对自然语言所表达的信息进行推理，并对两句子之间的语义关系进行预测。

本发明与现有技术相比具有外部知识融入神经网络的特点，使引入的相关知识与句子表示结合，从而进行更准确的语义推理，能够更加全面有效地对句子语义进行推理，方法简便、高效，成本低廉，并且能够在不同数据领域之间进行迁移，具有广泛的实用意义，能够为智能问答系统、文本摘要系统等应用提供有效的解决方案。

附图说明

图1为本发明结构示意图。

具体实施方式

参阅附图1，本发明由知识库1、知识吸收门2、卷积神经网络3和语义关系预测4架构而成，所述知识库1采用“WordNet”和“Wikidata”知库，其库中的每个知识均以u＝(head(h)，relation(r)，tail(t))的三元组表示；其中，h和t是实体；r则是这两个实体之间的关系；所述知识吸收门2为G＝{}(i＝1,2,…)表示的上、下文感知组成的集合；所述卷积神经网络3由前提句向量表示31、假设句向量表示32和句子间信息交互33组成；所述前提句向量表示31和假设句向量表示32采用长短时记忆网络“LSTM”对前提X和假设Y进行编码，分别得到基于上、下文的句子向量表示；所述句子间的信息交互33为编码后的知识融入前提句和假设句的向量表示中进行句子间的信息交互；所述语义关系预测4基于句子交互后的信息对自然语言所表达的信息进行推理，并对两句子之间的语义关系进行预测。

以下通过某一自然语言推理的具体实例，对本发明作进一步的详细说明。

实施例1

本发明按下述步骤进行自然语言推理：

(一)、句子相关知识的收集和表示

使用“WordNet”和“Wikidata”作为知识库1，其库中的每个知识都表示为一个三元组u＝(head(h)，relation(r)，tail(t))，其中h和t是实体，而r则是这两个实体之间的关系。以“快乐”的反义词“悲伤”为例，假设l_p和l_h分别为前提和假设的长度，将输入的前提定义为假设为其中x_i表示前提中的第i个词，y_j表示假设中的第j个词。对前提中的每个词x_i来说，如果x_i和假设中的词y属于知识库中的同一个三元组(u＝(x_i,r,y))，则视这个元组为与句子相关的一条知识。收集的与词x_i相关的知识表示为U_i＝{u₁,u₂,…,u_n}。同样的过程对假设句中的每个词都执行一遍。

使用由前提句向量表示31、假设句向量表示32和句子间信息交互33组成的卷积神经网络3学习收集的知识U_i的向量表示并记为K_i，使用“TransE”算法对三元组中的实体和关系进行编码表示。将元组u＝(h，r，t)编码为向量v_u，对h，r和t的向量表示取平均操作，得到维数为d的元组向量表示，收集的n个三元组被表示为：其中，为向量加操作，然后将v_1:n作为输入，使用一个简单的“CNN”对其进行编码得到d维的向量K_i，卷及操作中将过滤器的维度为h×d，一个过滤器应用在h个三元组窗口上。

(二)、前提句和假设句的编码表示

在自然语言处理领域，为了保存序列信息，前提句向量表示31和假设句向量表示32采用长短时记忆网络“LSTM”对前提X和假设Y进行编码，分别得到基于上、下文的句子向量表示为：H_X和H_Y：

其中，“LSTM”表示“LSTM”单元；x_t和y_t分别为时刻t处的输入；h是单个“LSTM”单元的输出隐藏向量的维度为256，最后一个隐藏状态(H_X和H_Y)为整个句子的表示。

上述为基于长短时记忆网络的编码，为了让模型更好地理解句子的信息，采用知识吸收门2丰富句子的表达，在获得第i个词的向下文向量表示h之后，利用所收集的知识在重建该表示。由于收集的知识并非都是有效的，本发明设计了一个基于当前上、下文情况动态的决定知识吸收多少的知识吸收门2，其表示为G＝{g_i}(i＝1,2,…)的上、下文感知的集合。句子中第i个词所对应的知识吸收门2表示为：g_i＝σ(h_i,K_i)。其中，K_i为编码得到的知识；σ(·)为sigmoid函数；g_i为一个反应每个维度上知识相关度的向量。结合原始上、下文的表示h_i和得到知识的表示K_j，得到知识丰富化的上下文表示为：h′_i＝(1-g_i)⊙h_i+g_i⊙K_i，其中，⊙为向量乘操作，最终得到带知识的句子表示H_X和H_Y。

(三)、信息交互

句子间信息交互33将编码后的知识融入前提句和假设句的向量表示中得到知识丰富的句子表示，然后进行句子的交叉阅读以得到前提句和假设句的初步信息交互。人在评判两个句子之间的关系时，首先阅读前提，然后脑海中带着前提句中包含的信息去阅读假设句，为了实现这样的过程，将上述步骤(二)中得到带知识的假设句表示H_Y输入一个利用H_X向量进行初始化的“LSTM”中得到带前提的假设句表示H′_Y，利用类似的操作得到带假设信息的前提表示H′_X，这个过程可以公式化为：H′_y,_＝LSTM(H_X)。其中，H′_y为经过交叉阅读后的假设句表示。使用注意力机制来实现表示H′_X与表示H′_Y之间的软对齐，得到句子关键信息强化的句子表示，最终得到假设感知的前提表示和前提感知的假设表示

本发明将三种匹配操作应用于前提句和假设句的表示：(i)向量拼接(ii)向量相减(iii)向量乘积，然后拼接这三个匹配后得到的向量得到组合向量。最终被知识丰富化的组合向量定义为：

其中，H_X和H_Y为一般的句子表示，和为带知识的向量进行交互后的句子表示，∑_X gK和∑_Y gK为所有的收集的知识表示。

(四)语义推理及预测语义关系预测4将交叉阅读得到前提句和假设句的初步交互信息，对自然语言所表达的信息进行推理，并对两句子之间的语义关系进行预测。为了预测前提和假设之间的语义关系，将组合向量m_X和m_Y输入到一个新的“LSTM”层，以将包含在组合向量中的信息聚合得到最终的预测向量和然后对预测向量进行最大池化和平均池化操作：最终将经过池化后的向量拼接在一起输入一个多层感知机进行三分类。该多层感知机为一个带有“Tanh”激活函数和“softmax”层的网络，整个模型通过最小化交叉熵损失进行端对端训练。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种自然语言推理的神经网络架构，其特征在于采用知识库、知识吸收门和语义关系预测架构的卷积神经网络系统，所述知识库采用“WordNet”和“Wikidata”知库，其库中的每个知识均以u＝(head(h)，relation(r)，tail(t))的三元组表示；其中，h和t是实体；r则是这两个实体之间的关系；所述知识吸收门表示为G＝{g_i}(i＝1,2,…)的上、下文感知的集合；所述卷积神经网络由前提句向量表示、假设句向量表示和句子间信息交互组成；所述前提句向量表示和假设句向量表示采用长短时记忆网络“LSTM”对前提X和假设Y进行编码，分别得到基于上、下文的句子向量表示；所述句子间信息交互为编码后的知识融入前提句和假设句的向量表示中进行句子间的信息交互；所述语义关系预测基于句子交互后的信息对自然语言所表达的信息进行推理，并对两句子之间的语义关系进行预测。