CN108717574B

CN108717574B - 一种基于连词标记和强化学习的自然语言推理方法

Info

Publication number: CN108717574B
Application number: CN201810252473.9A
Authority: CN
Inventors: 潘博远; 蔡登�; 赵洲; 何晓飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2021-09-21
Anticipated expiration: 2038-03-26
Also published as: CN108717574A

Abstract

本发明提供了一种基于连词标记和强化学习的自然语言推理方法，包括以下步骤：(1)在连词预测任务上训练一个连词预测模型；(2)在自然语言推理模型中，输入前提和猜想文本并使用编码器对其编码，得到表达矩阵；(3)将连词预测模型的编码器嵌入到自然语言推理模型中，将步骤(2)编码过程中得到的前提和猜想的词向量送入预训练好的编码器并输出表达向量；(4)将自然语言推理模型的编码器和嵌入的连词预测模型中的编码器在注意力机制中交互，得到一个注意力向量；(5)将注意力向量转化为概率分布并输出结果。利用本发明，通过迁移其他监督学习任务所学到的知识，大大提升了在大规模数据集上进行自然语言推理任务的准确率。

Description

一种基于连词标记和强化学习的自然语言推理方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于连词标记和强化学习的自然语言推理方法。

背景技术

一直以来，自然语言推理问题都是自然语言处理中最为热门和棘手的问题之一。在目前最热门的任务中，都是给定两个句子(前提句，猜想句)，我们需要去判断这两个句子的逻辑关系是蕴涵、中立或矛盾。一个高效的自然语言推理模型可以在以语义理解为基础的众多领域得到广泛应用，如对话机器人，问答系统和文本生成系统等。

早期的自然语言推理任务都是基于小数据集的，所用的方法也都是传统的方法如自然逻辑法和阴影法等。这样的数据集无法支持拥有大规模参数的复杂模型。最近，斯坦福公布了一个大规模的高质量自然语言推理数据集，这激起了学术界和工业界很多优秀方法的涌现。比如2018年发表在国际顶级机器学习理论会议International Conference onLearning Representations上的《Natural Language Inference Over InteractionSpace》在第4页到第6页公布了一种称为DIIN的注意力机制交互算法；2017年发表在国际顶级人工智能会议International Joint Conference on Artificial Intelligence上的《Bilateral Multi-perspective Matching for Natural Language Sentences》在第2页到第4页公布了一种双边多角度句子匹配算法(BIMPM)。这些方法大部分致力于改进两句之间的交互框架，也有少数借用迁移学习来提升任务的准确率，如2017年发表在国际顶级计算神经理论会议Annual Conference on Neural Information Processing Systems上的《Learned in Translation:Contextualized Word Vectors》在第3页到第4页公布了Biattentive Classification Network,其运用机器翻译训练出来的隐藏单元来增强语意推理的能力。

连词运用一直是自然语言理解的一个核心问题之一，类似于“但是”、“所以”这样的连词连接的两个句子大概率包含了某种特定的逻辑关系。比如“但是”就与自然语言推理中的“矛盾”是相通的，“所以”就与“蕴涵”是相通的，等等。之前有相关技术将连词迁移到其他任务上，并且取得了可观的效果。然而，这些技术都是直接用一个向量来表达整个句子的信息然后交互得到逻辑关系的概率分布。这种方法过于简单，无法在大规模数据集上取得很好的效果。

发明内容

本发明提供了一种基于连词标记和强化学习的自然语言推理方法。通过连词标记来学习句子之间的逻辑关系并用强化学习来优化模型，大大提升了在大规模数据集上进行自然语言推理任务的准确率。

一种基于连词标记和强化学习的自然语言推理方法，包括以下步骤：

(1)在连词预测任务上训练一个连词预测模型；

(2)在自然语言推理模型中，输入前提句和猜想句并使用一个编码器对其编码，得到表达矩阵；

(3)将连词预测模型的编码器嵌入到自然语言推理模型中，将步骤(2)过程中的前提句和猜想句送进嵌入的编码器并输出表达向量；

(4)将自然语言推理模型的编码器结果和嵌入的连词预测模型中的编码器结果在注意力机制中交互，得到一个注意力向量；

(5)将注意力向量转化为概率分布并输出结果。

本发明可以在给定一个前提句，一个猜想句的情况下推断出这两个句子的逻辑关系是(蕴涵，中立，矛盾)中的一种。

步骤(1)的具体步骤为：

(1-1)对BookCorpus数据集进行预处理，得到连词预测任务的训练集；

(1-2)从训练集中选择样本，用词向量Glove来对句子做词嵌入，之后送入一个编码器中，得到每个句子的最终表达向量；

(1-3)用一个线性运算来将两个句子的表达向量整合；

(1-4)将整合后的向量通过线性变换投射到连词的种类的向量上并用softmax函数计算出每个连词的概率分布，通过最大化真实连词标签的概率分布来优化整个模型。

步骤(2)中，所述编码的具体步骤为：

(2-1)使用词向量Glove对输入的前提句和猜想句进行词向量嵌入；

(2-2)用卷积神经网络进行字母的字符嵌入以处理特殊单词；

(2-3)使用词性标注和实体命名识别来对每个单词进行处理；

(2-4)使用双向长短时记忆网络来编码文本信息，得到前提句和猜想句的表达矩阵。

步骤(4)的具体步骤为：

(4-1)计算前提和猜想文本中每个单词与对方单词的交互作用大小，得到一个相似矩阵；所述相似矩阵的计算公式为：

A_ij＝v₁[p_i；u_j；p_i*u_j]+r_pWr_h

其中，p_i是前提P的第i个词，u_j是假设H的第j个词，v和W都是训练参数；r_p和r_h分别是在步骤1中训练的编码器在步骤3中载入前提和假设后得到的表达向量。

(4-2)将已交互作用后的相似矩阵和通过编码器得到的表达向量在注意力机制下形成注意力向量。

步骤(5)的具体步骤为：

(5-1)将注意力向量整合并用线性函数和softmax函数来映射到一个三维空间，通过极大似然估计来最大化正确标签的概率分布；三维向量的计算公式为：

d＝softmax(v₄[p；u；p*u；r_p*r_h])

其中，p和u分别是前提句和假设句的注意力向量。值得注意的是，上面等式最右边加入了连词标记的表达式，与自然语言推理的结果融合在一起来作为整体的表达。

(5-2)设计一个奖励函数，用强化学习来优化模型参数；所述的奖励函数是：

其中，l为预测的标签，{l′}为该训练样本给出的正确标签集合。

(5-3)通过一个线性方程来整合强化学习的优化函数和极大似然估计的优化函数，形成最终的优化目标函数。

本发明基于连词标记和强化学习具有以下优点：

1、本发明使用迁移学习将其他监督学习任务中所学的知识转移到了自然语言推理任务当中，提高了自然语言推理任务的准确率。

2、本发明实现了端到端地解决问题。

3、本发明充分利用了现有自然语言推理数据集的信息，更加贴近地模拟人类的决策。

附图说明

图1为本发明基于连词标记和强化学习的自然语言推理方法的流程示意图；

图2为本发明实施例的整体结构示意图；

图3为本发明实施例不同连词对于不同类型逻辑关系标签的影响示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好的理解本发明。

如图1所示，一种基于连词标记和强化学习的自然语言推理方法，包括以下步骤：

S01，在连词预测任务上训练一个简单的连词预测模型。我们使用BookCorpus这个大规模综合语料库作为训练集，经过预处理后的数据集呈(句子1，句子2，连词标记)的形式。我们的任务是给定句子1和句子2来预测原本在语料库中用来连接它们的连词。如图2所示，在进行连词预测任务时，我们用现有的词向量Glove来对句子做词嵌入，之后送入一个双向长短时记忆网络(编码器)中。我们把每个隐藏单元都并排连在一起，并用最大池化将每个维度的最大元素提取出来组成该方向整个句子的表达。我们将每个方向的最后一个隐藏单元和上面最大池化层后得到的向量拼在一起，得到每个句子的最终表达向量。随后，我们用一个线性运算来讲两个句子的表示向量整合。

最终，我们用一个线性变换将整合后的向量r投射到一个标签数量大小(数据集中连词的种类)的向量上并用softmax函数计算出每个连词的概率分布。

S02，在自然语言推理任务中，载入前提和猜想文本并使用编码器对其编码。类似于步骤1，我们首先将输入的文本信息进行编码。我们首先使用Glove进行词向量嵌入，然后用卷积神经网络进行字母的词嵌入以处理特殊单词。为了获得单词的语法和语义信息，我们使用词性标注和实体命名识别来对每个单词进行处理。我们也使用双向长短时记忆网络来编码文本信息，得到前提和猜想的表达矩阵。

S03，将步骤1中训练好的连词预测模型的编码器嵌入到自然语言推理模型中。如图2所示，我们将前提和猜想的词向量送入预训练好的编码器并输出表达向量。

S04，将自然语言推理模型的编码器和嵌入的连词预测模型中的编码器交互，得到一个注意力向量：

A_ij＝v₁[p_i；u_j；p_i*u_j]+r_pWr_h

其中，p_i是前提P的第i个词，u_j是假设(猜想)H的第j个词，v和W都是训练参数；r_p和r_h分别是在步骤1中训练的编码器在步骤3中载入前提和假设后得到的表达向量。A_ij是一个相似矩阵，表示两句话中每个单词与对方单词的交互作用大小。接着我们引用注意力机制来增强文本理解，也就是将已交互作用后的矩阵和向量在注意力机制下形成注意力向量。

S05，将注意力向量转化为概率分布并输出结果。由于本任务是一个三元分类问题，所以我们的输出层也将是一个三维的向量。我们将之前的注意力向量整合并用线性函数和softmax函数来映射到一个三维空间：

d＝softmax(v₄[p；u；p*u；r_p*r_h])

其中，p和u分别是前提和假设的注意力向量。值得注意的是，上面等式最右边加入了连词标记的表达式，与自然语言推理的结果融合在一起来作为整体的表达。

大部分自然语言推理方法的目标函数都是最小化负的交叉熵：

其中，d_k是第k个样本，N为数据集中总样本数。除此之外，我们的方法还根据数据集的特点增添了对每个样本的所有其他标签的考虑。在我们的训练集中，每个样本(句子对和其逻辑关系)中的标签(逻辑关系)都是由一个至多个人工标注的，所以有很多样本的标签是不统一的。虽然最终数据集会对每个样本赋予一个唯一的标签，但这些人工的思考结果也是值得借鉴的信息。我们使用强化学习来优化一个我们设定的奖励函数的期望：

J_RL＝-E_{l～pi(l|P,H)}[R(l,{l′})]

其中，l为预测的标签，{l′}为该训练样本给出的正确标签集合，pi(l|P,H)为给定前提和假设后得到的预测结果为l的概率，奖励函数R(l,{l′})的公式为：

这表示我们预测的标签在每个样本的所有标签中的比例。哪怕不等于最终总结的唯一标签，也不一定等于零。我们将两种损失函数用一个线性函数结合起来。

为验证本发明的有效性，在斯坦福自然语言推理数据集(SNLI)和多类别自然语言推理数据集(MultiNLI)这两个数据集上进行了对比实验。斯坦福自然语言推理数据集(SNLI)是斯坦福大学公开的自然语言推理数据集，包括了训练集和测试集中的57万个句子对；多类别自然语言推理数据集(MultiNLI)是纽约大学公开的自然语言推理数据集，包含了43万个句子对。同时，我们使用BookCorpus作为预训练编码器所用的数据集。

本实施例在测试集上与当前效果最好的已发表方法都进行了比较。在表1中，最上面的一栏是以整句为单位来做嵌入的模型，相对较为简单但效果并不好；中间一栏是以词为单位的来做嵌入的模型，这类方法更为细致，为当前最好的模型；最下面一栏是集成模型(Ensemble)。看出，我们无论是在单模型还是在集成模型的比较中都取得了最好的效果，我们的方法(DMAN)相比于其他方法具有更高的准确率，并且在所有的数据集上都达到了目前的最高水平。

表1

表2是我们使用的英文数据集BookCorpus中的连词标记统计结果，其中可以看到“但是”(but)和“所以”(so)等带有强烈逻辑暗示的连词占据主导。这也反映了以连词预测任务为编码器预训练的目标是一个十分直观且有意义的做法。

表2

我们还展示了不同连词对于不同类型逻辑关系标签的影响，如图3所示，某些特殊的连词如“但是(but)”、“因为(because)”、“即使(although)”对结果的影响非常大。并且由于训练集中连词数量分布不均匀，我们的连词标签增强方法对“矛盾”这个逻辑关系的准确率提升最大。

Claims

1.一种基于连词标记和强化学习的自然语言推理方法，其特征在于，包括以下步骤：

(1)在连词预测任务上训练一个连词预测模型；

(5)将注意力向量转化为概率分布并输出结果。

2.根据权利要求1所述的基于连词标记和强化学习的自然语言推理方法，其特征在于，步骤(1)的具体步骤为：

(1-3)用一个线性运算来将两个句子的表达向量整合；

3.根据权利要求1所述的基于连词标记和强化学习的自然语言推理方法，其特征在于，步骤(2)中，所述编码的具体步骤为：

(2-2)用卷积神经网络进行字母的字符嵌入以处理特殊单词；

(2-3)使用词性标注和实体命名识别来对每个单词进行处理；

4.根据权利要求1所述的基于连词标记和强化学习的自然语言推理方法，其特征在于，步骤(4)的具体步骤为：

(4-1)计算前提句和猜想句中每个单词与对方单词的交互作用大小，得到一个相似矩阵；所述相似矩阵的计算公式为：

A_ij＝v₁[p_i；u_j；p_i*u_j]+r_pWr_h

其中，p_i是前提P的第i个词，u_j是假设H的第j个词，v和W都是训练参数；r_p和r_h分别是在步骤(1)中训练的编码器在步骤(3)中载入前提和假设后得到的表达向量；

5.根据权利要求1所述的基于连词标记和强化学习的自然语言推理方法，其特征在于，步骤(5)的具体步骤为：

(5-1)将注意力向量整合并用线性函数和softmax函数来映射到一个三维空间，通过极大似然估计来最大化正确标签的概率分布；

(5-2)设计一个奖励函数，用强化学习来优化模型参数；

6.根据权利要求5所述的基于连词标记和强化学习的自然语言推理方法，其特征在于，步骤(5-2)中，所述的奖励函数是：

其中，l为预测的标签，{l′}为训练样本给出的正确标签集合。