CN109840322B

CN109840322B - 一种基于强化学习的完形填空型阅读理解分析模型及方法

Info

Publication number: CN109840322B
Application number: CN201811323919.9A
Authority: CN
Inventors: 陈庆; 卓汉逵
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2023-06-20
Anticipated expiration: 2038-11-08
Also published as: CN109840322A

Abstract

本发明公开了一种基于强化学习的完形填空型阅读理解分析模型及方法，该模型包括：编码层，将原始文本的单词进行向量化，对单词进行编码，取各句子最后一个单词的隐向量输出作为句子向量，将文本编码成句子向量的序列传递给语句抽取层；语句抽取层，对句子向量选择，将得到的句子作为当前给定文段，对其进行编码；分类层，把每个待填的空位视为一问题，将得到的文段编码和四个候选单词的词向量作为输入，通过多特征分类网络进行计算输出概率；预测层，将上层得到的概率值与语言模型的概率值归一化，得到最终四个选项的概率；输出层，计算上一层得到的概率与实际概率的交叉熵并优化分类网络，将损失值作为延迟奖励对网络进行参数更新。

Description

一种基于强化学习的完形填空型阅读理解分析模型及方法

技术领域

本发明涉及机器学习技术领域，特别是涉及一种基于强化学习的完形填空型阅读理解分析模型及方法。

背景技术

完形填空型的阅读理解任务近年来是用来衡量机器阅读能力的重要指标性任务之一。与常见的问答型机器任务不同，完形填空型的阅读理解任务无法直接从给定文本中提取答案，而只能从备选选项中选择答案，因此诸如交融网络等多种目前常用的机器阅读的模型无法直接应用于该问题并取得较好的效果。目前最热门的完形填空数据集是CLOTH数据集。

目前常用来解决此类问题的技术主要是语言模型和注意力机制。语言模型通过在极大的语料集上使用深度网络进行训练，从而挖掘文本中的语法等信息，在完形填空任务中通过空格处出现的单词的概率高低来选择可能的答案。虽然语言模型通过极大的语料集的长时间训练能够获得大部分语法和固定搭配使用的信息，因此在完形填空中语法和搭配的部分能够取得较理想的效果，但对于需要上下文推导才能得出答案的空格就无能为力，几乎等同于随机猜测甚至得到更差的效果。而注意力机制主要是对于每个问题只关注给定文段的一部分内容，从而在一定程度上解决长距离依赖和上下文推导的问题。然而注意力机制实质上是根据文本的相似性来进行注意力的匹配，因此只能给与问题空格周围相似的文本更高的权重，而不能从语义推导的角度来解决这个问题，因此即使应用了注意力机制能使需要语义推导的空格得到高于随机猜测的准确率，但其表现仍然处于一个很低的水平。如下表1的例子中，需要从后文的语义中才能推导出警察局这个答案，而目前的方法难以解决这种推导型的问题。

表1

目前常用于完形填空问题的方法是MPNet(Multi-Perspective ContextAggregation Network)，它是一种结合了语言模型和注意力机制的混合模型，该方法提出可以通过使用多个子网络提取文本特征，并使用指针网络来计算各个选项的概率，从而把完形填空问题转化成一个四分类问题。

MPNet方法的目的是对文本进行特征抽取并将问题转化成一个四分类问题，通过将网络的预测概率和语言模型的预测概率结合来预测所需的结果。它首先使用Bi-GRU模型将文本单词进行编码，将每个单词映射到一个向量空间H。然后通过直接选取空格向量、基于注意力机制的阅读器、迭代卷积、n步统计四种方法构建子网络分别对文本进行特征抽取，得到四个特征向量P1，P2，P3，P4并将四个特征向量拼接后经由指针网络计算出四个选项的概率分布。最后将概率与语言模型的概率进行相加，并将该概率分布与实际概率分布的交叉熵作为模型的损失函数进行训练。

然而，MPNet方法仍存在如下缺陷：

1、现有方法对于长距离依赖，因果推导和语义推导的效果皆不好，很大的一个原因是现有的模型关注的是整个文本，即使使用注意力机制也难以关注到重要的文本，许多无关文本的干扰必然会冲淡重要文本的信息，更可能对结果的判断产生干扰，因此难以推导出一个正确的结果。

2、现有方法的每一个特征提取子网络都需要计算整个文段的文本，然而文段中与该空相关联的文本信息可能只有很少，因此这种方法是很浪费时间和计算资源的，也正因为这个缺点，整个模型的计算效率是比较低的。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于强化学习的完形填空型阅读理解分析模型及方法，以提高预测准确率和高效性，克服现有技术计算复杂度高，计算效率低且在推导类问题上准确率低的问题。

为达上述及其它目的，本发明提出一种基于强化学习的完形填空型阅读理解分析模型，包括：

编码层，用于将原始文本的单词进行向量化，然后对单词进行编码，取每个句子最后一个单词的隐向量输出作为句子向量，从而将文本编码成一个句子向量的序列，并将此句子向量的序列传递给语句抽取层；

语句抽取层，用于利用语句向量抽取网络对句子向量进行选择，只对一部分的句子进行保留，将得到的句子作为当前新的给定文段，并对获得的文段进行编码；

分类层，用于把每一个待填的空位视为一个问题，将上一层得到的文段编码和四个候选单词的词向量作为输入，通过多特征分类网络进行计算，输出四个选项各自的概率；

预测层，用于将所述分类层得到的概率值与语言模型的概率值[p_lA,p_lB,p_lC,p_lD]相加并进行归一化，得到最终四个选项的概率输出；

输出层，用于计算所述预测层得到的概率与实际概率间的交叉熵，并通过最小化交叉熵优化分类模型，并将损失值作为延迟奖励提供给所述语句向量抽取网络和多特征分类网络进行参数更新。

优选地，所述编码层采用Glove-300d向量进行向量化，然后通过使用BiGRU模型对单词进行编码，取每个句子最后一个单词的隐向量输出作为句子向量，从而将文本编码成一个句子向量的序列[S₁,S₂,...,S_n]，并将此句子向量的序列传递给所述语句抽取层。

优选地，所述语句抽取层用于对完形填空需要填写的每个空格，使用强化学习的方法从文段中抽取有用的句子组成子文段，从而减少无关信息的干扰并减少分类层的计算量。

优选地，在所述语句向量抽取网络中，动作的集合包含1和0两种，1表示选择该句子，0表示不选择，动作集合如下：

A＝{1,0}

所述语句向量抽取网络设定当前状态S由三部分组成，分别为

1)已选择的句子构成的上文向量，记为c_t-1；

2)下一个待选择的句子向量,记为S_t；

3)当前处理的空格对应的4个候选单词的词向量,记为e_i，i∈[1,4]；

当前状态下采取不同动作的概率由策略函数π(α_t|s_t；θ)决定,所述策略函数的具体定义如下述公式所示，其中s_t为当前状态[c_t-1；S_t；e₁；e₂；e₃；e₄]

π(α_t|s_t；θ)＝σ(W*s_t+b)

其中，a_t为策略函数的输出，表示选择的动作，θ＝{W,b}，W、b为待训练的参数。

优选地，所述语句向量抽取网络的训练方法如下：对于每一个问题，都对文段进行多次重复采样，将采样得到的句子通过BiGRU网络编码成段落级别的向量，通过所述多特征分类网络得到最后的概率结果P(yX)，并计算出对应的损失函数Loss，利用损失函数Loss的值，使用梯度下降的方法来更新所述语句向量抽取网络的参数。

优选地，所述多特征分类网络的输入是所述语句向量抽取网络输出的经过BiGRU编码的子文段和四个候选单词的词向量，通过几种不同的特征抽取方法分别得到不同的特征向量P₁,P₂,...,P_n，最后将各个特征向量进行拼接并输入指针网络，从而得到四个概率值，分别表示四个候选词是正确答案的概率。

优选地，所述多特征分类网络采用如下方式提取特征向量：

1)直接使用空格处编码时的隐向量；

2)使用斯坦福注意力阅读器的方法，计算每个候选词和子段落文本的注意力值，并计算出与每个候选词相关的文段表示向量p；

3)使用CNN对子文段文本进行卷积，得到卷积后的特征向量。

优选地，所述多特征分类网络在得到四个输出概率值后，再经由预测层和输出层后得到交叉熵作为损失函数，记为Loss，通过最小化损失函数Loss训练所述多特征分类网络，并将损失函数Loss作为延迟奖励传递给所述语句向量抽取网络。

为达到上述目的，本发明还提供一种基于强化学习的完形填空型阅读理解分析方法，包括如下步骤：

步骤S1，将原始文本的单词进行向量化，然后对单词进行编码，取每个句子最后一个单词的隐向量输出作为句子向量，从而将文本编码成一个句子向量的序列[S₁,S₂,...,S_n]，并将此句子向量的序列传递给语句抽取层；

步骤S2，利用语句向量抽取网络对句子向量进行选择，只对一部分的句子进行保留，将得到的句子作为当前新的给定文段，并对获得的文段进行编码；

步骤S3，把每一个待填的空位视为一个问题，将上一层得到的文段编码和四个候选单词的词向量作为输入，通过多特征分类网络进行计算，输出四个选项各自的概率[p_A,p_B,p_C,p_D]；

步骤S4，将所述分类层得到的概率值与语言模型的概率值[pl_A,p_lB,p_lC,p_lD]相加并进行归一化，得到最终四个选项的概率输出；

步骤S5，计算所述预测层得到的概率与实际概率间的交叉熵，并通过最小化交叉熵优化分类模型，并将损失值作为延迟奖励提供给所述语句向量抽取网络和多特征分类网络进行参数更新。

优选地，于步骤S2中，所述语句向量抽取网络的训练方法如下：对于每一个问题，都对文段进行多次重复采样，将采样得到的句子通过BiGRU网络编码成段落级别的向量，通过所述多特征分类网络得到最后的概率结果P(yX)，并计算出对应的损失函数Loss，利用损失函数Loss的值，使用梯度下降的方法来更新所述语句向量抽取网络的参数。

与现有技术相比，本发明一种基于强化学习的完形填空型阅读理解分析模型及方法通过使用强化学习的方法从原始文段中抽取与问题相关的句子组成子文段来计算各个选项的概率，有效地剔除了文段中干扰信息，使分类模型能更集中地从高信息量的句子中提取特征，能够有效地提高模型的准确性。同时由于剔除了文段中大量冗余无用的句子，使得网络的计算量大幅减小，极大地提高了整个模型的计算效率。

附图说明

图1为本发明一种基于强化学习的完形填空型阅读理解分析模型的架构示意图；

图2为本发明具体实施例中Actor-Critic网络的结构示意图；

图3为本发明具体实施例中多特征分类网络的结构示意图；

图4为本发明一种基于强化学习的完形填空型阅读理解分析方法的步骤流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

在介绍本发明之前，先对本发明所涉及的缩略语和关键术语定义如下：

语言模型：语言模型(Language Model)是用来计算一个句子概率的模型，即单词序列的概率P(w₁，w₂，...，w_k)，它被广泛应用于机器阅读、机器翻译等各种自然语言处理问题上。利用语言模型，可以确定哪种词序出现的可能性更大，或者给定若干个词，可以预测下一个出现给定单词的概率。

强化学习：强化学习(Reinforcement Learning)是机器学习的一个领域，它强调如何基于环境而行动，以取得最大化的预期利益。基本的强化学习模型包括环境状态的集合S，动作的集合A，在状态之间转换的规则，规定转换后即时奖励的规则、描述主题能够观察到什么的规则等五个主要部分，通过在不同环境下选择不同的动作，使得总奖励最大化，从而得到一个近似最优的动作序列。

深度学习：深度学习(Deep Learning)是机器学习的一个分支，是一种视图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。目前深度学习常用的网络结构有递归神经网络，循环神经网络，卷积神经网络，对抗生成网路等多种深度网络模型，这些网络模型被广泛地用来解决自然语言处理，计算机视觉，自动驾驶等多种人工智能问题。

注意力机制：注意力机制(Attention Mechanism)最初是用在计算机视觉领域的一种技巧，通过给予部分像素点更高的权重值来使模型更关注这部分重要像素，而后迁移到自然语言领域并已广泛地用于处理各种自然语言领域的研究问题。目前主要通过文本向量的相似度为文本的每个单词计算重要性权重并给予重要的部分文本更高的权重，从而使模型更关注这部分重要文本的信息。

指针网络：指针网络(Pointer Network)是今年来常用于机器阅读任务的一种神经网络，它通过使用类似于注意力机制的权值计算方式，通过输入特征计算每个输出的概率分布，从而得到每个选项的概率。

图1为本发明一种基于强化学习的完形填空型阅读理解分析模型的架构示意图。如图1所示，本发明一种基于强化学习的完形填空型阅读理解分析模型，包括：

编码层10，用于将原始文本的单词进行向量化，然后对单词进行编码，取每个句子最后一个单词的隐向量输出作为句子向量，从而将文本编码成一个句子向量的序列[S₁,S₂,...,S_n]，并将此句子向量的序列传递给语句抽取层。在本发明具体实施例中，编码层10使用Glove-300d向量进行向量化，然后通过使用BiGRU模型对单词进行编码，取每个句子最后一个单词的隐向量输出作为句子向量，从而将文本编码成一个句子向量的序列[S₁,S₂,...,S_n]，并将此句子向量的序列传递给语句抽取层20。

语句抽取层20，用于利用语句向量抽取网络(Actor)对句子向量进行选择，只对一部分的句子进行保留，将得到的句子作为当前新的给定文段，并通过使用BiGRU模型对文段进行编码。

分类层30，用于把每一个待填的空位视为一个问题，将上一层得到的文段编码和四个候选单词的词向量作为输入，通过多特征分类网络(Critic)进行计算，输出四个选项各自的概率[p_A，p_B，p_C，p_D]。

预测层40，用于将分类层30得到的概率值与语言模型的概率值[p_lA，p_lB，p_lC，p_lD]相加并进行归一化，得到最终四个选项的概率输出，采用如下公式实现：

[p_A′，p_B′，p_C′，p_D′]softmax([p_A+p_lA，p_B+p_lB，p_C+p_lC，p_D+p_lD])

在本发明具体实施例中，预测层40为Softmax层，Softmax函数的计算公式如下：

其中，x_i为数组的第i个值，例如x₀为p_A+p_lA。

输出层50，用于计算得到的概率与实际概率间的交叉熵，并通过最小化交叉熵优化分类模型，并将损失值作为延迟奖励提供给Actor-Critic网络进行参数更新。具体地，交叉熵定义如下：

其中p(x_i)为第i个选项的实际概率，q(x_i)为第i个选项的计算概率。

在本发明中，核心为其中的Actor-Critic网络部分，其包含了两个最关键的组件，分别是作为Actor网络的语句抽取网络和作为Critic网络的多特征分类网络。具体地，如图2所示，所述Actor-Critic网络包括：

1、语句向量抽取网络(Actor)

Actor-Critic网络的核心思想是对于完形填空需要填写的每个空格，都使用强化学习的方法从文段中抽取有用的句子组成子文段，从而减少无关信息的干扰并减少多特征分类网络的计算量，从而提高计算效率。因此语句向量抽取网络(Actor)的目的是找到一个最有效的句子抽取策略使得分类模型即分类层的准确率和效率得到提高。

在Actor网络中，动作的集合包含1和0两种，1表示选择该句子，0表示不选择，动作集合如下：

A＝{1，0}

在Actor网络中，设定当前状态S由三部分组成，分别是：

1)已选择的句子构成的上文向量，记为c_t-1；

2)下一个待选择的句子向量，记为S_t；

3)当前处理的空格对应的4个候选单词的词向量，记为e_i，i∈[1,4]；

当前状态下采取不同动作的概率由策略函数π(α_ts_t；θ)决定，策略函数有很多种设置方法，在本发明中使用线性计算的策略函数，其中s_t为当前状态[c_t-1；S_t；e₁；e₂；e₃；e₄]，

π(α_t|s_t；θ)＝σ(W*s_t+b)

训练此Actor网络的具体方法是对于每一个问题，都对文段进行多次重复采样，将采样得到的句子通过BiGRU网络编码成段落级别的向量，然后通过分类网络得到最后的概率结果P(y|X)，并计算出对应的损失函数Loss，就可以利用损失函数Loss的值，使用梯度下降的方法来更新语句向量抽取网络的参数。

要训练Actor网络，首先需要定义Actor网络的损失函数loss。在每次动作选择时Actor网络都会计算出两个动作选择的概率[p,1-p]，在计算loss时，假定正确的选择是应该选择另一个动作，即如果网络选择了第一个动作，则假定正确的动作分布应该是[0,1]，从而得到两者的交叉熵，记为loss。在对loss进行梯度下降时，使用Critic网络的Loss的表达式作为学习率。

梯度计算和梯度下降的公式如下所示：

θ＝θ+grad*expr(Loss)

2、多特征分类网络(Critic网络)

多特征分类网络的输入是语句抽取层20的语句向量抽取网络(Actor)输出的经过BiGRU编码的子文段和四个候选单词的词向量，通过几种不同的特征抽取方法(M₁,M₂,...M_t)分别得到不同的特征向量P₁,P₂,...,P_n，最后将各个特征向量进行拼接并输入指针网络，从而得到四个概率值，分别表示四个候选词是正确答案的概率，如图3所示。

在本发明中，可采用如下方式提取特征向量：

1)直接使用空格处编码时的隐向量；

2)使用斯坦福注意力阅读器的方法，计算每个候选词和子段落文本的注意力值，并计算出与每个候选词相关的文段表示向量p，计算方法如下：

其中u为一个候选词向量，W_ar与b_ar为待训练的参数，h_i为子文段的第i个单词的词向量，a_i为子文段第i个单词获得的注意力权值，p_ar为子文段的每个单词词向量的加权和，表示对应了该候选词的一个特征向量。每个候选词都会计算出这么一个特征向量p_ar。

3)使用CNN对子文段文本进行卷积，得到卷积后的特征向量

在得到四个输出概率值后，再经由Softmax层40和输出层50后得到交叉熵作为损失函数，记为Loss，通过最小化Loss训练Critic网络，并将Loss作为延迟奖励传递给Actor网络。

图4为本发明一种基于强化学习的完形填空型阅读理解分析方法的步骤流程图。如图4所示，本发明一种基于强化学习的完形填空型阅读理解分析方法，包括如下步骤：

步骤S1，将原始文本的单词进行向量化，然后对单词进行编码，取每个句子最后一个单词的隐向量输出作为句子向量，从而将文本编码成一个句子向量的序列[S₁，S₂，...，S_n]，并将此句子向量的序列传递给语句抽取层。在本发明具体实施例中，使用Glove-300d向量进行向量化，然后通过使用BiGRU模型对单词进行编码，取每个句子最后一个单词的隐向量输出作为句子向量，从而将文本编码成一个句子向量的序列[S₁，S₂，...，S_n]，并将此句子向量的序列传递给语句抽取层。

步骤S2，利用语句向量抽取网络(Actor)对句子向量进行选择，只对一部分的句子进行保留，将得到的句子作为当前新的给定文段，并通过使用BiGRU模型对文段进行编码。

步骤S3，把每一个待填的空位视为一个问题，将上一层得到的文段编码和四个候选单词的词向量作为输入，通过多特征分类网络(Critic)进行计算，输出四个选项各自的概率[p_A，p_B，p_C，p_D]。

步骤S4，将步骤S3得到的概率值与语言模型的概率值[p_lA，p_lB，p_lC，p_lD]相加并使用预测层进行归一化，得到最终四个选项的概率输出：

[p_A′，p_B′，p_C′，p_D′]＝softmax([p_A+p_lA，p_B+p_lB，p_C+p_lC，p_D+p_lD])

步骤S5，计算得到的概率与实际概率间的交叉熵，并通过最小化交叉熵优化分类模型，并将损失值作为延迟奖励提供给Actor-Critic网络进行参数更新。交叉熵定义如下：

综上所述，本发明一种基于强化学习的完形填空型阅读理解分析模型及方法通过使用强化学习的方法从原始文段中抽取与问题相关的句子组成子文段来计算各个选项的概率，有效地剔除了文段中干扰信息，使分类模型能更集中地从高信息量的句子中提取特征，能够有效地提高模型的准确性。同时由于剔除了文段中大量冗余无用的句子，使得网络的计算量大幅减小，极大地提高了整个模型的计算效率。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于强化学习的完形填空型阅读理解分析模型，包括：

输出层，用于计算所述预测层得到的概率与实际概率间的交叉熵，并通过最小化交叉熵优化分类模型，并将损失值作为延迟奖励提供给所述语句向量抽取网络和多特征分类网络进行参数更新；

所述语句抽取层用于对完形填空需要填写的每个空格，使用强化学习的方法从文段中抽取有用的句子组成子文段，从而减少无关信息的干扰并减少分类层的计算量；

在所述语句向量抽取网络中，动作的集合包含1和0两种，1表示选择该句子，0表示不选择，动作集合如下：

A＝{1,0}

所述语句向量抽取网络设定当前状态S由三部分组成，分别为

1)已选择的句子构成的上文向量，记为c_t-1；

2)下一个待选择的句子向量,记为S_t；

π(α_t|s_t；θ)＝σ(W*s_t+b)

其中，a_t为策略函数的输出，表示选择的动作，θ＝{W,b}，W、b为待训练的参数；

所述语句向量抽取网络的训练方法如下：对于每一个问题，都对文段进行多次重复采样，将采样得到的句子通过BiGRU网络编码成段落级别的向量，通过所述多特征分类网络得到最后的概率结果P(yX)，并计算出对应的损失函数Loss，利用损失函数Loss的值，使用梯度下降的方法来更新所述语句向量抽取网络的参数。

2.如权利要求1所述的一种基于强化学习的完形填空型阅读理解分析模型，其特征在于：所述编码层采用Glove-300d向量进行向量化，然后通过使用BiGRU模型对单词进行编码，取每个句子最后一个单词的隐向量输出作为句子向量，从而将文本编码成一个句子向量的序列[S₁,S₂,...,S_n]，并将此句子向量的序列传递给所述语句抽取层。

3.如权利要求1所述的一种基于强化学习的完形填空型阅读理解分析模型，其特征在于：所述多特征分类网络的输入是所述语句向量抽取网络输出的经过BiGRU编码的子文段和四个候选单词的词向量，通过几种不同的特征抽取方法分别得到不同的特征向量P₁,P₂,...,P_n，最后将各个特征向量进行拼接并输入指针网络，从而得到四个概率值，分别表示四个候选词是正确答案的概率。

4.如权利要求3所述的一种基于强化学习的完形填空型阅读理解分析模型，其特征在于，所述多特征分类网络采用如下方式提取特征向量：

1)直接使用空格处编码时的隐向量；

3)使用CNN对子文段文本进行卷积，得到卷积后的特征向量。

5.如权利要求4所述的一种基于强化学习的完形填空型阅读理解分析模型，其特征在于：所述多特征分类网络在得到四个输出概率值后，再经由预测层和输出层后得到交叉熵作为损失函数，记为Loss，通过最小化损失函数Loss训练所述多特征分类网络，并将损失函数Loss作为延迟奖励传递给所述语句向量抽取网络。