CN108415977A

CN108415977A - 一个基于深度神经网络及强化学习的生成式机器阅读理解方法

Info

Publication number: CN108415977A
Application number: CN201810131702.1A
Authority: CN
Inventors: 朱国轩; 王家兵
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-17
Anticipated expiration: 2038-02-09
Also published as: CN108415977B

Abstract

本发明公开了一个基于深度神经网络及强化学习的生成式机器阅读理解方法，该方法通过结合注意力机制的深层神经网络来对文本和问题进行编码，形成融合了问题信息的文本向量表示之后，再通过单向LSTM解码器进行解码，逐步生成对应的答案文本。本发明公开的阅读理解方法融合了抽取式模型和生成式模型的优点，采用多任务联合优化的方式进行训练，训练过程中同时还使用了强化学习方法，有利于生成更加准确而流畅的答案文本。

Description

一个基于深度神经网络及强化学习的生成式机器阅读理解方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一个基于深度神经网络及强化学习的生成式机器阅读理解方法。

背景技术

机器阅读理解作为自然语言处理的一个子领域，在近年来受到了极高的关注的同时也取得了长足的发展。更丰富的数据以及更加多样、先进的模型的出现，使得机器能更好地处理自然语言文本输入，并在一定程度上能够就针对输入文本提出的相关问题作出回答。这对于构建更加高级的自然语言处理应用，如自动问答(QA)、对话系统(DialogueSystem)，提供更加智能、高效、个性化的搜索引擎服务，乃至于构建真正的强人工智能，都具有重要的基础意义。

目前，主流的机器阅读理解技术研究大多数基于斯坦福大学发表的SQuAD数据集(Rajpurkar P,Zhang J,Lopyrev K,et al.SQuAD:100,000+Questions for MachineComprehension of Text[C]//Proceedings of the 2016 Conference on EmpiricalMethods in Natural Language Processing,2016:2383–2392)进行，该数据集的特点是问题的标准答案都被设计为文档中的一个片段。因而基于该数据集设计的模型均属于抽取式模型，仅能够完成从原文本中获取关键片段作为答案的任务。而由微软研究院发表的另外一个阅读理解数据集MS MARCO(Nguyen T,Rosenberg M,Song X,et al.MS MARCO:A HumanGenerated MAchine Reading COmprehension Dataset[J].arXiv preprint arXiv:1611.09268,2016)，则要求模型不仅仅能够抽取文本中的关键片段，而是需要通过对文本语义进行一定的归纳，生成符合自然语言形式的答案。显然，生成式模型比起抽取式模型而言，更符合实际应用中的需求。现在对生成式机器阅读模型的研究还较少。论文“ChuanqiT,et al.S-Net:From Answer Extraction to Answer Generation for Machine ReadingComprehension[J].arXiv preprint arXiv:1706.04815,2017”提出的S-NET模型采取了先抽取再合成的方法，能够更好地生成符合自然语言形式的答案，但其抽取方法存在缺点，无法同时利用文本中的多个有效信息片段。而论文“Rajarshee Mitra.An Abstractiveapproach to Question Answering[J].arXiv preprint arXiv:1711.06238,2017”提出的模型则直接采用生成方法，模型更为简化，却又失去了抽取式模型标记突出原文中有效消息的优点。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一个基于深度神经网络及强化学习的生成式机器阅读理解方法，该方法按照编码器-解码器结构设计，其中，编码器部分不进行单独训练，而是通过多任务联合训练的形式，与解码器一同训练；解码器部分采用文本摘要生成方法，在训练阶段，解码器同时生成两个文本序列，并分别采用监督学习及强化学习方法进行训练。

本发明的目的可以通过采取如下技术方案达到：

一个基于深度神经网络及强化学习的生成式机器阅读理解模型，所述方法包括以下步骤：

S1、对文本及问题中的句子进行分词、词性标注、命名实体识别等预处理，将单词映射成词表当中对应的词向量，并与词性及命名实体类型的特征向量拼接在一起，形成文本和问题的初始特征向量表示；

S2、将文本与问题的向量表示分别通过两个多层BiLSTM进行处理，将各层的正向及反向输出全部拼接在一起，从而学习到文本和问题浅层和深层特征表示的组合；

S3、通过文档-问题分层注意力机制将问题的向量表示融合到文本的向量表示当中去，然后再次通过BiLSTM对文本和问题进行编码，形成文本和问题的最终特征向量表示；

S4、通过注意力机制，对问题中各单词的表示进行加权组合，形成一个与问题长度无关的向量。通过该向量与文本的最终向量表示做内积，抽取出文本当中能够用于回答问题的信息片段。再次通过注意力机制，对文本中的这些信息片段进行加权组合，形成一个与文本长度无关的向量，作为解码器的初始隐状态输入。

S5、使用一个单向LSTM作为解码器，并以文本的最终特征向量表示作为其输入序列，按照序列到序列(Seq2Seq)的方式逐个单词地生成对应的答案文本。

进一步地，步骤S1中所述的文本和问题的初始特征向量表示，除了包含词向量和词性、命名实体类型特征向量外，还可以根据实际数据的特点和应用的需要，加入例如文本单词和问题单词的匹配度特征、单词的词频特征等各种特征。

进一步地，步骤S3中所述的通过分层注意力机制进行文本-问题的向量表示融合，在计算各层注意力权重时，所使用的文本和问题向量均为前面产生的所有层次特征向量的拼接，而各层之间使用的注意力函数参数又是独立、各不相同的，所以在进行向量融合时，各层分别按照各自的注意力权重计算结果进行融合。

进一步地，步骤S4中所述的用问题的注意力加权组合向量与文本的最终向量表示做内积，其结果再通过一个softmax函数可转化为一个概率分布。优化该概率分布，使文本中用于回答问题的有效信息片段的概率相应增大，作为模型多任务联合训练的优化目标之一，将与解码器的优化目标相结合，进行共同优化训练。

进一步地，步骤S4所述的单向LSTM解码器，在序列生成的每一步当中，除了利用上一步的隐状态输出之外，还将通过注意力机制，对原文本的最终特征向量表示做加权组合并与上一步的隐状态输出拼接在一起，再经过一个非线性的变换之后，再作为该步的隐状态输入。

进一步地，步骤S5中所述的单向LSTM解码器，在序列生成的每一步当中，如果遇到词表中不存在合适的生成词的情况，还将通过复制机制，从原文本当中选择最合适的词作为该步的生成词。该选择可以通过一个作用于原文本向量表示上的softmax分类器实现。

进一步地，步骤S5中所述的单向LSTM解码器，在训练过程当中，同时生成两个序列。其中一个序列通过强制监督学习进行训练，目的是为了训练解码器能够生成与标准答案一模一样的文本序列。而另外一个序列则通过强化学习方法进行训练，目的是为了训练解码器能够生成与标准答案不完全相同，但又能够正确流畅地回答问题的答案。

本发明相对于现有技术具有如下的优点及效果：

1)本发明公开的阅读理解方法在文本和问题的原始特征表示当中，加入了更多语义特征，有利于提取文本中的关键信息。相对于一般的抽取式方法，本发明的方法不片面强调抽取文本中最能够回答问题某个连续片段，而是同时考虑了所有包含用于回答问题的信息块，以此为目标进行优化，有助于生成聚合多个离散片段信息的回答。

2)另外，通过使用强化学习方法进行训练，使得本发明方法的优化目标更具灵活性，有利于生成符合自然语言规律的正确回答。

3)最后，本发明方法通过将多部分的Loss结合，进行多任务同时优化训练，相对于多阶段训练的方法而言，简化了训练过程。

附图说明

图1是本发明描述的方法流程结构图；其中，

图1(a)是编码器部分的结构图，其中部分输出作为解码器的输入；

图1(b)是解码器部分的结构图，其中包含编码器的部分输出。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例描述了一个基于深度神经网络及强化学习的生成式机器阅读理解模型，其具体实现包括以下步骤：

步骤R1、对文本及问题中的句子进行分词、词性标注、命名实体识别等预处理，将单词映射成词表当中对应的词向量(通常使用GloVe词向量或者再与CoVe词向量相结合)。同时，对每个单词，按照其词性特征与命名实体类别特征，也将各特征映射到一个低维的特征向量，与词向量拼接在一起。另外，对于文本当中的每个单词，根据其与问题当中单词的匹配程度，再增加两个特征：

1)精确匹配特征，表示为：β(p_i)＝II(p_i∈q)，即当文本中的某个单词p_i出现在问题q当中时，特征值为1，否则为0；

2)模糊匹配特征，表示为：

其中，和分别表示文本及问题当中某个单词的词向量，f(·)表示单层全连接层接ReLU激活函数。该特征反映了文本中某个单词p_i与问题q中各个单词的相似度。

将词向量与额外的特征向量表示拼接在一起，形成文本和问题的向量表示。

步骤R2、对于训练数据中的文本，通过遍历搜索选择出文本中与标准答案匹配度(可以根据BLEU或者ROUGE-L等标准计算)最高的片段作为关键片段，作为编码器部分在多任务训练当中的训练目标答案。

步骤R3、将文本与问题的向量表示分别通过两个多层BiLSTM进行处理，将各层的正向及反向输出全部拼接在一起，从而学习到文本和问题浅层和深层特征表示的组合。

步骤R4、将步骤R3中得到的问题的多层特征向量表示通过另外一个BiLSTM进行聚合，获得问题的最终特征向量表示，然后通过注意力机制，对问题中各单词的表示进行加权组合，形成一个与问题长度无关的向量。

步骤R5、通过分层注意力机制将步骤R3和步骤R4中得到的问题的各层特征表示融合到文本的特征表示当中。其中注意力权重按照以下方式计算：

其中，k表示相应层的标号，各层之间的相似度计算函数S^k各不相同，和则分别代表步骤R1和步骤R3当中文本和问题中各个单词对应的起始向量表示及多层特征表示的拼接。

在计算出注意力权重之后，各层分别按照以下方式计算融合问题信息的文本向量表示：

其中和分别代表步骤R3当中得到的文本和问题中的各个单词的第k层特征表示，则代表同一步骤中得到的第k层的注意力权重。

这种方法允许各层独自进行信息融合，不互相干扰，增强了特征表达能力，而在计算相似度时又同时考虑到了文本和问题的各层信息。

步骤R6、将步骤R1、步骤R3、步骤R5中得到的各阶段的文本向量表示全部拼接在一起，再通过另外一个BiLSTM进行聚合，获得文本的最终特征向量表示。这个最终向量表示与步骤R4中得到的经过加权组合的问题的向量表示做内积，再接上softmax函数，将文本中的每一个单词映射到一个归一化的概率表示，表示每个单词出现在答案当中的概率大小。根据步骤R2中选择训练文本的关键片段，设定优化目标为增大关键片段中单词的概率，相应降低其它单词的概率。通过计算Cross Entropy Loss，得到的损失值L_e作为多任务训练当中的一个优化目标。

步骤R7、将步骤R6中得到的文本的最终向量表示与步骤R4中得到的经过加权组合的问题的向量表示做内积，再接上softmax函数，将文本中的每一个单词映射到一个归一化概率表示。按照该归一化概率对文本的表示进行加权组合，得到一个与文本的长度无关的向量表示。

步骤R8、以步骤R7中得到文本向量表示作为解码器LSTM的初始隐状态，通过解码器同时生成两个序列。其中一个序列通过强制监督学习进行训练，目的是为了训练解码器能够生成与标准答案一模一样的文本序列。在生成过程中，每一步的输入均为标准答案中上一步对应的词，输出为softmax分类概率，代表该步生成的词为词表中某个词的概率，以标准答案为目标序列，通过计算Cross Entropy Loss，得到损失值L_t。而另外一个序列则通过强化学习方法进行训练，目的是为了训练解码器能够生成与标准答案不完全相同，但又能够正确流畅地回答问题的答案。与监督学习的不同之处在于，生成序列时每一步的输入均为上一步解码器的输出，在整个序列生成后，根据BLEU或者ROUGE-L等评价标准计算该序列的Reward，并以提高Reward作为训练目标，通过Policy Gradient方法可以计算得到损失值L_r。将两个生成序列的损失值按一定比例组合得到解码器的Loss：

L_s＝γ′L_t+(1-γ′)L_r

其中L_t为强制监督学习过程的损失值，L_r为强化学习过程的损失值，γ′是一个0-1之间的值，用于控制两部分损失值的比例，L_s则代表解码器部分的总损失值。

步骤R9、将编码器中的损失值与解码器中的损失值按一定比例组合得到总的Loss：

L＝γL_e+(1-γ)L_s

其中L_e代表步骤R6中计算得到的编码器部分的损失值。L_s代表步骤R8中计算得到的解码器部分的损失值。γ是一个0-1之间的值，用于控制两部分损失值的比例。L则表示模型整体的损失值。

然后可以通过SGD+Momentum，AdaDelta或者Adam等各种基于梯度下降原理的优化器来对模型进行多任务联合训练优化。

步骤R10、当得到训练好的模型之后，在将模型用于答案生成时，解码器还会通过Beam Search方法搜索多个可能的文本序列，在合理增加计算量的范围内提高答案生成的准确度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一个基于深度神经网络及强化学习的生成式机器阅读理解方法，其特征在于，所述的生成式机器阅读理解方法包括下列步骤：

S1、对文本及问题中的句子进行预处理，所述的预处理包括分词、词性标注、命名实体识别，将单词映射成词表当中对应的词向量，并与词性及命名实体类型的特征向量拼接在一起，形成文本和问题的初始特征向量表示；

S4、通过注意力机制，对问题中各单词的表示进行加权组合，形成一个与问题长度无关的向量，通过该向量与文本的最终向量表示做内积，抽取出文本当中能够用于回答问题的信息片段，再次通过注意力机制，对文本中的这些信息片段进行加权组合，形成一个与文本长度无关的向量，作为解码器的初始隐状态输入；

S5、使用一个单向LSTM作为解码器，并以文本的最终特征向量表示作为其输入序列，按照序列到序列的方式逐个单词地生成对应的答案文本。

2.根据权利要求1所述的一个基于深度神经网络及强化学习的生成式机器阅读理解方法，其特征在于，所述的文本和问题的初始特征向量表示还包括文本单词和问题单词的匹配度特征、单词的词频特征。

3.根据权利要求1所述的一个基于深度神经网络及强化学习的生成式机器阅读理解方法，其特征在于，对于文本当中的每个单词，根据其与问题当中单词的匹配程度，增加特征如下：

1)精确匹配特征，表示为：即当文本中的某个单词p_i出现在问题q当中时，特征值为1，否则为0；

2)模糊匹配特征，表示为：

其中，和分别表示文本及问题当中某个单词的词向量，f(·)表示单层全连接层接ReLU激活函数，该特征反映文本中某个单词p_i与问题q中各个单词的相似度；

4.根据权利要求1所述的一个基于深度神经网络及强化学习的生成式机器阅读理解方法，其特征在于，所述的步骤S3过程如下：

S31、将步骤S2中得到的问题的多层特征向量表示通过另外一个BiLSTM进行聚合，获得问题的最终特征向量表示，然后通过注意力机制，对问题中各单词的表示进行加权组合，形成一个与问题长度无关的向量；

S32、通过分层注意力机制将步骤S2和步骤S31中得到的问题的各层特征表示融合到文本的特征表示当中，其中注意力权重按照以下方式计算：

其中，k表示相应层的标号，各层之间的相似度计算函数S^k各不相同，和则分别代表步骤S1和步骤S2当中文本和问题中各个单词对应的起始向量表示及多层特征表示的拼接；

S33、在计算出注意力权重之后，各层分别按照以下方式计算融合问题信息的文本向量表示：

其中和分别代表步骤S2当中得到的文本和问题中的各个单词的第k层特征表示，则代表步骤S32中得到的第k层的注意力权重。

5.根据权利要求1所述的一个基于深度神经网络及强化学习的生成式机器阅读理解方法，其特征在于，所述的步骤S3中通过分层注意力机制进行文本-问题的向量表示融合，在计算各层注意力权重时，所使用的文本和问题向量均为前面步骤产生的所有层次特征向量的拼接，而各层之间使用的注意力函数参数又是独立、各不相同的，所以在进行向量融合时，各层分别按照各自的注意力权重计算结果进行融合。

6.根据权利要求1所述的一个基于深度神经网络及强化学习的生成式机器阅读理解方法，其特征在于，所述的步骤S4中用问题的注意力加权组合向量与文本的最终向量表示做内积，其结果再通过一个softmax函数可转化为一个概率分布；优化该概率分布，使文本中用于回答问题的有效信息片段的概率相应增大，作为模型多任务联合训练的优化目标之一，将与解码器的优化目标相结合，进行共同优化训练。

7.根据权利要求1所述的一个基于深度神经网络及强化学习的生成式机器阅读理解方法，其特征在于，所述的步骤S5过程如下：

S51、以步骤S4中得到文本向量表示作为解码器LSTM的初始隐状态，通过解码器同时生成两个序列，其中一个序列通过强制监督学习进行训练，在生成过程中，每一步的输入均为标准答案中上一步对应的词，输出为softmax分类概率，代表该步生成的词为词表中某个词的概率，以标准答案为目标序列，通过计算Cross Entropy Loss，得到损失值L_t；另外一个序列则通过强化学习方法进行训练，生成序列时每一步的输入均为上一步解码器的输出，在整个序列生成后，根据BLEU或者ROUGE-L评价标准计算该序列的Reward，并以提高Reward作为训练目标，通过Policy Gradient方法计算得到损失值L_r；

将两个生成序列的损失值按一定比例组合得到解码器的Loss，即L_s：

L_s＝γ′L_t+(1-γ′)L_r

其中L_t为强制监督学习过程的损失值，L_r为强化学习过程的损失值，γ′是一个0-1之间的值，用于控制两部分损失值的比例，L_s则代表解码器部分的总损失值；

S52、将编码器中的损失值与解码器中的损失值按一定比例组合得到总的Loss，即L：

L＝γL_e+(1-γ)L_s

其中L_e代表编码器部分的损失值，即步骤S4中用问题的注意力加权组合向量与文本的最终向量表示做内积，其结果再通过一个softmax函数可转化为一个概率分布，优化该概率分布时计算得到的损失值，L_s则代表解码器部分的损失值，γ是一个0-1之间的值，用于控制两部分损失值的比例，L则表示模型整体的损失值；

然后通过基于梯度下降原理的优化器来对模型进行多任务联合训练优化；

S53、当得到训练好的模型之后，在将模型用于答案生成时，解码器还会通过BeamSearch方法搜索多个可能的文本序列，在合理增加计算量的范围内提高答案生成的准确度。

8.根据权利要求7所述的一个基于深度神经网络及强化学习的生成式机器阅读理解方法，其特征在于，

所述的基于梯度下降原理的优化器包括：SGD+Momentum、AdaDelta或者Adam。