CN109597876B

CN109597876B - 一种基于强化学习的多轮对话答复选择模型及其方法

Info

Publication number: CN109597876B
Application number: CN201811319709.2A
Authority: CN
Inventors: 林键; 卓汉逵
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2023-04-11
Anticipated expiration: 2038-11-07
Also published as: CN109597876A

Abstract

本发明公开了一种基于强化学习的多轮对话答复选择模型及其方法，该模型包括：策略网络模块，采用随机策略，在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作，从而对整个上下文文本得到一个动作序列，并根据分类网络的分类结果获得延时奖励；上下文文本重构网络，根据所述策略网络模块输出的动作序列，重构出一个新的上下文文本；分类网络模块，将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配，最后得到分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新所述策略网络模块，本发明不仅能够自动地过滤掉与任务无关的词语，同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。

Description

一种基于强化学习的多轮对话答复选择模型及其方法

技术领域

本发明涉及机器学习技术领域，特别是涉及一种基于强化学习的多轮对话答复选择模型及其方法。

背景技术

目前构建闲聊型的聊天机器人的工作主要分类两种，一种是基于生成的聊天机器人，另外一种是基于检索的聊天机器人。而由于基于检索的聊天机器人是从实现定义好的索引中进行搜索，从当前对话中学习并选择回复的句子，因此回答的内容不会存在语法或者语义的错误，因此广受人们关注。

基于检索的聊天机器人的早期研究主要集中于研究单轮对话，而单轮对话只考虑上一个输入的句子，没有完全考虑对话的上下文。近年来，随着闲聊型聊天机器人的普及与深入，基于检索的多轮对话越来越受到人们的关注，如表1所示就是基于检索的多轮对话的一个例子。在多轮对话的答复选择中，将当前的消息和先前的话语作为输入，对话系统选择一个自然地、与对话上下文语义相关的句子作为相应，因此对话系统最重要的是要从之前的话语中找出重要的信息，并恰当地模仿话语之前的关系，以确保谈话的连贯性。

表1基于检索的多轮对话的一个例子

众所周知，多轮对话的难点在于不仅仅要考虑当前的提出的问题，还需要考虑到前几轮对话的情景以及上下文出现的信息。因此，基于检索的多轮对话的难点主要有两点：第一、如何从上下文中确定用于确定答复的关键信息，包括关键词、关键短语或者关键句等；第二、如何在上下文中模拟多轮对话之间的关系。

目前，基于检索的多轮对话的实现方法有不少，一种比较简单的方法是将上下文的句子拼接起来，然后与候选的答复做匹配，这种方法的缺点是由于对话上下文的冗余信息太多，导致引入很多多余的噪声。因此，多轮对话的关键是识别对话上下文中与答复相关的信息，然后对答句与相关信息之间的关系进行建模，有人提出了一种将答句与上文各个句子分别匹配的序列匹配模型(SMN)。

具体地，给定一个数据集

其中

表示对话的上下文，

表示上下文中的一个句子。r_i是一个候选的回答，y_i∈{0,1}表示一个类标。当y_i＝1表示r_i是s_i的一个合理答复，否则y_i＝0。模型的目标是在数据集D上学习一个匹配模型g(·,·)。g(s,r)能够建模上下文-答复对(s,r)之间的关系。

而所述序列匹配模型SMN就是在建模g(s,r)，SMN首先将上下文-答复对匹配问题分解为几个上下文句子-答复对匹配问题，然后使用循环神经网络将句子匹配的结果聚合起来。

SMN模型包含三个部分，第一部分是将候选的回答句子分别于上下文的各个句子进不同粒度(词语和词组级别)的匹配，然后使用一个卷积神经网络(CNN)，提取其中包含的匹配信息。第二部分是使用一个门循环单元(GRU)将多个句子的匹配信息聚合起来。第三部分是使用第二部分的GRU中的隐藏状态来计算最后的匹配值。

然而，SMN模型仅仅通过计算两个句子间的不同词语词向量的矩阵乘积的结果来判断当前词语是否对最终的任务有作用，没有考虑到同一个句子中词与词之间的关联性，没有涉及到同一个上下文句子中词语之间的语义相关性。事实上，在上下文中选取的与答复句子相关的词或词语，彼此之间也是存在关联的。而SMN没有很好的考虑这些信息，而只是计算上下文句子单词与候选答复句子单词之间的一个关系。此外，上下文中不同的句子与答复句子的相关性是不同的，SMN模型同样没有考虑该问题。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于强化学习的多轮对话答复选择模型及其方法，以自动地从冗余的多个上下文句子中筛选出与任务相关的词语和词组用于任务后面的语义匹配，不仅能够自动地过滤掉与任务无关的词语，同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。

为达上述及其它目的，本发明提出一种基于强化学习的多轮对话答复选择模型，包括：

策略网络模块，用于采用随机策略，在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作，从而对整个上下文文本得到一个动作序列，并根据分类网络的分类结果获得延时奖励，以指导策略网络模块更新；

上下文文本重构网络，用于根据所述策略网络模块输出的动作序列，重构出一个新的上下文文本；

分类网络模块，用于将所述上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配，最后得到分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新所述策略网络模块。

优选地，所述动作包括保留或删除。

优选地，所述随机策略为：

π(a_t|s_t；θ)＝sig mod(W*[h_u,t-1；e_u,t；e'_u,t]+b)

其中π(a_t|s_t；θ)表示选择动作a_t的概率，θ＝{W,b}表示策略网络的参数，e_u,t为上下文句子u在t状态下输入的词向量，h_u,t-1表示上一状态下门循环网络GRU的隐藏状态向量，令

候选回答

其中e_r,i表示句子r中的第i个单词，对

有

e_t,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性。

优选地，所述上下文文本重构网络根据所述策略网络模块得到的动作序列，过滤掉冗余的单词，并将过滤后的上下文文本拼接起来，得到重构后的上下文文本。

优选地，所述分类网络模块包括：

双向门循环单元，用于将门循环单元的内部隐藏状态作为文本单词的表示，计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积，得到一个单词-单词的相似性矩阵；

卷积神经网络，用于提取该相似性矩阵中的关键特征；

全连接层，用于根据该关键特征获得最后的分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新策略网络模块。

优选地，所述全连接层根据该关键特征获得最后的分类结果，然后通过计算真实分类标签与该分类结果的关系，得到一个奖励值，将该奖励值作为延迟奖励更新所述策略网络模块。

为达到上述目的，本发明还提供一种基于强化学习的多轮对话答复选择方法，包括如下步骤：

步骤S1，利用策略网络模块采用随机策略，在各个状态空间下对上下文文本的各句子中的各个单词采样一个动作，从而对整个上下文文本得到一个动作序列；

步骤S2，利用上下文文本重构网络根据策略网络模块输出的动作序列，重构出一个新的上下文文本；

步骤S3，利用分类网络模块将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配，最后得到分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新策略网络模块。

优选地，所述随机策略为：

π(a_t|s_t；θ)＝sigmod(W*[h_u,t-1；e_u,t；e'_u,t]+b)

候选回答

其中e_r,i表示句子r中的第i个单词，对

有

优选地，于步骤S2中，利用所述上下文文本重构网络获得所述策略网络模块得到的动作序列，过滤掉冗余的单词，并将过滤后的上下文文本拼接起来，得到重构后的上下文文本。

优选地，步骤S3进一步包括：

步骤S300，将门循环单元的内部隐藏状态作为文本单词的表示，将重构后的上下文文本和候选回答句子，计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积，得到一个单词-单词的相似性矩阵；

步骤S301，利用卷积神经网络提取该相似性矩阵中的关键特征；

步骤S302，将该关键特征一个全连接层得到最后的分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新策略网络模块。

与现有技术相比，本发明一种基于强化学习的多轮对话答复选择模型及其方法通过利用强化学习抽取上下文句子中关键信息，可自动地从冗余的多个上下文句子中筛选出与任务相关的词语和词组用于任务后面的语义匹配，本发明相较SMN模型而言，不仅能够自动地过滤掉与任务无关的词语，同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。

附图说明

图1为本发明一种基于强化学习的多轮对话答复选择模型的架构示意图；

图2为本发明具体实施例中策略网络模块的内部细节图；

图3为本发明具体实施例中分类网络模块的结构示意图；

图4为本发明一种基于强化学习的多轮对话答复选择方法的步骤流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

在介绍本发明之前，先对本发明所涉及的缩略语和关键术语定义如下：

深度学习：深度学习是由Hinton等人于2006年提出，是机器学习的一个新领域。深度学习被引入机器学习使其更接近最初目标----人工智能。深度学习是学习样本数据的内在规律和表示层次。这些学习过程中获得的信息对图像、文字等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别图像、文字等数据。

强化学习：强化学习是机器学习的其中一个领域，关注于如何在环境中采取行动，以取得最大化的预期利益，即智能体如何在环境给予的奖励或者惩罚的刺激下，逐步形成的奖励或者惩罚的刺激的预期，产生能获得最大利益的习惯性行为。强化学习和标准的监督学习之间的区别在于，它并不需要出现正确的输入/输出对，它更加强调与在线规划，需要在探索(在未知领域)和遵从(现有知识)之间找到平衡。

门循环单元(Gated recurrent units,GRUs)：门循环单元是循环神经网络中的一种门控机制，由Kyunghyun等人在2014年提出，这种神经网络的在复调音乐建模和语音信号建模的性能与长短记忆记忆网络(LSTM)接近。但是，在小规模的数据集上，GRU的性能要比LSTM更好。

图1为本发明一种基于强化学习的多轮对话答复选择模型的架构示意图。如图1所示，本发明一种基于强化学习的多轮对话答复选择模型，包括：

策略网络模块10，用于采用随机策略，在各个状态空间下采样一个动作，从而对整个上下文文本得到一个动作序列，同时，策略网络模块10根据分类网络的分类结果获得延时奖励，以指导策略网络模块更新。也就是说，策略网络模块10采用随机策略，对上下文文本的各句子中的各个单词采样一个动作(保留或者删除)，从而对整个上下文文本得到一个动作序列，同时根据分类网络的分类结果获得延时奖励，以指导策略网络模块更新。

在本发明具体实施例中，策略网络模块10采用随机策略π(a_t|s_t；θ)，在策略网络模块10中，状态、动作、策略和奖励定义如下：

1、状态：当前输入的单词的词向量和该单词之前的上下文向量；

2、动作：定义两者不同的操作，包括保留和删除；

3、策略：如图2所示，使用随机策略对状态t下的动作a_t进行采样。令e_u,t为上下文句子u在t状态下输入的词向量，h_u,t-1表示上一状态下门循环网络GRU的隐藏状态向量，候选回答

其中e_r,i表示句子r中的第i个单词。对

有

e_t,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性。令

由此，可以定义策略为：

π(a_t|s_t；θ)＝sigmod(W*[h_u,t-1；e_u,t；e'_u,t]+b)

其中π(a_t|s_t；θ)表示选择动作a_t|的概率，θ＝{W,b}表示策略网络的参数。

4、奖励：当通过策略网络采样到动作序列后，就可以重构上下文文本，将重构后的上下文文本输入到分类网络模块当中，得到P(y|X)，其中，y是类别标签，通过计算真实分类标签与P(y|X)的关系，可以得到一个奖励值。由于必须要得到最后的分类结果才能计算该奖励值，因此这是一个延时奖励，利用该延迟奖励可以指导策略网络模块更新。

上下文文本重构网络20，根据策略网络模块输出的动作序列，重构出一个新的上下文文本。

在本发明具体实施例中，上下文文本重构网络20根据由策略网络模块10得到的动作序列，过滤掉冗余的单词，例如“这”、“为了”等停用词，然后将过滤后的上下文文本拼接起来，得到重构后的上下文文本。

分类网络模块30，用于将上下文文本重构网络20重构后的上下文文本与候选回答句子进行匹配，最后得到分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新策略网络模块10。

图3为本发明具体实施例中分类网络模块30的结构示意图。在本发明具体实施例中，分类网络模块30包括：

双向门循环单元301，用于获取重构后的上下文文本和候选回答句子，将门循环单元的内部隐藏状态作为文本单词的表示，计算重构后上下文文本单词向量矩阵与候选回答句子单词向量句子乘积，得到一个单词-单词的相似性矩阵；

卷积神经网络302，用于提取该相似性矩阵中的关键特征；

全连接层303，用于根据该关键特征获得最后的分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新策略网络模块。在本发明具体实施例中，根据该关键特征获得最后的分类结果P(y|X)，其中，y是类别标签，然后通过计算真实分类标签与P(y|X)的关系，可以得到一个奖励值，将该奖励值作为延迟奖励更新策略网络模块10。具体地，这里真实分类标签一般人为提供，利用损失函数计算预测分类与真实分类之间的差距得到损失值，奖励值即为损失值的相反数，较佳地，损失函数可使用交叉熵公式。

图4为本发明一种基于强化学习的多轮对话答复选择方法的步骤流程图。如图4所示，本发明一种基于强化学习的多轮对话答复选择方法，包括如下步骤：

步骤S1，利用策略网络模块采用随机策略，在各个状态空间下采样一个动作，从而对整个上下文文本得到一个动作序列。具体地，利用所述策略网络模块采用随机策略，对上下文文本的各句子中的各个单词采样一个动作(保留或者删除)，从而对整个上下文文本得到一个动作序列，同时根据分类网络的分类结果获得延时奖励，以指导策略网络模块更新。

在本发明具体实施例中，所述策略网络模块采用随机策略π(a_t|s_t；θ)，所述状态、动作、策略和奖励定义如下：

2、动作：定义两者不同的操作，包括保留和删除；

3、策略：定义随机策略如下：

π(a_t|s_t；θ)＝sigmod(W*[h_u,t-1；e_u,t；e'_u,t]+b)

候选回答

其中e_r,i表示句子r中的第i个单词，对

有

步骤S2，利用上下文文本重构网络根据策略网络模块输出的动作序列，重构出一个新的上下文文本。

在本发明具体实施李中，可根据由策略网络模块得到的动作序列，过滤掉冗余的单词，比如“这”、“为了”等停用词，然后将过滤后的上下文文本拼接起来，得到重构后的上下文文本。

具体地，步骤S3进一步包括：

步骤S302，将该关键特征一个全连接层得到最后的分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新策略网络模块。在本发明具体实施例中，该关键特征经全连接层获得最后的分类结果P(y|X)，其中，y为类别标签，最后通过计算真实分类标签与P(y|X)的关系，得到一个奖励值，将该奖励值作为延迟奖励更新策略网络模块。

综上所述，本发明一种基于强化学习的多轮对话答复选择模型及其方法通过利用强化学习抽取上下文句子中关键信息，可自动地从冗余的多个上下文句子中筛选出与任务相关的词语和词组用于任务后面的语义匹配，本发明相较SMN模型而言，不仅能够自动地过滤掉与任务无关的词语，同时在句子匹配的过程中充分考虑了不同句子与回答之间的语义相关性。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种基于强化学习的多轮对话答复选择方法，包括如下步骤：

步骤S3，利用分类网络模块将上下文文本重构网络重构后的上下文文本与候选回答句子进行匹配，最后得到分类结果，并根据分类结果计算得到一个损失值，将该损失值作为延迟奖励更新策略网络模块；

所述随机策略为：

π(a_ts_t；θ)＝sigmod(W*[h_u,t-1；e_u,t；e'_u,t]+b)

其中π(a_ts_t；θ)表示选择动作a_t的概率，θ、W、b表示策略网络的参数，且θ＝{W,b}，e_u,t为上下文句子u在t状态下输入的词向量，h_u,t-1表示上一状态下门循环网络GRU的隐藏状态向量，令

候选回答

其中e_r,i表示句子r中的第i个单词，对

有

e_t,i建模了当前状态输入的单词和候选答复句子中各个单词的相关性；

步骤S3进一步包括：

2.如权利要求1所述的一种基于强化学习的多轮对话答复选择方法，其特征在于：于步骤S2中，利用所述上下文文本重构网络获得所述策略网络模块得到的动作序列，过滤掉冗余的单词，并将过滤后的上下文文本拼接起来，得到重构后的上下文文本。