CN109388698A

CN109388698A - 一种基于深度强化学习的指导性自动聊天方法

Info

Publication number: CN109388698A
Application number: CN201811231692.5A
Authority: CN
Inventors: 贾熹滨; 史佳帅; 刘洋; 曾檬; 苏醒; 郭黎敏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2019-02-26

Abstract

本发明公开了一种基于深度强化学习的指导性自动聊天方法，属于口语对话系统领域；利用了深度学习的强大的感知力和强化学习优越的决策力，其中主要包含教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略。模式选择控制教学模块是直接给出示范决策还是给出决策模块的评价。决策模块根据教学模块给出的评价以及用户的评价作为优化目标不断调整自身的决策情况。这种方法兼顾深度学习和强化学习的优势，既增加了系统的泛化能力是系统更加具有鲁棒性，又增加了系统的学习能力，使系统具有更强的适应能力。在此框架下，使口语对话系统得到更有效的训练，产生的答案也更安全、合理、自然有序。

Description

一种基于深度强化学习的指导性自动聊天方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于深度强化学习的通过与环境交互不断优化对话系统的模型方法。

背景技术

聊天系统是一种可以通过日常口语与人类对话的服务代理。在我们与技术的互动中，这种系统将扮演越来越重要的角色。聊天系统具有广泛的应用范围，从支持语音的移动应用到车载导航助手、只能家居、辅导系统以及(在不远的将来)协助我们日常工作的服务机器人。聊天系统具有广阔的应用场景和市场需求，因此研究提高对话系统的自然性、连贯性、稳定性、智能性等具有重要意义。

传统的聊天系统基于人工模板活基于知识库检索的方式打造，在垂直领域中往往有很好的体验，根据目标领域人工编码形式逻辑模型会把对话限制在较窄的范围，易于机器理解，但这种形式结构无法高效地跟上源知识的增长和领域的切换。然而，基于深度学习的聊天系统是通过数据驱动的端到端的构建过程，只要给定训练数据就可以训练出效果不错的系统，省去了特征抽取以及各种复杂的中间步骤的处理，使得系统的开发效率更高。

深度学习起源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。通过深度学习进行表示学习，可以通过梯度下降实现自动特征工程和端到端学习，从而显着减少甚至消除对领域知识的依赖。特征工程过去是手动完成的，通常是耗时的，过多的，不完整的。深度的分布式表征利用数据中的因素的层次组合来对抗尺寸诅咒的指数式挑战。深度神经网络的一般性、表达性和灵活性使得一些任务更容易或可能。但是深度模型过于依赖训练数据，无法根据环境的反馈动态优化自身，因此，在深度学习的基础上加入强化学习的机制进一步成为了研究界的热门话题。

强化学习是智能体以“试错”的方式进行学习，通过不断地与环境交互获得奖励，来优化自身的策略以获得最大奖励的方法。智能体在每一个行动之后，都可以观察到由于行为而产生的新的环境状态，以及获得执行行为的直接价值(正面或负面)的数字奖励。智能体的目标是通过尝试和错误的过程来找到在任何给定状态下执行的最佳操作——最好的行为被认为是最大化代理预期长期回报的行为。

深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。因此，将两者结合起来而诞生的深度强化学习，利用深度学习与强化学习的优势互补，为聊天系统的感知决策问题提供了解决思路。

发明内容

本发明的目的在于提供一种基于深度强化学习的指导性自动聊天方法，用深度学习的方法感知环境的状态，利用强化学习的方式通过与环境交互不断优化对话策略。

为了实现上述目的，本发明采用以下技术方案：对原始文本进行分词预处理；然后预处理后的向量经过综合识别使文本信息更加泛化并将泛化后的信息通过意图识别模块识别用户当前输入的意图信息；对意图信息进一步进行状态跟踪；将当前的对话状态以及意图信息等送入决策模块在教学模块的指导下选择相对应的策略，教学模块分为两种模式教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略；接下来依照策略产生相关的回复；收集用户的评价，将评价用于决策模块的奖励持续优化产生的策略达到最优。该方法包括以下步骤：

步骤1，文本分词预处理。

步骤1.1，读取文本进行切词操作。

步骤1.2，将切分的单词读取成类别向量的表示。

步骤1.3，将切分的单词按词向量表示。

步骤1.4，将切分的单词读取成情感向量的表示。

步骤1.5，将1.2、1.3和1.4的向量进行拼接。

步骤2，文本信息的综合处理。

步骤2.1，将步骤1得到的向量送入LSTM网络识别模块。

步骤2.2，将2.1的结果加入分类网络，得出相应动作的概率。

步骤3，动作教学

步骤3.1，计算当前的模式，得出教学模式或者批判模式。

步骤3.2，若3.1为教学模式，则教学模块给出当前的示范动作，当前轮对话的动作即为示范模块；若3.2为批判模式则教学模块给出步骤2.2中动作的奖励值，当前轮对话的动作为步骤2.2中的动作。

步骤4，实体输出。根据步骤3中得出的动作进行实体填充，得到回复文本。

步骤5，根据奖励优化LSTM网络模块

步骤5.1，计算当前轮的奖励值。若步骤3.1为教学模块，则奖励值为本轮对话的用户评价；若步骤3.1为批判模块，则奖励值为本轮对话的用户评价与教学模块给出奖励的加和；

步骤5.2，根据步骤5.1的奖励值利用策略梯度的方式优化LSTM网络。

与现有技术相比，本发明具有以下明显优势：

本发明提出了一个结合深度学习的感知和强化学习的决策来对对话系统进行联合训练的框架，其中主要包含教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略。模式选择控制教学模块是直接给出示范决策还是给出决策模块的评价。决策模块根据教学模块给出的评价以及用户的评价作为优化目标不断调整自身的决策情况。这种方法兼顾深度学习和强化学习的优势，既增加了系统的泛化能力是系统更加具有鲁棒性，又增加了系统的学习能力，使系统具有更强的适应能力。在此框架下，使聊天系统得到更有效的训练，产生的答案也更安全、合理、自然有序。

附图说明

图1为本发明所涉及方法的流程图；

图2为本发明所涉及方法的框架图；

具体实施方式

以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明所述方法的流程图如图1所示，具体包括以下步骤：

步骤1，文本分词预处理。

步骤1.1，读取文本进行切词操作。

将用户的输入文字进行切词操作，例如，将“今天北京天气怎么样”切分成“今天”，“北京”，“天气”，“怎么样”。并按类别进行向量化表示，由于类别较少，因此采用独热编码的方式。

步骤1.2，将切分的单词读取成类别向量的表示。

将分词后的单词按实体类别表示，例如，“今天”，“北京”，“天气”，“怎么样”识别为“时间”，“地点”，“天气”，“疑问词”。

步骤1.3，将切分的单词按词向量表示。

将单词转换为向量的表示方式，采用Google开源的Word2Vector的方式，例如，将单词“今天”转换为“000010”的编码，便于通过模型来进行运算。

步骤1.4，将切分的单词读取成情感向量的表示。

步骤1.5，将1.2、1.3和1.4的向量进行拼接。

步骤2，文本信息的综合处理。

步骤2.1，将步骤1得到的向量送入LSTM网络识别模块。

LSTM网络可以有效的提取文本的时序信息，通过该网络可以有效根据上下文信息识别用户的意图。

步骤2.2，将步骤2.1的结果加入分类网络，得出相应动作的概率。

将LSTM的结果输入到一个全连接网络，通过Softmax激活函数，得出每个动作的概率。

步骤3，动作教学。

步骤3.1，计算当前的模式，得出教学模式或者批判模式c_t。

步骤5，根据奖励优化LSTM网络模块

步骤5.2，根据步骤5.1的奖励值利用策略梯度的方式优化LSTM网络。策略梯度的优化算法，即：其中γ为学习率；a_t是t时间采取的行为；h_t是t时间的对话历史；▽_w表示对w取Jacobian行列式；b代表偏置，是对当前策略返回奖励的平均估计。

至此，本发明的具体实施过程就描述完毕。

Claims

1.一种基于深度强化学习的指导性自动聊天方法，其特征在于：利用深度网络模型感知用户的意图以及状态，然后利用强化学习的方式优化模型，在此基础上加入了特定的教学模块，教学模块分为两种模式教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略；该方法包括以下步骤：

步骤1，文本分词预处理；

步骤1.1，读取文本进行切词操作；

步骤1.2，将切分的单词读取成类别向量的表示；

步骤1.3，将切分的单词按词向量表示；

步骤1.4，将切分的单词读取成情感向量的表示；

步骤1.5，将步骤1.2、步骤1.3和步骤1.4的向量进行拼接；

步骤2，文本信息的综合处理；

步骤2.1，将步骤1得到的向量送入LSTM网络识别模块；

步骤2.2，将步骤2.1的结果加入分类网络，得出相应动作的概率；

步骤3，动作教学

步骤3.1，计算当前的模式，得出教学模式或者批判模式；

步骤3.2，若步骤3.1为教学模式，则教学模块给出当前的示范动作，当前轮对话的动作即为示范模块；若步骤3.2为批判模式则教学模块给出步骤2.2中动作的奖励值，当前轮对话的动作为步骤2.2中的动作；

步骤4，实体输出；根据步骤3中得出的动作进行实体填充，得到回复文本；

步骤5，根据奖励优化LSTM网络模块

步骤5.1，计算当前轮的奖励值；若步骤3.1为教学模块，则奖励值为本轮对话的用户评价；若步骤3.1为批判模块，则奖励值为本轮对话的用户评价与教学模块给出奖励的加和；

2.根据权利要求1所述的一种基于深度强化学习的指导性自动聊天方法，其特征在于：建立基于教学模块指导的深度强化学习网络框架：端到端对话生成模块以及教学模式判别模块；其中模型的主体模块为一个LSTM深度网络，用来综合用户的输入信息产生相应的决策，教学模块用以指导决策模块，连同当前用户意图和对话状态的感知，选择相对应的策略，根据策略优化LSTM深度网络，提升对话生成对会话情景的适应性。

3.根据权利要求1所述的一种基于深度强化学习的指导性自动聊天方法，其特征在于：策略梯度的优化算法，即：其中γ为学习率；a_t是t时间采取的行为；h_t是t时间的对话历史；▽_w表示对w取Jacobian行列式；b代表偏置，是对当前策略返回奖励的平均估计。