CN109388698A - 一种基于深度强化学习的指导性自动聊天方法 - Google Patents

一种基于深度强化学习的指导性自动聊天方法 Download PDF

Info

Publication number
CN109388698A
CN109388698A CN201811231692.5A CN201811231692A CN109388698A CN 109388698 A CN109388698 A CN 109388698A CN 201811231692 A CN201811231692 A CN 201811231692A CN 109388698 A CN109388698 A CN 109388698A
Authority
CN
China
Prior art keywords
module
teaching
decision
reward
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811231692.5A
Other languages
English (en)
Inventor
贾熹滨
史佳帅
刘洋
曾檬
苏醒
郭黎敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811231692.5A priority Critical patent/CN109388698A/zh
Publication of CN109388698A publication Critical patent/CN109388698A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的指导性自动聊天方法,属于口语对话系统领域;利用了深度学习的强大的感知力和强化学习优越的决策力,其中主要包含教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略。模式选择控制教学模块是直接给出示范决策还是给出决策模块的评价。决策模块根据教学模块给出的评价以及用户的评价作为优化目标不断调整自身的决策情况。这种方法兼顾深度学习和强化学习的优势,既增加了系统的泛化能力是系统更加具有鲁棒性,又增加了系统的学习能力,使系统具有更强的适应能力。在此框架下,使口语对话系统得到更有效的训练,产生的答案也更安全、合理、自然有序。

Description

一种基于深度强化学习的指导性自动聊天方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于深度强化学习的通过与环境交互不断优化对话系统的模型方法。
背景技术
聊天系统是一种可以通过日常口语与人类对话的服务代理。在我们与技术的互动中,这种系统将扮演越来越重要的角色。聊天系统具有广泛的应用范围,从支持语音的移动应用到车载导航助手、只能家居、辅导系统以及(在不远的将来)协助我们日常工作的服务机器人。聊天系统具有广阔的应用场景和市场需求,因此研究提高对话系统的自然性、连贯性、稳定性、智能性等具有重要意义。
传统的聊天系统基于人工模板活基于知识库检索的方式打造,在垂直领域中往往有很好的体验,根据目标领域人工编码形式逻辑模型会把对话限制在较窄的范围,易于机器理解,但这种形式结构无法高效地跟上源知识的增长和领域的切换。然而,基于深度学习的聊天系统是通过数据驱动的端到端的构建过程,只要给定训练数据就可以训练出效果不错的系统,省去了特征抽取以及各种复杂的中间步骤的处理,使得系统的开发效率更高。
深度学习起源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。通过深度学习进行表示学习,可以通过梯度下降实现自动特征工程和端到端学习,从而显着减少甚至消除对领域知识的依赖。特征工程过去是手动完成的,通常是耗时的,过多的,不完整的。深度的分布式表征利用数据中的因素的层次组合来对抗尺寸诅咒的指数式挑战。深度神经网络的一般性、表达性和灵活性使得一些任务更容易或可能。但是深度模型过于依赖训练数据,无法根据环境的反馈动态优化自身,因此,在深度学习的基础上加入强化学习的机制进一步成为了研究界的热门话题。
强化学习是智能体以“试错”的方式进行学习,通过不断地与环境交互获得奖励,来优化自身的策略以获得最大奖励的方法。智能体在每一个行动之后,都可以观察到由于行为而产生的新的环境状态,以及获得执行行为的直接价值(正面或负面)的数字奖励。智能体的目标是通过尝试和错误的过程来找到在任何给定状态下执行的最佳操作——最好的行为被认为是最大化代理预期长期回报的行为。
深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来而诞生的深度强化学习,利用深度学习与强化学习的优势互补,为聊天系统的感知决策问题提供了解决思路。
发明内容
本发明的目的在于提供一种基于深度强化学习的指导性自动聊天方法,用深度学习的方法感知环境的状态,利用强化学习的方式通过与环境交互不断优化对话策略。
为了实现上述目的,本发明采用以下技术方案:对原始文本进行分词预处理;然后预处理后的向量经过综合识别使文本信息更加泛化并将泛化后的信息通过意图识别模块识别用户当前输入的意图信息;对意图信息进一步进行状态跟踪;将当前的对话状态以及意图信息等送入决策模块在教学模块的指导下选择相对应的策略,教学模块分为两种模式教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略;接下来依照策略产生相关的回复;收集用户的评价,将评价用于决策模块的奖励持续优化产生的策略达到最优。该方法包括以下步骤:
步骤1,文本分词预处理。
步骤1.1,读取文本进行切词操作。
步骤1.2,将切分的单词读取成类别向量的表示。
步骤1.3,将切分的单词按词向量表示。
步骤1.4,将切分的单词读取成情感向量的表示。
步骤1.5,将1.2、1.3和1.4的向量进行拼接。
步骤2,文本信息的综合处理。
步骤2.1,将步骤1得到的向量送入LSTM网络识别模块。
步骤2.2,将2.1的结果加入分类网络,得出相应动作的概率。
步骤3,动作教学
步骤3.1,计算当前的模式,得出教学模式或者批判模式。
步骤3.2,若3.1为教学模式,则教学模块给出当前的示范动作,当前轮对话的动作即为示范模块;若3.2为批判模式则教学模块给出步骤2.2中动作的奖励值,当前轮对话的动作为步骤2.2中的动作。
步骤4,实体输出。根据步骤3中得出的动作进行实体填充,得到回复文本。
步骤5,根据奖励优化LSTM网络模块
步骤5.1,计算当前轮的奖励值。若步骤3.1为教学模块,则奖励值为本轮对话的用户评价;若步骤3.1为批判模块,则奖励值为本轮对话的用户评价与教学模块给出奖励的加和;
步骤5.2,根据步骤5.1的奖励值利用策略梯度的方式优化LSTM网络。
与现有技术相比,本发明具有以下明显优势:
本发明提出了一个结合深度学习的感知和强化学习的决策来对对话系统进行联合训练的框架,其中主要包含教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略。模式选择控制教学模块是直接给出示范决策还是给出决策模块的评价。决策模块根据教学模块给出的评价以及用户的评价作为优化目标不断调整自身的决策情况。这种方法兼顾深度学习和强化学习的优势,既增加了系统的泛化能力是系统更加具有鲁棒性,又增加了系统的学习能力,使系统具有更强的适应能力。在此框架下,使聊天系统得到更有效的训练,产生的答案也更安全、合理、自然有序。
附图说明
图1为本发明所涉及方法的流程图;
图2为本发明所涉及方法的框架图;
具体实施方式
以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明所述方法的流程图如图1所示,具体包括以下步骤:
步骤1,文本分词预处理。
步骤1.1,读取文本进行切词操作。
将用户的输入文字进行切词操作,例如,将“今天北京天气怎么样”切分成“今天”,“北京”,“天气”,“怎么样”。并按类别进行向量化表示,由于类别较少,因此采用独热编码的方式。
步骤1.2,将切分的单词读取成类别向量的表示。
将分词后的单词按实体类别表示,例如,“今天”,“北京”,“天气”,“怎么样”识别为“时间”,“地点”,“天气”,“疑问词”。
步骤1.3,将切分的单词按词向量表示。
将单词转换为向量的表示方式,采用Google开源的Word2Vector的方式,例如,将单词“今天”转换为“000010”的编码,便于通过模型来进行运算。
步骤1.4,将切分的单词读取成情感向量的表示。
步骤1.5,将1.2、1.3和1.4的向量进行拼接。
步骤2,文本信息的综合处理。
步骤2.1,将步骤1得到的向量送入LSTM网络识别模块。
LSTM网络可以有效的提取文本的时序信息,通过该网络可以有效根据上下文信息识别用户的意图。
步骤2.2,将步骤2.1的结果加入分类网络,得出相应动作的概率。
将LSTM的结果输入到一个全连接网络,通过Softmax激活函数,得出每个动作的概率。
步骤3,动作教学。
步骤3.1,计算当前的模式,得出教学模式或者批判模式ct
步骤3.2,若3.1为教学模式,则教学模块给出当前的示范动作,当前轮对话的动作即为示范模块;若3.2为批判模式则教学模块给出步骤2.2中动作的奖励值,当前轮对话的动作为步骤2.2中的动作。
步骤4,实体输出。根据步骤3中得出的动作进行实体填充,得到回复文本。
步骤5,根据奖励优化LSTM网络模块
步骤5.1,计算当前轮的奖励值。若步骤3.1为教学模块,则奖励值为本轮对话的用户评价;若步骤3.1为批判模块,则奖励值为本轮对话的用户评价与教学模块给出奖励的加和;
步骤5.2,根据步骤5.1的奖励值利用策略梯度的方式优化LSTM网络。策略梯度的优化算法,即:其中γ为学习率;at是t时间采取的行为;ht是t时间的对话历史;▽w表示对w取Jacobian行列式;b代表偏置,是对当前策略返回奖励的平均估计。
至此,本发明的具体实施过程就描述完毕。

Claims (3)

1.一种基于深度强化学习的指导性自动聊天方法,其特征在于:利用深度网络模型感知用户的意图以及状态,然后利用强化学习的方式优化模型,在此基础上加入了特定的教学模块,教学模块分为两种模式教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略;该方法包括以下步骤:
步骤1,文本分词预处理;
步骤1.1,读取文本进行切词操作;
步骤1.2,将切分的单词读取成类别向量的表示;
步骤1.3,将切分的单词按词向量表示;
步骤1.4,将切分的单词读取成情感向量的表示;
步骤1.5,将步骤1.2、步骤1.3和步骤1.4的向量进行拼接;
步骤2,文本信息的综合处理;
步骤2.1,将步骤1得到的向量送入LSTM网络识别模块;
步骤2.2,将步骤2.1的结果加入分类网络,得出相应动作的概率;
步骤3,动作教学
步骤3.1,计算当前的模式,得出教学模式或者批判模式;
步骤3.2,若步骤3.1为教学模式,则教学模块给出当前的示范动作,当前轮对话的动作即为示范模块;若步骤3.2为批判模式则教学模块给出步骤2.2中动作的奖励值,当前轮对话的动作为步骤2.2中的动作;
步骤4,实体输出;根据步骤3中得出的动作进行实体填充,得到回复文本;
步骤5,根据奖励优化LSTM网络模块
步骤5.1,计算当前轮的奖励值;若步骤3.1为教学模块,则奖励值为本轮对话的用户评价;若步骤3.1为批判模块,则奖励值为本轮对话的用户评价与教学模块给出奖励的加和;
步骤5.2,根据步骤5.1的奖励值利用策略梯度的方式优化LSTM网络。
2.根据权利要求1所述的一种基于深度强化学习的指导性自动聊天方法,其特征在于:建立基于教学模块指导的深度强化学习网络框架:端到端对话生成模块以及教学模式判别模块;其中模型的主体模块为一个LSTM深度网络,用来综合用户的输入信息产生相应的决策,教学模块用以指导决策模块,连同当前用户意图和对话状态的感知,选择相对应的策略,根据策略优化LSTM深度网络,提升对话生成对会话情景的适应性。
3.根据权利要求1所述的一种基于深度强化学习的指导性自动聊天方法,其特征在于:策略梯度的优化算法,即:其中γ为学习率;at是t时间采取的行为;ht是t时间的对话历史;▽w表示对w取Jacobian行列式;b代表偏置,是对当前策略返回奖励的平均估计。
CN201811231692.5A 2018-10-22 2018-10-22 一种基于深度强化学习的指导性自动聊天方法 Pending CN109388698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811231692.5A CN109388698A (zh) 2018-10-22 2018-10-22 一种基于深度强化学习的指导性自动聊天方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811231692.5A CN109388698A (zh) 2018-10-22 2018-10-22 一种基于深度强化学习的指导性自动聊天方法

Publications (1)

Publication Number Publication Date
CN109388698A true CN109388698A (zh) 2019-02-26

Family

ID=65427884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811231692.5A Pending CN109388698A (zh) 2018-10-22 2018-10-22 一种基于深度强化学习的指导性自动聊天方法

Country Status (1)

Country Link
CN (1) CN109388698A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933661A (zh) * 2019-04-03 2019-06-25 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和系统
CN111753076A (zh) * 2020-08-12 2020-10-09 腾讯科技(深圳)有限公司 对话方法、装置、电子设备及可读存储介质
CN112949684A (zh) * 2021-01-28 2021-06-11 天津大学 一种基于强化学习框架的多模态检测对话情感信息的方法
CN113535911A (zh) * 2020-12-03 2021-10-22 腾讯科技(深圳)有限公司 奖励模型处理方法、电子设备、介质和计算机程序产品
CN113836285A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 意图信息预测方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951512A (zh) * 2017-03-17 2017-07-14 深圳市唯特视科技有限公司 一种基于混合编码网络的端到端对话控制方法
CN107342078A (zh) * 2017-06-23 2017-11-10 上海交通大学 对话策略优化的冷启动系统和方法
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法
US10044862B1 (en) * 2017-04-28 2018-08-07 International Business Machines Corporation Dynamic topic guidance in the context of multi-round conversation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951512A (zh) * 2017-03-17 2017-07-14 深圳市唯特视科技有限公司 一种基于混合编码网络的端到端对话控制方法
US10044862B1 (en) * 2017-04-28 2018-08-07 International Business Machines Corporation Dynamic topic guidance in the context of multi-round conversation
CN107342078A (zh) * 2017-06-23 2017-11-10 上海交通大学 对话策略优化的冷启动系统和方法
CN107357838A (zh) * 2017-06-23 2017-11-17 上海交通大学 基于多任务学习的对话策略在线实现方法
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933661A (zh) * 2019-04-03 2019-06-25 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和系统
CN109933661B (zh) * 2019-04-03 2020-12-18 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和系统
CN111753076A (zh) * 2020-08-12 2020-10-09 腾讯科技(深圳)有限公司 对话方法、装置、电子设备及可读存储介质
CN111753076B (zh) * 2020-08-12 2022-08-26 腾讯科技(深圳)有限公司 对话方法、装置、电子设备及可读存储介质
CN113535911A (zh) * 2020-12-03 2021-10-22 腾讯科技(深圳)有限公司 奖励模型处理方法、电子设备、介质和计算机程序产品
CN113535911B (zh) * 2020-12-03 2024-04-12 腾讯科技(深圳)有限公司 奖励模型处理方法、电子设备、介质和计算机程序产品
CN112949684A (zh) * 2021-01-28 2021-06-11 天津大学 一种基于强化学习框架的多模态检测对话情感信息的方法
CN113836285A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 意图信息预测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109388698A (zh) 一种基于深度强化学习的指导性自动聊天方法
CN108734276B (zh) 一种基于对抗生成网络的模仿学习对话生成方法
Lazaridou et al. Emergent multi-agent communication in the deep learning era
Song et al. Learning task constraints for robot grasping using graphical models
CN108563779B (zh) 一种基于神经网络的无模板自然语言文本答案生成方法
Rázuri et al. Automatic emotion recognition through facial expression analysis in merged images based on an artificial neural network
Mehrotra Basics of artificial intelligence & machine learning
CN109711356A (zh) 一种表情识别方法和系统
Yuan Research on classroom emotion recognition algorithm based on visual emotion classification
Chandiok et al. CIT: Integrated cognitive computing and cognitive agent technologies based cognitive architecture for human-like functionality in artificial systems
CN115964459A (zh) 基于食品安全认知图谱的多跳推理问答方法及系统
CN113822183B (zh) 基于au-emo关联与图神经网络的零样本表情识别方法及系统
CN110633689B (zh) 基于半监督注意力网络的人脸识别模型
Farhadi et al. Domain adaptation in reinforcement learning: a comprehensive and systematic study
CN111062621A (zh) 一种基于aigan的对原始观测数据的动作规划方法
US20230077528A1 (en) Method of Generating Conversation Information Using Examplar-Based Generation Model and Apparatus for the Same
Celikkanat et al. Learning and using context on a humanoid robot using latent dirichlet allocation
Hsieh et al. Confidence identification based on the combination of verbal and non-verbal factors in human robot interaction
Chen et al. A fast and accurate multi-model facial expression recognition method for affective intelligent robots
Munanday et al. Analysis of Convolutional Neural Networks for Facial Expression Recognition on GPU, TPU and CPU
Nivetha et al. Opinion mining from social media using fuzzy inference system (FIS)
Tidemann et al. Self-organizing multiple models for imitation: Teaching a robot to dance the YMCA
Marmpena et al. Data-driven emotional body language generation for social robotics
Thakare et al. A review of Deep learning image captioning approaches
Bi et al. Fair Attention Network for Robust Visual Question Answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190226

RJ01 Rejection of invention patent application after publication