CN113360618B - 一种基于离线强化学习的智能机器人对话方法及系统 - Google Patents

一种基于离线强化学习的智能机器人对话方法及系统 Download PDF

Info

Publication number
CN113360618B
CN113360618B CN202110633919.4A CN202110633919A CN113360618B CN 113360618 B CN113360618 B CN 113360618B CN 202110633919 A CN202110633919 A CN 202110633919A CN 113360618 B CN113360618 B CN 113360618B
Authority
CN
China
Prior art keywords
model
dialogue
reinforcement learning
learning
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110633919.4A
Other languages
English (en)
Other versions
CN113360618A (zh
Inventor
郭洪飞
马向东
曾云辉
塔建
吴清见
何智慧
任亚平
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202110633919.4A priority Critical patent/CN113360618B/zh
Publication of CN113360618A publication Critical patent/CN113360618A/zh
Application granted granted Critical
Publication of CN113360618B publication Critical patent/CN113360618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明提出一种基于离线强化学习的智能机器人对话方法及系统,方法包括获取已有的对话数据信息,基于对话数据构建训练集;在训练集抽取预设关键信息,对关键信息进行数据处理,引入非策略的批量强化学习算法;构建基于对话预判模型,并利用基于关键信息得到的数据对模型进行训练;获取待交流对话的数据信息;从数据信息中抽取预设关键信息,通过数据处理得到第一向量;利用已训练的模型处理第一向量,得到对应的第一标签,根据第一向量和第一标签进行决策输出;基于决策与用户进行对话。系统包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块。

Description

一种基于离线强化学习的智能机器人对话方法及系统
技术领域
本发明涉及机器人技术领域,特别是一种基于离线强化学习的智能机器人对话方法及系统。
背景技术
智能问答机器人是模拟人类对话的计算机程序,研究者需要预先构建知识库,机器接收问题后经过计算,返回最贴切的匹配。交互机器人根据问答需求和场景分为任务型和非任务型两种类别。其中,非任务型对话面向开放领域,用户的对话不涉及要完成的具体任务,聊天机器人仅需根据具体主题及对话背景和用户交互,同时实时地为用户切换合适的主题,答案返回的方式分为检索式和生成式。检索式问答系统通过检索知识库中的所有候选结果将最可能的结果作为答案返回给用户随着人工智能兴起,人们开始研究智能问答机器人技术,以促进不同行业发展,并且智能问答机器人已在电子商务、休闲娱乐和个人助理等领域得到广泛研究与应用,在教育领域的应用亦受到众多学者关注,如乔治亚理工学院针对在线课程研发教师助理Jill Wastion,澳大利亚迪肯大学研发一款Chatbot校园精灵。随着计算机辅助教学(Computer Aided Instruction,CAI)及智能助导系统(Intelligent Tutoring Systems,ITS)的兴起,诸多学者通过开源平台研发智能问答机器人,随之开展促进学习提升的各种研究,如针对英语学习的嵌入式智能问答机器人DonQuijote、Mike等,基于医学学科的智能问答机器人Medchatbot、针对心理学科的Freudbot以及面向公式学习的xotria等,国内研究如清华图书馆智能问答机器人“小图”、基于英语学习的ALICE等。
在国外,Lowe R等人提出通过多层RNN网络来保存用户输入的上下文信息,将上下文与候选结果通过RNN编码得到向量形式,通过多方式多策略编码先前对话信息改进上下文表示,度量上下文与候选集间的向量匹配得分,根据匹配分数为用户返回最优结果。识库质量差时会直接影响问答体验,而生成式多轮交互机器人通过学习大量语料库后,Sutskever Ilya提出的Seq2Seq为序列到序列的编码-解码模型,在自动文摘,机器翻译等文本生成任务中效果明显。Seq2Seq模型在一定长度(约50个字符)下信息表示上比较好,但是在多轮交互问答任务中,由于对话上下文信息量不定,常常超过50字符,因此传统Seq2Seq模型对长上下文信息任务中表现不足,因此,Sordoni A等人提出了引入层级化思想的HRED(Hierarchical Recurrent Encoder-Decoder),模型有两层编码层,一层对对话中的字词进行编码得到句子向量,另一层根据对话中的上下文信息编码句子向量,将得到的多轮交互编码信息输入网络生成结果,该模型能够改进长交互轮数时的多轮对话效果同时一定程度上解决了RNN模型输入过长时存在的梯度消失问题。总体而言,国外对智能问答机器人在学习领域的应用探索不断深入,而国内刚刚起步,相关研究甚少。
普通的强化学习算法在智能机器人的问答系统中广泛应用,但存在一些缺陷。强化学习需要与环境不断交互、学习才能逐渐展现出更好的性能,而在人机交互初期,因为智能体所交互的数据较少,智能化水平低,开放域交流效果差。大多数深度强化学习(RL)系统不能有效地从非策略数据中学习,特别是他们不能在环境中在线探索,这些都导致将RL应用于收集数据会使得成本非常昂贵。
现有的智能机器人问答系统研究中,一种基于深度学习的机器人对话方法、装置和计算机设备(专利申请号:CN202011523483.5)和一种基于强化学习的客服机器人对话方法及其相关组件(专利申请号:CN202011459385.X)均利用深度学习算法来实现智能机器人对话系统,前者基于对话框输入操作和深度学习算法进行交互,后者主要获取用户输入的上一轮的第一文本信息,并选择对应的行动策略进行回复,获取用户对行动策略反馈的第二文本信息,利用预训练的情绪分类模型对第二文本信息进行情绪分类,获取用户的情绪,两者均未在离线学习和脱机测试上进行优化。
发明内容
为了解决现有深度强化学习系统不够优化的技术问题,本发明提出一种基于离线强化学习的智能机器人对话方法及系统。
为此,本发明提出的基于离线强化学习的智能机器人对话方法具体包括以下步骤:
S1、获取已有的对话数据信息,对所述对话数据信息进行分类训练,构建训练集;
S2、在所述训练集抽取预设关键信息,对所述预设关键信息进行数据处理,引入非策略的批量强化学习算法;
S3、构建基于离线强化学习的对话预判模型,并利用所述步骤S2得到的数据对所述对话预判模型进行训练,得到已训练的所述对话预判模型;
S4、获取待交流对话的数据信息;
S5、从所述待交流对话的数据信息中抽取预设关键信息,通过数据处理得到第一向量;
S6、利用所述已训练的对话预判模型处理所述第一向量,得到对应的第一标签,根据所述第一向量和所述第一标签进行决策输出;
S7、基于所述决策与用户进行对话,存储学习结果。
进一步地,所述步骤S3具体包括:
S31、对所述对话预判模型提取出待优化参数,所述待优化参数包括Q函数;
S32、根据批量强化学习算法对已有的样本数据和动作网络进行离线学习训练,剔除过高估计的Q值;
S33、将受限的Q值离散化,
S34、通过相对熵控制,将先验合并到策略中;
S35、均衡化训练得到智能化的对话网络,完成网络的预优化。
进一步地,所述Q函数的具体形式如下:
Figure GDA0003482961090000031
其中,st代表环境状态,at代表强化学习中智能体所做的动作,r(st,at)表示奖励函数,γ表示折扣因子。
进一步地,所述获取待交流对话的数据信息具体包括通过声音传感器获取语音模拟信号,通过数字信号处理器将模拟信号转化成数字信号,由此获取待交流对话的数据信息。
进一步地,所述步骤S5中,通过循环神经网络对关键信息进行数据处理,得到第一向量。
进一步地,所述循环神经网络使用序列到序列的编码-解码模型,包括编码器循环网络、上下文循环网络和解码器循环网络。
进一步地,所述得到对应的第一标签具体包括利用已训练的对话预判模型将第一向量与标准语句进行对比,对阈值左右的信号进行划分,计算第一向量与标准语句的相似程度,得到对应的第一标签。
本发明提出的基于离线强化学习的智能机器人对话系统具体包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块,所述模型存储器中存储有对话预判模型,所述存储模块中存储有用于对话的标准语句,所述语言收集模块包括声音传感器和数字信号处理器,所述智能对话执行模块包括执行处理器、数模转换装置和扬声器。
进一步地,在模型训练过程中,利用所述语言数据库中已有的对话数据信息,根据批量强化学习算法对所述模型存储器中的样本数据和动作网络进行离线强化学习训练,剔除过高估计的Q值,将受限的Q值离散化,通过相对熵控制将先验合并到策略中,均衡化地训练智能化对话网络,完成网络的预训练。
进一步地,在对话过程中,通过所述语言收集模块获取待交流对话的数据信息,所述CPU处理器从对话信息中抽取预设关键信息,进行数据处理得到第一向量,所述CPU处理器利用已训练的对话预判模型处理第一向量,得到对应的第一标签,根据第一向量和第一标签生成语音反馈信息,将语音反馈信息传递至所述智能对话执行模块,所述智能对话执行模块与用户进行对话。
相对于现有技术,本发明具有如下有益效果:
引入非策略的批量强化学习(BRL)算法,并且在部署策略之前先离线学习和测试策略,避免学习到不恰当的行为。
在本发明的一些实施例中,还具有如下有益效果:
引入相对熵控制(KL控制),避免了批量强化学习(BRL)的高估和不稳定性,进一步改善对话系统的性能。
附图说明
图1是智能机器人对话方法的流程图;
图2是对话预判模型的构建训练流程图;
图3是RNN网络的结构示意图;
图4是智能机器人对话系统的结构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
如图1所示,本发明实施例提出的基于离线强化学习的智能机器人对话方法包括如下步骤:
S1、获取语言数据库中已有的对话数据信息,并对对话数据信息进行离散强化学习分类训练,构建训练集。
S2、在训练集抽取预设关键信息,并对抽取的关键信息进行数据处理,引入非策略的BRL(批量强化学习)算法。
S3、构建基于离线强化学习的对话预判模型,并利用对抽取的关键信息进行数据处理后得到的数据对模型进行训练,得到已训练的对话预判模型,如图2所示,具体包括:
S31、对模型提取出待优化参数,定义合适的reward、value function、Q-function、history、state来表达待优化参数,在智能机器人对话中,利用人类的互动来代表“环境”,人类对机器人说话的反应被用来计算一个奖励信号,来训练模型。环境的状态state:st代表对话中机器人和人类所说的所有文本,state有一个层次结构,标志着它被划分为话语,并被进一步划分为标记。当机器人正在构建一个话语
Figure GDA0003482961090000041
时,使用模型的估计Q值可以直接获得未来奖励的目标Q估计,然而,考虑到与其让人类人工标记良好的性能,代理应该识别用户反应中的信息线索,比如情绪,以及他们聊天的时间,创造一个在人类对话伙伴中产生积极反应的代理。基于丰富、互动的对话内容,本发明设计了来自人类对话的心理灵感的几种内在的奖励功能:(1)激发积极的情绪和积极情绪的转变;(2)引起笑声(计算用户响应中的“哈哈”数量);(3)人类输入和代理响应之间的高语义相似性(句子嵌入空间的近距离),以达到释义和风格匹配,从而促进良好的对话问题,提高主动倾听技巧,给代理的总奖励是这些奖励的组合,奖励取决于引起来自人类用户的积极反应,即隐含的人类奖励,这些奖励是对设计人类享受的良好衡量标准,通过获取聊天中隐式表达的人类反应来了解人类的偏好可以改善开放域对话系统,因此,在机器人说话的最后时刻,估计的未来奖励必须包括人类的反应,通过学习人类反应方式中隐含的信号来提高对话模型与人类进行自然对话的能力,通过公式
Figure GDA0003482961090000051
将人类的响应附加到对话中,其反馈到目标Q网络中,并使用估计的Q值作为机器人下一个话语的第一个标记,Q函数的具体形式如下:
Figure GDA0003482961090000052
其中,st代表环境状态,at代表强化学习中智能体所做的动作,r(st,at)表示奖励函数,γ表示折扣因子。
S32、根据BRL(批量强化学习)算法对已有的样本数据和动作网络进行离线学习训练,剔除过高估计的Q值,在系统交互时如果没有很好地覆盖state-action,Q估计将会有噪声,产生的方差将导致公式(1)被过高估计,这使得模型的state-action空间区域紧缩,因为它没有数据来学习合理的策略,也不能探索来改进其估计。因此,本发明从一个经过剔除训练的单一目标Q网络中获得了一个超过预测的分布,并利用这些预测的下界来减少高估偏差。给定目标Q网络
Figure GDA0003482961090000053
使用运行网络的M随机向前通过的蒙特卡洛(MC)估计计算
Figure GDA0003482961090000054
每个都有一个新的退出掩码di~qW
Figure GDA0003482961090000055
S33、将受限的Q值离散化,通过学习batch(批处理)的生成模型Gw=p(a|s),以及在学习和推理期间从该模型中采样,来将Q网络的actions限制在batch处理中包含的数据来解决BRL(批量强化学习)问题。由于BCQ(Batch-Constrained deep Q-Learning,批量约束的深度Q学习)是为连续动作域设计的,因此它应用了学习的扰动模型ξ(s,a;Φ),允许在范围内改变动作[—Φ,Φ]。BCQ学习包含微扰动模型
Figure GDA0003482961090000056
的Q估计。为了进行动作,从生成模型中采样可能的动作,采样
Figure GDA0003482961090000061
并选择具有最大Q值的action,给出BCQ策略:
Figure GDA0003482961090000062
通过对已知动作序列数据的最大似然估计训练,可以获得模型的场景p(a|s)。这个先前的模型提供了从batch数据中得到的比p(a|s)的更稳健的估计。为使BCQ适应离散动作空间(DBCQ,Discrete Batch-Constrained deep Q-Learning,离散批量约束的深度Q学习),引入预训练先验模型作为一个改进版本的Gw,由于动作空间是离散的,所以不使用扰动模型来修改动作,而是将DBCQ策略定义为:
Figure GDA0003482961090000063
S34、通过来自预先训练之前的KL(相对熵)控制,将先验p(a|s)合并到策略πθ中,因此,在保证最大化奖励的前提下,使用KL控制来减小p(a|s)和Q网络策略πθ之间的分歧。给定一个动作轨迹τ={a1,a2,…,at-1},
Figure GDA0003482961090000064
代表Q学习算法在轨迹上的策略,
Figure GDA0003482961090000065
代表在轨迹上的先验分布,r(τ)代表奖励,寻求最大化以下KL正则化的目标:
L(q)=Eq(τ)[r(τ)]/c-DKL[q(τ)||p(τ)] (5)
由于
Figure GDA0003482961090000066
我们可以看到,这相当于在操作级别上使策略πθ的期望值函数最大化:
Figure GDA0003482961090000067
p(a|s)奖励模型中在先验下具有高概率的action,将模型偏置于现实且可能在批中的状态动作对。-logπ(a|s)项类似于熵的正则化。通过熵正则化来保持动作空间的多样性对将等式6作为一个熵正则化的q函数,可以得到:
Figure GDA0003482961090000068
基于π(at|st)∝exp(-ξ(st,at))形式的基于能量的模型,我们可以推导出熵正则化q函数的软版本,它使用玻尔兹曼分布来估计未来的奖励,将其称为一个Ψ函数,最佳的Ψ函数和策略包括:
Figure GDA0003482961090000071
Figure GDA0003482961090000072
由于Ψ学习避免了对噪声估计的硬最大值,因此导致对未来奖励[1,21]的高估较小。这将导致更稳定的TD更新和帮助学习。因此,在BRL环境中,它对于减少面对不确定性的乐观情绪将特别有用。
S35、模型参数平均化,通过均衡化训练得到智能化的对话网络,完成网络的预优化,batch处理中的数据可以从具有不同架构的各种不同模型M生成的设置,每个模型都学习p的不同估计p(a|s;M),使用这种多样性,通过基于每个模型的归一化分数S(M)来计算这些模型的加权平均值,来创建一个更健壮的先验,完成预训练离线强化学习模型。分数可以是模型质量的衡量,或者仅仅是该模型生成的批数据的比例。因此,将pMA(a|s)定义为模型平均先验:
Figure GDA0003482961090000073
S4、通过声音传感器获取语音模拟信号,通过数字信号处理器将模拟信号转化成数字信号,由此获取待交流对话的数据信息。
S5、从对话信息中抽取预设关键信息,通过RNN网络对关键信息进行数据处理,得到第一向量,如图3所示,RNN网络主要使用的是层次化的seq2seq(序列到序列的编码-解码模型)对话框模型,包括三个循环网络,分别为编码器RNN、上下文RNN和解码器RNN,上下文RNN形成为层次结构的上层,只在每次话语之后进行更新,而不是每个标记。编码器RNN对下一个输入话语的标记un=[w1,w2,…wn]进行操作,将它们编码为表示形式
Figure GDA0003482961090000074
将其输入到上下文RNN中,上下文RNN的输出输入解码器RNN,产生输出话语un+1
S6、利用已训练的对话预判模型处理第一向量,将其与标准语句进行对比,对阈值左右的信号进行划分,计算第一向量与标准语句的相似程度,得到对应的第一标签,根据第一向量和第一标签生成语音反馈信息,基于语音反馈信息进行类别检索和引用准确率查询,进行决策输出。
由于对话框的状态动作空间很大,因此将RL应用于对话框生成具有挑战性。该模型试图构造一个响应话语
Figure GDA0003482961090000075
通过迭代地选择一个动作ai作为下一个标记。在预先训练的模型的词汇表中,标记的数量是2万个,这使得动作空间非常高维,可能会加剧高估的问题,并使批量学习变得过于困难。因此,使用预先训练过的语言模型的权值来初始化Q网络,为合适的单词提供了更强的先验。
S7、将处理好的数字信号再转换成适合信道传输、扬声器播放的模拟信号,通过扬声器播放,与用户进行对话,并且对学习结果进行存储,便于下次使用。
如图4所示,本发明实施例提出的基于离线强化学习的智能机器人对话系统包含GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块。模型存储器中存储有对话预判模型。存储模块中存储有用于对话的标准语句。语言收集模块包括声音传感器和数字信号处理器。智能对话执行模块包括执行处理器、数模转换装置和扬声器。
在模型训练过程中,利用语言数据库中已有的对话数据信息,根据非策略算法对模型存储器中的样本数据和动作网络进行离线强化学习训练,剔除过高估计的Q值,将受限的Q值离散化,接着通过KL(相对熵)控制将先验p(a|s)合并到策略πθ中,最后使用归一化分数S(M)计算模型加权平均值的方式,均衡化地训练出智能化对话网络,完成网络的预训练,生成离线强化学习构建模型。在整个预优化过程中离线强化学习处理器不断地与GPU服务器交换处理数据,并将预优化的结果存储到模型存储器中。
当用户与已经进行过离线强化学习训练的智能机器人对话系统对话时,通过声音传感器获取语音模拟信号,通过数字信号处理器将模拟信号转化成数字信号,获取待交流对话的数据信息,CPU处理器从对话信息中抽取预设关键信息,通过RNN网络对关键信息进行数据处理,得到第一向量,并利用已训练的对话预判模型处理第一向量,将其与存储模块中的标准语句进行对比,对阈值左右的信号进行划分,计算第一向量与标准语句的相似程度,得到对应的第一标签,根据第一向量和第一标签生成语音反馈信息,将语音反馈信息传递至智能对话执行模块,执行处理器基于语音反馈信息进行类别检索和引用准确率查询,进行决策输出,通过数模转换装置将处理好的数字信号转换成模拟信号,通过扬声器播放,与用户进行对话,并且对学习结果进行存储,便于下次使用。在智能机器人对话系统中,强化学习过程一直在不断采集信息,在与人类交互的同时,不断学习探索,提高学习网络的性能,从而使得开放域聊天机器人更加智能化,人性化。
基于离线强化学习的智能机器人对话系统能够处理用户特定的语音信息,提高机器人的学习能力,避免了机械式的对话,并将学习的结果进行存储,便于用户在下一次使用,提高用户体验。
本发明利用在数据上预训练的模型作为强先验,并在RL训练中使用KL控制来惩罚与此先验的散度,并且还使用基于下滴式的不确定性估计来降低目标Q值,作为双Q-Learning更有效的替代方法。利用本发明提出的非策略的批量强化学习(BRL)算法,可以从收集的人类交互数据中事后提取多个不同的奖励功能,并从所有这些数据中有效地学习。本发明提出的非策略的批量强化学习(BRL)算法在开放域对话框生成问题上进行了测试,通过在开放域设置中部署基于离线强化学习的智能机器人对话系统与人类实时交谈,来测试系统的真实泛化,证明了本发明提出的算法在非策略批处理RL中比之前的方法取得了显著的改进。
相比于现有技术,本发明的进步主要体现在:
1、引入非策略的批量强化学习(BRL)算法,通过获取聊天中隐式表达的人类反应来了解人类的偏好改善开放域对话系统,用最大化显式奖励替代显式反馈,更精准的捕获人类交流时所展现的偏好;
2、在部署策略之前先离线学习和测试策略,避免学习到不恰当的行为,并引入KL控制,避免了BRL的高估和不稳定性,从而进一步改善对话系统的性能。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围。应当指出,对于本技术领域的技术人员,在不脱离本发明设计结构及原理的前提下对本发明方案所作的等同变化都视作本发明的保护范围。

Claims (9)

1.一种基于离线强化学习的智能机器人对话方法,其特征在于,具体包括以下步骤:
S1、获取已有的对话数据信息,对所述对话数据信息进行分类训练,构建训练集;
S2、在所述训练集抽取预设关键信息,对所述预设关键信息进行数据处理,引入非策略的批量强化学习算法,通过获取聊天中隐式表达的人类反应来了解人类的偏好改善开放域对话系统;
S3、构建基于离线强化学习的对话预判模型,并利用所述步骤S2得到的数据对所述对话预判模型进行训练,得到已训练的所述对话预判模型;其中训练时用最大化显式奖励替代显式反馈,捕获人类交流时所展现的偏好;所述奖励取决于引起来自人类用户的积极反应,即隐含的人类奖励;所述步骤S3具体包括:
S31、对所述对话预判模型提取出待优化参数,所述待优化参数包括Q函数;
S32、根据批量强化学习算法对已有的样本数据和动作网络进行离线学习训练,剔除过高估计的Q值;
S33、将受限的Q值离散化,通过学习批处理的生成模型Gw=p(a|s),以及在学习和推理期间从所述模型中采样,将Q网络的动作限制在批处理中包含的数据来解决批量强化学习问题;批量约束的深度Q学习是为连续动作域设计的,所述批量约束的深度Q学习应用了学习的扰动模型ξ(s,a;Φ),允许在范围内改变动作[—Φ,Φ];所述批量约束的深度Q学习包含微扰动模型
Figure FDA0003482961080000011
的Q估计;为了进行动作,从生成模型中采样可能的动作,采样
Figure FDA0003482961080000012
并选择具有最大Q值的动作,给出批量约束的深度Q学习策略:
Figure FDA0003482961080000013
其中π表示策略函数,BCQ表示批量约束的深度Q学习,s表示状态,ai表示采样的动作;
通过对已知动作序列数据的最大似然估计训练,获得模型的场景p(a|s);先前的模型提供了从批处理数据中得到的比模型的场景p(a|s)的更稳健的估计;为使批量约束的深度Q学习适应离散动作空间,引入预训练先验模型作为一个改进版本的Gw,由于动作空间是离散的,所以不使用扰动模型来修改动作,而是将离散批量约束的深度Q学习策略定义为:
Figure FDA0003482961080000014
其中DBCQ表示离散批量约束的深度Q学习;
S34、通过相对熵控制,将先验p(a|s)合并到策略πθ中;在保证最大化奖励的前提下,使用相对熵控制来减小先验p(a|s)和Q网络策略πθ之间的分歧;给定一个动作轨迹τ={a1,a2,…,at-1},
Figure FDA0003482961080000021
代表Q学习算法在轨迹上的策略,
Figure FDA0003482961080000022
代表在轨迹上的先验分布,r(τ)代表奖励,寻求最大化以下相对熵正则化的目标:
L(q)=Eq(τ)[r(τ)]/c-DKL[q(τ)||p(τ)]
由于
Figure FDA0003482961080000023
即在操作级别上使策略πθ的状态动作对的期望值函数最大化:
Figure FDA0003482961080000024
先验p(a|s)奖励模型中在先验下具有高概率的动作,将模型偏置于现实且可能在批中的状态动作对;-logπ(a|s)项类似于熵的正则化;通过熵正则化来保持动作空间的多样性,将状态动作对的期望值函数作为一个熵正则化的q函数,得到:
Figure FDA0003482961080000025
基于π(at|st)∝exp(-ξ(st,at))形式的基于能量的模型,推导出熵正则化q函数的软版本,使用玻尔兹曼分布来估计未来的奖励,将其称为一个Ψ函数,最佳的Ψ函数和策略包括:
Figure FDA0003482961080000026
Figure FDA0003482961080000027
S35、均衡化训练得到智能化的对话网络,完成网络的预优化;批处理中的数据从具有不同架构的各种不同模型M生成的设置,每个模型都学习p的不同估计p(a|s;M),使用这种多样性,通过基于每个模型的归一化分数S(M)来计算每个模型的加权平均值,来创建一个更健壮的先验,完成预训练离线强化学习模型;分数是模型质量的衡量,或者是该模型生成的批数据的比例;将pMA(a|s)定义为模型平均先验:
Figure FDA0003482961080000028
S4、获取待交流对话的数据信息;
S5、从所述待交流对话的数据信息中抽取预设关键信息,通过数据处理得到第一向量;
S6、利用所述已训练的对话预判模型处理所述第一向量,得到对应的第一标签,根据所述第一向量和所述第一标签进行决策输出;
S7、基于所述决策与用户进行对话,存储学习结果;
通过学习人类反应方式中隐含的信号来提高对话模型与人类进行自然对话的能力,从而使在机器人说话的最后时刻,估计的未来奖励包括人类的反应。
2.根据权利要求1所述的基于离线强化学习的智能机器人对话方法,其特征在于,所述Q函数的具体形式如下:
Figure FDA0003482961080000031
其中,st代表环境状态,at代表强化学习中智能体所做的动作,r(st,at)表示奖励函数,γ表示折扣因子。
3.根据权利要求1所述的基于离线强化学习的智能机器人对话方法,其特征在于,所述获取待交流对话的数据信息具体包括通过声音传感器获取语音模拟信号,通过数字信号处理器将模拟信号转化成数字信号,由此获取待交流对话的数据信息。
4.根据权利要求1所述的基于离线强化学习的智能机器人对话方法,其特征在于,所述步骤S5中,通过循环神经网络对关键信息进行数据处理,得到第一向量。
5.根据权利要求4所述的基于离线强化学习的智能机器人对话方法,其特征在于,所述循环神经网络使用序列到序列的编码-解码模型,包括编码器循环网络、上下文循环网络和解码器循环网络。
6.根据权利要求1所述的基于离线强化学习的智能机器人对话方法,其特征在于,所述得到对应的第一标签具体包括利用已训练的对话预判模型将第一向量与标准语句进行对比,对阈值左右的信号进行划分,计算第一向量与标准语句的相似程度,得到对应的第一标签。
7.一种基于离线强化学习的智能机器人对话系统,其特征在于,具体包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块,所述模型存储器中存储有对话预判模型,所述存储模块中存储有用于对话的标准语句,所述语言收集模块包括声音传感器和数字信号处理器,所述智能对话执行模块包括执行处理器、数模转换装置和扬声器,所述存储模块中存储有计算机程序,所述计算机程序可被处理器执行以实现权利要求1-6中任一项所述的方法。
8.根据权利要求7所述的基于离线强化学习的智能机器人对话系统,其特征在于,在模型训练过程中,利用所述语言数据库中已有的对话数据信息,根据批量强化学习算法对所述模型存储器中的样本数据和动作网络进行离线强化学习训练,剔除过高估计的Q值,将受限的Q值离散化,通过相对熵控制将先验合并到策略中,均衡化地训练智能化对话网络,完成网络的预训练。
9.根据权利要求7所述的基于离线强化学习的智能机器人对话系统,其特征在于,在对话过程中,通过所述语言收集模块获取待交流对话的数据信息,所述CPU处理器从对话信息中抽取预设关键信息,进行数据处理得到第一向量,所述CPU处理器利用已训练的对话预判模型处理第一向量,得到对应的第一标签,根据第一向量和第一标签生成语音反馈信息,将语音反馈信息传递至所述智能对话执行模块,所述智能对话执行模块与用户进行对话。
CN202110633919.4A 2021-06-07 2021-06-07 一种基于离线强化学习的智能机器人对话方法及系统 Active CN113360618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110633919.4A CN113360618B (zh) 2021-06-07 2021-06-07 一种基于离线强化学习的智能机器人对话方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110633919.4A CN113360618B (zh) 2021-06-07 2021-06-07 一种基于离线强化学习的智能机器人对话方法及系统

Publications (2)

Publication Number Publication Date
CN113360618A CN113360618A (zh) 2021-09-07
CN113360618B true CN113360618B (zh) 2022-03-11

Family

ID=77533018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110633919.4A Active CN113360618B (zh) 2021-06-07 2021-06-07 一种基于离线强化学习的智能机器人对话方法及系统

Country Status (1)

Country Link
CN (1) CN113360618B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490967B (zh) * 2021-12-28 2023-10-31 北京百度网讯科技有限公司 对话模型的训练方法、对话机器人的对话方法、装置和电子设备
CN114443828B (zh) * 2022-02-09 2023-07-28 北京百度网讯科技有限公司 一种通用对话模型的训练方法、装置、电子设备及介质
CN115310429B (zh) * 2022-08-05 2023-04-28 厦门靠谱云股份有限公司 一种多轮倾听对话模型中的数据压缩与高性能计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652371A (zh) * 2020-05-29 2020-09-11 京东城市(北京)数字科技有限公司 一种离线强化学习网络训练方法、装置、系统及存储介质
WO2020228636A1 (zh) * 2019-05-10 2020-11-19 京东方科技集团股份有限公司 训练方法和装置、对话处理方法和系统及介质
CN112579758A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 模型训练方法、装置、设备、存储介质和程序产品

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105788593B (zh) * 2016-02-29 2019-12-10 中国科学院声学研究所 生成对话策略的方法及系统
US20200234117A1 (en) * 2017-08-25 2020-07-23 Google Llc Batched reinforcement learning
US10424302B2 (en) * 2017-10-12 2019-09-24 Google Llc Turn-based reinforcement learning for dialog management
CN108804611B (zh) * 2018-05-30 2021-11-19 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
US20200081939A1 (en) * 2018-09-11 2020-03-12 Hcl Technologies Limited System for optimizing detection of intent[s] by automated conversational bot[s] for providing human like responses
CN110046221B (zh) * 2019-03-01 2023-12-22 平安科技(深圳)有限公司 一种机器对话方法、装置、计算机设备及存储介质
CN111400466A (zh) * 2020-03-05 2020-07-10 中国工商银行股份有限公司 一种基于强化学习的智能对话方法及装置
CN112507094B (zh) * 2020-12-11 2021-07-13 润联软件系统(深圳)有限公司 一种基于强化学习的客服机器人对话方法及其相关组件
CN112632246A (zh) * 2020-12-21 2021-04-09 平安普惠企业管理有限公司 基于深度学习的机器人对话方法、装置和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228636A1 (zh) * 2019-05-10 2020-11-19 京东方科技集团股份有限公司 训练方法和装置、对话处理方法和系统及介质
CN111652371A (zh) * 2020-05-29 2020-09-11 京东城市(北京)数字科技有限公司 一种离线强化学习网络训练方法、装置、系统及存储介质
CN112579758A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 模型训练方法、装置、设备、存储介质和程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Proximal Policy Optimization Algorithms;John Schulman;《arXiv》;20170828;第1-12页 *

Also Published As

Publication number Publication date
CN113360618A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
Li et al. Deep reinforcement learning for dialogue generation
CN113360618B (zh) 一种基于离线强化学习的智能机器人对话方法及系统
Li et al. Dialogue generation: From imitation learning to inverse reinforcement learning
CN110148318B (zh) 一种数字助教系统、信息交互方法和信息处理方法
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110837548B (zh) 答案匹配方法、装置、电子设备及存储介质
CN111897941A (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
CN112541063B (zh) 一种基于自学习对话模型的人机对话方法及系统
Merdivan et al. Dialogue systems for intelligent human computer interactions
CN106875940B (zh) 一种基于神经网络的机器自学习构建知识图谱训练方法
CN112214591B (zh) 一种对话预测的方法及装置
CN112364148B (zh) 一种基于深度学习方法的生成型聊天机器人
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
Su et al. A recursive dialogue game for personalized computer-aided pronunciation training
CN114780675A (zh) 对话交互方法、装置、设备与介质
CN112559706A (zh) 对话生成模型的训练方法、对话方法、设备以及存储介质
CN113779224A (zh) 一种基于用户对话历史的个性化对话生成方法与系统
CN112765333B (zh) 基于情感与提示词结合的自动对话生成方法及系统
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统
CN117271745A (zh) 一种信息处理方法、装置及计算设备、存储介质
Donati et al. Learning natural language generation from scratch
CN110046239B (zh) 基于情感编辑的对话方法
Saito et al. Chatgpt-edss: Empathetic dialogue speech synthesis trained from chatgpt-derived context word embeddings
Carrara Reinforcement learning for Dialogue Systems optimization with user adaptation.
Shi et al. The design and implementation of intelligent english learning chabot based on transfer learning technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant