CN113360618B

CN113360618B - 一种基于离线强化学习的智能机器人对话方法及系统

Info

Publication number: CN113360618B
Application number: CN202110633919.4A
Authority: CN
Inventors: 郭洪飞; 马向东; 曾云辉; 塔建; 吴清见; 何智慧; 任亚平; 张锐
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-03-11
Anticipated expiration: 2041-06-07
Also published as: CN113360618A

Abstract

本发明提出一种基于离线强化学习的智能机器人对话方法及系统，方法包括获取已有的对话数据信息，基于对话数据构建训练集；在训练集抽取预设关键信息，对关键信息进行数据处理,引入非策略的批量强化学习算法；构建基于对话预判模型，并利用基于关键信息得到的数据对模型进行训练；获取待交流对话的数据信息；从数据信息中抽取预设关键信息，通过数据处理得到第一向量；利用已训练的模型处理第一向量，得到对应的第一标签，根据第一向量和第一标签进行决策输出；基于决策与用户进行对话。系统包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块。

Description

一种基于离线强化学习的智能机器人对话方法及系统

技术领域

本发明涉及机器人技术领域，特别是一种基于离线强化学习的智能机器人对话方法及系统。

背景技术

智能问答机器人是模拟人类对话的计算机程序，研究者需要预先构建知识库，机器接收问题后经过计算，返回最贴切的匹配。交互机器人根据问答需求和场景分为任务型和非任务型两种类别。其中，非任务型对话面向开放领域，用户的对话不涉及要完成的具体任务，聊天机器人仅需根据具体主题及对话背景和用户交互，同时实时地为用户切换合适的主题，答案返回的方式分为检索式和生成式。检索式问答系统通过检索知识库中的所有候选结果将最可能的结果作为答案返回给用户随着人工智能兴起，人们开始研究智能问答机器人技术，以促进不同行业发展，并且智能问答机器人已在电子商务、休闲娱乐和个人助理等领域得到广泛研究与应用，在教育领域的应用亦受到众多学者关注，如乔治亚理工学院针对在线课程研发教师助理Jill Wastion，澳大利亚迪肯大学研发一款Chatbot校园精灵。随着计算机辅助教学(Computer Aided Instruction，CAI)及智能助导系统(Intelligent Tutoring Systems，ITS)的兴起，诸多学者通过开源平台研发智能问答机器人，随之开展促进学习提升的各种研究，如针对英语学习的嵌入式智能问答机器人DonQuijote、Mike等，基于医学学科的智能问答机器人Medchatbot、针对心理学科的Freudbot以及面向公式学习的xotria等，国内研究如清华图书馆智能问答机器人“小图”、基于英语学习的ALICE等。

在国外，Lowe R等人提出通过多层RNN网络来保存用户输入的上下文信息，将上下文与候选结果通过RNN编码得到向量形式，通过多方式多策略编码先前对话信息改进上下文表示，度量上下文与候选集间的向量匹配得分，根据匹配分数为用户返回最优结果。识库质量差时会直接影响问答体验，而生成式多轮交互机器人通过学习大量语料库后，Sutskever Ilya提出的Seq2Seq为序列到序列的编码-解码模型，在自动文摘，机器翻译等文本生成任务中效果明显。Seq2Seq模型在一定长度(约50个字符)下信息表示上比较好，但是在多轮交互问答任务中，由于对话上下文信息量不定，常常超过50字符，因此传统Seq2Seq模型对长上下文信息任务中表现不足，因此，Sordoni A等人提出了引入层级化思想的HRED(Hierarchical Recurrent Encoder-Decoder)，模型有两层编码层，一层对对话中的字词进行编码得到句子向量，另一层根据对话中的上下文信息编码句子向量，将得到的多轮交互编码信息输入网络生成结果，该模型能够改进长交互轮数时的多轮对话效果同时一定程度上解决了RNN模型输入过长时存在的梯度消失问题。总体而言，国外对智能问答机器人在学习领域的应用探索不断深入，而国内刚刚起步，相关研究甚少。

普通的强化学习算法在智能机器人的问答系统中广泛应用，但存在一些缺陷。强化学习需要与环境不断交互、学习才能逐渐展现出更好的性能，而在人机交互初期，因为智能体所交互的数据较少，智能化水平低，开放域交流效果差。大多数深度强化学习(RL)系统不能有效地从非策略数据中学习，特别是他们不能在环境中在线探索，这些都导致将RL应用于收集数据会使得成本非常昂贵。

现有的智能机器人问答系统研究中，一种基于深度学习的机器人对话方法、装置和计算机设备(专利申请号：CN202011523483.5)和一种基于强化学习的客服机器人对话方法及其相关组件(专利申请号：CN202011459385.X)均利用深度学习算法来实现智能机器人对话系统，前者基于对话框输入操作和深度学习算法进行交互，后者主要获取用户输入的上一轮的第一文本信息，并选择对应的行动策略进行回复，获取用户对行动策略反馈的第二文本信息，利用预训练的情绪分类模型对第二文本信息进行情绪分类，获取用户的情绪，两者均未在离线学习和脱机测试上进行优化。

发明内容

为了解决现有深度强化学习系统不够优化的技术问题，本发明提出一种基于离线强化学习的智能机器人对话方法及系统。

为此，本发明提出的基于离线强化学习的智能机器人对话方法具体包括以下步骤：

S1、获取已有的对话数据信息，对所述对话数据信息进行分类训练，构建训练集；

S2、在所述训练集抽取预设关键信息，对所述预设关键信息进行数据处理,引入非策略的批量强化学习算法；

S3、构建基于离线强化学习的对话预判模型，并利用所述步骤S2得到的数据对所述对话预判模型进行训练，得到已训练的所述对话预判模型；

S4、获取待交流对话的数据信息；

S5、从所述待交流对话的数据信息中抽取预设关键信息，通过数据处理得到第一向量；

S6、利用所述已训练的对话预判模型处理所述第一向量，得到对应的第一标签，根据所述第一向量和所述第一标签进行决策输出；

S7、基于所述决策与用户进行对话，存储学习结果。

进一步地，所述步骤S3具体包括：

S31、对所述对话预判模型提取出待优化参数，所述待优化参数包括Q函数；

S32、根据批量强化学习算法对已有的样本数据和动作网络进行离线学习训练，剔除过高估计的Q值；

S33、将受限的Q值离散化，

S34、通过相对熵控制，将先验合并到策略中；

S35、均衡化训练得到智能化的对话网络，完成网络的预优化。

进一步地，所述Q函数的具体形式如下：

其中，s_t代表环境状态，a_t代表强化学习中智能体所做的动作，r(s_t,a_t)表示奖励函数，γ表示折扣因子。

进一步地，所述获取待交流对话的数据信息具体包括通过声音传感器获取语音模拟信号，通过数字信号处理器将模拟信号转化成数字信号，由此获取待交流对话的数据信息。

进一步地，所述步骤S5中，通过循环神经网络对关键信息进行数据处理，得到第一向量。

进一步地，所述循环神经网络使用序列到序列的编码-解码模型，包括编码器循环网络、上下文循环网络和解码器循环网络。

进一步地，所述得到对应的第一标签具体包括利用已训练的对话预判模型将第一向量与标准语句进行对比，对阈值左右的信号进行划分，计算第一向量与标准语句的相似程度，得到对应的第一标签。

本发明提出的基于离线强化学习的智能机器人对话系统具体包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块，所述模型存储器中存储有对话预判模型，所述存储模块中存储有用于对话的标准语句，所述语言收集模块包括声音传感器和数字信号处理器，所述智能对话执行模块包括执行处理器、数模转换装置和扬声器。

进一步地，在模型训练过程中，利用所述语言数据库中已有的对话数据信息，根据批量强化学习算法对所述模型存储器中的样本数据和动作网络进行离线强化学习训练，剔除过高估计的Q值，将受限的Q值离散化，通过相对熵控制将先验合并到策略中，均衡化地训练智能化对话网络，完成网络的预训练。

进一步地，在对话过程中，通过所述语言收集模块获取待交流对话的数据信息，所述CPU处理器从对话信息中抽取预设关键信息，进行数据处理得到第一向量，所述CPU处理器利用已训练的对话预判模型处理第一向量，得到对应的第一标签，根据第一向量和第一标签生成语音反馈信息，将语音反馈信息传递至所述智能对话执行模块，所述智能对话执行模块与用户进行对话。

相对于现有技术，本发明具有如下有益效果：

引入非策略的批量强化学习(BRL)算法，并且在部署策略之前先离线学习和测试策略，避免学习到不恰当的行为。

在本发明的一些实施例中，还具有如下有益效果：

引入相对熵控制(KL控制)，避免了批量强化学习(BRL)的高估和不稳定性，进一步改善对话系统的性能。

附图说明

图1是智能机器人对话方法的流程图；

图2是对话预判模型的构建训练流程图；

图3是RNN网络的结构示意图；

图4是智能机器人对话系统的结构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1所示，本发明实施例提出的基于离线强化学习的智能机器人对话方法包括如下步骤：

S1、获取语言数据库中已有的对话数据信息，并对对话数据信息进行离散强化学习分类训练，构建训练集。

S2、在训练集抽取预设关键信息，并对抽取的关键信息进行数据处理,引入非策略的BRL(批量强化学习)算法。

S3、构建基于离线强化学习的对话预判模型，并利用对抽取的关键信息进行数据处理后得到的数据对模型进行训练，得到已训练的对话预判模型，如图2所示，具体包括：

S31、对模型提取出待优化参数，定义合适的reward、value function、Q-function、history、state来表达待优化参数，在智能机器人对话中，利用人类的互动来代表“环境”，人类对机器人说话的反应被用来计算一个奖励信号，来训练模型。环境的状态state：s_t代表对话中机器人和人类所说的所有文本，state有一个层次结构，标志着它被划分为话语，并被进一步划分为标记。当机器人正在构建一个话语

时，使用模型的估计Q值可以直接获得未来奖励的目标Q估计，然而，考虑到与其让人类人工标记良好的性能，代理应该识别用户反应中的信息线索，比如情绪，以及他们聊天的时间，创造一个在人类对话伙伴中产生积极反应的代理。基于丰富、互动的对话内容，本发明设计了来自人类对话的心理灵感的几种内在的奖励功能：(1)激发积极的情绪和积极情绪的转变；(2)引起笑声(计算用户响应中的“哈哈”数量)；(3)人类输入和代理响应之间的高语义相似性(句子嵌入空间的近距离)，以达到释义和风格匹配，从而促进良好的对话问题，提高主动倾听技巧，给代理的总奖励是这些奖励的组合，奖励取决于引起来自人类用户的积极反应，即隐含的人类奖励，这些奖励是对设计人类享受的良好衡量标准，通过获取聊天中隐式表达的人类反应来了解人类的偏好可以改善开放域对话系统，因此，在机器人说话的最后时刻，估计的未来奖励必须包括人类的反应，通过学习人类反应方式中隐含的信号来提高对话模型与人类进行自然对话的能力，通过公式

将人类的响应附加到对话中，其反馈到目标Q网络中，并使用估计的Q值作为机器人下一个话语的第一个标记，Q函数的具体形式如下：

S32、根据BRL(批量强化学习)算法对已有的样本数据和动作网络进行离线学习训练，剔除过高估计的Q值，在系统交互时如果没有很好地覆盖state-action,Q估计将会有噪声，产生的方差将导致公式(1)被过高估计，这使得模型的state-action空间区域紧缩，因为它没有数据来学习合理的策略，也不能探索来改进其估计。因此，本发明从一个经过剔除训练的单一目标Q网络中获得了一个超过预测的分布，并利用这些预测的下界来减少高估偏差。给定目标Q网络

使用运行网络的M随机向前通过的蒙特卡洛(MC)估计计算

每个都有一个新的退出掩码d_i～q^W：

S33、将受限的Q值离散化，通过学习batch(批处理)的生成模型G_w＝p(a|s)，以及在学习和推理期间从该模型中采样，来将Q网络的actions限制在batch处理中包含的数据来解决BRL(批量强化学习)问题。由于BCQ(Batch-Constrained deep Q-Learning，批量约束的深度Q学习)是为连续动作域设计的，因此它应用了学习的扰动模型ξ(s,a；Φ)，允许在范围内改变动作[—Φ，Φ]。BCQ学习包含微扰动模型

的Q估计。为了进行动作，从生成模型中采样可能的动作，采样

并选择具有最大Q值的action，给出BCQ策略：

通过对已知动作序列数据的最大似然估计训练，可以获得模型的场景p(a|s)。这个先前的模型提供了从batch数据中得到的比p(a|s)的更稳健的估计。为使BCQ适应离散动作空间(DBCQ，Discrete Batch-Constrained deep Q-Learning，离散批量约束的深度Q学习)，引入预训练先验模型作为一个改进版本的G_w，由于动作空间是离散的，所以不使用扰动模型来修改动作，而是将DBCQ策略定义为：

S34、通过来自预先训练之前的KL(相对熵)控制，将先验p(a|s)合并到策略π_θ中，因此，在保证最大化奖励的前提下，使用KL控制来减小p(a|s)和Q网络策略π_θ之间的分歧。给定一个动作轨迹τ＝{a₁,a₂,…,a_t-1}，

代表Q学习算法在轨迹上的策略，

代表在轨迹上的先验分布，r(τ)代表奖励，寻求最大化以下KL正则化的目标：

L(q)＝E_q(τ)[r(τ)]/c-D_KL[q(τ)||p(τ)] (5)

由于

我们可以看到，这相当于在操作级别上使策略π_θ的期望值函数最大化：

p(a|s)奖励模型中在先验下具有高概率的action，将模型偏置于现实且可能在批中的状态动作对。-logπ(a|s)项类似于熵的正则化。通过熵正则化来保持动作空间的多样性对将等式6作为一个熵正则化的q函数，可以得到：

基于π(a_t|s_t)∝exp(-ξ(s_t,a_t))形式的基于能量的模型，我们可以推导出熵正则化q函数的软版本，它使用玻尔兹曼分布来估计未来的奖励，将其称为一个Ψ函数，最佳的Ψ函数和策略包括：

由于Ψ学习避免了对噪声估计的硬最大值，因此导致对未来奖励[1,21]的高估较小。这将导致更稳定的TD更新和帮助学习。因此，在BRL环境中，它对于减少面对不确定性的乐观情绪将特别有用。

S35、模型参数平均化，通过均衡化训练得到智能化的对话网络，完成网络的预优化，batch处理中的数据可以从具有不同架构的各种不同模型M生成的设置，每个模型都学习p的不同估计p(a|s；M)，使用这种多样性，通过基于每个模型的归一化分数S(M)来计算这些模型的加权平均值，来创建一个更健壮的先验，完成预训练离线强化学习模型。分数可以是模型质量的衡量，或者仅仅是该模型生成的批数据的比例。因此，将p_MA(a|s)定义为模型平均先验：

S4、通过声音传感器获取语音模拟信号，通过数字信号处理器将模拟信号转化成数字信号，由此获取待交流对话的数据信息。

S5、从对话信息中抽取预设关键信息，通过RNN网络对关键信息进行数据处理，得到第一向量，如图3所示，RNN网络主要使用的是层次化的seq2seq(序列到序列的编码-解码模型)对话框模型，包括三个循环网络，分别为编码器RNN、上下文RNN和解码器RNN，上下文RNN形成为层次结构的上层，只在每次话语之后进行更新，而不是每个标记。编码器RNN对下一个输入话语的标记u_n＝[w₁，w₂，…w_n]进行操作，将它们编码为表示形式

将其输入到上下文RNN中，上下文RNN的输出输入解码器RNN，产生输出话语u_n+1。

S6、利用已训练的对话预判模型处理第一向量，将其与标准语句进行对比，对阈值左右的信号进行划分，计算第一向量与标准语句的相似程度，得到对应的第一标签，根据第一向量和第一标签生成语音反馈信息，基于语音反馈信息进行类别检索和引用准确率查询，进行决策输出。

由于对话框的状态动作空间很大，因此将RL应用于对话框生成具有挑战性。该模型试图构造一个响应话语

通过迭代地选择一个动作a_i作为下一个标记。在预先训练的模型的词汇表中，标记的数量是2万个，这使得动作空间非常高维，可能会加剧高估的问题，并使批量学习变得过于困难。因此，使用预先训练过的语言模型的权值来初始化Q网络，为合适的单词提供了更强的先验。

S7、将处理好的数字信号再转换成适合信道传输、扬声器播放的模拟信号，通过扬声器播放，与用户进行对话，并且对学习结果进行存储，便于下次使用。

如图4所示，本发明实施例提出的基于离线强化学习的智能机器人对话系统包含GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块。模型存储器中存储有对话预判模型。存储模块中存储有用于对话的标准语句。语言收集模块包括声音传感器和数字信号处理器。智能对话执行模块包括执行处理器、数模转换装置和扬声器。

在模型训练过程中，利用语言数据库中已有的对话数据信息，根据非策略算法对模型存储器中的样本数据和动作网络进行离线强化学习训练，剔除过高估计的Q值，将受限的Q值离散化，接着通过KL(相对熵)控制将先验p(a|s)合并到策略π_θ中，最后使用归一化分数S(M)计算模型加权平均值的方式，均衡化地训练出智能化对话网络，完成网络的预训练，生成离线强化学习构建模型。在整个预优化过程中离线强化学习处理器不断地与GPU服务器交换处理数据，并将预优化的结果存储到模型存储器中。

当用户与已经进行过离线强化学习训练的智能机器人对话系统对话时，通过声音传感器获取语音模拟信号，通过数字信号处理器将模拟信号转化成数字信号，获取待交流对话的数据信息，CPU处理器从对话信息中抽取预设关键信息，通过RNN网络对关键信息进行数据处理，得到第一向量，并利用已训练的对话预判模型处理第一向量，将其与存储模块中的标准语句进行对比，对阈值左右的信号进行划分，计算第一向量与标准语句的相似程度，得到对应的第一标签，根据第一向量和第一标签生成语音反馈信息，将语音反馈信息传递至智能对话执行模块，执行处理器基于语音反馈信息进行类别检索和引用准确率查询，进行决策输出，通过数模转换装置将处理好的数字信号转换成模拟信号，通过扬声器播放，与用户进行对话，并且对学习结果进行存储，便于下次使用。在智能机器人对话系统中，强化学习过程一直在不断采集信息，在与人类交互的同时，不断学习探索，提高学习网络的性能，从而使得开放域聊天机器人更加智能化，人性化。

基于离线强化学习的智能机器人对话系统能够处理用户特定的语音信息，提高机器人的学习能力，避免了机械式的对话，并将学习的结果进行存储，便于用户在下一次使用，提高用户体验。

本发明利用在数据上预训练的模型作为强先验，并在RL训练中使用KL控制来惩罚与此先验的散度，并且还使用基于下滴式的不确定性估计来降低目标Q值，作为双Q-Learning更有效的替代方法。利用本发明提出的非策略的批量强化学习(BRL)算法，可以从收集的人类交互数据中事后提取多个不同的奖励功能，并从所有这些数据中有效地学习。本发明提出的非策略的批量强化学习(BRL)算法在开放域对话框生成问题上进行了测试，通过在开放域设置中部署基于离线强化学习的智能机器人对话系统与人类实时交谈，来测试系统的真实泛化，证明了本发明提出的算法在非策略批处理RL中比之前的方法取得了显著的改进。

相比于现有技术，本发明的进步主要体现在：

1、引入非策略的批量强化学习(BRL)算法，通过获取聊天中隐式表达的人类反应来了解人类的偏好改善开放域对话系统，用最大化显式奖励替代显式反馈，更精准的捕获人类交流时所展现的偏好；

2、在部署策略之前先离线学习和测试策略，避免学习到不恰当的行为，并引入KL控制，避免了BRL的高估和不稳定性，从而进一步改善对话系统的性能。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围。应当指出，对于本技术领域的技术人员，在不脱离本发明设计结构及原理的前提下对本发明方案所作的等同变化都视作本发明的保护范围。

Claims

1.一种基于离线强化学习的智能机器人对话方法，其特征在于,具体包括以下步骤：

S2、在所述训练集抽取预设关键信息，对所述预设关键信息进行数据处理,引入非策略的批量强化学习算法，通过获取聊天中隐式表达的人类反应来了解人类的偏好改善开放域对话系统；

S3、构建基于离线强化学习的对话预判模型，并利用所述步骤S2得到的数据对所述对话预判模型进行训练，得到已训练的所述对话预判模型；其中训练时用最大化显式奖励替代显式反馈，捕获人类交流时所展现的偏好；所述奖励取决于引起来自人类用户的积极反应，即隐含的人类奖励；所述步骤S3具体包括：

S33、将受限的Q值离散化，通过学习批处理的生成模型G_w＝p(a|s)，以及在学习和推理期间从所述模型中采样，将Q网络的动作限制在批处理中包含的数据来解决批量强化学习问题；批量约束的深度Q学习是为连续动作域设计的，所述批量约束的深度Q学习应用了学习的扰动模型ξ(s,a；Φ)，允许在范围内改变动作[—Φ，Φ]；所述批量约束的深度Q学习包含微扰动模型

的Q估计；为了进行动作，从生成模型中采样可能的动作，采样

并选择具有最大Q值的动作，给出批量约束的深度Q学习策略：

其中π表示策略函数，BCQ表示批量约束的深度Q学习，s表示状态，a_i表示采样的动作；

通过对已知动作序列数据的最大似然估计训练，获得模型的场景p(a|s)；先前的模型提供了从批处理数据中得到的比模型的场景p(a|s)的更稳健的估计；为使批量约束的深度Q学习适应离散动作空间，引入预训练先验模型作为一个改进版本的G_w，由于动作空间是离散的，所以不使用扰动模型来修改动作，而是将离散批量约束的深度Q学习策略定义为：

其中DBCQ表示离散批量约束的深度Q学习；

S34、通过相对熵控制，将先验p(a|s)合并到策略π_θ中；在保证最大化奖励的前提下，使用相对熵控制来减小先验p(a|s)和Q网络策略π_θ之间的分歧；给定一个动作轨迹τ＝{a₁,a₂,…,a_t-1}，

代表Q学习算法在轨迹上的策略，

代表在轨迹上的先验分布，r(τ)代表奖励，寻求最大化以下相对熵正则化的目标：

L(q)＝E_q(τ)[r(τ)]/c-D_KL[q(τ)||p(τ)]

由于

即在操作级别上使策略π_θ的状态动作对的期望值函数最大化：

先验p(a|s)奖励模型中在先验下具有高概率的动作，将模型偏置于现实且可能在批中的状态动作对；-logπ(a|s)项类似于熵的正则化；通过熵正则化来保持动作空间的多样性，将状态动作对的期望值函数作为一个熵正则化的q函数，得到：

基于π(a_t|s_t)∝exp(-ξ(s_t,a_t))形式的基于能量的模型，推导出熵正则化q函数的软版本，使用玻尔兹曼分布来估计未来的奖励，将其称为一个Ψ函数，最佳的Ψ函数和策略包括：

S35、均衡化训练得到智能化的对话网络，完成网络的预优化；批处理中的数据从具有不同架构的各种不同模型M生成的设置，每个模型都学习p的不同估计p(a|s；M)，使用这种多样性，通过基于每个模型的归一化分数S(M)来计算每个模型的加权平均值，来创建一个更健壮的先验，完成预训练离线强化学习模型；分数是模型质量的衡量，或者是该模型生成的批数据的比例；将p_MA(a|s)定义为模型平均先验：

S4、获取待交流对话的数据信息；

S7、基于所述决策与用户进行对话，存储学习结果；

通过学习人类反应方式中隐含的信号来提高对话模型与人类进行自然对话的能力，从而使在机器人说话的最后时刻，估计的未来奖励包括人类的反应。

2.根据权利要求1所述的基于离线强化学习的智能机器人对话方法，其特征在于，所述Q函数的具体形式如下：

3.根据权利要求1所述的基于离线强化学习的智能机器人对话方法，其特征在于，所述获取待交流对话的数据信息具体包括通过声音传感器获取语音模拟信号，通过数字信号处理器将模拟信号转化成数字信号，由此获取待交流对话的数据信息。

4.根据权利要求1所述的基于离线强化学习的智能机器人对话方法，其特征在于，所述步骤S5中，通过循环神经网络对关键信息进行数据处理，得到第一向量。

5.根据权利要求4所述的基于离线强化学习的智能机器人对话方法，其特征在于，所述循环神经网络使用序列到序列的编码-解码模型，包括编码器循环网络、上下文循环网络和解码器循环网络。

6.根据权利要求1所述的基于离线强化学习的智能机器人对话方法，其特征在于，所述得到对应的第一标签具体包括利用已训练的对话预判模型将第一向量与标准语句进行对比，对阈值左右的信号进行划分，计算第一向量与标准语句的相似程度，得到对应的第一标签。

7.一种基于离线强化学习的智能机器人对话系统，其特征在于,具体包括GPU服务器、模型存储器、存储模块、语言数据库、离线强化学习处理器、CPU处理器、语言收集模块和智能对话执行模块，所述模型存储器中存储有对话预判模型，所述存储模块中存储有用于对话的标准语句，所述语言收集模块包括声音传感器和数字信号处理器，所述智能对话执行模块包括执行处理器、数模转换装置和扬声器，所述存储模块中存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求1-6中任一项所述的方法。

8.根据权利要求7所述的基于离线强化学习的智能机器人对话系统，其特征在于，在模型训练过程中，利用所述语言数据库中已有的对话数据信息，根据批量强化学习算法对所述模型存储器中的样本数据和动作网络进行离线强化学习训练，剔除过高估计的Q值，将受限的Q值离散化，通过相对熵控制将先验合并到策略中，均衡化地训练智能化对话网络，完成网络的预训练。

9.根据权利要求7所述的基于离线强化学习的智能机器人对话系统，其特征在于，在对话过程中，通过所述语言收集模块获取待交流对话的数据信息，所述CPU处理器从对话信息中抽取预设关键信息，进行数据处理得到第一向量，所述CPU处理器利用已训练的对话预判模型处理第一向量，得到对应的第一标签，根据第一向量和第一标签生成语音反馈信息，将语音反馈信息传递至所述智能对话执行模块，所述智能对话执行模块与用户进行对话。