CN110990548B

CN110990548B - 强化学习模型的更新方法和装置

Info

Publication number: CN110990548B
Application number: CN201911206271.1A
Authority: CN
Inventors: 张望舒; 温祖杰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-04-25
Anticipated expiration: 2039-11-29
Also published as: CN110990548A

Abstract

本说明书实施例提供一种强化学习模型的更新方法和装置。强化学习模型包括第一动作价值网络和第二动作价值网络，分别承担第一比例和第二比例的线上流量，第一比例大于第二比例，方法包括：接收线上的当前问句；以当前问句作为当前状态，利用第一动作价值网络或利用第二动作价值网络得到当前状态对应的动作，以及相应的得到当前状态、动作、奖励和更新状态作为一条记录，将该条记录以一定概率存储；抽取记录，根据该记录对第二动作价值网络进行训练；当确定训练后的第二动作价值网络的效果优于第一动作价值网络时，将第一动作价值网络更新为训练后的第二动作价值网络。能够保证强化学习模型更新后的稳定性和质量。

Description

强化学习模型的更新方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及强化学习模型的更新方法和装置。

背景技术

在智能客服中，用户在与机器人交互过程中用户语言口语化、简略化，或者，用户的问题描述不清晰、不准确或者描述冗杂，因此通常需要用户与机器人之间的多轮交互，才能得到用户想要的知识点答案。由于会话中，涉及到大量用户交互反馈，所以可以使用强化学习来建模如何根据用户问句确定知识点相关回答供用户反馈。

由于线上用户问句千变万化，业务变更迅速频繁，用户的问句兴趣点也会随着时间漂移，所以需要对强化学习模型不断更新迭代，以达到最佳效果。现有技术中，强化学习模型的更新方法无法保证更新后的稳定性和质量。

因此，希望能有改进的方案，能够保证强化学习模型更新后的稳定性和质量。

发明内容

本说明书一个或多个实施例描述了一种强化学习模型的更新方法和装置，能够保证强化学习模型更新后的稳定性和质量。

第一方面，提供了一种强化学习模型的更新方法，所述强化学习模型用于机器人客服根据用户问句确定知识点相关回答供用户反馈，所述强化学习模型包括第一动作价值网络和第二动作价值网络，所述第一动作价值网络承担第一比例的线上流量，所述第二动作价值网络承担第二比例的线上流量，所述第一比例大于所述第二比例，方法包括：

接收线上的当前问句；

当所述当前问句被分配给所述第一动作价值网络时，以所述当前问句作为第一状态，根据第一概率和第一动作价值函数选择第一回答作为第一动作；

在所述第一状态执行所述第一动作，获取所述第一状态和所述第一动作对应的第一奖励，以及状态更新后的第一更新状态；

将所述第一状态、所述第一动作、所述第一奖励和所述第一更新状态作为一条记录，以第二概率将该条记录存储在经验回放列表中；

当所述当前问句被分配给所述第二动作价值网络时，以所述当前问句作为第二状态，根据第三概率和第二动作价值函数选择第二回答作为第二动作；

在所述第二状态执行所述第二动作，获取所述第二状态和所述第二动作对应的第二奖励，以及状态更新后的第二更新状态；

将所述第二状态、所述第二动作、所述第二奖励和所述第二更新状态作为一条记录，以第四概率将该条记录存储在所述经验回放列表中；

从所述经验回放列表中抽取记录，根据该记录利用所述第一动作价值函数计算累积奖励，根据所述累积奖励对所述第二动作价值网络进行训练，得到训练后的所述第二动作价值网络；

当确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络时，将所述第一动作价值网络更新为训练后的所述第二动作价值网络。

在一种可能的实施方式中，所述以所述当前问句作为第一状态，根据第一概率和第一动作价值函数选择第一回答作为第一动作，包括：

以所述当前问句作为第一状态，以所述第一概率根据所述第一动作价值函数选择价值最大的第一回答作为第一动作，以1减所述第一概率的概率随机选择第一回答作为第一动作。

在一种可能的实施方式中，所述以所述当前问句作为第二状态，根据第三概率和第二动作价值函数选择第二回答作为第二动作，包括：

以所述当前问句作为第二状态，以所述第三概率根据所述第二动作价值函数选择价值最大的第二回答作为第二动作，以1减所述第三概率的概率随机选择第二回答作为第二动作。

在一种可能的实施方式中，所述第二概率小于所述第四概率。

进一步地，所述第四概率为1。

在一种可能的实施方式中，所述根据该记录利用所述第一动作价值函数计算累积奖励，包括：

对该记录中的奖励，以及利用所述第一动作价值函数计算的未来奖励，进行加权求和，得到所述累积奖励。

在一种可能的实施方式中，所述根据所述累积奖励对所述第二动作价值网络进行训练，包括：

利用所述第二动作价值函数计算估计奖励；

根据所述累积奖励和所述估计奖励的差值，以最小化该差值为目标调整所述第二动作价值函数的参数，以对所述第二动作价值网络进行训练。

在一种可能的实施方式中，所述确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络，包括：

比较所述第二动作价值网络与所述第一动作价值网络的线上指标，当所述线上指标符合预设条件时，确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络，其中，所述线上指标包括标签的点击率和/或在线转人工率。

在一种可能的实施方式中，所述经验回放列表具有最大容量，所述方法还包括：

当所述经验回放列表已达到最大容量且有新的记录需要存储时，按照存储时间的先后顺序丢弃最先存储的记录。

第二方面，提供了一种强化学习模型的更新装置，所述强化学习模型用于机器人客服根据用户问句确定知识点相关回答供用户反馈，所述强化学习模型包括第一动作价值网络和第二动作价值网络，所述第一动作价值网络承担第一比例的线上流量，所述第二动作价值网络承担第二比例的线上流量，所述第一比例大于所述第二比例，装置包括：

接收单元，用于接收线上的当前问句；

第一选择单元，用于当所述接收单元接收的当前问句被分配给所述第一动作价值网络时，以所述当前问句作为第一状态，根据第一概率和第一动作价值函数选择第一回答作为第一动作；

第一执行单元，用于在所述第一状态执行所述第一选择单元选择的第一动作，获取所述第一状态和所述第一动作对应的第一奖励，以及状态更新后的第一更新状态；

存储单元，用于将所述第一状态、所述第一动作、所述第一执行单元获取的所述第一奖励和所述第一更新状态作为一条记录，以第二概率将该条记录存储在经验回放列表中；

第二选择单元，用于当所述接收单元接收的当前问句被分配给所述第二动作价值网络时，以所述当前问句作为第二状态，根据第三概率和第二动作价值函数选择第二回答作为第二动作；

第二执行单元，用于在所述第二状态执行所述第二选择单元选择的第二动作，获取所述第二状态和所述第二动作对应的第二奖励，以及状态更新后的第二更新状态；

所述存储单元，还用于将所述第二状态、所述第二动作、所述第二执行单元获取的所述第二奖励和所述第二更新状态作为一条记录，以第四概率将该条记录存储在所述经验回放列表中；

训练单元，用于从所述经验回放列表中抽取记录，根据该记录利用所述第一动作价值函数计算累积奖励，根据所述累积奖励对所述第二动作价值网络进行训练，得到训练后的所述第二动作价值网络；

更新单元，用于当确定所述训练单元得到的训练后的所述第二动作价值网络的效果优于所述第一动作价值网络时，将所述第一动作价值网络更新为训练后的所述第二动作价值网络。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，强化学习模型包括两个动作价值网络用于分担线上流量，所有的强化学习线上优化、迭代的流量被限制在其中一个动作价值网络，对于整体线上效果影响有限，同时将动作价值网络的迭代与测试效果的比对结合起来，满足一定业务要求才会进行迭代替换，能够保证强化学习模型更新后的稳定性和质量。此外，该方法可以基于线上用户反馈，自动迭代强化学习模型，将与用户交互的过程视为智能体(agent)与环境交互的过程，完成动作价值网络的自动更新，是一种十分有效的强化学习的数据闭环更新方案。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的强化学习模型的更新方法流程图；

图3示出根据另一个实施例的强化学习模型的更新方法流程图；

图4示出根据一个实施例的强化学习模型的更新装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及强化学习模型的更新，该强化学习模型用于机器人客服根据用户问句确定知识点相关回答供用户反馈。可以理解的是，强化学习，用于描述和解决智能体(agent)在与环境交互的过程中通过学习策略以达成回报最大化或实现特定目标的问题。

在智能客服中，为了解决用户的模糊问题，可以通过机器人与用户之间的多轮交互明确用户述求，例如，图1所示的实施场景中，给出了多轮交互的一个典型示例，首先用户输出一个用户问句1，机器人根据该用户问句1不能明确用户述求，则输出一个或多个标签供用户点击，通过用户点击标签或用户的补充描述，更新用户问句，从而得到用户想要的知识点答案。本说明书实施例，针对多轮会话中，用户点击标签或用户补充描述涉及到大量用户交互反馈，所以使用强化学习来建模如何根据用户描述推荐合适的标签来让用户发生点击行为，或者机器人输出什么信息才能让用户作出肯定的表述。由于线上用户问句千变万化，业务变更迅速频繁，用户的问句兴趣点也会随着时间漂移，所以就需要一种数据闭环系统来对强化学习模型不断更新迭代，以达到最佳效果。

本说明书实施例，提出一种强化学习模型的更新方法，对深度Q学习(deepq-learing，DQN)算法本身做了一些改进，使其适用于线上实时数据闭环的业务环境。

图2示出根据一个实施例的强化学习模型的更新方法流程图，所述强化学习模型用于机器人客服根据用户问句确定知识点相关回答供用户反馈，所述强化学习模型包括第一动作价值网络和第二动作价值网络，所述第一动作价值网络承担第一比例的线上流量，所述第二动作价值网络承担第二比例的线上流量，所述第一比例大于所述第二比例，方法包括：步骤21，接收线上的当前问句；步骤22，当所述当前问句被分配给所述第一动作价值网络时，以所述当前问句作为第一状态，根据第一概率和第一动作价值函数选择第一回答作为第一动作；步骤23，在所述第一状态执行所述第一动作，获取所述第一状态和所述第一动作对应的第一奖励，以及状态更新后的第一更新状态；步骤24，将所述第一状态、所述第一动作、所述第一奖励和所述第一更新状态作为一条记录，以第二概率将该条记录存储在经验回放列表中；步骤25，当所述当前问句被分配给所述第二动作价值网络时，以所述当前问句作为第二状态，根据第三概率和第二动作价值函数选择第二回答作为第二动作；步骤26，在所述第二状态执行所述第二动作，获取所述第二状态和所述第二动作对应的第二奖励，以及状态更新后的第二更新状态；步骤27，将所述第二状态、所述第二动作、所述第二奖励和所述第二更新状态作为一条记录，以第四概率将该条记录存储在所述经验回放列表中；步骤28，从所述经验回放列表中抽取记录，根据该记录利用所述第一动作价值函数计算累积奖励，根据所述累积奖励对所述第二动作价值网络进行训练，得到训练后的所述第二动作价值网络；步骤29，当确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络时，将所述第一动作价值网络更新为训练后的所述第二动作价值网络。下面描述以上各个步骤的具体执行方式。

首先在步骤21，接收线上的当前问句。可以理解的是，在机器人与用户的多轮对话中，可以将用户在当前轮输入的信息作为当前问句，例如，在图1所示的实施场景中，当前轮为用户点击了标签1，可以将标签1对应的信息作为当前问句；或者，可以将用户当前轮输入的信息和之前输入的历史信息作为当前问句，例如，在图1所示的实施场景中，当前轮为用户点击了标签1，之前输入的历史信息为用户问句1，可以将标签1对应的信息和用户问句1相结合作为当前问句。

然后在步骤22，当所述当前问句被分配给所述第一动作价值网络时，以所述当前问句作为第一状态，根据第一概率和第一动作价值函数选择第一回答作为第一动作。可以理解的是，出于兼顾探索和利用的原则，第一动作价值网络仅是部分选取价值最大的动作，以期探索到价值更大的动作。

在一个示例中，以所述当前问句作为第一状态，以所述第一概率根据所述第一动作价值函数选择价值最大的第一回答作为第一动作，以1减所述第一概率的概率随机选择第一回答作为第一动作。

接着在步骤23，在所述第一状态执行所述第一动作，获取所述第一状态和所述第一动作对应的第一奖励，以及状态更新后的第一更新状态。以图1所示场景为例，若第一状态对应用户问句1，第一动作对应标签1、标签2和标签3，用户反馈为用户点击了标签1，根据该用户反馈可以确定第一奖励，以及状态更新后的第一更新状态。

再在步骤24，将所述第一状态、所述第一动作、所述第一奖励和所述第一更新状态作为一条记录，以第二概率将该条记录存储在经验回放列表中。可以理解的是，该经验回放列表中存储的各条记录可以作为训练样本，用于对强化学习模型的训练。基于前述探索和利用的原则，上述记录可能为探索得到的，也可能为利用得到的，而训练样本尽可能希望为探索得到的，因此可以根据探索和利用的比例来确定上述第二概率。

在一个示例中，所述经验回放列表具有最大容量，当所述经验回放列表已达到最大容量且有新的记录需要存储时，按照存储时间的先后顺序丢弃最先存储的记录。

再在步骤25，当所述当前问句被分配给所述第二动作价值网络时，以所述当前问句作为第二状态，根据第三概率和第二动作价值函数选择第二回答作为第二动作。可以理解的是，出于兼顾探索和利用的原则，第二动作价值网络仅是部分选取价值最大的动作，以期探索到价值更大的动作。

在一个示例中，以所述当前问句作为第二状态，以所述第三概率根据所述第二动作价值函数选择价值最大的第二回答作为第二动作，以1减所述第三概率的概率随机选择第二回答作为第二动作。

再在步骤26，在所述第二状态执行所述第二动作，获取所述第二状态和所述第二动作对应的第二奖励，以及状态更新后的第二更新状态。可以理解的是，在第二状态获取相应奖励和更新状态的场景与在第一状态类似，在此不做赘述。

再在步骤27，将所述第二状态、所述第二动作、所述第二奖励和所述第二更新状态作为一条记录，以第四概率将该条记录存储在所述经验回放列表中。可以理解的是，依据第二动作价值网络得到的记录，与依据第一动作价值网络得到的记录，可以存储在同一经验回放列表中，用于后续作为训练样本对强化学习模型进行训练。

在一个示例中，所述第二概率小于所述第四概率。

进一步地，所述第四概率为1。也就是说，全部存储第二动作价值网络得到的记录，部分存储依据第一动作价值网络得到的记录。

再在步骤28，从所述经验回放列表中抽取记录，根据该记录利用所述第一动作价值函数计算累积奖励，根据所述累积奖励对所述第二动作价值网络进行训练，得到训练后的所述第二动作价值网络。可以理解的是，第一动作价值网络和第二动作价值网络用于分担在线流量，但是仅对第二动作价值网络进行训练，因此对整体线上效果影响有限。

在一个示例中，对该记录中的奖励，以及利用所述第一动作价值函数计算的未来奖励，进行加权求和，得到所述累积奖励。

在一个示例中，利用所述第二动作价值函数计算估计奖励；根据所述累积奖励和所述估计奖励的差值，以最小化该差值为目标调整所述第二动作价值函数的参数，以对所述第二动作价值网络进行训练。

最后在步骤29，当确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络时，将所述第一动作价值网络更新为训练后的所述第二动作价值网络。可以理解的是，当满足一定业务要求时，再进行模型的更新迭代，极大提升了线上模型稳定性，保证了模型的效果。

在一个示例中，比较所述第二动作价值网络与所述第一动作价值网络的线上指标，当所述线上指标符合预设条件时，确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络，其中，所述线上指标包括标签的点击率和/或在线转人工率。

其中，上述标签可以为知识点标题对应的关键词，或者知识点标题。可选地，该标签还可以链接到相应的知识点。

通过本说明书实施例提供的方法，强化学习模型包括两个动作价值网络用于分担线上流量，所有的强化学习线上优化、迭代的流量被限制在其中一个动作价值网络，对于整体线上效果影响有限，同时将动作价值网络的迭代与测试效果的比对结合起来，满足一定业务要求才会进行迭代替换，能够保证强化学习模型更新后的稳定性和质量。此外，该方法可以基于线上用户反馈，自动迭代强化学习模型，将与用户交互的过程视为智能体(agent)与环境交互的过程，完成动作价值网络的自动更新，是一种十分有效的强化学习的数据闭环更新方案。

图3示出根据另一个实施例的强化学习模型的更新方法流程图，该实施例给出了更为详细的线上数据闭环流程。参照图3，本说明书实施例在通常的DQN的基础上进行了改进，对线上流量进行随机分桶，分为对照桶A(例如80％流量)和实验桶B(例如20％流量)，为了保持线上整体算法稳定性和效果，实验桶的流量较小，收集足够的实验数据进行训练即可。对于当前时间的当前状态st，使用深度神经网络来近似表示价值函数(value-function)，价值函数也称为动作价值函数，其中A桶使用较稳定版本的价值函数

固定不变，B桶使用价值函数Q不断进行训练更新参数。同时，使用容量为N的经验回放列表D来存储经验历史，如果D中的数据量大于N则自动丢弃掉最老的数据，保持其容量一直最大为N的状态。其线上数据闭环流程过程如下：

首先，对于A桶和B桶，分别根据当前状态，通过贪心算法(例如ε-Greedy)的方式从

和Q得到动作

和

例如，对于A桶的流量，在当前状态

依据概率ε随机选择一个动作

否则，选取当前价值最大的动作；对于B桶的流量，在当前状态

依据概率ε随机选择一个动作

否则，选取当前价值最大的动作。

然后，A桶和B桶分别执行得到的相应动作，观察各自的奖励和下一状态r_t ^A,

和r_t ^B,

接着，分别将A桶的经验

和B桶经验

存入经验回放列表D，由于A桶流量较大且使用稳定的

探索较少，所以A桶以一定概率p将经验存入D，剩余的丢弃掉。

接下来训练Q。从D中抽样经验(s_j,a_j,r_j,s_j+1)，并计算累积奖励

使用损失函数loss＝(y_j-Q(φ_j,a_j；θ))²更新Q的参数θ。可以理解的是，

作为目标动作价值函数，φ_j+1为对s_j+1预处理，γ为权重，累积奖励的公式、损失函数与通常的DQN类似，在此不做赘述。

最后进行AB桶的对比测试，经过一段时间的训练，比较AB桶各自的线上指标，如果B桶指标优于A，则进行滚筒迭代

从而完成一轮数据闭环更新。否则继续重复训练Q。

这样所有的强化学习线上优化、迭代的流量被限制在B桶，对于整体线上效果影响有限，同时将Q网络的迭代与AB测试结合起来，满足一定业务要求才会进行迭代替换，极大提升了线上模型稳定性，保证了模型的效果。该方案可以仅仅使用线上用户反馈，自动迭代强化学习模型，将与用户交互的过程视为智能体(agent)与环境交互的过程，完成Q网络的自动更新，是一种十分有效的强化学习的数据闭环更新方案。

本说明书实施例，动作价值网络可以使用任意形式的深度学习网络，例如卷积神经网络(convolutional neural networks，CNN)、深度神经网络(deep neural networks，DNN)、循环神经网络(recurrent neural network，RNN)等。

不同于普通的DQN算法，基于数据闭环的DQN可以不断的利用线上用户反馈和奖励数据不断更新迭代模型。对于业务变化频繁用户问句变化迅速的服务问答数据具有良好的适应性，同时自动闭环迭代也节省了大量人力资源进行手工训练调整和迭代，提升了算法迭代效率。

基于强化学习DQN的数据闭环系统解决了强化学习迭代不稳定的问题，从两个方面保证了线上效果稳定性和效果：一方面，80％的A桶线上流量使用固定的

所有的模型试验和迭代集中在实验桶B桶进行，这样既能回收充分的试验数据，又能确保线上模型效果的稳定；另一方面，将强化学习闭环与AB测试结合，只有符合业务要求的算法才能进行闭环迭代，进一步确保线上效果和稳定，确保了线上迭代不断在向优化目标迭代。

根据另一方面的实施例，还提供一种强化学习模型的更新装置，该装置用于执行本说明书实施例提供的强化学习模型的更新方法，所述强化学习模型用于机器人客服根据用户问句确定知识点相关回答供用户反馈，所述强化学习模型包括第一动作价值网络和第二动作价值网络，所述第一动作价值网络承担第一比例的线上流量，所述第二动作价值网络承担第二比例的线上流量，所述第一比例大于所述第二比例。图4示出根据一个实施例的强化学习模型的更新装置的示意性框图。如图4所示，该装置400包括：

接收单元41，用于接收线上的当前问句；

第一选择单元42，用于当所述接收单元41接收的当前问句被分配给所述第一动作价值网络时，以所述当前问句作为第一状态，根据第一概率和第一动作价值函数选择第一回答作为第一动作；

第一执行单元43，用于在所述第一状态执行所述第一选择单元42选择的第一动作，获取所述第一状态和所述第一动作对应的第一奖励，以及状态更新后的第一更新状态；

存储单元44，用于将所述第一状态、所述第一动作、所述第一执行单元43获取的所述第一奖励和所述第一更新状态作为一条记录，以第二概率将该条记录存储在经验回放列表中；

第二选择单元45，用于当所述接收单元41接收的当前问句被分配给所述第二动作价值网络时，以所述当前问句作为第二状态，根据第三概率和第二动作价值函数选择第二回答作为第二动作；

第二执行单元46，用于在所述第二状态执行所述第二选择单元45选择的第二动作，获取所述第二状态和所述第二动作对应的第二奖励，以及状态更新后的第二更新状态；

所述存储单元44，还用于将所述第二状态、所述第二动作、所述第二执行单元获取的所述第二奖励和所述第二更新状态作为一条记录，以第四概率将该条记录存储在所述经验回放列表中；

训练单元47，用于从所述经验回放列表中抽取记录，根据该记录利用所述第一动作价值函数计算累积奖励，根据所述累积奖励对所述第二动作价值网络进行训练，得到训练后的所述第二动作价值网络；

更新单元48，用于当确定所述训练单元47得到的训练后的所述第二动作价值网络的效果优于所述第一动作价值网络时，将所述第一动作价值网络更新为训练后的所述第二动作价值网络。

可选地，作为一个实施例，所述第一选择单元42，具体用于以所述当前问句作为第一状态，以所述第一概率根据所述第一动作价值函数选择价值最大的第一回答作为第一动作，以1减所述第一概率的概率随机选择第一回答作为第一动作。

可选地，作为一个实施例，所述第二选择单元45，具体用于以所述当前问句作为第二状态，以所述第三概率根据所述第二动作价值函数选择价值最大的第二回答作为第二动作，以1减所述第三概率的概率随机选择第二回答作为第二动作。

可选地，作为一个实施例，所述第二概率小于所述第四概率。

进一步地，所述第四概率为1。

可选地，作为一个实施例，所述训练单元47，具体用于对该记录中的奖励，以及利用所述第一动作价值函数计算的未来奖励，进行加权求和，得到所述累积奖励。

可选地，作为一个实施例，所述训练单元47，具体用于：

利用所述第二动作价值函数计算估计奖励；

可选地，作为一个实施例，所述更新单元48，具体用于比较所述第二动作价值网络与所述第一动作价值网络的线上指标，当所述线上指标符合预设条件时，确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络，其中，所述线上指标包括标签的点击率和/或在线转人工率。

可选地，作为一个实施例，所述经验回放列表具有最大容量，所述存储单元44，还用于当所述经验回放列表已达到最大容量且有新的记录需要存储时，按照存储时间的先后顺序丢弃最先存储的记录。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2和图3所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2和图3所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种强化学习模型的更新方法，所述强化学习模型用于机器人客服根据用户问句确定知识点相关回答供用户反馈，所述强化学习模型包括第一动作价值网络和第二动作价值网络，所述第一动作价值网络承担第一比例的线上流量，所述第二动作价值网络承担第二比例的线上流量，所述第一比例大于所述第二比例，所述方法包括：

接收线上的当前问句；

2.如权利要求1所述的方法，其中，所述以所述当前问句作为第一状态，根据第一概率和第一动作价值函数选择第一回答作为第一动作，包括：

3.如权利要求1所述的方法，其中，所述以所述当前问句作为第二状态，根据第三概率和第二动作价值函数选择第二回答作为第二动作，包括：

4.如权利要求1所述的方法，其中，所述第二概率小于所述第四概率。

5.如权利要求4所述的方法，其中，所述第四概率为1。

6.如权利要求1所述的方法，其中，所述根据该记录利用所述第一动作价值函数计算累积奖励，包括：

7.如权利要求1所述的方法，其中，所述根据所述累积奖励对所述第二动作价值网络进行训练，包括：

利用所述第二动作价值函数计算估计奖励；

8.如权利要求1所述的方法，其中，所述确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络，包括：

9.如权利要求1所述的方法，其中，所述经验回放列表具有最大容量，所述方法还包括：

10.一种强化学习模型的更新装置，所述强化学习模型用于机器人客服根据用户问句确定知识点相关回答供用户反馈，所述强化学习模型包括第一动作价值网络和第二动作价值网络，所述第一动作价值网络承担第一比例的线上流量，所述第二动作价值网络承担第二比例的线上流量，所述第一比例大于所述第二比例，所述装置包括：

接收单元，用于接收线上的当前问句；

11.如权利要求10所述的装置，其中，所述第一选择单元，具体用于以所述当前问句作为第一状态，以所述第一概率根据所述第一动作价值函数选择价值最大的第一回答作为第一动作，以1减所述第一概率的概率随机选择第一回答作为第一动作。

12.如权利要求10所述的装置，其中，所述第二选择单元，具体用于以所述当前问句作为第二状态，以所述第三概率根据所述第二动作价值函数选择价值最大的第二回答作为第二动作，以1减所述第三概率的概率随机选择第二回答作为第二动作。

13.如权利要求10所述的装置，其中，所述第二概率小于所述第四概率。

14.如权利要求13所述的装置，其中，所述第四概率为1。

15.如权利要求10所述的装置，其中，所述训练单元，具体用于对该记录中的奖励，以及利用所述第一动作价值函数计算的未来奖励，进行加权求和，得到所述累积奖励。

16.如权利要求10所述的装置，其中，所述训练单元，具体用于：

利用所述第二动作价值函数计算估计奖励；

17.如权利要求10所述的装置，其中，所述更新单元，具体用于比较所述第二动作价值网络与所述第一动作价值网络的线上指标，当所述线上指标符合预设条件时，确定训练后的所述第二动作价值网络的效果优于所述第一动作价值网络，其中，所述线上指标包括标签的点击率和/或在线转人工率。

18.如权利要求10所述的装置，其中，所述经验回放列表具有最大容量，所述存储单元，还用于当所述经验回放列表已达到最大容量且有新的记录需要存储时，按照存储时间的先后顺序丢弃最先存储的记录。

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项的所述的方法。