CN113011583B

CN113011583B - 强化学习模型的训练方法及装置

Info

Publication number: CN113011583B
Application number: CN202110268665.0A
Authority: CN
Inventors: 王昊天; 应缜哲; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-04-12
Anticipated expiration: 2041-03-12
Also published as: CN113011583A

Abstract

本说明书实施例提供一种强化学习模型的训练方法，该方法包括：获取业务环境的当前状态，其中包括上一轮交互产生的交互内容；基于该交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集；将该当前状态输入强化学习模型，从可选动作集中选取收益预测值最大的可选动作作为本轮业务动作，如此可以避免用户被无关动作打扰，从而提升用户体验；再将该本轮业务动作施加于上述业务环境，得到该业务环境的本轮反馈，基于本轮反馈计算本轮业务动作的收益标签值，并基于该收益标签值构建其他备选业务动作的收益标签值，从而实现可以利用全量备选业务动作训练上述强化学习模型，有效加速强化学习模型的收敛。

Description

强化学习模型的训练方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，尤其涉及一种强化学习模型的训练方法及装置。

背景技术

机器学习的迅猛发展使得各种机器学习的模型在各种各样的业务场景得到应用。相较于机器学习经典的有监督学习、无监督学习，近来发展的强化学习最大的特点和优势，是通过跟环境的不断交互、改变环境状态，根据获得的奖励或惩罚不断自我学习，更加适应环境。

针对强化学习模型应用于用户交互业务的场景，如客服服务中的多轮对话场景，目前在训练阶段，需要利用强化学习模型与用户进行探索式交互来采集足量的训练样本，以使强化学习模型能够收敛并取得良好的模型效果。然而，这种探索式交互无疑将给用户带来大量的打扰，严重影响用户体验。

因此，迫切需要一种方案，可以消除强化学习过程中给用户打来的打扰，同时，使得学习后的强化学习模型取得优异的预测效果。

发明内容

本说明书一个或多个实施例描述了一种强化学习模型的训练方法及装置，可以消除学习过程中对用户对打扰，并且使得学习得到的强化学习模型具有优秀的模型性能。

根据第一方面，提供一种强化学习模型的训练方法，所述方法包括：

获取业务环境的当前状态，其中包括上一轮交互产生的交互内容，该交互内容包括历史业务动作和历史用户响应；基于所述交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集；将所述当前状态输入强化学习模型，该强化学习模型采用神经网络计算所述当前状态下，所述多个备选业务动作对应的多个收益预测值，并从所述可选动作集中选取对应收益预测值最大的可选动作，作为本轮业务动作；将所述本轮业务动作施加于所述业务环境，得到该业务环境作出的本轮反馈和该业务环境的下一状态；计算所述当前状态下多个备选业务动作对应的多个收益标签值，其中，基于所述本轮反馈、下一状态和神经网络，计算所述本轮业务动作对应的收益标签值；针对所述多个备选业务动作中的其他任一动作，若其属于所述可选动作集，则将其收益标签值确定为其收益预测值和第一阈值中的较大值；若其属于所述禁选动作集，则将其收益标签值确定为其收益预测值和第二阈值中的较小值；所述第一阈值和第二阈值小于所述本轮业务动作对应的收益标签值；基于所述多个收益预测值和多个收益标签值，训练所述强化学习模型。

在一个实施例中，所述当前状态中包括当前交互窗口中所有历史交互轮次产生的交互内容，和/或，所述当前交互窗口所对应用户的用户属性特征。

在一个实施例中，基于所述交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集，包括：将所述交互内容输入预先训练的意图识别模型，得到用户当前意图；基于所述用户当前意图，将所述多个备选业务动作划分为所述可选动作集和禁选动作集。

在一个具体的实施例中，基于所述用户当前意图，将所述多个备选业务动作划分为所述可选动作集和禁选动作集，包括：从所述多个备选业务动作中确定与所述用户当前意图相匹配的动作，归为所述可选动作集，并将剩余的备选业务动作归为所述禁选动作集。

在一个实施例中，得到该业务环境作出的本轮反馈，包括：将所述本轮业务动作施加于所述业务环境，得到本轮用户响应；基于所述本轮用户响应，确定所述本轮反馈。

在一个具体的实施例中，基于所述本轮用户响应，确定所述本轮反馈，包括：判断所述本轮用户响应是否命中业务目标；若命中任一的第一业务目标，则将所述本轮反馈确定为该第一业务目标对应的第一预设奖励分数；若未命中，则将所述本轮反馈确定为第二预设奖励分数，该第二预设奖励分数小于所述第一预设奖励分数。

在一个更具体的实施例中，判断所述本轮用户响应是否命中若干业务目标，包括：利用本轮用户响应与风险判别规则中的风险判别条件进行匹配；若与某个风险判别条件匹配成功，则判断出命中与该某个风险判别条件对应的业务目标；若均不匹配，则判断出未命中业务目标。

在一个实施例中，所述第二阈值小于所述第一阈值。

在一个实施例中，所述第一阈值等于所述本轮业务动作对应的收益标签值与第一衰减系数的乘积，所述第二阈值等于所述本轮业务动作对应的收益标签值与第二衰减系数的乘积。

在一个实施例中，所述业务环境涉及客服业务，所述历史业务动作包括历史客服会话语句，所述历史用户响应包括历史用户会话语句。

在一个实施例中，基于所述多个收益预测值和多个收益标签值，训练所述强化学习模型，包括：基于所述多个收益预测值和多个收益标签值，计算均方误差损失；利用所述均方误差损失，训练所述强化学习模型。

根据第二方面，提供一种强化学习模型的训练装置，该装置包括：

状态获取单元，配置为获取业务环境的当前状态，其中包括上一轮交互产生的交互内容，该交互内容包括历史业务动作和历史用户响应。动作划分单元，配置为基于所述交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集。动作预测单元，配置为将所述当前状态输入强化学习模型，该强化学习模型采用神经网络计算所述当前状态下，所述多个备选业务动作对应的多个收益预测值，并从所述可选动作集中选取对应收益预测值最大的可选动作，作为本轮业务动作。动作施加单元，配置为将所述本轮业务动作施加于所述业务环境，得到该业务环境作出的本轮反馈和该业务环境的下一状态。标签计算单元，配置为计算所述当前状态下多个备选业务动作对应的多个收益标签值，其中，基于所述本轮反馈、下一状态和神经网络，计算所述本轮业务动作对应的收益标签值；针对所述多个备选业务动作中的其他任一动作，若其属于所述可选动作集，则将其收益标签值确定为其收益预测值和第一阈值中的较大值；若其属于所述禁选动作集，则将其收益标签值确定为其收益预测值和第二阈值中的较小值；所述第一阈值和第二阈值小于所述本轮业务动作对应的收益标签值。模型训练单元，配置为基于所述多个收益预测值和多个收益标签值，训练所述强化学习模型。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

综上，在本说明书实施例提供的上述方法及装置中，获取业务环境的当前状态，其中包括上一轮交互产生的交互内容；基于该交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集；将该当前状态输入强化学习模型，从可选动作集中选取收益预测值最大的可选动作作为本轮业务动作，如此可以避免用户被无关动作打扰，从而提升用户体验；再将该本轮业务动作施加于上述业务环境，得到该业务环境的本轮反馈，基于本轮反馈计算本轮业务动作的收益标签值，并基于该收益标签值构建其他备选业务动作的收益标签值，从而实现可以利用全量备选业务动作训练上述强化学习模型，有效加速强化学习模型的收敛。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书实施例披露的强化学习模型的训练架构示意图；

图2示出根据一个实施例的强化学习模型的训练方法流程图；

图3示出根据一个实施例的强化学习模型的训练装置结构图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

承前所述，目前在训练阶段，需要利用强化学习模型与用户进行探索式交互来采集足量的训练样本。其中，训练阶段的探索主要是指，基于动作空间对环境施加带有随机性的动作，而不是一直施加强化学习模型预测的最优动作，从而采集到对环境和动作空间进行足够探索、足够全面的训练样本，以使得强化学习模型能够收敛、可用。但是，这种探索式交互，对用户无疑会造成严重打扰，比如，在客服服务场景，假定机器人客服对用户输入的“xx功能怎么开通”，进行的回复是“你今天吃了什么”，将给用户带来糟糕的服务体验。

基于以上观察，发明人提出一种训练强化学习模型的方案，不与用户进行随机的探索式交互，而是在交互过程中，只做出贴合用户意图的业务动作，从而避免用户感觉到被打扰，进而提高用户体验，对于动作空间中的其他业务动作，通过构建软标签，使得该其他业务动作也可以用于构建训练样本，参与到强化学习模型的训练过程，从而实现强化学习模型的快速收敛。

图1示出本说明书实施例披露的强化学习模型的训练架构示意图，其中示出任一轮次交互中涉及的训练算法步骤。如图1所示，首先，获取业务环境的当前状态，其中包括上一轮交互产生的交互内容；然后，基于该当前状态中交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集，并且，将上述当前状态输入强化学习模型，得到从可选动作集中选取出的本轮业务动作；接着，将该本轮业务动作施加于上述业务环境，得到该业务环境作出的本轮反馈和该业务环境的下一状态；然后，基于本轮反馈和下一状态，构建与多个备选业务动作对应的多个训练样本，该多个训练样本用于训练上述强化学习模型。如此，可以使得不打扰线上用户的同时，依然可以快速训练出一个较好的模型。

下面结合具体的实施例，描述上述发明构思的实施步骤。

图2示出根据一个实施例的强化学习模型的训练方法流程图。可以理解，该方法的执行主体可以是任何具有计算、处理能力的装置、设备、平台或设备集群等。如图2所示，所述方法包括以下步骤：

步骤S210，获取业务环境的当前状态，其中包括上一轮交互产生的交互内容，该交互内容包括历史业务动作和历史用户响应；步骤S220，基于所述交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集；步骤S230，将所述当前状态输入强化学习模型，该强化学习模型采用神经网络计算所述当前状态下，所述多个备选业务动作对应的多个收益预测值，并从所述可选动作集中选取对应收益预测值最大的可选动作，作为本轮业务动作；步骤S240，将所述本轮业务动作施加于所述业务环境，得到该业务环境作出的本轮反馈和该业务环境的下一状态；步骤S250，计算所述当前状态下多个备选业务动作对应的多个收益标签值，其中包括步骤S251和步骤S252，在步骤S251，基于所述本轮反馈、下一状态和神经网络，计算所述本轮业务动作对应的收益标签值；在步骤S252，针对所述多个备选业务动作中的其他任一动作，若其属于所述可选动作集，则将其收益标签值确定为其收益预测值和第一阈值中的较大值；若其属于所述禁选动作集，则将其收益标签值确定为其收益预测值和第二阈值中的较小值；所述第一阈值和第二阈值小于所述本轮业务动作对应的收益标签值；步骤S260，基于所述多个收益预测值和多个收益标签值，训练所述强化学习模型。

以上步骤具体如下：

首先，在步骤S210，获取业务环境的当前状态。需理解，上述业务环境可以包括与强化学习模型交互相关的、除强化学习模型以外的其他所有内容，比如说，可以包括业务平台、使用业务平台所提供的交互式服务的用户等。相应地，业务环境的状态可以是描述业务环境的信息，具体获取哪些信息可以根据实际的预测任务而设定。

上述当前状态是指当前时刻下获取到的环境状态信息，上述当前状态可以包括上一轮交互产生的交互内容，该交互内容包括历史业务动作和历史用户响应。在一个实施例中，业务环境涉及客服业务，上述历史业务动作包括历史客服会话语句，历史用户响应包括历史用户会话语句。在另一个实施例中，业务环境涉及游戏对战业务，上述历史业务动作包括由系统控制的游戏角色的操作，历史用户响应包括玩家控制的游戏角色的操作。在还一个实施例中，业务环境涉及商品导购服务，上述历史业务动作可以包括系统推荐的商品列表，历史用户响应可以包括用户基于该商品列表所选择的商品。

另一方面，在一个实施例中，上述当前状态中可以包括当前交互窗口中所有历史交互轮次产生的交互内容。其中当前交互窗口是指为当前用户提供当前次服务而创建或开启的交互窗口，在当前交互窗口中可以通过与用户进行多次交互，以完成对用户的服务。在一个具体的实施例中，当前交互窗口对应一通语音电话。在另一个具体的实施例中，当前交互窗口对应即时通讯软件中的一次聊天。在还一个具体的实施例中，当前交互窗口对应一局游戏。

进一步，假定在当前交互窗口中已经发生一轮次的交互，则当前状态中可以包括该一轮次，即上一轮次交互的交互内容；假定在当前交互窗口中已经发生多个轮次的交互，则当前状态中除包括上一个轮次的交互内容以外，还可以包括在上一轮次之前的轮次的交互内容。如此，可以丰富当前状态中的有效信息。

在一个实施例中，当前状态中还可以包括当前交互窗口所对应用户的用户属性特征，该用户属性特征可以是刻画用户特点的一些基础信息和统计指标等。在一个具体的实施例中，该用户可以指代个人、机构或企业。在一个具体的实施例中，对于个人用户，其属性特征可以包括性别、年龄、职业、常驻地、兴趣爱好、年收入、消费偏好(如商品类别、消费时段)等。在一个具体的实施例中，对应企业用户，其属性特征可以包括行业、招聘信息、公司规模、年营业额、成立时长等。

以上对业务环境和环境状态进行初步介绍。更进一步地，根据一个具体的实施例，上述业务环境涉及欺诈叫醒外呼场景，此外呼业务是指，针对遭遇高风险诈骗而被阻断交易的用户，通过主动外呼语音电话与当事用户进行沟通，引导被骗用户配合询问或接受教育，或者，为没有被骗的正常用户进行交易放行。在此业务场景下，需要与用户进行多轮对话，通过对话式交互产生的交互内容包括外呼客服和用户的说话内容。在一个更具体的实施例中，当前状态中还可以包括风险特征，具体，可以将用户的属性特征，以及被阻断的交易的交易特征(交易时间、交易地址、交易金额等)输入预先训练的风险识别模型，从而将得到的对应各个风险类别的概率作为风险特征，归入当前状态，例如，风险特征可以包括欺诈概率为0.4等。

由上，可以获取业务环境的当前状态。接着，在步骤S220，基于该当前状态中的交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集。此步骤实际上将多个备选业务动作划分为本轮对话中的强相关动作和弱相关动作，从而在下一步只选取强相关动作施加于业务环境，进而避免对用户造成打扰。

在一个实施例中，本步骤可以包括：先将交互内容输入预先训练的意图识别模型，得到用户当前意图；再基于该用户当前意图，将上述多个备选业务动作划分为可选动作集和禁选动作集。其中意图识别模型是预先训练好的机器学习模型，在一个具体的实施例中，意图识别模型可以基于深度神经网络(Deep Neural Network，简称DNN)或Bert模型实现。需理解，意图识别模型可以采用监督学习的方式得到，其训练过程和使用过程类似，区别主要在于训练过程中采用的训练数据带有意图类别标签，并且，训练过程中模型参数在调整、变化，而使用过程使用的是训练好的意图识别模型，使用过程中其模型参数不会变化，因此，对意图识别模型的训练可以参见对其的使用，不再单独对训练过程进行多余描述。在一个具体的实施例中，意图识别模型的输入除包括上一轮交互产生的交互内容以外，还可以包括当前交互窗口中所有历史交互轮次产生的交互内容，和/或，所述当前交互窗口所对应用户的用户属性特征。需说明，意图识别模型的输入与上述获取的当前状态可以部分相同或完全相同。

基于上述意图识别模型输出的用户当前意图，将上述多个备选业务动作划分为可选动作集和禁选动作集，具体，从该多个备选业务动作中确定与用户当前意图相匹配的动作，归为所述可选动作集，并将剩余的备选业务动作归为禁选动作集。在一个具体的实施例中，可以基于预先建立的用户意图与备选业务动作之间的关联关系，确定与用户当前意图相关联的若干备选业务动作，归入可选动作集。在另一个具体的实施例中，可以分别计算用户当前意图与各个备选业务动作之间的相似度，再将相似度高于预设阈值的若干备选业务动作，归入可选动作集。如此，可以实现根据确定出的显式的用户意图，对贴合用户意图的可选动作集和背离用户意图的禁选动作集进行划分。

在另一个实施例中，本步骤可以包括：计算交互内容与各个备选业务动作之间的相似度，再将相似度高于预设阈值的备选业务动作，归入可选动作集，并将剩余的备选业务动作归入禁选动作集。如此，可以实现根据隐式的用户意图，对可选动作集和禁选动作集进行划分。

由上，可以基于上一轮交互的交互内容，实现针对本轮交互的动作空间划分，具体将动作空间中离散的多个备选业务动作划分为可选动作集(或称本轮可选动作集)和禁选动作集(或称本轮禁选动作集)。

然后，在步骤S230，将上述当前状态输入强化学习模型。

上述强化学习模型采用神经网络计算所述当前状态下，上述多个备选业务动作对应的多个收益预测值。需理解，该神经网络用于计算状态(state)-动作(action)对所对应的期望收益，收益值又被称为Q值，用于计算Q值的神经网络还可以被称为Q-Network或Q网络。在一个实施例中，其中神经网络可以实现为DNN网络或CNN网络等。在一个实施例中，强化学习模型可以实现为DQN(Deep Q Network)或DDQN(Double DQN)等。

在强化学习模型的训练阶段，基于上述多个收益预测值，从可选动作集中选取对应收益预测值最大的可选动作，作为本轮业务动作。如此，可以避免选取禁选动作为本轮业务动作而给用户带来打扰。需说明，在对训练好的强化学习模型进行实际使用时，可以直接使用贪婪策略，从多个备选业务动作中选取收益预测值最大的动作，施加到业务环境中。

以上在得到利用强化学习模型选取的本轮业务动作后，在步骤S240，将该本轮业务动作施加于上述业务环境，上述业务环境发生改变，相应可以获取该业务环境改变后的状态，或称下一状态。

另外，在业务环境被施加本轮业务动作后，还可以得到业务环境作出的本轮反馈。在一个实施例中，将本轮业务动作施加于业务环境，之后，获取用户针对本轮业务动作的本轮用户响应；再基于该本轮用户响应，确定本轮反馈。需说明，在一个交互窗口中，希望使用尽可能少的交互轮次就能够的达成业务目标，从而在达成业务目标后快速结束交互，进一步降低对用户的打扰，有效提升用户体验。相应，在一个具体的实施例中，确定本轮反馈可以包括：判断该本轮用户响应是否命中业务目标；若命中任一的第一业务目标，则将上述本轮反馈确定为该第一业务目标对应的第一预设奖励分数；若未命中，则将上述本轮反馈确定为第二预设奖励分数，该第二预设奖励分数(例如，10等)小于所述第一预设奖励分数(例如，0等)。

在一个更具体的实施例中，业务目标涉及风险判别，希望尽快判别出被阻断的交易是否存在风险，而风险判别需要借助风险判别规则实现，当采集到的信息足够多，足以命中风险判别规则中的风险判别条件时，才能得到准确的风险判别结果。相应，上述判断本轮用户响应是否命中业务目标可以包括：利用本轮用户响应与风险判别规则中的风险判别条件进行匹配；若与某个风险判别条件匹配成功，则判断出命中与之对应的业务目标；若均不匹配，则判断出未命中业务目标。在一个示例中，与风险判别条件的匹配，除了利用本轮用户响应以外，还可以利用本轮业务动作，乃至之前交互轮次中的交互内容。根据一个具体的例子，假定本轮交互内容包括，本轮业务动作“请问这是刷单交易吗”，本轮用户响应“是的”，此时，可以判断出其命中风险判别规则中“如果是刷单交易，则涉嫌欺诈”的风险判别条件“如果是刷单交易”，从而判定本轮交互内容命中业务目标。在一个更具体的实施例中，命中不同业务目标后得到的奖励分数可以相同或不同，具体可根据实际业务经验设定。在一个示例中，假定本轮用户响应命中的业务目标包括“判定交易涉嫌欺诈且用户终止支付”，则其获得的奖励分数可以是10分；假定本轮用户响应命中的业务目标包括“判定交易涉嫌欺诈但用户坚持支付”，则其获得的奖励分数可以是5分。

在另一个更具体的实施例中，在商品导购场景，业务目标可以是用户下单，相应，判断该本轮用户响应是否命中业务目标可以包括，判断该本轮用户响应是否包括下单操作。进一步，若包括下单操作，则将本轮反馈确定为6分，若不包括下单操作，则将本轮反馈确定为0分。

在另一个具体的实施例中，上述基于该本轮用户响应，确定本轮反馈，可以包括：基于预先确定的用户响应与奖励分数之间的映射关系，确定与该本轮用户响应相对应的奖励分数，作为本轮反馈。

由上，将本轮业务动作施加于上述业务环境后，可以得到业务环境作出的本轮反馈和该业务环境的下一状态。

接着，相较于基于上述本轮业务动作、本轮反馈和下一状态，构建单个训练样本，在本说明书披露的实施例中，在步骤S250，计算所述当前状态下多个备选业务动作对应的多个收益标签值。如此，实现基于实际施加的单个动作，即可构建对应动作空间中全量离散动作的多个训练样本。

具体，先在步骤S251，基于所述本轮反馈、下一状态和强化学习模型中神经网络，计算本轮业务动作对应的收益标签值。需理解，对于本轮业务动作所对应收益标签值的计算，可以采用多种已有方式实现，包括Bellman方程，时序差分(Temporal-Difference,简称TD)法或蒙特卡罗(Monte-Calo,MC)法等。

基于计算出的本轮业务动作对应的收益标签值，可以设定比该收益标签值小的第一阈值和第二阈值。进而在步骤S252，确定多个备选业务动作中除本轮业务动作以外的其他业务动作所对应的标签值。

具体，针对上述其他业务动作中任一的第一动作，若该第一动作属于可选动作集，则将该第一动作的收益标签值确定为其收益预测值和第一阈值中的较大值。可以理解，多个备选业务动作的收益预测值在步骤S230中已算出，此处可以直接获取第一动作对应的收益预测值。另外，若该第一动作属于禁选动作集，则将该第一动作的收益标签值确定为其收益预测值和第二阈值中的较小值。在一个实施例中，第一阈值大于第二阈值。为便于理解特此说明，如此针对其他业务动作设定的软标签，其含义在于，若某个动作是可选的，则其收益标签值不会低于本轮业务动作所对应的收益标签值太多，若某个动作是禁选的，则其收益标签值不会高于本轮业务动作的收益标签值。如此，通过设置软标签，实际与用户进行一轮交互，仍然可以训练到所有备选的业务动作，使得强化学习模型能够收敛到一个较好的点。

对于步骤S251和步骤S252中的计算，可以表达为下式(1)。

在式(1)中，S表示当前状态，a表示备选业务动作，Q_t()表示收益标签值，a_c表示本轮业务动作，

表示收益预测值，f₁()和f₂()表示衰减函数，f₁(Q_t(S，a_c))和f₂(Q_t(S，a_c))分别表示上述第一阈值和第二阈值。

在一个示例中，公式(1)中的衰减函数可以采用公式(2)中的形式。

在公式(2)中，α₁和α₂分别为第一衰减系数和第二衰减系数，取值范围均为(0，1)，例如，α₁＝0.7，α₂＝0.3。

可以理解，衰减函数的形式还可以采用其他函数实现，只需使得函数输出值小于输入值即可。

由上，可以计算出多个备选业务动作对应的多个收益标签值。然后，在步骤S260，基于该多个收益标签值和上述多个收益预测值，训练上述强化学习模型。具体，可以基于该多个收益标签值和多个收益预测值，确定训练损失，再基于该训练损失，利用反向传播法，训练上述强化学习模型。在一个具体的实施例中，其中训练损失可以采用均方误差形式的损失函数计算得到。在另一个具体的实施例中，可以计算曼哈顿距离作为训练损失。

由上，实现在一轮交互中，基于一个业务动作的施加，构建对应全量备选业务动作的训练样本，并且，施加的业务动作贴合用户意图，不会对用户造成打扰，从而有效提升用户体验。需理解，在一个交互窗口中通常包括多轮次交互，相应地，可以针对其中各轮次交互分别确定对应多个备选业务动作的多个训练样本。依次类推，在与不同线上用户进行交互的过程中，可以快速构建出大量的训练样本，从而快速训练处一个较好的强化学习模型。

综上，采用本说明书实施例披露的强化学习模型的训练方法，可以避免不合理探索对用户造成的打扰，从而有效提升用户体验，同时，能够快速训练出一个较好的强化学习模型。

与上述训练方法相对应的，本说明书实施例还披露一种训练装置，可以理解，该装置可以实现为任何具有计算、处理能力的平台、设备或设备集群等。图3示出根据一个实施例的强化学习模型的训练装置结构图，如图3所示，所述装置300包括：

状态获取单元310，配置为获取业务环境的当前状态，其中包括上一轮交互产生的交互内容，该交互内容包括历史业务动作和历史用户响应。动作划分单元320，配置为基于所述交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集。动作预测单元330，配置为将所述当前状态输入强化学习模型，该强化学习模型采用神经网络计算所述当前状态下，所述多个备选业务动作对应的多个收益预测值，并从所述可选动作集中选取对应收益预测值最大的可选动作，作为本轮业务动作。动作施加单元340，配置为将所述本轮业务动作施加于所述业务环境，得到该业务环境作出的本轮反馈和该业务环境的下一状态。标签计算单元350，配置为计算所述当前状态下多个备选业务动作对应的多个收益标签值，标签计算单元350具体配置为：基于所述本轮反馈、下一状态和神经网络，计算所述本轮业务动作对应的收益标签值；针对所述多个备选业务动作中的其他任一动作，若其属于所述可选动作集，则将其收益标签值确定为其收益预测值和第一阈值中的较大值；若其属于所述禁选动作集，则将其收益标签值确定为其收益预测值和第二阈值中的较小值；所述第一阈值和第二阈值小于所述本轮业务动作对应的收益标签值。模型训练单元360，配置为基于所述多个收益预测值和多个收益标签值，训练所述强化学习模型。

在一个实施例中，动作划分单元320具体配置为：将所述交互内容输入预先训练的意图识别模型，得到用户当前意图；基于所述用户当前意图，将所述多个备选业务动作划分为所述可选动作集和禁选动作集。

在一个具体的实施例中，动作划分单元320进一步配置为：从所述多个备选业务动作中确定与所述用户当前意图相匹配的动作，归为所述可选动作集，并将剩余的备选业务动作归为所述禁选动作集。

在一个实施例中，动作施加单元340的配置内容具体包括：将所述本轮业务动作施加于所述业务环境，得到本轮用户响应；基于所述本轮用户响应，确定所述本轮反馈。

在一个具体的实施例中，动作施加单元340配置为基于所述本轮用户响应，确定所述本轮反馈，具体包括：判断所述本轮用户响应是否命中业务目标；若命中任一的第一业务目标，则将所述本轮反馈确定为该第一业务目标对应的第一预设奖励分数；若未命中，则将所述本轮反馈确定为第二预设奖励分数，该第二预设奖励分数小于所述第一预设奖励分数。

在一个更具体的实施例中，动作施加单元340配置为判断所述本轮用户响应是否命中若干业务目标，具体包括：利用本轮用户响应与风险判别规则中的风险判别条件进行匹配；若与某个风险判别条件匹配成功，则判断出命中与该某个风险判别条件对应的业务目标；若均不匹配，则判断出未命中业务目标。

在一个实施例中，所述第一阈值小于所述第一阈值。

采用本说明书实施例披露的强化学习模型的训练装置，可以避免不合理探索对用户造成的打扰，从而有效提升用户体验，同时，能够快速训练出一个较好的强化学习模型。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种强化学习模型的训练方法，所述方法包括：

获取业务环境的当前状态，其中包括上一轮交互产生的交互内容，该交互内容包括历史业务动作和历史用户响应；

基于所述交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集；

将所述当前状态输入强化学习模型，该强化学习模型采用神经网络计算所述当前状态下，所述多个备选业务动作对应的多个收益预测值，并从所述可选动作集中选取对应收益预测值最大的可选动作，作为本轮业务动作；

将所述本轮业务动作施加于所述业务环境，得到该业务环境作出的本轮反馈和该业务环境的下一状态；

计算所述当前状态下多个备选业务动作对应的多个收益标签值，其中，

基于所述本轮反馈、下一状态和所述神经网络，计算所述本轮业务动作对应的收益标签值；

针对所述多个备选业务动作中的其他任一动作，若其属于所述可选动作集，则将其收益标签值确定为其收益预测值和第一阈值中的较大值；若其属于所述禁选动作集，则将其收益标签值确定为其收益预测值和第二阈值中的较小值；所述第一阈值和第二阈值小于所述本轮业务动作对应的收益标签值；

基于所述多个收益预测值和多个收益标签值，训练所述强化学习模型。

2.根据权利要求1所述的方法，其中，所述当前状态中包括当前交互窗口中所有历史交互轮次产生的交互内容，和/或，所述当前交互窗口所对应用户的用户属性特征。

3.根据权利要求1所述的方法，其中，基于所述交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集，包括：

将所述交互内容输入预先训练的意图识别模型，得到用户当前意图；

基于所述用户当前意图，将所述多个备选业务动作划分为所述可选动作集和禁选动作集。

4.根据权利要求3所述的方法，其中，基于所述用户当前意图，将所述多个备选业务动作划分为所述可选动作集和禁选动作集，包括：

从所述多个备选业务动作中确定与所述用户当前意图相匹配的动作，归为所述可选动作集，并将剩余的备选业务动作归为所述禁选动作集。

5.根据权利要求1所述的方法，其中，得到该业务环境作出的本轮反馈，包括：

将所述本轮业务动作施加于所述业务环境，得到本轮用户响应；

基于所述本轮用户响应，确定所述本轮反馈。

6.根据权利要求5所述的方法，其中，基于所述本轮用户响应，确定所述本轮反馈，包括：

判断所述本轮用户响应是否命中业务目标；

若命中任一的第一业务目标，则将所述本轮反馈确定为该第一业务目标对应的第一预设奖励分数；

若未命中，则将所述本轮反馈确定为第二预设奖励分数，该第二预设奖励分数小于所述第一预设奖励分数。

7.根据权利要求6所述的方法，其中，判断所述本轮用户响应是否命中若干业务目标，包括：

利用本轮用户响应与风险判别规则中的风险判别条件进行匹配；

若与某个风险判别条件匹配成功，则判断出命中与该某个风险判别条件对应的业务目标；

若均不匹配，则判断出未命中业务目标。

8.根据权利要求1所述的方法，其中，所述第一阈值大于所述第二阈值。

9.根据权利要求1或8所述的方法，其中，所述第一阈值等于所述本轮业务动作对应的收益标签值与第一衰减系数的乘积，所述第二阈值等于所述本轮业务动作对应的收益标签值与第二衰减系数的乘积。

10.根据权利要求1所述的方法，其中，所述业务环境涉及客服业务，所述历史业务动作包括历史客服会话语句，所述历史用户响应包括历史用户会话语句。

11.根据权利要求1所述的方法，其中，基于所述多个收益预测值和多个收益标签值，训练所述强化学习模型，包括：

基于所述多个收益预测值和多个收益标签值，计算均方误差损失；

利用所述均方误差损失，训练所述强化学习模型。

12.一种强化学习模型的训练装置，所述装置包括：

状态获取单元，配置为获取业务环境的当前状态，其中包括上一轮交互产生的交互内容，该交互内容包括历史业务动作和历史用户响应；

动作划分单元，配置为基于所述交互内容，将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集；

动作预测单元，配置为将所述当前状态输入强化学习模型，该强化学习模型采用神经网络计算所述当前状态下，所述多个备选业务动作对应的多个收益预测值，并从所述可选动作集中选取对应收益预测值最大的可选动作，作为本轮业务动作；

动作施加单元，配置为将所述本轮业务动作施加于所述业务环境，得到该业务环境作出的本轮反馈和该业务环境的下一状态；

标签计算单元，配置为计算所述当前状态下多个备选业务动作对应的多个收益标签值，其中，

模型训练单元，配置为基于所述多个收益预测值和多个收益标签值，训练所述强化学习模型。

13.根据权利要求12所述的装置，其中，所述动作划分单元具体配置为：

14.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项的所述的方法。

15.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。