CN111382359A

CN111382359A - 基于强化学习的服务策略推荐方法、装置、电子设备

Info

Publication number: CN111382359A
Application number: CN202010159325.XA
Authority: CN
Inventors: 刘洋
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-07-07
Anticipated expiration: 2040-03-09
Also published as: CN111382359B

Abstract

本公开提供了一种强化学习的服务策略推荐方法、强化学习的服务策略推荐装置、电子设备及计算机可读存储介质，属于人工智能技术领域。该方法包括：从待服务事件中提取用户特征和事件特征，根据所述用户特征和所述事件特征生成状态数据；根据预先训练的强化学习模型对所述状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为；根据所述目标行为，确定所述待服务事件的服务策略。本公开可以基于强化学习模型，为用户推荐准确、有效的服务策略，具有较广的适用范围。

Description

基于强化学习的服务策略推荐方法、装置、电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种基于强化学习的服务策略推荐方法、客服事件处理方法、基于强化学习的服务策略推荐装置、客服事件处理装置、电子设备及计算机可读存储介质。

背景技术

在各个企业或互联网平台中，为了能够有效增加用户粘度，完善企业或平台形象，使其具有良好的发展前景，为用户提供良好的服务品质，并及时解决用户提出的问题是非常重要的。

现有技术中，如何为用户提供服务，采用什么样的服务策略，通常是特定服务人员根据统一预设的策略进行的。例如在电商平台中，往往是通过大量的客服人员，根据既定的业务流程，统一的业务标准，为客户提供服务。然而，在实际应用中，由于客户需求与要解决的问题具有复杂的多样性，可能会出现无法满足客户需求，或为客户提供了过度服务，导致增加额外服务成本等问题。另外，服务人员的流动性较强，而策略服务的培训周期较长，为企业或平台增加了高成本低收益的风险。

因此，如何为企业或平台推荐针对客户的服务策略，以对其进行有效服务，是现有技术亟待解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供了一种基于强化学习的服务策略推荐方法、客服事件处理方法、基于强化学习的服务策略推荐方法装置、客服事件处理装置、电子设备及计算机可读存储介质，进而至少在一定程度上克服现有的服务策略推荐方法不准确、且人力成本较高的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种基于强化学习的服务策略推荐方法，包括：从待服务事件中提取用户特征和事件特征，根据所述用户特征和所述事件特征生成状态数据；根据预先训练的强化学习模型对所述状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为；根据所述目标行为，确定所述待服务事件的服务策略。

在本公开的一种示例性实施例中，所述强化学习模型通过以下方式训练得到：从样本服务事件中提取状态样本、行为样本和短期收益值标签；利用待训练的神经网络处理所述状态样本，将所述行为样本对应的输出确定为所述样本服务事件的长期收益值；从所述样本服务事件的后续事件中提取后续状态样本，并利用所述神经网络处理所述后续状态样本，将每种行为对应的输出中的最大值确定为所述样本服务事件的后续收益值；基于所述样本服务事件的长期收益值、后续收益值和短期收益值标签，更新所述神经网络的参数，以得到所述强化学习模型。

在本公开的一种示例性实施例中，所述基于所述样本服务事件的短期收益值标签、长期收益值和后续收益值，更新所述神经网络的参数，以得到所述强化学习模型，包括：获取损失函数，并利用所述损失函数对所述神经网络的参数进行梯度下降，以更新所述神经网络的参数，得到所述强化学习模型。

在本公开的一种示例性实施例中，所述损失函数是基于输出项和标签项之差而建立的，所述输出项包括所述样本服务事件的长期收益值，所述标签项包括所述样本服务事件的后续收益值和短期收益值标签。

在本公开的一种示例性实施例中，所述方法还包括：如果所述样本服务事件不具有后续事件，则确定所述样本服务事件的后续收益值为零。

在本公开的一种示例性实施例中，所述样本服务事件为客服事件；所述短期收益值标签通过以下任意一种或多种因素确定：客服渠道、客服处理时长、赔付金额、用户满意度。

在本公开的一种示例性实施例中，所述方法还包括：获取所述待服务事件基于所述服务策略的服务结果；根据所述状态数据、所述目标行为数据和所述服务结果更新所述强化学习模型。

根据本公开的第二方面，提供一种基于强化学习的服务策略推荐装置，包括：状态数据生成模块，用于从待服务事件中提取用户特征和事件特征，根据所述用户特征和所述事件特征生成状态数据；目标行为确定模块，用于根据预先训练的强化学习模型对所述状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为；服务策略确定模块，用于根据所述目标行为，确定所述待服务事件的服务策略。

在本公开的一种示例性实施例中，所述强化学习模型通过以下单元训练得到：样本提取单元，用于从样本服务事件中提取状态样本、行为样本和短期收益值标签；长期收益值确定单元，用于利用待训练的神经网络处理所述状态样本，将所述行为样本对应的输出确定为所述样本服务事件的长期收益值；后续收益值确定单元，用于从所述样本服务事件的后续事件中提取后续状态样本，并利用所述神经网络处理所述后续状态样本，将每种行为对应的输出中的最大值确定为所述样本服务事件的后续收益值；模型获得单元，用于基于所述样本服务事件的长期收益值、后续收益值和短期收益值标签，更新所述神经网络的参数，以得到所述强化学习模型。

在本公开的一种示例性实施例中，模型获得单元，包括：参数更新子单元，用于获取损失函数，并利用所述损失函数对所述神经网络的参数进行梯度下降，以更新所述神经网络的参数，得到所述强化学习模型。

在本公开的一种示例性实施例中，基于强化学习的服务策略推荐装置还包括：判断模块，用于如果所述样本服务事件不具有后续事件，则确定所述样本服务事件的后续收益值为零。

在本公开的一种示例性实施例中，基于强化学习的服务策略推荐装置还包括：结果获取模块，用于获取所述待服务事件基于所述服务策略的服务结果；模型更新模块，用于根据所述状态数据、所述目标行为数据和所述服务结果更新所述强化学习模型。

根据本公开的第三方面，提供一种客服事件处理方法，包括：响应于客服终端确认关于用户的服务接收操作，获取待服务事件；根据所述待服务事件，确定用户身份信息和服务事件信息；将所述用户身份信息和服务事件信息发送至所述客服终端；响应于所述客服终端对所述用户身份信息和服务事件信息的确认操作，基于上述基于强化学习的服务策略推荐方法，根据所述用户身份信息以及服务事件信息确定所述待服务事件的服务策略，并将所述服务策略推送至所述客服终端。

在本公开的一种示例性实施例中，所述服务接收操作为电话进线操作，所述待服务事件为待服务电话事件；所述根据所述待服务事件，确定用户身份信息和服务事件信息，包括：根据所述待服务电话事件中的电话信息，获取用户身份信息；根据所述待服务电话事件中的语音信息，获取服务事件信息。

根据本公开的第四方面，提供一种客服事件处理装置，包括：事件获取模块，用于响应于客服终端确认关于用户的服务接收操作，获取待服务事件；信息获取模块，用于根据所述待服务事件，确定用户身份信息和服务事件信息；信息发送模块，用于将所述用户身份信息和服务事件信息发送至所述客服终端；策略推送模块，用于响应于所述客服终端对所述用户身份信息和服务事件信息的确认操作，基于上述基于强化学习的服务策略推荐方法，根据所述用户身份信息以及服务事件信息确定所述待服务事件的服务策略，并将所述服务策略推送至所述客服终端。

在本公开的一种示例性实施例中，所述服务接收操作为电话进线操作，所述待服务事件为待服务电话事件；信息获取模块，包括，第一信息获取单元，用于根据所述待服务电话事件中的电话信息，获取用户身份信息；第二信息获取单元，用于根据所述待服务电话事件中的语音信息，获取服务事件信息。

根据本公开的第五方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开的示例性实施例具有以下有益效果：

从待服务事件中提取用户特征和事件特征，根据用户特征和事件特征生成状态数据；根据预先训练的强化学习模型对状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为；根据目标行为，确定待服务事件的服务策略。一方面，本示例性实施例根据用户特征和事件特征，确定服务策略，可以综合考虑用户与事件的多样性，对于不同的用户与事件，提出更具针对性的服务策略，从而能够提高用户满意度；另一方面，根据长期收益值，从最大收益角度出发，确定服务策略，能够提高服务策略推荐的有效性和准确性；再一方面，基于强化学习模型进行服务策略的推荐，较少需要人为参与，提高了服务人员的效率，减少了人力成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本示例性实施例中一种基于强化学习的服务策略方法的流程图；

图2示意性示出本示例性实施例中一种基于强化学习的服务策略方法的子流程图；

图3示意性示出本示例性实施例中一种强化学习网络结构的示意图；

图4示意性示出本示例性实施方式中一种客服事件处理方法的系统架构的示意图；

图5示意性示出本示例性实施方式中一种客服事件处理方法的流程图；

图6示意性示出本示例性实施方式中一种客服事件处理方法的界面示意图；

图7示意性示出本示例性实施例中一种基于强化学习的服务策略装置的结构框图；

图8示意性示出本示例性实施例中一种客服事件处理装置的结构框图；

图9示意性示出本示例性实施例中一种用于实现上述方法的电子设备；

图10示意性示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本公开的示例性实施例首先提供了一种基于强化学习的服务策略推荐方法，本实施例方法的应用场景可以是：在电商平台中，客服人员通过本示例性实施例确定针对客户的服务策略，以为客户提供服务；或者物流平台，管理人员通过本示例性实施例确定寄件人的服务策略，以为其提供服务等等。

下面结合附图1对本示例性实施例做进一步说明，如图1所示，基于强化学习的服务策略推荐方法可以包括以下步骤S110～S130：

步骤S110，从待服务事件中提取用户特征和事件特征，根据用户特征和事件特征生成状态数据。

其中，待服务事件是指基于用户产生的，需要为用户提供的服务或需要解决的问题，用户是指需要被提供服务的对象。根据应用场景的不同，待服务事件与用户具有多样性，例如在电商平台中，客户向商家发起投诉、退款、换货、或其他诉求等，客户即为用户，投诉、退款、换货、或其他诉求等即为待服务事件。在本示例性实施例中，待服务事件中可以包含两方面的数据信息，第一方面是用户特征，用户特征是指能够反映用户属性的特征数据，例如电商平台中，用户的年龄、性别、购物喜好等基本信息，或者常购物品类别、购物价格分布、购物频率、常用物流信息等与平台相关的行为信息，再或者是否向客服人员进行过咨询或投诉、咨询频率、是否有退/换货等记录信息等；第二方面是事件特征，事件特征可以包括多种与事件本身有关的数据，例如事件类型(配送、仓储、退/换货、赔付等)、事件根源(配送超期、快件丢失、快件破损、货物配送错误等)、事件涉及金额、用户要求(按价赔偿，赔付运费险、高额赔偿、按比例赔偿等) 等。

状态数据可以反映当前事件的状况，以及与当前事件相关的用户的信息，由用户和事件共同确定。本示例性实施例可以通过对状态数据的分析，确定在该状态下采用什么样的行为，即提供什么样的服务。在本示例性实施例中，可以将用户特征和事件特征转化为用户特征向量和事件特征向量，再将用户特征向量与事件特征向量进行组合或拼接，得到包括用户特征和事件特征的状态数据。例如用户n的特征向量可以通过X_n进行表示，事件 m的特征向量可以通过Y_m进行表示，将用户特征和事件特征进行拼接，可以得到状态数据State，通过s＝{X_n,Y_m}进行表示。

步骤S120，根据预先训练的强化学习模型对状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为。

步骤S130，根据目标行为，确定待服务事件的服务策略。

其中，强化学习模型是机器学习的一个分支，强调如何基于当前的环境进行行动，以取得最大化的预期效果，即有机体如何在环境的奖励或惩罚刺激下，逐步形成对刺激的预期，产生能够最大化利益的习惯性行为。强化学习与有监督和无监督的学习不同，它的互动主要基于环境和智能体之间的互动，环境无需为智能体提供标签或数据，而是给它一定的刺激，让它的行为发生一定的改变。

通常，强化学习模型中包含4个要素：(1)状态，可以用State或s 表示；(2)行为，可以用Action或a表示，行为能给智能体带来效益和让智能体来到新的状态；(3)即时奖励，可以用Reward或者r表示，描述执行一个行为后得到来自环境的反馈，可以是正面的也可以是负面的； (4)策略，可以用Policy或者π表示，描述智能体对状态到行为的映射。强化学习模型的训练过程是智能体与环境进行实时交互，并通过动作影响环境的过程，其目的是为了找到一个最优策略，使智能体获得尽可能多的来自环境的奖励，例如在本示例性实施例中，环境可以是电商平台中，针对客户提出的事件，向客服人员推荐服务策略；智能体可以是用于推荐服务策略的平台、终端或设备等；状态是指用户与事件的情况；行为是指针对用户提供服务；策略是指如何提供、或提供什么样的服务；奖励可以是为合适的策略赋予较高的评分，在本示例性实施例中可以是指在当前状态下采用某一行为所获得的收益等。

在实际应用中，企业或平台的服务人员针对某一事件，可能会为用户提供多次服务，例如针对某次快件的赔付事件，用户与客服进行电话沟通，而初次确定的赔付金额却未能让用户满意，因此，客服人员与用户进行了再次或多次的电话沟通。在这多次的服务中，客服人员与用户所针对的事件相同，所涉及的用户也相同。因此，针对每一个事件提供的服务策略，都可能会具有长期的影响，而基于每次事件的收益产生长远的收益，即为长期收益值。

在本示例性实施例中，行为是指企业或平台所能够为用户提供的服务策略，例如客服人员对客户进行安抚、道歉、按运费险赔偿、按价赔偿、高额赔偿、或为客户进行会员升级等多种行为。其中，针对当前事件确定的为用户提供的服务即为目标行为。本示例性实施例，可以用 Action或a表示行为，a∈A，其中，A是指所有行为的集合。本示例性实施例可以通过确定每种行为中，长期收益值最高的行为作为目标行为。并根据目标行为，确定为用户提供怎样的服务，并将对应的服务策略推荐给特定服务人员。

基于上述说明，在本示例性实施例中，从待服务事件中提取用户特征和事件特征，根据用户特征和事件特征生成状态数据；根据预先训练的强化学习模型对状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为；根据目标行为，确定待服务事件的服务策略。一方面，本示例性实施例根据用户特征和事件特征，确定服务策略，可以综合考虑用户与事件的多样性，对于不同的用户与事件，提出更具针对性的服务策略，从而能够提高用户满意度；另一方面，根据长期收益值，从最大收益角度出发，确定服务策略，能够提高服务策略推荐的有效性和准确性；再一方面，基于强化学习模型进行服务策略的推荐，较少需要人为参与，提高了服务人员的效率，减少了人力成本。

在一示例性实施例中，如图2所示，上述强化学习模型可以通过以下步骤训练得到：

步骤S210，从样本服务事件中提取状态样本、行为样本和短期收益值标签；

步骤S220，利用待训练的神经网络处理状态样本，将行为样本对应的输出确定为样本服务事件的长期收益值；

步骤S230，从样本服务事件的后续事件中提取后续状态样本，并利用神经网络处理后续状态样本，将每种行为对应的输出中的最大值确定为样本服务事件的后续收益值；

步骤S240，基于样本服务事件的长期收益值、后续收益值和短期收益值标签，更新神经网络的参数，以得到强化学习模型。

其中，样本服务事件是指用于训练神经网络的样本数据，同步骤S110 中的待服务事件相同，根据应用场景的不同，具有多样性。其可以从平台或企业内部的历史数据中获取，例如获取电商平台中全部用户的服务事件，或最近几个月内已成交的用户的服务事件等。样本服务事件中可以包括状态样本、行为样本和短期收益值标签。

状态样本是指由样本用户特征和样本事件特征确定的状态数据，在本示例性实施例中，样本用户n的特征向量可以通过X_n进行表示，样本服务事件m的特征向量可以通过Y_m进行表示。即可以通过X_n表示部分或全部的样本用户特征，通过Y_m表示部分或所有的样本服务事件特征，进一步的，将用户特征和事件特征进行拼接，可以得到状态样本State，通过向量s＝{X_n，Y_m}进行表示。行为样本表示针对当前样本事件所采取的行为，为一个标量，可以用Action或a表示，a∈A，A是指所有行为的集合。短期收益值标签是指在状态样本s下采取行为样本a，所获得的收益，可以用r表示，定义为r(s，a)。一般来说，短期收益值标签可以在采取了行为样本后直接从外界的反馈信息得来。

特别的，本示例性实施例应用于针对客服人员推荐客户服务策略的场景中时，上述样本服务事件即为客服事件；上述短期收益值标签可以通过以下任意一种或多种因素确定：

客服渠道、客服处理时长、赔付金额、用户满意度。

客服渠道是指客服与用户之间的沟通方式，或者采用何种方式提供服务策略或解决问题，例如客服人员与客户进行线上的信息沟通、或线下的电话沟通等。其中，客服人员与客户的沟通过程本身存在成本，例如电话沟通存在话费支出等。因此，可以通过客服渠道来确定短期收益值标签，其中，可以用C₁定义客服渠道产生的收益。而客服处理时长不同对短期收益值标签也会造成影响，处理时长越长，产生的成本就越高，可以用C₂定义客服处理时长产生的收益。另外，针对用户提出的待服务事件，如果需要进行赔付，则赔付金额也可以直接算作成本的一部分，可以用C₃表示。如果本次事件没有涉及到赔付金额，则可以令C₃为0。通常，在为用户提供完成服务后，平台中会通过收集用户评分来对事件的处理程度进行评估，例如可以定义为{满意，一般，不满意}三个层次，相应的，可以将收益定义为C₄∈{C₄₁，C₄₂，C₄₃}。在本示例性实施例中，可以根据需要，采用上述一种或多种因素来确定短期收益值标签，例如通过客服渠道C₁、赔付金额C₃、用户满足度C4，确定短期收益值标签时，可以得到短期收益值标签，r(s，a)＝-C₁-C₃+C₄。

在本示例性实施例中，假设在时间点t，所获得的短期收益值标签为r_t，则长期收益值可以表示为：

其中，为了降低不确定性较强的未来收益中长远收益的重要性，可以令0<γ<1。本示例性实施例可以用函数Q(s_t，a_t)，表示在时间点t，状态数据State为s_t，采取行为Action为a_t时的长期收益值。最大化长期收益值的行为可以由公式：

计算得到。而最大的长期收益值

可以根据贝尔曼(Bellman)等式得到，表示为：

其中，

表示最大的后续收益值。

需要说明的是，长期收益值Q(s_t，a_t)的构建，在强化学习中可以有很多种不同的方式，本示例性实施例在此，通过深度学习(Deep Q-Learing， DQN)算法进行解释说明。在使用深度神经网络来拟合Q(s_t，a_t)时， Q(s_t，a_t)的结构为一个多层全连接网络，神经网络的输入为当前的状态样本向量s，输出为每种行为对应的长期收益值，即Q(s，a),

因此，输出结果一共有|A|个。在此，可以用一个基本的全连接网络来建立神经网络结构，如图3所示。其中Q(s，a(n))表示第n种行为a(n)对应的长期收益值。当确定当前的状态s，将其输入神经网络就可以得到在状态s的情况下每种行为a对应的长期收益值Q(s，a)，

在实际应用中，可以通过比较所有的Q(s，a),

找出最大的长期收益值对应的行为a作为目标行为，从而确定推荐的服务策略，其中，a^*＝argmax_aQ(s，a)。

在一示例性实施例中，上述步骤S240可以包括以下步骤：

获取损失函数，并利用损失函数对神经网络的参数进行梯度下降，以更新神经网络的参数，得到强化学习模型。

在建立完成神经网络之后，为了对其进行训练，进行参数更新，可以定义损失函数L。神经网络的训练过程，其实质是通过调整参数，以使输出结果越来越接近于标签。

在本示例性实施例中，损失函数是基于输出项和标签项之差而建立的，输出项包括样本服务事件的长期收益值，标签项包括样本服务事件的后续收益值和短期收益值标签。

具体的，在确定时间点t的状态样本s_t，对应采取的服务行为a_t，以及下一时间点t+1的状态样本s_t+1后，损失函数L可以通过以下公式计算得到：

其中，输出项包括样本服务事件的长期收益值Q(s_t，a_t)，标签项包括样本服务事件的后续收益值和短期收益值标签

然后，进一步根据上述损失函数对神经网络模型进行训练。

在一示例性实施例中，如果样本服务事件不具有后续事件，则确定样本服务事件的后续收益值为零。

即在实际应用中，如果为用户提供了最后一次服务，且一定期限内未产生其他服务，例如用户与客服人员最后一次进行电话沟通后，且三个月内客户没有再打来电话，则可以视与该用户相关的服务已结束，不会产生后续收益，因此，可以令Q(s_t+1,a_t+1)＝0。

在本示例性实施例中，神经网络模型的具体的训练过程如下：假设神经网络Q(s，a)的参数为θ_i，i为每个参数的下标。每次采集一个状态样本 State s_t，并查找其在历史上采取了的行为Action a_t，以及对应的下一个时间节点的状态样本State s_t+1。根据历史记录得到r(s_t，a_t)，并将s_t和s_t+1带入神经网络，得到

Q(s_t+1，a_t+1)，Q(s_t，a_t)，以及神经网络中每个神经元的值。通过梯度下降算法，将损失函数L(s_t，s_t+1，a_t)对神经网络中每个参数θ_i求偏导，表示为

按照

更新参数，其中，α为学习率。

在一示例性实施例中，基于强化学习的服务策略推荐方法还可以包括以下步骤：

获取待服务事件基于服务策略的服务结果；

根据状态数据、目标行为数据和服务结果更新强化学习模型。

在实际的使用过程中，可以通过样本数据对模型进行训练，得到初始的服务策略推荐模型，投入各个平台或企业中进行使用。后续使用时，该模型将会累积很多新的状态数据，并针对这些状态数据得到对应的目标行为数据，以及采用目标行为数据后用户是否满意、是否能够解决问题等服务结果。随着模型使用时间的增加，这些状态数据、目标行为数据和服务结果的数据量将会增加。而通常，为了提高模型推荐的准确性，需要定期对已有模型进行训练与更新，本示例性实施例则可以使用这些累积数据作为训练数据，继续用于对服务策略推荐模型的训练与更新，实现其闭环训练。本示例性实施例通过不断积累的使用数据，扩大模型训练数据，提高了数据的利用率，且及时更新强化学习模型，能够保持其具有较高的推荐准确性。

图4示出了本公开示例性实施方式的一种客服事件处理方法的系统架构的示意图。如图4所示，该系统架构400可以包括：客服终端410、用户终端420和服务策略推荐系统430。客服终端410与用户终端420 可以是具有通信功能的各种电子设备，包括但不限于智能手机、平板电脑、或个人电脑等，客服终端410与用户终端420之间可以实现通信交流，例如发送信息或语音、视频通话等，客服终端410接收到用户身份信息与服务事件信息后，可以将其发送至服务策略推荐系统430，并接收服务策略推荐系统430返回的服务策略，为客服人员提供服务策略。服务策略推荐系统430，用于训练强化学习模型，并通过训练完成的强化学习模型对用户身份信息和服务事件信息进行处理，得到推荐的服务策略。应该理解，图4中的客服终端410、用户终端420的数目仅仅是示意性的。根据需要，可以具有任意数目。比如客服终端410可以是由多个客服终端组成的集群等。

下面结合附图5对本示例性实施例做进一步说明，如图5所示，客服事件处理方法可以包括以下步骤S510～S540：

步骤S510，响应于客服终端确认关于用户的服务接收操作，获取待服务事件；

步骤S520，根据待服务事件，确定用户身份信息和服务事件信息；

步骤S530，将用户身份信息和服务事件信息发送至客服终端；

步骤S540，响应于客服终端对用户身份信息和服务事件信息的确认操作，基于上述基于强化学习的服务策略推荐方法，根据用户身份信息以及服务事件信息确定待服务事件的服务策略，并将服务策略推送至客服终端。

其中，客服终端是指客服人员所使用的终端，例如个人电脑或智能手机等，客服人员能够通过客服终端与用户进行沟通，例如客服人员可以在线上通过特定的应用程序与用户进行文本信息沟通，或采用视频或电话直接进行沟通等。待服务事件是指客服人员与用户之间，基于用户产生需要进行服务的事件，例如电商平台中，用户购买商品后，存在换货、退货、投诉等诉求时，需要与客服人员进行协商或沟通等。确认服务接收操作是指客服人员接收用户提出的诉求或确定为用户提供服务的操作。在本示例性实施例中，待服务事件可以是待服务的电话事件，即用户通过语音或打电话的形式与客服人员进行沟通，相应的服务接收操作可以是电话进线操作，确认电话进线操作，则是指客服人员允许用户进线的操作，或确定接通与用户的电话沟通的操作等。

在本示例性实施例中，根据上述待服务事件，可以确定用户身份信息和服务事件信息，具体的，当待服务事件为待服务电话事件时，上述步骤 S520可以包括以下步骤：

根据待服务电话事件中的电话信息，获取用户身份信息；

根据待服务电话事件中的语音信息，获取服务事件信息。

其中，电话信息是指电话沟通中与用户相关的内容，可以用于跟踪和确定来电用户的身份信息，例如根据电话号码确定用户归属地信息或用户位置IP(InternetProtocol，网际互联协议)等，或者确定用户在平台中的 ID(Identify，身份标识)、昵称、账户或订单编号等。语音信息可以是指客服人员与用户的具体沟通内容，可以用于确定待服务电话事件中具体所涉及的服务事件信息，例如用户需要向商家发起投诉、退款、换货、或其他服务事件等。

客服人员通过客服终端接收到用户身份信息和服务事件信息后，可以通过服务策略推荐系统对用户身份信息与服务事件信息进行分析，得到待服务事件的服务策略，使客服人员可以基于该服务策略为用户提供相应的服务。图6示出了客服人员通过服务策略推荐系统获取服务策略的界面示意图，如图所示，区域610和620均可以用于接收与用户身份信息相关的数据，如用户ID，或订单编号等，区域630可以接收具体的服务事件信息，其中，根据实际需要，客服人员可以在区域630内输入事件的完整文本信息，也可以输入与事件有关的关键字信息等，该界面还包括用于进行触发推荐的确认按钮640，当客服人员进行确认操作后，服务策略推荐系统即可以根据用户身份信息和服务事件信息生成对应的服务策略，并将推荐的服务策略显示于区域650中。

基于上述说明，在本示例性实施例中，响应于客服终端确认关于用户的服务接收操作，获取待服务事件；根据待服务事件，确定用户身份信息和服务事件信息；将用户身份信息和服务事件信息发送至客服终端；响应于客服终端对用户身份信息和服务事件信息的确认操作，基于上述基于强化学习的服务策略推荐方法，根据用户身份信息以及服务事件信息确定待服务事件的服务策略，并将服务策略推送至客服终端。一方面，从用户身份信息和服务事件信息两个方面，确定服务策略，综合考虑了用户因素和事件因素，能够为用户提供更为准确的服务策略，实现服务策略的个性化推荐；另一方面，使用强化学习对为客服人员进行服务策略的推荐，其过程较为简单，推荐结果准确性较高，为客服人员提供了便捷，且提高了客服处理事件的效率。

本公开的示例性实施例还提供了一种基于强化学习的服务策略推荐装置。参照图7，该装置700可以包括，状态数据生成模块710，用于从待服务事件中提取用户特征和事件特征，根据用户特征和事件特征生成状态数据；目标行为确定模块720，用于根据预先训练的强化学习模型对状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为；服务策略确定模块730，用于根据目标行为，确定待服务事件的服务策略。

在一示例性实施例中，强化学习模型通过以下单元训练得到：样本提取单元，用于从样本服务事件中提取状态样本、行为样本和短期收益值标签；长期收益值确定单元，用于利用待训练的神经网络处理状态样本，将行为样本对应的输出确定为样本服务事件的长期收益值；后续收益值确定单元，用于从样本服务事件的后续事件中提取后续状态样本，并利用神经网络处理后续状态样本，将每种行为对应的输出中的最大值确定为样本服务事件的后续收益值；模型获得单元，用于基于样本服务事件的长期收益值、后续收益值和短期收益值标签，更新神经网络的参数，以得到强化学习模型。

在一示例性实施例中，模型获得单元，包括：参数更新子单元，用于获取损失函数，并利用损失函数对神经网络的参数进行梯度下降，以更新神经网络的参数，得到强化学习模型。

在一示例性实施例中，损失函数是基于输出项和标签项之差而建立的，输出项包括样本服务事件的长期收益值，标签项包括样本服务事件的后续收益值和短期收益值标签。

在一示例性实施例中，基于强化学习的服务策略推荐装置还包括：判断模块，用于如果样本服务事件不具有后续事件，则确定样本服务事件的后续收益值为零。

在一示例性实施例中，样本服务事件为客服事件；短期收益值标签通过以下任意一种或多种因素确定：客服渠道、客服处理时长、赔付金额、用户满意度。

在一示例性实施例中，基于强化学习的服务策略推荐装置还包括：结果获取模块，用于获取待服务事件基于服务策略的服务结果；模型更新模块，用于根据状态数据、目标行为数据和服务结果更新强化学习模型。

本公开的示例性实施例还提供了一种客服事件处理装置，参照图8，该装置800可以包括：事件获取模块810，用于响应于客服终端确认关于用户的服务接收操作，获取待服务事件；信息获取模块820，用于根据待服务事件，确定用户身份信息和服务事件信息；信息发送模块830，用于将用户身份信息和服务事件信息发送至客服终端；策略推送模块840，用于响应于客服终端对用户身份信息和服务事件信息的确认操作，基于上述基于强化学习的服务策略推荐方法，根据用户身份信息以及服务事件信息确定待服务事件的服务策略，并将服务策略推送至客服终端。

在一示例性实施例中，服务接收操作为电话进线操作，待服务事件为待服务电话事件；信息获取模块，包括，第一信息获取单元，用于根据待服务电话事件中的电话信息，获取用户身份信息；第二信息获取单元，用于根据待服务电话事件中的语音信息，获取服务事件信息。

上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明，未披露的细节内容可以参见方法部分的实施例内容，因此此处不再赘述。

本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图9来描述根据本公开的这种示例性实施例的电子设备 900。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备 900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910) 的总线930、显示单元940。

其中，存储单元存储有程序代码，程序代码可以被处理单元910执行，使得处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元910可以执行图1、图2、或图5所示的步骤等。

存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)921和/或高速缓存存储单元922，还可以进一步包括只读存储单元(ROM)923。

存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924，这样的程序模块925包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900 还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、 RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等) 执行根据本公开示例性实施例的方法。

本公开的示例性实施例还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图10所示，描述了根据本公开的示例性实施例的用于实现上述方法的程序产品1000，其可以采用便携式紧凑盘只读存储器(CD-ROM) 并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如 Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施例，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种基于强化学习的服务策略推荐方法，其特征在于，包括：

从待服务事件中提取用户特征和事件特征，根据所述用户特征和所述事件特征生成状态数据；

根据预先训练的强化学习模型对所述状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为；

根据所述目标行为，确定所述待服务事件的服务策略。

2.根据权利要求1所述的方法，其特征在于，所述强化学习模型通过以下方式训练得到：

从样本服务事件中提取状态样本、行为样本和短期收益值标签；

利用待训练的神经网络处理所述状态样本，将所述行为样本对应的输出确定为所述样本服务事件的长期收益值；

从所述样本服务事件的后续事件中提取后续状态样本，并利用所述神经网络处理所述后续状态样本，将每种行为对应的输出中的最大值确定为所述样本服务事件的后续收益值；

基于所述样本服务事件的长期收益值、后续收益值和短期收益值标签，更新所述神经网络的参数，以得到所述强化学习模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述样本服务事件的短期收益值标签、长期收益值和后续收益值，更新所述神经网络的参数，以得到所述强化学习模型，包括：

获取损失函数，并利用所述损失函数对所述神经网络的参数进行梯度下降，以更新所述神经网络的参数，得到所述强化学习模型。

4.根据权利要求3所述的方法，其特征在于，所述损失函数是基于输出项和标签项之差而建立的，所述输出项包括所述样本服务事件的长期收益值，所述标签项包括所述样本服务事件的后续收益值和短期收益值标签。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

如果所述样本服务事件不具有后续事件，则确定所述样本服务事件的后续收益值为零。

6.根据权利要求2所述的方法，其特征在于，所述样本服务事件为客服事件；所述短期收益值标签通过以下任意一种或多种因素确定：

客服渠道、客服处理时长、赔付金额、用户满意度。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述待服务事件基于所述服务策略的服务结果；

根据所述状态数据、所述目标行为数据和所述服务结果更新所述强化学习模型。

8.一种客服事件处理方法，其特征在于，包括：

响应于客服终端确认关于用户的服务接收操作，获取待服务事件；

根据所述待服务事件，确定用户身份信息和服务事件信息；

将所述用户身份信息和服务事件信息发送至所述客服终端；

响应于所述客服终端对所述用户身份信息和服务事件信息的确认操作，基于上述权利要求1～7任一项所述方法，根据所述用户身份信息以及服务事件信息确定所述待服务事件的服务策略，并将所述服务策略推送至所述客服终端。

9.根据权利要求8所述的方法，其特征在于，所述服务接收操作为电话进线操作，所述待服务事件为待服务电话事件；

所述根据所述待服务事件，确定用户身份信息和服务事件信息，包括：

根据所述待服务电话事件中的电话信息，获取用户身份信息；

根据所述待服务电话事件中的语音信息，获取服务事件信息。

10.一种基于强化学习的服务策略推荐装置，其特征在于，包括：

状态数据生成模块，用于从待服务事件中提取用户特征和事件特征，根据所述用户特征和所述事件特征生成状态数据；

目标行为确定模块，用于根据预先训练的强化学习模型对所述状态数据进行处理，得到每种行为对应的长期收益值，以确定其中长期收益值最高的行为为目标行为；

服务策略确定模块，用于根据所述目标行为，确定所述待服务事件的服务策略。

11.一种客服事件处理装置，其特征在于，包括：

事件获取模块，用于响应于客服终端确认关于用户的服务接收操作，获取待服务事件；

信息获取模块，用于根据所述待服务事件，确定用户身份信息和服务事件信息；

信息发送模块，用于将所述用户身份信息和服务事件信息发送至所述客服终端；

策略推送模块，用于响应于所述客服终端对所述用户身份信息和服务事件信息的确认操作，基于上述权利要求1～7任一项所述方法，根据所述用户身份信息以及服务事件信息确定所述待服务事件的服务策略，并将所述服务策略推送至所述客服终端。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的基于强化学习的服务策略推荐方法或9-10任一项所述的客服事件处理方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于强化学习的服务策略推荐方法或9-10任一项所述的客服事件处理方法。