CN114140033A

CN114140033A - 一种服务人员的分配方法、装置、电子设备及存储介质

Info

Publication number: CN114140033A
Application number: CN202210110286.3A
Authority: CN
Inventors: 贾延夺
Original assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-03-04
Anticipated expiration: 2042-01-29
Also published as: CN114140033B

Abstract

本公开涉及一种服务人员的分配方法、装置、电子设备及存储介质，首先获取存在服务需求的目标用户的需求特征信息、多个服务组的状态信息，其中，每个服务组包括一个或多个服务人员，状态信息包括每个服务人员已提供的服务业务的信息；将需求特征信息和状态信息作为输入数据输入到分配策略模型；其中，分配策略模型被配置为：基于输入数据生成针对服务组的选择动作的输出数据；根据分配策略模型的输出数据，从多个服务组中选择出为目标用户提供服务业务的第一服务组；从第一服务组的服务人员中确定分配给目标用户的目标服务人员。本公开能够提高为用户分配的目标服务人员与用户之间的匹配性，有利于提高服务业务的效率。

Description

一种服务人员的分配方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种服务人员的分配方法、装置、电子设备及存储介质。

背景技术

在服务人员为用户提供业务服务的过程中，一般是随机从多个服务人员中选择分配给用户的目标服务人员，由目标服务人员对用户进行引导。然而，这种随机分配方式不能对服务人员进行合理有效的分配，配对的服务人员与用户之间匹配性较差，导致服务效率较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种服务人员的分配方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种服务人员的分配方法，包括：

获取存在服务需求的目标用户的需求特征信息；

获取多个服务组的状态信息，其中，每个服务组包括一个或多个服务人员，所述状态信息包括每个服务人员已提供的服务业务的信息；

将所述需求特征信息和所述状态信息作为输入数据输入到分配策略模型，其中，所述分配策略模型被配置为：基于输入数据生成针对所述服务组的选择动作的输出数据；

根据所述分配策略模型的输出数据，从多个所述服务组中选择出为所述目标用户提供服务业务的第一服务组；

从所述第一服务组的服务人员中确定分配给所述目标用户的目标服务人员。

根据本公开的另一方面，提供了一种服务人员的分配装置，包括：

第一信息获取模块，用于获取存在服务需求的目标用户的需求特征信息；

第二信息获取模块，用于获取多个服务组的状态信息，其中，每个服务组包括一个或多个服务人员，所述状态信息包括每个服务人员已提供的服务业务的信息；

数据输入模块，用于将所述需求特征信息和所述状态信息作为输入数据输入到分配策略模型，其中，所述分配策略模型被配置为：基于输入数据生成针对所述服务组的选择动作的输出数据；

数据输出模块，用于根据所述分配策略模型的输出数据，从多个所述服务组中选择出为所述目标用户提供服务业务的第一服务组；

分配模块，用于从所述第一服务组的服务人员中确定分配给所述目标用户的目标服务人员。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述服务人员的分配方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据服务人员的分配方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的服务人员的分配方法、装置、电子设备及存储介质，首先获取存在服务需求的目标用户的需求特征信息、多个服务组的状态信息，每个服务组包括一个或多个服务人员，状态信息包括每个服务人员已提供的服务业务的信息；将需求特征信息和状态信息作为输入数据输入到分配策略模型；其中，分配策略模型被配置为：基于输入数据生成针对服务组的选择动作的输出数据；根据分配策略模型的输出数据，从多个服务组中选择出为目标用户提供服务业务的第一服务组；从第一服务组的服务人员中确定分配给目标用户的目标服务人员。本公开能够提高为用户分配的目标服务人员与用户之间的匹配性，有利于提高服务效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的服务人员的分配方法流程图；

图2为本公开实施例提供的分配目标服务人员的方法流程图；

图3为本公开实施例提供的服务人员的分配装置的结构示意图；

图4为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

在从多个服务人员中选择分配给用户的目标服务人员，由目标服务人员为用户提供服务的过程中，通常采用随机分配的方式。然而，该方式不能对服务人员进行合理有效的分配，配对的服务人员与用户之间匹配性较差，导致服务业务的效率较低。例如常见的在在线课程选购的场景中，为购课用户随机分配学习规划人员进行引导购课，学习规划人员的售课能力与购课用户的购课意愿之间的匹配性较差，令双方都很难取得满意的购课结果。基于此，本公开实施方式提供一种服务人员的分配方法、装置、设备及介质。为便于理解，以下对本公开实施例展开描述。

图1为本公开实施例提供的一种服务人员的分配方法流程图，该方法包括如下步骤：

步骤S102，获取存在服务需求的目标用户的需求特征信息。其中，需求特征信息用于表征目标用户针对服务业务的需求。

步骤S104，获取多个服务组的状态信息，其中，每个服务组包括一个或多个服务人员，状态信息包括每个服务人员已提供的服务业务的信息。

在本实施例中，服务业务包括：实际物品和/或虚拟物品。以在线课程选购为示例场景，服务业务诸如包括：实际书本、数字教学资源、线上线下课程等；相应的，目标用户为存在购课需求的用户，服务组是由多名学习规划人员作为服务人员形成的组合，且多个服务组可以是对满足目标用户的需求的多名服务人员进行分组得到的。

步骤S106，将需求特征信息和状态信息作为输入数据输入到分配策略模型。其中，分配策略模型被配置为：基于输入数据生成针对服务组的选择动作的输出数据。

在本实施例中，分配策略模型是通过以下方式获得的：首先，获取用于定义分配策略模型的强化学习的要素；强化学习的要素包括：智能体、环境、动作、奖赏和策略模型。其中，智能体被定义为针对目标用户分配服务人员的系统。环境被定义为目标用户的需求特征信息和待分配的服务组的状态信息。动作被定义为针对待分配的服务组的选择动作。奖赏被定义为基于选择动作，为目标用户提供服务业务时服务业务的转换评价值；转换评价值用于评价通过交换将服务业务转换为效益的价值量；转换评价值例如，基于为用户选择的服务人员，由该服务人员为用户提供关于购课业务时，通过交换将购课业务转换为经济效益的购课概率。策略模型被定义为待训练的DQN（Deep Q-Network，深度强化学习网络），策略模型被配置成基于目标用户的需求特征信息和待分配的服务组的状态信息，输出针对待分配的服务组的选择动作。

而后，基于上述强化学习的要素对策略模型进行强化学习训练，得到分配策略模型。

步骤S108，根据分配策略模型的输出数据，从多个服务组中选择出为目标用户提供服务业务的第一服务组。

在本实施例中，分配策略模型综合考虑目标用户的需求特征信息和每个服务组的状态信息，根据状态信息从多个服务组中选择出有能力为目标用户提供服务业务，且与目标用户的需求相匹配的第一服务组。

步骤S110，从第一服务组的服务人员中确定分配给目标用户的目标服务人员。

在一些实施例中，由于第一服务组与目标用户具有较高的匹配度，因而可以从第一服务组中随机确定分配给目标用户的目标服务人员。或者，根据第一服务组中各服务人员的状态信息，比如当日被分配用户的数量，将第一服务组中被分配用户数量较少的服务人员确定为分配给目标用户的目标服务人员；这种考虑服务人员状态的分配方式，能够较好地保证同一服务组中不同服务人员之间被分配用户的数量更为均衡。再或者，根据第一服务组中各服务人员在一段历史时间内的转换评价值，从第一服务组中确定分配给目标用户的目标服务人员；这种考虑服务人员的转换评价值的分配方式，能够为用户分配服务能力较强的目标服务人员，容易令双方都取得满意的服务效果。

本公开实施例提供的服务人员的分配方法，首先获取存在服务需求的目标用户的需求特征信息、多个服务组的状态信息；然后将需求特征信息和状态信息作为输入数据输入到分配策略模型，根据分配策略模型的输出数据，从多个服务组中选择出为目标用户提供服务业务的第一服务组；基于此选择出的第一服务组，是在综合考虑目标用户的需求特征信息和每个服务组的状态信息的情况下，从多个服务组中选择出有能力为目标用户提供服务业务，且与目标用户的需求相匹配的服务组；进而，从第一服务组的服务人员中确定分配给目标用户的目标服务人员，能够提高为用户分配的目标服务人员与用户之间的匹配性，进而有利于提高服务效率。

针对上述实施例，在此以在线课程选购为例，提供一种关于目标用户的需求特征信息的具体实施例。在在线课程选购的场景中，需求特征信息体现目标用户关于购课的服务需求，其包括：预约时间、预约课程信息（如各个学科访问次数、各个年级访问次数、各个课程访问次数、约课次数、课程完成情况）、用户的位置信息（如所在省份、城市）、与服务人员的互动次数、答疑次数、用户的注册信息以及在线咨询用户所使用的终端信息（如手机型号、应用程序版本）等多项特征信息。

在获取多个服务组的状态信息的过程中，需要先获取当前可进行分配的多个服务组，获取过程包括：

基于目标用户的需求特征信息，获取与需求特征信息匹配的多名候选服务人员。具体可根据服务人员的服务特征信息和/或服务状态信息，从服务人员中选取与目标用户的预约时间、位置信息和预约课程信息等需求特征信息相匹配的多名候选服务人员。

根据每名候选服务人员的历史转换评价值，将与需求特征信息匹配的多名候选服务人员分为多个服务组。其中，历史转换评价值一般为预设历史时间段内的转换评价值。在具体实现时，可以按照历史转换评价值由高到低的排序，对多名候选服务人员进行分组；或者，也可以先根据历史转换评价值和相应历史时间段内的销售额计算各候选服务人员的业绩，再根据业绩的排序，对多名候选服务人员进行分组；以此得到多个服务组。

服务组的状态信息包括服务组中多个服务人员已提供的服务业务的信息，包括：当日分配用户数量、当日拨打用户电话数量、当日待跟进用户数量、待拨打用户电话数量等。

接下来，将目标用户的需求特征信息和各服务组的状态信息输入到分配策略模型，通过分配策略模型从多个服务组中选择出为目标用户提供服务业务的第一服务组，以及从第一服务组的服务人员中确定分配给目标用户的目标服务人员。

在该实施例中，由与需求特征信息匹配的候选服务人员分组得到的多个服务组，是初步选取的能够与用户粗略匹配的服务组；通过分配策略模型从这些服务组中选择与目标用户具有最高匹配度的第一服务组。本技术方案先确定匹配度最高的第一服务组，再从中确定目标服务人员，逐步缩小了为目标用户分配服务人员的选择范围，提高了确定目标服务人员的效率，更重要的是，通过该方案分配的目标服务人员能够与目标用户具有较高的匹配度。

为了进一步提高所分配目标服务人员与目标用户之间的匹配度，如图2所示，本实施例可以参照如下方式从第一服务组的服务人员中确定分配给目标用户的目标服务人员，包括：

步骤S202，获取第一服务组中各服务人员的服务特征信息。服务特征信息包括：服务人员的位置信息、服务业务项目（如年级、学科、课程）、购课结果信息、工作年限、服务状态、最新订单时间、订单数、体验课约课数、爆品课约课数、精品课约课数、约课记录、长期班订单数、用户意向度、首次分配时间、最新沟通时间、最新接通时间、最近分配时间等多项特征信息。

步骤S204，将需求特征信息和服务特征信息输入到预测模型。

在本实施例中，预测模型可以为但不限于XgBoost（Extreme gradient Boosting，经过优化的分布式梯度提升库）模型。

步骤S206，通过预测模型根据需求特征信息和服务特征信息，预测在选择不同服务人员为目标用户提供服务业务的情况下，服务业务对应的不同的转换评价值。其中，转换评价值用于评价通过交换将服务业务转换为效益的价值量；各服务人员均对应有各自的转换评价值。

步骤S208，根据转换评价值从第一服务组中确定分配给目标用户的目标服务人员。

在一种实现方式中，将第一服务组中转换评价值最高的服务人员确定为分配给目标用户的初始服务人员。

在另一种实现方式中，先基于转换评价值的大小确定第一服务组中的服务人员的排列顺序；然后再按照排列顺序确定分配给目标用户的目标服务人员。

在具体实现时，按照转换评价值的大小排列顺序，或者按照基于转换评价值确定的业绩的高低排列顺序，确定第一服务组中的服务人员的排列顺序。按照排列顺序确定分配给目标用户的目标服务人员，也即，将服务人员的排列顺序作为分配顺序。示例性的，当需要从第一服务组中为当前的目标用户分配目标服务人员时，获取第一服务组中服务人员的排列顺序，假设依次为A、B、C、D，以及获取为前一用户所分配的服务人员的顺序号，假设为B，则按照服务人员的排列顺序，将服务人员C确定为分配给目标用户的目标服务人员；相应的，在为目标用户分配服务人员C之后，当需要从第一服务组中为新的用户分配目标服务人员时，按照服务人员的排列顺序，将服务人员D确定为分配给新的用户的目标服务人员；以此类推，按照排列顺序依次将第一服务组中的服务人员确定为目标服务人员。

本实施例按照排列顺序依次确定分配给目标用户的目标服务人员，能够避免同一服务组内不同服务人员之间分配不均的情况发生，保证了不同服务人员之间的分配均衡性和平等性。

为了使分配策略模型可以直接应用于服务人员的分配，需要事先训练该分配策略模型。本实施例给出了一种基于强化学习的要素对策略模型进行强化学习训练，包括如下步骤：

获取用户样本的样本需求特征信息和多个服务组样本的第一样本状态信息。

将样本需求特征信息和第一样本状态信息输入待训练的DQN，以从多个服务组样本中选择出第二服务组。其中，DQN包括两个深度神经网络，分别为目标网络Q和评估网络Q'，目标网络Q1和评估网络Q2的网络结构相同，均是由多层神经网络组成，每层由若干个神经元组成。

具体的，将用户的样本需求特征信息和第一样本状态信息输入待训练的DQN，DQN输出为该用户分配服务组的选择动作；在从多个服务组样本中做选择动作时，以概率λ(0<x<1)选择得分最高的选择动作作为实际分配结果，也即选择第二服务组是得分最高的选择动作。否则随机从所有动作中选择一个动作，作为实际分配动作。其中概率λ的值根据模型效果以及强化学习应用时间进行确定，比如开始进行强化学习分配时，λ的值可以大一点，以更容易探索不同动作组合的效果，后期成熟后，可逐步减小λ的值。

将样本需求特征信息和第二服务组中各服务人员的样本服务特征信息输入到预测模型，以输出第二服务组中各服务人员对应的转换评价值，并将该输出的转换评价值作为奖赏信息。奖赏信息可以为预测模型根据样本需求特征信息和样本服务特征信息，预测在选择不同服务人员为用户样本提供服务业务的情况下，服务业务对应的不同的转换评价值。

根据奖赏信息从第二服务组中确定分配给用户样本的服务人员样本，以及更新得到第二样本状态信息。在确定分配给用户样本的服务人员样本后，该服务人员样本被分配的用户数量、待跟进用户数量等状态发生变化，基于此，将分配前的第一样本状态信息更新为第二样本状态信息。

为了使奖赏信息能够对DQN的选择动作的好坏做出更为准确的评价，本实施例可以参照如下内容对奖赏信息进行修正：

在第二服务组被分配到用户样本的情况下，确定多个服务组样本已被分配到的用户数量中最大值与最小值之间的分配量差。具体的，在第二服务组被分配到用户样本，第二服务组已被分配的用户数量增加一名的情况下，比对包括第二服务组在内的多个服务组样本之间已被分配到的用户数量，得到被分配到的用户数量中最大值与最小值之间的分配量差。

当分配量差超出预设阈值时，对奖赏信息进行修正。具体可以根据预设的修正公式对奖赏信息进行修正；其中，修正公式为：

其中，R为奖赏信息，R'为修正后的奖赏信息，c为预设阈值，n为分配量差。上述预设阈值诸如为前一日人均用户分配量的10%，且在实际应用中，该预设阈值可以根据不同季节和具体业务场景进行灵活调整。

针对第二服务组中多个服务人员各自对应的奖赏信息，可以均按照上述修正公式进行修正，或者，也可以只对服务人员样本的奖赏信息进行修正。

基于第一样本状态信息、第二样本状态信息、服务人员样本的奖赏信息和第二服务组，对DQN进行训练。其中，在对奖赏信息进行修正的情况下，本步骤的奖赏信息是指修正后的奖赏信息。

在具体实施例中，基于第一样本状态信息、第二样本状态信息、奖赏信息和第二服务组确定的目标损失函数，对目标网络使用梯度下降进行多轮训练，其中，针对每轮训练，目标网络的参数更新指定次数，且评估网络的参数保持不变；每当目标网络完成一轮训练时，将目标网络更新后的参数更新给评估网络。

上述的目标损失函数L(Ø)为：

其中，y_i为：

Q表示目标网络，θ表示目标网络的参数，Q'表示评估网络，θ'表示评估网络的参数，γ_i表示奖赏信息，s_i表示第一样本状态信息，s_i+1表示第二样本状态信息，a_i表示在第一样本状态信息下的选择动作，a_i+1表示在第二样本状态信息下的选择动作，即第二服务组。

根据上述目标损失函数对目标网络Q使用梯度下降进行训练，评估网络Q'参数保持不变，每当目标网络Q完成一轮训练，也即每当目标网络Q的参数更新指定次数时，将目标网络Q更新后的参数更新给评估网络Q'，λ表示预设的概率值。

通过以上步骤对策略模型进行强化学习训练，将训练好的策略模型确定为分配策略模型。

综上，上述公开实施例提供的服务人员的分配方法利用强化学习的方式，可以更全面的考虑已有如下信息：目标用户的需求特征信息、多个服务组的状态信息，从整体上对服务人员的分配策略做了优化，为用户分配匹配度更高的目标服务人员，进而获得令人满意的服务结果。

参照图3所示的服务人员的分配装置的结构示意图，本实施例提供的服务人员的分配装置包括如下模块：

第一信息获取模块302，用于获取存在服务需求的目标用户的需求特征信息；

第二信息获取模块304，用于获取多个服务组的状态信息，其中，每个服务组包括一个或多个服务人员，状态信息包括每个服务人员已提供的服务业务的信息；

数据输入模块306，用于将需求特征信息和状态信息作为输入数据输入到分配策略模型，其中，分配策略模型被配置为：基于输入数据生成针对服务组的选择动作的输出数据；

数据输出模块308，用于根据分配策略模型的输出数据，从多个服务组中选择出为目标用户提供服务业务的第一服务组；

分配模块310，用于从第一服务组的服务人员中确定分配给目标用户的目标服务人员。

本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图4，现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，电子设备400包括计算单元401，其可以根据存储在只读存储器（ROM）402中的计算机程序或者从存储单元408加载到随机访问存储器（RAM）403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储电子设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出（I/O）接口405也连接至总线404。

电子设备400中的多个部件连接至I/O接口405，包括：输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备，输入单元406可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元404可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理。例如，在一些实施例中，服务人员的分配方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中，计算单元401可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行服务人员的分配方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种服务人员的分配方法，其特征在于，包括：

获取存在服务需求的目标用户的需求特征信息；

2.根据权利要求1所述的方法，其特征在于，所述从所述第一服务组的服务人员中确定分配给所述目标用户的目标服务人员，包括：

获取所述第一服务组中各服务人员的服务特征信息；

将所述需求特征信息和所述服务特征信息输入到预测模型；

通过所述预测模型根据所述需求特征信息和所述服务特征信息，预测在选择不同服务人员为所述目标用户提供所述服务业务的情况下，所述服务业务对应的不同的转换评价值；所述转换评价值用于评价通过交换将所述服务业务转换为效益的价值量；

根据所述转换评价值从所述第一服务组中确定分配给所述目标用户的目标服务人员。

3.根据权利要求2所述的方法，其特征在于，所述根据所述转换评价值从所述第一服务组中确定分配给所述目标用户的目标服务人员，包括：

基于所述转换评价值的大小确定所述第一服务组中的服务人员的排列顺序；

按照所述排列顺序确定分配给所述目标用户的目标服务人员。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：

基于所述目标用户的需求特征信息，获取与所述需求特征信息匹配的多名候选服务人员；

根据每名候选服务人员的历史转换评价值，将与所述需求特征信息匹配的多名候选服务人员分为多个服务组。

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述分配策略模型是通过以下方式获得的：

获取用于定义所述分配策略模型的强化学习的要素，所述强化学习的要素包括：智能体、环境、动作、奖赏和策略模型；其中，所述智能体被定义为针对所述目标用户分配服务人员的系统；所述环境被定义为所述目标用户的需求特征信息和待分配的服务组的状态信息；所述动作被定义为针对所述待分配的服务组的选择动作；所述奖赏被定义为基于所述选择动作，为所述目标用户提供所述服务业务时所述服务业务的转换评价值；所述策略模型被定义为待训练的深度强化学习网络，所述策略模型被配置成基于所述目标用户的需求特征信息和待分配的服务组的状态信息，输出针对所述待分配的服务组的选择动作；

基于所述强化学习的要素对所述策略模型进行强化学习训练，得到所述分配策略模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述强化学习的要素对所述策略模型进行强化学习训练，包括：

获取用户样本的样本需求特征信息和多个服务组样本的第一样本状态信息；

将所述样本需求特征信息和所述第一样本状态信息输入待训练的深度强化学习网络，以从多个服务组样本中选择出第二服务组；

将所述样本需求特征信息和所述第二服务组中各服务人员的样本服务特征信息输入到预测模型，以输出所述第二服务组中各服务人员对应的转换评价值，并将该输出的转换评价值作为奖赏信息；

根据所述奖赏信息从所述第二服务组中确定分配给用户样本的服务人员样本，以及更新得到第二样本状态信息；

基于所述第一样本状态信息、第二样本状态信息、所述服务人员样本的奖赏信息和所述第二服务组，对所述深度强化学习网络进行训练。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在所述第二服务组被分配到用户样本的情况下，确定多个所述服务组样本已被分配到的用户数量中最大值与最小值之间的分配量差；

当所述分配量差超出预设阈值时，对所述奖赏信息进行修正。

8.根据权利要求7所述的方法，其特征在于，所述对所述奖赏信息进行修正，包括：

根据预设的修正公式对所述奖赏信息进行修正，其中，所述修正公式为：

其中，R为所述奖赏信息，R'为所述修正后的奖赏信息，c为所述预设阈值，n为所述分配量差。

9.根据权利要求6所述的方法，其特征在于，所述深度强化学习网络包括：目标网络和评估网络；所述基于所述第一样本状态信息、第二样本状态信息、所述奖赏信息和所述第二服务组，对所述深度强化学习网络进行训练，包括：

基于所述第一样本状态信息、第二样本状态信息、所述奖赏信息和所述第二服务组确定的目标损失函数，对所述目标网络使用梯度下降进行多轮训练，其中，针对每轮训练，所述目标网络的参数更新指定次数，且所述评估网络的参数保持不变；

每当所述目标网络完成一轮训练时，将所述目标网络更新后的参数更新给所述评估网络。

10.根据权利要求9所述的方法，其特征在于，所述目标损失函数为：

其中，y_i为：

Q表示所述目标网络，θ表示所述目标网络的参数，Q'表示所述评估网络，θ'表示所述评估网络的参数，γ_i表示所述奖赏信息，s_i表示所述第一样本状态信息，s_i+1表示所述第二样本状态信息，a_i表示在所述第一样本状态信息下的选择动作，a_i+1表示在所述第二样本状态信息下的选择动作，λ表示预设的概率值。

11.一种服务人员的分配装置，其特征在于，包括：

12.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至10任一所述的服务人员的分配方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至10任一所述的服务人员的分配方法。