CN114140033A - 一种服务人员的分配方法、装置、电子设备及存储介质 - Google Patents

一种服务人员的分配方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114140033A
CN114140033A CN202210110286.3A CN202210110286A CN114140033A CN 114140033 A CN114140033 A CN 114140033A CN 202210110286 A CN202210110286 A CN 202210110286A CN 114140033 A CN114140033 A CN 114140033A
Authority
CN
China
Prior art keywords
service
information
target
state information
service group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210110286.3A
Other languages
English (en)
Other versions
CN114140033B (zh
Inventor
贾延夺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xintang Sichuang Educational Technology Co Ltd
Original Assignee
Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xintang Sichuang Educational Technology Co Ltd filed Critical Beijing Xintang Sichuang Educational Technology Co Ltd
Priority to CN202210110286.3A priority Critical patent/CN114140033B/zh
Publication of CN114140033A publication Critical patent/CN114140033A/zh
Application granted granted Critical
Publication of CN114140033B publication Critical patent/CN114140033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063118Staff planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种服务人员的分配方法、装置、电子设备及存储介质,首先获取存在服务需求的目标用户的需求特征信息、多个服务组的状态信息,其中,每个服务组包括一个或多个服务人员,状态信息包括每个服务人员已提供的服务业务的信息;将需求特征信息和状态信息作为输入数据输入到分配策略模型;其中,分配策略模型被配置为:基于输入数据生成针对服务组的选择动作的输出数据;根据分配策略模型的输出数据,从多个服务组中选择出为目标用户提供服务业务的第一服务组;从第一服务组的服务人员中确定分配给目标用户的目标服务人员。本公开能够提高为用户分配的目标服务人员与用户之间的匹配性,有利于提高服务业务的效率。

Description

一种服务人员的分配方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种服务人员的分配方法、装置、电子设备及存储介质。
背景技术
在服务人员为用户提供业务服务的过程中,一般是随机从多个服务人员中选择分配给用户的目标服务人员,由目标服务人员对用户进行引导。然而,这种随机分配方式不能对服务人员进行合理有效的分配,配对的服务人员与用户之间匹配性较差,导致服务效率较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种服务人员的分配方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种服务人员的分配方法,包括:
获取存在服务需求的目标用户的需求特征信息;
获取多个服务组的状态信息,其中,每个服务组包括一个或多个服务人员,所述状态信息包括每个服务人员已提供的服务业务的信息;
将所述需求特征信息和所述状态信息作为输入数据输入到分配策略模型,其中,所述分配策略模型被配置为:基于输入数据生成针对所述服务组的选择动作的输出数据;
根据所述分配策略模型的输出数据,从多个所述服务组中选择出为所述目标用户提供服务业务的第一服务组;
从所述第一服务组的服务人员中确定分配给所述目标用户的目标服务人员。
根据本公开的另一方面,提供了一种服务人员的分配装置,包括:
第一信息获取模块,用于获取存在服务需求的目标用户的需求特征信息;
第二信息获取模块,用于获取多个服务组的状态信息,其中,每个服务组包括一个或多个服务人员,所述状态信息包括每个服务人员已提供的服务业务的信息;
数据输入模块,用于将所述需求特征信息和所述状态信息作为输入数据输入到分配策略模型,其中,所述分配策略模型被配置为:基于输入数据生成针对所述服务组的选择动作的输出数据;
数据输出模块,用于根据所述分配策略模型的输出数据,从多个所述服务组中选择出为所述目标用户提供服务业务的第一服务组;
分配模块,用于从所述第一服务组的服务人员中确定分配给所述目标用户的目标服务人员。
根据本公开的另一方面,提供了一种电子设备,所述电子设备包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据上述服务人员的分配方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行根据服务人员的分配方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的服务人员的分配方法、装置、电子设备及存储介质,首先获取存在服务需求的目标用户的需求特征信息、多个服务组的状态信息,每个服务组包括一个或多个服务人员,状态信息包括每个服务人员已提供的服务业务的信息;将需求特征信息和状态信息作为输入数据输入到分配策略模型;其中,分配策略模型被配置为:基于输入数据生成针对服务组的选择动作的输出数据;根据分配策略模型的输出数据,从多个服务组中选择出为目标用户提供服务业务的第一服务组;从第一服务组的服务人员中确定分配给目标用户的目标服务人员。本公开能够提高为用户分配的目标服务人员与用户之间的匹配性,有利于提高服务效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的服务人员的分配方法流程图;
图2为本公开实施例提供的分配目标服务人员的方法流程图;
图3为本公开实施例提供的服务人员的分配装置的结构示意图;
图4为本公开实施例提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在从多个服务人员中选择分配给用户的目标服务人员,由目标服务人员为用户提供服务的过程中,通常采用随机分配的方式。然而,该方式不能对服务人员进行合理有效的分配,配对的服务人员与用户之间匹配性较差,导致服务业务的效率较低。例如常见的在在线课程选购的场景中,为购课用户随机分配学习规划人员进行引导购课,学习规划人员的售课能力与购课用户的购课意愿之间的匹配性较差,令双方都很难取得满意的购课结果。基于此,本公开实施方式提供一种服务人员的分配方法、装置、设备及介质。为便于理解,以下对本公开实施例展开描述。
图1为本公开实施例提供的一种服务人员的分配方法流程图,该方法包括如下步骤:
步骤S102,获取存在服务需求的目标用户的需求特征信息。其中,需求特征信息用于表征目标用户针对服务业务的需求。
步骤S104,获取多个服务组的状态信息,其中,每个服务组包括一个或多个服务人员,状态信息包括每个服务人员已提供的服务业务的信息。
在本实施例中,服务业务包括:实际物品和/或虚拟物品。以在线课程选购为示例场景,服务业务诸如包括:实际书本、数字教学资源、线上线下课程等;相应的,目标用户为存在购课需求的用户,服务组是由多名学习规划人员作为服务人员形成的组合,且多个服务组可以是对满足目标用户的需求的多名服务人员进行分组得到的。
步骤S106,将需求特征信息和状态信息作为输入数据输入到分配策略模型。其中,分配策略模型被配置为:基于输入数据生成针对服务组的选择动作的输出数据。
在本实施例中,分配策略模型是通过以下方式获得的:首先,获取用于定义分配策略模型的强化学习的要素;强化学习的要素包括:智能体、环境、动作、奖赏和策略模型。其中,智能体被定义为针对目标用户分配服务人员的系统。环境被定义为目标用户的需求特征信息和待分配的服务组的状态信息。动作被定义为针对待分配的服务组的选择动作。奖赏被定义为基于选择动作,为目标用户提供服务业务时服务业务的转换评价值;转换评价值用于评价通过交换将服务业务转换为效益的价值量;转换评价值例如,基于为用户选择的服务人员,由该服务人员为用户提供关于购课业务时,通过交换将购课业务转换为经济效益的购课概率。策略模型被定义为待训练的DQN(Deep Q-Network,深度强化学习网络),策略模型被配置成基于目标用户的需求特征信息和待分配的服务组的状态信息,输出针对待分配的服务组的选择动作。
而后,基于上述强化学习的要素对策略模型进行强化学习训练,得到分配策略模型。
步骤S108,根据分配策略模型的输出数据,从多个服务组中选择出为目标用户提供服务业务的第一服务组。
在本实施例中,分配策略模型综合考虑目标用户的需求特征信息和每个服务组的状态信息,根据状态信息从多个服务组中选择出有能力为目标用户提供服务业务,且与目标用户的需求相匹配的第一服务组。
步骤S110,从第一服务组的服务人员中确定分配给目标用户的目标服务人员。
在一些实施例中,由于第一服务组与目标用户具有较高的匹配度,因而可以从第一服务组中随机确定分配给目标用户的目标服务人员。或者,根据第一服务组中各服务人员的状态信息,比如当日被分配用户的数量,将第一服务组中被分配用户数量较少的服务人员确定为分配给目标用户的目标服务人员;这种考虑服务人员状态的分配方式,能够较好地保证同一服务组中不同服务人员之间被分配用户的数量更为均衡。再或者,根据第一服务组中各服务人员在一段历史时间内的转换评价值,从第一服务组中确定分配给目标用户的目标服务人员;这种考虑服务人员的转换评价值的分配方式,能够为用户分配服务能力较强的目标服务人员,容易令双方都取得满意的服务效果。
本公开实施例提供的服务人员的分配方法,首先获取存在服务需求的目标用户的需求特征信息、多个服务组的状态信息;然后将需求特征信息和状态信息作为输入数据输入到分配策略模型,根据分配策略模型的输出数据,从多个服务组中选择出为目标用户提供服务业务的第一服务组;基于此选择出的第一服务组,是在综合考虑目标用户的需求特征信息和每个服务组的状态信息的情况下,从多个服务组中选择出有能力为目标用户提供服务业务,且与目标用户的需求相匹配的服务组;进而,从第一服务组的服务人员中确定分配给目标用户的目标服务人员,能够提高为用户分配的目标服务人员与用户之间的匹配性,进而有利于提高服务效率。
针对上述实施例,在此以在线课程选购为例,提供一种关于目标用户的需求特征信息的具体实施例。在在线课程选购的场景中,需求特征信息体现目标用户关于购课的服务需求,其包括:预约时间、预约课程信息(如各个学科访问次数、各个年级访问次数、各个课程访问次数、约课次数、课程完成情况)、用户的位置信息(如所在省份、城市)、与服务人员的互动次数、答疑次数、用户的注册信息以及在线咨询用户所使用的终端信息(如手机型号、应用程序版本)等多项特征信息。
在获取多个服务组的状态信息的过程中,需要先获取当前可进行分配的多个服务组,获取过程包括:
基于目标用户的需求特征信息,获取与需求特征信息匹配的多名候选服务人员。具体可根据服务人员的服务特征信息和/或服务状态信息,从服务人员中选取与目标用户的预约时间、位置信息和预约课程信息等需求特征信息相匹配的多名候选服务人员。
根据每名候选服务人员的历史转换评价值,将与需求特征信息匹配的多名候选服务人员分为多个服务组。其中,历史转换评价值一般为预设历史时间段内的转换评价值。在具体实现时,可以按照历史转换评价值由高到低的排序,对多名候选服务人员进行分组;或者,也可以先根据历史转换评价值和相应历史时间段内的销售额计算各候选服务人员的业绩,再根据业绩的排序,对多名候选服务人员进行分组;以此得到多个服务组。
服务组的状态信息包括服务组中多个服务人员已提供的服务业务的信息,包括:当日分配用户数量、当日拨打用户电话数量、当日待跟进用户数量、待拨打用户电话数量等。
接下来,将目标用户的需求特征信息和各服务组的状态信息输入到分配策略模型,通过分配策略模型从多个服务组中选择出为目标用户提供服务业务的第一服务组,以及从第一服务组的服务人员中确定分配给目标用户的目标服务人员。
在该实施例中,由与需求特征信息匹配的候选服务人员分组得到的多个服务组,是初步选取的能够与用户粗略匹配的服务组;通过分配策略模型从这些服务组中选择与目标用户具有最高匹配度的第一服务组。本技术方案先确定匹配度最高的第一服务组,再从中确定目标服务人员,逐步缩小了为目标用户分配服务人员的选择范围,提高了确定目标服务人员的效率,更重要的是,通过该方案分配的目标服务人员能够与目标用户具有较高的匹配度。
为了进一步提高所分配目标服务人员与目标用户之间的匹配度,如图2所示,本实施例可以参照如下方式从第一服务组的服务人员中确定分配给目标用户的目标服务人员,包括:
步骤S202,获取第一服务组中各服务人员的服务特征信息。服务特征信息包括:服务人员的位置信息、服务业务项目(如年级、学科、课程)、购课结果信息、工作年限、服务状态、最新订单时间、订单数、体验课约课数、爆品课约课数、精品课约课数、约课记录、长期班订单数、用户意向度、首次分配时间、最新沟通时间、最新接通时间、最近分配时间等多项特征信息。
步骤S204,将需求特征信息和服务特征信息输入到预测模型。
在本实施例中,预测模型可以为但不限于XgBoost(Extreme gradient Boosting,经过优化的分布式梯度提升库)模型。
步骤S206,通过预测模型根据需求特征信息和服务特征信息,预测在选择不同服务人员为目标用户提供服务业务的情况下,服务业务对应的不同的转换评价值。其中,转换评价值用于评价通过交换将服务业务转换为效益的价值量;各服务人员均对应有各自的转换评价值。
步骤S208,根据转换评价值从第一服务组中确定分配给目标用户的目标服务人员。
在一种实现方式中,将第一服务组中转换评价值最高的服务人员确定为分配给目标用户的初始服务人员。
在另一种实现方式中,先基于转换评价值的大小确定第一服务组中的服务人员的排列顺序;然后再按照排列顺序确定分配给目标用户的目标服务人员。
在具体实现时,按照转换评价值的大小排列顺序,或者按照基于转换评价值确定的业绩的高低排列顺序,确定第一服务组中的服务人员的排列顺序。按照排列顺序确定分配给目标用户的目标服务人员,也即,将服务人员的排列顺序作为分配顺序。示例性的,当需要从第一服务组中为当前的目标用户分配目标服务人员时,获取第一服务组中服务人员的排列顺序,假设依次为A、B、C、D,以及获取为前一用户所分配的服务人员的顺序号,假设为B,则按照服务人员的排列顺序,将服务人员C确定为分配给目标用户的目标服务人员;相应的,在为目标用户分配服务人员C之后,当需要从第一服务组中为新的用户分配目标服务人员时,按照服务人员的排列顺序,将服务人员D确定为分配给新的用户的目标服务人员;以此类推,按照排列顺序依次将第一服务组中的服务人员确定为目标服务人员。
本实施例按照排列顺序依次确定分配给目标用户的目标服务人员,能够避免同一服务组内不同服务人员之间分配不均的情况发生,保证了不同服务人员之间的分配均衡性和平等性。
为了使分配策略模型可以直接应用于服务人员的分配,需要事先训练该分配策略模型。本实施例给出了一种基于强化学习的要素对策略模型进行强化学习训练,包括如下步骤:
获取用户样本的样本需求特征信息和多个服务组样本的第一样本状态信息。
将样本需求特征信息和第一样本状态信息输入待训练的DQN,以从多个服务组样本中选择出第二服务组。其中,DQN包括两个深度神经网络,分别为目标网络Q和评估网络Q',目标网络Q1和评估网络Q2的网络结构相同,均是由多层神经网络组成,每层由若干个神经元组成。
具体的,将用户的样本需求特征信息和第一样本状态信息输入待训练的DQN,DQN输出为该用户分配服务组的选择动作;在从多个服务组样本中做选择动作时,以概率λ(0<x<1)选择得分最高的选择动作作为实际分配结果,也即选择第二服务组是得分最高的选择动作。否则随机从所有动作中选择一个动作,作为实际分配动作。其中概率λ的值根据模型效果以及强化学习应用时间进行确定,比如开始进行强化学习分配时,λ的值可以大一点,以更容易探索不同动作组合的效果,后期成熟后,可逐步减小λ的值。
将样本需求特征信息和第二服务组中各服务人员的样本服务特征信息输入到预测模型,以输出第二服务组中各服务人员对应的转换评价值,并将该输出的转换评价值作为奖赏信息。奖赏信息可以为预测模型根据样本需求特征信息和样本服务特征信息,预测在选择不同服务人员为用户样本提供服务业务的情况下,服务业务对应的不同的转换评价值。
根据奖赏信息从第二服务组中确定分配给用户样本的服务人员样本,以及更新得到第二样本状态信息。在确定分配给用户样本的服务人员样本后,该服务人员样本被分配的用户数量、待跟进用户数量等状态发生变化,基于此,将分配前的第一样本状态信息更新为第二样本状态信息。
为了使奖赏信息能够对DQN的选择动作的好坏做出更为准确的评价,本实施例可以参照如下内容对奖赏信息进行修正:
在第二服务组被分配到用户样本的情况下,确定多个服务组样本已被分配到的用户数量中最大值与最小值之间的分配量差。具体的,在第二服务组被分配到用户样本,第二服务组已被分配的用户数量增加一名的情况下,比对包括第二服务组在内的多个服务组样本之间已被分配到的用户数量,得到被分配到的用户数量中最大值与最小值之间的分配量差。
当分配量差超出预设阈值时,对奖赏信息进行修正。具体可以根据预设的修正公式对奖赏信息进行修正;其中,修正公式为:
Figure 515951DEST_PATH_IMAGE001
其中,R为奖赏信息,R'为修正后的奖赏信息,c为预设阈值,n为分配量差。上述预设阈值诸如为前一日人均用户分配量的10%,且在实际应用中,该预设阈值可以根据不同季节和具体业务场景进行灵活调整。
针对第二服务组中多个服务人员各自对应的奖赏信息,可以均按照上述修正公式进行修正,或者,也可以只对服务人员样本的奖赏信息进行修正。
基于第一样本状态信息、第二样本状态信息、服务人员样本的奖赏信息和第二服务组,对DQN进行训练。其中,在对奖赏信息进行修正的情况下,本步骤的奖赏信息是指修正后的奖赏信息。
在具体实施例中,基于第一样本状态信息、第二样本状态信息、奖赏信息和第二服务组确定的目标损失函数,对目标网络使用梯度下降进行多轮训练,其中,针对每轮训练,目标网络的参数更新指定次数,且评估网络的参数保持不变;每当目标网络完成一轮训练时,将目标网络更新后的参数更新给评估网络。
上述的目标损失函数L(Ø)为:
Figure 127192DEST_PATH_IMAGE002
其中,yi为:
Figure 667370DEST_PATH_IMAGE003
Q表示目标网络,θ表示目标网络的参数,Q'表示评估网络,θ'表示评估网络的参数,γi表示奖赏信息,si表示第一样本状态信息,si+1表示第二样本状态信息,ai表示在第一样本状态信息下的选择动作,ai+1表示在第二样本状态信息下的选择动作,即第二服务组。
根据上述目标损失函数对目标网络Q使用梯度下降进行训练,评估网络Q'参数保持不变,每当目标网络Q完成一轮训练,也即每当目标网络Q的参数更新指定次数时,将目标网络Q更新后的参数更新给评估网络Q',λ表示预设的概率值。
通过以上步骤对策略模型进行强化学习训练,将训练好的策略模型确定为分配策略模型。
综上,上述公开实施例提供的服务人员的分配方法利用强化学习的方式,可以更全面的考虑已有如下信息:目标用户的需求特征信息、多个服务组的状态信息,从整体上对服务人员的分配策略做了优化,为用户分配匹配度更高的目标服务人员,进而获得令人满意的服务结果。
参照图3所示的服务人员的分配装置的结构示意图,本实施例提供的服务人员的分配装置包括如下模块:
第一信息获取模块302,用于获取存在服务需求的目标用户的需求特征信息;
第二信息获取模块304,用于获取多个服务组的状态信息,其中,每个服务组包括一个或多个服务人员,状态信息包括每个服务人员已提供的服务业务的信息;
数据输入模块306,用于将需求特征信息和状态信息作为输入数据输入到分配策略模型,其中,分配策略模型被配置为:基于输入数据生成针对服务组的选择动作的输出数据;
数据输出模块308,用于根据分配策略模型的输出数据,从多个服务组中选择出为目标用户提供服务业务的第一服务组;
分配模块310,用于从第一服务组的服务人员中确定分配给目标用户的目标服务人员。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图4,现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,电子设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储电子设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
电子设备400中的多个部件连接至I/O接口405,包括:输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备,输入单元406可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元404可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理。例如,在一些实施例中,服务人员的分配方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行服务人员的分配方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种服务人员的分配方法,其特征在于,包括:
获取存在服务需求的目标用户的需求特征信息;
获取多个服务组的状态信息,其中,每个服务组包括一个或多个服务人员,所述状态信息包括每个服务人员已提供的服务业务的信息;
将所述需求特征信息和所述状态信息作为输入数据输入到分配策略模型,其中,所述分配策略模型被配置为:基于输入数据生成针对所述服务组的选择动作的输出数据;
根据所述分配策略模型的输出数据,从多个所述服务组中选择出为所述目标用户提供服务业务的第一服务组;
从所述第一服务组的服务人员中确定分配给所述目标用户的目标服务人员。
2.根据权利要求1所述的方法,其特征在于,所述从所述第一服务组的服务人员中确定分配给所述目标用户的目标服务人员,包括:
获取所述第一服务组中各服务人员的服务特征信息;
将所述需求特征信息和所述服务特征信息输入到预测模型;
通过所述预测模型根据所述需求特征信息和所述服务特征信息,预测在选择不同服务人员为所述目标用户提供所述服务业务的情况下,所述服务业务对应的不同的转换评价值;所述转换评价值用于评价通过交换将所述服务业务转换为效益的价值量;
根据所述转换评价值从所述第一服务组中确定分配给所述目标用户的目标服务人员。
3.根据权利要求2所述的方法,其特征在于,所述根据所述转换评价值从所述第一服务组中确定分配给所述目标用户的目标服务人员,包括:
基于所述转换评价值的大小确定所述第一服务组中的服务人员的排列顺序;
按照所述排列顺序确定分配给所述目标用户的目标服务人员。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
基于所述目标用户的需求特征信息,获取与所述需求特征信息匹配的多名候选服务人员;
根据每名候选服务人员的历史转换评价值,将与所述需求特征信息匹配的多名候选服务人员分为多个服务组。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述分配策略模型是通过以下方式获得的:
获取用于定义所述分配策略模型的强化学习的要素,所述强化学习的要素包括:智能体、环境、动作、奖赏和策略模型;其中,所述智能体被定义为针对所述目标用户分配服务人员的系统;所述环境被定义为所述目标用户的需求特征信息和待分配的服务组的状态信息;所述动作被定义为针对所述待分配的服务组的选择动作;所述奖赏被定义为基于所述选择动作,为所述目标用户提供所述服务业务时所述服务业务的转换评价值;所述策略模型被定义为待训练的深度强化学习网络,所述策略模型被配置成基于所述目标用户的需求特征信息和待分配的服务组的状态信息,输出针对所述待分配的服务组的选择动作;
基于所述强化学习的要素对所述策略模型进行强化学习训练,得到所述分配策略模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述强化学习的要素对所述策略模型进行强化学习训练,包括:
获取用户样本的样本需求特征信息和多个服务组样本的第一样本状态信息;
将所述样本需求特征信息和所述第一样本状态信息输入待训练的深度强化学习网络,以从多个服务组样本中选择出第二服务组;
将所述样本需求特征信息和所述第二服务组中各服务人员的样本服务特征信息输入到预测模型,以输出所述第二服务组中各服务人员对应的转换评价值,并将该输出的转换评价值作为奖赏信息;
根据所述奖赏信息从所述第二服务组中确定分配给用户样本的服务人员样本,以及更新得到第二样本状态信息;
基于所述第一样本状态信息、第二样本状态信息、所述服务人员样本的奖赏信息和所述第二服务组,对所述深度强化学习网络进行训练。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在所述第二服务组被分配到用户样本的情况下,确定多个所述服务组样本已被分配到的用户数量中最大值与最小值之间的分配量差;
当所述分配量差超出预设阈值时,对所述奖赏信息进行修正。
8.根据权利要求7所述的方法,其特征在于,所述对所述奖赏信息进行修正,包括:
根据预设的修正公式对所述奖赏信息进行修正,其中,所述修正公式为:
Figure 172353DEST_PATH_IMAGE001
其中,R为所述奖赏信息,R'为所述修正后的奖赏信息,c为所述预设阈值,n为所述分配量差。
9.根据权利要求6所述的方法,其特征在于,所述深度强化学习网络包括:目标网络和评估网络;所述基于所述第一样本状态信息、第二样本状态信息、所述奖赏信息和所述第二服务组,对所述深度强化学习网络进行训练,包括:
基于所述第一样本状态信息、第二样本状态信息、所述奖赏信息和所述第二服务组确定的目标损失函数,对所述目标网络使用梯度下降进行多轮训练,其中,针对每轮训练,所述目标网络的参数更新指定次数,且所述评估网络的参数保持不变;
每当所述目标网络完成一轮训练时,将所述目标网络更新后的参数更新给所述评估网络。
10.根据权利要求9所述的方法,其特征在于,所述目标损失函数为:
Figure 895458DEST_PATH_IMAGE002
其中,yi为:
Figure 444251DEST_PATH_IMAGE003
Q表示所述目标网络,θ表示所述目标网络的参数,Q'表示所述评估网络,θ'表示所述评估网络的参数,γi表示所述奖赏信息,si表示所述第一样本状态信息,si+1表示所述第二样本状态信息,ai表示在所述第一样本状态信息下的选择动作,ai+1表示在所述第二样本状态信息下的选择动作,λ表示预设的概率值。
11.一种服务人员的分配装置,其特征在于,包括:
第一信息获取模块,用于获取存在服务需求的目标用户的需求特征信息;
第二信息获取模块,用于获取多个服务组的状态信息,其中,每个服务组包括一个或多个服务人员,所述状态信息包括每个服务人员已提供的服务业务的信息;
数据输入模块,用于将所述需求特征信息和所述状态信息作为输入数据输入到分配策略模型,其中,所述分配策略模型被配置为:基于输入数据生成针对所述服务组的选择动作的输出数据;
数据输出模块,用于根据所述分配策略模型的输出数据,从多个所述服务组中选择出为所述目标用户提供服务业务的第一服务组;
分配模块,用于从所述第一服务组的服务人员中确定分配给所述目标用户的目标服务人员。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至10任一所述的服务人员的分配方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1至10任一所述的服务人员的分配方法。
CN202210110286.3A 2022-01-29 2022-01-29 一种服务人员的分配方法、装置、电子设备及存储介质 Active CN114140033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210110286.3A CN114140033B (zh) 2022-01-29 2022-01-29 一种服务人员的分配方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210110286.3A CN114140033B (zh) 2022-01-29 2022-01-29 一种服务人员的分配方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114140033A true CN114140033A (zh) 2022-03-04
CN114140033B CN114140033B (zh) 2022-04-12

Family

ID=80381860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210110286.3A Active CN114140033B (zh) 2022-01-29 2022-01-29 一种服务人员的分配方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114140033B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061786A (zh) * 2022-05-16 2022-09-16 北京嘀嘀无限科技发展有限公司 资源调度的方法、装置、电子设备、介质和程序产品

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190303A1 (en) * 2005-02-23 2006-08-24 The Trinity Management Group, Llc Coordinated health and human services delivery system and process
KR20180020497A (ko) * 2016-08-18 2018-02-28 한국과학기술원 스마트 환경에서의 강화 학습을 이용한 태스크 중심의 서비스 개인화 방법
CN110458429A (zh) * 2019-07-29 2019-11-15 暨南大学 一种针对地理网点的智能任务分配和人员调度方法、系统
CN111367657A (zh) * 2020-02-21 2020-07-03 重庆邮电大学 一种基于深度强化学习的计算资源协同合作方法
CN111382359A (zh) * 2020-03-09 2020-07-07 北京京东振世信息技术有限公司 基于强化学习的服务策略推荐方法、装置、电子设备
CN111553657A (zh) * 2020-04-28 2020-08-18 贝壳技术有限公司 基于行为分析的匹配方法和装置、电子设备和存储介质
CN111813532A (zh) * 2020-09-04 2020-10-23 腾讯科技(深圳)有限公司 一种基于多任务机器学习模型的图像管理方法及装置
CN112016940A (zh) * 2019-05-29 2020-12-01 中国移动通信集团福建有限公司 模型建立方法及设备、网络满意度评估方法及设备
CN112446563A (zh) * 2019-08-27 2021-03-05 北京易真学思教育科技有限公司 名单分配系统和方法
CN112507622A (zh) * 2020-12-16 2021-03-16 中国人民解放军国防科技大学 一种基于强化学习的反无人机任务分配方法
CN113298368A (zh) * 2021-05-14 2021-08-24 南京航空航天大学 一种基于深度强化学习的多无人机任务规划方法
CN113434560A (zh) * 2021-05-28 2021-09-24 深圳思为科技有限公司 排序方法、电子设备及相关产品
WO2021215906A1 (en) * 2020-04-24 2021-10-28 Samantaray Shubhabrata Artificial intelligence-based method for analysing raw data
CN113657948A (zh) * 2021-10-20 2021-11-16 北京易真学思教育科技有限公司 一种对学生进行分配的方法、装置、电子设备及存储介质
CN113778675A (zh) * 2021-09-02 2021-12-10 华恒(济南)信息技术有限公司 一种基于面向区块链网络的计算任务分配系统及方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190303A1 (en) * 2005-02-23 2006-08-24 The Trinity Management Group, Llc Coordinated health and human services delivery system and process
KR20180020497A (ko) * 2016-08-18 2018-02-28 한국과학기술원 스마트 환경에서의 강화 학습을 이용한 태스크 중심의 서비스 개인화 방법
CN112016940A (zh) * 2019-05-29 2020-12-01 中国移动通信集团福建有限公司 模型建立方法及设备、网络满意度评估方法及设备
CN110458429A (zh) * 2019-07-29 2019-11-15 暨南大学 一种针对地理网点的智能任务分配和人员调度方法、系统
CN112446563A (zh) * 2019-08-27 2021-03-05 北京易真学思教育科技有限公司 名单分配系统和方法
CN111367657A (zh) * 2020-02-21 2020-07-03 重庆邮电大学 一种基于深度强化学习的计算资源协同合作方法
CN111382359A (zh) * 2020-03-09 2020-07-07 北京京东振世信息技术有限公司 基于强化学习的服务策略推荐方法、装置、电子设备
WO2021215906A1 (en) * 2020-04-24 2021-10-28 Samantaray Shubhabrata Artificial intelligence-based method for analysing raw data
CN111553657A (zh) * 2020-04-28 2020-08-18 贝壳技术有限公司 基于行为分析的匹配方法和装置、电子设备和存储介质
CN111813532A (zh) * 2020-09-04 2020-10-23 腾讯科技(深圳)有限公司 一种基于多任务机器学习模型的图像管理方法及装置
CN112507622A (zh) * 2020-12-16 2021-03-16 中国人民解放军国防科技大学 一种基于强化学习的反无人机任务分配方法
CN113298368A (zh) * 2021-05-14 2021-08-24 南京航空航天大学 一种基于深度强化学习的多无人机任务规划方法
CN113434560A (zh) * 2021-05-28 2021-09-24 深圳思为科技有限公司 排序方法、电子设备及相关产品
CN113778675A (zh) * 2021-09-02 2021-12-10 华恒(济南)信息技术有限公司 一种基于面向区块链网络的计算任务分配系统及方法
CN113657948A (zh) * 2021-10-20 2021-11-16 北京易真学思教育科技有限公司 一种对学生进行分配的方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘子宁: "基于强化学习的客户调度算法及应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061786A (zh) * 2022-05-16 2022-09-16 北京嘀嘀无限科技发展有限公司 资源调度的方法、装置、电子设备、介质和程序产品

Also Published As

Publication number Publication date
CN114140033B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
US10223673B2 (en) Cognitive adaptation to user behavior for personalized automatic processing of events
CN113656179B (zh) 云计算资源的调度方法及装置、电子设备和存储介质
CN113538188B (zh) 试卷生成方法、装置、电子设备及计算机可读存储介质
CN111489095A (zh) 一种风险用户管理方法、装置、计算机设备和存储介质
CN113850394B (zh) 联邦学习方法、装置、电子设备及存储介质
US11822965B2 (en) Machine learning task compartmentalization and classification
CN115018019B (zh) 基于联邦学习的模型训练方法及系统、存储介质
US20220327495A1 (en) Intelligent scheduling using a prediction model
CN107807935B (zh) 应用推荐方法及装置
CN114140033B (zh) 一种服务人员的分配方法、装置、电子设备及存储介质
US9588819B2 (en) System and method of assigning requests to resources using constraint programming
US20200372436A1 (en) Intelligent scheduling
CN115330243A (zh) 客服工单分配方法及装置
CN114065864A (zh) 联邦学习方法、联邦学习装置、电子设备以及存储介质
CN114676892A (zh) 一种基于智能匹配的服务派单方法、系统及设备
CN113379229A (zh) 一种资源调度方法和装置
CN117311973A (zh) 计算设备调度方法、装置、非易失性存储介质及电子设备
US20220261735A1 (en) System and Method of Determining Personalized Productivity Goals and Monitoring Productivity Behaviors of an Individual Towards the Productivity Goals
CN110704544A (zh) 一种基于大数据的对象处理方法、装置、设备及存储介质
CN113205391B (zh) 基于历史订单匹配度的派单方法、电子设备和计算机可读介质
CN113918102A (zh) 一种基于区块链的数据处理方法、装置、设备及存储介质
CN115185606A (zh) 业务配置参数的获得方法、装置、设备及存储介质
CN115545088A (zh) 模型构建方法、分类方法、装置和电子设备
CN115344359A (zh) 算力资源分配方法、装置、计算机可读存储介质及设备
CN112132597A (zh) 数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant