CN109993314B - 基于强化学习模型的业务用户分流方法和装置 - Google Patents

基于强化学习模型的业务用户分流方法和装置 Download PDF

Info

Publication number
CN109993314B
CN109993314B CN201910116972.XA CN201910116972A CN109993314B CN 109993314 B CN109993314 B CN 109993314B CN 201910116972 A CN201910116972 A CN 201910116972A CN 109993314 B CN109993314 B CN 109993314B
Authority
CN
China
Prior art keywords
service
user
state
determined
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910116972.XA
Other languages
English (en)
Other versions
CN109993314A (zh
Inventor
龙翀
王雅芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910116972.XA priority Critical patent/CN109993314B/zh
Publication of CN109993314A publication Critical patent/CN109993314A/zh
Priority to TW108132245A priority patent/TWI743558B/zh
Priority to PCT/CN2020/070055 priority patent/WO2020164333A1/zh
Application granted granted Critical
Publication of CN109993314B publication Critical patent/CN109993314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5141Details of processing calls and other types of contacts in an unified manner
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/523Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
    • H04M3/5232Call distribution algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/523Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
    • H04M3/5232Call distribution algorithms
    • H04M3/5234Uniform load distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/523Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
    • H04M3/5238Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing with waiting time or load prediction arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/527Centralised call answering arrangements not requiring operator intervention

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种对请求业务的用户进行分流的方法和装置,所述方法包括:获取第一时刻的状态作为第一状态,所述第一状态至少包括:所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量;将第一状态输入Q学习模型,以基于模型的输出获取在第一状态下与第一业务及至少一个第二业务中的各个业务分别对应的各个第一Q值;以及基于各个第一Q值,在第一业务及至少一个第二业务中确定分配给第一用户的业务,并基于确定的业务回复第一用户。

Description

基于强化学习模型的业务用户分流方法和装置
技术领域
本说明书实施例涉及机器学习技术领域,更具体地,涉及一种基于强化学习对请求业务的用户进行分流的方法和装置。
背景技术
随着公司业务的不断扩大,如何为顾客提供优质的客户服务体验是大多数公司都关心的问题。热线客服和在线客服是客户服务的重中之重。然而在不同的日期(工作日、周末、或“双十一”),或者同一天不同的时间段(白天或晚上),客户拨打热线或使用在线的频率是不一样的,高峰时间段必然会给客服人员造成巨大的压力。如果调度不好的话,会延长用户的等待时间,甚至让用户的诉求无法得到及时的解决,从而极大影响用户体验。通用的解决高峰时间段的方法是,按照用户特点的不同以及接受能力的不同,推荐一部分合适的用户退出热线,采用APP、自助、在线客服等方式得到他们想要的答案。这样能够减轻高峰时段客服的压力,缩短用户等待时间,提高用户的满意度。传统的调度方法有基于规则的、机器学习的方法等。
因此,需要一种更有效的对公司业务的用户进行分流的方案。
发明内容
本说明书实施例旨在提供一种更有效的基于强化学习对请求业务的用户进行分流的方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种对请求第一业务的用户进行分流的方法,其中,所述第一业务与至少一个第二业务相对应,所述至少一个第二业务用于分流请求所述第一业务的用户,所述方法包括:
获取该第一时刻的状态作为第一状态,所述第一时刻为第一用户进行对所述第一业务的请求的时刻,其中,所述第一状态至少包括:所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量;
将所述第一状态输入Q学习模型,以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值;以及
基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务,并基于所述确定的业务回复所述第一用户。
在一个实施例中,基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务包括,将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为分配给所述第一用户的业务。
在一个实施例中,所述第一业务为电话客服,所述至少一个第二业务包括以下至少一种业务:人工在线客服、机器人电话客服、机器人在线客服、知识库自助查询。
在一个实施例中,所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率基于以下至少一项确定:所述第一用户的用户画像、所述第一用户的历史行为。
在一个实施例中,所述Q学习模型通过以下步骤训练:
当在基于所述确定的业务回复所述第一用户之后,获取所述第一用户的反馈,以确定所述第一用户是否接受所述确定的业务;
获取该回复对应的回报值,所述回报值基于如下两项获取:在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量;
获取第二时刻的状态作为第二状态,所述第二时刻为第二用户进行对所述第一业务的请求的时刻,所述第二用户的请求为紧接着所述第一用户的请求的下一个请求,其中,所述第二状态至少包括:所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量;
将所述第二状态输入所述Q学习模型,以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值;
基于所述回报值和所述各个第二Q值中的最大值,计算与所述第一状态和所述确定的业务对应的Q值标签值,以及
基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型,以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
在一个实施例中,在所述确定的业务为第一业务的情况中,在用户接受所述确定的业务的情况下的预定奖励分值为第一分值,在所述确定的业务为任一第二业务的情况中,在用户接受所述确定的业务的情况下的预定奖励分值大于所述第一分值。
在一个实施例中,在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中,所述回报值减小。
在一个实施例中,在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中,所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量越小,所述回报值越小。
本说明书另一方面提供一种对请求第一业务的用户进行分流的装置,其中,所述第一业务与至少一个第二业务相对应,所述至少一个第二业务用于分流请求所述第一业务的用户,所述装置包括:
获取单元,配置为,获取第一时刻的状态作为第一状态,所述第一时刻为第一用户进行对所述第一业务的请求的时刻,其中,所述第一状态至少包括:所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量;
输入单元,配置为,将所述第一状态输入Q学习模型,以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值;以及
确定单元,配置为,基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务,并基于所述确定的业务回复所述第一用户。
在一个实施例中,所述确定单元还配置为,将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为分配给所述第一用户的业务。
在一个实施例中,所述Q学习模型通过训练装置训练,所述训练装置包括:
第一获取单元,配置为,当在基于所述确定的业务回复所述第一用户之后,获取所述第一用户的反馈,以确定所述第一用户是否接受所述确定的业务;
第二获取单元,配置为,获取该回复对应的回报值,所述回报值基于如下两项获取:在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量;
第三获取单元,配置为,获取第二时刻的状态作为第二状态,所述第二时刻为第二用户进行对所述第一业务的请求的时刻,所述第二用户的请求为紧接着所述第一用户的请求的下一个请求,其中,所述第二状态至少包括:所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量;
输入单元,配置为,将所述第二状态输入所述Q学习模型,以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值;
计算单元,配置为,基于所述回报值和所述各个第二Q值中的最大值,计算与所述第一状态和所述确定的业务对应的Q值标签值,以及
训练单元,配置为,基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型,以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
在根据本说明书实施例的业务用户分流方案,通过使用强化学习模型,可综合考虑环境因素及决策后的反馈,及时持续地对模型进行调整,从而提高决策的精度,以提高用户的体验。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出根据本说明书实施例用于业务客户引流的装置100的示意图;
图2示出根据本说明书实施例的一种对请求第一业务的用户进行分流的方法流程图;
图3示出根据本说明书实施例的训练Q学习模型的方法流程图;
图4示出根据本说明书实施例的对请求第一业务的用户进行分流的装置400;
图5示出根据本说明书实施例的用于训练Q学习模型的训练装置500。
具体实施方式
下面将结合附图描述本说明书实施例。
图1示出根据本说明书实施例用于业务客户引流的装置100的示意图。如图1所示,装置100中包括:Q学习模型11、决策模块12、以及训练模块13。所述业务例如为平台(例如淘宝平台)的电话客服业务,在高峰时段,拨入客服电话的客户过多时,为提高客户体验,减轻客服压力,需要对部分拨入的客户进行引流。可以将客户引流到多个其它业务中,如人工在线客服、机器人电话客服、机器人在线客服、知识库自助查询等,所述人工在线客服、机器人在线客服、知识库自助查询例如可通过平台APP进行。假设,采用两个用于引流的其它业务,如在线客服和自助查询。可将电话客服、在线客服和自助查询示为Q学习模型中可采用的三个动作b1、b2和b3
例如,在第一用户拨入客服电话时,在通过Q学习模型11进行对该第一用户的引流时,首先向Q学习模型11输入第一时刻的环境状态s1,第一时刻即为第一用户拨入电话的时刻,该状态s1例如包括:第一用户在第一时刻对上述各个业务的倾向度(接受概率)、每个业务在第一时刻的接待容量、以及每个业务的在自第一时刻开始的预定时段内的预估的用户增量等等。Q学习模型11基于该状态s1计算与每个动作对应的Q值,即Q(s1,b1)、Q(s1,b2)和Q(s1,b3)。在决策模块12中,可基于这三个Q值,通过预定的决策算法进行动作的决策,即确定在电话客服、在线客服和自助查询中选择哪个业务分配给该第一用户,从而获取a1,a1为b1、b2和b3中选定的一个。
在确定a1之后,可在客服电话中基于a1进行对该第一用户的拨入电话的处理。例如,所述a1可能为电话客服,则可直接为该第一用户接通电话客服。例如,所述a1可能为在线客服,则可在电话中语音建议该第一用户改用在线客服的方式进行询问。该第一用户针对上述建议可能有不同的反馈,其例如接受该建议或不接受该建议,在第一用户不接受上述建议的情况中,该第一用户仍在客服电话中等待。第一客户的反馈对环境状态产生影响,例如对各个业务的容量产生影响。基于用户对该建议的是否接受、以及各个业务的容量变化,可确定由动作a1引起的该Q学习模型的回报值r1
紧接着第一用户的拨入电话之后,在平台接到下一个拨入电话时,可获取环境状态s2,该下一个拨入电话例如是第二用户在第二时刻拨入的。则,状态s2包括第二用户在第二时刻对上述各个业务的倾向度(接受概率)、每个业务在第二时刻的接待容量、以及每个业务的在自第二时刻开始的预定时段内的预估的用户增量等等。
在训练阶段,通过将状态s2输入Q学习模型11,可同样获取与三个业务分别对应的三个Q值,基于该三个Q值中的最大值和上述回报值r1,可在训练模块13中计算Q(s1,a1)的标签值
Figure BDA0001970493890000071
基于该标签值、s1和a1可通过梯度下降法训练Q学习模型,从而更新Q学习模型的参数。
可以理解,本说明书实施例中的需要引流的业务不限于上述电话客服业务,而可以任何具有有限可接收用户总数的业务。例如,各种在线游戏、订票业务等等。另外,本说明书实施例中的可选的动作也不限于为3个,而可以根据具体的场景需要进行设定。
下面对上述用户分流方法进行详细描述。
图2示出根据本说明书实施例的一种对请求第一业务的用户进行分流的方法流程图,其中,所述第一业务与至少一个第二业务相对应,所述至少一个第二业务用于分流请求所述第一业务的用户,所述方法包括:
在步骤S202,获取第一时刻的状态作为第一状态,所述第一时刻为第一用户进行对所述第一业务的请求的时刻,其中,所述第一状态至少包括:所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量;
在步骤S204,将所述第一状态输入Q学习模型,以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值;以及
在步骤S206,基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务,并基于所述确定的业务回复所述第一用户。
首先,在步骤S202,获取第一时刻的状态作为第一状态,所述第一时刻为第一用户进行对所述第一业务的请求的时刻,其中,所述第一状态至少包括:所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量。
如参考图1中所述,所述第一业务例如为电话客服业务,所述第二业务例如包括在线客服和自助查询两个业务。第一用户可为平台的任一用户。需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。在第一用户拨入客服电话时,也即请求该电话客服业务。平台在接到该请求之后,可获取整个环境的当前状态作为用于输入Q学习模型的s1
在本说明书实施例中,环境状态s与时刻相对应,包括三个方面的特征U、C、e,即,可将t时刻的状态st表示为st=(Ut,Ct,et)。其中,Ut、Ct和et都是N维的向量,N为Q学习模型中的动作总数,例如如参考图1中所述,为3,也就是说Ut和Ct的每个维度与一个动作相对应。Ut表示在t时刻的相关用户的用户倾向度,每一维度上的值(例如在0到1之间)表示该用户对对应动作的接受概率。例如,对于上述客服电话的场景,Ut表示在t时刻拨入客服电话的用户的用户倾向度。在总共有电话客服、在线客服和自助查询三个动作选项的情况中,一般说来,可以认为所有用户接受“人工热线”的概率很高(例如100%)。在其他维度(在线客服和自助查询)上,不同用户的接受概率基于其以下至少一项确定:用户画像、历史行为。所述用户画像例如可通过相应模型定期获取,例如所述用户画像中包括“老人”特征,通常,老人不善于通过使用手机、计算机等进行在线的客服咨询或自助查询,因此,该用户对“在线客服”和“自助查询”的接受概率都可以设定为较低。所述用户的历史行为例如为用户在过去拨入客服电话时对这些客服和自助查询的接受或拒绝接受的历史,基于用户在过去接受例如在线客服的占比,可估计该用户在本次接受在线客服引流的概率。或者,可综合考虑用户画像和用户历史行为,例如可将用户画像转换为数值,并基于用户画像数值与接受次数占比的加权和,获取用户对相应动作的接受概率。
Ct表示在t时刻每个动作维度上接待能力的剩余参考值(可以称之为每个维度上的“容量”)。该值允许为负,在该值为负的情况中,表示在这个维度上出现了用户拥挤等待的情况;在该值为正的情况中,表示这个维度接待能力尚有剩余。例如,对于电话客服、在线客服和自助查询三种情况,可基于电话客服、在线客服在t时刻实际可接待的用户数目确定Ct中这两个维度的值,并可将Ct中在对应于自助查询的维度的值设定为较大值。
et表示在下一个时间区间(t,t+Td)内,每个维度上的用户增量(预计新拨进来的用户数减去通话结束用户数),Td表示时间间隔长度,例如每5分钟的时间间隔。et可基于历史数据估计,或者可通过预定算法预测获取。可以理解,所述状态s不限于仅包括上述三个方面的特征U、C、e,还可以包括其他特征,例如,还可以包括用户画像特征、每个动作维度对应的动作特征(如业务接入成本、业务营业时间)等等。
假设第一用户进行对所述第一业务的请求的时刻为时刻1,则可获取与该时刻1对应的状态s1=(U1,C1,e1),其中,U1、C1和e1可分别基于上述方法获取。
在步骤S204,将所述第一状态输入Q学习模型,以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值。
如本领域技术人员所知,Q学习模型通过神经网络实现,通过向该神经网络输入状态s和动作a,可从该神经网络输出与状态s和动作a对应的Q值(即,Q(s,a))。在获取上述状态s1之后,假设上述电话客服、在线客服和自助查询三个动作分别以b1、b2和b3表示,在一个实施例中,可将(s1,b1)、(s1,b2)和(s1,b3)分别输入Q学习模型,从而基于所述神经网络分别输出与(s1,b1)、(s1,b2)和(s1,b3)分别对应的各个第一Q值Q1、Q2和Q3,即,Q1=Q(s1,b1)、Q2=Q(s1,b2)、Q3=Q(s1,b3)。在一个实施例中,可仅将s1输入Q学习模型,从而基于所述神经网络分别输出与(s1,b1)、(s1,b2)和(s1,b3)分别对应的Q1、Q2和Q3
在步骤S206,基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务,并基于所述确定的业务回复所述第一用户。
在获取各个第一Q值(例如上述Q1、Q2和Q3)之后,可基于预定的决策算法确定将要执行的动作a1,即,确定分配给第一用户的业务。在一个实施例中,可将与Q1、Q2和Q3中的最大值对应的业务分配给第一用户。在一个实施例中,可基于ε-贪婪策略确定动作a1。在确定动作a1之后,可基于动作a1进行对所述第一用户的请求的回复,也即,在环境中实施动作a1。例如,在上述第一用户拨入客服电话的情况中,如果a1为b1,即电话客服,则将第一用户电话转接至电话客服,如果a1为b2,即在线客服,则在电话中通过语音建议第一用户通过在线客服的方式进行咨询。
在通过图2所示方法基于Q学习模型确定与状态s1对应的a1,并在环境中实施动作a1之后,可确定该动作a1的回报值r1。在接收与第一用户请求紧接的下一个用户的请求的时刻,可获取s2,从而可基于s1、a1、r1和s2进行对Q学习模型的一次训练。
图3示出根据本说明书实施例的训练Q学习模型的方法流程图,包括以下步骤:
在步骤S302,当在基于所述确定的业务回复所述第一用户之后,获取所述第一用户的反馈,以确定所述第一用户是否接受所述确定的业务;
在步骤S304,获取该回复对应的回报值,所述回报值基于如下两项获取:在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量;
在步骤S306,获取第二时刻的状态作为第二状态,所述第二时刻为第二用户进行对所述第一业务的请求的时刻,所述第二用户的请求为紧接着所述第一用户的请求的下一个请求,其中,所述第二状态至少包括:所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量;
在步骤S308,将所述第二状态输入所述Q学习模型,以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值;
在步骤S310,基于所述回报值和所述各个第二Q值中的最大值,计算与所述第一状态和所述确定的业务对应的Q值标签值,以及
在步骤S312,基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型,以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
首先,在步骤S302,当在基于所述确定的业务回复所述第一用户之后,获取所述第一用户的反馈,以确定所述第一用户是否接受所述确定的业务。
所述第一用户的反馈可以是接受a1,或者不接受a1。例如,a1为上述b1,即转接至电话客服,在该情况中,可以认为第一用户的反馈100%为接受。在一种情况中,a1例如为b2,即建议第一用户通过在线客服进行咨询,在该情况中,如果第一用户的反馈是接受该a1,则第一用户退出该拨入的电话,并通过例如app联系在线客服,如果第一用户的反馈为不接受该a1,则第一用户仍然等待接入电话客服。
在步骤S304,获取该回复对应的回报值,所述回报值基于如下两项获取:在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量。
也就是说,在该步骤中,获取通过在环境中实施上述动作a1所获取的回报值r1。在本说明书实施例中,可通过以下公式(1)获取与s1、a1对应的回报值r1
Figure BDA0001970493890000121
其中,
Figure BDA0001970493890000122
为第一用户接受动作a1的奖励,如果第一用户不接受,则该值为0。在一个实施例中,例如,当确定的业务a1为b1时,即电话客服,在该情况中,可以认为用户会100%接受a1,在该情况中,可将
Figure BDA0001970493890000123
设定为
Figure BDA0001970493890000124
当确定的业务a1为b2或b3时,可将对应的
Figure BDA0001970493890000125
分别设定为
Figure BDA0001970493890000126
Figure BDA0001970493890000127
由于模型agent)让用户接受b2或b3的难度相比于接受b1的难度更大,因此,可将
Figure BDA0001970493890000128
Figure BDA0001970493890000129
都设定为大于
Figure BDA00019704938900001210
另外,可根据用户分别接受b2和b3的难度,确定
Figure BDA00019704938900001211
Figure BDA0001970493890000131
的相对大小。在一个实施例中,可将
Figure BDA0001970493890000132
设为0,将
Figure BDA0001970493890000133
Figure BDA0001970493890000134
都设定为正数。
Figure BDA0001970493890000135
也为N维的向量,表示在实施动作a1后N个动作维度每个维度的容量变化。在上述N=3的电话客服场景中,例如,a1=b3,即在电话中向第一用户建议使用自助查询,在该情况中,如果第一用户接受该建议,则自助查询的容量减1,即ΔCb3=-1;如果第一用户拒绝自助查询并继续等待直到被转接至客服电话,则客服电话的容量减1,即,ΔCb1=-1。
通过公式(1)中的Relu函数,当
Figure BDA0001970493890000136
中的任一维度值大于等于零时,该维度值经Relu函数作用为0,对回报值r1不产生影响。当
Figure BDA0001970493890000137
中至少一个维度值小于零时,该至少一个维度值的每个经Relu函数作用为至少一个正数,对该至少一个正数取最大值,并基于该最大值减小回报值r1,也即,将该最大值乘以预定参数λ,并从r1中减去该乘积。由于通常等待用户数目比较大,可将λ设定为0.7~0.9,以与公式(1)中的第一项相平衡。也就是说,当
Figure BDA0001970493890000138
中任一维度值小于零时,表示该维度出现了用户拥挤等待的情况,因此对该结果给与负的回报值,以使得模型减少该情况的出现。
可以理解,公式(1)仅是本说明书实施例中对回报值r1的示例计算方法,本说明书实施例中不限于该公式,例如,激活函数不限于使用Relu函数,而可以使用σ函数等,从而不限于在
Figure BDA0001970493890000139
小于零时,对回报值r1起作用,在
Figure BDA00019704938900001310
大于零时,也可以通过比较各个维度值的大小而对回报值r1起作用。
在步骤S306,获取第二时刻的状态作为第二状态,所述第二时刻为第二用户进行对所述第一业务的请求的时刻,所述第二用户的请求为紧接着所述第一用户的请求的下一个请求,其中,所述第二状态至少包括:所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量。
在如上文所述,在第一用户进行对第一业务的请求时,获取该时刻的环境状态s1(即时刻t=1的第一状态),在平台接收到与该第一用户的请求紧接着的第二用户的请求时,可获取该时刻的环境状态s2(即时刻t=2的第二状态)。与s1中各项相对应的,s2中可包括如下三项:
Figure BDA0001970493890000141
其中,U2表示第二用户在时刻2分别对所述第一业务及至少一个所述第二业务的接受概率,
Figure BDA0001970493890000142
表示在经过上述动作a1之后所述第一业务及至少一个所述第二业务各自在时刻2的可接入的用户数量、以及e2表示所述第一业务及至少一个所述第二业务各自的在从时刻2开始的预定时段内的预估用户增量。其中,U2和e2可通过与上文中对U1和e1的获取方式相同的方式获取,
Figure BDA0001970493890000143
可在上述对公式(1)的计算中获取,从而可获取模型的第二状态s2。可以理解,这里第二用户可以是平台中的任一用户,其也可能是上述第一用户。
在步骤S308,将所述第二状态输入所述Q学习模型,以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值。
与上文中向模型输入状态s1类似地,通过向Q学习模型输入s2,可获取模型输出Q(s2,b1)、Q(s2,b2)和Q(s2,b3),将其都称为第二Q值,以与上文中与状态s1对应的各个第一Q值相区分。
在步骤S310,基于所述回报值和所述各个第二Q值中的最大值,计算与所述第一状态和所述确定的业务对应的Q值标签值。
在Q学习算法中,通常通过以下公式(2)更新Q值:
Q(st,at)←Q(st,at)+α(rt+γmaxNQ(st+1,at+1)-Q(st,at)) (2)
在一个实施例中,通过将参数α设定为1从而可获取如下公式(3):
Q(st,at)←rt+γmaxNQ(st+1,at+1) (3)
其中,γ为预定参数。可以理解,在参数α不等于1的情况中,同样可通过将公式(2)右侧的Q(st,at)移到公式左侧,从而使得Q(st,at)的标签值可基于rt+γmaxNQ(st+1,at+1)计算获取。
从而,基于公式(3),通过将上述计算的r1和各个第二Q值中的最大值代入公式(3),可将计算的Q(s1,a1)值作为通过图2所示方法获取的
Figure BDA0001970493890000152
预测值的标签值。
在步骤S312,基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型,以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
在获取Q值标签值之后,可基于例如如公式(4)所示的损失函数进行对Q学习模型的训练:
L=(Q(s1,a1,θ)-(r1+γmaxNQ(s2,a2)))2 (4)
其中,θ代表Q学习模型中的当前全部参数。在该Q学习模型初始进行模型预测时,模型中的各个参数可随机初始化。通过梯度下降法调整参数θ,从而可使得Q学习模型的输出值
Figure BDA0001970493890000151
更接近如公式(3)所示的预测值,从而使得模型预测更加准确。可以理解,在本说明书实施例中,不限于通过如公式(4)所示的损失函数进行模型训练,而可以采用本领域技术人员熟知的各种损失函数的形式,例如可以采用差的绝对值等形式。
该强化学习模型可随着更多的用户请求(例如拨通的客服电话),而不断通过图3所示方法进行多次训练,如果系统将结束(终止或重启),可以把当前训练出的模型保存起来,并在下次系统启动时重新载入以继续训练。在训练次数达到足够多之后,该学习模型可趋于收敛,从而可停止训练。
图4示出根据本说明书实施例的对请求第一业务的用户进行分流的装置400,其中,所述第一业务与至少一个第二业务相对应,所述至少一个第二业务用于分流请求所述第一业务的用户,所述装置包括:
获取单元41,配置为,获取第一时刻的状态作为第一状态,所述第一时刻为第一用户进行对所述第一业务的请求的时刻,其中,所述第一状态至少包括:所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量;
输入单元42,配置为,将所述第一状态输入Q学习模型,以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值;以及
确定单元43,配置为,基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务,并基于所述确定的业务回复所述第一用户。
在一个实施例中,所述确定单元43还配置为,将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为分配给所述第一用户的业务。
图5示出根据本说明书实施例的用于训练Q学习模型的训练装置500,包括:
第一获取单元51,配置为,当在基于所述确定的业务回复所述第一用户之后,获取所述第一用户的反馈,以确定所述第一用户是否接受所述确定的业务;
第二获取单元52,配置为,获取该回复对应的回报值,所述回报值基于如下两项获取:在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量;
第三获取单元53,配置为,获取第二时刻的状态作为第二状态,所述第二时刻为第二用户进行对所述第一业务的请求的时刻,所述第二用户的请求为紧接着所述第一用户的请求的下一个请求,其中,所述第二状态至少包括:所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量;
输入单元54,配置为,将所述第二状态输入所述Q学习模型,以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值;
计算单元55,配置为,基于所述回报值和所述各个第二Q值中的最大值,计算与所述第一状态和所述确定的业务对应的Q值标签值,以及
训练单元56,配置为,基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型,以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
在根据本说明书实施例的业务用户分流方案,通过使用强化学习模型,可综合考虑环境因素及决策后的反馈,及时持续地对模型进行调整,从而提高决策的精度,以提高用户的体验。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种对请求第一业务的用户进行分流的方法,其中,所述第一业务与至少一个第二业务相对应,所述至少一个第二业务用于分流请求所述第一业务的用户,所述方法包括:
获取第一时刻的状态作为第一状态,所述第一时刻为第一用户进行对所述第一业务的请求的时刻,其中,所述第一状态至少包括:所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量;
将所述第一状态输入Q学习模型,以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值;以及
基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务,并基于所述确定的业务回复所述第一用户;
其中,所述Q学习模型通过以下步骤训练:
当在基于所述确定的业务回复所述第一用户之后,获取所述第一用户的反馈,以确定所述第一用户是否接受所述确定的业务;
获取该回复对应的回报值,所述回报值基于如下两项获取:在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量;
获取第二时刻的状态作为第二状态,所述第二时刻为第二用户进行对所述第一业务的请求的时刻,所述第二用户的请求为紧接着所述第一用户的请求的下一个请求,其中,所述第二状态至少包括:所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量;
将所述第二状态输入所述Q学习模型,以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值;
基于所述回报值和所述各个第二Q值中的最大值,计算与所述第一状态和所述确定的业务对应的Q值标签值,以及
基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型,以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
2.根据权利要求1所述的方法,其中,基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务包括,将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为分配给所述第一用户的业务。
3.根据权利要求1所述的方法,其中,所述第一业务为电话客服,所述至少一个第二业务包括以下至少一种业务:人工在线客服、机器人电话客服、机器人在线客服、知识库自助查询。
4.根据权利要求1所述的方法,其中,所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率基于以下至少一项确定:所述第一用户的用户画像、所述第一用户的历史行为。
5.根据权利要求1所述的方法,其中,在所述确定的业务为第一业务的情况中,在用户接受所述确定的业务的情况下的预定奖励分值为第一分值,在所述确定的业务为任一第二业务的情况中,在用户接受所述确定的业务的情况下的预定奖励分值大于所述第一分值。
6.根据权利要求1所述的方法,其中,在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中,所述回报值减小。
7.根据权利要求6所述的方法,其中,在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中,所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量越小,所述回报值越小。
8.一种对请求第一业务的用户进行分流的装置,其中,所述第一业务与至少一个第二业务相对应,所述至少一个第二业务用于分流请求所述第一业务的用户,所述装置包括:
获取单元,配置为,获取第一时刻的状态作为第一状态,所述第一时刻为第一用户进行对所述第一业务的请求的时刻,其中,所述第一状态至少包括:所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第一时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第一时刻开始的预定时段内的预估用户增量;
输入单元,配置为,将所述第一状态输入Q学习模型,以基于所述模型的输出获取在所述第一状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第一Q值;以及
确定单元,配置为,基于所述各个第一Q值,在所述第一业务及至少一个所述第二业务中确定分配给所述第一用户的业务,并基于所述确定的业务回复所述第一用户;
其中,所述Q学习模型通过训练装置训练,所述训练装置包括:
第一获取单元,配置为,当在基于所述确定的业务回复所述第一用户之后,获取所述第一用户的反馈,以确定所述第一用户是否接受所述确定的业务;
第二获取单元,配置为,获取该回复对应的回报值,所述回报值基于如下两项获取:在所述第一用户接受所述确定的业务的情况下的预定奖励分值、所述第一业务及至少一个所述第二业务各自的在所述反馈之后的可接入的用户数量;
第三获取单元,配置为,获取第二时刻的状态作为第二状态,所述第二时刻为第二用户进行对所述第一业务的请求的时刻,所述第二用户的请求为紧接着所述第一用户的请求的下一个请求,其中,所述第二状态至少包括:所述第二用户分别对所述第一业务及至少一个所述第二业务的接受概率、所述第一业务及至少一个所述第二业务各自在所述第二时刻的可接入的用户数量、以及所述第一业务及至少一个所述第二业务各自的在从所述第二时刻开始的预定时段内的预估用户增量;
输入单元,配置为,将所述第二状态输入所述Q学习模型,以基于所述模型的输出获取在第二状态下与所述第一业务及至少一个所述第二业务中的各个业务分别对应的各个第二Q值;
计算单元,配置为,基于所述回报值和所述各个第二Q值中的最大值,计算与所述第一状态和所述确定的业务对应的Q值标签值,以及
训练单元,配置为,基于所述第一状态、所述确定的业务、及所述Q值标签值训练所述Q学习模型,以使得所述Q学习模型基于所述第一状态输出的与所述确定的业务对应的第一Q值更接近所述Q值标签值。
9.根据权利要求8所述的装置,其中,所述确定单元还配置为,将所述第一业务及至少一个所述第二业务中对应的第一Q值最大的业务确定为分配给所述第一用户的业务。
10.根据权利要求8所述的装置,其中,所述第一业务为电话客服,所述至少一个第二业务包括以下至少一种业务:人工在线客服、机器人电话客服、机器人在线客服、知识库自助查询。
11.根据权利要求8所述的装置,其中,所述第一用户分别对所述第一业务及至少一个所述第二业务的接受概率基于以下至少一项确定:所述第一用户的用户画像、所述第一用户的历史行为。
12.根据权利要求8所述的装置,其中,在所述确定的业务为第一业务的情况中,在用户接受所述确定的业务的情况下的预定奖励分值为第一分值,在所述确定的业务为任一第二业务的情况中,在用户接受所述确定的业务的情况下的预定奖励分值大于所述第一分值。
13.根据权利要求8所述的装置,其中,在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中,所述回报值减小。
14.根据权利要求13所述的装置,其中,在所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量小于0的情况中,所述第一业务及至少一个所述第二业务中任一业务的在所述反馈之后的可接入的用户数量越小,所述回报值越小。
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项的所述的方法。
16.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN201910116972.XA 2019-02-13 2019-02-13 基于强化学习模型的业务用户分流方法和装置 Active CN109993314B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910116972.XA CN109993314B (zh) 2019-02-13 2019-02-13 基于强化学习模型的业务用户分流方法和装置
TW108132245A TWI743558B (zh) 2019-02-13 2019-09-06 基於強化學習模型的業務用戶分流方法和裝置
PCT/CN2020/070055 WO2020164333A1 (zh) 2019-02-13 2020-01-02 基于强化学习模型的业务用户分流方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910116972.XA CN109993314B (zh) 2019-02-13 2019-02-13 基于强化学习模型的业务用户分流方法和装置

Publications (2)

Publication Number Publication Date
CN109993314A CN109993314A (zh) 2019-07-09
CN109993314B true CN109993314B (zh) 2020-07-10

Family

ID=67129821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910116972.XA Active CN109993314B (zh) 2019-02-13 2019-02-13 基于强化学习模型的业务用户分流方法和装置

Country Status (3)

Country Link
CN (1) CN109993314B (zh)
TW (1) TWI743558B (zh)
WO (1) WO2020164333A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993314B (zh) * 2019-02-13 2020-07-10 阿里巴巴集团控股有限公司 基于强化学习模型的业务用户分流方法和装置
CN111126621B (zh) * 2019-12-17 2021-02-09 北京九章云极科技有限公司 在线模型训练方法及装置
CN113435674A (zh) * 2020-03-23 2021-09-24 阿里巴巴集团控股有限公司 客户服务资源信息处理、模型生成方法及装置
TWI768484B (zh) * 2020-09-29 2022-06-21 中國信託商業銀行股份有限公司 用於語音客服的進線分派方法及系統
CN112529325B (zh) * 2020-12-18 2024-03-26 平安银行股份有限公司 网点业务分配方法、装置、计算机设备及存储介质
CN115171453B (zh) * 2022-06-13 2023-05-30 广东电网有限责任公司 一种基于智能电网的人工客服训练方法及客服系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148905B (zh) * 2010-02-10 2014-06-11 华为技术有限公司 呼叫排队的方法和装置
US8998544B1 (en) * 2011-05-20 2015-04-07 Amazon Technologies, Inc. Load balancer
CN106303113B (zh) * 2015-06-23 2019-11-08 阿里巴巴集团控股有限公司 一种分流方法和设备
US9723151B2 (en) * 2015-10-19 2017-08-01 Genesys Telecommunications Laboratories, Inc. Optimized routing of interactions to contact center agents based on forecast agent availability and customer patience
CN105376151B (zh) * 2015-12-15 2018-11-30 广州品唯软件有限公司 ABtest平台的分流方法及系统
CN105847608B (zh) * 2016-03-17 2019-02-22 中国工商银行股份有限公司 一种呼叫中心的路由装置及方法
CN107071193B (zh) * 2016-11-28 2020-05-29 阿里巴巴集团控股有限公司 互动应答系统接入用户的方法和装置
CN107666544B (zh) * 2017-06-15 2020-06-02 平安科技(深圳)有限公司 一种管理ivr进线的方法、装置及设备
US20180374029A1 (en) * 2017-06-27 2018-12-27 Asapp, Inc Selection of customer service requests
CN108769440A (zh) * 2018-06-06 2018-11-06 北京京东尚科信息技术有限公司 前置分流方法和装置
CN108958939B (zh) * 2018-07-06 2021-12-07 创新先进技术有限公司 服务资源的分配方法、装置及服务器
CN109993314B (zh) * 2019-02-13 2020-07-10 阿里巴巴集团控股有限公司 基于强化学习模型的业务用户分流方法和装置

Also Published As

Publication number Publication date
TW202034674A (zh) 2020-09-16
CN109993314A (zh) 2019-07-09
WO2020164333A1 (zh) 2020-08-20
TWI743558B (zh) 2021-10-21

Similar Documents

Publication Publication Date Title
CN109993314B (zh) 基于强化学习模型的业务用户分流方法和装置
CN108076237B (zh) 一种电话客服数据处理方法及装置
Johnson The benefits fo PDCA
US20080046386A1 (en) Method for making optimal decisions in automated customer care
CN109040477B (zh) 一种预测外呼算法的优化方法及外呼调度系统
CN102273185A (zh) 基于多变量标准化评分和影子队列的呼叫路由方法及系统
CN110457709A (zh) 外呼对话处理方法、装置及服务器
CN111669467B (zh) 一种拨打任务生成的方法及装置
CN111031185A (zh) 一种基于人工智能导航的坐席分配方法及相关装置
CN111866288A (zh) 客户来电的处理方法及装置
CN112767028B (zh) 一种活跃用户数量的预测方法、计算机设备及存储介质
CN110572524A (zh) 一种用户呼叫处理方法、装置、存储介质和服务器
CN115809669B (zh) 一种对话管理方法和电子设备
CN107103521A (zh) 一种基于引力的出租车打车方法及系统
JP2010103892A (ja) 通信端末、料金プラン管理装置、管理システム、管理方法および管理プログラム
CN110889551A (zh) 一种全过程工程咨询服务方法
CN113205391B (zh) 基于历史订单匹配度的派单方法、电子设备和计算机可读介质
CN115271102A (zh) 一种机器学习引擎的任务导向的优先级方法及系统
CN111415075B (zh) 一种车辆调度方法及装置
US11825024B1 (en) Managing outbound calling
CN117453974A (zh) 销户处理方法、装置、设备及存储介质
CN111773663A (zh) 游戏服务器合并效果预测方法、装置、设备及存储介质
CN114997708A (zh) 针对用户问题进行渠道分配的方法及装置
CN117669928A (zh) 任务运行方法、装置、设备以及存储介质
CN116720618A (zh) 一种资源匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201016

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201016

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.