CN112801430B - 任务下发方法、装置、电子设备及可读存储介质 - Google Patents

任务下发方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112801430B
CN112801430B CN202110393193.1A CN202110393193A CN112801430B CN 112801430 B CN112801430 B CN 112801430B CN 202110393193 A CN202110393193 A CN 202110393193A CN 112801430 B CN112801430 B CN 112801430B
Authority
CN
China
Prior art keywords
task
issued
decision
package
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110393193.1A
Other languages
English (en)
Other versions
CN112801430A (zh
Inventor
冯伟
武晓飞
王文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seashell Housing Beijing Technology Co Ltd
Original Assignee
Seashell Housing Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seashell Housing Beijing Technology Co Ltd filed Critical Seashell Housing Beijing Technology Co Ltd
Priority to CN202110393193.1A priority Critical patent/CN112801430B/zh
Publication of CN112801430A publication Critical patent/CN112801430A/zh
Application granted granted Critical
Publication of CN112801430B publication Critical patent/CN112801430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/12Timing analysis or timing optimisation

Abstract

本发明提供一种任务下发方法、装置、电子设备及可读存储介质,其中方法包括:获取目标助手的待下发任务列表,待下发任务列表中的每个待下发任务均关联有备选处理人列表;以备选处理人列表所关联的处理人为粒度,确定动态环境,并基于动态环境,利用马尔科夫决策模型,确定待下发任务列表中目标任务将被下发给的目标处理人;其中,马尔科夫决策模型为通过确定所关联的处理人的状态空间和收益,并通过将整体决策时间离散化来拟合强化学习场景获取的。本发明通过有效定义处理人的状态和收益来拟合强化学习场景,并通过将连续时间离散化使收益和状态动态的关联起来,能够兼顾处理人的处理能力,从而有效提高任务处理效率和可靠性,最大化整体收益。

Description

任务下发方法、装置、电子设备及可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种任务下发方法、装置、电子设备及可读存储介质。
背景技术
目前,在给经纪人下发任务时都是孤立下发的。例如,不同的助手在给经纪人下发任务时,都是相互独立的向经纪人下发。
但是,采用上述处理方式下发任务时,可能出现多个助手都将任务下发到同一个经纪人,甚至在同一时间将任务下发给同一个经纪人的情况。然而,经纪人的精力往往有限,且通常无法同时处理多个任务,这将影响到任务的处理效率,且更容易出现错误,可靠性降低。
发明内容
本发明提供一种任务下发方法、装置、电子设备及可读存储介质,用以解决现有技术存在的任务处理效率低、易出错且可靠性不高等问题的缺陷,实现有效提高任务处理效率和可靠性的目标。
本发明提供一种任务下发方法,包括:
获取目标助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;
以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人;
其中,所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益,并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的。
根据本发明一个实施例的任务下发方法,在所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人之前,还包括:
根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数,确定所述所关联的处理人的状态空间,并根据所述待下发任务的被执行情况,确定所述所关联的处理人的动作集合;
通过将任务触发的所述整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,并基于降维后的状态空间和降维后的动作集合,确定所述所关联的处理人的期望收益函数;
根据任务下发的实际应用场景,确定约束条件,并基于所述约束条件,确定约束条件下的决策目标函数;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,构建所述马尔科夫决策模型。
根据本发明一个实施例的任务下发方法,所述构建所述马尔科夫决策模型,包括:
构建(time, chance, [任务包中任务特征], [处理人属性特征])形式的样本数据,其中,time表示当前时刻,chance表示所述所关联的处理人在所述当前时刻可执行的任务数;
根据所述所关联的处理人历史已发生的日志数据,计算所述样本数据的决策收益,并以所述决策收益作为所述样本数据的标签;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,通过xgboost模型拟合所述所关联的处理人执行任务时的收益情况,构建初始马尔科夫决策模型;
基于所述样本数据和所述标签,训练所述初始马尔科夫决策模型,构建所述马尔科夫决策模型。
根据本发明一个实施例的任务下发方法,所述通过将任务触发的整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,包括:
确定所述整体决策时间和决策周期,并基于所述决策周期,将所述整体决策时间离散化,获取离散的时间索引;
将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引,获取所述降维后的状态空间;
将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量,获取所述降维后的动作集合。
根据本发明一个实施例的任务下发方法,基于所述降维后的状态空间和所述降维后的动作集合,确定所述所关联的处理人的所述期望收益函数,包括:
Figure 311341DEST_PATH_IMAGE001
式中,E V(s|u)表示当前状态下收益的期望,V(s|u)表示当前状态的收益,R(s, package|u)表示所关联的处理人u在当前状态s下执行任务包package所获得的收益,
Figure 797817DEST_PATH_IMAGE002
表示下一个状态下的状态值函数,V(s)表示当前状态下的状态值函数,α表示学习步 长,γ表示折扣因子。
根据本发明一个实施例的任务下发方法,基于所述约束条件,确定所述约束条件下的所述决策目标函数,包括:
决策目标函数:
Figure 219614DEST_PATH_IMAGE003
约束条件:
Figure 673598DEST_PATH_IMAGE004
式中,约束条件
Figure 810181DEST_PATH_IMAGE005
表示每一个所关联 的处理人执行任务的个数不能多于当前剩余执行任务次数,约束条件
Figure 666011DEST_PATH_IMAGE006
表示每一个任务最多只能由一个所关联的处理人来完成,若任务k在 packagei中,则Dk,i=1,若任务k不在package i 中,则D k,i =0,约束条件
Figure 862637DEST_PATH_IMAGE007
满足Xi, j=0 or 1表 示是否将packagei分配给所关联的处理人jX i,j =0、X i,j =1分别表示不将和将packagei分配 给所关联的处理人j,package i 表示第i个任务包,sizeof(package i )表示package i 的大小,chance j 表示所关联的处理人j当前剩余可执行任务次数,U i,j 表示将packagei分配给所关联 的处理人j之后所获得的收益,W j 表示所关联的处理人j没有任何任务分配的未来期望收 益,其中,
Figure 803917DEST_PATH_IMAGE008
Figure 478612DEST_PATH_IMAGE009
其中,pred(t, chance j , package i |u j )表示将packagei分配给所关联的处理人j之后的当前状态收益,V(t+1, (chance j -sizeof(packagei)) |u j )表示将packagei分配给所关联的处理人j之后的未来期望收益,t表示当前时刻,t+1表示下一时刻,u j 表示所关联的处理人j,·|u j 表示所关联的处理人j可执行的任务次数。
根据本发明一个实施例的任务下发方法,所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人,包括:
通过将约束条件
Figure 454527DEST_PATH_IMAGE007
满足Xi, j=0 or 1松弛为
Figure 822054DEST_PATH_IMAGE010
满足0<=X i, j <=1,将所述决策目 标函数转换为线性目标函数,并将所述约束条件转换为线性约束条件;
通过分支定界算法,求解所述线性约束条件下的所述线性目标函数的最优解,以确定所述目标任务将被下发给的所述目标处理人。
本发明还提供一种任务下发装置,包括:
获取模块,用于获取目标助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;
处理模块,用于以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人;
其中,所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益,并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的。
根据本发明一个实施例的任务下发装置,还包括建模模块,用于:
根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数,确定所述所关联的处理人的状态空间,并根据所述待下发任务的被执行情况,确定所述所关联的处理人的动作集合;
通过将任务触发的所述整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,并基于降维后的状态空间和降维后的动作集合,确定所述所关联的处理人的期望收益函数;
根据任务下发的实际应用场景,确定约束条件,并基于所述约束条件,确定约束条件下的决策目标函数;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,构建所述马尔科夫决策模型。
根据本发明一个实施例的任务下发装置,所述建模模块在用于所述构建所述马尔科夫决策模型时,用于:
构建(time, chance, [任务包中任务特征], [处理人属性特征])形式的样本数据,其中,time表示当前时刻,chance表示所述所关联的处理人在所述当前时刻可执行的任务数;
根据所述所关联的处理人历史已发生的日志数据,计算所述样本数据的决策收益,并以所述决策收益作为所述样本数据的标签;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,通过xgboost模型拟合所述所关联的处理人执行任务时的收益情况,构建初始马尔科夫决策模型;
基于所述样本数据和所述标签,训练所述初始马尔科夫决策模型,构建所述马尔科夫决策模型。
根据本发明一个实施例的任务下发装置,所述建模模块在用于所述通过将任务触发的整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理时,用于:
确定所述整体决策时间和决策周期,并基于所述决策周期,将所述整体决策时间离散化,获取离散的时间索引;
将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引,获取所述降维后的状态空间;
将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量,获取所述降维后的动作集合。
根据本发明一个实施例的任务下发装置,所述建模模块,用于基于所述降维后的状态空间和所述降维后的动作集合,确定所述所关联的处理人的所述期望收益函数,包括:
Figure 985051DEST_PATH_IMAGE011
式中,E V(s|u)表示当前状态下收益的期望,V(s|u)表示当前状态的收益,R(s, package|u)表示所关联的处理人u在当前状态s下执行任务包package所获得的收益,
Figure 729016DEST_PATH_IMAGE002
表示下一个状态下的状态值函数,V(s)表示当前状态下的状态值函数,α表示学习步 长,γ表示折扣因子。
根据本发明一个实施例的任务下发装置,所述建模模块,用于基于所述约束条件,确定所述约束条件下的所述决策目标函数,包括:
决策目标函数:
Figure 559438DEST_PATH_IMAGE012
约束条件:
Figure 832287DEST_PATH_IMAGE013
式中,约束条件
Figure 748160DEST_PATH_IMAGE005
表示每一个所关联 的处理人执行任务的个数不能多于当前剩余执行任务次数,约束条件
Figure 149011DEST_PATH_IMAGE006
表示每一个任务最多只能由一个所关联的处理人来完成,若任务k在 packagei中,则D k,i =1,若任务k不在package i 中,则D k,i =0,约束条件
Figure 584671DEST_PATH_IMAGE007
满足X i, j =0 or 1表 示是否将packagei分配给所关联的处理人jX i,j =0、X i,j =1分别表示不将和将packagei分配 给所关联的处理人j,package i 表示第i个任务包,sizeof(package i )表示package i 的大小,chance j 表示所关联的处理人j当前剩余可执行任务次数,U i,j 表示将packagei分配给所关联 的处理人j之后所获得的收益,W j 表示所关联的处理人j没有任何任务分配的未来期望收 益,其中,
Figure 277690DEST_PATH_IMAGE008
Figure 697170DEST_PATH_IMAGE009
其中,pred(t, chance j , package i |u j )表示将packagei分配给所关联的处理人j之后的当前状态收益,V(t+1, (chance j -sizeof(packagei)) |u j )表示将packagei分配给所关联的处理人j之后的未来期望收益,t表示当前时刻,t+1表示下一时刻,u j 表示所关联的处理人j,·|u j 表示所关联的处理人j可执行的任务次数。
根据本发明一个实施例的任务下发装置,所述处理模块在用于所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人时,用于:
通过将约束条件
Figure 766626DEST_PATH_IMAGE007
满足 X i,j =0 or 1松弛为
Figure 56793DEST_PATH_IMAGE010
满足0<= X i,j <=1,将所述决 策目标函数转换为线性目标函数,并将所述约束条件转换为线性约束条件;
通过分支定界算法,求解所述线性约束条件下的所述线性目标函数的最优解,以确定所述目标任务将被下发给的所述目标处理人。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述处理器执行所述程序或指令时,实现如上述任一种所述的任务下发方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有程序或指令,所述程序或指令被计算机执行时,实现如上述任一种所述的任务下发方法的步骤。
本发明提供的任务下发方法、装置、电子设备及可读存储介质,通过有效定义处理人的状态和收益来拟合强化学习场景,并通过将连续时间离散化使收益和状态动态的关联起来,能够兼顾处理人的处理能力,从而能有效提高任务处理效率和可靠性,使得整体收益最大化。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的任务下发方法的流程示意图之一;
图2为本发明提供的任务下发方法的流程示意图之二;
图3为根据本发明提供的任务下发方法中构建马尔科夫决策模型的流程示意图;
图4为本发明提供的任务下发装置的结构示意图;
图5为本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明针对现有技术任务处理效率低、易出错且可靠性不高等的问题,通过有效定义经纪人的状态和收益来拟合强化学习场景,并通过将连续时间离散化使收益和状态动态的关联起来,能够兼顾经纪人的处理能力,从而能有效提高任务处理效率和可靠性,使得整体收益最大化。
具体的,本发明主要通过有效定义任务处理人的状态和收益来拟合强化学习场景,并通过将连续时间离散化使收益和状态动态的关联起来,构建一个中间第三方系统,然后将所有的目标助手的任务的下发都交给这个第三方系统来统一的分配。其中,目标助手是需要下发待处理任务的助手。
例如,在房产领域,将客源维护助手、房源维护助手、管理助手等助手待下发的任务都集中到上述第三方系统,并由该第三方系统在当前场景下决策待下发的目标任务最终由哪个房产经纪人来着手执行。则其中客源维护助手、房源维护助手、管理助手等助手即是目标助手,房产经纪人即是任务处理人。为叙述方便,以下均以处理人为经纪人为例,对本发明技术方案进行展开说明,但不对本发明要求保护的范围进行限制。以下将结合附图,具体通过多个实施例对本发明进行展开说明和介绍。
图1为本发明提供的任务下发方法的流程示意图之一,如图1所示,该方法包括:
S101,获取目标助手的待下发任务列表。
其中,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表。
可以理解为,在智能助手应用中,根据业务需求可以设置多个目标类别的助手,如客源维护助手、房源维护助手、管理助手和营销助手等,每个助手都会有自己的任务列表,该列表中列出了该智能助手将要下发的任务,则该列表可称为是待下发任务列表,该列表中列出的任务可称为是待下发任务。同时,客源维护助手、房源维护助手、管理助手和营销助手等将要下发任务的智能助手可称为是目标智能助手。
可以理解的是,本发明中所述助手也可称为是智能助手,主要是面向消费者用户的产品,如可以是用户终端的同步管理工具,或是带有同步管理工具的终端本身,如智能语音助手、任务管理助手、导航机器人等。目标智能助手的数量可以是一个或者是多个,本发明对此并不作具体限制。
另外,智能助手在触发任务时会提供备选经纪人列表(默认所有任务均需触发),也即对于其待下发任务列表中的每个任务,智能助手还会提供可以执行该任务的经纪人(即备选经纪人)的列表,该列表可称为是备选经纪人列表。该备选经纪人列表中列出了允许接收目标任务的至少一个经纪人,可称为是备选经纪人或所关联的经纪人。
在此基础上,可如图2所示,为本发明提供的任务下发方法的流程示意图之二,本发明的决策操作可由第三方大中控系统完成,于是大中控系统可以由目标智能助手中获取其待下发任务列表,其中该获取过程可以是由大中控系统主动获取也可以是被动接收,本发明对此并不作具体限制。并且,在获取待下发任务列表的同时,还可以获取到列表中每个待下发任务所关联有备选经纪人列表。
S102,以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人。
其中,所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益,并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的。
可以理解为,在获取到待下发任务列表的基础上,大中控根据备选经纪人的状态,对所有的智能助手任务的下发进行统一分配,实现所有任务的统筹分发。如此,通过大中控一定的控制策略可以使智能助手任务的下发变得有序。
具体的,设定该场景下大中控策略能够决策的变量是任务由谁(经纪人)来着手执行,则以经纪人为粒度定义动态环境,分别定义用户的状态、可执行的动作以及动作收益等,定义马尔科夫决策过程(Markov Decision Processes, MDP)。具体可如表1所示,为根据本发明的马尔科夫决策过程元素定义表,表中示出了各MDP元素的实现和符号释义。
表1,为根据本发明的马尔科夫决策过程元素定义表
Figure 186292DEST_PATH_IMAGE014
在定义上述马尔科夫决策过程的基础上通过建立马尔科夫决策模型,进行优化求解,确定最终由谁来执行相应的任务,也即将任务下发给谁。也就是说,大中控在每个时间分片内会对当前未被分配的任务进行统一分配(t时间片内未被分配的任务会在t+1时间片内继续尝试被分配)。其中被决策的任务即可称为是目标任务,决策结果对应的经纪人即可称为是目标经纪人。
本发明提供的任务下发方法,通过有效定义经纪人的状态和收益来拟合强化学习场景,并通过将连续时间离散化使收益和状态动态的关联起来,能够兼顾经纪人的处理能力,从而能有效提高任务处理效率和可靠性,使得整体收益最大化。
其中,根据上述各实施例提供的任务下发方法可选地,如图3所示,为根据本发明提供的任务下发方法中构建马尔科夫决策模型的流程示意图,在所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人之前,还包括:
S301,根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数,确定所述所关联的处理人的状态空间,并根据所述待下发任务的被执行情况,确定所述所关联的处理人的动作集合。
可以理解为,根据实际应用场景,可以通过时间和当前经纪人接受任务的次数chance来表示经纪人的当前状态,具体可表示为:
S u =(T, chance u );
其中,S u 表示经纪人u的状态,经纪人状态用T和chanceu来表示,T表示当前时刻,chanceu表示经纪人u当前还可以执行的任务数。
则所有时间下经纪人的状态的集合则构成经纪人的状态空间。
此外,根据任务的被执行情况,经纪人状态的转移可表示为:
当前状态:S u (t)=(t, chance u );
任务包被执行时经纪人的下一状态:
S u (t+1)=(t+1, chance u -sizeof (package) );
任务包不执行时经纪人的下一状态:
S u (t+1)=(t+1, chance u )。
其中,任务包package表示一个或者多个任务集合在一起形成的任务包,其中一个任务可以在多个任务包中出现,并且每个任务包可以有一个或多个待分配候选经纪人,每个候选经纪人均具备执行对应package里所有任务的权限,但每个任务最终只能分配给一个经纪人来完成,package的构建是由大中控通过排列组合实现。
同时,可以经纪人要执行的任务(一个或多个任务),定义马尔科夫决策过程的动作Action。则所有时间下动作的集合则构成经纪人的动作集合。
应理解的是,由于任务是按照时间的先后顺序依次到达,而且目前暂无法得出对于相同经纪人任务与任务之间相互独立的结论,故优先考虑使用强化学习来执行序列决策任务。同时,根据大中控业务场景,可做不失一般性的假设,各个执行任务的经纪人之间相互独立,从而进一步简化状态空间及动作空间。
S302,通过将任务触发的所述整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,并基于降维后的状态空间和降维后的动作集合,确定所述所关联的处理人的期望收益函数。
可以理解为,在上述步骤定义的基础上,由于任务触发时间原本属于连续时间,这样会使状态空间及动作空间变为不可数,加大模型建模及优化难度,故将时间进行离散化(以t分钟为间隔,相当于每t分钟整体决策一次)处理,在此基础上,将经纪人的收益表示为与经纪人的状态和所采取动作相关的函数,构成经纪人的期望收益函数。
S303,根据任务下发的实际应用场景,确定约束条件,并基于所述约束条件,确定约束条件下的决策目标函数。
可以理解为,在上述步骤定义的基础上,本发明对决策的优化目标和优化目标的约束条件进行定义和限定。具体而言,根据待下发任务的被执行情况,确定任务的整体期望收益,并以最大化任务的整体收益价值作为优化目标。之后,确定优化目标需满足的约束条件,具体根据应用场景的实际需求和限制,建立决策目标函数中各变量和参数间的约束关系,构成所述约束条件。
例如,根据经纪人的实际处理能力,需要限制每个经纪人有每天的任务最高限额,以保障任务被下发给相应经纪人时能够被顺利执行并完成。又如,为避免同一个任务被重复执行造成资源浪费,需要限制每个任务只能分配给一个经纪人。
S304,基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,构建所述马尔科夫决策模型。
最后,本发明在上述马尔科夫决策过程元素定义的基础上,可以构成符合实际决策应用过程的马尔科夫决策模型。
其中,根据上述各实施例提供的任务下发方法可选地,所述构建所述马尔科夫决策模型,包括:构建(time, chance, [任务包中任务特征], [处理人属性特征])形式的样本数据,其中,time表示当前时刻,chance表示所述所关联的处理人在所述当前时刻可执行的任务数;根据所述所关联的处理人历史已发生的日志数据,计算所述样本数据的决策收益,并以所述决策收益作为所述样本数据的标签;基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,通过xgboost模型拟合处理人执行任务时的收益情况,构建初始马尔科夫决策模型;基于所述样本数据和所述标签,训练所述初始马尔科夫决策模型,构建所述马尔科夫决策模型。
可以理解为,本发明首先确定拟合方法为:通过xgboost模型来拟合经纪人执行任务时的收益情况;模型的输入数据为:(time, chance, [任务包中任务特征], [经纪人属性特征]),例如<time,chance,[任务包中任务特征],[转委托率、任务执行率、经纪人等级、经纪人学历等特征]>,输入数据的标签为label_pred,可以通过经纪人的历史已发生的日志数据计算得到。
之后,将上述输入数据和对应的标签输入到xgboost中训练一个模型,得到训练好的模型即可作为马尔科夫决策模型。
在模型训练好的基础上,可以利用该马尔科夫决策模型进行经纪人的收益预测,具体根据新的经纪人状态输入到模型中,预测出采用当前动作的收益。
其中,根据上述各实施例提供的任务下发方法可选地,所述通过将任务触发的整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,包括:确定所述整体决策时间和决策周期,并基于所述决策周期,将所述整体决策时间离散化,获取离散的时间索引;将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引,获取所述降维后的状态空间;将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量,获取所述降维后的动作集合。
可以理解为,本发明通过确定一个小的时间段t(可认为每隔该时间段决策一次,则该时间段可称为是决策周期)将整体决策时间m进行分割,则整个整体决策时间m将被切分为m/t。例如,假定任务是当天内需完成的任务,且每个经纪人有执行次数约束,则可通过将一天24小时根据一个时间段t小时来进行分割,这样一天将被切分为24/t段。于是按照切分段数在整个整体决策时间m中的排序,构成多个离散的时间索引T
在将连续时间进行离散化的基础上,可以将状态空间和动作集合中具体的时间替换为对应的时间索引T,分别得到降维后的状态空间和降维后的动作集合,实现状态空间和动作集合由不可数到可数的动态转换。
例如,通过历史的会话消息可以统计出一个经纪人每天接受任务的最大次数maxchance,并可通过统计经纪人当天已接受任务数n,计算当前经纪人当天还可接受任务数chance=maxchance-n,从而可通过时间索引T∈[0, 24/t]和当前经纪人可接受任务的次数chance来表示经纪人的状态S。进一步的,可通过经纪人的状态和收益来定义当前收益的更新函数。
其中,根据上述各实施例提供的任务下发方法可选地,基于所述降维后的状态空间和所述降维后的动作集合,确定所述所关联的处理人的所述期望收益函数,包括:
Figure 827489DEST_PATH_IMAGE001
式中,E V(s|u)表示当前状态下收益的期望,V(s|u)表示当前状态的收益,R(s, package|u)表示所关联的处理人u在当前状态s下执行任务包package所获得的收益,
Figure 435056DEST_PATH_IMAGE002
表示下一个状态下的状态值函数,V(s)表示当前状态下的状态值函数,α表示学习步 长,γ表示折扣因子。
具体而言,本发明在定义经纪人收益时,综合考虑经纪人的当前状态收益、经纪人在当前状态下的状态值以及经纪人在当前状态s下执行任务包a(包含一个或多个任务)所获得的期望收益和经纪人在下一个状态下的期望状态值,具体如上式所示。
在上述经纪人收益定义的基础上,可以定义当前收益的更新函数,具体如下:
有任务执行情况下的更新如下:
Figure 845309DEST_PATH_IMAGE015
其中,pred(s, package|u)用于预测经纪人u在状态s下执行任务包a(包含一个或多个任务)所获得的收益(Reward预测):
Figure 880130DEST_PATH_IMAGE016
其中,P(s, package|u)为经纪人对该任务包中任务的平均采纳率,label_pred可以通过历史已发生的日志数据计算得到。
无任务执行情况下的update:
Figure 8623DEST_PATH_IMAGE017
其中,根据上述各实施例提供的任务下发方法可选地,基于所述约束条件,确定所述约束条件下的所述决策目标函数,包括:
决策目标函数:
Figure 419882DEST_PATH_IMAGE018
约束条件:
Figure 74854DEST_PATH_IMAGE019
式中,约束条件
Figure 296888DEST_PATH_IMAGE005
表示每一个所关联 的处理人执行任务的个数不能多于当前剩余执行任务次数,约束条件
Figure 167804DEST_PATH_IMAGE006
表示每一个任务最多只能由一个所关联的处理人来完成,若任务k在 packagei中,则D k,i =1,若任务k不在package i 中,则D k,i =0,约束条件
Figure 602328DEST_PATH_IMAGE007
满足X i,j =0 or 1表 示是否将packagei分配给所关联的处理人jX i,j =0、X i,j =1分别表示不将和将packagei分配 给所关联的处理人j,package i 表示第i个任务包,sizeof(package i )表示package i 的大小,chance j 表示所关联的处理人j当前剩余可执行任务次数,U i,j 表示将packagei分配给所关联 的处理人j之后所获得的收益,Wj表示所关联的处理人j没有任何任务分配的未来期望收 益,其中,
Figure 236440DEST_PATH_IMAGE020
Figure 629375DEST_PATH_IMAGE009
其中,pred(t, chance j , package i |u j )表示将packagei分配给所关联的处理人j之后的当前状态收益,V(t+1, (chance j -sizeof(packagei)) |u j )表示将packagei分配给所关联的处理人j之后的未来期望收益,t表示当前时刻,t+1表示下一时刻,u j 表示所关联的处理人j,·|u j 表示所关联的处理人j可执行的任务次数。
可以理解为,本发明首先可以对决策函数中的一些变量进行定义如下:
X i, j 表示是否将package<i>分配给经纪人j
U i,j 表示将package<i>分配给经纪人j之后所获得的收益,
Figure 716149DEST_PATH_IMAGE021
W j 表示经纪人j没有任何任务分配的未来期望收益,
Figure 485522DEST_PATH_IMAGE009
在此基础上,可以将决策函数的目标函数表示如下:
Obj:
Figure 708562DEST_PATH_IMAGE022
其中,X i,j =1表示将package i 分配给处理人jX i,j =0表示不将package i 分配给处理人j
目标函数的约束条件可表示如下:
s.t. (1)
Figure 272398DEST_PATH_IMAGE023
(2)
Figure 846468DEST_PATH_IMAGE024
其中,D k,i =1,如果任务k在package i 中,D k,i =0,如果任务k不在package i 中;
(3)
Figure 153952DEST_PATH_IMAGE007
满足Xi, j=0 or 1;
其中,X i, j =1,表示将任务包package i 分配给经纪人jX i, j =0表示不将任务包package i 分配给经纪人j。
对于上述约束条件,说明如下:
上述约束条件(1)至(3)之间构成条件与的关系,也即上述约束条件需同时满足。
sizeof ( package i )表示任务包i的大小;
Figure 497078DEST_PATH_IMAGE025
表示每一个经纪人执行任务的个数 不能多于当前剩余执行任务次数;
Figure 231816DEST_PATH_IMAGE006
表示每一个任务最多只能由一个经纪人来完成。
其中,根据上述各实施例提供的任务下发方法可选地,所述利用马尔科夫决策模 型,确定所述待下发任务列表中目标任务将被下发给的目标处理人,包括:通过将约束条件
Figure 168548DEST_PATH_IMAGE007
满足X i, j =0 or 1松弛为
Figure 528991DEST_PATH_IMAGE010
满足0<=X i, j <=1,将所述决策目标函数转换为线性目标 函数,并将所述约束条件转换为线性约束条件;通过分支定界算法,求解所述线性约束条件 下的所述线性目标函数的最优解,以确定所述目标任务将被下发给的所述目标处理人。
可以理解为,本发明采用分支定界(Branch and cut)算法对上述0-1规划问题进行优化,具体在优化求解的过程中,将原问题的上述约束(3)松弛为0<=X i, j <=1,则原问题的目标函数和所有约束条件均为线型函数,转为凸优化问题,通过Branch and Cut对该0/1整数规划问题求得的最终解即是全局最优解,也即确定出最合适的目标经纪人。
基于相同的发明构思,本发明根据上述各实施例提供一种任务下发装置,该装置用于在上述各实施例中实现任务下发。因此,在上述各实施例的任务下发方法中的描述和定义,可以用于本发明中各个执行模块的理解,具体可参考上述方法实施例,此处不在赘述。
根据本发明的一个实施例,任务下发装置的结构如图4所示,为本发明提供的任务下发装置的结构示意图,该装置可以用于实现上述各方法实施例中的任务下发,该装置包括:获取模块401和处理模块402。其中:
获取模块401用于获取目标助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;处理模块402用于以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人;
其中,所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益,并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的。
具体而言,在智能助手应用中,如客源维护助手、房源维护助手、管理助手和营销助手等,每个助手都会有自己的任务列表,该列表中列出了该智能助手将要下发的任务,则该列表可称为是待下发任务列表,该列表中列出的任务可称为是待下发任务。
同时,像客源维护助手、房源维护助手、管理助手和营销助手这些将要下发任务的智能助手可称为是目标智能助手。可以理解的是,目标智能助手的数量可以是一个或者是多个,本发明对此并不作具体限制。
另外,智能助手在触发任务时会提供备选经纪人列表(默认所有任务均需触发),也即对于其待下发任务列表中的每个任务,智能助手还会提供可以执行该任务的经纪人(即备选经纪人)的列表,该列表可称为是备选经纪人列表。该备选经纪人列表中列出了允许接收目标任务的至少一个经纪人,可称为是备选经纪人或所关联的经纪人。
在此基础上,获取模块401可以由目标智能助手中获取其待下发任务列表,其中该获取过程可以是由获取模块401主动获取也可以是被动接收,本发明对此并不作具体限制。并且,在获取待下发任务列表的同时,获取模块401还可以获取到列表中每个待下发任务所关联有备选经纪人列表。
之后,处理模块402根据备选经纪人的状态,对所有的智能助手任务的下发进行统一分配,实现所有任务的统筹分发。如此,通过处理模块402一定的控制策略可以使智能助手任务的下发变得有序。
具体的,设定该场景下处理模块402策略能够决策的变量是任务由谁(经纪人)来着手执行,则以经纪人为粒度定义动态环境,分别定义用户的状态、可执行的动作以及动作收益等,定义马尔科夫决策过程(Markov Decision Processes, MDP)。
再之后,通过建立马尔科夫决策模型,处理模块402对决策过程进行优化求解,确定最终由谁来执行相应的任务,也即将任务下发给谁。也就是说,处理模块402在每个时间分片内会对当前未被分配的任务进行统一分配(t时间片内未被分配的任务会在t+1时间片内继续尝试被分配)。其中被决策的任务即可称为是目标任务,决策结果对应的经纪人即可称为是目标经纪人。
本发明提供的任务下发装置,通过有效定义经纪人的状态和收益来拟合强化学习场景,并通过将连续时间离散化使收益和状态动态的关联起来,能够兼顾经纪人的处理能力,从而能有效提高任务处理效率和可靠性,使得整体收益最大化。
可选地,本发明的任务下发装置,还包括建模模块,用于:
根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数,确定所述所关联的处理人的状态空间,并根据所述待下发任务的被执行情况,确定所述所关联的处理人的动作集合;
通过将任务触发的所述整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,并基于降维后的状态空间和降维后的动作集合,确定所述所关联的处理人的期望收益函数;
根据任务下发的实际应用场景,确定约束条件,并基于所述约束条件,确定所述约束条件下的决策目标函数;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,构建所述马尔科夫决策模型。
可选地,所述建模模块在用于所述构建所述马尔科夫决策模型时,用于:
构建(time, chance, [任务包中任务特征], [处理人属性特征])形式的样本数据,其中,time表示当前时刻,chance表示所述所关联的处理人在所述当前时刻可执行的任务数;
根据所述所关联的处理人历史已发生的日志数据,计算所述样本数据的决策收益,并以所述决策收益作为所述样本数据的标签;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,通过xgboost模型拟合所述所关联的处理人执行任务时的收益情况,构建初始马尔科夫决策模型;
基于所述样本数据和所述标签,训练所述初始马尔科夫决策模型,构建所述马尔科夫决策模型。
可选地,所述建模模块在用于所述通过将任务触发的整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理时,用于:
确定所述整体决策时间和决策周期,并基于所述决策周期,将所述整体决策时间离散化,获取离散的时间索引;
将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引,获取所述降维后的状态空间;
将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量,获取所述降维后的动作集合。
可选地,所述建模模块,用于基于所述降维后的状态空间和所述降维后的动作集合,确定所述所关联的处理人的所述期望收益函数,包括:
Figure 477355DEST_PATH_IMAGE011
式中,E V(s|u)表示当前状态下收益的期望,V(s|u)表示当前状态的收益,R(s, package|u)表示所关联的处理人u在当前状态s下执行任务包package所获得的收益,
Figure 915419DEST_PATH_IMAGE002
表示下一个状态下的状态值函数,V(s)表示当前状态下的状态值函数,α表示学习步 长,γ表示折扣因子。
可选地,所述建模模块,用于基于所述约束条件,确定所述约束条件下的所述决策目标函数,包括:
决策目标函数:
Figure 949234DEST_PATH_IMAGE012
约束条件:
Figure 582210DEST_PATH_IMAGE013
式中,约束条件
Figure 650660DEST_PATH_IMAGE005
表示每一个所关联 的处理人执行任务的个数不能多于当前剩余执行任务次数,约束条件
Figure 976468DEST_PATH_IMAGE006
表示每一个任务最多只能由一个所关联的处理人来完成,若任务k在 packagei中,则D k,i =1,若任务k不在package i 中,则D k,i =0,约束条件
Figure 763158DEST_PATH_IMAGE007
满足 X i,j =0 or 1 表示是否将packagei分配给所关联的处理人jX i,j =0、X i,j =1分别表示不将和将packagei分 配给所关联的处理人j,package i 表示第i个任务包,sizeof(package i )表示package i 的大 小,chance j 表示所关联的处理人j当前剩余可执行任务次数,U i,j 表示将packagei分配给所 关联的处理人j之后所获得的收益,W j 表示所关联的处理人j没有任何任务分配的未来期望 收益,其中,
Figure 199825DEST_PATH_IMAGE008
Figure 122781DEST_PATH_IMAGE009
其中,pred(t, chance j , package i |u j )表示将packagei分配给所关联的处理人j之后的当前状态收益,V(t+1, (chance j -sizeof(packagei)) |u j )表示将packagei分配给所关联的处理人j之后的未来期望收益,t表示当前时刻,t+1表示下一时刻,u j 表示所关联的处理人j,·|u j 表示所关联的处理人j可执行的任务次数。
可选地,所述处理模块在用于所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人时,用于:
通过将约束条件
Figure 619491DEST_PATH_IMAGE007
满足Xi, j=0 or 1松弛为
Figure 893477DEST_PATH_IMAGE010
满足0<=X i, j <=1,将所述决策目 标函数转换为线性目标函数,并将所述约束条件转换为线性约束条件;
通过分支定界算法,求解所述线性约束条件下的所述线性目标函数的最优解,以确定所述目标任务将被下发给的所述目标处理人。
可以理解的是,本发明中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明的任务下发装置利用上述各程序模块,能够实现上述各方法实施例的任务下发流程,在用于实现上述各方法实施例中的任务下发时,本发明的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
作为本发明的又一个方面,本实施例根据上述各实施例提供一种电子设备,该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的程序或指令,该处理器执行该程序或指令时,实现如上述各实施例所述的任务下发方法的步骤。
进一步的,本发明的电子设备还可以包括通信接口和总线。参考图5,为本发明提供的电子设备的实体结构示意图,包括:至少一个存储器501、至少一个处理器502、通信接口503和总线504。
其中,存储器501、处理器502和通信接口503通过总线504完成相互间的通信,通信接口503用于该电子设备与智能助手设备之间的信息传输;存储器501中存储有可在处理器502上运行的程序或指令,处理器502执行该程序或指令时,实现如上述各实施例所述的任务下发方法的步骤。
可以理解为,该电子设备中至少包含存储器501、处理器502、通信接口503和总线504,且存储器501、处理器502和通信接口503通过总线504形成相互间的通信连接,并可完成相互间的通信,如处理器502从存储器501中读取任务下发方法的程序指令等。另外,通信接口503还可以实现该电子设备与智能助手设备之间的通信连接,并可完成相互间信息传输,如通过通信接口503实现待下发任务列表的读取等。
电子设备运行时,处理器502调用存储器501中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取目标智能助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人等。
上述的存储器501中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明还根据上述各实施例提供一种非暂态计算机可读存储介质,其上存储有程序或指令,该程序或指令被计算机执行时,实现如上述各实施例所述的任务下发方法的步骤,例如包括:获取目标智能助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人等。
作为本发明的再一个方面,本实施例根据上述各实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的任务下发方法,该方法包括:获取目标智能助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人。
本发明提供的电子设备、非暂态计算机可读存储介质和计算机程序产品,通过执行上述各实施例所述的任务下发方法的步骤,有效定义经纪人的状态和收益来拟合强化学习场景,并通过将连续时间离散化使收益和状态动态的关联起来,能够兼顾经纪人的处理能力,从而能有效提高任务处理效率和可靠性,使得整体收益最大化。
可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明的说明书中,说明了大量具体细节。然而应当理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种任务下发方法,其特征在于,包括:
获取目标助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;
以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人;
其中,所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益,并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的;
在所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人之前,所述方法还包括:
根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数,确定所述所关联的处理人的状态空间,并根据所述待下发任务的被执行情况,确定所述所关联的处理人的动作集合;
通过将任务触发的所述整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,并基于降维后的状态空间和降维后的动作集合,确定所述所关联的处理人的期望收益函数;
根据任务下发的实际应用场景,确定约束条件,并基于所述约束条件,确定约束条件下的决策目标函数;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,构建所述马尔科夫决策模型;
其中,所述构建所述马尔科夫决策模型,包括:
构建(time, chance, [任务包中任务特征], [处理人属性特征])形式的样本数据,其中,time表示当前时刻,chance表示所述所关联的处理人在所述当前时刻可执行的任务数;
根据所述所关联的处理人历史已发生的日志数据,计算所述样本数据的决策收益,并以所述决策收益作为所述样本数据的标签;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,通过xgboost模型拟合所述所关联的处理人执行任务时的收益情况,构建初始马尔科夫决策模型;
基于所述样本数据和所述标签,训练所述初始马尔科夫决策模型,构建所述马尔科夫决策模型。
2.根据权利要求1所述的任务下发方法,其特征在于,所述通过将任务触发的整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,包括:
确定所述整体决策时间和决策周期,并基于所述决策周期,将所述整体决策时间离散化,获取离散的时间索引;
将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引,获取所述降维后的状态空间;
将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量,获取所述降维后的动作集合。
3.根据权利要求1或2所述的任务下发方法,其特征在于,基于所述降维后的状态空间和所述降维后的动作集合,确定所述所关联的处理人的所述期望收益函数,包括:
Figure 526909DEST_PATH_IMAGE001
式中,E V(s|u)表示当前状态下收益的期望,V(s|u)表示当前状态的收益,R(s, package|u)表示所关联的处理人u在当前状态s下执行任务包package所获得的收益,
Figure 459093DEST_PATH_IMAGE002
表示下 一个状态下的状态值函数,V(s)表示当前状态下的状态值函数,α表示学习步长,γ表示折 扣因子。
4.根据权利要求1所述的任务下发方法,其特征在于,基于所述约束条件,确定所述约束条件下的所述决策目标函数,包括:
决策目标函数:
Figure 6749DEST_PATH_IMAGE003
约束条件:
Figure 707989DEST_PATH_IMAGE004
式中,约束条件
Figure 479636DEST_PATH_IMAGE005
表示每一个所关联的处 理人执行任务的个数不能多于当前剩余执行任务次数,约束条件
Figure 633537DEST_PATH_IMAGE006
表示每一个任务最多只能由一个所关联的处理人来完成,若任务k在package i 中,则D k,i=1, 若任务k不在package i 中,则D k,i =0,约束条件
Figure 984884DEST_PATH_IMAGE007
满足X i, j=0 or 1表示是否将packagei分 配给所关联的处理人jX i,j =0、X i,j =1分别表示不将和将packagei分配给所关联的处理人j, package i 表示第i个任务包,sizeof(package i )表示package i 的大小,chance j 表示所关联的 处理人j当前剩余可执行任务次数,U i,j 表示将packagei分配给所关联的处理人j之后所获 得的收益,W j表示所关联的处理人j没有任何任务分配的未来期望收益,其中,
Figure 337368DEST_PATH_IMAGE008
Figure 981713DEST_PATH_IMAGE009
其中,pred(t, chance j , package i |u j )表示将packagei分配给所关联的处理人j之后的当前状态收益,V(t+1, (chance j -sizeof(packagei)) |u j )表示将packagei分配给所关联的处理人j之后的未来期望收益,t表示当前时刻,t+1表示下一时刻,u j 表示所关联的处理人j,·|u j 表示所关联的处理人j可执行任务的次数。
5.根据权利要求4所述的任务下发方法,其特征在于,所述利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人,包括:
通过将约束条件
Figure 419648DEST_PATH_IMAGE007
满足Xi, j=0 or 1松弛为
Figure 309107DEST_PATH_IMAGE010
满足0<=X i, j <=1,将所述决策目标函 数转换为线性目标函数,并将所述约束条件转换为线性约束条件;
通过分支定界算法,求解所述线性约束条件下的所述线性目标函数的最优解,以确定所述目标任务将被下发给的所述目标处理人。
6.一种任务下发装置,其特征在于,包括:
获取模块,用于获取目标助手的待下发任务列表,所述待下发任务列表中的每个待下发任务均关联有备选处理人列表;
处理模块,用于以所述备选处理人列表所关联的处理人为粒度,确定动态环境,并基于所述动态环境,利用马尔科夫决策模型,确定所述待下发任务列表中目标任务将被下发给的目标处理人;
其中,所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益,并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的;
所述任务下发装置,还包括建模模块,用于:
根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数,确定所述所关联的处理人的状态空间,并根据所述待下发任务的被执行情况,确定所述所关联的处理人的动作集合;
通过将任务触发的所述整体决策时间离散化,对所述状态空间和所述动作集合进行降维处理,并基于降维后的状态空间和降维后的动作集合,确定所述所关联的处理人的期望收益函数;
根据任务下发的实际应用场景,确定约束条件,并基于所述约束条件,确定所述约束条件下的决策目标函数;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,构建所述马尔科夫决策模型;
其中,所述建模模块在用于所述构建所述马尔科夫决策模型时,用于:
构建(time, chance, [任务包中任务特征], [处理人属性特征])形式的样本数据,其中,time表示当前时刻,chance表示所述所关联的处理人在所述当前时刻可执行的任务数;
根据所述所关联的处理人历史已发生的日志数据,计算所述样本数据的决策收益,并以所述决策收益作为所述样本数据的标签;
基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数,通过xgboost模型拟合所述所关联的处理人执行任务时的收益情况,构建初始马尔科夫决策模型;
基于所述样本数据和所述标签,训练所述初始马尔科夫决策模型,构建所述马尔科夫决策模型。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令,其特征在于,所述处理器执行所述程序或指令时,实现如权利要求1至5中任一项所述的任务下发方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被计算机执行时,实现如权利要求1至5中任一项所述的任务下发方法的步骤。
CN202110393193.1A 2021-04-13 2021-04-13 任务下发方法、装置、电子设备及可读存储介质 Active CN112801430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110393193.1A CN112801430B (zh) 2021-04-13 2021-04-13 任务下发方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110393193.1A CN112801430B (zh) 2021-04-13 2021-04-13 任务下发方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112801430A CN112801430A (zh) 2021-05-14
CN112801430B true CN112801430B (zh) 2021-11-12

Family

ID=75816926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110393193.1A Active CN112801430B (zh) 2021-04-13 2021-04-13 任务下发方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112801430B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377655B (zh) * 2021-06-16 2023-06-20 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113255846A (zh) * 2021-07-06 2021-08-13 贝壳找房(北京)科技有限公司 一种房源任务分配方法和介质
CN113627781B (zh) * 2021-08-09 2023-07-25 北京百度网讯科技有限公司 任务信息生成方法、装置、设备、存储介质和程序产品
CN114500561B (zh) * 2022-02-17 2024-02-20 中国电力科学研究院有限公司 电力物联网网络资源分配决策方法、系统、设备及介质
CN114924684A (zh) * 2022-04-24 2022-08-19 南栖仙策(南京)科技有限公司 基于决策流图的环境建模方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979529A (zh) * 2016-06-24 2016-09-28 北京工业大学 LTE-U密集网络中提高容量且保护Wi-Fi公平性的信道接入方法
CN107832882A (zh) * 2017-11-03 2018-03-23 上海交通大学 一种基于马尔科夫决策过程的出租车寻客策略推荐方法
CN108664038A (zh) * 2018-05-14 2018-10-16 中国人民解放军火箭军工程大学 一种多无人机分布式合同竞拍在线任务规划方法
CN109409739A (zh) * 2018-10-19 2019-03-01 南京大学 一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法
CN112596515A (zh) * 2020-11-25 2021-04-02 北京物资学院 一种多物流机器人移动控制方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902347B2 (en) * 2017-04-11 2021-01-26 International Business Machines Corporation Rule creation using MDP and inverse reinforcement learning
CN108521673B (zh) * 2018-04-09 2022-11-01 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN110322169B (zh) * 2019-07-12 2020-11-10 河北冀联人力资源服务集团有限公司 一种任务发布的方法及装置
CN111796934B (zh) * 2020-06-28 2023-11-21 北京小米松果电子有限公司 任务下发方法、装置、存储介质和电子设备
CN111738619B (zh) * 2020-07-06 2023-11-07 腾讯科技(深圳)有限公司 任务调度方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979529A (zh) * 2016-06-24 2016-09-28 北京工业大学 LTE-U密集网络中提高容量且保护Wi-Fi公平性的信道接入方法
CN107832882A (zh) * 2017-11-03 2018-03-23 上海交通大学 一种基于马尔科夫决策过程的出租车寻客策略推荐方法
CN108664038A (zh) * 2018-05-14 2018-10-16 中国人民解放军火箭军工程大学 一种多无人机分布式合同竞拍在线任务规划方法
CN109409739A (zh) * 2018-10-19 2019-03-01 南京大学 一种基于部分可观测马尔科夫决策过程的众包平台任务分配方法
CN112596515A (zh) * 2020-11-25 2021-04-02 北京物资学院 一种多物流机器人移动控制方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Novel Task Provisioning Approach Fusing Reinforcement Learning for Big Data;Yongyi Cheng等;《IEEE Access》;20190923;143699 - 143709 *
基于深度强化学习的空间众包任务分配策略;倪志伟等;《模式识别与人工智能》;20210331;第34卷(第3期);正文第193-197页 *

Also Published As

Publication number Publication date
CN112801430A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112801430B (zh) 任务下发方法、装置、电子设备及可读存储介质
US10699238B2 (en) Cross-domain multi-attribute hashed and weighted dynamic process prioritization
JP2022505434A (ja) 生産スケジューリングのための深層強化学習
Fonseca et al. Integrating matheuristics and metaheuristics for timetabling
Perez et al. A digital twin framework for online optimization of supply chain business processes
Venkataswamy et al. Rare: Renewable energy aware resource management in datacenters
Salamun et al. Evolving scheduling heuristics with genetic programming for optimization of quality of service in weakly hard real-time systems
Alsheddy Empowerment scheduling: a multi-objective optimization approach using guided local search
CN111813524B (zh) 一种任务执行方法、装置、电子设备和存储介质
Kaplansky et al. Distributed personnel scheduling—negotiation among scheduling agents
US11500340B2 (en) Performance evaluation based on resource dynamics
Rzevski et al. Ontology-driven multi-agent engine for real time adaptive scheduling
Wu et al. Knowledge and behavior-driven fruit fly optimization algorithm for field service scheduling problem with customer satisfaction
CN112514352A (zh) 更新调度规则的方法、设备、系统、存储介质和终端
Alrashoud et al. Planning for the next software release using adaptive network-based fuzzy inference system
Soofifard et al. A Mathematical model for selecting the project risk responses in construction projects
Padman et al. Knowledge integration using problem spaces: A study in resource-constrained project scheduling
Guedes et al. Multi-objective evolutionary algorithms and multiagent models for optimizing police dispatch
JP7486507B2 (ja) インベントリの管理および最適化のための強化学習システムおよび強化学習方法
Zato et al. Dynamic model of distribution and organization of activities in multi-agent systems
Roychowdhury Data-Driven Policies for Manufacturing Systems and Cyber Vulnerability Maintenance
Lu et al. A Double Deep Q-Network framework for a flexible job shop scheduling problem with dynamic job arrivals and urgent job insertions
Gul Optimization of surgery delivery systems
Zhang et al. A Maximum Average Weight Matching Algorithm for Collective Tasks Allocation in the Collective Computing System
CA3138937A1 (en) Optimizing reserve crew patterns

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant