CN112801430B

CN112801430B - 任务下发方法、装置、电子设备及可读存储介质

Info

Publication number: CN112801430B
Application number: CN202110393193.1A
Authority: CN
Inventors: 冯伟; 武晓飞; 王文彬
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-11-12
Anticipated expiration: 2041-04-13
Also published as: CN112801430A

Abstract

本发明提供一种任务下发方法、装置、电子设备及可读存储介质，其中方法包括：获取目标助手的待下发任务列表，待下发任务列表中的每个待下发任务均关联有备选处理人列表；以备选处理人列表所关联的处理人为粒度，确定动态环境，并基于动态环境，利用马尔科夫决策模型，确定待下发任务列表中目标任务将被下发给的目标处理人；其中，马尔科夫决策模型为通过确定所关联的处理人的状态空间和收益，并通过将整体决策时间离散化来拟合强化学习场景获取的。本发明通过有效定义处理人的状态和收益来拟合强化学习场景，并通过将连续时间离散化使收益和状态动态的关联起来，能够兼顾处理人的处理能力，从而有效提高任务处理效率和可靠性，最大化整体收益。

Description

任务下发方法、装置、电子设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种任务下发方法、装置、电子设备及可读存储介质。

背景技术

目前，在给经纪人下发任务时都是孤立下发的。例如，不同的助手在给经纪人下发任务时，都是相互独立的向经纪人下发。

但是，采用上述处理方式下发任务时，可能出现多个助手都将任务下发到同一个经纪人，甚至在同一时间将任务下发给同一个经纪人的情况。然而，经纪人的精力往往有限，且通常无法同时处理多个任务，这将影响到任务的处理效率，且更容易出现错误，可靠性降低。

发明内容

本发明提供一种任务下发方法、装置、电子设备及可读存储介质，用以解决现有技术存在的任务处理效率低、易出错且可靠性不高等问题的缺陷，实现有效提高任务处理效率和可靠性的目标。

本发明提供一种任务下发方法，包括：

获取目标助手的待下发任务列表，所述待下发任务列表中的每个待下发任务均关联有备选处理人列表；

以所述备选处理人列表所关联的处理人为粒度，确定动态环境，并基于所述动态环境，利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人；

其中，所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益，并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的。

根据本发明一个实施例的任务下发方法，在所述利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人之前，还包括：

根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数，确定所述所关联的处理人的状态空间，并根据所述待下发任务的被执行情况，确定所述所关联的处理人的动作集合；

通过将任务触发的所述整体决策时间离散化，对所述状态空间和所述动作集合进行降维处理，并基于降维后的状态空间和降维后的动作集合，确定所述所关联的处理人的期望收益函数；

根据任务下发的实际应用场景，确定约束条件，并基于所述约束条件，确定约束条件下的决策目标函数；

基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数，构建所述马尔科夫决策模型。

根据本发明一个实施例的任务下发方法，所述构建所述马尔科夫决策模型，包括：

构建（time, chance, [任务包中任务特征], [处理人属性特征]）形式的样本数据，其中，time表示当前时刻，chance表示所述所关联的处理人在所述当前时刻可执行的任务数；

根据所述所关联的处理人历史已发生的日志数据，计算所述样本数据的决策收益，并以所述决策收益作为所述样本数据的标签；

基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数，通过xgboost模型拟合所述所关联的处理人执行任务时的收益情况，构建初始马尔科夫决策模型；

基于所述样本数据和所述标签，训练所述初始马尔科夫决策模型，构建所述马尔科夫决策模型。

根据本发明一个实施例的任务下发方法，所述通过将任务触发的整体决策时间离散化，对所述状态空间和所述动作集合进行降维处理，包括：

确定所述整体决策时间和决策周期，并基于所述决策周期，将所述整体决策时间离散化，获取离散的时间索引；

将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引，获取所述降维后的状态空间；

将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量，获取所述降维后的动作集合。

根据本发明一个实施例的任务下发方法，基于所述降维后的状态空间和所述降维后的动作集合，确定所述所关联的处理人的所述期望收益函数，包括：

；

式中，E _V(s|u)表示当前状态下收益的期望，V(s|u)表示当前状态的收益，R(s, package|u)表示所关联的处理人u在当前状态s下执行任务包package所获得的收益，

表示下一个状态下的状态值函数，V(s)表示当前状态下的状态值函数，α表示学习步长，γ表示折扣因子。

根据本发明一个实施例的任务下发方法，基于所述约束条件，确定所述约束条件下的所述决策目标函数，包括：

决策目标函数：

约束条件：

式中，约束条件

表示每一个所关联的处理人执行任务的个数不能多于当前剩余执行任务次数，约束条件

表示每一个任务最多只能由一个所关联的处理人来完成，若任务k在 package_i中，则D_k,i=1，若任务k不在package_i中，则D _k,i=0，约束条件

满足X_{i, j}=0 or 1表示是否将package_i分配给所关联的处理人j，X _i,j=0、X _i,j=1分别表示不将和将package_i分配给所关联的处理人j，package_i表示第i个任务包，sizeof(package_i)表示package_i的大小，chance _j表示所关联的处理人j当前剩余可执行任务次数，U _i,j表示将package_i分配给所关联的处理人j之后所获得的收益，W _j表示所关联的处理人j没有任何任务分配的未来期望收益，其中，

；

其中，pred(t, chance _j, package_i|u _j)表示将package_i分配给所关联的处理人j之后的当前状态收益，V(t+1, (chance _j-sizeof(package_i)) |u _j)表示将package_i分配给所关联的处理人j之后的未来期望收益，t表示当前时刻，t+1表示下一时刻，u _j表示所关联的处理人j，·|u _j表示所关联的处理人j可执行的任务次数。

根据本发明一个实施例的任务下发方法，所述利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人，包括：

通过将约束条件

满足X_{i, j}=0 or 1松弛为

满足0<=X_{i, j}<=1，将所述决策目标函数转换为线性目标函数，并将所述约束条件转换为线性约束条件；

通过分支定界算法，求解所述线性约束条件下的所述线性目标函数的最优解，以确定所述目标任务将被下发给的所述目标处理人。

本发明还提供一种任务下发装置，包括：

获取模块，用于获取目标助手的待下发任务列表，所述待下发任务列表中的每个待下发任务均关联有备选处理人列表；

处理模块，用于以所述备选处理人列表所关联的处理人为粒度，确定动态环境，并基于所述动态环境，利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人；

根据本发明一个实施例的任务下发装置，还包括建模模块，用于：

根据本发明一个实施例的任务下发装置，所述建模模块在用于所述构建所述马尔科夫决策模型时，用于：

根据本发明一个实施例的任务下发装置，所述建模模块在用于所述通过将任务触发的整体决策时间离散化，对所述状态空间和所述动作集合进行降维处理时，用于：

根据本发明一个实施例的任务下发装置，所述建模模块，用于基于所述降维后的状态空间和所述降维后的动作集合，确定所述所关联的处理人的所述期望收益函数，包括：

；

根据本发明一个实施例的任务下发装置，所述建模模块，用于基于所述约束条件，确定所述约束条件下的所述决策目标函数，包括：

决策目标函数：

约束条件：

式中，约束条件

表示每一个任务最多只能由一个所关联的处理人来完成，若任务k在 package_i中，则D _k,i=1，若任务k不在package_i中，则D _k,i=0，约束条件

满足X _{i, j}=0 or 1表示是否将package_i分配给所关联的处理人j，X _i,j=0、X _i,j=1分别表示不将和将package_i分配给所关联的处理人j，package_i表示第i个任务包，sizeof(package_i)表示package_i的大小，chance _j表示所关联的处理人j当前剩余可执行任务次数，U _i,j表示将package_i分配给所关联的处理人j之后所获得的收益，W _j表示所关联的处理人j没有任何任务分配的未来期望收益，其中，

；

根据本发明一个实施例的任务下发装置，所述处理模块在用于所述利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人时，用于：

通过将约束条件

满足 X _i,j =0 or 1松弛为

满足0<= X _i,j <=1，将所述决策目标函数转换为线性目标函数，并将所述约束条件转换为线性约束条件；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述处理器执行所述程序或指令时，实现如上述任一种所述的任务下发方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有程序或指令，所述程序或指令被计算机执行时，实现如上述任一种所述的任务下发方法的步骤。

本发明提供的任务下发方法、装置、电子设备及可读存储介质，通过有效定义处理人的状态和收益来拟合强化学习场景，并通过将连续时间离散化使收益和状态动态的关联起来，能够兼顾处理人的处理能力，从而能有效提高任务处理效率和可靠性，使得整体收益最大化。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的任务下发方法的流程示意图之一；

图2为本发明提供的任务下发方法的流程示意图之二；

图3为根据本发明提供的任务下发方法中构建马尔科夫决策模型的流程示意图；

图4为本发明提供的任务下发装置的结构示意图；

图5为本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对现有技术任务处理效率低、易出错且可靠性不高等的问题，通过有效定义经纪人的状态和收益来拟合强化学习场景，并通过将连续时间离散化使收益和状态动态的关联起来，能够兼顾经纪人的处理能力，从而能有效提高任务处理效率和可靠性，使得整体收益最大化。

具体的，本发明主要通过有效定义任务处理人的状态和收益来拟合强化学习场景，并通过将连续时间离散化使收益和状态动态的关联起来，构建一个中间第三方系统，然后将所有的目标助手的任务的下发都交给这个第三方系统来统一的分配。其中，目标助手是需要下发待处理任务的助手。

例如，在房产领域，将客源维护助手、房源维护助手、管理助手等助手待下发的任务都集中到上述第三方系统，并由该第三方系统在当前场景下决策待下发的目标任务最终由哪个房产经纪人来着手执行。则其中客源维护助手、房源维护助手、管理助手等助手即是目标助手，房产经纪人即是任务处理人。为叙述方便，以下均以处理人为经纪人为例，对本发明技术方案进行展开说明，但不对本发明要求保护的范围进行限制。以下将结合附图，具体通过多个实施例对本发明进行展开说明和介绍。

图1为本发明提供的任务下发方法的流程示意图之一，如图1所示，该方法包括：

S101，获取目标助手的待下发任务列表。

其中，所述待下发任务列表中的每个待下发任务均关联有备选处理人列表。

可以理解为，在智能助手应用中，根据业务需求可以设置多个目标类别的助手，如客源维护助手、房源维护助手、管理助手和营销助手等，每个助手都会有自己的任务列表，该列表中列出了该智能助手将要下发的任务，则该列表可称为是待下发任务列表，该列表中列出的任务可称为是待下发任务。同时，客源维护助手、房源维护助手、管理助手和营销助手等将要下发任务的智能助手可称为是目标智能助手。

可以理解的是，本发明中所述助手也可称为是智能助手，主要是面向消费者用户的产品，如可以是用户终端的同步管理工具，或是带有同步管理工具的终端本身，如智能语音助手、任务管理助手、导航机器人等。目标智能助手的数量可以是一个或者是多个，本发明对此并不作具体限制。

另外，智能助手在触发任务时会提供备选经纪人列表（默认所有任务均需触发），也即对于其待下发任务列表中的每个任务，智能助手还会提供可以执行该任务的经纪人（即备选经纪人）的列表，该列表可称为是备选经纪人列表。该备选经纪人列表中列出了允许接收目标任务的至少一个经纪人，可称为是备选经纪人或所关联的经纪人。

在此基础上，可如图2所示，为本发明提供的任务下发方法的流程示意图之二，本发明的决策操作可由第三方大中控系统完成，于是大中控系统可以由目标智能助手中获取其待下发任务列表，其中该获取过程可以是由大中控系统主动获取也可以是被动接收，本发明对此并不作具体限制。并且，在获取待下发任务列表的同时，还可以获取到列表中每个待下发任务所关联有备选经纪人列表。

S102，以所述备选处理人列表所关联的处理人为粒度，确定动态环境，并基于所述动态环境，利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人。

可以理解为，在获取到待下发任务列表的基础上，大中控根据备选经纪人的状态，对所有的智能助手任务的下发进行统一分配，实现所有任务的统筹分发。如此，通过大中控一定的控制策略可以使智能助手任务的下发变得有序。

具体的，设定该场景下大中控策略能够决策的变量是任务由谁(经纪人)来着手执行，则以经纪人为粒度定义动态环境，分别定义用户的状态、可执行的动作以及动作收益等，定义马尔科夫决策过程（Markov Decision Processes, MDP）。具体可如表1所示，为根据本发明的马尔科夫决策过程元素定义表，表中示出了各MDP元素的实现和符号释义。

表1，为根据本发明的马尔科夫决策过程元素定义表

在定义上述马尔科夫决策过程的基础上通过建立马尔科夫决策模型，进行优化求解，确定最终由谁来执行相应的任务，也即将任务下发给谁。也就是说，大中控在每个时间分片内会对当前未被分配的任务进行统一分配（t时间片内未被分配的任务会在t+1时间片内继续尝试被分配）。其中被决策的任务即可称为是目标任务，决策结果对应的经纪人即可称为是目标经纪人。

本发明提供的任务下发方法，通过有效定义经纪人的状态和收益来拟合强化学习场景，并通过将连续时间离散化使收益和状态动态的关联起来，能够兼顾经纪人的处理能力，从而能有效提高任务处理效率和可靠性，使得整体收益最大化。

其中，根据上述各实施例提供的任务下发方法可选地，如图3所示，为根据本发明提供的任务下发方法中构建马尔科夫决策模型的流程示意图，在所述利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人之前，还包括：

S301，根据当前时刻和所述所关联的处理人在所述当前时刻可执行的任务数，确定所述所关联的处理人的状态空间，并根据所述待下发任务的被执行情况，确定所述所关联的处理人的动作集合。

可以理解为，根据实际应用场景，可以通过时间和当前经纪人接受任务的次数chance来表示经纪人的当前状态，具体可表示为：

S _u=(T, chance _u)；

其中，S _u表示经纪人u的状态，经纪人状态用T和chance_u来表示，T表示当前时刻，chance_u表示经纪人u当前还可以执行的任务数。

则所有时间下经纪人的状态的集合则构成经纪人的状态空间。

此外，根据任务的被执行情况，经纪人状态的转移可表示为：

当前状态：S _u(t)=(t, chance _u)；

任务包被执行时经纪人的下一状态：

S _u(t+1)=(t+1, chance _u-sizeof (package) )；

任务包不执行时经纪人的下一状态：

S _u(t+1)=(t+1, chance _u )。

其中，任务包package表示一个或者多个任务集合在一起形成的任务包，其中一个任务可以在多个任务包中出现，并且每个任务包可以有一个或多个待分配候选经纪人，每个候选经纪人均具备执行对应package里所有任务的权限，但每个任务最终只能分配给一个经纪人来完成，package的构建是由大中控通过排列组合实现。

同时，可以经纪人要执行的任务（一个或多个任务），定义马尔科夫决策过程的动作Action。则所有时间下动作的集合则构成经纪人的动作集合。

应理解的是，由于任务是按照时间的先后顺序依次到达，而且目前暂无法得出对于相同经纪人任务与任务之间相互独立的结论，故优先考虑使用强化学习来执行序列决策任务。同时，根据大中控业务场景，可做不失一般性的假设，各个执行任务的经纪人之间相互独立，从而进一步简化状态空间及动作空间。

S302，通过将任务触发的所述整体决策时间离散化，对所述状态空间和所述动作集合进行降维处理，并基于降维后的状态空间和降维后的动作集合，确定所述所关联的处理人的期望收益函数。

可以理解为，在上述步骤定义的基础上，由于任务触发时间原本属于连续时间，这样会使状态空间及动作空间变为不可数，加大模型建模及优化难度，故将时间进行离散化（以t分钟为间隔，相当于每t分钟整体决策一次）处理，在此基础上，将经纪人的收益表示为与经纪人的状态和所采取动作相关的函数，构成经纪人的期望收益函数。

S303，根据任务下发的实际应用场景，确定约束条件，并基于所述约束条件，确定约束条件下的决策目标函数。

可以理解为，在上述步骤定义的基础上，本发明对决策的优化目标和优化目标的约束条件进行定义和限定。具体而言，根据待下发任务的被执行情况，确定任务的整体期望收益，并以最大化任务的整体收益价值作为优化目标。之后，确定优化目标需满足的约束条件，具体根据应用场景的实际需求和限制，建立决策目标函数中各变量和参数间的约束关系，构成所述约束条件。

例如，根据经纪人的实际处理能力，需要限制每个经纪人有每天的任务最高限额，以保障任务被下发给相应经纪人时能够被顺利执行并完成。又如，为避免同一个任务被重复执行造成资源浪费，需要限制每个任务只能分配给一个经纪人。

S304，基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数，构建所述马尔科夫决策模型。

最后，本发明在上述马尔科夫决策过程元素定义的基础上，可以构成符合实际决策应用过程的马尔科夫决策模型。

其中，根据上述各实施例提供的任务下发方法可选地，所述构建所述马尔科夫决策模型，包括：构建（time, chance, [任务包中任务特征], [处理人属性特征]）形式的样本数据，其中，time表示当前时刻，chance表示所述所关联的处理人在所述当前时刻可执行的任务数；根据所述所关联的处理人历史已发生的日志数据，计算所述样本数据的决策收益，并以所述决策收益作为所述样本数据的标签；基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数，通过xgboost模型拟合处理人执行任务时的收益情况，构建初始马尔科夫决策模型；基于所述样本数据和所述标签，训练所述初始马尔科夫决策模型，构建所述马尔科夫决策模型。

可以理解为，本发明首先确定拟合方法为：通过xgboost模型来拟合经纪人执行任务时的收益情况；模型的输入数据为：（time, chance, [任务包中任务特征], [经纪人属性特征]），例如<time,chance,[任务包中任务特征],[转委托率、任务执行率、经纪人等级、经纪人学历等特征]>，输入数据的标签为label_pred，可以通过经纪人的历史已发生的日志数据计算得到。

之后，将上述输入数据和对应的标签输入到xgboost中训练一个模型，得到训练好的模型即可作为马尔科夫决策模型。

在模型训练好的基础上，可以利用该马尔科夫决策模型进行经纪人的收益预测，具体根据新的经纪人状态输入到模型中，预测出采用当前动作的收益。

其中，根据上述各实施例提供的任务下发方法可选地，所述通过将任务触发的整体决策时间离散化，对所述状态空间和所述动作集合进行降维处理，包括：确定所述整体决策时间和决策周期，并基于所述决策周期，将所述整体决策时间离散化，获取离散的时间索引；将所述状态空间中状态变量中的所述当前时刻替换为对应的所述时间索引，获取所述降维后的状态空间；将所述动作集合中所述当前时刻对应的动作变量替换为对应的所述时间索引对应的动作变量，获取所述降维后的动作集合。

可以理解为，本发明通过确定一个小的时间段t（可认为每隔该时间段决策一次，则该时间段可称为是决策周期）将整体决策时间m进行分割，则整个整体决策时间m将被切分为m/t。例如，假定任务是当天内需完成的任务，且每个经纪人有执行次数约束，则可通过将一天24小时根据一个时间段t小时来进行分割，这样一天将被切分为24/t段。于是按照切分段数在整个整体决策时间m中的排序，构成多个离散的时间索引T。

在将连续时间进行离散化的基础上，可以将状态空间和动作集合中具体的时间替换为对应的时间索引T，分别得到降维后的状态空间和降维后的动作集合，实现状态空间和动作集合由不可数到可数的动态转换。

例如，通过历史的会话消息可以统计出一个经纪人每天接受任务的最大次数maxchance，并可通过统计经纪人当天已接受任务数n，计算当前经纪人当天还可接受任务数chance=maxchance-n，从而可通过时间索引T∈[0, 24/t]和当前经纪人可接受任务的次数chance来表示经纪人的状态S。进一步的，可通过经纪人的状态和收益来定义当前收益的更新函数。

其中，根据上述各实施例提供的任务下发方法可选地，基于所述降维后的状态空间和所述降维后的动作集合，确定所述所关联的处理人的所述期望收益函数，包括：

；

具体而言，本发明在定义经纪人收益时，综合考虑经纪人的当前状态收益、经纪人在当前状态下的状态值以及经纪人在当前状态s下执行任务包a（包含一个或多个任务）所获得的期望收益和经纪人在下一个状态下的期望状态值，具体如上式所示。

在上述经纪人收益定义的基础上，可以定义当前收益的更新函数，具体如下：

有任务执行情况下的更新如下：

其中，pred(s, package|u)用于预测经纪人u在状态s下执行任务包a（包含一个或多个任务）所获得的收益（Reward预测）：

其中，P(s, package|u)为经纪人对该任务包中任务的平均采纳率，label_pred可以通过历史已发生的日志数据计算得到。

无任务执行情况下的update：

。

其中，根据上述各实施例提供的任务下发方法可选地，基于所述约束条件，确定所述约束条件下的所述决策目标函数，包括：

决策目标函数：

约束条件：

式中，约束条件

满足X _i,j=0 or 1表示是否将package_i分配给所关联的处理人j，X _i,j=0、X _i,j=1分别表示不将和将package_i分配给所关联的处理人j，package_i表示第i个任务包，sizeof(package_i)表示package_i的大小，chance _j表示所关联的处理人j当前剩余可执行任务次数，U _i,j表示将package_i分配给所关联的处理人j之后所获得的收益，W_j表示所关联的处理人j没有任何任务分配的未来期望收益，其中，

；

可以理解为，本发明首先可以对决策函数中的一些变量进行定义如下：

X _{i, j}表示是否将package<i>分配给经纪人j；

U _i,j表示将package<i>分配给经纪人j之后所获得的收益，

W _j表示经纪人j没有任何任务分配的未来期望收益，

。

在此基础上，可以将决策函数的目标函数表示如下：

Obj:

其中，X _i,j=1表示将package_i分配给处理人j，X _i,j=0表示不将package_i分配给处理人j。

目标函数的约束条件可表示如下：

s.t. (1)

(2)

其中，D _k,i=1，如果任务k在package_i中，D _k,i=0，如果任务k不在package_i中；

(3)

满足X_{i, j}=0 or 1；

其中，X _{i, j}=1，表示将任务包package_i分配给经纪人j，X _{i, j}=0表示不将任务包package_i分配给经纪人j。

对于上述约束条件，说明如下：

上述约束条件(1)至(3)之间构成条件与的关系，也即上述约束条件需同时满足。

sizeof ( package _i)表示任务包i的大小；

表示每一个经纪人执行任务的个数不能多于当前剩余执行任务次数；

表示每一个任务最多只能由一个经纪人来完成。

其中，根据上述各实施例提供的任务下发方法可选地，所述利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人，包括：通过将约束条件

满足X _{i, j}=0 or 1松弛为

满足0<=X _{i, j}<=1，将所述决策目标函数转换为线性目标函数，并将所述约束条件转换为线性约束条件；通过分支定界算法，求解所述线性约束条件下的所述线性目标函数的最优解，以确定所述目标任务将被下发给的所述目标处理人。

可以理解为，本发明采用分支定界（Branch and cut）算法对上述0-1规划问题进行优化，具体在优化求解的过程中，将原问题的上述约束(3)松弛为0<=X_{i, j}<=1，则原问题的目标函数和所有约束条件均为线型函数，转为凸优化问题，通过Branch and Cut对该0/1整数规划问题求得的最终解即是全局最优解，也即确定出最合适的目标经纪人。

基于相同的发明构思，本发明根据上述各实施例提供一种任务下发装置，该装置用于在上述各实施例中实现任务下发。因此，在上述各实施例的任务下发方法中的描述和定义，可以用于本发明中各个执行模块的理解，具体可参考上述方法实施例，此处不在赘述。

根据本发明的一个实施例，任务下发装置的结构如图4所示，为本发明提供的任务下发装置的结构示意图，该装置可以用于实现上述各方法实施例中的任务下发，该装置包括：获取模块401和处理模块402。其中：

获取模块401用于获取目标助手的待下发任务列表，所述待下发任务列表中的每个待下发任务均关联有备选处理人列表；处理模块402用于以所述备选处理人列表所关联的处理人为粒度，确定动态环境，并基于所述动态环境，利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人；

具体而言，在智能助手应用中，如客源维护助手、房源维护助手、管理助手和营销助手等，每个助手都会有自己的任务列表，该列表中列出了该智能助手将要下发的任务，则该列表可称为是待下发任务列表，该列表中列出的任务可称为是待下发任务。

同时，像客源维护助手、房源维护助手、管理助手和营销助手这些将要下发任务的智能助手可称为是目标智能助手。可以理解的是，目标智能助手的数量可以是一个或者是多个，本发明对此并不作具体限制。

在此基础上，获取模块401可以由目标智能助手中获取其待下发任务列表，其中该获取过程可以是由获取模块401主动获取也可以是被动接收，本发明对此并不作具体限制。并且，在获取待下发任务列表的同时，获取模块401还可以获取到列表中每个待下发任务所关联有备选经纪人列表。

之后，处理模块402根据备选经纪人的状态，对所有的智能助手任务的下发进行统一分配，实现所有任务的统筹分发。如此，通过处理模块402一定的控制策略可以使智能助手任务的下发变得有序。

具体的，设定该场景下处理模块402策略能够决策的变量是任务由谁(经纪人)来着手执行，则以经纪人为粒度定义动态环境，分别定义用户的状态、可执行的动作以及动作收益等，定义马尔科夫决策过程（Markov Decision Processes, MDP）。

再之后，通过建立马尔科夫决策模型，处理模块402对决策过程进行优化求解，确定最终由谁来执行相应的任务，也即将任务下发给谁。也就是说，处理模块402在每个时间分片内会对当前未被分配的任务进行统一分配（t时间片内未被分配的任务会在t+1时间片内继续尝试被分配）。其中被决策的任务即可称为是目标任务，决策结果对应的经纪人即可称为是目标经纪人。

本发明提供的任务下发装置，通过有效定义经纪人的状态和收益来拟合强化学习场景，并通过将连续时间离散化使收益和状态动态的关联起来，能够兼顾经纪人的处理能力，从而能有效提高任务处理效率和可靠性，使得整体收益最大化。

可选地，本发明的任务下发装置，还包括建模模块，用于：

根据任务下发的实际应用场景，确定约束条件，并基于所述约束条件，确定所述约束条件下的决策目标函数；

可选地，所述建模模块在用于所述构建所述马尔科夫决策模型时，用于：

可选地，所述建模模块在用于所述通过将任务触发的整体决策时间离散化，对所述状态空间和所述动作集合进行降维处理时，用于：

可选地，所述建模模块，用于基于所述降维后的状态空间和所述降维后的动作集合，确定所述所关联的处理人的所述期望收益函数，包括：

；

可选地，所述建模模块，用于基于所述约束条件，确定所述约束条件下的所述决策目标函数，包括：

决策目标函数：

约束条件：

式中，约束条件

满足 X _i,j =0 or 1 表示是否将package_i分配给所关联的处理人j，X _i,j=0、X _i,j=1分别表示不将和将package_i分配给所关联的处理人j，package_i表示第i个任务包，sizeof(package_i)表示package_i的大小，chance _j表示所关联的处理人j当前剩余可执行任务次数，U _i,j表示将package_i分配给所关联的处理人j之后所获得的收益，W _j表示所关联的处理人j没有任何任务分配的未来期望收益，其中，

；

可选地，所述处理模块在用于所述利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人时，用于：

通过将约束条件

满足X_{i, j}=0 or 1松弛为

可以理解的是，本发明中可以通过硬件处理器（hardware processor）来实现上述各实施例的装置中的各相关程序模块。并且，本发明的任务下发装置利用上述各程序模块，能够实现上述各方法实施例的任务下发流程，在用于实现上述各方法实施例中的任务下发时，本发明的装置产生的有益效果与对应的上述各方法实施例相同，可以参考上述各方法实施例，此处不再赘述。

作为本发明的又一个方面，本实施例根据上述各实施例提供一种电子设备，该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的程序或指令，该处理器执行该程序或指令时，实现如上述各实施例所述的任务下发方法的步骤。

进一步的，本发明的电子设备还可以包括通信接口和总线。参考图5，为本发明提供的电子设备的实体结构示意图，包括：至少一个存储器501、至少一个处理器502、通信接口503和总线504。

其中，存储器501、处理器502和通信接口503通过总线504完成相互间的通信，通信接口503用于该电子设备与智能助手设备之间的信息传输；存储器501中存储有可在处理器502上运行的程序或指令，处理器502执行该程序或指令时，实现如上述各实施例所述的任务下发方法的步骤。

可以理解为，该电子设备中至少包含存储器501、处理器502、通信接口503和总线504，且存储器501、处理器502和通信接口503通过总线504形成相互间的通信连接，并可完成相互间的通信，如处理器502从存储器501中读取任务下发方法的程序指令等。另外，通信接口503还可以实现该电子设备与智能助手设备之间的通信连接，并可完成相互间信息传输，如通过通信接口503实现待下发任务列表的读取等。

电子设备运行时，处理器502调用存储器501中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取目标智能助手的待下发任务列表，所述待下发任务列表中的每个待下发任务均关联有备选处理人列表；以所述备选处理人列表所关联的处理人为粒度，确定动态环境，并基于所述动态环境，利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人等。

上述的存储器501中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。或者，实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（RandomAccess Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还根据上述各实施例提供一种非暂态计算机可读存储介质，其上存储有程序或指令，该程序或指令被计算机执行时，实现如上述各实施例所述的任务下发方法的步骤，例如包括：获取目标智能助手的待下发任务列表，所述待下发任务列表中的每个待下发任务均关联有备选处理人列表；以所述备选处理人列表所关联的处理人为粒度，确定动态环境，并基于所述动态环境，利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人等。

作为本发明的再一个方面，本实施例根据上述各实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的任务下发方法，该方法包括：获取目标智能助手的待下发任务列表，所述待下发任务列表中的每个待下发任务均关联有备选处理人列表；以所述备选处理人列表所关联的处理人为粒度，确定动态环境，并基于所述动态环境，利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人。

本发明提供的电子设备、非暂态计算机可读存储介质和计算机程序产品，通过执行上述各实施例所述的任务下发方法的步骤，有效定义经纪人的状态和收益来拟合强化学习场景，并通过将连续时间离散化使收益和状态动态的关联起来，能够兼顾经纪人的处理能力，从而能有效提高任务处理效率和可靠性，使得整体收益最大化。

可以理解的是，以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解，各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令，用以使得一台计算机设备（如个人计算机，服务器，或者网络设备等）执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外，本领域内的技术人员应当理解的是，在本发明的申请文件中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而应当理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种任务下发方法，其特征在于，包括：

其中，所述马尔科夫决策模型为通过确定所述所关联的处理人的状态空间和收益，并通过将任务触发的整体决策时间离散化来拟合强化学习场景获取的；

在所述利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人之前，所述方法还包括：

基于所述降维后的状态空间、所述降维后的动作集合、所述期望收益函数和所述决策目标函数，构建所述马尔科夫决策模型；

其中，所述构建所述马尔科夫决策模型，包括：

2.根据权利要求1所述的任务下发方法，其特征在于，所述通过将任务触发的整体决策时间离散化，对所述状态空间和所述动作集合进行降维处理，包括：

3.根据权利要求1或2所述的任务下发方法，其特征在于，基于所述降维后的状态空间和所述降维后的动作集合，确定所述所关联的处理人的所述期望收益函数，包括：

；

4.根据权利要求1所述的任务下发方法，其特征在于，基于所述约束条件，确定所述约束条件下的所述决策目标函数，包括：

决策目标函数：

约束条件：

式中，约束条件

表示每一个任务最多只能由一个所关联的处理人来完成，若任务k在package_i中，则D _k,i=1，若任务k不在package_i中，则D _k,i=0，约束条件

满足X _{i, j}=0 or 1表示是否将package_i分配给所关联的处理人j，X _i,j=0、X _i,j=1分别表示不将和将package_i分配给所关联的处理人j， package_i表示第i个任务包，sizeof(package_i)表示package_i的大小，chance _j表示所关联的处理人j当前剩余可执行任务次数，U _i,j表示将package_i分配给所关联的处理人j之后所获得的收益，W _j表示所关联的处理人j没有任何任务分配的未来期望收益，其中，

；

其中，pred(t, chance _j, package_i|u _j)表示将package_i分配给所关联的处理人j之后的当前状态收益，V(t+1, (chance _j-sizeof(package_i)) |u _j)表示将package_i分配给所关联的处理人j之后的未来期望收益，t表示当前时刻，t+1表示下一时刻，u _j表示所关联的处理人j，·|u _j表示所关联的处理人j可执行任务的次数。

5.根据权利要求4所述的任务下发方法，其特征在于，所述利用马尔科夫决策模型，确定所述待下发任务列表中目标任务将被下发给的目标处理人，包括：

通过将约束条件

满足X_{i, j}=0 or 1松弛为

6.一种任务下发装置，其特征在于，包括：

所述任务下发装置，还包括建模模块，用于：

其中，所述建模模块在用于所述构建所述马尔科夫决策模型时，用于：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令，其特征在于，所述处理器执行所述程序或指令时，实现如权利要求1至5中任一项所述的任务下发方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被计算机执行时，实现如权利要求1至5中任一项所述的任务下发方法的步骤。