CN114004504A

CN114004504A - 学习任务的调度方法和装置、电子设备和存储介质

Info

Publication number: CN114004504A
Application number: CN202111291215.XA
Authority: CN
Inventors: 卢新洁; 冯伟
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-01

Abstract

本公开实施例公开了一种学习任务的调度方法和装置、电子设备和存储介质，其中，方法包括：获取学习对象的当前状态信息；基于学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务；学习任务生成器是基于收益最大化进行优化学习获得的；将目标学习任务下发给学习对象。本公开通过基于收益最大化学习获得的学习任务生成器实现根据学习对象的当前状态的任务分配，实现了学习任务的合理分配，有效提高学习收益，减少时间和资源的浪费。

Description

学习任务的调度方法和装置、电子设备和存储介质

技术领域

本公开涉及计算机技术，尤其是一种学习任务的调度方法和装置、电子设备和存储介质。

背景技术

在很多领域中，工作人员需要不断学习来提升自己的能力以便更好地满足用户的需求。例如，在房产领域中，房产经纪人需要学习各种楼盘的相关知识，以便于更好地为用户解答问题，但是学习需要占用时间和资源，现有技术中通常是按时间周期下发培训任务，但是未考虑不同房产经纪人的状态，容易导致任务分配不合理，收益较低，造成时间和资源的浪费。

发明内容

本公开实施例提供一种方法和装置、电子设备和存储介质，以解决现有技术任务分配不合理导致收益较低、时间和资源浪费等问题。

本公开实施例的一个方面，提供一种学习任务的调度方法，包括：获取学习对象的当前状态信息；基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务；所述学习任务生成器是基于收益最大化进行优化学习获得的；将所述目标学习任务下发给所述学习对象。

在本公开一实施方式中，所述当前状态信息包括学习对象的个人状态信息及所述学习对象所关联的用户状态信息；在将所述目标学习任务下发给所述学习对象之后，所述方法还包括：基于所述学习对象对所述目标学习任务的执行情况，确定所述学习对象的目标收益；基于所述目标收益更新所述学习对象的所述当前状态信息中的个人状态信息；获取所述学习对象所关联的用户的新状态信息；将所述学习对象的更新后的个人状态信息与所关联用户的新状态信息作为所述学习对象的更新后的状态信息，以基于更新后的状态信息为所述学习对象调度下一学习任务。

在本公开一实施方式中，在基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务之前，所述方法还包括：在训练过程中，获取训练学习对象在当前迭代步的当前训练状态信息；将所述当前训练状态信息输入到与所述学习任务生成器对应的、预先建立的学习任务生成网络，在预设约束条件下，生成所述训练学习对象需要学习的训练目标学习任务；基于所述训练学习对象对所述训练目标学习任务的执行情况，确定所述训练学习对象的训练目标收益；当第一数量的训练学习对象在第二数量的训练目标学习任务下的总收益期望最大时，获得所述学习任务生成器。

在本公开一实施方式中，所述训练学习对象的训练目标收益包括立即收益和未来收益；所述立即收益包括训练学习对象所关联的用户状态改变概率及训练学习对象个人能力提升收益；所述未来收益包括训练学习对象学习后对关联用户的转化能力的提升收益。

在本公开一实施方式中，所述方法还包括：获取所述学习对象与用户的会话信息；基于所述会话信息确定所述学习对象的状态变化信息；基于所述状态变化信息更新所述学习对象的当前状态信息。

在本公开一实施方式中，所述方法还包括：实时或定时监测学习对象的当前状态信息；所述基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务，包括：当所述学习对象的当前状态信息满足预设条件时，基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务。

在本公开一实施方式中，所述学习对象为房产经纪人，所述方法还包括：根据所述学习对象所关联的用户的需求及偏好确定待学习的目标候选盘信息；所述基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务，包括：基于学习对象的当前状态信息、所述目标候选盘信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务。

本公开实施例的另一个方面，提供一种学习任务的调度装置，包括：第一获取模块，用于获取学习对象的当前状态信息；第一处理模块，用于基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务；所述学习任务生成器是基于收益最大化进行优化学习获得的；下发模块，用于将所述目标学习任务下发给所述学习对象。

在本公开一实施方式中，所述当前状态信息包括学习对象的个人状态信息及所述学习对象所关联的用户状态信息；所述装置还包括：第一确定模块，用于基于所述学习对象对所述目标学习任务的执行情况，确定所述学习对象的目标收益；第一更新模块，用于基于所述目标收益更新所述学习对象的所述当前状态信息中的个人状态信息；第二获取模块，用于获取所述学习对象所关联的用户的新状态信息；第二处理模块，用于将所述学习对象的更新后的个人状态信息与所述关联用户的新状态信息作为所述学习对象的更新后的状态信息，以基于更新后的状态信息为所述学习对象调度下一学习任务。

在本公开一实施方式中，所述装置还包括：第三获取模块，用于在训练过程中，获取训练学习对象在当前迭代步的当前训练状态信息；第三处理模块，用于将所述当前训练状态信息输入到与所述学习任务生成器对应的、预先建立的学习任务生成网络，在预设约束条件下，生成所述训练学习对象需要学习的训练目标学习任务；第二确定模块，用于基于所述训练学习对象对所述训练目标学习任务的执行情况，确定所述训练学习对象的训练目标收益；第四处理模块，用于当第一数量的训练学习对象在第二数量的训练目标学习任务下的总收益期望最大时，获得所述学习任务生成器。

在本公开一实施方式中，所述装置还包括：第四获取模块，用于获取所述学习对象与用户的会话信息；第三确定模块，用于基于所述会话信息确定所述学习对象的状态变化信息；第二更新模块，用于基于所述状态变化信息更新所述学习对象的当前状态信息。

在本公开一实施方式中，所述装置还包括：监测模块，用于实时或定时监测学习对象的当前状态信息；所述第一处理模块，具体用于当所述学习对象的当前状态信息满足预设条件时，基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务。

在本公开一实施方式中，所述学习对象为房产经纪人，所述装置还包括：第四确定模块，用于根据所述学习对象所关联的用户的需求及偏好确定待学习的目标候选盘信息；所述第一处理模块，具体用于基于所述学习对象的当前状态信息、所述目标候选盘信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的学习任务的调度方法。

根据本公开实施例的又一方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的学习任务的调度方法。

根据本公开实施例的再一方面，提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开上述任一实施例所述的学习任务的调度方法。

本公开提供的学习任务的调度方法和装置、电子设备和存储介质，通过基于收益最大化学习获得的学习任务生成器实现根据学习对象的当前状态的任务分配，实现了学习任务的合理分配，有效提高学习收益，减少时间和资源的浪费。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是本公开提供的学习任务的调度方法的一个示例性的应用场景；

图2是本公开一个示例性实施例提供的学习任务的调度方法的流程示意图；

图3是本公开另一个示例性实施例提供的学习任务的调度方法的流程示意图；

图4是本公开再一个示例性实施例提供的学习任务的调度方法的流程示意图；

图5是本公开一示例性实施例提供的学习任务调度示意图；

图6是本公开一示例性实施例提供的学习任务调度的简单流程框图；

图7是本公开一示例性实施例提供的学习任务的调度装置的结构示意图；

图8是本公开另一示例性实施例提供的学习任务的调度装置的结构示意图；

图9是本公开电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，不同工作人员的状态不同，其需要学习的内容不同，付出的时间成本和资源成本不同，所能达到的收益也不同，按周期下发学习任务而不考虑工作人员的状态，往往导致任务分配不够合理，对于各工作人员来说，分配的学习任务可能并不符合其当前的需求，导致其学习收益可能较少，造成时间和资源的浪费。

示例性概述

图1是本公开提供的学习任务的调度方法的一个示例性的应用场景。

在房产领域，房产经纪人的数量通常较多，业务水平通常参差不齐，利用本公开提供的技术方案，可以根据不同房产经纪人的不同状态合理分配学习任务，使多个房产经纪人的总收益最大化，从而有效降低时间成本，避免资源浪费，提高学习效率。学习任务的分配可以是通过学习平台实现，学习平台可以部署在任意可实施的电子设备(比如服务器)上，房产经纪人可以通过终端设备(比如其智能手机、平板、台式电脑等)登录学习平台进行学习，以提高自己的能力，更好地服务用户。

示例性方法

图2是本公开一个示例性实施例提供的学习任务的调度方法的流程示意图。该方法包括以下步骤：

步骤201，获取学习对象的当前状态信息。

其中，学习对象是指需要学习提升自己能力的工作人员，比如房产领域的房产经纪人；当前状态信息(这些状态信息均为学习对象授权的)是指学习对象的当前状态情况，可以包括学习对象的个人状态信息，即学习对象的能力体系，比如专业知识能力、沟通技巧、学习能力等多项技能，各项内容可以以一定方式进行量化或特征化，也即学习对象的当前状态信息是一组描述学习对象相关情况的数据向量。

在一个可选示例中，当前状态信息还可以包括学习对象所关联用户的用户状态信息(这些用户状态信息均为经用户授权的)，比如在房产领域，房产经纪人所服务的用户所处的阶段，比如商机、委托、带看、成交等阶段，具体用户状态信息可以根据不同场景的实际需求设置，本公开不做限定。

步骤202，基于学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务；学习任务生成器是基于收益最大化进行优化学习获得的。

其中，学习任务生成器需要预先学习获得，学习获得的学习任务生成器能够实现根据不同学习对象的当前状态为其生成符合其状态的目标学习任务(为了区分，本文中将学习任务生成器所生成的符合学习对象当前状态的学习任务统称为目标学习任务)，以达到各学习对象的总收益最大化，有效提高学习对象的学习效率，避免时间和资源的浪费。

在一个可选示例中，学习对象可以是一个或多个，针对每个学习对象，均可以根据其当前状态信息来确定其需要学习的目标学习任务。

步骤203，将目标学习任务下发给学习对象。

在确定了学习对象需要学习的目标学习任务后，则可以将该目标学习任务下发给该学习对象，该学习对象则可以执行该目标学习任务，即学习该目标学习任务对应的任务内容。

在一个可选示例中，目标学习任务可以是以链接、入口页面等方式下发，学习对象通过点击链接或入口页面中的入口按钮等方式进入学习页面学习相应的任务内容，具体方式可以根据实际需求设置，本公开不做限定。

在一个可选示例中，目标学习任务可以是房产领域中学习某个楼盘的相关知识、学习VR带看相关技能、学习挖需邀约相关技能等等，具体可以根据实际需求设置。挖需邀约是指挖掘用户需求并基于用户需求邀约用户看房。

本公开实施例提供的学习任务的调度方法，通过基于收益最大化学习获得的学习任务生成器实现根据学习对象的当前状态的任务分配，实现了学习任务的合理分配，有效提高学习收益，减少时间和资源的浪费。

在一个可选示例中，当前状态信息包括学习对象的个人状态信息及学习对象所关联的用户状态信息。

学习对象的个人状态信息可以包括学习对象的能力体系，比如专业知识能力、沟通技巧、学习能力等多项技能，各项内容可以以一定方式进行量化或特征化，也即学习对象的当前状态信息是一组描述学习对象相关情况的数据向量。

学习对象所关联用户的用户状态信息，可以包括学习对象所关联用户所处服务流程中的阶段，比如在房产领域，房产经纪人所服务的用户所处的阶段，比如商机、委托、带看、成交等阶段，具体用户状态信息可以根据不同场景的实际需求设置，本公开不做限定。

由于学习对象的学习可能会对其所关联的用户的状态改变产生一定的影响，因此在考虑学习对象个人状态的同时，还考虑学习对象所关联的用户状态，进一步提高任务分配的合理性及收益的全面性。

在一个可选示例中，图3是本公开另一个示例性实施例提供的学习任务的调度方法的流程示意图。该方法包括以下步骤：

步骤301，获取学习对象的当前状态信息，当前状态信息包括学习对象的个人状态信息及学习对象所关联的用户状态信息。

步骤302，基于学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务；学习任务生成器是基于收益最大化进行优化学习获得的。

步骤303，将目标学习任务下发给学习对象。

需要说明的是步骤301-步骤303的具体操作与前述内容一致，在此不再赘述。

步骤304，基于学习对象对目标学习任务的执行情况，确定学习对象的目标收益。

由于每个学习对象在执行目标学习任务后，自身的状态信息会有一定的变化，为了实时准确维护各学习对象的状态，需要基于学习对象对目标学习任务的执行情况来更新学习对象的状态，具体可以是基于学习对象的学习前的状态和学习收益来更新，因此可以先基于学习对象对目标学习任务的执行情况，确定学习对象的目标收益，目标收益可以包括学习对象学习后的立即收益以及本次学习可能产生的未来收益，具体的立即收益和未来收益的收益规则可以根据实际需求设置。

步骤305，基于目标收益更新学习对象的当前状态信息中的个人状态信息。

在确定了目标收益后，则可以基于目标收益更新学习对象的当前状态信息，具体是更新当前状态信息中的个人状态信息，比如房产领域某房产经纪人对某楼盘的个人状态信息中的专业知识能力为60分，学习该楼盘相关知识后，立即收益20分，则该房产经纪人对该楼盘的个人状态信息中专业知识能力则更新为80分，个人状态信息中其他各维的信息与此类似，不再一一赘述。

步骤306，获取学习对象所关联的用户的新状态信息。

需要说明的是，步骤306与步骤304不分先后顺序。

对于学习对象当前状态信息中的关联用户状态信息则可以根据关联用户的实际状态来实时更新，关联用户的实际状态是实时维护的，在需要时可以从相应的存储区域获取，比如房产领域中，某房产经纪人所服务的用户A的状态信息为商机，若学习对象学习后，该用户A从商机阶段转换到了委托，则该用户A的状态信息更新为委托，若用户A的实际状态并未更新，则将原来状态信息作为新状态信息。

步骤307，将学习对象的更新后的个人状态信息与所关联用户的新状态信息作为学习对象的更新后的状态信息，以基于更新后的状态信息为学习对象调度下一学习任务。

本公开的学习任务生成器可以随时基于学习对象的实时状态为学习对象分配合理的学习任务，因此，为了保证每个学习对象的状态的准确性，对于每个学习对象，其当前状态信息需要实时维护，在每次执行学习任务后需要对其当前状态信息进行更新，更新后的状态信息作为下一轮任务分配的当前状态信息，在下一轮任务分配之前，若学习对象的状态信息还有其他变化，还可以实时或定时进行更新，比如可以基于学习对象在实际服务用户时的会话来对该学习对象的状态进行评价，实时监控学习对象的状态并实时更新，以保证在下一轮任务分配时，所基于的当前状态信息是学习对象的最新状态信息。

在一个可选示例中，图4是本公开再一个示例性实施例提供的学习任务的调度方法的流程示意图，在上述图2所示的实施例的基础上，该方法还包括以下步骤：

步骤401，在训练过程中，获取训练学习对象在当前迭代步的当前训练状态信息。

其中，学习任务生成器需要迭代学习获得，这里以一个迭代步(一个迭代步是指一次迭代过程，比如最大迭代次数为T，则最多有T个迭代步)为例进行说明，可以将第一数量的学习对象作为训练学习对象，获取各训练学习对象的当前训练状态信息，当前训练状态信息与前述的当前状态信息一致，可以包括训练学习对象的个人状态信息，还可以包括训练学习对象所关联的用户状态信息，具体不再赘述。

在一个可选示例中，训练学习对象可以是本轮任务分配需要分配任务的学习对象，比如本轮有8个学习对象，则可以将这8个学习对象作为训练学习对象，基于收益最大化来学习，使得8个训练学习对象的总收益最大化，从而获得本轮任务分配的学习任务生成器。对于一轮的任务分配过程按照步骤201-203来执行，任务分配的周期可以根据实际需求设置，可以是设置定时分配，比如每周分配一次、每个月分配一次等，也可以是通过实时监控不同学习对象的状态来触发任务分配，具体触发方式可以根据实际需求设置，本公开不做限定。

在一个可选示例中，在房产领域，学习任务还与具体楼盘相关，因此在训练时，可以根据各训练学习对象所关联的用户的需求及偏好确定本轮任务的目标训练候选盘，与训练学习对象的当前训练状态信息一起来确定该训练学习对象需要学习的训练目标学习任务。每个楼盘都可以对应多个学习任务，目标训练候选盘用于帮助确定该训练学习对象是要学习哪个楼盘的哪个任务。

步骤402，将当前训练状态信息输入到与学习任务生成器对应的、预先建立的学习任务生成网络，在预设约束条件下，生成训练学习对象需要学习的训练目标学习任务。

其中，预设约束条件是根据学习对象的学习能力、学习时间等因素确定的在分配任务时需要满足的条件，比如在房产领域，不同房产经纪人学习能力不同，学习能力强的可以在一轮调度中学习多个楼盘，学习能力弱的可能就学习的楼盘数量少，此外，不同房产经纪人的遗忘能力也不同，比如在三个月前学习过B楼盘，若3个月内未对B楼盘有熟悉的动作，则三个月后对B楼盘的专业知识会有一定程度的下降。对于学习时间，比如房产经纪人参与学习的时间需要满足在该时间段内无其他需求，比如休息时间、带看时间或者开会时间则不可以安排学习任务，具体的预设约束条件可以根据不同场景的实际需求设置。

在一个可选示例中，学习任务生成网络采用强化学习算法实现，比如DQN(Deep Q-learning Network，深度Q学习网络)算法、DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)算法、A3C(Actor-Critic)算法等，具体可以根据实际需求设置。

在一个可选示例中，对于房产领域，在训练时，目标训练候选盘的相关信息可以与训练学习对象的当前训练状态信息一起作为学习任务生成网络的输入特征数据输入到学习任务生成网络，以准确生成训练目标学习任务。

步骤403，基于训练学习对象对训练目标学习任务的执行情况，确定训练学习对象的训练目标收益。

训练学习对象对训练目标学习任务的执行情况包括执行和不执行两种，不同情况的收益不同。

步骤404，当第一数量的训练学习对象在第二数量的训练目标学习任务下的总收益期望最大时，获得学习任务生成器。

具体的，总收益期望是指第一数量的训练学习对象在各训练目标学习任务下的训练目标收益的期望之和，针对第一数量的训练学习对象，任务总数量是可以确定的，由于每个学习对象能接受的任务数量有限，因此任务调度分配时需要满足约束条件，在满足约束条件下，使得分配给第一数量的训练学习对象的任务总收益期望最大，也即实现总收益最大化。

在一个可选示例中，训练学习对象的训练目标收益包括立即收益和未来收益；立即收益包括训练学习对象所关联的用户状态改变概率及训练学习对象个人能力提升收益；未来收益包括训练学习对象学习后对关联用户的转化能力的提升收益。

在一个可选示例中，在房产领域，关联用户状态改变概率比如房产经纪人能力满足了手上客源(关联用户)的需求，关联用户状态走向下一阶段的概率；个人能力提升收益比如房产经纪人对应的专业知识能力、沟通技巧等技能的提升情况。未来收益比如房产经纪人对盘源进行了学习，则他未来的客户也对该盘源有偏好或感兴趣时，他在该盘上对客户的转化能力也会有所提升。未来客户的分布可以通过推荐或分析获得。

在一个可选示例中，训练学习对象的训练目标收益表示为R(s,m|a)：

R(s,m|a)＝R_i(s,m|a)+γR_f(s,m|a)

其中，R_i(s,m|a)表示在状态s下，训练学习对象a执行训练学习任务m所获得的立即收益，R_f(s,m|a)表示在状态s下，训练学习对象a执行训练学习任务m所获得的未来收益，γ表示折扣因子，可以根据实际需求设置。

总收益期望可以表示为：

总收益期望最大化可以表示为：

s.t.

其中，A为训练学习对象的总数量，M为学习任务总数量，E_π[R(s,i,j)x_ij]表示按照策略π(本公开中即学习任务生成器)进行任务分配获得的收益期望，R(s,i,j)表示在状态s下第i个训练学习对象分配到第j个任务的收益，x_ij表示第i个训练学习对象是否执行了第j个任务，0表示没有执行，1表示执行了，s.t.即表示条件，

表示对于任一个训练学习对象，其收到的学习任务数量不能大于其在该轮分配的学习能力，即B表示训练学习对象最多能接受的学习任务数量；

表示对于任一个训练学习任务，最多只能由1个训练学习对象执行。对于该0-1规划问题，可以采用Branch and cut(分支剪界)算法求解，具体不再赘述。

训练学习对象状态的更新可以表示如下：

当前状态s(t)＝(t,s_A(t)，s_U(t)，L)

执行学习任务后的更新：s(t+1)＝(t+1,s_A(t+1)，s_U(t+1)，L-1)

不执行学习任务后的更新：s(t+1)＝(t+1,s_A(t+1)，s_U(t+1)，L)

其中，s_A()即表示学习对象个人状态信息，s_U()表示学习对象关联用户状态信息，L表示学习对象当前还可执行的任务数量。在房产领域，s_U()根据用户在房屋买卖生命周期中所处阶段可以分为商机、委托、带看、成交等阶段，可以在房产经纪人与用户的每一轮会话结束后对用户的状态更新一次；s_A()也可称为房产经纪人的能力模型，包括专业知识能力及沟通技巧等多项技能，能力模型可以通过房产经纪人与用户的交流过程进行评估，比如每一轮会话结束后对房产经纪人的能力模型进行一次更新。

在一个可选示例中，本公开的学习任务生成器可以基于无模型的强化学习算法获得，比如DQN(Deep Q-learning Network，深度Q学习网络)算法、DDPG(Deep DeterministicPolicy Gradient，深度确定性策略梯度)算法、A3C(Actor-Critic)算法等。

在一个可选示例中，本公开的方法还包括：获取学习对象与用户的会话信息；基于会话信息确定学习对象的状态变化信息；基于状态变化信息更新学习对象的当前状态信息。

具体的，由于不同学习对象的遗忘能力不同，除了在学习时学习对象的状态信息会变化，平时也会因为其他因素发生变化，比如对于一个盘学习后，可能较长的时间没有进行熟悉动作，那么其对该盘的状态信息可能会发生变化，按照分数来衡量的话，可能相对于刚学习后的状态，其分数会降低，因此，还可以设置一定的评价机制，实时或定时对学习对象的状态信息进行更新，比如在学习对象与实际用户的会话中，根据学习对象的应答情况对学习对象的状态进行评价，从而确定学习对象的状态变化信息，以对当前状态信息进行实时更新。

本公开可以实时维护更新学习对象的当前状态信息，以保证在任务分配时所基于的当前状态信息为学习对象的最新状态信息，提高数据准确性和有效性。

在一个可选示例中，本公开的方法还包括：实时或定时监测学习对象的当前状态信息；相应的，基于学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务，包括：当学习对象的当前状态信息满足预设条件时，基于学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务。

由于学习对象的当前状态信息是实时更新维护的，可以基于预设条件实时或定时判断学习对象的当前状态信息是否需要进行学习，若需要则触发任务分配流程，为该学习对象分配符合其需要的学习任务。比如实时维护的当房产经纪人状态信息中，其对某一楼盘的专业知识能力降低到预设条件规定的水平，则可以确定其需要对该楼盘进行学习，则可以基于其当前状态信息来生成其需要学习的目标学习任务下发给该房产经纪人，从而使该房产经纪人及时学习，或者房产经纪人可以根据自己需求选择学习或不学习。

本公开通过监测学习对象的状态变化，动态进行任务分配，提高学习对象学习的及时性，进一步提高收益。

在一个可选示例中，学习对象为房产经纪人，方法还包括：根据学习对象所关联的用户的需求及偏好确定待学习的目标候选盘信息；相应的，基于学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务，包括：基于学习对象的当前状态信息、目标候选盘信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务。

具体的，为了进一步提高收益，还可以根据关联用户的需求及偏好筛选出热门的楼盘，使学习对象能够更有针对性地进行学习，以更好地满足大部分用户的需求，进一步提高学习带来的收益。

在一个可选示例中，目标候选盘还可以结合其他相关因素来确定，比如房产经纪人的能力、楼盘自身的特征来确定，比如楼盘的热度、是否为聚焦盘、是否为店对区的责任盘等，具体可以根据实际需求设置。每个候选盘可以对应多种任务类型，房产经纪人要做哪一类任务是由房产经纪人的当前状态信息决定。

在一个可选示例中，图5是本公开一示例性实施例提供的学习任务调度示意图。其中，人表示房产经纪人，客即表示房产经纪人的关联用户，根据房产经纪人与客户的交互过程可以分析出房产经纪人在不同盘源上的表现，比如C经纪人如果普遍在B盘上的转化率较低，则侧面反映出其对B盘的熟悉程度不够。客户如果想买房，会有自己的需求与偏好，同时根据客户近一段时间内的行为动作比如搜索、浏览、点击等动作，再结合用户画像，可以获得客户的偏好盘，结合用户偏好及房产经纪人的表现可以确定出需要学习的候选盘用于生成学习任务。候选盘情况可以包括基本情况、是否聚焦盘、是否店对区、近期成交情况、热度等等，每个候选盘可以对应多种任务类型，任务类型具体可以包括熟盘、踩盘空看、熟区、VR带看、挖需要约等等，根据房产经纪人的能力及候选盘确定房产经纪人需要学习的任务下发给房产经纪人，房产经纪人学习后，能力得到提升，更好地服务客户，房产经纪人的能力体系可以包括知识和技能两大类，知识可以包括盘、区、政策、未来规划等信息，技能可以包括挖需、房源推荐、态度、沟通技巧、客源维护等技能，客户信息可以包括用户画像DMP、需求、偏好盘、所处生命周期等等，具体内容都可以根据实际需求设置。

在一个可选示例中，图6是本公开一示例性实施例提供的学习任务调度的简单流程框图。学习任务生成器基于任务生成策略生成任务，中控负责任务下发，任务下发需要结合约束条件，任务被执行后产生一定的奖励来更新状态。具体过程参见前述内容，在此不再赘述。

由于房产经纪人能力体系的变化及房产经纪人手里客源状态的变化，t时刻的学习任务会对t+1时刻及之后的收益产生影响，满足序列决策的条件，因此，本公开通过有效定义学习对象的状态和收益来拟合序列决策场景，实现基于强化学习算法使房产经纪人的收益最大化，有效减少时间和资源的浪费。

示例性装置

图7是本公开一示例性实施例提供的学习任务的调度装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例，如图7所示的装置包括：第一获取模块501、第一处理模块502和下发模块503。

第一获取模块501，用于获取学习对象的当前状态信息。

第一处理模块502，用于基于第一获取模块501获取的学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务；学习任务生成器是基于收益最大化进行优化学习获得的。

下发模块503，用于将第一处理模块502生成的目标学习任务下发给学习对象。

图8是本公开另一示例性实施例提供的学习任务的调度装置的结构示意图。

在一个可选示例中，当前状态信息包括学习对象的个人状态信息及学习对象所关联的用户状态信息，相应的，本公开的装置还包括第一确定模块504、第一更新模块505、第二获取模块506和第二处理模块507。第一确定模块504，用于基于学习对象对下发模块503下发的目标学习任务的执行情况，确定学习对象的目标收益；第一更新模块505，用于基于第一确定模块504确定的目标收益更新学习对象的当前状态信息中的个人状态信息；第二获取模块506，用于获取学习对象所关联的用户的新状态信息；第二处理模块507，用于将第一更新模块505获得的学习对象的更新后的个人状态信息与第二获取模块506获取的关联用户的新状态信息作为学习对象的更新后的状态信息，以基于更新后的状态信息为学习对象调度下一学习任务。

在一个可选示例中，本公开的装置还包括：第三获取模块508、第三处理模块509、第二确定模块510和第四处理模块511。第三获取模块508，用于在训练过程中，获取训练学习对象在当前迭代步的当前训练状态信息；第三处理模块509，用于将第三获取模块508获取的当前训练状态信息输入到与学习任务生成器对应的、预先建立的学习任务生成网络，在预设约束条件下，生成训练学习对象需要学习的训练目标学习任务；第二确定模块510，用于基于训练学习对象对第三处理模块509生成的训练目标学习任务的执行情况，确定训练学习对象的训练目标收益；第四处理模块511，用于当第一数量的训练学习对象在第二数量的训练目标学习任务下的总收益期望最大时，获得学习任务生成器。

在一个可选示例中，本公开的装置还包括：第四获取模块512、第三确定模块513和第二更新模块514。第四获取模块512，用于获取学习对象与用户的会话信息；第三确定模块513，用于基于第四获取模块512获取的会话信息确定学习对象的状态变化信息；第二更新模块514，用于基于第三确定模块513确定的状态变化信息更新学习对象的当前状态信息。

在一个可选示例中，本公开的装置还包括：监测模块515。监测模块515，用于实时或定时监测学习对象的当前状态信息；第一处理模块502，具体用于当监测模块515监测的学习对象的当前状态信息满足预设条件时，基于学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务。

在一个可选示例中，学习对象为房产经纪人，本公开的装置还包括：第四确定模块516。第四确定模块516，用于根据学习对象所关联的用户的需求及偏好确定待学习的目标候选盘信息；第一处理模块502，具体用于基于第一获取模块501获取的学习对象的当前状态信息、第四确定模块516确定的目标候选盘信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务。

另外，本公开实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的学习任务的调度方法。

图9是本公开电子设备一个应用实施例的结构示意图。如图9所示，电子设备包括一个或多个处理器和存储器。

处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现上文所述的本公开的各个实施例的学习任务的调度方法以及/或者其他期望的功能。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置还可以包括例如键盘、鼠标等等。

该输出装置可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的学习任务的调度方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本公开各种实施例的学习任务的调度方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种学习任务的调度方法，其特征在于，包括：

获取学习对象的当前状态信息；

基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务；所述学习任务生成器是基于收益最大化进行优化学习获得的；

将所述目标学习任务下发给所述学习对象。

2.根据权利要求1所述的方法，其特征在于，所述当前状态信息包括学习对象的个人状态信息及所述学习对象所关联的用户状态信息；

在将所述目标学习任务下发给所述学习对象之后，所述方法还包括：

基于所述学习对象对所述目标学习任务的执行情况，确定所述学习对象的目标收益；

基于所述目标收益更新所述学习对象的所述当前状态信息中的个人状态信息；

获取所述学习对象所关联的用户的新状态信息；

将所述学习对象的更新后的个人状态信息与所关联用户的新状态信息作为所述学习对象的更新后的状态信息，以基于更新后的状态信息为所述学习对象调度下一学习任务。

3.根据权利要求1所述的方法，其特征在于，在基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务之前，所述方法还包括：

在训练过程中，获取训练学习对象在当前迭代步的当前训练状态信息；

将所述当前训练状态信息输入到与所述学习任务生成器对应的、预先建立的学习任务生成网络，在预设约束条件下，生成所述训练学习对象需要学习的训练目标学习任务；

基于所述训练学习对象对所述训练目标学习任务的执行情况，确定所述训练学习对象的训练目标收益；

当第一数量的训练学习对象在第二数量的训练目标学习任务下的总收益期望最大时，获得所述学习任务生成器。

4.根据权利要求3所述的方法，其特征在于，所述训练学习对象的训练目标收益包括立即收益和未来收益；

所述立即收益包括训练学习对象所关联的用户状态改变概率及训练学习对象个人能力提升收益；

所述未来收益包括训练学习对象学习后对关联用户的转化能力的提升收益。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述学习对象与用户的会话信息；

基于所述会话信息确定所述学习对象的状态变化信息；

基于所述状态变化信息更新所述学习对象的当前状态信息。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

实时或定时监测学习对象的当前状态信息；

所述基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务，包括：

当所述学习对象的当前状态信息满足预设条件时，基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务。

7.根据权利要求1-6任一所述的方法，其特征在于，所述学习对象为房产经纪人，所述方法还包括：

根据所述学习对象所关联的用户的需求及偏好确定待学习的目标候选盘信息；

所述基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务，包括：

基于学习对象的当前状态信息、所述目标候选盘信息及预先获得的学习任务生成器，确定学习对象需要学习的目标学习任务。

8.一种学习任务的调度装置，其特征在于，包括：

第一获取模块，用于获取学习对象的当前状态信息；

第一处理模块，用于基于所述学习对象的当前状态信息及预先获得的学习任务生成器，确定所述学习对象需要学习的目标学习任务；所述学习任务生成器是基于收益最大化进行优化学习获得的；

下发模块，用于将所述目标学习任务下发给所述学习对象。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-7任一所述的方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现上述权利要求1-7任一所述的方法。