CN113391888A

CN113391888A - 业务资源的调度方法、装置、设备及存储介质

Info

Publication number: CN113391888A
Application number: CN202010170535.9A
Authority: CN
Inventors: 王应德
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2021-09-14
Anticipated expiration: 2040-03-12
Also published as: CN113391888B

Abstract

本公开提供了一种业务资源的调度方法、装置、设备及存储介质，涉及仓储物流技术领域。该方法包括：确定当前时间是否为业务资源调度的决策时刻；当所述当前时间为所述决策时刻时，分别执行如下操作：确定当前时间所处的当前时间段；获取当前时间段的第一待处理对象的信息及用于处理所述第一待处理对象的第一业务资源的配置信息；根据所述当前时间段、所述当前时间段的第一业务资源的配置信息及第一待处理对象的信息，构建所述当前时间段的状态；基于DQN算法模型，确定在所述当前时间段的状态下待执行的资源调度动作；执行确定的所述待执行的资源调度动作，重新配置所述第一业务资源。

Description

业务资源的调度方法、装置、设备及存储介质

技术领域

本公开涉及仓储物流领域，尤其涉及一种业务资源的调度方法、装置、设备及存储介质。

背景技术

在仓储业务作业中，用于处理仓储业务的资源可以包括：拣货员及复核打包员等。对于如何确定对仓储业务资源进行调度，例如如何分配每个时间段进行拣货复核打包操作的人员数量等，是仓库日常运营十分重要的环节。

相关技术中的人员配置方法难以直接用到仓库日常运营中。因为仓库每天情况不同，且由于设备更新等原因，难以根据实际情况动态调度业务资源。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种业务资源的调度方法、装置、设备及存储介质，能够根据实际情况动态调度业务资源。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种业务资源的调度方法，包括：确定当前时间是否为业务资源调度的决策时刻；当所述当前时间为所述决策时刻时，分别执行如下操作：确定当前时间所处的当前时间段；获取当前时间段的第一待处理对象的信息及用于处理所述第一待处理对象的第一业务资源的配置信息；根据所述当前时间段、所述当前时间段的第一业务资源的配置信息及第一待处理对象的信息，构建所述当前时间段的状态；基于DQN算法模型，确定在所述当前时间段的状态下待执行的资源调度动作；执行确定的所述待执行的资源调度动作，重新配置所述第一业务资源。

在本公开一个实施例中，基于DQN算法模型，确定在所述当前时间段的状态下待执行的资源调度动作包括：将所述当前时间段的状态输入至所述DQN算法模型，分别确定在所述当前时间段的状态下，执行与所述当前时间段的状态相关联的各资源调度动作的预期报酬；基于各资源调度动作的预期报酬，确定所述待执行的资源调度操作。

在本公开一个实施例中，基于各资源调度动作的预期报酬，确定所述待执行的资源调度操作包括：以第一预设概率随机从与所述当前时间段的状态相关联的各资源调度动作中选取一个动作作为所述待执行的资源调度动作；以第二预设概率从与所述当前时间段的状态相关联的各资源调度动作中选取具有最大预期报酬的动作作为所述待执行的资源调度动作；其中，第一预设概率与第二预设概率之和为1。

在本公开一个实施例中，上述方法还包括：确定重新配置所述第一业务资源后的第二待处理对象的信息及用于处理所述第二待处理对象的第二业务资源的配置信息；根据所述当前时间段的下一个时间段、所述第二待处理对象的信息及所述第二业务资源的配置信息，构建所述下一个时间段的状态；确定执行所述待执行的资源调度动作后的实际收益；将所述当前时间段的状态、所述待执行的资源调度动作、所述实际收益及所述下一个时间段的状态作为一个样本，放入回收空间中；从所述回收空间中随机抽取预设数量的样本，更新所述DQN算法模型。

在本公开一个实施例中，从所述回收空间中随机抽取预设数量的样本，更新所述DQN算法模型包括：将所述预设数量的样本分别输入到所述DQN算法模型中的估计值网络和目标值网络中，确定各预估报酬的估计值和目标值；根据所述估计值和目标值确定的损失函数，更新所述估计值网络的参数值。

在本公开一个实施例中，上述方法还包括：每隔预设间隔，基于所述估计值网络参数值，更新所述目标值网络的参数值。

在本公开一个实施例中，所述实际收益是根据第一业务资源与第二业务资源的使用成本和第一待处理对象与第二待处理对象的违约成本确定的。

根据本公开的另一个方面，提供一种业务资源的调度装置，包括：时刻确定模块，用于确定当前时间是否为业务资源调度的决策时刻；操作执行模块，用于当所述当前时间为所述决策时刻时，分别执行操作；所述操作执行模块包括：时间段确定模块，用于确定当前时间所处的当前时间段；信息获取模块，用于获取当前时间段的第一待处理对象的信息及用于处理所述第一待处理对象的第一业务资源的配置信息；状态构建模块，用于根据所述当前时间段、所述当前时间段的第一业务资源的配置信息及第一待处理对象的信息，构建所述当前时间段的状态；动作确定模块，用于基于DQN算法模型，确定在所述当前时间段的状态下待执行的资源调度动作；动作执行模块，用于执行确定的所述待执行的资源调度动作，重新配置所述第一业务资源。

根据本公开的再一个方面，提供一种计算机设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任一种方法。

根据本公开的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种方法。

本公开实施例提供的业务资源的调度方法，当当前时间为业务资源调度的决策时刻时，确定当前时间所处的当前时间段，获取当前时间段的第一待处理对象的信息及第一业务资源的配置信息，构建当前时间段的状态，基于DQN算法模型，确定在当前时间段的状态下待执行的资源调度动作，执行该资源调度动作，重新配置第一业务资源。该方法基于时间段进行业务资源的调度，可以根据实际情况灵活设置状态、资源调度动作，动态调整资源。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开一个示例性实施例提供的计算机系统的结构示意图。

图2是根据一示例性实施方式示出的一种业务资源的调度方法的流程图。

图3是根据一示例示出的一种马尔科夫链的示意图。

图4是根据一示例性实施方式示出的另一种业务资源的调度方法的流程图。

图5是根据一示例性实施方式示出的另一种业务资源的调度方法的流程图。

图6是根据一示例性实施方式示出的另一种业务资源的调度方法的流程图。

图7是根据一示例示出的一种DQN算法流程的示意图。

图8是根据一示例性实施方式示出的一种业务资源的调度装置的流程图。

图9是根据一示例性实施方式示出的一种计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本公开的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

图1是本公开一个示例性实施例提供的计算机系统的结构示意图。该系统包括：若干个终端120和服务器集群140。

终端120可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、智能家居设备、AR(Augmented Reality，增强现实)设备、VR(Virtual Reality，虚拟现实)设备等移动终端，或者，终端120也可以是个人计算机(Personal Computer，PC)，比如膝上型便携计算机和台式计算机等等。

其中，终端120中可以安装有用于提供资源调度方法的应用程序。

终端120与服务器集群140之间通信网络相连。可选的，通信网络是有线网络或无线网络。

服务器集群140是一台服务器，或者由若干台服务器组成，或者是一个虚拟化平台，或者是一个云计算服务中心。服务器集群140用于为提供资源调度方法的应用程序提供后台服务。可选地，服务器集群140承担主要计算工作，终端120承担次要计算工作；或者，服务器集群140承担次要计算工作，终端120承担主要计算工作；或者，终端120和服务器集群140之间采用分布式计算架构进行协同计算。

在一些可选的实施例中，服务器集群140用于存储信息。

可选地，不同的终端120中安装的应用程序的客户端是相同的，或两个终端120上安装的应用程序的客户端是不同控制系统平台的同一类型应用程序的客户端。基于终端平台的不同，该应用程序的客户端的具体形态也可以不同，比如，该应用程序客户端可以是手机客户端、PC客户端或者全球广域网(World Wide Web，Web)客户端等。

本领域技术人员可以知晓，上述终端120的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本公开实施例对终端的数量和设备类型不加以限定。

可选的，该系统还可以包括管理设备(图1未示出)，该管理设备与服务器集群140之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(ExtensibleMarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(InternetProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

如上述，针对相关技术中仓储业务资源无法实现动态、灵活调度的问题，本公开实施例提供一种业务资源的调度方法及设备，可以基于时间段对业务资源进行调度，并可以根据实际情况灵活设置状态、资源调度动作，从而实现仓储业务资源的动态调整。

需要说明的是，下述业务资源的调度方法，虽然以仓储业务资源的调度(如根据业务需求，确定拣货员及复核打包员在不同时段的数量)为例，但上述业务资源的调度方法还可以应用于对其他相关业务资源的调度策略中。

下面，将结合附图及实施例对本公开示例实施例中的业务资源的调度方法的各个步骤进行更详细的说明。

图2是根据一示例性实施方式示出的一种业务资源的调度方法的流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行，例如如图1中的服务器集群140。

如图2所示，业务资源的调度方法10包括：

在步骤S1中，确定当前时间是否为业务资源调度的决策时刻。

业务例如可以为仓储业务。

业务资源例如可以为仓储业务中的拣货员及复核打包员。

例如可以将一天按不同时间段进行划分，例如按照2小时进行划分，一天作业时间例如为24小时，可以划分为12个时间段，即多阶段的最后一个阶段为T＝12，决策时刻例如可以为2点、4点、6点等。

决策时刻也可以根据实际情况确定，本公开对此不做限制。

在步骤S2中，当当前时间为决策时刻时，分别执行步骤S21～S25。

在步骤S21中，确定当前时间所处的当前时间段。

以上述决策时刻为例，例如，当当前时间为2点时，当前时间段为0点～2点。

在步骤S22中，获取当前时间段的第一待处理对象的信息及用于处理第一待处理对象的第一业务资源的配置信息。

业务资源的配置信息例如可以为仓库的拣货人员数量、复核打包人员数量。

待处理对象的信息例如可以为订单数量、物品数量。

获取当前时间段的订单数量、物品数量及用于处理该订单和物品的拣货人员数量、复核打包人员数量。

在步骤S23中，根据当前时间段、当前时间段的第一业务资源的配置信息及第一待处理对象的信息，构建当前时间段的状态。

状态例如可以用向量空间S表示，任一个状态S可以表示为一个2k+2维向量(t,DN₁,IN₁,DN₂,IN₂,...,DN_k,IN_k,p,q)，其中t是当前时间，k表示波次数(一个中型仓库一般是5个波次)，DN_i和IN_i分别表示第i个波次的订单数量和物品数量，p表示拣货人员数量，q表示复核打包人员数量。实际仓库环境中也可以根据需要进行添加，例如仓库订单信息也可以增加其他维度，为了减少规模，可将订单数量和物品数量以一百或一千为单位进行四舍五入。

例如对于一个仓库，有两个波次，从2020年1月1日开始，共12个决策时刻。对于决策时刻0，例如当前时间段中波次1的订单数量和物品数量为1200和2000，波次2的订单数量和物品数量为500和1000，拣货人员数量和复核打包人数量分别为15和20人；可以根据当前时间段、当前时间段的订单数量、商品数量及拣货人员数量、复核打包人员数量构建当前时间段的状态S0＝(0，1200，2000，500，1000，15，20)。

在步骤S24中，基于DQN算法模型，确定在当前时间段的状态下待执行的资源调度动作。

DQN(Deep Q Learning)算法模型为强化学习模型。

强化学习模型通常包括5大要素，分别是决策时刻，状态，动作，转移概率矩阵，报酬函数。多阶段决策问题满足马尔科夫过程，即每个阶段的转移概率仅与该阶段的状态和行动有关，与其他历史阶段无关。

在仓库人员排班问题中，每个可能的历史阶段例如可以用一个马尔科夫决策过程的图模型来表示，如图3所示，其中s_t可以代表当前待处理对象在时间t时所处的状态(例如可以表示每个波次订单情况和仓库人员排班情况)；a_t可以代表在时间t，并处于状态s_t时所执行的资源调度动作(例如调整每类人员的人数配置)。

在每个状态下，执行一个资源调度动作后可以得到一个奖励，来表示在当前状态s_t下执行资源调度动作a_t所获得的报酬。

在仓库人员排班问题中，仓库可以从初始状态s₀开始，执行调整每类人员数量的资源调度动作a₀，仓库在下一个决策时刻到新的状态s₁，并反馈给仓库一个即时报酬r₀(s₀,a₀)，然后在下一个时刻的状态执行某个资源调度动作。这样的基于状态和动作交互，可以一直进行下去直至终止。

资源调度动作例如可以是增加或减少资源数量，仍以资源为仓库的拣货人员数量、复核打包人员数量为例，资源调度动作可以为二维向量空间。在实际操作中，可以根据实际的人员数量设置资源调度动作中添加的总人数数量小于预设上限U，或者执行动作之后总人数小于预设上限U。例如资源调度动作(u1，u2)中，u1可以表示拣货人员数量的变化，u2表示复核打包人员数量的变化，其中，u1和u2均为整数，并且可以根据实际情况设置u1+u2≤U或者p+q+u1+u2≤U。

在步骤S25中，执行确定的待执行的资源调度动作，重新配置第一业务资源。

执行在步骤S24中确定的资源调度动作，根据第一业务资源及该资源调度动作，重新配置第一业务资源。

第一业务资源例如可以为拣货人员及复核打包人员，资源调度动作例如可以为添加或减少拣货人员及复核打包人员。例如，第一业务资源中拣货人员数量和复核打包人数量分别为15和20人，资源调度动作为(2,3)，重新配置第一业务资源后，拣货人员数量为17人，复核打包人员数量为3人。

与图2所示的业务资源的调度方法不同的是，图4所示的业务资源的调度方法进一步提供了如何基于DQN算法模型，确定在当前时间段的状态下待执行的资源调度动作，也即提供了上述步骤S24的一种实施例。

参考图4，步骤S24包括：

在步骤S241中，将当前时间段的状态输入至DQN算法模型，分别确定在当前时间段的状态下，执行与当前时间段的状态相关联的各资源调度动作的预期报酬。

预期报酬例如可以用Q函数表示，其中，Q(s,a；θ)可以表示在当前时间段的状态S下，执行资源调度动作a的预期报酬，θ为神经网络参数值。

本公开提供的实施例中，可以根据神经网络模型计算预期报酬Q(s,a；θ)，保存和优化神经网络模型的参数值，可以不用存储大量的数据。

在步骤S242中，基于各资源调度动作的预期报酬，确定待执行的资源调度操作。

在一些实施例中，可以根据ε-贪心策略确定待执行的资源调度动作，贪心策略是指对问题进行求解时，在每一步选择中都采取最优的选择，从而希望能够得到最优结果的算法。

在一些实施例中，可以以第一预设概率随机从与当前时间段的状态相关联的各资源调度动作中选取一个动作作为待执行的资源调度动作；或者以第二预设概率从与当前时间段的状态相关联的各资源调度动作中选取具有最大预期报酬的动作作为待执行的资源调度动作；其中，第一预设概率与第二预设概率之和为1，资源调度动作的公式如下：

其中，a_t为时间为t时的资源调度动作，ε为第一预设概率，可以根据实际情况设置，Q(s_t,a；θ)为预期报酬函数，θ为神经网络参数值。

根据ε-贪心策略确定待执行的资源调度动作，根据预设概率确定资源调度动作，可以更好地探索未知的动作带来的收益情况。

在一些实施例中，可以直接从与当前时间段的状态相关联的各资源调度动作中选取具有最大预期报酬的动作作为待执行的资源调度动作。

如图5所示，在图2所示的业务资源的调度方法10的基础上，业务资源的调度方法20还包括：

在步骤S3中，确定重新配置第一业务资源后的第二待处理对象的信息及用于处理第二待处理对象的第二业务资源的配置信息。

资源仍以拣货人员及复核打包人员为例，待处理对象仍以订单数量及物品数量为例。

例如对于一个仓库，有两个波次，从2020年1月1日开始，共12个决策时刻。对于决策时刻0，例如当前时间段中波次1的订单数量和物品数量为1200和2000，波次2的订单数量和物品数量为500和1000，拣货人员数量和复核打包人数量分别为15和20人，当前时间段的状态为S0＝(0，1200，2000，500，1000，15，20)。

例如在决策时刻0执行资源调度行动a为添加拣货人员1个。到了时刻1，可以确定重新配置拣货人员数量和复核打包人数量后波次1的订单数量和物品数量为400和1000，波次2的订单数量和物品数量为300和500，拣货人员数量和复核打包人数量分别为16和20人。

在步骤S4中，根据当前时间段的下一个时间段、第二待处理对象的信息及第二业务资源的配置信息，构建下一个时间段的状态。

状态例如可以用向量空间S表示，任一个状态S可以表示为一个2k+2维向量(t,DN₁,IN₁,DN₂,IN₂,...,DN_k,IN_k,p,q)，其中t是当前时间，k表示波次数(一个中型仓库一般是5个波次)，DN_i和IN_i分别表示第i个波次的订单数量和物品数量，p表示拣货人员数量，q表示复核打包人员数量。

仍以上述数据为例，时刻1的状态可以为S1＝(1，400，1000，300，500，16，20)。

在步骤S5中，确定执行待执行的资源调度动作后的实际收益。

在一些实施例中，实际收益是根据第一业务资源与第二业务资源的使用成本和第一待处理对象与第二待处理对象的违约成本确定的。

实际收益可以用r_t(s_t,a_t,s_t+1)表示，本公开的报酬函数r_t与当前时间段的状态s_t、当前时间段执行的资源调度动作a_t及下一个时间段的状态s_t+1有关。

实际收益可以根据以下公式确定：

其中，(p+q)*g₁表示节省的人力成本，p表示当前时间段的拣货人员数量，q表示当前时间段的复核打包人员数量，g1为单位人员的报酬；

表示订单未按时生产的惩罚费用，

表示对t+1时刻i个波次的超时订单数求和，g2为单位订单的惩罚费用，I表示指示函数，当t小于等于t_i时，I为0，当t大于t_i时，I为1；t_i为波次i的截单时间。可以根据现实情况设置g1、g2，灵活定义实际收益。

仍以上述数据为例，当时刻1小于波次1的截单时间时，可以得到在时刻0的状态S0下执行资源调度行动a得到状态S1的实际收益可以为r₀(s₀,a,s₁)＝-3200*1-0，包括人员成本和订单延误惩罚两部分。

本公开提供的实施例中，可以根据仓库实际情况灵活设置实际收益函数。在实际收益函数中，同时考虑了波次订单违约成本和人力成本。

本公开提供的实施例中的强化学习模型能够充分考虑到当前仓库未生产订单状态和人员状态，通过实际收益函数可以评估对未来生产活动所带来的影响，并学习将未来整体的订单履约和人力所产生的成本降到最低。

在步骤S6中，将当前时间段的状态、待执行的资源调度动作、实际收益及下一个时间段的状态作为一个样本，放入回收空间中。

在深度强化学习中，回收空间中的样本元素可以表示为：(s_t,a_t,r_t,s_t+1)。在一个决策时刻选择资源调度行动后，可以得到实际收益和下一个时间段的状态，将将当前时间段的状态、待执行的资源调度动作、实际收益及下一个时间段的状态作为样本放入回收空间中样。当训练DNN(Deep Neural Networks,深度神经网络)时，可以从回收空间中随机抽取部分样本数据对深度神经网络模型训练参数θ。

在步骤S7中，从回收空间中随机抽取预设数量的样本，更新DQN算法模型。

从回收空间中随机抽取预设数量的样本，输入到DQN算法模型中，分别确定预估报酬的估计值和目标值；根据估计值和目标值确定的损失函数，更新神经网络参数值。

与图5所示的业务资源的调度方法不同的是，图6所示的业务资源的调度方法进一步提供了如何从回收空间中随机抽取预设数量的样本，更新DQN算法模型，也即提供了上述步骤S7的一种实施例。

参考图6，步骤S7包括：

在步骤S71中，将预设数量的样本分别输入到DQN算法模型中的估计值网络和目标值网络中，确定各预估报酬的估计值和目标值。

图7是根据一示例示出的DQN算法流程的示意图。

预估报酬的目标值可以通过如下公式计算。

其中，α为预设系数，可以根据实际情况确定，s为当前时间段的状态，a为当前时间段执行的资源调度动作，s′为下一个时间段的状态，a′为下一个时间段的资源调度动作，θ′为目标值网络的参数值。

在步骤S72中，根据估计值和目标值确定的损失函数，更新估计值网络的参数值。

损失函数例如可以是0-1损失函数、平方损失函数、对数损失函数、绝对值损失函数。

例如可以通过更新估计值网络的参数值，使得由估计值网络和目标值网络计算出的损失函数最小。

在一些实施例中，步骤S7还包括：

在步骤S73中，每隔预设间隔，基于估计值网络参数值，更新目标值网络的参数值。

例如可以每隔N步，将估计值网络中的参数值赋值给目标值网络中的参数值。

每隔预设间隔更新目标值网络的参数值，可以保证目标值网络中的参数值在一段时间内是稳定的。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图8是根据一示例性实施方式示出的一种业务资源的调度装置的框图。

如图8所示，业务资源的调度装置70包括：时刻确定模块701、操作执行模块702。

其中，时刻确定模块701用于确定当前时间是否为业务资源调度的决策时刻；

操作执行模块702用于当当前时间为决策时刻时，分别执行操作；操作执行模块702包括：

时间段确定模块7021用于确定当前时间所处的当前时间段；

信息获取模块7022用于获取当前时间段的第一待处理对象的信息及用于处理第一待处理对象的第业务一资源的配置信息；

状态构建模块7023用于根据当前时间段、当前时间段的第一业务资源的配置信息及第一待处理对象的信息，构建当前时间段的状态；

动作确定模块7024用于基于DQN算法模型，确定在当前时间段的状态下待执行的资源调度动作；

动作执行模块7025用于执行确定的待执行的资源调度动作，重新配置第一业务资源。

在一些实施例中，动作执行模块包括报酬确定单元及操作确定单元。其中，报酬确定单元用于将当前时间段的状态输入至DQN算法模型，分别确定在当前时间段的状态下，执行与当前时间段的状态相关联的各资源调度动作的预期报酬；操作确定单元用于基于各资源调度动作的预期报酬，确定待执行的资源调度操作。

在一些实施例中，基于各资源调度动作的预期报酬，确定待执行的资源调度操作包括：以第一预设概率随机从与当前时间段的状态相关联的各资源调度动作中选取一个动作作为待执行的资源调度动作；以第二预设概率从与当前时间段的状态相关联的各资源调度动作中选取具有最大预期报酬的动作作为待执行的资源调度动作；其中，第一预设概率与第二预设概率之和为1。

在一些实施例中，装置70还包括：信息确定模块，用于确定重新配置第一业务资源后的第二待处理对象的信息及用于处理第二待处理对象的第二业务资源的配置信息；第二状态构建模块，用于根据当前时间段的下一个时间段、第二待处理对象的信息及第二业务资源的配置信息，构建下一个时间段的状态；收益确定模块，用于确定执行待执行的资源调度动作后的实际收益；样本确定模块，用于将当前时间段的状态、待执行的资源调度动作、实际收益及下一个时间段的状态作为一个样本，放入回收空间中；模型更新模块，用于从回收空间中随机抽取预设数量的样本，更新DQN算法模型。

在一些实施例中，模型更新模块包括：样本输入单元，用于将预设数量的样本分别输入到DQN算法模型中的估计值网络和目标值网络中，确定各预估报酬的估计值和目标值；参数更新单元，用于根据估计值和目标值确定的损失函数，更新估计值网络的参数值。

在一些实施例中，模型更新模块还包括：第二参数更新单元，用于每隔预设间隔，基于估计值网络参数值，更新目标值网络的参数值。

本公开实施例提供的业务资源的调度装置，当当前时间为业务资源调度的决策时刻时，确定当前时间所处的当前时间段，获取当前时间段的第一待处理对象的信息及第一业务资源的配置信息，构建当前时间段的状态，基于DQN算法模型，确定在当前时间段的状态下待执行的资源调度动作，执行该资源调度动作，重新配置第一业务资源。该装置基于时间段进行资源调度，可以根据实际情况灵活设置状态、资源调度动作，动态调整资源。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图9是根据一示例性实施方式示出的一种计算机设备的结构示意图。需要说明的是，图9示出的计算机设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

确定当前时间是否为业务资源调度的决策时刻；

当所述当前时间为所述决策时刻时，分别执行如下操作：

确定当前时间所处的当前时间段；

获取当前时间段的第一待处理对象的信息及用于处理所述第一待处理对象的第一业务资源的配置信息；

根据所述当前时间段、所述当前时间段的第一业务资源的配置信息及第一待处理对象的信息，构建所述当前时间段的状态；

基于DQN算法模型，确定在所述当前时间段的状态下待执行的资源调度动作；

执行确定的所述待执行的资源调度动作，重新配置所述第一业务资源。

以上具体地示出和描述了本发明的示例性实施方式。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种业务资源的调度方法，其特征在于，包括：

确定当前时间是否为业务资源调度的决策时刻；

当所述当前时间为所述决策时刻时，分别执行如下操作：

确定当前时间所处的当前时间段；

2.根据权利要求1所述的方法，其特征在于，基于DQN算法模型，确定在所述当前时间段的状态下待执行的资源调度动作包括：

将所述当前时间段的状态输入至所述DQN算法模型，分别确定在所述当前时间段的状态下，执行与所述当前时间段的状态相关联的各资源调度动作的预期报酬；

基于各资源调度动作的预期报酬，确定所述待执行的资源调度操作。

3.根据权利要求2所述的方法，其特征在于，基于各资源调度动作的预期报酬，确定所述待执行的资源调度操作包括：

以第一预设概率随机从与所述当前时间段的状态相关联的各资源调度动作中选取一个动作作为所述待执行的资源调度动作；

以第二预设概率从与所述当前时间段的状态相关联的各资源调度动作中选取具有最大预期报酬的动作作为所述待执行的资源调度动作；

其中，第一预设概率与第二预设概率之和为1。

4.根据权利要求1所述的方法，其特征在于，还包括：

确定重新配置所述第一业务资源后的第二待处理对象的信息及用于处理所述第二待处理对象的第二业务资源的配置信息；

根据所述当前时间段的下一个时间段、所述第二待处理对象的信息及所述第二业务资源的配置信息，构建所述下一个时间段的状态；

确定执行所述待执行的资源调度动作后的实际收益；

将所述当前时间段的状态、所述待执行的资源调度动作、所述实际收益及所述下一个时间段的状态作为一个样本，放入回收空间中；

从所述回收空间中随机抽取预设数量的样本，更新所述DQN算法模型。

5.根据权利要求4所述的方法，其特征在于，从所述回收空间中随机抽取预设数量的样本，更新所述DQN算法模型包括：

将所述预设数量的样本分别输入到所述DQN算法模型中的估计值网络和目标值网络中，确定各预估报酬的估计值和目标值；

根据所述估计值和目标值确定的损失函数，更新所述估计值网络的参数值。

6.根据权利要求5所述的方法，其特征在于，还包括：

每隔预设间隔，基于所述估计值网络参数值，更新所述目标值网络的参数值。

7.根据权利要求4所述的方法，其特征在于，所述实际收益是根据第一业务资源与第二业务资源的使用成本和第一待处理对象与第二待处理对象的违约成本确定的。

8.一种业务资源的调度装置，其特征在于，包括：

时刻确定模块，用于确定当前时间是否为业务资源调度的决策时刻；

操作执行模块，用于当所述当前时间为所述决策时刻时，分别执行操作；所述操作执行模块包括：

时间段确定模块，用于确定当前时间所处的当前时间段；

信息获取模块，用于获取当前时间段的第一待处理对象的信息及用于处理所述第一待处理对象的第一业务资源的配置信息；

状态构建模块，用于根据所述当前时间段、所述当前时间段的第一业务资源的配置信息及第一待处理对象的信息，构建所述当前时间段的状态；

动作确定模块，用于基于DQN算法模型，确定在所述当前时间段的状态下待执行的资源调度动作；

动作执行模块，用于执行确定的所述待执行的资源调度动作，重新配置所述第一业务资源。

9.根据权利要求8所述的装置，其特征在于，还包括：

信息确定模块，用于确定重新配置所述第一业务资源后的第二待处理对象的信息及用于处理所述第二待处理对象的第二业务资源的配置信息；

第二状态构建模块，用于根据所述当前时间段的下一个时间段、所述第二待处理对象的信息及所述第二业务资源的配置信息，构建所述下一个时间段的状态；

收益确定模块，用于确定执行所述待执行的资源调度动作后的实际收益；

样本确定模块，用于将所述当前时间段的状态、所述待执行的资源调度动作、所述实际收益及所述下一个时间段的状态作为一个样本，放入回收空间中；

模型更新模块，用于从所述回收空间中随机抽取预设数量的样本，更新所述DQN算法模型。

10.一种计算机设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。