CN111738409B

CN111738409B - 一种资源调度的方法及其相关设备

Info

Publication number: CN111738409B
Application number: CN202010409799.5A
Authority: CN
Inventors: 李希君; 罗威林; 陆佳文; 袁明轩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2024-05-24
Anticipated expiration: 2040-05-14
Also published as: CN111738409A

Abstract

本申请公开一种资源调度的方法及其相关设备。该方法中，在获取多个任务信息后，先通过资源调度的装置中的约束嵌入层筛选出满足预设条件的每个任务信息，然后资源调度的装置中的第一前馈网络模块、关系提取模块和第二前馈网络模块对这一部分任务信息进行特征提取和计算，得到满足预设条件的每个任务信息的匹配度。由于匹配度可用于指示候选配送资源与配送任务之间的匹配程度，故基于匹配度，可在多个候选配送资源中确定用于执行配送任务的目标配送资源。本申请可通过资源调度的装置，确定候选配送资源与配送任务之间的匹配程度，进而从多个候选配送资源中确定用于执行配送任务的目标配送资源，能够有效利用配送资源，避免配送资源浪费的情况发生。

Description

一种资源调度的方法及其相关设备

技术领域

本申请涉及智能规划技术领域，尤其涉及一种资源调度的方法及其相关设备。

背景技术

动态多点取送货问题(dynamic pickup and delivery problem)广泛存在于现实生活中，此类问题的主要目标是通过一定的调度方法将动态产生的配送任务分配给合适的配送资源(例如，配送车辆、配送人员等等)，以尽可能低的调度成本完成尽可能多的配送任务。

传统的调度方法在分配某一个配送任务时，通常将该配送任务推送至多个配送资源，由各个配送资源根据自身的条件，自主判断是否接受该配送任务，即通过抢单制完成配送任务的分配。

然而，上述调度方法严重依赖于个人经验，可能存在挑单、抢单等现象，导致最终接受配送任务的配送资源并非最优的配送资源，无法对配送资源实现合理利用和统筹优化，造成配送资源的浪费。

发明内容

本申请实施例提供了一种资源调度的方法及其相关设备，能够有效利用配送资源，避免配送资源浪费的情况发生。

本申请实施例的第一方面提供了一种资源调度的装置，该装置包括：

约束嵌入模块，用于从多个任务信息中获取满足预设条件的每个任务信息，其中，每个任务信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息；

第一前馈网络模块，用于对满足预设条件的每个任务信息进行特征提取，得到满足预设条件的每个任务信息的第一提取结果；

关系提取模块，用于对第一提取结果进行特征提取，得到满足预设条件的每个任务信息的第二提取结果，其中，关系提取模块基于多头注意力机制构建，满足预设条件的每个任务信息的第二提取结果基于该任务信息的第一提取结果，以及与该任务信息相关联的其余任务信息的第一提取结果生成；

第二前馈网络模块，用于基于第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度，匹配度用于指示候选配送资源与配送任务之间的匹配程度。

从上述资源调度的装置可以看出：通过约束嵌入模块、第一前馈网络模块、关系提取模块和第二前馈网络模块，可得到任务信息的匹配度。由于匹配度可用于指示候选配送资源与配送任务之间的匹配程度，故基于匹配度，可在多个候选配送资源中确定用于执行配送任务的目标配送资源(即最优的配送资源)，能够有效利用配送资源，避免配送资源浪费的情况发生。

结合第一方面，在本申请实施例的第一方面的第一种实现方式中，前述预设条件为：候选配送资源具有至少一个合格的运输路径。

上述实现方式中，可通过判断每个任务信息所对应的候选配送资源是否具备至少一个合格的运输路径，从而在多个任务信息中确定出满足预设条件的任务信息和不满足预设条件的任务信息。

结合第一方面或第一方面的第一种实现方式，在本申请实施例的第一方面的第二种实现方式中，第二前馈网络模块，还用于输出不满足预设条件的每个任务信息的匹配度，不满足预设条件的每个任务信息的匹配度为预设值。

上述实现方式中，第二前馈网络模块还可输出不满足预设条件的每个任务信息的匹配度，以对齐资源调度的装置的输出。

结合第一方面或第一方面的第一种实现方式或第一方面的第二种实现方式，在本申请实施例的第一方面的第三种实现方式中，第二前馈网络模块，还用于对第一提取结果和/或第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度。

上述实现方式中，第二前馈网络模块通过第一提取结果和/或第二提取结果进行计算，可使得计算得到的匹配度具有一定的准确性。

结合第一方面或第一方面的第一种实现方式或第三种实现方式中的任意一种，在本申请实施例的第一方面的第四种实现方式中，第二前馈网络模块，还用于对第三提取结果和第二提取结果进行计算(第三提取结果为第一前馈网络模块中的部分层对满足预设条件的任务信息进行特征提取后，所得到的结果)，得到满足预设条件的每个任务信息的匹配度。

上述实现方式中，第二前馈网络模块通过第三提取结果和第二提取结果进行计算，可使得计算得到的匹配度具有一定的准确性。

结合第一方面或第一方面的第一种实现方式至第四种实现方式中的任意一种，在本申请实施例的第一方面的第五种实现方式中，第一前馈网络模块包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种，提高了方案的灵活度和可选择性。

结合第一方面或第一方面的第一种实现方式至第五种实现方式中的任意一种，在本申请实施例的第一方面的第六种实现方式中，第二前馈网络模块包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种，提高了方案的灵活度和可选择性。

本申请实施例的第二方面提供了一种资源调度的方法，该方法通过资源调度的装置实现，该资源调度的装置包括约束嵌入模块、第一前馈网络模块、关系提取模块和第二前馈网络模块，该方法包括：

获取多个任务信息，其中，每个任务信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息；

通过约束嵌入模块从多个任务信息中获取满足预设条件的每个任务信息；

通过第一前馈网络模块对满足预设条件的每个任务信息进行特征提取，得到满足预设条件的每个任务信息的第一提取结果；

通过关系提取模块对第一提取结果进行特征提取，得到满足预设条件的每个任务信息的第二提取结果，其中，关系提取模块基于多头注意力机制构建，满足预设条件的每个任务信息的第二提取结果基于该任务信息的第一提取结果，以及与该任务信息相关联的其余任务信息的第一提取结果生成；

通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度，匹配度用于指示候选配送资源与配送任务之间的匹配程度；

基于匹配度，在多个候选配送资源中确定用于执行配送任务的目标配送资源。

从上述资源调度的方法中，可以看出：在获取多个任务信息后，先通过资源调度的装置中的约束嵌入层筛选出满足预设条件的每个任务信息，然后资源调度的装置中的第一前馈网络模块、关系提取模块和第二前馈网络模块对这一部分任务信息进行特征提取和计算，得到满足预设条件的每个任务信息的匹配度。由于匹配度可用于指示候选配送资源与配送任务之间的匹配程度，故基于匹配度，可在多个候选配送资源中确定用于执行配送任务的目标配送资源。因此，本申请实施例可通过资源调度的装置，确定候选配送资源与配送任务之间的匹配程度，进而从多个候选配送资源中确定用于执行配送任务的目标配送资源，能够有效利用配送资源，避免配送资源浪费的情况发生。

结合第二方面，在本申请实施例的第二方面的第一种实现方式中，该预设条件为：所述候选配送资源具有至少一个合格的运输路径。

结合第二方面或第二方面的第一种实现方式，在本申请实施例的第二方面的第二种实现方式中，该方法还包括：

通过第二前馈网络模块输出不满足预设条件的每个任务信息的匹配度，不满足预设条件的每个任务信息的匹配度为预设值。

上述实现方式中，为了对齐资源调度的装置的输出，第二前馈网络模块还可输出不满足预设条件的每个任务信息的匹配度，该匹配度为预设值。

结合第二方面或第二方面的第一种实现方式或第二方面的第二种实现方式，在本申请实施例的第二方面的第三种实现方式中，通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度包括：

通过第二前馈网络模块对第一提取结果和/或第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度。

上述实现方式中，通过第二前馈网络模块对第一提取结果和/或第二提取结果进行计算，可使得计算得到的匹配度具有一定的准确性。

结合第二方面或第二方面的第一种实现方式或第三种实现方式中的任意一种，在本申请实施例的第二方面的第四种实现方式中，通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度包括：

通过第二前馈网络模块对第三提取结果和第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度，其中，第三提取结果为第一前馈网络模块中的部分层对满足预设条件的任务信息进行特征提取后，所得到的结果。

上述实现方式中，通过第二前馈网络模块对第三提取结果和第二提取结果进行计算，可使得计算得到的匹配度具有一定的准确性。

结合第二方面或第二方面的第一种实现方式至第四种实现方式中的任意一种，在本申请实施例的第二方面的第五种实现方式中，基于匹配度，在多个候选配送资源中确定用于执行配送任务的目标配送资源之后，该方法还包括：将配送任务分配至目标配送资源，提高了方案更加全面。

结合第二方面或第二方面的第一种实现方式至第五种实现方式中的任意一种，在本申请实施例的第二方面的第六种实现方式中，第一前馈网络模块包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种，提高了方案的灵活度和可选择性。

结合第二方面或第二方面的第一种实现方式至第六种实现方式中的任意一种，在本申请实施例的第二方面的第七种实现方式中，第二前馈网络模块包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种，提高了方案的灵活度和可选择性。

本申请实施例的第三方面提供了一种模型训练的方法，该方法通过待训练装置实现，所述待训练装置包括约束嵌入模块、第一前馈网络模块、关系提取模块和第二前馈网络模块，该方法包括：

获取多个待训练信息，其中，每个待训练信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息；

通过约束嵌入模块从多个待训练信息中获取满足预设条件的每个待训练信息；

通过第一前馈网络模块对满足预设条件的每个待训练信息进行特征提取，得到满足预设条件的每个待训练信息的第一提取结果；

通过关系提取模块对第一提取结果进行特征提取，得到满足预设条件的每个待训练信息的第二提取结果，其中，关系提取模块基于多头注意力机制构建，满足预设条件的每个待训练信息的第二提取结果基于该待训练信息的第一提取结果，以及与该待训练信息相关联的其余待训练信息的第一提取结果生成；

通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度，第一匹配度用于指示候选配送资源与配送任务之间的匹配程度；

基于第一匹配度和第二匹配度，通过目标损失函数对待训练装置进行训练，得到资源调度的装置，其中，第二匹配度为真实的匹配度。

从上述模型训练的方法所得到的资源调度的装置，可用于从多个配送资源中，确定出用于执行某个配送任务的最优配送资源，能够有效利用配送资源，避免配送资源浪费的情况发生。

结合第三方面，在本申请实施例的第三方面的第一种实现方式中，该预设条件为：候选配送资源具有至少一个合格的运输路径。

结合第三方面或第三方面的第一种实现方式，在本申请实施例的第三方面的第二种实现方式中，该方法还包括：

通过第二前馈网络模块输出不满足预设条件的每个待训练信息的第一匹配度，不满足预设条件的每个待训练信息的第一匹配度为预设值。

结合第三方面或第三方面的第一种实现方式或第三方面的第二种实现方式，在本申请实施例的第三方面的第三种实现方式中，通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度包括：

通过第二前馈网络模块对第一提取结果和/或第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度。

结合第三方面或第三方面的第一种实现方式或第三种实现方式中的任意一种，在本申请实施例的第三方面的第四种实现方式中，通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度包括：

通过第二前馈网络模块对第三提取结果和第二提取结果进行计算得到满足预设条件的每个待训练信息的第一匹配度，其中，第三提取结果为第一前馈网络模块中的部分层对满足预设条件的任务信息进行特征提取后，所得到的结果。

结合第三方面或第三方面的第一种实现方式至第四种实现方式中的任意一种，在本申请实施例的第三方面的第五种实现方式中，第一前馈网络模块包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种。

结合第三方面或第三方面的第一种实现方式至第五种实现方式中的任意一种，在本申请实施例的第三方面的第六种实现方式中，第二前馈网络模块包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种。

本申请实施例的第四方面提供了一种资源调度的装置，该装置包括：

获取模块，用于获取多个任务信息，其中，每个任务信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息；

约束嵌入模块，用于从多个任务信息中获取满足预设条件的每个任务信息；

第二前馈网络模块，用于基于第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度，匹配度用于指示候选配送资源与配送任务之间的匹配程度；

确定模块，用于基于匹配度，在多个候选配送资源中确定用于执行配送任务的目标配送资源。

结合第四方面，在本申请实施例的第四方面的第一种实现方式中，该预设条件为：所述候选配送资源具有至少一个合格的运输路径。

结合第四方面或第四方面的第一种实现方式，在本申请实施例的第四方面的第二种实现方式中，第二前馈网络模块，还用于输出不满足预设条件的每个任务信息的匹配度，不满足预设条件的每个任务信息的匹配度为预设值。

结合第四方面或第四方面的第一种实现方式或第四方面的第二种实现方式，在本申请实施例的第四方面的第三种实现方式中，第二前馈网络模块，还用于对第一提取结果和/或第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度。

结合第四方面或第四方面的第一种实现方式或第三种实现方式中的任意一种，在本申请实施例的第四方面的第四种实现方式中，第二前馈网络模块，还用于对第三提取结果和第二提取结果进行计算得到满足预设条件的每个任务信息的匹配度，其中，第三提取结果为第一前馈网络模块中的部分层对满足预设条件的任务信息进行特征提取后，所得到的结果。

结合第四方面或第四方面的第一种实现方式至第四种实现方式中的任意一种，在本申请实施例的第四方面的第五种实现方式中，该装置还包括：分配模块，用于将配送任务分配至目标配送资源。

结合第四方面或第四方面的第一种实现方式至第五种实现方式中的任意一种，在本申请实施例的第四方面的第六种实现方式中，第一前馈网络模块包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种。

结合第四方面或第四方面的第一种实现方式至第六种实现方式中的任意一种，在本申请实施例的第四方面的第七种实现方式中，第二前馈网络模块包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种。

本申请实施例的第五方面提供了一种模型训练的装置，该装置包括：

获取模块，用于获取多个待训练信息，其中，每个待训练信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息；

约束嵌入模块，用于从多个待训练信息中获取满足预设条件的每个待训练信息；

第一前馈网络模块，用于对满足预设条件的每个待训练信息进行特征提取，得到满足预设条件的每个待训练信息的第一提取结果；

关系提取模块，用于对第一提取结果进行特征提取，得到满足预设条件的每个待训练信息的第二提取结果，其中，关系提取模块基于多头注意力机制构建，满足预设条件的每个待训练信息的第二提取结果基于该待训练信息的第一提取结果，以及与该待训练信息相关联的其余待训练信息的第一提取结果生成；

第二前馈网络模块，用于基于第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度，第一匹配度用于指示候选配送资源与配送任务之间的匹配程度；

训练模块，用于基于第一匹配度和第二匹配度，通过目标损失函数对待训练装置进行训练，得到资源调度的装置，其中，第二匹配度为真实的匹配度。

结合第五方面，在本申请实施例的第五方面的第一种实现方式中，该预设条件为：候选配送资源具有至少一个合格的运输路径。

结合第五方面或第五方面的第一种实现方式，在本申请实施例的第五方面的第二种实现方式中，第二前馈网络模块，还用于输出不满足预设条件的每个待训练信息的第一匹配度，不满足预设条件的每个待训练信息的第一匹配度为预设值。

结合第五方面或第五方面的第一种实现方式或第五方面的第二种实现方式，在本申请实施例的第五方面的第三种实现方式中，第二前馈网络模块，还用于对第一提取结果和/或第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度。

结合第五方面或第五方面的第一种实现方式或第三种实现方式中的任意一种，在本申请实施例的第五方面的第四种实现方式中，第二前馈网络模块，还用于对第三提取结果和第二提取结果进行计算得到满足预设条件的每个待训练信息的第一匹配度，其中，第三提取结果为第一前馈网络模块中的部分层对满足预设条件的任务信息进行特征提取后，所得到的结果。

结合第五方面或第五方面的第一种实现方式至第四种实现方式中的任意一种，在本申请实施例的第五方面的第五种实现方式中，第一前馈网络模块包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种。

结合第五方面或第五方面的第一种实现方式至第五种实现方式中的任意一种，在本申请实施例的第五方面的第六种实现方式中，第二前馈网络模块包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种。

本申请实施例的第六方面提供了一种资源调度的装置，该装置包括：

一个或一个以上中央处理器，存储器，输入输出接口，有线或无线网络接口，电源；

存储器为短暂存储存储器或持久存储存储器；

中央处理器配置为与所述存储器通信，在资源调度的装置上执行所述存储器中的指令操作以执行如前述第二方面或第三方面中任一项所述的方法。

本申请实施例的第七方面一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如前述第二方面或第三方面中任一项所述的方法。

本申请实施例的第八方面一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述第二方面或第三方面中任一项所述的方法。

本申请实施例的第九方面还提供了一种资源调度的系统，该系统包括资源调度的装置和设备，该装置与设备通信连接，该装置包括至少一个处理器，至少一个存储器以及至少一个通信接口；处理器、存储器和通信接口通过通信总线连接并完成相互间的通信；

至少一个存储器用于存储代码；

至少一个处理器用于执行前述代码，以执行如前述第二方面任一项所述的方法，以确定用于执行配送任务的目标配送资源；

至少一个通信接口，用于与设备或通信网络通信，以将目标配送资源发送至设备或通信网络。

结合第九方面，在本申请实施例的第九方面的第一种实现方式中，通信接口可以为软件开发工具包或应用程序接口。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在获取多个任务信息后，先通过资源调度的装置中的约束嵌入层筛选出满足预设条件的每个任务信息，然后资源调度的装置中的第一前馈网络模块、关系提取模块和第二前馈网络模块对这一部分任务信息进行特征提取和计算，得到满足预设条件的每个任务信息的匹配度。由于匹配度可用于指示候选配送资源与配送任务之间的匹配程度，故基于匹配度，可在多个候选配送资源中确定用于执行配送任务的目标配送资源。因此，本申请实施例可通过资源调度的装置，确定候选配送资源与配送任务之间的匹配程度，进而从多个候选配送资源中确定用于执行配送任务的目标配送资源，能够有效利用配送资源，避免配送资源浪费的情况发生。

附图说明

图1为本申请实施例提供的资源调度的系统的一个应用场景示意图；

图2为本申请实施例提供的资源调度的装置的一个结构示意图；

图3为本申请实施例提供的资源调度的方法的一个流程示意图；

图4为本申请实施例提供的资源调度的装置的另一结构示意图；

图5为本申请实施例提供的资源调度结果的第一示意图；

图6为本申请实施例提供的资源调度结果的第二示意图；

图7为本申请实施例提供的资源调度结果的第三示意图；

图8为本申请实施例提供的资源调度结果的第四示意图；

图9为本申请实施例提供的模型训练的方法的一个流程示意图；

图10为本申请实施例提供的资源调度的装置的又一结构示意图；

图11为本申请实施例提供的模型训练的装置的一个结构示意图；

图12为本申请实施例提供的资源调度的装置的再一结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

人工智能(artificial intelligence，AI)技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能的技术学科，AI技术通过感知环境、获取知识并使用知识获得最佳结果。换句话说，人工智能技术是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。因此，可利用人工智能解决现实生活中常见的动态多点取送货问题。

本申请实施例可通过资源调度的系统实现，该系统包括资源调度的装置和设备，其中，资源调度的装置可作为一个服务中心，为与其通信连接的设备提供服务。具体地，该系统可应用于存在动态多点取送货问题的场景中，例如，物流园区车辆调度场景、外卖生鲜即时配送场景、共享服务出行场景以及维修工单指派场景等等。在此类场景中，通常需要将动态产生的配送任务(如运输订单、外卖配送订单、维修工单等等)分配给合适的配送资源(与前述设备对应，如配送车辆、配送人员等等)，以实现配送服务。为了便于理解，下面以物流园区车辆调度场景为例，并结合图1对前述过程进行说明。图1为本申请实施例提供的资源调度的系统的一个应用场景示意图，如图1所示，服务中心D(即前述资源调度的系统)产生运输订单O1后，可将订单O1通知多个车辆。车辆V1可基于自身的运输条件(如装载容量、运输时间等等)，抢先接受订单O1，由于车辆V1此前已接受订单O2，故车辆V1可更新其运输路径并按新的运输路径进行运输，即按地点F1(订单O1的提货点)→地点F2(订单O2的提货点)→地点F3(订单OA2的卸货点)→地点F4(订单O1的卸货点)进行运输，以完成所有的订单。同理，若服务中心继续产生订单O3，车辆V2基于自身的运输条件接受订单O3后，可按地点F5(订单O3的提货点)→地点F6(订单OA3的卸货点)进行运输等等。

上述过程中，配送资源在判断是否接受配送任务时，通常基于个人经验进行判断，容易存在挑单、抢单等现象，导致最终接受配送任务的配送资源并非最优的配送资源。为了合理利用配送资源，本申请实施例提供了一种资源调度的装置，该资源调度的装置为一种神经网络模型，可用于从多个配送资源中，确定出用于执行某个配送任务的最优配送资源，能够有效利用配送资源，避免配送资源浪费的情况发生。

图2为本申请实施例提供的资源调度的装置的一个结构示意图，如图2所示，该装置的输入通常为多个任务信息，一个任务信息包括待分配的配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息，需要说明的是，候选配送资源即为可接受该配送任务的配送资源。具体地，资源调度的装置可包括约束嵌入模块201、第一前馈网络模块202、关系提取模块203以及第二前馈网络模块204。以下将对资源调度的装置中的各个模块分别进行简单的介绍：

约束嵌入模块201的输入端作为资源调度的装置的输入端，可接收外部输入的多个任务信息。约束嵌入模块201内具有预设条件，约束嵌入模块201可基于该预设条件对多个任务信息进行筛选，以将多个任务信息分为两部分，其中一部分为满足预设条件的任务信息，另一部分为不满足预设条件的任务信息。约束嵌入模块201在确定不满足预设条件的每个任务信息后，则可阻止这部分任务信息输入第一前馈网络模块202，故在后续特征提取的过程中，可防止不满足预设条件的任务信息对满足预设条件的任务信息造成影响。

第一前馈网络模块202的输入端与约束嵌入模块201的输出端连接。第一前馈网络模块202可对满足预设条件的每个任务信息进行特征提取，得到满足预设条件的每个任务信息的第一提取结果。第一前馈网络模块202可为多层感知机(multi-layer perceptron，MLP)、卷积神经网络(convolutional neural networks,CNN)、递归神经网络(recursiveneural network)、循环神经网络(recurrent neural network,RNN)等模型中的任意一种，此处不做限制。

关系提取模块203的输入端与第一前馈网络模块202的输出端连接。关系提取模块203基于多头注意力机制(multi-head attention mechanism)构建，可对满足预设条件的每个任务信息的第一提取结果进行特征提取，得到满足预设条件的每个任务信息的第二提取结果。其中，满足预设条件的每个任务信息的第二提取结果基于该任务信息的第一提取结果，以及与该任务信息相关联的其余任务信息的第一提取结果生成。

第二前馈网络模块204的输入端与关系提取模块203的输出端连接。第二前馈网络模块204可基于满足预设条件的每个任务信息的第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度。第二前馈网络模块204进行计算的方式可有多种，例如，第二前馈网络模块204可直接对满足预设条件的每个任务信息的第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度。又如，第二前馈网络模块204可对满足预设条件的每个任务信息的第一提取结果和满足预设条件的每个任务信息的第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度(需要说明的是，在此种情况下，第一前馈网络模块202的输出端还与第二前馈网络模块204的输入端连接，即如图2中的虚线所示。为了便于说明，下文均以该情况进行介绍)。再如，第二前馈网络模块204还可对满足预设条件的每个任务信息的第三提取结果和满足预设条件的每个任务信息的第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度，其中，第三提取结果为第一前馈网络模块中的部分层对满足预设条件的任务信息进行特征提取后，所得到的结果等等(需要说明的是，在此种情况下，第一前馈网络模块202在末侧具有一个输出端，该输出端与关系提取模块203的输入端连接，用于向关系提取模块203输出第一提取结果。第一前馈网络模块202在中间部分还具备另一个输出端，该输出端与第二前馈网络模块204的输入端连接，用于向第二前馈网络模块204输出第三提取结果，图2中并未示出该输出端)。

此外，第二前馈网络模块204还可输出不满足预设条件的每个任务信息的匹配度，不满足预设条件的每个任务信息的匹配度为预设值，以对齐整个资源调度的装置的输出。

第二前馈网络模块204通常被配置成深度Q网络(deep q-network，DQN)模型，例如，该模型可为基于Q学习算法的MLP、基于Q学习算法的CNN、基于Q学习算法的递归神经网络、基于Q学习算法的RNN等模型中的任意一种，此处不做限制。

通过约束嵌入模块201、第一前馈网络模块202、关系提取模块203以及第二前馈网络模块204，可对每个任务信息进行相应的处理，得到每个任务信息的匹配度，即每个候选配送资源与配送任务之间的匹配程度，从而在多个候选配送资源中确定出最优的配送资源。

为了进一步理解，以下将结合图3对前述最优的配送资源的确定过程进行介绍。图3为本申请实施例提供的资源调度的方法的一个流程示意图，该方法可通过如图2所示的资源调度的装置实现。如图3所示，该方法包括：

301、获取多个任务信息。

本实施例中，当需要为某个配送任务分配配送资源时，先确定可接受配送任务的多个候选配送资源。然后，基于配送任务的信息以及多个候选配送资源的信息，生成多个任务信息。在多个任务信息中，每个任务信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息。例如，在产生新的配送任务后，先确定可接受该配送任务的候选配送资源a、候选配送资源b和候选配送资源c。然后，基于将该配送任务的信息与三个候选配送资源的信息，生成三个任务信息，其中，任务信息A包含该配送任务的信息以及候选配送资源a的信息，任务信息B包含该配送任务的信息以及候选配送资源b的信息，任务信息C包含该配送任务的信息以及候选配送资源c的信息。

此外，配送任务的信息包括但不限于待运货物的提货地点、待运货物的送货地点、待运货物的数量、待运货物的重量、运输时间等子信息，候选配送资源的信息包括但不限于候选配送资源的实时位置、剩余可装载容量、已接受的订单、运输路径等子信息。由于配送任务的信息通常包含多个维度的信息(即前述描述中，配送任务的信息所包含的一项子信息即为一个维度的信息)，候选配送资源的信息通常也包含多个维度的信息，故由二者构成的任务信息也包含多维度的信息。

302、通过约束嵌入模块从多个任务信息中获取满足预设条件的每个任务信息。

在获取多个任务信息后，可通过资源调度的装置中的约束嵌入层对多个任务信息进行筛选。具体地，约束嵌入层内具有预设条件，约束嵌入模块可基于该预设条件对多个任务信息进行筛选，以将多个任务信息分为两部分，其中一部分为满足预设条件的任务信息，另一部分为不满足预设条件的任务信息。

该预设条件可根据实际需求进行设置，例如，设预设条件可为候选配送资源具有至少一个合格的运输路径。对于多个任务信息中的某一个任务信息K(包含候选配送资源k的信息)而言，约束嵌入层在尝试将配送任务分配至候选配送资源k的情况下，规划出候选配送资源k的所有运输路径，此时，约束嵌入模块可判断候选配送资源k的所有运输路径中，是否存在至少一个合格的运输路径(例如，运输路径所需的运输时间小于预设时间，又如，运输路径的长度小于预设长度等等)，若存在，则将任务信息K确定为满足预设条件的任务信息，若不存在，则将任务信息K确定为不满足预设条件的任务信息。同理，对其余任务信息也可执行前述过程，此处不再赘述。

约束嵌入模块在确定出不满足预设条件的每个任务信息后，则可阻止这部分任务信息输入至第一前馈网络模块，故对于这部分任务信息而言，在第一前馈网络模块中相当于零输入。而且，约束嵌入模块会将满足预设条件的每个任务信息输入至第一前馈网络模块。为了便于理解，下文结合图4对前述阻止输入的过程进行说明。图4为本申请实施例提供的资源调度的装置的另一结构示意图，如图4所示，依旧如上述例子，若任务信息K被确定为不满足预设条件的任务信息，则约束嵌入模块201阻止任务信息K进入第一前馈网络模块202，故第一前馈网络模块202、关系提取模块203和第二前馈网络模块204则不会对任务信息K进行处理(相当于取消任务信息K在资源调度的装置中所对应的权重，如图4中的虚线所示)，使得任务信息K无法向上和向周围传递信息，故第一前馈网络模块202、关系提取模块203和第二前馈网络模块204在处理满足预设条件的任务信息时，任务信息K无法对这部分任务信息造成影响。

本实施例中，通过提前对输入至资源调度的装置的多个任务信息进行筛选，筛选出不满足预设条件的任务信息后，阻止这部分任务信息在资源调度的装置中传输，以避免这部分任务信息对其余满足预设条件的任务信息产生影响，从而使得资源调度的装置输出的匹配度更加准确。

303、通过第一前馈网络模块对满足预设条件的每个任务信息进行特征提取，得到满足预设条件的每个任务信息的第一提取结果。

第一前馈网络模块接收到来自约束嵌入层的多个任务信息后，可对满足预设条件的每个任务信息进行特征提取，得到满足预设条件的每个任务信息的第一提取结果。具体地，第一前馈网络模块所执行的特征提取操作(也可视为过滤操作)，可过滤满足预设条件的每个任务信息中的一些非必要信息，仅保留满足预设条件的每个任务信息中的必要信息，进而得到满足预设条件的每个任务信息的第一提取结果。例如，为第一前馈网络所设置的过滤条件中，待运货物的重量为非必要信息。某个任务信息在经过第一前馈网络的过滤操作后，可将该任务信息中所包含的待运货物的重量这一项子信息滤除，得到该任务信息的第一提取结果。应理解，过滤条件中的非必要信息可根据实际需求进行设置，此处不做具体限制。

304、通过关系提取模块对第一提取结果进行特征提取，得到满足预设条件的每个任务信息的第二提取结果。

在得到满足预设条件的每个任务信息的第一提取结果后，第一前馈网络模块可将这一部分第一提取结果输入至关系提取模块。关系提取模块接收到满足预设条件的每个任务信息的第一提取结果后，则对每个第一提取结果进行特征提取，得到满足预设条件的每个任务信息的第二提取结果。具体地，满足预设条件的每个任务信息的第二提取结果基于该任务信息的第一提取结果，以及与该任务信息相关联的其余任务信息的第一提取结果生成。为了便于理解，下文举例对关系提取模块的特征提取操作(也可视为融合操作)进行说明。例如，设任务信息M和任务信息N均为满足预设条件的任务信息。关系提取模块接收到任务信息M的第一提取结果后，可先确定与任务信息M相关联的任务信息N。然后，基于任务信息M的第一提取结果和任务信息N的第一提取结果，关系提取模块确定并生成任务信息M与任务信息N之间的关系。最后，关系提取模块将任务信息M的第一提取结果，任务信息M与任务信息N之间的关系进行融合，得到任务信息M的第二提取结果。

此外，任务信息之间的关系可以为地理位置上相关联，也可以为运输时间上相关联，还可以为剩余可装载容量上相关联等等，此处不做限制。依旧如上述例子，任务信息M包含候选配送资源m的信息，任务信息N包含候选配送资源n的信息。若候选配送资源m和候选配送资源n位于同一个预设的地理区域内，则将任务信息M和任务信息N视为地理位置上相关联。若候选配送资源m运输其已接收的配送任务所需要的时间，与候选配送资源n运输其已接收的配送任务所需要的时间接近，则将任务信息M和任务信息N视为运输时间上相关联。若候选配送资源m的剩余可装载容量与候选配送资源n的剩余可装载容量接近，则将任务信息M和任务信息N视为剩余可装载容量上相关联等等。

305、通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度。

在得到满足预设条件的每个任务信息的第二提取结果后，第二前馈网络模块可接收来自满足预设条件的每个任务信息的第一提取结果(来自第一前馈网络模块)和满足预设条件的每个任务信息的第二提取结果(来自关系提取模块)。然后，第二前馈网络模块对满足预设条件的每个任务信息的第一提取结果以及相应任务信息的第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度。

为了便于理解，下文将举例对第二前馈网络模块的计算操作进行说明。例如，设满足预设条件的任务信息总共有三个，分别为任务信息X、任务信息Y和任务信息Z。第二前馈网络模块接收到任务信息X的第一提取结果、任务信息X的第二提取结果、任务信息Y的第一提取结果、任务信息Y的第二提取结果、任务信息Z的第一提取结果和任务信息Z的第二提取结果后，则对任务信息X的第一提取结果和任务信息X的第二提取结果进行计算，得到任务信息X的匹配度，并对任务信息Y的第一提取结果、任务信息Y的第二提取结果进行计算，得到任务信息Y的匹配度，并对任务信息Z的第一提取结果和任务信息Z的第二提取结果进行计算，得到任务信息Z的匹配度。

306、通过第二前馈网络模块输出不满足预设条件的每个任务信息的匹配度。

约束嵌入模块在确定不满足预设条件的每个任务信息后，阻止这部分任务信息输入第一前馈网络模块。因此，对于这部分任务信息而言，在第一前馈网络模块和关系提取模块中均可视为零输入和零输出。为了对齐整个资源调度的装置的输出，可提前对第二前馈网络模块进行设置，使得第二前馈网络模块在零输入的情况，输出取值为预设值的匹配度。因此，第二前馈网络模块可为不满足预设条件的每个任务信息输出一个匹配度，该匹配度通常为一个极小值，可根据实际需求进行设置。

至此，资源调度的装置可输出每个任务信息的匹配度，包括不满足预设条件的每个任务信息的匹配度以及满足预设条件的每个任务信息的匹配度。

值得注意的是，每个任务信息的匹配度即为每个候选配送资源与配送任务之间的匹配程度，该匹配度由第二前馈网络模块输出，由于第二前馈网络模块通常被配置成DQN，故匹配度可以Q值的方式呈现，一般Q值可在[0,1]之间取值。若某个候选配送资源与配送任务之间的匹配程度取值(即Q值)越大，则说明将配送任务分配给该候选配送资源所带来的期望收益越高。

307、基于匹配度，在多个候选配送资源中确定用于执行配送任务的目标配送资源。

在得到每个任务信息的匹配度后，可从多个匹配度中确定出最大匹配度，并在多个候选配送资源中确定出该最大匹配度所对应的候选配送资源，即为用于执行配送任务的目标配送资源。

308、将配送任务分配至目标配送资源。

在确定目标配送资源后，可将配送任务分配至目标配送资源，以使得目标配送资源执行该配送任务。

本实施例中，在获取多个任务信息后，先通过资源调度的装置中的约束嵌入层筛选出满足预设条件的每个任务信息，然后资源调度的装置中的第一前馈网络模块、关系提取模块和第二前馈网络模块对这一部分任务信息进行特征提取和计算，得到满足预设条件的每个任务信息的匹配度。由于匹配度可用于指示候选配送资源与配送任务之间的匹配程度，故基于匹配度，可在多个候选配送资源中确定用于执行配送任务的目标配送资源。因此，本申请实施例可通过资源调度的装置，确定每个候选配送资源与配送任务之间的匹配程度，进而从多个候选配送资源中确定用于执行配送任务的目标配送资源，能够有效利用配送资源，避免配送资源浪费的情况发生。

为了进一步说明本申请实施例提供的资源调度的方法，以下将提供一个应用例进行具体介绍，该应用例通过第一模型、第二模型、第三模型和第四模型实现资源调度，以下分别对四个模型进行介绍：第一模型为图2所示的资源调度的装置。第二模型相较于第一模型，缺少约束嵌入模块。第三模型相较于第一模型，缺少关系提取模块，第四模型相较于第一模型，既缺少约束嵌入模块，又缺少关系提取模块，因此，四个模型具备不同的性能。

需要说明的是，上述四个模型在训练过程所使用的样本相同，且四个模型在进行特征提取时所用的任务信息也相同。具体地，本应用例提供的运输订单数量分别为6、7、8和10个，投入的配送车辆的数量为5辆，任意一个订单的信息和任意一辆车的信息可构成一个任务信息，故可生成多个任务信息。

通过上述四个模型中的任意一个对多个任务信息进行特征提取后，可得到不同配送车辆与不同运输订单之间的匹配程度，并基于匹配程度的大小，从5台配送车辆中确定为每个运输订单分配的目标配送车辆，以实现资源调度。

由于模型的性能不同，故每个模型的资源调度结果(即运输订单及其相应的目标配送车辆之间的合适程度)也有优劣之分。评定资源调度结果的优劣可通过三个指标进行呈现：(1)使用车辆数(number of used vehicle,NUV)，即分配完所有运输订单所需的配送车辆剩数量；(2)平均订单成本(mean order cost,MOC)，即完成分配后，每个运输订单被运输的平均成本；(3)订单满足率(order satisfaction rate,OSR)，即被分配的运输订单的数量除以运输订单的总数量所得到的结果。

基于上述四个模型进行资源调度后，资源调度结果如表1所示：

表1资源调度结果

基于表1可知，在运输订单数量为6、7、8和10个，且配送车辆为5辆时，配送车辆相对于运输订单是饱和的(即视为供大于求)，可保证每个订单均能分配至某一台车辆上(由于运输订单数量较小)，即OSR为100％。而通过比较模型的NUV和MOC，可看出第一模型、第二模型优于第三模型、第四模型。

通过分析可知，由于前述数据中，运输订单的数量和配送车辆的数量均较小，因此无法突显出四个模型在资源调度上的性能差距。因此，本应用例还提供了额外的两组数据进行资源调度，其中第一组数据为50辆配送车辆以及150个运输订单(供大于求的情况)，第二组数据为50辆配送车辆以及500个运输订单(供小于求)。在两组数据下，四个模型的资源调度结果如图5、图6、图7和图8所示(图5为本申请实施例提供的资源调度结果的第一示意图，图6为本申请实施例提供的资源调度结果的第二示意图，图7为本申请实施例提供的资源调度结果的第三示意图，图8为本申请实施例提供的资源调度结果的第四示意图)。

图5所展示的内容为：在供大于求的情况下，每个模型的NUV。图6所展示的内容为：在供大于求的情况下，每个模型的MOC。图7所展示的内容为：在供小于求的情况下，每个模型的OSR。图8所展示的内容为：在供小于求的情况下，每个模型的MOC。需要说明的是，在供大于求的情况下，每个模型的OSR均为100％。在供小于求的情况下，每个模型的NUV均为50辆。基于图5、图6、图7和图8所呈现的结果，可知在不同的供需关系下，第一模型为四个模型中性能最优的模型。

以上是对本申请实施例提供的资源调度的方法所进行的具体说明。以下将对本申请实施例提供的模型训练的方法进行介绍。图9为本申请实施例提供的模型训练的方法的一个流程示意图，如图9所示，该方法通过待训练装置实现，待训练装置包括约束嵌入模块、第一前馈网络模块、关系提取模块和第二前馈网络模块，该方法包括：

901、获取多个待训练信息。

本实施例中，每个待训练信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息；

902、通过约束嵌入模块从多个待训练信息中获取满足预设条件的每个待训练信息。

903、通过第一前馈网络模块对满足预设条件的每个待训练信息进行特征提取，得到满足预设条件的每个待训练信息的第一提取结果。

904、通过关系提取模块对第一提取结果进行特征提取，得到满足预设条件的每个待训练信息的第二提取结果。

本实施例中，关系提取模块基于多头注意力机制构建，满足预设条件的每个待训练信息的第二提取结果基于该待训练信息的第一提取结果，以及与该待训练信息相关联的其余待训练信息的第一提取结果生成；

905、通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度。

本实施例中，第一匹配度用于指示候选配送资源与配送任务之间的匹配程度；

步骤901至步骤905的具体说明可参考上述实施例中步骤301至步骤305的相关说明内容，此处不再赘述。

906、基于第一匹配度和第二匹配度，通过目标损失函数对待训练装置进行训练，得到资源调度的装置。

在进行模型训练前，已提前确定每个候选配送资源与配送任务之间的真实匹配程度，即已提前准备每个待训练信息的第二匹配度(真实Q值)。因此，在得到每个待训练信息的第一匹配度(预测Q值)后，可以通过目标损失函数计算每个待训练信息的第一匹配度和第二匹配度之间的差距。若某个待训练信息的两个匹配度之间的差距在合格范围内，则视为合格的待训练信息，若在合格范围外，则视为不合格的待训练信息。若多个待训练信息中，仅有少量合格的待训练信息，则调整待训练模型的参数，并重新用另一批待训练信息进行训练，直至存在大量合格的待训练信息，则可得到图2所对应实施例中的资源调度的装置。

在一种可能实现的方式中，前述预设条件为：候选配送资源具有至少一个合格的运输路径。

在一种可能实现的方式中，该方法还包括：

在一种可能实现的方式中，通过第二前馈网络模块基于第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度包括：

在一种可能实现的方式中，第一前馈网络模块包括：MLP，CNN，RNN中的一种。

在一种可能实现的方式中，第二前馈网络模块包括：基于Q学习算法的MLP，基于Q学习算法的CNN，基于Q学习算法的RNN中的一种。

本实施例所得到的资源调度的装置，可用于从多个配送资源中，确定出用于执行某个配送任务的最优配送资源，能够有效利用配送资源，避免配送资源浪费的情况发生。

图10为本申请实施例提供的资源调度的装置的又一结构示意图。如图10所示，该装置包括：

获取模块1001，用于获取多个任务信息，其中，每个任务信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息；

约束嵌入模块1002，用于从多个任务信息中获取满足预设条件的每个任务信息；

第一前馈网络模块1003，用于对满足预设条件的每个任务信息进行特征提取，得到满足预设条件的每个任务信息的第一提取结果；

关系提取模块1004，用于对第一提取结果进行特征提取，得到满足预设条件的每个任务信息的第二提取结果，其中，关系提取模块基于多头注意力机制构建，满足预设条件的每个任务信息的第二提取结果基于该任务信息的第一提取结果，以及与该任务信息相关联的其余任务信息的第一提取结果生成；

第二前馈网络模块1005，用于基于第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度，匹配度用于指示候选配送资源与配送任务之间的匹配程度；

确定模块1006，用于基于匹配度，在多个候选配送资源中确定用于执行配送任务的目标配送资源。

在一种可能实现的方式中，该预设条件为：所述候选配送资源具有至少一个合格的运输路径。

在一种可能实现的方式中，第二前馈网络模块1005，还用于输出不满足预设条件的每个任务信息的匹配度，不满足预设条件的每个任务信息的匹配度为预设值。

在一种可能实现的方式中，第二前馈网络模块1005，还用于对第一提取结果和/或第二提取结果进行计算，得到满足预设条件的每个任务信息的匹配度。

在一种可能实现的方式中，第二前馈网络模块1005，还用于对第三提取结果和第二提取结果进行计算得到满足预设条件的每个任务信息的匹配度，其中，第三提取结果为第一前馈网络模块中的部分层对满足预设条件的任务信息进行特征提取后，所得到的结果。

在一种可能实现的方式中，该装置还包括：分配模块，用于将配送任务分配至目标配送资源。

在一种可能实现的方式中，第一前馈网络模块1003包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种。

在一种可能实现的方式中，第二前馈网络模块1005包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与图3所示的方法实施例基于同一构思，其带来的技术效果与图3所示的方法实施例相同，具体内容可参见本申请图3所示的方法实施例中的叙述，此处不再赘述。

图11为本申请实施例提供的模型训练的装置的一个结构示意图。如图11所示，该装置包括：

获取模块1101，用于获取多个待训练信息，其中，每个待训练信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息；

约束嵌入模块1102，用于从多个待训练信息中获取满足预设条件的每个待训练信息；

第一前馈网络模块1103，用于对满足预设条件的每个待训练信息进行特征提取，得到满足预设条件的每个待训练信息的第一提取结果；

关系提取模块1104，用于对第一提取结果进行特征提取，得到满足预设条件的每个待训练信息的第二提取结果，其中，关系提取模块基于多头注意力机制构建，满足预设条件的每个待训练信息的第二提取结果基于该待训练信息的第一提取结果，以及与该待训练信息相关联的其余待训练信息的第一提取结果生成；

第二前馈网络模块1105，用于基于第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度，第一匹配度用于指示候选配送资源与配送任务之间的匹配程度；

训练模块1106，用于基于第一匹配度和第二匹配度，通过目标损失函数对待训练装置进行训练，得到资源调度的装置，其中，第二匹配度为真实的匹配度。

在一种可能实现的方式中，该预设条件为：候选配送资源具有至少一个合格的运输路径。

在一种可能实现的方式中，第二前馈网络模块1105，还用于输出不满足预设条件的每个待训练信息的第一匹配度，不满足预设条件的每个待训练信息的第一匹配度为预设值。

在一种可能实现的方式中，第二前馈网络模块1105，还用于对第一提取结果和/或第二提取结果进行计算，得到满足预设条件的每个待训练信息的第一匹配度。

在一种可能实现的方式中，第二前馈网络模块1105，还用于对第三提取结果和第二提取结果进行计算得到满足预设条件的每个待训练信息的第一匹配度，其中，第三提取结果为第一前馈网络模块中的部分层对满足预设条件的任务信息进行特征提取后，所得到的结果。

在一种可能实现的方式中，第一前馈网络模块1103包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种。

在一种可能实现的方式中，第二前馈网络模块1105包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与图9所示的方法实施例基于同一构思，其带来的技术效果与图9所示的方法实施例相同，具体内容可参见本申请图9所示的方法实施例中的叙述，此处不再赘述。

图12为本申请实施例提供的资源调度的装置的再一结构示意图。如图12所示，该装置可包括一个或一个以上中央处理器1201，存储器1202，输入输出接口1203，有线或无线网络接口1204，电源1205。

存储器1202可以是短暂存储或持久存储。更进一步地，中央处理器1201可以配置为与存储器1202通信，在资源调度的装置上执行存储器1202中的一系列指令操作。

本实施例中，中央处理器1201可以执行前述图10实施例中用户资源调度的装置或图11所示实施例中模型训练的装置所执行的操作，具体此处不再赘述。

本实施例中，中央处理器1201中的具体功能模块划分可以与前述图10中所描述的获取模块、约束嵌入模块、第一前馈网络模块、关系提取模块、第二前馈网络模块、确定模块、分配模块等模块的功能模块划分方式类似，此处不再赘述。

本实施例中，中央处理器1201中的具体功能模块划分也可以与前述图11中所描述的获取模块、约束嵌入模块、第一前馈网络模块、关系提取模块、第二前馈网络模块、训练模块等模块的功能模块划分方式类似，此处不再赘述。

本申请实施例还涉及一种计算机可读存储介质，包括指令，当该指令在计算机上运行时，使得计算机执行如图3所示或图9所示的方法。

本申请实施例还涉及一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如图3所示或图9所示的方法。

本申请实施例还提供了一种资源调度的系统，该系统包括资源调度的装置和设备，该装置与设备通信连接，至少一个存储器以及至少一个通信接口；处理器、存储器和通信接口通过通信总线连接并完成相互间的通信；

至少一个存储器用于存储代码；

至少一个处理器用于执行前述代码，以执行如图3所示的方法，以确定用于执行配送任务的目标配送资源；

在一种可能实现的方式中，通信接口可以为软件开发工具包(softwaredevelopment kit，SDK)或应用程序接口(application programming interface，API)。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种资源调度的装置，其特征在于，所述装置包括：

约束嵌入模块，用于从多个任务信息中获取满足预设条件的每个任务信息，其中，所述每个任务信息包括配送任务的信息，以及多个候选配送资源中的一个候选配送资源的信息，所述预设条件为：所述候选配送资源具有至少一个合格的运输路径，所述合格的运输路径包含以下任意一项：运输时间小于预设时间的运输路径以及长度小于预设长度的运输路径；

第一前馈网络模块，用于对满足预设条件的每个任务信息进行特征提取，得到所述满足预设条件的每个任务信息的第一提取结果；

关系提取模块，用于对所述第一提取结果进行特征提取，得到所述满足预设条件的每个任务信息的第二提取结果，其中，所述关系提取模块基于多头注意力机制构建，所述满足预设条件的每个任务信息的第二提取结果基于该任务信息的第一提取结果，以及与该任务信息相关联的其余任务信息的第一提取结果生成；

第二前馈网络模块，用于基于所述第二提取结果进行计算，得到所述满足预设条件的每个任务信息的匹配度，所述匹配度用于指示候选配送资源与配送任务之间的匹配程度。

2.根据权利要求1所述的装置，其特征在于，所述第二前馈网络模块，还用于输出不满足预设条件的每个任务信息的匹配度，所述不满足预设条件的每个任务信息的匹配度为预设值。

3.根据权利要求1或2所述的装置，其特征在于，所述第二前馈网络模块，还用于对所述第一提取结果和/或所述第二提取结果进行计算，得到所述满足预设条件的每个任务信息的匹配度。

4.根据权利要求1或2所述的装置，其特征在于，所述第一前馈网络模块包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种。

5.根据权利要求1或2所述的装置，其特征在于，所述第二前馈网络模块包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种。

6.一种资源调度的方法，其特征在于，所述方法通过资源调度的装置实现，所述装置包括约束嵌入模块、第一前馈网络模块、关系提取模块和第二前馈网络模块，所述方法包括：

通过所述约束嵌入模块从所述多个任务信息中获取满足预设条件的每个任务信息，所述预设条件为：所述候选配送资源具有至少一个合格的运输路径，所述合格的运输路径包含以下任意一项：运输时间小于预设时间的运输路径以及长度小于预设长度的运输路径；

通过所述第一前馈网络模块对满足预设条件的每个任务信息进行特征提取，得到所述满足预设条件的每个任务信息的第一提取结果；

通过所述关系提取模块对所述第一提取结果进行特征提取，得到所述满足预设条件的每个任务信息的第二提取结果，其中，所述关系提取模块基于多头注意力机制构建，所述满足预设条件的每个任务信息的第二提取结果基于该任务信息的第一提取结果，以及与该任务信息相关联的其余任务信息的第一提取结果生成；

通过所述第二前馈网络模块基于所述第二提取结果进行计算，得到所述满足预设条件的每个任务信息的匹配度，所述匹配度用于指示候选配送资源与配送任务之间的匹配程度；

基于所述匹配度，在所述多个候选配送资源中确定用于执行所述配送任务的目标配送资源。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

通过第二前馈网络模块输出不满足预设条件的每个任务信息的匹配度，所述不满足预设条件的每个任务信息的匹配度为预设值。

8.根据权利要求6或7所述的方法，其特征在于，所述通过所述第二前馈网络模块基于所述第二提取结果进行计算，得到所述满足预设条件的每个任务信息的匹配度包括：

通过所述第二前馈网络模块对所述第一提取结果和/或所述第二提取结果进行计算，得到所述满足预设条件的每个任务信息的匹配度。

9.根据权利要求6或7所述的方法，其特征在于，所述基于所述匹配度，在所述多个候选配送资源中确定用于执行所述配送任务的目标配送资源之后，所述方法还包括：

将所述配送任务分配至所述目标配送资源。

10.根据权利要求6或7所述的方法，其特征在于，所述第一前馈网络模块包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种。

11.根据权利要求6或7所述的方法，其特征在于，所述第二前馈网络模块包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种。

12.一种模型训练的方法，其特征在于，所述方法通过待训练装置实现，所述待训练装置包括约束嵌入模块、第一前馈网络模块、关系提取模块和第二前馈网络模块，所述方法包括：

通过所述约束嵌入模块从所述多个待训练信息中获取满足预设条件的每个待训练信息，所述预设条件为：所述候选配送资源具有至少一个合格的运输路径，所述合格的运输路径包含以下任意一项：运输时间小于预设时间的运输路径以及长度小于预设长度的运输路径；

通过所述第一前馈网络模块对满足预设条件的每个待训练信息进行特征提取，得到所述满足预设条件的每个待训练信息的第一提取结果；

通过所述关系提取模块对所述第一提取结果进行特征提取，得到所述满足预设条件的每个待训练信息的第二提取结果，其中，所述关系提取模块基于多头注意力机制构建，所述满足预设条件的每个待训练信息的第二提取结果基于该待训练信息的第一提取结果，以及与该待训练信息相关联的其余待训练信息的第一提取结果生成；

通过所述第二前馈网络模块基于所述第二提取结果进行计算，得到所述满足预设条件的每个待训练信息的第一匹配度，所述第一匹配度用于指示候选配送资源与配送任务之间的匹配程度；

基于所述第一匹配度和第二匹配度，通过目标损失函数对所述待训练装置进行训练，得到资源调度的装置，其中，所述第二匹配度为真实的匹配度。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

通过第二前馈网络模块输出不满足预设条件的每个待训练信息的第一匹配度，所述不满足预设条件的每个待训练信息的第一匹配度为预设值。

14.根据权利要求12或13所述的方法，其特征在于，所述通过所述第二前馈网络模块基于所述第二提取结果进行计算，得到所述满足预设条件的每个待训练信息的第一匹配度包括：

通过所述第二前馈网络模块对所述第一提取结果和/或所述第二提取结果进行计算，得到所述满足预设条件的每个待训练信息的第一匹配度。

15.根据权利要求12或13所述的方法，其特征在于，所述第一前馈网络模块包括：多层感知机，卷积神经网络，递归神经网络，循环神经网络中的一种。

16.根据权利要求12或13所述的方法，其特征在于，所述第二前馈网络模块包括：基于Q学习算法的多层感知机，基于Q学习算法的卷积神经网络，基于Q学习算法的递归神经网络，基于Q学习算法的循环神经网络中的一种。

17.一种资源调度的装置，其特征在于，所述装置包括：

约束嵌入模块，用于从所述多个任务信息中获取满足预设条件的每个任务信息，所述预设条件为：所述候选配送资源具有至少一个合格的运输路径，所述合格的运输路径包含以下任意一项：运输时间小于预设时间的运输路径以及长度小于预设长度的运输路径；

第二前馈网络模块，用于基于所述第二提取结果进行计算，得到所述满足预设条件的每个任务信息的匹配度，所述匹配度用于指示候选配送资源与配送任务之间的匹配程度；

确定模块，用于基于所述匹配度，在所述多个候选配送资源中确定用于执行所述配送任务的目标配送资源。

18.一种模型训练的装置，其特征在于，所述装置包括：

约束嵌入模块，用于从所述多个待训练信息中获取满足预设条件的每个待训练信息，所述预设条件为：所述候选配送资源具有至少一个合格的运输路径，所述合格的运输路径包含以下任意一项：运输时间小于预设时间的运输路径以及长度小于预设长度的运输路径；

第一前馈网络模块，用于对满足预设条件的每个待训练信息进行特征提取，得到所述满足预设条件的每个待训练信息的第一提取结果；

关系提取模块，用于对所述第一提取结果进行特征提取，得到所述满足预设条件的每个待训练信息的第二提取结果，其中，所述关系提取模块基于多头注意力机制构建，所述满足预设条件的每个待训练信息的第二提取结果基于该待训练信息的第一提取结果，以及与该待训练信息相关联的其余待训练信息的第一提取结果生成；

第二前馈网络模块，用于基于所述第二提取结果进行计算，得到所述满足预设条件的每个待训练信息的第一匹配度，所述第一匹配度用于指示候选配送资源与配送任务之间的匹配程度；

训练模块，用于基于所述第一匹配度和第二匹配度，通过目标损失函数对待训练装置进行训练，得到资源调度的装置，其中，所述第二匹配度为真实的匹配度。

19.一种资源调度的装置，其特征在于，包括：

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，在所述资源调度的装置上执行所述存储器中的指令操作以执行权利要求6至16中任意一项所述的方法。

20.一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求6至16中任意一项所述的方法。

21.一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求6至16中任意一项所述的方法。