CN111768019A

CN111768019A - 订单处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111768019A
Application number: CN201910259949.6A
Authority: CN
Inventors: 田雨晴
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2020-10-13

Abstract

本发明公开了一种订单处理方法、装置、计算机设备及存储介质，属于机器学习领域。所述方法包括：将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源；根据该特征数据，获取该多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量；根据该多个目标函数增量，对该至少一个订单进行处理。本发明通过推荐模型，先对该目标区域内的所有运力资源进行一轮筛选，避免了对目标区域内的所有运力资源进行目标函数增量获取，降低了找到最优解的计算难度，减小了订单处理过程的计算量和处理时长，有利于达到最优的调度效果。

Description

订单处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及机器学习领域，特别涉及一种订单处理方法、装置、计算机设备及存储介质。

背景技术

随着网络技术的发展，用户可以通过终端上的应用客户端(application，APP)向服务器提交订单，由服务器进行订单处理，为各个订单分配运力资源，从而由运力资源根据订单进行派送。例如，该应用客户端可以是网络购物客户端、外卖客户端等。

目前，服务器在处理订单时，通常以地理区域为单位，获取该区域内的至少一个订单的特征数据，该特征数据用于表示至少一个订单的特征，例如运力资源信息、订单信息、区域信息或者距离信息中的至少一项，服务器根据该特征数据对该区域内可用的所有运力资源进行路径规划，从而得到假设将每个订单添加到运力资源的待处理订单中时，该运力资源的派送路径，从而根据各个派送路径添加该订单后的增加成本，对各个订单进行调度处理，例如为订单分配运力资源(也即是派单)、暂时不为该订单分配运力资源(也即是压单)或者对已分配订单更改运力资源(也即是改派)等，以保证增加的成本最小，也即是调度效果达到最优。

在上述过程中，随着订单和运力资源的增加，对每一个订单，服务器都需要对所有的运力资源进行路径规划，导致寻找调度效果最优解时的解空间不断增大，不仅增加了找到最优解的计算难度，而且使得计算量呈指数级增长，会延长计算所用的时间，从而不利于达到最优的调度效果。

发明内容

本发明实施例提供了一种订单处理方法、装置、计算机设备及存储介质,能够解决随着订单和运力资源的增加，解空间不断增大、计算量呈指数级增长、不利于达到最优的调度效果的问题。该技术方案如下：

一方面，提供了一种订单处理方法，该方法包括：

将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，该推荐模型用于为该至少一个订单推荐派单概率符合预设条件的运力资源；

根据该特征数据，获取该多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量，该目标函数增量用于指示运力资源基于所规划的派送路径派送该至少一个订单时预计增加的目标函数损失；

根据该多个目标函数增量，对该至少一个订单进行处理。

在一种可能实施方式中，将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源包括：

该推荐模型为多个弱学习器所集成的强学习器，将该特征数据输入该多个弱学习器，通过对该多个弱学习器的输出进行加权处理，得到多个运力资源对该至少一个订单进行派送的派单概率；

将派单概率大于第一目标阈值的运力资源获取为该多个目标运力资源。

在一种可能实施方式中，将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源之前，该方法还包括：

获取该目标区域内的至少一个历史订单的历史特征数据，该历史特征数据为距离当前时刻之前预设时长内的至少一个特征数据；

根据该历史特征数据，对初始模型进行训练，得到该推荐模型。

在一种可能实施方式中，根据该历史特征数据，对初始模型进行训练，得到该推荐模型包括：

将该历史特征数据输入该初始模型，输出多个样本运力资源对该至少一个历史订单进行派送的派单概率；

当该派单概率的损失函数值大于第一目标数值时，通过决策树算法对该初始模型内的多个约束条件的阈值参数进行修改，该损失函数值用于指示该派单概率与该多个样本运力资源的实际派单结果之间的误差；

直到该损失函数值小于或等于该第一目标数值或者迭代次数达到预设次数，得到该推荐模型。

在一种可能实施方式中，将该历史特征数据输入该初始模型，输出多个样本运力资源对该至少一个历史订单进行派送的派单概率包括：

将该历史特征数据输入该初始模型，通过该初始模型，获取该多个样本运力资源对该至少一个历史订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量；

根据该多个目标函数增量，对该至少一个历史订单进行处理，输出该多个样本运力资源对该至少一个历史订单进行派送的派单概率。

在一种可能实施方式中，得到该推荐模型之后，该方法还包括：

根据该实际派单结果和该派单概率，获取当召回率大于第二目标数值时的概率阈值，该召回率用于指示该派单概率大于该概率阈值且实际派单结果为真的运力资源数与实际派单结果为真的运力资源数的比值；

将该概率阈值确定为该第一目标阈值。

根据该历史特征数据，获取多个运力资源对该至少一个历史订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量；

根据该多个目标函数增量，对该至少一个历史订单进行处理，得到该多个运力资源的理论派单结果；

根据将该理论派单结果，对该初始模型进行训练，得到该推荐模型。

获取压单数据，该压单数据为当前时刻处于压单状态的订单；

将该压单数据添加到多个运力资源的待处理订单中，获取该特征数据。

在一种可能实施方式中，该特征数据包括订单信息、运力资源信息、第一数据、第二数据、第三数据、第四数据、第五数据或者第六数据中的至少一项；

该第一数据包括该至少一个订单的至少一个预计送达时刻中的最大值和最小值，和该至少一个订单的至少一个预计送达时刻在两两之间的至少一个第一时间差中的最大值和最小值；

该第二数据包括该至少一个订单与每个运力资源的待处理订单的预计送达时刻之间多个第二时间差中的最大值和最小值；

该第三数据包括该至少一个订单的取单位置在两两之间多个第一直线距离中的最小值、该至少一个订单的派单位置在两两之间多个第二直线距离中的最小值，和该至少一个订单的取单位置和派单位置在两两之间多个第三直线距离中的最小值；

该第四数据包括该至少一个订单与每个运力资源的待处理订单的取单位置之间多个第四直线距离中的最小值、该至少一个订单与每个运力资源的待处理订单的派单位置之间多个第五直线距离中的最小值，和该至少一个订单与每个运力资源的待处理订单的取单位置和派单位置之间多个第六直线距离中的最小值；

该第五数据包括该至少一个订单的取单位置与每个运力资源当前位置之间多个第七直线距离中的最小值，和该至少一个订单的派单位置与每个运力资源当前位置之间多个第八直线距离中的最小值；

该第六数据包括每个运力资源的待处理订单的数量，和该至少一个订单所在的调度轮次。

在一种可能实施方式中，根据该特征数据，获取该多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量包括：

根据该特征数据，对该多个目标运力资源进行路径规划，得到该多个预计派送路径；

根据该多个预计派送路径，生成打分矩阵，该打分矩阵用于以矩阵的形式表示该多个目标函数增量。

在一种可能实施方式中，根据该特征数据，对该多个目标运力资源进行路径规划，得到该多个预计派送路径包括：

对每个目标运力资源，获取该目标运力资源对每个订单进行派送的导航距离；

根据该特征数据和该导航距离，获取当将该订单添加到该目标运力资源的待处理订单中时，该目标运力资源对该待处理订单进行派送的预计派送路径。

在一种可能实施方式中，根据该特征数据和该导航距离，获取当将该订单添加到该目标运力资源的待处理订单中时，该目标运力资源对该待处理订单进行派送的预计派送路径包括：

根据该特征数据和该导航距离，获取当将该订单添加到该待处理订单中时，该目标运力资源对该待处理订单的取单顺序和派单顺序；

根据该取单顺序和该派单顺序，确定该预计派送路径。

在一种可能实施方式中，根据该多个预计派送路径，生成打分矩阵包括：

对每个预计派送路径，获取将该订单添加到该待处理订单前的第一目标函数值，以及将该订单添加到该待处理订单后的第二目标函数值；

根据该第一目标函数值和该第二目标函数值，生成该打分矩阵。

在一种可能实施方式中，根据该多个目标函数增量，对该至少一个订单进行处理包括：

对每个订单，当存在小于第二目标阈值的目标函数增量时，将该订单分配给与最小的目标函数增量所对应的目标运力资源；

当不存在小于该第二目标阈值的目标函数增量时，不为该订单分配目标运力资源。

一方面，提供了一种订单处理装置，该装置包括：

输入输出模块，用于将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，该推荐模型用于为该至少一个订单推荐派单概率符合预设条件的运力资源；

获取得到模块，用于根据该特征数据，获取该多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量，该目标函数增量用于指示运力资源基于所规划的派送路径派送该至少一个订单时预计增加的目标函数损失；

处理模块，用于根据该多个目标函数增量，对该至少一个订单进行处理。

在一种可能实施方式中，该输入输出模块用于：

在一种可能实施方式中，该装置还包括：

获取模块，用于获取该目标区域内的至少一个历史订单的历史特征数据，该历史特征数据为距离当前时刻之前预设时长内的至少一个特征数据；

训练模块，用于根据该历史特征数据，对初始模型进行训练，得到该推荐模型。

在一种可能实施方式中，该训练模块包括：

输入输出单元，用于将该历史特征数据输入该初始模型，输出多个样本运力资源对该至少一个历史订单进行派送的派单概率；

修改单元，用于当该派单概率的损失函数值大于第一目标数值时，通过决策树算法对该初始模型内的多个约束条件的阈值参数进行修改，该损失函数值用于指示该派单概率与该多个样本运力资源的实际派单结果之间的误差；

得到单元，用于直到该损失函数值小于或等于该第一目标数值或者迭代次数达到预设次数，得到该推荐模型。

在一种可能实施方式中，该输入输出单元用于：

在一种可能实施方式中，该装置还包括：

将该概率阈值确定为该第一目标阈值。

在一种可能实施方式中，该训练模块用于：

在一种可能实施方式中，该装置还包括：

在一种可能实施方式中，获取得到模块包括：

路径规划单元，用于根据该特征数据，对该多个目标运力资源进行路径规划，得到该多个预计派送路径；

生成单元，用于根据该多个预计派送路径，生成打分矩阵，该打分矩阵用于以矩阵的形式表示该多个目标函数增量。

在一种可能实施方式中，该路径规划单元包括：

获取子单元，用于对每个目标运力资源，获取该目标运力资源对每个订单进行派送的导航距离；

该获取子单元，还用于根据该特征数据和该导航距离，获取当将该订单添加到该目标运力资源的待处理订单中时，该目标运力资源对该待处理订单进行派送的预计派送路径。

在一种可能实施方式中，该获取子单元还用于：

根据该取单顺序和该派单顺序，确定该预计派送路径。

在一种可能实施方式中，该生成单元用于：

在一种可能实施方式中，该处理模块用于：

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条指令，该至少一条指令由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的订单处理方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，该至少一条指令由处理器加载并执行以实现如上述任一种可能实现方式的订单处理方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果至少包括：

通过将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，根据该特征数据，获取多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量，根据该多个目标函数增量，对该至少一个订单进行处理，从而能够基于推荐模型，先对该目标区域内的所有运力资源进行一轮筛选，选出符合派单概率预设条件的多个目标运力资源，仅获取该多个目标运力资源的目标函数增量，也就避免了对目标区域内的所有运力资源进行目标函数增量获取，从而缩小了寻找调度效果最优解时的解空间，降低了找到最优解的计算难度，减小了订单处理过程的计算量和处理时长，有利于达到最优的调度效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种订单处理方法的实施环境示意图；

图2是本发明实施例提供的一种订单处理方法的流程图；

图3是本发明实施例提供的一种订单处理方法的流程图；

图4是本发明实施例提供的一种预计派送路径的示意图；

图5是本发明实施例提供的一种在线训练推荐模型的流程图；

图6是本发明实施例提供的一种订单处理方法的示意图；

图7是本发明实施例提供的一种离线训练推荐模型的流程图；

图8是本发明实施例提供的一种订单处理装置的结构示意图；

图9是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种订单处理方法的实施环境示意图。参见图1，在该实施环境中包括至少一个终端101和服务器102：

其中，该至少一个终端101上可以安装有应用客户端，该应用客户端可以是任一能够提供下单服务的客户端，例如该应用客户端可以是网络购物客户端、外卖客户端等；其中，该服务器102用于提供订单处理服务。

当用户在任一终端上登录应用客户端后，可以通过该应用客户端生成订单，向服务器102发送订单，每个订单中可以携带取单位置、派单位置、派送对象信息或者下单的用户信息中的至少一项，当服务器102接收到该至少一个终端101发送的至少一个订单时，可以按照地理区域为单位对该至少一个订单进行处理，从而为该至少一个订单分配能够达到调度效果最优的运力资源，在一些实施例中，如果对某个订单在当前时刻没有找到能够达到调度效果最优的运力资源，则会暂时不为该订单分配运力资源(以下简称“压单”)，直到找到对该订单能够达到调度效果最优的运力资源，才为该订单分配该运力资源。

在一些实施例中，可以将服务器102以地理区域为单位的基础上，每进行一次订单处理的过程称作“一轮调度”。可选地，如果在某一轮调度中对目标订单进行压单，则服务器102在下一轮调度时将该目标订单作为新产生的订单进行订单处理，例如在第N轮调度时，对订单A进行压单处理，则在第N+1轮调度时，将订单A加入到第N轮调度到第N+1轮调度的时间间隔中新产生的订单中，对这一批新产生的订单执行与第N轮调度相同的订单处理过程，在此不作赘述。其中，N为大于或等于0的正整数。

在一些实施例中，服务器102在相邻轮次的调度之间所具有的的时间间隔可以相同，也可以不同。可选地，当各个调度之间具有相同的时间间隔时，服务器102每间隔目标时间间隔，对该地理区域内提交的所有订单进行处理，其中，该目标时间间隔可以是任一大于0的数值，例如该目标时间间隔为10分钟，那么在任一天的第2个10分钟时，对某个地理区域内的订单进行的订单处理则可以称作在这一天内的第2轮调度。

基于上述实施环境，图2是本发明实施例提供的一种订单处理方法的流程图，参见图2，该订单处理方法应用于计算机设备中，该实施例包括：

201、将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，该推荐模型用于为该至少一个订单推荐派单概率符合预设条件的运力资源。

202、根据该特征数据，获取该多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量，该目标函数增量用于指示运力资源基于所规划的派送路径派送该至少一个订单时预计增加的目标函数损失。

203、根据该多个目标函数增量，对该至少一个订单进行处理。

本发明实施例提供的方法，通过将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，根据该特征数据，获取多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量，根据该多个目标函数增量，对该至少一个订单进行处理，从而能够基于推荐模型，先对该目标区域内的所有运力资源进行一轮筛选，选出符合派单概率预设条件的多个目标运力资源，仅获取该多个目标运力资源的目标函数增量，也就避免了对目标区域内的所有运力资源进行目标函数增量获取，从而缩小了寻找调度效果最优解时的解空间，降低了找到最优解的计算难度，减小了订单处理过程的计算量和处理时长，有利于达到最优的调度效果。

将该概率阈值确定为该第一目标阈值。

根据该取单顺序和该派单顺序，确定该预计派送路径。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是本发明实施例提供的一种订单处理方法的流程图。参见图3，以该计算机设备为服务器为例进行说明，该实施例包括：

301、服务器获取压单数据，该压单数据为当前时刻处于压单状态的订单。

在一些实施例中，可以将服务器以地理区域为单位的基础上，每进行一次订单处理的过程称作“一轮调度”，该压单数据可以是在上一轮调度中被标记为压单状态的订单，每个被标记为压单状态的订单中可以携带取单位置、派单位置、商品信息或者下单的用户信息中的至少一项。

可选地，服务器可以在相邻轮次的调度之间设置有相同的时间间隔，该相同的时间间隔可以称为目标时间间隔，该目标时间间隔可以是任一大于0的数值，例如该目标时间间隔为10分钟，也即是服务器每隔10分钟进行一轮调度。当然，服务器也可以在相邻轮次的调度之间设置有不同的时间间隔，例如，在午高峰和晚高峰时段每间隔5分钟进行一轮调度，在除了午高峰和晚高峰之外的时段每间隔10分钟进行一轮调度，本发明实施例不对相邻轮次之间的时间间隔是否相等进行具体限定。

在上述过程中，服务器可以获取上一轮调度至本轮调度所经过的时间间隔内新接收到的至少一个订单，再从上一轮的调度结果中获取该压单数据，从而能够避免将压单数据当作本轮调度的订单被分配出去，完善了订单处理过程中的处理逻辑。

可选地，服务器还可以在每一轮调度中都不进行压单处理，也即是服务器在每一轮调度中都为该至少一个订单进行分配处理，从而可以无需执行上述步骤301，而是直接执行下述步骤302中的“获取特征数据”的步骤，从而能够减少订单处理过程中的计算量。

302、服务器将该压单数据添加到多个运力资源的待处理订单中，根据该压单数据、多个运力资源的待处理订单以及新接收到的至少一个订单，获取特征数据。

其中，该多个运力资源为本轮调度的目标区域内的所有运力资源，该目标区域可以是服务器能够调度的任一地理区域，该运力资源可以是任一能够提供配送服务的资源，例如，该运力资源可以是外卖骑手、快递员、机器人等。

需要说明的是，本发明实施例所涉及到的“配送”服务，是指运力资源将派送对象从取单位置移动到派单位置，不局限于运力资源向下单的用户进行配送，还可以指运力资源在仓库内为至少一个订单进行配货的过程，例如，机器人从某一货架上将商品移动至放置出仓物品的平台上。

其中，该待处理订单是指该服务器在本轮调度之前已经为该多个运力资源分配了但未完成配送的订单，例如，该待处理订单可以是上一轮调度中为任一运力资源分配的但是目前还没有完成配送的订单。

在一些实施例中，该特征数据可以包括订单信息、运力资源信息、第一数据、第二数据、第三数据、第四数据、第五数据或者第六数据中的至少一项，需要说明的是，由于服务器已经将压单数据添加到待处理订单中了，也即是在本轮调度中将压单数据视为待处理订单的一部分，因此，在下面在对特征数据的组成进行说明时，提到的“待处理订单”是指添加了压单数据后的待处理订单。

在该特征数据中，该订单信息可以包括上一轮调度至本轮调度所经过的时间间隔内，新接收到的至少一个订单的取单位置、派单位置、商品信息或者下单的用户信息中的至少一项，该运力资源信息可以包括该目标区域内的所有在岗的运力资源、该所有在岗的运力资源的待处理订单信息和该所有在岗的运力资源的当前位置。

在该特征数据中，该第一数据包括上述至少一个订单的至少一个预计送达时刻中的最大值和最小值，和该至少一个订单的至少一个预计送达时刻在两两之间的至少一个第一时间差中的最大值和最小值，一个第一时间差是指一个订单的预计送达时刻与另一个订单的预计送达时刻之间的差值。

假设该至少一个订单的数量为m，用ETA表示该至少一个订单的预设送达时刻，则该第一数据可以用下述公式(1)进行表示：

D₁＝{ETA_max,ETA_min,(ETA_i-ETA_j)_max|_i,j≤m,(ETA_i-ETA_j)_min|_i,j≤m} (1)

在上述公式中，m为大于或等于1的正整数，ETA为大于或等于0的任一数值，i和j均为大于或等于1且小于或等于m的任一正整数。

在该特征数据中，该第二数据包括该至少一个订单与每个运力资源的待处理订单的预计送达时刻之间多个第二时间差中的最大值和最小值，一个第二时间差是指一个订单的ETA与一个待处理订单的ETA之间的差值。

假设该多个运力资源的数量为n，用ETA_p表示第p个订单的预计送达时刻，ETA′_q表示第q个运力资源的待处理订单的预计送达时刻，则第二数据可以用下述公式(2)进行表示：

在上述公式中，n为大于或等于1的正整数，p为大于或等于1且小于或等于m的任一正整数，q为大于或等于1且小于或等于n的任一正整数。

在该特征数据中，该第三数据包括该至少一个订单的取单位置在两两之间多个第一直线距离中的最小值、该至少一个订单的派单位置在两两之间多个第二直线距离中的最小值，和该至少一个订单的取单位置和派单位置在两两之间多个第三直线距离中的最小值。

其中，一个第一直线距离是指一个订单的取单位置与另一个订单的取单位置之间的位移，一个第二直线距离是指一个订单的派单位置与另一个订单的派单位置之间的位移，一个第三直线距离是指任一个订单的取单位置与任一个订单的派单位置之间的位移。

假设用L表示该至少一个订单的取单位置，用L′表示该至少一个订单的派单位置，则第三数据可以用下述公式(3)进行表示：

在该特征数据中，该第四数据包括该至少一个订单与每个运力资源的待处理订单的取单位置之间多个第四直线距离中的最小值、该至少一个订单与每个运力资源的待处理订单的派单位置之间多个第五直线距离中的最小值，和该至少一个订单与每个运力资源的待处理订单的取单位置和派单位置之间多个第六直线距离中的最小值。

其中，一个第三直线距离是指一个订单的取单位置与一个待处理订单的取单位置之间的位移，一个第四直线距离是指一个订单的派单位置与一个待处理订单的派单位置之间的位移，一个第六直线距离是指任一个订单的取单位置与任一个待处理订单的派单位置之间的位移，或者任一个订单的派单位置与任一个待处理订单的取单位置之间的位移。

假设用L_p表示第p个订单的取单位置，用L′_p表示第p个订单的派单位置，用Γ_q表示第q个运力资源的待处理订单的取单位置，用Γ′_q表示第q个运力资源的待处理订单的派单位置，则第四数据可以用下述公式(4)进行表示：

在该特征数据中，该第五数据包括该至少一个订单的取单位置与每个运力资源当前位置之间多个第七直线距离中的最小值，和该至少一个订单的派单位置与每个运力资源当前位置之间多个第八直线距离中的最小值。

其中，一个第七直线距离是指一个订单的取单位置与一个运力资源的当前位置之间的位移，一个第八直线距离是指一个订单的派单位置与一个运力资源的当前位置之间的位移。

假设用Γ″_q表示第q个运力资源的当前位置，则第五数据可以用下述公式(5)进行表示：

在该特征数据中，该第六数据包括每个运力资源的待处理订单的数量，和该至少一个订单所在的调度轮次，假设可以用K_q表示第q个运力资源的待处理订单的数量，用T表示该至少一个订单所在的调度轮次，K为大于或等于0的任一整数，T为大于或等于0的任一整数，例如，如果处于第10轮调度时T＝10。

需要说明的是，在上述公式(1)-(5)中的m，n，p，q，i，j的含义和取值范围仅在第一次出现时进行定义，后续各个公式中出现的同一参数具有相同的含义和取值范围，在此不作赘述。

在一些实施例中，当新接收到的订单的数量为1时，也即是在本轮仅对一个订单进行调度，此时服务器可以将该订单输入历史调度中所使用的推荐模型，得到该订单与派单概率的相关系数，基于该相关系数为该订单配置特征数据。例如，当该订单与派单概率呈正相关时，将该订单的特征数据配置均置为0，当该订单与派单概率呈负相关时，将该订单的特征数据配置均为极大值，该极大值可以是历史调度过程中该特征数据所取的最大值。

在上述步骤302中，服务器将步骤301中获取的压单数据添加到该待处理订单中，从而可以将压单数据视为已分配但未完成配送的订单，服务器获取订单信息、运力资源信息和第六数据，基于上述公式(1)-(5)获取第一数据、第二数据、第三数据、第四数据和第五数据，组成该特征数据，丰富了特征数据的类型，有利于推荐出更加准确的目标运力资源。

在一些实施例中，服务器还可以获取订单信息、运力资源信息、第一数据、第二数据、第三数据、第四数据、第五数据或者第六数据中的一项或多项，组成该特征数据，从而减少了获取特征数据过程中的计算量。

303、服务器将该特征数据输入推荐模型，该推荐模型为多个弱学习器所集成的强学习器，通过对该多个弱学习器的输出进行加权处理，得到多个运力资源对至少一个订单进行派送的派单概率。

在上述过程中，该推荐模型用于为该至少一个订单推荐派单概率符合预设条件的运力资源，该推荐模型可以是GB(gradient boosting，梯度提升)、GBDT(gradientboosting decision tree，梯度提升决策树)、XGBoost(extreme gradient boosting，极限梯度提升)等。

在该推荐模型内的每个弱学习器对应于一个约束条件，该多个弱学习器可以是CART(classification and regression tree，分类和回归树)，也可以是线性分类器(gblinear)，该约束条件用于表示该多个运力资源对至少一个订单进行派送时所遵循的规则，例如，该约束条件可以是任一订单在取单任务完成后才能执行派单任务，同一个订单的取单任务和派单任务由同一个运力资源执行，同一个运力资源的载具具有容量限制等。

在一些实施例中，当该多个弱学习器为CART时，上述步骤303可以通过下述方式实现：服务器将该特征数据输入该多个弱学习器，对每一个运力资源而言，每个弱学习器都通过对该特征数据进行特征分裂，得到该弱学习器所在决策树的叶子节点，从而该弱学习器可以输出该多个运力资源的叶子节点分数，对于符合该弱学习器所对应的约束条件的叶子节点，该叶子节点分数可以是正值，对于不符合该弱学习器所对应的约束条件的叶子节点，该叶子节点分数可以是负值，从而服务器可以对该多个弱学习器输出的多个叶子节点分数进行加权处理，得到每个运力资源对该至少一个订单进行派送的派单概率。

在上述过程中，每个决策树可以是二叉树，也即是每个弱学习器在进行特征分裂时都一分为二，分为左子树和右子树。

在一些实施例中，在对叶子节点分数进行加权处理的过程中，可以根据约束条件的优先级来进行权重设置，例如，当第一约束条件的优先级大于第二约束条件的优先级时，服务器可以对第一约束条件所对应的弱学习器设置较大的权重，对第二约束条件所对应的弱学习器设置较小的权重。

在上述过程中，服务器可以对该至少一个订单进行整体分析，从而得到每个运力资源对该至少一个订单进行派送的整体派单概率，该整体派单概率是指一个运力资源对任一个订单进行派送的可能性，而并非是指该运力资源对特定的某一个订单进行派送的可能性。上述整体分析过程也即是：对于m个订单进行整体分析，对n个运力资源输出n个派单概率，第q个派单概率表示第q个运力资源对这m个订单中任一订单进行派送的整体概率，从而能够兼顾本轮调度过程中这一批订单的累计收益，有利于得到全局过程的最优解。

在一些实施例中，服务器还可以对该至少一个订单中的每一个订单都分别进行个体分析，从而得到每个运力资源分别对每一个订单进行派送的派单概率，也即是对于一批m个订单，对n个运力资源输出m×n个个体派单概率，第q_p个派单概率表示第q个运力资源对第p个订单进行派送的个体概率，从而得到对每个订单来说，能找到单次决策最优的运力资源(也即是对每个订单而言派单概率最大的运力资源)。

上述m，n，q与上述步骤302中的公式(1)-(5)中的相同参数的含义和取值范围相同，在此不作赘述。

304、服务器将派单概率大于第一目标阈值的运力资源获取为多个目标运力资源。

在上述过程中，该第一目标阈值可以是任一大于或等于0且小于或等于1的数值，可选地，该第一目标阈值可以是在推荐模型的训练过程中所确定的概率阈值，例如，该第一目标阈值为0.7，关于如何确定该概率阈值将在下一个实施例中进行详述。

在上述步骤304中，当服务器对该至少一个订单进行整体分析时，由于每个运力资源都唯一对应于一个整体派单概率，则服务器可以获取整体派单概率大于第一目标阈值的多个整体派单概率，根据运力资源与整体派单概率的对应关系，将与该多个整体派单概率所对应的多个运力资源直接获取为该多个目标运力资源。

可选地，当服务器对该至少一个订单分别进行个体分析时，服务器也可以直接获取个体派单概率大于第一目标阈值的多个个体派单概率，根据运力资源与个体派单概率的对应关系，获取与该多个个体派单概率所对应的多个运力资源，需要注意的是，由于每个运力资源可以对应于该至少一个订单的至少一个个体派单概率，也即是对m个订单而言，每个运力资源可以对应于m个个体派单概率，服务器还可以在该多个运力资源中去掉重复的运力资源(也即是去重处理)，将去重处理后的运力资源获取为该多个目标运力资源。其中，上述m与步骤302中m的含义和取值范围相同，在此不作赘述。

在一些实施例中，当服务器对该至少一个订单分别进行个体分析时，基于上述过程中的获取与该多个个体派单概率所对应的多个运力资源之后，服务器可以不执行去重处理的步骤，而是获取该多个运力资源中每个运力资源的重复次数，将重复次数大于目标次数的运力资源获取为该多个目标运力资源，由于重复次数x可以表示一个运力资源对x个订单的个体派单概率均大于第一目标阈值，那么重复次数x可以用来衡量一个运力资源对于整体一批订单进行派送的概率权重，从而可以进一步地控制筛选出的目标运力资源的数量，在保证单次决策最优的同时，也能够兼顾全局收益的需求，同时进一步地避免解空间过大，其中，x为大于或等于0且小于m的任一正整数。

在上述步骤303-304中，服务器将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，从而可以在获取各个运力资源的目标函数增量之前，预先对目标区域内的所有运力资源进行一次筛选，得到派单概率比较大的多个目标运力资源，从而在后续过程中只获取该多个目标运力资源的目标函数增量，不用计算没被筛选处理的运力资源的目标函数增量，也就减少了订单处理过程找到最优解的计算量，缩短了计算所用的时间。

305、服务器对每个目标运力资源，获取该目标运力资源对每个订单进行派送的导航距离。

在上述步骤305中，导航距离为目标运力资源进行派送的过程中所需要途经的路程，与步骤302中直线距离所指的两个位置点之间位移的含义并不相同。

其中，该导航距离包括第一导航距离和第二导航距离，该第一导航距离是指目标运力资源从当前位置到该订单的取单位置的途经路程，该第二导航距离是指目标运力资源从该订单的取单位置到该订单的派单位置的途经路程。

在上述过程中，服务器可以对每个目标运力资源，根据该目标运力资源的当前位置和该至少一个订单中任一订单的取单位置，基于GPS(global positioning system，全球定位系统)获取该第一导航距离，再根据该订单的取单位置和该订单的派单位置，基于GPS获取该第二导航距离，从而对每个目标运力资源，都重复执行上述步骤305，得到多个目标运力资源中每个目标运力资源对至少一个订单中每个订单进行派送的导航距离。

306、服务器根据该特征数据和该导航距离，获取当将该订单添加到待处理订单中时，该目标运力资源对该待处理订单的取单顺序和派单顺序。

在上述过程中，服务器基于该特征数据中的订单信息和运力资源信息，对每个目标运力资源而言，将每个订单都模拟添加到该目标运力资源的待处理订单中，从而服务器能够得到当将该订单分配给该目标运力资源的情况下，该目标运力资源如何在最优路径下对所有的待处理订单进行派送的取单顺序和派单顺序。需要说明的是，这里的“模拟添加”是指将每个订单添加到该待处理订单中，并基于这种情况下进行路径规划，但并不会直接为目标运力资源分配订单。

在一些实施例中，服务器在确定取单顺序和派单顺序时，可以先获取所有待处理订单的取单顺序，再获取所有待处理订单的派单顺序，当然，也可以是同时确定取单顺序和派单顺序，本发明实施例不对该取单顺序和派单顺序的确定时序进行具体限定。

图4是本发明实施例提供的一种预计派送路径的示意图，参见图4，例如，某个目标运力资源当前待处理订单只有1个订单A，将至少一个订单中的订单B添加到该待处理订单中，假设导航距离近似为直线距离，采用P表示该目标运力资源的当前位置，采用A1表示订单A的取单位置，采用B1表示订单B的取单位置，采用A2表示订单A的派单位置，采用B2表示订单B的派单位置，由于每个订单只有在取单任务完成后才能执行派单任务，因此A1排在A2之前，B1排在B2之前，服务器根据导航距离先确定A1和B1的取单顺序，从图中可以看出第一种情况P-A1-B1要走

第二种情况P-B1-A1要走1600米，因此确定取单顺序为先取订单A后取订单B，进一步地，服务器根据导航距离后确定A2和B2的派单顺序，在上述第二种情况下，派单过程的出发点为A1点，A1-A2-B2要走1200米，A1-B2-A2要走

因此确定派单顺序为先派订单A后派订单B。

307、服务器根据该取单顺序和该派单顺序，确定预计派送路径。

在上述过程中，服务器可以以目标运力资源的当前位置为预计派送路径的起点，将该待处理订单的所有取单位置和所有派单位置，按照上述步骤306中确定的取单顺序和派单顺序获取各个位置点之间的导航路径，从而确定该预计派送路径。基于上述示例，预计派送路径即为P-B1-A1-A2-B2。

在上述步骤306-307中，服务器根据该特征数据和该导航距离，能够获取当将该订单添加到该目标运力资源的待处理订单中时，该目标运力资源对该待处理订单进行派送的预计派送路径，重复执行上述步骤306-307，从而服务器可以根据该特征数据，对该多个目标运力资源进行路径规划，得到该多个预计派送路径。

308、服务器对每个预计派送路径，获取将该订单添加到该待处理订单前的第一目标函数值，以及将该订单添加到该待处理订单后的第二目标函数值。

在上述过程中，目标函数可以包括最小化超时率函数、最小化单均行驶距离函数或者最小化单均消耗时间函数中的至少一个，该第一目标函数值为该每个目标运力资源原本的待处理订单的派送路径在该目标函数中的取值，该第二目标函数值为将至少一个订单中的每个订单添加到每个目标运力资源的待处理订单的预计派送路径在该目标函数中的取值。

309、服务器根据该第一目标函数值和该第二目标函数值，生成多个预计派送路径所对应的多个目标函数增量。

其中，该目标函数增量用于指示运力资源基于所规划的派送路径，派送该至少一个订单时预计增加的目标函数损失。

在上述过程中，服务器可以对每个目标运力资源的每个预计派送路径，将该第二目标函数值减去该第一目标函数值所得到的数值作为一个目标函数增量，得到多个目标函数增量。

在一些实施例中，服务器可以以矩阵的形式表示多个预计派送路径的多个目标函数增量，从而得到打分矩阵。例如，假设有m个订单和r个目标运力资源，则可以得到m×r个目标函数增量，这m×r个目标函数增量可以构成一个m×r维的打分矩阵，打分矩阵中的每个元素用于表示一个目标函数增量，其中，m为大于或等于1的正整数，r为大于1且小于或等于n的正整数(n为上述步骤302中所指的目标区域内所有运力资源的数量)。

在上述步骤308-309中，服务器根据该多个预计派送路径，生成打分矩阵。在一些实施例中，服务器还可以不以矩阵的形式来表示该多个目标函数增量，例如，服务器以数组或者列表等的形式来表示该多个目标函数增量，本发明实施例不对该多个目标函数增量的表示形式进行具体限定。

在上述步骤305-309中，服务器根据该特征数据，获取该多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量，从而能够仅对推荐模型筛选出来的目标运力资源获取目标函数增量，也就减小了打分矩阵的维度，由于打分矩阵的维度与寻找调度效果最优解的解空间大小呈正相关，从而可以缩小最优解的解空间大小，进而降低了找到最优解的计算难度。

310、服务器对每个订单，当存在小于第二目标阈值的目标函数增量时，将该订单分配给与最小的目标函数增量所对应的目标运力资源。

其中，该第二目标阈值为大于或等于0的任一数值。

在上述过程中，服务器可以将该至少一个订单中的每个订单都分配给能实现目标函数增量最小的目标运力资源，考虑到如果多个订单的目标函数增量最小时对应于同一个目标运力资源，则为该目标运力资源分配目标函数增量最小的订单，对于其他的订单则分配给目标函数增量第二小的目标运力资源。

例如，r个目标运力资源中运力资源W对订单A派送的目标函数增量W_A最小，且该目标函数增量WA为0.5，r个目标运力资源中仍是运力资源W对订单B派送的目标函数增量WB最小，且该目标函数增量WB为0.3，假设第二目标阈值为0.7，由于WB＝0.3＜WA＝0.5＜0.7，则为运力资源W分配订单B，将订单A分配给目标函数增量仅次于该运力资源W的另一运力资源。

311、当不存在小于该第二目标阈值的目标函数增量时，服务器不为该订单分配目标运力资源。

在上述步骤310-311中，服务器根据该多个目标函数增量，对该至少一个订单进行处理，从而可以对目标函数增量小于第二目标阈值的订单，直接分配相应的目标运力资源，对目标函数增量大于或等于第二目标阈值的订单，进行压单处理，从而避免为一些暂时找不到最优解的订单分配到派送成本很高的运力资源，也就能够保证在这一轮调度中的整体收益最大。

在上述步骤301-311中，例如在本轮调度中目标区域内新接收到的订单数量从100增加到140，而运力资源从300增加到400，在相关技术中本轮调度的计算量原本将会从300¹⁰⁰增加到400¹⁴⁰，而假设在推荐模型中从这400个运力资源中筛选出了派单概率符合预设条件的310个骑手，则通过本发明实施例提供的订单处理方法，能够仅使得本轮调度的计算量从相关技术中的400¹⁴⁰降低至310¹⁴⁰，有利于降低寻找最优解的解空间大小，缩短订单处理的时间，提升订单处理的效率。

在一些实施例中，服务器还可以不进行压单处理，也即是，服务器对每个订单，直接将该订单分配给与最小的目标函数增量所对应的目标运力资源，从而能够及时为每个订单分配运力资源，提升了订单处理的速度，避免了用户的长时间等待。

进一步地，服务器将压单数据添加到目标区域内多个运力资源的待处理订单中，从而能够避免将压单数据当做本轮调度的订单被分配出去，完善了订单处理过程中的处理逻辑。

进一步地，服务器订单信息、运力资源信息、第一数据、第二数据、第三数据、第四数据、第五数据或者第六数据中的至少一项获取为特征数据，丰富了特征数据的类型，有利于推荐出更加准确的目标运力资源。

进一步地，服务器采用多个弱学习器组成的强学习器构成推荐模型，能够通过多个弱学习器添加多个约束条件，有利于对特征数据进行特征分裂，从而得到决策树各个叶子节点的叶子节点分数，当采用整体分析时，能够兼顾本轮调度过程中这一批订单的累计收益，有利于得到全局过程的最优解，当采用个体分析时，能够找到每个订单单次决策最优的运力资源。

进一步地，确定取单顺序和派单顺序，获取预计派送路径，能够得到当将该订单分配给该目标运力资源的情况下，对每个目标运力资源进行路径规划的结果，从而以矩阵的形式表示目标函数增量，得到打分矩阵，便于了进行订单处理。

进一步地，对目标函数增量大于或等于第二目标阈值的订单进行压单处理，从而避免为一些暂时找不到最优解的订单分配到派送成本很高的运力资源，也就能够保证在这一轮调度中的整体收益最大。

上述实施例提供了服务器进行订单处理的过程，也即是服务器通过推荐模型从目标区域中筛选出派单概率符合预设条件的目标运力资源，仅对目标运力资源计算目标函数增量，从而有利于寻找调度效果的最优解。

在执行上述实施例中的订单处理过程之前，服务器对初始模型分别进行在线训练以及离线训练得到该推荐模型，在本发明实施例中将对推荐模型的在线训练过程进行详述，图5是本发明实施例提供的一种在线训练推荐模型的流程图，参见图5，该实施例包括：

501、服务器获取目标区域内的至少一个历史订单的历史特征数据，该历史特征数据为距离当前时刻之前预设时长内的至少一个特征数据。

其中，该预设时长可以是任一大于0的数值，该预设时长可以由用户进行设置，例如该预设时长为7天。

在上述过程中，服务器可以获取该目标区域内该预设时长内每一轮调度过程的至少一个特征数据，将该至少一个特征数据确定为该历史特征数据。例如当该预设时长为7天时，假设每轮调度之间的时间间隔相等且为10分钟，那么在这种情况下，服务器获取的是7天内每天进行的24×6＝144轮调度中的144个特征数据，将这7×144＝1008个特征数据作为历史特征数据。

上述步骤501中获取历史特征数据的方法与上述步骤302中获取特征数据的方法类似，在此不作赘述。

502、服务器将该历史特征数据输入初始模型，通过该初始模型，获取多个样本运力资源对该至少一个历史订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量。

其中，该多个样本运力资源为该历史特征数据中参与每一轮历史调度过程的运力资源，该初始模型为多个弱学习器所集成的强学习器，该初始模型可以是GB、GBDT、XGBoost等。

在上述过程中，服务器可以对每一轮历史调度过程而言，将与该历史调度过程所对应的历史特征数据输入该初始模型内的多个弱学习器，通过该初始模型内的该多个弱学习器，为该历史特征数据添加多个约束条件，对每个样本运力资源，获取该样本运力资源对每个历史订单进行派送的导航距离；根据该历史特征数据和该导航距离，获取当将该历史订单添加到该样本运力资源的历史待处理订单中时，该样本运力资源的取单顺序和派单顺序；根据该取单顺序和派单顺序，确定预计派送路径；对每个预计派送路径，获取将该历史订单添加到该历史待处理订单前的第一目标函数值，以及将该历史订单添加到该历史待处理订单后的第二目标函数值；根据该第一目标函数值和该第二目标函数值，生成多个预计派送路径所对应的多个目标函数增量。

上述步骤502中获取目标函数增量的过程与上述步骤305-309中获取目标函数增量的过程类似，在此不作赘述。

503、服务器根据该多个目标函数增量，对该至少一个历史订单进行处理，输出该多个样本运力资源对该至少一个历史订单进行派送的派单概率。

在上述过程中，服务器可以对每个历史订单，当存在小于第二目标阈值的目标函数增量时，将该历史订单分配给与最小的目标函数增量所对应的样本运力资源；当不存在小于该第二目标阈值的目标函数增量时，不为该历史订单分配样本运力资源，从而可以根据对该至少一个历史订单的处理结果，确定该多个样本运力资源对该至少一个历史订单进行派送的派单概率。

上述步骤503中对历史订单进行处理的过程与上述步骤310-311中对订单进行处理的过程类似，在此不作赘述。

在上述步骤502-503中，服务器将该历史特征数据输入该初始模型，从而输出该多个样本运力资源对该至少一个历史订单进行派送的派单概率，从而能够对每一轮历史调度过程，重复执行上述步骤502-503，从而能够得到每一轮历史调度过程的概率分布。

例如，在某一轮历史调度过程中，样本运力资源U对历史订单V的预计派送路径的目标函数增量最小，且该目标函数增量UV＝0.1小于第二目标阈值0.7，则确定该样本运力资源U对该至少一个历史订单的派单概率为1。

504、服务器当该派单概率的损失函数值大于第一目标数值时，通过决策树算法对该初始模型内的多个约束条件的阈值参数进行修改，该损失函数值用于指示该派单概率与该多个样本运力资源的实际派单结果之间的误差。

其中，该第一目标数值为任一大于或等于0且小于或等于1的数值，该损失函数可以是该多个样本运力资源的派单概率与该多个样本运力资源的实际派单结果之间的MSE(mean square error，均方误差)。

在上述过程中，由于每个弱学习器的决策树可以为二叉树，因此每个弱学习器在进行特征分裂时都一分为二，分为左子树和右子树，该阈值参数也即是特征分裂时的阈值，例如，某一决策树的某一节点是基于任一目标特征值进行分裂的，假设该阈值参数为z，则可以将目标特征值小于z的样本运力资源划分为左子树，将目标特征值大于或等于z的样本运力资源划分为右子树，该阈值参数z可以为任一数值。

在上述步骤504中，服务器可以将该多个样本运力资源的派单概率在损失函数中的取值作为该损失函数值，从而当该损失函数值大于第一目标数值时，对阈值参数进行修改，对每一轮历史调度过程，迭代执行上述步骤502-504，直到该损失函数值小于或等于该第一目标数值时，执行下述步骤505。

505、直到该损失函数值小于或等于该第一目标数值或者迭代次数达到预设次数，服务器得到推荐模型。

其中，该预设次数可以是任一大于0的正整数。

图6是本发明实施例提供的一种订单处理方法的示意图，参见图6，服务器可以根据该历史特征数据，对初始模型进行训练，得到该推荐模型，使得该初始模型所输出的预测概率与实际派单结果之间的损失在可控范围内，进而将该推荐模型投入到线上使用过程。

506、服务器根据实际派单结果和派单概率，获取当召回率大于第二目标数值时的概率阈值，该召回率用于指示该派单概率大于该概率阈值且实际派单结果为真的运力资源数与实际派单结果为真的运力资源数的比值。

其中，该第二目标数值可以是任一大于或等于0且小于或等于1的数值，例如该第二目标数值为0.97。

在上述过程中，当服务器对初始模型训练得到推荐模型后，还可以基于该多个样本运力资源的派单概率的概率分布，确定一个能够使得召回率大于第二目标数值的概率阈值。

例如，当该第二目标数值为0.97时，服务器是基于上述概率分布，寻找刚好使得召回率大于0.97的概率阈值，也即是能够保证推荐模型预测为真且实际为真的样本数量除以实际为真的样本数量所得到的数值能够大于0.97。

507、服务器将该概率阈值确定为第一目标阈值。

通过上述步骤506-507，服务器可以在得到推荐模型后，获取一个第一目标阈值，从而将该推荐模型投入到订单处理过程中进行使用时，能够对推荐模型的召回率进行有效保障，还可以采用该召回率来衡量该推荐模型的过滤准确度。

在一些实施例中，当服务器确定该第一目标阈值后，还可以获取在该目标概率阈值下的过滤比例，该过滤比例为预测概率小于该第一目标阈值的样本运力资源数量除以参与本轮历史调度过程的所有样本运力资源数量，从而可以通过该过滤比例来衡量该推荐模型的过滤精度。

本发明实施例提供的方法，通过获取目标区域内的历史特征数据，根据该历史特征数据对初始模型进行迭代训练，直到输出的派单概率的损失函数值小于第一目标数值时，停止迭代得到推荐模型，使得该初始模型所输出的预测概率与实际派单结果之间的损失在可控范围内，进一步地，在训练过程中基于决策树算法修改各个约束条件的阈值参数，能够在迭代过程中降低损失函数值，进一步地，通过初试模型获取每个样本运力资源的预计派送路径，根据该预计派送路径获取目标函数增量，从而能够获取每个样本运力资源的派单概率，此外，根据召回率确定第一目标阈值，能够保证推荐模型的过滤准确度。

上述实施例提供了对初始模型进行在线训练，得到推荐模型的方法，需要说明的是，服务器还可以定时对该推荐模型执行上述实施例中的在线训练方法，从而对该推荐模型进行定时调整，以得到使得该推荐模型的准确度和精度更高的模型参数。

然而，由于在线训练过程中只能保证召回率大于第二目标数值，也就是说有一部分运力资源的实际派单结果为真，但推荐模型会将这部分运力资源过滤掉，不为这部分运力资源分配订单，使得整个推荐模型趋于过拟合状态。例如当该第二目标数值为0.97时，推荐模型只能保证召回率大于97％，那么将会有3％本应该被派单但却被推荐模型过滤掉的情况下的运力资源，长此以往符合3％的误判情况下的运力资源都不会被派单。

因此，为了避免推荐模型过拟合，本发明实施例将对该推荐模型的离线训练过程进行详述，图7是本发明实施例提供的一种离线训练推荐模型的流程图，参见图7，该实施例包括：

701、服务器根据历史特征数据，获取多个运力资源对至少一个历史订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量。

上述步骤701中获取目标函数增量的方法与上述步骤502中获取目标函数增量的方法类似，在此不作赘述。

702、服务器根据该多个目标函数增量，对该至少一个历史订单进行处理，得到该多个运力资源的理论派单结果。

上述步骤702中对历史订单进行处理的过程与上述步骤503中对历史订单进行处理的过程类似，在此不作赘述。

在上述步骤701-702中，服务器没有引入推荐模型，也就没有对目标区域内的多个运力资源进行筛选，也即是服务器遍历获取了目标区域内每一个运力资源对每一个历史订单进行派送的目标函数增量，从而能够得到该多个运力资源的理论派单结果，该理论派单结果对于推荐模型的误判情况(召回率的误差情况下的那部分运力资源)进行了修正。

例如，当第二目标数值对0.97时，推荐模型在过滤运力资源时会产生3％的误判情况，也即是有3％的误判情况下的运力资源本应该输出派单概率为1，但推荐模型输出的派单概率为0，从而将这部分运力资源过滤掉了，由于推荐模型不能识别出这3％的误判情况，服务器可以通过执行上述步骤701-702，找到目标区域内所有运力资源的正确派单结果，也就能够3％的误判情况进行修正。

703、服务器根据将该理论派单结果，对初始模型进行训练，得到推荐模型。

在上述过程中，服务器根据对目标区域内所有运力资源的理论派单结果，生成包括该理论派单结果的新的样本特征数据，将该样本特征数据输入初始模型(或者推荐模型)进行训练，从而得到优化后的推荐模型。

上述步骤703与上述步骤501-507类似，只是离线训练时推荐模型不投入线上运行，并且采用的训练数据不是历史特征数据，是基于上述步骤701-702生成的新的样本特征数据。

基于上述示例，原本在线训练时，这3％的误判情况在历史特征数据中的派单概率为0，在离线训练时，能够将这3％的误判情况在新的样本特征数据中置为1，从而避免了推荐模型的过拟合。

在一些实施例中，服务器还可以在订单处理的高峰期以外的时段，执行本发明实施例提供的离线训练过程，由于离线运行过程不在线上运行，因此没有对训练速度的限制，从而在不会影响服务器对订单处理的性能的基础上，防止了推荐模型的过拟合。

本发明实施例提供的方法，通过不对目标区域内的多个运力资源进行过滤，从而得到多个运力资源的理论派单结果，从而对于推荐模型的误判情况进行了修正，根据该理论派单结果对初始模型进行训练，得到推荐模型，能够在不影响服务器对订单处理的性能的基础上，防止了推荐模型的过拟合，保证了训练数据的不收敛性，提高了推荐模型的泛化能力。

图8是本发明实施例提供的一种订单处理装置的结构示意图，参见图8，该装置包括输入输出模块801、获取得到模块802和处理模块803，下面进行详述：

输入输出模块801，用于将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，该推荐模型用于为该至少一个订单推荐派单概率符合预设条件的运力资源；

获取得到模块802，用于根据该特征数据，获取该多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量，该目标函数增量用于指示运力资源基于所规划的派送路径派送该至少一个订单时预计增加的目标函数损失；

处理模块803，用于根据该多个目标函数增量，对该至少一个订单进行处理。

本发明实施例提供的装置，通过将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，根据该特征数据，获取多个目标运力资源对该至少一个订单进行派送的多个预计派送路径，得到与该多个预计派送路径对应的多个目标函数增量，根据该多个目标函数增量，对该至少一个订单进行处理，从而能够基于推荐模型，先对该目标区域内的所有运力资源进行一轮筛选，选出符合派单概率预设条件的多个目标运力资源，仅获取该多个目标运力资源的目标函数增量，也就避免了对目标区域内的所有运力资源进行目标函数增量获取，从而缩小了寻找调度效果最优解时的解空间，降低了找到最优解的计算难度，减小了订单处理过程的计算量和处理时长，有利于达到最优的调度效果。

在一种可能实施方式中，该输入输出模块801用于：

在一种可能实施方式中，基于图8的装置组成，该装置还包括：

在一种可能实施方式中，该训练模块包括：

在一种可能实施方式中，该输入输出单元用于：

将该概率阈值确定为该第一目标阈值。

在一种可能实施方式中，该训练模块用于：

在一种可能实施方式中，获取得到模块802包括：

在一种可能实施方式中，该路径规划单元包括：

在一种可能实施方式中，该获取子单元还用于：

根据该取单顺序和该派单顺序，确定该预计派送路径。

在一种可能实施方式中，该生成单元用于：

在一种可能实施方式中，该处理模块803用于：

需要说明的是：上述实施例提供的订单处理装置在处理订单时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的订单处理装置与订单处理方法实施例属于同一构思，其具体实现过程详见订单处理方法实施例，这里不再赘述。

图9是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)901和一个或一个以上的存储器902，其中，该存储器902中存储有至少一条指令，该至少一条指令由该处理器901加载并执行以实现上述各个订单处理方法实施例提供的订单处理方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中订单处理方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种订单处理方法，其特征在于，所述方法包括：

将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，所述推荐模型用于为所述至少一个订单推荐派单概率符合预设条件的运力资源；

根据所述特征数据，获取所述多个目标运力资源对所述至少一个订单进行派送的多个预计派送路径，得到与所述多个预计派送路径对应的多个目标函数增量，所述目标函数增量用于指示运力资源基于所规划的派送路径派送所述至少一个订单时预计增加的目标函数损失；

根据所述多个目标函数增量，对所述至少一个订单进行处理。

2.根据权利要求1所述的方法，其特征在于，所述将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源包括：

所述推荐模型为多个弱学习器所集成的强学习器，将所述特征数据输入所述多个弱学习器，通过对所述多个弱学习器的输出进行加权处理，得到多个运力资源对所述至少一个订单进行派送的派单概率；

将派单概率大于第一目标阈值的运力资源获取为所述多个目标运力资源。

3.根据权利要求1所述的方法，其特征在于，所述将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源之前，所述方法还包括：

获取所述目标区域内的至少一个历史订单的历史特征数据，所述历史特征数据为距离当前时刻之前预设时长内的至少一个特征数据；

根据所述历史特征数据，对初始模型进行训练，得到所述推荐模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述历史特征数据，对初始模型进行训练，得到所述推荐模型包括：

将所述历史特征数据输入所述初始模型，输出多个样本运力资源对所述至少一个历史订单进行派送的派单概率；

当所述派单概率的损失函数值大于第一目标数值时，通过决策树算法对所述初始模型内的多个约束条件的阈值参数进行修改，所述损失函数值用于指示所述派单概率与所述多个样本运力资源的实际派单结果之间的误差；

直到所述损失函数值小于或等于所述第一目标数值或者迭代次数达到预设次数，得到所述推荐模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述历史特征数据输入所述初始模型，输出多个样本运力资源对所述至少一个历史订单进行派送的派单概率包括：

将所述历史特征数据输入所述初始模型，通过所述初始模型，获取所述多个样本运力资源对所述至少一个历史订单进行派送的多个预计派送路径，得到与所述多个预计派送路径对应的多个目标函数增量；

根据所述多个目标函数增量，对所述至少一个历史订单进行处理，输出所述多个样本运力资源对所述至少一个历史订单进行派送的派单概率。

6.根据权利要求2或4所述的方法，其特征在于，所述得到所述推荐模型之后，所述方法还包括：

根据所述实际派单结果和所述派单概率，获取当召回率大于第二目标数值时的概率阈值，所述召回率用于指示所述派单概率大于所述概率阈值且实际派单结果为真的运力资源数与实际派单结果为真的运力资源数的比值；

将所述概率阈值确定为所述第一目标阈值。

7.根据权利要求3所述的方法，其特征在于，所述根据所述历史特征数据，对初始模型进行训练，得到所述推荐模型包括：

根据所述历史特征数据，获取多个运力资源对所述至少一个历史订单进行派送的多个预计派送路径，得到与所述多个预计派送路径对应的多个目标函数增量；

根据所述多个目标函数增量，对所述至少一个历史订单进行处理，得到所述多个运力资源的理论派单结果；

根据将所述理论派单结果，对所述初始模型进行训练，得到所述推荐模型。

8.根据权利要求1所述的方法，其特征在于，所述将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源之前，所述方法还包括：

获取压单数据，所述压单数据为当前时刻处于压单状态的订单；

将所述压单数据添加到多个运力资源的待处理订单中，获取所述特征数据。

9.根据权利要求1所述的方法，其特征在于，所述特征数据包括订单信息、运力资源信息、第一数据、第二数据、第三数据、第四数据、第五数据或者第六数据中的至少一项；

所述第一数据包括所述至少一个订单的至少一个预计送达时刻中的最大值和最小值，和所述至少一个订单的至少一个预计送达时刻在两两之间的至少一个第一时间差中的最大值和最小值；

所述第二数据包括所述至少一个订单与每个运力资源的待处理订单的预计送达时刻之间多个第二时间差中的最大值和最小值；

所述第三数据包括所述至少一个订单的取单位置在两两之间多个第一直线距离中的最小值、所述至少一个订单的派单位置在两两之间多个第二直线距离中的最小值，和所述至少一个订单的取单位置和派单位置在两两之间多个第三直线距离中的最小值；

所述第四数据包括所述至少一个订单与每个运力资源的待处理订单的取单位置之间多个第四直线距离中的最小值、所述至少一个订单与每个运力资源的待处理订单的派单位置之间多个第五直线距离中的最小值，和所述至少一个订单与每个运力资源的待处理订单的取单位置和派单位置之间多个第六直线距离中的最小值；

所述第五数据包括所述至少一个订单的取单位置与每个运力资源当前位置之间多个第七直线距离中的最小值，和所述至少一个订单的派单位置与每个运力资源当前位置之间多个第八直线距离中的最小值；

所述第六数据包括每个运力资源的待处理订单的数量，和所述至少一个订单所在的调度轮次。

10.根据权利要求1所述的方法，其特征在于，所述根据所述特征数据，获取所述多个目标运力资源对所述至少一个订单进行派送的多个预计派送路径，得到与所述多个预计派送路径对应的多个目标函数增量包括：

根据所述特征数据，对所述多个目标运力资源进行路径规划，得到所述多个预计派送路径；

根据所述多个预计派送路径，生成打分矩阵，所述打分矩阵用于以矩阵的形式表示所述多个目标函数增量。

11.根据权利要求10所述的方法，其特征在于，所述根据所述特征数据，对所述多个目标运力资源进行路径规划，得到所述多个预计派送路径包括：

对每个目标运力资源，获取所述目标运力资源对每个订单进行派送的导航距离；

根据所述特征数据和所述导航距离，获取当将所述订单添加到所述目标运力资源的待处理订单中时，所述目标运力资源对所述待处理订单进行派送的预计派送路径。

12.根据权利要求11所述的方法，其特征在于，所述根据所述特征数据和所述导航距离，获取当将所述订单添加到所述目标运力资源的待处理订单中时，所述目标运力资源对所述待处理订单进行派送的预计派送路径包括：

根据所述特征数据和所述导航距离，获取当将所述订单添加到所述待处理订单中时，所述目标运力资源对所述待处理订单的取单顺序和派单顺序；

根据所述取单顺序和所述派单顺序，确定所述预计派送路径。

13.根据权利要求10所述的方法，其特征在于，所述根据所述多个预计派送路径，生成打分矩阵包括：

对每个预计派送路径，获取将所述订单添加到所述待处理订单前的第一目标函数值，以及将所述订单添加到所述待处理订单后的第二目标函数值；

根据所述第一目标函数值和所述第二目标函数值，生成所述打分矩阵。

14.根据权利要求1所述的方法，其特征在于，所述根据所述多个目标函数增量，对所述至少一个订单进行处理包括：

对每个订单，当存在小于第二目标阈值的目标函数增量时，将所述订单分配给与最小的目标函数增量所对应的目标运力资源；

当不存在小于所述第二目标阈值的目标函数增量时，不为所述订单分配目标运力资源。

15.一种订单处理装置，其特征在于，所述装置包括：

输入输出模块，用于将目标区域内的至少一个订单的特征数据输入推荐模型，输出多个目标运力资源，所述推荐模型用于为所述至少一个订单推荐派单概率符合预设条件的运力资源；

获取得到模块，用于根据所述特征数据，获取所述多个目标运力资源对所述至少一个订单进行派送的多个预计派送路径，得到与所述多个预计派送路径对应的多个目标函数增量，所述目标函数增量用于指示运力资源基于所规划的派送路径派送所述至少一个订单时预计增加的目标函数损失；

处理模块，用于根据所述多个目标函数增量，对所述至少一个订单进行处理。

16.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求14任一项所述的订单处理方法所执行的操作。

17.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求14任一项所述的订单处理方法所执行的操作。