CN112700049A

CN112700049A - 一种订单派发方法及装置

Info

Publication number: CN112700049A
Application number: CN202011643182.6A
Authority: CN
Inventors: 王强; 张文琦; 石东海; 袁哲明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-23

Abstract

本发明实施例提供了一种订单派发方法及装置，其中，获取每一车辆实时的司乘信息；其中，司乘信息包括：司机信息和乘客订单信息；将实时的司乘信息输入至已训练神经网络模型，输出与司乘信息对应的各司乘对价值；其中，已训练神经网络模型是基于样本集训练得到的，样本集包括：历史的司乘信息；根据各司乘对价值，采用二分图的最佳匹配KM算法，对所有的司乘进行司乘匹配，得到与乘客订单匹配度最高的司机，以向与乘客订单匹配度最高的司机所在的车辆派发订单。以解决相关技术中司乘匹配仅以订单价格为依据，为乘车在其乘坐位置周围一定区域内的全部车辆进行车乘匹配，使得整个派单平台的订单完成的效率较低，影响整个平台的收益的技术问题。

Description

一种订单派发方法及装置

技术领域

本发明涉及通信技术领域，特别是涉及一种订单派发方法及装置。

背景技术

随着移动通信系统与全球定位系统(Global Positioning System，简称GPS)的蓬勃发展，车辆共享平台也快速发展着，并为人们的出行提供了便捷的服务。

在车辆共享平台中，为了能够让乘客共享到车辆，一般由乘客下订单，然后车辆共享平台收集到乘客的订单，司乘匹配仅以订单价格为依据，向其乘坐位置周围一定区域内的全部车辆进行车乘匹配，确定匹配度最高的车辆，以完成派发该乘客的订单。

这样，相关技术中司乘匹配仅以订单价格为依据，为乘车在其乘坐位置周围一定区域内的全部车辆进行车乘匹配，使得整个派单平台的订单完成的效率较低，影响整个平台的收益。

发明内容

本发明实施例的目的在于提供一种订单派发方法及装置，用以解决相关技术中司乘匹配仅以订单价格为依据，为乘车在其乘坐位置周围一定区域内的全部车辆进行车乘匹配，使得整个派单平台的订单完成的效率较低，影响整个平台的收益的技术问题。具体技术方案如下：

第一方面，本发明实施例提供了订单派发方法，包括：

获取每一车辆实时的司乘信息；其中，所述司乘信息包括：司机信息和乘客订单信息；所述司机信息包括：接单距离信息、车辆位置信息以及司机服务等级信息；所述乘客订单信息包括：订单起始位置信息、订单终点位置信息以及订单价格信息；

将所述实时的司乘信息输入至已训练神经网络模型，输出与所述司乘信息对应的各司乘对价值；其中，所述已训练神经网络模型是基于样本集训练得到的，所述样本集包括：历史的司乘信息；

根据各司乘对价值，采用二分图的最佳匹配KM算法，对所有的司乘进行司乘匹配，得到与所述乘客订单匹配度最高的司机，以向所述与所述乘客订单匹配度最高的司机所在的车辆派发订单。

进一步的，采用如下步骤，训练得到已训练神经网络模型：

获取服务区内每一车辆历史的司乘信息；

将历史的司乘信息输入至待训练神经网络中，输出与历史的司乘信息相对应的各司乘对价值估计值；

基于最小化司乘对价值估计值与司乘对价值目标值的差值为训练目标，构建损失函数，所述的司乘对价值目标值是由接单距离值、订单价格值、订单终点车辆需求量以及司机服务等级值计算得到的；

判断所述损失函数是否低于预设阀值；

若损失函数不低于预设阀值，调整待训练神经网络的参数，得到调整后神经网络；

使用调整后神经网络更新待训练神经网络，返回所述将历史的司乘信息输入至待训练神经网络中，输出与历史的司乘信息相对应的各司乘对价值估计值的步骤，直至损失函数低于预设阀值，得到训练好的神经网络模型；

其中，采用如下公式，确定所述司乘对价值目标值：

y＝R_p+λ₁R_d+λ₂R_h+λ₃R_v

其中，y为司乘对价值目标值，R_d为接单距离对应的奖励值，R_h为订单终点车辆需求量的奖励值，R_v为司机服务等级奖励值，R_d为接单距离的相反数，R_h与订单终点需求量成正比，

λ₁为接单距离对应的奖励值的比例，λ₂为订单终点车辆需求量的奖励值的比例，λ₃为司机服务等级奖励值的比例。

进一步的，在所述将历史的司乘信息输入至待训练神经网络中，输出与历史的司乘信息相对应的各司乘对价值估计值之后，所述方法还包括：

将所述最小化司乘对价值估计值与司乘对价值目标值的差值，历史的司乘信息，以及各司乘对价值估计值，作为经验样本，存储到样本池中；

从所述样本池中，抽取批量经验样本；

在所述若损失函数不低于预设阀值，调整待训练神经网络的参数，得到调整后神经网络之后，所述方法还包括：

使用调整后神经网络更新待训练神经网络，使用所述批量经验样本更新历史的司乘信息，返回所述将历史的司乘信息输入至待训练神经网络中，输出与历史的司乘信息相对应的各司乘对价值估计值的步骤，直至损失函数低于预设阀值，得到训练好的神经网络模型。

进一步的，所述从所述样本池中，抽取批量经验样本，包括：

根据司乘对价值估计值与司乘对价值目标值的差值，计算所述经验样本的权重概率密度函数；

根据所述权重概率密度函数，对所述样本池中的经验样本进行批量抽样，得到批量样本。

进一步的，所述将所述实时的司乘信息输入至已训练神经网络模型，输出各司乘对价值，包括：

将所述司乘信息输入至所述已训练神经网络模型中，所述已训练神经网络模型根据所述司乘信息中接单距离信息、订单价格信息、订单终点位置信息以及司机服务等级信息，通过所述已训练神经网络模型的输出层神经元，输出与所述司乘信息对应的各司乘对价值，其中，所述神经网络模型输出层神经元个数为一个，所述神经网络模型的输入层神经元个数由所述司乘信息的维度决定。

进一步的，所述根据各司乘对价值，采用二分图的最佳匹配KM算法，对所有的司乘进行司乘匹配，得到与所述乘客匹配度最高的司机，以向所述与所述乘客匹配度最高的司机所在的车辆派发订单，包括：

所述将所述实时的司乘信息输入至已训练神经网络模型，输出与所述司乘信息对应的各司乘对价值，包括：

基于所述实时的司乘信息，搜索所有司机中各司机预定范围内所有的订单，作为有效订单；

通过已训练神经网络模型，计算所有司机与所有司机有效订单的司乘对价值；

所述根据各司乘对价值，采用二分图的最佳匹配KM算法，对所有的司乘进行司乘匹配，得到与所述乘客匹配度最高的司机，以向所述与所述乘客匹配度最高的司机所在的车辆派发订单，包括：

将所有司机有效订单的司乘对价值作为KM算法的输入，采用KM算法，对所有的司乘进行司乘匹配，确定最大化所有司乘对价值，将所述订单派发至最大化所有司乘对价值的唯一司机。

第二方面，本发明实施例提供了订单派发装置，包括：

获取模块，用于获取每一车辆实时的司乘信息；其中，所述司乘信息包括：司机信息和乘客订单信息；所述司机信息包括：接单距离信息、车辆位置信息以及司机服务等级信息；所述乘客订单信息包括：订单起始位置信息、订单终点位置信息以及订单价格信息；

第一处理模块，用于将所述实时的司乘信息输入至已训练神经网络模型，输出与所述司乘信息对应的各司乘对价值；其中，所述已训练神经网络模型是基于样本集训练得到的，所述样本集包括：历史的司乘信息；

匹配模块，用于根据各司乘对价值，采用二分图的最佳匹配KM算法，对所有的司乘进行司乘匹配，得到与所述乘客订单匹配度最高的司机，以向所述与所述乘客订单匹配度最高的司机所在的车辆派发订单。

进一步的，所述装置还包括：第二处理模块，用于采用如下步骤，训练得到已训练神经网络模型：

获取服务区内每一车辆历史的司乘信息；

判断所述损失函数是否低于预设阀值；

其中，采用如下公式，确定所述司乘对价值目标值：

y＝R_p+λ₁R_d+λ₂R_h+λ₃R_v

进一步的，所述装置还包括：

存储模块，用于在所述将历史的司乘信息输入至待训练神经网络中，输出与历史的司乘信息相对应的各司乘对价值估计值之后，将所述最小化司乘对价值估计值与司乘对价值目标值的差值，历史的司乘信息，以及各司乘对价值估计值，作为经验样本，存储到样本池中；

抽样模块，用于从所述样本池中，抽取批量经验样本；

所述装置还包括：

第三处理模块，用于在所述若损失函数不低于预设阀值，调整待训练神经网络的参数，得到调整后神经网络之后，使用调整后神经网络更新待训练神经网络，使用所述批量经验样本更新历史的司乘信息，返回所述将历史的司乘信息输入至待训练神经网络中，输出与历史的司乘信息相对应的各司乘对价值估计值的步骤，直至损失函数低于预设阀值，得到训练好的神经网络模型。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面任一的方法。

本发明实施例有益效果：

本发明实施例提供的一种订单派发方法及装置，对每一辆车辆进行单独派发订单。在单独派发订单过程中，订单派发，与司机信息以及乘客订单信息均相关，因此，本发明实施例在考虑除了订单价格信息以外，还考虑了订单起始位置信息、订单终点位置信息以及每一车辆的司机信息，比如车辆位置信息以及司机服务等级信息，对所有车辆进行司乘匹配，得到与所述乘客匹配度最高的司机。这样使得派发订单更加匹配，以向所述与所述乘客匹配度最高的司机所在的车辆派发订单，减少了单个车辆与派发的订单不匹配时所浪费掉的时间，提高派发订单的效率，进而提高订单的完成效率；同时，每个车辆与派发的订单相匹配时，每个订单的完成效率提高，使得整个派单平台的订单完成的效率也提高，进而提高了整个派单平台的收益。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的订单派发方法的流程示意图；

图2为本发明实施例得到已训练神经网络模型的第一流程示意图；

图3为本发明实施例得到已训练神经网络模型的第二流程示意图；

图4为本发明实施例神经网络模型内部结构示意图；

图5为本发明实施例的订单派发装置的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

故，为了解决上述司乘匹配仅以订单价格为依据，为乘车在其乘坐位置周围一定区域内的全部车辆进行车乘匹配，使得整个派单平台的订单完成的效率较低，影响整个平台的收益的技术问题，发明人考虑了两点内容：首先，司乘匹配仅以订单价格为依据，这将导致司乘匹配因仅考虑了当前的利益，而没有考虑长久利益而损失了部分订单接单率和平台利益，因此发明人认为在车乘匹配过程中，除了考虑订单价格以外，还应该考虑订单终点区域(即订单终点位置信息的预定范围内)的车辆需求量。其次，发明人考虑到司乘匹配中以达到提高司乘体验感和平台收益的目的，以从本质上考虑交通供需不匹配问题，即加长司机在线时长，保障更多的订单被服务，促进司机提高在线时长和服务质量的“好司机好收益”机制。

基于上述考虑，本发明实施例提供了一种订单派发方法及装置，在车辆派发订单方面，没有将一个区域的所有车辆派发订单到其它车辆需求量较高的地方，而是每一辆车辆进行单独派发订单。在单独派发订单过程中，订单派发，与司机信息以及乘客订单信息均相关，因此，本发明实施例在考虑除了订单价格信息以外，还考虑了订单起始位置信息、订单终点位置信息以及每一车辆的司机信息，比如车辆位置信息以及司机服务等级信息，对所有车辆进行司乘匹配，得到与所述乘客匹配度最高的司机。这样使得派发订单更加匹配，以向所述与所述乘客匹配度最高的司机所在的车辆派发订单，减少了单个车辆与派发的订单不匹配时所浪费掉的时间，提高派发订单的效率，进而提高订单的完成效率；同时，每个车辆与派发的订单相匹配时，每个订单的完成效率提高，使得整个派单平台的订单完成的效率也提高，进而提高了整个派单平台的收益。

下面首先对本发明实施例提供的一种订单派发方法进行介绍。

本发明实施例所提供的一种订单派发方法，应用于派单平台，其中，派单平台可以用于为车辆分配订单，使车辆能够提供交通服务。这样的派单平台也可以被称为车辆预约或车辆调度平台，可通过诸如安装有该平台应用程序的移动终端之类的电子设备进行访问。

首先，通过该平台应用程序，乘客可以将需要匹配车辆的请求，以乘客订单信息传送至派单平台。其中，所述乘客订单信息包括：订单起始位置信息、订单终点位置信息以及订单价格信息。为了布局清楚，后续对乘客订单信息再做详细说明。

其次，订单平台可以获取每一车辆的司机信息，然后将每一车辆的司机信息与乘客订单信息，逐条生成司乘信息，其中，所述司机信息包括：接单距离信息、车辆位置信息以及司机服务等级信息。通过一车辆的司机与一乘客订单信息作为一条司乘信息，比如100辆车，与2个乘客，可以生成200条司乘信息。为了布局清楚，后续对司机信息再做详细说明。

最后，订单平台基于司乘信息，后续进行司乘匹配，得到与所述乘客的订单匹配度最高的司机，以向与乘客的订单匹配度最高的司机所在的车辆派发订单。

结合上述说明，下面详细介绍本发明实施例提供的一种订单派发方法。

如图1所示，本发明实施例所提供的一种订单派发方法，应该方法可以包括如下步骤：

步骤110，获取每一车辆实时的司乘信息；其中，所述司乘信息包括：司机信息和乘客订单信息；所述司机信息包括：接单距离信息、车辆位置信息以及司机服务等级信息；所述乘客订单信息包括：订单起始位置信息、订单终点位置信息以及订单价格信息。其中，所述接单距离信息包括：接单距离值，所述订单价格信息包括：订单价格值。订单终点位置信息包括：订单终点位置。派单平台可以通过各订单终点位置，确定各订单终端车辆位置，进而确定订单终点车辆需求量(也可以称为订单终点热度值)。司机服务等级信息包括：司机服务等级值。

为了能够完成实时的司乘(即司机与乘客)匹配，就需要实时获取司机的车辆，与乘客订单信息。而为了后续在实时的司乘匹配过程中，能够将司机的车辆，与乘客订单信息能够逐条进行司乘匹配，以达到获取较为准确的司乘匹配结果，本发明实施例中，获取每一车辆实时的司乘信息进一步包括：将实时获取的所有司机的车辆，与乘客订单信息，逐条生成每一车辆实时的司乘信息，即，针对所有司机的车辆及所有乘客所有订单信息，每一司机的车辆对应于乘客一个订单信息。

当然为了能够实时获得处理有限地司乘匹配，获取每一车辆实时的司乘信息进一步包括：将实时获取服务区域内的所有司机的车辆，与乘客订单信息，逐条生成服务区域内每一车辆实时的司乘信息，即，针对服务区域内所有司机的车辆及所有乘客所有订单信息，每一司机的车辆对应于乘客一个订单信息。

需要说明的是，上述接单距离信息是指订单起始位置信息与车辆位置信息之间的距离。订单起始位置信息、订单终点位置信息、订单价格信息、车辆位置信息以及司机服务等级信息均可以从订单和司机的车辆处获得。

步骤120，将所述实时的司乘信息输入至已训练神经网络模型，输出与所述司乘信息对应的各司乘对价值；其中，所述已训练神经网络模型是基于样本集训练得到的，所述样本集包括：历史的司乘信息。

上述步骤120中，与所述司乘信息对应的各司乘对价值是指对于特定的司机与订单对，即已训练神经网络模型的输入为这对司机与订单的特征，所以已训练神经网络模型的输出就是对应这对司机与订单的价值。

为了后续能够达到最大化所有司机与订单对价值的目的，上述步骤120中，通过将实时的司乘信息逐条输入至已训练神经网络模型，可以得到已训练神经网络模型的输出，即与所述司乘信息对应的各司机与乘客的对价值，此与所述司乘信息对应的各司机与乘客的对价值，可以称为司乘信息对应的各司乘对价值。为了布局清楚，后续详细介绍司乘信息对应的各司乘对价值。

需要说明的是，历史的司乘信息包括：历史的司机信息和历史的乘客订单信息；

所述历史的司机信息包括：历史的车辆位置信息以及历史的司机服务等级信息；所述历史的乘客订单信息包括：历史的订单起始位置信息、历史的订单终点位置信息以及历史的订单价格信息。

上述历史的车辆位置信息和历史的订单初始位置信息，用于神经网络模型进行估计接单距离，以保障减小接单距离达到提高乘客体现感的目的。历史的订单终止位置信息用于神经网络估计订单终点车辆需求量，以达到将车量调度到需求量较高的区域从而提升车辆共享平台订单响应率和平台收益的目的。历史的订单价格信息用于神经网络估计订单价格，达到优先服务价格较高的订单从而提高车辆共享平台收益的目的。司机服务等级信息用于神经网络模型区分司机的服务等级，保证服务等级较高的司机得到较好的收益，即“好司机好收益”，其中，司机的服务等级由司机在线时长和司机服务质量综合评定。详细的，为了从本质上解决交通供需不匹配的问题，提出了“好司机好收益”机制促进司机提高在线时长和服务质量进而保障更多的订单被服务，从而达到车辆共享平台良好发展的目的。司机服务质量越好和在线时长越长，司机服务等级越高，即司机服务等级信息越好。

步骤130，根据各司乘对价值，采用二分图的最佳匹配KM算法，对所有的司乘进行司乘匹配，得到与所述乘客订单匹配度最高的司机，以向所述与所述乘客订单匹配度最高的司机所在的车辆派发订单。

上述步骤130中，根据上述神经网络模型输出的司机与乘客对价值，通过二分图的最佳匹配(Kuhn-Munkras，简称KM)算法进行司乘匹配，以达到最大化所有司机与订单对价值的目的。

具体的，基于所述步骤120进一步包括：基于所述实时的司乘信息，搜索所有司机中各司机预定范围内所有的订单，作为有效订单；通过已训练神经网络模型，计算所有司机与所有司机有效订单的司乘对价值。上述步骤130进一步包括：将所有司机有效订单的司乘对价值作为KM算法的输入，采用KM算法，对所有的司乘进行司乘匹配，确定最大化所有司乘对价值，将所述订单派发至最大化所有司乘对价值的唯一司机。

具体举例如下，假设各司机预定范围可以但不限于3km以内的范围。通过实时的司乘信息可以得出每个订单中的订单起始位置信息、订单终点位置信息及接单距离信息等信息，因而可以从所有订单中搜索到所有司机中各司机3km内所有的订单，并称这些订单为有效订单；

将所有司机有效订单的司乘对价值作为KM算法的输入，采用KM算法，对所有的司乘进行司乘匹配，确定最大化所有司乘对价值，将所述订单派发至最大化所有司乘对价值的唯一司机。这样通过最大化所有司乘对的价值就将订单唯一地匹配给司机。

在车辆派发订单方面，没有将一个区域的所有车辆派发订单到其它车辆需求量较高的地方，而是每一辆车辆进行单独派发订单。在单独派发订单过程中，订单派发，与司机信息以及乘客订单信息均相关，因此，本发明实施例在考虑除了订单价格信息以外，还考虑了订单起始位置信息、订单终点位置信息以及每一车辆的司机信息，比如车辆位置信息以及司机服务等级信息，对所有车辆进行司乘匹配，得到与所述乘客匹配度最高的司机。这样使得派发订单更加匹配，以向所述与所述乘客匹配度最高的司机所在的车辆派发订单，减少了单个车辆与派发的订单不匹配时所浪费掉的时间，提高派发订单的效率，进而提高订单的完成效率；同时，每个车辆与派发的订单相匹配时，每个订单的完成效率提高，使得整个派单平台的订单完成的效率也提高，进而提高了整个派单平台的收益。

为了能够使得各司乘对价值在进行司乘匹配时，以达到最大化所有司机与订单对价值的目的，则需要确定各司乘对价值的准确性，一种可能的实现中，先在线对待训练神经网络进行训练，以得到能够更加准确的已训练神经网络模型，参见图2所示，具体实现过程如下：

步骤121，获取服务区内每一车辆历史的司乘信息。其中，历史的司乘信息是指在当前时刻(即实时)之前时间段内的司乘信息，相较于实时司乘信息而言的，当前时刻之前时间段，称为历史时间段。

为了得到能够更加准确的已训练神经网络模型，后续在历史的司乘匹配过程中，能够将司机的车辆，与乘客订单信息能够逐条进行司乘匹配，以达到获取较为准确的司乘匹配结果，本发明实施例中，获取服务区内每一车辆历史的司乘信息进一步包括：将服务区内历史时间段内所有司机的车辆，与乘客订单信息，逐条生成每一车辆历史的司乘信息，即，针对服务区内历史时间段内所有司机的车辆及所有乘客所有订单信息，每一司机的车辆对应于乘客一个订单信息。

步骤122，将历史的司乘信息输入至待训练神经网络中，输出与历史的司乘信息相对应的各司乘对价值估计值。

上述步骤122中，将历史的司乘历史信息逐条，输入至待训练神经网络中，所述待训练神经网络根据历史的司乘信息中，获取的接单距离信息、订单价格信息、订单终点位置信息以及司机服务等级信息，估计出每一对司机与乘客的价值。后续为了达到加快待训练神经网路模型收敛和提高经验样本利用率的目的，使用优化的样本抽样，进行所述神经网络训练，因此，先将司乘信息，司乘估计值，生成一条样本信息即<司乘信息，司乘估计值>，作为经验样本存储到样本池中；然后再从样本池中抽取批量经验样本，训练神经网络模型直至其收敛。为了布局清楚，在后文中进行详细介绍。

上述接单距离信息、订单价格信息、订单终点位置信息以及司机服务等级信息，决定待训练神经网络模型输出价值的比例(即接单距离对应的奖励值的比例，订单终点车辆需求量的奖励值的比例以及司机服务等级奖励值的比例)根据批量梯度下降(BatchGradient Descent，简称BGD)自动更新，具体的自动更新过程如下公式所示：

其中，|B|表示所抽取批量样本的个数，∑为求和符号。值得注意的是，接单距离信息保证减小接单距离，以加强乘客体现感；订单价格信息保证了优先服务价格较高的订单，以提高共享车辆平台收益；订单终点位置信息保证了车辆经过司乘匹配后，行驶到较大需求量的区域；司机服务等级信息保证了“好司机好收益”以促进车辆共享平台生态良好发展。

步骤123，基于最小化司乘对价值估计值与司乘对价值目标值的差值为训练目标，构建损失函数。此步骤中司乘对价值目标值是由接单距离值、订单价格值、订单终点车辆需求量(也可以称为订单终点热度值)以及司机服务等级值比如优秀司机的服务的等级值为1，非优秀司机的服务的等级值为0计算得到的。具体确定所述司乘对价值目标值在下文中会做详细叙述，在此不做说明。

其中，为了训练神经网络，构建损失函数。采用如下步骤，构建损失函数为：

第一步骤，根据公式R_p+λ₁R_d+λ₂R_h+λ₃R_v，计算出司乘对的目标值，作为司乘对价值目标值；

第二步骤，将司乘对价值目标值输入到已训练神经网络模型中，得到该司乘对的估计值Q(s,a；θ)，作为司乘对价值估计值，其中，Q(s,a；θ)为司乘对价值估计值，s表示司机信息，a表示乘客信息，θ为神经网络参数，；为输入s,a，变量θ，；用于区分输入及变量；

第三步骤，根据司乘对价值估计值与司乘对价值目标值计算，采用如下公式，得到损失函数：

J(θ)＝(R_p+λ₁R_d+λ₂R_h+λ₃R_v-Q(s,a；θ))²。

步骤124，判断所述损失函数是否低于预设阀值，此预设阈值是可根据需求自行设定，如：0.01之类的，其中，预设阈值的取值范围为[0，1]；如果是，也就是损失函数低于预设阀值，说明结束训练，则执行步骤127；如果否，也就是损失函数不低于预设阀值，说明需要继续下一步训练，调整神经网络模型参数，则执行步骤125。

步骤125，调整待训练神经网络的参数，得到调整后神经网络。

步骤126，使用调整后神经网络更新待训练神经网络，返回步骤122，直至损失函数低于预设阀值，执行步骤127。

步骤127，得到训练好的神经网络模型。

为了达到加快待训练神经网路模型收敛和提高经验样本利用率的目的，使用优化的样本抽样，进行所述神经网络训练，进一步训练过程如图3所示，具体实现如下：

通过上述步骤121和步骤122，首先，收集获取服务区内每一车辆历史的司乘信息。其次，将司乘历史数据逐条输入到神经网络模型中。再次，将经验样本<司乘信息，司乘估计值>存储到样本池中，供后续待训练神经网络模型训练，提供批量经验样本。进一步的，为加快神经网络模型收敛速度以及经验样本的利用率，提出了好奇驱动机制，其中，好奇驱动机制指在从样本池中抽取样本的时候，出现次数较少的样本被抽中的概率较大，这样做的好处就是加快神经网络收敛速度，并且增加样本利用率。对样本池中的所有经验样本进行权重概率密度函数计算。详细如下描述。

步骤1221，将所述最小化司乘对价值估计值与司乘对价值目标值的差值，历史的司乘信息，以及各司乘对价值估计值，作为经验样本，存储到样本池中。

步骤1222，从所述样本池中，抽取批量经验样本。

上述步骤1222中进一步包括：首先，根据司乘对价值估计值与司乘对价值目标值的差值，计算所述经验样本的权重概率密度函数；具体的权重概率密度函数公式为：

其中，w_i为抽取第i条经验样本的概率，l_i为第i条经验样本中司乘对价值估计值与司乘对价值目标值的差值，N为样本池中经验样本总数。再次，根据所述权重概率密度函数，对所述样本池中的经验样本进行批量抽样，得到批量样本。与此同时，基于最小化司乘对价值估计值与司乘对价值目标值的差值为训练目标构建损失函数。

其中，采用如下公式，确定所述司乘对价值目标值：

y＝R_p+λ₁R_d+λ₂R_h+λ₃R_v

λ₁为接单距离对应的奖励值，λ₂为订单终点车辆需求量的奖励值，λ₃为司机服务等级奖励值的比例。其中，高质量司机是司机服务等级最高或者较高，即处于司机服务等级中最大服务等级的前第一预设数量位。高质量司机是司机服务等级最低或者较低，即处于司机服务等级中最小服务等级的前第一预设数量位。其中第一预设数量可以根据用户需求进行设置。司机服务等级越高，奖励值越高。接单距离越近，奖励值也越高。订单终点车辆需求量越大，奖励值也越高。

步骤123，基于最小化司乘对价值估计值与司乘对价值目标值的差值为训练目标，构建损失函数。

当然上述步骤1221，步骤1222至步骤123并不做执行顺序上的限定。

步骤124，判断所述损失函数是否低于预设阀值；如果是，也就是损失函数低于预设阀值，说明结束训练，则执行步骤127；如果否，也就是损失函数不低于预设阀值，说明需要继续下一步训练，调整神经网络模型参数，则执行步骤125。

步骤1261，使用调整后神经网络更新待训练神经网络，使用调整后神经网络更新待训练神经网络，使用所述批量经验样本更新历史的司乘信息，返回步骤122，直至损失函数低于预设阀值，执行步骤127。

步骤127，得到训练好的神经网络模型。

为了确定上述已训练神经网络模型的准确，可以测试上述已训练神经网络模型，如下步骤实现测试过程。

第一步，获取服务区内的司乘信息；

第二步，将所述的司乘信息输入至训练好的神经网络模型中，计算出与所述司乘信息对应的各司乘对价值；

第三步，基于各司乘对价值进行司乘匹配，以确定所有司乘对价值的最大化。

为了后续能够达到最大化所有司机与订单对价值的目的，得到司乘信息对应的各司乘对价值，上述步骤120进一步包括：

在上述步骤中，待训练神经网络模型根据司乘信息中，获取的接单距离信息、订单价格信息、订单终点位置信息以及司机服务等级信息，通过待训练神经网络模型的输出层神经元，输出与司乘信息对应的司乘对的价值信息。

进一步的，为了更清楚表明神经网络模型的工作原理，神经网络模型内部结构如图4所示，具体神经网络模型包括：估计Q网络和样本池。在每个训练步骤中，一条历史的司乘信息被输入到估计Q网络中，估计Q网络，估计相应的司乘价值，得到司乘估计值，并将此条经验样本即<司乘信息，司乘估计值>存储到样本池中；还可以通过好奇驱动机制从样本池中抽取批量样本对估计Q网络进行参数更新，直至估计Q网络收敛。

其中，Q网络为一个三层全连接神经网络，输入为(s，a)，即司机与乘客的信息，输出为Q(s,a；θ)，即司乘对价值。

好奇驱动机制为主体为一个公式(即上述经验样本的权重概率密度函数)，其公式用于计算每条样本的权重，即每条样本在样本池中出现的频率。

本发明实施例中，在司乘匹配方面，不仅考虑了当前利益，而且考虑了将来利益。同时，考虑了“好司机好收益”，以此来促进司机在线时长和服务质量，进一步的促进车辆共享平台良好发展。此外，为了加快神经网络模型收敛速度以及经验样本的利用率，提出了好奇驱动机制进行经验样本批量抽样。因此，本发明实施例能够有效的提高车辆共享平台的订单响应率和平台收益。

下面继续对本发明实施例提供的一种订单派发装置进行介绍。

参见图5，图5为本发明实施例提供的一种订单派发装置的第一结构示意图。本发明实施例所提供的一种订单派发装置可以包括如下模块：

获取模块21，用于获取每一车辆实时的司乘信息；其中，所述司乘信息包括：司机信息和乘客订单信息；所述司机信息包括：接单距离信息、车辆位置信息以及司机服务等级信息；所述乘客订单信息包括：订单起始位置信息、订单终点位置信息以及订单价格信息；

第一处理模块22，用于将所述实时的司乘信息输入至已训练神经网络模型，输出与所述司乘信息对应的各司乘对价值；其中，所述已训练神经网络模型是基于样本集训练得到的，所述样本集包括：历史的司乘信息；

匹配模块23，用于根据各司乘对价值，采用二分图的最佳匹配KM算法，对所有的司乘进行司乘匹配，得到与所述乘客订单匹配度最高的司机，以向所述与所述乘客订单匹配度最高的司机所在的车辆派发订单。

在一种可能的实现方式中，所述装置还包括：第二处理模块，用于采用如下步骤，训练得到已训练神经网络模型：

获取服务区内每一车辆历史的司乘信息；

判断所述损失函数是否低于预设阀值；

其中，采用如下公式，确定所述司乘对价值目标值：

y＝R_p+λ₁R_d+λ₂R_h+λ₃R_v

在一种可能的实现方式中，所述装置还包括：

抽样模块，用于从所述样本池中，抽取批量经验样本；

所述装置还包括：

在一种可能的实现方式中，所述抽样模块，用于：

在一种可能的实现方式中，所述第一处理模块，用于：

在一种可能的实现方式中，第一处理模块，用于基于所述实时的司乘信息，搜索所有司机中各司机预定范围内所有的订单，作为有效订单；

所述匹配模块，用于：

下面继续对本发明实施例提供的电子设备进行介绍。

参见图6，图6为本发明实施例提供的电子设备的结构示意图。本发明实施例还提供了一种电子设备，包括处理器31、通信接口32、存储器33和通信总线34，其中，处理器31，通信接口32，存储器33通过通信总线34完成相互间的通信，

存储器33，用于存放计算机程序；

处理器31，用于执行存储器33上所存放的程序时，实现上述订单派发方法的步骤，在本发明一个可能的实现方式中，可以实现如下步骤：

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的方法可以应用于电子设备。具体的，该电子设备可以为：台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定，任何可以实现本发明实施例的电子设备，均属于本发明的保护范围。

本发明实施例提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的订单派发方法的步骤。

本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的订单派发方法的步骤。

本发明实施例提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述的订单派发方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/服务器/电子设备/存储介质/包含指令的计算机程序产品/计算机程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种订单派发方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，采用如下步骤，训练得到已训练神经网络模型：

获取服务区内每一车辆历史的司乘信息；

判断所述损失函数是否低于预设阀值；

其中，采用如下公式，确定所述司乘对价值目标值：

y＝R_p+λ₁R_d+λ₂R_h+λ₃R_v

3.如权利要求1所述的方法，其特征在于，在所述将历史的司乘信息输入至待训练神经网络中，输出与历史的司乘信息相对应的各司乘对价值估计值之后，所述方法还包括：

从所述样本池中，抽取批量经验样本；

4.如权利要求3所述的方法，其特征在于，所述从所述样本池中，抽取批量经验样本，包括：

5.如权利要求1至4任一项所述的方法，其特征在于，所述将所述实时的司乘信息输入至已训练神经网络模型，输出各司乘对价值，包括：

6.如权利要求1至4任一项所述的方法，其特征在于，所述将所述实时的司乘信息输入至已训练神经网络模型，输出与所述司乘信息对应的各司乘对价值，包括：

7.一种订单派发装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述装置还包括：第二处理模块，用于采用如下步骤，训练得到已训练神经网络模型：

获取服务区内每一车辆历史的司乘信息；

判断所述损失函数是否低于预设阀值；

其中，采用如下公式，确定所述司乘对价值目标值：

y＝R_p+λ₁R_d+λ₂R_h+λ₃R_v

9.如权利要求7所述的装置，其特征在于，所述装置还包括：

抽样模块，用于从所述样本池中，抽取批量经验样本；

所述装置还包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一所述的方法。