CN113287124A

CN113287124A - 用于搭乘订单派遣的系统和方法

Info

Publication number: CN113287124A
Application number: CN201880100154.4A
Authority: CN
Inventors: 秦志伟; 冯菲
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-31
Publication date: 2021-08-20
Also published as: US20210398431A1; US11138888B2; WO2020122966A1; US20200193834A1

Abstract

一种用于搭乘订单派遣的方法包括：从与当前车辆关联的计算设备获得所述当前车辆的当前位置；基于所述当前位置来获得附近可得订单的当前列表；将所述当前位置、所述附近可得订单的当前列表和当前时间馈送到经训练的马尔可夫决策过程(MDP)模型以获得动作信息，所述动作信息是将所述当前车辆改变位置到另一个当前位置或者由所述当前车辆完成当前搭乘订单；以及将生成的所述动作信息发送到所述计算设备以使所述当前车辆改变位置到所述另一个当前位置、停留在所述当前位置、或者通过前进到所述当前搭乘订单的载客位置来接受所述当前搭乘订单。

Description

用于搭乘订单派遣的系统和方法

相关申请

本申请要求于2018年12月13日提交的标题为“SYSTEM AND METHOD FOR RIDEORDER DISPATCHING(用于搭乘订单派遣的系统和方法)”的美国非临时申请No.16/219,753的优先权权益，该美国非临时申请的全部内容特此以引用方式并入。

技术领域

本公开总体上涉及用于搭乘订单派遣的方法和设备。

背景技术

车辆派遣平台可以自动地将运输请求分配给对应的提供运输服务的车辆，并给予司机回报。然而，确定使每个车辆驾驶员的收益最大化的搭乘订单派遣方法是有挑战性的。

发明内容

本公开的各个实施例包括用于搭乘订单派遣的系统、方法和非暂态计算机可读介质。

根据一方面，一种用于搭乘订单派遣的计算机实施方法包括：从与当前车辆关联的计算设备获得所述当前车辆的当前位置；基于所述当前位置来获得附近可得订单的当前列表；将所述当前位置、所述附近可得订单的当前列表和当前时间馈送到经训练的马尔可夫决策过程(MDP)模型以获得动作信息，所述动作信息是将所述当前车辆改变位置到另一个当前位置或者由所述当前车辆完成当前搭乘订单；以及将生成的所述动作信息发送到所述计算设备，以使所述当前车辆改变位置到所述另一个当前位置、停留在所述当前位置、或者通过前进到所述当前搭乘订单的载客位置来接受所述当前搭乘订单。

所述MDP模型是基于多个历史或模拟的车辆行程在使对完成所述历史或模拟的车辆行程的训练车辆的累积回报最大化的策略下进行训练的。所述MDP模型将一个区域离散化为多个重复区域，并将一个时间段离散化为多个时隙。所述MDP模型的各状态包括：由时隙索引表示的时间、由重复区域索引表示的位置以及由所述附近可得订单的目的地的重复区域索引表示的附近可得订单列表。所述MDP模型的各动作包括：完成所述列表中的一个附近可得订单、改变位置到另一个位置或停留在所述位置。如果所述训练车辆完成了所述列表中的一个所述附近可得订单,则所述训练车辆获得完成所述一个附近可得订单的车费作为所述回报，并且所述状态转移为包括以下的下一种状态：对应于完成所述一个附近可得订单的下一个时间、对应于所述一个附近可得订单的目的地的下一个位置以及对应于所述下一个位置的下一个附近可得订单列表。如果所述训练车辆改变位置到所述另一个位置，则所述训练车辆不获得回报，并且所述状态转移为包括以下的下一种状态：对应于到达所述另一个位置的下一个时间、所述另一个位置以及对应于所述另一个位置的下一个附近可得订单列表。如果所述训练车辆停留在所述位置，则所述训练车辆不获得回报，并且所述状态转移为包括以下的下一种状态：所述时间、所述位置和所述附近可得订单列表。

在一些实施例中，为了训练所述MDP模型，所述位置和所述附近可得订单的载客位置在同一重复区域中。为了应用经训练的所述MDP模型，所述当前位置和所述当前搭乘订单的一个载客位置在同一重复区域中。

在一些实施例中，为了训练所述MDP模型，具有与所述位置对应的重复区域中的载客位置的所有订单被在与所述位置对应的重复区域中的所有车辆之中平均且随机地划分以获得所述训练车辆的所述附近可得订单列表。为了应用经训练的所述MDP模型，具有与所述当前位置对应的重复区域中的所述载客位置的所有当前订单被在与所述当前位置对应的重复区域中的所有当前车辆之中平均且随机地划分以获得所述当前车辆的所述附近可得订单的当前列表。

在一些实施例中，为了训练所述MDP模型，所述训练车辆的所述附近可得订单列表是具有与所述位置对应的重复区域中的载客位置的所有订单除以与所述位置对应的重复区域中的所有车辆的上限函数。为了应用经训练的所述MDP模型，所述当前车辆的所述附近可得订单的当前列表是具有与所述当前位置对应的重复区域中的载客位置的所有当前订单除以与所述当前位置对应的重复区域中的所有当前车辆的上限函数。

根据另一方面，一种用于搭乘订单派遣的计算机实施方法包括：从与当前车辆关联的计算设备获得所述当前车辆的当前位置；基于所述当前位置来获得当前列表中的附近可得订单的当前数量；将所述当前位置、所述附近可得订单的当前数量，和当前时间馈送到经求解的马尔可夫决策过程(MDP)模型以获得动作信息，所述动作信息是将所述当前车辆改变位置到另一当前位置或由所述当前车辆完成一个当前搭乘订单；以及将生成的所述动作信息发送到所述计算设备以使所述当前车辆改变位置到所述另一个当前位置、停留在所述当前位置、或者通过前进到所述当前搭乘订单的一个载客位置来接受所述当前搭乘订单。

所述MDP模型是基于多个历史或模拟的车辆行程在使对完成所述历史或模拟的车辆行程的假定车辆的累积回报最大化的策略下进行求解的。所述MDP模型将一个区域离散化为多个重复区域，并将一个时间段离散化为多个时隙。所述MDP模型的各状态包括：由时隙索引表示的时间、由重复区域索引表示的位置、列表中附近可得订单的数量、由所述附近可得订单的目的地的重复区域索引表示的所述附近可得订单。所述MDP模型的各动作包括：完成所述列表中的一个所述附近可得订单、改变位置到另一个位置或停留在所述位置。如果所述假定车辆完成了所述列表中的所述附近可得订单中的一个，则所述假定车辆获得完成所述一个附近可得订单的车费作为所述回报，并且所述状态转移为包括以下的下一种状态：对应于完成所述一个附近可得订单的下一个时间、对应于所述一个附近可得订单的目的地的下一个位置，以及对应于所述下一个位置的下一个列表中的下一个附近可得订单数量。如果所述假定车辆改变位置到所述另一个位置，则所述假定车辆不获得回报，并且所述状态转移为包括以下的下一种状态：对应于到达所述另一个位置的下一个时间、所述另一个位置以及对应于所述另一个位置的下一个列表中的下一个附近可得订单数量。如果所述假定车辆停留在所述位置，则所述假定车辆不获得回报，并且所述状态转移为包括以下的下一种状态：所述时间、所述位置和所述列表中所述附近可得订单的数量。

在一些实施例中，为了求解所述MDP模型，所述位置和所述附近可得订单的载客位置在同一重复区域中。为了应用经求解的所述MDP模型，所述当前位置和所述当前搭乘订单的一个载客位置在同一重复区域中。

在一些实施例中，为了求解所述MDP模型，具有与所述位置对应的重复区域中的载客位置的所有订单被在与所述位置对应的所述重复区域中的所有车辆之中平均且随机地划分以获得所述假定车辆的所述附近可得订单数量。为了应用经求解的所述MDP模型，具有与所述当前位置对应的重复区域中的载客位置的所有当前订单被在与所述当前位置对应的所述重复区域中的所有当前车辆之中平均且随机地划分以获得所述当前车辆的所述附近可得订单的当前列表数量。

在一些实施例中，为了求解所述MDP模型，所述假定车辆的所述附近可得订单数量是具有与所述位置对应的重复区域中的载客位置的所述所有订单除以与所述位置对应的重复区域中的所述所有车辆的上限函数。为了应用经求解的所述MDP模型，所述当前车辆的所述附近可得订单的当前数量是具有与所述当前位置对应的重复区域中的载客位置的所述所有当前订单除以与所述当前位置对应的重复区域中的所述所有当前车辆的上限函数。

在一些实施例中，求解所述MDP模型包括基于针对表格实现应用加速和方差缩减算法来求解所述MDP模型。在一些实施例中，基于所述多个历史或模拟的车辆行程来求解所述MDP模型包括：获得所述历史车辆行程中的每个的数据，所述数据包括：历史载客时间、历史载客位置、历史下客时间和历史下客位置；用所述历史载客时间、所述历史载客位置和历史下客位置作为训练数据并且用所述历史下客时间与所述历史载客时间的差值作为标签来训练随机森林分类器，以构建巡游时间估计器，其中：所述巡游时间估计器基于所述一个附近可得订单的时间、位置和目的地，或者基于所述时间、所述位置和所述另一个位置来估计到达所述目的地的时间；以及在每次状态转变时应用所述巡游时间估计器，以确定对应于所述一个附近可得订单完成的所述下一个时间，或者确定对应于到达所述另一个位置的所述下一个时间。

根据另一方面，一种用于搭乘订单派遣的系统可以包括处理器和存储指令的非暂态计算机可读存储介质的系统，所述指令当由所述处理器执行时使所述系统执行用于搭乘订单派遣的方法，所述方法可以是本文描述的任何方法。

本文公开的系统、方法和非暂态计算机可读介质的这些和其它特征以及结构的相关元件的操作和功能的方法以及部件的组合和制造经济将参考附图考虑以下描述和所附权利要求变得更加明显，所有这些都构成本说明书的一部分，其中相同的附图标记表示各个图中的对应部分。然而，应清楚地理解，附图仅用于说明和描述的目的，并不旨在作为本发明的限制的定义。

附图简要说明

在所附权利要求中具体阐述了本发明技术的各个实施例的某些特征。通过参考以下详细描述将获得对该技术的特征和优点的更好理解，所述详细描述阐述了利用本发明的原理的示例性实施例，以及在附图中：

图1图示了按照各个实施例的用于搭乘订单派遣的示例性环境。

图2图示了按照各个实施例的用于程序安全保护的示例性系统。

图3A图示了按照各个实施例的针对模型1的搭乘订单派遣的示例性动作搜索。

图3B图示了按照各个实施例的针对模型2的搭乘订单派遣的示例性动作搜索。

图4A图示了按照各个实施例的用于程序安全保护的示例性方法的流程图。

图4B图示了按照各个实施例的用于程序安全保护的另一个示例性方法的流程图。

图5图示了其中可以实现本文描述的任一实施例的示例性计算机系统的框图。

具体实施方式

可以针对运输服务提供车辆平台。这种车辆平台也可以被称为车辆调配(vehiclehailing)或车辆派遣平台，能通过诸如安装有平台应用的移动电话之类的设备访问它。经由该应用，用户(搭乘请求者)可以向车辆平台发送运输请求(例如，载客位置、目的地、用户当前位置)。车辆平台可以基于各种因素(例如，相对于请求者的位置或载客位置的接近度)将请求转达给车辆驾驶员。车辆驾驶员可以从请求中进行选择，每个人可以选取一个来接受、履行请求，并得到相应地回报。每次行程之后，车辆驾驶员可以从基于推送的派遣平台搜索更多请求或从其接收更多请求，并且结果可以根据对车辆服务的需求而不同。例如，如果车辆在周末晚上在酒吧区域，则结果可能返回许多请求，或者如果车辆在工作日晚上进行远距离出行，则结果可以是没有请求返回。

为了使(例如，在一天中)车辆驾驶员的收益最大化，车辆平台帮助他们做出最明智的决策是重要的，例如，在显示结果时建议驾驶员改变位置或接受行程。这种问题可以自然地表述为马尔可夫决策过程(MDP)。MDP模型可以大致分为单驾驶员或多驾驶员。在单驾驶员模型中，存在一个目标驾驶员，并且目的是使他/她的长期收入最大化；在多驾驶员模型中，可以存在不止一个驾驶员，并且目的是使他们的收入之和最大化。本公开侧重于前者。现有的单驾驶员模型忽略了竞争者(其它驾驶员)的存在，总是假设一个驾驶员可以得到最佳的订单。该假设与现实相去甚远，常常不能直接部署。

为了至少减轻当前模型的不足，公开了两个新的MDP模型。所公开的模型可以考虑竞争并学习可以指导目标驾驶员如何巡游从而使他/她的长期收入最大化的明智策略。该策略可以被称为指导系统。第一种模型(模型1)以非常细致准确的方式反映现实，由此训练出的策略也更加贴近现实生活，可以被直接部署。然而，模型的大小可以是大的，从而使应用表格实现不可能。因此，模型1可以通过涉及神经网络的算法来求解，以找到一种策略。第二种模型(模型2)是第一种模型的简化版本，大小小得多。作为折衷，第二种模型不及第一种模型精确，但使表格实现成为可能。可以用新的随机公式求解第二种模型。这种公式的优点是使能够将优化算法应用于模型。利用加速和方差缩减，可以在较短时间内找到质量更好的第二种模型的解。

所公开的系统和方法利用所公开的两种模型来获得最优策略，该最优策略在回报最大化方面超过了人类决策(由驾驶员做出的关于是改变位置还是接受订单的决策)和其它模型。因此，所公开的系统和方法通过(1)向驾驶员实时提供这样的策略从而使驾驶员能够在不依赖个人经验的情况下使他们的收入最大化以及(2)使车辆平台能够自动地派遣车辆，从而增强软件平台的功能和用户体验来改进计算机功能。所公开的系统可以在所有类型的区域中部署第一种模型，并且可以在农村区域中部署第二种模型，在农村区域中模型的大小减小并且状态的数据较少。

图1图示了按照各个实施例的用于派遣搭乘订单的示例性环境100。如图1所示，示例性环境100可以包括至少一个计算系统102，计算系统102包括一个或多个处理器104和存储器106。存储器106可以是非暂态的并且是计算机可读的。存储器106可以存储指令，当指令由一个或多个处理器104执行时使一个或多个处理器104执行本文描述的各种操作。系统102可以在诸如移动电话、平板、服务器、计算机、可穿戴设备等之类的设备上实现或者被实现为该设备。以上的系统102可以安装有软件(例如，平台程序)和/或硬件(例如，有线、无线连接)以访问环境100的其它设备。

环境100可以包括系统102可访问的一个或多个数据存储器(例如，数据存储器108)和一个或多个计算设备(例如，计算设备109)。在一些实施例中，系统102可以被配置为从数据存储器108(例如，历史运输行程的数据库或数据集)和/或计算设备109(例如，捕获诸如时间、位置和费用之类的运输行程信息的计算机、服务器、驾驶员或乘客使用的移动电话)获得数据(例如，诸如历史车辆运输行程的位置、时间和费用之类的第一训练数据和第二训练数据)。系统102可以使用所获得的数据来训练用于搭乘订单派遣的算法。位置可以包括车辆的GPS(全球定位系统)坐标。

环境100还可以包括耦接到系统102的一个或多个计算设备(例如，计算设备110和111)。计算设备110和111可以包括移动电话、平板、计算机、可穿戴设备等。计算设备110和111可以向系统102发送数据或从系统102接收数据。

在一些实施例中，系统102可以实现在线信息或服务平台。服务可以与载具(例如，汽车、自行车、船只、飞机等)关联，并且平台可以被称为载具(服务调配或搭乘订单派遣)平台。平台可以接受运输请求，确认满足请求的车辆，安排载客并处理交易。例如，用户可以使用计算设备110(例如，安装有与平台关联的软件应用的移动电话)来向平台请求运输。系统102可以接收请求并将其转发给不同的车辆驾驶员(例如，通过将请求发布给驾驶员携带的移动电话)。车辆驾驶员可以使用计算设备111(例如，安装有与平台关联的应用的另一个移动电话)来接受所发布的运输请求并获得载客位置信息。费用(例如，运输费)可以在系统102与计算设备110和111之间进行交易。一些平台数据可以被存储在存储器106中或者能从数据存储器108和/或计算设备109、110和111检索。例如，对于每个行程，(例如，由计算设备111发送的)始发地和目的地的位置、费用和时间可以由系统102获得。

在一些实施例中，系统102和计算设备中的一个或多个(例如，计算设备109)可以被集成在单个设备或系统中。可替换地，系统102和一个或多个计算设备可以作为单独的设备操作。一个或多个数据存储装置可以是系统102可访问的任何地方，例如，在存储器106中、在计算设备109中、在耦接到系统102的另一设备(例如，网络存储设备)中或另一存储位置(例如，基于云的存储系统、网络文件系统等)等。尽管系统102和计算设备109在该图中被示为单个组件，但应当理解，系统102和计算设备109可以被实现为单个设备或耦接在一起的多个设备。系统102可以被实现为彼此耦接的单个系统或多个系统。系统102、计算设备109、数据存储器108以及计算设备110和111可以通过一个或多个有线或无线网络(例如，互联网)彼此通信，可以通过该有线或无线网络传送数据。下面参考图2至图5描述环境100的各个方面。

图2图示了按照各个实施例的用于派遣搭乘订单的示例性系统200。图2中所示的并且在下面呈现的操作旨在是例示性的。在各个实施例中，系统102可以从数据存储器108和/或计算设备109获得数据202(例如，历史的或模拟的车辆行程)。所获得的数据202可以被存储在存储器106中。系统102可以利用所获得的数据202训练算法，以学习用于派遣搭乘订单的模型(例如，模型1)，或者求解用于派遣搭乘订单的模型(例如，模型2)。为了进行部署，系统102可以获得当前车辆的当前位置。例如，计算设备111可以向系统102发送查询204，该查询包括当前车辆的全球定位系统(GPS)位置。计算设备111可以与服务车辆的驾驶员关联，服务车辆包括例如出租车、服务调配车辆等。因此，系统102可以用所包括的信息执行各种步骤，应用模型，并将数据207发送到计算设备111或一个或多个其它设备。例如，系统102可以基于当前位置获得附近可得订单的当前列表，并应用具有诸如当前位置、当前时间和附近可得订单之类的输入的任何公开的模型。数据207可以包括诸如改变位置到另一个位置、接受新的搭乘订单等之类的关于动作的指令或建议。驾驶员可以接受指令，以接受订单或改变位置，或拒绝并留在所述位置。

在一些实施例中，可以通过强化学习(RL)来处理搭乘订单派遣问题。RL是机器学习的一种类型，其重点放在通过与环境交互来学习。在RL中，RL智能体(agent)反复观察环境的当前状态，根据一定策略采取行动，获得即时回报并转移到下一种状态。通过试错(trial-and-error)，智能体的目的是学习使预计的累积回报可以被最大化的最优策略。

在一些实施例中，用于搭乘订单派遣的RL可以被建模为马尔可夫决策过程(MDP)。在本公开中，可以使用无限域奖励衰减(infinite-horizon discounted)的马尔可夫决策问题(DMDP)。DMDP的实例包含有限的状态空间S、有限动作空间A、未知的状态到状态转移概率的集合P：＝{p_ij(a)|i,j∈S,a∈A}、状态转移回报的集合R：＝{r_ij(a)|i,j∈S,a∈A}(其中，0＜r_ij(a)＜1,

a∈A)、折价因子(discounted factor)γ∈(0,1)。那么，平稳的随机策略被定义为映射(map)

其中，P(A)是A内的概率分布矢量。如果π是确定性的，则π(s)仅具有等于1的一个非零项。在给定π的情况下，令π_i(a)∶＝π(i)[a]，P^π表示在策略π下的MDP(DMDP)的转移概率矩阵，其中，

DMDP的目的是使预计的累加回报最大化，而不顾及初始状态s₀:

这里，a_t由π确定，那么s_t+1遵循概率分布

在相对于第一种模型(模型1)的一些实施例中，智能体是系统。该系统观察目标驾驶员的状态，然后为他/她提供巡游指令。该指令可以是订单请求，然后司机将完成订单，并在下客位置结束。可替换地，该指令可以是改变位置建议(在没有订单的情况下)，然后驾驶员可以接受或拒绝这样的指令。可以如下地定义MDP模型。

首先，描述了第一种模型的状态和动作。目标驾驶员的活动区域可以被离散化成多个重复区域(例如，如图3A中所示的一组六边形单元(hex-cell))并且二十四小时可以被离散化成一系列时隙，例如，每时隙10分钟。在该模型中，可以假设所有的订单都需要尽快被接受，并且假设的驾驶员只接载客位置与驾驶员在同一六边形单元中的订单。前一种假设忽略了订单被请求在1小时左右离开的情形，而后一种假设是前一种假设的自然结果。然而，在存在竞争者的情况下，驾驶员并不能总是接到任何他想要的订单。在现有的技术和模型中尚未解决该问题。为了解决该问题，可以对驾驶员所处的单元中的所有新订单进行平均随机划分，并且驾驶员只能从他/她的划分部中选择最优的订单。“平均”意味着没有一个驾驶员比其它驾驶员接到更多的供选择订单，并且“随机”意味着一个订单可以被划分到任何驾驶员的份额中。驾驶员的划分部可以是指附近可得订单。在一个示例中，假定目标驾驶员在单元h中，处于时隙t中，配有一组新的订单S_no，其中，|S_no|＝n，并且在同一单元中有m个竞争者，那么目标驾驶员的附近可得订单被定义为：

在该模型中，每种状态可以包含以下信息：

1.t：当前时间(例如，时隙索引)

2.h：驾驶员的当前位置(例如，六边形单元索引)

3.S_aon：附近可得订单(例如，表示订单目的地的一系列六边形单元索引)。每个动作都将转移到不同位置h′的下一个六边形单元(如图3A中所示)。图3A中示出的箭头表示通过动作从一种状态转移到另一种。箭头的原点是具有状态(t,h,S_aon)的目标驾驶员。该动作是例如通过接订单或者通过改变位置而转移到六边形单元h′。

接下来，描述状态转移。在当前状态是s：＝(t,h,S_aon)并且当前动作是a：＝h′的情况下，会发生许多场景：

·h′∈S_aon，例如，指令是完成订单，然后驾驶员将遵照指令。

例如，指令是改变位置建议，并且驾驶员接受了它。

例如，指令是改变位置建议，并且驾驶员拒绝了它。

下一种状态和回报取决于场景。那么，下一种状态s′和回报r是：

其中，ξ是在[0,1]中均匀分布的随机变量，并且S′_aon是对于时间t+T(t,h,h′)和六边形单元h′的附近可得订单的集合。在下表1中描述了各种其它符号。

表1：模型I的符号

在一些实施例中，模型1的MDP可以用实时数据(例如，历史行程数据)在线训练，或者通过模拟器(例如，模拟行程数据)训练，其中输入是状态和动作，输出是下一种状态和回报。例如，可以应用诸如DQN(深度神经网络)之类的神经网络，并且可以通过数据训练和机器学习来求解模型1。

在相对于第二种模型(模型2)的一些实施例中，可以在状态数据量不大的情况下获得并应用简化模型。首先，描述了第二种模型的状态和动作。在模型2中，基本设置与模型1相同，不同之处在于每种状态都包含以下信息：

1.t：当前时间(例如，时隙索引)

2.h：驾驶员的当前位置(例如，六边形单元索引)

3.n:|S_aon|(例如，整数)。

每个动作仍然转移到下一个单元h′(如图3B中所示)。图3B中示出的箭头表示通过动作从一种状态转移到另一种。箭头的原点是具有状态(t,h,n)的目标驾驶员。动作是例如通过接订单或者通过改变位置而转移到六边形单元h！。

在当前状态是s∶＝(t,h,n)并且当前动作是a∶＝h′的情况下，会发生许多场景：

·动作是完成订单；

·动作是改变位置建议，并且驾驶员接受了它；

·动作是改变位置建议，并且驾驶员拒绝了它。

下一种状态和回报取决于场景。表2中列出了一些相关概率。

·表2：参数的符号

注意的是，如表2中所示：

p_des(h′|t,h)＝p_od(h′|t,h,1)

p_od(h′|t,h,n)＝1-(1-(p_des(h′|t,h))ⁿ

那么，下一种状态s′和回报r将是：

其中，q：＝P_od(h′|t,h,n)+(1-P_od(h′|t,h,n))×P_yesvt。

也可以使用神经元网络求解模型2。可替换地，可以通过对表格实现应用加速和方差缩减算法来求解模型2，以下描述其细节。

在一些实施例中，为了在没有神经元网络的情况下求解模型2，可以首先实现随机公式。给定DMDP实例(S,A,P,r,γ)和策略π，值向量v^π∈R^|S|被定义为：

最优值向量v^*被定义为：

并且，最大化器(maximizer)被称为最优策略π^*。众所周知，向量v^*是最优值向量，当且仅当它满足贝尔曼方程(Bellman equation)时：

其中，j表示下一种状态。

引理1最优值向量v^*是以下线性规划的最小化器(minimizer)：

minimize_vq^Tv (2)服从于

其中，q是任意正分布，

r_a,i＝∑_j∈Sp_ij(a)r_ij(a)。

证明1(1)暗示v^*在可行集中。任何可行点v满足v≥v^*。由于q是正的，因此v^*是最小化器。

(2)的对偶问题是

其中，

每一个可行点都可以恢复平稳随机策略(stationary randomized policy)，并且任何平稳随机策略都可以形成可行点。事实上，存在可行集与平稳随机策略空间之间的双射。

如果回报是一致有界的，则对于对偶LP，存在最优解μ^*，可以定制最佳策略π^*，从这个意义上说，π^*下的值向量等于v^*。如果μ^*是唯一的，则π^*是确定性的；否则π^*是随机化策略。因此，可以用线性规划方法而不是价值迭代或策略迭代来求解MDP。在强化学习环境中，P和r是未知的并且可以非常大。分别求解原LP或对偶LP并不理想，因为这涉及到求解大的线性约束，在不改变原问题的情况下不能放宽该约束。因此，可行点问题可以被公式化为：

minimize 0

w≥0，μ≥0，τ＝1.

该公式遵循LP的KKT条件。要指出x：＝[v，w，μ，τ]，并且施加了新约束x∈C：＝V×W×U×1，其中：

v∈V：＝{v|0≤v，||v||_∞≤1/(1-γ)}，

w∈W：＝{w|0≤w≤1}，

μ∈U：＝{μ|0≤μ，e^Tμ＝1}，

最优解v^*，μ^*在约束集中，因为q是概率分布并且r_a，i在[0，1]中。以上问题可以在无损准确度的情况下在有界凸约束内被放宽凸优化：

服从于x∈C，

其中，x：＝[v，w，μ，τ]，C：＝V×W×U×1，并且在R^M×N(M＝|S||A|+|S|+1，N＝2|S||A|+|S|+1)中，M是满秩矩阵。由于x永远不可能是0，因此解总是非零解。要注意，尽管M是未知的(由于

)，但其可以被表示为随机变量ξ的期望(详见引理2)。那么，(3)可以被进一步表示为随机组合优化(stochastic composition optimization)问题：

引理2通过让ξ_(i，a，j)遵循如下的分布，(4)等价于(3)：

这里，A_(i,a,j)是与

具有相同结构的高矩阵(tall matrix)：|A|块(各块具有对应于各动作的以垂直方式布置的大小|S|×|S|)。在A_(i,a,j)中只有两个非零元：针对动作a的块中的第(i,i)项等于

针对动作a的块中的第(i,j)项等于

E_a,i∈R^{|S||A|×|S||A|}只具有一个非零项：针对动作a的对角块中的第(i,i)项等于

e_i是仅在其值为1的第i分量有1个非零项的R^|S|中的向量，并且e_a,i是仅在其值为1的块a的第i分量有1个非零项的R^|A||S|中的向量；v(i)＝∑_aη(i,a)。

η_(i,a)p_ij(a)是利用∑_i,a,jη(i,a)p_ij(a)＝1选择的元组(i,a,j)的概率。η(i,a)是可以人为施加的分布，所以在ξ中接合η(i,a)的值不是问题。唯一未知的有待学习的因子是p_ij(a)。

在一些实施例中，可以使用四种类型的可替换的基于采样的算法来解决问题(4)。在最优化领域，常常是针对一类问题开发一种算法，更抽象地，是一种非常通用的数学格式。为了使用一种算法，首先要把待解决问题写成正确的格式。这里，要应用加速和方差缩减算法，需要对原始形式(4)稍作修改。

在一些实施例中，访问在引理2中产生ξ的样本的Sampling Orable(SO)(随后描述的)。另外，两个运算符被如下地定义：

定义1：给定点x：＝[v；w；μ；τ]∈C并且向量g：＝[g_v；g_w；g_μ；g_τ]∈R^N，运算符PGKL_C,η：

被定义为PGKL_C,η(x,Δ)：＝[v′；w′；μ′；1]，其中，

定义2：给定点x：＝[v；w；μ；τ]∈C并且向量g：＝[g_v；g_w；g_μ；g_τ]∈R^N，运算符PGKL_C,η：

被定义为PGKL_C,η(x,Δ)：＝[v′；w′；μ′；1]，其中，

在一些实施例中，用于解决问题(4)的第一种算法是加速随机合成梯度下降(ASCGD)。ASCGD针对的是以下形式的问题：

问题(4)就是这种模式。但与一般形式相比，(4)有两个特点：内部函数E[ξ]x是线性的，外部函数

是确定性(没有E)。2

算法1中的第一种算法ASC-RL(用于强化学习的加速随机合成算法)是基于ASCGD的。

在一些实施例中，用于解决问题(4)的第二种算法是随机加速梯度(SAGE)。该算法针对的是如同以下的问题：

原始问题(4)不属于这一组，因为期望值不在外。然而，问题(4)可以通过引入遵循引理2中的相同分布的两个i.i.d随机变量ξ¹、ξ²而转变为该形式。那么，新的问题是：

在算法2中总结了开发的第二算法ASGD-RL，以基于被称为SAGE的加速投影随机梯度下降算法来解决(5)。

在一些实施例中，用于解决问题(4)的第三种算法是开发的Katyusha-Xw。Katyusha解决了其目标函数是一组函数之和的问题，并且和是凸的：

为了使用该算法，真实期望被一组样本的平均值逼近，因此问题(4)随后被改写为:

在算法3中表示了第三种算法。

在一些实施例中，用于解决问题(4)的第四种算法是Prox-SVRG。该算法将问题考虑为：

非常类似于3，但不需要每个f_i是凸的。要应用该算法，问题(4)可以被改写为：

第四种算法SAA-RL-II在算法4中给出。

因此，在转变为适当的公式之后，存在用于求解DMDP的多种类型的算法。不同的算法有不同的优缺点，这常常是由问题的特殊性和数据确定的。给定DMDP，灵活的公式使得针对该特定情况选择最佳算法变成可能。

在一些实施例中，Sample Oracle(例如，数据库)来自数据集。首先，假定SO取状态-动作对(s,a)作为输入，然后产生状态-回报对(s’,r)作为输出，其中，s’表示从带有动作a且r：＝r_ss′(a)开始的下一种状态。根据以上针对模型2的状态转移规则，需要表2中列出的所有信息。

在一些实施例中，在数据集中，每个实例包含：订单ID、驾驶员ID、载客时间、载客纬度、载客经度、下客时间、下客纬度、下客经度。所有时间和位置都可以简化为离散化的时间索引和六边形单元索引。然后，可以通过相应的方法获得以下信息：

·T_drive(t,h,h’)：使用随机森林分类器建立巡游时间估计器。数据是载客时间和h和h^！的中心的纬度、经度之间的欧几里得距离(或l1-范数)。标签是下客时间减去载客时间。

·f(t,h,h′)：与带有微小干扰的T_drive(t,h,h’)成比例。

·P_yesvt:0.4

其中，

#{在(t,h)可得的驾驶员}＝#在(t,h)开始订单的驾驶员+#{在(t,h)完成订单的驾驶员}-#{在(t,h)完成和开始订单的驾驶员}+干扰。

在取得这些信息之后，可以获得下一种状态和遵循以上针对模型2的状态转移所描述的规则的回报。

图4A图示了根据本公开的各个实施例的示例性方法400的流程图。方法400可以在各种环境中实现，包含例如图1的环境100。示例性方法400可以由系统102的一个或多个组件(例如，处理器104、存储器106)来实现。示例性方法400可以由类似于系统102的多个系统来实施。以下呈现的方法400的操作旨在是例示性的。根据实现方式，示例性方法400可以包括以各种顺序或并行执行的另外的、更少的或替代的步骤。该图中的模型可以参考模型1和以上的相关描述。可以通过具有机器学习技术的神经网络(例如，DQN)来求解模型1。

框402包括从与当前车辆关联的计算设备获得当前车辆的当前位置。框403包括基于当前位置来获得附近可得订单的当前列表。框404包括将当前位置、附近可得订单的当前列表和当前时间馈送到经训练的马尔可夫决策过程(MDP)模型以获得动作信息，动作信息是将当前车辆改变位置到另一个当前位置或由当前车辆完成当前搭乘订单。框405包括将所生成的动作信息发送到计算设备，以使当前车辆改变位置到另一个当前位置、停留在当前位置、或者通过前进到当前搭乘订单的载客位置来接受当前搭乘订单。MDP模型是基于多个历史或模拟的车辆行程在使对完成历史或模拟的车辆行程的训练车辆的累积回报最大化的策略下进行训练的。MDP模型将一个区域离散化为多个重复区域，并将一个时间段离散化为多个时隙。MDP模型的各状态包括：由时隙索引表示的时间、由重复区域索引表示的位置以及由所述附近可得订单的目的地的重复区域索引表示的附近可得订单列表。MDP模型的各动作包括：完成列表中的一个附近可得订单、改变位置到另一个位置或停留在该位置。如果训练车辆完成了列表中的一个附近可得订单,则训练车辆获得完成一个附近可得订单的车费作为回报，并且状态转移为包括以下的下一种状态：对应于完成一个附近可得订单的下一个时间、对应于一个附近可得订单的目的地的下一个位置以及对应于下一个位置的下一个附近可得订单列表。如果训练车辆改变位置到另一个位置，则训练车辆没有获得回报，并且状态转移为包括以下的下一种状态：对应于到达另一个位置的下一个时间、另一个位置以及对应于另一个位置的下一个附近可得订单列表。如果训练车辆停留在位置，则训练车辆不获得回报，并且状态转移为包括以下的下一种状态：时间、位置和附近可得订单列表。

在一些实施例中，为了训练MDP模型，位置和附近可得订单的载客位置在同一重复区域中。为了应用经训练的MDP模型，当前位置和当前搭乘订单的载客位置在同一重复区域中。

在一些实施例中，为了训练MDP模型，具有与位置对应的重复区域中的载客位置的所有订单被在与位置对应的重复区域中的所有车辆之中平均且随机地划分，以获得训练车辆的附近可得订单列表。为了应用经训练的MDP模型，具有与当前位置对应的重复区域中的载客位置的所有当前订单被在与当前位置对应的重复区域中的所有当前车辆之中平均且随机地划分，以获得当前车辆的附近可得订单的当前列表。

在一些实施例中，为了训练MDP模型，训练车辆的附近可得订单列表是具有与位置对应的重复区域中的载客位置的所有订单除以与位置对应的重复区域中的所有车辆的上限函数。例如，列表可以包括5个附近可得订单。为了应用经训练的MDP模型，当前车辆的附近可得订单的当前列表是具有与当前位置对应的重复区域中的载客位置的所有当前订单除以与当前位置对应的重复区域中的所有现有车辆当前车辆以获得的上限函数。例如，列表可以包括5个附近可得订单。

图4B图示了根据本公开的各个实施例的示例性方法410的流程图。方法410可以在各种环境中实施，包含例如图1的环境100。示例性方法410可以由系统102的一个或多个组件(例如，处理器104、存储器106)来实施。示例性方法410可以由类似于系统102的多个系统来实施。以下呈现的方法410的操作旨在是例示性的。取决于实施方式，示例性方法410可以包含以各种顺序或并行执行的附加的、更少的或替代的步骤。该图中的模型可以参考模型2和以上的相关描述。可以通过具有机器学习技术的神经网络或通过应用之前描述的加速和方差缩减算法来求解模型2。也就是说，求解以下的MDP模型可以包括基于针对表格实现应用加速和方差缩减算法来求解MDP模型。

框412包括从与当前车辆关联的计算设备获得当前车辆的当前位置。框413包括基于当前位置来获得当前列表中的附近可得订单的当前数量。框414包括将当前位置、附近可得订单的当前数量和当前时间馈送到经求解的马尔可夫决策过程(MDP)模型以获得动作信息，动作信息是将当前车辆改变位置到另一个当前位置或由当前车辆完成当前搭乘订单。框415包括将所生成的动作信息发送到计算设备，以使当前车辆改变位置到另一个当前位置、停留在当前位置、或者通过前进到当前搭乘订单的载客位置来接受当前搭乘订单。MDP模型是基于多个历史或模拟的车辆行程在使对完成历史或模拟的车辆行程的假定车辆的累积回报最大化的策略下进行求解的。MDP模型将一个区域离散化为多个重复区域，并将一个时间段离散化为多个时隙。MDP模型的各状态包括：由时隙索引表示的时间、由重复区域索引表示的位置、列表中附近可得订单的数量、由附近可得订单的目的地的重复区域索引表示的附近可得订单。MDP模型的各动作包括：完成列表中的一个附近可得订单、改变位置到另一个位置或停留在该位置。如果假定车辆完成了列表中的附近可得订单中的一个，则假定车辆获得完成一个附近可得订单的车费作为回报，并且状态转移为包括以下的下一种状态：对应于完成一个附近可得订单的下一个时间、对应于一个附近可得订单的目的地的下一个位置以及对应于下一个位置的下一个列表中的下一个附近可得订单数量。如果假定车辆改变位置到另一个位置，则假定车辆不获得回报，并且状态转移为包括以下的下一种状态：对应于到达另一个位置的下一个时间、另一个位置以及对应于另一个位置的下一个列表中的下一个附近可得订单数量。如果假定车辆停留在所述位置，则假定车辆不获得回报，并且状态转移为包括以下的下一种状态：时间、位置和列表中附近可得订单的数量。

在一些实施例中，为了求解MDP模型，该位置和附近可得订单的载客位置在同一重复区域中。为了应用经求解的MDP模型，当前位置和当前搭乘订单的载客位置在同一重复区域中。

在一些实施例中，为了求解MDP模型，具有与位置对应的重复区域中的载客位置的所有订单被在与位置对应的重复区域中的所有车辆之中平均且随机地划分，以获得假定车辆的附近可得订单数量。为了应用经求解的MDP模型，具有与当前位置对应的重复区域中的载客位置的所有当前订单被在与当前位置对应的重复区域中的所有当前车辆之中平均且随机地划分，以获得当前车辆的附近可得订单的当前列表。

在一些实施例中，为了求解MDP模型，假定车辆的附近可得订单数量是具有与位置对应的重复区域中的载客位置的所有订单除以与位置对应的重复区域中的所有车辆的上限函数。例如，附近可得订单的数量可以是5个。为了应用经求解的MDP模型，当前车辆的附近可得订单的当前数量是具有与当前位置对应的重复区域中的载客位置的所有当前订单除以与当前位置对应的重复区域中的所有当前车辆以获得的上限函数。例如，附近可得订单的数量可以是5个。

在一些实施例中，基于多个历史或模拟的车辆行程来求解MDP模型包括：获得历史车辆行程中的每个的数据，该数据包括：历史载客时间、历史载客位置、历史下客时间和历史下客位置；用历史载客时间、历史载客位置和历史下客位置作为训练数据并且用历史下客时间与历史载客时间的差值作为标签来训练随机森林分类器，以构建巡游时间估计器，巡游时间估计器基于一个附近可得订单的时间、位置和目的地或者基于时间、位置和另一个位置来估计到达目的地的时间；以及在每次状态转变时应用巡游时间估计器，以确定对应于一个附近可得订单的完成的下一个时间，或者确定对应于到达另一个位置的下一个时间。

本文描述的技术由一个或多个专用计算设备实现。专用计算设备可以是台式计算机系统、服务器计算机系统、便携式计算机系统、手持设备、联网设备或装入硬连线和/或程序逻辑以实现这些技术的任何其它设备或设备的组合。计算设备通常通过操作系统软件来控制和协调。传统的操作系统控制和调度用于执行、执行存储器管理、提供文件系统、网络、I/O服务，以及提供用户界面功能的计算机进程，比如，图形用户界面(“GUI”)等。

图5是图示可以在其上实现本文描述的任一实施例的计算机系统500的框图。系统500可以对应于如上所述的系统102或103。计算机系统500包含用于传达信息的总线502或其它通信机构、一个或多个与总线502耦接以处理信息的硬件处理器504。例如，硬件处理器504可以是一个或多个通用微处理器。一个或多个处理器504可以对应于如上所述的处理器104。

计算机系统500还包含主存储器506，如随机存取存储器(RAM)、高速缓存和/或其它动态存储设备，这些存储器与总线502耦接用于存储将由处理器504执行的信息和指令。主存储器506还可用于在执行要由处理器504执行的指令期间来存储临时变量或其它中间信息。当存储在处理器504可访问的存储介质中时，这些指令使计算机系统500进入专用机器，专用机器被定制成执行指令中指定的操作。计算机系统500还包括与总线502耦接的只读存储器(ROM)508或其它静态存储设备，用于存储处理器504的静态信息和指令。提供诸如磁盘、光盘或USB拇指驱动器(闪存驱动器)等的存储设备510并将其与总线502耦接，以存储信息和指令。主存储器506、ROM 508和/或存储设备510可以对应于上述存储器106。

计算机系统500可使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实施本文描述的技术，这些技术与计算机系统相结合使计算机系统500成为专用机器或将该系统编程为专用机器。根据一个实施例，本文描述的操作、方法和处理是通过计算机系统500响应于处理器504执行包含在主存储器506中的一个或多个指令的一个或多个序列而执行的。这种指令可以被从诸如存储设备510之类的另一个存储介质读入主存储器506。执行在主存储器506中含有的指令序列引起一个或多个处理器504执行本文所述的处理步骤。在替代实施例中，可以使用硬连线电路系统来代替软件指令或与软件指令组合使用。

主存储器506、ROM 508和/或存储设备510可以包括非暂态存储介质。如本文所使用的术语“非暂态介质”和类似术语是指存储使机器以特定方式操作的数据和/或指令的任何介质，该介质排除了暂态数据。这种非暂态介质可以包括非易失性介质和/或易失性介质。例如，非易失性介质包含诸如存储设备510之类的光盘或磁盘。易失性介质包含诸如主存储器506之类的动态存储器。例如，非暂态介质的常见形式包含例如：软盘(floppydisk)、软磁盘(flexible disk)、硬盘、固态驱动器、磁带或任何其它磁数据存储介质、CD-ROM、任何其它光学数据存储介质、任何有孔图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、NVRAM、任何其它内存芯片或盒式磁带以及其网络版本。

计算机系统500还包含与总线502耦接的网络接口518。网络接口518提供与连接至一个或多个本地网络的一个或多个网络链路耦接的双向数据通信。例如，网络接口518可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器，以提供与对应类型的电话线的数据之间的通信连接。再例如，网络接口518可以是局域网(LAN)卡，以提供与兼容LAN(或与WAN通信的WAN组件)的数据之间的通信连接。无线链路也可以被实现。在任何这种实施方式中，网络接口518发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

计算机系统500可以通过一个或多个网络、网络链路和网络接口518来发送消息和接收数据，包含发送和接收程序代码。在互联网实例中，服务器可以通过互联网、ISP、本地网络和网络接口518来发送用于应用程序的请求代码。

接收到的代码可以在其被接收到时由处理器504执行，和/或存储在存储设备510或其它非易失性存储器中，以供后续执行。

前面部分中描述的过程、方法和算法中的每一个可以通过由包括计算机硬件的一个或多个计算机系统或计算机处理器执行的代码模块来实现，并完全或部分实现自动化。过程和算法可以部分或全部地在专用电路中实现。

上述各种特征和过程可以彼此独立地使用，或可以各种方式组合使用。所有可能的组合和子组合都旨在落入本发明公开的范围内。另外，在一些实施方式中可以省略某些方法或过程框。本文描述的方法和过程也不限于任何特定序列，并且与其相关的框或状态可以按适当的其它序列来执行。例如，所描述的框或状态可以按与具体公开的顺序不同的顺序来执行，或多个框或状态可以在单个框或状态中组合。示例性框或状态可以串行、并行或以某种其它方式来执行。可以向所公开的示例性实施例中添加框或状态或从其中移除框或状态。本文描述的示例性系统和组件可以配置为不同于所描述的。例如，与所公开的示例性实施例相比，可以添加、移除或重新布置元件。

本文描述的示例性方法的各种操作可以至少部分地通过算法来执行。算法可以包括在存储在存储器(例如，上述非暂态计算机可读存储介质)中的程序代码或指令中。这种算法可以包括机器学习算法。在一些实施例中，机器学习算法不能明确地对计算机进行编程以执行功能，但可以从训练数据中学习以制作执行功能的预测模型。

本文描述的示例性方法的各种操作可以至少部分地由临时配置(例如，通过软件配置)或永久配置为执行相关操作的一个或多个处理器来执行。无论是临时配置还是永久配置，这种处理器可以构成进行操作以执行本文描述的一个或多个操作或功能的由处理器实现的引擎。

类似地，本文描述的方法可以至少部分地由处理器实现，其中一个或多个特定处理器是硬件的示例。例如，方法的操作中的至少一些操作可以由一个或多个处理器或由处理器实现的引擎执行。此外，一个或多个处理器还可以在“云计算”环境中或作为“软件即服务”(SaaS)进行操作以支持相关操作的性能。例如，操作的至少一些操作可以由一组计算机(作为包含处理器的机器的实例)执行，这些操作可以通过网络(例如，互联网)和通过一个或多个适当的接口(例如，应用程序接口(API))访问。

某些操作的执行可以分布于处理器，不仅驻留在单个机器内，而且部署在多个机器。在一些示例性实施例中，处理器或由处理器实现的引擎可以位于单个地理位置中(例如，在家庭环境、办公室环境或服务器场内)。在其它示例性实施例中，处理器或由处理器实现的引擎可以跨许多地理位置分布。

在整个说明书中，多个实例可以实现被描述为单个实例的组件、操作或结构。尽管一种或多种方法的个体操作被图示并描述为单独的操作，但可以同时执行一个或多个个体操作，并且不需要以所图示的顺序来执行这些操作。示例性配置中作为单独组件呈现的结构与功能性可以被实现为组合结构或组件。类似地，作为单个组件呈现的结构与功能可以被实现为单独的组件。这些和其它变化、修改、添加和改进落入本文中的主题的范围内。

尽管已经参考具体的示例性实施例描述了主题的概述，但在不脱离本公开的实施例的更宽范围的情况下，可以对这些实施例进行各种修改和改变。仅仅是为了方便，本发明中的主题的这些实施例可单独地或共同地通过术语“发明”来提及，如果事实上公开了不止一个公开或构思，则无意自愿将本申请的范围限制于任何单一的公开内容或概念。

本文所示的实施例被描述得足够详细，以使本领域技术人员能够实践所公开的教导。可以使用其它实施例并且可以从中推断出其它实施例，使得可以在不脱离本公开的范围的情况下进行结构和逻辑上的替换和改变。因此，具体实施方式不应被视为具有限制意义，并且各个实施例的范围仅由所附权利要求以及这些权利要求所赋予的等同物的全部范围来限定。

本文描述的和/或在附图中描绘的流程图中的任何过程描述、元件或框都应被理解为潜在地表示包含用于实施过程中具体的逻辑功能或步骤的一个或多个可执行指令的模块、段或代码部分。如本领域技术人员所理解的，替代实施方式包含在本文描述的实施例的范围内，其中，可以根据所涉及的功能性来从所示出或所讨论的元件或功能中删除、执行次序混乱(包含基本上同时地或以相反的顺序)的元件或功能。

如本文所使用的，术语“或”可以以包括性或排它性的意义来解释。此外，可以提供本文中描述为单个示例的资源、操作或结构的多个示例。另外，各种资源、操作、引擎和数据存储之间的边界在某种程度上是任意的，并且在具体的说明性配置的上下文中说明了特定操作。设想了功能性的其它分配，并且其它分配可以落入本公开的各个实施例的范围内。通常，在示例性配置中被表示为单独资源的结构和功能性可以被实现为组合结构或资源。类似地，作为单个资源呈现的结构和功能可以被实现为单独的资源。这些和其它变体、修改、添加和提高落入如所附权利要求所表示的本公开的实施例的范围内。因此，说明书和附图被认为是例示性的而不是限制性的。

除非在所用上下文中另外明确说明或另外理解，否则条件性语言(如“能够”、“可能”、“也许”或“可以”等)通常旨在传达某些实施例包含而其它实施例不包含某些特征、元件和/或步骤。因此，这种条件性语言通常不旨在暗示特征、元件和/或步骤以任何方式必须用于一个或多个实施例，或者一个或多个实施例必然包含用于确定以下的逻辑：在有或没有用户输入或提示的情况下，是否这些特征、元件和/或步骤包含在任何特定实施例中或将在其中执行。

Claims

1.一种用于搭乘订单派遣的计算机实施方法，所述方法包括：

从与当前车辆关联的计算设备获得所述当前车辆的当前位置；

基于所述当前位置来获得附近可得订单的当前列表；

将所述当前位置、所述附近可得订单的当前列表和当前时间馈送到经训练的马尔可夫决策过程(MDP)模型以获得动作信息，所述动作信息是将所述当前车辆改变位置到另一个当前位置或者由所述当前车辆完成当前搭乘订单；以及

将生成的所述动作信息发送到所述计算设备，以使所述当前车辆改变位置到所述另一个当前位置、停留在所述当前位置、或者通过前进到所述当前搭乘订单的载客位置来接受所述当前搭乘订单，其中：

所述MDP模型是基于多个历史或模拟的车辆行程在使对完成所述历史或模拟的车辆行程的训练车辆的累积回报最大化的策略下进行训练的,

所述MDP模型将一个区域离散化为多个重复区域，并将一个时间段离散化为多个时隙，

所述MDP模型的各状态包括：由时隙索引表示的时间、由重复区域索引表示的位置以及由所述附近可得订单的目的地的重复区域索引表示的附近可得订单列表，

所述MDP模型的各动作包括：完成所述列表中的一个附近可得订单、改变位置到另一个位置或停留在所述位置,

如果所述训练车辆完成了所述列表中的一个所述附近可得订单,则所述训练车辆获得完成所述一个附近可得订单的车费作为所述回报，并且所述状态转移为包括以下的下一种状态：对应于完成所述一个附近可得订单的下一个时间、对应于所述一个附近可得订单的目的地的下一个位置以及对应于所述下一个位置的下一个附近可得订单列表，

如果所述训练车辆改变位置到所述另一个位置，则所述训练车辆不获得回报，并且所述状态转移为包括以下的下一种状态：对应于到达所述另一个位置的下一个时间、所述另一个位置以及对应于所述另一个位置的下一个附近可得订单列表，并且

如果所述训练车辆停留在所述位置，则所述训练车辆不获得回报，并且所述状态转移为包括以下的下一种状态：所述时间、所述位置和所述附近可得订单列表。

2.根据权利要求1所述的方法，其中：

为了训练所述MDP模型，所述位置和所述附近可得订单的载客位置在同一重复区域中；以及

为了应用经训练的所述MDP模型，所述当前位置和所述当前搭乘订单的一个载客位置在同一重复区域中。

3.根据权利要求1所述的方法，其中：

为了训练所述MDP模型，具有与所述位置对应的重复区域中的载客位置的所有订单被在与所述位置对应的重复区域中的所有车辆之中平均且随机地划分以获得所述训练车辆的所述附近可得订单列表；以及

为了应用经训练的所述MDP模型，具有与所述当前位置对应的重复区域中的所述载客位置的所有当前订单被在与所述当前位置对应的重复区域中的所有当前车辆之中平均且随机地划分以获得所述当前车辆的所述附近可得订单的当前列表。

4.根据权利要求3所述的方法，其中：

为了训练所述MDP模型，所述训练车辆的所述附近可得订单列表是具有与所述位置对应的重复区域中的载客位置的所有订单除以与所述位置对应的重复区域中的所有车辆的上限函数；以及

为了应用经训练的所述MDP模型，所述当前车辆的所述附近可得订单的当前列表是具有与所述当前位置对应的重复区域中的载客位置的所有当前订单除以与所述当前位置对应的重复区域中的所有当前车辆的上限函数。

5.一种用于搭乘订单派遣的计算机实施方法，所述方法包括：

基于所述当前位置来获得当前列表中的附近可得订单的当前数量；

将所述当前位置、所述附近可得订单的当前数量，和当前时间馈送到经求解的马尔可夫决策过程(MDP)模型以获得动作信息，所述动作信息是将所述当前车辆改变位置到另一当前位置或由所述当前车辆完成一个当前搭乘订单；以及

将生成的所述动作信息发送到所述计算设备以使所述当前车辆改变位置到所述另一个当前位置、停留在所述当前位置、或者通过前进到所述当前搭乘订单的一个载客位置来接受所述当前搭乘订单，其中：

所述MDP模型是基于多个历史或模拟的车辆行程在使对完成所述历史或模拟的车辆行程的假定车辆的累积回报最大化的策略下进行求解的,

所述MDP模型的各状态包括：由时隙索引表示的时间、由重复区域索引表示的位置、列表中附近可得订单的数量、由所述附近可得订单的目的地的重复区域索引表示的所述附近可得订单，

所述MDP模型的各动作包括：完成所述列表中的一个所述附近可得订单、改变位置到另一个位置或停留在所述位置,

如果所述假定车辆完成了所述列表中的所述附近可得订单中的一个，则所述假定车辆获得完成所述一个附近可得订单的车费作为所述回报，并且所述状态转移为包括以下的下一种状态：对应于完成所述一个附近可得订单的下一个时间、对应于所述一个附近可得订单的目的地的下一个位置，以及对应于所述下一个位置的下一个列表中的下一个附近可得订单数量，

如果所述假定车辆改变位置到所述另一个位置，则所述假定车辆不获得回报，并且所述状态转移为包括以下的下一种状态：对应于到达所述另一个位置的下一个时间、所述另一个位置以及对应于所述另一个位置的下一个列表中的下一个附近可得订单数量，并且

如果所述假定车辆停留在所述位置，则所述假定车辆不获得回报，并且所述状态转移为包括以下的下一种状态：所述时间、所述位置和所述列表中所述附近可得订单的数量。

6.根据权利要求5所述的方法，其中：

为了求解所述MDP模型，所述位置和所述附近可得订单的载客位置在同一重复区域中；以及

为了应用经求解的所述MDP模型，所述当前位置和所述当前搭乘订单的一个载客位置在同一重复区域中。

7.根据权利要求5所述的方法，其中：

为了求解所述MDP模型，具有与所述位置对应的重复区域中的载客位置的所有订单被在与所述位置对应的所述重复区域中的所有车辆之中平均且随机地划分以获得所述假定车辆的所述附近可得订单数量；以及

为了应用经求解的所述MDP模型，具有与所述当前位置对应的重复区域中的载客位置的所有当前订单被在与所述当前位置对应的所述重复区域中的所有当前车辆之中平均且随机地划分以获得所述当前车辆的所述附近可得订单的当前列表数量。

8.根据权利要求7所述的方法，其中：

为了求解所述MDP模型，所述假定车辆的所述附近可得订单数量是具有与所述位置对应的重复区域中的载客位置的所述所有订单除以与所述位置对应的重复区域中的所述所有车辆的上限函数；以及

为了应用经求解的所述MDP模型，所述当前车辆的所述附近可得订单的当前数量是具有与所述当前位置对应的重复区域中的载客位置的所述所有当前订单除以与所述当前位置对应的重复区域中的所述所有当前车辆的上限函数。

9.根据权利要求5所述的方法，其中，求解所述MDP模型包括基于针对表格实现应用加速和方差缩减算法来求解所述MDP模型。

10.根据权利要求5所述的方法，其中，基于所述多个历史或模拟的车辆行程来求解所述MDP模型包括：

获得所述历史车辆行程中的每个的数据，所述数据包括：历史载客时间、历史载客位置、历史下客时间和历史下客位置；

用所述历史载客时间、所述历史载客位置和历史下客位置作为训练数据并且用所述历史下客时间与所述历史载客时间的差值作为标签来训练随机森林分类器，以构建巡游时间估计器，其中：所述巡游时间估计器基于所述一个附近可得订单的时间、位置和目的地，或者基于所述时间、所述位置和所述另一个位置来估计到达所述目的地的时间；以及

在每次状态转变时应用所述巡游时间估计器，以确定对应于所述一个附近可得订单完成的所述下一个时间，或者确定对应于到达所述另一个位置的所述下一个时间。

11.一种包括处理器和存储指令的非暂态计算机可读存储介质的系统，所述指令当由所述处理器执行时，使所述系统执行用于搭乘订单派遣的方法，所述方法包括：

基于所述当前位置来获得附近可得订单的当前列表；

将所述当前位置、所述附近可得订单的当前列表，和当前时间馈送到经训练的马尔可夫决策过程(MDP)模型以获得动作信息，所述动作信息是将所述当前车辆改变位置到另一个当前位置或者由所述当前车辆完成一个当前搭乘订单；以及

所述MDP模型的各状态包括：由时隙索引表示的时间、由重复区域索引表示的位置，以及由所述附近可得订单的目的地的重复区域索引表示的附近可得订单列表，

如果所述训练车辆完成了所述列表中的一个所述附近可得订单,则所述训练车辆获得完成所述一个附近可得订单的车费作为所述回报，并且所述状态转移为包括以下的下一种状态：对应于完成所述一个附近可得订单的下一个时间、对应于所述一个附近可得订单的目的地的下一个位置，以及对应于所述下一个位置的下一个附近可得订单列表，

12.根据权利要求11所述的系统，其中：

13.根据权利要求11所述的系统，其中：

为了训练所述MDP模型，具有与所述位置对应的重复区域中的所述载客位置的所有订单被在与所述位置对应的重复区域中的所有车辆之中平均且随机地划分以获得所述训练车辆的所述附近可得订单列表；以及

为了应用经训练的所述MDP模型，具有与所述当前位置对应的重复区域中的所述载客位置的所有当前订单被在与所述当前位置对应的重复区域中的所有当前车辆之中平均且随机地划分，以获得所述当前车辆的所述附近可得订单的当前列表。

14.根据权利要求13所述的系统，其中：

为了训练所述MDP模型，所述训练车辆的所述附近可得订单列表是具有与所述位置对应的重复区域中的载客位置的所述所有订单除以与所述位置对应的重复区域中的所述所有车辆的上限函数；以及

为了应用经训练的所述MDP模型，所述当前车辆的所述附近可得订单的当前列表是具有与所述当前位置对应的重复区域中的载客位置的所述所有当前订单除以与所述当前位置对应的重复区域中的所述所有当前车辆的上限函数。

15.一种包括处理器和存储指令的非暂态计算机可读存储介质的系统，所述指令当由所述处理器执行时使所述系统执行用于搭乘订单派遣的方法，所述方法包括：

将所述当前位置、所述附近可得订单的当前数量，和当前时间馈送到经求解的马尔可夫决策过程(MDP)模型以获得动作信息，所述动作信息是将所述当前车辆改变位置到另一个当前位置或由所述当前车辆完成一个当前搭乘订单；以及

16.根据权利要求15所述的系统，其中：

17.根据权利要求15所述的系统，其中：

为了求解所述MDP模型，具有与所述位置对应的重复区域中的所述载客位置的所有订单被在与所述位置对应的所述重复区域中的所有车辆之中平均且随机地划分以获得所述假定车辆的所述附近可得订单数量；以及

为了应用经求解的所述MDP模型，具有与所述当前位置对应的重复区域中的所述载客位置的所有当前订单被在与所述当前位置对应的所述重复区域中的所有当前车辆之中平均且随机地划分以获得所述当前车辆的所述附近可得订单的当前列表数量。

18.根据权利要求17所述的系统，其中：

19.根据权利要求15所述的系统，其中，求解所述MDP模型包括基于针对表格实现应用加速和方差缩减算法来求解所述MDP模型。

20.根据权利要求15所述的系统，其中，基于所述多个历史或模拟的车辆行程来求解所述MDP模型包括：

用所述历史载客时间、所述历史载客位置和历史下客位置作为训练数据并且用所述历史下客时间与所述历史载客时间的差值作为标签来训练随机森林分类器，以构建巡游时间估计器，其中：所述巡游时间估计器基于所述一个附近可得订单的时间、位置和目的地或者基于所述时间、所述位置和所述另一个位置来估计到达所述目的地的时间；以及