CN114008651A

CN114008651A - 用于在线订单调度中的价值函数评估的分层粗编码时空嵌入

Info

Publication number: CN114008651A
Application number: CN201980097519.7A
Authority: CN
Inventors: 唐小程; 秦志伟; 张帆; 叶杰平
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2022-02-01
Also published as: WO2020248211A1; US20220214179A1

Abstract

一种用于评估订单调度策略的系统，包括第一计算设备、至少一个处理器和存储器。第一计算设备配置为生成与驾驶员相关联的历史驾驶员数据。该至少一个处理器配置为存储指令。当由至少一个处理器执行时，指令使该至少一个处理器执行操作。由该至少一个处理器执行的操作包括获得所生成的与驾驶员相关联的历史驾驶员数据。至少部分地基于所获得的历史驾驶员数据来估计出价值函数。价值函数与多个订单调度策略相关联。然后确定最佳订单调度策略。最佳订单调度策略与估计出的价值函数的最大值相关联。价值函数的估计应用小脑模型算术控制器。

Description

用于在线订单调度中的价值函数评估的分层粗编码时空嵌入

技术领域

本公开一般涉及用于订单调度的方法和设备，特别是涉及用于调度策略评估的分层粗编码时空嵌入的方法和设备。

背景技术

能够进行驾驶员-乘客调度的乘车共享平台通常会在大的空间决策区域中做出将可用驾驶员指派给附近未指派的乘客的决定。因此，努力捕捉实时交通供需动态是至关重要的。

发明内容

本公开的各种实施方式可以包括用于对订单调度进行优化的系统、方法和非暂时性计算机可读介质。

根据本公开的一些实施方案，一种用于评估订单调度策略的系统包括计算设备、至少一个处理器和存储器。计算设备配置为生成与驾驶员相关联的历史驾驶员数据。该至少一个处理器配置为存储指令。当由该至少一个处理器执行时，指令使该至少一个处理器执行操作。由该至少一个处理器执行的操作包括获得与驾驶员相关联的已生成的历史驾驶员数据。至少部分地基于所获得的历史驾驶员数据来估计出价值函数。价值函数与多个订单调度策略相关联。然后确定最佳订单调度策略。最佳订单调度策略与估计出的价值函数的最大值相关联。

根据本公开的一些实施方案，一种用于评估订单调度策略的方法包括生成与驾驶员相关联的历史驾驶员数据。至少部分地基于所获得的历史驾驶员数据来估计出价值函数。价值函数与多个订单调度策略相关联。然后确定最佳订单调度策略。最佳订单调度策略与估计出的价值函数的最大值相关联。

本文所公开的系统、方法和非暂时性计算机可读介质的这些和其他特征，以及相关结构元素的操作方法和功能，以及成分的组合和制造的经济性，在参照附图对以下描述和所附权利要求进行考虑后将变得更加明显，所有附图构成本说明书的一部分，其中类似的参考数字指定了各图中的相应部分。然而，应明确理解的是，附图仅用于说明和描述的目的，并不打算作为本发明的界限的定义。

附图说明

在附图中，通过示例而非限制的方式展示本发明的实施方式，其中类似的附图标记表示类似的元素，并且在其中：

图1展示根据一实施方式的运输叫车平台的方框图；

图2展示根据一实施方式的示例性调度系统的方框图；

图3展示图2的调度系统的另一种配置的方框图；

图4是带有函数逼近器的图2的调度系统的方框图；

图5展示根据一实施方式的图1的运输叫车平台的用户的决策图；

图6是带有训练的图4的调度系统的方框图；

图7展示根据一实施方式的分层六边形网格系统；以及

图8展示根据一实施方式的评估订单调度策略的方法的流程图。

具体实施方式

能够进行驾驶员-乘客调度的乘车平台，在大的空间决策区域(例如城市)中做出将可用驾驶员指派给附近未指派的乘客的决定。最佳决策策略要求平台考虑到调度过程的空间范围和时间动态，因为这样的决策可以对整个空间决策区域的可用驾驶员的分配产生长期影响。可用驾驶员的分配严重影响到未来订单的服务质量。

然而，现有的技术往往假设单一的驾驶员视角，或者将模型空间限制在只有表格的情况。为了克服现有技术的不足，并为乘车共享平台提供更好的订单调度，本公开的一些实施方案建立在现有的学习和规划方法之上，并利用时间抽象和函数逼近(functionapproximation)对其进行改进。因此，本公开抓住了实时交通供需动态。

此外，本公开还能在不同的地理分辨率水平上进行学习和规划。例如，本公开的一些实施方式利用稀疏粗编码函数逼近器。本公开的其他益处包括通过降低累积的逼近误差来稳定训练过程的能力。最后，本公开允许训练过程在离线状态下执行，从而实现最先进的调度效率。总之，所公开的系统和方法可以扩展到现实世界中的乘车平台，这些平台在一天内为数百万的订单请求提供服务。

图1展示根据一实施方式的运输叫车平台100的方框图。运输叫车平台100包括配置为与调度系统104通信的客户端设备102。调度系统104配置为基于从一个或多个客户端设备102接收到的信息和从一个或多个运输设备112接收到的信息来生成订单列表106和驾驶员列表108。运输设备112是数字设备，配置为从调度系统104接收信息并通过通信网络112传输信息。对于一些实施方式，通信网络110和通信网络112是同一网络。该一个或多个运输设备配置为向调度系统104传输位置信息、对订单的接受以及其他信息。对于一些实施方式，运输设备112的信息传输和接收是自动的，例如通过使用遥测技术。对于其他实施方式，至少有一些信息的传输和接收是由驾驶员发起的。

调度系统104可以配置为通过带有函数逼近的策略评估来对订单调度进行优化。对于一些实施方案，调度系统104包括一个或多个系统200，诸如图2中所示。每个系统200可以包括至少一个计算设备210。在一个实施方式中，计算设备210包括至少一个中央处理单元(CPU)或处理器220，至少一个存储器230，它们通过总线240或其他数量和类型的链路耦合在一起，尽管计算设备可以包括其他配置中的其他成分和元件。计算设备210可以进一步包括至少一个输入设备250，至少一个显示器252，或至少一个通信接口系统254，或以其任何组合。计算设备210可以是或作为各种设备的一部分，如可穿戴设备、移动电话、平板电脑、本地服务器、远程服务器、计算机等。

输入设备250可以包括计算机键盘、计算机鼠标、触摸屏和/或其他输入/输出设备，尽管也考虑到其他类型和数量的输入设备。显示器252用于向用户显示数据和信息，诸如客户的信息、路线信息和/或收取的费用。显示器252可以包括计算机显示屏，诸如OLED屏，尽管也可以使用其他类型和数量的显示器。通信接口系统254用于在处理器220和其他系统、设备和成分之间通过通信网络进行操作性耦合和通信，尽管也设想了其他类型和数量的通信网络或系统与其他类型和数量的系统、设备和成分的连接和配置。仅作为示例，通信网络可以使用以太网上的TCP/IP和行业标准协议，包括SOAP、XML、LDAP和SNMP，尽管也考虑了其他类型和数量的通信网络，如直接连接、局域网、广域网、调制解调器和电话线、电子邮件和无线通信技术，每个都有自己的通信协议。

中央处理单元(CPU)或处理器220执行存储指令的程序，用于本文所述技术的一个或多个方面。存储器230存储这些编程指令，供处理器220执行，以执行本文所述技术的一个或多个方面，尽管编程指令中的部分或全部可以在其他地方存储和/或执行。存储器230可以是非暂时性的和计算机可读的。为存储器230设想了各种不同类型的存储器存储设备，例如随机存取存储器(RAM)、计算设备210中的只读存储器(ROM)、软盘、硬盘、CDROM、DVDROM或其他由耦合至处理器220的磁、光或其他读和/或写控制器/系统读取和/或写入的计算机可读介质，以及其组合。仅作为示例，存储器230可以包括远离处理器220的大容量存储器。

存储器230可以存储以下元素，或这些元素的子集或超集：操作系统、网络通信模块、客户端应用程序。操作系统包括处理各种基本系统服务的程序和执行依赖硬件的任务。网络通信模块(或指令)可以用于经由一个或多个通信接口系统254和一个或多个通信网络(诸如互联网、其他广域网、局域网、城域网和其他类型的网络)将计算设备210连接到其他计算设备、客户、对等体、系统或设备。客户端应用程序配置为接收用户输入，以便通过网络与其他计算机或设备进行通信。例如，客户端应用程序可以是移动电话应用程序，用户可以通过它输入命令和获得信息。

在另一个实施方式中，上述计算设备210的各种成分可以在多个设备上或作为多个设备的一部分实施，而不是全部集中在计算设备210内。作为一个实施例并在图3中所示，输入设备250和显示器252可以在第一设备310(诸如移动电话)上或作为第一设备实施；而处理器220和存储器230可以在第二设备320(诸如远程服务器)上或作为第二设备实施。

如图4所示，系统200可以进一步包括输入数据库270，输出数据库272，和至少一个逼近模块。这些数据库和逼近模块可以由计算设备210访问。在一些实施方案中(未示出)，数据库的至少一部分和/或该多个逼近模块的至少一部分可以作为单一设备或系统与计算设备集成。在其他一些实施方案中，数据库和逼近模块可以作为与计算设备分开的一个或多个设备来操作。输入数据库270存储输入数据。输入数据可以从不同的可能值中得出，这些值来自各输入，诸如时空状态、物理位置和尺寸、原始时间戳、驾驶速度、加速度、环境特征等。

根据本公开的一些实施方案，订单调度可以通过将调度过程建模为马尔科夫决策过程(“MPD”)来对进行优化，该过程被赋予了一组时间上的扩展行动。这样的行动也被称为选项，相应的决策过程被称为半马尔可夫决策过程，或SMDP。在示例性的实施方式中，驾驶员在某个离散的时间步长t处与环境进行偶发性的互动。时间步长t是一组时间步长

中的元素，直到到达终端时间步长T。例如，

如图5所示，与驾驶员510相关联的输入数据可以包括由驾驶员510感知到的环境520的状态530，驾驶员510可用行动的选项540，以及驾驶员在特定状态下选择特定选项而产生的奖励550。

在每个时间步长t处，驾驶员感知到环境的状态，由特征向量s_t描述。在时间步长t处的状态s_t是一组状态S中的成员，其中S描述了到当前状态s_t为止的所有过去的状态。至少部分地基于感知到的环境的状态s_t，驾驶员选择了选项o_t，其中选项o_t是一组选项

中的乘员。当环境在时间t′处(例如，

)被转换到另一个状态时s_t′时，选项o_t终止。作为回应，对于每个

在选项o_t终止之前，驾驶员收到有限的数字奖励r_w(例如，利润或损失)。因此，选项o_t的预期奖励

被定义为

其中γ是折扣因子，下面将详细说明。如图4所示，在订单调度的情境下，上述变量可以描述如下。

由s_t表示的状态530代表驾驶员510的时空状态l_t，原始时间戳μ_t，以及由v(l_t)表示的情境特征向量，使得s_t：＝(l_t,μ_t,v(l_t))。原始时间戳μ_t反映了现实世界的时间尺度，并且与上述的离散时间t无关。情境查询函数v(·)在驾驶员的时空状态l_t下获得情境特征向量v(l_t)。情境特征向量v(l_t)的一个实施例是l_t附近的供应和需求的实时特征。此外，情境特征向量v(l_t)还可以包含静态属性，诸如驾驶员服务状态，假期指标，或类似属性，或其任何组合。

由o_t表示的选项540代表驾驶员510从第一时空状态l_t过渡到未来的第二时空状态l_t′，使得o_t：＝l_t′，其中t′>t。过渡的发生可能是由于，例如，出行任务或闲置运动。在出行任务的情况下，选择o_t是出行任务的目的地和预计到达时间，选项o_t导致非零的奖励

相反，闲置运动导致零奖励的过渡，只有当下一个出行选项被激活时才会终止。

由

表示的奖励550代表通过执行选项o_t而从s_t过渡到s_t′的驾驶员510从出行Γ_t中收取的总费用。如果出行Γ_t是由闲置运动产生的，则奖励

为零。然而，如果出行Γ_t是由完成命令(例如，出行任务)产生的，则奖励

在选项o_t的持续时间中计算，使得

其中

常数γ可以包括折扣因子，用于计算基于给定利率的未来奖励的净现值，其中0≤γ≤1。

在一些实施方式中，系统200的该至少一个逼近模块包括耦合至输入数据库270的输入模块280，如图4中最佳所示。输入模块280配置为至少部分地基于来自输入数据库270的输入数据的一部分，在给定环境中执行策略，由此产生驾驶员轨迹的历史作为输出。由π(o|s)表示的策略描述与驾驶员相关联的行动方式。策略代表了不考虑时间步长t，在一状态s下采取一选项o的概率。在给定的环境中执行策略π产生由

表示的驾驶员轨迹的历史，其中

是指向驾驶员轨迹的一组索引。驾驶员轨迹的历史可以包括与驾驶员相关联的先前状态、选项和奖励的集合。驾驶员轨迹的历史

因此可以表示成

该至少一个逼近模块还可以包括耦合至输入模块280和输出数据库272的策略评估模块284。策略评估模块284可以从下面描述的价值函数中得出。输入模块280的结果由策略评估模块284用来学习用于评估的策略，这些策略将具有通过解决或估计价值函数来获得最大长期预期累积奖励的高概率。策略评估模块284的输出被存储在输出数据库272中。所得数据提供了使输入数据的长期累积报酬最大化的最佳策略。

因此，为了帮助学习最佳策略，策略评估模块284配置为使用价值函数。有两种类型的价值函数是可以考虑的：状态价值函数和选项价值函数。状态价值函数描述了当遵循策略时的状态的价值。在一个实施方式中，状态价值函数是当驾驶员从一个状态开始按照策略行动时的预期累积奖励。换句话说，状态价值函数代表了驾驶员从状态s出发并遵循策略π直到事件结束将会获得的预期累积奖励V^π(s)。累积奖励V^π(s)可以表示为在策略π下的状态s随着时间的推移所累积的总奖励的总和。在策略下的总奖励的总和，使得

值得注意的是，即使对于相同的环境，价值函数也会取决于策略而改变。这是因为状态的价值取决于驾驶员的行为而改变，因为驾驶员在特定状态下的行为会影响到他/她将获得多少奖励。还要注意“预期”这个词的重要性。累积奖励之所以是“预期”累积奖励，是因为在驾驶员到达一状态后发生的事情有一定的随机性。当驾驶员在第一状态下选择一选项时，环境会返回第二状态。即使只给了一个选项，它也可能有多个状态可以返回。在某些情况下，策略可能是随机的(stochastic)。因此，状态价值函数可以作为“期望”来估计累积奖励。为了使累积奖励最大化，因此也要估计策略评估。

选项价值函数是指当遵循某种策略时在某种状态下采取选项的价值。它是给定状态和一定策略下的行动的预期回报。因此，选项价值函数代表了驾驶员在某一状态s下采取某一选项o并遵循策略π直到结束的价值Q^π(s,o)。价值Q^π(s,o)可以表示为在策略π下在状态s中的选项o在一段时间内累积的总奖励的总和，使得

与状态价值函数中的“预期”累积奖励类似，选项价值函数的价值也是“预期”的。“期望”考虑到了根据策略的未来选项的随机性，以及来自环境的返回状态的随机性。

鉴于上述价值函数和驾驶员历史轨迹

的情况下，可以估计基本策略π的价值。与标准MDP类似，一般的策略和选项可以表达为贝尔曼方程。策略评估模块284配置为利用贝尔曼方程作为逼近器，因为贝尔曼方程允许将一个变量的逼近表示为其他变量。预期累积奖励V^π(s)的贝尔曼方程为因此是：

其中变量

是由策略π在时间步长t处选择的选项o_t的持续时间，而奖励

是指在选项o_t的过程中接收到的对应累计折扣报酬。同样地，在状态s∈S下，选项o的价值Q^π(s,o)的贝尔曼方程是

其中变量k_o是确定的常数，因为在方程(2)中给出的是o_t＝o。相反，在方程(1)中，变量

是取决于策略π在时间步长t处选择的选项o_t的随机变量。

在一些实施方式中，系统200进一步配置为以信息聚合和/或机器学习的形式使用训练数据274。训练数据的加入改进了上述各节中描述的价值函数估计/逼近。回顾一下，由于与策略和状态相关联的随机性，各策略被评估为价值函数下的估计或逼近。因此，为了改进价值函数逼近的准确性，系统200配置为运行信息聚合和/或机器学习的多个迭代会话，如图6中的最佳显示。在这个实施方式中，系统200配置为接收包括训练数据274的附加输入数据。训练数据274可以向策略评估模块284提供顺序反馈，以进一步改进逼近器。附加地或备选地，在接收到实时输入数据时，可以从策略评估模块284的先前输出(例如，存储在输出数据库272中的现有输出)提供实时反馈，作为更新的训练数据274以进一步评估逼近器。这样的反馈可以被延迟，以加快处理速度。因此，该系统也可以连续运行以确定最佳策略。

当使用贝尔曼方程来在价值函数逼近下对信息进行聚合时，训练过程(例如，迭代)可能变得不稳定。部分原因是聚合的递归性质，来自函数逼近器的任何小的估计或预测错误都会迅速累积，使逼近失去作用。为了减少预测误差并获得更好的状态表示，训练数据274可以配置为利用带有嵌入的小脑模型算术控制器(“CMAC”)。因此，由于预测误差的减少，系统200具有稳定训练过程的益处。CMAC是稀疏、粗编码的函数逼近器，它将连续输入映射到高维度稀疏向量。嵌入的实施例是为每个目标对象学习向量表示的过程。

在一个实施方式中，CMAC映射使用状态空间的多个平铺。状态空间代表了上述变量“状态”所占用的存储器空间。例如，状态空间可以包括纬度、经度、时间、与驾驶员当前状态相关联的其他特征，或其任何组合。在一个实施方式中，CMAC方法可以应用于驾驶员的地理位置。地理位置可以被编码，例如，使用一对GPS坐标(纬度，经度)来编码。在这样的实施方式中，多个量化(或平铺)函数被定义为{q₁,…,q_n}。每个量化函数将状态的连续输入映射到代表状态空间的离散区域(或单元)的唯一字符串ID。

不同的量化函数将输入映射到不同的字符串ID。每个字符串ID可以用在训练期间学习的(例如经由嵌入)的向量来表示。存储嵌入矩阵所需的存储器是唯一字符串ID总数乘以嵌入矩阵的维度的大小，很多时候会过大。为了克服这一缺陷，该系统配置为使用“散列”过程来减少嵌入矩阵的尺寸。也就是说，编号功能A将每个字符串ID映射到固定的整数集

中的数字。该固定的整数集

的大小可以比唯一字符串ID的数量小得多。鉴于所有可用的唯一字符串ID，编号函数可以通过将每个字符串ID映射到从0，1，…开始的唯一整数i来定义。让A表示这样的编号函数，草书

表示包含用于索引上述离散区域的所有唯一整数的索引集，这样，对于所有唯一整数i，

此外，对于所有i≠j，q_i(l_t)≠q_j(l_t)。因此，CMAC的输出c(l_t)是正好有n个非零条目的稀疏

维度向量，其中对于所有唯一整数i，第A(q_i(l_t))个条目等于1，使得

根据一些实施方式，使用分层多边形网格系统来对地理空间进行量化。例如，可以使用多边形网格系统，如图7所示。使用基本等边的六边形作为离散区域(例如，单元)的形状是有益的，因为六边形在六边形中心点与其相邻六边形的各中心点中的每个之间只有一个距离。此外，六边形可以在一个平面内平铺，同时仍然与圆很相似。因此，本公开的分层六边形网格系统支持多种分辨率，每个较细的分辨率都有面积为较粗分辨率的七分之一的单元。分层六边形网格系统能够以不同的分辨率进行分层量化，使信息聚合(以及相应地使学习)能够在不同的抽象水平上发生。因此，分层六边形网格系统可以自动适应地理区域(例如，市中心、郊区、社区公园等)的性质。

此外，嵌入矩阵θ^M，其中

代表网格系统中每个单元，作为密实m维向量。嵌入矩阵是嵌入过程的实施方案，例如，为每个目标对象学习向量表示的过程。CMAC的输出c(l_t)乘以嵌入矩阵θ^M，得到驾驶员地理位置的最终密实表示c(l_t)^Tθ^M，其中嵌入矩阵θ^M在训练过程中被随机初始化和更新。

图8展示根据一实施方式的评估订单调度策略的示例性方法800的流程图。在该过程中，系统200获得(810)存储在输入数据库270中的初始输入数据集。输入模块280根据半马尔科夫决策过程对初始输入数据集进行建模。至少部分地基于所获得的初始输入数据集，输入模块280生成(820)驾驶员轨迹的历史作为输出。策略评估模块284接收输入模块280的输出，并至少部分地基于所接收的输出，确定(830)用于最大化与输入数据相关联的长期累积奖励的最佳策略。最佳策略的确定可以是根据价值函数的估计或逼近。策略评估模块284的输出被存储(840)在存储设备中的输出数据库272中。

附加地或备选地，系统200可以获得用于信息聚合和/或机器学习的训练数据274，以提高价值函数逼近(850)的准确性。至少部分地基于训练数据274，策略评估模块284更新最优策略的估计或逼近并产生更新的输出(830)。更新过程(例如，获得额外的训练数据)可以重复一次以上，以进一步改进价值函数逼近。例如，更新过程可以包括实时输入数据作为训练数据，实时输入数据从计算设备210传输。

上面描述的各种特征和过程可以相互独立使用，也可以以各种方式组合。所有可能的组合和子组合都是为了落在本公开的范围内。此外，在一些实施方案中可以省略某些方法或过程模块。本文描述的方法和过程也不限于任何特定的顺序，与之相关联的块或状态可以以其他适当的顺序执行。例如，所描述的区块或状态可以以具体披露的顺序以外的顺序执行，或者多个区块或状态可以结合在一个区块或状态中。示例性的块或状态可以以串行、并行或其他方式执行。块或状态可以被添加到所公开的示例性实施方式中或从其中移除。此处描述的示例性系统和成分的配置可以与描述的不同。例如，与所公开的示例性实施方式相比，可将元素添加到、移除或重新排列。

本文描述的示例性方法的各种操作可以至少部分地由算法执行。算法可以由存储在存储器(例如，上述的非暂时性计算机可读存储介质)中的程序代码或指令构成。这样的算法可以包括机器学习算法。在一些实施方式中，机器学习算法可以不明确地对计算机进行编程以执行某项功能，但可以从训练数据中学习以做出执行该功能的预测模型。

本文描述的示例性方法的各种操作可以至少部分地由一个或多个处理器执行，这些处理器被临时配置(例如，通过软件)或永久配置以执行相关操作。无论是临时配置还是永久配置，这样的处理器可以构成处理器实现的引擎，该引擎操作以执行本文所述的一个或多个操作或功能。

同样，本文所述的方法至少可以部分由处理器实现，特定的一个或多个处理器是硬件的示例。例如，方法的各操作中的至少一些可以由一个或多个处理器或处理器实现的引擎执行。此外，该一个或多个处理器也可以在“云计算”环境中或作为“软件即服务”(SaaS)操作，以支持相关操作的执行。例如，各操作中的至少一些可以由一组计算机(作为包括处理器的机器的示例)执行，这些操作可以经由网络(例如，互联网)并经由一个或多个适当的接口(例如，应用程序接口(API))来访问。

某些操作的性能可以分配在各处理器之间，不仅驻留在一台机器内，而且部署在若干机器上。在一些示例性实施方式中，处理器或处理器实现的引擎可以位于单个地理位置(例如，在家庭环境、办公室环境或服务器场内)。在其他示例性实施方式中，处理器或处理器实现的引擎可以分配在许多地理位置上。

在本说明书中，多个实例可以实现作为单一实例描述的成分、操作或结构。尽管一个或多个方法的单个操作被作为单独的操作进行说明和描述，但单个操作中的一个或多个可以同时进行，并且没有任何东西要求这些操作按照说明的顺序进行。在示例性配置中作为独立成分呈现的结构和功能可以作为组合结构或成分来实施。同样地，作为单一成分的结构和功能可以作为独立的成分来实现。这些和其他的变化、修改、补充和改进都属于本文的主题范围。

尽管已经参照具体的示例性实施方式描述了本主题的概况，但在不脱离本公开的更广泛的实施方式范围的情况下，可以对这些实施方式进行各种修改和变化。该主题的这些实施方式在这里可以单独或集体地用“发明”一词来称呼，这仅仅是为了方便，并不打算将本申请的范围自愿限制在任何单一的公开或概念上，如果事实上公开了一个以上的概念。

此处说明的实施方式已被描述得足够详细，以使本领域的技术人员能够实践所公开的教义。其他的实施方式可以被使用和衍生出来，这样的结构和逻辑上的替换和改变可以在不偏离本公开范围的情况下进行。因此，详细说明不应具有限制性意义，各种实施方式的范围仅由所附的权利要求书以及此类权利要求书所具有的全部等价物来界定。

本文描述的流程图和/或附图中描绘的任何流程描述、元素或块应理解为可能代表代码的模块、段或部分，其中包括用于实现流程中特定逻辑功能或步骤的一个或多个可执行指令。替代实施方案包括在本文所述的实施方式的范围内，其中元素或功能可以被删除，不按所示或讨论的顺序执行，包括基本上同时或以相反的顺序执行，这取决于所涉及的功能，这将被本领域的技术人员所理解。

如本文所使用的，术语“或”可以在包容或排斥的意义上解释。此外，可以为本文描述的资源、操作或结构提供复数实例，作为单一实例。此外，各种资源、操作、引擎和数据存储之间的界限在某种程度上是任意的，并且特定的操作是在特定的展示性配置的情境下展示的。其他功能的分派是可以设想的，并且可以落在本公开的各种实施方式的范围内。一般来说，在示例性配置中作为单独资源呈现的结构和功能可以作为组合结构或资源来实现。同样地，作为单一资源呈现的结构和功能可以作为单独的资源来实现。这些和其他的变化、修改、补充和改进都属于所附权利要求书所代表的本公开的实施方式的范围。因此，本说明书和附图应以说明性而非限制性的意义来看待。

条件性语言，例如，除其他外，“能够”、“可能”、“可以”或“会”，除非特别说明，或在使用的情境中以其他方式理解，一般旨在表达某些实施方式包括而其他实施方式不包括某些特征、元素和/或步骤。因此，这样的条件性语言一般不意味着特征、元素和/或步骤以任何方式是一个或多个实施方式所必需的，或一个或多个实施方式必须包括用于决定在有或没有用户输入或提示的情况下，这些特征、元素和/或步骤是否包括或在任何特定实施方式中执行的逻辑。

Claims

1.一种用于评估订单调度策略的系统，所述系统包括：

用于生成与驾驶员相关联的历史驾驶员数据的计算设备；

至少一个处理器；以及

存储指令的存储器，指令当由所述至少一个处理器执行时使所述至少一个处理器执行操作，所述操作包括：

获得所生成的与驾驶员相关联的历史驾驶员数据，

至少部分地基于所获得的历史驾驶员数据来估计与多个订单调度策略相关联的价值函数，以及

确定最佳订单调度策略，最佳订单调度策略与估计出的价值函数的最大值相关联。

2.根据权利要求1所述的系统，其中，所生成的历史驾驶员数据包括与驾驶员相关联的环境状态，环境状态包括驾驶员的时空状态和情境特征向量，情境特征向量与驾驶员的时空状态相关联。

3.根据权利要求2所述的系统，其中，情境特征向量指示出驾驶员的静态属性。

4.根据权利要求2所述的系统，其中，所生成的历史驾驶员数据进一步包括驾驶员可用的选项，选项指示出驾驶员从第一时空状态过渡到第二时空状态，第二时空状态在时间上比第一时空状态更晚。

5.根据权利要求4所述的系统，其中，所生成的历史驾驶员数据进一步包括奖励，奖励指示出驾驶员从第一时空状态过渡到第二时空状态的持续时间内的总回报。

6.根据权利要求1所述的系统，其中，估计与多个订单调度策略相关联的价值函数进一步包括迭代地纳入训练数据并在每个迭代中更新价值函数的估计。

7.根据权利要求6所述的系统，其中，在每个迭代中更新价值函数的估计应用小脑模型算术控制器。

8.根据权利要求7所述的系统，其中，来自小脑模型算术控制器的输出是稀疏多维向量。

9.根据权利要求6所述的系统，其中，在每个迭代中更新价值函数的估计应用分层多边形网格系统。

10.根据权利要求9所述的系统，其中，分层多边形网格系统是六边形网格系统。

11.一种评估订单调度策略的方法，所述方法包括：

生成与驾驶员相关联的历史驾驶员数据；

至少部分地基于所生成的历史驾驶员数据来估计与多个订单调度策略相关联的价值函数；以及

12.根据权利要求11所述的系统，其中，所生成的历史驾驶员数据包括与驾驶员相关联的环境状态，环境状态包括驾驶员的时空状态和情境特征向量，情境特征向量与驾驶员的时空状态相关联。

13.根据权利要求12所述的系统，其中，情境特征向量指示出驾驶员的静态属性。

14.根据权利要求12所述的系统，其中，所生成的历史驾驶员数据进一步包括驾驶员可用的选项，选项指示出驾驶员从第一时空状态过渡到第二时空状态，第二时空状态在时间上比第一时空状态更晚。

15.根据权利要求14所述的系统，其中，所生成的历史驾驶员数据进一步包括奖励，奖励指示出驾驶员从第一时空状态过渡到第二时空状态的持续时间内的总回报。

16.根据权利要求11所述的系统，其中，估计与多个订单调度策略相关联的价值函数进一步包括迭代地纳入训练数据并在每个迭代中更新价值函数的估计。

17.根据权利要求16所述的系统，其中，在每个迭代中更新价值函数的估计应用小脑模型算术控制器。

18.根据权利要求17所述的系统，其中，来自小脑模型算术控制器的输出是稀疏多维向量。

19.根据权利要求16所述的系统，其中，在每个迭代中更新价值函数的估计应用分层多边形网格系统。

20.根据权利要求19所述的系统，其中，分层多边形网格系统是六边形网格系统。